Classe permettant la lecture de fichiers pdf ?

4 réponses

Antoine

03/02/2009 à 09:46

Bonjour à tous,

j'aurais besoin de parser différents fichiers pdf, très différents
entre eux, pour en extraire des informations "texte" et je recherche
une classe php pour ce faire. Auriez-vous un conseil ou un retour
d'expérience sur telle ou telle classe ou script ?

Merci,
Antoine

4 réponses

Mihamina Rakotomandimby (R12y)

03/02/2009 à 17:33

Antoine wrote:

j'aurais besoin de parser différents fichiers pdf, très différents
entre eux, pour en extraire des informations "texte" et je recherche
une classe php pour ce faire. Auriez-vous un conseil ou un retour
d'expérience sur telle ou telle classe ou script ?

Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le format PDF
n'est pas vraiment destiné à etre édité ou reparsé, il est simplement
destiné à l'affichage/impression.

Cependant, pourquoi demandes-tu ibligatoirement une classe? Le simple
utilitaire pdf2text (ou nom voisin) ne te suffirait pas?

Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si c'est
encore utile).

Ce genre d'outil est généralement disponible sur les bons serveurs Linux.

Antoine

04/02/2009 à 09:23

"Mihamina Rakotomandimby (R12y)" wrote :

Antoine wrote:
j'aurais besoin de parser différents fichiers pdf, très
différents entre eux, pour en extraire des informations "texte"
et je recherche une classe php pour ce faire. Auriez-vous un
conseil ou un retour d'expérience sur telle ou telle classe ou
script ?

Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le
format PDF n'est pas vraiment destiné à etre édité ou reparsé, il
est simplement destiné à l'affichage/impression.

C'est tout le problème ; j'ai besoin de récupérer, non manuellement,
certains contenus de différents fichiers pdf et c'est vrai que le
format ne s'y prête pas de façon immédiate.

Cependant, pourquoi demandes-tu ibligatoirement une classe?

Juste pour avoir quelque chose de générique et de facilement
réutilisable ; mais un script ou une fonction feraient largement
l'affaire.

Le
simple utilitaire pdf2text (ou nom voisin) ne te suffirait pas?
Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si
c'est encore utile).
Ce genre d'outil est généralement disponible sur les bons serveurs
Linux.

Oui mais je recherche une solution qui fonctionne sur toute
configuration d'hébergement, même celles où les scripts php n'ont
aucun droit d'exécution de commandes sur le serveur lui-même.

Merci tout de même.

--
Antoine

Rodes Joel

19/02/2009 à 10:23

J'ai fait quelques recherches l'an dernier.
sur le lien ci dessous, il explique la structure du format pdf, et donne un
exemple de programme.
J'ai pas trouvé mieux.
Bon courage.

http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx
--
***************************************
** Rodes Joel **
** Tel : 05.53.77.88.99 **
** Fax : 05.53.77.88.90 **
** **
***************************************
"Antoine" a écrit dans le message de news:

"Mihamina Rakotomandimby (R12y)" wrote :

Antoine wrote:
j'aurais besoin de parser différents fichiers pdf, très
différents entre eux, pour en extraire des informations "texte"
et je recherche une classe php pour ce faire. Auriez-vous un
conseil ou un retour d'expérience sur telle ou telle classe ou
script ?

Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le
format PDF n'est pas vraiment destiné à etre édité ou reparsé, il
est simplement destiné à l'affichage/impression.

C'est tout le problème ; j'ai besoin de récupérer, non manuellement,
certains contenus de différents fichiers pdf et c'est vrai que le
format ne s'y prête pas de façon immédiate.

Cependant, pourquoi demandes-tu ibligatoirement une classe?

Juste pour avoir quelque chose de générique et de facilement
réutilisable ; mais un script ou une fonction feraient largement
l'affaire.

Le
simple utilitaire pdf2text (ou nom voisin) ne te suffirait pas?
Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si
c'est encore utile).
Ce genre d'outil est généralement disponible sur les bons serveurs
Linux.

Oui mais je recherche une solution qui fonctionne sur toute
configuration d'hébergement, même celles où les scripts php n'ont
aucun droit d'exécution de commandes sur le serveur lui-même.

Merci tout de même.

--
Antoine

J'ai fait quelques recherches l'an dernier.
sur le lien ci dessous, il explique la structure du format pdf, et donne un
exemple de programme.
J'ai pas trouvé mieux.
Bon courage.

http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx
--
***************************************
** Rodes Joel **
** Tel : 05.53.77.88.99 **
** Fax : 05.53.77.88.90 **
** Joel@IDM-Informatique.com **
***************************************
"Antoine" <noemail@noemail.invalid> a écrit dans le message de news:
Xns9BA84B4E54A66AntoineNews@193.252.117.183...

"Mihamina Rakotomandimby (R12y)" <mihamina@lab.vectoris.fr> wrote :

Antoine wrote:

j'aurais besoin de parser différents fichiers pdf, très
différents entre eux, pour en extraire des informations "texte"
et je recherche une classe php pour ce faire. Auriez-vous un
conseil ou un retour d'expérience sur telle ou telle classe ou
script ?

Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le
format PDF n'est pas vraiment destiné à etre édité ou reparsé, il
est simplement destiné à l'affichage/impression.

C'est tout le problème ; j'ai besoin de récupérer, non manuellement,
certains contenus de différents fichiers pdf et c'est vrai que le
format ne s'y prête pas de façon immédiate.

Cependant, pourquoi demandes-tu ibligatoirement une classe?

Juste pour avoir quelque chose de générique et de facilement
réutilisable ; mais un script ou une fonction feraient largement
l'affaire.

Le
simple utilitaire pdf2text (ou nom voisin) ne te suffirait pas?
Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si
c'est encore utile).
Ce genre d'outil est généralement disponible sur les bons serveurs
Linux.

Oui mais je recherche une solution qui fonctionne sur toute
configuration d'hébergement, même celles où les scripts php n'ont
aucun droit d'exécution de commandes sur le serveur lui-même.

Merci tout de même.

--
Antoine

Antoine

23/02/2009 à 12:24

"Rodes Joel" wrote :

J'ai fait quelques recherches l'an dernier.
sur le lien ci dessous, il explique la structure du format pdf, et
donne un exemple de programme.
J'ai pas trouvé mieux.
Bon courage.

http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_
799.aspx

C'est une très bonne base, merci beaucoup Joël.

--
Antoine

Classe permettant la lecture de fichiers pdf ?

4 réponses

Veuillez sélectionner un problème