Classe permettant la lecture de fichiers pdf ?

Le
Antoine
Bonjour à tous,

j'aurais besoin de parser différents fichiers pdf, très différents
entre eux, pour en extraire des informations "texte" et je recherche
une classe php pour ce faire. Auriez-vous un conseil ou un retour
d'expérience sur telle ou telle classe ou script ?

Merci,
Antoine
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Mihamina Rakotomandimby (R12y)
Le #18571941
Antoine wrote:
j'aurais besoin de parser différents fichiers pdf, très différents
entre eux, pour en extraire des informations "texte" et je recherche
une classe php pour ce faire. Auriez-vous un conseil ou un retour
d'expérience sur telle ou telle classe ou script ?



Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le format PDF
n'est pas vraiment destiné à etre édité ou reparsé, il est simplement
destiné à l'affichage/impression.

Cependant, pourquoi demandes-tu ibligatoirement une classe? Le simple
utilitaire pdf2text (ou nom voisin) ne te suffirait pas?

Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si c'est
encore utile).

Ce genre d'outil est généralement disponible sur les bons serveurs Linux.
Antoine
Le #18576491
"Mihamina Rakotomandimby (R12y)"
Antoine wrote:
j'aurais besoin de parser différents fichiers pdf, très
différents entre eux, pour en extraire des informations "texte"
et je recherche une classe php pour ce faire. Auriez-vous un
conseil ou un retour d'expérience sur telle ou telle classe ou
script ?



Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le
format PDF n'est pas vraiment destiné à etre édité ou reparsé, il
est simplement destiné à l'affichage/impression.



C'est tout le problème ; j'ai besoin de récupérer, non manuellement,
certains contenus de différents fichiers pdf et c'est vrai que le
format ne s'y prête pas de façon immédiate.

Cependant, pourquoi demandes-tu ibligatoirement une classe?



Juste pour avoir quelque chose de générique et de facilement
réutilisable ; mais un script ou une fonction feraient largement
l'affaire.

Le
simple utilitaire pdf2text (ou nom voisin) ne te suffirait pas?
Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si
c'est encore utile).
Ce genre d'outil est généralement disponible sur les bons serveurs
Linux.



Oui mais je recherche une solution qui fonctionne sur toute
configuration d'hébergement, même celles où les scripts php n'ont
aucun droit d'exécution de commandes sur le serveur lui-même.

Merci tout de même.

--
Antoine
Rodes Joel
Le #18708401
J'ai fait quelques recherches l'an dernier.
sur le lien ci dessous, il explique la structure du format pdf, et donne un
exemple de programme.
J'ai pas trouvé mieux.
Bon courage.

http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx
--
***************************************
** Rodes Joel **
** Tel : 05.53.77.88.99 **
** Fax : 05.53.77.88.90 **
** **
***************************************
"Antoine"
"Mihamina Rakotomandimby (R12y)"
Antoine wrote:
j'aurais besoin de parser différents fichiers pdf, très
différents entre eux, pour en extraire des informations "texte"
et je recherche une classe php pour ce faire. Auriez-vous un
conseil ou un retour d'expérience sur telle ou telle classe ou
script ?



Je n'ai pas d'expérience, mais ilm'a semblé comprendre que le
format PDF n'est pas vraiment destiné à etre édité ou reparsé, il
est simplement destiné à l'affichage/impression.



C'est tout le problème ; j'ai besoin de récupérer, non manuellement,
certains contenus de différents fichiers pdf et c'est vrai que le
format ne s'y prête pas de façon immédiate.

Cependant, pourquoi demandes-tu ibligatoirement une classe?



Juste pour avoir quelque chose de générique et de facilement
réutilisable ; mais un script ou une fonction feraient largement
l'affaire.

Le
simple utilitaire pdf2text (ou nom voisin) ne te suffirait pas?
Ou alors un pdf2html (ou nom voisin) puis tu parse le HTML (si
c'est encore utile).
Ce genre d'outil est généralement disponible sur les bons serveurs
Linux.



Oui mais je recherche une solution qui fonctionne sur toute
configuration d'hébergement, même celles où les scripts php n'ont
aucun droit d'exécution de commandes sur le serveur lui-même.

Merci tout de même.

--
Antoine


Antoine
Le #18740121
"Rodes Joel"
J'ai fait quelques recherches l'an dernier.
sur le lien ci dessous, il explique la structure du format pdf, et
donne un exemple de programme.
J'ai pas trouvé mieux.
Bon courage.

http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_
799.aspx



C'est une très bonne base, merci beaucoup Joël.

--
Antoine
Publicité
Poster une réponse
Anonyme