OVH Cloud OVH Cloud

PDF, DOC, PS, PPT, SXI, ...

6 réponses
Avatar
Pif
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci !

6 réponses

Avatar
Franck DARRAS
Bonjour

Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci


Voici une liste de librairies utilisés par CPS (Collaborative Portal Sever)

WvWare : WvWare est utilisé pour transformer les documents MS Word en
HTML et texte.
Téléchargement : http://www.wvware.com (nous conseillons d'utiliser les
packages RPM ou DEB pour l'installation sur un système Linux).

GNU UnRTF : Ce logiciels est utilisé pour la transformation des
documents RTF en texte.
Téléchargement : ftp://ftp.gnu.org/gnu/unrtf/unrtf-0.18.1.tar.gz

xlHtml : Ce logiciel est utilisé pour la transformation en texte et en
HTML des documents MS Excel et MS Powerpoint.
Téléchargement : http://chicago.sf.net/xlhtml/xlhtml.0.5.1.tgz

Xpdf : Ce logiciel est utilisé pour convertir les documents PDF en texte.
Téléchargement : http://www.foolabs.com/xpdf/download.html

Lynx : Ce logiciel est utilisé pour convertir les documents HTML en texte.
Téléchargement : http://lynx.isc.org/release

XSLTProc : Ce logiciel est utilisé pour convertir les documents
OpenOffice au format texte (en utilisant une feuille de style
XSLT).
Téléchargement : http://xmlsoft.org/XSLT/downloads.html

Il est possible que les liens ne soient pas à jour, ceci est extrait de
la documentation de l'an dernier

Cordialement
Franck DARRAS

Avatar
Pif
heu... je fais du java portable et pas du C Linux... je suis pas contre
Linux... mais en postant sur ce forum je m'attendais à une Librairie en
Java qui permet de manipuler et transformer à l'intérieur d'une de mes
applis de tels formats de documents...

il s'agit pas de faire une conversion en ligne de commande avec des
programmes en C sous Linux... si c'était mon cas, je serais allé sur
fr.comp.os.linux par exemple ou un truc dans le genre !

Merci tout de même.
Avatar
Arnaud Bailly
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci !


Pour le PDF (et le PS me semble-t'il), il y a iText, une bibliothèque de
manipulation de PDF en java.

Arnaud

Avatar
doudou35
Pif wrote:

Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci !


Pour le doc, moi non plus je n'ai pas trouvé...
...cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page
: http://jakarta.apache.org/poi/index.html)

Avatar
Pif
doudou35 wrote:
Pif wrote:

Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci !



Pour le doc, moi non plus je n'ai pas trouvé...
....cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page
: http://jakarta.apache.org/poi/index.html)


je connaissais, mais ça fait déjà plus de 1 ans qu'ils promettent des
choses et que rien de bouge ! Pour faire de l'analyse de texte, les
documents excel ne sont pas les plus intéresants !
merci


Avatar
Thierry
Salut,

Voici ce que j'ai pu trouver pour word suite à un besoin...
payant et gratuit...

http://officewriter.softartisans.com/officewriter-240.aspx

http://jakarta.apache.org/poi/index.html

http://www.land-of-kain.de/jacob/

http://www.java400.de/default.html?Javactpe.htm

http://danadler.com/jacob/

Thierry
"Pif" a écrit dans le message de news:
cabosa$mvt$
doudou35 wrote:
Pif wrote:

Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci !



Pour le doc, moi non plus je n'ai pas trouvé...
....cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page
: http://jakarta.apache.org/poi/index.html)


je connaissais, mais ça fait déjà plus de 1 ans qu'ils promettent des
choses et que rien de bouge ! Pour faire de l'analyse de texte, les
documents excel ne sont pas les plus intéresants !
merci