PDF, DOC, PS, PPT, SXI, ...

6 réponses

Pif

10/06/2004 à 14:51

Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci !

6 réponses

Franck DARRAS

10/06/2004 à 15:26

Bonjour

Pif wrote:

Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci

Voici une liste de librairies utilisés par CPS (Collaborative Portal Sever)

WvWare : WvWare est utilisé pour transformer les documents MS Word en
HTML et texte.
Téléchargement : http://www.wvware.com (nous conseillons d'utiliser les
packages RPM ou DEB pour l'installation sur un système Linux).

GNU UnRTF : Ce logiciels est utilisé pour la transformation des
documents RTF en texte.
Téléchargement : ftp://ftp.gnu.org/gnu/unrtf/unrtf-0.18.1.tar.gz

xlHtml : Ce logiciel est utilisé pour la transformation en texte et en
HTML des documents MS Excel et MS Powerpoint.
Téléchargement : http://chicago.sf.net/xlhtml/xlhtml.0.5.1.tgz

Xpdf : Ce logiciel est utilisé pour convertir les documents PDF en texte.
Téléchargement : http://www.foolabs.com/xpdf/download.html

Lynx : Ce logiciel est utilisé pour convertir les documents HTML en texte.
Téléchargement : http://lynx.isc.org/release

XSLTProc : Ce logiciel est utilisé pour convertir les documents
OpenOffice au format texte (en utilisant une feuille de style
XSLT).
Téléchargement : http://xmlsoft.org/XSLT/downloads.html

Il est possible que les liens ne soient pas à jour, ceci est extrait de
la documentation de l'an dernier

Cordialement
Franck DARRAS

Pif

10/06/2004 à 15:46

heu... je fais du java portable et pas du C Linux... je suis pas contre
Linux... mais en postant sur ce forum je m'attendais à une Librairie en
Java qui permet de manipuler et transformer à l'intérieur d'une de mes
applis de tels formats de documents...

il s'agit pas de faire une conversion en ligne de commande avec des
programmes en C sous Linux... si c'était mon cas, je serais allé sur
fr.comp.os.linux par exemple ou un truc dans le genre !

Merci tout de même.

Arnaud Bailly

10/06/2004 à 16:38

Pif wrote:

Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci !

Pour le PDF (et le PS me semble-t'il), il y a iText, une bibliothèque de
manipulation de PDF en java.

Arnaud

doudou35

10/06/2004 à 18:07

Pif wrote:

Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci !

Pour le doc, moi non plus je n'ai pas trouvé...
...cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page
: http://jakarta.apache.org/poi/index.html)

Pif

11/06/2004 à 10:03

doudou35 wrote:

Pif wrote:

Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci !

Pour le doc, moi non plus je n'ai pas trouvé...
....cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page
: http://jakarta.apache.org/poi/index.html)

je connaissais, mais ça fait déjà plus de 1 ans qu'ils promettent des
choses et que rien de bouge ! Pour faire de l'analyse de texte, les
documents excel ne sont pas les plus intéresants !
merci

Thierry

11/06/2004 à 19:18

Salut,

Voici ce que j'ai pu trouver pour word suite à un besoin...
payant et gratuit...

http://officewriter.softartisans.com/officewriter-240.aspx

http://jakarta.apache.org/poi/index.html

http://www.land-of-kain.de/jacob/

http://www.java400.de/default.html?Javactpe.htm

http://danadler.com/jacob/

Thierry
"Pif" a écrit dans le message de news:
cabosa$mvt$

doudou35 wrote:
Pif wrote:

Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?

Merci !

Pour le doc, moi non plus je n'ai pas trouvé...
....cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page
: http://jakarta.apache.org/poi/index.html)

je connaissais, mais ça fait déjà plus de 1 ans qu'ils promettent des
choses et que rien de bouge ! Pour faire de l'analyse de texte, les
documents excel ne sont pas les plus intéresants !
merci

PDF, DOC, PS, PPT, SXI, ...

6 réponses

Veuillez sélectionner un problème