Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Franck DARRAS
Bonjour
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un peu de la mise en forme) de documents de multiples types... Certains comme les SXi et compagnie sont XML et faciles à extraire... mais d'autres ne sont pas faciles... pourtant certains moteurs de recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS, DOC, PPT... Quelqu'un sait il s'il existe des librairies (gratuite, et open-source dans l'idéal) qui permettent de le faire ?
Merci
Voici une liste de librairies utilisés par CPS (Collaborative Portal Sever)
WvWare : WvWare est utilisé pour transformer les documents MS Word en HTML et texte. Téléchargement : http://www.wvware.com (nous conseillons d'utiliser les packages RPM ou DEB pour l'installation sur un système Linux).
GNU UnRTF : Ce logiciels est utilisé pour la transformation des documents RTF en texte. Téléchargement : ftp://ftp.gnu.org/gnu/unrtf/unrtf-0.18.1.tar.gz
xlHtml : Ce logiciel est utilisé pour la transformation en texte et en HTML des documents MS Excel et MS Powerpoint. Téléchargement : http://chicago.sf.net/xlhtml/xlhtml.0.5.1.tgz
Xpdf : Ce logiciel est utilisé pour convertir les documents PDF en texte. Téléchargement : http://www.foolabs.com/xpdf/download.html
Lynx : Ce logiciel est utilisé pour convertir les documents HTML en texte. Téléchargement : http://lynx.isc.org/release
XSLTProc : Ce logiciel est utilisé pour convertir les documents OpenOffice au format texte (en utilisant une feuille de style XSLT). Téléchargement : http://xmlsoft.org/XSLT/downloads.html
Il est possible que les liens ne soient pas à jour, ceci est extrait de la documentation de l'an dernier
Cordialement Franck DARRAS
Bonjour
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?
Merci
Voici une liste de librairies utilisés par CPS (Collaborative Portal Sever)
WvWare : WvWare est utilisé pour transformer les documents MS Word en
HTML et texte.
Téléchargement : http://www.wvware.com (nous conseillons d'utiliser les
packages RPM ou DEB pour l'installation sur un système Linux).
GNU UnRTF : Ce logiciels est utilisé pour la transformation des
documents RTF en texte.
Téléchargement : ftp://ftp.gnu.org/gnu/unrtf/unrtf-0.18.1.tar.gz
xlHtml : Ce logiciel est utilisé pour la transformation en texte et en
HTML des documents MS Excel et MS Powerpoint.
Téléchargement : http://chicago.sf.net/xlhtml/xlhtml.0.5.1.tgz
Xpdf : Ce logiciel est utilisé pour convertir les documents PDF en texte.
Téléchargement : http://www.foolabs.com/xpdf/download.html
Lynx : Ce logiciel est utilisé pour convertir les documents HTML en texte.
Téléchargement : http://lynx.isc.org/release
XSLTProc : Ce logiciel est utilisé pour convertir les documents
OpenOffice au format texte (en utilisant une feuille de style
XSLT).
Téléchargement : http://xmlsoft.org/XSLT/downloads.html
Il est possible que les liens ne soient pas à jour, ceci est extrait de
la documentation de l'an dernier
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un peu de la mise en forme) de documents de multiples types... Certains comme les SXi et compagnie sont XML et faciles à extraire... mais d'autres ne sont pas faciles... pourtant certains moteurs de recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS, DOC, PPT... Quelqu'un sait il s'il existe des librairies (gratuite, et open-source dans l'idéal) qui permettent de le faire ?
Merci
Voici une liste de librairies utilisés par CPS (Collaborative Portal Sever)
WvWare : WvWare est utilisé pour transformer les documents MS Word en HTML et texte. Téléchargement : http://www.wvware.com (nous conseillons d'utiliser les packages RPM ou DEB pour l'installation sur un système Linux).
GNU UnRTF : Ce logiciels est utilisé pour la transformation des documents RTF en texte. Téléchargement : ftp://ftp.gnu.org/gnu/unrtf/unrtf-0.18.1.tar.gz
xlHtml : Ce logiciel est utilisé pour la transformation en texte et en HTML des documents MS Excel et MS Powerpoint. Téléchargement : http://chicago.sf.net/xlhtml/xlhtml.0.5.1.tgz
Xpdf : Ce logiciel est utilisé pour convertir les documents PDF en texte. Téléchargement : http://www.foolabs.com/xpdf/download.html
Lynx : Ce logiciel est utilisé pour convertir les documents HTML en texte. Téléchargement : http://lynx.isc.org/release
XSLTProc : Ce logiciel est utilisé pour convertir les documents OpenOffice au format texte (en utilisant une feuille de style XSLT). Téléchargement : http://xmlsoft.org/XSLT/downloads.html
Il est possible que les liens ne soient pas à jour, ceci est extrait de la documentation de l'an dernier
Cordialement Franck DARRAS
Pif
heu... je fais du java portable et pas du C Linux... je suis pas contre Linux... mais en postant sur ce forum je m'attendais à une Librairie en Java qui permet de manipuler et transformer à l'intérieur d'une de mes applis de tels formats de documents...
il s'agit pas de faire une conversion en ligne de commande avec des programmes en C sous Linux... si c'était mon cas, je serais allé sur fr.comp.os.linux par exemple ou un truc dans le genre !
Merci tout de même.
heu... je fais du java portable et pas du C Linux... je suis pas contre
Linux... mais en postant sur ce forum je m'attendais à une Librairie en
Java qui permet de manipuler et transformer à l'intérieur d'une de mes
applis de tels formats de documents...
il s'agit pas de faire une conversion en ligne de commande avec des
programmes en C sous Linux... si c'était mon cas, je serais allé sur
fr.comp.os.linux par exemple ou un truc dans le genre !
heu... je fais du java portable et pas du C Linux... je suis pas contre Linux... mais en postant sur ce forum je m'attendais à une Librairie en Java qui permet de manipuler et transformer à l'intérieur d'une de mes applis de tels formats de documents...
il s'agit pas de faire une conversion en ligne de commande avec des programmes en C sous Linux... si c'était mon cas, je serais allé sur fr.comp.os.linux par exemple ou un truc dans le genre !
Merci tout de même.
Arnaud Bailly
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un peu de la mise en forme) de documents de multiples types... Certains comme les SXi et compagnie sont XML et faciles à extraire... mais d'autres ne sont pas faciles... pourtant certains moteurs de recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS, DOC, PPT... Quelqu'un sait il s'il existe des librairies (gratuite, et open-source dans l'idéal) qui permettent de le faire ?
Merci !
Pour le PDF (et le PS me semble-t'il), il y a iText, une bibliothèque de manipulation de PDF en java.
Arnaud
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?
Merci !
Pour le PDF (et le PS me semble-t'il), il y a iText, une bibliothèque de
manipulation de PDF en java.
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un peu de la mise en forme) de documents de multiples types... Certains comme les SXi et compagnie sont XML et faciles à extraire... mais d'autres ne sont pas faciles... pourtant certains moteurs de recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS, DOC, PPT... Quelqu'un sait il s'il existe des librairies (gratuite, et open-source dans l'idéal) qui permettent de le faire ?
Merci !
Pour le PDF (et le PS me semble-t'il), il y a iText, une bibliothèque de manipulation de PDF en java.
Arnaud
doudou35
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un peu de la mise en forme) de documents de multiples types... Certains comme les SXi et compagnie sont XML et faciles à extraire... mais d'autres ne sont pas faciles... pourtant certains moteurs de recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS, DOC, PPT... Quelqu'un sait il s'il existe des librairies (gratuite, et open-source dans l'idéal) qui permettent de le faire ?
Merci !
Pour le doc, moi non plus je n'ai pas trouvé... ...cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page : http://jakarta.apache.org/poi/index.html)
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?
Merci !
Pour le doc, moi non plus je n'ai pas trouvé...
...cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page
: http://jakarta.apache.org/poi/index.html)
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un peu de la mise en forme) de documents de multiples types... Certains comme les SXi et compagnie sont XML et faciles à extraire... mais d'autres ne sont pas faciles... pourtant certains moteurs de recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS, DOC, PPT... Quelqu'un sait il s'il existe des librairies (gratuite, et open-source dans l'idéal) qui permettent de le faire ?
Merci !
Pour le doc, moi non plus je n'ai pas trouvé... ...cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page : http://jakarta.apache.org/poi/index.html)
Pif
doudou35 wrote:
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un peu de la mise en forme) de documents de multiples types... Certains comme les SXi et compagnie sont XML et faciles à extraire... mais d'autres ne sont pas faciles... pourtant certains moteurs de recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS, DOC, PPT... Quelqu'un sait il s'il existe des librairies (gratuite, et open-source dans l'idéal) qui permettent de le faire ?
Merci !
Pour le doc, moi non plus je n'ai pas trouvé... ....cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page : http://jakarta.apache.org/poi/index.html)
je connaissais, mais ça fait déjà plus de 1 ans qu'ils promettent des choses et que rien de bouge ! Pour faire de l'analyse de texte, les documents excel ne sont pas les plus intéresants ! merci
doudou35 wrote:
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?
Merci !
Pour le doc, moi non plus je n'ai pas trouvé...
....cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page
: http://jakarta.apache.org/poi/index.html)
je connaissais, mais ça fait déjà plus de 1 ans qu'ils promettent des
choses et que rien de bouge ! Pour faire de l'analyse de texte, les
documents excel ne sont pas les plus intéresants !
merci
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un peu de la mise en forme) de documents de multiples types... Certains comme les SXi et compagnie sont XML et faciles à extraire... mais d'autres ne sont pas faciles... pourtant certains moteurs de recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS, DOC, PPT... Quelqu'un sait il s'il existe des librairies (gratuite, et open-source dans l'idéal) qui permettent de le faire ?
Merci !
Pour le doc, moi non plus je n'ai pas trouvé... ....cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page : http://jakarta.apache.org/poi/index.html)
je connaissais, mais ça fait déjà plus de 1 ans qu'ils promettent des choses et que rien de bouge ! Pour faire de l'analyse de texte, les documents excel ne sont pas les plus intéresants ! merci
Thierry
Salut,
Voici ce que j'ai pu trouver pour word suite à un besoin... payant et gratuit...
Thierry "Pif" a écrit dans le message de news: cabosa$mvt$
doudou35 wrote:
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un peu de la mise en forme) de documents de multiples types... Certains comme les SXi et compagnie sont XML et faciles à extraire... mais d'autres ne sont pas faciles... pourtant certains moteurs de recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS, DOC, PPT... Quelqu'un sait il s'il existe des librairies (gratuite, et open-source dans l'idéal) qui permettent de le faire ?
Merci !
Pour le doc, moi non plus je n'ai pas trouvé... ....cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page : http://jakarta.apache.org/poi/index.html)
je connaissais, mais ça fait déjà plus de 1 ans qu'ils promettent des choses et que rien de bouge ! Pour faire de l'analyse de texte, les documents excel ne sont pas les plus intéresants ! merci
Salut,
Voici ce que j'ai pu trouver pour word suite à un besoin...
payant et gratuit...
Thierry
"Pif" <Pif@mynet.fr> a écrit dans le message de news:
cabosa$mvt$1@eerie.ema.fr...
doudou35 wrote:
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un
peu de la mise en forme) de documents de multiples types...
Certains comme les SXi et compagnie sont XML et faciles à extraire...
mais d'autres ne sont pas faciles... pourtant certains moteurs de
recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS,
DOC, PPT...
Quelqu'un sait il s'il existe des librairies (gratuite, et open-source
dans l'idéal) qui permettent de le faire ?
Merci !
Pour le doc, moi non plus je n'ai pas trouvé...
....cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page
: http://jakarta.apache.org/poi/index.html)
je connaissais, mais ça fait déjà plus de 1 ans qu'ils promettent des
choses et que rien de bouge ! Pour faire de l'analyse de texte, les
documents excel ne sont pas les plus intéresants !
merci
Thierry "Pif" a écrit dans le message de news: cabosa$mvt$
doudou35 wrote:
Pif wrote:
Salut, je souhaiterais pouvoir lire le contenu textuel (je me moque un peu de la mise en forme) de documents de multiples types... Certains comme les SXi et compagnie sont XML et faciles à extraire... mais d'autres ne sont pas faciles... pourtant certains moteurs de recherche y arrivent... Google arrive à lire le contenu d'un PDF, PS, DOC, PPT... Quelqu'un sait il s'il existe des librairies (gratuite, et open-source dans l'idéal) qui permettent de le faire ?
Merci !
Pour le doc, moi non plus je n'ai pas trouvé... ....cependant il y a l'API POI qui le fera bientôt (HWPF dans cette page : http://jakarta.apache.org/poi/index.html)
je connaissais, mais ça fait déjà plus de 1 ans qu'ils promettent des choses et que rien de bouge ! Pour faire de l'analyse de texte, les documents excel ne sont pas les plus intéresants ! merci