Je programme en ce moment un utilitaire me permettant de gérer une base
documentaire à partir d'expressions régulières.
Je n'ai aucun problème pour les expressions régulières par contre la base
documentaire est problématique en ce que l'essentiel des fichiers est au
format word.
Je voudrais donc pouvoir récupérer le document (je sais faire) et le
transmettre par exemple à une API d'openffice afin de convertir le document
word en texte brut. Bien entendu s'il existe s'il existe une méthode plus
efficace je suis preneur.
J'aurais donc aimé connaître les prérequis (principalement sous windows),
les API et leur mode d'emploi.
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Romain Gilliotte
Christophe Raverdy escribió:
Bonjour.
Je programme en ce moment un utilitaire me permettant de gérer une base documentaire à partir d'expressions régulières.
Je n'ai aucun problème pour les expressions régulières par contre la base documentaire est problématique en ce que l'essentiel des fichiers est au format word.
Je voudrais donc pouvoir récupérer le document (je sais faire) et le transmettre par exemple à une API d'openffice afin de convertir le document word en texte brut. Bien entendu s'il existe s'il existe une méthode plus efficace je suis preneur.
J'aurais donc aimé connaître les prérequis (principalement sous windows), les API et leur mode d'emploi.
Par avance, merci.
dans quel cadre tu dois faire ca? Il y a pleins de version de fichier word et il faudrait que tu sois toutes capable de les parser...
Ton application devient beaucoup plus qu'un truc en PHP.
En gros ton premier probleme, c'est d'arriver a parser des .doc (dans toutes les versions de word). Je viens de googleler deux secondes et je trouve ca: http://poi.apache.org/
Ca devrait pas mal t'interesser, mais bon c'est pas une solution apelable depuis PHP comme ca.
Apres pour faire des recherches frequentes dans une base de .doc tu peux pas te permettre de tout reparser a chaque fois pour des raisons evidentes de performances.
Il faudrait construire une base de donnes avec l'arborescence de tous les fichiers, leur derniere date de modification, et un ensembles de tables pour pouvoir rechercher des mots clefs a l'interieur (des regexps ca me semble presque impossible pour des performances potables, sauf si c'est des regexp sur des mots isoles, dans ce cas pas de probleme).
Tu fait ensuite tourner un programme sur le serveur qui tiens a jour la base de donnes, et tu fais tes recherches dans cette base de donnes.
C'est surement pas le meilleur exemple, mais perso j'avais regarde la base de donnee de phpBB2 a l'epoque pour comprendre comment faire des recherches rapides.
En tout cas, bon courage.
Christophe Raverdy escribió:
Bonjour.
Je programme en ce moment un utilitaire me permettant de gérer une base
documentaire à partir d'expressions régulières.
Je n'ai aucun problème pour les expressions régulières par contre la base
documentaire est problématique en ce que l'essentiel des fichiers est au
format word.
Je voudrais donc pouvoir récupérer le document (je sais faire) et le
transmettre par exemple à une API d'openffice afin de convertir le document
word en texte brut. Bien entendu s'il existe s'il existe une méthode plus
efficace je suis preneur.
J'aurais donc aimé connaître les prérequis (principalement sous windows),
les API et leur mode d'emploi.
Par avance, merci.
dans quel cadre tu dois faire ca?
Il y a pleins de version de fichier word et il faudrait que tu sois
toutes capable de les parser...
Ton application devient beaucoup plus qu'un truc en PHP.
En gros ton premier probleme, c'est d'arriver a parser des .doc (dans
toutes les versions de word).
Je viens de googleler deux secondes et je trouve ca: http://poi.apache.org/
Ca devrait pas mal t'interesser, mais bon c'est pas une solution
apelable depuis PHP comme ca.
Apres pour faire des recherches frequentes dans une base de .doc tu peux
pas te permettre de tout reparser a chaque fois pour des raisons
evidentes de performances.
Il faudrait construire une base de donnes avec l'arborescence de tous
les fichiers, leur derniere date de modification, et un ensembles de
tables pour pouvoir rechercher des mots clefs a l'interieur (des regexps
ca me semble presque impossible pour des performances potables, sauf si
c'est des regexp sur des mots isoles, dans ce cas pas de probleme).
Tu fait ensuite tourner un programme sur le serveur qui tiens a jour la
base de donnes, et tu fais tes recherches dans cette base de donnes.
C'est surement pas le meilleur exemple, mais perso j'avais regarde la
base de donnee de phpBB2 a l'epoque pour comprendre comment faire des
recherches rapides.
Je programme en ce moment un utilitaire me permettant de gérer une base documentaire à partir d'expressions régulières.
Je n'ai aucun problème pour les expressions régulières par contre la base documentaire est problématique en ce que l'essentiel des fichiers est au format word.
Je voudrais donc pouvoir récupérer le document (je sais faire) et le transmettre par exemple à une API d'openffice afin de convertir le document word en texte brut. Bien entendu s'il existe s'il existe une méthode plus efficace je suis preneur.
J'aurais donc aimé connaître les prérequis (principalement sous windows), les API et leur mode d'emploi.
Par avance, merci.
dans quel cadre tu dois faire ca? Il y a pleins de version de fichier word et il faudrait que tu sois toutes capable de les parser...
Ton application devient beaucoup plus qu'un truc en PHP.
En gros ton premier probleme, c'est d'arriver a parser des .doc (dans toutes les versions de word). Je viens de googleler deux secondes et je trouve ca: http://poi.apache.org/
Ca devrait pas mal t'interesser, mais bon c'est pas une solution apelable depuis PHP comme ca.
Apres pour faire des recherches frequentes dans une base de .doc tu peux pas te permettre de tout reparser a chaque fois pour des raisons evidentes de performances.
Il faudrait construire une base de donnes avec l'arborescence de tous les fichiers, leur derniere date de modification, et un ensembles de tables pour pouvoir rechercher des mots clefs a l'interieur (des regexps ca me semble presque impossible pour des performances potables, sauf si c'est des regexp sur des mots isoles, dans ce cas pas de probleme).
Tu fait ensuite tourner un programme sur le serveur qui tiens a jour la base de donnes, et tu fais tes recherches dans cette base de donnes.
C'est surement pas le meilleur exemple, mais perso j'avais regarde la base de donnee de phpBB2 a l'epoque pour comprendre comment faire des recherches rapides.
En tout cas, bon courage.
Denis Beauregard
Le 11 Sep 2008 22:21:47 GMT, Christophe Raverdy écrivait dans fr.comp.lang.php:
Bonjour.
Je programme en ce moment un utilitaire me permettant de gérer une base documentaire à partir d'expressions régulières.
Je n'ai aucun problème pour les expressions régulières par contre la base documentaire est problématique en ce que l'essentiel des fichiers est au format word.
Je voudrais donc pouvoir récupérer le document (je sais faire) et le transmettre par exemple à une API d'openffice afin de convertir le document word en texte brut. Bien entendu s'il existe s'il existe une méthode plus efficace je suis preneur.
J'aurais donc aimé connaître les prérequis (principalement sous windows), les API et leur mode d'emploi.
Par avance, merci.
Le moteur de Google (et d'autres aussi) indexe les fichiers .doc. Il se trouve que Google vend cette technologie pour utilisation sur un PC. Comme le PHP offre la fonction "system", ce serait peut-être une façon de s'en sortir si le but est seulement de retrouver des informations dans des fichiers .doc et non de les convertir. Bon, les expressions régulières de Google ne sont pas très poussées mais il y a peut-être moyen de faire une conversion. En tous cas, c'est une piste à explorer à mon avis.
Denis
Le 11 Sep 2008 22:21:47 GMT, Christophe Raverdy
<craverdy@ailleurs.invalid> écrivait dans fr.comp.lang.php:
Bonjour.
Je programme en ce moment un utilitaire me permettant de gérer une base
documentaire à partir d'expressions régulières.
Je n'ai aucun problème pour les expressions régulières par contre la base
documentaire est problématique en ce que l'essentiel des fichiers est au
format word.
Je voudrais donc pouvoir récupérer le document (je sais faire) et le
transmettre par exemple à une API d'openffice afin de convertir le document
word en texte brut. Bien entendu s'il existe s'il existe une méthode plus
efficace je suis preneur.
J'aurais donc aimé connaître les prérequis (principalement sous windows),
les API et leur mode d'emploi.
Par avance, merci.
Le moteur de Google (et d'autres aussi) indexe les fichiers .doc. Il
se trouve que Google vend cette technologie pour utilisation sur un
PC. Comme le PHP offre la fonction "system", ce serait peut-être une
façon de s'en sortir si le but est seulement de retrouver des
informations dans des fichiers .doc et non de les convertir. Bon, les
expressions régulières de Google ne sont pas très poussées mais il y a
peut-être moyen de faire une conversion. En tous cas, c'est une piste
à explorer à mon avis.
Le 11 Sep 2008 22:21:47 GMT, Christophe Raverdy écrivait dans fr.comp.lang.php:
Bonjour.
Je programme en ce moment un utilitaire me permettant de gérer une base documentaire à partir d'expressions régulières.
Je n'ai aucun problème pour les expressions régulières par contre la base documentaire est problématique en ce que l'essentiel des fichiers est au format word.
Je voudrais donc pouvoir récupérer le document (je sais faire) et le transmettre par exemple à une API d'openffice afin de convertir le document word en texte brut. Bien entendu s'il existe s'il existe une méthode plus efficace je suis preneur.
J'aurais donc aimé connaître les prérequis (principalement sous windows), les API et leur mode d'emploi.
Par avance, merci.
Le moteur de Google (et d'autres aussi) indexe les fichiers .doc. Il se trouve que Google vend cette technologie pour utilisation sur un PC. Comme le PHP offre la fonction "system", ce serait peut-être une façon de s'en sortir si le but est seulement de retrouver des informations dans des fichiers .doc et non de les convertir. Bon, les expressions régulières de Google ne sont pas très poussées mais il y a peut-être moyen de faire une conversion. En tous cas, c'est une piste à explorer à mon avis.