URGENT ! : Rechercher un fichier pdf contenant un texte précis

François Picalausa

23/07/2007 à 19:38

On Jul 23, 11:26 am, Philippe P
wrote:

Bonjour à tous

Je cherche un code me permettant (à l'aide des api Windows par exemple) de
rechercher un fichier pdf contenant une chaine de caractère précise. Un peu
comme le fait la recherche de fichiers de Windows quand on lui demande "Un
mot ou une phrase dans le fichier".

Quelqu'un a-t-il une idée ?

Merci par avance

Hello,

Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/
en-us/library/ms691105.aspx) fourni pour les pdf (par exemple
http://www.adobe.com/support/downloads/detail.jsp?ftpID&11).
Ca te permettra de retrouver effectivement le texte dans un fichier,
une fois que tu auras un descripteur correct du IFilter (une tlb
décrivant l'ifilter, et/ou un lien correct vers la dll implémentant
l'iFilter).

Une autre méthode nettement plus classique est d'attaquer directement
le fichier. Cela suppose de connaitre son format, format qui est
exposé ici:
http://www.adobe.com/devnet/pdf/pdf_reference.html

Il y a aussi d'autres solutions. Par exemple:
http://www.codeproject.com/useritems/PDFToText.asp (C#)
et quelques autres encore en googlant un peu.

François

Philippe P

24/07/2007 à 08:40

Je te remercie, je vais tester la méthode IFilter dès ce matin et te
tiendrai au courant de mes résultats si ça t'interresse quant à la méthode
utilisant le format, j'ai du mal à comprendre leur doc en anglais, si tu as
une traduction, je suis preneur à l'adresse ....

Cordialement,

Philippe Poyet

"François Picalausa" a écrit :

On Jul 23, 11:26 am, Philippe P
wrote:
> Bonjour à tous
>
> Je cherche un code me permettant (à l'aide des api Windows par exemple) de
> rechercher un fichier pdf contenant une chaine de caractère précise. Un peu
> comme le fait la recherche de fichiers de Windows quand on lui demande "Un
> mot ou une phrase dans le fichier".
>
> Quelqu'un a-t-il une idée ?
>
> Merci par avance

Hello,

Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/
en-us/library/ms691105.aspx) fourni pour les pdf (par exemple
http://www.adobe.com/support/downloads/detail.jsp?ftpID&11).
Ca te permettra de retrouver effectivement le texte dans un fichier,
une fois que tu auras un descripteur correct du IFilter (une tlb
décrivant l'ifilter, et/ou un lien correct vers la dll implémentant
l'iFilter).

Une autre méthode nettement plus classique est d'attaquer directement
le fichier. Cela suppose de connaitre son format, format qui est
exposé ici:
http://www.adobe.com/devnet/pdf/pdf_reference.html

Il y a aussi d'autres solutions. Par exemple:
http://www.codeproject.com/useritems/PDFToText.asp (C#)
et quelques autres encore en googlant un peu.

François

Philippe P

24/07/2007 à 10:06

J'ai bien téléchargé le fichier PDFiFilter depuis le lien que tu m'as
indiqué, mais je ne trouve aucune source ou aide m'expliquant comment m'en
servir avec VB6. Aurais-tu des pistes dans ce sens là ?

Philippe

"François Picalausa" a écrit :

On Jul 23, 11:26 am, Philippe P
wrote:
> Bonjour à tous
>
> Je cherche un code me permettant (à l'aide des api Windows par exemple) de
> rechercher un fichier pdf contenant une chaine de caractère précise. Un peu
> comme le fait la recherche de fichiers de Windows quand on lui demande "Un
> mot ou une phrase dans le fichier".
>
> Quelqu'un a-t-il une idée ?
>
> Merci par avance

Hello,

Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/
en-us/library/ms691105.aspx) fourni pour les pdf (par exemple
http://www.adobe.com/support/downloads/detail.jsp?ftpID&11).
Ca te permettra de retrouver effectivement le texte dans un fichier,
une fois que tu auras un descripteur correct du IFilter (une tlb
décrivant l'ifilter, et/ou un lien correct vers la dll implémentant
l'iFilter).

Une autre méthode nettement plus classique est d'attaquer directement
le fichier. Cela suppose de connaitre son format, format qui est
exposé ici:
http://www.adobe.com/devnet/pdf/pdf_reference.html

Il y a aussi d'autres solutions. Par exemple:
http://www.codeproject.com/useritems/PDFToText.asp (C#)
et quelques autres encore en googlant un peu.

François

François Picalausa

25/07/2007 à 13:49

> "François Picalausa" a écrit :

> On Jul 23, 11:26 am, Philippe P
> wrote:
> > Bonjour à tous

> > Je cherche un code me permettant (à l'aide des api Windows par exem ple) de
> > rechercher un fichier pdf contenant une chaine de caractère préci se. Un peu
> > comme le fait la recherche de fichiers de Windows quand on lui demand e "Un
> > mot ou une phrase dans le fichier".

> > Quelqu'un a-t-il une idée ?

> > Merci par avance

> Hello,

> Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/
> en-us/library/ms691105.aspx) fourni pour les pdf (par exemple
>http://www.adobe.com/support/downloads/detail.jsp?ftpID&11).
> Ca te permettra de retrouver effectivement le texte dans un fichier,
> une fois que tu auras un descripteur correct du IFilter (une tlb
> décrivant l'ifilter, et/ou un lien correct vers la dll implémentant
> l'iFilter).

> Une autre méthode nettement plus classique est d'attaquer directement
> le fichier. Cela suppose de connaitre son format, format qui est
> exposé ici:
>http://www.adobe.com/devnet/pdf/pdf_reference.html

> Il y a aussi d'autres solutions. Par exemple:
>http://www.codeproject.com/useritems/PDFToText.asp(C#)
> et quelques autres encore en googlant un peu.

> François- Hide quoted text -

- Show quoted text -

On Jul 24, 10:06 am, Philippe P
wrote:

Je te remercie, je vais tester la méthode IFilter dès ce matin et te
tiendrai au courant de mes résultats si ça t'interresse quant à la méthode
utilisant le format, j'ai du mal à comprendre leur doc en anglais, si t u as
une traduction, je suis preneur à l'adresse ....

A ma connaissance, une telle traduction n'existe pas. Néanmoins, la
spécification de la version 1.3 compte moitier moins de pages que la
dernière, et doit être largement suffisante pour une grande majorité
de l'extraction de texte!

J'ai bien téléchargé le fichier PDFiFilter depuis le lien que tu m' as
indiqué, mais je ne trouve aucune source ou aide m'expliquant comment m 'en
servir avec VB6. Aurais-tu des pistes dans ce sens là ?

En VB6, je n'ai pas encore vu d'exemple d'implémentation. Je n'ai pas
le temps à l'heure actuelle de réaliser une telle implémentation, mais
néanmoins l'outil filtdump.exe (http://msdn2.microsoft.com/en-us/
library/ms692535.aspx) peut être manipulé en ligne de commande pour
extraire le texte.
Le texte extrait en ligne de commande ressemblera à ceci:
http://msdn2.microsoft.com/en-us/library/ms692533.aspx

(attention à enregistrer l'IFilter, sinon filtdump ne pourra pas
processer le pdf)

Ce n'est certainement pas la méthode la plus efficace d'utiliser un
IFilter, mais néanmoins, cette solution a l'avantage d'être simple a
mettre en oeuvre.
Il est par contre très probable que filtdump ne soit pas
redistribuable, ce qui peut poser problème en fonction du déploiement
prévu de ton application.

François

> "François Picalausa" a écrit :

> On Jul 23, 11:26 am, Philippe P <Philip...@discussions.microsoft.com>
> wrote:
> > Bonjour à tous

> > Je cherche un code me permettant (à l'aide des api Windows par exem ple) de
> > rechercher un fichier pdf contenant une chaine de caractère préci se. Un peu
> > comme le fait la recherche de fichiers de Windows quand on lui demand e "Un
> > mot ou une phrase dans le fichier".

> > Quelqu'un a-t-il une idée ?

> > Merci par avance

> Hello,

> Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/
> en-us/library/ms691105.aspx) fourni pour les pdf (par exemple
>http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611).
> Ca te permettra de retrouver effectivement le texte dans un fichier,
> une fois que tu auras un descripteur correct du IFilter (une tlb
> décrivant l'ifilter, et/ou un lien correct vers la dll implémentant
> l'iFilter).

> Une autre méthode nettement plus classique est d'attaquer directement
> le fichier. Cela suppose de connaitre son format, format qui est
> exposé ici:
>http://www.adobe.com/devnet/pdf/pdf_reference.html

> Il y a aussi d'autres solutions. Par exemple:
>http://www.codeproject.com/useritems/PDFToText.asp(C#)
> et quelques autres encore en googlant un peu.

> François- Hide quoted text -

- Show quoted text -

On Jul 24, 10:06 am, Philippe P <Philip...@discussions.microsoft.com>
wrote:

Je te remercie, je vais tester la méthode IFilter dès ce matin et te
tiendrai au courant de mes résultats si ça t'interresse quant à la méthode
utilisant le format, j'ai du mal à comprendre leur doc en anglais, si t u as
une traduction, je suis preneur à l'adresse phil-po...@wanadoo.fr ....

A ma connaissance, une telle traduction n'existe pas. Néanmoins, la
spécification de la version 1.3 compte moitier moins de pages que la
dernière, et doit être largement suffisante pour une grande majorité
de l'extraction de texte!

J'ai bien téléchargé le fichier PDFiFilter depuis le lien que tu m' as
indiqué, mais je ne trouve aucune source ou aide m'expliquant comment m 'en
servir avec VB6. Aurais-tu des pistes dans ce sens là ?

En VB6, je n'ai pas encore vu d'exemple d'implémentation. Je n'ai pas
le temps à l'heure actuelle de réaliser une telle implémentation, mais
néanmoins l'outil filtdump.exe (http://msdn2.microsoft.com/en-us/
library/ms692535.aspx) peut être manipulé en ligne de commande pour
extraire le texte.
Le texte extrait en ligne de commande ressemblera à ceci:
http://msdn2.microsoft.com/en-us/library/ms692533.aspx

(attention à enregistrer l'IFilter, sinon filtdump ne pourra pas
processer le pdf)

Ce n'est certainement pas la méthode la plus efficace d'utiliser un
IFilter, mais néanmoins, cette solution a l'avantage d'être simple a
mettre en oeuvre.
Il est par contre très probable que filtdump ne soit pas
redistribuable, ce qui peut poser problème en fonction du déploiement
prévu de ton application.

François

Vous avez filtré cet utilisateur ! Consultez son message

> "François Picalausa" a écrit :

> On Jul 23, 11:26 am, Philippe P
> wrote:
> > Bonjour à tous

> > Je cherche un code me permettant (à l'aide des api Windows par exem ple) de
> > rechercher un fichier pdf contenant une chaine de caractère préci se. Un peu
> > comme le fait la recherche de fichiers de Windows quand on lui demand e "Un
> > mot ou une phrase dans le fichier".

> > Quelqu'un a-t-il une idée ?

> > Merci par avance

> Hello,

> Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/
> en-us/library/ms691105.aspx) fourni pour les pdf (par exemple
>http://www.adobe.com/support/downloads/detail.jsp?ftpID&11).
> Ca te permettra de retrouver effectivement le texte dans un fichier,
> une fois que tu auras un descripteur correct du IFilter (une tlb
> décrivant l'ifilter, et/ou un lien correct vers la dll implémentant
> l'iFilter).

> Une autre méthode nettement plus classique est d'attaquer directement
> le fichier. Cela suppose de connaitre son format, format qui est
> exposé ici:
>http://www.adobe.com/devnet/pdf/pdf_reference.html

> Il y a aussi d'autres solutions. Par exemple:
>http://www.codeproject.com/useritems/PDFToText.asp(C#)
> et quelques autres encore en googlant un peu.

> François- Hide quoted text -

- Show quoted text -

On Jul 24, 10:06 am, Philippe P
wrote:

Je te remercie, je vais tester la méthode IFilter dès ce matin et te
tiendrai au courant de mes résultats si ça t'interresse quant à la méthode
utilisant le format, j'ai du mal à comprendre leur doc en anglais, si t u as
une traduction, je suis preneur à l'adresse ....

A ma connaissance, une telle traduction n'existe pas. Néanmoins, la
spécification de la version 1.3 compte moitier moins de pages que la
dernière, et doit être largement suffisante pour une grande majorité
de l'extraction de texte!

J'ai bien téléchargé le fichier PDFiFilter depuis le lien que tu m' as
indiqué, mais je ne trouve aucune source ou aide m'expliquant comment m 'en
servir avec VB6. Aurais-tu des pistes dans ce sens là ?

En VB6, je n'ai pas encore vu d'exemple d'implémentation. Je n'ai pas
le temps à l'heure actuelle de réaliser une telle implémentation, mais
néanmoins l'outil filtdump.exe (http://msdn2.microsoft.com/en-us/
library/ms692535.aspx) peut être manipulé en ligne de commande pour
extraire le texte.
Le texte extrait en ligne de commande ressemblera à ceci:
http://msdn2.microsoft.com/en-us/library/ms692533.aspx

(attention à enregistrer l'IFilter, sinon filtdump ne pourra pas
processer le pdf)

Ce n'est certainement pas la méthode la plus efficace d'utiliser un
IFilter, mais néanmoins, cette solution a l'avantage d'être simple a
mettre en oeuvre.
Il est par contre très probable que filtdump ne soit pas
redistribuable, ce qui peut poser problème en fonction du déploiement
prévu de ton application.

François

URGENT ! : Rechercher un fichier pdf contenant un texte précis

4 réponses

Veuillez sélectionner un problème