URGENT ! : Rechercher un fichier pdf contenant un texte précis
4 réponses
Philippe P
Bonjour à tous
Je cherche un code me permettant (à l'aide des api Windows par exemple) de
rechercher un fichier pdf contenant une chaine de caractère précise. Un peu
comme le fait la recherche de fichiers de Windows quand on lui demande "Un
mot ou une phrase dans le fichier".
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
François Picalausa
On Jul 23, 11:26 am, Philippe P wrote:
Bonjour à tous
Je cherche un code me permettant (à l'aide des api Windows par exemple) de rechercher un fichier pdf contenant une chaine de caractère précise. Un peu comme le fait la recherche de fichiers de Windows quand on lui demande "Un mot ou une phrase dans le fichier".
Quelqu'un a-t-il une idée ?
Merci par avance
Hello,
Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/ en-us/library/ms691105.aspx) fourni pour les pdf (par exemple http://www.adobe.com/support/downloads/detail.jsp?ftpID&11). Ca te permettra de retrouver effectivement le texte dans un fichier, une fois que tu auras un descripteur correct du IFilter (une tlb décrivant l'ifilter, et/ou un lien correct vers la dll implémentant l'iFilter).
On Jul 23, 11:26 am, Philippe P <Philip...@discussions.microsoft.com>
wrote:
Bonjour à tous
Je cherche un code me permettant (à l'aide des api Windows par exemple) de
rechercher un fichier pdf contenant une chaine de caractère précise. Un peu
comme le fait la recherche de fichiers de Windows quand on lui demande "Un
mot ou une phrase dans le fichier".
Quelqu'un a-t-il une idée ?
Merci par avance
Hello,
Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/
en-us/library/ms691105.aspx) fourni pour les pdf (par exemple
http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611).
Ca te permettra de retrouver effectivement le texte dans un fichier,
une fois que tu auras un descripteur correct du IFilter (une tlb
décrivant l'ifilter, et/ou un lien correct vers la dll implémentant
l'iFilter).
Une autre méthode nettement plus classique est d'attaquer directement
le fichier. Cela suppose de connaitre son format, format qui est
exposé ici:
http://www.adobe.com/devnet/pdf/pdf_reference.html
Il y a aussi d'autres solutions. Par exemple:
http://www.codeproject.com/useritems/PDFToText.asp (C#)
et quelques autres encore en googlant un peu.
Je cherche un code me permettant (à l'aide des api Windows par exemple) de rechercher un fichier pdf contenant une chaine de caractère précise. Un peu comme le fait la recherche de fichiers de Windows quand on lui demande "Un mot ou une phrase dans le fichier".
Quelqu'un a-t-il une idée ?
Merci par avance
Hello,
Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/ en-us/library/ms691105.aspx) fourni pour les pdf (par exemple http://www.adobe.com/support/downloads/detail.jsp?ftpID&11). Ca te permettra de retrouver effectivement le texte dans un fichier, une fois que tu auras un descripteur correct du IFilter (une tlb décrivant l'ifilter, et/ou un lien correct vers la dll implémentant l'iFilter).
Je te remercie, je vais tester la méthode IFilter dès ce matin et te tiendrai au courant de mes résultats si ça t'interresse quant à la méthode utilisant le format, j'ai du mal à comprendre leur doc en anglais, si tu as une traduction, je suis preneur à l'adresse ....
Cordialement,
Philippe Poyet
"François Picalausa" a écrit :
On Jul 23, 11:26 am, Philippe P wrote: > Bonjour à tous > > Je cherche un code me permettant (à l'aide des api Windows par exemple) de > rechercher un fichier pdf contenant une chaine de caractère précise. Un peu > comme le fait la recherche de fichiers de Windows quand on lui demande "Un > mot ou une phrase dans le fichier". > > Quelqu'un a-t-il une idée ? > > Merci par avance
Hello,
Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/ en-us/library/ms691105.aspx) fourni pour les pdf (par exemple http://www.adobe.com/support/downloads/detail.jsp?ftpID&11). Ca te permettra de retrouver effectivement le texte dans un fichier, une fois que tu auras un descripteur correct du IFilter (une tlb décrivant l'ifilter, et/ou un lien correct vers la dll implémentant l'iFilter).
Je te remercie, je vais tester la méthode IFilter dès ce matin et te
tiendrai au courant de mes résultats si ça t'interresse quant à la méthode
utilisant le format, j'ai du mal à comprendre leur doc en anglais, si tu as
une traduction, je suis preneur à l'adresse phil-poyet@wanadoo.fr ....
Cordialement,
Philippe Poyet
"François Picalausa" a écrit :
On Jul 23, 11:26 am, Philippe P <Philip...@discussions.microsoft.com>
wrote:
> Bonjour à tous
>
> Je cherche un code me permettant (à l'aide des api Windows par exemple) de
> rechercher un fichier pdf contenant une chaine de caractère précise. Un peu
> comme le fait la recherche de fichiers de Windows quand on lui demande "Un
> mot ou une phrase dans le fichier".
>
> Quelqu'un a-t-il une idée ?
>
> Merci par avance
Hello,
Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/
en-us/library/ms691105.aspx) fourni pour les pdf (par exemple
http://www.adobe.com/support/downloads/detail.jsp?ftpID&11).
Ca te permettra de retrouver effectivement le texte dans un fichier,
une fois que tu auras un descripteur correct du IFilter (une tlb
décrivant l'ifilter, et/ou un lien correct vers la dll implémentant
l'iFilter).
Une autre méthode nettement plus classique est d'attaquer directement
le fichier. Cela suppose de connaitre son format, format qui est
exposé ici:
http://www.adobe.com/devnet/pdf/pdf_reference.html
Il y a aussi d'autres solutions. Par exemple:
http://www.codeproject.com/useritems/PDFToText.asp (C#)
et quelques autres encore en googlant un peu.
Je te remercie, je vais tester la méthode IFilter dès ce matin et te tiendrai au courant de mes résultats si ça t'interresse quant à la méthode utilisant le format, j'ai du mal à comprendre leur doc en anglais, si tu as une traduction, je suis preneur à l'adresse ....
Cordialement,
Philippe Poyet
"François Picalausa" a écrit :
On Jul 23, 11:26 am, Philippe P wrote: > Bonjour à tous > > Je cherche un code me permettant (à l'aide des api Windows par exemple) de > rechercher un fichier pdf contenant une chaine de caractère précise. Un peu > comme le fait la recherche de fichiers de Windows quand on lui demande "Un > mot ou une phrase dans le fichier". > > Quelqu'un a-t-il une idée ? > > Merci par avance
Hello,
Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/ en-us/library/ms691105.aspx) fourni pour les pdf (par exemple http://www.adobe.com/support/downloads/detail.jsp?ftpID&11). Ca te permettra de retrouver effectivement le texte dans un fichier, une fois que tu auras un descripteur correct du IFilter (une tlb décrivant l'ifilter, et/ou un lien correct vers la dll implémentant l'iFilter).
J'ai bien téléchargé le fichier PDFiFilter depuis le lien que tu m'as indiqué, mais je ne trouve aucune source ou aide m'expliquant comment m'en servir avec VB6. Aurais-tu des pistes dans ce sens là ?
Philippe
"François Picalausa" a écrit :
On Jul 23, 11:26 am, Philippe P wrote: > Bonjour à tous > > Je cherche un code me permettant (à l'aide des api Windows par exemple) de > rechercher un fichier pdf contenant une chaine de caractère précise. Un peu > comme le fait la recherche de fichiers de Windows quand on lui demande "Un > mot ou une phrase dans le fichier". > > Quelqu'un a-t-il une idée ? > > Merci par avance
Hello,
Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/ en-us/library/ms691105.aspx) fourni pour les pdf (par exemple http://www.adobe.com/support/downloads/detail.jsp?ftpID&11). Ca te permettra de retrouver effectivement le texte dans un fichier, une fois que tu auras un descripteur correct du IFilter (une tlb décrivant l'ifilter, et/ou un lien correct vers la dll implémentant l'iFilter).
J'ai bien téléchargé le fichier PDFiFilter depuis le lien que tu m'as
indiqué, mais je ne trouve aucune source ou aide m'expliquant comment m'en
servir avec VB6. Aurais-tu des pistes dans ce sens là ?
Philippe
"François Picalausa" a écrit :
On Jul 23, 11:26 am, Philippe P <Philip...@discussions.microsoft.com>
wrote:
> Bonjour à tous
>
> Je cherche un code me permettant (à l'aide des api Windows par exemple) de
> rechercher un fichier pdf contenant une chaine de caractère précise. Un peu
> comme le fait la recherche de fichiers de Windows quand on lui demande "Un
> mot ou une phrase dans le fichier".
>
> Quelqu'un a-t-il une idée ?
>
> Merci par avance
Hello,
Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/
en-us/library/ms691105.aspx) fourni pour les pdf (par exemple
http://www.adobe.com/support/downloads/detail.jsp?ftpID&11).
Ca te permettra de retrouver effectivement le texte dans un fichier,
une fois que tu auras un descripteur correct du IFilter (une tlb
décrivant l'ifilter, et/ou un lien correct vers la dll implémentant
l'iFilter).
Une autre méthode nettement plus classique est d'attaquer directement
le fichier. Cela suppose de connaitre son format, format qui est
exposé ici:
http://www.adobe.com/devnet/pdf/pdf_reference.html
Il y a aussi d'autres solutions. Par exemple:
http://www.codeproject.com/useritems/PDFToText.asp (C#)
et quelques autres encore en googlant un peu.
J'ai bien téléchargé le fichier PDFiFilter depuis le lien que tu m'as indiqué, mais je ne trouve aucune source ou aide m'expliquant comment m'en servir avec VB6. Aurais-tu des pistes dans ce sens là ?
Philippe
"François Picalausa" a écrit :
On Jul 23, 11:26 am, Philippe P wrote: > Bonjour à tous > > Je cherche un code me permettant (à l'aide des api Windows par exemple) de > rechercher un fichier pdf contenant une chaine de caractère précise. Un peu > comme le fait la recherche de fichiers de Windows quand on lui demande "Un > mot ou une phrase dans le fichier". > > Quelqu'un a-t-il une idée ? > > Merci par avance
Hello,
Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/ en-us/library/ms691105.aspx) fourni pour les pdf (par exemple http://www.adobe.com/support/downloads/detail.jsp?ftpID&11). Ca te permettra de retrouver effectivement le texte dans un fichier, une fois que tu auras un descripteur correct du IFilter (une tlb décrivant l'ifilter, et/ou un lien correct vers la dll implémentant l'iFilter).
> On Jul 23, 11:26 am, Philippe P > wrote: > > Bonjour à tous
> > Je cherche un code me permettant (à l'aide des api Windows par exem ple) de > > rechercher un fichier pdf contenant une chaine de caractère préci se. Un peu > > comme le fait la recherche de fichiers de Windows quand on lui demand e "Un > > mot ou une phrase dans le fichier".
> > Quelqu'un a-t-il une idée ?
> > Merci par avance
> Hello,
> Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/ > en-us/library/ms691105.aspx) fourni pour les pdf (par exemple >http://www.adobe.com/support/downloads/detail.jsp?ftpID&11). > Ca te permettra de retrouver effectivement le texte dans un fichier, > une fois que tu auras un descripteur correct du IFilter (une tlb > décrivant l'ifilter, et/ou un lien correct vers la dll implémentant > l'iFilter).
> Une autre méthode nettement plus classique est d'attaquer directement > le fichier. Cela suppose de connaitre son format, format qui est > exposé ici: >http://www.adobe.com/devnet/pdf/pdf_reference.html
Je te remercie, je vais tester la méthode IFilter dès ce matin et te tiendrai au courant de mes résultats si ça t'interresse quant à la méthode utilisant le format, j'ai du mal à comprendre leur doc en anglais, si t u as une traduction, je suis preneur à l'adresse ....
A ma connaissance, une telle traduction n'existe pas. Néanmoins, la spécification de la version 1.3 compte moitier moins de pages que la dernière, et doit être largement suffisante pour une grande majorité de l'extraction de texte!
J'ai bien téléchargé le fichier PDFiFilter depuis le lien que tu m' as indiqué, mais je ne trouve aucune source ou aide m'expliquant comment m 'en servir avec VB6. Aurais-tu des pistes dans ce sens là ?
En VB6, je n'ai pas encore vu d'exemple d'implémentation. Je n'ai pas le temps à l'heure actuelle de réaliser une telle implémentation, mais néanmoins l'outil filtdump.exe (http://msdn2.microsoft.com/en-us/ library/ms692535.aspx) peut être manipulé en ligne de commande pour extraire le texte. Le texte extrait en ligne de commande ressemblera à ceci: http://msdn2.microsoft.com/en-us/library/ms692533.aspx
(attention à enregistrer l'IFilter, sinon filtdump ne pourra pas processer le pdf)
Ce n'est certainement pas la méthode la plus efficace d'utiliser un IFilter, mais néanmoins, cette solution a l'avantage d'être simple a mettre en oeuvre. Il est par contre très probable que filtdump ne soit pas redistribuable, ce qui peut poser problème en fonction du déploiement prévu de ton application.
François
> "François Picalausa" a écrit :
> On Jul 23, 11:26 am, Philippe P <Philip...@discussions.microsoft.com>
> wrote:
> > Bonjour à tous
> > Je cherche un code me permettant (à l'aide des api Windows par exem ple) de
> > rechercher un fichier pdf contenant une chaine de caractère préci se. Un peu
> > comme le fait la recherche de fichiers de Windows quand on lui demand e "Un
> > mot ou une phrase dans le fichier".
> > Quelqu'un a-t-il une idée ?
> > Merci par avance
> Hello,
> Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/
> en-us/library/ms691105.aspx) fourni pour les pdf (par exemple
>http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611).
> Ca te permettra de retrouver effectivement le texte dans un fichier,
> une fois que tu auras un descripteur correct du IFilter (une tlb
> décrivant l'ifilter, et/ou un lien correct vers la dll implémentant
> l'iFilter).
> Une autre méthode nettement plus classique est d'attaquer directement
> le fichier. Cela suppose de connaitre son format, format qui est
> exposé ici:
>http://www.adobe.com/devnet/pdf/pdf_reference.html
> Il y a aussi d'autres solutions. Par exemple:
>http://www.codeproject.com/useritems/PDFToText.asp(C#)
> et quelques autres encore en googlant un peu.
> François- Hide quoted text -
- Show quoted text -
On Jul 24, 10:06 am, Philippe P <Philip...@discussions.microsoft.com>
wrote:
Je te remercie, je vais tester la méthode IFilter dès ce matin et te
tiendrai au courant de mes résultats si ça t'interresse quant à la méthode
utilisant le format, j'ai du mal à comprendre leur doc en anglais, si t u as
une traduction, je suis preneur à l'adresse phil-po...@wanadoo.fr ....
A ma connaissance, une telle traduction n'existe pas. Néanmoins, la
spécification de la version 1.3 compte moitier moins de pages que la
dernière, et doit être largement suffisante pour une grande majorité
de l'extraction de texte!
J'ai bien téléchargé le fichier PDFiFilter depuis le lien que tu m' as
indiqué, mais je ne trouve aucune source ou aide m'expliquant comment m 'en
servir avec VB6. Aurais-tu des pistes dans ce sens là ?
En VB6, je n'ai pas encore vu d'exemple d'implémentation. Je n'ai pas
le temps à l'heure actuelle de réaliser une telle implémentation, mais
néanmoins l'outil filtdump.exe (http://msdn2.microsoft.com/en-us/
library/ms692535.aspx) peut être manipulé en ligne de commande pour
extraire le texte.
Le texte extrait en ligne de commande ressemblera à ceci:
http://msdn2.microsoft.com/en-us/library/ms692533.aspx
(attention à enregistrer l'IFilter, sinon filtdump ne pourra pas
processer le pdf)
Ce n'est certainement pas la méthode la plus efficace d'utiliser un
IFilter, mais néanmoins, cette solution a l'avantage d'être simple a
mettre en oeuvre.
Il est par contre très probable que filtdump ne soit pas
redistribuable, ce qui peut poser problème en fonction du déploiement
prévu de ton application.
> On Jul 23, 11:26 am, Philippe P > wrote: > > Bonjour à tous
> > Je cherche un code me permettant (à l'aide des api Windows par exem ple) de > > rechercher un fichier pdf contenant une chaine de caractère préci se. Un peu > > comme le fait la recherche de fichiers de Windows quand on lui demand e "Un > > mot ou une phrase dans le fichier".
> > Quelqu'un a-t-il une idée ?
> > Merci par avance
> Hello,
> Une possibilité est d'utiliser un Ifilter (http://msdn2.microsoft.com/ > en-us/library/ms691105.aspx) fourni pour les pdf (par exemple >http://www.adobe.com/support/downloads/detail.jsp?ftpID&11). > Ca te permettra de retrouver effectivement le texte dans un fichier, > une fois que tu auras un descripteur correct du IFilter (une tlb > décrivant l'ifilter, et/ou un lien correct vers la dll implémentant > l'iFilter).
> Une autre méthode nettement plus classique est d'attaquer directement > le fichier. Cela suppose de connaitre son format, format qui est > exposé ici: >http://www.adobe.com/devnet/pdf/pdf_reference.html
Je te remercie, je vais tester la méthode IFilter dès ce matin et te tiendrai au courant de mes résultats si ça t'interresse quant à la méthode utilisant le format, j'ai du mal à comprendre leur doc en anglais, si t u as une traduction, je suis preneur à l'adresse ....
A ma connaissance, une telle traduction n'existe pas. Néanmoins, la spécification de la version 1.3 compte moitier moins de pages que la dernière, et doit être largement suffisante pour une grande majorité de l'extraction de texte!
J'ai bien téléchargé le fichier PDFiFilter depuis le lien que tu m' as indiqué, mais je ne trouve aucune source ou aide m'expliquant comment m 'en servir avec VB6. Aurais-tu des pistes dans ce sens là ?
En VB6, je n'ai pas encore vu d'exemple d'implémentation. Je n'ai pas le temps à l'heure actuelle de réaliser une telle implémentation, mais néanmoins l'outil filtdump.exe (http://msdn2.microsoft.com/en-us/ library/ms692535.aspx) peut être manipulé en ligne de commande pour extraire le texte. Le texte extrait en ligne de commande ressemblera à ceci: http://msdn2.microsoft.com/en-us/library/ms692533.aspx
(attention à enregistrer l'IFilter, sinon filtdump ne pourra pas processer le pdf)
Ce n'est certainement pas la méthode la plus efficace d'utiliser un IFilter, mais néanmoins, cette solution a l'avantage d'être simple a mettre en oeuvre. Il est par contre très probable que filtdump ne soit pas redistribuable, ce qui peut poser problème en fonction du déploiement prévu de ton application.