OVH Cloud OVH Cloud

Recherche dans des fichiers pdf par contenu.

12 réponses
Avatar
kaliderus
Bonjour,
Existe-t-il une commande ou un outil pour recherche des fichiers .pdf
par contenu (par une chaine de caractère) et dans une arborescence donnée ?
Merci.

--
J'ai des choses à dire
http://kaliderus.blogspot.com

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

2 réponses

1 2
Avatar
kaliderus
Stephane Bortzmeyer a écrit :
On Wed, Oct 22, 2008 at 02:35:47PM +0200,
kaliderus wrote
a message of 32 lines which said:


C'est quand même étrange, tous les moteurs de recherche sont
capables de regarder des contenus pdf mais il n'y aurait rien dans
la debian ?!...




Bien sûr que si, il y a pdftotext, déjà cité.





Le scrit shell attaché permet de chercher une expression dans les
fichiers PDF du répertoire courant et de ses sous-répertoires.



T'es génial ! J'en espérait pas tant !
Merci beaucoup.
k.

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Stephane Bortzmeyer
--Kj7319i9nmIyA2yE
Content-Type: text/plain; charset=iso-8859-1
Content-Disposition: inline
Content-Transfer-Encoding: 8bit

On Wed, Oct 22, 2008 at 02:35:47PM +0200,
kaliderus wrote
a message of 32 lines which said:

C'est quand même étrange, tous les moteurs de recherche sont
capables de regarder des contenus pdf mais il n'y aurait rien dans
la debian ?!...



Bien sûr que si, il y a pdftotext, déjà cité.

Le scrit shell attaché permet de chercher une expression dans les
fichiers PDF du répertoire courant et de ses sous-répertoires.

--Kj7319i9nmIyA2yE
Content-Type: text/plain; charset=us-ascii
Content-Disposition: attachment; filename=grep-pdf

#!/bin/sh

if [ -z "$1" ]; then
echo "Usage: $0 regexp" >> /dev/stderr
exit 1
fi
REGEXP=$1

PDFS=$(find . -name '*.pdf')

for pdf in $PDFS; do
result=$(pdftotext $pdf - | grep $REGEXP)
if [ ! -z "$result" ]; then
echo "$pdf: $result"
fi
done
--Kj7319i9nmIyA2yE--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
1 2