Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Recherche texte dans documents PDF ?

10 réponses
Avatar
J.P
Parmi des documents PDF rassemblés dans un dossier, je cherche ceux qui
contiendraient des mots/groupes de mots.
Spotlight, Finder, Easyfind ne savent pas faire cela.

Un outil pour cela ?

Merci

--
Jean-Pierre

10 réponses

Avatar
josephb
Se grattant l'occiput, J.P a vainement tenté de nous tirer des larmes
par ces mots :
Parmi des documents PDF rassemblés dans un dossier, je cherche ceux qui
contiendraient des mots/groupes de mots.
Spotlight, Finder, Easyfind ne savent pas faire cela.
Un outil pour cela ?

Un script…plus ou moins élaboré.
Contacte-moi en mp, si tu veux ?
Amicalement
--
J. B.
Il est possible que le transistor parabolique puisse inhiber la
morvo-matière dynamique, mais seulement si nous pouvons polariser la
causalité à grand rayon d'action et phaser l'extra-continuum spatial !
Avatar
voir_le_reply-to
J.P wrote:
Parmi des documents PDF rassemblés dans un dossier, je cherche ceux qui
contiendraient des mots/groupes de mots.
Spotlight, Finder, Easyfind ne savent pas faire cela.

Ça doit dépendre du TYPE du document pdf : certains sont "textuels"
d'autres ne sont que des images, des photos. Dans ce deuxième cas, seul
un passage à l'OCR permettrait d'accéder au contenu...
Mar contre pour les pdf "textuels", il me semble que Spotlight sait
faire ça depuis longtemps.
--
Gérald
Avatar
J.P
In article <1mpqhhi.1xvimv91dkz85eN%,
(Joseph-B) wrote:
Se grattant l'occiput, J.P a vainement tenté de nous tirer des larmes
par ces mots :
Parmi des documents PDF rassemblés dans un dossier, je cherche ceux qui
contiendraient des mots/groupes de mots.
Spotlight, Finder, Easyfind ne savent pas faire cela.
Un outil pour cela ?

Un scriptŠplus ou moins élaboré.
Contacte-moi en mp, si tu veux ?
Amicalement

OK, merci. Là, il est bien tard ou très (trop) tôt ... et donc dodo :-)
A +
--
Jean-Pierre
Avatar
Huilda Rachid
Le 02/07/16 à 00:36, Joseph-B a écrit :
Se grattant l'occiput, J.P a vainement tenté de nous tirer des larmes
par ces mots :
Parmi des documents PDF rassemblés dans un dossier, je cherche ceux qui
contiendraient des mots/groupes de mots.
Spotlight, Finder, Easyfind ne savent pas faire cela.
Un outil pour cela ?

Un script…plus ou moins élaboré.
Contacte-moi en mp, si tu veux ?

et les autres ? ils puent de la bouche ??
Avatar
josephb
Huilda Rachid a écrit,
et les autres ? ils puent de la bouche ??

"les autres", c'est à dire toi en l'occurence, parce que je ne crois pas
que tu parles en leur nom, s'ils le demandent autrement, auront le
script complet à disposition comme je l'ai toujours fait.
À condition que JP et moi, on arrive à faire un truc qui marche, et je
n'en sais encore rien…
Sauf erreur de ma part, je ne me rappellle pas que tu aies jamais
exprimé des remerciements pour les partages faits ici par quelques
contributeurs dont moi.
--
J. B.
Avatar
josephb
J.P a écrit,
Ce n'est ni texte ni image (je peux copier du texte quand j'ouvre avec
Aperçu),.
Ça se présente comme ça sous TextWrangler)

Le pdf a été pensé comme une encapsulation maximale des données pour
garantir portabilité et intégrité.
Le texte est compressé (algorithme de type LZW amélioré), les bitmap
N&B compressées avec algorithme non destructif et les images couleurs en
jpeg.
Pour ça que hors lecteur adapté on ne voit que du charabia quand on
ouvre un pdf dans un éditeur de texte brut.
--
J. B.
Avatar
benoit
Joseph-B wrote:
J.P a écrit,
Ce n'est ni texte ni image (je peux copier du texte quand j'ouvre avec
Aperçu),.
Ça se présente comme ça sous TextWrangler)

Le pdf a été pensé comme une encapsulation maximale des données pour
garantir portabilité et intégrité.
Le texte est compressé (algorithme de type LZW amélioré), les bitmap
N&B compressées avec algorithme non destructif et les images couleurs en
jpeg.
Pour ça que hors lecteur adapté on ne voit que du charabia quand on
ouvre un pdf dans un éditeur de texte brut.

Le pdf est un programme avec son propre language. J'ai un ami
développeur qui, autrefois, faisait tourner des logiciels basés sur du
pdf dans des LaserWriter parce que le processeur était plus rapide que
celui de son mac, et que cela lui permettait de continuer de bosser sur
sa machine.
Concernant le texte, le pdf encapsule une police de caractères si elle
est fortement présente dans le texte, sinon il vectorise le ou les
caractères (façon de parler puisque les polices sont des vecteurs). Pour
protéger un document de la récupération facile du texte, tu génères un
pdf qui ne contient aucune police mais uniquement du vectoriel. Cela
n'empêchera pas une reconnaissance optique de caractère de fonctionner
bien sûr.
Pourquoi le pdf n'incorpore pas toutes les polices ? Pour être le plus
léger possible. Exemple :
- Une police comporte dans les 200 caractères minimum.
- Une police vectoriel comporte donc 200 paquets de dessins vectoriés
- S'il y a plus de 200 occurence de la police dans le texte il vaut
mieux envoyer la police complète. Même si tu n'as _que_ le caractère
« A » présent plus de 200 fois, il vaut mieux tout envoyer que de copier
plus de 200 fois la vectorisation du « A ».
Aujourd'hui, de mémoire, avec des polices monstrueuses de plus de 10 000
caractères, la génération d'un pdf qui a intérêt à inclure une police va
supprimer de cette police tous les caractères inutilisés. Pour un gain
de place.
Ce qui veut aussi dire qu'on ne peut (plus) extraire une police complète
d'un pdf. Cela garantit au fondeur une protection contre la copie de son
produit, et c'est ce qui a permis d'adapter les droits d'utilisation
d'une police avec l'arrivée de l'impression numérique. Quand il n'y
avait que le papier, il n'y avait pas de problèmes de ce point de vue ;)
--
"La théorie, c'est quand on sait tout et que rien ne fonctionne. La
pratique, c'est quand tout fonctionne et que personne ne sait pourquoi.
Ici, nous avons réuni théorie et pratique : Rien ne fonctionne... et
personne ne sait pourquoi !" [ Albert Einstein ]
Avatar
Jean-Pierre Kuypers
In article (Dans l'article)
, J.P
wrote (écrivait) :
Parmi des documents PDF rassemblés dans un dossier, je cherche ceux qui
contiendraient des mots/groupes de mots.
Spotlight, Finder, Easyfind ne savent pas faire cela.
Un outil pour cela ?

Dans le Finder, je tape Commande-F (= Fichier -> Rechercher).
Dans la case de texte, je tape un mot à rechercher.
Je sélectionne 'Type' est 'PDF'.
J'enfonce la touche <Enter>.
J'obtiens la liste de tous mes documents PDF contenant le mot à
rechercher.
--
Jean-Pierre Kuypers
Veuillez contenir les phrases dans leur con-
texte avant de rassembler sciemment.
Avatar
J.P
In article <020720161644007358%,
Jean-Pierre Kuypers wrote:
In article (Dans l'article)
, J.P
wrote (écrivait) :
Parmi des documents PDF rassemblés dans un dossier, je cherche ceux qui
contiendraient des mots/groupes de mots.
Spotlight, Finder, Easyfind ne savent pas faire cela.
Un outil pour cela ?

Dans le Finder, je tape Commande-F (= Fichier -> Rechercher).
Dans la case de texte, je tape un mot à rechercher.
Je sélectionne 'Type' est 'PDF'.
J'enfonce la touche <Enter>.
J'obtiens la liste de tous mes documents PDF contenant le mot à
rechercher.

Oui, ici aussi, à première vue, ce matin :-)
Mon problème était-il du à un délai de mise à jour de la base de données
de Spotlight vu que les fichiers étaient très récents ?...
En fait j'étais très étonné que ça ne marche pas vu que, si je me
souviens bien, un moteur PDF est inclus dans OS X (SL)
JB peut donc poursuivre ses vacances :-)
--
Jean-Pierre
Avatar
josephb
J.P a gentiment conclu en ces termes :
JB peut donc poursuivre ses vacances :-)

Ouf ! Et en plus ça m'a remémoré ce truc auquel je n'aurais pas pensé
sur le moment.
--
J. B.
Capitaine, je ne peux pas ouvrir le proto-transistor parce que le
cybergement cythérien est sur le point de bouffonner le sub-vortex
résonnant !