test

Benoit

09/02/2021 à 19:28

Le 9 février 2021, Ghost-Raider osa écrireÂ :

Le 09/02/2021 Í 16:33, Benoit a écritÂ :
Le 9 février 2021, Ghost-Raider osa écrireÂ :
Seuls les fichiers TXT et RTF embarquent le texte en toutes lettres.
Les PDF, DOC, ODT, ODS, XLS etc. embarquent un corps de texte codé, non
lisible par un éditeur hexadécimal. Les PDF qui en sont issus sont dans
le même cas : illisibles.

C'est marrant, mais sur mon Mac une recherche de texte dans le système
m'affiche des pdfs. Faudrait passer Í un truc plus moderne et revoir tes
connaissances. Ils sont tout Í fait lisible, mais pas par toi.
<https://www.cjoint.com/doc/21_02/KBjoLbev1BK_Capture-Ecran1.jpg>

Ton image ne prouve rien, elle montre simplement que ton Mac affiche une
imagette du fichier PDF et contient donc un logiciel qui le lit, comme
le ferait le logiciel de PDF lui-même, mais elle ne montre pas le texte
qui est dedans sous une forme qui serait exploitable hors logiciel de PDF..
Copier coller depuis un pdfÂ :
[...]
1. INTERNATIONAL MOTOR INSURANCE CARD 2. EMISE AVEC L'AUTORISATION DU
BUREAU CENTRAL 1. CARTE INTERNATIONALE D'ASSURANCE AUTOMOBILE FRANCAIS
3. VALABLE DU
4. Code pays / Code assureur / Numéro
AU
JourMoisAnnée JourMoisAnnée991318404
19/01/21 01/05/21 F943
[...]

Tu ne prouves rien. Il faut le PDF lui-même pour voir si ce texte est en
clair dedans, ou non, car c'est ce que tu as dit.
Si on ouvre le pdf on ne «Â litÂ » rien parce que c'est compresséÂ :
1. Le texte est compressé.
2. La police de caractère est incluse, compressée et réduite aux
caractères utilisés (peut-être un peu plus). Un pdf contenant une seul
lettre fait 12Â Ko.

VoilÍ , c'est exactement ce que je dis : le texte est compressé et est
illisible par un éditeur héxa.

Si il est lisible, mais pas par toi. Tels des hiéroglyphes.

Il n'est donc pas lisible sans décompression, ni modifiable.
Et d'ailleurs, c'est parfaitement compréhensible : si les PDF étaient
lisibles en héxa, ils seraient facilement modifiables, ce qui leur
enlèverait toute force probante.
Tout ça pour dire qu'Í mon avis, ce qui est mon souci, la recherche
Windows ne scrute pas les textes des PDF, ni les autres DOC, XLS,
etc..mais je vais aller plus loin.
J'ai créé des fichiers PDF ce matin avec des mots inconnus, j'attends de
voir si ces mots sont repérés par la recherche Windows.

Prend un pdf, copie une phrase et demande Í ouinouin de le trouver : tu
verras tout de suite, (Í condition de lui dire d'afficher les extensions
pour choisir le bon documentÂ :D.
Tu fais pareil avec les doc, xls...

Et il sait lire beaucoup de choses dans les fichiers, un extraitÂ :
<https://www.cjoint.com/doc/21_02/KBjpwiPFpJK_Capture-Ecran2.jpg>

Oui, mais encore une fois, ce n'est pas le texte. Ce sont les zones.

Qu'est-ce-que tu racontesÂ ? La zone ISBN ne contient pas du texteÂ ? Et
la zone «Â ContenuÂ » non plusÂ ? Cela te permet de restreindre ta
recherche Í certains composants d'un document. C'est bien de pouvoir
faire le choix entreÂ :
- date de dernière ouverture
- date d'enregistrement
- date de création
- date d'utilisation
- date de fin
- date de ...Â »
Mais ça tu n'imagines pas que ce soit possible, évidemment.

En plus la recherche peut être sauvegardée telle un dossier qui se met Í
jour toute seule au fil du temps.
J'ai ce genre de «Â dossiersÂ » concernant des dates (dernières
semaines...), des mots clefs, et un pointant sur ma liste de définitions
et synonymes d'argotÂ : je l'ouvre, je tape un mot et j'ai des synonymes.
Avec pas loin de 100Â 000 documents (un par mot) je trouve et redécouvre
pas mal de choses.
J'aimerais bien le réduire en supprimant les doublons, mais c'est un
travail de titan. Il faudrait que je me remette Í coder pour ce faire :
pas le courage.

Tu veux coder un logiciel PDF ? Bon courage !

C'est du txt pur mon gars, pas un truc compliqué.
Une façon de faireÂ : prendre le texte de chaque fichier et classer
toutes les lettres par ordre alphabétiques en oubliant les espaces,
chiffres... Cela donne une première «Â signatureÂ » du texte, et supprimer
les doublons. Les probabilités que deux textes d'une vingtaine de mots
aient tous les deux exactement autant de a, de b, deÂ c... et contiennent
des mots différents est quasiment nulle.
--
BenoÍ®t
Les gens sans humour manquent de sérieux.

Le 9 février 2021, Ghost-Raider osa écrireÂ :

Le 09/02/2021 Í 16:33, Benoit a écritÂ :

Le 9 février 2021, Ghost-Raider osa écrireÂ :

Seuls les fichiers TXT et RTF embarquent le texte en toutes lettres.
Les PDF, DOC, ODT, ODS, XLS etc. embarquent un corps de texte codé, non
lisible par un éditeur hexadécimal. Les PDF qui en sont issus sont dans
le même cas : illisibles.

C'est marrant, mais sur mon Mac une recherche de texte dans le système
m'affiche des pdfs. Faudrait passer Í un truc plus moderne et revoir tes
connaissances. Ils sont tout Í fait lisible, mais pas par toi.

<https://www.cjoint.com/doc/21_02/KBjoLbev1BK_Capture-Ecran1.jpg>

Ton image ne prouve rien, elle montre simplement que ton Mac affiche une
imagette du fichier PDF et contient donc un logiciel qui le lit, comme
le ferait le logiciel de PDF lui-même, mais elle ne montre pas le texte
qui est dedans sous une forme qui serait exploitable hors logiciel de PDF..

>
Copier coller depuis un pdfÂ :

[...]
1. INTERNATIONAL MOTOR INSURANCE CARD 2. EMISE AVEC L'AUTORISATION DU
BUREAU CENTRAL 1. CARTE INTERNATIONALE D'ASSURANCE AUTOMOBILE FRANCAIS
3. VALABLE DU
4. Code pays / Code assureur / Numéro
AU
JourMoisAnnée JourMoisAnnée991318404
19/01/21 01/05/21 F943
[...]

Tu ne prouves rien. Il faut le PDF lui-même pour voir si ce texte est en
clair dedans, ou non, car c'est ce que tu as dit.

>
Si on ouvre le pdf on ne «Â litÂ » rien parce que c'est compresséÂ :
1. Le texte est compressé.
2. La police de caractère est incluse, compressée et réduite aux
caractères utilisés (peut-être un peu plus). Un pdf contenant une seul
lettre fait 12Â Ko.

VoilÍ , c'est exactement ce que je dis : le texte est compressé et est
illisible par un éditeur héxa.

Si il est lisible, mais pas par toi. Tels des hiéroglyphes.

Il n'est donc pas lisible sans décompression, ni modifiable.

Et d'ailleurs, c'est parfaitement compréhensible : si les PDF étaient
lisibles en héxa, ils seraient facilement modifiables, ce qui leur
enlèverait toute force probante.

Tout ça pour dire qu'Í mon avis, ce qui est mon souci, la recherche
Windows ne scrute pas les textes des PDF, ni les autres DOC, XLS,
etc..mais je vais aller plus loin.
J'ai créé des fichiers PDF ce matin avec des mots inconnus, j'attends de
voir si ces mots sont repérés par la recherche Windows.

Prend un pdf, copie une phrase et demande Í ouinouin de le trouver : tu
verras tout de suite, (Í condition de lui dire d'afficher les extensions
pour choisir le bon documentÂ :D.
Tu fais pareil avec les doc, xls...

>
Et il sait lire beaucoup de choses dans les fichiers, un extraitÂ :

<https://www.cjoint.com/doc/21_02/KBjpwiPFpJK_Capture-Ecran2.jpg>

Oui, mais encore une fois, ce n'est pas le texte. Ce sont les zones.

Qu'est-ce-que tu racontesÂ ? La zone ISBN ne contient pas du texteÂ ? Et
la zone «Â ContenuÂ » non plusÂ ? Cela te permet de restreindre ta
recherche Í certains composants d'un document. C'est bien de pouvoir
faire le choix entreÂ :
- date de dernière ouverture
- date d'enregistrement
- date de création
- date d'utilisation
- date de fin
- date de ...Â »

Mais ça tu n'imagines pas que ce soit possible, évidemment.

En plus la recherche peut être sauvegardée telle un dossier qui se met Í
jour toute seule au fil du temps.

J'ai ce genre de «Â dossiersÂ » concernant des dates (dernières
semaines...), des mots clefs, et un pointant sur ma liste de définitions
et synonymes d'argotÂ : je l'ouvre, je tape un mot et j'ai des synonymes.
Avec pas loin de 100Â 000 documents (un par mot) je trouve et redécouvre
pas mal de choses.

J'aimerais bien le réduire en supprimant les doublons, mais c'est un
travail de titan. Il faudrait que je me remette Í coder pour ce faire :
pas le courage.

Tu veux coder un logiciel PDF ? Bon courage !

C'est du txt pur mon gars, pas un truc compliqué.

Une façon de faireÂ : prendre le texte de chaque fichier et classer
toutes les lettres par ordre alphabétiques en oubliant les espaces,
chiffres... Cela donne une première «Â signatureÂ » du texte, et supprimer
les doublons. Les probabilités que deux textes d'une vingtaine de mots
aient tous les deux exactement autant de a, de b, deÂ c... et contiennent
des mots différents est quasiment nulle.

--
BenoÍ®t
Les gens sans humour manquent de sérieux.

Vous avez filtré cet utilisateur ! Consultez son message

Le 9 février 2021, Ghost-Raider osa écrireÂ :

Le 09/02/2021 Í 16:33, Benoit a écritÂ :
Le 9 février 2021, Ghost-Raider osa écrireÂ :
Seuls les fichiers TXT et RTF embarquent le texte en toutes lettres.
Les PDF, DOC, ODT, ODS, XLS etc. embarquent un corps de texte codé, non
lisible par un éditeur hexadécimal. Les PDF qui en sont issus sont dans
le même cas : illisibles.

C'est marrant, mais sur mon Mac une recherche de texte dans le système
m'affiche des pdfs. Faudrait passer Í un truc plus moderne et revoir tes
connaissances. Ils sont tout Í fait lisible, mais pas par toi.
<https://www.cjoint.com/doc/21_02/KBjoLbev1BK_Capture-Ecran1.jpg>

Ton image ne prouve rien, elle montre simplement que ton Mac affiche une
imagette du fichier PDF et contient donc un logiciel qui le lit, comme
le ferait le logiciel de PDF lui-même, mais elle ne montre pas le texte
qui est dedans sous une forme qui serait exploitable hors logiciel de PDF..
Copier coller depuis un pdfÂ :
[...]
1. INTERNATIONAL MOTOR INSURANCE CARD 2. EMISE AVEC L'AUTORISATION DU
BUREAU CENTRAL 1. CARTE INTERNATIONALE D'ASSURANCE AUTOMOBILE FRANCAIS
3. VALABLE DU
4. Code pays / Code assureur / Numéro
AU
JourMoisAnnée JourMoisAnnée991318404
19/01/21 01/05/21 F943
[...]

Tu ne prouves rien. Il faut le PDF lui-même pour voir si ce texte est en
clair dedans, ou non, car c'est ce que tu as dit.
Si on ouvre le pdf on ne «Â litÂ » rien parce que c'est compresséÂ :
1. Le texte est compressé.
2. La police de caractère est incluse, compressée et réduite aux
caractères utilisés (peut-être un peu plus). Un pdf contenant une seul
lettre fait 12Â Ko.

VoilÍ , c'est exactement ce que je dis : le texte est compressé et est
illisible par un éditeur héxa.

Si il est lisible, mais pas par toi. Tels des hiéroglyphes.

Il n'est donc pas lisible sans décompression, ni modifiable.
Et d'ailleurs, c'est parfaitement compréhensible : si les PDF étaient
lisibles en héxa, ils seraient facilement modifiables, ce qui leur
enlèverait toute force probante.
Tout ça pour dire qu'Í mon avis, ce qui est mon souci, la recherche
Windows ne scrute pas les textes des PDF, ni les autres DOC, XLS,
etc..mais je vais aller plus loin.
J'ai créé des fichiers PDF ce matin avec des mots inconnus, j'attends de
voir si ces mots sont repérés par la recherche Windows.

Prend un pdf, copie une phrase et demande Í ouinouin de le trouver : tu
verras tout de suite, (Í condition de lui dire d'afficher les extensions
pour choisir le bon documentÂ :D.
Tu fais pareil avec les doc, xls...

Et il sait lire beaucoup de choses dans les fichiers, un extraitÂ :
<https://www.cjoint.com/doc/21_02/KBjpwiPFpJK_Capture-Ecran2.jpg>

Oui, mais encore une fois, ce n'est pas le texte. Ce sont les zones.

Qu'est-ce-que tu racontesÂ ? La zone ISBN ne contient pas du texteÂ ? Et
la zone «Â ContenuÂ » non plusÂ ? Cela te permet de restreindre ta
recherche Í certains composants d'un document. C'est bien de pouvoir
faire le choix entreÂ :
- date de dernière ouverture
- date d'enregistrement
- date de création
- date d'utilisation
- date de fin
- date de ...Â »
Mais ça tu n'imagines pas que ce soit possible, évidemment.

En plus la recherche peut être sauvegardée telle un dossier qui se met Í
jour toute seule au fil du temps.
J'ai ce genre de «Â dossiersÂ » concernant des dates (dernières
semaines...), des mots clefs, et un pointant sur ma liste de définitions
et synonymes d'argotÂ : je l'ouvre, je tape un mot et j'ai des synonymes.
Avec pas loin de 100Â 000 documents (un par mot) je trouve et redécouvre
pas mal de choses.
J'aimerais bien le réduire en supprimant les doublons, mais c'est un
travail de titan. Il faudrait que je me remette Í coder pour ce faire :
pas le courage.

Tu veux coder un logiciel PDF ? Bon courage !

C'est du txt pur mon gars, pas un truc compliqué.
Une façon de faireÂ : prendre le texte de chaque fichier et classer
toutes les lettres par ordre alphabétiques en oubliant les espaces,
chiffres... Cela donne une première «Â signatureÂ » du texte, et supprimer
les doublons. Les probabilités que deux textes d'une vingtaine de mots
aient tous les deux exactement autant de a, de b, deÂ c... et contiennent
des mots différents est quasiment nulle.
--
BenoÍ®t
Les gens sans humour manquent de sérieux.

Den

09/02/2021 à 20:44

Benoit wrote:

Le 9 février 2021, Den a raconté :
Bref, galère...

Bin non, tu prends un OS moderne. OS X le fait depuis sa version 1
(10.0) en 2001.

C'est de l'ironie, j'espère ? Pas sÍ»r que "mon" W10 soit un OS obsolète...
Den

Den

09/02/2021 à 20:48

Ghost-Raider wrote:

Mais non ! Je suis en train de vérifier le fonctionnement de Windows
search et je proposerai quelque chose de bien mieux que ces bricolages.

Cool ! Si ça marche, ce sont je ne doute pas, es-tu prêt Í recevoir ma
reconnaissance éternelle ?
Den

Benoit

09/02/2021 à 21:23

Le 9 février 2021, Den a raconté :

Benoit wrote:
Le 9 février 2021, Den a raconté :

Bref, galère...

Bin non, tu prends un OS moderne. OS X le fait depuis sa version 1
(10.0) en 2001.

C'est de l'ironie, j'espère ? Pas sÍ»r que "mon" W10 soit un OS obsolète...

Vu ce que tu disÂ : ouiÂ !
Maintenant, si c'est compliqué pour profiter de telles fonctionnalitésÂ :
oui^2
--
BenoÍ®t
On pense Í l'étiquette,
Qu'une fois les vendanges faites.

test

4 réponses

Veuillez sélectionner un problème