OVH Cloud OVH Cloud

test

94 réponses
Avatar
Jean-Louis Hamel
test

10 réponses

6 7 8 9 10
Avatar
Ghost-Raider
Le 08/02/2021 Í  19:02, Den a écrit :
Ghost-Raider wrote:
Tout-Í -fait, comme déjÍ  écrit :
- d'une part, je scanne tous les papiers, je les mets dans une base
documentaire hiérarchisée et je vire les originaux, j'ai donc des
dizaines de milliers de documents PDF indexés dans mon PC, que je
retrouve en un clin d’œil ; je ne garde que les originaux papiers de
permis de conduire, carte grises etc... Un PDF fait foi en justice. Ma
base documentaire contient 62794 fichiers dans 5214 dossiers pour 88 622
499 367 octets. Elle ne contient pas le dossier TB profile.
- d'autre part, toute ma correspondance est gérée dans TB dans des
dossiers, sous-dossiers, sous-sous-dossiers etc... Les fichiers reçus
sont classés en PDF dans ma base documentaire et éventuellement je
classe dans ma base documentaire les messages EML eux-mêmes.
L'analyse Windows Search sur le corps des documents est précieuse en cas
de besoin.
Ça marche très bien. J'espère arriver bientÍ´t au quasi zéro papier quand
j'aurai fini de scanner tout l'antérieur.

Je ne comprends pas bien : c'est windows qui fait l'indexation ?

Oui, Windows Search.
Et
comment faire si l'information n'est pas dans le corps du mail mais dans
le pdf attaché ?

Je n'ai pas cherché Í  savoir si le PDF attaché est aussi analysé, en
fait, je ne le pense pas mais c'est Í  vérifier. Je sauvegarde tous les
PDF Í  part, mais pour qu'un PDF soit analysé, il faut qu'il soit indexé,
ce qui n'est pas le cas de tous.
Remarque : la recherche Windows Í  partir de l'explorateur ne fonctionne
pas bien, mais c'est une autre histoire.

En fait elle marche mais des fois, elle ne semble pas marcher, mais en
fait elle marche quand même.
En revanche, la recherche des fichiers dans l'explorateur fonctionne
assez mal.
--
Ils y reviendront, au cheval, ils y reviendront !
Avatar
Ghost-Raider
Le 08/02/2021 Í  20:33, Ghost-Raider a écrit :
Le 08/02/2021 Í  19:02, Den a écrit :
Ghost-Raider wrote:
Tout-Í -fait, comme déjÍ  écrit :
- d'une part, je scanne tous les papiers, je les mets dans une base
documentaire hiérarchisée et je vire les originaux, j'ai donc des
dizaines de milliers de documents PDF indexés dans mon PC, que je
retrouve en un clin d’œil ; je ne garde que les originaux papiers de
permis de conduire, carte grises etc... Un PDF fait foi en justice. Ma
base documentaire contient 62794 fichiers dans 5214 dossiers pour 88 622
499 367 octets. Elle ne contient pas le dossier TB profile.
- d'autre part, toute ma correspondance est gérée dans TB dans des
dossiers, sous-dossiers, sous-sous-dossiers etc... Les fichiers reçus
sont classés en PDF dans ma base documentaire et éventuellement je
classe dans ma base documentaire les messages EML eux-mêmes.
L'analyse Windows Search sur le corps des documents est précieuse en cas
de besoin.
Ça marche très bien. J'espère arriver bientÍ´t au quasi zéro papier quand
j'aurai fini de scanner tout l'antérieur.

Je ne comprends pas bien : c'est windows qui fait l'indexation ?

Oui, Windows Search.
Et
comment faire si l'information n'est pas dans le corps du mail mais dans
le pdf attaché ?

Je n'ai pas cherché Í  savoir si le PDF attaché est aussi analysé, en
fait, je ne le pense pas mais c'est Í  vérifier. Je sauvegarde tous les
PDF Í  part, mais pour qu'un PDF soit analysé, il faut qu'il soit indexé,
ce qui n'est pas le cas de tous.
Remarque : la recherche Windows Í  partir de l'explorateur ne fonctionne
pas bien, mais c'est une autre histoire.

En fait elle marche mais des fois, elle ne semble pas marcher, mais en
fait elle marche quand même.

Désolé, je parlais lÍ  de la recherche Windows 10
En revanche, la recherche des fichiers dans l'explorateur fonctionne
assez mal.

Et lÍ  de la recherche par l'explorateur..
--
Ils y reviendront, au cheval, ils y reviendront !
Avatar
Benoit
Le 8 février 2021, Ghost-Raider se permit de dire :
Je n'ai pas cherché Í  savoir si le PDF attaché est aussi analysé, en
fait, je ne le pense pas mais c'est Í  vérifier. Je sauvegarde tous les
PDF Í  part, mais pour qu'un PDF soit analysé, il faut qu'il soit indexé,
ce qui n'est pas le cas de tous.

Si ton pdf est un scan alors non, sauf Í  avoir un scanneur qui fasse de
l'OCR et qui ajoute le texte brut dans le fichier. Pour les pdf générés
Í  partir d'un traitement de texte, base de données (genre facture...) lÍ 
il n'y a pas de problème : le texte est écrit en toute lettre dans le
fichier avec les polices de caractères nécessaires Í  l'affichage (sauf
cas très particuliers).
Un truc : le postscript est un langage de programmation et le pdf pas
loin.
--
Vie : n. f. Maladie mortelle sexuellement transmissible
benoit chez leraillez.com
Avatar
Alf92
Stephane Legras-Decussy (le 08/02/2021 Í  20:06:48) :
On 02/08/2021 11:56 AM, Alf92 wrote:
tu as une CG particulière acec 2 sorties, ou tu branches l'un en VGA,
l'autre en HDMI/DVI ?

aucun rapport mais j'ai retrouvé comment afficher gmail en inversé chrono :
laisser le curseur de souris sur le texte haut droit qui affiche
par exemple 1-50 of 3000
ça ouvre un menu oldest / newest... il suffit de cliquer sur oldest.

ouiiii
excellent
j'ai relu des mails d'avril 2004 !
Avatar
Ghost-Raider
Le 08/02/2021 Í  21:20, Benoit a écrit :
Le 8 février 2021, Ghost-Raider se permit de dire :
Je n'ai pas cherché Í  savoir si le PDF attaché est aussi analysé, en
fait, je ne le pense pas mais c'est Í  vérifier. Je sauvegarde tous les
PDF Í  part, mais pour qu'un PDF soit analysé, il faut qu'il soit indexé,
ce qui n'est pas le cas de tous.

Si ton pdf est un scan alors non, sauf Í  avoir un scanneur qui fasse de
l'OCR et qui ajoute le texte brut dans le fichier.

Tous les scanners, même anciens, embarquent un logiciel d'OCR dans leur
panoplie qui permet d'obtenir un PDF indexé.
Le texte brut du corps du PDF ne figure pas dans le fichier PDF, qu'il
soit indexé ou non, il est codé, non lisible par un éditeur hexadécimal.
Les seules zones lisibles sont les commentaires ajoutés dans les zones
modifiables et effaçables de commentaires.
Le PDF indexé est un peu plus lourd.
Pour les pdf générés
Í  partir d'un traitement de texte, base de données (genre facture...) lÍ 
il n'y a pas de problème : le texte est écrit en toute lettre dans le
fichier avec les polices de caractères nécessaires Í  l'affichage (sauf
cas très particuliers).

Seuls les fichiers TXT et RTF embarquent le texte en toutes lettres.
Les PDF, DOC, ODT, ODS, XLS etc. embarquent un corps de texte codé, non
lisible par un éditeur hexadécimal. Les PDF qui en sont issus sont dans
le même cas : illisibles.
Un truc : le postscript est un langage de programmation et le pdf pas
loin.

Un truc ? Quel truc ?
--
Ils y reviendront, au cheval, ils y reviendront !
Avatar
Benoit
Le 9 février 2021, Ghost-Raider osa écrire :
Seuls les fichiers TXT et RTF embarquent le texte en toutes lettres.
Les PDF, DOC, ODT, ODS, XLS etc. embarquent un corps de texte codé, non
lisible par un éditeur hexadécimal. Les PDF qui en sont issus sont dans
le même cas : illisibles.

C'est marrant, mais sur mon Mac une recherche de texte dans le système
m'affiche des pdfs. Faudrait passer Í  un truc plus moderne et revoir tes
connaissances. Ils sont tout Í  fait lisible, mais pas par toi.
<https://www.cjoint.com/doc/21_02/KBjoLbev1BK_Capture-Ecran1.jpg>
Copier coller depuis un pdf :
[...]
1. INTERNATIONAL MOTOR INSURANCE CARD 2. EMISE AVEC L'AUTORISATION DU
BUREAU CENTRAL 1. CARTE INTERNATIONALE D'ASSURANCE AUTOMOBILE FRANCAIS
3. VALABLE DU
4. Code pays / Code assureur / Numéro
AU
JourMoisAnnée JourMoisAnnée991318404
19/01/21 01/05/21 F943
[...]
Si on ouvre le pdf on ne «Â lit » rien parce que c'est compressé :
1. Le texte est compressé.
2. La police de caractère est incluse, compressée et réduite aux
caractères utilisés (peut-être un peu plus). Un pdf contenant une seul
lettre fait 12 Ko.
Et il sait lire beaucoup de choses dans les fichiers, un extrait :
<https://www.cjoint.com/doc/21_02/KBjpwiPFpJK_Capture-Ecran2.jpg>
En plus la recherche peut être sauvegardée telle un dossier qui se met Í 
jour toute seule au fil du temps.
J'ai ce genre de «Â dossiers » concernant des dates (dernières
semaines...), des mots clefs, et un pointant sur ma liste de définitions
et synonymes d'argot : je l'ouvre, je tape un mot et j'ai des synonymes.
Avec pas loin de 100 000 documents (un par mot) je trouve et redécouvre
pas mal de choses.
J'aimerais bien le réduire en supprimant les doublons, mais c'est un
travail de titan. Il faudrait que je me remette Í  coder pour ce faire :
pas le courage.
--
Benoͮt
Seuls les idéaux ne changent jamais d'avis.
Avatar
Ghost-Raider
Le 09/02/2021 Í  16:33, Benoit a écrit :
Le 9 février 2021, Ghost-Raider osa écrire :
Seuls les fichiers TXT et RTF embarquent le texte en toutes lettres.
Les PDF, DOC, ODT, ODS, XLS etc. embarquent un corps de texte codé, non
lisible par un éditeur hexadécimal. Les PDF qui en sont issus sont dans
le même cas : illisibles.

C'est marrant, mais sur mon Mac une recherche de texte dans le système
m'affiche des pdfs. Faudrait passer Í  un truc plus moderne et revoir tes
connaissances. Ils sont tout Í  fait lisible, mais pas par toi.
<https://www.cjoint.com/doc/21_02/KBjoLbev1BK_Capture-Ecran1.jpg>

Ton image ne prouve rien, elle montre simplement que ton Mac affiche une
imagette du fichier PDF et contient donc un logiciel qui le lit, comme
le ferait le logiciel de PDF lui-même, mais elle ne montre pas le texte
qui est dedans sous une forme qui serait exploitable hors logiciel de PDF..
Copier coller depuis un pdf :
[...]
1. INTERNATIONAL MOTOR INSURANCE CARD 2. EMISE AVEC L'AUTORISATION DU
BUREAU CENTRAL 1. CARTE INTERNATIONALE D'ASSURANCE AUTOMOBILE FRANCAIS
3. VALABLE DU
4. Code pays / Code assureur / Numéro
AU
JourMoisAnnée JourMoisAnnée991318404
19/01/21 01/05/21 F943
[...]

Tu ne prouves rien. Il faut le PDF lui-même pour voir si ce texte est en
clair dedans, ou non, car c'est ce que tu as dit.
Si on ouvre le pdf on ne «Â lit » rien parce que c'est compressé :
1. Le texte est compressé.
2. La police de caractère est incluse, compressée et réduite aux
caractères utilisés (peut-être un peu plus). Un pdf contenant une seul
lettre fait 12 Ko.

VoilÍ , c'est exactement ce que je dis : le texte est compressé et est
illisible par un éditeur héxa.
Il n'est donc pas lisible sans décompression, ni modifiable.
Et d'ailleurs, c'est parfaitement compréhensible : si les PDF étaient
lisibles en héxa, ils seraient facilement modifiables, ce qui leur
enlèverait toute force probante.
Tout ça pour dire qu'Í  mon avis, ce qui est mon souci, la recherche
Windows ne scrute pas les textes des PDF, ni les autres DOC, XLS,
etc..mais je vais aller plus loin.
J'ai créé des fichiers PDF ce matin avec des mots inconnus, j'attends de
voir si ces mots sont repérés par la recherche Windows.
Et il sait lire beaucoup de choses dans les fichiers, un extrait :
<https://www.cjoint.com/doc/21_02/KBjpwiPFpJK_Capture-Ecran2.jpg>

Oui, mais encore une fois, ce n'est pas le texte. Ce sont les zones.
En plus la recherche peut être sauvegardée telle un dossier qui se met Í 
jour toute seule au fil du temps.
J'ai ce genre de «Â dossiers » concernant des dates (dernières
semaines...), des mots clefs, et un pointant sur ma liste de définitions
et synonymes d'argot : je l'ouvre, je tape un mot et j'ai des synonymes.
Avec pas loin de 100 000 documents (un par mot) je trouve et redécouvre
pas mal de choses.
J'aimerais bien le réduire en supprimant les doublons, mais c'est un
travail de titan. Il faudrait que je me remette Í  coder pour ce faire :
pas le courage.

Tu veux coder un logiciel PDF ? Bon courage !
--
Ils y reviendront, au cheval, ils y reviendront !
Avatar
efji
Le 09/02/2021 Í  17:07, Ghost-Raider a écrit :
Tu veux coder un logiciel PDF ? Bon courage !

Ca dépend de ce que tu veux faire. Le PostScript est un langage
parfaitement codable par un humain, et ensuite il suffit de traduire le
ps en pdf.
--
F.J.
Avatar
Den
Ghost-Raider wrote:
Tout ça pour dire qu'Í  mon avis, ce qui est mon souci, la recherche
Windows ne scrute pas les textes des PDF, ni les autres DOC, XLS,
etc..mais je vais aller plus loin.
J'ai créé des fichiers PDF ce matin avec des mots inconnus, j'attends de
voir si ces mots sont repérés par la recherche Windows.
Tu veux coder un logiciel PDF ? Bon courage !

Donc retour Í  la case départ : si on veut retrouver ses pdf Í  partir de
leur contenu (recherche "plein texte") il faut les indexer et mettre
tout ça dans une base de données. La recherche n'est rapide et efficace
que si les mots clés sont bien choisis, structurés etc. L'intelligence
est dans le thésaurus qu'on construit (ou celui qu'on achète). Un boulot
de ouf, chronophage au possible.
Bref, galère...
Den
Avatar
Benoit
Le 9 février 2021, Den a raconté :
Ghost-Raider wrote:
Tout ça pour dire qu'Í  mon avis, ce qui est mon souci, la recherche
Windows ne scrute pas les textes des PDF, ni les autres DOC, XLS,
etc..mais je vais aller plus loin.
J'ai créé des fichiers PDF ce matin avec des mots inconnus, j'attends de
voir si ces mots sont repérés par la recherche Windows.

Tu veux coder un logiciel PDF ? Bon courage !

Donc retour Í  la case départ : si on veut retrouver ses pdf Í  partir de
leur contenu (recherche "plein texte") il faut les indexer et mettre
tout ça dans une base de données. La recherche n'est rapide et efficace
que si les mots clés sont bien choisis, structurés etc. L'intelligence
est dans le thésaurus qu'on construit (ou celui qu'on achète). Un boulot
de ouf, chronophage au possible.
Bref, galère...

Bin non, tu prends un OS moderne. OS X le fait depuis sa version 1
(10.0) en 2001.
Et il fait des fichiers cachés pour chaque dossier avec ces infos. Si
besoin, une «Â recompilation » est longue, mais après c'est Í  la création
et modification d'un fichier que c'est mis Í  jour.
Le thesaurus est simple, regarde les différents critères intégrés au
système dans un de mes copies d'écran :
<https://www.cjoint.com/doc/21_02/KBjpwiPFpJK_Capture-Ecran2.jpg>
--
Benoͮt Leraillez
Seuls les poissons morts suivent le courant
6 7 8 9 10