Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

rechercher mots en majuscule

13 réponses
Avatar
exagone69
Bonjour

Pour établir un index alphabétique j'ai besoin de rechercher tous les
mots de mon document (sous Word 2007) qui sont en majuscule

Merci de m'aider

Francis Gros

3 réponses

1 2
Avatar
Circ
Bonsoir Thierry,

Thierry Fontenelle [MSFT] a formulé ce lundi :
Bonjour,

La recherche de caractères peut se faire sur les mots entiers.


Pas lorsqu'on utilise les caractères génériques.

Tout le
problème est que la notion de « mot » est difficilement définissable.
Qu’est-ce qu’un mot ? Dans « l’UNESCO », on a probablement deux mots (l’ +
UNESCO) et l’apostrophe est ici un caractère séparable (mais elle ne l’est
pas toujours : dans aujourd’hui, il n’y a qu’un mot et on ne considère pas
aujourd’ comme un mot distinct).
Dans l’expression régulière que donne Dom dans son autre réponse, si on
utilise le < pour signaler qu’on veut des majuscules au début de la chaine de
caractères, on ne repère justement pas l’UNESCO, l’ONU, d’ESB, etc… D’où ma
suggestion de ne pas utiliser le <.

A propos, pour le séparateur de liste, Dom a raison : c’est le point virgule
pour la version française. Quand je l’ai essayé sur ma machine, ça ne marche
pas parce que j’utilisais une version anglaise, où le séparateur pour les USA
est la virgule : donc, pour moi, je dois utiliser [A-Z]{2,} alors que pour
vous, qui êtes en France, vous devez utiliser [A-Z]{2;}.


Oui, pour la France (et par défaut), c'est bien le ;

Pour Dom


ahhh tu parles de la tisane au goût de venin, celle qui croit qu'en
changeant de pseudo ET de sexe (lol !!) on change aussi son naturel !!!
:D)))) mais elle continue à faire la directrice-distributrice de bons
points de de punitions...
Désolée, Thierry, je te l'ai déjà expliqué, j'ai plonquée depuis
longtemps ses propos haineux et donc ne lis jamais ce qu'elle écrit,
sauf au hasard d'une réponse où traîne sa prose... Mais j'évite !! Et
je ne suis pas la seule !!

, je précise que l’expression que tu préconises :
<[A-Z;';-]{2;}
repère aussi des mots dont seule la première lettre est en majuscule et où
l’utilisateur a utilisé une apostrophe comme guillemet (par exemple comme
dans une citation bibliographique : ‘Computer-related… blabla’ ou ‘C
correspond au patron. Cette expression repère aussi un article élidé en
majuscule suivi d’une apostrophe, comme L’étudiant ou J’ai, en début de
phrase, alors que l’on souhaite surtout avoir tous les mots entièrement en
majuscules. Il y a donc du bruit (on repère trop) et du silence (on ne repère
pas assez, puisqu’on ne repère pas une chaine comme l’ONU).

Comme on le voit, ce problème des apostrophes et des traits d’union empêche
de déterminer facilement ce qu’est un mot (un ‘token’, diraient les
linguistes-informaticiens). C’est aussi ce qui explique qu’il est préférable
de laisser à l’utilisateur définir lui-même ce qu’il recherche. Une
heuristique pour le français ne marchera pas pour l’anglais ou l’allemand.

Pour ceux que ça intéresse, voici un billet (en anglais) que j’avais écrit
sur la difficulté de définir le « mot » avec ces caractères comme les
apostrophes ou les traits d’union qui n’ont pas le même statut dans tous les
contextes.
http://blogs.msdn.com/correcteurorthographiqueoffice/archive/2005/12/07/identifying-tokens-is-word-breaking-so-easy.aspx

Passionnant, n'est-il pas? ;-)


Absolument.
Je te remercie pour tout. Tes interventions sont toujours toutes
passionnantes ! ;)

Bonne fin de journée,

Circé
http://faqword.free.fr

Bonne soirée,

Thierry

Thierry Fontenelle [MSFT]
Microsoft Natural Language Group


"Circé" wrote:

Hello Thierry ;)

Bonjour,

Dans ma version, je dois utiliser la virgule et pas le point-virgule pour
indiquer le nombre d’occurrences du patron. J’utiliserais donc :
[A-Z]{2,}
pour repérer les chaines de minimum 2 lettres en majuscules. Vu la
fréquence élevée des apostrophes et articles élidés en français, je
conseillerais probablement de ne pas utiliser le signe < devant
l’expression régulière, ce qui permettra de repérer des mots en majuscules
précédés de l’ ou d’, comme dans l’UNESCO ou l’ONU.


Je découvre seulement ton post ! Tu as raison, j'ai sauté sur mon
clavier trop vite !!! ;))

Exagone69 qui a posé la question n'a pas l'air plus intéressé que ça
par la réponse... ;) je précise néanmoins pour ceux que ça intéresse
que le signe < indique le début d'un mot et que le signe > indique la
fin d'un mot... Au milieu on peut avoir n'importe quoi... Donc
effectivement l'idée de préciser le nombre minimum de caractères en
majuscules est la bonne.

Il est dommage que la recherche avec les caractères génériques ne
puisse pas se faire sur des mots entiers... Crois-tu qu'il soit
envisageable de penser à ça ?

Bon dimanche,


Euh... bon lundi à toi !!! ;)))

Circé



Thierry
Thierry Fontenelle [MSFT]





Bonjour

Pour établir un index alphabétique j'ai besoin de rechercher tous les
mots de mon document (sous Word 2007) qui sont en majuscule

Merci de m'aider


Regardez la conversation "extraction mots" du 3 avril.
Ça devrait vous donner des orientations.

Bonjour


Oui effectivement
J'ai presque réussi à générer l'index alphabétique que je souhaitais
J'ai juste un petit problème

Pour bien comprendre je reprends l'ensemble du problème
un document sous word 2007 comporte 145 pages
dont voici un court extrait :

381 Agnès NOLHAC ° 1633
+ 28/11/1708 Soucieu-en-Jarrest (69)
382 Benoît GRANJON ° ca 1645
+ 26/07/1684 Soucieu-en-Jarrest (69)
383 x 18/12/1667 Lyon (69)

les numéros, les prénoms et noms sont en caractères arial gras
Il s'agit de réaliser un index alphabétique
J'ai appliqué la méthode préconisée :


1- Rechercher les mots gras et italique (par exemple), et en activant
l'option Surligner tous les éléments trouvés
2- Copier tous les mots trouvés dans un autre document pour en faire un
fichier de concordance
3- Exécuter l'indexation grâce au fichier de concordance grâce au bouton
Marquage auto de la boite de dialogue Index
4- Générer l'index


Quand je fais l'opération 2 "copier" je fais d'abord "sélectionner le
texte ayant une mise en forme semblable"
et j'obtiens :

Agnès NOLHAC
Benoît GRANJON

et à la fin j'ai bien un index alphabétique sur les prénoms
C'est un index alphabétique sur les noms que je voudrai

dans l'opération 1 je n'arrive pas à obtenir seulement les mots en
majuscule.

Sinon la solution préconisée est vraiment géniale
à+

Francis Gros

















Avatar
Dom
D'après l'exemple donné, s'il y a peu de risque d'avoir des noms encadrés par
des guillemets ou apostrophes, le problème reste en effet entier avec un
article élidé suivi de minuscules, puisque cette liste est intégrée dans un
document de 145 pages qui comportent sûrement du texte standard.
A moins de porter le minimum à 3 caractères {3;}, mais on risque passer à
côté de noms propres composés de 2 lettres seulement, et il peut y en avoir.

Francis a suffisamment d'outils maintenant pour faire son choix selon le
contenu de son fichier. Il peut même traiter son document en 2 passes si
nécessaire.

Merci pour ton article qui permet de comprendre la difficulté du mot.

Dom



Bonjour,

La recherche de caractères peut se faire sur les mots entiers. Tout le
problème est que la notion de « mot » est difficilement définissable.
Qu’est-ce qu’un mot ? Dans « l’UNESCO », on a probablement deux mots (l’ +
UNESCO) et l’apostrophe est ici un caractère séparable (mais elle ne l’est
pas toujours : dans aujourd’hui, il n’y a qu’un mot et on ne considère pas
aujourd’ comme un mot distinct).
Dans l’expression régulière que donne Dom dans son autre réponse, si on
utilise le < pour signaler qu’on veut des majuscules au début de la chaine de
caractères, on ne repère justement pas l’UNESCO, l’ONU, d’ESB, etc… D’où ma
suggestion de ne pas utiliser le <.

A propos, pour le séparateur de liste, Dom a raison : c’est le point virgule
pour la version française. Quand je l’ai essayé sur ma machine, ça ne marche
pas parce que j’utilisais une version anglaise, où le séparateur pour les USA
est la virgule : donc, pour moi, je dois utiliser [A-Z]{2,} alors que pour
vous, qui êtes en France, vous devez utiliser [A-Z]{2;}.

Pour Dom, je précise que l’expression que tu préconises :
<[A-Z;';-]{2;}
repère aussi des mots dont seule la première lettre est en majuscule et où
l’utilisateur a utilisé une apostrophe comme guillemet (par exemple comme
dans une citation bibliographique : ‘Computer-related… blabla’ ou ‘C
correspond au patron. Cette expression repère aussi un article élidé en
majuscule suivi d’une apostrophe, comme L’étudiant ou J’ai, en début de
phrase, alors que l’on souhaite surtout avoir tous les mots entièrement en
majuscules. Il y a donc du bruit (on repère trop) et du silence (on ne repère
pas assez, puisqu’on ne repère pas une chaine comme l’ONU).

Comme on le voit, ce problème des apostrophes et des traits d’union empêche
de déterminer facilement ce qu’est un mot (un ‘token’, diraient les
linguistes-informaticiens). C’est aussi ce qui explique qu’il est préférable
de laisser à l’utilisateur définir lui-même ce qu’il recherche. Une
heuristique pour le français ne marchera pas pour l’anglais ou l’allemand.

Pour ceux que ça intéresse, voici un billet (en anglais) que j’avais écrit
sur la difficulté de définir le « mot » avec ces caractères comme les
apostrophes ou les traits d’union qui n’ont pas le même statut dans tous les
contextes.
http://blogs.msdn.com/correcteurorthographiqueoffice/archive/2005/12/07/identifying-tokens-is-word-breaking-so-easy.aspx

Passionnant, n'est-il pas? ;-)

Bonne soirée,

Thierry

Thierry Fontenelle [MSFT]
Microsoft Natural Language Group


"Circé" wrote:

Hello Thierry ;)

Bonjour,

Dans ma version, je dois utiliser la virgule et pas le point-virgule pour
indiquer le nombre d’occurrences du patron. J’utiliserais donc :
[A-Z]{2,}
pour repérer les chaines de minimum 2 lettres en majuscules. Vu la fréquence
élevée des apostrophes et articles élidés en français, je conseillerais
probablement de ne pas utiliser le signe < devant l’expression régulière, ce
qui permettra de repérer des mots en majuscules précédés de l’ ou d’, comme
dans l’UNESCO ou l’ONU.


Je découvre seulement ton post ! Tu as raison, j'ai sauté sur mon
clavier trop vite !!! ;))

Exagone69 qui a posé la question n'a pas l'air plus intéressé que ça
par la réponse... ;) je précise néanmoins pour ceux que ça intéresse
que le signe < indique le début d'un mot et que le signe > indique la
fin d'un mot... Au milieu on peut avoir n'importe quoi... Donc
effectivement l'idée de préciser le nombre minimum de caractères en
majuscules est la bonne.

Il est dommage que la recherche avec les caractères génériques ne
puisse pas se faire sur des mots entiers... Crois-tu qu'il soit
envisageable de penser à ça ?

Bon dimanche,


Euh... bon lundi à toi !!! ;)))

Circé



Thierry
Thierry Fontenelle [MSFT]





Bonjour

Pour établir un index alphabétique j'ai besoin de rechercher tous les
mots de mon document (sous Word 2007) qui sont en majuscule

Merci de m'aider


Regardez la conversation "extraction mots" du 3 avril.
Ça devrait vous donner des orientations.

Bonjour


Oui effectivement
J'ai presque réussi à générer l'index alphabétique que je souhaitais
J'ai juste un petit problème

Pour bien comprendre je reprends l'ensemble du problème
un document sous word 2007 comporte 145 pages
dont voici un court extrait :

381 Agnès NOLHAC ° 1633
+ 28/11/1708 Soucieu-en-Jarrest (69)
382 Benoît GRANJON ° ca 1645
+ 26/07/1684 Soucieu-en-Jarrest (69)
383 x 18/12/1667 Lyon (69)

les numéros, les prénoms et noms sont en caractères arial gras
Il s'agit de réaliser un index alphabétique
J'ai appliqué la méthode préconisée :


1- Rechercher les mots gras et italique (par exemple), et en activant
l'option Surligner tous les éléments trouvés
2- Copier tous les mots trouvés dans un autre document pour en faire un
fichier de concordance
3- Exécuter l'indexation grâce au fichier de concordance grâce au bouton
Marquage auto de la boite de dialogue Index
4- Générer l'index


Quand je fais l'opération 2 "copier" je fais d'abord "sélectionner le
texte ayant une mise en forme semblable"
et j'obtiens :

Agnès NOLHAC
Benoît GRANJON

et à la fin j'ai bien un index alphabétique sur les prénoms
C'est un index alphabétique sur les noms que je voudrai

dans l'opération 1 je n'arrive pas à obtenir seulement les mots en
majuscule.

Sinon la solution préconisée est vraiment géniale
à+

Francis Gros

















Avatar
Dom
ahhh tu parles de la tisane au goût de venin, celle qui croit qu'en
changeant de pseudo ET de sexe (lol !!) on change aussi son naturel !!!
:D)))) mais elle continue à faire la directrice-distributrice de bons
points de de punitions...


L'obsession est une maladie. Elle se soigne mais pas avec de la tisane,
c'est sûr, même si je n'ai pas vraiment compris le film.

Pourquoi fais-tu tout pour décourager les bonnes volontés et chasser ceux
qui souhaitent aider ? Manques-tu à ce point d'assurance ? J'ai lu quelques
unes de tes ripostes à des personnes (pas tes amis bien sûr) qui donnaient
une mauvaise réponse. Les pauvres ! A te dégoûter de faire du bénévolat.

Alors, oui, je risposte sur le même ton. Tu ne me lis pas, même en différé ?
Tu ne le feras croire à personne.

Maintenant tu peux parler de venin :)

Dom



Bonsoir Thierry,

Thierry Fontenelle [MSFT] a formulé ce lundi :
Bonjour,

La recherche de caractères peut se faire sur les mots entiers.


Pas lorsqu'on utilise les caractères génériques.

Tout le
problème est que la notion de « mot » est difficilement définissable.
Qu’est-ce qu’un mot ? Dans « l’UNESCO », on a probablement deux mots (l’ +
UNESCO) et l’apostrophe est ici un caractère séparable (mais elle ne l’est
pas toujours : dans aujourd’hui, il n’y a qu’un mot et on ne considère pas
aujourd’ comme un mot distinct).
Dans l’expression régulière que donne Dom dans son autre réponse, si on
utilise le < pour signaler qu’on veut des majuscules au début de la chaine de
caractères, on ne repère justement pas l’UNESCO, l’ONU, d’ESB, etc… D’où ma
suggestion de ne pas utiliser le <.

A propos, pour le séparateur de liste, Dom a raison : c’est le point virgule
pour la version française. Quand je l’ai essayé sur ma machine, ça ne marche
pas parce que j’utilisais une version anglaise, où le séparateur pour les USA
est la virgule : donc, pour moi, je dois utiliser [A-Z]{2,} alors que pour
vous, qui êtes en France, vous devez utiliser [A-Z]{2;}.


Oui, pour la France (et par défaut), c'est bien le ;

Pour Dom


ahhh tu parles de la tisane au goût de venin, celle qui croit qu'en
changeant de pseudo ET de sexe (lol !!) on change aussi son naturel !!!
:D)))) mais elle continue à faire la directrice-distributrice de bons
points de de punitions...
Désolée, Thierry, je te l'ai déjà expliqué, j'ai plonquée depuis
longtemps ses propos haineux et donc ne lis jamais ce qu'elle écrit,
sauf au hasard d'une réponse où traîne sa prose... Mais j'évite !! Et
je ne suis pas la seule !!

, je précise que l’expression que tu préconises :
<[A-Z;';-]{2;}
repère aussi des mots dont seule la première lettre est en majuscule et où
l’utilisateur a utilisé une apostrophe comme guillemet (par exemple comme
dans une citation bibliographique : ‘Computer-related… blabla’ ou ‘C
correspond au patron. Cette expression repère aussi un article élidé en
majuscule suivi d’une apostrophe, comme L’étudiant ou J’ai, en début de
phrase, alors que l’on souhaite surtout avoir tous les mots entièrement en
majuscules. Il y a donc du bruit (on repère trop) et du silence (on ne repère
pas assez, puisqu’on ne repère pas une chaine comme l’ONU).

Comme on le voit, ce problème des apostrophes et des traits d’union empêche
de déterminer facilement ce qu’est un mot (un ‘token’, diraient les
linguistes-informaticiens). C’est aussi ce qui explique qu’il est préférable
de laisser à l’utilisateur définir lui-même ce qu’il recherche. Une
heuristique pour le français ne marchera pas pour l’anglais ou l’allemand.

Pour ceux que ça intéresse, voici un billet (en anglais) que j’avais écrit
sur la difficulté de définir le « mot » avec ces caractères comme les
apostrophes ou les traits d’union qui n’ont pas le même statut dans tous les
contextes.
http://blogs.msdn.com/correcteurorthographiqueoffice/archive/2005/12/07/identifying-tokens-is-word-breaking-so-easy.aspx

Passionnant, n'est-il pas? ;-)


Absolument.
Je te remercie pour tout. Tes interventions sont toujours toutes
passionnantes ! ;)

Bonne fin de journée,

Circé
http://faqword.free.fr

Bonne soirée,

Thierry

Thierry Fontenelle [MSFT]
Microsoft Natural Language Group


"Circé" wrote:

Hello Thierry ;)

Bonjour,

Dans ma version, je dois utiliser la virgule et pas le point-virgule pour
indiquer le nombre d’occurrences du patron. J’utiliserais donc :
[A-Z]{2,}
pour repérer les chaines de minimum 2 lettres en majuscules. Vu la
fréquence élevée des apostrophes et articles élidés en français, je
conseillerais probablement de ne pas utiliser le signe < devant
l’expression régulière, ce qui permettra de repérer des mots en majuscules
précédés de l’ ou d’, comme dans l’UNESCO ou l’ONU.


Je découvre seulement ton post ! Tu as raison, j'ai sauté sur mon
clavier trop vite !!! ;))

Exagone69 qui a posé la question n'a pas l'air plus intéressé que ça
par la réponse... ;) je précise néanmoins pour ceux que ça intéresse
que le signe < indique le début d'un mot et que le signe > indique la
fin d'un mot... Au milieu on peut avoir n'importe quoi... Donc
effectivement l'idée de préciser le nombre minimum de caractères en
majuscules est la bonne.

Il est dommage que la recherche avec les caractères génériques ne
puisse pas se faire sur des mots entiers... Crois-tu qu'il soit
envisageable de penser à ça ?

Bon dimanche,


Euh... bon lundi à toi !!! ;)))

Circé



Thierry
Thierry Fontenelle [MSFT]





Bonjour

Pour établir un index alphabétique j'ai besoin de rechercher tous les
mots de mon document (sous Word 2007) qui sont en majuscule

Merci de m'aider


Regardez la conversation "extraction mots" du 3 avril.
Ça devrait vous donner des orientations.

Bonjour


Oui effectivement
J'ai presque réussi à générer l'index alphabétique que je souhaitais
J'ai juste un petit problème

Pour bien comprendre je reprends l'ensemble du problème
un document sous word 2007 comporte 145 pages
dont voici un court extrait :

381 Agnès NOLHAC ° 1633
+ 28/11/1708 Soucieu-en-Jarrest (69)
382 Benoît GRANJON ° ca 1645
+ 26/07/1684 Soucieu-en-Jarrest (69)
383 x 18/12/1667 Lyon (69)

les numéros, les prénoms et noms sont en caractères arial gras
Il s'agit de réaliser un index alphabétique
J'ai appliqué la méthode préconisée :


1- Rechercher les mots gras et italique (par exemple), et en activant
l'option Surligner tous les éléments trouvés
2- Copier tous les mots trouvés dans un autre document pour en faire un
fichier de concordance
3- Exécuter l'indexation grâce au fichier de concordance grâce au bouton
Marquage auto de la boite de dialogue Index
4- Générer l'index


Quand je fais l'opération 2 "copier" je fais d'abord "sélectionner le
texte ayant une mise en forme semblable"
et j'obtiens :

Agnès NOLHAC
Benoît GRANJON

et à la fin j'ai bien un index alphabétique sur les prénoms
C'est un index alphabétique sur les noms que je voudrai

dans l'opération 1 je n'arrive pas à obtenir seulement les mots en
majuscule.

Sinon la solution préconisée est vraiment géniale
à+

Francis Gros






















1 2