Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Rechercher/Remplacer par une mise en forme "hétérogène" (suite)

7 réponses
Avatar
--I.
Bonjour,

Merci pour vos réponses à mon précédent message. J'ai une autre question
(niveau "expert-e confirmé-e ultra ++").

Attention, c'est un peu compliqué ! Je vais essayer d'être clair...

Dans le cadre de mes études, je scanne et OCRise des livres. Lors de
l'OCRisation, les italiques sont parfois mal restitués. Certains débordent.

Exemple :
-Dans le livre scanné, la chaîne «a priori, oui», est écrite avec «a priori»
en italique et «, oui» en caractères droits.
-Dans le fichier résultant de l'OCRisation, la virgule et l'espace qui
suivent «a priori» se retrouvent assez systématiquement en italique.

Cela se produit de très très nombreuses fois dans chaque livre OCRisé. Et
rétablir tous les italiques à la main prend énormément de temps.

D'où l'idée de réaliser une macro qui devrait effectuer les opérations
suivantes :
1- repérer les chaînes «, » en italique suivies d'un caractère qui ne soit
pas en italique (c'est important ! [*])
2- changer les chaînes «, » en caractères droits.

Des idées, quelqu'un-e ?...

Merci.

--I.

[*] En effet, quand toute un paragraphe est en italique (par exemple parce
qu'il s'agit d'une citation), il ne faut pas que les «, » soient remplacés
par des caractères droits !

7 réponses

Avatar
Geo

Bonjour,

Merci pour vos réponses à mon précédent message. J'ai une autre question
(niveau "expert-e confirmé-e ultra ++").

Attention, c'est un peu compliqué ! Je vais essayer d'être clair...

Dans le cadre de mes études, je scanne et OCRise des livres. Lors de
l'OCRisation, les italiques sont parfois mal restitués. Certains débordent.

Exemple :
-Dans le livre scanné, la chaîne «a priori, oui», est écrite avec «a priori»
en italique et «, oui» en caractères droits.
-Dans le fichier résultant de l'OCRisation, la virgule et l'espace qui
suivent «a priori» se retrouvent assez systématiquement en italique.

Cela se produit de très très nombreuses fois dans chaque livre OCRisé. Et
rétablir tous les italiques à la main prend énormément de temps.

D'où l'idée de réaliser une macro qui devrait effectuer les opérations
suivantes :
1- repérer les chaînes «, » en italique suivies d'un caractère qui ne soit
pas en italique (c'est important ! [*])
2- changer les chaînes «, » en caractères droits.

[*] En effet, quand toute un paragraphe est en italique (par exemple parce
qu'il s'agit d'une citation), il ne faut pas que les «, » soient remplacés
par des caractères droits !


Il semble manquer quelque chose dans vos spécifications.
Dans votre exemple, il fallait le ",oui" en italique, non ?
Peut-on mettre tout le texte entre guillemets en italique ? Si oui, pas
besoin de macro, sauf si vous devez faire plusieurs fois ces
opérations.
Dans le 2, vous avez l'air de dire que la virgule doit être en
caractères droits.
Un exemple réel en Doc, de document avant et après, avec ce qui faut
faire et ce qu'il ne faut pas modifier, www.cjoint.com ?



--
A+

Avatar
--I.
Bonjour,

Souvent, dans les livres, la convention adoptée est de mettre le texte
étranger (latin, en l'occurrence) en italique. Donc, dans mon exemple de la
chaîne «a priori, oui», seul «a priori» est en italique.

Or, quand j'OCRise un livre, la virgule et l'espace qui suivent «a priori»
apparaissent eux aussi en italique. Ce qui est une erreur du logiciel
d'OCRisation.

D'où la nécessité de créer une macro qui trouve toutes les chaînes «, »
(virgule + espace) en italique et les remplacent par des caractères droits.

Mais là où c'est compliqué, c'est que l'opération ne doit être réalisée QUE
lorsque la chaîne «, » est elle-même suivie d'un caractère droit !

Bref, un vrai casse-tête.

--I.
Avatar
Geo

Bonjour,

Souvent, dans les livres, la convention adoptée est de mettre le texte
étranger (latin, en l'occurrence) en italique. Donc, dans mon exemple de la
chaîne «a priori, oui», seul «a priori» est en italique.

Or, quand j'OCRise un livre, la virgule et l'espace qui suivent «a priori»
apparaissent eux aussi en italique. Ce qui est une erreur du logiciel
d'OCRisation.

D'où la nécessité de créer une macro qui trouve toutes les chaînes «, »
(virgule + espace) en italique et les remplacent par des caractères droits.

Mais là où c'est compliqué, c'est que l'opération ne doit être réalisée QUE
lorsque la chaîne «, » est elle-même suivie d'un caractère droit !

Bref, un vrai casse-tête.

--I.


Ok c'est clair, les guillemets n'étaient là que pour préciser le texte
concerné.
Il n'y a plus qu'à réfléchir pour éviter de faire du bestial (c'est le
plus difficile).
En fait on pourrait reporter la rectitude ou l'italitude du caractère
qui suit le "virgule espace" sur eux-mêmes, exact ?

--
A+

Avatar
Anacoluthe
Bonjour !

'--I.' nous a écrit ...
-Dans le livre scanné, la chaîne «a priori, oui», est écrite avec «a priori»
en italique et «, oui» en caractères droits.
-Dans le fichier résultant de l'OCRisation, la virgule et l'espace qui
suivent «a priori» se retrouvent assez systématiquement en italique.
Cela se produit de très très nombreuses fois dans chaque livre OCRisé. Et
rétablir tous les italiques à la main prend énormément de temps.
D'où l'idée de réaliser une macro qui devrait effectuer les opérations
suivantes :
1- repérer les chaînes «, » en italique suivies d'un caractère qui ne soit
pas en italique (c'est important ! [*])
2- changer les chaînes «, » en caractères droits.


Oui c'est assez sioux :-)
J'aurais mis tous les virgule-espace en droit mébon puisqu'il ne faut pas
je propose les RR suivants :
1) remplacer caractère-virgule-espace-caractère en italique
par caractère-#-virgule-espace-caractère
(?)(, )(?) police italique par 1#23
RR avec caractères génériques
2) remplacer tous virgule-espace par virgule-espace police droite
3) remplacer #-virgule-espace par virgule-espace police italique

Anacoluthe
« Une épouse est irremplaçable pour faire des enfants, et aussi
pour vous tenir au courant quand la voisine a une nouvelle voiture. »
- Groucho MARX

Avatar
--I.
Oui, on pourrait reporter la rectitude ou l'italitude du caractère
qui suit le "virgule espace" sur eux-mêmes, mais seulement à condition que
l'orientation (je ne sais pas si ça se dit) du texte soit différente dans le
"virgule espace" et dans le caractère qui suit.

J'ai mis un exemple ici :
http://cjoint.com/?ltpnb47z4G

--I.

PS : Merci de vous intéresser à mon passionnant problème !
Avatar
--I.
Pourquoi n'y avais-je pas pensé plus tôt ?

C'était tout bête, en fait !

Merci.

--I.
Avatar
Geo

l'orientation (je ne sais pas si ça se dit)


On dit l'orientitude depuis un certain voyage en Orient, mais la
plaisanterie ne vaut que si vous êtes français.

Bon, j'ai vu que Anacoluthe avait sortie la pierre à aiguiser le
rechercher/remplacer, on considère que le sujet est clos ?

--
A+