OVH Cloud OVH Cloud

[RegExp?/Templates?] Traitement de texte

1 réponse
Avatar
Eclice
Bonjour à tou(te)s,

Je dois analyser des textes qui ont le canevas suivant :

blabla 0

séparateur 1

titre 1

blabla 1

séparateur 2

titre 2

texte 1

sous-séparateur 1

texte 2

sous-séparateur 2

texte 3

sous-séparateur 3

texte 4

séparateur 2

[...]

Ce qui m'intéresse : extraire le contenu des différents textes : texte
1, texte 2, texte 3, texte 4, ..., pour ensuite pouvoir travailler
dessus.

Les séparateurs et sous-séparateurs sont des chaînes de caractères
différentes, mais qui peuvent être décrites par une expression
régulière.

J'ai déjà un petit script Perl "quick and dirty", pas très joli à base
de if et elsif multiples, de variables pour tracer où on est dans le
texte (il provient de <STDIN>), mais je n'en suis pas satisfait. Je
cherche une "belle" solution.

Je me dis que Perl propose sûrement ce genre de choses, peut-être sous
la forme de "templates"/canevas pour décrire la structure du document à
travailler, mais mes recherches googlistiques demeurent pour l'instant
infructueuses : j'ai trouvé comment afficher des données selon un
canevas donné, mais pas comment les extraire.

Est-ce qu'une bonne âme pourrait me proposer une solution ou du moins
une piste avec un exemple (URL ou autre)?

Merci par avance,

A+,

Eclice.


--
Sylvain Briole (a.k.a. Eclice)
E-Technik Doktorand / München
EMail : sbriole (à) free.fr

1 réponse

Avatar
Denis -esp2008-
Bonjour,

Ce qui m'intéresse : extraire le contenu des différents textes : texte
1, texte 2, texte 3, texte 4, ..., pour ensuite pouvoir travailler
dessus.
Si on peut attendre la fin des entrées sur stdin pour faire le traitement

(pour ne pas le faire ligne à ligne), cela devrait pouvoir se faire avec
un simple m// correctement équipé en parenthèses.

On pourrait voir la tête du script actuel ? (il ne faut pas avoir honte,
on a tous fait des scripts plus moches un jour, certains même tournent
encore tous les jours;)

--
Denis