Je dois analyser des textes qui ont le canevas suivant :
blabla 0
séparateur 1
titre 1
blabla 1
séparateur 2
titre 2
texte 1
sous-séparateur 1
texte 2
sous-séparateur 2
texte 3
sous-séparateur 3
texte 4
séparateur 2
[...]
Ce qui m'intéresse : extraire le contenu des différents textes : texte
1, texte 2, texte 3, texte 4, ..., pour ensuite pouvoir travailler
dessus.
Les séparateurs et sous-séparateurs sont des chaînes de caractères
différentes, mais qui peuvent être décrites par une expression
régulière.
J'ai déjà un petit script Perl "quick and dirty", pas très joli à base
de if et elsif multiples, de variables pour tracer où on est dans le
texte (il provient de <STDIN>), mais je n'en suis pas satisfait. Je
cherche une "belle" solution.
Je me dis que Perl propose sûrement ce genre de choses, peut-être sous
la forme de "templates"/canevas pour décrire la structure du document à
travailler, mais mes recherches googlistiques demeurent pour l'instant
infructueuses : j'ai trouvé comment afficher des données selon un
canevas donné, mais pas comment les extraire.
Est-ce qu'une bonne âme pourrait me proposer une solution ou du moins
une piste avec un exemple (URL ou autre)?
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Denis -esp2008-
Bonjour,
Ce qui m'intéresse : extraire le contenu des différents textes : texte 1, texte 2, texte 3, texte 4, ..., pour ensuite pouvoir travailler dessus. Si on peut attendre la fin des entrées sur stdin pour faire le traitement
(pour ne pas le faire ligne à ligne), cela devrait pouvoir se faire avec un simple m// correctement équipé en parenthèses.
On pourrait voir la tête du script actuel ? (il ne faut pas avoir honte, on a tous fait des scripts plus moches un jour, certains même tournent encore tous les jours;)
-- Denis
Bonjour,
Ce qui m'intéresse : extraire le contenu des différents textes : texte
1, texte 2, texte 3, texte 4, ..., pour ensuite pouvoir travailler
dessus.
Si on peut attendre la fin des entrées sur stdin pour faire le traitement
(pour ne pas le faire ligne à ligne), cela devrait pouvoir se faire avec
un simple m// correctement équipé en parenthèses.
On pourrait voir la tête du script actuel ? (il ne faut pas avoir honte,
on a tous fait des scripts plus moches un jour, certains même tournent
encore tous les jours;)
Ce qui m'intéresse : extraire le contenu des différents textes : texte 1, texte 2, texte 3, texte 4, ..., pour ensuite pouvoir travailler dessus. Si on peut attendre la fin des entrées sur stdin pour faire le traitement
(pour ne pas le faire ligne à ligne), cela devrait pouvoir se faire avec un simple m// correctement équipé en parenthèses.
On pourrait voir la tête du script actuel ? (il ne faut pas avoir honte, on a tous fait des scripts plus moches un jour, certains même tournent encore tous les jours;)