=?ISO-8859-1?Q?Consid=E9rer__comme_une_ligne

3 réponses

ctobini

26/11/2007 à 14:51

Bonjour,

J'ai un fichier HTML dont je voudrais extraire des infos.

Ex:
 texte
<TD> texte
</TD>
<TD> texte
<TD>

=2E..
 texte
<TD> texte
</TD>
<TD> texte
<TD>


Je voudrais faire consid=E9rer =E0 Perl que <TR></TR> est une ligne pour
ensuite avec un regex extraire les diff=E9rents textes.

Sauriez-vous comment faire ceci ?

En vous remerciant,

C. Tobini

3 réponses

Vincent Lefevre

26/11/2007 à 16:56

Dans l'article ,
ctobini écrit:

Je voudrais faire considérer à Perl que <TR></TR> est une ligne pour
ensuite avec un regex extraire les différents textes.

man perlre

Utiliser par exemple le modifieur s:

s Treat string as single line. That is, change "." to match any
character whatsoever, even a newline, which normally it would not
match.

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% accessible validated (X)HTML - Blog: <http://www.vinc17.org/blog/>
Work: CR INRIA - computer arithmetic / Arenaire project (LIP, ENS-Lyon)

mirod

27/11/2007 à 12:40

ctobini wrote:

Bonjour,

J'ai un fichier HTML dont je voudrais extraire des infos.

Ex:
 texte
<TD> texte
</TD>
<TD> texte
<TD>

...
 texte
<TD> texte
</TD>
<TD> texte
<TD>


Je voudrais faire considérer à Perl que <TR></TR> est une ligne pour
ensuite avec un regex extraire les différents textes.

Euh... ya pas de TR dans ton fichier (s/BR/TR/ ?)

Sinon un petit HTML::TreeBuilder ou HTML::Parser ou un truc du genre
sera certainement plus robuste que d'utiliser des regexps, le HTML ça
peut être très, _très_ compliqué à parser.

et bieng sûr, si tu as XML::Twig et HTML::TreeBuilder installés, un petit

xml_grep --html -t td test_html.html

te donnera ce que tu cherches (avec quelques sauts de lignes superflus
que tu filtreras habilement grâce à:

xml_grep --html -t td test_html.html | grep -v '^$'

--
mirod

ctobini

29/11/2007 à 16:24

Bonjour à tous et merci de vos réponses,

J'ai utilisé le module HTML::TagReader qui a fonctionné parfaitement.

Bonne soirée,

C. Tobini

On 27 nov, 12:40, mirod wrote:

ctobini wrote:
Bonjour,

J'ai un fichier HTML dont je voudrais extraire des infos.

Ex:
 texte
<TD> texte
</TD>
<TD> texte
<TD>

...
 texte
<TD> texte
</TD>
<TD> texte
<TD>


Je voudrais faire considérer à Perl que <TR></TR> est une ligne pour
ensuite avec un regex extraire les différents textes.

Euh... ya pas de TR dans ton fichier (s/BR/TR/ ?)

Sinon un petit HTML::TreeBuilder ou HTML::Parser ou un truc du genre
sera certainement plus robuste que d'utiliser des regexps, le HTML ça
peut être très, _très_ compliqué à parser.

et bieng sûr, si tu as XML::Twig et HTML::TreeBuilder installés, un pe tit

xml_grep --html -t td test_html.html

te donnera ce que tu cherches (avec quelques sauts de lignes superflus
que tu filtreras habilement grâce à:

xml_grep --html -t td test_html.html | grep -v '^$'

--
mirod

=?ISO-8859-1?Q?Consid=E9rer__comme_une_ligne_??=

3 réponses

Veuillez sélectionner un problème