OVH Cloud OVH Cloud

extraction de texte d'un doc. html

2 réponses
Avatar
paul
Bonjour,

existe t'il un paquetage CPAN qui permet de récupérer les chaines de
caractères dans un document HTML.
Y compris les éléments internes à une balise :
<IMG SRC="pas_ca.gif" alt="mais_ca_oui">

Merci.
--
Paul

2 réponses

Avatar
Jean-Michel Hiver
existe t'il un paquetage CPAN qui permet de récupérer les chaines de
caractères dans un document HTML.
Y compris les éléments internes à une balise :
<IMG SRC="pas_ca.gif" alt="mais_ca_oui">


HTML::Tree fait ca tres bien.

Avatar
dominix
paul wrote:
Bonjour,

existe t'il un paquetage CPAN qui permet de récupérer les chaines de
caractères dans un document HTML.
Y compris les éléments internes à une balise :
<IMG SRC="pas_ca.gif" alt="mais_ca_oui">

Merci.


(html2text)
perl -MHTML::Parse -MLWP::Simple -MHTML::FormatText -e '
print HTML::FormatText->new->format(parse_html(get($ARGV[0])))'

--
dominix