Bonjour, j'aimerais supprimer toutes les balises HTML d'un texte (cad les
chaines du type <xxx>) mais il me supprime trop... c assez bizare et pourtant
l'expression reguilere que j'utilise me semble juste... la voici:
j'ai l'impression que si on a qqch du type "<TAG1> hello <TAG2>"... il prend
tout alors qu'il devrai seulement prendre <TAG1> et <TAG2>... je ne comprend
pas pq... qqn pourrait me donner la bonne expression a utiliser pour
supprimer SEULEMENT les balise (et donc, qu'il ne reste plus que le "hello")
Merci d'avance
Le premier étant tout de même le mieux :-) Surtout qu'on, peut avoir le support en français... Bon ok ok ok j'arrête... Simon.
"Patrick Philippot" a écrit dans le message de news:
laurent courbez wrote:
Patrick Philippot a écrit :
...
AMHA, je ne conçois pas une opération de parsing efficace d'un source HTML à partir de code qui utiliserait uniquement des expressions régulières. HTML est défini à partir d'une grammaire et c'est cela qu'il faut exploiter pour le parser.
...
l'approche grammaticale, oui, mais comment ? avec quelque chose comme lex et yacc (ou flex/bison) ?
il faut maintenant en dire davantage, fournir au moins quelques pistes ;-)
Oui, bien sûr un "vrai" outil de parsing. Lex & Yacc (pas dispo pour .Net - sauf l'outil CSTools mais qui est encore copieusement bogué), Flex / Bison, Visual Parse++ (quoique je ne recommande plus ce magnifique produit pour cause de défaillance chronique de Sandstone Tech.), Programmar, AntLR, The Grammar Forge,...
En ce qui concerne le parsing de HTML plus précisément:
The HTML Agility Pack http://weblogs.asp.net/smourier/archive/2003/06/04/8265.aspx
-- Patrick Philippot - Microsoft MVP MainSoft Consulting Services www.mainsoft.fr
Le premier étant tout de même le mieux :-) Surtout qu'on, peut avoir le
support en français...
Bon ok ok ok j'arrête...
Simon.
"Patrick Philippot" <patrick.philippot@mainsoft.xx.fr> a écrit dans le
message de news: eAIWvxm8EHA.2112@TK2MSFTNGP14.phx.gbl...
laurent courbez wrote:
Patrick Philippot a écrit :
...
AMHA, je ne conçois pas une opération de parsing efficace d'un source
HTML à partir de code qui utiliserait uniquement des expressions
régulières. HTML est défini à partir d'une grammaire et c'est cela
qu'il faut exploiter pour le parser.
...
l'approche grammaticale, oui, mais comment ?
avec quelque chose comme lex et yacc (ou flex/bison) ?
il faut maintenant en dire davantage, fournir au moins quelques
pistes ;-)
Oui, bien sûr un "vrai" outil de parsing. Lex & Yacc (pas dispo pour
.Net - sauf l'outil CSTools mais qui est encore copieusement bogué), Flex
/ Bison, Visual Parse++ (quoique je ne recommande plus ce magnifique
produit pour cause de défaillance chronique de Sandstone Tech.),
Programmar, AntLR, The Grammar Forge,...
En ce qui concerne le parsing de HTML plus précisément:
The HTML Agility Pack
http://weblogs.asp.net/smourier/archive/2003/06/04/8265.aspx
Le premier étant tout de même le mieux :-) Surtout qu'on, peut avoir le support en français... Bon ok ok ok j'arrête... Simon.
"Patrick Philippot" a écrit dans le message de news:
laurent courbez wrote:
Patrick Philippot a écrit :
...
AMHA, je ne conçois pas une opération de parsing efficace d'un source HTML à partir de code qui utiliserait uniquement des expressions régulières. HTML est défini à partir d'une grammaire et c'est cela qu'il faut exploiter pour le parser.
...
l'approche grammaticale, oui, mais comment ? avec quelque chose comme lex et yacc (ou flex/bison) ?
il faut maintenant en dire davantage, fournir au moins quelques pistes ;-)
Oui, bien sûr un "vrai" outil de parsing. Lex & Yacc (pas dispo pour .Net - sauf l'outil CSTools mais qui est encore copieusement bogué), Flex / Bison, Visual Parse++ (quoique je ne recommande plus ce magnifique produit pour cause de défaillance chronique de Sandstone Tech.), Programmar, AntLR, The Grammar Forge,...
En ce qui concerne le parsing de HTML plus précisément:
The HTML Agility Pack http://weblogs.asp.net/smourier/archive/2003/06/04/8265.aspx