Supression des balise HTML (expression reguliere)

22 réponses

JB. Deschampheleire

29/12/2004 à 10:25

Bonjour, j'aimerais supprimer toutes les balises HTML d'un texte (cad les
chaines du type <xxx>) mais il me supprime trop... c assez bizare et pourtant
l'expression reguilere que j'utilise me semble juste... la voici:

string resultat = Regex.Replace(input,"<.*[^<]>","");

j'ai l'impression que si on a qqch du type "<TAG1> hello <TAG2>"... il prend
tout alors qu'il devrai seulement prendre <TAG1> et <TAG2>... je ne comprend
pas pq... qqn pourrait me donner la bonne expression a utiliser pour
supprimer SEULEMENT les balise (et donc, qu'il ne reste plus que le "hello")
Merci d'avance

2 réponses

1 2 3

Simon Mourier [MS]

05/01/2005 à 20:31

Le premier étant tout de même le mieux :-) Surtout qu'on, peut avoir le
support en français...
Bon ok ok ok j'arrête...
Simon.

"Patrick Philippot" a écrit dans le
message de news:

laurent courbez wrote:
Patrick Philippot a écrit :
...

AMHA, je ne conçois pas une opération de parsing efficace d'un source
HTML à partir de code qui utiliserait uniquement des expressions
régulières. HTML est défini à partir d'une grammaire et c'est cela
qu'il faut exploiter pour le parser.

...

l'approche grammaticale, oui, mais comment ?
avec quelque chose comme lex et yacc (ou flex/bison) ?

il faut maintenant en dire davantage, fournir au moins quelques
pistes ;-)

Oui, bien sûr un "vrai" outil de parsing. Lex & Yacc (pas dispo pour
.Net - sauf l'outil CSTools mais qui est encore copieusement bogué), Flex
/ Bison, Visual Parse++ (quoique je ne recommande plus ce magnifique
produit pour cause de défaillance chronique de Sandstone Tech.),
Programmar, AntLR, The Grammar Forge,...

En ce qui concerne le parsing de HTML plus précisément:

The HTML Agility Pack
http://weblogs.asp.net/smourier/archive/2003/06/04/8265.aspx

SgmlReader
http://www.gotdotnet.com/Community/UserSamples/Details.aspx?SampleGuid¹0fddce-e60d-43f8-a5c4-c3bd760564bc

--
Patrick Philippot - Microsoft MVP
MainSoft Consulting Services
www.mainsoft.fr

Patrick Philippot

06/01/2005 à 10:10

Simon Mourier [MS] wrote:

Le premier étant tout de même le mieux :-) Surtout qu'on, peut avoir
le support en français...

En passant, merci pour ce package vraiment intéressant, Simon.

--
Patrick Philippot - Microsoft MVP
MainSoft Consulting Services
www.mainsoft.fr

1 2 3

Supression des balise HTML (expression reguliere)

2 réponses

Veuillez sélectionner un problème