OVH Cloud OVH Cloud

récupérer le text brut du HTML

1 réponse
Avatar
hg
Bonjour,

J'ai une pagaille de documents HTML dont j'aimerais ne récupérer que le
texte brut (CAD sans toutes les balises HTML de formatage).

Existe t'il une classe java qui permet de faire ça simplement (apparemment
HTMLDocument.class ne fait pas ça) ?

Merci d'avance

1 réponse

Avatar
TestMan
Bonjour,

Un parseur XML capable (voir JTidy ou tagsoup) accolé à une requette
xpath //text() devrait te retrourner ce que tu cherches ...

A+

TM

Bonjour,

J'ai une pagaille de documents HTML dont j'aimerais ne récupérer que le
texte brut (CAD sans toutes les balises HTML de formatage).

Existe t'il une classe java qui permet de faire ça simplement (apparemment
HTMLDocument.class ne fait pas ça) ?

Merci d'avance