Html to text

Le
Dominik
Bonjour à tous,

Est-ce que quelqu'un connait un package java permettant de prendre entrée du
html et de sortir du texte (simple sans attributs)
Mes différentes recherche m'orientait soit :
- vers des usines à gaz
- vers un "entaggage" trop "brut de fonderie" (les classes du package
swing.. de la jdk 1.4)

Mon pb est juste :
1 - de virer les tag
2 - decoder les chaines encode (comme le MimeUtility.decodeText de
javamail)
2 - de presenter les tableaux (genre : colonne1 [tab] colonne2 [tab]
.etc

Merci pour vos réponses

Dominique
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
jerome moliere
Le #586620
Dominik wrote:
Bonjour à tous,

Est-ce que quelqu'un connait un package java permettant de prendre entrée du
html et de sortir du texte (simple sans attributs)
Mes différentes recherche m'orientait soit :
- vers des usines à gaz
- vers un "entaggage" trop "brut de fonderie" (les classes du package
swing..... de la jdk 1.4)

Mon pb est juste :
1 - de virer les tag
2 - decoder les chaines encode (comme le MimeUtility.decodeText de
javamail)
2 - de presenter les tableaux (genre : colonne1 [tab] colonne2 [tab]
....etc
comme d'habitude pour cette question, je ne peux que t'orienter

vers un des compilateurs de compilateurs (javacc, antlr ou un autre) de
maniere a te faire toi meme ton outil, sachant que le parsing du HTML en
lui même te sera fourni car il s'agit d'une des grammaires classiquement
livrée avec ces produits
Jerome

--
Auteur cahier du programmeur Java tome 2 - Eyrolles 10/2003
http://www.eyrolles.com/php.informatique/Ouvrages/ouvrage.php3?ouv_ean13—82212111941

jerome moliere
Le #586175
Yves Martin wrote:

jerome moliere

comme d'habitude pour cette question, je ne peux que t'orienter
vers un des compilateurs de compilateurs (javacc, antlr ou un autre)
de maniere a te faire toi meme ton outil, sachant que le parsing du
HTML en lui même te sera fourni car il s'agit d'une des grammaires
classiquement
livrée avec ces produits
Jerome



On peut aussi envisager l'usage d'une XSLT et du couple Xerces/Xalan
par exemple.

pour ceux qui aiment faire griller des saucisses sur leur serveurs ? :)


Jerome

--
Auteur cahier du programmeur Java tome 2 - Eyrolles 10/2003
http://www.eyrolles.com/php.informatique/Ouvrages/ouvrage.php3?ouv_ean13—82212111941


Yves Martin
Le #586173
jerome moliere
comme d'habitude pour cette question, je ne peux que t'orienter
vers un des compilateurs de compilateurs (javacc, antlr ou un autre)
de maniere a te faire toi meme ton outil, sachant que le parsing du
HTML en lui même te sera fourni car il s'agit d'une des grammaires
classiquement
livrée avec ces produits
Jerome


On peut aussi envisager l'usage d'une XSLT et du couple Xerces/Xalan
par exemple.

--
Yves Martin

Publicité
Poster une réponse
Anonyme