parser html

Le
remy
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marcher
etc

le bute du jeux remplir une base de donner mysql

merci remy


--
http://remyaumeunier.chez-alice.fr/
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Alex Marandon
Le #22986071
On 04/01/11 21:00, remy wrote:
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marcher
etc

le bute du jeux remplir une base de donner mysql



Puisque la GPL ne te pose pas de problèmes, tu pourrais partir de la
base XML de verbiste: http://perso.b2b2c.ca/sarrazip/dev/verbiste.html
En effet: "La base de connaissances est représentée en XML et comporte
plus de 7000 verbes." Probablement plus facile à exploiter que le HTML
de Wikipedia. Pour parser du xml, tu devrait commencer par voir du côté
de ElementTree qui fait partie de la bibliothèque standard depuis Python
2.5.

Si tu veux vraiment parser du HTML, il y a aussi ce qu'il faut dans la
bibliothèque standard: http://docs.python.org/library/htmlparser.html
NicolasP
Le #22986171
Le 04/01/2011 15:00, remy a écrit :
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marcher
etc

le bute du jeux remplir une base de donner mysql

merci remy




Pour parser du html, il y a aussi BeautifulSoup : http://www.crummy.com/software/BeautifulSoup/

Nicolas
remy
Le #22986851
Alex Marandon a écrit :
On 04/01/11 21:00, remy wrote:
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marche r
etc

le bute du jeux remplir une base de donner mysql



Puisque la GPL ne te pose pas de problèmes, tu pourrais partir de la
base XML de verbiste: http://perso.b2b2c.ca/sarrazip/dev/verbiste.html
En effet: "La base de connaissances est représentée en XML et compo rte
plus de 7000 verbes." Probablement plus facile à exploiter que le HTM L
de Wikipedia. Pour parser du xml, tu devrait commencer par voir du cô té
de ElementTree qui fait partie de la bibliothèque standard depuis Pyt hon
2.5.



oui pourquoi pas, mais a l'arrivée il ne doit pas y avoir que les verbe s
disons une grosse base verbe et une petite dizaine de régles


Si tu veux vraiment parser du HTML, il y a aussi ce qu'il faut dans la
bibliothèque standard: http://docs.python.org/library/htmlparser.html



ok merci pour l'info et en plus cela me semble simple


remy

--
http://remyaumeunier.chez-alice.fr/
remy
Le #22986921
Alex Marandon a écrit :
On 04/01/11 21:00, remy wrote:
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marche r
etc

le bute du jeux remplir une base de donner mysql



Puisque la GPL ne te pose pas de problèmes, tu pourrais partir de la
base XML de verbiste: http://perso.b2b2c.ca/sarrazip/dev/verbiste.html
En effet: "La base de connaissances est représentée en XML et compo rte
plus de 7000 verbes." Probablement plus facile à exploiter que le HTM L
de Wikipedia. Pour parser du xml, tu devrait commencer par voir du cô té
de ElementTree qui fait partie de la bibliothèque standard depuis Pyt hon
2.5.



oui pourquoi pas, mais a l'arrivée il ne doit pas y avoir que les verbe s
disons une grosse base verbe,nom commun ,adj singulier pluriel , ect
et une petite dizaine de régles


Si tu veux vraiment parser du HTML, il y a aussi ce qu'il faut dans la
bibliothèque standard: http://docs.python.org/library/htmlparser.html


ok merci pour l'info et en plus cela me semble simple


remy


--
http://remyaumeunier.chez-alice.fr/
Tonton Th
Le #23012191
On 01/04/2011 03:00 PM, remy wrote:


le bute du jeux remplir une base de donner mysql



Le plus simple, c'est de leur demander un dump.

--
Ma coiffeuse est formidable - http://sonia.buvette.org/
Gilles Lenfant
Le #23744151
Le meilleur est lxml, qui se débrouille bien avec du HTML classique. Il p eut être aidé de BeautifulSoup pour le HTML bien pourri.

http://lxml.de/elementsoup.html#using-soupparser-as-a-fallback

Déjà utilisé la formule avec succès pour alimenter intelligement un indexeur.
--
Gilles Lenfant
Publicité
Poster une réponse
Anonyme