Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

parser html

6 réponses
Avatar
remy
bonjour

vous me conseillerais quelle parser html sous gpl de pr=E9f=E9rence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marcher
etc

le bute du jeux remplir une base de donner mysql

merci remy


--=20
http://remyaumeunier.chez-alice.fr/

6 réponses

Avatar
Alex Marandon
On 04/01/11 21:00, remy wrote:
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marcher
etc

le bute du jeux remplir une base de donner mysql



Puisque la GPL ne te pose pas de problèmes, tu pourrais partir de la
base XML de verbiste: http://perso.b2b2c.ca/sarrazip/dev/verbiste.html
En effet: "La base de connaissances est représentée en XML et comporte
plus de 7000 verbes." Probablement plus facile à exploiter que le HTML
de Wikipedia. Pour parser du xml, tu devrait commencer par voir du côté
de ElementTree qui fait partie de la bibliothèque standard depuis Python
2.5.

Si tu veux vraiment parser du HTML, il y a aussi ce qu'il faut dans la
bibliothèque standard: http://docs.python.org/library/htmlparser.html
Avatar
NicolasP
Le 04/01/2011 15:00, remy a écrit :
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marcher
etc

le bute du jeux remplir une base de donner mysql

merci remy




Pour parser du html, il y a aussi BeautifulSoup : http://www.crummy.com/software/BeautifulSoup/

Nicolas
Avatar
remy
Alex Marandon a écrit :
On 04/01/11 21:00, remy wrote:
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marche r
etc

le bute du jeux remplir une base de donner mysql



Puisque la GPL ne te pose pas de problèmes, tu pourrais partir de la
base XML de verbiste: http://perso.b2b2c.ca/sarrazip/dev/verbiste.html
En effet: "La base de connaissances est représentée en XML et compo rte
plus de 7000 verbes." Probablement plus facile à exploiter que le HTM L
de Wikipedia. Pour parser du xml, tu devrait commencer par voir du cô té
de ElementTree qui fait partie de la bibliothèque standard depuis Pyt hon
2.5.



oui pourquoi pas, mais a l'arrivée il ne doit pas y avoir que les verbe s
disons une grosse base verbe et une petite dizaine de régles


Si tu veux vraiment parser du HTML, il y a aussi ce qu'il faut dans la
bibliothèque standard: http://docs.python.org/library/htmlparser.html



ok merci pour l'info et en plus cela me semble simple


remy

--
http://remyaumeunier.chez-alice.fr/
Avatar
remy
Alex Marandon a écrit :
On 04/01/11 21:00, remy wrote:
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marche r
etc

le bute du jeux remplir une base de donner mysql



Puisque la GPL ne te pose pas de problèmes, tu pourrais partir de la
base XML de verbiste: http://perso.b2b2c.ca/sarrazip/dev/verbiste.html
En effet: "La base de connaissances est représentée en XML et compo rte
plus de 7000 verbes." Probablement plus facile à exploiter que le HTM L
de Wikipedia. Pour parser du xml, tu devrait commencer par voir du cô té
de ElementTree qui fait partie de la bibliothèque standard depuis Pyt hon
2.5.



oui pourquoi pas, mais a l'arrivée il ne doit pas y avoir que les verbe s
disons une grosse base verbe,nom commun ,adj singulier pluriel , ect
et une petite dizaine de régles


Si tu veux vraiment parser du HTML, il y a aussi ce qu'il faut dans la
bibliothèque standard: http://docs.python.org/library/htmlparser.html


ok merci pour l'info et en plus cela me semble simple


remy


--
http://remyaumeunier.chez-alice.fr/
Avatar
Tonton Th
On 01/04/2011 03:00 PM, remy wrote:


le bute du jeux remplir une base de donner mysql



Le plus simple, c'est de leur demander un dump.

--
Ma coiffeuse est formidable - http://sonia.buvette.org/
Avatar
Gilles Lenfant
Le meilleur est lxml, qui se débrouille bien avec du HTML classique. Il p eut être aidé de BeautifulSoup pour le HTML bien pourri.

http://lxml.de/elementsoup.html#using-soupparser-as-a-fallback

Déjà utilisé la formule avec succès pour alimenter intelligement un indexeur.
--
Gilles Lenfant