parser html

6 réponses

remy

04/01/2011 à 15:00

bonjour

vous me conseillerais quelle parser html sous gpl de pr=E9f=E9rence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marcher
etc

le bute du jeux remplir une base de donner mysql

merci remy

--=20
http://remyaumeunier.chez-alice.fr/

6 réponses

Alex Marandon

04/01/2011 à 15:33

On 04/01/11 21:00, remy wrote:

bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marcher
etc

le bute du jeux remplir une base de donner mysql

Puisque la GPL ne te pose pas de problèmes, tu pourrais partir de la
base XML de verbiste: http://perso.b2b2c.ca/sarrazip/dev/verbiste.html
En effet: "La base de connaissances est représentée en XML et comporte
plus de 7000 verbes." Probablement plus facile à exploiter que le HTML
de Wikipedia. Pour parser du xml, tu devrait commencer par voir du côté
de ElementTree qui fait partie de la bibliothèque standard depuis Python
2.5.

Si tu veux vraiment parser du HTML, il y a aussi ce qu'il faut dans la
bibliothèque standard: http://docs.python.org/library/htmlparser.html

NicolasP

04/01/2011 à 15:42

Le 04/01/2011 15:00, remy a écrit :

bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marcher
etc

le bute du jeux remplir une base de donner mysql

merci remy

Pour parser du html, il y a aussi BeautifulSoup : http://www.crummy.com/software/BeautifulSoup/

Nicolas

remy

04/01/2011 à 17:58

Alex Marandon a écrit :

On 04/01/11 21:00, remy wrote:
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marche r
etc

le bute du jeux remplir une base de donner mysql

Puisque la GPL ne te pose pas de problèmes, tu pourrais partir de la
base XML de verbiste: http://perso.b2b2c.ca/sarrazip/dev/verbiste.html
En effet: "La base de connaissances est représentée en XML et compo rte
plus de 7000 verbes." Probablement plus facile à exploiter que le HTM L
de Wikipedia. Pour parser du xml, tu devrait commencer par voir du cô té
de ElementTree qui fait partie de la bibliothèque standard depuis Pyt hon
2.5.

oui pourquoi pas, mais a l'arrivée il ne doit pas y avoir que les verbe s
disons une grosse base verbe et une petite dizaine de régles

Si tu veux vraiment parser du HTML, il y a aussi ce qu'il faut dans la
bibliothèque standard: http://docs.python.org/library/htmlparser.html

ok merci pour l'info et en plus cela me semble simple

remy

--
http://remyaumeunier.chez-alice.fr/

remy

04/01/2011 à 18:04

Alex Marandon a écrit :

On 04/01/11 21:00, remy wrote:
bonjour

vous me conseillerais quelle parser html sous gpl de préférence
pour se type de page

http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:finir
http://fr.wiktionary.org/wiki/Annexe:Conjugaison_fran%C3%A7aise:marche r
etc

le bute du jeux remplir une base de donner mysql

Puisque la GPL ne te pose pas de problèmes, tu pourrais partir de la
base XML de verbiste: http://perso.b2b2c.ca/sarrazip/dev/verbiste.html
En effet: "La base de connaissances est représentée en XML et compo rte
plus de 7000 verbes." Probablement plus facile à exploiter que le HTM L
de Wikipedia. Pour parser du xml, tu devrait commencer par voir du cô té
de ElementTree qui fait partie de la bibliothèque standard depuis Pyt hon
2.5.

oui pourquoi pas, mais a l'arrivée il ne doit pas y avoir que les verbe s
disons une grosse base verbe,nom commun ,adj singulier pluriel , ect
et une petite dizaine de régles

Si tu veux vraiment parser du HTML, il y a aussi ce qu'il faut dans la
bibliothèque standard: http://docs.python.org/library/htmlparser.html

ok merci pour l'info et en plus cela me semble simple

remy

--
http://remyaumeunier.chez-alice.fr/

Tonton Th

11/01/2011 à 23:53

On 01/04/2011 03:00 PM, remy wrote:

le bute du jeux remplir une base de donner mysql

Le plus simple, c'est de leur demander un dump.

--
Ma coiffeuse est formidable - http://sonia.buvette.org/

Gilles Lenfant

09/09/2011 à 22:08

Le meilleur est lxml, qui se débrouille bien avec du HTML classique. Il p eut être aidé de BeautifulSoup pour le HTML bien pourri.

http://lxml.de/elementsoup.html#using-soupparser-as-a-fallback

Déjà utilisé la formule avec succès pour alimenter intelligement un indexeur.
--
Gilles Lenfant

parser html

6 réponses

Veuillez sélectionner un problème