Analyser HTML en PHP

Le
Alain BARTHE
Bonjour,

Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par tagname)

Existe t-il une librairie "éprouvée" pour faire ça simplement ?

Je n'ai rien trouvé de très probant sur php.net
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Olivier Masson
Le #21351991
Le 09/03/2010 15:29, Alain BARTHE a écrit :
Bonjour,

Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)

Existe t-il une librairie "éprouvée" pour faire ça simplement ?

Je n'ai rien trouvé de très probant sur php.net



Ah bon ?
http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ?
Il y a même http://fr.php.net/manual/fr/class.domxpath.php
jef80
Le #21351981
librairie Tidy à http://tidy.sourceforge.net/docs/quickref.html

"Alain BARTHE" 4b964e91$0$15481$
Bonjour,

Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par
tagname...)

Existe t-il une librairie "éprouvée" pour faire ça simplement ?

Je n'ai rien trouvé de très probant sur php.net
Alain BARTHE
Le #21355061
jef80 a écrit :
librairie Tidy à http://tidy.sourceforge.net/docs/quickref.html



Merci, je l'essaye de ce pas.



"Alain BARTHE" 4b964e91$0$15481$
Bonjour,

Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par
tagname...)

Existe t-il une librairie "éprouvée" pour faire ça simplement ?

Je n'ai rien trouvé de très probant sur php.net
Alain BARTHE
Le #21355071
Olivier Masson a écrit :
Le 09/03/2010 15:29, Alain BARTHE a écrit :
Bonjour,

Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par
tagname...)

Existe t-il une librairie "éprouvée" pour faire ça simplement ?

Je n'ai rien trouvé de très probant sur php.net



Ah bon ?



Il est vrai que je suis loin d'être expert en PHP et que j'ai encore du
mal a trouver la bonne info sur le site...

http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ?
Il y a même http://fr.php.net/manual/fr/class.domxpath.php



Je connaissais l'existence de DOMDocument que j'avais utilisé pour
parser du XML, mais les pages que je veux analyser ne sont pas en XHTML,
et je ne suis pas sur que le document soit valide au sens XML.

J'admets que j'aurais du au moins essayer de lire mon document avec
cette librairie...

La librairie Tidy indiquée dans le mail suivant me semble plus proche de
mes besoins (pour avoir utilisé la commande Linux tidy). A confirmer.

Entre temps j'ai trouvé la librairie simple_html_dom qui a l'air de
correspondre a mes besoin, même si elle est un peu lente pour parser des
documents un peu longs.

En tout cas, merci pour vos conseils.
Alain BARTHE
Le #21355081
Olivier Masson a écrit :
Le 09/03/2010 15:29, Alain BARTHE a écrit :
Bonjour,

Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par
tagname...)

Existe t-il une librairie "éprouvée" pour faire ça simplement ?

Je n'ai rien trouvé de très probant sur php.net



Ah bon ?
http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ?
Il y a même http://fr.php.net/manual/fr/class.domxpath.php



Re,

Il me manque décidément encore un peu d'expérience en PHP pour trouver
les bonnes infos.....

J'ai regardé un peu plus en détail la classe DOMDocument, qui possède la
méthode LoadHTML qui semble correspondre parfaitement à mes besoins
(elle accepte un document HTML pas forcément bien formé).


Merci encore, avec mes excuses pour le dérangement.
Olivier Masson
Le #21357811
Le 10/03/2010 15:35, Alain BARTHE a écrit :

J'ai regardé un peu plus en détail la classe DOMDocument, qui possède la
méthode LoadHTML qui semble correspondre parfaitement à mes besoins
(elle accepte un document HTML pas forcément bien formé).


Merci encore, avec mes excuses pour le dérangement.



Ben non, ça dérange, c'est fait pour ça :)
Publicité
Poster une réponse
Anonyme