Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Olivier Masson
Le 09/03/2010 15:29, Alain BARTHE a écrit :
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP. Je cherche une librairie permettant de charger le code de cette page, (sous la forme d'un DOM par exemple), pour pouvoir en extraire des informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Ah bon ? http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ? Il y a même http://fr.php.net/manual/fr/class.domxpath.php
Le 09/03/2010 15:29, Alain BARTHE a écrit :
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Ah bon ?
http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ?
Il y a même http://fr.php.net/manual/fr/class.domxpath.php
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP. Je cherche une librairie permettant de charger le code de cette page, (sous la forme d'un DOM par exemple), pour pouvoir en extraire des informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Ah bon ? http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ? Il y a même http://fr.php.net/manual/fr/class.domxpath.php
jef80
librairie Tidy à http://tidy.sourceforge.net/docs/quickref.html
"Alain BARTHE" a écrit dans le message de news: 4b964e91$0$15481$
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP. Je cherche une librairie permettant de charger le code de cette page, (sous la forme d'un DOM par exemple), pour pouvoir en extraire des informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
librairie Tidy à http://tidy.sourceforge.net/docs/quickref.html
"Alain BARTHE" <alain.barthe.65@free.fr> a écrit dans le message de news:
4b964e91$0$15481$426a34cc@news.free.fr...
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par
tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
librairie Tidy à http://tidy.sourceforge.net/docs/quickref.html
"Alain BARTHE" a écrit dans le message de news: 4b964e91$0$15481$
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP. Je cherche une librairie permettant de charger le code de cette page, (sous la forme d'un DOM par exemple), pour pouvoir en extraire des informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Alain BARTHE
jef80 a écrit :
librairie Tidy à http://tidy.sourceforge.net/docs/quickref.html
Merci, je l'essaye de ce pas.
"Alain BARTHE" a écrit dans le message de news: 4b964e91$0$15481$
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP. Je cherche une librairie permettant de charger le code de cette page, (sous la forme d'un DOM par exemple), pour pouvoir en extraire des informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
jef80 a écrit :
librairie Tidy à http://tidy.sourceforge.net/docs/quickref.html
Merci, je l'essaye de ce pas.
"Alain BARTHE" <alain.barthe.65@free.fr> a écrit dans le message de news:
4b964e91$0$15481$426a34cc@news.free.fr...
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par
tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
librairie Tidy à http://tidy.sourceforge.net/docs/quickref.html
Merci, je l'essaye de ce pas.
"Alain BARTHE" a écrit dans le message de news: 4b964e91$0$15481$
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP. Je cherche une librairie permettant de charger le code de cette page, (sous la forme d'un DOM par exemple), pour pouvoir en extraire des informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Alain BARTHE
Olivier Masson a écrit :
Le 09/03/2010 15:29, Alain BARTHE a écrit :
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP. Je cherche une librairie permettant de charger le code de cette page, (sous la forme d'un DOM par exemple), pour pouvoir en extraire des informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Ah bon ?
Il est vrai que je suis loin d'être expert en PHP et que j'ai encore du mal a trouver la bonne info sur le site...
http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ? Il y a même http://fr.php.net/manual/fr/class.domxpath.php
Je connaissais l'existence de DOMDocument que j'avais utilisé pour parser du XML, mais les pages que je veux analyser ne sont pas en XHTML, et je ne suis pas sur que le document soit valide au sens XML.
J'admets que j'aurais du au moins essayer de lire mon document avec cette librairie...
La librairie Tidy indiquée dans le mail suivant me semble plus proche de mes besoins (pour avoir utilisé la commande Linux tidy). A confirmer.
Entre temps j'ai trouvé la librairie simple_html_dom qui a l'air de correspondre a mes besoin, même si elle est un peu lente pour parser des documents un peu longs.
En tout cas, merci pour vos conseils.
Olivier Masson a écrit :
Le 09/03/2010 15:29, Alain BARTHE a écrit :
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par
tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Ah bon ?
Il est vrai que je suis loin d'être expert en PHP et que j'ai encore du
mal a trouver la bonne info sur le site...
http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ?
Il y a même http://fr.php.net/manual/fr/class.domxpath.php
Je connaissais l'existence de DOMDocument que j'avais utilisé pour
parser du XML, mais les pages que je veux analyser ne sont pas en XHTML,
et je ne suis pas sur que le document soit valide au sens XML.
J'admets que j'aurais du au moins essayer de lire mon document avec
cette librairie...
La librairie Tidy indiquée dans le mail suivant me semble plus proche de
mes besoins (pour avoir utilisé la commande Linux tidy). A confirmer.
Entre temps j'ai trouvé la librairie simple_html_dom qui a l'air de
correspondre a mes besoin, même si elle est un peu lente pour parser des
documents un peu longs.
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP. Je cherche une librairie permettant de charger le code de cette page, (sous la forme d'un DOM par exemple), pour pouvoir en extraire des informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Ah bon ?
Il est vrai que je suis loin d'être expert en PHP et que j'ai encore du mal a trouver la bonne info sur le site...
http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ? Il y a même http://fr.php.net/manual/fr/class.domxpath.php
Je connaissais l'existence de DOMDocument que j'avais utilisé pour parser du XML, mais les pages que je veux analyser ne sont pas en XHTML, et je ne suis pas sur que le document soit valide au sens XML.
J'admets que j'aurais du au moins essayer de lire mon document avec cette librairie...
La librairie Tidy indiquée dans le mail suivant me semble plus proche de mes besoins (pour avoir utilisé la commande Linux tidy). A confirmer.
Entre temps j'ai trouvé la librairie simple_html_dom qui a l'air de correspondre a mes besoin, même si elle est un peu lente pour parser des documents un peu longs.
En tout cas, merci pour vos conseils.
Alain BARTHE
Olivier Masson a écrit :
Le 09/03/2010 15:29, Alain BARTHE a écrit :
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP. Je cherche une librairie permettant de charger le code de cette page, (sous la forme d'un DOM par exemple), pour pouvoir en extraire des informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Ah bon ? http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ? Il y a même http://fr.php.net/manual/fr/class.domxpath.php
Re,
Il me manque décidément encore un peu d'expérience en PHP pour trouver les bonnes infos.....
J'ai regardé un peu plus en détail la classe DOMDocument, qui possède la méthode LoadHTML qui semble correspondre parfaitement à mes besoins (elle accepte un document HTML pas forcément bien formé).
Merci encore, avec mes excuses pour le dérangement.
Olivier Masson a écrit :
Le 09/03/2010 15:29, Alain BARTHE a écrit :
Bonjour,
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP.
Je cherche une librairie permettant de charger le code de cette page,
(sous la forme d'un DOM par exemple), pour pouvoir en extraire des
informations (par XPATH ou en me déplacant noeud par noeud, par
tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Ah bon ?
http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ?
Il y a même http://fr.php.net/manual/fr/class.domxpath.php
Re,
Il me manque décidément encore un peu d'expérience en PHP pour trouver
les bonnes infos.....
J'ai regardé un peu plus en détail la classe DOMDocument, qui possède la
méthode LoadHTML qui semble correspondre parfaitement à mes besoins
(elle accepte un document HTML pas forcément bien formé).
Merci encore, avec mes excuses pour le dérangement.
Je voudrais analyser le contenu d'une page HTML exterieure depuis PHP. Je cherche une librairie permettant de charger le code de cette page, (sous la forme d'un DOM par exemple), pour pouvoir en extraire des informations (par XPATH ou en me déplacant noeud par noeud, par tagname...)
Existe t-il une librairie "éprouvée" pour faire ça simplement ?
Je n'ai rien trouvé de très probant sur php.net
Ah bon ? http://fr.php.net/manual/fr/book.dom.php ça ne te plait pas ? Il y a même http://fr.php.net/manual/fr/class.domxpath.php
Re,
Il me manque décidément encore un peu d'expérience en PHP pour trouver les bonnes infos.....
J'ai regardé un peu plus en détail la classe DOMDocument, qui possède la méthode LoadHTML qui semble correspondre parfaitement à mes besoins (elle accepte un document HTML pas forcément bien formé).
Merci encore, avec mes excuses pour le dérangement.
Olivier Masson
Le 10/03/2010 15:35, Alain BARTHE a écrit :
J'ai regardé un peu plus en détail la classe DOMDocument, qui possède la méthode LoadHTML qui semble correspondre parfaitement à mes besoins (elle accepte un document HTML pas forcément bien formé).
Merci encore, avec mes excuses pour le dérangement.
Ben non, ça dérange, c'est fait pour ça :)
Le 10/03/2010 15:35, Alain BARTHE a écrit :
J'ai regardé un peu plus en détail la classe DOMDocument, qui possède la
méthode LoadHTML qui semble correspondre parfaitement à mes besoins
(elle accepte un document HTML pas forcément bien formé).
Merci encore, avec mes excuses pour le dérangement.
J'ai regardé un peu plus en détail la classe DOMDocument, qui possède la méthode LoadHTML qui semble correspondre parfaitement à mes besoins (elle accepte un document HTML pas forcément bien formé).
Merci encore, avec mes excuses pour le dérangement.