Je souhaite pouvoir parser le code HTML d'un champ HTML, pour pouvoir
remonter des infos depuis des pages webs. Est-ce quelqu'un parmi vous à déjà
utilisé un parseur avec des exemples ?
Merci d'avance pour toutes suggestions et/ou exemples
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
patrice
"Fredo MT" a écrit dans le message de news:442d6a78$0$3549$
Bonjour à tous !
Je souhaite pouvoir parser le code HTML d'un champ HTML, pour pouvoir remonter des infos depuis des pages webs. Est-ce quelqu'un parmi vous à
déjà
utilisé un parseur avec des exemples ?
Merci d'avance pour toutes suggestions et/ou exemples
quand la structure de la page est connue, des simples position() suffisent sinon faut sortir l'artillerie lourde Avec windev, j'ai jamais fait, mais en php avec des regex on s'en sort bien pour extraire ce qui se situe entre <balise> et </balise> ex:
//récupérer toutes les lignes de tableaux if (preg_match_all("/<tr[^>]*>((.|r|n)*)</tr>/U", $table[1][1], $line)) { for ($i=1; $i<count($line[1]); $i++) { // pour chaque ligne // récupérer toutes les colonnes unset($column); if (preg_match_all("/<td[^>]*>((.|r|n)*)</td>/U", $line[1][$i], $column)) { for ($j=0; $j<count($column[1]); $j++) { // traiter chaque colonne
...
"Fredo MT" <frederic_nospam@mont-tauch.com> a écrit dans le message de
news:442d6a78$0$3549$626a54ce@news.free.fr...
Bonjour à tous !
Je souhaite pouvoir parser le code HTML d'un champ HTML, pour pouvoir
remonter des infos depuis des pages webs. Est-ce quelqu'un parmi vous à
déjà
utilisé un parseur avec des exemples ?
Merci d'avance pour toutes suggestions et/ou exemples
quand la structure de la page est connue, des simples position() suffisent
sinon faut sortir l'artillerie lourde
Avec windev, j'ai jamais fait, mais en php avec des regex on s'en sort bien
pour extraire ce qui se situe entre <balise> et </balise>
ex:
//récupérer toutes les lignes de tableaux
if (preg_match_all("/<tr[^>]*>((.|r|n)*)</tr>/U", $table[1][1],
$line)) {
for ($i=1; $i<count($line[1]); $i++) {
// pour chaque ligne
// récupérer toutes les colonnes
unset($column);
if (preg_match_all("/<td[^>]*>((.|r|n)*)</td>/U", $line[1][$i],
$column)) {
for ($j=0; $j<count($column[1]); $j++) {
// traiter chaque colonne
"Fredo MT" a écrit dans le message de news:442d6a78$0$3549$
Bonjour à tous !
Je souhaite pouvoir parser le code HTML d'un champ HTML, pour pouvoir remonter des infos depuis des pages webs. Est-ce quelqu'un parmi vous à
déjà
utilisé un parseur avec des exemples ?
Merci d'avance pour toutes suggestions et/ou exemples
quand la structure de la page est connue, des simples position() suffisent sinon faut sortir l'artillerie lourde Avec windev, j'ai jamais fait, mais en php avec des regex on s'en sort bien pour extraire ce qui se situe entre <balise> et </balise> ex:
//récupérer toutes les lignes de tableaux if (preg_match_all("/<tr[^>]*>((.|r|n)*)</tr>/U", $table[1][1], $line)) { for ($i=1; $i<count($line[1]); $i++) { // pour chaque ligne // récupérer toutes les colonnes unset($column); if (preg_match_all("/<td[^>]*>((.|r|n)*)</td>/U", $line[1][$i], $column)) { for ($j=0; $j<count($column[1]); $j++) { // traiter chaque colonne
...
Fredo MT
Merci, je vais regarder du côté des expressions régulières.
"patrice" a écrit dans le message de news: 442ee9d3$0$27285$
"Fredo MT" a écrit dans le message de news:442d6a78$0$3549$
Bonjour à tous !
Je souhaite pouvoir parser le code HTML d'un champ HTML, pour pouvoir remonter des infos depuis des pages webs. Est-ce quelqu'un parmi vous à
déjà
utilisé un parseur avec des exemples ?
Merci d'avance pour toutes suggestions et/ou exemples
quand la structure de la page est connue, des simples position() suffisent sinon faut sortir l'artillerie lourde Avec windev, j'ai jamais fait, mais en php avec des regex on s'en sort bien pour extraire ce qui se situe entre <balise> et </balise> ex:
//récupérer toutes les lignes de tableaux if (preg_match_all("/<tr[^>]*>((.|r|n)*)</tr>/U", $table[1][1], $line)) { for ($i=1; $i<count($line[1]); $i++) { // pour chaque ligne // récupérer toutes les colonnes unset($column); if (preg_match_all("/<td[^>]*>((.|r|n)*)</td>/U", $line[1][$i], $column)) { for ($j=0; $j<count($column[1]); $j++) { // traiter chaque colonne
...
Merci, je vais regarder du côté des expressions régulières.
"patrice" <p.labracherie@free.fr> a écrit dans le message de news:
442ee9d3$0$27285$626a54ce@news.free.fr...
"Fredo MT" <frederic_nospam@mont-tauch.com> a écrit dans le message de
news:442d6a78$0$3549$626a54ce@news.free.fr...
Bonjour à tous !
Je souhaite pouvoir parser le code HTML d'un champ HTML, pour pouvoir
remonter des infos depuis des pages webs. Est-ce quelqu'un parmi vous à
déjà
utilisé un parseur avec des exemples ?
Merci d'avance pour toutes suggestions et/ou exemples
quand la structure de la page est connue, des simples position() suffisent
sinon faut sortir l'artillerie lourde
Avec windev, j'ai jamais fait, mais en php avec des regex on s'en sort
bien
pour extraire ce qui se situe entre <balise> et </balise>
ex:
//récupérer toutes les lignes de tableaux
if (preg_match_all("/<tr[^>]*>((.|r|n)*)</tr>/U", $table[1][1],
$line)) {
for ($i=1; $i<count($line[1]); $i++) {
// pour chaque ligne
// récupérer toutes les colonnes
unset($column);
if (preg_match_all("/<td[^>]*>((.|r|n)*)</td>/U", $line[1][$i],
$column)) {
for ($j=0; $j<count($column[1]); $j++) {
// traiter chaque colonne
Merci, je vais regarder du côté des expressions régulières.
"patrice" a écrit dans le message de news: 442ee9d3$0$27285$
"Fredo MT" a écrit dans le message de news:442d6a78$0$3549$
Bonjour à tous !
Je souhaite pouvoir parser le code HTML d'un champ HTML, pour pouvoir remonter des infos depuis des pages webs. Est-ce quelqu'un parmi vous à
déjà
utilisé un parseur avec des exemples ?
Merci d'avance pour toutes suggestions et/ou exemples
quand la structure de la page est connue, des simples position() suffisent sinon faut sortir l'artillerie lourde Avec windev, j'ai jamais fait, mais en php avec des regex on s'en sort bien pour extraire ce qui se situe entre <balise> et </balise> ex:
//récupérer toutes les lignes de tableaux if (preg_match_all("/<tr[^>]*>((.|r|n)*)</tr>/U", $table[1][1], $line)) { for ($i=1; $i<count($line[1]); $i++) { // pour chaque ligne // récupérer toutes les colonnes unset($column); if (preg_match_all("/<td[^>]*>((.|r|n)*)</td>/U", $line[1][$i], $column)) { for ($j=0; $j<count($column[1]); $j++) { // traiter chaque colonne