sniffer html / aspirateur de site en c#

4 réponses

Greg

21/06/2005 à 12:07

Bonjour,

J'ai recherche un sniffer en C# qui permet de récupérer un site entier à
l'aide d'une url de départ. En java, les résultat sont impressionnants, il en
existe plein, mais je souhaite développer en c# et je n'en ai pas trouvé.
Connaitriez-vous un tel produit où je peux récupérer les sources pour les
retravailler?

Voici un bref descriptif du produit de rêve ;-) :
- Le sniffer doit être capable de récupérer tout un site à partir d'une url
de départ --> récupération des liens href.
- Utilisation de thread pour récupérer deux ou trois sites en même temps.
- Le fichier html récupéré correspondant à une page web peut être
transformer en XHTML pour sortir des informations ou des blocks de données.
- Les erreurs 404 et les timeout sont traités pour être réessayés plus tard.

J'ai déjà trouvé comment récupérer les liens href :
http://www.csharpfr.com/code.aspx?ID=30298
Mais c'est la partie la plus simple je pense...
J'ai une base de données SQL Server 2000 à ma disposition pour stocker
toutes informations voulues.

Merci de m'aider si vous avez des pistes ou un vrai sniffeur / aspirateur de
site en c#.

Voici un email valide jusqu'au 29/06/2005 sur mon mail perso :
gucd19mprxfrnll@jetable.net
Demandez moi mon mail, je vous répondrai :-) Je continue à chercher de mon
côté.

++
greg

4 réponses

Zazar

21/06/2005 à 14:55

Bonjour,

J'ai recherche un sniffer en C# qui permet de rÃ©cupÃ©rer un si te entier Ã
l'aide d'une url de dÃ©part. En java, les rÃ©sultat sont impres sionnants, il en
existe plein, mais je souhaite dÃ©velopper en c# et je n'en ai pas trouvÃ©.
Connaitriez-vous un tel produit oÃ¹ je peux rÃ©cupÃ©rer les sources pour les
retravailler?

Je n'en connais pas.

Voici un bref descriptif du produit de rÃªve ;-) :
- Le sniffer doit Ãªtre capable de rÃ©cupÃ©rer tout un sit e Ã partir d'une url
de dÃ©part --> rÃ©cupÃ©ration des liens href.
- Utilisation de thread pour rÃ©cupÃ©rer deux ou trois sites e n mÃªme temps.
- Le fichier html rÃ©cupÃ©rÃ© correspondant Ã une pag e web peut Ãªtre
transformer en XHTML pour sortir des informations ou des blocks de donn Ã©es.
- Les erreurs 404 et les timeout sont traitÃ©s pour Ãªtre rÃ ©essayÃ©s plus tard.

J'ai dÃ©jÃ trouvÃ© comment rÃ©cupÃ©rer les liens h ref :
http://www.csharpfr.com/code.aspx?ID0298

> Mais c'est la partie la plus simple je pense...

Pour rÃ©cupÃ©rer une page web Ã partir d'une url, utilisez l a classe
HttpWebRequest. Elle vous permettra aussi de traiter les erreurs 404 et
les timeouts.
Pour les threads, utilisez l'espace de nom System.Threading et notamment
la classe ThreadPool.
Pour la conversion en xhtml, vous avez l'html agility pack de Simon Mouri er.

Bon courage,
--
Zazar

greg

21/06/2005 à 15:15

Merci Zazar !!!

Je m'y mets tout de suite :-)
++
*greg*

"Zazar" a écrit :

Bonjour,

> J'ai recherche un sniffer en C# qui permet de récupérer un site entier à
> l'aide d'une url de départ. En java, les résultat sont impressionnants, il en
> existe plein, mais je souhaite développer en c# et je n'en ai pas trouvé.
> Connaitriez-vous un tel produit où je peux récupérer les sources pour les
> retravailler?

Je n'en connais pas.

> Voici un bref descriptif du produit de rêve ;-) :
> - Le sniffer doit être capable de récupérer tout un site à partir d'une url
> de départ --> récupération des liens href.
> - Utilisation de thread pour récupérer deux ou trois sites en même temps.
> - Le fichier html récupéré correspondant à une page web peut être
> transformer en XHTML pour sortir des informations ou des blocks de données.
> - Les erreurs 404 et les timeout sont traités pour être réessayés plus tard.
>
> J'ai déjà trouvé comment récupérer les liens href :
> http://www.csharpfr.com/code.aspx?ID0298
> Mais c'est la partie la plus simple je pense...

Pour récupérer une page web à partir d'une url, utilisez la classe
HttpWebRequest. Elle vous permettra aussi de traiter les erreurs 404 et
les timeouts.
Pour les threads, utilisez l'espace de nom System.Threading et notamment
la classe ThreadPool.
Pour la conversion en xhtml, vous avez l'html agility pack de Simon Mourier.

Bon courage,
--
Zazar

Nicolas Guinet

22/06/2005 à 19:44

choisir csspider.zip chez

http://www.jeffheaton.com./source/

nicolas Guinet

"Greg" a écrit dans le message de news:

Bonjour,

J'ai recherche un sniffer en C# qui permet de rÃ©cupÃ©rer un site entier Ã
l'aide d'une url de dÃ©part. En java, les rÃ©sultat sont impressionnants,
il en
existe plein, mais je souhaite dÃ©velopper en c# et je n'en ai pas
trouvÃ©.
Connaitriez-vous un tel produit oÃ¹ je peux rÃ©cupÃ©rer les sources pour
les
retravailler?

Voici un bref descriptif du produit de rÃªve ;-) :
- Le sniffer doit Ãªtre capable de rÃ©cupÃ©rer tout un site Ã partir d'une
url
de dÃ©part --> rÃ©cupÃ©ration des liens href.
- Utilisation de thread pour rÃ©cupÃ©rer deux ou trois sites en mÃªme
temps.
- Le fichier html rÃ©cupÃ©rÃ© correspondant Ã une page web peut Ãªtre
transformer en XHTML pour sortir des informations ou des blocks de
donnÃ©es.
- Les erreurs 404 et les timeout sont traitÃ©s pour Ãªtre rÃ©essayÃ©s plus
tard.

J'ai dÃ©jÃ trouvÃ© comment rÃ©cupÃ©rer les liens href :
http://www.csharpfr.com/code.aspx?ID0298
Mais c'est la partie la plus simple je pense...
J'ai une base de donnÃ©es SQL Server 2000 Ã ma disposition pour stocker
toutes informations voulues.

Merci de m'aider si vous avez des pistes ou un vrai sniffeur / aspirateur
de
site en c#.

Voici un email valide jusqu'au 29/06/2005 sur mon mail perso :

Demandez moi mon mail, je vous rÃ©pondrai :-) Je continue Ã chercher de
mon
cÃ´tÃ©.

++
greg

Greg

23/06/2005 à 00:55

Merci, ça a l'air cool ce spider. En plus ca fait penser au héros :-)

*Greg*

"Nicolas Guinet" wrote:

choisir csspider.zip chez

http://www.jeffheaton.com./source/

nicolas Guinet

"Greg" a écrit dans le message de news:

> Bonjour,
>
> J'ai recherche un sniffer en C# qui permet de rÃ©cupÃ©rer un site entier Ã
> l'aide d'une url de dÃ©part. En java, les rÃ©sultat sont impressionnants,
> il en
> existe plein, mais je souhaite dÃ©velopper en c# et je n'en ai pas
> trouvÃ©.
> Connaitriez-vous un tel produit oÃ¹ je peux rÃ©cupÃ©rer les sources pour
> les
> retravailler?
>
> Voici un bref descriptif du produit de rÃªve ;-) :
> - Le sniffer doit Ãªtre capable de rÃ©cupÃ©rer tout un site Ã partir d'une
> url
> de dÃ©part --> rÃ©cupÃ©ration des liens href.
> - Utilisation de thread pour rÃ©cupÃ©rer deux ou trois sites en mÃªme
> temps.
> - Le fichier html rÃ©cupÃ©rÃ© correspondant Ã une page web peut Ãªtre
> transformer en XHTML pour sortir des informations ou des blocks de
> donnÃ©es.
> - Les erreurs 404 et les timeout sont traitÃ©s pour Ãªtre rÃ©essayÃ©s plus
> tard.
>
> J'ai dÃ©jÃ trouvÃ© comment rÃ©cupÃ©rer les liens href :
> http://www.csharpfr.com/code.aspx?ID0298
> Mais c'est la partie la plus simple je pense...
> J'ai une base de donnÃ©es SQL Server 2000 Ã ma disposition pour stocker
> toutes informations voulues.
>
>
> Merci de m'aider si vous avez des pistes ou un vrai sniffeur / aspirateur
> de
> site en c#.
>
> Voici un email valide jusqu'au 29/06/2005 sur mon mail perso :
>
> Demandez moi mon mail, je vous rÃ©pondrai :-) Je continue Ã chercher de
> mon
> cÃ´tÃ©.
>
> ++
> greg

sniffer html / aspirateur de site en c#

4 réponses

Veuillez sélectionner un problème