sniffer html / aspirateur de site en c#

Le
Greg
Bonjour,

J'ai recherche un sniffer en C# qui permet de récupérer un site entier à
l'aide d'une url de départ. En java, les résultat sont impressionnants, il en
existe plein, mais je souhaite développer en c# et je n'en ai pas trouvé.
Connaitriez-vous un tel produit où je peux récupérer les sources pour les
retravailler?

Voici un bref descriptif du produit de rêve ;-) :
- Le sniffer doit être capable de récupérer tout un site à partir d'une url
de départ --> récupération des liens href.
- Utilisation de thread pour récupérer deux ou trois sites en même temps.
- Le fichier html récupéré correspondant à une page web peut être
transformer en XHTML pour sortir des informations ou des blocks de données.
- Les erreurs 404 et les timeout sont traités pour être réessayés plus tard.

J'ai déjà trouvé comment récupérer les liens href :
http://www.csharpfr.com/code.aspx?ID0298
Mais c'est la partie la plus simple je pense
J'ai une base de données SQL Server 2000 à ma disposition pour stocker
toutes informations voulues.


Merci de m'aider si vous avez des pistes ou un vrai sniffeur / aspirateur de
site en c#.

Voici un email valide jusqu'au 29/06/2005 sur mon mail perso :
gucd19mprxfrnll@jetable.net
Demandez moi mon mail, je vous répondrai :-) Je continue à chercher de mon
côté.

++
greg
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Zazar
Le #12094201
Bonjour,

J'ai recherche un sniffer en C# qui permet de récupérer un si te entier à
l'aide d'une url de départ. En java, les résultat sont impres sionnants, il en
existe plein, mais je souhaite développer en c# et je n'en ai pas trouvé.
Connaitriez-vous un tel produit où je peux récupérer les sources pour les
retravailler?



Je n'en connais pas.

Voici un bref descriptif du produit de rêve ;-) :
- Le sniffer doit être capable de récupérer tout un sit e à partir d'une url
de départ --> récupération des liens href.
- Utilisation de thread pour récupérer deux ou trois sites e n même temps.
- Le fichier html récupéré correspondant à une pag e web peut être
transformer en XHTML pour sortir des informations ou des blocks de donn ées.
- Les erreurs 404 et les timeout sont traités pour être rà ©essayés plus tard.

J'ai déjà trouvé comment récupérer les liens h ref :
http://www.csharpfr.com/code.aspx?ID0298


> Mais c'est la partie la plus simple je pense...

Pour récupérer une page web à partir d'une url, utilisez l a classe
HttpWebRequest. Elle vous permettra aussi de traiter les erreurs 404 et
les timeouts.
Pour les threads, utilisez l'espace de nom System.Threading et notamment
la classe ThreadPool.
Pour la conversion en xhtml, vous avez l'html agility pack de Simon Mouri er.

Bon courage,
--
Zazar
greg
Le #12094181
Merci Zazar !!!

Je m'y mets tout de suite :-)
++
*greg*

"Zazar" a écrit :

Bonjour,

> J'ai recherche un sniffer en C# qui permet de récupérer un site entier à
> l'aide d'une url de départ. En java, les résultat sont impressionnants, il en
> existe plein, mais je souhaite développer en c# et je n'en ai pas trouvé.
> Connaitriez-vous un tel produit où je peux récupérer les sources pour les
> retravailler?

Je n'en connais pas.

> Voici un bref descriptif du produit de rêve ;-) :
> - Le sniffer doit être capable de récupérer tout un site à partir d'une url
> de départ --> récupération des liens href.
> - Utilisation de thread pour récupérer deux ou trois sites en même temps.
> - Le fichier html récupéré correspondant à une page web peut être
> transformer en XHTML pour sortir des informations ou des blocks de données.
> - Les erreurs 404 et les timeout sont traités pour être réessayés plus tard.
>
> J'ai déjà trouvé comment récupérer les liens href :
> http://www.csharpfr.com/code.aspx?ID0298
> Mais c'est la partie la plus simple je pense...

Pour récupérer une page web à partir d'une url, utilisez la classe
HttpWebRequest. Elle vous permettra aussi de traiter les erreurs 404 et
les timeouts.
Pour les threads, utilisez l'espace de nom System.Threading et notamment
la classe ThreadPool.
Pour la conversion en xhtml, vous avez l'html agility pack de Simon Mourier.

Bon courage,
--
Zazar



Nicolas Guinet
Le #12093931
choisir csspider.zip chez

http://www.jeffheaton.com./source/

nicolas Guinet

"Greg"
Bonjour,

J'ai recherche un sniffer en C# qui permet de récupérer un site entier Ã
l'aide d'une url de départ. En java, les résultat sont impressionnants,
il en
existe plein, mais je souhaite développer en c# et je n'en ai pas
trouvé.
Connaitriez-vous un tel produit où je peux récupérer les sources pour
les
retravailler?

Voici un bref descriptif du produit de rêve ;-) :
- Le sniffer doit être capable de récupérer tout un site à partir d'une
url
de départ --> récupération des liens href.
- Utilisation de thread pour récupérer deux ou trois sites en même
temps.
- Le fichier html récupéré correspondant à une page web peut être
transformer en XHTML pour sortir des informations ou des blocks de
données.
- Les erreurs 404 et les timeout sont traités pour être réessayés plus
tard.

J'ai déjà trouvé comment récupérer les liens href :
http://www.csharpfr.com/code.aspx?ID0298
Mais c'est la partie la plus simple je pense...
J'ai une base de données SQL Server 2000 à ma disposition pour stocker
toutes informations voulues.


Merci de m'aider si vous avez des pistes ou un vrai sniffeur / aspirateur
de
site en c#.

Voici un email valide jusqu'au 29/06/2005 sur mon mail perso :

Demandez moi mon mail, je vous répondrai :-) Je continue à chercher de
mon
côté.

++
greg


Greg
Le #12093901
Merci, ça a l'air cool ce spider. En plus ca fait penser au héros :-)

*Greg*

"Nicolas Guinet" wrote:

choisir csspider.zip chez

http://www.jeffheaton.com./source/

nicolas Guinet

"Greg"
> Bonjour,
>
> J'ai recherche un sniffer en C# qui permet de récupérer un site entier Ã
> l'aide d'une url de départ. En java, les résultat sont impressionnants,
> il en
> existe plein, mais je souhaite développer en c# et je n'en ai pas
> trouvé.
> Connaitriez-vous un tel produit où je peux récupérer les sources pour
> les
> retravailler?
>
> Voici un bref descriptif du produit de rêve ;-) :
> - Le sniffer doit être capable de récupérer tout un site à partir d'une
> url
> de départ --> récupération des liens href.
> - Utilisation de thread pour récupérer deux ou trois sites en même
> temps.
> - Le fichier html récupéré correspondant à une page web peut être
> transformer en XHTML pour sortir des informations ou des blocks de
> données.
> - Les erreurs 404 et les timeout sont traités pour être réessayés plus
> tard.
>
> J'ai déjà trouvé comment récupérer les liens href :
> http://www.csharpfr.com/code.aspx?ID0298
> Mais c'est la partie la plus simple je pense...
> J'ai une base de données SQL Server 2000 à ma disposition pour stocker
> toutes informations voulues.
>
>
> Merci de m'aider si vous avez des pistes ou un vrai sniffeur / aspirateur
> de
> site en c#.
>
> Voici un email valide jusqu'au 29/06/2005 sur mon mail perso :
>
> Demandez moi mon mail, je vous répondrai :-) Je continue à chercher de
> mon
> côté.
>
> ++
> greg





Publicité
Poster une réponse
Anonyme