J'ai recherche un sniffer en C# qui permet de récupérer un site entier à
l'aide d'une url de départ. En java, les résultat sont impressionnants, il en
existe plein, mais je souhaite développer en c# et je n'en ai pas trouvé.
Connaitriez-vous un tel produit où je peux récupérer les sources pour les
retravailler?
Voici un bref descriptif du produit de rêve ;-) :
- Le sniffer doit être capable de récupérer tout un site à partir d'une url
de départ --> récupération des liens href.
- Utilisation de thread pour récupérer deux ou trois sites en même temps.
- Le fichier html récupéré correspondant à une page web peut être
transformer en XHTML pour sortir des informations ou des blocks de données.
- Les erreurs 404 et les timeout sont traités pour être réessayés plus tard.
J'ai déjà trouvé comment récupérer les liens href :
http://www.csharpfr.com/code.aspx?ID=30298
Mais c'est la partie la plus simple je pense...
J'ai une base de données SQL Server 2000 à ma disposition pour stocker
toutes informations voulues.
Merci de m'aider si vous avez des pistes ou un vrai sniffeur / aspirateur de
site en c#.
Voici un email valide jusqu'au 29/06/2005 sur mon mail perso :
gucd19mprxfrnll@jetable.net
Demandez moi mon mail, je vous répondrai :-) Je continue à chercher de mon
côté.
> J'ai recherche un sniffer en C# qui permet de récupérer un site entier à > l'aide d'une url de départ. En java, les résultat sont impressionnants, il en > existe plein, mais je souhaite développer en c# et je n'en ai pas trouvé. > Connaitriez-vous un tel produit où je peux récupérer les sources pour les > retravailler?
Je n'en connais pas.
> Voici un bref descriptif du produit de rêve ;-) : > - Le sniffer doit être capable de récupérer tout un site à partir d'une url > de départ --> récupération des liens href. > - Utilisation de thread pour récupérer deux ou trois sites en même temps. > - Le fichier html récupéré correspondant à une page web peut être > transformer en XHTML pour sortir des informations ou des blocks de données. > - Les erreurs 404 et les timeout sont traités pour être réessayés plus tard. > > J'ai déjà trouvé comment récupérer les liens href : > http://www.csharpfr.com/code.aspx?ID0298 > Mais c'est la partie la plus simple je pense...
Pour récupérer une page web à partir d'une url, utilisez la classe HttpWebRequest. Elle vous permettra aussi de traiter les erreurs 404 et les timeouts. Pour les threads, utilisez l'espace de nom System.Threading et notamment la classe ThreadPool. Pour la conversion en xhtml, vous avez l'html agility pack de Simon Mourier.
Bon courage, -- Zazar
Merci Zazar !!!
Je m'y mets tout de suite :-)
++
*greg*
"Zazar" a écrit :
Bonjour,
> J'ai recherche un sniffer en C# qui permet de récupérer un site entier à
> l'aide d'une url de départ. En java, les résultat sont impressionnants, il en
> existe plein, mais je souhaite développer en c# et je n'en ai pas trouvé.
> Connaitriez-vous un tel produit où je peux récupérer les sources pour les
> retravailler?
Je n'en connais pas.
> Voici un bref descriptif du produit de rêve ;-) :
> - Le sniffer doit être capable de récupérer tout un site à partir d'une url
> de départ --> récupération des liens href.
> - Utilisation de thread pour récupérer deux ou trois sites en même temps.
> - Le fichier html récupéré correspondant à une page web peut être
> transformer en XHTML pour sortir des informations ou des blocks de données.
> - Les erreurs 404 et les timeout sont traités pour être réessayés plus tard.
>
> J'ai déjà trouvé comment récupérer les liens href :
> http://www.csharpfr.com/code.aspx?ID0298
> Mais c'est la partie la plus simple je pense...
Pour récupérer une page web à partir d'une url, utilisez la classe
HttpWebRequest. Elle vous permettra aussi de traiter les erreurs 404 et
les timeouts.
Pour les threads, utilisez l'espace de nom System.Threading et notamment
la classe ThreadPool.
Pour la conversion en xhtml, vous avez l'html agility pack de Simon Mourier.
> J'ai recherche un sniffer en C# qui permet de récupérer un site entier à > l'aide d'une url de départ. En java, les résultat sont impressionnants, il en > existe plein, mais je souhaite développer en c# et je n'en ai pas trouvé. > Connaitriez-vous un tel produit où je peux récupérer les sources pour les > retravailler?
Je n'en connais pas.
> Voici un bref descriptif du produit de rêve ;-) : > - Le sniffer doit être capable de récupérer tout un site à partir d'une url > de départ --> récupération des liens href. > - Utilisation de thread pour récupérer deux ou trois sites en même temps. > - Le fichier html récupéré correspondant à une page web peut être > transformer en XHTML pour sortir des informations ou des blocks de données. > - Les erreurs 404 et les timeout sont traités pour être réessayés plus tard. > > J'ai déjà trouvé comment récupérer les liens href : > http://www.csharpfr.com/code.aspx?ID0298 > Mais c'est la partie la plus simple je pense...
Pour récupérer une page web à partir d'une url, utilisez la classe HttpWebRequest. Elle vous permettra aussi de traiter les erreurs 404 et les timeouts. Pour les threads, utilisez l'espace de nom System.Threading et notamment la classe ThreadPool. Pour la conversion en xhtml, vous avez l'html agility pack de Simon Mourier.