Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Bloquer wget dans config vhost

6 réponses
Avatar
GanGan
bonjour a tous ,

Je suis a la recherche d'une solution simple pour bloquer l'acces d'un site
web (apache) à wget
pensez vous qu'il soit possible de le faire dans la configuration d'un
virtualhost
avec quelques chose comme ça :
SetEnvIf User-Agent ".*Wget.*" ...

--
- GanGan -

www.system-linux.eu

(">
/
V_V

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org

6 réponses

Avatar
Charles Plessy
Le Tue, May 19, 2009 at 10:54:29AM +0200, GanGan a écrit :
Je suis a la recherche d'une solution simple pour bloquer l'acces d'un site
web (apache) à wget pensez vous qu'il soit possible de le faire dans la
configuration d'un virtualhost avec quelques chose comme ça : SetEnvIf
User-Agent ".*Wget.*" ...



Étant donné que wget possède une option « --user-agent » pour en changer, ça
m'étonnerait que ça soit efficace.

Bonne journée,

--
Charles Plessy
Tsurumi, Kanagawa, Japon

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Avatar
GanGan
dans mon cas ça sera efficace car c'est des appliances qui abusent de wget
et awstats reconnait bien wget qui est le deuxieme navigateur (en %) a
visiter le site apres firefox mais devant ie :p

On Tue, 19 May 2009 18:38:16 +0900, Charles Plessy
wrote:
Le Tue, May 19, 2009 at 10:54:29AM +0200, GanGan a écrit :
Je suis a la recherche d'une solution simple pour bloquer l'acces d'un


site
web (apache) à wget pensez vous qu'il soit possible de le faire dans la
configuration d'un virtualhost avec quelques chose comme ça : SetEnvIf
User-Agent ".*Wget.*" ...



Étant donné que wget possède une option « --user-agent » pour en
changer, ça
m'étonnerait que ça soit efficace.

Bonne journée,

--
Charles Plessy
Tsurumi, Kanagawa, Japon




--
- GanGan -

www.system-linux.eu

(">
/
V_V

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Avatar
Yves Rutschle
On Tue, May 19, 2009 at 11:52:36AM +0200, GanGan wrote:

dans mon cas ça sera efficace car c'est des appliances qui abusent de wget
et awstats reconnait bien wget qui est le deuxieme navigateur (en %) a
visiter le site apres firefox mais devant ie :p



À ce moment là, le plus simple est sans doute re rajouter un
robot.txt dans la racine de ton site du genre:

UserAgent: *Wget*
Disallow: /

Y.

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Avatar
GanGan
la technique su robots.txt ne fonctionne pas je viens de l'essayer
generalement le site est victime d'aspiration par xerox, gaz de france,
carrefour, etc...
donc je pense qu'ils ont des appliance genre astaro, arkoon etc...

On Tue, 19 May 2009 13:19:23 +0200, Fanfan wrote:
Le Tuesday 19 May 2009 à 11:52:36 (+0200), GanGan a écrit :
dans mon cas ça sera efficace car c'est des appliances qui abusent de


wget
et awstats reconnait bien wget qui est le deuxieme navigateur (en %) a
visiter le site apres firefox mais devant ie :p



Salut,

Quel type d'appliance fonctionnant sous un Unix avec wget a ce
comportement si intrusif ?

Fanfan




--
- GanGan -

www.system-linux.eu

(">
/
V_V

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Avatar
Fanfan
--DiL7RhKs8rK9YGuF
Content-Type: text/plain; charset=iso-8859-1
Content-Disposition: inline
Content-Transfer-Encoding: quoted-printable

Le Tuesday 19 May 2009 à 13:32:53 (+0200), GanGan a écrit :
la technique su robots.txt ne fonctionne pas je viens de l'essayer
generalement le site est victime d'aspiration par xerox, gaz de france,
carrefour, etc...
donc je pense qu'ils ont des appliance genre astaro, arkoon etc...



Si tu les as identifiés, à ta place, je me prendrais pas la tête et je
ne risquerais pas de pénaliser des utilisateurs légitimes de wget. Je
pense que je blacklisterais les IP directement dans netfilter, la table
de routage ou les tcpwrappers (j'essaye de garder ces considérations de
filtrage de bas niveau en dehors de la configuration du serveur
applicatif).

Tu peux aussi les limiter en utilisant le module noyau netfilter "recent"
pour limiter le nombre de requetes que ces IP (ou toutes) peuvent faire à
la minute.

Fanfan

--
J'ai toujours éprouvé une fascination pour l'aiguille et son pouvoir
magique.
[ Louise Bourgeois ]

--DiL7RhKs8rK9YGuF
Content-Type: application/pgp-signature; name="signature.asc"
Content-Description: Digital signature
Content-Disposition: inline

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.9 (GNU/Linux)

iD8DBQFKEs6Ln0FdfiSfsswRAn7MAKCB55vRZW45OqiccNgm9ffpe2UlmwCdE21M
0XdHtI0m+TxqswuAXX7Z14g =pQT7
-----END PGP SIGNATURE-----

--DiL7RhKs8rK9YGuF--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Avatar
mouss
GanGan a écrit :
dans mon cas ça sera efficace car c'est des appliances qui abusent de wget
et awstats reconnait bien wget qui est le deuxieme navigateur (en %) a
visiter le site apres firefox mais devant ie :p




RewriteCond %{HTTP_USER_AGENT} ^Wget
RewriteRule ^.*$ - [F]

mais:
- problème 1: comme cela a déjà été dit, ça ne bloquera pas les robots
avec d'autres user-agents
- problème 2: j'utilise souvent wget.

comme cela a été dit, utilise l'IP plutôt. et ça tu peux le faire avec
iptables (tu peux aussi le faire avec apache, iptables est mieux pour
les perfs).


si leur robot n'obéit pas à robots.txt, tu peux y mettre un piège: tu
interdit l'accès à un repertoire qui n'existe pas. après, avec fail2ban,
tu bloques toute IP qui essaye d'y aller.

[snip]



--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS