protection contre aspirateurs de sites

docanski

25/01/2008 à 13:25

Alors que les eleveurs et agriculteurs polluent toujours la Bretagne,
docanski nous narre ce qui suit en ce 25/01/2008 13:19 :

de télécharger un site entière ...

La distraction était entière, pas le site.
:-(
--
docanski

Portail et annuaire du nord-Bretagne : http://armorance.free.fr/
Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor/free.fr/

Paul Gaborit

25/01/2008 à 13:35

À (at) Fri, 25 Jan 2008 13:19:49 +0100,
docanski écrivait (wrote):

Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première. Probablement par un script mais je n'en sais
pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?

Dnas l'absolu, toutes les pages publiquement accessibles via le web
sont potentiellement aspirables.

En pratique, on peut bloquer les aspirateurs et autres robots de
plusieurs manières. Quelques exemples :

- via les règles du fichier /robots.txt, mais ça ne bloque que les
aspirateurs/robots respectueux des conventions,

- par ralentissement voire même blocage des clients qui envoient des
requêtes trop rapidement, mais certains aspirateurs/robots savent
ralentir leur fonctionnement,

- par remplacement du HTML par du Flash ou autres technologies
propriétaires, mais il existe peut-être déjà des aspirateurs/robots
capables d'interpréter et d'indexer/recopier ce genre de contenu,

- par remplacement des liens classiques (tous ou certains) par du code
javascript, mais certains aspirateurs/robots savent interpréter (en
partie) le javascript,

- par contrôle d'accès du type 'captcha' ou autres...

Le plus dur est certainement de réussir à bloquer les aspirateurs sans
bloquer les robots d'indexation... Si vous trouvez une solution, je
pense que ça intéressera de nombreuses personnes. ;-)

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>

Sergio

25/01/2008 à 14:14

docanski a formulé la demande :

Bonjour,

Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de
télécharger un site entière en bloquant celui-ci dès les premières pages,
voire la première. Probablement par un script mais je n'en sais pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?

Comme le dit Paul Gaborit... Pas facile de concilier anti-aspirateurs,
moteurs de référencement et ergonomie-accessibilité du site.

Le plus simple serait de limiter le nombre de connexions simultanées et
la bande passante par IP, mais là, faut agir au niveau du serveur.

Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on
diffuse votre site ? Le plus simple serait de ne pas le publier...

--
Serge http://leserged.online.fr/
Mon blog: http://cahierdesergio.free.fr/
Soutenez le libre: http://www.framasoft.org

Pierre Goiffon

25/01/2008 à 15:01

Sergio wrote:

Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première.

Comme le dit Paul Gaborit... Pas facile de concilier anti-aspirateurs,
moteurs de référencement et ergonomie-accessibilité du site.

Oui...

Le plus simple serait de limiter le nombre de connexions simultanées et
la bande passante par IP, mais là, faut agir au niveau du serveur.

C'était l'un des premiers arguments employés vers 2002 par les vendeurs
de sondes IDS... et tout le monde a très rapidement compris à quel point
c'était illusoire.

La vraie question est donc de savoir ce que l'on veut éviter à la base :
consommation de bande passante, de ressources sur la/les machine(s)
serveur(s), ... ?
La majorité du temps de bonnes pratiques (pages légères, bon entêtes de
cache, machine correctement administrée, ...) sont la bonne réponse.

Denis Beauregard

25/01/2008 à 16:34

Le Fri, 25 Jan 2008 13:19:49 +0100, docanski
écrivait dans
fr.comp.infosystemes.www.auteurs:

Bonjour,

Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première. Probablement par un script mais je n'en sais
pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?

J'utilise 2 méthodes.

Tout d'abord, lien non affiché. Un humain ne peut le voir, donc ne
clique pas (sauf un aveugle) alors qu'un robot le voit. Truc :
pixel 1 x 1. Je suppose que les aveugles ne cliquent que sur des
liens indiqués par un mot, donc ils n'ont pas vraiment de raison
de cliquer sur ces images.

Ensuite, limiter le nombre de pages par jour, heure et minute. Il
existe toutefois certains navigateurs qui chargent les pages avant
qu'on clique sur le lien. Le visiteur est alors invité à désactiver
cette fonction agaçante.

Je dois dire que la version courante de mon site contient 80 000
pages et que je suis en train de préparer du nouveau matériel. J'ai
3 versions (française, anglaise et bilingue pour les robots), ce qui
explique le grand nombre de pages et je prévois ajouter 3 pages
par commune de France, ce qui montera le total à 200 000 pages.

Quant aux moteurs, il faut utiliser l'IP et observer ceux qui
dépassent les limites du système. On sait alors si c'est un
intrus ou indexeur et on l'autorise par la suite (je ne sais
pas s'il y a un effet négatif, mais chose certaine, il faut réagir
assez vite quand un indexeur change d'IP).

À noter que d'autres méthodes sont possibles dans certains sites.
L'utilisation obligatoire d'un moteur interne de recherche peut
s'avérer utile quand on a beaucoup de données compatibles. Le
cookie de session me semble un système absolu mais il y a alors
le problème d'indexation, l'URL étant contaminée si on fait un GET.
L'utilisation forcée du POST pour naviguer est aussi un bon système
je pense, de même que demander dès le début une question que seul
un humain verra (par défaut, un bouton à cliquer "je suis un humain"
par exemple).

En bref, il faut voir selon ses besoins (si le site a 100 pages,
c'est inutile de limiter à 150 pages par jour), ses connaissances
(si on ne sait pas faire un captcha ou un POST) et la compétition
(si on a un quasi-monopole, on peut se permettre plus de
restrictions avant de permettre à un visiteur de continuer).

Denis

Le Fri, 25 Jan 2008 13:19:49 +0100, docanski
<myc.docanski_antispam@wanadoo.fr.invalid> écrivait dans
fr.comp.infosystemes.www.auteurs:

Bonjour,

Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première. Probablement par un script mais je n'en sais
pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?

J'utilise 2 méthodes.

Tout d'abord, lien non affiché. Un humain ne peut le voir, donc ne
clique pas (sauf un aveugle) alors qu'un robot le voit. Truc :
pixel 1 x 1. Je suppose que les aveugles ne cliquent que sur des
liens indiqués par un mot, donc ils n'ont pas vraiment de raison
de cliquer sur ces images.

Ensuite, limiter le nombre de pages par jour, heure et minute. Il
existe toutefois certains navigateurs qui chargent les pages avant
qu'on clique sur le lien. Le visiteur est alors invité à désactiver
cette fonction agaçante.

Je dois dire que la version courante de mon site contient 80 000
pages et que je suis en train de préparer du nouveau matériel. J'ai
3 versions (française, anglaise et bilingue pour les robots), ce qui
explique le grand nombre de pages et je prévois ajouter 3 pages
par commune de France, ce qui montera le total à 200 000 pages.

Quant aux moteurs, il faut utiliser l'IP et observer ceux qui
dépassent les limites du système. On sait alors si c'est un
intrus ou indexeur et on l'autorise par la suite (je ne sais
pas s'il y a un effet négatif, mais chose certaine, il faut réagir
assez vite quand un indexeur change d'IP).

À noter que d'autres méthodes sont possibles dans certains sites.
L'utilisation obligatoire d'un moteur interne de recherche peut
s'avérer utile quand on a beaucoup de données compatibles. Le
cookie de session me semble un système absolu mais il y a alors
le problème d'indexation, l'URL étant contaminée si on fait un GET.
L'utilisation forcée du POST pour naviguer est aussi un bon système
je pense, de même que demander dès le début une question que seul
un humain verra (par défaut, un bouton à cliquer "je suis un humain"
par exemple).

En bref, il faut voir selon ses besoins (si le site a 100 pages,
c'est inutile de limiter à 150 pages par jour), ses connaissances
(si on ne sait pas faire un captcha ou un POST) et la compétition
(si on a un quasi-monopole, on peut se permettre plus de
restrictions avant de permettre à un visiteur de continuer).

Denis

Vous avez filtré cet utilisateur ! Consultez son message

Le Fri, 25 Jan 2008 13:19:49 +0100, docanski
écrivait dans
fr.comp.infosystemes.www.auteurs:

Bonjour,

Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première. Probablement par un script mais je n'en sais
pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?

J'utilise 2 méthodes.

Tout d'abord, lien non affiché. Un humain ne peut le voir, donc ne
clique pas (sauf un aveugle) alors qu'un robot le voit. Truc :
pixel 1 x 1. Je suppose que les aveugles ne cliquent que sur des
liens indiqués par un mot, donc ils n'ont pas vraiment de raison
de cliquer sur ces images.

Ensuite, limiter le nombre de pages par jour, heure et minute. Il
existe toutefois certains navigateurs qui chargent les pages avant
qu'on clique sur le lien. Le visiteur est alors invité à désactiver
cette fonction agaçante.

Je dois dire que la version courante de mon site contient 80 000
pages et que je suis en train de préparer du nouveau matériel. J'ai
3 versions (française, anglaise et bilingue pour les robots), ce qui
explique le grand nombre de pages et je prévois ajouter 3 pages
par commune de France, ce qui montera le total à 200 000 pages.

Quant aux moteurs, il faut utiliser l'IP et observer ceux qui
dépassent les limites du système. On sait alors si c'est un
intrus ou indexeur et on l'autorise par la suite (je ne sais
pas s'il y a un effet négatif, mais chose certaine, il faut réagir
assez vite quand un indexeur change d'IP).

À noter que d'autres méthodes sont possibles dans certains sites.
L'utilisation obligatoire d'un moteur interne de recherche peut
s'avérer utile quand on a beaucoup de données compatibles. Le
cookie de session me semble un système absolu mais il y a alors
le problème d'indexation, l'URL étant contaminée si on fait un GET.
L'utilisation forcée du POST pour naviguer est aussi un bon système
je pense, de même que demander dès le début une question que seul
un humain verra (par défaut, un bouton à cliquer "je suis un humain"
par exemple).

En bref, il faut voir selon ses besoins (si le site a 100 pages,
c'est inutile de limiter à 150 pages par jour), ses connaissances
(si on ne sait pas faire un captcha ou un POST) et la compétition
(si on a un quasi-monopole, on peut se permettre plus de
restrictions avant de permettre à un visiteur de continuer).

Denis

Lea GRIS

25/01/2008 à 17:21

docanski a écrit :

Bonjour,

Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première. Probablement par un script mais je n'en sais
pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?

Mots clés :
bad|bot|trap+script

Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un
fichier de blocage ou un .htaccess

<a href "/cgi-bin/banme" stile"display:none;">Do ne follow this link</a>

Ensuite pour que les robots d'indexations polis ne se fassent pas piéger :

# robot.txt
Disallow: /cgi-bin/banme.pl

Ensuite un petit script perl (il y a plein d'exemple sur le web)

#!/usr/bin/perl

use CGI;

my $remote_ip = $ENV{'REMOTE_ADDR'};

$query = new CGI;
print $query->header;
print $query->start_html ("Banned");
printf ("<H1>You requested me to ban your IP %s</H1>n",$remote_ip);
print $query->end_html;
...

Et un .htaccess qui va bien.

...

Il existe aussi des scripts travaillant avec une base de donnée et
écriture automatique de règles firewall.

--
Léa Gris

romer

25/01/2008 à 19:19

Sergio wrote:

Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on
diffuse votre site ? Le plus simple serait de ne pas le publier...

Je fais un site pour une boite moyennant finance. Ils trouvent un gus
qui leur fait gratos car employé à temps plein pour la boite.
Il pompe tout ou presque, c.-à-d. qq. mois de travail. C'est pas le truc
qui me plait le plus ;-)
--
A+

Romer

SAM

25/01/2008 à 23:00

Sergio a écrit :

Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on
diffuse votre site ? Le plus simple serait de ne pas le publier...

Perso, je suis bien content d'avoir aspiré certains sites ... disparus
depuis.

D'autre part c'est aussi bien pratique d'avoir aspiré un site (ou une
partie) pour consultation hors connexion.
On va dire qu'aujourd'hui ce n'est plus aussi important qu'à lépoque du
seul RTC, néanmoins celui rapatrié n'est pas tributaire des nvelles
lubies d'adapation du webmaster (+/- de passage), on y a ses repères.

--
sm

Denis Beauregard

26/01/2008 à 00:03

Le Fri, 25 Jan 2008 23:00:12 +0100, SAM
écrivait dans
fr.comp.infosystemes.www.auteurs:

Sergio a écrit :

Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on
diffuse votre site ? Le plus simple serait de ne pas le publier...

Perso, je suis bien content d'avoir aspiré certains sites ... disparus
depuis.

Il y a effectivement certains sites disparus et au contenu unique.

Mais il y a aussi des sites qui disparaissent parce que leur
auteur en a assez d'être aspiré. Moi j'ai installé un aspirateur
le jour où j'ai vu dans mes logs (graphique) une ligne qui dépassait
de beaucoup la moyenne, quelqu'un venait de pomper TROIS FOIS le
site, oui 3 fois, sans raison, simplement peut-être parce que trop
con pour configurer son navigateur. Alors, j'ai installé un système
de protection et ce n'est plus jamais arrivé.

Ceci dit, quand je pompe un site, j'évalue maintenant le contenu et
je regarde d'où le contenu vient. Dans un cas, c'était des milliers
de fiches et j'ai fait des wget en répartissant l'opération sur
plusieurs semaines, histoire de ne pas trop agacer l'auteur du site
(surtout que dans ce cas, c'était un travail coopératif fait par des
visiteurs). Depuis, j'utilise le résultat de façon différente par
rapport à ce que permettait le site. En d'autres mots, le site est
encore là et je m'en sers, mais dans certains cas, pour une recherche
un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai
reconstruit la base de données) parce que je ne trouve pas ce que je
veux par la méthode officielle.

Mais quand je regarde où se font les clics des adwords que j'ai
achetés (je renvoie ma pub adword vers une certaine page et je fais
des stats de mes visiteurs), si j'y vais avec les valeurs par défaut,
je trouve que la moitié environ des clics se font sur des sites dont
le contenu a été pillé sur d'autres sites. Des gens qui cliquent
parce qu'ils sont piégés dans un de ces "link farms" par exemple et
qui finissent par cliquer sur une bannière même si cela ne les
intéressent pas parce qu'ils cherchent désespérément du vrai contenu.
C'est le type de réflexion qui me pousserait à faire la même chose
si je n'étais pas foncièrement honnête. Puisqu'on tolère les sites
qui pillent, pourquoi ne pas lancer moi aussi mon réseau de sites
piratés de façon anonyme ? Mais je vais faire mieux, soit du contenu
original et exclusif et qui demande beaucoup de pages...

D'autre part c'est aussi bien pratique d'avoir aspiré un site (ou une
partie) pour consultation hors connexion.
On va dire qu'aujourd'hui ce n'est plus aussi important qu'à lépoque du
seul RTC, néanmoins celui rapatrié n'est pas tributaire des nvelles
lubies d'adapation du webmaster (+/- de passage), on y a ses repères.

C'est un bon point, mais en général, les sites sont assez stables.
Quand cela change, c'est souvent qu'il y a un intérêt commercial et
que l'auteur du site ne veut pas se faire piller ou encore n'a pas
compris qu'un site web est une vitrine et non un gadget pour
apprenti-sorcier.

Denis

Le Fri, 25 Jan 2008 23:00:12 +0100, SAM
<stephanemoriaux.NoAdmin@wanadoo.fr.invalid> écrivait dans
fr.comp.infosystemes.www.auteurs:

Sergio a écrit :

Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on
diffuse votre site ? Le plus simple serait de ne pas le publier...

Perso, je suis bien content d'avoir aspiré certains sites ... disparus
depuis.

Il y a effectivement certains sites disparus et au contenu unique.

Mais il y a aussi des sites qui disparaissent parce que leur
auteur en a assez d'être aspiré. Moi j'ai installé un aspirateur
le jour où j'ai vu dans mes logs (graphique) une ligne qui dépassait
de beaucoup la moyenne, quelqu'un venait de pomper TROIS FOIS le
site, oui 3 fois, sans raison, simplement peut-être parce que trop
con pour configurer son navigateur. Alors, j'ai installé un système
de protection et ce n'est plus jamais arrivé.

Ceci dit, quand je pompe un site, j'évalue maintenant le contenu et
je regarde d'où le contenu vient. Dans un cas, c'était des milliers
de fiches et j'ai fait des wget en répartissant l'opération sur
plusieurs semaines, histoire de ne pas trop agacer l'auteur du site
(surtout que dans ce cas, c'était un travail coopératif fait par des
visiteurs). Depuis, j'utilise le résultat de façon différente par
rapport à ce que permettait le site. En d'autres mots, le site est
encore là et je m'en sers, mais dans certains cas, pour une recherche
un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai
reconstruit la base de données) parce que je ne trouve pas ce que je
veux par la méthode officielle.

Mais quand je regarde où se font les clics des adwords que j'ai
achetés (je renvoie ma pub adword vers une certaine page et je fais
des stats de mes visiteurs), si j'y vais avec les valeurs par défaut,
je trouve que la moitié environ des clics se font sur des sites dont
le contenu a été pillé sur d'autres sites. Des gens qui cliquent
parce qu'ils sont piégés dans un de ces "link farms" par exemple et
qui finissent par cliquer sur une bannière même si cela ne les
intéressent pas parce qu'ils cherchent désespérément du vrai contenu.
C'est le type de réflexion qui me pousserait à faire la même chose
si je n'étais pas foncièrement honnête. Puisqu'on tolère les sites
qui pillent, pourquoi ne pas lancer moi aussi mon réseau de sites
piratés de façon anonyme ? Mais je vais faire mieux, soit du contenu
original et exclusif et qui demande beaucoup de pages...

D'autre part c'est aussi bien pratique d'avoir aspiré un site (ou une
partie) pour consultation hors connexion.
On va dire qu'aujourd'hui ce n'est plus aussi important qu'à lépoque du
seul RTC, néanmoins celui rapatrié n'est pas tributaire des nvelles
lubies d'adapation du webmaster (+/- de passage), on y a ses repères.

C'est un bon point, mais en général, les sites sont assez stables.
Quand cela change, c'est souvent qu'il y a un intérêt commercial et
que l'auteur du site ne veut pas se faire piller ou encore n'a pas
compris qu'un site web est une vitrine et non un gadget pour
apprenti-sorcier.

Denis

Vous avez filtré cet utilisateur ! Consultez son message

Le Fri, 25 Jan 2008 23:00:12 +0100, SAM
écrivait dans
fr.comp.infosystemes.www.auteurs:

Sergio a écrit :

Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on
diffuse votre site ? Le plus simple serait de ne pas le publier...

Perso, je suis bien content d'avoir aspiré certains sites ... disparus
depuis.

Il y a effectivement certains sites disparus et au contenu unique.

Mais il y a aussi des sites qui disparaissent parce que leur
auteur en a assez d'être aspiré. Moi j'ai installé un aspirateur
le jour où j'ai vu dans mes logs (graphique) une ligne qui dépassait
de beaucoup la moyenne, quelqu'un venait de pomper TROIS FOIS le
site, oui 3 fois, sans raison, simplement peut-être parce que trop
con pour configurer son navigateur. Alors, j'ai installé un système
de protection et ce n'est plus jamais arrivé.

Ceci dit, quand je pompe un site, j'évalue maintenant le contenu et
je regarde d'où le contenu vient. Dans un cas, c'était des milliers
de fiches et j'ai fait des wget en répartissant l'opération sur
plusieurs semaines, histoire de ne pas trop agacer l'auteur du site
(surtout que dans ce cas, c'était un travail coopératif fait par des
visiteurs). Depuis, j'utilise le résultat de façon différente par
rapport à ce que permettait le site. En d'autres mots, le site est
encore là et je m'en sers, mais dans certains cas, pour une recherche
un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai
reconstruit la base de données) parce que je ne trouve pas ce que je
veux par la méthode officielle.

Mais quand je regarde où se font les clics des adwords que j'ai
achetés (je renvoie ma pub adword vers une certaine page et je fais
des stats de mes visiteurs), si j'y vais avec les valeurs par défaut,
je trouve que la moitié environ des clics se font sur des sites dont
le contenu a été pillé sur d'autres sites. Des gens qui cliquent
parce qu'ils sont piégés dans un de ces "link farms" par exemple et
qui finissent par cliquer sur une bannière même si cela ne les
intéressent pas parce qu'ils cherchent désespérément du vrai contenu.
C'est le type de réflexion qui me pousserait à faire la même chose
si je n'étais pas foncièrement honnête. Puisqu'on tolère les sites
qui pillent, pourquoi ne pas lancer moi aussi mon réseau de sites
piratés de façon anonyme ? Mais je vais faire mieux, soit du contenu
original et exclusif et qui demande beaucoup de pages...

D'autre part c'est aussi bien pratique d'avoir aspiré un site (ou une
partie) pour consultation hors connexion.
On va dire qu'aujourd'hui ce n'est plus aussi important qu'à lépoque du
seul RTC, néanmoins celui rapatrié n'est pas tributaire des nvelles
lubies d'adapation du webmaster (+/- de passage), on y a ses repères.

C'est un bon point, mais en général, les sites sont assez stables.
Quand cela change, c'est souvent qu'il y a un intérêt commercial et
que l'auteur du site ne veut pas se faire piller ou encore n'a pas
compris qu'un site web est une vitrine et non un gadget pour
apprenti-sorcier.

Denis

Antoine

27/01/2008 à 12:10

Denis Beauregard
wrote :

certains cas, pour une recherche un peu pointue, je dois utiliser
la version que j'en ai extraite (j'ai reconstruit la base de
données) parce que je ne trouve pas ce que je veux par la méthode
officielle.

Avec une recherche google un tantinet fine (site, inurl, etc...)
j'arrive toujours à trouver ce que je cherche sur un site.

--
Antoine

protection contre aspirateurs de sites

10 réponses

Veuillez sélectionner un problème