Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première. Probablement par un script mais je n'en sais
pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?
Cordialement,
--
docanski
Portail et annuaire du nord-Bretagne : http://armorance.free.fr/
Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor/free.fr/
Alors que les eleveurs et agriculteurs polluent toujours la Bretagne, docanski nous narre ce qui suit en ce 25/01/2008 13:19 :
de télécharger un site entière ...
La distraction était entière, pas le site. :-( -- docanski
Portail et annuaire du nord-Bretagne : http://armorance.free.fr/ Guide des champignons d'Europe : http://mycorance.free.fr/ La vallée de la Rance maritime : http://valderance.free.fr/ Les côtes du nord de la Bretagne : http://docarmor/free.fr/
Alors que les eleveurs et agriculteurs polluent toujours la Bretagne,
docanski nous narre ce qui suit en ce 25/01/2008 13:19 :
de télécharger un site entière ...
La distraction était entière, pas le site.
:-(
--
docanski
Portail et annuaire du nord-Bretagne : http://armorance.free.fr/
Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor/free.fr/
Alors que les eleveurs et agriculteurs polluent toujours la Bretagne, docanski nous narre ce qui suit en ce 25/01/2008 13:19 :
de télécharger un site entière ...
La distraction était entière, pas le site. :-( -- docanski
Portail et annuaire du nord-Bretagne : http://armorance.free.fr/ Guide des champignons d'Europe : http://mycorance.free.fr/ La vallée de la Rance maritime : http://valderance.free.fr/ Les côtes du nord de la Bretagne : http://docarmor/free.fr/
Paul Gaborit
À (at) Fri, 25 Jan 2008 13:19:49 +0100, docanski écrivait (wrote):
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première. Probablement par un script mais je n'en sais pas plus. En fait, je n'en sais rien :-) ... mais j'aimerais savoir. Quelqu'un connaît la méthode ?
Dnas l'absolu, toutes les pages publiquement accessibles via le web sont potentiellement aspirables.
En pratique, on peut bloquer les aspirateurs et autres robots de plusieurs manières. Quelques exemples :
- via les règles du fichier /robots.txt, mais ça ne bloque que les aspirateurs/robots respectueux des conventions,
- par ralentissement voire même blocage des clients qui envoient des requêtes trop rapidement, mais certains aspirateurs/robots savent ralentir leur fonctionnement,
- par remplacement du HTML par du Flash ou autres technologies propriétaires, mais il existe peut-être déjà des aspirateurs/robots capables d'interpréter et d'indexer/recopier ce genre de contenu,
- par remplacement des liens classiques (tous ou certains) par du code javascript, mais certains aspirateurs/robots savent interpréter (en partie) le javascript,
- par contrôle d'accès du type 'captcha' ou autres...
Le plus dur est certainement de réussir à bloquer les aspirateurs sans bloquer les robots d'indexation... Si vous trouvez une solution, je pense que ça intéressera de nombreuses personnes. ;-)
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
À (at) Fri, 25 Jan 2008 13:19:49 +0100,
docanski <myc.docanski_antispam@wanadoo.fr.invalid> écrivait (wrote):
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première. Probablement par un script mais je n'en sais
pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?
Dnas l'absolu, toutes les pages publiquement accessibles via le web
sont potentiellement aspirables.
En pratique, on peut bloquer les aspirateurs et autres robots de
plusieurs manières. Quelques exemples :
- via les règles du fichier /robots.txt, mais ça ne bloque que les
aspirateurs/robots respectueux des conventions,
- par ralentissement voire même blocage des clients qui envoient des
requêtes trop rapidement, mais certains aspirateurs/robots savent
ralentir leur fonctionnement,
- par remplacement du HTML par du Flash ou autres technologies
propriétaires, mais il existe peut-être déjà des aspirateurs/robots
capables d'interpréter et d'indexer/recopier ce genre de contenu,
- par remplacement des liens classiques (tous ou certains) par du code
javascript, mais certains aspirateurs/robots savent interpréter (en
partie) le javascript,
- par contrôle d'accès du type 'captcha' ou autres...
Le plus dur est certainement de réussir à bloquer les aspirateurs sans
bloquer les robots d'indexation... Si vous trouvez une solution, je
pense que ça intéressera de nombreuses personnes. ;-)
--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
À (at) Fri, 25 Jan 2008 13:19:49 +0100, docanski écrivait (wrote):
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première. Probablement par un script mais je n'en sais pas plus. En fait, je n'en sais rien :-) ... mais j'aimerais savoir. Quelqu'un connaît la méthode ?
Dnas l'absolu, toutes les pages publiquement accessibles via le web sont potentiellement aspirables.
En pratique, on peut bloquer les aspirateurs et autres robots de plusieurs manières. Quelques exemples :
- via les règles du fichier /robots.txt, mais ça ne bloque que les aspirateurs/robots respectueux des conventions,
- par ralentissement voire même blocage des clients qui envoient des requêtes trop rapidement, mais certains aspirateurs/robots savent ralentir leur fonctionnement,
- par remplacement du HTML par du Flash ou autres technologies propriétaires, mais il existe peut-être déjà des aspirateurs/robots capables d'interpréter et d'indexer/recopier ce genre de contenu,
- par remplacement des liens classiques (tous ou certains) par du code javascript, mais certains aspirateurs/robots savent interpréter (en partie) le javascript,
- par contrôle d'accès du type 'captcha' ou autres...
Le plus dur est certainement de réussir à bloquer les aspirateurs sans bloquer les robots d'indexation... Si vous trouvez une solution, je pense que ça intéressera de nombreuses personnes. ;-)
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Sergio
docanski a formulé la demande :
Bonjour,
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première. Probablement par un script mais je n'en sais pas plus. En fait, je n'en sais rien :-) ... mais j'aimerais savoir. Quelqu'un connaît la méthode ?
Comme le dit Paul Gaborit... Pas facile de concilier anti-aspirateurs, moteurs de référencement et ergonomie-accessibilité du site.
Le plus simple serait de limiter le nombre de connexions simultanées et la bande passante par IP, mais là, faut agir au niveau du serveur.
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on diffuse votre site ? Le plus simple serait de ne pas le publier...
-- Serge http://leserged.online.fr/ Mon blog: http://cahierdesergio.free.fr/ Soutenez le libre: http://www.framasoft.org
docanski a formulé la demande :
Bonjour,
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de
télécharger un site entière en bloquant celui-ci dès les premières pages,
voire la première. Probablement par un script mais je n'en sais pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?
Comme le dit Paul Gaborit... Pas facile de concilier anti-aspirateurs,
moteurs de référencement et ergonomie-accessibilité du site.
Le plus simple serait de limiter le nombre de connexions simultanées et
la bande passante par IP, mais là, faut agir au niveau du serveur.
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on
diffuse votre site ? Le plus simple serait de ne pas le publier...
--
Serge http://leserged.online.fr/
Mon blog: http://cahierdesergio.free.fr/
Soutenez le libre: http://www.framasoft.org
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première. Probablement par un script mais je n'en sais pas plus. En fait, je n'en sais rien :-) ... mais j'aimerais savoir. Quelqu'un connaît la méthode ?
Comme le dit Paul Gaborit... Pas facile de concilier anti-aspirateurs, moteurs de référencement et ergonomie-accessibilité du site.
Le plus simple serait de limiter le nombre de connexions simultanées et la bande passante par IP, mais là, faut agir au niveau du serveur.
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on diffuse votre site ? Le plus simple serait de ne pas le publier...
-- Serge http://leserged.online.fr/ Mon blog: http://cahierdesergio.free.fr/ Soutenez le libre: http://www.framasoft.org
Pierre Goiffon
Sergio wrote:
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première.
Comme le dit Paul Gaborit... Pas facile de concilier anti-aspirateurs, moteurs de référencement et ergonomie-accessibilité du site.
Oui...
Le plus simple serait de limiter le nombre de connexions simultanées et la bande passante par IP, mais là, faut agir au niveau du serveur.
C'était l'un des premiers arguments employés vers 2002 par les vendeurs de sondes IDS... et tout le monde a très rapidement compris à quel point c'était illusoire.
La vraie question est donc de savoir ce que l'on veut éviter à la base : consommation de bande passante, de ressources sur la/les machine(s) serveur(s), ... ? La majorité du temps de bonnes pratiques (pages légères, bon entêtes de cache, machine correctement administrée, ...) sont la bonne réponse.
Sergio wrote:
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première.
Comme le dit Paul Gaborit... Pas facile de concilier anti-aspirateurs,
moteurs de référencement et ergonomie-accessibilité du site.
Oui...
Le plus simple serait de limiter le nombre de connexions simultanées et
la bande passante par IP, mais là, faut agir au niveau du serveur.
C'était l'un des premiers arguments employés vers 2002 par les vendeurs
de sondes IDS... et tout le monde a très rapidement compris à quel point
c'était illusoire.
La vraie question est donc de savoir ce que l'on veut éviter à la base :
consommation de bande passante, de ressources sur la/les machine(s)
serveur(s), ... ?
La majorité du temps de bonnes pratiques (pages légères, bon entêtes de
cache, machine correctement administrée, ...) sont la bonne réponse.
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première.
Comme le dit Paul Gaborit... Pas facile de concilier anti-aspirateurs, moteurs de référencement et ergonomie-accessibilité du site.
Oui...
Le plus simple serait de limiter le nombre de connexions simultanées et la bande passante par IP, mais là, faut agir au niveau du serveur.
C'était l'un des premiers arguments employés vers 2002 par les vendeurs de sondes IDS... et tout le monde a très rapidement compris à quel point c'était illusoire.
La vraie question est donc de savoir ce que l'on veut éviter à la base : consommation de bande passante, de ressources sur la/les machine(s) serveur(s), ... ? La majorité du temps de bonnes pratiques (pages légères, bon entêtes de cache, machine correctement administrée, ...) sont la bonne réponse.
Denis Beauregard
Le Fri, 25 Jan 2008 13:19:49 +0100, docanski écrivait dans fr.comp.infosystemes.www.auteurs:
Bonjour,
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première. Probablement par un script mais je n'en sais pas plus. En fait, je n'en sais rien :-) ... mais j'aimerais savoir. Quelqu'un connaît la méthode ?
J'utilise 2 méthodes.
Tout d'abord, lien non affiché. Un humain ne peut le voir, donc ne clique pas (sauf un aveugle) alors qu'un robot le voit. Truc : pixel 1 x 1. Je suppose que les aveugles ne cliquent que sur des liens indiqués par un mot, donc ils n'ont pas vraiment de raison de cliquer sur ces images.
Ensuite, limiter le nombre de pages par jour, heure et minute. Il existe toutefois certains navigateurs qui chargent les pages avant qu'on clique sur le lien. Le visiteur est alors invité à désactiver cette fonction agaçante.
Je dois dire que la version courante de mon site contient 80 000 pages et que je suis en train de préparer du nouveau matériel. J'ai 3 versions (française, anglaise et bilingue pour les robots), ce qui explique le grand nombre de pages et je prévois ajouter 3 pages par commune de France, ce qui montera le total à 200 000 pages.
Quant aux moteurs, il faut utiliser l'IP et observer ceux qui dépassent les limites du système. On sait alors si c'est un intrus ou indexeur et on l'autorise par la suite (je ne sais pas s'il y a un effet négatif, mais chose certaine, il faut réagir assez vite quand un indexeur change d'IP).
À noter que d'autres méthodes sont possibles dans certains sites. L'utilisation obligatoire d'un moteur interne de recherche peut s'avérer utile quand on a beaucoup de données compatibles. Le cookie de session me semble un système absolu mais il y a alors le problème d'indexation, l'URL étant contaminée si on fait un GET. L'utilisation forcée du POST pour naviguer est aussi un bon système je pense, de même que demander dès le début une question que seul un humain verra (par défaut, un bouton à cliquer "je suis un humain" par exemple).
En bref, il faut voir selon ses besoins (si le site a 100 pages, c'est inutile de limiter à 150 pages par jour), ses connaissances (si on ne sait pas faire un captcha ou un POST) et la compétition (si on a un quasi-monopole, on peut se permettre plus de restrictions avant de permettre à un visiteur de continuer).
Denis
Le Fri, 25 Jan 2008 13:19:49 +0100, docanski
<myc.docanski_antispam@wanadoo.fr.invalid> écrivait dans
fr.comp.infosystemes.www.auteurs:
Bonjour,
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première. Probablement par un script mais je n'en sais
pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?
J'utilise 2 méthodes.
Tout d'abord, lien non affiché. Un humain ne peut le voir, donc ne
clique pas (sauf un aveugle) alors qu'un robot le voit. Truc :
pixel 1 x 1. Je suppose que les aveugles ne cliquent que sur des
liens indiqués par un mot, donc ils n'ont pas vraiment de raison
de cliquer sur ces images.
Ensuite, limiter le nombre de pages par jour, heure et minute. Il
existe toutefois certains navigateurs qui chargent les pages avant
qu'on clique sur le lien. Le visiteur est alors invité à désactiver
cette fonction agaçante.
Je dois dire que la version courante de mon site contient 80 000
pages et que je suis en train de préparer du nouveau matériel. J'ai
3 versions (française, anglaise et bilingue pour les robots), ce qui
explique le grand nombre de pages et je prévois ajouter 3 pages
par commune de France, ce qui montera le total à 200 000 pages.
Quant aux moteurs, il faut utiliser l'IP et observer ceux qui
dépassent les limites du système. On sait alors si c'est un
intrus ou indexeur et on l'autorise par la suite (je ne sais
pas s'il y a un effet négatif, mais chose certaine, il faut réagir
assez vite quand un indexeur change d'IP).
À noter que d'autres méthodes sont possibles dans certains sites.
L'utilisation obligatoire d'un moteur interne de recherche peut
s'avérer utile quand on a beaucoup de données compatibles. Le
cookie de session me semble un système absolu mais il y a alors
le problème d'indexation, l'URL étant contaminée si on fait un GET.
L'utilisation forcée du POST pour naviguer est aussi un bon système
je pense, de même que demander dès le début une question que seul
un humain verra (par défaut, un bouton à cliquer "je suis un humain"
par exemple).
En bref, il faut voir selon ses besoins (si le site a 100 pages,
c'est inutile de limiter à 150 pages par jour), ses connaissances
(si on ne sait pas faire un captcha ou un POST) et la compétition
(si on a un quasi-monopole, on peut se permettre plus de
restrictions avant de permettre à un visiteur de continuer).
Le Fri, 25 Jan 2008 13:19:49 +0100, docanski écrivait dans fr.comp.infosystemes.www.auteurs:
Bonjour,
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première. Probablement par un script mais je n'en sais pas plus. En fait, je n'en sais rien :-) ... mais j'aimerais savoir. Quelqu'un connaît la méthode ?
J'utilise 2 méthodes.
Tout d'abord, lien non affiché. Un humain ne peut le voir, donc ne clique pas (sauf un aveugle) alors qu'un robot le voit. Truc : pixel 1 x 1. Je suppose que les aveugles ne cliquent que sur des liens indiqués par un mot, donc ils n'ont pas vraiment de raison de cliquer sur ces images.
Ensuite, limiter le nombre de pages par jour, heure et minute. Il existe toutefois certains navigateurs qui chargent les pages avant qu'on clique sur le lien. Le visiteur est alors invité à désactiver cette fonction agaçante.
Je dois dire que la version courante de mon site contient 80 000 pages et que je suis en train de préparer du nouveau matériel. J'ai 3 versions (française, anglaise et bilingue pour les robots), ce qui explique le grand nombre de pages et je prévois ajouter 3 pages par commune de France, ce qui montera le total à 200 000 pages.
Quant aux moteurs, il faut utiliser l'IP et observer ceux qui dépassent les limites du système. On sait alors si c'est un intrus ou indexeur et on l'autorise par la suite (je ne sais pas s'il y a un effet négatif, mais chose certaine, il faut réagir assez vite quand un indexeur change d'IP).
À noter que d'autres méthodes sont possibles dans certains sites. L'utilisation obligatoire d'un moteur interne de recherche peut s'avérer utile quand on a beaucoup de données compatibles. Le cookie de session me semble un système absolu mais il y a alors le problème d'indexation, l'URL étant contaminée si on fait un GET. L'utilisation forcée du POST pour naviguer est aussi un bon système je pense, de même que demander dès le début une question que seul un humain verra (par défaut, un bouton à cliquer "je suis un humain" par exemple).
En bref, il faut voir selon ses besoins (si le site a 100 pages, c'est inutile de limiter à 150 pages par jour), ses connaissances (si on ne sait pas faire un captcha ou un POST) et la compétition (si on a un quasi-monopole, on peut se permettre plus de restrictions avant de permettre à un visiteur de continuer).
Denis
Lea GRIS
docanski a écrit :
Bonjour,
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première. Probablement par un script mais je n'en sais pas plus. En fait, je n'en sais rien :-) ... mais j'aimerais savoir. Quelqu'un connaît la méthode ?
Mots clés : bad|bot|trap+script
Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un fichier de blocage ou un .htaccess
<a href "/cgi-bin/banme" stile"display:none;">Do ne follow this link</a>
Ensuite pour que les robots d'indexations polis ne se fassent pas piéger :
# robot.txt Disallow: /cgi-bin/banme.pl
Ensuite un petit script perl (il y a plein d'exemple sur le web)
#!/usr/bin/perl
use CGI;
my $remote_ip = $ENV{'REMOTE_ADDR'};
$query = new CGI; print $query->header; print $query->start_html ("Banned"); printf ("<H1>You requested me to ban your IP %s</H1>n",$remote_ip); print $query->end_html; ...
Et un .htaccess qui va bien.
...
Il existe aussi des scripts travaillant avec une base de donnée et écriture automatique de règles firewall.
-- Léa Gris
docanski a écrit :
Bonjour,
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première. Probablement par un script mais je n'en sais
pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?
Mots clés :
bad|bot|trap+script
Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un
fichier de blocage ou un .htaccess
<a href "/cgi-bin/banme" stile"display:none;">Do ne follow this link</a>
Ensuite pour que les robots d'indexations polis ne se fassent pas piéger :
# robot.txt
Disallow: /cgi-bin/banme.pl
Ensuite un petit script perl (il y a plein d'exemple sur le web)
#!/usr/bin/perl
use CGI;
my $remote_ip = $ENV{'REMOTE_ADDR'};
$query = new CGI;
print $query->header;
print $query->start_html ("Banned");
printf ("<H1>You requested me to ban your IP %s</H1>n",$remote_ip);
print $query->end_html;
...
Et un .htaccess qui va bien.
...
Il existe aussi des scripts travaillant avec une base de donnée et
écriture automatique de règles firewall.
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première. Probablement par un script mais je n'en sais pas plus. En fait, je n'en sais rien :-) ... mais j'aimerais savoir. Quelqu'un connaît la méthode ?
Mots clés : bad|bot|trap+script
Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un fichier de blocage ou un .htaccess
<a href "/cgi-bin/banme" stile"display:none;">Do ne follow this link</a>
Ensuite pour que les robots d'indexations polis ne se fassent pas piéger :
# robot.txt Disallow: /cgi-bin/banme.pl
Ensuite un petit script perl (il y a plein d'exemple sur le web)
#!/usr/bin/perl
use CGI;
my $remote_ip = $ENV{'REMOTE_ADDR'};
$query = new CGI; print $query->header; print $query->start_html ("Banned"); printf ("<H1>You requested me to ban your IP %s</H1>n",$remote_ip); print $query->end_html; ...
Et un .htaccess qui va bien.
...
Il existe aussi des scripts travaillant avec une base de donnée et écriture automatique de règles firewall.
-- Léa Gris
romer
Sergio wrote:
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on diffuse votre site ? Le plus simple serait de ne pas le publier...
Je fais un site pour une boite moyennant finance. Ils trouvent un gus qui leur fait gratos car employé à temps plein pour la boite. Il pompe tout ou presque, c.-à-d. qq. mois de travail. C'est pas le truc qui me plait le plus ;-) -- A+
Romer
Sergio <laposte@serge.delbono.net.invalid> wrote:
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on
diffuse votre site ? Le plus simple serait de ne pas le publier...
Je fais un site pour une boite moyennant finance. Ils trouvent un gus
qui leur fait gratos car employé à temps plein pour la boite.
Il pompe tout ou presque, c.-à-d. qq. mois de travail. C'est pas le truc
qui me plait le plus ;-)
--
A+
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on diffuse votre site ? Le plus simple serait de ne pas le publier...
Je fais un site pour une boite moyennant finance. Ils trouvent un gus qui leur fait gratos car employé à temps plein pour la boite. Il pompe tout ou presque, c.-à-d. qq. mois de travail. C'est pas le truc qui me plait le plus ;-) -- A+
Romer
SAM
Sergio a écrit :
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on diffuse votre site ? Le plus simple serait de ne pas le publier...
Perso, je suis bien content d'avoir aspiré certains sites ... disparus depuis.
D'autre part c'est aussi bien pratique d'avoir aspiré un site (ou une partie) pour consultation hors connexion. On va dire qu'aujourd'hui ce n'est plus aussi important qu'à lépoque du seul RTC, néanmoins celui rapatrié n'est pas tributaire des nvelles lubies d'adapation du webmaster (+/- de passage), on y a ses repères.
-- sm
Sergio a écrit :
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on
diffuse votre site ? Le plus simple serait de ne pas le publier...
Perso, je suis bien content d'avoir aspiré certains sites ... disparus
depuis.
D'autre part c'est aussi bien pratique d'avoir aspiré un site (ou une
partie) pour consultation hors connexion.
On va dire qu'aujourd'hui ce n'est plus aussi important qu'à lépoque du
seul RTC, néanmoins celui rapatrié n'est pas tributaire des nvelles
lubies d'adapation du webmaster (+/- de passage), on y a ses repères.
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on diffuse votre site ? Le plus simple serait de ne pas le publier...
Perso, je suis bien content d'avoir aspiré certains sites ... disparus depuis.
D'autre part c'est aussi bien pratique d'avoir aspiré un site (ou une partie) pour consultation hors connexion. On va dire qu'aujourd'hui ce n'est plus aussi important qu'à lépoque du seul RTC, néanmoins celui rapatrié n'est pas tributaire des nvelles lubies d'adapation du webmaster (+/- de passage), on y a ses repères.
-- sm
Denis Beauregard
Le Fri, 25 Jan 2008 23:00:12 +0100, SAM écrivait dans fr.comp.infosystemes.www.auteurs:
Sergio a écrit :
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on diffuse votre site ? Le plus simple serait de ne pas le publier...
Perso, je suis bien content d'avoir aspiré certains sites ... disparus depuis.
Il y a effectivement certains sites disparus et au contenu unique.
Mais il y a aussi des sites qui disparaissent parce que leur auteur en a assez d'être aspiré. Moi j'ai installé un aspirateur le jour où j'ai vu dans mes logs (graphique) une ligne qui dépassait de beaucoup la moyenne, quelqu'un venait de pomper TROIS FOIS le site, oui 3 fois, sans raison, simplement peut-être parce que trop con pour configurer son navigateur. Alors, j'ai installé un système de protection et ce n'est plus jamais arrivé.
Ceci dit, quand je pompe un site, j'évalue maintenant le contenu et je regarde d'où le contenu vient. Dans un cas, c'était des milliers de fiches et j'ai fait des wget en répartissant l'opération sur plusieurs semaines, histoire de ne pas trop agacer l'auteur du site (surtout que dans ce cas, c'était un travail coopératif fait par des visiteurs). Depuis, j'utilise le résultat de façon différente par rapport à ce que permettait le site. En d'autres mots, le site est encore là et je m'en sers, mais dans certains cas, pour une recherche un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai reconstruit la base de données) parce que je ne trouve pas ce que je veux par la méthode officielle.
Mais quand je regarde où se font les clics des adwords que j'ai achetés (je renvoie ma pub adword vers une certaine page et je fais des stats de mes visiteurs), si j'y vais avec les valeurs par défaut, je trouve que la moitié environ des clics se font sur des sites dont le contenu a été pillé sur d'autres sites. Des gens qui cliquent parce qu'ils sont piégés dans un de ces "link farms" par exemple et qui finissent par cliquer sur une bannière même si cela ne les intéressent pas parce qu'ils cherchent désespérément du vrai contenu. C'est le type de réflexion qui me pousserait à faire la même chose si je n'étais pas foncièrement honnête. Puisqu'on tolère les sites qui pillent, pourquoi ne pas lancer moi aussi mon réseau de sites piratés de façon anonyme ? Mais je vais faire mieux, soit du contenu original et exclusif et qui demande beaucoup de pages...
D'autre part c'est aussi bien pratique d'avoir aspiré un site (ou une partie) pour consultation hors connexion. On va dire qu'aujourd'hui ce n'est plus aussi important qu'à lépoque du seul RTC, néanmoins celui rapatrié n'est pas tributaire des nvelles lubies d'adapation du webmaster (+/- de passage), on y a ses repères.
C'est un bon point, mais en général, les sites sont assez stables. Quand cela change, c'est souvent qu'il y a un intérêt commercial et que l'auteur du site ne veut pas se faire piller ou encore n'a pas compris qu'un site web est une vitrine et non un gadget pour apprenti-sorcier.
Denis
Le Fri, 25 Jan 2008 23:00:12 +0100, SAM
<stephanemoriaux.NoAdmin@wanadoo.fr.invalid> écrivait dans
fr.comp.infosystemes.www.auteurs:
Sergio a écrit :
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on
diffuse votre site ? Le plus simple serait de ne pas le publier...
Perso, je suis bien content d'avoir aspiré certains sites ... disparus
depuis.
Il y a effectivement certains sites disparus et au contenu unique.
Mais il y a aussi des sites qui disparaissent parce que leur
auteur en a assez d'être aspiré. Moi j'ai installé un aspirateur
le jour où j'ai vu dans mes logs (graphique) une ligne qui dépassait
de beaucoup la moyenne, quelqu'un venait de pomper TROIS FOIS le
site, oui 3 fois, sans raison, simplement peut-être parce que trop
con pour configurer son navigateur. Alors, j'ai installé un système
de protection et ce n'est plus jamais arrivé.
Ceci dit, quand je pompe un site, j'évalue maintenant le contenu et
je regarde d'où le contenu vient. Dans un cas, c'était des milliers
de fiches et j'ai fait des wget en répartissant l'opération sur
plusieurs semaines, histoire de ne pas trop agacer l'auteur du site
(surtout que dans ce cas, c'était un travail coopératif fait par des
visiteurs). Depuis, j'utilise le résultat de façon différente par
rapport à ce que permettait le site. En d'autres mots, le site est
encore là et je m'en sers, mais dans certains cas, pour une recherche
un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai
reconstruit la base de données) parce que je ne trouve pas ce que je
veux par la méthode officielle.
Mais quand je regarde où se font les clics des adwords que j'ai
achetés (je renvoie ma pub adword vers une certaine page et je fais
des stats de mes visiteurs), si j'y vais avec les valeurs par défaut,
je trouve que la moitié environ des clics se font sur des sites dont
le contenu a été pillé sur d'autres sites. Des gens qui cliquent
parce qu'ils sont piégés dans un de ces "link farms" par exemple et
qui finissent par cliquer sur une bannière même si cela ne les
intéressent pas parce qu'ils cherchent désespérément du vrai contenu.
C'est le type de réflexion qui me pousserait à faire la même chose
si je n'étais pas foncièrement honnête. Puisqu'on tolère les sites
qui pillent, pourquoi ne pas lancer moi aussi mon réseau de sites
piratés de façon anonyme ? Mais je vais faire mieux, soit du contenu
original et exclusif et qui demande beaucoup de pages...
D'autre part c'est aussi bien pratique d'avoir aspiré un site (ou une
partie) pour consultation hors connexion.
On va dire qu'aujourd'hui ce n'est plus aussi important qu'à lépoque du
seul RTC, néanmoins celui rapatrié n'est pas tributaire des nvelles
lubies d'adapation du webmaster (+/- de passage), on y a ses repères.
C'est un bon point, mais en général, les sites sont assez stables.
Quand cela change, c'est souvent qu'il y a un intérêt commercial et
que l'auteur du site ne veut pas se faire piller ou encore n'a pas
compris qu'un site web est une vitrine et non un gadget pour
apprenti-sorcier.
Le Fri, 25 Jan 2008 23:00:12 +0100, SAM écrivait dans fr.comp.infosystemes.www.auteurs:
Sergio a écrit :
Masi qu'avez-vous contre les aspirateurs ? Vous avez peur que l'on diffuse votre site ? Le plus simple serait de ne pas le publier...
Perso, je suis bien content d'avoir aspiré certains sites ... disparus depuis.
Il y a effectivement certains sites disparus et au contenu unique.
Mais il y a aussi des sites qui disparaissent parce que leur auteur en a assez d'être aspiré. Moi j'ai installé un aspirateur le jour où j'ai vu dans mes logs (graphique) une ligne qui dépassait de beaucoup la moyenne, quelqu'un venait de pomper TROIS FOIS le site, oui 3 fois, sans raison, simplement peut-être parce que trop con pour configurer son navigateur. Alors, j'ai installé un système de protection et ce n'est plus jamais arrivé.
Ceci dit, quand je pompe un site, j'évalue maintenant le contenu et je regarde d'où le contenu vient. Dans un cas, c'était des milliers de fiches et j'ai fait des wget en répartissant l'opération sur plusieurs semaines, histoire de ne pas trop agacer l'auteur du site (surtout que dans ce cas, c'était un travail coopératif fait par des visiteurs). Depuis, j'utilise le résultat de façon différente par rapport à ce que permettait le site. En d'autres mots, le site est encore là et je m'en sers, mais dans certains cas, pour une recherche un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai reconstruit la base de données) parce que je ne trouve pas ce que je veux par la méthode officielle.
Mais quand je regarde où se font les clics des adwords que j'ai achetés (je renvoie ma pub adword vers une certaine page et je fais des stats de mes visiteurs), si j'y vais avec les valeurs par défaut, je trouve que la moitié environ des clics se font sur des sites dont le contenu a été pillé sur d'autres sites. Des gens qui cliquent parce qu'ils sont piégés dans un de ces "link farms" par exemple et qui finissent par cliquer sur une bannière même si cela ne les intéressent pas parce qu'ils cherchent désespérément du vrai contenu. C'est le type de réflexion qui me pousserait à faire la même chose si je n'étais pas foncièrement honnête. Puisqu'on tolère les sites qui pillent, pourquoi ne pas lancer moi aussi mon réseau de sites piratés de façon anonyme ? Mais je vais faire mieux, soit du contenu original et exclusif et qui demande beaucoup de pages...
D'autre part c'est aussi bien pratique d'avoir aspiré un site (ou une partie) pour consultation hors connexion. On va dire qu'aujourd'hui ce n'est plus aussi important qu'à lépoque du seul RTC, néanmoins celui rapatrié n'est pas tributaire des nvelles lubies d'adapation du webmaster (+/- de passage), on y a ses repères.
C'est un bon point, mais en général, les sites sont assez stables. Quand cela change, c'est souvent qu'il y a un intérêt commercial et que l'auteur du site ne veut pas se faire piller ou encore n'a pas compris qu'un site web est une vitrine et non un gadget pour apprenti-sorcier.
Denis
Antoine
Denis Beauregard wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai reconstruit la base de données) parce que je ne trouve pas ce que je veux par la méthode officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...) j'arrive toujours à trouver ce que je cherche sur un site.
-- Antoine
Denis Beauregard
<denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser
la version que j'en ai extraite (j'ai reconstruit la base de
données) parce que je ne trouve pas ce que je veux par la méthode
officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...)
j'arrive toujours à trouver ce que je cherche sur un site.
certains cas, pour une recherche un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai reconstruit la base de données) parce que je ne trouve pas ce que je veux par la méthode officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...) j'arrive toujours à trouver ce que je cherche sur un site.