protection contre aspirateurs de sites

docanski

27/01/2008 à 13:07

Alors que les eleveurs et agriculteurs polluent toujours la Bretagne,
Lea GRIS nous narre ce qui suit en ce 25/01/2008 17:21 :

Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un
fichier de blocage ou un .htaccess

...

Disallow: /cgi-bin/banme.pl

...

#!/usr/bin/perl
use CGI;

...

Et un .htaccess qui va bien.

Cela suppose que l'hébergeur accepte l'installation de ses propres CGI.
Pas évident.
Et plutôt compliqué ... en tout cas pour moi.

Il existe aussi des scripts travaillant avec une base de donnée et
écriture automatique de règles firewall.

Cela suppose que toutes les pages sont stockées dans une base de données ?
Adieu donc la simplicité du trio (X)HTML, CSS et Ecma et bonjour PHP
comme base de travail ?
Dans ce cas, il faudra que je m'y mette vraiment :-(.

Cordialement,
--
docanski

Portail et annuaire du nord-Bretagne : http://armorance.free.fr/
Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor/free.fr/

Denis Beauregard

27/01/2008 à 15:54

Le 27 Jan 2008 11:10:17 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:

Denis Beauregard
wrote :

certains cas, pour une recherche un peu pointue, je dois utiliser
la version que j'en ai extraite (j'ai reconstruit la base de
données) parce que je ne trouve pas ce que je veux par la méthode
officielle.

Avec une recherche google un tantinet fine (site, inurl, etc...)
j'arrive toujours à trouver ce que je cherche sur un site.

Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.

Denis

Antoine

27/01/2008 à 16:39

Denis Beauregard wrote :

Le 27 Jan 2008 11:10:17 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:

Denis Beauregard
wrote :

certains cas, pour une recherche un peu pointue, je dois utiliser
la version que j'en ai extraite (j'ai reconstruit la base de
données) parce que je ne trouve pas ce que je veux par la méthode
officielle.

Avec une recherche google un tantinet fine (site, inurl, etc...)
j'arrive toujours à trouver ce que je cherche sur un site.

Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.

Désolé, je n'ai pas compris. Tu parles d'un OR logique ?

--
Antoine

Denis Beauregard

27/01/2008 à 17:31

Le 27 Jan 2008 15:39:09 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:

Denis Beauregard wrote :

Le 27 Jan 2008 11:10:17 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:

Denis Beauregard
wrote :

certains cas, pour une recherche un peu pointue, je dois utiliser
la version que j'en ai extraite (j'ai reconstruit la base de
données) parce que je ne trouve pas ce que je veux par la méthode
officielle.

Avec une recherche google un tantinet fine (site, inurl, etc...)
j'arrive toujours à trouver ce que je cherche sur un site.

Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.

Désolé, je n'ai pas compris. Tu parles d'un OR logique ?

Non, mais de toutes façons, ce serait inutile dans mon cas.

2 exemples de recherches floues (en d'autres mots, je n'ai pas le
mot exact quand je fais la recherche).

- recherche d'une personne. L'orthographe n'est fixée que vers 1800.
Avant, dans un même acte, le nom d'une personne peut s'écrit de
plusieurs façons. Par exemple, le curé peut écrire en marge ARSENEAU,
dans l'acte ARSENEAUX et l'individu peut signer ARCENEAU. Alors, si
quelqu'un met cette information en ligne, il a non seulement le choix
entre les 3 mots qui apparaissent sur l'acte, mais il peut aussi
normaliser le nom en ARSENAULT. Pour certains noms, il peut y avoir
100 variations. Pour le mien, j'en ai vu une soixantaine comme
BEAURGARD, BEAUREGUARD, BORGAR, etc. Si je vois les noms dans l'ordre
alphabétique, je peux trouver le bon, mais le OR serait loin de
répondre à la demande. À la limite, un jeton serait utile (B*RGAR*)
mais pas universel (ici, on passerait les BEAUREGUARD et BEAUREJARD).

Une solution est la recherche par prénom. En d'autres mots, au lieu
de rechercher le couple DURAND-DUPONT, on recherche Zacharie DURAND
et Antoinette DUPONT ou les couples Zacharie-Antoinette et on trouve
éventuellement DURANG et DU PAND.

- recherche d'un endroit. Le problème est similaire pour ce qui est
de l'orthographe, et on a la région pour aider.

Pour le moment, Google ne fait pas de recherche de ce type. Mais si
j'ai pompé une base de données et que je peux la manipuler comme je
veux sur mon ordi, cela augmente de beaucoup mes possibilités quand
les noms sont mal saisis.

Et si on ajoute le pillage systématique de pages par certains sites
(spamdex), les moteurs deviennent encore moins efficaces car on
augmente alors le nombre de pages trouvées bien que ces pages n'aient
aucune utilité.

Je pense que tout cela s'applique aussi dans d'autres domaines, mais
je connais bien les problèmes de mon domaine à moi et je me mets alors
à cogiter sur ce que serait un moteur de recherche idéal, analysant
réellement les pages pour identifier non pas les mots mais les
personnes et les couples, etc.

Denis

Le 27 Jan 2008 15:39:09 GMT, Antoine <noemail@noemail.invalid>
écrivait dans fr.comp.infosystemes.www.auteurs:

Denis Beauregard <denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :

Le 27 Jan 2008 11:10:17 GMT, Antoine <noemail@noemail.invalid>
écrivait dans fr.comp.infosystemes.www.auteurs:

Denis Beauregard
<denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :

certains cas, pour une recherche un peu pointue, je dois utiliser
la version que j'en ai extraite (j'ai reconstruit la base de
données) parce que je ne trouve pas ce que je veux par la méthode
officielle.

Avec une recherche google un tantinet fine (site, inurl, etc...)
j'arrive toujours à trouver ce que je cherche sur un site.

Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.

Désolé, je n'ai pas compris. Tu parles d'un OR logique ?

Non, mais de toutes façons, ce serait inutile dans mon cas.

2 exemples de recherches floues (en d'autres mots, je n'ai pas le
mot exact quand je fais la recherche).

- recherche d'une personne. L'orthographe n'est fixée que vers 1800.
Avant, dans un même acte, le nom d'une personne peut s'écrit de
plusieurs façons. Par exemple, le curé peut écrire en marge ARSENEAU,
dans l'acte ARSENEAUX et l'individu peut signer ARCENEAU. Alors, si
quelqu'un met cette information en ligne, il a non seulement le choix
entre les 3 mots qui apparaissent sur l'acte, mais il peut aussi
normaliser le nom en ARSENAULT. Pour certains noms, il peut y avoir
100 variations. Pour le mien, j'en ai vu une soixantaine comme
BEAURGARD, BEAUREGUARD, BORGAR, etc. Si je vois les noms dans l'ordre
alphabétique, je peux trouver le bon, mais le OR serait loin de
répondre à la demande. À la limite, un jeton serait utile (B*RGAR*)
mais pas universel (ici, on passerait les BEAUREGUARD et BEAUREJARD).

Une solution est la recherche par prénom. En d'autres mots, au lieu
de rechercher le couple DURAND-DUPONT, on recherche Zacharie DURAND
et Antoinette DUPONT ou les couples Zacharie-Antoinette et on trouve
éventuellement DURANG et DU PAND.

- recherche d'un endroit. Le problème est similaire pour ce qui est
de l'orthographe, et on a la région pour aider.

Pour le moment, Google ne fait pas de recherche de ce type. Mais si
j'ai pompé une base de données et que je peux la manipuler comme je
veux sur mon ordi, cela augmente de beaucoup mes possibilités quand
les noms sont mal saisis.

Et si on ajoute le pillage systématique de pages par certains sites
(spamdex), les moteurs deviennent encore moins efficaces car on
augmente alors le nombre de pages trouvées bien que ces pages n'aient
aucune utilité.

Je pense que tout cela s'applique aussi dans d'autres domaines, mais
je connais bien les problèmes de mon domaine à moi et je me mets alors
à cogiter sur ce que serait un moteur de recherche idéal, analysant
réellement les pages pour identifier non pas les mots mais les
personnes et les couples, etc.

Denis

Vous avez filtré cet utilisateur ! Consultez son message

Le 27 Jan 2008 15:39:09 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:

Denis Beauregard wrote :

Le 27 Jan 2008 11:10:17 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:

Denis Beauregard
wrote :

certains cas, pour une recherche un peu pointue, je dois utiliser
la version que j'en ai extraite (j'ai reconstruit la base de
données) parce que je ne trouve pas ce que je veux par la méthode
officielle.

Avec une recherche google un tantinet fine (site, inurl, etc...)
j'arrive toujours à trouver ce que je cherche sur un site.

Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.

Désolé, je n'ai pas compris. Tu parles d'un OR logique ?

Non, mais de toutes façons, ce serait inutile dans mon cas.

2 exemples de recherches floues (en d'autres mots, je n'ai pas le
mot exact quand je fais la recherche).

- recherche d'une personne. L'orthographe n'est fixée que vers 1800.
Avant, dans un même acte, le nom d'une personne peut s'écrit de
plusieurs façons. Par exemple, le curé peut écrire en marge ARSENEAU,
dans l'acte ARSENEAUX et l'individu peut signer ARCENEAU. Alors, si
quelqu'un met cette information en ligne, il a non seulement le choix
entre les 3 mots qui apparaissent sur l'acte, mais il peut aussi
normaliser le nom en ARSENAULT. Pour certains noms, il peut y avoir
100 variations. Pour le mien, j'en ai vu une soixantaine comme
BEAURGARD, BEAUREGUARD, BORGAR, etc. Si je vois les noms dans l'ordre
alphabétique, je peux trouver le bon, mais le OR serait loin de
répondre à la demande. À la limite, un jeton serait utile (B*RGAR*)
mais pas universel (ici, on passerait les BEAUREGUARD et BEAUREJARD).

Une solution est la recherche par prénom. En d'autres mots, au lieu
de rechercher le couple DURAND-DUPONT, on recherche Zacharie DURAND
et Antoinette DUPONT ou les couples Zacharie-Antoinette et on trouve
éventuellement DURANG et DU PAND.

- recherche d'un endroit. Le problème est similaire pour ce qui est
de l'orthographe, et on a la région pour aider.

Pour le moment, Google ne fait pas de recherche de ce type. Mais si
j'ai pompé une base de données et que je peux la manipuler comme je
veux sur mon ordi, cela augmente de beaucoup mes possibilités quand
les noms sont mal saisis.

Et si on ajoute le pillage systématique de pages par certains sites
(spamdex), les moteurs deviennent encore moins efficaces car on
augmente alors le nombre de pages trouvées bien que ces pages n'aient
aucune utilité.

Je pense que tout cela s'applique aussi dans d'autres domaines, mais
je connais bien les problèmes de mon domaine à moi et je me mets alors
à cogiter sur ce que serait un moteur de recherche idéal, analysant
réellement les pages pour identifier non pas les mots mais les
personnes et les couples, etc.

Denis

Antoine

27/01/2008 à 17:50

Merci pour les détails, Denis. Je comprends mieux les particularités
de tes recherches.

Denis Beauregard
wrote :

Je pense que tout cela s'applique aussi dans d'autres domaines,
mais je connais bien les problèmes de mon domaine à moi et je me
mets alors à cogiter sur ce que serait un moteur de recherche
idéal, analysant réellement les pages pour identifier non pas les
mots mais les personnes et les couples, etc.

Ca m'a l'air coton. Faute de nom stable (ante 1800 dans ton cas), le
moteur devrait croiser les informations issues de différentes pages.
J'ai cherché il y a 1 mois, le nom d'un prêtre du 17ème siècle :
après 1 heure de recherche, une seule page parlait de lui. Donc,
sauf pour les personnes très connues, il n'y a malheureusement
souvent pas assez de données à croiser pour trouver l'individu de
manière rapide et relativement sûre.

Cordialement,
Antoine

Denis Beauregard

27/01/2008 à 19:40

Le 27 Jan 2008 16:50:57 GMT, Antoine
écrivait dans fr.comp.infosystemes.www.auteurs:

Merci pour les détails, Denis. Je comprends mieux les particularités
de tes recherches.

Denis Beauregard
wrote :

Je pense que tout cela s'applique aussi dans d'autres domaines,
mais je connais bien les problèmes de mon domaine à moi et je me
mets alors à cogiter sur ce que serait un moteur de recherche
idéal, analysant réellement les pages pour identifier non pas les
mots mais les personnes et les couples, etc.

Ca m'a l'air coton. Faute de nom stable (ante 1800 dans ton cas), le
moteur devrait croiser les informations issues de différentes pages.
J'ai cherché il y a 1 mois, le nom d'un prêtre du 17ème siècle :
après 1 heure de recherche, une seule page parlait de lui. Donc,
sauf pour les personnes très connues, il n'y a malheureusement
souvent pas assez de données à croiser pour trouver l'individu de
manière rapide et relativement sûre.

Il y a des milliards de personnes dont le nom se trouve dans Internet,
que ce soit dans une page ouverte et visitée par des moteurs de
recherche ou dans une base de données à accès restreint (que ce soit
dans un but payant, pour se protéger du pompage dont celui des
spambots et des compétiteurs, etc.). Et peu d'entre elles sont des
personnes très connues. Le moteur de recherche n'ayant normalement
pas accès à toute l'information, il lui est donc impossible de s'en
servir. Un individu ayant accès à des données hors-Internet (le
monde existait bien avant la popularité d'Internet) peut se construire
une bonne base, ne serait-ce qu'en recopiant à la main ce qu'on trouve
sur papier. L'expert aura donc une vision très différente des données
par rapport à un moteur de recherche, surtout s'il utilise des données
qui ne sont pas sur Internet ou qu'un moteur de recherche ne peut pas
analyser (comme un manuscrit ou une carte ancienne).

Denis

Le 27 Jan 2008 16:50:57 GMT, Antoine <noemail@noemail.invalid>
écrivait dans fr.comp.infosystemes.www.auteurs:

Merci pour les détails, Denis. Je comprends mieux les particularités
de tes recherches.

Denis Beauregard
<denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :

Je pense que tout cela s'applique aussi dans d'autres domaines,
mais je connais bien les problèmes de mon domaine à moi et je me
mets alors à cogiter sur ce que serait un moteur de recherche
idéal, analysant réellement les pages pour identifier non pas les
mots mais les personnes et les couples, etc.

Ca m'a l'air coton. Faute de nom stable (ante 1800 dans ton cas), le
moteur devrait croiser les informations issues de différentes pages.
J'ai cherché il y a 1 mois, le nom d'un prêtre du 17ème siècle :
après 1 heure de recherche, une seule page parlait de lui. Donc,
sauf pour les personnes très connues, il n'y a malheureusement
souvent pas assez de données à croiser pour trouver l'individu de
manière rapide et relativement sûre.

Il y a des milliards de personnes dont le nom se trouve dans Internet,
que ce soit dans une page ouverte et visitée par des moteurs de
recherche ou dans une base de données à accès restreint (que ce soit
dans un but payant, pour se protéger du pompage dont celui des
spambots et des compétiteurs, etc.). Et peu d'entre elles sont des
personnes très connues. Le moteur de recherche n'ayant normalement
pas accès à toute l'information, il lui est donc impossible de s'en
servir. Un individu ayant accès à des données hors-Internet (le
monde existait bien avant la popularité d'Internet) peut se construire
une bonne base, ne serait-ce qu'en recopiant à la main ce qu'on trouve
sur papier. L'expert aura donc une vision très différente des données
par rapport à un moteur de recherche, surtout s'il utilise des données
qui ne sont pas sur Internet ou qu'un moteur de recherche ne peut pas
analyser (comme un manuscrit ou une carte ancienne).

Denis

Patrick Texier

27/01/2008 à 19:53

Le Sun, 27 Jan 2008 09:54:01 -0500, Denis Beauregard a écrit :

Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.

C'est pour cela qu'il faut aspirer : avec un bon grep dans les fichiers
on y arrive.

Denis Beauregard

27/01/2008 à 20:38

Le Sun, 27 Jan 2008 19:53:19 +0100, Patrick Texier
écrivait dans
fr.comp.infosystemes.www.auteurs:

Le Sun, 27 Jan 2008 09:54:01 -0500, Denis Beauregard a écrit :

Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.

C'est pour cela qu'il faut aspirer : avec un bon grep dans les fichiers
on y arrive.

Si c'est un "grep", alors un moteur de recherche avec des expressions
régulières devrait aussi y arriver. En tous cas, avec au moins des
jetons.

Dans le moteur que j'ai fait pour la SGCF (plusieurs bases qui
dépassent le million de lignes), je permets les jetons, donc ici,
je pourrais rechercher tr*mbl* ou même tr*bl*. C'est aussi le
cas pour d'autres bases (je sais que bms2000 le fait, avec autour
de 4 ou 5 millions de lignes), mais d'autres bases spécialisées ne
le font pas (en tous cas, je ne l'ai pas vu dans geneanet, alors
que genearmor a au moins la recherche par mot semblable).

Par contre, effectivement, j'ai pu trouver des informations en ayant
pompé un site parce que le site ne permet pas les jetons et surtout
parce que je peux faire une recherche beaucoup plus complexe
simplement en triant les données.

Denis

Mickaël Wolff

28/01/2008 à 03:18

Bernd a écrit :

Je fais un site pour une boite moyennant finance. Ils trouvent un gus
qui leur fait gratos car employé à temps plein pour la boite.
Il pompe tout ou presque, c.-à-d. qq. mois de travail. C'est pas le truc
qui me plait le plus ;-)

Dans ce cas là, plutôt que d'essayer de limiter techniquement, vous
pourriez leur rappeler les termes du contrat et le principe du droit
d'auteur ?

--
Mickaël Wolff aka Lupus Michaelis
http://lupusmic.org

Pierre Goiffon

28/01/2008 à 13:54

Lea GRIS wrote:

Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première.

Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un
fichier de blocage ou un .htaccess

On le répète encore une fois ? Une IP peut être partagée, soit par un
proxy ou routeur NAT/PAT, soit parce qu'elle est chez un ISP et donc
aléatoirement répartit à intervalles réguliers entre les abonnés, ou...
(...)

protection contre aspirateurs de sites

10 réponses

Veuillez sélectionner un problème