Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première. Probablement par un script mais je n'en sais
pas plus.
En fait, je n'en sais rien :-) ... mais j'aimerais savoir.
Quelqu'un connaît la méthode ?
Cordialement,
--
docanski
Portail et annuaire du nord-Bretagne : http://armorance.free.fr/
Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor/free.fr/
Alors que les eleveurs et agriculteurs polluent toujours la Bretagne, Lea GRIS nous narre ce qui suit en ce 25/01/2008 17:21 :
Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un fichier de blocage ou un .htaccess
...
Disallow: /cgi-bin/banme.pl
...
#!/usr/bin/perl use CGI;
...
Et un .htaccess qui va bien.
Cela suppose que l'hébergeur accepte l'installation de ses propres CGI. Pas évident. Et plutôt compliqué ... en tout cas pour moi.
Il existe aussi des scripts travaillant avec une base de donnée et écriture automatique de règles firewall.
Cela suppose que toutes les pages sont stockées dans une base de données ? Adieu donc la simplicité du trio (X)HTML, CSS et Ecma et bonjour PHP comme base de travail ? Dans ce cas, il faudra que je m'y mette vraiment :-(.
Cordialement, -- docanski
Portail et annuaire du nord-Bretagne : http://armorance.free.fr/ Guide des champignons d'Europe : http://mycorance.free.fr/ La vallée de la Rance maritime : http://valderance.free.fr/ Les côtes du nord de la Bretagne : http://docarmor/free.fr/
Alors que les eleveurs et agriculteurs polluent toujours la Bretagne,
Lea GRIS nous narre ce qui suit en ce 25/01/2008 17:21 :
Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un
fichier de blocage ou un .htaccess
...
Disallow: /cgi-bin/banme.pl
...
#!/usr/bin/perl
use CGI;
...
Et un .htaccess qui va bien.
Cela suppose que l'hébergeur accepte l'installation de ses propres CGI.
Pas évident.
Et plutôt compliqué ... en tout cas pour moi.
Il existe aussi des scripts travaillant avec une base de donnée et
écriture automatique de règles firewall.
Cela suppose que toutes les pages sont stockées dans une base de données ?
Adieu donc la simplicité du trio (X)HTML, CSS et Ecma et bonjour PHP
comme base de travail ?
Dans ce cas, il faudra que je m'y mette vraiment :-(.
Cordialement,
--
docanski
Portail et annuaire du nord-Bretagne : http://armorance.free.fr/
Guide des champignons d'Europe : http://mycorance.free.fr/
La vallée de la Rance maritime : http://valderance.free.fr/
Les côtes du nord de la Bretagne : http://docarmor/free.fr/
Alors que les eleveurs et agriculteurs polluent toujours la Bretagne, Lea GRIS nous narre ce qui suit en ce 25/01/2008 17:21 :
Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un fichier de blocage ou un .htaccess
...
Disallow: /cgi-bin/banme.pl
...
#!/usr/bin/perl use CGI;
...
Et un .htaccess qui va bien.
Cela suppose que l'hébergeur accepte l'installation de ses propres CGI. Pas évident. Et plutôt compliqué ... en tout cas pour moi.
Il existe aussi des scripts travaillant avec une base de donnée et écriture automatique de règles firewall.
Cela suppose que toutes les pages sont stockées dans une base de données ? Adieu donc la simplicité du trio (X)HTML, CSS et Ecma et bonjour PHP comme base de travail ? Dans ce cas, il faudra que je m'y mette vraiment :-(.
Cordialement, -- docanski
Portail et annuaire du nord-Bretagne : http://armorance.free.fr/ Guide des champignons d'Europe : http://mycorance.free.fr/ La vallée de la Rance maritime : http://valderance.free.fr/ Les côtes du nord de la Bretagne : http://docarmor/free.fr/
Denis Beauregard
Le 27 Jan 2008 11:10:17 GMT, Antoine écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai reconstruit la base de données) parce que je ne trouve pas ce que je veux par la méthode officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...) j'arrive toujours à trouver ce que je cherche sur un site.
Je fais de la généalogie. Essaie de trouver sur un site qui contient par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens écrivent tremblay. Google ne fait pas encore de recherche par mot semblable.
Denis
Le 27 Jan 2008 11:10:17 GMT, Antoine <noemail@noemail.invalid>
écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard
<denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser
la version que j'en ai extraite (j'ai reconstruit la base de
données) parce que je ne trouve pas ce que je veux par la méthode
officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...)
j'arrive toujours à trouver ce que je cherche sur un site.
Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.
Le 27 Jan 2008 11:10:17 GMT, Antoine écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai reconstruit la base de données) parce que je ne trouve pas ce que je veux par la méthode officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...) j'arrive toujours à trouver ce que je cherche sur un site.
Je fais de la généalogie. Essaie de trouver sur un site qui contient par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens écrivent tremblay. Google ne fait pas encore de recherche par mot semblable.
Denis
Antoine
Denis Beauregard wrote :
Le 27 Jan 2008 11:10:17 GMT, Antoine écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai reconstruit la base de données) parce que je ne trouve pas ce que je veux par la méthode officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...) j'arrive toujours à trouver ce que je cherche sur un site.
Je fais de la généalogie. Essaie de trouver sur un site qui contient par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens écrivent tremblay. Google ne fait pas encore de recherche par mot semblable.
Désolé, je n'ai pas compris. Tu parles d'un OR logique ?
-- Antoine
Denis Beauregard <denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :
Le 27 Jan 2008 11:10:17 GMT, Antoine <noemail@noemail.invalid>
écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard
<denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser
la version que j'en ai extraite (j'ai reconstruit la base de
données) parce que je ne trouve pas ce que je veux par la méthode
officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...)
j'arrive toujours à trouver ce que je cherche sur un site.
Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.
Désolé, je n'ai pas compris. Tu parles d'un OR logique ?
Le 27 Jan 2008 11:10:17 GMT, Antoine écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai reconstruit la base de données) parce que je ne trouve pas ce que je veux par la méthode officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...) j'arrive toujours à trouver ce que je cherche sur un site.
Je fais de la généalogie. Essaie de trouver sur un site qui contient par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens écrivent tremblay. Google ne fait pas encore de recherche par mot semblable.
Désolé, je n'ai pas compris. Tu parles d'un OR logique ?
-- Antoine
Denis Beauregard
Le 27 Jan 2008 15:39:09 GMT, Antoine écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote :
Le 27 Jan 2008 11:10:17 GMT, Antoine écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai reconstruit la base de données) parce que je ne trouve pas ce que je veux par la méthode officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...) j'arrive toujours à trouver ce que je cherche sur un site.
Je fais de la généalogie. Essaie de trouver sur un site qui contient par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens écrivent tremblay. Google ne fait pas encore de recherche par mot semblable.
Désolé, je n'ai pas compris. Tu parles d'un OR logique ?
Non, mais de toutes façons, ce serait inutile dans mon cas.
2 exemples de recherches floues (en d'autres mots, je n'ai pas le mot exact quand je fais la recherche).
- recherche d'une personne. L'orthographe n'est fixée que vers 1800. Avant, dans un même acte, le nom d'une personne peut s'écrit de plusieurs façons. Par exemple, le curé peut écrire en marge ARSENEAU, dans l'acte ARSENEAUX et l'individu peut signer ARCENEAU. Alors, si quelqu'un met cette information en ligne, il a non seulement le choix entre les 3 mots qui apparaissent sur l'acte, mais il peut aussi normaliser le nom en ARSENAULT. Pour certains noms, il peut y avoir 100 variations. Pour le mien, j'en ai vu une soixantaine comme BEAURGARD, BEAUREGUARD, BORGAR, etc. Si je vois les noms dans l'ordre alphabétique, je peux trouver le bon, mais le OR serait loin de répondre à la demande. À la limite, un jeton serait utile (B*RGAR*) mais pas universel (ici, on passerait les BEAUREGUARD et BEAUREJARD).
Une solution est la recherche par prénom. En d'autres mots, au lieu de rechercher le couple DURAND-DUPONT, on recherche Zacharie DURAND et Antoinette DUPONT ou les couples Zacharie-Antoinette et on trouve éventuellement DURANG et DU PAND.
- recherche d'un endroit. Le problème est similaire pour ce qui est de l'orthographe, et on a la région pour aider.
Pour le moment, Google ne fait pas de recherche de ce type. Mais si j'ai pompé une base de données et que je peux la manipuler comme je veux sur mon ordi, cela augmente de beaucoup mes possibilités quand les noms sont mal saisis.
Et si on ajoute le pillage systématique de pages par certains sites (spamdex), les moteurs deviennent encore moins efficaces car on augmente alors le nombre de pages trouvées bien que ces pages n'aient aucune utilité.
Je pense que tout cela s'applique aussi dans d'autres domaines, mais je connais bien les problèmes de mon domaine à moi et je me mets alors à cogiter sur ce que serait un moteur de recherche idéal, analysant réellement les pages pour identifier non pas les mots mais les personnes et les couples, etc.
Denis
Le 27 Jan 2008 15:39:09 GMT, Antoine <noemail@noemail.invalid>
écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard <denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :
Le 27 Jan 2008 11:10:17 GMT, Antoine <noemail@noemail.invalid>
écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard
<denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser
la version que j'en ai extraite (j'ai reconstruit la base de
données) parce que je ne trouve pas ce que je veux par la méthode
officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...)
j'arrive toujours à trouver ce que je cherche sur un site.
Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.
Désolé, je n'ai pas compris. Tu parles d'un OR logique ?
Non, mais de toutes façons, ce serait inutile dans mon cas.
2 exemples de recherches floues (en d'autres mots, je n'ai pas le
mot exact quand je fais la recherche).
- recherche d'une personne. L'orthographe n'est fixée que vers 1800.
Avant, dans un même acte, le nom d'une personne peut s'écrit de
plusieurs façons. Par exemple, le curé peut écrire en marge ARSENEAU,
dans l'acte ARSENEAUX et l'individu peut signer ARCENEAU. Alors, si
quelqu'un met cette information en ligne, il a non seulement le choix
entre les 3 mots qui apparaissent sur l'acte, mais il peut aussi
normaliser le nom en ARSENAULT. Pour certains noms, il peut y avoir
100 variations. Pour le mien, j'en ai vu une soixantaine comme
BEAURGARD, BEAUREGUARD, BORGAR, etc. Si je vois les noms dans l'ordre
alphabétique, je peux trouver le bon, mais le OR serait loin de
répondre à la demande. À la limite, un jeton serait utile (B*RGAR*)
mais pas universel (ici, on passerait les BEAUREGUARD et BEAUREJARD).
Une solution est la recherche par prénom. En d'autres mots, au lieu
de rechercher le couple DURAND-DUPONT, on recherche Zacharie DURAND
et Antoinette DUPONT ou les couples Zacharie-Antoinette et on trouve
éventuellement DURANG et DU PAND.
- recherche d'un endroit. Le problème est similaire pour ce qui est
de l'orthographe, et on a la région pour aider.
Pour le moment, Google ne fait pas de recherche de ce type. Mais si
j'ai pompé une base de données et que je peux la manipuler comme je
veux sur mon ordi, cela augmente de beaucoup mes possibilités quand
les noms sont mal saisis.
Et si on ajoute le pillage systématique de pages par certains sites
(spamdex), les moteurs deviennent encore moins efficaces car on
augmente alors le nombre de pages trouvées bien que ces pages n'aient
aucune utilité.
Je pense que tout cela s'applique aussi dans d'autres domaines, mais
je connais bien les problèmes de mon domaine à moi et je me mets alors
à cogiter sur ce que serait un moteur de recherche idéal, analysant
réellement les pages pour identifier non pas les mots mais les
personnes et les couples, etc.
Le 27 Jan 2008 15:39:09 GMT, Antoine écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote :
Le 27 Jan 2008 11:10:17 GMT, Antoine écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote :
certains cas, pour une recherche un peu pointue, je dois utiliser la version que j'en ai extraite (j'ai reconstruit la base de données) parce que je ne trouve pas ce que je veux par la méthode officielle.
Avec une recherche google un tantinet fine (site, inurl, etc...) j'arrive toujours à trouver ce que je cherche sur un site.
Je fais de la généalogie. Essaie de trouver sur un site qui contient par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens écrivent tremblay. Google ne fait pas encore de recherche par mot semblable.
Désolé, je n'ai pas compris. Tu parles d'un OR logique ?
Non, mais de toutes façons, ce serait inutile dans mon cas.
2 exemples de recherches floues (en d'autres mots, je n'ai pas le mot exact quand je fais la recherche).
- recherche d'une personne. L'orthographe n'est fixée que vers 1800. Avant, dans un même acte, le nom d'une personne peut s'écrit de plusieurs façons. Par exemple, le curé peut écrire en marge ARSENEAU, dans l'acte ARSENEAUX et l'individu peut signer ARCENEAU. Alors, si quelqu'un met cette information en ligne, il a non seulement le choix entre les 3 mots qui apparaissent sur l'acte, mais il peut aussi normaliser le nom en ARSENAULT. Pour certains noms, il peut y avoir 100 variations. Pour le mien, j'en ai vu une soixantaine comme BEAURGARD, BEAUREGUARD, BORGAR, etc. Si je vois les noms dans l'ordre alphabétique, je peux trouver le bon, mais le OR serait loin de répondre à la demande. À la limite, un jeton serait utile (B*RGAR*) mais pas universel (ici, on passerait les BEAUREGUARD et BEAUREJARD).
Une solution est la recherche par prénom. En d'autres mots, au lieu de rechercher le couple DURAND-DUPONT, on recherche Zacharie DURAND et Antoinette DUPONT ou les couples Zacharie-Antoinette et on trouve éventuellement DURANG et DU PAND.
- recherche d'un endroit. Le problème est similaire pour ce qui est de l'orthographe, et on a la région pour aider.
Pour le moment, Google ne fait pas de recherche de ce type. Mais si j'ai pompé une base de données et que je peux la manipuler comme je veux sur mon ordi, cela augmente de beaucoup mes possibilités quand les noms sont mal saisis.
Et si on ajoute le pillage systématique de pages par certains sites (spamdex), les moteurs deviennent encore moins efficaces car on augmente alors le nombre de pages trouvées bien que ces pages n'aient aucune utilité.
Je pense que tout cela s'applique aussi dans d'autres domaines, mais je connais bien les problèmes de mon domaine à moi et je me mets alors à cogiter sur ce que serait un moteur de recherche idéal, analysant réellement les pages pour identifier non pas les mots mais les personnes et les couples, etc.
Denis
Antoine
Merci pour les détails, Denis. Je comprends mieux les particularités de tes recherches.
Denis Beauregard wrote :
Je pense que tout cela s'applique aussi dans d'autres domaines, mais je connais bien les problèmes de mon domaine à moi et je me mets alors à cogiter sur ce que serait un moteur de recherche idéal, analysant réellement les pages pour identifier non pas les mots mais les personnes et les couples, etc.
Ca m'a l'air coton. Faute de nom stable (ante 1800 dans ton cas), le moteur devrait croiser les informations issues de différentes pages. J'ai cherché il y a 1 mois, le nom d'un prêtre du 17ème siècle : après 1 heure de recherche, une seule page parlait de lui. Donc, sauf pour les personnes très connues, il n'y a malheureusement souvent pas assez de données à croiser pour trouver l'individu de manière rapide et relativement sûre.
Cordialement, Antoine
Merci pour les détails, Denis. Je comprends mieux les particularités
de tes recherches.
Denis Beauregard
<denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :
Je pense que tout cela s'applique aussi dans d'autres domaines,
mais je connais bien les problèmes de mon domaine à moi et je me
mets alors à cogiter sur ce que serait un moteur de recherche
idéal, analysant réellement les pages pour identifier non pas les
mots mais les personnes et les couples, etc.
Ca m'a l'air coton. Faute de nom stable (ante 1800 dans ton cas), le
moteur devrait croiser les informations issues de différentes pages.
J'ai cherché il y a 1 mois, le nom d'un prêtre du 17ème siècle :
après 1 heure de recherche, une seule page parlait de lui. Donc,
sauf pour les personnes très connues, il n'y a malheureusement
souvent pas assez de données à croiser pour trouver l'individu de
manière rapide et relativement sûre.
Merci pour les détails, Denis. Je comprends mieux les particularités de tes recherches.
Denis Beauregard wrote :
Je pense que tout cela s'applique aussi dans d'autres domaines, mais je connais bien les problèmes de mon domaine à moi et je me mets alors à cogiter sur ce que serait un moteur de recherche idéal, analysant réellement les pages pour identifier non pas les mots mais les personnes et les couples, etc.
Ca m'a l'air coton. Faute de nom stable (ante 1800 dans ton cas), le moteur devrait croiser les informations issues de différentes pages. J'ai cherché il y a 1 mois, le nom d'un prêtre du 17ème siècle : après 1 heure de recherche, une seule page parlait de lui. Donc, sauf pour les personnes très connues, il n'y a malheureusement souvent pas assez de données à croiser pour trouver l'individu de manière rapide et relativement sûre.
Cordialement, Antoine
Denis Beauregard
Le 27 Jan 2008 16:50:57 GMT, Antoine écrivait dans fr.comp.infosystemes.www.auteurs:
Merci pour les détails, Denis. Je comprends mieux les particularités de tes recherches.
Denis Beauregard wrote :
Je pense que tout cela s'applique aussi dans d'autres domaines, mais je connais bien les problèmes de mon domaine à moi et je me mets alors à cogiter sur ce que serait un moteur de recherche idéal, analysant réellement les pages pour identifier non pas les mots mais les personnes et les couples, etc.
Ca m'a l'air coton. Faute de nom stable (ante 1800 dans ton cas), le moteur devrait croiser les informations issues de différentes pages. J'ai cherché il y a 1 mois, le nom d'un prêtre du 17ème siècle : après 1 heure de recherche, une seule page parlait de lui. Donc, sauf pour les personnes très connues, il n'y a malheureusement souvent pas assez de données à croiser pour trouver l'individu de manière rapide et relativement sûre.
Il y a des milliards de personnes dont le nom se trouve dans Internet, que ce soit dans une page ouverte et visitée par des moteurs de recherche ou dans une base de données à accès restreint (que ce soit dans un but payant, pour se protéger du pompage dont celui des spambots et des compétiteurs, etc.). Et peu d'entre elles sont des personnes très connues. Le moteur de recherche n'ayant normalement pas accès à toute l'information, il lui est donc impossible de s'en servir. Un individu ayant accès à des données hors-Internet (le monde existait bien avant la popularité d'Internet) peut se construire une bonne base, ne serait-ce qu'en recopiant à la main ce qu'on trouve sur papier. L'expert aura donc une vision très différente des données par rapport à un moteur de recherche, surtout s'il utilise des données qui ne sont pas sur Internet ou qu'un moteur de recherche ne peut pas analyser (comme un manuscrit ou une carte ancienne).
Denis
Le 27 Jan 2008 16:50:57 GMT, Antoine <noemail@noemail.invalid>
écrivait dans fr.comp.infosystemes.www.auteurs:
Merci pour les détails, Denis. Je comprends mieux les particularités
de tes recherches.
Denis Beauregard
<denis.b-at-francogene.com.invalid@nospam.com.invalid> wrote :
Je pense que tout cela s'applique aussi dans d'autres domaines,
mais je connais bien les problèmes de mon domaine à moi et je me
mets alors à cogiter sur ce que serait un moteur de recherche
idéal, analysant réellement les pages pour identifier non pas les
mots mais les personnes et les couples, etc.
Ca m'a l'air coton. Faute de nom stable (ante 1800 dans ton cas), le
moteur devrait croiser les informations issues de différentes pages.
J'ai cherché il y a 1 mois, le nom d'un prêtre du 17ème siècle :
après 1 heure de recherche, une seule page parlait de lui. Donc,
sauf pour les personnes très connues, il n'y a malheureusement
souvent pas assez de données à croiser pour trouver l'individu de
manière rapide et relativement sûre.
Il y a des milliards de personnes dont le nom se trouve dans Internet,
que ce soit dans une page ouverte et visitée par des moteurs de
recherche ou dans une base de données à accès restreint (que ce soit
dans un but payant, pour se protéger du pompage dont celui des
spambots et des compétiteurs, etc.). Et peu d'entre elles sont des
personnes très connues. Le moteur de recherche n'ayant normalement
pas accès à toute l'information, il lui est donc impossible de s'en
servir. Un individu ayant accès à des données hors-Internet (le
monde existait bien avant la popularité d'Internet) peut se construire
une bonne base, ne serait-ce qu'en recopiant à la main ce qu'on trouve
sur papier. L'expert aura donc une vision très différente des données
par rapport à un moteur de recherche, surtout s'il utilise des données
qui ne sont pas sur Internet ou qu'un moteur de recherche ne peut pas
analyser (comme un manuscrit ou une carte ancienne).
Le 27 Jan 2008 16:50:57 GMT, Antoine écrivait dans fr.comp.infosystemes.www.auteurs:
Merci pour les détails, Denis. Je comprends mieux les particularités de tes recherches.
Denis Beauregard wrote :
Je pense que tout cela s'applique aussi dans d'autres domaines, mais je connais bien les problèmes de mon domaine à moi et je me mets alors à cogiter sur ce que serait un moteur de recherche idéal, analysant réellement les pages pour identifier non pas les mots mais les personnes et les couples, etc.
Ca m'a l'air coton. Faute de nom stable (ante 1800 dans ton cas), le moteur devrait croiser les informations issues de différentes pages. J'ai cherché il y a 1 mois, le nom d'un prêtre du 17ème siècle : après 1 heure de recherche, une seule page parlait de lui. Donc, sauf pour les personnes très connues, il n'y a malheureusement souvent pas assez de données à croiser pour trouver l'individu de manière rapide et relativement sûre.
Il y a des milliards de personnes dont le nom se trouve dans Internet, que ce soit dans une page ouverte et visitée par des moteurs de recherche ou dans une base de données à accès restreint (que ce soit dans un but payant, pour se protéger du pompage dont celui des spambots et des compétiteurs, etc.). Et peu d'entre elles sont des personnes très connues. Le moteur de recherche n'ayant normalement pas accès à toute l'information, il lui est donc impossible de s'en servir. Un individu ayant accès à des données hors-Internet (le monde existait bien avant la popularité d'Internet) peut se construire une bonne base, ne serait-ce qu'en recopiant à la main ce qu'on trouve sur papier. L'expert aura donc une vision très différente des données par rapport à un moteur de recherche, surtout s'il utilise des données qui ne sont pas sur Internet ou qu'un moteur de recherche ne peut pas analyser (comme un manuscrit ou une carte ancienne).
Denis
Patrick Texier
Le Sun, 27 Jan 2008 09:54:01 -0500, Denis Beauregard a écrit :
Je fais de la généalogie. Essaie de trouver sur un site qui contient par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens écrivent tremblay. Google ne fait pas encore de recherche par mot semblable.
C'est pour cela qu'il faut aspirer : avec un bon grep dans les fichiers on y arrive.
Le Sun, 27 Jan 2008 09:54:01 -0500, Denis Beauregard a écrit :
Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.
C'est pour cela qu'il faut aspirer : avec un bon grep dans les fichiers
on y arrive.
Le Sun, 27 Jan 2008 09:54:01 -0500, Denis Beauregard a écrit :
Je fais de la généalogie. Essaie de trouver sur un site qui contient par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens écrivent tremblay. Google ne fait pas encore de recherche par mot semblable.
C'est pour cela qu'il faut aspirer : avec un bon grep dans les fichiers on y arrive.
Denis Beauregard
Le Sun, 27 Jan 2008 19:53:19 +0100, Patrick Texier écrivait dans fr.comp.infosystemes.www.auteurs:
Le Sun, 27 Jan 2008 09:54:01 -0500, Denis Beauregard a écrit :
Je fais de la généalogie. Essaie de trouver sur un site qui contient par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens écrivent tremblay. Google ne fait pas encore de recherche par mot semblable.
C'est pour cela qu'il faut aspirer : avec un bon grep dans les fichiers on y arrive.
Si c'est un "grep", alors un moteur de recherche avec des expressions régulières devrait aussi y arriver. En tous cas, avec au moins des jetons.
Dans le moteur que j'ai fait pour la SGCF (plusieurs bases qui dépassent le million de lignes), je permets les jetons, donc ici, je pourrais rechercher tr*mbl* ou même tr*bl*. C'est aussi le cas pour d'autres bases (je sais que bms2000 le fait, avec autour de 4 ou 5 millions de lignes), mais d'autres bases spécialisées ne le font pas (en tous cas, je ne l'ai pas vu dans geneanet, alors que genearmor a au moins la recherche par mot semblable).
Par contre, effectivement, j'ai pu trouver des informations en ayant pompé un site parce que le site ne permet pas les jetons et surtout parce que je peux faire une recherche beaucoup plus complexe simplement en triant les données.
Denis
Le Sun, 27 Jan 2008 19:53:19 +0100, Patrick Texier
<p.texier@alussinan.org> écrivait dans
fr.comp.infosystemes.www.auteurs:
Le Sun, 27 Jan 2008 09:54:01 -0500, Denis Beauregard a écrit :
Je fais de la généalogie. Essaie de trouver sur un site qui contient
par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens
écrivent tremblay. Google ne fait pas encore de recherche par mot
semblable.
C'est pour cela qu'il faut aspirer : avec un bon grep dans les fichiers
on y arrive.
Si c'est un "grep", alors un moteur de recherche avec des expressions
régulières devrait aussi y arriver. En tous cas, avec au moins des
jetons.
Dans le moteur que j'ai fait pour la SGCF (plusieurs bases qui
dépassent le million de lignes), je permets les jetons, donc ici,
je pourrais rechercher tr*mbl* ou même tr*bl*. C'est aussi le
cas pour d'autres bases (je sais que bms2000 le fait, avec autour
de 4 ou 5 millions de lignes), mais d'autres bases spécialisées ne
le font pas (en tous cas, je ne l'ai pas vu dans geneanet, alors
que genearmor a au moins la recherche par mot semblable).
Par contre, effectivement, j'ai pu trouver des informations en ayant
pompé un site parce que le site ne permet pas les jetons et surtout
parce que je peux faire une recherche beaucoup plus complexe
simplement en triant les données.
Le Sun, 27 Jan 2008 19:53:19 +0100, Patrick Texier écrivait dans fr.comp.infosystemes.www.auteurs:
Le Sun, 27 Jan 2008 09:54:01 -0500, Denis Beauregard a écrit :
Je fais de la généalogie. Essaie de trouver sur un site qui contient par exemple tremblais, tremblé ou tramblay alors que 99,9% des gens écrivent tremblay. Google ne fait pas encore de recherche par mot semblable.
C'est pour cela qu'il faut aspirer : avec un bon grep dans les fichiers on y arrive.
Si c'est un "grep", alors un moteur de recherche avec des expressions régulières devrait aussi y arriver. En tous cas, avec au moins des jetons.
Dans le moteur que j'ai fait pour la SGCF (plusieurs bases qui dépassent le million de lignes), je permets les jetons, donc ici, je pourrais rechercher tr*mbl* ou même tr*bl*. C'est aussi le cas pour d'autres bases (je sais que bms2000 le fait, avec autour de 4 ou 5 millions de lignes), mais d'autres bases spécialisées ne le font pas (en tous cas, je ne l'ai pas vu dans geneanet, alors que genearmor a au moins la recherche par mot semblable).
Par contre, effectivement, j'ai pu trouver des informations en ayant pompé un site parce que le site ne permet pas les jetons et surtout parce que je peux faire une recherche beaucoup plus complexe simplement en triant les données.
Denis
Mickaël Wolff
Bernd a écrit :
Je fais un site pour une boite moyennant finance. Ils trouvent un gus qui leur fait gratos car employé à temps plein pour la boite. Il pompe tout ou presque, c.-à-d. qq. mois de travail. C'est pas le truc qui me plait le plus ;-)
Dans ce cas là, plutôt que d'essayer de limiter techniquement, vous pourriez leur rappeler les termes du contrat et le principe du droit d'auteur ?
Je fais un site pour une boite moyennant finance. Ils trouvent un gus
qui leur fait gratos car employé à temps plein pour la boite.
Il pompe tout ou presque, c.-à-d. qq. mois de travail. C'est pas le truc
qui me plait le plus ;-)
Dans ce cas là, plutôt que d'essayer de limiter techniquement, vous
pourriez leur rappeler les termes du contrat et le principe du droit
d'auteur ?
Je fais un site pour une boite moyennant finance. Ils trouvent un gus qui leur fait gratos car employé à temps plein pour la boite. Il pompe tout ou presque, c.-à-d. qq. mois de travail. C'est pas le truc qui me plait le plus ;-)
Dans ce cas là, plutôt que d'essayer de limiter techniquement, vous pourriez leur rappeler les termes du contrat et le principe du droit d'auteur ?
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première.
Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un fichier de blocage ou un .htaccess
On le répète encore une fois ? Une IP peut être partagée, soit par un proxy ou routeur NAT/PAT, soit parce qu'elle est chez un ISP et donc aléatoirement répartit à intervalles réguliers entre les abonnés, ou... (...)
Lea GRIS wrote:
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites"
de télécharger un site entière en bloquant celui-ci dès les premières
pages, voire la première.
Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un
fichier de blocage ou un .htaccess
On le répète encore une fois ? Une IP peut être partagée, soit par un
proxy ou routeur NAT/PAT, soit parce qu'elle est chez un ISP et donc
aléatoirement répartit à intervalles réguliers entre les abonnés, ou...
(...)
Il existe une possibilité d'empêcher un logiciel "aspirateur de sites" de télécharger un site entière en bloquant celui-ci dès les premières pages, voire la première.
Ajouter un lien caché vers un script qui ajoute l'IP d'origine dans un fichier de blocage ou un .htaccess
On le répète encore une fois ? Une IP peut être partagée, soit par un proxy ou routeur NAT/PAT, soit parce qu'elle est chez un ISP et donc aléatoirement répartit à intervalles réguliers entre les abonnés, ou... (...)