j'aurai besoin de limiter autant que possible l'indexation de
différentes pages d'une application en ligne.
Je connaissais le robots.txt qui à ce que j'ai entendu est générallement
bien supporté par les moteurs, mais malheureusement je ne peux pas
l'utiliser facilement (pages générées par une base Notes)
J'avais aussi entendu parler de meta tag, j'en trouve un exemple ici :
http://www.robotstxt.org/wc/exclusion.html#meta
Il serait pour moi beaucoup plus simple d'intégrer des meta !
Quels sont les retours d'expérience de chacun sur l'efficacité de l'une
ou l'autre méthode ?
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
docanski
Alors que les eleveurs et agriculteurs polluent toujours la Bretagne, Pierre Goiffon nous narre ce qui suit en ce 18/05/2006 12:19 :
Bonjour,
Bonjour,
Il serait pour moi beaucoup plus simple d'intégrer des meta !
Je crois que celle-ci peut être utile : <META NAME="ROBOTS" CONTENT="NOARCHIVE"> La page contenant cette meta ne sera donc pas indexée mais sera toujours accessible s'il existe un lien pointant vers elle.
Quels sont les retours d'expérience de chacun sur l'efficacité de l'une ou l'autre méthode ?
Je n'ai toutefois jamais eu le besoin de l'utiliser.
Cordialement, -- docanski
- Les Côtes du nord de la Bretagne par le sentier des douaniers - Memento des champignons : le guide le plus complet du Web - Et d'autres sujets encore sur ----> http://armorance.free.fr
Alors que les eleveurs et agriculteurs polluent toujours la Bretagne,
Pierre Goiffon nous narre ce qui suit en ce 18/05/2006 12:19 :
Bonjour,
Bonjour,
Il serait pour moi beaucoup plus simple d'intégrer des meta !
Je crois que celle-ci peut être utile :
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
La page contenant cette meta ne sera donc pas indexée mais sera toujours
accessible s'il existe un lien pointant vers elle.
Quels sont les retours d'expérience de chacun sur l'efficacité de l'une
ou l'autre méthode ?
Je n'ai toutefois jamais eu le besoin de l'utiliser.
Cordialement,
--
docanski
- Les Côtes du nord de la Bretagne par le sentier des douaniers
- Memento des champignons : le guide le plus complet du Web
- Et d'autres sujets encore sur ----> http://armorance.free.fr
Alors que les eleveurs et agriculteurs polluent toujours la Bretagne, Pierre Goiffon nous narre ce qui suit en ce 18/05/2006 12:19 :
Bonjour,
Bonjour,
Il serait pour moi beaucoup plus simple d'intégrer des meta !
Je crois que celle-ci peut être utile : <META NAME="ROBOTS" CONTENT="NOARCHIVE"> La page contenant cette meta ne sera donc pas indexée mais sera toujours accessible s'il existe un lien pointant vers elle.
Quels sont les retours d'expérience de chacun sur l'efficacité de l'une ou l'autre méthode ?
Je n'ai toutefois jamais eu le besoin de l'utiliser.
Cordialement, -- docanski
- Les Côtes du nord de la Bretagne par le sentier des douaniers - Memento des champignons : le guide le plus complet du Web - Et d'autres sujets encore sur ----> http://armorance.free.fr
Peter Pan
Pierre Goiffon a écrit :
Quels sont les retours d'expérience de chacun sur l'efficacité de l'une ou l'autre méthode ?
Si tu es sous Apache, des exclusions via .htaccess ?
-- Pierre http://www.1966.fr/
Pierre Goiffon a écrit :
Quels sont les retours d'expérience de chacun sur l'efficacité de l'une
ou l'autre méthode ?
Si tu es sous Apache, des exclusions via .htaccess ?
Quels sont les retours d'expérience de chacun sur l'efficacité de l'une ou l'autre méthode ?
Si tu es sous Apache, des exclusions via .htaccess ?
-- Pierre http://www.1966.fr/
Denis Beauregard
Le Thu, 18 May 2006 12:19:55 +0200, Pierre Goiffon écrivait dans fr.comp.infosystemes.www.auteurs:
Bonjour,
j'aurai besoin de limiter autant que possible l'indexation de différentes pages d'une application en ligne.
Je connaissais le robots.txt qui à ce que j'ai entendu est générallement bien supporté par les moteurs, mais malheureusement je ne peux pas l'utiliser facilement (pages générées par une base Notes)
J'avais aussi entendu parler de meta tag, j'en trouve un exemple ici : http://www.robotstxt.org/wc/exclusion.html#meta Il serait pour moi beaucoup plus simple d'intégrer des meta !
Quels sont les retours d'expérience de chacun sur l'efficacité de l'une ou l'autre méthode ?
Peu importe la méthode, certaines marchent et d'autres pas, selon les choix et les buts du robot en question. Il est important de se rappeler qu'il y a des centaines de robots dont plusieurs sont des faux robots qui font des sites de recherche (donc, on pense que le robot est valide) mais qui utilisent le contenu à d'autres fins (vol d'adresses de courriel pour spammer, par exemple, vol de contenu pour attirer des visiteurs, etc.).
En général, les "bons" robots respectent les demandes, que ce soit par robots.txt ou par les META, et pas les autres.
Ainsi, j'ai interdit à Convera et Biglotron d'indexer certaines parties de mon site et leur robot est venu quand même. Dans le cas de Convera, leur site prétend qu'ils suivent les directives de robots.txt, mais ils ne disent pas quelle chaîne les identifie.
Mais les robots plus traditionnels sont plus respectueux. Ainsi, je sais que google n'a pas visité les pages reliées à une page avec la META NOFOLLOW.
Le plus simple serait sans doute de se faire une page et d'y interdire l'accès par robots.txt, une autre pour chaque META, puis de vérifier si on visite ces pages.
Denis
Le Thu, 18 May 2006 12:19:55 +0200, Pierre Goiffon
<pgoiffon@free.fr.invalid> écrivait dans
fr.comp.infosystemes.www.auteurs:
Bonjour,
j'aurai besoin de limiter autant que possible l'indexation de
différentes pages d'une application en ligne.
Je connaissais le robots.txt qui à ce que j'ai entendu est générallement
bien supporté par les moteurs, mais malheureusement je ne peux pas
l'utiliser facilement (pages générées par une base Notes)
J'avais aussi entendu parler de meta tag, j'en trouve un exemple ici :
http://www.robotstxt.org/wc/exclusion.html#meta
Il serait pour moi beaucoup plus simple d'intégrer des meta !
Quels sont les retours d'expérience de chacun sur l'efficacité de l'une
ou l'autre méthode ?
Peu importe la méthode, certaines marchent et d'autres pas, selon les
choix et les buts du robot en question. Il est important de se
rappeler qu'il y a des centaines de robots dont plusieurs sont des
faux robots qui font des sites de recherche (donc, on pense que le
robot est valide) mais qui utilisent le contenu à d'autres fins
(vol d'adresses de courriel pour spammer, par exemple, vol de contenu
pour attirer des visiteurs, etc.).
En général, les "bons" robots respectent les demandes, que ce soit
par robots.txt ou par les META, et pas les autres.
Ainsi, j'ai interdit à Convera et Biglotron d'indexer certaines
parties de mon site et leur robot est venu quand même. Dans le
cas de Convera, leur site prétend qu'ils suivent les directives
de robots.txt, mais ils ne disent pas quelle chaîne les identifie.
Mais les robots plus traditionnels sont plus respectueux. Ainsi, je
sais que google n'a pas visité les pages reliées à une page avec la
META NOFOLLOW.
Le plus simple serait sans doute de se faire une page et d'y interdire
l'accès par robots.txt, une autre pour chaque META, puis de vérifier
si on visite ces pages.
Le Thu, 18 May 2006 12:19:55 +0200, Pierre Goiffon écrivait dans fr.comp.infosystemes.www.auteurs:
Bonjour,
j'aurai besoin de limiter autant que possible l'indexation de différentes pages d'une application en ligne.
Je connaissais le robots.txt qui à ce que j'ai entendu est générallement bien supporté par les moteurs, mais malheureusement je ne peux pas l'utiliser facilement (pages générées par une base Notes)
J'avais aussi entendu parler de meta tag, j'en trouve un exemple ici : http://www.robotstxt.org/wc/exclusion.html#meta Il serait pour moi beaucoup plus simple d'intégrer des meta !
Quels sont les retours d'expérience de chacun sur l'efficacité de l'une ou l'autre méthode ?
Peu importe la méthode, certaines marchent et d'autres pas, selon les choix et les buts du robot en question. Il est important de se rappeler qu'il y a des centaines de robots dont plusieurs sont des faux robots qui font des sites de recherche (donc, on pense que le robot est valide) mais qui utilisent le contenu à d'autres fins (vol d'adresses de courriel pour spammer, par exemple, vol de contenu pour attirer des visiteurs, etc.).
En général, les "bons" robots respectent les demandes, que ce soit par robots.txt ou par les META, et pas les autres.
Ainsi, j'ai interdit à Convera et Biglotron d'indexer certaines parties de mon site et leur robot est venu quand même. Dans le cas de Convera, leur site prétend qu'ils suivent les directives de robots.txt, mais ils ne disent pas quelle chaîne les identifie.
Mais les robots plus traditionnels sont plus respectueux. Ainsi, je sais que google n'a pas visité les pages reliées à une page avec la META NOFOLLOW.
Le plus simple serait sans doute de se faire une page et d'y interdire l'accès par robots.txt, une autre pour chaque META, puis de vérifier si on visite ces pages.
Denis
Pierre Goiffon
Denis Beauregard wrote:
En général, les "bons" robots respectent les demandes, que ce soit par robots.txt ou par les META, et pas les autres.
Ce sont bien des "bons" robots (ceux des moteurs de recherche et non des aspirateurs de site) dont je me soucie.
Le plus simple serait sans doute de se faire une page et d'y interdire l'accès par robots.txt, une autre pour chaque META, puis de vérifier si on visite ces pages.
C'est ce que je tente à côté, mais il faudra du temps avant que les éléments collectés soient significatifs... D'où ma demande !
Denis Beauregard wrote:
En général, les "bons" robots respectent les demandes, que ce soit
par robots.txt ou par les META, et pas les autres.
Ce sont bien des "bons" robots (ceux des moteurs de recherche et non des
aspirateurs de site) dont je me soucie.
Le plus simple serait sans doute de se faire une page et d'y interdire
l'accès par robots.txt, une autre pour chaque META, puis de vérifier
si on visite ces pages.
C'est ce que je tente à côté, mais il faudra du temps avant que les
éléments collectés soient significatifs... D'où ma demande !
En général, les "bons" robots respectent les demandes, que ce soit par robots.txt ou par les META, et pas les autres.
Ce sont bien des "bons" robots (ceux des moteurs de recherche et non des aspirateurs de site) dont je me soucie.
Le plus simple serait sans doute de se faire une page et d'y interdire l'accès par robots.txt, une autre pour chaque META, puis de vérifier si on visite ces pages.
C'est ce que je tente à côté, mais il faudra du temps avant que les éléments collectés soient significatifs... D'où ma demande !
Denis Beauregard
Le Thu, 18 May 2006 16:16:39 +0200, Pierre Goiffon écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote:
En général, les "bons" robots respectent les demandes, que ce soit par robots.txt ou par les META, et pas les autres.
Ce sont bien des "bons" robots (ceux des moteurs de recherche et non des aspirateurs de site) dont je me soucie.
Le plus simple serait sans doute de se faire une page et d'y interdire l'accès par robots.txt, une autre pour chaque META, puis de vérifier si on visite ces pages.
C'est ce que je tente à côté, mais il faudra du temps avant que les éléments collectés soient significatifs... D'où ma demande !
Il suffit de regarder les logs. Ce sera alors évident de voir qui ne tient pas compte des instructions de robots.txt et de la META NOFOLLOW (et dans ce dernier-cas, de détecter si on a oublié de placer cette META sur une page pointant vers une autre qu'on ne veut pas faire visiter).
Quelques tests que j'ai fait:
J'ai sur mon site la liste des villes du Québec par région (une page par région) et une page avec toutes les autres pages.
Sur google, pas de résultat avec
= la page précédente avec <meta http-equiv="refresh" content="0;url=http://www.francogene.com/quebec/places.php">
site:francogene.com/quebec/tout.php
= la page courante avec <META NAME="ROBOTS" CONTENT="NOINDEX">
site:francogene.com/quebec/tout2.php
À une époque, j'avais une section de mon site que je ne voulais pas indexer. J'ai donc placé ces META et effectivement, Google n'avait rien indexé:
Je n'ai pas vérifié pour les autres moteurs (il faut dire que Google est de loin le moteur qui m'amène le plus de visiteurs).
Denis
Le Thu, 18 May 2006 16:16:39 +0200, Pierre Goiffon
<pgoiffon@free.fr.invalid> écrivait dans
fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote:
En général, les "bons" robots respectent les demandes, que ce soit
par robots.txt ou par les META, et pas les autres.
Ce sont bien des "bons" robots (ceux des moteurs de recherche et non des
aspirateurs de site) dont je me soucie.
Le plus simple serait sans doute de se faire une page et d'y interdire
l'accès par robots.txt, une autre pour chaque META, puis de vérifier
si on visite ces pages.
C'est ce que je tente à côté, mais il faudra du temps avant que les
éléments collectés soient significatifs... D'où ma demande !
Il suffit de regarder les logs. Ce sera alors évident de voir qui ne
tient pas compte des instructions de robots.txt et de la META NOFOLLOW
(et dans ce dernier-cas, de détecter si on a oublié de placer cette
META sur une page pointant vers une autre qu'on ne veut pas faire
visiter).
Quelques tests que j'ai fait:
J'ai sur mon site la liste des villes du Québec par région (une page
par région) et une page avec toutes les autres pages.
Sur google, pas de résultat avec
= la page précédente avec <meta http-equiv="refresh"
content="0;url=http://www.francogene.com/quebec/places.php">
site:francogene.com/quebec/tout.php
= la page courante avec <META NAME="ROBOTS" CONTENT="NOINDEX">
site:francogene.com/quebec/tout2.php
À une époque, j'avais une section de mon site que je ne voulais
pas indexer. J'ai donc placé ces META et effectivement, Google
n'avait rien indexé:
Le Thu, 18 May 2006 16:16:39 +0200, Pierre Goiffon écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote:
En général, les "bons" robots respectent les demandes, que ce soit par robots.txt ou par les META, et pas les autres.
Ce sont bien des "bons" robots (ceux des moteurs de recherche et non des aspirateurs de site) dont je me soucie.
Le plus simple serait sans doute de se faire une page et d'y interdire l'accès par robots.txt, une autre pour chaque META, puis de vérifier si on visite ces pages.
C'est ce que je tente à côté, mais il faudra du temps avant que les éléments collectés soient significatifs... D'où ma demande !
Il suffit de regarder les logs. Ce sera alors évident de voir qui ne tient pas compte des instructions de robots.txt et de la META NOFOLLOW (et dans ce dernier-cas, de détecter si on a oublié de placer cette META sur une page pointant vers une autre qu'on ne veut pas faire visiter).
Quelques tests que j'ai fait:
J'ai sur mon site la liste des villes du Québec par région (une page par région) et une page avec toutes les autres pages.
Sur google, pas de résultat avec
= la page précédente avec <meta http-equiv="refresh" content="0;url=http://www.francogene.com/quebec/places.php">
site:francogene.com/quebec/tout.php
= la page courante avec <META NAME="ROBOTS" CONTENT="NOINDEX">
site:francogene.com/quebec/tout2.php
À une époque, j'avais une section de mon site que je ne voulais pas indexer. J'ai donc placé ces META et effectivement, Google n'avait rien indexé: