OVH Cloud OVH Cloud

Site dynamique et moteurs de recherche

15 réponses
Avatar
Denis Beauregard
Bonjour,

Est-ce que quelqu'un a déjà fait un site dont le contenu change
durant une visite ?

Quand un visiteur arrive sur une page sans cookie, sans
paramètres "POST" et sans referer du même site, je lui donne un
contenu X.

Mais s'il a un cookie, un POST ou un referer de mon site, je
lui donne un contenu Y un peu différent.

Les moteurs verraient le contenu X et les visiteurs qui
regardent plus d'une page le contenu Y (qui est le contenu
X avec un peu plus d'informations).

Je sais que la règle de Google, c'est que la page indexée doit
avoir le même contenu que la page visitée par un humain, mais
pour empêcher de tricher en attirant un visiteur avec du
contenu qui disparaitra. Ici, au contraire, l'ancien contenu
serait conservé et un visiteur qui s'intéresse réellement au
contenu du site aurait plus d'informations, ce qui est dans l'esprit
des moteurs de recherche.

Ai-je l'esprit trop tordu ?


Denis

10 réponses

1 2
Avatar
Patrick 'Zener' Brunet
Bonjour.

Je réponds à Denis Beauregard
qui dans a écrit :
Est-ce que quelqu'un a déjà fait un site dont le contenu change
durant une visite ?




Dont le contenu de certaines pages est construit dynamiquement ?

Quand un visiteur arrive sur une page sans cookie, sans
paramètres "POST" et sans referer du même site, je lui donne un
contenu X.

Mais s'il a un cookie, un POST ou un referer de mon site, je
lui donne un contenu Y un peu différent.




Le referer n'est pas fiable, il peut être filtré pour lutter contre le
"flicage".
Les cookies peuvent être désactivés.
Restent les POST... Vous faites quoi avec ?

Les moteurs verraient le contenu X et les visiteurs qui
regardent plus d'une page le contenu Y (qui est le contenu
X avec un peu plus d'informations).

Je sais que la règle de Google, c'est que la page indexée doit
avoir le même contenu que la page visitée par un humain, mais
pour empêcher de tricher en attirant un visiteur avec du
contenu qui disparaitra. Ici, au contraire, l'ancien contenu
serait conservé et un visiteur qui s'intéresse réellement au
contenu du site aurait plus d'informations, ce qui est dans l'esprit
des moteurs de recherche.

Ai-je l'esprit trop tordu ?




La question, c'est comment vous faites la différence entre le crawler de
Google (et tous les autres) et un visiteur normal ?
Parce que si le crawler arrive à être pris pour un humain en suivant les
liens, tout votre système s'effondre.

Justement moi j'ai eu le même problème au niveau de l'ID de session qui est
dans toutes les URL: comme il est inclus dans l'indexation, il doit se
périmer pour que les visiteurs ne soient pas ensuite pris pour des robots en
suivant les liens indexés...

Comment sont faits les liens entre vos pages ?

Cordialement,

--
/***************************************
* Patrick BRUNET
* E-mail: lien sur http://zener131.free.fr/ContactMe
***************************************/
Avatar
ASM
Denis Beauregard a écrit :
Bonjour,

Est-ce que quelqu'un a déjà fait un site dont le contenu change
durant une visite ?



Tu veux dire quand il cliquote à droite et à gauche ?
oui.

Quand un visiteur arrive sur une page sans cookie, sans
paramètres "POST" et sans referer du même site, je lui donne un
contenu X.



Rhôôh ! Et les enfants vont voir ça ? !

Mais s'il a un cookie, un POST ou un referer de mon site, je
lui donne un contenu Y un peu différent.



il suffit de détecter si c'est un robot, non ?
(user agent)

Ai-je l'esprit trop tordu ?



Certes, mais petit à petit on s'habituera :-)

Penses-tu que ce sera mieux pour les robots et l'indexation ?

--
Stephane Moriaux et son [moins] vieux Mac
Avatar
Denis Beauregard
Le Mon, 10 Apr 2006 23:31:19 +0200, "Patrick 'Zener' Brunet"
écrivait dans
fr.comp.infosystemes.www.auteurs:

Bonjour.

Je réponds à Denis Beauregard
qui dans a écrit :
Est-ce que quelqu'un a déjà fait un site dont le contenu change
durant une visite ?




Dont le contenu de certaines pages est construit dynamiquement ?



Ce que j'ai en tête serait en PHP, donc des pages créées à la
volée.


Quand un visiteur arrive sur une page sans cookie, sans
paramètres "POST" et sans referer du même site, je lui donne un
contenu X.

Mais s'il a un cookie, un POST ou un referer de mon site, je
lui donne un contenu Y un peu différent.




Le referer n'est pas fiable, il peut être filtré pour lutter contre le
"flicage".
Les cookies peuvent être désactivés.
Restent les POST... Vous faites quoi avec ?



Je pense que tous les visiteurs peuvent activer les cookies. S'ils
font le choix de ne pas les avoir, tant pis pour eux car ils auraient
moins de contenu. Je m'aperçois par exemple que le fait que mon
site ait le même contenu en français et en anglais nuit à mon
référencement (j'ai beau avoir 20 000 pages différentes, j'ai
reculé au lieu d'avancer dans mon classement sur Google, par exemple).
Alors, avec un contenu relativement neutre vu par le robot, le
visiteur pourra par exemple choisir de continuer en français ou en
anglais (ou en d'autres langues, si je fais les pages à la volée)
et je ne serais pas pénalisé.

Le POST servirait à passer les paramètres de la session.

Les moteurs verraient le contenu X et les visiteurs qui
regardent plus d'une page le contenu Y (qui est le contenu
X avec un peu plus d'informations).

Je sais que la règle de Google, c'est que la page indexée doit
avoir le même contenu que la page visitée par un humain, mais
pour empêcher de tricher en attirant un visiteur avec du
contenu qui disparaitra. Ici, au contraire, l'ancien contenu
serait conservé et un visiteur qui s'intéresse réellement au
contenu du site aurait plus d'informations, ce qui est dans l'esprit
des moteurs de recherche.

Ai-je l'esprit trop tordu ?




La question, c'est comment vous faites la différence entre le crawler de
Google (et tous les autres) et un visiteur normal ?
Parce que si le crawler arrive à être pris pour un humain en suivant les
liens, tout votre système s'effondre.



Si je regarde mon log de googlebot, il n'a pas de referer (ni les
autres robots de moteurs). Je doute qu'il ait aussi des cookies ou
qu'il garde un argument passé en POST. Je pense qu'il suit uniquement
des URL, donc seulement les arguments en GET et pas ceux en POST.

Justement moi j'ai eu le même problème au niveau de l'ID de session qui est
dans toutes les URL: comme il est inclus dans l'indexation, il doit se
périmer pour que les visiteurs ne soient pas ensuite pris pour des robots en
suivant les liens indexés...

Comment sont faits les liens entre vos pages ?



Présentement, ce sont des liens statiques. Le POST permettrait de
passer la session sans que le robot visiteur s'en aperçoive.


Denis
Avatar
Denis Beauregard
fr.comp.infosystemes.www.auteurs:
Le Mon, 10 Apr 2006 23:31:32 +0200, ASM
écrivait dans
fr.comp.infosystemes.www.auteurs:

Denis Beauregard a écrit :
Bonjour,

Est-ce que quelqu'un a déjà fait un site dont le contenu change
durant une visite ?



Tu veux dire quand il cliquote à droite et à gauche ?
oui.



Je pensais plutôt: entrée par une page bilingue mais reste de
la visite dans une seule langue, sans doubler le nombre de pages.

Quand un visiteur arrive sur une page sans cookie, sans
paramètres "POST" et sans referer du même site, je lui donne un
contenu X.



Rhôôh ! Et les enfants vont voir ça ? !



Contenu A si tu préfères !

Mais s'il a un cookie, un POST ou un referer de mon site, je
lui donne un contenu Y un peu différent.



il suffit de détecter si c'est un robot, non ?
(user agent)



Tu penses que les user agents sont fiables et qu'ils disent que la
vérité ? Il y a plusieurs robots qui n'ont pas d'identification.

Ai-je l'esprit trop tordu ?



Certes, mais petit à petit on s'habituera :-)

Penses-tu que ce sera mieux pour les robots et l'indexation ?



En ce moment, j'ai un problème avec un site bilingue. C'est de la
généalogie, donc le contenu en soit est constitué de données qui
sont les mêmes dans plusieurs langues. J'ai fait mon site en
statique (c'est du PHP pour les bannières seulement, le reste est
toujours la même chose). Pour différentes raisons, je vais le refaire
en vrai dynamique (la page est générée lors de la visite, ce qui
permet par exemple d'avoir la même URL pour disons 5 versions, une
résumée pour le moteur de recherche, et 4 dans différentes langues
(avec traduction des mots-clés et parfois du nom de certains
endroits).

Le fait d'avoir le même contenu en 2 copies nuit au référencement.
J'ai ajouté 20 000 pages et ma position ne s'est pas améliorée,
comme si le fait d'avoir le contenu en double nuisait. Je veux
que mes visiteurs voient le contenu selon leur langue, mais que le
robot ne voit que ce qu'il faut pour son index (quitte à parfois
doubler les titres, par exemple "la famille de AAA Family"). Et
quand il y a du contenu en d'autres langues (des données sur des
Espagnols par exemple pourraient avoir un contenu en espagnol
comme 3e titre).


Denis
Avatar
ASM
Denis Beauregard a écrit :

En ce moment, j'ai un problème avec un site bilingue. C'est de la
généalogie, donc le contenu en soit est constitué de données qui
sont les mêmes dans plusieurs langues.



et si c'est celui auquel je pense, c'est assez dingue !
(j'ai l'impression qu'il faut être de la partie pour s'y retrouver)

avoir la même URL pour disons 5 versions, une
résumée pour le moteur de recherche, et 4 dans différentes langues



Donc on clique le bouton Canadien Français Belge ou Suisse ?
et le robot ne voit pas le bouton.
(le robot n'a sans doute pas dans son user_agent msie ou gecko ou khtml etc)
S'il trouve dans le bouton href="paroisse_bellerive.php?lang=huron"
et dans l'autre href="paroisse_bellerive.php?lang¾rbere"
il va vouloir suivre chacun d'eux, non ?

(avec traduction des mots-clés et parfois du nom de certains
endroits).



Ha ben ! mazette !
si tu arrives en plus à t'y retrouver par des mots-clé !

Je veux
que mes visiteurs voient le contenu selon leur langue, mais que le
robot ne voit que ce qu'il faut pour son index (quitte à parfois
doubler les titres, par exemple "la famille de AAA Family").



Ha oui, c'est là que faute de session on n'a que l'intro et les titres,
éventuellement en concordance avec ?lang=flamand

quand il y a du contenu en d'autres langues (des données sur des
Espagnols par exemple pourraient avoir un contenu en espagnol
comme 3e titre).



oui, j'ai déjà fait ça une fois : inclusion de textes traduits et/ou
fichiers de mots-clés traduits (mâtiné de BdD) c'est assez fastidieux.
(et j'avais simplifié sans session ni réduction de contenu
ni 20000 pages !)


--
Stephane Moriaux et son [moins] vieux Mac
Avatar
Olivier Masson
Denis Beauregard a écrit :

Je pensais plutôt: entrée par une page bilingue mais reste de
la visite dans une seule langue, sans doubler le nombre de pages.



Pour ma part, je dirige l'utilisateur en fonction de la langue de son
navigateur.
En plus de ça, je laisse la possibilité de changer manuellement de
langue en cliquant sur un petit drapeau (choix qui sera conservé dans
les liens + rewriting).
Puisque l'on m'a dit ici même que Apache fonctionnait de telle sorte que
si un fichier html.en et html.fr (ou php) était trouvé, il donnait la
version adéquate, j'ai fait ça pour un site en 6 langues.

Je pense qu'avec toutes ces méthodes, Google considèrera bien les
différentes langues et, surtout le référencement sera identique sur
google.it, google.fr, google.de, etc.

Par contre, je mêle fichier de traduc (pour les parties comportant peu
de mots) et pages entièrement traduites.
Avatar
Patrick 'Zener' Brunet
Bonjour.

Je réponds à Denis Beauregard
qui dans a écrit :
Le Mon, 10 Apr 2006 23:31:19 +0200, "Patrick 'Zener' Brunet"
écrivait dans
fr.comp.infosystemes.www.auteurs:
Je réponds à Denis Beauregard
qui dans a écrit :
[...]



Comment sont faits les liens entre vos pages ?



Présentement, ce sont des liens statiques. Le POST permettrait de
passer la session sans que le robot visiteur s'en aperçoive.




Avez-vous trouvé un moyen propre pour faire un post + get à partir d'un lien
(et pas d'un bouton de formulaire), ceci sans Javascript bien sûr, et
fonctionnant aussi au clavier ?

Parce que moi j'ai essayé de passer mon argument session en post (pour le
sortir de l'URL), et j'ai pesé la difficulté...

Cordialement,

--
/***************************************
* Patrick BRUNET
* E-mail: lien sur http://zener131.free.fr/ContactMe
***************************************/
Avatar
Denis Beauregard
Le Tue, 11 Apr 2006 08:55:27 +0200, "Patrick 'Zener' Brunet"
écrivait dans
fr.comp.infosystemes.www.auteurs:

Je réponds à Denis Beauregard
qui dans a écrit :

Présentement, ce sont des liens statiques. Le POST permettrait de
passer la session sans que le robot visiteur s'en aperçoive.




Avez-vous trouvé un moyen propre pour faire un post + get à partir d'un lien
(et pas d'un bouton de formulaire), ceci sans Javascript bien sûr, et
fonctionnant aussi au clavier ?

Parce que moi j'ai essayé de passer mon argument session en post (pour le
sortir de l'URL), et j'ai pesé la difficulté...



En fait, c'était ma question suivante...


Dans mon cas, ce n'est pas trop grave qu'il y ait un bouton de
formulaire. Mais il me semble que certains sites ont autre chose.
Je suppose que c'est du javascript.

Disons que pour la 1re version, ce sera avec des boutons de
formulaire et on verra selon les réactions si je dois changer.


Denis
Avatar
Denis Beauregard
Le Tue, 11 Apr 2006 08:45:43 +0200, Olivier Masson
écrivait dans fr.comp.infosystemes.www.auteurs:

Je pense qu'avec toutes ces méthodes, Google considèrera bien les
différentes langues et, surtout le référencement sera identique sur
google.it, google.fr, google.de, etc.



J'ai suivi mon référencement sur 3 sites de google pendant
plusieurs mois et c'était souvent différent. J'ai regardé
google.com .ca et .fr via le site www.google-dance-tool.com/

Par exemple, avec le mot genealogie, mon site était entre les
positions 12 et 18 sur google.com (est passé à 75 et maintenant
54), mais 17 à 25 sur google.ca (est remonté à 39 puis 35),
et 17 à 27 sur google.fr (puis 51 et 60).

Ce qui me fait le plus mal moralement, c'est avec genealogy quebec
(autour de la 100e position) alors que mon site a 20 000 pages
originales sous un répertoire appelé quebec-genealogy. Mais il
n'y a pas de "meta keywords" dans ces pages. Serait-ce
l'explication ?


Denis
Avatar
David JOURAND
Bonjour,

J'ai un peu de mal a saisir votre besoin... qui me semble être
"bicéphale" :

1 - Afficher un contenu différent d'une même page sous certaines
conditions. La condition qui semble apparaître des discussions dans ce
thread est la langue. Si c'est cela, il suffit, côté serveur, de
détecter la langue du navigateur (en-tête "Accept-Language") et de
générer la page en conséquence.

2 - Comment laisser google indexer le site en plusieurs langues ?
Je ne pense pas que cela soit possible... Mais est-ce utile ?
Seules des pages très très similaires générées automatiquement à
partir des données d'une base (généalogique) sont susceptibles d'être
internationalisées dynamiquement. Mais dans ce cas, la pertinence de
l'information réside dans ce qui n'est pas internationalisé !

Une autre idée, qui me vient à l'esprit : lorsque le client ne précise
pas de langage (ce qui doit être le cas quasi exclusivement pour les
robots), vous pouvez générer la page dans les deux langues l'une au
dessus de l'autre... Si elle ne sont pas trop grosse, le robot indexera le
tout. Bien sûr dans ce cas, omettez l'attribut lang de la page.

Cordialement,

--
David Jourand
1 2