OVH et la redirection des bots

Le
Bilyboylindien
Vu sur le bug tracker ovh:

"Nous avons rediriges les bot les plus courant (google, live, slurp
etc.) sur
des serveurs juste pour eux.
En effet, avec le nombre de sites que nous hebergeons, on se fait
"attaquer"
en permanence par ces robots. Et pour eviter que cela ne soit nuisible
pour
vos internautes, nous avons decides de les isoler.
Les bots ne voient pas la difference.

Lors du basculement, nous avons eu un probleme de configuration pour
certains
plan. Desormais cela est repare."

Je me permet de soulever les quelques problèmes que ce genre de mis a
jour "pour nos internautes" peut apporter.

- je ne pense pas me tromper en disant que la ou les bots sont
redirigés "ca rame sac" or les moteur note aussi le QOS de chaque site
- Au niveau Ip comment ca se passe: ip différente ou ip rerouté sur un
autre cluster ? => meme ip public ?

Bcp de "nos internautes" arrivent par les bots aussi c'est pas une
moitié de problème pour ma part !

Je sais que je ne suis pas sur un forum ovh mais si je poste ici,
c'est en connaissance de cause, ovh intervient ici et pour ce genre de
soucis la faq ovh ou le contact sav je ne pense pas que se soit
adapté

Merci
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 2
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Olivier Souiry
Le #163271
Commencez donc par respecter Crawl-delay, ça fera plaisir à beaucoup de
monde.
Mihamina Rakotomandimby
Le #163204
Antoine wrote:
Commencez donc par respecter Crawl-delay, ça fera plaisir à
beaucoup de monde.
Pas sûr que le posteur initial soit du côté des opérateurs de

robots, je dirais plutôt qu'il s'inquiète du référencement de son
(ses) site(s).


Moi, ce que je remarque, c'est que ce sont ceux qui ont le contenu le
moins interessant qui s'inquiètent le plus de leur référencement.


Bilyboylindien
Le #163203
On Oct 25, 7:09 pm, Mihamina Rakotomandimby wrote:
Antoine wrote:
Commencez donc par respecter Crawl-delay, ça fera plaisir à
beaucoup de monde.
Pas sûr que le posteur initial soit du côté des opérateurs de

robots, je dirais plutôt qu'il s'inquiète du référencement de s on
(ses) site(s).


Moi, ce que je remarque, c'est que ce sont ceux qui ont le contenu le
moins interessant qui s'inquiètent le plus de leur référencement.


Vu que je m'inquiete je serais curieux de voir mon contenu
ininterressant...
Quand a troler autant le faire completement non ?

Ya pas à enrubanner, OVH a chier sur la gestion des bots durant plus
d'une semaine ...
Quand certains bot indexent en 20 minutes c'est un peu leger comme
attitude.

Ensuite qu'on les foute sur un cluster ok la technique je m'en balance
royal.
Mais bordel qu'on m'explique pourquoi un cluster pour les bots ?
Si le reseau tousse un peu, ba tanpis pour les bots , on utilise le
cluster bots pour autre chose ?
Si vraiment on était honnete on améliorerais les cluster d'hebergement
pour supporter les bots et leur donner la meme QOS que les "simple
users".
Les séparer, c'est donc leur "offrire" un traitements particulier et
qu'on me prenne pas pour un con mais a priori c'est pas pour les
bichonner avec des serveurs plus rapides non ?

++



Mihamina Rakotomandimby
Le #163202
Bilyboylindien wrote:
Mais bordel qu'on m'explique pourquoi un cluster pour les bots ?


D'apres le peu que je comprends: ils reservent le cluster pour les vrais
visiteurs et les "miettes" pour les bots.
Moi je pense que les bots sont tolérants face à une attente de 2
secondes avant de pouvoir télécharger une page. Par contre, un humain un
peu moins.

Bilyboylindien
Le #163200
Le bot, si la page prend 10 secondes pour être générée, il ne va pas
aller voir ailleurs (vu que le serveur aura répondu).



Les bots ne nous jugent pas aussi sur la QOS ?
J'en doute désolé ...

Un bot a un index a construire, sa pertinence et la satisfaction de
ses utilisateurs est en cause et tu crois qu'il va s'en foutre du
temps d'accès.

Imagine simplement:
Tu as un annuaire de sites, tout les liens vers lesquels tu renvoies
rament méchamment, tes visiteurs vont apprécier ?
Que vas tu faire ?
Lors de ta validation des nouveaux inscrits ce facteurs ne va pas
rentrer en ligne de compte ?

C'est vrai que l'on peut difficilement se prononcer sur ce que fait un
moteur ou un autre (surtout un ...) mais on ne dois pas je pense non
plus jouer avec le feu la dessus !

Mihamina Rakotomandimby
Le #163198
Antoine wrote:

l'hébergeur en question. M'est avis que les bots de google ont pour
certains *toutes* les apparences d'un humain qui surfe et qu'ils sont très difficilement
détectables.


Ben non, ils ont un User-Agent explicite, au moins.
Et puis je me demande à quoi servirait-il aux bots de se cacher...

Dominique ROUSSEAU
Le #163196
Le ven, 26 oct 2007 at 15:17 GMT, Mihamina Rakotomandimby
Antoine wrote:

l'hébergeur en question. M'est avis que les bots de google ont pour
certains *toutes* les apparences d'un humain qui surfe et qu'ils sont très difficilement
détectables.


Ben non, ils ont un User-Agent explicite, au moins.


Ceux que l'on voit :)

Et puis je me demande à quoi servirait-il aux bots de se cacher...


Pour essayer de débusquer les tricheurs qui presentent des pages
différentes en fonction que le site est accedé par un indexeur ou par un
humain.


Bilyboylindien
Le #163133
On 27 oct, 00:48, Martin Lafaix
On 2007-10-26, Bilyboylindien
Les bots ne nous jugent pas aussi sur la QOS ?


Rien ne semble indiquer que les « grands » (i.e., google, yahoo, msn)
tiendrait compte de cela (hors bien sûr le cas pathologique du time out
sans résultat). Après, peut-être que des moteurs plus spécialis és en
tiennent compte. Mais quel est le trafic réel amené par ces possibles
moteurs spécialisés qui utiliseraient la qos pour évaluer leurs r éponses ?
Google en tient compte (pour le citer enfin ...) d'ailleurs il prends

des notes la dessus cf webmaster tools qui te donne des graph de temps
d'accès ...


Et est-ce pertinent pour un moteur de se considérer aussi important
qu'un visiteur humain ?
Pas un notion d'importance mais d'equivalence.


Tu as un annuaire de sites, tout les liens vers lesquels tu renvoies
rament méchamment, tes visiteurs vont apprécier ?
Que vas tu faire ?
Lors de ta validation des nouveaux inscrits ce facteurs ne va pas
rentrer en ligne de compte ?


Un annuaire que se baserait uniquement sur des bots pour valider et
évaluer ses entrées ne servirait, ce me semble, qu'à présenter du spam.
Sauf si le bot est intelligent.


Un annuaire digne de ce nom me semble impliquer une validation humaine
régulière de ses entrées.
Ou un bot suffisement intelligent car quand son annuaire s'appelle

google, je pense que l'on a mis les moyen sur le bot (comme en autre
collaborer avec mozilla)

Quand je vois le volume consommé (30 à 40k documents par mois) par, p our
le nommer, yahoo, par rapport au trafic apporté (rien ou presque), je me
dis qu'un jour je le bloquerai.
Et c'est ton droit et justement si les bots mange trop de BP on peut

les virer.
Car nous on prends un hebergement, on est limiter en BP pas aux hits !

Bon, c'est juste sur une base d'un site, et les autres moteurs sont
autrement plus raisonnables (hors accident), mais en extrapolant à une
plateforme d'hébergement mutualisé, cela peut expliquer la décision de
déporter le traitement des bots à part, pour ne pas pénaliser les v rais
visiteurs.
Un bots heureux peut justement en amener un max de visiteurs chose

qu'un simple visiteurs peut difficilement faire.


Mihamina Rakotomandimby
Le #163132
Bilyboylindien wrote:
Et est-ce pertinent pour un moteur de se considérer aussi important
qu'un visiteur humain ?
Pas un notion d'importance mais d'equivalence.



Tant qu'ils n'interpretent pas le Javascript, ils seront loin de
"l'équivalence".


Un annuaire digne de ce nom me semble impliquer une validation humaine
régulière de ses entrées.
Ou un bot suffisement intelligent car quand son annuaire s'appelle

google,


L'annuaire n'est pas Google. L'annuaire c'est Dmoz.
On (enfin... _tu_ ) retombe dans la confusion "annuaire" moteur de
recherche".

Quand je vois le volume consommé (30 à 40k documents par mois) par, pour
le nommer, yahoo, par rapport au trafic apporté (rien ou presque), je me
dis qu'un jour je le bloquerai.
Et c'est ton droit et justement si les bots mange trop de BP on peut

les virer.
Car nous on prends un hebergement, on est limiter en BP pas aux hits !


Oui, mais un hit prends de la BP.

Un bots heureux peut justement en amener un max de visiteurs chose
qu'un simple visiteurs peut difficilement faire.


Je ne suis pas d'accord: le bouche à oreille est plus rentable que le
spamdex. Sauf si on a un contenu totalement ininteressant.


Bilyboylindien
Le #163131
On Oct 27, 12:15 pm, Mihamina Rakotomandimby wrote:
Bilyboylindien wrote:
Et est-ce pertinent pour un moteur de se considérer aussi important
qu'un visiteur humain ?
Pas un notion d'importance mais d'equivalence.



Tant qu'ils n'interpretent pas le Javascript, ils seront loin de
"l'équivalence".

Un annuaire digne de ce nom me semble impliquer une validation humaine
régulière de ses entrées.
Ou un bot suffisement intelligent car quand son annuaire s'appelle

google,


L'annuaire n'est pas Google. L'annuaire c'est Dmoz.Sample web site sceens hot showing sensible use of keywords in headings


Figure 1: Include keywords in your page headings to improve SEO for
your page.
Images

Images are used in all sorts of ways within documents, and you should
apply the proper semantics to them. The only really useful semantic
variable on an img tag is the alt attribute, and it should only be
used if the image adds meaning to the document. If the image is there
only for decorative purposes, leave the altattribute empty. Otherwise,
describe what the image is showing in the alt attribute.

If you're using images to replace text, because you want the text to
look nicer (image replacement,) make sure that you're using normal
text in your HTML, and that you replace that text with images by using
CSS. You have to do this because both people with visual impairments
and search engines cannot read the text in your images. My own
preferred method of doing this is through applying the image with CSS
background-image, and then hiding the HTML text using a large text-
indent (about -1000px or so does the trick.) Be careful though: the
text in the image should be exactly the same as the text in your
document. If it's not, you risk losing a lot of ranking value from the
search engines.
Abbreviations and acronyms

You're bound to do it as a web designer - I do it in this article
several times - using acronyms or abbreviations. When you do, make
sure you provide the written out version of the term using abbr or
acronym tags. That's good for your keyword density too!
Tables

We all know why using tables for layout out web sites is bad, and we
also know what they are supposed to be used for - displaying tabular
data. Just using basic tables is a big step in the right direction,
but there are a number of ways in which you can improve your tables'
semantic value, thereby improving your site's SEO further:

* Use table headings (th) for your table's headings (it's really
that easy)
* If you can, use the thead, tbody and tfoot sections to properly
section your table
* Provide a caption for your table, describing what's in it

The caption and the table headings would be a good, and usually
natural place to use some of your document's keywords.
Emphasizing your meaning

Remember I said earlier that tags should be the emotion of your text?
This is where the real emotion comes in: you can provide emphasis to
certain words using em or strong. In the old days, people used b and i
for that, but these tags are no longer encouraged, since they imply a
specific styling, whereas HTML should only describe structure/meaning
(all style should be created using CSS, of course.)

Search engines give more weight to any words marked up using any of
these four tags. Overusing them can do more harm than good, and
actually cause a loss of emphasis, but if treated with care, they can
apply an extra dimension to your documents.
A few words on (i)frames

It's quite simple: don't use them. Search engines don't get them, and
screenreaders have quite a hard time using them as well.
Conflicts of interest

All of the above rules can be bent a little of course, which is a good
thing, as sometimes it's necessary to keep everyone at your
organization happy. Say your boss wants a page to have a zappy
marketing title you'd rather not have, because it doesn't exactly
describe what's on the page, and pushes your most important keyword to
the second heading. If you're in a competitive area, it might be wise
to make the page look like that for your boss, yet use an h2 for the
first heading, and an h1 for the second.

The same goes for iframes and images. If someone really wants you to
put a certain block of content on a specific well-ranking page, but
you don't want to risk losing focus, you could of course put that
content into an iframe or image, and choose not to provide an
alternative.

These decisions are up to you in the end - normal semantics should be
the basis of your design, and the conflicts should only arise when
you're really optimizing your pages.
Not so simple semantic HTML - Microformats

Microformats are also semantic HTML, but they are not exactly simple!
At the moment, search engines are hardly using microformats in their
algorithms, but that might change. The hCard especially (the HTML
version of the vCard) has some very easy and obvious uses for search
engines, and I suspect that they will start using those within the
next couple of years. You can apply intelligent extra semantics within
Microformats using the basic set of HTML elements - for example, a
good way of marking up your address hCard is by using the address tag
as a container!
Conclusion

By using semantic HTML to mark up your pages, you can create pages
that are more accessible, both to people with disabilities, as well as
to search engines. Good semantic markup helps search engines to
determine what the topic of a page is, and if used together with a
good site structure, allows you pushy up your web site rankings!

digg Digg this article del.icio.us Add to del.icio.us

This article is licensed under a Creative Commons Attribution, Non
Commercial - Share Alike 2.5 license.

Discuss this article
Article categories

* CSS
* HTML
* JavaScript
* Mobile
* Opera
* SVG
* Voice
* Widgets

Web analytics powered by HitsLink.


On (enfin... _tu_ ) retombe dans la confusion "annuaire" moteur de
recherche".

Quand je vois le volume consommé (30 à 40k documents par mois) par , pour
le nommer, yahoo, par rapport au trafic apporté (rien ou presque), j e me
dis qu'un jour je le bloquerai.
Et c'est ton droit et justement si les bots mange trop de BP on peut

les virer.
Car nous on prends un hebergement, on est limiter en BP pas aux hits !


Oui, mais un hit prends de la BP.

Un bots heureux peut justement en amener un max de visiteurs chose
qu'un simple visiteurs peut difficilement faire.


Je ne suis pas d'accord: le bouche à oreille est plus rentable que le
spamdex. Sauf si on a un contenu totalement ininteressant.


Dsl pas envie de jouer sur les mots (gros annu => google, BP =>
hits ...)

Si tu n'es pas capable de comprendre que les moteurs de recherche
apportent dans plus de 99% des cas plus de traffic qu'un seul visiteur
(oui les digg like oui il y a toujours un contre exemple qui est tout
sauf général à exposer)...

Tu parle de contenu ininterressant mais si pour toi le principal
handicap d'un bot c'est qu'il ne peut pas lire le js alors oui je
pense moi aussi que la majeure partie de sites internet sont
exclusivement basé sur leur animations javascript et elle constituent
à elles seules le contenu interressant (avant que tu ne me debite une
autre connerie, oui je connais l'ajax et sache que l'on peut le rendre
accessible au bots !)

Enfin si toi tu comprend pas, certains oui et surement qu'il sont nuls
à chier et ne savent pas de quoi ils parlent ...:
http://forum.ovh.com/showthread.php?t'994
http://www.webrankinfo.com/forums/topic_page_82495_45.htm

Merci encore pour tes interventions constructives.



Publicité
Poster une réponse
Anonyme