Google, le roi des menteurs ' suite

Le par  |  13 commentaire(s)
Google logo

Dans une précédente news, nous vous informions d'un curieux "problème" affectant le célèbre moteur de recherche sur Internet, Google.

Google logo

Dans une précédente news, nous vous informions d'un curieux "problème" affectant le célèbre moteur de recherche sur Internet, Google.

Jean Véronis nous faisait alors part d'une étude réalisée par lui même et intitulée "Web: Comptes bidons chez Google '".

Aujourd'hui, nous avons droit à la suite de cette étude, intitulée "Web: Le mystère des pages manquantes de Google résolu '", ou Véronis précise certains points.


    * si l'on tape Chirac OR Sarkozy, on obtient la moitié des résultats obtenus pour Chirac tout seul, ce qui peut trouver une explication politique, mais constitue une curieuse approche de la logique booléenne ;
    * si l'on cherche the dans les pages anglaises, on obtient 1% du nombre de résultats obtenus sur l'ensemble du Web, toutes langues confondues. Est-ce que ça veut dire que the est 99 fois plus fréquent dans les langues autres que l'anglais ' Bien sûr que non.

Où sont passées les pages manquantes ' C'est le problème que je me pose dans cet article. Un scenario possible est que l'index véritable de Google est considérablement plus petit que la taille officiellement annoncée. L'expérience détaillée que je rapporte ci-dessous donne une estimation de 60%, ce qui correspondrait à une taille d'index véritable d'environ 5 milliards de pages. Ce scénario est bien sûr entièrement hypothétique, mais il permet d'expliquer les différences dans les comptes de pages anglaises, et le comportement singulier des opérateurs booléens.

Je préfère le dire clairement tout de suite, de façon à ne pas faire perdre leur temps aux commentateurs éventuels : ceci ne veux pas dire que Google soit un mauvais moteur (je l'ai d'ailleurs en page d'accueil de mon navigateur). Pour la plupart des utilisateurs, les comptes sont sans intérêt, et ce qui... compte pour eux, c'est de savoir s'ils obtiennent leur résultats rapidement et efficacement ou non. Les chiffres ne présentent un intérêt que pour les experts, et dans ce cas précis, ils ont des raisons de s'interroger.


Dans cette nouvelle étude, Véronis n'a plus utilisé des mots aussi fréquents que "the" (ce qui lui avait d'ailleurs été reproché), argumentant du fait que ces mots devaient certainement faire l'objet d'un traitement spécial effectué par les moteurs de recherche du fait justement de leur grand nombre.

Il a ainsi utilisé 50 mots anglais tirés au hasard dans un corpus d'un million de mots (accumulated, alive, ancestor, bushes, etc.), en éliminant les mots pour lesquels il existait un homographe évident dans une autre langue (par exemple patio).


Je vous laisse lire son étude afin d'en tirer par vous même les conclusions.

Voici la sienne :

Selon toute probabilité, les ingénieurs Google ont oublié de connecter la routine d'extrapolation à la sortie du module de requêtes booléennes ! En conclusion, si vous voulez connaître le vrai compte des mots dans l'index Google, tapez-les deux fois :

Mot    Compte
Chirac  :   3 570 000
Chirac Chirac :    2 170 000

La deuxième ligne fournit probablement le vrai compte...



Consulter l'étude complète
Complément d'information

Vos commentaires Page 1 / 2

Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Anonyme
Le #33123
Lui... Il s'amuse bien le week end !
Le #33128
mais quest ce qu'on s'en branle si on a que 4 milliards de pages au lieu de 8 milliards pages.... tssss
Le #33170
et si l'info que tu recherches est sur la 4000000001° page '


ok ------->[]
Le #33182
et si tu tapes "chirac chirac chirac" t'auras encore d'autres résultats...vraiment bidon cette étude...toutes façons se qui compte c'est de trouver ce que tu cherches peut importe le nombres de pages recencées par google. en plus google n'a jamais prétendu être sans erreur, parfait tout ce que tu veux.
Le #33187
Lors d'un recherche sur google combien d'entre nous vont vraiment regarder les reponses au dela de la 3e voir 4e pages'''' et ce meme s'il y a des millions de reponses'''

En gros voila une etude qui sert uniquement a brasser de l'air (a mon avis en tout cas...)
Et je suppose qu'en plus la personne a ete payee pour ca.... ben voyons....
Le #33192
Pitoyable
Le #33228
depuis que jutilise google (avant google jetais sur altavista ) je nai plus envie d'en essayer un autre.
chercher c'est trouvé
Le #33241
Google va tres bien et je suis en accord avec eole.
Le #33246
il fuadrit faire des études sur les études...
"the" se trouve aussi dans des mots qui ne sont pas anglais : agathe, thé, sparthe...
et pourquoi pas chercher le nombre de fois que la lettre A apparait sur le web ''
Anonyme
Le #33261
qqn pourrait m'expliquer simplement ce que c'est la logique booléenne'
Suivre les commentaires
Poster un commentaire
Anonyme
:) ;) :D ^^ 8) :| :lol: :p :-/ :o :w00t: :roll: :( :cry: :facepalm:
:andy: :annoyed: :bandit: :alien: :ninja: :agent: :doh: :@ :sick: :kiss: :love: :sleep: :whistle: =]