Google logo

Dans une précédente news, nous vous informions d'un curieux "problème" affectant le célèbre moteur de recherche sur Internet, Google.

Jean Véronis nous faisait alors part d'une étude réalisée par lui même et intitulée "Web: Comptes bidons chez Google '".

Aujourd'hui, nous avons droit à la suite de cette étude, intitulée "Web: Le mystère des pages manquantes de Google résolu '", ou Véronis précise certains points.


    * si l'on tape Chirac OR Sarkozy, on obtient la moitié des résultats obtenus pour Chirac tout seul, ce qui peut trouver une explication politique, mais constitue une curieuse approche de la logique booléenne ;
    * si l'on cherche the dans les pages anglaises, on obtient 1% du nombre de résultats obtenus sur l'ensemble du Web, toutes langues confondues. Est-ce que ça veut dire que the est 99 fois plus fréquent dans les langues autres que l'anglais ' Bien sûr que non.

Où sont passées les pages manquantes ' C'est le problème que je me pose dans cet article. Un scenario possible est que l'index véritable de Google est considérablement plus petit que la taille officiellement annoncée. L'expérience détaillée que je rapporte ci-dessous donne une estimation de 60%, ce qui correspondrait à une taille d'index véritable d'environ 5 milliards de pages. Ce scénario est bien sûr entièrement hypothétique, mais il permet d'expliquer les différences dans les comptes de pages anglaises, et le comportement singulier des opérateurs booléens.

Je préfère le dire clairement tout de suite, de façon à ne pas faire perdre leur temps aux commentateurs éventuels : ceci ne veux pas dire que Google soit un mauvais moteur (je l'ai d'ailleurs en page d'accueil de mon navigateur). Pour la plupart des utilisateurs, les comptes sont sans intérêt, et ce qui... compte pour eux, c'est de savoir s'ils obtiennent leur résultats rapidement et efficacement ou non. Les chiffres ne présentent un intérêt que pour les experts, et dans ce cas précis, ils ont des raisons de s'interroger.


Dans cette nouvelle étude, Véronis n'a plus utilisé des mots aussi fréquents que "the" (ce qui lui avait d'ailleurs été reproché), argumentant du fait que ces mots devaient certainement faire l'objet d'un traitement spécial effectué par les moteurs de recherche du fait justement de leur grand nombre.

Il a ainsi utilisé 50 mots anglais tirés au hasard dans un corpus d'un million de mots (accumulated, alive, ancestor, bushes, etc.), en éliminant les mots pour lesquels il existait un homographe évident dans une autre langue (par exemple patio).


Je vous laisse lire son étude afin d'en tirer par vous même les conclusions.

Voici la sienne :

Selon toute probabilité, les ingénieurs Google ont oublié de connecter la routine d'extrapolation à la sortie du module de requêtes booléennes ! En conclusion, si vous voulez connaître le vrai compte des mots dans l'index Google, tapez-les deux fois :

Mot    Compte
Chirac  :   3 570 000
Chirac Chirac :    2 170 000

La deuxième ligne fournit probablement le vrai compte...



Consulter l'étude complète