Fiabilité des statistiques d'utilisation des OS ?

Le
wedjat
Bonjour,

en me baladant sur un site fourni par P4nd1-P4nd4 à l'occasion de la
publication de statistiques sur l'utilisation de Linux et de Windows 7,
je trouve cette FAQ dans le but d'avoir plus de renseignements :
http://gs.statcounter.com/faq#methodology

Or, j'y lis la chose suivante : "As of 1 August 2009, our tracking code
is installed on approximately 3 million sites"

Or, le web d'aujourd'hui, d'après Netcraft, reçèle beaucoup plus
d'endroits où nicher :
http://news.netcraft.com/archives/2008/12/24/december_2008_web_server_survey.html

Pas loin de 200 millions : VeriSign ne fournit pas un résultat très
éloigné, par ailleurs.

3 millions sur 200 millions, ça fait peu. Surtout quand on sait que tous
les hébergeurs ne proposent pas tous les OS disponibles sur le marché.
Sans compter que certains OS sont plus dirigés vers le service Web que
d'autres.
De plus, on ne compte pas ici les postes de travail, bien souvent
derrière un pare-feu donc non atteignables directement sur le réseau.
Ces derniers ne sont pas scannables.

Pour avoir des stats un peu plus solides, je pense à quelque chose comme
un lancement de nmap avec détection d'OS, généralisé sur l'ensemble des
routeurs, pare-feux, et serveurs web de l'internet. Or, une telle mesure
se heurte, vous vous en doutez, à nombre de problèmes :
- fermeture de ports,
- législation en vigueur dans certains pays, en particulier la France,
- mise en pratique et fiabilité des résultats obtenus à l'arrivée.


J'ouvre donc le débat suivant : quelle fiabilité accorder à de telles
statistiques sur l'utilisation des OS dans le monde ? Quelles méthodes
fiables utiliser ?
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 6
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Mihamina Rakotomandimby
Le #20900821
> wedjat:
De plus, on ne compte pas ici les postes de travail,



Si: Ce sont les postes de travail qui surfent et qui permettent d'etablir
les statistiques de "pandouille", et ce, meme si ils sont derriere un
"pare-feu".

Ce qu'on ne compte pas dans ces stats ce sont les machines qui ne surfent
pas, et là ou les chiffres sont faux c'est quand l'utilisateur change
l'User-Agent de son navigateur, chose qui arrive bien plus souvent qu'on
ne le crois.

Donc, d'abord, 3/200, ça ne couvre rien, mais en plus ça ne couvre que le
surf.

--
Architecte Informatique chez Blueline/Gulfsat:
Administration Systeme, Recherche & Developpement
+261 34 29 155 34 / +261 33 11 207 36
wedjat
Le #20900971
Mihamina Rakotomandimby
Si: Ce sont les postes de travail qui surfent et qui permettent d'etablir
les statistiques de "pandouille", et ce, meme si ils sont derriere un
"pare-feu".



C'est vrai. Mais qu'en est-il de ceux se situant derrière un proxy ? La
requête HTTP est modifiée dans ce cas, non ?

Ce qu'on ne compte pas dans ces stats ce sont les machines qui ne surfent
pas,



En effet.

et là ou les chiffres sont faux c'est quand l'utilisateur change
l'User-Agent de son navigateur, chose qui arrive bien plus souvent qu'on
ne le crois.



Par quel moyen par exemple ? Ca m'intéresse...

Donc, d'abord, 3/200, ça ne couvre rien, mais en plus ça ne couvre que le
surf.



Peut-il donc y avoir des "instituts", si je puis me permettre, qui
sauraient rester crédibles au vu des méthodes employées ? Cela est-il
possible techniquement ? Économiquement ?
Mihamina Rakotomandimby
Le #20902061
> wedjat:
C'est vrai. Mais qu'en est-il de ceux se situant derrière un proxy ? La
requête HTTP est modifiée dans ce cas, non ?



Selon les proxies.

Ce qu'on ne compte pas dans ces stats ce sont les machines qui ne
surfent pas,


En effet.
et là ou les chiffres sont faux c'est quand l'utilisateur change
l'User-Agent de son navigateur, chose qui arrive bien plus souvent
qu'on ne le crois.


Par quel moyen par exemple ? Ca m'intéresse...



http://www.google.com/search?q=firefox+change+user+agent
Je comprend pas pourquoi tu n'a pas trouvé tout seul.

Donc, d'abord, 3/200, ça ne couvre rien, mais en plus ça ne couvre que
le surf.


Peut-il donc y avoir des "instituts", si je puis me permettre, qui
sauraient rester crédibles au vu des méthodes employées ?



Oui.

Cela est-il possible techniquement ?



Oui.

Économiquement ?



Oui.

--
Architecte Informatique chez Blueline/Gulfsat:
Administration Systeme, Recherche & Developpement
+261 34 29 155 34 / +261 33 11 207 36
Riquer Vincent
Le #20903111
wedjat a écrit :
Mihamina Rakotomandimby 12:17 :
Si: Ce sont les postes de travail qui surfent et qui permettent
d'etablir les statistiques de "pandouille", et ce, meme si ils sont
derriere un "pare-feu".



C'est vrai. Mais qu'en est-il de ceux se situant derrière un proxy ? La
requête HTTP est modifiée dans ce cas, non ?



Ça dépend si le proxy touche au champs User-Agent ou pas.

et là ou les chiffres sont faux c'est quand l'utilisateur change
l'User-Agent de son navigateur, chose qui arrive bien plus souvent
qu'on ne le crois.



Par quel moyen par exemple ? Ca m'intéresse...



Ça dépend des navigateurs :)

Donc, d'abord, 3/200, ça ne couvre rien, mais en plus ça ne couvre que
le surf.



Peut-il donc y avoir des "instituts", si je puis me permettre, qui
sauraient rester crédibles au vu des méthodes employées ? Cela est-il
possible techniquement ? Économiquement ?



Au niveau des serveurs web, il y a netcraft (qui n'a pas de stats d'OS),
woozweb (ils ont des stats d'OS mais leur échantillon est plus petit),
et sûrement d'autres.

http://news.netcraft.com/archives/2009/12/24/december_2009_web_server_survey.html

http://www.woozweb.com/statisticstransversglobalview/linuxwindows

Ces stats sont probablement faussées par le virtualhosting, et tu
n'auras jamais de stats sur tout un tas de services.

En gros des stats d'OS fiables, ya pas. Par contre ces chiffres vont pas
plaire à P4.
--
Vincent Riquer

BOFH excuse #81:

Please excuse me, I have to circuit an AC line through my head to get
this database working.
pehache-tolai
Le #20910731
"wedjat" hhv089$3ga$

Or, j'y lis la chose suivante : "As of 1 August 2009, our tracking
code is installed on approximately 3 million sites"

Or, le web d'aujourd'hui, d'après Netcraft, reçèle beaucoup plus
d'endroits où nicher :
http://news.netcraft.com/archives/2008/12/24/december_2008_web_server_survey.html

Pas loin de 200 millions : VeriSign ne fournit pas un résultat très
éloigné, par ailleurs.

3 millions sur 200 millions, ça fait peu.



Un échantillonnage de 1,5% c'est plus que suffisant pour établir une
statistique fiable.

De plus, on ne compte pas ici les postes de travail, bien souvent
derrière un pare-feu donc non atteignables directement sur le réseau.
Ces derniers ne sont pas scannables.



Le principe n'est pas de scanner l'internet, mais d'éplucher les requêtes
http venant des postes de travail qui surfent sur les sites équipés des
compteurs. Ces stats sont donc principalement des stats de postes de
travail, donc (desktop).


--
pehache
http://pehache.free.fr/public.html
yl
Le #20904461
In article wedjat

En fait, c'était pas vraiment ce que je demandais...
Je voulais surtout savoir dans quelles circonstances autres que
l'installation d'un plugin ou l'envoi de requêtes "à la main", bref dans
des circonstances autres que volontaires, l'User-Agent pouvait être modifié.



Certains sites (la française des jeux jusqu'à il y a peu, virgin)
exigent qu'on soit sur tel navigateur ou tel système. Pour la fdj c'est
plus stupide : tu installes une applet java qui va annoncer ton SE, s'il
n'est pas approuvé par le Kremlin, ça ne passe pas. Tu le change pour
écouter les démos sur virgin, et puis tu le laisses par flemme.

--
http://mikeread.tripod.com/archive.htm
P4nd1-P4nd4
Le #20904421
Il se trouve que wedjat a formulé :
Mihamina Rakotomandimby
Si: Ce sont les postes de travail qui surfent et qui permettent d'etablir
les statistiques de "pandouille", et ce, meme si ils sont derriere un
"pare-feu".



C'est vrai. Mais qu'en est-il de ceux se situant derrière un proxy ? La
requête HTTP est modifiée dans ce cas, non ?



Bien, il est rare de trouver des machines derrière un proxy, ce n'est
plus très utilisé...Quoique !

Dans certaine grande structure, dont la nôtre, nous utilisons bien un
proxy, sous Windows évidemment ;>))

Mais la plupart de ces machines derrière un proxy, c'est des machines
professionnelles, donc des Windows !

et là ou les chiffres sont faux c'est quand l'utilisateur change
l'User-Agent de son navigateur, chose qui arrive bien plus souvent qu'on ne
le crois.



Par quel moyen par exemple ? Ca m'intéresse...



Comme personne sait faire cela, et que de surctoit cela ne sert à rien
,cela n'a pas d'influence dans les statistiques...

Donc, d'abord, 3/200, ça ne couvre rien, mais en plus ça ne couvre que le
surf.



Peut-il donc y avoir des "instituts", si je puis me permettre, qui sauraient
rester crédibles au vu des méthodes employées ? Cela est-il possible
techniquement ? Économiquement ?



Tous les siteys présentés ont une assez bonne fiabilité, car les
résultats sont contunuellement pondérés en fonction de calculs
statistiques qui offrent une marge d'erreur assez (enfin très...)
faible

Un des plus recommandés est

http://marketshare.hitslink.com/operating-system-market-share.aspx?qprid=8

--
P4nd1-P4nd4 vous salue, et annonce que le petit ourson possède
désormais son blog
p4nd1-p4nd4.over-blog.com
Stéphane CARPENTIER
Le #20904891
wedjat wrote:
Mihamina Rakotomandimby
Si: Ce sont les postes de travail qui surfent et qui permettent d'etablir
les statistiques de "pandouille", et ce, meme si ils sont derriere un
"pare-feu".



C'est vrai. Mais qu'en est-il de ceux se situant derrière un proxy ? La
requête HTTP est modifiée dans ce cas, non ?



Le proxy peut modifier l'IP, mais ce n'est pas sur l'IP que se basent
ces stats.
Stéphane CARPENTIER
Le #20904861
Riquer Vincent wrote:
wedjat a écrit :
Mihamina Rakotomandimby 12:17 :
Si: Ce sont les postes de travail qui surfent et qui permettent
d'etablir les statistiques de "pandouille", et ce, meme si ils sont
derriere un "pare-feu".


C'est vrai. Mais qu'en est-il de ceux se situant derrière un proxy ? La
requête HTTP est modifiée dans ce cas, non ?



Ça dépend si le proxy touche au champs User-Agent ou pas.



En théorie, oui, mais en pratique, ça se fait souvent ? Je crois que
c'est plutôt négligeable.
Professeur M
Le #20905821
Le Tue, 05 Jan 2010 20:53:08 +0100, P4nd1-P4nd4 a écrit :

il est rare de trouver des machines derrière un proxy



gggnnniiiii ?
Publicité
Poster une réponse
Anonyme