OVH Cloud OVH Cloud

Statistique

19 réponses
Avatar
phil.aline.naudin
Bonjour,
J'ai 35000 lignes dans un fichier Excel de type numérique et sous la forme
"57463001001".
Je souhaiterai vérifier "Statistiquement" 10 % de cette base. Je n'ai pas de
connaissance "Stat" par contre Excel me donne de nombreuses formules.

Avez-vous un conseil à me donner sur l'utilisation d'une formule plutôt
qu'une autre ?

Merci d'avance

9 réponses

1 2
Avatar
phil.aline.naudin
Bonjour,
Je n'ai vraiment pas le choix sur le %, il m'est imposé. Je dois vérifier 10
%; Le côté libre de l'affaire est sur la façon de déterminer mes 3500
images.
Je souhaite avoir un choix façon "Pro" par une formule Stat; Le problème
vient du fait que j'ai très peu de connaissance dans ce domaine.
Si je devais poussé le bouchon "j'aimerai" que toutes les communes soient
vues, mais bon j'imagine que la formule ne doit pas être simple à
construire.

Encore merci pour vos Post.

"Jacquouille" a écrit dans le message de
news:
Bonjour Aline
Sorry de prendre le contrepied, mais je crois que 10 %, cela ne représente
pas assez pour faire une bonne "image"...mais, ceci est ton problème.
Si tu as 781 communes, pourquoi ne pas les trier via leur n° INSEE (code
postal?) et prendre 3500/781 = 5 images par commune ?
Ensuite, je reviendrais au "truc" qui t'a été suggéré, à savoir la colonne
supp avec la fonction alea(), puis tri, puis prendre les 5 premières de
chaque code postal.
Bonne chance.

--
Bien amicalmement,
Vivement conseillés:
http://www.excelabo.net
http://jacxl.free.fr/mpfe/trombino.html
http://dj.joss.free.fr/netiquet.htm
http://frederic.sigonneau.free.fr/

Jacquouille.

"phil.aline.naudin" a écrit dans le message
de news: 43e4952b$0$29198$
En fait le nom de l'image n'est pas à contrôler, je dois vérifier le
contenu de l'image suivant un cahier des charges.
Les images sont uniques, elles portent un nom qui détermine sans l'ouvrir
:
la commune (Code INSEE) la rue (Code Rivoli) et un numéro d'ordre car les
rues sont grandes donc je peux avoir plusieurs image dans cette rue.

Je te donne un exemple :
Code INSEE (57463)
Code Rivoli (0010)
Numéro d'ordre (01)
Cela donne 57463001001. J'ai copié l'ensemble des noms d'images dans un
fichier Excel afin de tirer au sort les images que je veux contrôler.
Pour info j'ai 781 communes pour les 35000 images.

Si tu as une autre idée je suis preneur.

Merci d'avance




"Francois" a écrit dans le message de
news:
Bonjour,
(...)
Pour échantillon de 10 % il m'est imposé.
Pour plus de précision je dois contrôler 35000 images. Les noms des
images sont copiées dans un fichier Excel pour plus de facilité.



Re,

Et sur les noms de ces images, que faut-il contrôler ?

--
François L











Avatar
Francois
Bonjour,
Je n'ai vraiment pas le choix sur le %, il m'est imposé. Je dois vérifier 10
%; Le côté libre de l'affaire est sur la façon de déterminer mes 3500
images.
Je souhaite avoir un choix façon "Pro" par une formule Stat; Le problème
vient du fait que j'ai très peu de connaissance dans ce domaine.
Si je devais poussé le bouchon "j'aimerai" que toutes les communes soient
vues, mais bon j'imagine que la formule ne doit pas être simple à
construire.


Re,

Dans le cas que tu décris, je maintiens qu'un tirage aléatoire de
l'échantillon est une méthode "pro" et que tu peux le faire avec Excel
comme suggéré plus haut, et précédemment dans d'autres posts par
d'autres contributeurs de ce forum.

Un quota par commune ne s'impose pas et n'est pas en soi un gage de
fiabilité. Si le risque d'erreur dans le codage n'est pas le même selon
la commune considérée, la question est différente.

Si tu tiens vraiment à ce que toutes les communes soient représentées,
il faut trier ta base sur les codes et appliquer la méthode de tirage de
10% sur chaque groupe d'enregistrement correspondant à une commune mais,
a priori, ce n'est pas plus fiable. A la limite, cela peut même l'être
moins ...

--
François L

Avatar
phil.aline.naudin
OK je vais appliquer la formule "ALEA"
Merci beaucoup pour tes explications, il me reste plus qu'à Bosser ...
@Plus
"Francois" a écrit dans le message de news:
OUP5%
Bonjour,
Je n'ai vraiment pas le choix sur le %, il m'est imposé. Je dois vérifier
10 %; Le côté libre de l'affaire est sur la façon de déterminer mes 3500
images.
Je souhaite avoir un choix façon "Pro" par une formule Stat; Le problème
vient du fait que j'ai très peu de connaissance dans ce domaine.
Si je devais poussé le bouchon "j'aimerai" que toutes les communes soient
vues, mais bon j'imagine que la formule ne doit pas être simple à
construire.


Re,

Dans le cas que tu décris, je maintiens qu'un tirage aléatoire de
l'échantillon est une méthode "pro" et que tu peux le faire avec Excel
comme suggéré plus haut, et précédemment dans d'autres posts par d'autres
contributeurs de ce forum.

Un quota par commune ne s'impose pas et n'est pas en soi un gage de
fiabilité. Si le risque d'erreur dans le codage n'est pas le même selon la
commune considérée, la question est différente.

Si tu tiens vraiment à ce que toutes les communes soient représentées, il
faut trier ta base sur les codes et appliquer la méthode de tirage de 10%
sur chaque groupe d'enregistrement correspondant à une commune mais, a
priori, ce n'est pas plus fiable. A la limite, cela peut même l'être moins
...

--
François L



Avatar
Jacquouille
Bonsoir François
Loin de moi l'idée de polémiquer. D'autant plus que je ne prétends pas être
un staticien.
Tout au plus, je sais qu'il faut un "certain" nombre de cas pour en faire
une loi.
Ceci dit, je crois que ALEA() mesure simplement le temps depuis l'ouverture
du PC jusqu'au moment de la validation de la cellule. Excel prendrait en
compte les micro particules de secondes écoulées, d'où les changements
énormes d'une cel à l'autre.
Ceci dit, je me demande comment on fait pour contrôler la véracité des
photos de 700 communes de France? (et sans frais de déplacement !) -))))
----------------------
ou alors, plus simple, on fait la colonne avec alea() puis on trie par odre
croissant et on prend les xèmes premiers.
-------------------------
Bonne soirée -)))
--
Bien amicalmement,
Vivement conseillés:
http://www.excelabo.net
http://jacxl.free.fr/mpfe/trombino.html
http://dj.joss.free.fr/netiquet.htm
http://frederic.sigonneau.free.fr/

Jacquouille.

"Francois" a écrit dans le message de news:

En fait le nom de l'image n'est pas à contrôler, je dois vérifier le
contenu de l'image suivant un cahier des charges.
Les images sont uniques, elles portent un nom qui détermine sans l'ouvrir
:
la commune (Code INSEE) la rue (Code Rivoli) et un numéro d'ordre car les
rues sont grandes donc je peux avoir plusieurs image dans cette rue.

Je te donne un exemple :
Code INSEE (57463)
Code Rivoli (0010)
Numéro d'ordre (01)
Cela donne 57463001001. J'ai copié l'ensemble des noms d'images dans un
fichier Excel afin de tirer au sort les images que je veux contrôler.
Pour info j'ai 781 communes pour les 35000 images.

Si tu as une autre idée je suis preneur.



Re,

Pour le tirage aleatoire de ton échantillon de 10 %, je pense que la
méthode proposée fait l'affaire... sauf à contester l'algorithme de la
fonction alea d'excel. Les fonctions statistiques d'excel sont contestées
et pour certaines franchement contestables mais pour le cas particulier
d'alea, je ne sais pas.

Après, s'il s'agit de vérifier que le codage associé aux images de
l'échantillon correspond bien à la réalité de ce qui est représenté, je ne
sais pas comment faire, sauf à la main (oui, c'est bien la place de la
Concorde, oui c'est bien l'église de XXXX, etc...). Sur 3500 images, bon
courage !

--
François L



Avatar
Clément Marcotte
Bonjour,

Loin de moi l'idée de polémiquer.


Même chose pour moi.

Ceci dit, je crois que ALEA() mesure simplement le temps depuis
l'ouverture du PC jusqu'au moment de la validation de la cellule. Excel
prendrait en compte les micro particules de secondes écoulées, d'où les
changements énormes d'une cel à l'autre.


On dirait que vous confondates deux petites choses de VB-VBA.

Il y a d'abord la fonction RND() laquelle a un paramètre optionnel; lequel
paramètre optionnel, peut permettre de générer, ou non, les mêmes nombres
aléatoires d'un lancement du programme à un autre, ou, de poursuivre la même
séquence de nombres aléatoire avec chaque appel de la fonction.

La fonction randomize, permet de s'assurer qu'à chaque lancement de la
fonction RND(), une nouvelle séquence de nombres aléatoires soit générée.
Cette fonction randomize est, elle, basée sur le nombre de secondes écoulées
depuis minuit, en autant qu'elle-même soit utilisée sans paramètre ou avec
le paramètre Timer.

Avatar
Francois
Bonsoir François
Bonsoir Jacqouille,

Loin de moi l'idée de polémiquer. D'autant plus que je ne prétends pas être
un staticien.


Idem pour moi, et pour les deux phrases

Tout au plus, je sais qu'il faut un "certain" nombre de cas pour en faire
une loi.
Ceci dit, je crois que ALEA() mesure simplement le temps depuis l'ouverture
du PC jusqu'au moment de la validation de la cellule. Excel prendrait en
compte les micro particules de secondes écoulées, d'où les changements
énormes d'une cel à l'autre.


Je l'ai dit, je ne connais pas l'algo d'alea et même si je le
connaissais je ne prétendrais pas juger de sa pertinence s'il est un
tout petit peu sérieux. Je fais malgré tout pas mal de stats (et j'ai la
chance de disposer pour cela d'une des "rolls" ou "ferrari" du calcul
statistique). Perso, faute de renseignements supplémentaires sur la
manière dont ont été générés les codes, je pense qu'il valait mieux
appliquer un tirage aléatoire à l'ensemble de la série supposée
"normale" que de tenir compte des codes communes ce qui est sans
importance si la série est bien "normale" et génère un biais non
mesurable sinon.

Ceci dit, je me demande comment on fait pour contrôler la véracité des
photos de 700 communes de France? (et sans frais de déplacement !) -))))


Ça je ne sais pas non plus !

Bonne soirée -)))


A toi aussi ;-))

--
François L

Avatar
Clément Marcotte
Ceci dit, je me demande comment on fait pour contrôler la véracité des
photos de 700 communes de France? (et sans frais de déplacement
-))))


Ben, Tu envoies 700 lettres à 700 maires; en espérant qu'ils vont tous
collaborer sans tricher.

Avatar
phil.aline.naudin
Pour cette question le travail est simple, vous avez une ancienne photo sur
l'écran de gauche et vous avez une nouvelle photo sur l'écran de droit.
Si elles sont semblables gagné ... bon à un ptit détail

Et le tout depuis le bureau ;)))))
Bonne nuit

Par contre vous allez me voir sur un autre Post car j'ai une question
pratique afin d'être optimum.

"Clément Marcotte" a écrit dans le message
de news:
Ceci dit, je me demande comment on fait pour contrôler la véracité des
photos de 700 communes de France? (et sans frais de déplacement -))))


Ben, Tu envoies 700 lettres à 700 maires; en espérant qu'ils vont tous
collaborer sans tricher.




Avatar
Michel41
Bonsoir ou bonjour

S'il faut tirer au sort 10% des lignes SANS REMISE,
on peut utiliser la congruence multiplicative
***********************
R i+1 = a * Ri modulo m

m doit être de la forme 2^(p-1)
pour les mots de 32 bits on recommande p2

a doit être de la forme 8 * t + ou- 3
pour les mots de 32 bits on recommande a = 5^13

R0 doit être un entier positif impaire

dans ce cas la période est de m/4
cela signifie qu'au bout de m/4 tirage R reprend sa valeur initiale

Ri / (m-1) est un nombre pseudo-aléatoire
suivant une loi sensiblement uniforme
************************
En pratique, on tire au sort la première ligne avec ALEA pour R0
puis on calcule R1....
Il faudra ajuster les valeurs a et p un peu par tâtonnement aussi
mais en suivant les règles
Il faut passer au calcul suivant de R quand le n° de ligne ne
correspond pas à intervalle des lignes à tirer au sort
(élimination)
Il faut choisir m/4 (25% = maximum de valeurs "tirables")
pour que le nombre de valeurs tirées entre les limites des lignes
soit un peu supérieur à 10 % (puissance de 2 juste supérieure à N)
Si la série est uniquement impaire, on peut tirer au sort avec ALEA
le fait de prendre cette ligne ou la suivante (pile ou face) : mais
dans ce cas, c'est la valeur Ri calculée qui doit toujours être
utilisée pour le cycle suivant

Une autre méthode consiste à faire un tirage systématique :
mais il y a un biais statistique : cela est-il grave dans ce contexte ?
On tire au sort la première ligne puis on ajoute entier(N/10) ;
il faudra utiliser le modulo en cas de dépassement de N
Attention dans le calcul des n° de lignes : ça ne part pas
de zéro ! il faut aussi éviter de boucler en gardant en
mémoire le n° de la ligne de départ (ajouter 1 en cas de
bouclage... ou autre chose différent de entier(N/10))

@+
M41









"phil.aline.naudin" a écrit dans le message
de news: 43e4780e$0$18319$
Bonjour,
J'ai 35000 lignes dans un fichier Excel de type numérique et sous la forme
"57463001001".
Je souhaiterai vérifier "Statistiquement" 10 % de cette base. Je n'ai pas
de
connaissance "Stat" par contre Excel me donne de nombreuses formules.

Avez-vous un conseil à me donner sur l'utilisation d'une formule plutôt
qu'une autre ?

Merci d'avance




1 2