DISTRIBUTIONS D'ÉCHANTILLONNAGE
DES MOYENNES

Définition: la distribution d'échantillonnage des moyennes consiste en la
distribution des moyennes arithmétiques de tous les échantillons possibles de taille
donnée n pouvant être formés à partir de la population
La variation de ces moyennes est appelée variation d'échantillonnage

Exemple: Dans l'exemple du cours de comptabilité, calculons la moyenne
des notes des cinq personnes choisies pour faire partie de l'échantillon.
En retournant aux données originales, on a
Observation 16 4 19 28 23
Notes 55 47 72 68 65

et on calcule

De même, d'autres échantillons (tous aussi probables) aurait donné les moyennes


En fait, il y a

échantillons possibles de 5 personnes, chacun ayant sa moyenne spécifique
C'est la distribution de toutes ces moyennes que l'on appelle
la distribution d'échantillonnage des moyennes

On remarque que ces moyennes échantillonnales ne sont pas égales entre elles et
varient autour de la moyenne μ = 66,23 de la population
C'est ce que représente la variation d'échantillonnage

À noter que cette variation est d'autant réduite
que le nombre d'unités formant l'échantillon est élevé

Attention, il y a trois types de distributions de probabilités d'impliquées


La distribution de la population

Moyenne = μ
Écart type = σ

Elle est unique et fixe


Les distributions d'échantillons

Moyenne =
Écart type = s
(ces indices statistiques sont des
estimateurs des paramètres)
Il y autant de distributions qu'il y a
d'échantillons différents possibles
Chaque échantillon a
ses indices particuliers

Les distributions d'échantillonnage
des moyennes (échantillonnales)

Moyenne =
Écart type =

Elle est unique et fixe pour un n donné
L'écart type dépend de la taille de
l'échantillon (n1 < n2 < n3)

Moyenne de la distribution d'échantillonnage des moyennes

Propriété: La moyenne de la distribution d'échantillonnage des moyennes
est égale à la moyenne de la distribution de la population, i.e. = μ

Exemple (p. 202, #3)
Une population compte 5 étudiants. Le nombre d'heures passées devant le
téléviseur par chacun d'eux est donné ci-dessous:
Étudiant a b c d e
Heures 7 16 20 12 22

On a donc

Pour calculer la moyenne de la distribution d'échantillonnage des moyennes, on
doit former tous les échantillons possibles (5C3) et calculer la moyenne pour
chacun d'eux. On a donc le tableau de calcul suivant:
Échantillon Données Moyenne ()
a b c 7 16 20 14,33
a b d 7 16 12 11,67
a b e 7 16 22 15,00
a c d 7 20 12 13,00
a c e 7 20 22 16,33
a d e 7 12 22 13,67
b c d 16 20 12 16,00
b c e 16 20 22 19,33
b d e 16 12 22 16,67
c d e 20 12 22 18,00
154,00

On constate donc que la moyenne des moyennes échantillonnales
est exactement égale à la moyenne de la population
On remarque aussi que ces moyennes échantillonnales
se rapprochent de la moyenne de la population

De même, dans l'exemple du cours de comptabilité, quelqu'un pourrait
s'amuser (??) à calculer la moyenne des des 142 506 échantillons possibles
D'après la propriété énoncée, on sait que la valeur
ainsi obtenue serait égale à la moyenne de la population

Cette propriété est intéressante parce que, en réalité, on ne travaille que sur un
seul échantillon, et la moyenne de celui-ci sert à faire l'approximation de la
moyenne de la population qui, habituellement, est inconnue

À propos de la forme de la distribution

° Lorsque la taille de l'échantillon est suffisamment grande (on dit souvent n>30),
la distribution d'échantillonnage est approximativement une distribution normale,
que la distribution de la population soit normale ou non

° De plus, lorsque la distribution de la population est normale,
la distribution d'échantillonnage est une distribution normale

Par la «règle empirique», on peut donc affirmer qu'il y a 68% des chances que la
moyenne d'un échantillon aléatoire se situe à moins d'un écart type () de la
moyenne de la population. De même, il y a 95% des chances que cette moyenne
se situe à moins de deux écarts types de la moyenne

Par conséquent, il est important de savoir le taux de dispersion des moyennes
échantillonnales , i.e. de pouvoir calculer

Définition: on appelle l'écart type de la distribution d'échantillonnage
l'erreur type de la moyenne

Exemple
Notons d'abord que

De même, pour calculer l'erreur type, on a le tableau de calcul suivant:
Échantillon Données Moyenne () (-) (-)2
a b c 7 16 20 14,33 -1,07 1,14
a b d 7 16 12 11,67 -3,73 13,91
a b e 7 16 22 15,00 -0,40 0,16
a c d 7 20 12 13,00 -2,40 5,76
a c e 7 20 22 16,33 0,93 0,86
a d e 7 12 22 13,67 -1,73 2,99
b c d 16 20 12 16,00 0,60 0,36
b c e 16 20 22 19,33 3,93 15,44
b d e 16 12 22 16,67 1,27 1,61
c d e 20 12 22 18,00 2,60 6,76
154,00 0,00 48,99

D'où

Cependant, dans le cas du cours de comptabilité,
il est invraisemblable de traiter tous les échantillons possibles

On va donc utiliser le fait que, tout comme il existe une relation entre μ et ,
il existe un lien entre σ et

Le lien est donné par la formule


σ = l'écart type de la population
N = la taille de la population
n = la taille de l'échantillon
et

est un facteur de correction qui tend vers 1 à mesure que N grandit
Par conséquent, lorsque la population est infinie, on a simplement

Exemple
Dans l'exemple précédent, on calculerait

qui donne la même valeur que précédemment

De plus, on peut maintenant calculer l'erreur type dans le cas
du cours de comptabilité. Par la formule, on a

Par conséquent, si on prend un échantillon au hasard de 5 personnes dans cette
classe, il y a 68% des chances que sa moyenne se situe dans l'intervalle
66,23 ± 5,91, i.e. entre 60,32 et 72,14; il y a aussi 95% des chances qu'elle se
situe dans l'intervalle 66,23 ± 11,82, i.e. entre 54,41 et 78,05

Relation entre n et

En regardant la formule

on observe que l'erreur type est directement liée à l'écart type
Par conséquent, la diminution de ce dernier entraîne la diminution de l'erreur

De plus, il faut remarquer que n, i.e. la taille de l'échantillon, apparaît au
dénominateur. Par conséquent, plus le nombre d'unités d'observation dans
l'échantillon est élevé, plus l'erreur type est petite, i.e. plus les moyennes
échantillonnales seront proches de la moyenne de la population

Cette relation exprime le fait que,
plus l'échantillon est grand, plus on a d'informations
À la limite, si la taille de l'échantillon était la même que la taille de la population,
i.e. n = N, il n'y aurait aucune erreur et

À l'autre extrême, si on prenait un
échantillon de taille minimale, i.e.
n = 1, le taux d'erreur serait égal à la
dispersion des données dans la
population puisque

C'est cette relation qu'exprimait le graphique ci-contre,
n1 < n2 < n3

Suite > THÉORÉRME LIMITE CENTRAL