LA DISTRIBUTION t

OBJECTIF

Supposons que x1, x2, ..., xn représentent les résultats
obtenus à partir d'un échantillon aléatoire de taille n d'une population normalement
distribuée de moyenne μ et d'écart type σ
On sait déjà que la distribution des moyennes échantillonnales est normalement
distribuée et l'écart type de cette distribution est donné par


selon, respectivement, que la population est infinie ou finie
Par conséquent, la variable aléatoire

suit une distribution normale centrée réduite; donc cette variable est une cote Z.

Mais dans nombre de cas, l'écart type de la population est inconnu et
il faut l'estimer à l'aide de l'écart type échantillonnal, i.e.

selon, respectivement, que la population est infinie ou finie
Cependant, dans ce cas, la variable aléatoire

ne se distribue pas normalement, mais selon une distribution particulière appelée
distribution t de Student

DESCRIPTION

La distribution t ressemble à la distribution normale
Elle est symétrique et centrée sur 0
Mais sa forme exacte dépend de la taille de l'échantillon (n)
Elle est plus aplatie que la distribution normale
Mais, à mesure que la taille échantillonnale augmente
la distribution t tend à se confondre avec la distribution normale
(en fait, dès que n ≥ 30, l'approximation est intéressante)

Graphiquement, on a

Formellement (ou pour votre amusement), la distribution t est donnée par

où υ est le nombre de degré de liberté (d.l.), c'est-à-dire n-1

UTILISATION DE LA TABLE

Tout comme pour la distribution normale,
la probabilité qu'une valeur t se situe à l'intérieur d'un certain
intervalle est donnée par l'aire sous la courbe, pour cet intervalle

Or, puisqu'il existe autant de distributions t qu'il y a de valeurs de n,
on ne peut penser à utiliser une table pour chacune de ces distributions

La table habituellement utilisée est différente de celle de la distribution normale
Cette table donne, pour des niveaux de confiance fixés,
la valeur de t correspondante

On a donc une table qui ressemble à celle-ci
0,80 0,90 0,95 0,98 0,99 NC
0,200 0,100 0,050 0,020 0,010 α
n dl 0,100 0,050 0,025 0,010 0,005 α/2
2 1 3,078 6,314 12,706 31,821 63,657
3 2 1,886 2,920 4,303 6,965 9,925
4 3 1,638 2,353 3,182 4,541 5,841
5 4 1,533 2,132 2,776 3,747 4,604
6 5 1,476 2,015 2,571 3,365 4,032
11 10 1,372 1,812 2,228 2,764 3,169
21 20 1,325 1,725 2,086 2,528 2,845
31 30 1,310 1,697 2,042 2,457 2,750
41 40 1,303 1,684 2,021 2,423 2,704
121 120 1,289 1,658 1,980 2,358 2,617
¥ ¥ 1,282 1,645 1,960 2,236 0,576

Il est important de noter que, dans la table fournie à l'annexe 5, les espaces gris
sont absents. Par conséquent, pour chercher une valeur de t donnée, il faut
déterminer la valeur de d.l. et de α/2

Pour les degrés de liberté, on a, dans ce cas-ci,

De plus, rappelons que le niveau de confiance (noté NC) détermine la probabilité
que l'intervalle construit autour de l'estimateur contienne le paramètre.
De là, 1 - NC est la probabilité que cet intervalle ne contienne pas le paramètre
Cette probabilité d'erreur est alors notée par α

Mais puisque α est la probabilité totale d'erreur
et puisque la distribution t est symétrique,
cette probabilité peut se diviser en deux probabilités d'erreur distinctes,
notées par α/2 (sous-évaluation et sur-évaluation)

La table de t est construite de façon à donner la valeur de t correspondant à
une aire déterminée, complètement à droite de la distribution
C'est donc cette valeur de α/2 qui forme la première ligne de la table de t

En formule, on a

et graphiquement

Exemple

On cherche la valeur de t associée à un niveau de confiance de 95%
dans un échantillon de taille n = 6. On a donc

et

En cherchant dans la table des t,
à l'intersection de la ligne d.l. = 5 et de la colonne α/2 = 0,025
on trouve la valeur t = 2,571

C'est donc dire que, lorsque n = 6,
95% des valeurs de t se situent entre -2,571 et 2,571

DISTRIBUTION t ET DISTRIBUTION NORMALE

On a déjà remarqué que, à mesure que n croît,
la distribution t tend à se confondre avec la distribution normale

C'est pour cette raison que, dans la table, lorsque n est très grand (i.e. n → ∞), la
valeur de t associée à un niveau de confiance donné
correspond exactement à la valeur de Z pour ce même niveau

Par exemple, à un niveau de confiance de 95% correspond la valeur Z = 1,960
De même, pour n → ∞, on lit dans la table la valeur t = 1,960

C'est à cause de cette convergence que plusieurs auteurs préfèrent utiliser
la valeur Z lorsque la taille de l'échantillon est suffisamment élevée (e.g. n ≥ 30)

Mais il semble plus simple de se rappeler uniquement de la règle suivante:
° Si on connaît σ, on utilise la distribution normale
° Si on doit estimer σ (via s), on utilise la distribution t
(et ce, indépendamment de la taille de l'échantillon)

Suite > ESTIMATION DE LA MOYENNE μ LORSQUE σ EST INCONNU