DISTRIBUTION DE FRÉQUENCES

C'est une façon de présenter les données sous une forme synthétique, sans perdre
l'essentiel de l'information. Il s'agit alors simplement de classer (intelligemment)
les données selon une caractéristique observable.

CAS QUALITATIF


Réponse

Valeur
de X
Nombre
d'étudiants/es
(fréquence)
Le chargé de cours 1 1
Le livre 2 6
La couleur du plafond 3 7
Le confort des bureaux 4 6
Quoi ?!? 5 5
25


CAS QUANTITATIF


Résultat
Nombre
d'élèves
(fréquence)
40 et moins de 50 4
50 et moins de 60 6
60 et moins de 70 10
70 et moins de 80 4
80 et moins de 90 4
90 et moins de 100 2
30

NOTE IMPORTANTE

La distribution de fréquences décrit l'aspect général des données. Cependant, dans
la plupart des cas, cette «compression» des données entraîne une certaine perte
d'information (e.g.: l'étendue exacte), perte compensée par un gain de clarté.

POUR CONSTRUIRE UNE DISTRIBUTION, IL FAUT DÉTERMINER:

° Le nombre de classes à utiliser

° La largeur de ces classes

° Le nombre d'observations (fréquence) de chaque classe

QUELQUES RÈGLES POUR CONSTRUIRE UNE DISTRIBUTION

(il n'y a pas de règle stricte, mais certaines règles de «gros bon sens»)

Cas qualitatif

S'il n'y a pas trop de catégories: utiliser directement celles-ci (aucune perte)

S'il y a trop de catégories: regrouper celles-ci selon un «méta-critère»

Exemple: langues parlées dans un pays/dans le monde > familles de langues

Cas quantitatif

° Le nombre de classes devrait habituellement se situer entre 5 et 15
Les cas extrêmes ne sont pas informatifs:
seulement une classe ou autant que le nombre d'observations !

° Éviter les chevauchements d'intervalles et les écarts entre les intervalles
Toutes les données doivent pouvoir y être classées sans équivoque
Un intervalle entre deux classes successives
(e.g. 20-29 suivi de 35-45 ans) nuit à la compréhension

° La largeur des classes doit être constante
Et, il est souhaitable d'utiliser des multiples simples (5 ou 100 plutôt que 7 ou 98)
Une formule intéressante pour calculer la largeur des classes (l) est

où G et P sont respectivement les valeurs de la plus grande et de la plus petite
observation et c est le nombre de classes
Dans notre cas: G = 95 et P = 41; choisissons, à l'essai, c = 6, d'où

qu'on «arrondit» à = 10, en partant de 40, pour maximiser la compréhension.
Évidemment, on aurait pu fixer d'abord la longueur des intervalles (l=10), d'où

qu'on «arrondit», par le haut, à c = 6, puisque c doit être un nombre entier

° Éviter l'utilisation des classes ouvertes
I.e., «en bout» de distribution, des classes du type «50 et moins» ou «80 et plus»
En effet, cela crée une perte d'information considérable (l'étendue par exemple)
Cependant, il peut arriver que cela soit inévitable, dans le cas où il y a quelques
valeurs extrêmement marginales (les cas du prix des maisons en est un exemple)

° S'il existe une concentration de données, la situer près du centre d'une classe
Puisque le centre des classes servira éventuellement au calcul de plusieurs indices

Suite > DIAGRAMME EN BÂTONNETS