BIAIS DES TESTS
LE PROBLÈME
Lorsqu'un test est utilisé dans le but de prédire (ou d'estimer) la position d'un individu par rapport à un certain critère, il peut y avoir des variables modulatrices qui influencent le type de prédictions que l'on peut tirer du testOn regroupe, sous le terme biais des tests, deux grands types de difficultés
- Le fait qu'un test ne possède pas le même niveau de validité critériée pour différents groupes de personnes -> biais de la pente
- Le fait qu'un test sous-évalue ou surévalue systématiquement les membres de certains groupes -> biais de l'ordonnée à l'origine
Le problème du biais des tests en est un d'éthique sociale qui dépasse largement le contenu de ce cours -> nous n'en verrons ici que quelques aspects techniques
Il convient de préciser qu'un test risque moins d'être sensible à des biais systématiques lorsque les caractéristiques mesurées sont clairement définies et que le test est étroitement lié au critère
Notons ici qu'un test est biaisé dans la mesure où des différences de groupes au test ne sont pas associées à des différences similaires au niveau du critère
![]()
- Par conséquent, il ne faut pas considérer comme biaisé un test qui montre des différences de groupes si ces différences existent également au niveau du critère
- En fait, si elles existent, le test doit identifier ces différences (ne serait-ce que pour mieux intervenir)
- Dans le diagramme de corrélation ci-contre, le test n'est pas biaisé (quant aux groupes concernés) puisque, même si, en moyenne, le groupe B est plus faible que le groupe A au test, il l'est également (et proportionnellement) au critère
BIAIS DE LA PENTE (VALIDITÉ DIFFÉRENTIELLE)
Un test est soumis au «biais de la pente» lorsque les coefficients de validité critériée diffèrent sensiblement pour des groupes qui se distinguent quant à une certaine caractéristique
- Par exemple, un test d'«aptitudes académiques» pourrait:
- Très bien prédire la performance des cégepiens à l'université
- Mais être peu utile pour prédire la performance des «candidats adultes»
Dans une situation de prise de décision, on pourrait avoir la situation suivante:
- Supposons que la validité critériée est forte pour le groupe A et faible pour le groupe B, la répartition des examinés de chaque groupe (en pourcentages) pourrait être la suivante
GROUPE A GROUPE B TEST TEST CRITÈRE Non choisis Choisis CRITÈRE Non choisis Choisis Succès 10% 47% Succès 25% 30% Échecs 40% 3% Échecs 25% 20%
De façon générale (et lorsque les scores sont standardisés), la pente de la droite de régression est proportionnelle à la valeur du coefficient de corrélation
- Le diagramme ci-contre montre que la pente du groupe A (validité élevée) est plus forte que celle du groupe B (validité faible)
Si on utilisait les données du groupe A pour prédire la performance des examinés du groupe B, il y aurait
- Sous-évaluation de la performance au critère pour ceux qui obtiennent un score bas au test
- Surévaluation de la performance au critère pour ceux qui obtiennent un score élevé au test -> Par exemple, pour le score X au test (voir figure) on prédirait un score YA au critère, alors qu'un score YB serait plus approprié
BIAIS DE L'ORDONNÉE À L'ORIGINE (ÉQUITÉ)
Un test est soumis au «biais de l'ordonnée à l'origine» lorsque que celui-ci sous-évalue ou surévalue systématiquement la performance au critère de tous les membres d'un groupe possédant une certaine caractéristique
- Un tel biais peut exister même si le niveau de validité critériée est le même dans les différents groupes impliqués
- Par exemple, un test d'«aptitudes académiques» pourrait systématiquement sous-évaluer la performance ultérieure à l'université des candidats provenant d'un milieu socio-économique très faible
Par exemple, dans une certaine situation de prise de décision, on pourrait avoir les résultats suivants:
GROUPE A GROUPE B TEST TEST CRITÈRE Non choisis Choisis CRITÈRE Non choisis Choisis Succès 5% 45% Succès 35% 15% Échecs 20% 30% Échecs 40% 10%
- À noter, dans ces tableaux, que:
- Pour un même point de coupure au test, 75% (45% + 30%) des examinés du groupe A sont sélectionnés, alors que seulement 25% (15% + 10%) des examinés du groupe B le sont
- Le niveau de base est le même dans les deux groupes, soit 50% (5% + 45%) dans le groupe A et 50% (35% + 15%) dans le groupe B
- Le taux de succès, en utilisant le test, est identique dans les deux groupes, soit 45/75 = 60% dans le groupe A et 15/25 = 60% dans le groupe B
- Le test est donc vraiment biaisé puisque, même si la performance au critère est identique dans les deux groupes, ce test favorise systématiquement la sélection des examinés du groupe A
De façon générale, si on trace le diagramme de corrélation entre le test et le critère, le biais de l'ordonnée à l'origine se traduira par une droite de régression placée plus haut (mais de façon parallèle) dans un groupe que dans l'autre
- Plus spécifiquement, la droite croisera l'axe du critère (i.e. l'ordonnée à l'origine) en un point plus élevé -> d'où le nom donné à ce type de biais
- Le diagramme ci-dessous illustre une situation où les résultats du groupe B au test sont inférieurs à ceux du groupe A, alors que les performances au critère sont comparables
- À noter que, dans ce cas-ci, si on utilisait la droite de régression du groupe A pour prédire la performance des examinés du groupe B, il y aurait sous-évaluation systématique de la performance au critère
- Par exemple, pour le score X au test (voir la figure) on prédirait un score YA au critère, alors qu'un score YB serait plus approprié
![]()
Lorsqu'un test présente de tels biais, il est essentiel de se questionner sur l'origine de ces biais et d'agir en conséquence
- Dans tous les cas, la présence d'un biais indique que le test est influencé par des facteurs extérieurs au critère
- Par exemple:
- Soit un test d'«aptitudes scolaires» qui, lorsqu'administré à des jeunes québécois, prédit très bien la performance ultérieure à l'école
- Cependant, lorsque ce même test est administré à des jeunes immigrés, le score est autant corrélé avec la performance à l'école, mais la prédiction sous-évalue systématiquement cette performance attendue
- Il y a donc des facteurs qui peuvent défavoriser, injustement, les jeunes immigrés lorsque des décisions sont prises à partir des résultats au test
- Exemples de facteurs non-pertinents: type de langage utilisé, référence à des points trop précis (e.g. nom d'un joueur d'hockey), etc.
- Encore ici, même si le test n'a pour but que de prédire, il implique souvent un «construit» sous-jacent
- Le biais trouve peut-être ses racines dans la définition même du construit
- On ne pourra en juger que si le construit est clairement défini
Plusieurs modèles de décision peuvent intervenir en présence de biais
- Modification du test lui-même
- Utilisation de méthodes de prédiction ajustées
- Par exemple, en utilisant des points de coupure (au test) différents selon les groupes
- Systématisation de la procédure de sélection en considérant des facteurs externes aux résultats du test
- etc. Il ne s'agit plus seulement de contraintes strictement psychométriques, mais aussi de considérations sociales (e.g. la «discrimination positive»)
Il convient cependant de toujours se rappeler qu'un test «est biaisé dans la mesure où des différences de groupes au test ne sont pas associées à des différences similaires au niveau du critère»
- Donc, un test n'est pas automatiquement biaisé dès qu'il identifie des différences de groupes
- Exemple: on ne juge pas biaisées les mesures habituelles de «grandeur», même si elles discriminent entre les individus des deux sexes!