VALIDITÉ ET PRISE DE DÉCISION
La notion d'erreur type de mesure, présentée à la section précédente, montre que le manque de validité d'un test a un impact majeur sur la qualité des prédictions que l'on peut faire, sachant le résultat à un test
- Dans ce cas, on s'intéressait à la prédiction précise du score au critère
Or, dans nombre d'applications, on est surtout intéressé à prendre une décision
- I.e. le «critère» est dichotomique (oui ou non, succès ou échec, etc.)
- Par exemple, au lieu de tenter de prédire la note moyenne à la fin du baccalauréat, on pourrait simplement essayer de prédire si l'examiné terminera (ou non) son baccalauréat
- On analysera ici en détail cette situation fréquente et moins contraignante
PRINCIPES DE BASE
L'idée directrice est d'utiliser un test pour sélectionner un certain pourcentage d'examinés en espérant que le taux de «succès» au critère soit maximalQuelques définitions:
- Point de coupure du test: score au test pour lequel les examinés qui obtiennent un score supérieur sont sélectionnés alors que ceux qui obtiennent un score inférieur ne sont pas sélectionnés
- Rapport de sélection: pourcentage d'examinés sélectionnés
- Point de coupure du critère: score au critère au-delà duquel il s'agit d'un «succès» et en-deçà duquel il s'agit d'un «échec»
- Niveau de base: pourcentage de succès au critère
En utilisant un langage quelque peu médical:
- On distinguera entre les scores positifs et les scores négatifs selon que ces scores sont associés à une prédiction de succès ou à une prédiction d'échec
- En termes médicaux, le résultat d'un test est «positif» s'il identifie l'examiné comme étant «malade» (i.e. le critère, c'est la maladie)
- On distinguera entre les scores vrais et les scores faux selon que les prédictions s'avèrent justes ou erronées
- Par exemple, un «faux positif» est un score qui prédit, à tort, un succès au critère
Par exemple, supposons une étude de validation d'un test d'aptitudes à un certain type d'emploi
- Le critère pourrait être le rendement ultérieur au travail
- À noter que, à cette étape de validation, les résultats du test ne sont pas utilisés pour sélectionner effectivement les candidats
- I.e. tous les candidats obtiennent un poste
- Supposons que les paramètres sont les suivants:
- On fixe le rapport de sélection (éventuel) à 50%, ce qui détermine un certain point de coupure au test
- On fixe un certain point de coupure pour la performance au critère, ce qui détermine un niveau de base de 51%
- Le coefficient de validité critériée obtenu pour ce test est r = 0,73
- Avec 100 candidats, on pourrait alors obtenir la situation suivante:
![]()
Dans l'exemple donné à la page précédente, il faut noter plusieurs points
- En l'absence de toute information, le taux de succès serait de 51% puisque 51 des 100 candidats performent suffisamment au critère
- À noter qu'on obtiendrait à peu près le même taux en sélectionnant un certain nombre de candidats au hasard
- En utilisant le test, le taux de succès atteint 72% puisque 36 des 50 candidats qui seraient sélectionnés performent suffisamment au critère
- Cette hausse, de 51% à 72%, permet de juger de l'utilité du test comme outil de sélection -> il faut la comparer à la hausse fournie par d'autres procédures de sélection disponibles
- Si le test est effectivement utilisé, on évalue:
- Qu'à peu près 71% des prédictions sont adéquates, soit 36% de vrais positifs et 35% de vrais négatifs
- Que 14% des candidats sont sélectionnés par le test alors qu'ils ne seront pas performants au travail (faux positifs)
- Que 15% des candidats ne sont pas sélectionnés par le test alors qu'ils seraient performants au travail (faux négatifs)
Le choix du rapport de sélection, qui fixe la position du point de coupure du test, dépend de plusieurs facteurs
- De la gravité du problème causé par l'acceptation erronée des «mauvais» candidats, i.e. les cas de faux positifs
- Exemple: test pour l'engagement de pilotes d'avion
- Plus le rapport de sélection est faible, plus le pourcentage de faux positifs sera faible
- De la gravité du problème causé par le rejet erroné des «bons» candidats, i.e. les cas de faux négatifs
- Exemple: test pour identifier une pathologie dangereuse
- Plus le rapport de sélection est élevé, plus le pourcentage de faux positifs sera faible
- À noter qu'il est impossible de réduire simultanément les pourcentages de faux positifs et de faux négatifs (sinon qu'en augmentant la validité du test)
- Des facteurs pratiques peuvent aussi intervenir dans le choix de ce rapport
- Exemple: le nombre de places disponibles
TABLES DE TAYLOR-RUSSELL
De façon générale, l'utilité d'un test pour prédire le succès au critère (i.e. pour augmenter le «taux de succès») dépend de trois variables
- Le coefficient de validité (critériée) du test
- Le rapport de sélection
- Le niveau de base
Connaissant la valeur de ces trois variables pour une situation donnée, il est possible d'utiliser les tables de Taylor-Russel pour obtenir directement le taux de «succès» escompté suite à l'utilisation d'un certain test
- Habituellement, ces tables sont présentées de la façon suivante:
- On a une table différente pour chaque niveau de base
- Chaque colonne représente un rapport de sélection différent
- Chaque rangée représente un niveau de validité différent
- À l'intérieur de la table, on trouve le taux de succès escompté
- En guise d'exemple, on présente ici un extrait des tables données pour un niveau de base de 60% (à gauche) et de 10% (à droite)
NIVEAU DE BASE = 60% NIVEAU DE BASE = 10% Rapport de sélection Rapport de sélection r 0,10 0,30 0,50 0,70 0,90 r 0,10 0,30 0,50 0,70 0,90 0,00 0,60 0,60 0,60 0,60 0,60 0,00 0,10 0,10 0,10 0,10 0,10 0,20 0,73 0,69 0,66 0,64 0,62 0,20 0,17 0,14 0,13 0,12 0,11 0,40 0,85 0,78 0,73 0,68 0,63 0,40 0,27 0,19 0,16 0,13 0,11 0,60 0,94 0,87 0,80 0,73 0,65 0,60 0,39 0,25 0,18 0,14 0,11 0,80 0,99 0,95 0,88 0,78 0,66 0,80 0,56 0,30 0,20 0,14 0,11 1,00 1,00 1,00 1,00 0,86 0,67 1,00 1,00 0,33 0,20 0,14 0,11 De façon générale, le taux de succès augmente en fonction de:
- L'augmentation de la validité (critériée) du test
- L'augmentation du niveau de base
- La diminution du rapport de sélection
Mais attention, encore une fois, ces taux de succès attendus ne s'appliquent qu'auprès de populations comparables à l'échantillon de validation
VALIDITÉ ET «PRODUCTIVITÉ»
Dans la même optique que les tables de Taylor-Russel, on peut se demander quel est le niveau moyen de performance au critère pour les candidats sélectionnés par un test qui est supposé prédire ce critère
- La méthode employée n'est qu'une généralisation de la méthode précédente
- Dans ce cas-ci, le niveau moyen de performance dépend de deux variables:
- Le coefficient de validité (critériée) du test
- Le rapport de sélection
Lorsque les résultats au critère se répartissent selon une distribution normale et qu'ils sont exprimés sous la forme de scores z, un seul tableau est nécessaire
- Dans le tableau présenté ci-dessous (c.f. tableau 7-2 du livre, plus complet)
- Chaque colonne représente un rapport de sélection différent
- Chaque rangée représente un niveau de validité différent
- À l'intérieur de la table, on trouve le niveau moyen de performance au critère escompté pour les examinés sélectionnés par le test
- Ce niveau moyen est exprimé en score z
Rapport de sélection r 0,10 0,30 0,50 0,70 0,90 0,00 0,00 0,00 0,00 0,00 0,00 0,20 0,35 0,23 0,16 0,10 0,04 0,40 0,70 0,46 0,32 0,20 0,08 0,60 1,05 0,69 0,48 0,30 0,12 0,80 1,41 0,92 0,64 0,40 0,16 1,00 1,76 1,16 0,80 0,50 0,20
- Par exemple, si on sélectionne 50% des candidats les plus forts à un test dont la validité prédictive est r = 0,80, le niveau moyen de performance au critère de ce groupe sera, en score z, de 0,64
Il est intéressant de noter que le niveau moyen de performance est directement proportionnel à la validité du test
- Ainsi, lorsqu'un groupe sélectionné avec un test dont le coefficient de validité est deux fois plus petit, sa moyenne de performance au critère est aussi deux fois plus petite
AUTRES FACTEURS À CONSIDÉRER
La validité n'est pas le seul facteur à considérer lorsqu'il s'agit de juger de l'utilité d'un test pour prendre une décision
- Il peut y avoir nombre de facteurs pratiques qu'on ne peut négliger, tels que, par exemple:
- L'utilité relative des méthodes actuelles de décision
- Le coût de l'administration du test
- Il faut aussi, et surtout, tenir compte de l'impact relatif des deux types de fausses décisions possibles:
- L'acceptation erronée de candidats dont la performance au critère sera insatisfaisante -> i.e. les cas de faux positifs
- Le rejet erroné de candidats dont la performance au critère serait satisfaisante -> i.e. les cas de faux négatifs
Afin minimiser l'impact des fausses décisions, dues au manque de validité du test, plusieurs stratégies peuvent être utilisées, entre autres:
- La quantification de l'utilité attendue du test
- Cette méthode requiert de pondérer l'utilité de chaque type de décision et de calculer une valeur d'utilité optimale pour l'ensemble du test
- L'utilisation d'une séquence de décisions (plutôt qu'une décision «finale»)
- Par exemple, on peut utiliser un test de validité moyenne, mais qui s'administre facilement, pour faire un premier filtrage et utiliser un second test, plus lourd mais plus précis, pour prendre la décision finale
De plus, lorsque le critère à prédire est hétérogène, il est nécessaire de recourir à des méthodes qui combinent les informations provenant de plusieurs tests différents (c.f. partie 5.6 du cours)
- Cet ensemble de tests forme une batterie d'évaluation
- Tous ces tests doivent être corrélés avec le critère à prédire, mais ils ne doivent pas être trop corrélés entre eux (afin d'éviter la redondance)
- Plusieurs méthodes permettent de combiner les résultats, entre autres:
- Les équations de régression multiple (généralisation de la corrélation)
- La méthode des points de coupure multiples
Beaucoup d'autres aspects de la «décision» pourraient être présentés
- Il existe en fait tout un domaine appelé justement la «théorie de la décision»