CONTRE-VALIDATION
NATURE
Le rôle de l'analyse d'items est de modifier les items d'un test afin d'en augmenter les propriétés psychométriques
- Par conséquent, suite à cette analyse, on obtient un «nouveau» test dont il faut établir les propriétés (principalement, la validité)
Pour vérifier ces propriétés, il est essentiel d'administrer le «nouveau» test à un tout autre échantillon de validation que celui qui a servi à réaliser l'analyse d'items et la «révision» du test
- En effet, les résultats de l'analyse d'items reposent sur des données d'échantillon, donc partiels et sensibles à des erreurs d'échantillonnage
- Par conséquent, si des items sont choisis parce qu'ils semblent être de «bons» items (e.g. ils discriminent bien) dans tel échantillon, rien ne garantit qu'il en soit de même pour un autre échantillon, aussi comparable soit-il
- La vérification du maintien de la qualité des items retenus, auprès d'un autre échantillon de validation, est donc essentielle
- On nomme cette étape la contre-validation d'un test
- On appelle ce nouvel échantillon: l'échantillon de contre-validation
Par exemple, imaginons la situation suivante:
- Dans l'examen final de ce cours de psychométrie, on pose la question suivante: «Êtes-vous en faveur de l'augmentation du prix de l'essence?»
- Supposons que, par un pur hasard, on observe que la réponse à cette question discrimine bien entre ceux qui obtiennent la note A à ce cours et ceux qui obtiennent la note D
- Une analyse d'items «simpliste» suggérerait de conserver cet item pour la construction d'un examen de «meilleure» qualité
- Évidemment, si on utilise ce nouvel examen auprès du même groupe, on risque d'observer à nouveau le même lien entre la réponse à cet item et la note finale au cours de psychométrie
- Mais il semble peu probable que cette relation se maintienne dans un autre groupe qui suivrait le même cours
- D'où la nécessité de contre-valider le test, i.e. de vérifier si on peut généraliser les relations observées à d'autres groupes que l'échantillon de validation originel
EXEMPLE EXTRÊME
Un exemple extrême est donné par l'étude du «test psychokinésique projectif des B» réalisée par Cureton (1950)
- Le critère à prédire était la note finale de 29 personnes inscrites à un cours de psychologie
- En fait, il a créé deux groupes: les «B ou plus» vs les «C ou moins»
- Les «items» du «test» étaient, en réalité, constitués de 85 étiquettes portant chacune un numéro différent sur l'une des faces
- Pour créer un «score» à ce test, les étiquettes étaient brassées et jetées sur une table
- On considère alors que l'examiné réussit (ou a répondu «vrai») à l'item x si l'étiquette portant le numéro x est tombée à l'endroit sur la table
- Par une analyse d'items, on pourrait alors obtenir le tableau suivant, qui indique le pourcentage de «réussites» pour chaque item et chaque groupe
GROUPE ITEM -> 1 2 3 4 5 6 7 ... B ou plus 75% 50% 52% 41% 52% 72% 35% C ou moins 35% 55% 45% 79% 53% 31% 52% Discrimination 40% -5% 7% -38% -1% 41% -17%
- On pourrait démontrer que, statistiquement, ces résultats sont plausibles
- À l'aide de tels résultats, l'auteur a retenu les 24 items les plus discriminants pour former un «nouveau test» dont la grille de correction est la suivante:
- +1 pour les items dont le pourcentage de réussites est plus élevé dans le groupe «B ou plus» (e.g. l'item 1 du tableau ci-dessus)
- -1 pour les items dont le pourcentage de réussites est plus élevé dans le groupe «C ou moins» (e.g. l'item 4 du tableau ci-dessus)
- La somme de ces poids devient le score total au «nouveau test»
- Les résultats montrent que, malgré l'origine aléatoire des scores, le coefficient de validité critériée du «nouveau test» atteint, dans le groupe originel, 0,82
- Il s'agit là d'un artefact que la contre-validation a pour but d'identifier
- Car il est assez évident que cette corrélation serait, à toute fin pratique, nulle dans n'importe quel autre groupe (i.e. de contre-validation)
FACTEURS QUI INFLUENCENT L'AFFAISSEMENT DE VALIDITÉ
La contre-validation a donc pour but de démontrer que les propriétés psychométriques (mais surtout la validité) d'un test ne dépendent pas des spécificités de l'échantillon de validation ayant servi à modifier le test
- Car, s'il y avait une telle dépendance, on ne pourrait pas garantir que le test soit aussi valide lorsqu'administré à d'autres groupes (aussi comparables soient-ils)
- I.e. qu'on pourrait constater un affaissement de validité
- Plus précisément, il faudrait dire que la validité a été surévaluée dans l'échantillon originel et que la valeur obtenue auprès de l'échantillon de contre-validation est plus adéquate
Plusieurs facteurs peuvent contribuer à l'affaissement de la validité d'un test
- La sélection d'un très petit nombre d'items à partir d'un très grand bassin de départ
- Exemple: sélectionner les 10 «meilleurs» items d'un test composé, au départ, de 500 items
- La grandeur de l'échantillon de validation
- Par simple application du principe statistique selon lequel l'erreur d'échantillonnage diminue à mesure que la taille de l'échantillon croît
- La «faiblesse» conceptuelle de la rédaction des items
- Si chacun des items est rédigé à partir d'une définition claire et explicite du construit à mesurer, on devrait être en mesure de mieux comprendre les réponses obtenues et de juger si un item doit être conservé tel quel ou être modifié
- À l'inverse, une sélection «aveugle» (empirique) des items, fondée uniquement sur des chiffres, risque d'être quelque peu arbitraire et très peu pertinente
- En considérant ces facteurs lors de la modification d'un test, on peut diminuer l'affaissement de sa validité lors de la contre-validation