FIDÉLITÉ ET TYPE DE TEST
Pour certains types de test, la méthode de mesure de la fidélité ne s'applique pas ou doit être modifiée
- Nous verrons ici deux cas particuliers:
- Les tests critériés
- Les tests de vitesse
TESTS CRITÉRIÉS
Ce type de test tend à camoufler les différences individuelles (c.f. partie 4)
- I.e. que la dispersion (variance) est artificiellement réduite
- Par conséquent, il devient difficile d'évaluer quel pourcentage de variance est attribuable à la variance d'erreur
- Exemple: supposons un test critérié où le taux de succès est 98%
- On administre ce test deux fois (T1 et T2) à 100 personnes
- Les résultats pourraient être les suivants:
T2 Succès 1 97 Échec 1 1 Échec Succès T1
- La reproductibilité des décisions peut être attribuée au fait que le taux de succès est trop élevé (i.e. il est impossible de faire autrement)
Certaines des méthodes habituelles de mesure de la fidélité ne s'appliquent donc plus dans le contexte des tests critériés
- Il existe d'autres méthodes adaptées à ce type de test
- Plusieurs facteurs sont à considérer
- Distance relative du score par rapport au «score frontière»
- Importance relative de chaque type de décision
- etc.
TESTS DE VITESSE
Il existe une distinction entre:
- Les tests de vitesse (pur)
- Différences individuelles -> rapidité de la performance
- Composés d'items faciles que l'examiné peut réussir
- Limite de temps très courte -> personne n'a le temps de finir
- Les tests de performance (pur)
- Différences individuelles -> niveau de performance
- Composés d'items de difficulté croissante
- Limite de temps suffisante -> tous ont le temps de finir
- Dans la réalité, un test peut contenir une composante de vitesse et une composante de performance
Dans les deux cas, on rend quasi-impossible une performance parfaite
- Nécessaire parce qu'un score parfait est indéterminé
- Ne permet pas de savoir jusqu'où l'examiné peut aller
- Camoufle donc des différences individuelles potentiellement importantes (i.e. deux personnes qui ont un score parfait ne sont pas pour autant comparables)
- La même remarque pourrait s'appliquer pour les scores nuls
Dans la mesure où la performance à un test dépend (surtout) d'une composante de vitesse, la méthode de fidélité par bissection ou par cohérence inter-items ne s'applique plus
- Parce qu'elles sont fondées sur la «cohérence des erreurs»
- Dans ce cas-ci, il n'y a pas vraiment de différence sur le plan des erreurs commises, mais les variations se retrouvent au niveau du rythme de travail
- Exemple:
- Score de 40 -> réussite de 20 items pairs et de 20 items impairs
- Score de 30 -> réussite de 15 items pairs et de 15 items impairs
- Par conséquent, la corrélation entre les deux «sous-scores» est quasi-parfaite (de façon artificielle) et ce type de coefficient surévalue la fidélité de l'instrument
Méthodes possibles pour évaluer la fidélité dans ce cas:
- Test-retest (si la caractéristique mesurée le permet)
- Versions parallèles
- «Bissection du temps»
- Minutage séparé et égal pour chaque partie (½, ¼) du test
- Correspond, à peu près, à l'administration de versions parallèles
Pour déterminer dans quelle mesure un test comporte une composante de vitesse, i.e. «Dans quelle mesure peut-on attribuer à la vitesse les différences individuelles entre les scores au test?»
- Notons d'abord que l'imposition d'une limite de temps n'implique pas que le test en est un de vitesse
- En effet, si à peu près tous les examinés ont le temps de terminer, cette composante est négligeable
- Un indice très imparfait de la composante vitesse est donné par le pourcentage d'examinés qui n'ont pas eu le temps d'essayer tous les items
- En termes techniques, il s'agit de déterminer quelle partie de la variance totale des scores est introduite par les variations de la vitesse de réponse
- Indice grossier: on divise la variance du nombre d'items complétés (ÉTc2) par la variance des scores totaux (ÉTt2), i.e.
- Si tous les examinés ont essayé tous les items (test de performance), il n'y a aucune variation du nombre d'items (ÉTc2 = 0) et ce rapport donne 0
- Si le score total dépend entièrement du nombre d'items essayés, les deux variances sont égales (ÉTc2 = ÉTt2) et ce rapport vaut 1