POUVOIR DISCRIMINANT DES ITEMS
La notion de pouvoir discriminant d'un item réfère au degré de précision avec lequel cet item en particulier, considéré de façon isolée, mesure bien ce que le test prétend mesurer
- L'expression «discriminant» vient du fait que si l'item fournit bien la mesure supposée, alors il discrimine bien les individus sur la caractéristique que l'on veut mesurer
- L'analyse du pouvoir discriminant des items permet de raffiner l'analyse de la fidélité et de la validité d'un test en détaillant la contribution de chaque item aux qualités globales du test
LE CHOIX DU «CRITÈRE»
La méthode générale pour analyser le pouvoir discriminant d'un item consistera à mettre en relation les résultats obtenus à cet item avec une quelconque autre «observation» de la caractéristique que l'on tente de mesurer
- Plus cette relation est forte, meilleur est le pouvoir discriminant de l'item
- C'est ce type d'items qui contribuera le plus aux qualités psychométriques du test
- En contrepartie, si cette relation est nulle, l'item est peut-être inutile
La principale difficulté ici est de choisir l'«autre observation»
- Lorsqu'il existe un critère (au sens de la section 6.3 du cours), il n'y a pas vraiment d'ambiguïté et on peut utiliser ce critère
- En choisissant de cette façon les items les plus discriminants, on peut améliorer la validité critériée du test (parfois, aux dépends de son homogénéité...)
- Par contre, dans de nombreuses situations, il n'y a pas vraiment de critère externe (c.f. section 6.4 du cours)
- On assumera souvent que la meilleure (i.e. moins pire) mesure disponible de la caractéristique est le score total au test
- Dans ce cas, on jugera qu'un item est «discriminant» dans la mesure où il est en corrélation positive avec le score total
- En choisissant de cette façon les items les plus discriminants, on améliore avant tout l'homogénéité du test
INDICES DE DISCRIMINATION
Un indice de discrimination est une valeur qui quantifie le pouvoir discriminant d'un item
- Il existe un grand nombre d'indices de discrimination, mais ceux-ci véhiculent à peu près tous la même information
- Le choix d'un indice dépend:
- Des valeurs que peuvent prendre les scores à l'item et à l'«autre» mesure
- De la facilité de calcul de l'indice
Un méthode désormais très utilisée consiste à calculer la corrélation (corrigée) entre le résultat à l'item et l'«autre» mesure
- Par exemple, soit l'administration d'un examen composé de 50 items
- On corrige le test en donnant un point pour une bonne réponse et zéro pour une mauvaise réponse
- On calcule ensuite le score total au test (nombre de bonnes réponses)
- Pour chaque item, on calcule la corrélation entre le score à cet item et le score total au test
- Supposons que, pour les premiers items, on obtienne les résultats présentés dans le tableau suivant
ITEM 1 2 3 4 5 6 7 8 ... r 0,40 0,20 0,50 -0,30 0,00 0,35 0,25 0,45 ...
- La corrélation est négative pour l'item 4, ce qui signifie que ceux qui ont un résultat élevé (1) à cet item performent moins bien à l'ensemble du test que ceux qui ont obtenu un score faible (0) à cet item -> cet item nuit donc à l'homogénéité de l'instrument
- De même, la performance à l'item 5 est indépendante (r = 0) de la performance globale à l'ensemble du test
- De façon générale, plus la corrélation entre un item et l'«autre» mesure est élevée, plus l'item contribue à la qualité de mesure du test
- Note: on suggère de «corriger» le coefficient de corrélation calculé ici
- En effet, le score total «contient» le score à l'item, ce qui gonfle artificiellement la valeur du coefficient de corrélation
- On calcule alors un score total corrigé, qui exclut l'item considéré, afin de calculer le coefficient de corrélation («item-total corrigé»)
MÉTHODE DES GROUPES EXTRÊMES
La méthode des groupes extrêmes est une technique simple et très utilisée pour calculer des indices (grossiers) de discrimination
- La méthode générale consiste à:
- Former deux groupes contrastés en regard du «critère» (ou du score total)
- Comparer la performance de ces deux groupes pour chaque item du test
- Pour un item donné, plus les performances respectives des deux groupes sont différentes, plus l'item est discriminant
- La principale difficulté de cette méthode est de déterminer ce qui définit les «groupes extrêmes»
- I.e. doit-on comparer les 10 «plus forts» aux 10 «plus faibles», ou les 30% des «plus forts» aux 30% des «plus faibles», etc.
- Plus les groupes sont extrêmes, meilleure est la discrimination, mais ces groupes sont plus petits et les indices obtenus sont plus variables
Prenons l'exemple simple d'un examen composé de 50 questions
- Supposons qu'à partir du score total au test, on forme trois groupes
- Le tiers supérieur (33% des examinés ayant obtenu les meilleurs scores)
- Le tiers médian (i.e. situé entre le tiers supérieur et le tiers inférieur)
- Le tiers inférieur
- En calculant le pourcentage de réussites, séparément pour chacun de ces groupes et pour chacun des items, on pourrait obtenir le tableau suivant
GROUPE ITEM -> 1 2 3 4 5 6 7 ... Supérieur (S) 75% 100% 95% 50% 55% 80% 25% Médian (M) 45% 100% 90% 55% 65% 70% 0% Inférieur (I) 35% 80% 45% 80% 55% 45% 0% Difficulté (S+M+I)/3 52% 93% 77% 62% 58% 65% 8% Discrimination (S-D) 40% 20% 50% -30% 0% 35% 25%
- Ce tableau permet d'identifier des problèmes pour certains items (en caractères gras)
- La présence d'items trop faciles (e.g. item 2) ou trop difficiles (item 7)
- La présence d'items peu ou pas discriminants (item 5) ou d'items qui discriminent «à l'envers» (item 4)
ANALYSE DE LA SOURCE DES PROBLÈMES D'ITEMS
Lorsque certains items présentent des problèmes, soit de niveau de difficulté ou de pouvoir discriminant, il faut s'interroger sur la source de ces problèmes
- L'action à prendre dépendra de cette source
- Si elle est attribuable à l'item lui-même (e.g. mauvaise formulation), il faut enlever ou modifier l'item
- Si elle est attribuable au construit mesuré (e.g. «morceau» de matière bien enseigné), il est préférable de laisser l'item tel quel
- On pourra identifier cette source en analysant les types de réponses obtenus pour chaque item
- On peut demander aux examinés de justifier (après coup) leurs réponses
Par exemple, supposons que chacun des items du test présenté à la page précédente offre un choix entre 5 réponses, on peut dresser un tableau des choix effectués, par les membres du groupe supérieur (S) et du groupe inférieur (I), afin de tenter d'identifier la source des difficultés rencontrées
ITEM 2 ITEM 4 ITEM 5 ITEM 7 CHOIX (S) (I) (S) (I) (S) (I) (S) (I) 1 0% 10% 0% 10% 10% 5% 25% 0% 2 0% 0% 50% 80% 15% 15% 15% 25% 3 0% 5% 45% 10% 10% 15% 25% 40% 4 100% 80% 0% 0% 55% 55% 20% 15% 5 0% 5% 5% 0% 10% 10% 15% 20%
- Note: les bonnes réponses sont indiquées par les cases en caractères gras
- Le troisième choix de l'item 4 attire les membres du groupe S -> peut-être s'agit-il d'une bonne réponse «justifiable», mais qui n'était pas prévue?
- La répartition des mauvaises réponses à l'item 5 est à peu près uniforme et ce, dans les deux groupes -> peut-être y a-t-il une ambiguïté dans la formulation de la question ou de la réponse correcte?
- etc.