DIFFICULTÉ DES ITEMS
POURCENTAGES DE RÉUSSITE
Lorsque la grille de correction de chaque item est dichotomique («succès» vs «échec»), on définit le pourcentage de réussite (p) d'un item comme le pourcentage d'examinés (de l'échantillon de normalisation) qui obtiennent un «succès» à cet item
- Par exemple, si pour un item on a p = 70%, c'est que 70% des examinés ont réussi cet item
- Plus ce pourcentage est élevé, plus l'item est facile
- Plus ce pourcentage est faible, plus l'item est difficile
On suggère souvent d'ordonner les items d'un test en ordre croissant de difficulté (i.e. du plus facile au plus difficile)
- Pour mettre les examinés en confiance
- Pour éviter la perte de temps sur des items trop difficiles
Le principal but du calcul des pourcentages de réussite est de sélectionner les items dont le niveau de difficulté est approprié à la situation
- Dans la plupart de cas, on cherche à identifier les différences individuelles
![]()
- Par conséquent, les items où tous les examinés réussissent (p = 100%) ou échouent (p = 0%) ne sont pas informatifs (i.e. tous sont identiques)
- De façon générale, on obtient un maximum d'information lorsque p = 50%
- Dans la figure ci-contre, on voit que lorsque 10 personnes sont comparées,
- Il n'y a que 9 différenciations possibles lorsque p = 90%
- Mais il y a 25 (c'est le maximum) différenciations possibles lorsque p = 50%
Or, même si un pourcentage de réussite de 50% semble optimal pour bien différencier, l'homogénéité du test complique le portrait
- En effet, si tous les items d'un test parfaitement homogène ont un même pourcentage de réussite, les scores totaux au test ne permettront de différencier que deux groupes d'examinés
- Ceux qui ont un score nul (i.e. «échec» à tous les items)
- Ceux qui ont un score parfait (i.e. «succès» à tous les items)
- Pour contrer cette difficulté, on doit faire varier les pourcentages de réussite autour de la valeur optimale de 50%
- Ainsi, pour maximiser simultanément l'homogénéité du test et les différences individuelles sur les scores totaux, il faudrait que le score de l'examiné reflète directement les items auxquels il peut répondre
- Par exemple, un score total x peut indiquer que l'examiné a réussi tous les items dont le pourcentage de réussite est supérieur ou égal à 40% et a échoué tous ceux dont le pourcentage est inférieur à 40%
- Le tableau suivant indique le patron idéal de réponses pour un test composé de 5 items
ITEMS EXAMINÉS 1 2 3 4 5 Score A Succès Échec Échec Échec Échec 1 B Succès Succès Échec Échec Échec 2 C Succès Succès Succès Échec Échec 3 D Succès Succès Succès Succès Échec 4 E Succès Succès Succès Succès Succès 5 p 100% 80% 60% 40% 20%
- À noter que, pour ce test, l'item 1 est tout à fait inutile puisqu'il ne fait qu'augmenter tous les scores totaux d'un point
- I.e. qu'il ne contribue pas à créer des différences entre les examinés
VARIANCE INTRA-ITEM
On peut généraliser l'argument précédent aux items dont la grille de correction n'est pas dichotomique
- Exemple: les réponses aux items des tests de personnalité sont souvent données sur une échelle en plusieurs points, telle que celle illustrée ci-dessous
Absolument
pas moiIndécis Tout à
fait moi1 2 3 4 5 6 7 8 9
- Les «meilleurs» items, au plan des différenciations entre les sujets, seront ceux pour lesquels toute l'échelle est utilisée
- En termes plus techniques, ce seront ceux dont la distribution des scores (intra-items) possède une variance élevée
- À ce titre, dans la figure ci-dessous, l'item 1 (à gauche) serait meilleur que l'item 2 (à droite)
![]()
![]()
ÉCHELLES D'INTERVALLE
En général, lorsque le niveau de difficulté des items est exprimé en pourcentage de réussite, l'échelle de référence est simplement ordinale
- Elle permet de comparer l'ordre relatif de difficulté des items
- Exemple: un item dont le pourcentage de réussite est p = 40% est plus facile qu'un it em dont le pourcentage est p = 20%
- Elle ne permet pas de comparer les différences de difficulté entre les items
- Exemple: un item dont le pourcentage est p = 40% n'est pas forcément deux fois plus facile qu'un item dont le pourcentage est p = 20%
Si on postule que le trait mesuré par chacun des items d'un test est distribué normalement, on peut exprimer la difficulté des items en termes de scores z
- L'idée de base c'est que, pour un pourcentage de réussite p, on cherche la valeur de z pour laquelle il y a un pourcentage p de cotes z qui lui sont supérieures
- Pour cela, on utilise la règle empirique (et/ou la table de probabilités de la distribution normale)
- Avec cette convention
- Les items faciles sont associés à une cote z négative
- Les items difficiles sont associés à une cote z positive
![]()
- Par exemple, soit un item dont le pourcentage de réussite est p = 84%
- On sait que 50% des cotes z sont supérieures à 0
- On sait que 34% des cotes z sont situées entre -1 et 0
- Par conséquent, 84% des cotes z sont supérieures à -1
- En score standard, le niveau de difficulté est donc z = -1 (voir la figure ci-contre)
Tout comme dans le cas des normes (c.f. partie 4.3 du cours), on peut transformer linéairement ces cotes z pour obtenir d'autres échelles pratiques
- Par exemple, pour l'indice de difficulté Δ (delta), on fixe (arbitrairement) la moyenne à 13 et l'écart type à 4
- En pratique, ces indices varient entre Δ = 1 (-3 ÉT) et Δ = 25 (3 ÉT)
DISTRIBUTION DES SCORES AUX TESTS
La difficulté des items détermine la difficulté du test dans son ensemble
- La distribution des scores totaux à un test permet de s'assurer que la difficulté du test correspond au niveau souhaité pour la population cible
- Dans de nombreux cas, on s'attend à ce que la distribution de ces scores s'approche d'une distribution normale
- Parce qu'on postule que le construit mesuré par le test se distribue normalement dans la population...
Même si l'on postule une distribution normale du construit, il est possible que les scores au test se distribuent de façon très asymétrique
- Une telle asymétrie peut laisser présager que le niveau de difficulté du test n'est pas approprié pour ce groupe particulier
- Il peut y avoir un effet de plancher (trop élevé), i.e. que le test est formé d'items trop difficiles (voir la figure de gauche, ci-dessous)
- Dans ce cas, beaucoup d'examinés obtiennent un score nul ou très faible
- Ces scores faibles, quasi-identiques pour beaucoup d'examinés, ne permettent pas de distinguer entre les «faibles», les «très faibles», etc.
- Il convient alors d'ajouter des items faciles afin d'assurer une meilleure dispersion des scores totaux au test
- De façon réciproque, il peut y avoir un effet de plafond (trop bas), i.e. que le test est formé d'items trop faciles (voir la figure de droite, ci-dessous)
- Dans ce cas, beaucoup d'examinés obtiennent un score «parfait» ou très élevé et ces scores ne permettent pas de distinguer entre les «forts», les «très forts», etc.
- Il convient alors d'ajouter des items difficiles
![]()
![]()
DIFFICULTÉ ET OBJECTIFS DU TEST
Dans nombre de cas, on souhaite que la distribution des scores à un test soit une distribution normale
- Dans ce cas, on différencie bien entre tous les examinés, i.e. indépendamment de leur position sur l'échelle des scores
- Mais cela n'est pas toujours justifié puisque ce choix dépend:
- De ce que l'on sait de la distribution du construit
- Des objectifs du test
En particulier, dans certains cas, on ne veut pas différencier tous les examinés, mais quelque sous-groupe bien déterminé
- Pour des raisons d'efficacité, on peut simplifier l'administration du test
- Ainsi, lorsqu'un test a pour objectif de déterminer les «meilleurs» candidats, il est inutile d'obtenir des différences entre les plus «faibles»
- I.e. que l'effet de plancher ne pose aucun problème
- Dans ce cas, le test peut être formé uniquement d'items difficiles
- Exemple: sélection des candidats pour des prix d'excellence
- De façon inverse, lorsqu'un test a pour objectif de déterminer les candidats en «difficulté», il est inutile d'obtenir des différences entre les candidats qui fonctionnent bien
- Exemple: test de dépistage des difficultés graves d'apprentissage
En somme, le niveau de difficulté d'un test doit être déterminé de façon réfléchie, en fonction du contexte d'utilisation de ce test
- I.e. que le test doit identifier les différences utiles entre les examinés que l'on désire effectivement différencier