PRINCIPALES CARACTÉRISTIQUES D'UN TEST PSYCHOLOGIQUE
Définition d'Anastasi: «Un test psychologique est essentiellement une mesure objective et standardisée d'un échantillon de comportements»ÉCHANTILLON DE COMPORTEMENTS
Les mesures sont effectuées sur un échantillon restreint et sélectionné de comportements
- Cet échantillon se doit de bien représenter le construit
- Exemples:
- Test de compréhension verbale: ensemble représentatif de mots
- Test de conduite automobile: trajet délimité
- Est d'aptitudes professionnelles: nombre limité de descriptions de tâches
L'échantillonnage n'est pas spécifique aux tests psychologiques
- Prise de sang -> échantillon de quelques centilitres
- Température à Montréal -> échantillon en quelques points précis de la ville
- Cotes d'écoute à la télévision -> échantillon de personnes
La «représentativité» de l'échantillon détermine la qualité de la mesure
- Exemples de mauvais échantillons (par rapport au construit)
- Test d'acuité auditive: uniquement des sons d'animaux
- Test d'habiletés arithmétiques: uniquement des problèmes de division
- Test de vocabulaire: uniquement des termes de psychologie
On s'intéresse rarement à l'échantillon précis mesuré par le test
- On veut généraliser
- Il faut montrer qu'il existe une correspondance empirique (dans les faits) entre les résultats au test et les comportements qu'il est supposé prédire
- Cette correspondance peut varier beaucoup
- Exacte: 20 des 50 nouveaux mots appris dans une langue étrangère
- Modérée: test d'aptitudes à un emploi vs la performance subséquente
- Faible: tests projectifs
Terminologie (distinction mineure)
- Diagnostic: évaluation de l'état actuel test de retard mental
- Prédiction: estimation de l'état ultérieur test d'aptitudes à un emploi
STANDARDISATION
La standardisation réfère à «l'uniformité de la démarche d'administration et de correction du test»
- Condition nécessaire à la comparaison de différents individus
- Application particulière du principe scientifique de «contrôle rigoureux»
- Dans ce contexte, l'examiné est vu comme une «variable indépendante»
Conditions de passation
- Matériel à utiliser
- Limites de temps
- Consignes orales
- Démonstrations préliminaires
- Façon de répondre aux questions
- etc.
- Attention aux facteurs subtils: ton de la voix, expression faciale, etc.
Correction du test et normes
- Parce que les tests psychologiques comportent rarement des taux prédéterminés de performance ou de réussite
- Un score brut a rarement une signification inhérente
- Pour interpréter un résultat à un test, il faut le comparer à celui d'autres individus ayant passé le test (dans des conditions similaires)
- Dans ce contexte, une norme est un résultat moyen pour un groupe donné
- Exemple: si les finissants/es du collège réussissent 33 des 50 problèmes d'un test d'admission, ce score brut de 33 sera la norme pour ce groupe
- La norme est particulièrement importante lorsqu'il n'y a pas de performance «idéale»
- Exemple: test de personnalité -> introversion-extraversion, anxiété, etc.
- La norme ne correspond pas à la performance optimale, mais à la performance de personnes typiques
Méthode -> administration à un grand groupe représentatif des individus visés
- Ce groupe est appelé l'échantillon de normalisation
- Sert à établir la performance moyenne et la variation des résultats
- (Plus de détails dans la 4e partie du cours)
MESURE OBJECTIVE
En théorie, le résultat obtenu à un test est objectif
- Ne dépend pas de facteurs externes (étant donnée la standardisation)
- Ne dépend pas de l'examinateur ou du correcteur
Objectivité dans la construction de l'instrument
- Niveau de «difficulté»
- On peut rarement décider a priori de la difficulté relative des items
- On se fonde souvent sur une base empirique pour ordonner les items
- Sélection des items
- Si, pour un item, trop de personnes réussissent, échouent ou répondent de façon identique, cet item pourra être éliminé
- Cette «objectivité empirique» découle souvent du manque de fondements théoriques sous-jacents à la construction de l'instrument
- Dans certains cas, il serait plus pertinent de revoir la définition du construit qu'on croit mesurer
- (Plus de détails dans la 8e partie du cours)
CONSIDÉRATIONS PRATIQUES
Il faut noter ici que la construction ou le choix d'un test ne peut négliger quelques considérations d'ordre pratique
- Exemple:
- S'il faut évaluer tous les élèves d'une polyvalente sur leur «niveau d'anxiété» suite à un drame, il serait peu justifié de proposer des entrevues individuelles de 3 jours par une équipe de 5 spécialistes
- Peut-être serait-il préférable d'utiliser un instrument moins précis, mais plus adapté à la situation
- Le point important ici, c'est qu'on ne peut négliger les aspects pratiques d'une situation particulière
- Mais attention aux excès: il faut trouver un équilibre raisonnable entre ces considérations pratiques et une mesure de qualité
Lorsqu'il est question d'évaluer la pertinence et la qualité d'un test
- Il ne faut pas s'en remettre à des opinions subjectives
- Il faut une évaluation objective (vérification empirique)
- La fidélité et la validité
FIDÉLITÉ
La fidélité d'un test réfère à la reproductibilité des résultats obtenus à ce test
- Il s'agit d'évaluer dans quelle mesure les résultats fournis sont contaminés par des erreurs aléatoires
Exemples de mesures peu fidèles
- Un test d'intelligence me donne un QI de 115 aujourd'hui et de 76 une semaine plus tard
- Un test de pathologie me classe comme schizophrène profond alors qu'une «version parallèle» de ce test me classe comme étant simplement épuisé
- Dans ces cas, quelle confiance avoir dans les résultats
- On ne sait pas lequel de ces résultats est exact
- On sait seulement qu'il est impossible que les deux soient exacts
Imaginez que vous prenez un thermomètre médical
- En le laissant dans votre bouche le temps recommandé, il indique 40oC
- Vous le laissez revenir à la température ambiante
- Puis vous faites un second test où, cette fois, il indique 36oC
- Quelledécision prendre (outre de jeter le thermomètre)?
Il existe divers types de fidélité et différentes méthodes pour les évaluer
- Stabilité: fidélité par test-retest
- Équivalence: fidélité par versions parallèles
- Cohérence interne: fidélité par bissection
- Homogénéité: fidélité par la relation entre les items
- Fidélité entre les correcteurs
- Il faut toujours en spécifier le type et sa méthode d'évaluation
Beaucoup plus de détails dans la 5e partie du cours
VALIDITÉ
La validité d'un test réfère au degré avec lequel celui-ci mesure effectivement ce qu'il a pour but de mesurer (dans une situation particulière donnée)
- C'est le point le plus crucial de l'évaluation d'un instrument
Pour évaluer la validité, il faut des critères externes
- Il faut comparer les résultats au test avec ces critères
- La force du lien (corrélation) indique dans quelle mesure le test est valide (dans cette application particulière)
- Exemples:
- Test d'aptitudes scolaires -> performance au terme des études
- Test de dépression -> nombre de tentatives de suicide...
- Test d'aptitudes à un emploi -> performance ultérieure au travail
- Test de schizophrénie -> durée et gravité des hospitalisations
- Parfois, le critère n'est pas toujours disponible, mesurable
- C'est toujours le cas lorsqu'il s'agit de mesurer des construits théoriques
- Exemples: intelligence, dépression, leadership, créativité, etc.
- Dans ce cas, la «validation» d'un test est le résultat de nombreuses études et de développements théoriques pertinents
Exemples de mesures peu valides
- Prendre le nombre de livres dans la bibliothèque de quelqu'un comme une mesure de son intelligence
- Prendre le nombre de pages écrites par un individu en une semaine comme une mesure de sa «créativité»
- Cas extrême: prendre votre NIP de carte bancaire comme une mesure du degré de schizophrénie
- Un test n'est pas valide en soi, sa validité dépend du contexte dans lequel il est utilisé
Dans tous les cas, il faut arriver à démontrer une correspondance empirique entre le résultat au test et d'autres indices de la caractéristique que le test est supposé mesurer
Paradoxe: s'il faut toujours des critères alors à quoi servent les tests?
- Il faut distinguer entre le «groupe de validation» (utilisé pour déterminer la validité du test) et les groupes auprès desquels il sera ensuite utilisé
- Pour le groupe de validation, les résultats au test ne sont pas utilisés pour prendre des décisions au sujet des participants
- Si le test s'avère valide, il peut alors être utilisé auprès d'autres groupes afin de prendre des décisions et ce, sans avoir recours aux critères externes
Mais, malgré tout, pourquoi ne pas toujours obtenir le critère ultime?
- Dans certains cas, c'est tout simplement impossible
- En effet, si ce qui est mesuré est une construction théorique, il faudrait mesurer une infinité de comportements (e.g. l'intelligence)
- Dans d'autres cas, le critère est éventuellement disponible mais:
- Exigeant à mesurer (e.g. le diagnostic de schizophrénie)
- Paradoxal (e.g. la tendance suicidaire)
- Génère un gaspillage (e.g. admettre tout le monde dans un programme)
Il existe diverses méthodes de validation
- Validation de contenu: représentativité de l'échantillon de comportements
- Validation critériée: relation avec un critère externe
- Validation de construit: cohérence avec la «structure théorique»
- Il faut toujours en spécifier le type et sa méthode d'évaluation
La validité dépend de la fidélité
- Un test peu fidèle ne peut pas être très valide
- Si la mesure contient beaucoup d'erreurs aléatoires, elle peut difficilement prétendre mesurer ce qu'elle doit mesurer
- Un test d'intelligence qui donne un QI de 140 le lundi et un QI de 65 le jeudi ne mesure probablement pas l'intelligence
- À l'inverse, la fidélité n'est pas un gage de validité
- Un thermomètre en état donne une mesure fidèle (reproductible) de la température de quelqu'un, mais probablement pas de son intelligence
Beaucoup plus de détails dans la 6e partie du cours