VALIDATION DE CONSTRUIT
NATURE
La validation de construit n'est pas une méthode unique et explicite pour établir la validité d'un test, mais bien un ensemble de méthodes qui visent toutes le même but: établir jusqu'à quel point le test fournit une mesure adéquate du construit théorique qu'on prétend qu'il mesure
- Il faut se rappeler de l'importance de bien définir ce construit
- C.f. partie 2.1 du cours
- La validité de construit d'un test ne pourra se faire qu'à la lumière d'une définition claire et explicite du construit qu'on prétend mesurer
- La validité de construit ne s'établit pas «en un seul coup», il s'agit plutôt d'une accumulation progressive de données qui viennent appuyer l'hypothèse selon laquelle «le test mesure bien ce qu'il prétend mesurer»
Il est fondamental de comprendre que la validité de construit d'un test est ancrée dans un réseau d'explications et de justifications théoriques
- C'est parce qu'on a une «théorie» pour expliquer les différences individuelles qu'on a besoin de recourir à des construits
- La validité de construit d'un test sera d'autant possible à mettre en évidence que la «construction théorique» est solide et explicite
- Grosso modo, on peut dire que la validité de construit s'établit d'abord en montrant la correspondance entre la théorie et certains faits qu'elle prédit
- Par conséquent, le processus de validation de construit implique plus que la «qualité» de la mesure, elle implique également la «qualité» de la construction théorique sous-jacente
- I.e. on peut difficilement envisager la mesure valide d'un construit théorique issu d'une théorie farfelue (e.g. «votre habileté à communiquer avec les martiens»)
Même si, parfois, il semble suffisant de se restreindre à la validité critériée, la validité de construit devient une question centrale dès que l'on tente d'expliquer la présence ou l'absence de relation entre le résultat au test et un critère externe
- Par exemple, un test d'aptitudes académiques est rarement conçu dans le seul but de prédire la performance ultérieure en milieu scolaire
- Si c'était le cas, on se contenterait de maximiser le «pouvoir prédictif» du test, sans aucune autre considération
- Or, si, par exemple, on observe que la qualité de prédiction du test varie selon l'institution que fréquentera l'examiné au moment de la mesure du critère, on sera tenté d'invoquer des facteurs qui pourraient expliquer ces différences
- De fait, la notion même d'«aptitudes» académiques laisse supposer l'existence d'une sorte de «prédisposition» -> c'est un construit
Un construit est toujours intégré, de façon plus ou moins explicite, dans une certaine théorie
- Cette théorie devrait spécifier:
- La signification du construit
- Comment ce construit est relié (ou non) à d'autres construits
- Comment ce construit est relié à certains comportements mesurables
- Par exemple, supposons que l'on définisse le construit «d'anxiété de troisième type»
- On précise qu'il ne s'agit pas de l'anxiété pathologique profonde nécessitant une hospitalisation, ni de l'anxiété passagère pendant une grosse tempête, mais bien le type de sentiments qui accompagne l'anticipation de changements de vie importants (e.g. déménagement, rentrée scolaire, nouveau travail, etc.)
- Ce type d'anxiété n'est pas semblable chez tous les individus (i.e. il existe des différences individuelles)
- La théorie pourrait prédire que ce type d'anxiété n'est pas lié au niveau général d'intelligence, mais qu'il est relié négativement à l'estime de soi
- De même, elle pourrait prédire l'existence d'une relation curvilinéaire (en U inversé) entre ce type d'anxiété et la performance lors d'examens scolaires
- C'est sur la vérification empirique de ces prédictions que s'appuiera la validité d'un test développé pour mesurer un tel construit
Il existe plusieurs méthodes pour appuyer l'hypothèse qu'un certain test mesure bien ce qu'il est supposé mesurer -> ci-dessous seront présentées les principales méthodes générales utilisées pour renforcer la validité de construit d'un test
LIEN AVEC LES CARACTÉRISTIQUES DE L'INDIVIDU
Lorsque le construit mesuré est intrinsèquement relié à une ou plusieurs caractéristiques «évidentes» de l'individu, la mesure du construit doit être sensible à cette relationUn exemple clair est certainement celui de la mesure de l'«intelligence»
- En effet, historiquement, la notion d'intelligence est rattachée à des notions d'âge mental et d'âge chronologique (du moins, pour les enfants)
- De même, l'idée du développement de l'intelligence suppose un quelconque lien entre le «niveau intellectuel» et l'âge de l'enfant
- Dit simplement, on s'attend à ce que, «toutes choses étant égales par ailleurs», un enfant de 10 ans soit plus intelligent qu'un enfant de 2 ans
- Par conséquent, pour appuyer la validité d'un test d'«intelligence», il faut montrer que la performance au test est corrélée avec l'âge des examinés
- Évidemment, un test doit montrer une corrélation avec l'âge dans la mesure où le construit mesuré est supposé subir des changements développementaux
- Ce qui n'est pas le cas de la plupart des tests de personnalité
- La relation avec l'âge est une condition nécessaire, mais pas suffisante
- En effet, d'autres variables, non liées à l'intelligence, sont néanmoins corrélées avec l'âge (e.g. la taille, le poids, ...)
On peut également penser à d'autres caractéristiques, selon la théorie à laquelle appartient le construit
- Par exemple, un test de «masculinité-féminité» (si on suppose que ces concepts ont du sens!) devrait peut-être montrer une relation entre les scores qu'il fournit et le sexe des examinés
Notons que, pour appuyer la validité de construit d'une échelle ordinale (c.f. partie 4.2 du cours), il est essentiel de démontrer que les résultats respectent intégralement la séquence ordinale supposée
CORRÉLATIONS AVEC D'AUTRES TESTS
De façon générale, pour appuyer la validité de construit d'un certain test, on a recours au calcul de plusieurs corrélations entre les scores obtenus à ce test et ceux fournis par un ensemble d'autres testsCe calcul vise deux buts, aussi importants l'un que l'autre
- Montrer la présence de corrélation entre le test et d'autres tests qui sont supposés mesurer le même construit ou des construits théoriquement liés
- Même construit: dans bon nombre de cas, des tests portant le même nom (e.g. tests d'aptitudes académiques) tentent de mesurer le même construit (mais attention, un nom est un résumé -> c.f. partie 2.1 du cours)
- Construits liés: par exemple, plusieurs supposent qu'il existe un lien étroit entre les «habiletés de compréhension du langage» et les «habiletés de production du langage»
- La corrélation devrait évidemment être plus forte dans le premier cas que dans le second cas
- Montrer l'absence de corrélation entre le test et d'autres tests qui sont supposés mesurer des construits théoriquement indépendants
- Exemple: on peut supposer que bon nombre de tests de personnalité (e.g. tests «introversion vs extraversion) ne devraient pas être reliés à des construits comme l'«intelligence» ou les «habiletés de compréhension de lecture»
- En fait, la présence d'une telle corrélation serait l'indice d'une influence de facteurs non pertinents sur les scores à ce test et, par conséquent, d'un certain manque de validité du test
- Mais attention, montrer cette absence de corrélation n'est pas suffisante pour appuyer la validité du test -> en effet, la grandeur d'un individu est probablement indépendante de son intelligence, mais elle ne constitue pas pour autant une mesure valide de son degré d'«extraversion»
Il est important de rappeler ici que la fidélité d'un test en limite la validité
- Le coefficient de fidélité, est en quelque sorte, la valeur maximale que peut prendre le coefficient de corrélation entre le test et une autre mesure
- Par conséquent, lorsqu'il faut montrer la présence de corrélation entre deux tests qui, en principe, mesurent le même construit, il faut noter que cette corrélation sera atténuée par le manque de fidélité des deux tests
- Il existe des formules qui permettent de «corriger pour l'atténuation»
- À l'inverse, lorsqu'il faut montrer l'absence de relation entre deux tests, il est important de s'assurer que cette absence n'est pas simplement due au manque de fidélité de chacun des tests mis en corrélation
- Par exemple, lorsque deux tests «d'intelligence» fournissent des résultats peu reproductibles, il est très probable que ces résultats seront peu corrélés -> cependant, cela n'implique absolument pas que l'on a des mesures de deux «types d'intelligence» distincts
COEFFICIENTS D'HOMOGÉNÉITÉ
Certains auteurs de tests considèrent les coefficients d'homogénéité (c.f. partie 5.6 du cours) comme des indices de la validité de construit
- Rappelons que le calcul de ces coefficients est fondé sur la corrélation entre chacun des items du test et le score total au test
- Le score total est alors vu comme la meilleure mesure du construit que le test est supposé mesurer
- On sélectionne alors les items en fonction de leur contribution au maintien de l'homogénéité de la mesure
La même technique peut être utilisée pour établir la «validité» des sous-tests qui forment une batterie de tests pour laquelle il existe un score global
- Par exemple, tous les sous-tests (e.g. vocabulaire, calcul, ...) de certains tests d'intelligence devraient être corrélés avec le score total au test (souvent appelé «Q.I. global»)
Il est important de noter que les coefficients d'homogénéité sont des indices de cohérence de la mesure et, par conséquent, ils ne peuvent être considérés que comme des indices très indirects et peu informatifs de la validité de construit
L'ANALYSE FACTORIELLE
Lorsque plusieurs tests sont administrés à peu près simultanément, le nombre de coefficients de corrélation calculables augmente très rapidement
- Par exemple, pour cinq tests (A,B,C,D et E), on pourrait calculer la corrélation entre A et B, entre A et C, etc. (10 coefficients)
- L'analyse d'une telle quantité de coefficients devient vite compliquée
L'analyse factorielle est une méthode statistique sophistiquée qui permet de faciliter l'interprétation d'une telle structure de coefficients de corrélation
- Globalement, elle permet de mettre ensemble les tests qui semblent mesurer à peu près le même construit et de distinguer les tests qui mesurent des construits distincts (i.e. peu corrélés)
- On appelle facteurs ces «construits» extraits de façon empirique
Par exemple, supposons le tableau de corrélations suivant
Tests A B C D E F A -- B 0,3 -- C 0,7 0,2 -- D 0,3 0,9 0,2 -- E 0,3 0,8 0,2 0,8 -- F 0,7 0,3 0,6 0,3 0,2 --
- On observe que:
- Les corrélations entre les tests A, C et F, d'une part, et entre les tests B, D et E, d'autre part, sont relativement fortes
- Les corrélations entre les tests de chacun de ces «blocs» sont faibles
- Par conséquent, on pourrait inférer (via l'analyse factorielle) que les tests A, C et F mesurent plus ou moins un même construit (un «facteur»), alors que les tests B, D et E mesurent un autre construit, distinct du premier
On peut, par la suite, calculer un score factoriel qui représente une somme pondérée de chacun des tests formant un même facteur
- On appelle coefficient de validité factorielle, le coefficient de corrélation calculé entre le score à un certain test et le score factoriel correspondant
MÉTHODE MULTITRAITS/MULTIMÉTHODES
On a déjà précisé ci-dessous le fait que les scores à un test doivent démontrer:
- Des corrélations élévées avec d'autres variables avec lesquelles ils doivent théoriquement être reliés
- On appelle cette technique particulière: la validation convergente
- Exemple: montrer qu'un test de «raisonnement numérique» est corrélé avec un test d'«habiletés arithmétiques»
- Des corrélations nulles (ou faibles) avec les autres variables avec lesquelles ils ne doivent pas, en principe, être reliés
- On appelle cette technique particulière: la validation discriminante
- Exemple: montrer qu'un test de «raisonnement numérique» est peu (ou même, pas) colé avec un test de «compréhension de texte»
La méthode multitraits/multiméthodes, proposée par Campbell et Fiske (1959) est une méthode très générale qui permet d'analyser en détail les qualités psychométriques de plusieurs tests
- Elle permet d'étudier simultanément
- La fidélité
- La validité convergente
- La validité discriminante
- La méthode consiste à mesurer deux ou plusieurs construits (appelés ici «traits psychologiques») théoriquement distincts à l'aide de deux ou plusieurs méthodes différentes et à calculer les différents coefficients de corrélation possibles
Dans l'exemple fictif présenté à la page suivante [c.f. tableau 6-1 du livre]
- On mesure trois construits (qu'il faudrait mieux définir), par exemple:
- A -> la dominance
- B -> la sociabilité
- C -> la motivation à réussir
- Chaque construit est mesuré à l'aide de trois méthodes, par exemple:
- 1 -> un inventaire auto-administré
- 2 -> une technique projective
- 3 -> des appréciations par les pairs
- Par exemple, le test A2 réfère à la mesure de la dominance à l'aide d'une technique projective
On pourrait, par exemple, obtenir la matrice de corrélations suivante
Tests A1 B1 C1 A2 B2 C2 A3 B3 C3 A1 0,89 B1 0,51 0,89 C1 0,38 0,37 0,76 A2 0,57 0,22 0,09 0,93 B2 0,22 0,57 0,10 0,68 0,94 C2 0,11 0,11 0,46 0,59 0,58 0,84 A3 0,56 0,22 0,11 0,67 0,42 0,33 0,94 B3 0,23 0,58 0,12 0,43 0,66 0,34 0,67 0,92 C3 0,11 0,11 0,45 0,34 0,32 0,58 0,58 0,60 0,85 Ce tableau présente différents type de coefficients:
- Même trait et même méthode
- Indiqués par les caractères gras et italiques
- Ce sont des coefficients de fidélité
- Même trait et différentes méthodes
- Présentés sur les diagonales, en caractère gras
- Ce sont des coefficients de validité convergente
- Différents traits et même méthode
- Indiqués par les caractères italiques
- Ce sont des coefficients de validité discriminante (qui considèrent la variance commune introduite par la méthode particulière utilisée)
- Différents traits et même méthode
- Indiqués par les caractères en police normale
- Ce sont aussi des coefficients de validité discriminante
La validité de construit des différents tests impliqués sera d'autant vraisemblable que:
- Les coefficients de fidélité sont élevés
- Puisque la fidélité est prérequise à la validité
- Dans l'exemple présenté, ceux-ci sont relativement élevés, quoique ceux relatifs à la «motivation à réussir» (construit C) que ceux obtenus pour les deux autres construits
- Les coefficients de validité convergente sont élevés
- En effet, la mesure d'un construit ne devrait pas dépendre de la méthode spécifique utilisée
- Dans l'exemple présenté, on remarque que les coefficients sont plutôt moyens, c'est donc que les résultats dépendent en (bonne) partie du type de test utilisé pour mesurer un même construit
- Les coefficients de validité discriminante (même méthode) sont bas
- En effet, si ces coefficient sont trop élevés, il faut soupsonner l'influence de facteurs non pertinents communs à une méthode en particulier
- Un exemple de facteur commun non pertinent pourrait être tout simplement l'habileté des examinés à comprendre les consignes, particulièrement compliquées, de telle ou telle méthode
- Les coefficients de validité discriminante (différentes méthodes) sont bas
L'importante analyse à faire est de comparer:
- Les coefficients obtenus en mesurant le même construit à l'aide de différentes méthodes (validation convergente)
ET
Les coefficients obtenus en mesurant différents construits à l'aide de la même méthode (validation discriminante)- Il est logique de s'attendre à ce que les coefficients de validité convergente soient toujours plus élevés que tous les coefficients de validité discriminante
- Sinon, les différences individuelles observés seraient d'abord attribuables à la méthode utilisée qu'au «construit» que l'on suppose mesurer
- À ce titre, il faut remarque que, dans l'exemple présenté, la méthode 3 semble présenter un grave problème
Un point important est souligné par la méthode multitraits/multiméthodes
- La fidélité correspond au degré d'accord entre deux mesures d'un même trait obtenues à l'aide de méthodes maximalement apparentées
ET
La validité (de construit) correspond au degré d'accord entre deux mesures d'un même trait obtenues à l'aide de méthodes maximalement différentes- Par conséquent (et sous certaines contraintes), fidélité et validité peuvent être vues comme les deux extrêmes d'un même continuum quant aux méthodes utilisées pour les mettre en évidence
- Cette «continuité» explique peut-être pourquoi il est parfois difficile de déterminer si telle ou telle méthode contribue plus à appuyer la fidélité ou le validité d'un certain test
- De plus, lorsque l'on conçoit le contraste fidélité/validité de cette façon, il est facile de comprendre que la fidélité est un prérequis à la validité (elle est, du moins, plus facile à établir)
MANIPULATIONS EXPÉRIMENTALES
Lorsqu'un construit est bien «ancré» dans un certain modèle théorique, celui-ci devrait produire des hypothèses quant aux différences individuelles par rapport au construit
- Parmi ces hypothèses, certaines peuvent être testées expérimentalement
- La vérification expérimentale d'une hypothèse à propos d'un construit contribue à la validité de construit du test qui prétend le mesurer
- Par exemple, la validité de construit d'un «test de dépression» sera renforcée si l'on montre que les résultats à ce test changent radicalement pour ceux qui suivent un certain traitement «anti-dépressif», alors qu'ils ne changent pas pour les membres du groupe contrôle
- Mais, attention: l'absence de vérification de la même hypothèse peut remettre en cause autant la validité du test que l'adéquacité du modèle qui a engendré l'hypothèse
- Dans l'exemple ci-dessus, le fait de ne pas observer de différences suite au traitement pourrait autant être attribuable au fait que le test ne mesure pas le niveau de dépression, qu'au fait que le traitement est inefficace
APPORTS DE LA PSYCHOLOGIE FONDAMENTALE
Certaines recherches en psychologie fondamentale peuvent également contribuer à la compréhension de ce qu'un test mesure
- Il s'agit d'analyser en détail les «processus» qui interviennent lorsque l'examiné répond au test et qui déterminent sa performance
- Des manipulations expérimentales de la tâche elle-même peuvent apporter plusieurs informations
- Par exemple, on peut systématiquement manipuler le mode de présentation des questions, les consignes, etc. afin d'en déterminer l'impact sur la performance des examinés
EN SOMME
La validation de construit est certainement la manière la plus riche d'identifier correctement «ce qu'un test mesure»
- Cependant, c'est aussi la manière la plus délicate d'établir la validité de ce test
- N'oublions pas qu'un «construit» est, par définition, inaccessible et que la validité «de construit» du test qui prétend en donner une mesure exacte ne peut être établie que par une accumulation progressive d'«appuis indirects» (plutôt que par des preuves directes)
La validation de construit met surtout en relief le rôle fondamental des théories dans l'élaboration et l'utilisation des tests psychologiques
- Autrement dit, un construit n'existe pas «dans le vide» et sa mesure sera d'autant compréhensible que la théorie dans laquelle il s'insère est clairement définie
- Malgré cet aspect théorique, les preuves de validation de construit doivent néanmoins provenir d'une vérification empirique des différentes propositions théoriques qui sous-tendent le construit à mesurer