VALIDATION CRITÉRIÉE
NATURE
La validation critériée est une méthode qui s'applique à tous les cas où il existe (éventuellement) une mesure indépendante et directe de la caractéristique que le test est supposé mesurer
- On appelle cette mesure: critère (externe)
- La méthode générale consiste à calculer la corrélation entre le résultat au test et le critère
Voici quelques exemples
- Test d'aptitudes mécaniques -> performance ultérieure comme machiniste
- Test d'aptitudes scolaires -> résultats scolaires au collégial
- Test de tendances névrotiques -> diagnostic clinique professionnel
MESURE DU CRITÈRE
Il est important de noter que cette méthode de validation présuppose l'existence factuelle du critère
- Par conséquent, le test ne mesure pas un construit purement théorique, mais a plutôt pour but de prédire où se situe l'examiné par rapport à ce critère
De plus, il est important de noter que le critère est souvent considéré comme une mesure directe de la caractéristique
- C'est donc comme si ce critère était, en quelque sorte, considéré comme étant le «vrai score pertinent»
- Mais il faut considérer que, dans la plupart des cas, la mesure du critère peut aussi être sensible à plusieurs sources d'erreur de mesure
- Dans ce cas, les coefficients de validité critériée seront affectés, à la baisse, un peu à l'image de ce qui se produit lorsqu'un test manque de fidélité (c.f. partie 5.2 du cours)
VALIDATION CONCOMITANTE VS PRÉDICTIVE
Classiquement, on fait la distinction entre deux types de validation critériée: la validation concomitante et la validation prédictive
- Cette distinction réfère à la relation qui existe entre le moment où le test est administré, lors de la validation, et le moment où le critère devrait se manifester
- Lorsque l'administration du test et la mesure du critère sont simultanées, il s'agit de validation concomitante
- Lorsque l'administration du test précède d'un certain intervalle de temps (non négligeable) la mesure du critère, il s'agit de validation prédictive
- Il devrait y avoir une correspondance entre le type de validation utilisée et la façon dont le test sera utilisé ultérieurement (i.e. après validation)
La méthode de validation concomitante s'avère appropriée lorsque le test à valider sera éventuellement utilisé à des fins de diagnostic
- I.e. à la mesure d'un état actuel
- Exemple: test de connaissances en pilotage d'avions commerciaux
- On peut se demander en quoi le test est utile, si le critère est aussi disponible, au même moment
- S'il s'avère valide, le test est d'autant plus utile qu'il constitue une mesure plus simple, moins coûteuse ou moins risquée du critère
La méthode de validation prédictive s'avère appropriée lorsque le test à valider sera éventuellement utilisé à des fins de pronostic
- I.e. que le test servira à prédire un état futur
- Exemple: test d'aptitudes au pilotage (utilisé avant un cours)
- Lors de l'étape de validation, il s'avère parfois que l'intervalle de temps qui sépare l'administration du test de la mesure du critère est trop long
- On s'en remet alors à la validation concomitante en contrastant la performance d'échantillons «pré-sélectionnés», i.e. composés d'examinés pour lesquels les données critériées sont déjà disponibles
- Exemple: en passant le test d'aptitudes au pilotage à un groupe de pilotes et à un groupe de non-pilotes
CONTAMINATION DU CRITÈRE
Lors d'une étude de validation, il est important que les résultats au test n'influencent pas la mesure du critère
- En fait, il est important de se rappeler que lorsqu'on réalise la validation d'un test, c'est justement parce que celui-ci n'a pas encore démontré sa validité
- I.e. qu'on est pas certain que le test mesure bien ce qu'il est supposé mesurer
- Par conséquent, les résultats obtenus ne devraient pas être interprétés
- De plus, la connaissance des résultats au test peut engendrer une sorte de «prophétie auto-réalisatrice» qui fait que les examinés reçoivent des cotes au critère qui tendent à se conformer aux résultats fournis par le test
- Il s'agit là d'une des erreurs de mesure à laquelle peut être sensible le critère
- Mais dans ce cas-ci, ce «biais» aura tendance à augmenter artificiellement la valeur des coefficients de validité
- Pour éviter ce type de problèmes, il faut garantir la confidentialité des résultats au test pendant toute la période de validation
QUELQUES CRITÈRES
Il est évidemment possible (quoique peu justifié) de comparer les résultats fournis par un test à une infinité potentielle de critères
- Mais le choix du (ou des) critère(s) dépend nécessairement des objectifs du test
- On peut néanmoins reconnaître, dans la littérature psychométrique, quelques grandes catégories de critères qui sont souvent considérés lors de l'analyse de la validité de certains types de tests
La performance académique
- Indices spécifiques: notes scolaires, scores à des tests standardisés, promotion de classe, obtention d'un diplôme, évaluation de l'«intelligence» par les enseignants, niveau d'éducation atteint (chez les adultes), etc.
- Ces indices sont utilisés pour mesurer la validité:
- Des tests d'«intelligence générale» -> d'où le nom plus approprié de «tests d'aptitudes scolaires»
- Des tests de sélection aux différents niveaux d'enseignement
- Attention: sur le plan conceptuel, il peut être injustifié de restreindre le construit d'«intelligence» à la seule performance académique
- En fait, le lien entre ces deux variables n'est pas parfait
- D'autres facteurs sont à considérer: économiques, sociaux, etc.
- Cette difficulté soulève en fait l'épineuse question de la définition et de la mesure de l'«intelligence»
La performance à un cours spécialisé
- Indices spécifiques: tests de rendement administrés à la fin du cours, notes officielles au dossier, appréciations par les instructeurs, achèvement vs abandon du cours, etc.
- Ces indices sont utilisés pour mesurer la validité de tests visant à mesurer des aptitudes spécifiques
- Exemple (parmi un très grand nombre): aptitudes mécaniques, de pilotage, commerciales, musicales, professionnelles (droit, génie, ...)
- On peut imaginer autant de tests qu'il y a de cours spécialisés différents
- Il est aussi possible d'utiliser les notes à des cours particuliers d'un cursus général pour analyser la validité d'une batterie d'aptitudes multiples
- Exemple: comparer les scores au sous-test d'habiletés mathématiques avec les notes obtenues pour le cours de mathématiques
- Ces critères sont souvent considérés comme «intermédiaires» plutôt qu'«ultimes» puisque les «vrais critères» devraient être mesurés à une étape plus lointaine, lorsque les connaissances acquises sont vraiment utilisées
- Ainsi, le critère ultime d'un test d'«aptitudes au droit» serait plutôt la réussite professionnelle dans ce domaine que la réussite d'un cours
- Mais les critères «ultimes» sont parfois difficiles à mesurer (peut-être sont-ils également difficiles à définir?)
Rendement au travail
- Ce type de critère est utilisé à peu près aux mêmes fins que dans l'exemple précédent (i.e. performance à un cours spécialisé)
- Il y a néanmoins quelques différences
- Le critère est souvent plus pertinent, surtout pour les tests d'aptitudes à un travail particulier
- La standardisation est plus difficile car il peut y avoir beaucoup de différences d'un lieu de travail à l'autre
Groupes contrastés (critère composite)
- Il s'agit d'une méthode qui repose sur l'idée que l'appartenance ou non à un groupe est la conséquence de multiples influences non contrôlées
- Le «critère» est donc plus ou moins bien défini...
- La dichotomisation du «critère» rend moins précise la mesure de la validité parce qu'elle camoufle des différences individuelles
- Exemple: test d'aptitudes musicales -> comparaison entre les élèves du conservatoire de musique et ceux des autres disciplines
- Cette méthode est souvent utilisée pour «valider» les tests de personnalité
- Mais on peut se demander s'il existe vraiment des critères quant aux caractéristiques dites de «personnalité» -> il y a ici un certain recoupement avec la validation de construit
- Leadership -> comparaison entre les directeurs d'entreprise et les employés de bureau
- Attitudes face à l'avortement -> comparaison entre les membres de «pro-choix» et les membres de «pro-vie»
- Sert également à la validation des tests critériés
- Il faut montrer l'absence de maîtrise avant la formation et la bonne maîtrise après la formation
Diagnostic psychiatrique
- Suppose que ce diagnostic est adéquat -> nécessite une analyse détaillée
- Le diagnostic sert de critère pour établir la validité de certains tests de personnalité qui pourraient éventuellement faciliter le travail diagnostic
Jugements appréciatifs
- Surtout lorsque le jugement d'autrui est un véritable «critère»
- Exemple extrême: un test pour mesurer «Comment est perçue votre beauté intérieure» !
- Encore ici, il faut noter que la mesure du jugement n'est pas libre de toute erreur de mesure
- Les jugements appréciatifs servent surtout à valider les tests de personnalité
- Pour certains types de «traits», les appréciations de l'entourage de l'examiné sont possiblement le meilleur (i.e. moins pire) critère
- Exemple: votre conjoint est (parfois!) en mesure de porter un jugement sur votre «niveau de libido»
- C'est un peu à l'image du critère précédent (i.e. «diagnostic psychiatrique»), mais ce sont les personnes de l'entourage immédiat qui agissent comme «experts»
Liens avec les tests existants
- Lorsqu'on élabore un nouveau test pour remplacer un test reconnu mais lourd à administrer, le résultat à ce dernier peut être vu comme étant un «critère» pour établir la validité du nouveau test
- Cette procédure n'est justifiée que dans la mesure où le nouveau test est plus simple à administrer
- Exemple: lors du développement d'une «version collective» d'un quelconque test individuel
- Encore ici, on a un certain recoupement avec la validation de construit
EN SOMME
La validation critériée est certainement la méthode la plus simple pour établir la validité d'un test, mais elle n'est réalisable que sous certaines conditions:
- Il existe un «critère», c'est-à-dire une mesure directe de la caractéristique que le test est supposé mesurer
- Cette mesure du critère n'est que peu sensible (ou même pas du tout) aux différentes formes d'erreurs de mesure
- En pratique, ces conditions ne sont, souvent, que partiellement réalisées