Psychométrie

La psychométrie est la science des mesures pratiquées en psychologie (incluant les modalités de validation et d'élaboration de ces mesures). Elle s'applique à tous les champs de la psychologie, et à des domaines connexes (comme la recherche en comportement du consommateur par exemple). Elle a émergé avec l'intérêt croissant porté à la mesure des performances intellectuelles, suscité notamment par le développement de l'échelle métrique de l'intelligence du psychologue Alfred Binet et Théodore Simon (âges mentaux ou quotient intellectuel, quotients de développement dans la petite enfance, etc.) ou bien pour l'analyse des composantes de la personnalité (affectivité, émotions, relations avec les autres, etc.). Comme science de la mesure de l'esprit, elle mobilise les compétences de psychologues, mais aussi de statisticiens, mathématiciens, informaticiens, cliniciens et linguistes, et se base sur des procédures rigoureuses, s'appuyant notamment sur des techniques statistiques variées^[1].

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources (octobre 2015).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article peut contenir un travail inédit ou des déclarations non vérifiées (10 juillet 2017).

Vous pouvez aider en ajoutant des références ou en supprimant le contenu inédit. Voir la page de discussion pour plus de détails.

Histoire

Remarque : Il existe une acception antérieure et différente du mot psychométrie, forgée en 1842 par le D^r Joseph Rodes Buchanan. Celui-ci présente dans son livre Manual of psychometry^[2] une étude sur les capacités de certains sujets de percevoir, de manière extrasensorielle, des informations relatives à des lieux dans lesquels ils se trouvent ou à des objets qu'ils touchent. Il s'agissait donc d'une approche psychurge. Le premier sujet étudié par le D^r Buchanan fut le général « bishop » Léonidas Polk, qui pouvait notamment « reconnaître » du laiton, dans l'obscurité par un simple contact, lequel provoquait chez lui la perception, en bouche, d'un goût particulier lui permettant d'identifier le laiton.
Bien que contestable sur le plan sémantique, l'usage du terme psychométrie pour désigner ces capacités extra-sensorielles semble trop bien établi pour que l'on puisse le remplacer. C'est ce qu'écrit l'abbé François Brune : « Le terme de « psychométrie » a été mal choisi, tout le monde le reconnait, mais il est maintenant trop bien implanté pour qu'on en change. » ^[3].

Au sens plus contemporain du mot, la psychométrie s'est notamment développée en France. Le Royaume-Uni a abrité dans l’ancien laboratoire Cavendish, le premier laboratoire psychométrique au monde (en 1886-89), devenu en 2010 un réseau de recherche stratégique dans l’Université de Cambridge, pour en mars 2016 déménager à la Cambridge Judge Business School. En 1989, John Rust (directeur du MSc in Psychological Assessment in Organisations de l’Université de Londres et professeur de psychométrie du Royaume-Uni, aujourd'hui retraité), a obtenu le contrat de la Psychological Corporation pour normaliser le WISC (test et échelle d’intelligence de Wechsler pour les enfants). Le Centre de Psychométrie Fondée en 1989 à Londres par Rust a déménagé à la City University de Londres en 2003, puis à Cambridge en 2005 (basé à la Cambridge Judge Business School)^[4].

Les tests psychométriques ont de nombreuses applications, dont par exemple dans les secteurs de l’éducation, de l’industrie et de la santé au travail, mais aussi dans le capitalisme de surveillance et les manipulations électorales comme l'a montré en 2016 le Scandale Facebook-Cambridge Analytica-Aggregate IQ.

Questionnaire d’autoévaluation

Parmi les moyens de mesurer une caractéristique psychologique, le questionnaire d’autoévaluation (parfois appelé échelle de mesure ou simplement questionnaire) est le plus couramment utilisé. La relative brièveté d’administration des questionnaires d’autoévaluations et la possibilité de les utiliser auprès d’un grand nombre de personnes simultanément en font un moyen de mesure très prisé dans l’étude de l’être humain. Ces questionnaires sont des outils se composent d’items relatifs aux caractéristiques que l’on cherche à mesurer. Par exemple, une question que l’on pourrait poser si l’on voulait mesurer l’estime de soi chez un individu est : « Ai-je une attitude positive vis-à-vis de moi-même » (Rosenberg, 1965).

Cela étant dit, il subsiste un problème de taille dans la tendance qu’a l’être humain à évaluer ses sentiments et comportements de façon erronée ou encore en voulant se présenter sous un jour favorable (voir pour un exemple de désirabilité sociale : Congard, Antoine, Ivanchak et Gilles, 2012). Dans le domaine de la psychométrie, les caractéristiques psychologiques comme l’estime de soi sont appelées « variables latentes » par opposition aux items que l’on utilise pour mesurer ces concepts, qui eux, sont appelés variables observées, items ou simplement questions. On utilise donc des items faisant référence à une idée que l’on se fait d’une caractéristique psychologique donnée pour mesurer une variable latente.

Enfin, pour être persuadé de l’exactitude de la variable latente, on doit s’assurer que les items utilisés mesurent bien le concept auquel ils réfèrent, principe que l’on appelle de façon générale « validité interne ». On doit aussi s’assurer que les items utilisés fournissent des résultats reproductibles, exempts d'erreurs accidentelles, principe que l'on appelle « fidélité ». Finalement, on doit s’assurer que les résultats dépendent des caractéristiques de l’individu examiné plutôt que de toute autre caractéristique externe au questionnaire, comme l’influence d’un examinateur ou d’un bruit de l’environnement, principe que l'on appelle « objectivité ». Pour s’assurer d’avoir un questionnaire d’évaluation valide, fidèle et objectif, qui mesure correctement la variable latente, plusieurs techniques statistiques qui s’expriment en référence à ces trois concepts ont été développées.

Qualité psychométrique : fidélité et validité

Un questionnaire d’autoévaluation, psychométrique, linguistique ou mathématique, est toujours composé de plusieurs questions. Dans tous les cas, on aimerait savoir si ce questionnaire d’autoévaluation, et donc les questions qui le composent, mesure vraiment ce que l’on cherche à mesurer. C'est pourquoi l’analyse de chaque question et la relation qu’ils entretiennent avec les autres questions du questionnaire d’autoévaluation, ainsi qu'avec le score total, sont primordiales. Dans le modèle du score vrai, plusieurs concepts peuvent être employés pour rendre compte de ces éléments.

Fidélité

Article détaillé : Fidélité (psychométrie).

La fidélité ou fiabilité (en anglais : reliability) d'un test concerne sa capacité à mesurer un construit de manière cohérente : en d'autres termes, que la répétition de la mesure, soit dans le temps si le construit est supposé stable, soit en variant la formulation des questions, donne une estimation dont la variabilité diminue lorsque le nombre de points de mesure augmente. Certains des items sont parfois mesurés sur des échelles inversées (exemple de « je suis triste » et « je suis heureux »), afin de détecter des réponses trop « mécaniques » : il convient alors d'harmoniser ces échelles avant la poursuite du traitement.

Une des mesures traditionnelles de la fiabilité, ou fidélité, est le coefficient alpha de Cronbach : on y compare la somme des variances des mesures à la variance de la somme des mesures. La valeur maximale 1 est atteinte lorsque toutes les mesures sont parfaitement corrélées. L'American Psychological Association considère un construit comme acceptable quand le coefficient alpha est au moins égal à .70^[5]^,^[6]. Lorsqu'il se rapproche de 1, la qualité de la mesure devient discutable^[6] : il est alors probable que les items de mesure ne soient que de simples synonymes ou paraphrases, ce qui fait perdre tout son intérêt à cette répétition.

Validité

Le concept de validité regroupe souvent trois catégories : la validité de construit, la validité de contenu et la validité critérielle.

Validité de construit (en anglais : construct validity)

Il s'agit de savoir dans quelle mesure le test proposé permet d'identifier de manière certaine le construit mesuré (par exemple, pour reprendre l'exemple ci-dessus, mon test est probablement capable de mesurer l'humeur, mais même si les deux questions sont inversement corrélées, il donne vraisemblablement une mesure faible (ou fausse) de la taille ou de l'intelligence des sujets, donc une faible validité externe en tant que tests de taille ou d'intelligence, mais une forte validité en tant que test de l'humeur).

Plusieurs types de validation peuvent et doivent être entrepris avant de prétendre à la validation d'un construit. Ce type de validité sous-tend également la validité convergente et la validité discriminante.

Validité convergente.

La validité convergente veille à la ressemblance entre notre test et un autre test censé mesurer le même construit psychologique. S'il existe une corrélation élevée entre les deux tests, la validité convergente est désignée comme bonne.

Composante indispensable d'une étude de validité, la validité convergente concerne la capacité d'un test à identifier correctement les sujets dans les catégories réalisées. Elles sont réalisées avec l'appui d'autres critères diagnostiques, notamment en psychopathologie. Par exemple, il suffit qu'un test de schizophrénie vérifie que tous les schizophrènes diagnostiqués au cours d'entretiens cliniques avec un professionnel aient un score similaire pour prouver la validité convergente dudit test.

Cependant la validité convergente, parfois confondue avec la validité du construit, ne suffit pas, et rend un test particulièrement incertain en l'absence de validité discriminante.

Validité discriminante

La validité discriminante veille à s'assurer de la dissemblance entre notre test et un autre test censé être différent. À l'inverse ici, si la corrélation entre les deux tests est faible, on peut estimer que l'on a une bonne validité discriminante.

Par exemple, un test mesurant la dimension schizophrène de la personnalité n'atteint la validité discriminante que si les schizophrènes sont les seuls à avoir un score supérieur ou inférieur a une certaine moyenne. Si un test obtient une même réponse de tous les schizophrènes mesurés, il atteint la validité convergente, toutefois, si des personnes non schizophrènes formulent la même réponse qu'une personne schizophrène, le test n'aura pas une bonne validité discriminante.

Validité de contenu

La validité de contenu cherche à vérifier la représentativité des items d'un instrument donné, au regard du construit étudié. En somme, il s'agit de vérifier si l'instrument mesure réellement ce qu'il est censé mesurer. Pour ce faire, on peut choisir de recourir à un expert dans le domaine choisi pour construire un instrument représentatif de toutes les facettes du phénomène psychologique étudié.

Validité critérielle

La validité critérielle vise à établir le lien entre les performances effectives et les performances prédites par ledit test. Ce type de validité en sous-tend deux : la validité concourante et la validité prédictive.

Validité concourante, qui vise à vérifier le rendement au test et le rendement au critère que l'on étudie, et ce de manière simultanée.
Validité prédictive, qui vise elle à vérifier le rendement au test et au critère pris pour objet d'étude, de manière dissociée. Si elle est bonne, elle permet au psychologue de faire des prédictions d'une variable Y à partir d'une variable X.

Validité nomologique

La validité nomologique est le dernier élément permettant de conclure à la validité externe d'un test. On atteint la validité nomologique en prouvant une corrélation entre le test à valider et un autre test, déjà valide, qui mesure un construit qui devrait théoriquement être corrélé avec le construit mesuré (sans être le même construit). Par exemple, un test mesurant l'alcoolisme peut atteindre la validité nomologique si on peut prouver une corrélation statistiquement significative avec un test mesurant l'impulsivité des sujets, une relation théorique existant entre les deux construits alcoolisme et impulsivité

Test de validité et de fidélité des instruments

La validité d'une méthode est son aptitude à mesurer ce qu'elle est censée mesurer, c'est-à-dire les variables telles qu'elles ont été définies avant leur opérationnalisation. La fidélité d'une méthode est son aptitude à fournir une mesure constante d'un phénomène constant.

Les tests de validité et de fidélité sont pratiqués sur les données recueillies et par conséquent à la dernière phase de l'enquête, ce qui peut sembler à juste titre intervenir trop tard.

Théories

Théorie Classique ou Modèle du score vrai

Le modèle du score vrai, parfois appelé théorie classique des scores ou modèle classique, prend naissance avec les travaux de Spearman (1907). Mais le modèle du score vrai tel que nous le connaissons aujourd’hui est principalement dû aux travaux de Gulliksen (1950), Magnusson (1967) et Lord et Novick (1968). Ce modèle se veut, comme mentionné par Lord et Novick (1968), un modèle de score vrai avec des postulats faibles, par opposition par exemple au modèle de poisson qui lui est considéré comme un modèle de score vrai avec des postulats forts. L’avantage d’un modèle avec des postulats faibles est qu’il peut être utilisé dans une multitude de situations et comme son nom l’indique, ses postulats sont relativement faciles à satisfaire et peu nombreux (Laveault et Grégoire, 2002). Le modèle du score vrai permet d’évaluer à quel point un score obtenu à un test reflète bien la compétence ou l’aptitude d’un individu en question. L’équation de base sur laquelle ce modèle repose est la suivante : X=V+E. Le modèle du score vrai postule que le score observé d’un individu (X) résulte de la somme entre le score vrai de l’individu (V) et l’erreur de mesure associée à ce score (E). On suppose donc qu’un individu possède un score « vrai » qui nous est inconnu et qui le demeurera. Cependant, il est possible de tenter de mesurer ce score vrai, l’on considèrera alors qu’il y a toujours une certaine erreur de mesure plus ou moins importante et qui ne pourra jamais être évitée complètement. De ce fait, le score observé (X) n’est que le reflet variable du score vrai (V). À ce propos, Bertrand et Blais (2004) notent que :

le score observé est une entité réelle, connue, variable d’une répétition à l’autre du test ;
le score vrai est une entité non observable, inconnue, fixe d’une répétition à l’autre du test ;
l’erreur de mesure est une entité non observable, inconnue, variable d’une répétition à l’autre du test ;
un score vrai est intimement lié à un individu particulier et à un test particulier : ainsi, le score vrai changera non seulement d’un individu à un autre, mais aussi d’un test à l’autre.

Théorie de réponse à l'item

La théorie de réponse à l'item (en) a été développée durant les années 1950-1960. On distingue deux courants de pensée ayant évolué séparément, l'un provenant des États-Unis avec Frederic M. Lord, l'autre provenant du Danemark avec Georg Rasch. Le nom théorie de réponse à l'item vient du fait que cette théorie se focalise sur l'item et non sur le test comme dans la théorie classique des tests.

références

↑ J.-L. Bernaud, Introduction à la psychométrie, Paris, Dunod, 2007, 119 p. (ISBN 978-2-10-050377-3).
↑ Manual of psychometry - The dawn of a new civilization, Dr Joseph Rodes Buchanan, 1885.
↑ Le Nouveau Mystère du Vatican, père François Brune, éditions Albin Michel, 2002, p. 152.
↑ (en) Bartosz Kielczewski, « History of The Psychometrics Centre », sur www.psychometrics.cam.ac.uk, 3 juillet 2013 (consulté le 14 mars 2024)
↑ Nunnally, Jum C., Psychometric Theory, New-York, NY, McGraw-Hill, 1978
↑ ^{a et b} DeVellis, R.F., Scale Development : Theory and Applications., Thousand Oaks, CA, Sage, 2003

Voir aussi

Bibliographie

Manuels et textes généraux

H. Chauchat, L'Enquête en psycho-sociologie, 1985.
P. Dickes, J. Tournois, A. Flieller, et J.-L. Kop, La Psychométrie, PUF, Paris, 1994.
C. Duflot, L'Expertise psychologique : procédures et méthodes, Dunod, 1999 (ISBN 210004222X).
D. Laveault et J. Grégoire, Introduction aux théories des tests en psychologie et en sciences de l'éducation (2^e éd.), De Boeck Université, Bruxelles, 2002, 377 p.
M. Reuchlin, La Psychologie différentielle, PUF, 1969.

Articles universitaires

(en) L. J. Cronbach, « Coefficient alpha and the internal structure of tests », dans Psychometrika, vol. 16, 1951, p. 297-333.
(en) L. J. Cronbach et P. E. Meehl, « Construct validity in psychological tests », Psychological Bulletin, vol. 52, 1955, p. 281-302.

Articles connexes

Sur les autres projets Wikimedia :

Psychométrie, sur Wikimedia Commons

[1] J.-L. Bernaud, Introduction à la psychométrie, Paris, Dunod, 2007, 119 p. (ISBN 978-2-10-050377-3).

[2] Manual of psychometry - The dawn of a new civilization, Dr Joseph Rodes Buchanan, 1885.

[3] Le Nouveau Mystère du Vatican, père François Brune, éditions Albin Michel, 2002, p. 152.

[4] (en) Bartosz Kielczewski, « History of The Psychometrics Centre », sur www.psychometrics.cam.ac.uk, 3 juillet 2013 (consulté le 14 mars 2024)

[5] Nunnally, Jum C., Psychometric Theory, New-York, NY, McGraw-Hill, 1978

[dv-6] {a et b} DeVellis, R.F., Scale Development : Theory and Applications., Thousand Oaks, CA, Sage, 2003

[1]

[2]

[3]

[4]

[5]

[6]