UE 502 Psychométrie – Support TD : Textes - Vincent Berthet

Licence 3 Psychologie 

Année universitaire 2012-2013 

UE 502 – PYCHOMETRIE 

Support de Cours – TD 

Textes 

Vincent Berthet

Texte 1 

Anastasi, A. (1994). Introduction à la psychométrie. Montréal : Guérin 

(chapitre 1 : p.3-24)

Texte 2 

Plaisant, O., Guertault, J., Courtois, R., Réveillère, C., Mendelsohn, G. A., & John, O. P. (2010). 

Histoire des « Big Five » : OCEAN des cinq grands facteurs de la personnalité. Introduction du Big 

Five Inventory français ou BFI-Fr. Annales Medico-psychologiques, 168, 481-486.

Mémoire 

Histoire des « Big Five » : OCEAN des cinq grands facteurs de la personnalité. 

Introduction du Big Five Inventory français ou BFI-Fr 

Big Five History: OCEAN of personality factors. Introduction of the French Big Five Inventory 

or BFI-Fr 

O. Plaisant a,b,c, *, J. Guertault b , R. Courtois c,d ,C.Réveillère c , G.A. Mendelsohn e , O.P. John e 

a URDIA, faculté de médecine, université Paris Descartes, 75005 Paris, France 

b Épilepsie et consultation de la douleur, groupe hospitalier Pitié-Salpêtrière, AP–HP, 47–83, boulevard de l’Hôpital, 75013 Paris, France 

c EA 2114 « Psychologie des âges de la vie », département de psychologie, université François-Rabelais, 37041 Tours cedex, France 

d Clinique psychiatrique universitaire, CHRU de Tours, 37044, Tours cedex 9, France 

e Department of Psychology and IPSR, University of California, Berkeley, États-Unis 

INFO ARTICLE 

Historique de l’article : 

Reçu le 9 juin 2008 

Accepté le 15 avril 2009 

Disponible sur Internet le 1 juillet 2010 

Mots clés : 

BFI-Fr 

Big Five Inventory 

Cinq grands facteurs de la personnalité 

Modèle des cinq facteurs de la personnalité 

Keywords: 

BFI-Fr 

Big Five 

Big Five Inventory 

Five factor model of personality 

Annales Médico-Psychologiques 168 (2010) 481–486 

RÉSUMÉ 

La description de la personnalité aété conçue à partir d’une variété de points de vue théoriques et à 

différents niveaux d’abstraction. Dans l’étude de la personnalité, l’unité la plus fréquemment utilisée 

pour mesurer les différences individuelles a été le trait. Un consensus semble se dégager actuellement 

sur une taxonomie générale des traits de la personnalité, les cinq facteurs de la personnalité, connus sous 

le nom des « Big Five », expression introduite par Goldberg. Le but de cet article est de resituer 

l’élaboration de la version originale du Big Five Inventory (BFI) de John, Donahue et Kentle (1991) dans 

son histoire, et parmi les autres tests disponibles le « TDA ou trait descriptive adjective » de Goldberg et le 

« NEO PI-R ou NEO personality inventory revised » de Costa et McCrae. La revue reprend les différents 

stades de conceptualisation des catégories qui furent élaborées à partir d’une sélection d’adjectifs de 

dictionnaires permettant de différencier un individu d’un autre. Seuls les traits seront utilisés pour 

l’élaboration des trois tests mentionnés. Les « Big Five » retrouvésàpartir d’analyses factorielles peuvent 

se résumer en cinq facteurs réplicables connus sous le nom de OCEAN ou CANOE de la personnalité, 

moyen mnémotechnique pour E (Extraversion, Énergie, Enthousiasme) ; A (Agréabilité, Altruisme, 

Affection) ; C (Conscience, Contrôle, Contrainte) ; N (Émotions Négatives, Névrosisme, Nervosité) ;O 

(Ouverture, Originalité, Ouverture d’esprit), ordre établi par les auteurs du BFI. La structure des « Big 

Five » regroupe à un haut niveau d’abstraction les points communs de la plupart des systèmes existant 

sur la description de la personnalité et met à disposition un modèle descriptif intégré pour des 

recherches sur la personnalité. 

ß 2010 Elsevier Masson SAS. Tous droits réservés. 

ABSTRACT 

* Auteur correspondant. 

Adresse e-mail : odile.plaisant@parisdescartes.fr (O. Plaisant). 

0003-4487/$ – see front matter ß 2010 Elsevier Masson SAS. Tous droits réservés. 

doi:10.1016/j.amp.2009.04.016 

Personality has been conceptualized from a variety of theoretical perspectives, and at various levels of 

abstraction or breadth. In personality research, the most common unit of measurement of individual 

differences remains trait. Today, a consensus seems to emerge as a general taxonomy of personality 

traits known as the Big Five, an expression introduced by Goldberg. The aim of this article is to describe 

the circumstances surrounding the elaboration of the Big Five Inventory in 1991 by John, Donahue, and 

Kentle, to put it back in its historical context, and compare it to the different tests available such as ‘‘TDA 

or trait descriptive adjective’’ of Goldberg and ‘‘NEO PI-R or NEO personality inventory revised’’ of Costa 

and McCrae. First, the different steps of category conceptualisation, developed from adjectives selected 

from the English dictionary to distinguish the behaviour of one human being from that of another will be

482 

‘‘... the scientific description of personality may not be quite so 

hopelessly complex as it is sometimes thought to be’’. Thurstone LL, 

septembre 1933 [39]. 

« ... la description scientifique de la personnalité n’est peut-être 

pas aussi désespérément complexe qu’on le suppose parfois » 

(traduction des auteurs). 

1. Introduction 

La description de la personnalité aété conçue à partir d’une 

variété de points de vue théoriques et à différents niveaux 

d’abstraction. Par exemple, dès 1929, McDougall avait proposé 

cinq domaines pour définir la personnalité. Illesdénomma : 

« intellect », intelligence et connaissance ; « disposition », 

tendances conatives et affectives ; « temper », mode d’exploitation 

des tendances conatives, le plus confus et obscur des 

facteurs ; « temperament », action du corps sur les réactions 

psychologiques et physiques du système nerveux ; « character », 

organisation des tendances affectives en sentiments et 

complexes [29]. Chacun de ces niveaux, incluant la description 

de McDougall, a apporté une contribution à la compréhension 

des différences individuelles. 

Dans l’étude de la personnalité, l’unité la plus fréquemment 

utilisée pour mesurer ces différences individuelles a été le trait. 

Toutefois, le nombre de traits de personnalité et les échelles 

élaborées pour les explorer se sont multipliés considérablement. 

Les chercheurs et les praticiens s’intéressant à l’évaluation de la 

personnalité sont donc confrontés àune multitude d’échelles, qui 

peuvent avoir le même nom sans forcément mesurer les mêmes 

choses, ou au contraire ayant des noms différents tout en mesurant 

des concepts similaires. 

Après des années de recherche, un consensus semble se 

profiler sur une taxonomie générale des traits de la personnalité, 

les cinq grands facteurs de la personnalité, connus sous le nom 

des « Cinq Grands » ou « Big Five », expression introduite par 

Goldberg [17]. Le contenu de ces facteurs sera décrit ultérieurement 

dans l’article. 

Ces facteurs ne représentent pas un point de vue théorique 

particulier ; ils dérivent de l’analyse empirique, factorielle, des 

termes du langage courant qu’on utilise pour se décrire ou décrire 

les autres. N’ayant pas pour but de remplacer les systèmes 

précédents, la taxonomie des « Big Five » a une fonction intégrative 

car elle peut présenter les différents systèmes descriptifs de la 

personnalité dans un cadre commun [24]. Plusieurs inventaires 

pour mesurer les « Big Five » sont disponibles ; l’un d’entre eux, le 

« Big Five Inventory », est l’objet de cet article, dont le but est de 

montrer la découverte et la généralisation des cinq grands facteurs 

de la personnalité ; de resituer l’élaboration de la version originale 

du Big Five Inventory (BFI) de John et al. [22] dans son histoire, 

parmi les autres tests disponibles, et de faire l’inventaire des 

différentes versions du BFI disponibles en langue autre que 

l’anglais, comme la version espagnole [3], la version française, ou 

BFI-Fr (v45) [33], ou la version allemande [27]. 

O. Plaisant et al. / Annales Médico-Psychologiques 168 (2010) 481–486 

considered. Only the traits have been used to elaborate the three tests. Factor structures resembling the Big 

Five were identified in numerous sets of variables. The Big Five were the only consistently replicable factors 

known as E (Extraversion, Energy, Enthusiasm), A (Agreeableness, Altruism, Affection), C (Conscientiousness, 

Control, Constraint), N (Neuroticism, Negative Affectivity, Nervousness), O (Openness, Originality, 

Open-mindedness). The reader intrigued by anagrams may have noticed that these letters form the OCEAN 

or the CANOE of personality dimensions. The Big Five structure captures, at a broad level of abstraction, the 

commonalities among most of the existing systems of personality description, and provides an integrative 

descriptive model for personality research. 

ß 2010 Elsevier Masson SAS. All rights reserved. 

2. Approche lexicale et découverte des « Big Five » 

De nombreux psychologues se sont tournés vers la langue 

comme source d’attributs afin de développer une taxonomie 

scientifique des traits de la personnalité. L’hypothèse lexicale 

postule que la plupart des caractéristiques importantes et 

socialement pertinentes de la personnalité d’une culture donnée 

sont encodées dans le langage naturel sous forme d’adjectifs [17]. 

2.1. Travaux initiaux 

Allport peut être considéré comme l’un des pères du modèle en 

cinq facteurs (Five-Factor Model ou FFM). Suivant les travaux de 

Klages (1926) et ceux de Baumgarten (1933) [20], Allport et Odbert 

[2] menèrent une étude lexicale en relevant tous les termes 

décrivant la personnalité dans un dictionnaire anglais. Ils inclurent 

tous les termes pouvant être utilisés pour distinguer le comportement 

d’une personne de celui d’une autre [2] (p. 24). La liste 

complète s’éleva à presque 18 000 termes. Ils identifièrent quatre 

catégories principales. La première inclut les traits de personnalité 

(par exemple sociable, agressif, peureux) qu’ils définirent comme 

des tendances, des déterminants généraux et personnels des 

comportements habituels et stables de l’adaptation de l’individu à 

son environnement. La deuxième inclut des états temporaires, des 

humeurs et des activités tels que être effrayé ou transporté de joie, 

se réjouir. La troisième consiste en des jugements évaluant les 

conduites personnelles et la réputation des personnes, par 

exemple excellent, respectable, moyen et irritant. La dernière 

inclut les caractéristiques physiques, les capacités et les talents, les 

termes sans rapport avec la personnalité ou ne pouvant être inclus 

dans aucune des catégories. 

Allport et Odbert [2], puis Norman [30] qui augmenta le nombre 

de catégories, les considérèrent comme s’excluant mutuellement. 

Une inspection rapide de la classification montra que les catégories 

se chevauchaient et que leurs limites étaient floues, ce qui amena 

certains chercheurs à conclure que les distinctions entre les 

différentes classes de caractéristiques décrivant la personnalité 

étaient arbitraires et qu’elles devraient être abolies [1]. 

2.2. Conception en modèle type (ou en prototype) 

Chaplin et al. [7], utilisant la théorie et les méthodes de Rosch 

[35], continuèrent à développer l’approche lexicale et se prononcèrent 

en faveur d’une conception en modèle type (prototype) où 

chaque catégorie – traits, états, activité, etc. – est définie par les 

termes les plus caractéristiques plutôt que par les définitions 

abstraites des limites de la catégorie ; les éléments des catégories 

n’avaient pas besoin d’être distincts mais pouvaient se définir le 

long d’un continuum. D’où le terme de prototype employé par les 

auteurs pour décrire les prototypes de la personnalité. 

Ils appliquèrent ce concept en prototype aux traits, aux états et 

aux activités pour mieux les différencier. Les états-type apparaissaient 

temporaires, brefs et déterminés par des causes externes, 

par exemple misérable, outragé. Les traits-types apparaissaient 

stables, durables, déterminés par des causes internes, par exemple

gentil, autoritaire. Ces résultats répliquèrent étroitement les 

premières classifications et confirmèrent que les définitions 

conceptuelles des traits et des états étaient largement retrouvées 

en recherche. Les activités n’étaient pas considérées comme une 

variable de personnalité. 

L’histoire des efforts pour développer une taxonomie des traits 

sera maintenant développée [21]. La première tentative a été faite 

par Thurstone [39]. Dès 1933, il avait montré, par analyse 

factorielle, la fréquence de distribution de cinq facteurs dans 

une étude de 60 traits de personnalité sous forme d’adjectifs. 

2.3. Travaux de Cattell et le 16PF 

Cattell utilisa la liste d’Allport et Odbert comme point de départ 

de son modèle multidimensionnel des structures de la personnalité. 

Cette liste étant trop longue, il commença avec 4500 traits [5] 

organisés en 160 clusters de termes bipolaires. Il réduisit les 

4500 traits à simplement 35 variables. Utilisant ce petit ensemble 

de variables, il conduisit plusieurs analyses factorielles obliques et 

conclut qu’il avait identifié 12 facteurs de personnalité qui 

finalement firent partie de son questionnaire des 16 facteurs de 

la personnalité (16PF) [6]. Toutefois, une nouvelle analyse des 

matrices de corrélation de Cattell n’a pas confirmé le nombre et la 

nature des facteurs [40]. 

2.4. Première découverte des « Big Five » 

Le premier, Fiske [16], construisit une classification très 

simplifiée de 22 des variables de Cattell. La structure (factorielle) 

des facteurs ressemblait à ce qui serait connu plus tard comme les 

« Big Five ». Pour clarifier ces facteurs, Tupes et Christal [40] 

analysèrent à nouveau les matrices de corrélation provenant de 

huit échantillons différents. Dans toutes les analyses, Tupes et 

Christal retrouvèrent « cinq facteurs relativement constants et 

récurrents » [40] (p. 14). Norman [30], Borgatta [4], Digman et 

Takemoto-Chock [14] répliquèrent cette structure en cinq facteurs 

de listes dérivant des 35 variables de Cattell. 

Les cinq facteurs ont été dénommés différemment selon les 

auteurs et selon l’époque, mais furent finalement reconnus 

comme les cinq facteurs de la personnalité [17] –untitrechoisi 

non pas pour montrer leur grandeur intrinsèque mais pour mettre 

en évidence l’ampleur de chaque facteur. Ces cinq facteurs 

représentent le plus haut niveau d’abstraction de la personnalité 

et chaque dimension englobe un grand nombre de caractéristiques 

distinctes et plus spécifiques de la personnalité (traduction 

des auteurs). 

3. Approche actuelle des « Big Five » 

3.1. Les travaux de Goldberg et le « trait descriptive adjective ou TDA » 

Pendant les 45 ans qui suivirent l’utilisation des traits en 

langue anglaise que Cattell utilisa pour commencer sa description 

de la personnalité, de nombreux investigateurs ont proposé une 

structure alternative basée sur cinq facteurs orthogonaux. Dès 

1987, Peabody et Goldberg [31] définirent les cinq facteurs 

comme (I) Pouvoir ou Surgence, (II) Amour ou Amabilité, (III) 

Travail ou Conscience, (IV) Affect ou Émotions positives et (V) 

Intellect ou Culture [38]. Pour démontrer la généralisation de ce 

modèle en cinq facteurs, Goldberg a utilisé des groupes de termes 

dérivant du travail de Norman exprimant des traits sous forme 

d’adjectifs. Dans la première des trois études, 1431 traits sous 

forme d’adjectifs (1431-TDA) regroupés en75clustersontété 

analysés ; pratiquement une structure identique émergeait de dix 

différentes procédures d’analyse factorielle. Une deuxième étude 

de 479 termes courants regroupés en 133 clusters synonymes a 

O. Plaisant et al. / Annales Médico-Psychologiques 168 (2010) 481–486 483 

mis en évidencelamême structure dans deux échantillons d’autoévaluation 

et dans deux échantillons d’hétéro-évaluation. Aucun 

facteur apparu après les cinq facteurs ne s’était généralisé à 

travers les études. Dans la troisième étude, les analyses de 

100 clusters de 339 traits ont mis en évidence leur utilité 

potentielle en tant que marqueurs des « Big Five » pour des 

recherches ultérieures [18]. 

L’approche de Goldberg [18] dérivant directement de 

l’approche lexicale évalue donc les cinq grands facteurs en 

décrivant les traits à l’aide d’adjectifs (Trait Descriptive Adjectives). 

Il a mis au point différentes listes d’adjectifs plus courtes que les 

précédentes dont l’une d’entre elles comprenant 50 items utilise 

un format connu sous le nom de « transparent ». Peu utilisée en 

recherche, celle-ci est intéressante sur le plan pédagogique [32]. 

Une échelle de dix adjectifs bipolaires (par exemple, silencieuxvolubile) 

mesure chaque facteur. Les dix adjectifs sont regroupés 

sous le nom du facteur de telle sorte que le participant connaît les 

adjectifs attribués àchaque facteur, ce qui confère au test une très 

grande transparence. Une version française est disponible dans 

[32] (chap. 8, p. 227). 

La liste la plus utilisée en recherche est un ensemble de 

100 adjectifs unipolaires décrivant les traits (100-TDA). Par une 

série d’analyses factorielles, Goldberg a développé et affiné le TDA 

comme une représentation optimale de l’espace des cinq facteurs 

en anglais en ne sélectionnant pour chaque échelle des « Big Five » 

que les adjectifs définissant uniquement le facteur concerné. Les 

« Big Five » pour Goldberg deviennent Surgence, Agréabilité, 

Conscience, Stabilité émotionnelle et Intellect. Une version abrégée 

à 40 items a été développée par Saucier en 1994 [36,37]. 

Goldberg est le créateur du « International Personality Item 

Pool » ou IPIP, un site web présentant la traduction de ses 

inventaires en de nombreuses langues ; ainsi une traduction 

française est disponible, notamment des 50 items en relation avec 

les cinq domaines du NEO-PI-R de Costa et McCrae (http:// 

ipip.ori.org/). 

3.2. Recherche de Costa et McCrae et le NEO-PI-R 

Goldberg a suivi systématiquement l’approche lexicale mais 

d’autres auteurs ont préféré une autre approche pour évaluer la 

personnalité. L’une d’entre elles utilise des phrases descriptives 

dans une approche par questionnaire. 

Dans les années 1980, Costa et McCrae ont développé un 

questionnaire, le « NEO Personality Inventory » [9] pour mesurer 

trois importantes dimensions de la personnalité : Névrosisme, 

Extraversion et Ouverture aux expériences (NEO). 

En fait, Costa et McCrae commencèrent leur travail avec 

l’analyse des clusters des 16PF [6] qui dérivaient du travail lexical 

initial de Cattell. Leurs analyses ont reproduit les dimensions 

Extraversion et Névrosisme mais les ont convaincus de l’importance 

de l’ouverture qui provenait de plusieurs facteurs primaires 

de Cattell (par exemple imaginatif, expérimenté). En 1983, Costa et 

McCrae ont réalisé que leur système NEO était très proche de trois 

des cinq facteurs mais n’incluait pas de traits des deux autres 

domaines, Agréabilité et Conscience. Ils ont alors étendu leur 

modèle avec des échelles préliminaires mesurant l’Agréabilité et la 

Conscience. Dans plusieurs études [9,10], ils ont démontré que leur 

questionnaire à cinq échelles était très semblable aux mesures des 

« Big Five » basées sur les adjectifs, bien que leur conception de 

l’ouverture soit beaucoup plus large que les facteurs « intellect ou 

imagination » sortis des analyses lexicales. En 1992, Costa et 

McCrae ont publié les 240 items révisés de l’inventaire de 

personnalité (NEO Personality Inventory, Revised, NEO PI-R) [11] 

qui permet de différencier les mesures de chacun des cinq grands 

facteurs, appelés les cinq domaines, en fonction de six facettes 

spécifiques pour chacun des facteurs.

[(Fig._1)TD$FIG] 

484 

La Fig. 1 montre les six facettes définissant chacun des 

domaines ainsi que les adjectifs correspondant aux traits les plus 

corrélés avec chacune des facettes, montrant ainsi le lien avec les 

recherches lexicales. Chaque facette possède des variances 

partagées avec les autres facettes du domaine mais elle possède 

aussi leur propre variance. Chaque domaine est indépendant. Les 

facettes entre les domaines sont indépendantes. 

Le NEO PI-R a été développé sur des échantillons d’adultes d’âge 

moyen et d’âge mûr utilisant à la fois des analyses factorielles et 

des procédures de validation multiméthode pour construire le test. 

Les échelles ont montré une consistance interne, une stabilité 

temporelle et une validité convergente et discriminative lors des 

évaluations par les conjoints ou les pairs [11]. 

Pour beaucoup de recherches, le NEO PI-R est trop long [24]. 

C’est la raison pour laquelle Costa et McCrae ont développé le NEO- 

Five Factor Inventory (NEO-FFI) à 60 items, une version abrégée 

basée sur l’analyse factorielle des items de la version de 1985 du 

NEO PI [9,10]. Dans les échelles à 12 items du FFI n’ont été retenus 

que les items saturant le plus les cinq facteurs. Le NEO-FFI sert à 

évaluer les cinq domaines tandis que le NEO-PI-R donne des 

résultats pour chacune des facettes, permettant ainsi une approche 

psychopathologique plus fine [13]. L’inventaire de Costa et McCrae 

aété largement traduit dans différentes langues ; la version à 

240 items est disponible et a été adaptée en langue française par 

Rolland et al. [34]. La traduction proposée pour dénommer les 

facteurs est Névrosisme, Extraversion, Ouverture, Agréabilité, 

Conscience ou NEOAC, ordre défini par Costa et McCrae [12]. 

Ultérieurement, les auteurs ont développé la théorie des cinq 

facteurs de la personnalité (Five-Factor Theory ou FFT), une 

interprétation explicative de la taxonomie des « Big Five ». La 

théorie est basée sur le fait que les cinq grandes dimensions 

auraient une base génétique importante [28] et devraient par 

conséquent dériver en partie de processus et de structures 

biologiques tels que des loci spécifiques sur des gènes, des régions 

cérébrales (par exemple l’amygdale), des neurotransmetteurs (par 

exemple, la dopamine), des hormones (par exemple la testostérone) 

[24]. C’est dans ce sens que les traits auraient un statut causal 

d’après les auteurs, mais il n’y a aucun lien spécifique entre les 

traits et des facteurs biologiques disponibles actuellement. 

Dès 1991, Costa soulignait l’intérêt d’évaluer la personnalité 

avant toute prise en charge psychologique de façon à offrir la 

meilleure thérapie en fonction des troubles mais aussi de façon à 

anticiper le cours de la thérapie et le suivi et à énoncer des buts [8]. 


Fig. 1. Montrant les six facettes du NEO-P-R définissant chacun des facteurs ainsi que les adjectifs correspondant aux traits les plus corrélés avec chacune des facettes, 

montrant ainsi le lien avec les recherches lexicales (traduction des auteurs. Communication personnelle 2000). 

De nombreuses recherches actuellement font le lien avec la 

psychopathologie ou la classification du DSM [13]. 

Deux approches des « Big Five » peuvent ainsi être différenciées, 

les recherches lexicales de Goldberg [18] et les recherches basées 

sur des questionnaires de Costa et McCrae [11]. Malgré une 

abondante littérature, la structure des cinq grands facteurs de la 

personnalité n’a pas été acceptée comme une superstructure 

taxonomique par tous les chercheurs travaillant sur la personnalité. 

Pour renforcer cette hypothèse, une autre approche, dérivant 

de l’approche lexicale, va utiliser la conception en prototypes. 

3.3. Description des cinq facteurs dérivant de l’analyse en prototypes 

des catégories avec le Big Five Inventory 

Malgré des dénominations qui diffèrent et des contenus qui 

semblent varier, John [20] va s’interroger sur les cinq facteurs et 

chercher à extraire le dénominateur commun des catégories de 

traits définies par les chercheurs précédents. Pour cela, il a utilisé 

des évaluateurs et comme lexique les 300 termes de l’« Adjective 

Check List » de Gough et Heilbrun (ACL) comme point de départ de 

sa recherche [19] 1 . 

Un groupe de dix évaluateurs étudièrent dans le détail les cinq 

grandes dimensions en analysant les résultats des analyses 

factorielles et leurs interprétations dans tous les articles importants 

publiés sur les « Big Five » à l’époque de la recherche. Les 

évaluateurs classèrent chacun des 300 items de l’ACL dans l’une 

des cinq grandes catégories. Si cela n’était pas possible, les adjectifs 

étaient mis dans une sixième catégorie, « sans décision ». La validité 

interjuge était élevée. Les coefficients alpha étaient situés à 

0,90 pour le facteur IV (émotions négatives) et 0,94 pour le facteur 

V (ouverture), montrant que les évaluateurs avaient une compréhension 

consensuelle voire identique des cinq dimensions. Cent 

douze des 300 termes de l’ACL furent classés dans une des cinq 

grandes dimensions avec pratiquement une parfaite concordance 

(par exemple, par au moins 90 % des évaluateurs). Ces 112 termes 

représentaient une définition relativement étroite ou le fondement 

de la définition des cinq facteurs [24]. Logiquement, comme pour la 

construction de toute mesure, la validité de ces catégories devait 

être démontrée empiriquement. Si les prototypes initiaux mon- 

1 Une traduction française de « l’Adjectif Check List » est disponible et a été 

utilisée pour évaluer la désirabilité sociale dans trois cultures différentes 

américaine, italienne et française [traduction du CREDA Paris 5 ; 15].

traient une composition en cinq facteurs, les 112 termes auraient 

dû clairement définir cinq facteurs et chaque terme aurait dû avoir 

une saturation factorielle maximale dans chacun de leur facteur 

respectif. La plupart des recherches sur les « Big Five » ont été faites 

par auto-évaluation ou évaluation par des pairs, typiquement sur 

des étudiants. Cette étude a utilisé des évaluations par des 

psychologues testant ainsi la possibilité de retrouver les « Big Five » 

grâce à des descriptions de la personnalité formulées par des 

psychologues sur la base d’observations et d’entretiens intensifs. 

3.3.1. Validation des prototypes dans des observations 

L’ACL fut initialement développée àl’« Institute of Personality 

Assessment and Research, IPAR » (maintenant Institute of 

Personality and Social Research, ou IPSR) à l’université de 

Californie à Berkeley (États-Unis) pour permettre aux membres 

du personnel de décrire la personnalité des individus des 

programmes d’évaluation du centre [19] (p. 1). 

John [20] a utilisé un échantillon de 140 hommes et 140 femmes 

qui ont participé par groupe de dix à 15 à un programme 

d’évaluation de la personnalité à IPSR. Il y a eu dix descriptions par 

sujet, faites par dix évaluateurs différents. Les données résultantes 

ont fait l’objet d’une analyse factorielle. Les résultats de l’analyse 

factorielle ont montré que chaque adjectif pouvait être classé dans 

le facteur qui lui avait été attribué hypothétiquement au départ, 

confirmant ainsi de façon spectaculaire les prototypes initiaux. 

Avec une exception, chaque item se situait dans son hypothétique 

facteur dans la direction espérée. Pour 98 des 112 items, les plus 

grandes saturations factorielles se retrouvaient aussi dans le 

facteur et la plupart de celles-ci étaient élevées. 

Dans cette étude, on retrouvait différentes composantes pour 

chaque facteur. Par exemple pour l’Extraversion : niveau d’Activité 

(actif, énergique), Dominance (sûr de soi, autoritaire), Sociabilité 

(extraverti, sociable, bavard), Expressivité (aventureux, carré, 

bruyant, vantard) et Émotions positives (enthousiaste, a du cran). 

Il faut remarquer que ces cinq composantes sont semblables à cinq 

des six facettes que Costa et McCrae [11] ont inclues dans leur 

définition du domaine Extraversion – Activité, Autoritarisme, 

Grégarisme, Surexcitation et Émotions positives. 

3.3.2. Big Five Inventory (BFI) : mesure des caractéristiques 

principales des « Big Five » à l’aide de courtes phrases ou de 

groupes de mots 

Pour répondre au besoin d’un instrument court mesurant les 

prototypes des cinq facteurs de la personnalité communs aux 

investigateurs précédents, John et al. ont construit le « Big Five 

Inventory » [3,22]. Les 44 items du BFI ont été développés en 

Californie pour représenter les prototypes élaborés à partir de 

l’évaluation d’experts et ultérieurement vérifiés par analyse 

factorielle à partir des données d’évaluation d’observateurs. Le 

but était de créer un inventaire bref qui permettrait une mesure 

efficace et flexible des cinq dimensions quand il n’y a pas de 

nécessité de mesure plus approfondie des facettes. 

Les items du BFI n’utilisent pas de simples adjectifs car les 

réponses à de simples adjectifs sont moins précises ; celles-ci sont 

meilleures quand elles sont accompagnées de définitions ou dans 

un contexte plus élaboré. Le BFI utilise de courtes phrases ou des 

groupes de mots basés sur les traits à partir des adjectifs reconnus 

pour être les prototypes de la description des « Big Five », ayant la 

plus grande saturation factorielle dans la dimension [20,24,26].Un 

ou deux adjectifs-types servent d’information principale pour la 

construction de l’item auquel sont ajoutées des informations plus 

élaborées, clarifiantes ou contextuelles. Par exemple, l’adjectif 

appartenant au facteur d’Ouverture « original » devient l’item du 

BFI : est créatif, plein d’idées originales ; et l’adjectif « persévérant » 

O. Plaisant et al. / Annales Médico-Psychologiques 168 (2010) 481–486 485 

du facteur Conscience sert de base à l’item : persévère jusqu’à ce 

que sa tâche soit finie. Bien qu’il n’y ait que huit à dix items par 

facteurs, le BFI présente de bonnes propriétés psychométriques et 

couvre le contenu des domaines. Par exemple, l’échelle d’Agréabilité 

à neuf items dans la version anglaise et espagnole, à dix items 

dans les versions allemande et française, inclut des items couvrant 

au moins cinq des six facettes de Costa et McCrae [11] : Confiance 

(indulgent, confiant), Altruisme (serviable, généreux), Compliance 

(conciliant), Modestie (ne critique pas les autres) et Sensibilité 

(prévenant, gentil). 

Le BFI a été traduit en plusieurs langues. Toutes ces traductions 

ont été construites pour avoir des propriétés psychométriques 

aussi proches que possible de la version originale américaine de 

John et al. [22]. La version espagnole possède 44 items comme la 

version américaine, mais l’ordre des items est différent [3]. En 

français, le BFI-Fr, comme il a été appelé par les auteurs, comprend 

dans sa version définitive 45 items [33] ; il en est de même pour la 

version allemande [27]. Les versions du BFI élaborées en 

collaboration avec Oliver P. John, sauf la version française, sont 

disponibles sur le site : http://www.outofservice.com/bigfive/. Le 

BFI de John et al. [20] aété fréquemment utilisé en recherche 

quand le temps de passation devait être court et quand il était 

préférable d’utiliser de courtes expressions donnant plus d’explications 

que les simples adjectifs de Goldberg et étant moins 

complexes que les phrases utilisées dans les questionnaires NEO de 

Costa et McCrae. Cependant, John et al. soulignent que les 

questionnaires NEO de Costa et McCrae [11] représentent la 

mesure des « Big Five » la plus validée dans la tradition des 

questionnaires ; alors que le TDA à 100 items de Goldberg est la 

mesure la plus communément utilisée en ce qui concerne 

l’utilisation de simples adjectifs [20,24,26]. 

Pour obtenir une comparaison empirique des trois outils 

mesurant les « Big Five », John et al. ont résumé les réponses 

aux trois tests de 829 étudiants de l’université de Californie à 

Berkeley [25,26] qui avaient rempli le BFI, la version à 40 items 

élaborée par Saucier [36] du TDA de Goldberg, ainsi que le NEO PI-R 

de Costa et McCrae [11] à partir duquel ils ont évalué à la fois les 

Tableau 1 

Définitions et exemples d’items du BFI-Fr. 

Exemples d’items français Pôle 

E (Facteur 1) 

Extraversion, Énergie, Enthousiasme 

1. est bavard Positif (élevé) 

6. est réservé Négatif (bas) 

A (Facteur 2) 

A (Agréabilité, Altruisme, Affection) 

32. est prévenant et gentil avec presque tout le monde Positif (élevé) 

27. est parfois dédaigneux, méprisant Négatif (bas) 

C (Facteur 3) 

C (Conscience, Contrôle, Contrainte) 

3. travaille consciencieusement Positif (élevé) 

23. a tendance à être paresseux Négatif (bas) 

N (Facteur 4) 

Émotions Négatives, Névrosisme, Nervosité 

39. est facilement anxieux Positif (élevé) 

9. est « relaxe », détendu, gère bien les stress Négatif (bas) 

O (Facteur 5) 

Ouverture, Originalité, Ouverture d’esprit 

5. est créatif, plein d’idées originales Positif (élevé) 

41. est peu intéressé par tout ce qui est artistique Négatif (bas) 

Le BFI donne une note pour chacun des cinq grands facteurs qui représente la 

moyenne des scores. Chaque item se situe vers le pôle positif (élevé) oulepôle 

négatif (bas) de la dimension. Les deux pôles sont « opposés ». Certains items sont 

cotés àl’envers de telle sorte que chaque score moyen se trouve dans la même 

direction, dans la direction du nom de la dimension. BFI : Big Five Inventory ; Fr : 

français. Items reproduits avec permission.

486 

scores des 30 facettes et ceux des domaines du NEO-FFI. Si 

globalement les corrélations entre les trois outils étaient satisfaisantes, 

une étude minutieuse des résultats a reposé la signification 

et l’ordre d’importance des facteurs ainsi que leur dénomination. 

Le fait qu’il importe peu que les facteurs soient mesurés avec 

des adjectifs, des expressions ou des phrases d’un questionnaire 

suggère que les cinq grandes dimensions ont les mêmes bases 

conceptuelles, quel que soit l’outil utilisé, que cet outil dérive de 

l’approche lexicale, de l’approche par prototype ou de l’approche 

par questionnaire. 

Il existe cinq grandes dimensions de la personnalité que l’on 

peut répliquer et qui peuvent se résumer par un concept large de 

EACNO connu sous le nom de : Extraversion, Agréabilité, 

Conscience, émotions Négatives (Névrosisme), Ouverture. John 

et al. ont pris ainsi la position de ne plus dénommer les facteurs 

mais de leur attribuer une lettre connue sous les anagrammes 

OCEAN ou CANOE, l’océan ou le canoë de la personnalité, moyens 

mnémotechniques permettant de mémoriser les cinq facteurs. Ils 

réfutent aussi le chiffre romain conventionnel attribué à chaque 

facteur dans les analyses lexicales qui reflète l’importance relative 

des facteurs E (I), A (II), C (III), N (IV), O (V) et leur donne ainsi un 

ordre spécifique EACNO, reflet des résultats de l’analyse factorielle. 

Ils préfèrent, comme cela est montré dans le Tableau 1, 

accompagner la dénomination du facteur par sa lettre et par 

une série de termes explicatifs englobant ainsi l’ensemble de la 

définition du facteur [26] (Tableau 1). 

4. Conclusion 

La structure des « Big Five » regroupe à un haut niveau 

d’abstraction les points communs de la plupart des systèmes 

existant sur la description de la personnalité et met à disposition 

un modèle descriptif intégré pour des recherches sur la personnalité. 

Les anagrammes OCEAN ou CANOE de la personnalité résument 

cinq des facteurs réplicables de la description de la personnalité 

qui sont E (Extraversion, Énergie, Enthousiasme) ; A (Agréabilité, 

Altruisme, Affection) ; C (Conscience, Contrôle, Contrainte) ; N 

(émotions Négatives, Névrosisme, Nervosité) ; O (Ouverture, 

Originalité, Ouverture d’esprit). 

Le choix de l’outil utilisé dépend du but de l’étude envisagée. Le 

BFI-Fr [33] dont la traduction a été élaborée de façon à avoir des 

propriétés psychométriques très similaires à celles du BFI 

américain, par sa brièveté et sa facilité de passation, offre un outil 

très maniable pour évaluer rapidement de grands échantillons. Il 

offre aussi un inventaire rapide et fiable voire ludique pour le suivi 

des thérapies et rejoint ainsi les possibilités offertes par le NEO 

[15]. Il peut être utilisé en auto-évaluation ou en évaluation par des 

pairs, y compris les thérapeutes. La version adaptée aux 

adolescents offrira une possibilité d’utilisation au cours des 

évaluations des familles ou des thérapies systémiques [23,38]. 

Conflit d’intérêt 

Aucun. 

Références 

[1] Allen BP, Potkay CR. On the arbitrary distinction between states and traits. J 

Pers Soc Psychol 1981;41:916–28. 

[2] Allport GW, Odbert HS. Trait-names: a psycho-lexical study. Psychol Monogr 

1936;47:211. 

[3] Benet-Martinez V, John OP. Los Cinco Grandes across cultures and ethnic 

groups: multitrait-multimethod analyses of the Big Five in Spanish and 

English. J Pers Soc Psychol 1998;75:729–50. 

[4] Borgatta EF. The structure of personality characteristics. Behav Sci 1964;9: 

8–17. 


[5] Cattell RB. Advances in Cattellian personality theory. In: Pervin LA, editor. 

Handbook of personality: theory and research. New York: Guilford; 1990. p. 

101–10. 

[6] Cattell RB, Eber HW, Tatsuoka MM. Handbook for the Sixteen Personality 

Factor Questionnaire (16PF). Champaign, IL: IPAT; 1970. 

[7] Chaplin WF, John OP, Goldberg LR. Conceptions of states and traits: dimensional 

attributes with ideals as prototypes. J Pers Soc Psychol 1988;54:541–57. 

[8] Costa PT. Clinical use of the five factor model: an introduction. J Pers Assess 

1991;57:393–8. 

[9] Costa PT, McCrae RR. The NEO Personality Inventory manual. Odessa, FL: 

Psychological Assessment Resources; 1985. 

[10] Costa PT, McCrae RR. NEO PI/FFI Manual Supplement. Odessa, FL: Psychological 

Assessment Resources; 1989. 

[11] Costa PT, McCrae RR. NEO PI-R Professional Manual. Odessa, FL: Psychological 

Assessment Resources; 1992. 

[12] Costa PT, McCrae RR. Inventaire NEO PI-R adaptation française (JP Rolland). 

ECPA; 1998. 

[13] Costa PT, Widiger TA, editors. Personality disorders and the five factor model 

of personality. Washington, DC: American Psychological Association; 2002. 

[14] Digman JM, Takemoto-Chock NK. Factors in the natural language of personality: 

re-analysis and comparison of six major studies. Multivariate Behav Res 

1981;16:149–70. 

[15] Fioravanti M, Gough HG, Frere LJ. English, French, and Italian adjective check 

lists. A social desirability analysis. J Cross Cult Psychol 1981;12(4):461–72. 

[16] Fiske DW. Consistency of the factorial structures of personality ratings from 

different sources. J Abnorm Soc Psychol 1949;44:329–44. 

[17] Goldberg LR. Language and individual differences: the search for universals in 

personality lexicons. In: Wheeler L, editor. Review of personality and social 

psychology, vol. 2. Beverly Hills, CA: Sage; 1981 (pp. 141–65). 

[18] Goldberg LR. An alternative ‘‘description of personality’’: the Big-Five factor 

structure. J Pers Soc Psychol 1990;59:1216–29. 

[19] Gough HG, Heilbrun Jr AB. The Adjective Check List manual. Palo Alto, CA: 

Consulting Psychologists Press; 1983. 

[20] John OP. The ‘‘Big Five’’ factor taxonomy: dimensions of personality in the 

natural language and questionnaires. In: Pervin LA, editor. Handbook of 

personality: theory and research. New York: Guilford Press; 1990. p. 66–100. 

[21] John OP, Angleitner A, Ostendorf F. The lexical approach to personality: a 

historical review of trait taxonomic research. Eur J Pers 1988;2:171–203. 

[22] John OP, Donahue EM, Kentle RL. The Big Five Inventory-Versions 4a and 54. 

University of California/Institute of Personality and Social Research: Berkeley; 

1991. 

[23] John OP, Caspi A, Robins RW, Moffitt TE, Stouthamer-Loeber M. The ‘‘Little 

Five’’: exploring the nomological network of the five-factor model of personality 

in adolescent boys. Child Dev 1994;65:160–78. 

[24] John OP, Srivastava S. The Big Five trait taxonomy: history, measurement, and 

theoretical perspectives. In: Pervin LA, John OP, editors. Handbook of personality: 

theory and research. New York: Guilford; 1999. p. 102–38. 

[25] John OP, Soto CJ. The importance of being valid: reliability and the process of 

construct validation. In: Robins RW, Fraley RC, Krueger RF, editors. Handbook 

of research methods in personality psychology. New York: Guilford; 2007. 

[26] John OP, Naumann LP, Soto CJ. Paradigm shift to the integrative Big-Five trait 

taxonomy: history, measurement, and conceptual Issues. In: John OP, Robins 

RW, Pervin LA, editors. Handbook of personality: theory and research (3rd ed.). 

New York: Guilford 2008. 114–58. 

[27] Lang FR, Luedtke O, Asendorpf JB. Validity and psychometric equivalence of 

the German version of the Big Five Inventory in young, middle-aged and old 

adults. Diagnostica 2001;47:111–21. 

[28] Loehlin JC, McCrae RR, Costa PT, John OP. Heritabilities of common and 

measure-specific components of the Big Five personality factors. J Res Pers 

1998;32:431–53. 

[29] McDougall W. Of the words character and personality. J Pers 1932;1:3–16. 

[30] Norman WT. 2,800 personality trait descriptors: normative operating characteristics 

for a university population. Michigan: Department of Psychology, 

University of Michigan; 1967. 

[31] Peabody D, Goldberg LR. Some determinants of factor structures from personality-trait 

descriptors. J Pers Soc Psychol 1989;57:552–67. 

[32] Pervin LA, John OP. La personnalité : de la théorie à la recherche. De 

Boeck, Bruxelles; 2005. 

[33] Plaisant O, Courtois R, Réveillère R, Mendelsohn GA, John OP. Validation du Big 

Five Inventory français (inventaire des cinq grandes dimensions de la personnalité). 

Ann Med Psychol 2010; 168: 97–106 

[34] Rolland JP, Parker WD, Stumpf H. A psychometric examination of the French 

translations of NEO-PI-R and NEO-FFI. J Pers Assess 1998;71(2):269–91. 

[35] Rosch E. Principles of categorization. In: Rosch E, Lloyd B, editors. Cognition 

and categorization. Hillsdale, NJ: Erlbaum; 1978. p. 27–48. 

[36] Saucier G. Mini-Markers: a brief version of Goldberg’s unipolar Big-Five 

markers. J Pers Assess 1994;63:506–16. 

[37] Saucier G, Goldberg LR. Personnalité, caractère et tempérament : la structure 

translinguistique des traits. Psychol Fr 2006;51:265–84. 

[38] Soto CJ, John OP, Gosling SD, Potter J. The developmental psychometrics of Big 

Five self-reports: acquiescence, factor structure, coherence, and differentiation 

from ages 10 to 20. J Pers Soc Psychol 2008;94(4):718–37. 

[39] Thurstone LL. The vectors of mind. Psychol Rev 1934;41:1–32. 

[40] Tupes EC, Christal RC. Recurrent personality factors based on trait ratings. J 

Pers 1992;60:225–51 (réimprimé en 1992).

Texte 3 

Lautrey, J. (2006). Cent ans après Binet, quoi de neuf sur l’intelligence de l’enfant ? Bulletin de 

psychologie, 59, 133-143.

Cent ans après Binet : quoi de neuf sur l’intelligence de l’enfant ? 

1 

Jacques Lautrey 1 

L’année 2005 est celle du centenaire de la publication de la première version de l’échelle 

métrique qu’Alfred Binet et Théodore Simon ont mise au point pour évaluer le 

développement de l’intelligence chez l’enfant (Binet, Simon, 1905). Pour célébrer ce 

centenaire, la Fédération Française des Psychologues et de Psychologie (FFPP), a organisé un 

congrès international intitulé « L’intelligence de l’enfant : cent ans après Binet » qui s’est 

tenu à Paris en octobre 2005 2 et visait à faire le point sur l’état actuel des connaissances sur 

l’intelligence de l’enfant. 

Le propos du présent article est de tenter une synthèse 3 des communications présentées à 

ce congrès afin de dégager quelques unes des lignes de force qui sous-tendent, cent ans après 

Binet, l’évolution des idées sur l’intelligence de l’enfant. Le nombre et la diversité des 

communications présentées 4 suffiraient à dissuader toute tentative de synthèse exhaustive 

mais celle-ci est de toute façon rendue impossible par le fait que les symposia et certaines des 

conférences se déroulaient en parallèle. Comme chacun des participants, l’auteur de ces lignes 

n’a pu assister qu’à un symposium sur quatre et à une conférence semi-plénière sur deux. La 

synthèse qui suit est donc très partielle et forcément partiale. 

Puisqu’à l’origine de ce congrès il y avait la volonté de célébrer le centenaire de la 

publication de l’échelle métrique de l’intelligence de Binet et Simon, commençons par ce qui 

s’est dit de l’histoire de cette invention. Deux points ressortent plus particulièrement de la 

conférence que Michel Huteau (Conservatoire National des Arts et Métiers) a consacrée à 

cette question, d’une part la rupture créée par les idées de Binet avec la conception de 

l’intelligence de l’enfant qui était dominante à l’époque, d’autre part la faiblesse de l’impact 

que l’échelle métrique a eu en France, par rapport à celui qu’elle a eu dans le reste de 

l’Europe et surtout aux États-Unis. À la fin du XIXe siècle, la théorie dominante sur le 

1 Professeur émérite à l’Université Paris 5-René Descartes, Centre Henri Piéron, 71 Avenue Edouard Vaillant, 92 

774 Boulogne-Billancourt. Courriel : jacques.lautrey@psycho.univ-paris5.fr 

2 Ce congrès, qui a réuni 1225 participants et 85 conférenciers, s’est tenu du 6 au 8 octobre 2005 au Palais de la 

Mutualité sous le haut patronage du ministère de l’Education et de la Recherche et du ministère de la Santé, avec 

le soutien de la Fédération européenne des associations de psychologues et de l’Association américaine de 

psychologie. 

3 Cet article reprend la synthèse présentée dans la conférence de clôture du congrès. 

4 une vingtaine de conférences plénières ou semi-plénières et une cinquantaine de communications dans des 

symposia ou des tables rondes ont été présentées et elles ont porté sur des thèmes relevant aussi bien de la 

pratique de l’évaluation de l’intelligence que de la recherche fondamentale dans ce domaine.

fonctionnement de l’intelligence était l’associationnisme : la pensée était supposée procéder 

de l’association d’images et les images étaient supposées procéder de l’association de 

sensations. Wundt adhérait à cette théorie associationniste et le principe sur lequel il avait 

fondé la psychologie expérimentale était qu’à l’instar de la physique, la psychologie 

scientifique devait aborder l’étude des phénomènes psychiques complexes en les 

décomposant en éléments plus simples et en commençant par l’étude de ces éléments. Ceci 

explique que les premières tentatives de mesure de l’intelligence, celles de Galton et de 

Cattell, aient été focalisées sur la mesure de sensations. Si les sensations étaient les briques 

avec lesquelles se construisait l’intelligence, l’efficacité de cette dernière devait en somme 

être déterminée par la qualité des briques. 

Binet, qui avait d’ailleurs lui-même adhéré à l’associationnisme auparavant, a rompu avec 

cette conception à la fois sur le rôle des images, et sur celui des sensations. Sur le premier 

point, il a contribué à montrer qu’il y a une pensée sans images et a suggéré que l’origine de 

la pensée était plutôt à chercher dans l’activité du sujet. Selon Michel Huteau, ce point de vue 

préfigurait le rôle que Piaget a plus tard donné à l’action dans la construction de la pensée 

logique, et il a rappelé à cette occasion que Piaget a mis en oeuvre les méthodes d'étude de 

l'intelligence de Binet lors de son séjour à Paris de 1919 à 1921. Sur le second point, Binet a 

très tôt affirmé (voir Binet, Henri, 1895) que la mesure de l’intelligence devait s’appuyer sur 

l’étude des différences d’efficience observées dans les processus supérieurs plutôt que dans 

des processus aussi élémentaires que les sensations, comme le faisaient Galton et Cattell à 

cette époque. L’échelle métrique était l’application de ces idées à la mesure de l’intelligence. 

Pourquoi le Binet-Simon n’a-t-il pas eu en France l’impact qu’il a eu aux États-Unis où en 

quelques années il a donné naissance au mouvement des tests ? Plusieurs raisons ont pu jouer 

et Michel Huteau en a évoqué quelques unes. Parmi celles-ci le décès prématuré de Binet bien 

sûr, l’année même de la publication de la troisième version de son test (Binet, 1911). 

L’absence de disciples aussi, qui n’était sans doute pas étranger à son caractère indépendant. 

Mais un des facteurs les plus décisifs a sans doute été la froideur de l’accueil fait à l’échelle 

métrique par les expérimentalistes. La communauté des expérimentalistes était en fait très 

restreinte et se concentrait dans le laboratoire de Villejuif, dirigé par Edouard Toulouse, dont 

les assistants étaient Henri Piéron et Nicolas Vaschide. Cette équipe travaillait aussi à la mise 

au point de techniques de mesure de l’intelligence mais restait encore très attachée à 

l’approche associationniste et élémentiste défendue par Wundt (Toulouse, Vaschide, Piéron, 

1904). Même si Piéron s’est mis, lui aussi, avec certes un certain retard sur Binet, à 

l’évaluation des processus supérieurs, il est par contre toujours resté réticent vis-à-vis de la 

2

notion d’intelligence globale. Il concevait les aptitudes comme multiples et indépendantes, ce 

qui lui a plus tard fait trouver beaucoup plus d’intérêt à la conception multi-factorielle de 

l’intelligence défendue par Thurstone qu’à la notion de QI ou à celle de facteur général. Or, 

Comme l’a rappelé Michel Huteau, c’est Piéron qui s’est trouvé par la suite en position de 

développer la psychologie scientifique en France. Le désaccord qui l’opposait à Binet sur les 

méthodes d’évaluation de l’intelligence est probablement une des raisons du manque de 

reconnaissance de la communauté de psychologie scientifique française envers le Binet- 

Simon (voir Huteau, 2001, sous presse). 

Il était donc important que le centenaire de l’échelle métrique soit célébré en France et ce 

congrès international a été une excellente occasion de manifester à l’œuvre de Binet sur 

l’intelligence de l’enfant, une reconnaissance qui lui a longtemps été assez chichement 

mesurée dans son propre pays. 

La synthèse qui suit est articulée autour de quelques évolutions majeures dans les idées 

sur l’intelligence qui m’ont paru se dégager des communications présentées au congrès. 

DES PROCESSUS SUPÉRIEURS AUX PROCESSUS EXÉCUTIFS 

Binet a varié dans la liste des processus supérieurs qui lui paraissaient sous-tendre 

l’intelligence. Il a par exemple cité la mémoire, l’imagination, l’attention, la faculté de 

comprendre (Binet, Henri, 1895) ; le bon sens, le sens pratique, l’initiative, la faculté de 

s’adapter (Binet, Simon, 1905) ; la compréhension, l’invention, la direction, la censure (Binet, 

1909). Il n’a par contre jamais varié dans l’idée que l’explication des différences d’efficience 

intellectuelle devait être recherchée à ce niveau. Cette idée est manifestement encore 

d’actualité, à ceci près que les processus supérieurs auxquels on s’intéresse maintenant sont 

les processus exécutifs, ceux qui se trouvent au sommet d’une organisation hiérarchique du 

fonctionnement cognitif et assurent le contrôle des autres processus cognitifs. Selon les cadres 

théoriques de référence, il s’agit des processus responsables de la capacité de la mémoire de 

travail, de la capacité attentionnelle, de la puissance mentale, ou de la métacognition. Une 

nette convergence s’est manifestée sur ce point au cours du congrès. 

Dans le cadre de la perspective développementale, Juan Pascual-Leone (Université de 

Toronto) a présenté l’état actuel de sa théorie neo-piagétienne du développement de 

l’intelligence. Celle-ci met l’accent sur un système central de gestion attentionnelle dont les 

principaux opérateurs sont celui de puissance mentale, M, qui définit le nombre de schèmes 

pouvant être activés simultanément, celui d’inhibition, I, qui permet d’interrompre l’exécution 

3

de schèmes non pertinents, et E, celui des schèmes exécutifs qui définissent les buts et 

allouent les ressources d’activation aux autres opérateurs. On retrouve cette idée de ressource 

centrale limitée, dont la capacité s’accroît avec le développement, dans les autres théories 

neo-piagetiennes qui ont été présentées par Anik de Ribaupierre (Université de Genève). Cette 

ressource centrale correspond à l’empan de la mémoire de travail dans la théorie de Robbie 

Case, ou au niveau optimal dans la théorie de Kurt Fischer. Toutes les théories neopiagetiennes 

ont en commun de lier le développement cognitif à l’accroissement de cette 

capacité cognitive centrale. Une vue d’ensemble de ce courant de recherche peut être trouvée 

dans un ouvrage collectif (Demetriou, Shayer, Efklides, 1988) et dans une discussion critique 

de son évolution plus récente (Ribaupierre, 1997). 

Dans le cadre de l’étude neuropsychologique du développement de la pensée logique, 

Olivier Houdé (Université Paris 5) a lui aussi mis l’accent sur le rôle central des processus 

exécutifs responsables de l’activation et de l’inhibition dont le siège est situé dans les aires du 

cortex préfrontal (Houdé, 2005). Les travaux d’imagerie cérébrale de Duncan et 

collaborateurs vont dans le même sens en montrant que ce sont principalement les aires du 

cortex préfrontal qui sont activées lorsque des sujets résolvent des tests saturés par le facteur 

général d’intelligence fluide (Duncan, Seitz et coll., 2000). 

Dans le cadre de l’approche expérimentale et de l’approche différentielle maintenant, les 

travaux actuels sur la mémoire de travail présentés par Thierry Lecerf (Université de Genève) 

montrent que celle-ci explique une grande partie de la variance du facteur d’intelligence 

fluide, tel qu’il est mis en œuvre dans des épreuves comme les matrices progressives de 

Raven (Conway, Cowan et coll., 2002 ; Engle, Tuholski et coll., 1999). Pour ces auteurs, la 

mémoire de travail (MT) correspond aux éléments activés de la mémoire à long terme et son 

empan renseigne sur la capacité attentionnelle maximale susceptible s’être mise en œuvre 

pour maintenir l’activation de ces éléments. 

Peut-on donc conclure que le facteur général d’intelligence fluide, qui est le plus proche 

du facteur général d’intelligence, correspond à la capacité de la mémoire de travail ? Oui pour 

une bonne part, c’est une des conclusions que l’on peut tirer des travaux présentés à ce 

congrès. Mais il faut aussitôt se demander si la notion de mémoire de travail n’est pas aussi 

globale que la notion d’intelligence. Dès que l’on commence à analyser plus avant les 

processus en jeu dans la mémoire de travail, on est amené à distinguer, par exemple, les 

processus de commutation, de mise à jour, et d’inhibition (Miyake, Friedman et coll., 2000). 

Or les corrélations entre ces différents processus ne sont pas très fortes. En outre, si on pousse 

plus loin l’analyse d’un des ces processus, par exemple celle du processus d’inhibition, il faut 

4

alors au moins distinguer une forme d’inhibition qui correspond à la résistance à 

l’interférence de distracteurs et une autre qui correspond à la résistance à l’interférence pro- 

active et, à nouveau, elles sont peu liées entre elles (Friedman, Miyake, 2004). De même faut- 

il faire des distinctions entre l’efficience dans les épreuves de MT verbale, de MT spatiale, et 

de MT numérique (Mackintosh, Bennett, 2003). 

De fait, l’analyse factorielle d’un ensemble de tâches cernant les différents processus et 

les différents contenus de la MT fait apparaître une structure factorielle hiérarchique très 

similaire à celle qu’on obtient pour l’intelligence, avec un facteur général de MT et des 

facteurs de groupe. Et c’est en fait le facteur général de mémoire de travail qui corrèle 

fortement avec le facteur général d’intelligence (Süss, Oberauer et coll., 2002). A-t-on 

beaucoup avancé en remplaçant un concept aussi global que celui d’intelligence par un 

concept aussi global que celui de mémoire de travail ? L’avenir le dira. La progression ne se 

confirmera que si on se montre capable de modéliser la façon dont les différents processus en 

jeu dans la mémoire de travail s’orchestrent pour rendre compte de la performance globale. 

Dans l’état actuel de l’art, on sait évaluer directement la performance globale, on sait aussi 

isoler les processus plus élémentaires qui interviennent dans cette performance globale, mais 

on ne sait pas modéliser la façon dont tous ces processus s’assemblent pour aboutir à cette 

performance globale. On oscille donc entre une approche globale et une approche élémentiste, 

sans savoir comment les relier car sans doute faudrait-il avoir d’autres modèles du 

fonctionnement cognitif, plus systémiques, pour pouvoir articuler ces deux vues partielles. 

Wechsler disait que l’intelligence est dans l’orchestration or, pour filer la métaphore, nous 

savons comment marche chacun des instruments considéré isolément et nous savons apprécier 

si le produit global du jeu de l’orchestre est plus moins harmonieux, mais nous ne 

comprenons pas comment se fait l’orchestration dans un système qui ne comporte pas de chef 

d’orchestre. Le point suivant suggère peut-être quelques pistes. 

DES MODÈLES STATIQUES AUX MODÈLES DYNAMIQUES DE L’INTELLIGENCE 

Les modèles de l’intelligence ont longtemps été statiques. C’est le cas de la structure 

factorielle de l’intelligence. C’est aussi le cas des structures opératoires dans la théorie de 

Piaget. Dans ce dernier cas, c’est le modèle de l’équilibration qui avait pour fonction de 

rendre compte de la dynamique de la construction cognitive, mais il n’a pas paru apporter une 

modélisation testable des mécanismes de transition entre les différents états décrit pas les 

structures opératoires. 

5

Une évolution notable dans le champ du développement cognitif est la montée en 

puissance d’approches qui visent à modéliser la dynamique du changement développemental 

et qui incluent donc la flèche du temps dans leur formalisation. C’est en particulier le cas des 

modèles connexionnistes et des modèles de systèmes dynamiques non linéaires. Les uns et les 

autres donnent une large place aux mécanismes d’auto-organisation dans l’explication du 

développement cognitif. Deux ouvrages ont particulièrement cristallisé et théorisé ces 

évolutions. Pour la modélisation connexionniste du développement, « Rethinking Innateness » 

(Elman, Bates, et coll., 1996) et pour l’approche des systèmes dynamiques, « A dynamic 

systems approach to the development of cognition and action », (Thelen, Smith, 1994). La 

vitalité de ces courants de recherche est attestée par la publication en 2003 d’un numéro 

spécial de la revue « Developmental Science » qui leur était consacré. 

Plusieurs des conférences présentées à de ce congrés s’inscrivaient dans ce courant, celles 

d’Annette Karmiloff et d’Ulman Lindenberger pour la modélisation connexionniste et celle de 

Paul van Geert pour la modélisation de systèmes dynamiques. Quel est l’intérêt de ces 

approches ? 

L’un des apports est évidemment de permettre de simuler le processus de changement luimême. 

Ces simulations fonctionnent par itérations : à chaque pas, l’état du système est calculé 

en fonction de son état au pas précédent. La flèche du temps est ainsi incluse dans le modèle. 

Un autre apport de ces modélisations est de démontrer que des processus d’auto-organisation 

assez simples ont le pouvoir de provoquer des changements qui ressemblent à certains des 

changements observés dans les processus d’apprentissage ou de développement. Les 

possibilités d’expérimentation virtuelle qu’offre la simulation sont aussi appréciables. Par 

exemple, ce que peut apprendre un réseau connexionniste dépend de sa structure initiale, 

c’est-à-dire du nombre d’unités d’entrée, du nombre d’unités de sortie, du nombre d’unités 

dans la couche interne, de l’architecture des connexions entre ces unités, des algorithmes de 

propagation de l’activation entre ces unités, etc. Les méthodes de simulation permettent de 

jouer sur tous ces paramètres pour en voir les conséquences sur le développement. Elles 

permettent ainsi d’expérimenter, par exemple, sur les conséquences de telle ou telle 

modification de l’état initial pour le développement ultérieur. C’est en ce sens que, pour 

reprendre le titre de l’ouvrage « Rethinking innateness », la simulation offre une voie 

intéressante pour « repenser l’innéité ». 

C’est dans cet esprit qu’Annette Karmiloff (Institut de la santé de l’enfant de Londres), 

une des co-signataires de cet ouvrage, s’est appuyée sur la modélisation connexionniste pour 

repenser la modularité de l’esprit. Selon elle, il n’est pas nécessaire que des réseaux 

6

neuronaux soient déjà spécifiques à certains domaines de connaissance à la naissance pour 

pouvoir expliquer l’existence de modules spécialisés à l’état adulte. Il suffit que les réseaux 

neuronaux aient une architecture appropriée aux caractéristiques de l’information relative à un 

domaine pour qu’ils l’emportent dans la compétition avec d’autres réseaux neuronaux pour 

prendre ce domaine en charge. Mais si le réseau neuronal le plus approprié à un domaine de 

connaissance n’est pas fonctionnel ou n’est pas suffisamment fonctionnel, d’autres moins 

appropriés peuvent y suppléer, même s’ils remplissent moins bien la même fonction. Si cette 

hypothèse est exacte, la dynamique développementale de ces phénomènes de suppléance doit 

avoir pour conséquence que les pathologies entraînées par la lésion d’un réseau neuronal chez 

le bébé ou chez le jeune enfant, ne sont pas de même nature que les pathologies entraînées par 

la même lésion chez l’adulte. 

Dans sa conférence, Annette Karmiloff-Smith a étayé ce point de vue en donnant 

plusieurs exemples d’études dans lesquelles elle a pu montrer que chez des enfants dont 

certains réseaux neuronaux présentent des altérations d’origine génétique, l’information 

habituellement traitée par ces réseaux est prise en charge par d’autres processus. Par exemple, 

les enfants qui présentent le syndrome de Williams, une pathologie d’origine génétique dans 

laquelle le traitement du langage est relativement préservé alors que le traitement de 

l’information spatiale est très déficitaire, parviennent pourtant à construire – avec retard – la 

notion de cardinalité du nombre mais en s’appuyant pour cela sur le langage là où les autres 

enfants s’appuient sur un traitement visuo-spatial des objets à dénombrer (Ansari, Donlan et 

coll., 2003). 

On reproche parfois à l’approche connexionniste du développement de ne modéliser que 

de petites tâches spécifiques, comme la tâche de la balance ou la conjugaison des verbes au 

temps passé, mais d’échouer à rendre compte de caractéristiques générales du développement 

qui soient transversales aux différentes tâches et domaines. La conférence d’Ulman 

Lindenberger (Institut Max-Planck de Berlin pour le développement humain) a apporté un 

contre-exemple. En collaboration avec Shu Chen Li, ce chercheur a proposé un modèle 

connexionniste qui simule un certain nombre de caractéristiques générales du vieillissement. 

On sait qu’avec le vieillissement, on observe une baisse moyenne des performances 

cognitives, une dédifférenciation des aptitudes et une augmentation des différences 

individuelles. Pour simuler le vieillissement d’un réseau de neurones, Lindenberger, Li, 

Brehmer, (2002) ont simplement diminué le paramètre de gain, c’est-à-dire la pente de la 

fonction logistique qui, pour chaque neurone du réseau, relie le niveau d’activation reçu en 

entrée au niveau d’activation produit en sortie. Lorsque la pente de cette fonction est élevée, 

7

de petites différences d’activation en entrée, autour de la zone du seuil de réaction du neurone, 

provoquent de grandes différences d’activation en sortie, ce qui permet des discriminations 

nettes entre les entrées. Lorsque la pente de cette fonction est plus réduite, les petites 

variations en entrée sont moins bien discriminées et il y a plus de bruit dans les activations en 

sortie. En présentant diverses tâches d’apprentissage à deux groupes de réseaux neuronaux, 

l’un constitué de réseaux dits « jeunes » (paramètre de gain fixé à des valeurs hautes chez les 

différents individus) et l’autre de réseaux dits « vieux » (paramètre de gain fixé à des valeurs 

basses), Li et Lindenberger montrent la manipulation de ce seul paramètre reproduit les trois 

effets observés dans le vieillissement cognitif humain : baisse du niveau moyen des 

performances, dédifférenciation des aptitudes (c’est-à-dire augmentation des corrélations 

entre les performances dans les différentes tâches), et augmentation des différences 

individuelles. Reste bien sûr à interpréter ce paramètre, à trouver à quoi il peut correspondre 

dans les réseaux de neurones réels. L’hypothèse des auteurs est que cette diminution dans la 

pente de réaction de chacun des neurones du réseau pourrait correspondre à une baisse de la 

concentration en neurotransmetteurs dopaminergiques avec l’âge. Quelle que soit 

l’interprétation, le point intéressant dans ce type de modélisation est de montrer comment des 

propriétés générales du fonctionnement cognitif peuvent être distribuées sur l’ensemble du 

réseau. 

L’approche des systèmes dynamiques est une autre manière de modéliser l’autoorganisation 

d’un système. Ses principes généraux et quelques exemples ont été présentés par 

Paul van Geert (Université de Groningen) dans le symposium sur les théories actuelles de 

l’intelligence. Le comportement est ici vu comme le produit d’une assemblée souple de 

composantes qui interagissent et forment donc un système. Par rapport aux réseaux 

neuronaux, les composantes sont ici plus molaires et elles incluent aussi bien des éléments de 

l’organisme, processus neuronaux ou parties du corps, que des éléments de l’environnement 

dans lequel cet organisme évolue. C’est tout cet ensemble qui constitue le système et 

contribue à son évolution. On a donc affaire à une conception en général plus contextualiste 

du fonctionnement cognitif qu’avec les réseaux neuronaux. Le temps est ici aussi une 

composante essentielle de la modélisation, puisque l’état de chacune des composantes au 

moment t est fonction de son état et de l’état de toutes les autres composantes à l’état t − 1 et 

influence ce que sera son état et celui de toutes les autres composantes à l’état t + 1, etc. Sans 

entrer davantage dans les caractéristiques de ce type de modèles on peut souligner plus 

particulièrement deux de leurs apports à l’évolution des représentations du développement 

cognitif. 

8

L’un est de contribuer à faire évoluer le statut épistémologique des variations en 

psychologie (van Geert, van Dijk, 2002). Celles-ci ne sont pas considérées comme des 

bizarreries gênantes à neutraliser, mais comme la source même de la dynamique du système. 

Les variations intra-individuelles, les phases d’instabilité, sont essentielles pour permettre 

aux composantes du système de se désassembler, de s’ajuster différemment, pour évoluer 

vers un nouvel attracteur et s’y stabiliser dans des assemblages différents. Les degrés de 

liberté qui existent dans la nature des différentes composantes susceptibles de s’assembler 

pour remplir une certaine fonction adaptative sont aussi à l’origine de variations 

interindividuelles dans les trajectoires conduisant à un même attracteur ou même dans le type 

d’attracteur vers lequel le système évolue. 

Un autre apport important est de mettre l’accent sur la dynamique que provoquent les 

interactions entre les différents processus de traitement d’une part et entre ces processus de 

traitement et les éléments du contexte d’autre part. Pour illustrer cet aspect des modèles 

dynamiques, Paul van Geert a simulé sur ordinateur et montré sur écran au cours de sa 

conférence, les effets de la manipulation de différents paramètres de l’interaction entre 

composantes du système cognitif sur la courbe de développement. Par exemple la 

manipulation des poids respectifs de l’intelligence fluide et de l’intelligence cristallisée dans 

l’hypothèse d’une relation de support mutuel entre ces deux formes d’intelligence au cours du 

développement, ou encore la manipulation de l’écart entre le niveau de développement requis 

par l’enseignant et celui auquel se situe l’élève. Dans ce second exemple, les effets sur la 

courbe de développement faisaient clairement ressortir l’existence d’un optimum dans 

l’ampleur de cet écart, optimum qu’il est tentant d’assimiler à ce que Vygotski appelait la 

zone proximale de développement. 

Une conception dynamique du développement de l’intelligence caractérisait aussi des 

communications qui s’appuient sur d’autres cadres théoriques que les modélisations évoquées 

ci-dessus. En plaçant le développement de l’intelligence à l’interface entre affectivité et 

cognition et en cherchant à articuler psychanalyse et psychologie cognitive pour comprendre 

le fonctionnement de cette interface, Bernard Golse (service de psychopathologie de l’enfant à 

l’hôpital Necker) a mis l’accent sur le rôle crucial joué par la dynamique des interactions entre 

modalités perceptives, ou entre l’enfant et son environnement. Un des exemples développés 

est celui du rôle de la dynamique de l’accordage affectif entre le bébé et sa mère, dynamique 

dont les caractéristiques (par exemple la rapidité des réactions) formeraient la base de la 

représentation que se fait le bébé de l’état affectif de sa mère. Un autre exemple est le rôle que 

9

joue, dans la qualité de la co-construction des capacités d’attention, la dynamique des 

interactions entre le bébé et sa mère dans les situations d’attention conjointe. 

DE LA FIXITÉ À LA PLASTICITÉ DU SYSTÈME COGNITIF 

Les marges de variation du système cognitif d’une personne ont longtemps été 

considérées comme assez rigidement déterminées par les contraintes qu’exercent les 

différents déterminants de l’organisation cérébrale, que ceux-ci soient d’ordre génétique, 

neurobiologique, ou processuel. Un des enseignements que l’on peut tirer de ce congrès est 

qu’on trouve à tous ces niveaux beaucoup plus de plasticité qu’on ne le pensait. 

Au niveau génétique 

Commençons par le niveau de déterminisme qui se trouve le plus en amont du système 

cognitif, celui qui peut être attribué au patrimoine génétique. Un point de départ intéressant 

est le paradoxe apparent entre les résultats dont Michèle Carlier (Université de Provence) a 

fait état, à propos des pathologies de la cognition d’origine génétique, et certains de ceux que 

Pierre Roubertoux (CNRS, Université de la Méditerranée) a évoqués à propos de la recherche 

des gènes associés aux différences de QI. Michèle Carlier a donné plusieurs exemples de 

pathologies dans lesquelles une anomalie au niveau d’un seul gène peut affecter tout ou partie 

du fonctionnement cognitif, ce qui montre à l’évidence le rôle déterminant du génome dans la 

cognition. Par ailleurs, Pierre Roubertoux a indiqué que, jusqu’ici, on n’a pu trouver aucun 

gène spécifiquement associé aux différences de QI dans la marge de variation normale. Ce 

dernier résultat ne pouvant évidemment pas être interprété comme une absence d’implication 

des gènes dans la cognition, il suggère que c’est au niveau du système génétique qu’il faut 

chercher l’influence exercée par le patrimoine génétique sur des indicateurs aussi globaux que 

le QI. 

Ceci est à rapprocher des informations que la génétique moléculaire a apportées sur le 

fonctionnement du système génétique. Deux des informations tirées de la conférence de 

Pierre Roubertoux sont particulièrement importantes pour comprendre le caractère systémique 

des mécanismes génétiques. D’une part, l’expression d’un gène dépend des interactions qu’il 

entretient avec les autres gènes (épistasie). D’autre part, l’expression d’un gène est aussi 

fonction des caractéristiques de l’environnement dans lequel il se trouve. Autrement dit, les 

gènes sont certes invariants, mais l’expression de chacun d’entre eux est fonction de 

l’environnement dans lequel il se trouve, le terme environnement étant ici pris au sens large et 

10

incluant les produits des autres gènes (types de protéines) et les milieux plus ou moins 

distants dans lesquels ils s’expriment (Carlier, Roubertoux, 2005 ; Roubertoux, 2004). 

Ces deux propriétés font que l’expression des gènes est le produit d’un système dont la 

plasticité a été sous-estimée. 

Au niveau neurobiologique 

L’architecture neuronale est aussi plus plastique qu’on ne le pensait. Quelques exemples 

de cette plasticité ont été donnés dans la conférence de Scania de Schonen (CNRS, Université 

de Paris 5). Chez le bébé, les réseaux neuronaux qui traitent les visages sont en place dès trois 

mois. Bien qu’ils ne soient pas spécialisés au départ dans la reconnaissance de tel ou tel type 

de visage (par exemple asiatique ou caucasien), ces réseaux se spécialisent rapidement par un 

phénomène de restriction. Les connexions neuronales qui sont régulièrement sollicitées se 

maintiennent, tandis que celles qui ne le sont pas disparaissent. Ainsi, la capacité de faire des 

distinctions fines dans la reconnaissance d’un certain type de visage (par exemple le type de 

visage caucasien pour les enfants européens) s’accompagne de la disparition de la capacité de 

faire des distinctions équivalentes dans le type de visage auquel les enfants ne sont pas 

exposés (visages asiatiques dans cet exemple). Ce phénomène de restriction est déjà sensible à 

trois mois, mais à cet âge, il est encore réversible si l’enfant est exposé régulièrement à un 

autre type de visages que celui auquel il a été habitué. Par contre, après trois ans, il n’est 

pratiquement plus réversible. C’est du moins ce que l’on a longtemps pensé, mais on a 

récemment trouvé un renversement des effets chez des enfants qui avaient été adoptés après 5 

ans, ce qui tend à montrer que la plasticité neuronale est plus importante qu’on ne l’avait cru. 

Les cas de réorganisation des circuits neuronaux après des lésions ou du fait d’un exercice 

intensif vont dans le même sens. Les méthodes d’imagerie cérébrale ont permis de voir, par 

exemple, que les aires motrices correspondant aux doigts de la main gauche sont beaucoup 

plus étendues chez les violonistes professionnels que chez des violonistes amateurs (Elbert, 

Pantev, et coll., 1995), ou que les aires normalement dévolues à la mémoire épisodique sont 

recrutées par l’activité de calcul mental chez un calculateur prodige (Pesenti, Zago, et coll., 

2001). On a aussi longtemps pensé que l’adulte ne formait plus de nouveaux neurones or 

l’existence d’une neurogenèse dans le cerveau adulte du primate a été récemment prouvée et 

ce phénomène a aussi été démontré chez l’homme par la culture de cellules pluripotentes 

prélevées dans plusieurs régions du cerveau. Bien que ces nouveaux neurones soient peu 

nombreux chez l’adulte et que l’on connaisse encore mal leur fonction, ils pourraient jouer un 

rôle dans l’apprentissage et la mémoire en contribuant à moduler les circuits existants (Gross, 

11

2000). Ces différents exemples montrent que la plasticité de l’architecture neuronale est elle 

aussi plus importante qu’on ne l’avait supposé. 

Au niveau processuel 

Une même comportement peut être obtenu en mobilisant des processus de traitement 

différents et donc des circuits neuronaux différents chez des sujets différents. Ces 

phénomènes de vicariance, de redondance, ont déjà été illustrés plus haut dans le cas de 

pathologies, avec l’exemple de vicariance dans la construction de la notion de cardinalité chez 

des enfants présentant le syndrome de williams (Ansari, Donlan et coll., 2003). Ces 

phénomènes de vicariance sont également présents et jouent un rôle fondamental dans le 

fonctionnement cognitif normal (Lautrey, 2002, 2003 ; Reuchlin, 1978). 

En résumé, la plasticité du comportement, qui est le meilleur indicateur de l’intelligence, 

implique la plasticité des processus cognitifs, qui elle-même implique la plasticité des réseaux 

neuronaux, qui elle-même implique une certaine plasticité de l’expression du système 

génétique…. L’intelligence s’accommode mal de déterminismes aussi rigides que ceux que 

l’on a longtemps supposé s’exercer à ces différents niveaux. 

DE LA COGNITION FROIDE À LA COGNITION CHAUDE 

La cognition a longtemps été considérée comme suffisamment autonome pour être étudiée 

indépendamment d’aspects plus « chauds » du fonctionnement psychique comme l’émotion, 

l’affectivité, la personnalité. Le dualisme cartésien, mais sans doute aussi, plus récemment, le 

rôle joué par la métaphore de l’ordinateur dans les débuts de la psychologie cognitive, ont 

contribué à entretenir cet isolationnisme. Sur ce point aussi, les idées ont évolué et les 

recherches qui tentent d’intégrer le chaud et le froid dans le fonctionnement cognitif sont de 

plus en plus nombreuses. Plusieurs communications ont traité de la façon dont l’émotion, 

l’affectivité ou la personnalité interviennent dans la cognition. 

Dans le domaine de la neuropsychologie, la recherche sur les relations entre émotion et 

cognition a connu un regain d’intérêt dans la période récente, notamment avec les travaux de 

Damasio (1995). On connaît mieux maintenant les aires cérébrales impliquées dans cette 

relation. Le cortex préfrontal ventromédian semble être le lieu privilégié de l’interface entre 

le système limbique, qui est le centre des émotions, et le cortex frontal dorsolatéral qui est 

impliqué dans les fonctions exécutives (mémoire de travail, gestion de l’attention, 

planification). Les études de cas de lésion du cortex préfrontal ventromédian chez l’adulte ont 

12

montré que ces lésions affectaient la planification et la décision, surtout dans les domaines 

que l’on peut qualifier de personnel et de social. Le raisonnement sur des questions abstraites 

n’est pas touché mais la capacité à planifier son propre avenir, à se conduire en fonction des 

règles sociales, sont gravement affectées. Scania de Schonen (CNRS, Université de Paris 5) a 

fait état de deux cas d’enfants chez qui une lésion du cortex frontal ventro-médian est 

survenue dans les premiers mois de la vie et qui ont été suivis par Damasio. Les 

comportements observés quelques années après correspondaient d’assez près à ceux observés 

chez les adultes (impulsivité, absence d’anticipation des conséquences de ses propres actions, 

insensibilité aux punitions, comportements d’amassement, mais réussite scolaire normale). 

En dehors de la contribution de Bernard Golse, déjà évoquée plus haut, la question des 

relations entre affectivité et cognition a aussi été abordée dans le symposium « Clinique et 

pratiques de l’examen psychologique ». Anne Andronikof (Université de Paris 10) a rapporté 

à ce sujet une étude dans laquelle les seules différences observées entre des groupes contrastés 

sur la performance scolaire avaient trait à la relation à soi (investissement de soi, capacité à se 

critiquer, etc.). Selon elle, le soi serait le noyau de la relation entre l’affect et la cognition. 

Certaines des recherches sur les relations entre cognition et personnalité, présentées par 

Pierre-Yves Gilles(Université de Provence) dans le symposium « Intelligence de la mesure », 

donnent des résultats qui semblent aller dans le même sens. C’est dans ce cas l’auto- 

évaluation de ses propres capacités cognitives qui semble être le maillon intermédiaire dans la 

relation entre certains facteurs de la personnalité et la cognition. 

En résumé, le climat est manifestement au réchauffement de la cognition. 

DE L’INTELLIGENCE UNIDIMENSIONNELLE À L’INTELLIGENCE 

MULTIDIMENSIONNELLE 

Existe-t-il une intelligence ou des intelligences ? Ce débat a commencé, il y a bien 

longtemps, avec la controverse qui opposait Spearman, partisan d’un facteur général 

d’intelligence, à Thurstone, partisan de facteurs multiples correspondant à des aptitudes 

primaires indépendantes. Il a fallu quelques temps avant de réaliser que ces deux modèles 

factoriels n’étaient pas incompatibles et pouvaient être intégrés dans un modèle hiérarchique 

comportant des facteurs de niveaux de généralité différents : des facteurs primaires corrélés 

entre eux, et des facteurs de niveau hiérarchique supérieur rendant compte de la corrélation 

entre les facteurs primaires. Néanmoins, la controverse a continué, car certains trouvaient trois 

étages et un seul facteur général (Burt et Vernon), tandis que d’autres trouvaient deux étages 

13

et plusieurs facteurs généraux (Cattell et Horn). Un consensus a finalement été trouvé autour 

du modèle de Carroll, qui est un modèle hiérarchique à trois étages et un seul facteur général 

(Carroll, 1993 ; Grégoire, 2004 ; Huteau, Lautrey, 1999). Ce modèle de la structure de 

l’intelligence a été présenté par Jacques Grégoire (Université Catholique de Louvain) et a été 

évoqué à plusieurs reprises au cours du congrès. Pourquoi ce consensus et peut-on considérer 

maintenant ce problème comme réglé ? 

Dans l’analyse factorielle de tests d’intelligence, les facteurs qui peuvent être extraits 

dépendent de l’échantillonnage des tests (par exemple, si on ne met pas de tests d’aptitude 

spatiale ou si on en met trop peu, il ne pourra pas y avoir de facteur spatial), mais comment 

être sûr que l’on a échantillonné toutes les activités intellectuelles possibles ? Le saut en 

hauteur en fait-il partie ? Les facteurs dépendent aussi de l’échantillonnage des sujets qui 

passent ces tests (par exemple, si les sujets sont de niveau général trop homogène, on ne 

trouvera pas de facteur général). Ils dépendent enfin de la méthode d’analyse factorielle 

utilisée (pour prendre un exemple caricatural, on ne trouvera pas de facteur général si on fait 

une rotation orthogonale des facteurs). La difficulté des psychologues à se mettre d’accord sur 

la structure factorielle de l’intelligence a tenu pour une bonne part au fait que les différentes 

études que l’on comparait portaient le plus souvent sur des échantillons de tests différents, 

passés par des échantillons de sujets différents et utilisaient des options différentes dans les 

méthodes d’analyse factorielle. 

Le mérite de Carroll est d’avoir mis un peu d’homogénéité dans tout cela. Comme l’a 

rappelé Jacques Grégoire, Carroll a fait un véritable travail de bénédictin en réanalysant toutes 

les analyses factorielles de tests publiées et utilisables dans la littérature, environ 460, en leur 

appliquant la même méthode d’analyse factorielle : analyse de premier ordre qui extrait des 

facteurs primaires corrélés entre eux, puis analyses d’ordre n+1 pour extraire la variance 

correspondant à la corrélation entre les facteurs d’ordre n. L’examen des 460 analyses a 

permis d’identifier une quarantaine de facteurs de premier ordre, dont chaque étude n’avait 

évidemment échantillonné qu’une partie. Ensuite, Carroll a refait pour chacune de ces 460 

études une analyse de second ordre pour extraire, au deuxième étage du modèle, les facteurs 

qui rendent compte des corrélations entre les facteurs primaires. À ce niveau, huit grands 

facteurs, également corrélés entre eux, suffisent pour rendre compte de l’ensemble des études 

réanalysées. Ils correspondent en gros aux facteurs généraux qu’avaient identifiés Horn et 

Cattell, les plus connus étant les facteurs d’intelligence fluide, cristallisée, visuo-spatiale, 

mémoire, vitesse cognitive. Enfin, une analyse de troisième ordre a permis d’extraire, au 

troisième étage, le ou les facteurs rendant compte de la part de variance commune aux huit 

14

facteurs de second ordre. Aucune des 460 réanalyses n’a abouti à plus d’un facteur général et 

ce facteur général correspond en gros à celui qu’avait extrait Spearman. Le modèle de Carroll 

est donc un modèle de synthèse, capable de rendre compte de l’ensemble des études 

réanalysées. La structure de l’intelligence qu’il définit est multidimensionnelle : elle comporte 

à la fois une dimension commune à toutes les activités intellectuelles analysées et des 

dimensions spécifiques à des formes d’intelligence différentes. 

Si ce modèle fait actuellement consensus, comme on a pu l’observer dans ce congrès, 

c’est simplement parce que les analyses sur lesquelles il repose font l’échantillonnage le plus 

large dont on dispose des tests et des sujets (puisqu’il prend en compte l’ensemble des 

échantillons de tests et de sujets ayant jusqu’ici donné lieu à analyse factorielle) et qu’il leur 

applique une même méthode. Il minimise donc autant que faire se peut les trois facteurs de 

variation mentionnés plus haut. Le problème est-il pour autant résolu sur le fond ? 

Evidemment non, puisqu’en l’absence de théorie unifiée sur l’intelligence, nul ne peut assurer 

que toutes les situations qui devraient figurer dans une batterie de tests d’intelligence ont bien 

été échantillonnées. 

Et c’est ainsi que le débat rebondit actuellement. Plusieurs auteurs défendent l’idée que les 

tests actuels d’intelligence ne mesurent qu’une des formes de l’activité intellectuelle, 

l’intelligence académique, celle qui est valorisée par le système scolaire. On connaît la théorie 

des intelligences multiples de Gardner qui, à côté de l’intelligence logico-mathématique et de 

l’intelligence langagière, valorisées par l’école et évaluées par les tests d’intelligence, défend 

l’existence d’autres formes d’intelligence, par exemple musicale, kinesthésique, intra 

personnelle, interpersonnelle. La théorie triarchique de Sternberg, de son côté, distingue trois 

formes d’intelligence, l’intelligence analytique, évaluée par les tests classiques, l’intelligence 

créative, à laquelle était consacré le symposium organisé par Todd Lubart (Université de Paris 

5), et l’intelligence pratique, que Robert Sternberg (Université de Yale) a illustrée par 

plusieurs exemples dans sa conférence sur l’impact des aspects culturels dans l’évaluation de 

l’intelligence. Aussi bien Gardner que Sternberg postulent que ces différentes formes 

d’intelligence sont indépendantes entre elles et indépendantes de l’intelligence évaluée par les 

tests psychométriques classiques. En d’autres termes, ils considèrent qu’une batterie de 

situations élargissant l’évaluation aux formes d’intelligence qu’ils distinguent n’admettrait 

pas de facteur général. Ces perspectives d’extension du concept d’intelligence sont 

intéressantes et stimulantes. Elles relancent le débat sur l’unicité ou la pluralité des 

intelligences à un moment où un relatif consensus a été trouvé concernant l’intelligence 

mesurée par les tests psychométriques classiques. Néanmoins, jusqu’ici, aucun résultat 

15

empirique solide n’est venu étayer l’hypothèse d’indépendance de ces différentes formes 

d’intelligence. 

L’ÉVOLUTION DES INSTRUMENTS ET DES PRATIQUES D’ÉVALUATION 

Il existe sur ce point un paradoxe intéressant. Depuis Binet, les idées sur l’intelligence ont 

beaucoup évolué. Pour ne parler que des grands mouvements d’idées, il y a eu notamment les 

théories factorielles, la théorie de Piaget et la psychologie cognitive, qui ont chacune 

renouvelé assez profondément nos représentations de l’intelligence. Pourtant, les échelles de 

mesure de l’intelligence ont très peu changé et, jusqu’assez récemment, elles sont restées 

bâties sur les mêmes principes que l’échelle métrique de Binet et Simon. Même si l’on prend 

en compte les modifications opérées par Wechsler, la séparation d’une sous-échelle verbale et 

d’une sous-échelle de performance, c’est une conception de l’évaluation de l’intelligence qui 

a plus d’un demi-siècle. 

Pourquoi ce décalage dans les rythmes d’évolution entre les théories sur l’intelligence et 

les instruments d’évaluation ? Est-ce parce que ceux qui s’occupent d’évaluation de 

l’intelligence, les concepteurs d’instruments et les praticiens qui les utilisent, n’ont pas suivi 

les évolutions théoriques ? En fait, la théorie de Piaget a bel et bien inspiré la construction de 

tests piagétiens et la psychologie cognitive a bel et bien inspiré la construction de quelques 

batteries de tâches destinées à évaluer l’efficience de processus cognitifs, mais ces tests n’ont 

pas supplanté les bonnes vieilles échelles d’intelligence. Pourquoi des échelles construites 

avec une démarche très empirique résistent-elles mieux au temps que des épreuves construites 

sur des fondements théoriques plus élaborés ? 

Vraisemblablement, c’est précisément le caractère a-théorique des échelles de QI qui 

explique leur bonne résistance. En évaluant les performances des sujets dans des activités 

intellectuelles faisant appel aux processus supérieurs et en situant ces performances par 

rapport à celles observées dans leur groupe d’âge, les pionniers de ce type d’évaluation ont 

mis le doigt sur un moyen d’accès direct aux productions du système cognitif. Sous réserve 

que la personne examinée ait bien baigné dans le milieu culturel pour lequel le test a été 

conçu, cet accès direct aux productions du système cognitif renseigne, indirectement, sur son 

fonctionnement global sans qu’il soit nécessaire pour cela de comprendre comment tout cela 

fonctionne. Si un enfant a acquis en temps et en heure les connaissances et les habiletés qui 

sont d’habitude acquises par la plupart des enfants à cet âge là, c’est que son cerveau 

16

fonctionne normalement et on peut pronostiquer que, sauf accident, il acquerra en temps et en 

heure les connaissances et habiletés cognitives plus complexes. 

L’objectif de théories comme celle de Piaget ou celles du traitement de l’information est 

tout différent. Il est de comprendre comment le système cognitif fonctionne et manifestement, 

jusqu’ici, ces théories n’ont donné que des vues partielles de l’intelligence. Par exemple, les 

étapes du développement de la pensée logique pour la théorie piagétienne, ou le rôle de la 

vitesse d’exécution de certains processus élémentaires de traitement de l’information pour la 

psychologie cognitive. Les tests inspirés de ces vues partielles se sont révélés utiles pour 

évaluer certains aspects particuliers du fonctionnement cognitif, mais se sont révélés 

beaucoup moins valides pour remplir la fonction d’évaluation globale de l’efficience du 

système cognitif. C’est à mon avis ce qui explique la bonne résistance des bonnes vieilles 

échelles d’intelligence. 

Toutefois, ce décalage entre la recherche fondamentale sur l’intelligence et la pratique de 

son évaluation est en train de changer. C’est un des enseignements qui peuvent être tirés de ce 

congrès. Cette évolution est apparue nettement, par exemple, dans la présentation de la 

dernière révision de la WISC qu’a faite Larry Weiss, un des chercheurs qui l’ont conduite. 

Pour la première fois, une révision de cette échelle en a modifié assez profondément la 

composition pour intégrer l’évaluation de compétences dont l’intérêt a été mis en évidence par 

l’approche factorielle et par la psychologie cognitive. Les résultats des recherches montrant 

l’importance de la relation entre la mémoire de travail et l’intelligence fluide, qui ont été 

évoquées plus haut, ont convaincu les auteurs de la révision d’introduire une épreuve de 

mémoire de travail, et de dissocier l’épreuve des chiffres à rebours, qui est aussi une épreuve 

de mémoire de travail, de l’épreuve de simple répétition de nombres qui est plutôt une 

épreuve de mémoire à court terme. Ceci a permis d’introduire dans l’évaluation une nouvelle 

dimension de l’intelligence, l’efficience de la mémoire de travail. Il en va de même avec 

l’introduction d’une nouvelle épreuve de vitesse cognitive qui, avec l’épreuve du code permet 

de faire apparaître une dimension correspondant au facteur de vitesse cognitive du modèle de 

Carroll. Les auteurs de la révision se sont par ailleurs décidés à introduire une épreuve de 

matrices inspirée de celle de Raven, dont on sait qu’elle est un des tests les plus fortement 

saturés en facteur général d’intelligence. De leur côté, les concepteurs du K-ABC avaient déjà 

fait cette démarche en introduisant une distinction entre processus simultanés et séquentiels 

inspirée des travaux de neuropsychologie, en particulier de ceux de Luria. Dans leur dernière 

révision de cette échelle, ils font un pas de plus pour indiquer les correspondances entre les 

dimensions du K-ABC et les facteurs du modèle de Carroll. Là encore, l’instrument 

17

d’évaluation se rapproche des conceptions multidimensionnelles qui prévalent dans les 

théories actuelles de l’intelligence. Une des conséquences de cette évolution vers une 

conception multidimensionnelle de l’intelligence est de réduire l’intérêt d’un concept aussi 

global que celui de QI (Lautrey, 2005). 

La conclusion générale que l’on peut tirer de ces différentes évolutions est que le 

cloisonnement qui a longtemps existé entre l’approche psychométrique de l’intelligence et la 

recherche fondamentale sur la cognition est peut-être en train de disparaître. Si ces deux 

démarches sont restées si longtemps cloisonnées, c’est que ni le behaviorisme, exclusivement 

centré sur l’apprentissage, ni la théorie de Piaget, exclusivement centrée sur le développement 

de la pensée logique et ignorant les différences individuelles, ni les premiers modèles de 

traitement de l’information, trop centrés sur les processus élémentaires, n’étaient capables de 

rendre compte d’une fonction aussi complexe que l’intelligence. 

Si ce rapprochement commence enfin à se faire – et c’est la conclusion principale que je 

tire pour ma part des travaux de ce congrès – c’est parce que la psychologie cognitive 

commence à offrir des modèles de fonctionnement qui, à la fois, portent sur les processus 

cognitifs supérieurs (les processus exécutifs) et sont capables de rendre compte de la 

variabilité intra et interindividuelle des performances. C’est ce qui provoque un intérêt 

réciproque, des chercheurs pour les tests d’intelligence et des concepteurs de tests pour 

certaines avancées de la recherche fondamentale. Dans le cas de la mémoire de travail, par 

exemple, les premiers utilisent les tests d’intelligence fluide pour démontrer le caractère 

général et central de la capacité attentionnelle et les seconds intègrent dans leurs tests des 

tâches de mémoire de travail issues de la recherche fondamentale. Cette évolution aurait 

certainement plu à Binet… 

18

RÉFÉRENCES 

Ansari (Daniel), Donlan (Chris), Thomas (Michael), Ewing (Sandra), Peen (Tiffany), 

Karmiloff-Smith (Annette).– What makes counting count ? Verbal and visuo-spatial 

contributions to typical and atypical number development, Journal of experimental 

child psychology, 85, 2003, p 50-62. 

Binet (Alfred), Henri (Victor).– La psychologie individuelle, L’Année psychologique, 2, 1895, 

p. 415-465. 

Binet (Alfred), Simon (Théodore).– Méthodes nouvelles pour le diagnostic du niveau 

intellectuel des anormaux, L’Année psychologique, 11, 1905, p. 191-244. 

Binet (Alfred).- Les idées modernes sur les enfants, Paris, Flammarion, 1909. 

Binet (Alfred).– Nouvelles recherches sur la mesure du niveau intellectuel chez les enfants 

des écoles, L’Année psychologique, 17, 1911, p. 145-201. 

Carlier (Michèle), Roubertoux (Pierre).– Des gènes à la cognition, dans Lautrey (J.), Richard 

(J.-F.), L’intelligence, Paris, Hermès science publ. Lavoisier, 2005, p. 229-242. 

Carroll (John B.) – Human cognitive abilities: A survey of factor-analytic studies, Cambridge, 

Cambridge University Press, 1993. 

Conway (Andrew R. A.), Cowan (Nelson), Bunting (Michael F.), Therriault (David J.), 

Minkoff (Scott R. B.).– A latent variable analysis of working memory capacity, short 

term memory capacity, processing speed, and general fluid intelligence, Intelligence, 

30, 2002, p. 163-183. 

Damasio (Antonio).– L’erreur de Descartes, Paris, Odile Jacob, 1995. 

Demetriou (Andreas), Shayer (Michael), Efklides (Anastasia).– The Neo-Piagetian theories of 

cognitive development : toward an integration, Amsterdam, Routledge, 1988. 

Duncan (John), Seitz (Rüdiger J.), Kolodny (Jonathan), Bor (Daniel), Herzog (Hans), Ahmed 

(Ayesha), Newell (Fiona N.), Emslie (Hazel).– A neural basis for general intelligence, 

Science, 289, 2000, p. 457-460. 

Elbert (T.), Pantev (C.), Weinbruch (C.), Rockstroh (B.), Taub (E) – Increased cortical 

representation of the fingers of the left hand in string players, Science, 270, 1995, p. 

305-307. 

Elman (Jeffrey L.), Bates (Elizabeth A.), Johnson (Mark H.), Karmiloff-Smith (Annette), 

Parisi (Domenico), Plunkett (Kim) – Rethinking Innateness: A connectionist 

perspective on development, Cambridge, Ma, MIT Press, 1996. 

19

Engle (Randall W.), Tuholski (Stephen W.), Laughlin (James E.), Conway (Andrew R. A.).– 

Working memory, short-term memory and general fluid intelligence : a latent variable 

approach, Journal of experimental psychology : General, 128, 1999, p. 309–331. 

Friedman (Naomi), Miyake (Akira).– The relations among inhibition and interference control 

functions : a latent variable analysis, Journal of experimental psychology : General, 

133, 2004, p. 101-135. 

Grégoire (Jacques).– L’examen clinique de l’intelligence de l’adulte, Sprimont, Mardaga, 

2004. 

Gross (Charles G.).– Neurogenesis in the adult brain : death of a dogma, Nature Reviews 

Neuroscience, 1, 2000, p. 67-73. 

Houdé (Olivier).– Intelligence : psychométrie, psychologie cognitive et imagerie cérébrale, 

dans Lautrey (Jacques), Richard (Jean-François), L’intelligence, Paris, Hermès science 

publ. Lavoisier, 2005, p. 279-287. 

Huteau (Michel), Lautrey (Jacques).– Évaluer l’intelligence. Psychométrie cognitive, Paris, 

Presses universitaires de France, 1999. 

Huteau (Michel).– Le débat Binet-Toulouse et les débuts de la psychologie différentielle en 

France, dans Flieller (André) et coll., Questions de psychologie différentielle, Rennes, 

Presses universitaires de Rennes, 2001, p. 23-42. 

Huteau (Michel). – Alfred Binet et la psychologie de l’intelligence, Journal des psychologues, 

sous presse. 

Lautrey (Jacques).– A pluralistic approach to cognitive differenciation and development, dans 

Sternberg (Robert. J.), Lautrey (Jacques.), Lubart (Todd.), Models of intelligence : 

international perspectives, Washington, American psychological press, 2003, p. 117- 

131. 

Lautrey (Jacques).– Le statut de la variabilité entre les individus en psychologie cognitive, 

dans Lautrey (Jacques.), Mazoyer (Bernard.), van Geert (Paul.), Invariants et 

variabilité, Paris, Editions de la Maison des sciences de l’homme, 2002, p. 103-121. 

Lautrey (Jacques) – Le QI: concept mal compris ou concept dépassé?, A.N.A.E., n° 83-84, 

2005, p. 146-150. 

Lindenberger (Ulman), Li (Shu-Chen), Brehmer (Yvonne).– La variabilité dans le 

vieillissement comportemental : conséquence et agent du changement ontogénétique, 

dans Lautrey (Jacques), Mazoyer (Bernard), van Geert (Paul), Invariants et variabilité, 

Paris, Editions de la Maison des sciences de l’homme, 2002, 315-334. 

20

Mackintosh (N. J.), Bennett (E. S.).– The fractionation of working memory maps onto 

different components of intelligence, Intelligence, 31, 2003, p. 519-531. 

Miyake (Akira), Friedman (Naomi P.), Emerson (Michael J.), Witzki (Alexander H.), 

Howerter (Amy), Wager (Tor D.).– The unity and diversity of executive functions and 

their contributions to complex “frontal lobe” tasks : a latent variable analysis, 

Cognitive psychology, 41, 2000, p. 49-100. 

Pesenti (Mauro), Zago (Laure), Crivello (Fabrice), Mellet (Emmanual), Samson (Dana), 

Duroux (Bruno), Séron (Xavier), Mazoyer (Bernard), Tzuro-Mazoyer (Nathalie).- 

Mental calculation in a prodigy is sustained by right prefrontal and medial temporal 

areas, Nature Neuroscience, 4 (1), p.103-107. 

Reuchlin (Maurice).– Processus vicariants et différences individuelles, Journal de 

psychologie, 2, 1978, p. 133-145. 

Ribaupierre (Annick de).– Les modèles néo-piagétiens : quoi de nouveau ?, Psychologie 

française, 42, 1997, p. 9-21. 

Roubertoux (Pierre).– Existe-t-il des gènes du comportement ?, Paris, Odile Jacob, 2004. 

Süss (Heinz-Martin), Oberauer (Klaus), Wittmann (Werner), Wilhelm (Oliver), Schulze 

(Ralf).– Working memory capacity explains reasoning ability – and a little bit more, 

Intelligence, 30, 2002, p. 261-288. 

Thelen (Esther), Smith (Linda B.) – A dynamic systems approach to the development of 

cognition and action, Cambridge, Ma, MIT Press, 1994. 

Toulouse (Edouard), Vaschide (Nicolas), Piéron (Henri).– Technique de psychologie 

expérimentale, Paris, Douin, 1904. 

Van Geert (Paul), van Dijk (Marijn).– Focus on variability : new tools to study intra- 

individual variability in developmental data, Journal of infant behavior and 

development, 25, 2002, p. 340-374. 

21

Texte 4 

Lautrey, J. (2007). Pour l’abandon du QI : les raisons du succès d’un concept dépassé. In M. Duru- 

Bellat & M. Fournier (Eds.), L’intelligence de l’enfant – l’empreinte du social. Auxerre : Editions 

Sciences Humaines.

Pour l’abandon du QI : 

les raisons du succès d’un concept scientifiquement dépassé 

Jacques Lautrey est professeur émérite à l’Université Paris 5 

Il a notamment publié Classe sociale, milieu familial, intelligence (PUF, 1980) ; Evaluer 

l’intelligence : psychométrie cognitive (avec Michel Huteau, PUF, 2003) ; L’intelligence (Dir, 

avec Jean-François Richard, Editions Lavoisier, 2005) ; Les tests d’intelligence (avec Michel 

Huteau, La découverte, 2006) ; L’approche différentielle de l’intelligence, In J. Lautrey (Dir.), 

Psychologie du développement et psychologie différentielle (PUF, 2006). 

Ce chapitre reprend, en la développant, la thèse défendue à l’origine dans un article 

publié par la revue ANAE : Lautrey, J. (2005). Le Q.I. : concept mal compris ou concept 

dépassé ? ANAE, 17,146-149. 

Parmi les concepts issus de la psychologie, il en est peu qui aient autant de succès dans le 

grand public que celui de QI. Les sites internet qui proposent, moyennant quelques euros, 

d’évaluer son propre QI en passant un test d’intelligence en ligne affichent des millions de 

connexions. En 2002, six millions de téléspectateurs ont regardé « Le grand test », une 

émission au cours de laquelle chacun pouvait répondre aux questions tirées d’un test 

d’intelligence et calculer son QI. Les psychologues font état d’un nombre croissant de parents 

qui s’adressent à eux en leur demandant de faire passer un test d’intelligence à leur enfant et 

de leur communiquer son QI. Même la presse people inclut maintenant le QI dans les 

mensurations des stars: celui de Madonna serait de 140 et la rumeur court que celui de Sharon 

Stone serait de 153… 

Les dérives qui accompagnent cette généralisation de l’usage du QI. inquiètent les 

psychologues. En témoigne le manifeste sur les usages du QI, publié récemment par un 

groupe de spécialistes de l’examen psychologique et intellectuel de l’enfant, que de nombreux 

psychologues ont signé 1 . Ce manifeste pointe avec justesse les dérives parfois observées dans 

1 « Des psychologues s’interrogent sur le QI et certains de ses usages », Journal des Psychologues, n° 230, 

septembre 2005. Le site www.psy-et-QI.com sur lequel le texte de ce manifeste peut être signé fait état de plus 

de 600 signatures à la date où ces lignes sont écrites.

l’usage qui est fait du QI par certains psychologues, certains media, certains services 

administratifs et, plus généralement, par les différents usagers de l’examen intellectuel de 

l’enfant (dans la suite, le terme usagers réfèrera à cet ensemble d’utilisateurs potentiels du 

QI). Il rappelle, par exemple, que le chiffre du QI, à lui seul, n’a aucune signification et que 

seule l’interprétation que peut en faire le psychologue, à la lumière des autres informations 

recueillies au cours de l’examen psychologique, permet de passer de ce chiffre à une 

évaluation des capacités intellectuelles. 

Cette contribution à la réflexion sur les usages du QI est utile. Elle est cependant insuffisante 

car le texte mentionné plus haut ne questionne pas assez clairement la pertinence même du 

concept de QI dans l’état actuel de nos connaissances sur l’intelligence. Certaines de ses 

faiblesses sont certes mentionnées, mais la position des auteurs reste sur ce point ambiguë. Ils 

affirment en effet avec force que « Le QI, qui a bientôt 100 ans, est devenu une donnée 

scientifique et sophistiquée, une source exceptionnelle d’informations privilégiées pour le 

psychologue ». Pour les auteurs de ce manifeste, le problème semble donc venir surtout de ce 

que la signification complexe de l’indication chiffrée exprimant le QI échappe à beaucoup de 

ceux qui utilisent cette notion. Cette analyse des mésusages du QI les conduit à revendiquer 

que les psychologues soient les seuls à pouvoir en faire usage et aient le droit de refuser de le 

communiquer . 

La curiosité du grand public pour ce qui touche au QI tient en bonne partie à l’importance que 

notre société accorde aux capacités intellectuelles et en particulier à la forme d’intelligence 

requise pour réussir à l’école. La corrélation observée entre QI et réussite scolaire 2 contribue 

certainement à cette valorisation du QI et, plus généralement, à alimenter la curiosité pour ce 

qui touche à l’évaluation de l’intelligence. Cette curiosité est légitime et doit être satisfaite. 

Dans ce contexte, l’attitude de psychologues qui calculeraient un QI, le consigneraient dans 

un dossier, mais refuseraient de le communiquer aux usagers concernés risque d’être mal 

comprise. Il est certes problématique que la notion de QI, telle qu’elle est comprise par les 

usagers de la psychologie, aiguille sur de fausses pistes leur légitime curiosité sur 

l’intelligence et sur la façon dont celle-ci peut être évaluée. Mais peut-être vaudrait-il mieux 

commencer par se demander pourquoi la notion de QI est si mal interprétée et à quoi peut 

bien tenir alors son succès auprès du grand public. 

2 Cette corrélation est en moyenne de l’ordre de .50, ce qui signifie que le QI peut rendre compte de 25% de la 

variance observée dans les résultats scolaires. 

2

Des représentations erronées mais pérennes 

Ce succès tient, c’est du moins notre hypothèse, à ce que la représentation de l’intelligence 

implicitement véhiculée par la notion de QI se trouve précisément être celle qui correspond 

aux conceptions spontanées de tout un chacun. Mais comment expliquer alors cette 

correspondance entre la représentation de l’intelligence véhiculée par le concept de QI et celle 

du sens commun? 

Il est en fait fréquent, dans l’histoire des sciences, que les recherches s’appuient au départ sur 

des concepts du sens commun dont elles modifient ensuite la définition au fur et à mesure des 

réajustements qu’imposent les résultats expérimentaux. C’est ce qui s’est passé pour le 

concept d’intelligence. Les premières tentatives de mesure, faites il y a maintenant plus d’un 

siècle par des pionniers comme Alfred Binet, qui avait élaboré la première « échelle 

métrique » du développement de l’intelligence, ou Charles Spearman, qui a proposé la 

première procédure mathématique pour extraire ce qu’il pensait être l’unique facteur commun 

aux tâches intellectuelles, qu’il appelait le facteur général d’intelligence (facteur g), 

s’appuyaient sur une représentation unidimensionnelle de l’intelligence qui était celle du sens 

commun. Au cours du siècle qui s’est écoulé depuis, les recherches ont conduit à une 

représentation qui s’est beaucoup écartée de cette conception unidimensionnelle alors que 

cette dernière est restée pérenne dans le grand public. Il n’y a donc plus de correspondance 

évidente entre la façon dont les psychologues qui ont suivi cette évolution scientifique 

interprètent les résultats d’un test d’intelligence et la façon dont le public se représente 

l’intelligence à travers la notion de QI. 

Comment sortir de ce malentendu ? En réservant l’usage du QI aux psychologues comme le 

préconisent les auteurs du manifeste cité plus haut? En expliquant mieux cette notion aux 

usagers ? En l’abandonnant ? C’est ce dernier point de vue qui sera défendu ici. 

L’inconvénient de la notion de QI est en effet de susciter des inférences erronées qui 

contribuent à cristalliser une représentation scientifiquement dépassée de l’intelligence. 

Selon nous, les instruments d'évaluation dont les psychologues peuvent disposer aujourd’hui 

leur permettent effectivement de tirer des informations scientifiques d'une grande richesse sur 

l'intelligence mais le concept de QI , par contre, n'est plus adapté pour rendre compte de cette 

richesse et devrait donc être abandonné, y compris par les psychologues. 

En évaluant l’intelligence d’une personne par un indicateur chiffré unique, le QI suscite chez 

les usagers des inférences trompeuses sur ce qui est mesuré. Il suggère implicitement que 

3

l’intelligence est une entité unidimensionnelle (puisqu’un indicateur unique suffit à la 

caractériser), dont chaque personne possède une certaine quantité (puisque cet indicateur est 

un nombre), qui caractérise cette personne de façon stable (puisque Madonna a, aujourd’hui 

comme hier, un QI de 140). Le malentendu vient de ce que, comme on se propose de le 

montrer dans ce qui suit, chacune de ces trois inférences est erronée. 

1. De l’inconvénient de résumer l’évaluation de l’intelligence par un indicateur unique 

L’utilisation d’un indicateur unique suggère que l’intelligence est une fonction unitaire, dont 

l’efficience peut être caractérisée de façon globale. Cette représentation est celle qui a inspiré, 

il y a un siècle, la notion globale d’âge mental à Binet, le calcul du Quotient Intellectuel par 

Stern (voir encadré), et l’extraction d’un facteur général d’intelligence par Spearman. Comme 

cela a été indiqué plus haut, les recherches ultérieures ont conduit à abandonner cette 

représentation unidimensionnelle de l’intelligence. 

Dans le cadre des travaux qui se sont appuyés sur les méthodes d’analyse factorielle pour 

étudier l’intelligence, une évolution longue et laborieuse a abouti à un modèle factoriel 

hiérarchique à trois niveaux, dans lequel s’articulent un facteur général d’intelligence, des 

facteurs de groupe larges correspondant à différents aspects de l’intelligence (fluide, 

cristallisée, visuo-spatiale, etc.), chacun de ces facteurs larges pouvant être subdivisé à son 

tour en facteurs de groupe plus étroits 3 . Il subsiste bien un facteur général, dont le rôle est très 

important, mais celui-ci n’est plus qu’une des dimensions sur lesquelles les performances 

varient dans les tâches intellectuelles 4 . 

Dans le cadre des travaux qui ont porté sur la construction d’échelles de mesure du 

développement de l’intelligence, le fractionnement du concept a été initié à partir de 1939 par 

la séparation introduite par le psychologue américain David Wechsler entre une échelle dite 

verbale et une échelle dite de performances non verbales. De leur côté, A.et N. Kaufman, 

auteurs du K-ABC (Kaufman-Assessment Battery for Children), ont plus tard distingué, dans 

leur propre échelle, des sous-échelles relatives aux types de processus mentaux sollicités 

(séquentiels versus simultanés) et une sous-échelle relative aux connaissances. Ce 

fractionnement s’est amplifié plus récemment avec la distinction introduite, dans la WISC 

3 voir l’explication de ces différents modèles dans L’Intelligence de l’enfant, le regard des psychologues, 

M.Fournier, R.lécuyer (dir.), éditions Sciences Humaines 2006. 

4 voir Carroll, J.B. (1993). Human cognitive abilities. Cambridge: Cambridge University Press Et Lautrey, J. 

(2006). L’approche différentielle de l’intelligence. In J. Lautrey (Ed.), Psychologie du développement et 

psychologie différentielle. Paris : PUF. 

4

IV* (dernière révision de l’échelle de Wechsler pour enfants), entre quatre sous-échelles 

correspondant à quatre grandes dimensions cognitives : des indices permettent de distinguer 

des aspects de l’intelligence qui étaient auparavant confondus dans le QI verbal (la 

compréhension verbale et la capacité de la mémoire de travail) ou dans le calcul du « QI 

performance » (le raisonnement perceptif et la vitesse de traitement) 5 . 

Dans la construction des échelles de mesure, ce fractionnement du concept d’intelligence a 

d’abord été assez global et inspiré par l’expérience clinique, comme ce fut le cas chez 

Wechsler pour la distinction verbal / performance, mais il tend à s’appuyer de plus en plus sur 

les apports de l’analyse factorielle et de la psychologie cognitive, comme dans les dernières 

révisions de toutes les grandes échelles de développement de l’intelligence : Stanford-Binet, 

K-ABC, échelles de Wechsler par exemple 6 . 

Le passage d’une conception unitaire à une conception multidimensionnelle de l’intelligence 

est donc une tendance lourde qui caractérise l’évolution des idées au cours du siècle qui nous 

sépare de l’invention du premier test d’intelligence. Le maintien d’une forme d’évaluation de 

l’intelligence qui se traduit par un indicateur unique n’est pas la pratique la plus propice à 

faire saisir cette évolution aux usagers. 

2. De l’inconvénient d’utiliser un indicateur qui ressemble à un nombre sans en avoir 

toutes les propriétés 

La seconde inférence trompeuse réside dans l’utilisation d’un indicateur chiffré (le QI) tel que 

140 ou 157… pour mesurer l’intelligence. Cette mesure de l’intelligence par « une note » d e 

QI suggère que celle-ci aurait toutes les propriétés des nombres. En réalité, le niveau de 

mesure le plus puissant sur lequel les psychologues puissent fonder leurs évaluations de 

l’intelligence est le niveau ordinal: ils savent ordonner les personnes en fonction de leurs 

performances dans les tests (nombre d’items réussis) et ils savent aussi ordonner les items de 

ces tests en fonction de leur niveau de difficulté (nombre de personnes qui réussissent chaque 

item). Depuis Wechsler, le QI d’un sujet ne traduit rien d’autre que le rang auquel sa 

performance le situe dans son groupe d’âge (voir encadré). Les différents arrangements qui 

5 Wechsler, D. (2005a). WISC IV. Manuel d’interprétation. Paris: Editions du Centre de Psychologie Appliquée. 

Wechsler, D. (2005b). WISC IV. Manuel d’administration et de cotation. Paris : Editions du Centre de 

Psychologie Appliquée. 

6 cf. Flanagan, D.P., & Harrison, P.L. (2005) (Eds.). Contemporary Intellectual Assessment, 2 nd Edition. New 

York: The Guilford Press. ET Lautrey, 2006, op. cit 

5

permettent de passer de ce simple rang à un nombre tel que 140 ou 157 relèvent de 

commodités qui n’ont rien à voir avec les propriétés de l’intelligence. 

Le premier arrangement, celui qui correspond au passage du score brut au score standard dans 

les échelles de Wechsler, consiste à s’appuyer sur la forme normale de la distribution des 

scores dans l’échantillon d’étalonnage pour transformer ceux-ci en écarts-réduits. C’est ce qui 

permet ensuite de les traiter comme s’ils constituaient une échelle d’intervalle. Mais la forme 

« normale » de la distribution des scores dans l’échantillon d’étalonnage, sur laquelle on 

s’appuie pour faire cette manipulation, n’est pas une propriété de l’intelligence. Elle est 

seulement la forme que les constructeurs de tests tentent généralement de donner à la 

distribution des scores en faisant une répartition appropriée des niveaux de difficulté des 

items. Les objectifs visés par cette manipulation sont de l’ordre de la commodité (meilleure 

discrimination aux extrêmes de la distribution, possibilité d’utiliser les techniques statistiques 

qui présupposent la normalité de la distribution, etc.). 

Le second arrangement, celui qui permet de passer des scores standard au QI, est un 

changement d’échelle visant à donner à la distribution des scores totaux une moyenne de 100 

et un écart-type de 15. Wechsler y avait eu recours pour que les nombres auxquels aboutissait 

la mesure soient du même ordre de grandeur que ceux auxquels étaient habitués les 

psychologues qui utilisaient des échelles où on calculait un QI de type Stern (voir encadré). 

Cette pratique a été conservée depuis. 

Vouloir expliquer aux usagers la signification réelle du nombre que le psychologue utilise 

lorsqu’il leur communique un QI serait donc une entreprise ardue. La solution la plus 

raisonnable pour ce faire serait de s’appuyer sur la seule propriété solidement fondée à 

laquelle renvoie ce nombre, c’est à dire le rang auquel la performance du sujet le classe dans 

son groupe d’âge (en précisant les marges de l’incertitude due à l’erreur de mesure). C’est une 

information qui a en outre l’avantage de pouvoir être facilement comprise par tout le monde. 

Mais dans ce cas, à quoi a servi tout le détour consistant à passer par un QI ? Ne pourrait-on 

pas en rester, y compris pour le psychologue, au niveau de mesure qui peut être 

scientifiquement justifié ? 

3. Des inférences erronées que suscite la stabilité du QI 

Il y a peu de corrélation entre le quotient de développement évalué dans la petite enfance et le 

QI ultérieur mais, dès le début de l’enfance, disons dès 5 ou 6 ans, la stabilité du QI devient 

forte. Dans les études longitudinales où le QI mesuré vers 6 ans a été mis en relation avec le 

6

QI mesuré à l’adolescence ou à l’âge adulte, les corrélations trouvées sont fortes (de l’ordre 

de .80) 7 . La stabilité relative du QI est donc un fait statistique avéré. C’est son interprétation 

qui fait problème. 

Que peut signifier en effet le fait que la mesure de l’intelligence d’une personne se traduise à 

peu près par le même nombre quand elle a 6 ans et quand elle en a 18 ? Un peu de bon sens 

suffit pour réaliser que cela ne veut probablement pas dire qu’elle a le même degré 

d’intelligence à 18 ans qu’à 6 ans, chacun ayant pu constater que les performances 

intellectuelles d’un adolescent sont en général supérieures à celles d’un enfant. Mais il est 

plus difficile, car cette information n’est pas transparente, de comprendre le sens précis de 

cette corrélation, à savoir que le score de cette personne dans le test est certes bien plus élevé 

à 18 ans qu’à 6 ans, mais qu’il la classe à peu près au même rang, à ces deux moments de son 

développement, lorsqu’on le rapporte aux scores qui sont observés dans son groupe d’âge. 

L’absence de transparence quant au statut du nombre par lequel le QI est exprimé contribue à 

rendre problématique l’interprétation de sa stabilité. 

Une meilleure compréhension de ce que traduit le chiffre exprimant le QI ne suffit cependant 

pas à écarter les interprétations erronées qui sont souvent faites de la stabilité de ce chiffre. 

Les erreurs les plus courantes sont de voir dans cette stabilité l’expression soit d’une 

détermination essentiellement génétique de l’intelligence, soit d’une fatalité sociologique. Les 

résultats des études qui ont porté sur le développement intellectuel d’enfants adoptés 

permettent d’écarter ces deux interprétations. Lorsque des enfants sont adoptés par des parents 

ayant un niveau socio-culturel différent de celui de leurs parents biologiques, les QI de ces 

enfants diffèrent d’au moins une douzaine de points en moyenne (près d’un écart-type donc) 

de celui de leurs frères et sœurs adoptés par des parents ayant le même niveau socio-culturel 

que leurs parents biologiques 8 . Ceci ne signifie évidemment pas que les facteurs génétiques 

n’influencent pas le développement intellectuel (les mêmes études donnent des résultats qui 

sont aussi compatibles avec cette hypothèse) mais il montre que la stabilité du QI ne relève 

d’aucune forme de fatalité. Elle tient seulement à ce qu’en l’absence de modifications 

sensibles de l’environnement socio-culturel dans lequel un enfant se développe, le rang 

auquel son score dans un test de QI le classe dans son groupe d’âge reste relativement stable. 

Cette stabilité est de nature statistique, elle est simplement due à ce que, dans la population, 

les cas de modifications sensibles de l’environnement socio-culturel sont rares. Mais, comme 

7 Voir par exemple Bayley, N. (1970). Development of mental abilities. In P.M. Mussen (Ed.), Carmichael’s 

Manual of Child Psychology. New-York: Wiley. 

8 voir l’article de Duyme, p… 

7

le montrent les études sur les enfants adoptés, lorsque de telles modifications surviennent, le 

QI évolue. 

La stabilité de l’indicateur du développement intellectuel n’est certes pas propre au QI. Elle 

serait la même avec un indicateur correspondant plus simplement au rang auquel la 

performance du sujet le classe dans son groupe d’âge. Ce que nous avons voulu souligner à 

propos des erreurs d’interprétation auxquelles cette stabilité donne lieu, c’est que l’absence de 

transparence du nombre par lequel le QI est exprimé les induit plus facilement. 

Réserver l’usage du Qi aux psychologues… ou l’abandonner ? 

Ces trois exemples d’inférences erronées montrent bien que, du point de vue des 

connaissances scientifiques actuelles, la représentation de l’intelligence suggérée par l’usage 

du QI est dépassée. Compte tenu de la difficulté dans laquelle se trouveraient les 

psychologues s’ils devaient réellement expliquer aux usagers pourquoi ni l’intelligence ni sa 

mesure ne correspondent aux apparences que véhicule le QI, il ne reste que deux solutions 

pour régler le problème. La première est de réserver le QI à l’usage exclusif des 

psychologues, seuls capables, par la formation qu’ils ont reçue, d’interpréter et d’utiliser à 

bon escient une notion aussi complexe et aussi trompeuse. La seconde est d’abandonner cette 

notion et de la remplacer par d’autres plus appropriées aux connaissances actuelles sur 

l’intelligence et aux possibilités d’évaluation qui en découlent. 

Le texte publié par le Journal des Psychologues plaide pour la première de ces deux solutions. 

On pourrait comprendre que les psychologues restent attachés au QI si, en dépit de ses 

inconvénients, cette notion leur offrait des avantages irremplaçables. Est-ce bien le cas ? 

Perdrait-on de l’information en utilisant des concepts plus appropriés à la prise en compte du 

caractère multidimensionnel de l’intelligence et plus respectueux du niveau ordinal de la 

mesure effectuée? C’est ce qui se pratique depuis longtemps lorsqu’on utilise des batteries 

factorielles. Le profil obtenu en caractérisant la performance du sujet par son rang dans 

l’échantillon de référence pour chacun des facteurs de l’intelligence restitue le caractère 

multidimensionnel de celle-ci et colle au plus près du niveau réel de la mesure effectuée. La 

forme du profil renseigne sur les avances et retards dans les différents aspects de l’intelligence 

et l’ « altitude » du profil renseigne sur le niveau général des performances lorsqu’elles sont 

suffisamment homogènes. Ce type d’évaluation analytique est aussi pratiqué depuis 

longtemps par les psychologues qui utilisent des échelles d’intelligence de type Wechsler. 

8

Toutefois l’inconvénient du profil établi à partir des scores dans les différents sous-tests de 

l’échelle était, jusqu’ici, qu’il s’appuyait sur des sous-tests spécifiques, issus d’un 

échantillonnage très empirique des tâches intellectuelles et non sur les grandes dimensions de 

l’intelligence répertoriées depuis. Du fait que chaque sous-test ne comportait qu’une seule 

épreuve, et du fait que les liens de ces sous-tests avec les grandes dimensions de l’intelligence 

n’étaient pas évidents, ces profils avaient un faible fidélité et il était difficile d’en donner une 

interprétation claire. L’évolution amorcée dans la plupart des échelles d’intelligence, qui 

permet de calculer des indices de performance dans chacune des grandes dimensions 

factorielles distinguées dans l’échelle (comme par exemple la compréhension verbale, la 

mémoire de travail, le raisonnement perceptif, la vitesse de traitement, dans la WISC IV) va 

dans le bon sens et devrait fournir des bases plus solides à cette démarche. 

On opposera peut-être que le même résultat pourrait être obtenu en distinguant plusieurs QI. 

Les versions précédentes de la WISC, par exemple, permettaient déjà de distinguer un QI 

verbal et un QI performance. La WISC IV (dernière révision de la WISC), qui permet de 

calculer des indices de performance sur quatre dimensions factorielles distinctes, aurait pu 

permettre de calculer, pourquoi pas, quatre QI distincts. Les auteurs de cette révision de la 

WISC n’ont pas suivi cette voie et ils ont eu raison. Ce type d’utilisation de la notion de QI la 

viderait du sens qu’elle avait à l’origine et ne ferait donc qu’accroître encore la confusion. 

Les auteurs de la WISC IV laissent néanmoins la possibilité de calculer un QI global dont ils 

disent que celui-ci peut alors être considéré comme une estimation du facteur général. Il est 

effectivement nécessaire qu’une évaluation du facteur général figure dans une évaluation 

multidimensionnelle de l’intelligence, mais le QI global n’en est pas la meilleure estimation. 

La raison en est simple, le score en facteur général est calculé en donnant à chacun des sous- 

tests de l’échelle un poids qui est fonction de sa contribution à ce facteur général. Le QI par 

contre est calculé en additionnant simplement les scores standards aux différents sous-tests, ce 

qui accorde donc à chacun de ces sous-tests un poids égal dans la somme, quelle que soit sa 

contribution au facteur général. La procédure adoptée dans ce dernier cas est en somme 

comparable à celle qui consisterait à donner le même coefficient à toutes les matières dans le 

calcul de la moyenne à un examen, quelle que soit l’importance de cette matière dans cet 

examen. Les auteurs de la révision de la WISC IV sont donc restés à mi-chemin dans 

l’évolution qu’ils ont amorcée: ils ont adopté la logique factorielle pour le calcul des indices 

correspondant aux facteurs de groupe (compréhension verbale, mémoire de travail, 

raisonnement perceptif, vitesse de traitement) mais sont restés dans la logique du QI, qui n’est 

pas la plus appropriée, pour l’évaluation du facteur général. 

9

En résumé, le QI est certes un concept souvent mal compris mais c’est aussi un 

concept qui n’est plus vraiment adapté aux connaissances scientifiques actuelles sur 

l’intelligence. Au cours du siècle qui nous sépare des premières tentatives de mesure de 

l’intelligence, on est progressivement passé d’une conception unidimensionnelle et globale 

de cette fonction à une conception multidimensionnelle et plus analytique. Bien adapté à la 

première de ces deux conceptions, qui était et reste encore très répandue dans le public, le QI 

n’est plus adapté à l’opérationnalisation de la seconde. C’est la raison pour laquelle la 

solution des malentendus soulevés par l’usage du QI passe par l’abandon de cette notion. 

Cette évolution ne peut probablement être que progressive, ne serait-ce que par ce qu’elle 

suppose une évolution préalable, ou au moins parallèle, des instruments d’évaluation et des 

modes de quantification qui leur sont associés. Pourtant, cette évolution est maintenant 

nécessaire. 

Qu’est-ce que le QI ? 

Pour construire leur échelle métrique de l’intelligence, Binet et Simon (1908) ont cherché à mettre au 

point, pour chaque âge de l’enfant, de petites tâches intellectuelles qui soient caractéristiques de cet âge, c’est à 

dire des items réussis par à peu près la moitié des enfants de l’âge considéré mais par contre échouées par la 

plupart des enfants de l’âge précédent et réussies par la plupart des enfants de l’âge suivant. Un enfant 

réussissant, par exemple, les items caractéristiques de l’âge de 12 ans est alors considéré comme ayant un « âge 

mental » de 12 ans, quel que soit son âge chronologique. Stern proposa un peu plus tard, en 1912, de quantifier 

le degré d’avance ou de retard du développement intellectuel en rapportant l’âge mental à l’âge chronologique. 

Ainsi, un enfant crédité de 12 ans d’âge mental dont l’âge chronologique est de 10 ans est caractérisé par un 

quotient de 12/10= 1,2. Terman multiplia ce quotient par 100 pour éviter les décimales, ce qui donne, dans notre 

exemple, un QI de (12/10) x 100 = 120. Avec cette méthode de calcul, le cas où l’âge mental est le même que 

l’âge chronologique, qui est la norme, correspond à un QI de 100. 

Ce quotient, qui sera désigné dans ce chapitre comme le QI de type Stern, avait un certain nombre 

d’inconvénients. Tel qu’il est évalué dans ce type de test, l’âge mental n’augmente plus après l’adolescence, 

alors que l’âge chronologique continue d’augmenter, ce qui rendrait absurde de calculer ainsi le QI d’adultes. Par 

ailleurs, le fait que la dispersion des QI ainsi calculés varie selon les âges rend la comparaison des QI obtenus à 

des âges différents problématiques. Ces différents problèmes rencontrés avec le QI de type Stern ont conduit 

Wechsler à proposer une méthode différente de quantification de la performance intellectuelle. Cette méthode 

consiste à simplement attribuer des points aux items réussis, puis à transformer la note globale ainsi obtenue en 

une variable à laquelle on assigne à chaque âge un écart-type identique et une moyenne de 100 (Wechsler a 

choisi un écart-type de 15 pour que cette variable se distribue autour de la moyenne 100 avec un ordre de 

grandeur comparable à l’écart-type moyen observé avec le QI de type Stern). Wechsler a conservé le terme de QI 

pour désigner cette variable qui n’est pourtant plus un quotient. Nous conviendrons dans ce chapitre d’appeler 

cette variable le QI de type Wechsler. Le QI de type Wechsler est celui qui est maintenant utilisé dans toutes les 

échelles de développement de l’intelligence. Son mode de calcul est présenté de façon un peu plus complète dans 

ce chapitre. 

Les deux méthodes de calcul du QI, celui de type Stern et celui de type Wechsler, ont en commun de 

faire une sommation globale des réussites aux différents types d’items que comporte le test (addition des 

nombres de mois d’âge mental dont sont crédités les différents items du test pour calculer l’âge mental dans la 

méthode de calcul du QI de type Stern, addition des scores obtenus aux différents sous-tests pour le QI de type 

Wechsler). Cette globalisation, par sommation, de réussites dans des tâches intellectuelles très variées, postule 

l’unicité de l’intelligence. C’est précisément une des caractéristiques du QI qui sont critiquées dans ce chapitre. 

10

Texte 5 

Blaison, C., Chassard, D., Kop, J. L., & Gana, K. (2006). L'IAT (Implicit Association Test) ou la mesure 

des cognitions sociales implicites ? Revue critique de la validité et des fondements théoriques des 

scores qu'il produit. L'Année Psychologique, 106, 305-335.

L’IAT (Implicit Association Test) ou la mesure 

des cognitions sociales implicites : 

Revue critique de la validité et des fondements 

théoriques des scores qu’il produit 

Christophe Blaison, Delphine Chassard, Jean-Luc Kop et Kamel Gana* 

Laboratoire de Psychologie Clinique et Cognitive, Laboratoire de Psychologie Lorrain, et 

Groupe d’Analyse Psychométrique des Conduites – Université Nancy 2 

RÉSUMÉ 

Récemment, dans le but de remédier aux limites des mesures par questionnaires 

(biais d’auto-présentation, capacités introspectives limitées), 

plusieurs mesures dites indirectes ont été développées. Parmi elles, le test 

des associations implicites (IAT, Greenwald, McGhee et Schwartz, 1998) est 

celui qui a suscité le plus d’intérêt et le plus de travaux : il est suffisamment 

flexible pour mesurer des concepts variés (attitude, personnalité, stéréotypes…), 

il fournit des scores fidèles et offre des résultats encourageants en 

termes de validité critérielle. Mais la validité de construit des scores de l’IAT 

est contestée, notamment parce que leur interprétation n’est pas univoque. 

Il en est de même pour l’interprétation des dissociations observées entre 

mesures directes (questionnaires) et mesures indirectes qui, en l’absence 

d’un cadre théorique solide, donne lieu à de multiples débats. Ces défauts 

de jeunesse des mesures indirectes ont toutefois le mérite de stimuler la 

créativité des chercheurs et d’offrir de nouvelles perspectives qui devraient 

déboucher sur de nouveaux outils, mieux fondés théoriquement. 

Implicit Association Test or the measure of implicit social cognition: 

a critical review of the validity and the theoretical basement 

of its scores 

ABSTRACT 

In order to remedy the limits of self-report measures (self-presentational biases, introspective 

limits…), several indirect measures have been developed. The Implicit Association 

Test (IAT, Greenwald, McGhee et Schwartz, 1998) is the one that has concentrated most 

interest and research: it is flexible enough to measure a broad range of constructs 

*Pr. Kamel Gana, Université Nancy 2, 3 Place Godefroy de Bouillon, 54015 Nancy Cedex. 

Kamel.gana@univ-nancy2.fr 

Notes des auteurs : l’ordre entre des deux premiers auteurs a été déterminé par tirage au sort. 

L’année psychologique, 2006, 106, 305-336

306 

L’année psychologique, 2006, 106, 305-336 

Christophe Blaison • Delphine Chassard • Jean-Luc Kop • Kamel Gana 

(attitude, personality, stereotypes…), and it produces reliable and encouraging criteria 

valid scores. But the construct validity of the IAT scores remains controversial because 

their interpretation is quite ambiguous. In the same vein, because of the lack of any strong 

theoretical background, the interpretation of the observed dissociations between direct 

(self-report) and indirect measures remains problematic. This leads to multiple discussions. 

These “youthful limits” however stimulate researchers’ creativity and open new 

perspectives which should lead to more theoretically grounded measures. 

1. INTRODUCTION 

Les construits propres à la cognition sociale tels que les attitudes, les stéréotypes, 

l’estime de soi ou le concept de soi sont le plus souvent appréhendés 

par des mesures auto-rapportées ( i.e. , directes). Les limites de ce type de 

mesures sont bien connues : elles dépendent à la fois de ce que les sujets 

veulent bien nous dire ( i.e. , biais d’auto-présentation) et de ce qu’ils peuvent 

nous dire ( i.e. , limites des capacités introspectives). Récemment, dans le but 

de remédier à ces limites, plusieurs mesures de type indirect, dont l’Implicit 

Association Test (ou IAT) (1) (Greenwald, McGhee et Schwartz, 1998), ont 

été développées et l’intérêt à leur égard n’a cessé d’augmenter. 

Ces mesures s’inscrivent dans le domaine de la cognition sociale implicite 

(Devos et Banaji, 2003) dont on verra les principaux paradigmes 

dans la première partie de cet article, ce qui nous permettra de mieux 

comprendre le contexte dans lequel l’IAT a été créé. 

Dans les deux parties suivantes, notre objectif sera de présenter une synthèse 

des travaux portant tant sur les caractéristiques méthodologiques de 

l’IAT (partie 2) que sur ses fondements théoriques (partie 3), avec pour 

objectif de fournir aux lecteurs francophones une vue d’ensemble des 

débats soulevés par l’IAT, ce qui devrait aider à une utilisation appropriée 

de ce nouvel instrument. 

Dans la seconde partie, nous présenterons donc en détail l’IAT parce que 

c’est celui qui a suscité le plus d’intérêt, d’enthousiasme mais aussi le plus 

de critiques dès sa première publication. Nous évoquerons le principe sur 

lequel repose l’IAT ainsi que ses propriétés psychométriques. 

Les limites 

potentielles de l’IAT seront ensuite abordées à travers les critiques théoriques 

et méthodologiques qui lui ont été adressées avant de présenter les 

nouveaux instruments développés pour tenter d’y remédier. 

Dans la troisième et dernière partie, nous reviendrons plus spécifiquement 

sur les problèmes théoriques posés par l’IAT et notamment sur les 

difficultés soulevées par les études de validité, celles-ci conduisant à 

s’interroger sur la nature même des construits appréhendés par cet outil.

Validité et fondements théoriques des scores IAT 

2. LA COGNITION SOCIALE IMPLICITE 

ET SON OPÉRATIONNALISATION 

Les avancées scientifiques dans le domaine de la cognition humaine ont 

permis à la psychologie de commencer à étudier de façon prometteuse, 

d’une part, les processus mentaux inconscients (Jacoby et Kelley, 1987 ; 

Jacoby, Toth et Yonelinas, 1993), voire, d’autre part, l’“inconscient psychologique” 

des individus (Kihlstrom, Barnhardt et Tataryn 1992 ; 

Kihlstrom, Mulvaney, Tobias et Tobis, 2000). Derrière cette expression 

d’“inconscient psychologique”, se cache l’idée selon laquelle nos pensées, 

notre expérience et nos actes conscients pourraient être influencés par des 

perceptions, des souvenirs et autres contenus mentaux dont nous 

n’aurions pas conscience et qui seraient indépendants de tout contrôle 

volontaire. Si Kihlstrom et al. (2000) parlent volontiers d’« inconscient 

psychologique », d’autres préfèrent à ces termes ceux de cognition implicite, 

postulant que nos comportements ainsi que nos jugements peuvent 

être influencés par des expériences passées sans que nous n’ayons 

conscience de cette influence ni que nous nous rappelions cette expérience 

(Greenwald et Banaji, 1995). La notion de cognition implicite 

marque une avancée supplémentaire dans le domaine de la cognition par 

rapport à celle – plus ancienne – d’automaticité selon laquelle certains de 

nos savoir-faire moteurs et cognitifs peuvent, grâce à une pratique intensive, 

devenir automatiques et donc rendre les procédures ou les 

opérations sous-jacentes inaccessibles à l’introspection (Kihlstrom et al. , 

2000). En effet, alors que la notion d’automaticité fait exclusivement référence 

à des processus mentaux dont nous n’aurions pas conscience, celle 

de cognition implicite laisse entrevoir la possibilité d’étendre cette idée 

aux contenus mentaux associés à ces processus. 

Depuis ces dernières années, le concept de cognition implicite a largement 

été diffusé. En témoigne le nombre important de travaux publiés 

portant sur la mémoire implicite, l’apprentissage implicite, la perception 

implicite ou sur les pensées implicites (cf. Kihlstrom et al. , 2000). 

En 1995, Greenwald et Banaji proposent de s’intéresser plus spécifiquement 

à l’étude des différences individuelles dans le domaine de la 

cognition sociale implicite, notamment aux attitudes, aux stéréotypes, à 

l’estime de soi et, plus tard (Greenwald et al. , 1998), au concept de soi. De 

façon générale, ces auteurs définissent un construit implicite comme une 

trace de notre expérience passée non identifiable de façon introspective 

(ou identifiée de manière imprécise, voire incorrecte) capable 

d’influencer nos sentiments, nos pensées et nos actions envers divers 

307 


308 



objets sociaux (Greenwald et Banaji, 1995, p. 5). Dès lors, l’étude des différences 

individuelles dans le domaine de la cognition sociale implicite se 

heurte au problème de la mesure des construits implicites. Si l’on considère 

effectivement que ces derniers sont des traces en mémoire non 

identifiables de façon introspective, il n’est pas envisageable de les appréhender 

à l’aide de mesures auto-rapportées ( i.e. , directes) puisque cellesci 

dépendent des limites des capacités introspectives des sujets (Nisbett et 

Wilson, 1977). Il faut donc avoir recours à des instruments qui ne requièrent 

pas de réponses auto-rapportées (Greenwald et Banaji, 1995), 

autrement dit à des mesures appelées indirectes. 

S’inspirant de toute sorte de paradigmes expérimentaux, Greenwald (cf. 

Dasgupta, Greenwald et Banaji, 2003) s’est alors lancé dans une série 

d’études ayant pour but de mettre au point un instrument de mesure 

susceptible d’appréhender des construits implicites tout en produisant 

des scores satisfaisants d’un point de vue psychométrique. De cette série 

d’études est né l’ Implicit Association Test (ou IAT ; Greenwald et al. , 

1998). L’IAT emprunte le paradigme expérimental classique des temps 

de réponse (« response time paradigm ») dont le Stroop, 

le Simon Task ou 

l’amorçage sémantique sont l’illustration (Chassard et Kop, 2003), et 

qui stipule que les temps de réponse d’un sujet à un certain matériel 

dépendent des structures cognitives spécifiques qu’il entretient à propos 

du monde ou de lui-même. Plus tard, ce paradigme a été adapté pour 

être utilisé dans des champs d’étude plus conatifs avec des stimuli 

chargés émotionnellement, permettant ainsi l’étude des processus automatiques 

d’évaluation (Musch et Klauer, 2003) comme, par exemple, le 

Stroop émotionnel (Pratto et John, 1991) ou le paradigme d’amorçage 

affectif (Fazio, Sanbonmatsu, Powell et Kardes, 1986). Dans sa forme 

originale, le paradigme d’amorçage affectif montre que les sujets traitent 

plus rapidement une cible affectivement polarisée quand elle est précédée 

d’une amorce de même valence ( e.g. , « amour » précédé de 

« joie ») que lorsqu’elle est précédée d’une amorce de valence opposée 

( e.g. , « amour » précédé de « torture »). Enfin, certains chercheurs ( e.g. , 

Banse, 1999) ont eu l’idée d’utiliser la variabilité interindividuelle 

relevée dans ces nouvelles tâches pour en faire des mesures – au sens 

psychométrique du terme – indirectes d’attitudes, la logique étant que si 

les sujets ont une attitude positive envers un objet présenté comme 

amorce, ils doivent identifier plus rapidement la valence de cibles positives 

que la valence de cibles négatives et inversement s’ils ont une 

attitude négative. Cependant, la fidélité observée pour de telles mesures 

restant très faible (Bosson, Swann et Pennebaker, 2000), les tentatives 

de mesure des différences individuelles sont restées peu satisfaisantes.


C’est donc principalement pour remédier à ce problème que l’IAT a été 

développé (Greenwald et al. , 1998). 

3. LE TEST DES ASSOCIATIONS IMPLICITES (IAT) 

3.1. Principes de base et modalités d’administration 

Nous empruntons à Greenwald et Farnham (2000) une illustration évocatrice 

du principe sur lequel repose l’IAT. Supposez que vous ayez à trier 

un jeu de 52 cartes en deux tas situés à votre gauche et à votre droite. Il 

vous sera probablement plus facile de classer les piques et les trèfles d’un 

côté et les cœurs et carreaux de l’autre, que de classer piques et cœurs 

d’un côté et trèfles et carreaux de l’autre. Cette facilité accrue est due au 

fait que les piques et les trèfles d’une part et les cœurs et les carreaux 

d’autre part “vont bien ensemble” : ils partagent respectivement un même 

attribut, ici la couleur. S’inspirant de cette idée, le principe général de 

l’IAT repose sur le fait qu’il est plus facile de classer ensemble des items 

cognitifs lorsque les groupements à réaliser sont cohérents avec ceux que 

l’on adopte spontanément du fait de notre manière particulière d’organiser 

l’information. Par exemple, par rapport à la population générale, un 

joueur de bridge s’empresserait d’infirmer l’observation faite plus haut, 

car pour lui ce sont d’une part les cœurs et les piques et de l’autre les carreaux 

et les trèfles qui vont le mieux ensemble ; pour ce joueur, 

l’association entre les familles de cartes n’est plus spontanément créée par 

la couleur mais par un autre attribut acquis à travers la pratique du 

bridge. L’IAT se veut donc être une méthode de mesure indirecte de la force 

relative des associations entre différents concepts 

309 

(Greenwald, Banaji, 

Rudman, Farnham, Nosek et Mellott, 2002). 

Afin de décrire plus précisément les applications de l’IAT, nous prendrons 

l’exemple d’un IAT censé mesurer l’estime de soi. Par son 

entremise, on mesure la force d’association entre le concept de soi et les 

deux valences affectives positive et négative. Cette application fait intervenir 

deux concepts dits cibles : « Moi » vs. « Pas moi » et deux concepts 

dits attributs : « Agréable » vs. « Désagréable ». Le sujet de l’expérience est 

assis en face d’un ordinateur muni d’un clavier dont il ne doit utiliser que 

deux touches, l’une à gauche, l’autre à droite. La procédure comporte 

cinq étapes dans lesquelles on lui demande de classer aussi vite que possible, 

tout en faisant le minimum d’erreurs, des stimuli exemplifiant les 


310 



concepts-cibles et les concepts-attributs. Le tableau I résume le contenu 

de ces cinq étapes (ou blocs d’items) détaillées ci-dessous. 

Étape 1 – Des items appartenant aux deux concepts-cibles apparaissent 

les uns après les autres sur l’écran. Lorsque les items renvoient au 

concept-cible « Moi » ( e.g., « je », « mien », « mon »), le sujet doit appuyer 

sur une touche du côté droit du clavier ; lorsqu’ils renvoient au conceptcible 

« Pas moi » ( e.g. , « ils », « leurs », « il »), le sujet doit appuyer sur une 

touche située du côté gauche du clavier. 

Étape 2 – Les sujets doivent classer des items appartenant aux deux 

concepts-attributs. Lorsqu’ils renvoient au concept-attribut « Agréable » 

( e.g. , « sourire », « plaisir », « joie »), le sujet doit appuyer sur une touche 

du côté droit du clavier ; lorsqu’ils renvoient au concept-attribut « Désagréable 

» ( e.g. , « mort », « poison », « vomi »), le sujet doit appuyer sur 

une touche située du côté gauche du clavier. 

er 

Étape 3 (1 bloc-test) – Les deux tâches précédentes sont présentées 

conjointement, les items à classer sont donc soit des exemplaires des 

concepts-cibles ( e.g. , « je », « ils ») soit des exemplaires de conceptsattributs 

( e.g. , « sourire », « mort »). Lorsqu’ils renvoient soit au conceptcible 

« Moi », soit au concept-attribut « Agréable », le sujet doit appuyer 

sur une touche du côté droit du clavier ; lorsqu’ils renvoient soit au 

concept-cible « Pas moi », soit au concept-attribut « Désagréable », le 

sujet doit appuyer sur une touche située du côté gauche du clavier. 

Étape 4 – Les sujets doivent à nouveau classer des items appartenant aux 

deux concepts-cibles (cf. étape 1) mais les touches à utiliser pour classer 

les exemplaires sont inversées (gauche pour « Moi », droite pour « Pas 

moi »). 

e Étape 5 (2 bloc-test) – Cette dernière étape repose sur le même principe 

e que la 3 étape mais les sujets doivent cette fois appuyer sur une touche 

située du côté droit du clavier lorsque apparaissent des items renvoyant 

soit au concept-cible « Pas Moi », soit au concept-attribut « Agréable » ; et 

du côté gauche lorsque apparaissent des items renvoyant soit au conceptcible 

« Moi », soit au concept-attribut « Désagréable ». 

La mesure résultante de la procédure ( IAT effect ou effet IAT) repose sur 

la comparaison entre la force combinée des associations « Pas moi – Désa- 

er 

gréable » et « Moi – Agréable » (1 bloc-test, étape 3) et la force combinée des 

e 

associations « Moi – Désagréable » et « Pas moi – Agréable » (2 bloc-test, 

étape 5). Seules les étapes 3 et 5 sont donc prises en compte lors de l’analyse 

des résultats, l’effet IAT s’exprimant par la différence de temps de 

réponses entre les deux blocs-tests. 

Si un sujet répond plus rapidement aux 

items du premier bloc-test qu’aux items du second bloc-test, on en déduit 

qu’il associe plus fortement « Moi » et « Agréable » que « Moi » et « Désa-


Tableau I. llustration des cinq étapes d’un IAT d’estime de soi 

Étapes/Blocs 

Table I. Five constitutive steps of a self-esteem IAT 

Presser 

Touche gauche 

Presser 

Touche droite 

1 Pas moi Moi 

2 Désagréable Agréable 

3 – 1 er bloc-test Pas moi ou Désagréable Moi ou Agréable 

4 Moi Pas moi 

5 – 2e bloc-test Moi ou Désagréable Pas moi ou Agréable 

gréable » ; et on en infère qu’il possède une estime de soi plus élevée par 

rapport à un sujet qui est plus rapide au second bloc-test qu’au premier. 

L’IAT est capable d’évaluer d’autres caractéristiques psychologiques, car 

son mode de construction en fait un outil très flexible. D’une part, les 

stimuli servant à sa construction peuvent être langagiers, picturaux, 

sonores ou des combinaisons de ces différentes modalités. D’autre part, le 

couplage judicieux de certains concepts-cibles et de certains conceptsattributs, 

permet théoriquement d’évaluer des attitudes, des stéréotypes 

ou des caractéristiques de personnalité (Greenwald et al. , 2002). Par 

exemple, si l’on définit une attitude comme l’association entre un objet 

social et un attribut valencé (positif ou négatif) (Fazio, Williams et 

Powell, 2000 ; Greenwald et al. , 2002), il est possible grâce à l’IAT de 

mesurer l’attitude envers des individus de couleur en sélectionnant les 

concepts-cibles « Blancs » vs. « Noirs » et les concepts-attributs 

« Agréable » vs. « Désagréable ». Si un sujet est plus rapide dans le bloc où 

les concepts « Blancs » et « Agréable » (respectivement, « Noirs » et 

« Désagréable ») sont associés à une même touche de réponse que dans 

celui où sont associés « Noirs » et « Agréable » (respectivement, « Blancs » 

et « Désagréable »), alors on en infère qu’il possède une attitude positive 

envers les Blancs et négative envers les Noirs. En poursuivant cette stratégie, 

on peut envisager un stéréotype comme l’association entre un 

groupe social et un ou plusieurs attributs non-valencés ( e.g. , cibles : 

« Hommes » vs. « Femmes », attributs : « Mathématiques » vs. « Arts »). 

Enfin, une caractéristique personnelle de personnalité peut être assimilée 

à l’association entre le concept de soi et un attribut non-valencé ( e.g. , 

cibles : « Moi » vs. « Pas moi », attributs : « Introverti » vs. « Extraverti »). 

311 


312 



Cette flexibilité a permis d’étendre l’utilisation de l’IAT à de nombreux 

domaines. Il existe par exemple des études sur les attitudes ( e.g. , Karpinski 

et Hilton, 2001 ; Jelenec et Steffens, 2002 ; Palfai et Ostafin, 2003 ; 

DeJong, Van den Hout, Rietbroek et Huijding, 2003), les stéréotypes ( e.g. , 

Nosek, Banaji et Greenwald, 2002a ; Nosek, Banaji et Greenwald, 2002b), 

la catégorisation sociale (Piontkowski, Blanz, Rohman, Schmermund et 

Florack, 2001), l’estime de soi ( e.g. , Bosson et al. , 2000 ; Greenwald et Farnham, 

2000), la timidité ( e.g. , Asendorpf, Banse et Mücke, 2002), 

l’affectivité positive et négative (Blaison et Gana, 2004), les cinq dimensions 

de personnalité (OCEAN) (Steffens, 2004), la dépression ( e.g. , 

Gemar, Segal, Sagrati et Kennedy, 2001), l’anxiété ( e.g, Egloff et Schmukle, 

2002), l’anxiété sociale (De Jong, 2002), la phobie des animaux 

(Teachman, Gregg et Woody, 2001), le conditionnement évaluatif (Mitchell, 

Anderson et Lovibond, 2003a). 

3.2. Fidélité 

Développé principalement dans le but de remédier au manque de fidélité 

des scores obtenus par des outils tels que le Stroop émotionnel ou l’amorçage 

affectif, l’IAT a réussi son pari. Comme il permet d’obtenir des tailles 

d’effet importantes – dès 1998, Greenwald et al. rapportent une taille d’effet 

IAT (d ≈ 1.21)(2) deux fois supérieure à celle de l’amorçage (d ≈ 0.62) – il 

devient possible d’envisager une mesure offrant des scores fidèles des différences 

individuelles, ce que l’on constate effectivement avec l’IAT. Quel que 

soit l’objet mesuré, l’IAT montre une bonne consistance interne ( α de 

Cronbach ≈ 0.80), comparable à celle des mesures directes correspondantes 

(Bosson et al. , 2000 ; Banse, Seise et Zerbes, 2001 ; Cunningham, Preacher 

et Banaji, 2001 ; Egloff et Schmukle, 2002) (3). Sa stabilité temporelle (fidélité 

test-retest), bien que modérée (r ≈ 0.60), dépasse largement celle 

d’autres mesures indirectes (Bosson et al. , 2000 ; Dasgupta et Greenwald, 

2001 ; Greenwald et Nosek, 2001). 

3.3. Éléments de validation 

Les mesures utilisant l’IAT permettent généralement d’obtenir, au niveau 

du groupe, des différences d’attitude conformes à ce qui est attendu. 

Ainsi, un favoritisme envers l’endogroupe a pu être détecté, et ce, aussi 

bien avec des groupes réels (Greenwald et al. , 1998) qu’en utilisant le 

paradigme des groupes minimaux (Ashburn-Nardo, Voils et Monteith, 

2001). Hummert, Gartska, O’Brien, Greenwald et Mellott (2002) ont


montré que les personnes âgées avaient, comparativement à de jeunes 

adultes, une attitude plus favorable envers les jeunes et une estime de soi 

plus élevée. Nosek et al. (2002a) ont montré que les garçons avaient une 

attitude plus favorable envers les disciplines scientifiques que les filles. 

Gemar et al. (2001) ont montré que des sujets récemment sortis de 

dépression avaient une attitude plus négative envers eux-mêmes que des 

sujets sains. Dans un autre domaine, Teachman et al. (2001) ont pu différencier 

des sujets arachnophobes de sujets ayant la phobie des serpents : 

les sujets arachnophobes ont une attitude plus négative envers les araignées 

et plus positive envers les serpents alors que c’est l’inverse chez les 

sujets ayant la phobie des serpents. Citons aussi DeJong (2002), qui a 

montré que des sujets anxieux avaient une estime de soi plus faible que 

des sujets non-anxieux, Swanson, Rudman et Greenwald (2001) qui ont 

établi que des végétariens avaient une attitude plus positive envers les légumes 

et les fruits et plus négative envers la viande que des non-végétariens ou 

Banse et al. (2001) qui ont mis en évidence, chez des sujets homosexuels, 

comparativement à des hétérosexuels, une attitude plus positive envers 

l’homosexualité, etc. 

Les résultats concernant la validité critérielle des scores des différentes 

applications de l’IAT sont, eux aussi encourageants (Poehlman, Uhlman, 

Greenwald et Banaji, 2005) même s’ils restent peu nombreux. Ainsi, 

Phelps et al. (2000) ont pu mettre en évidence une relation entre une 

mesure IAT d’attitudes raciales (« Blancs » vs. « Noirs ») et l’intensité de 

l’activation de l’amygdale (évaluée par IRMf) lorsqu’un visage blanc ou 

noir est présenté au sujet. Greenwald et Farnham (2000) ont montré 

qu’un IAT d’estime de soi prédisait les réactions des sujets après un feedback 

positif ou négatif (les sujets ayant une forte estime de soi semblent 

moins affectés par un feed-back négatif). Asendorpf et al. (2002) ont, 

quant à eux, observé qu’un IAT de timidité prédisait davantage les comportements 

de timidité spontanée ( e.g. , position et tension corporelle) qu’une 

mesure directe de timidité, alors que cette dernière est davantage corrélée 

aux comportements contrôlés de timidité ( e.g., durée d’une prise de 

parole en public). 

Tout comme d’autres mesures élaborées essentiellement sur des bases 

empiriques, celles utilisant l’IAT connaissent de sérieuses difficultés 

lorsqu’il s’agit d’apprécier la validité de construit des scores qu’elles produisent. 

Dès les premières applications de l’IAT, on a cherché à établir le 

niveau de relation entre la mesure directe d’un concept et la mesure indirecte 

de ce même concept (voir, par exemple, Greenwald et Nosek, 2001 ; 

Nosek et al. , 2002b ; Fazio et Olson, 2003). Dans l’ensemble, les corrélations 

obtenues sont plutôt faibles (r < .30 ; Hofman, Gawronski, 

313 


314 Christophe Blaison • Delphine Chassard • Jean-Luc Kop • Kamel Gana 

Gschwendner, Le et Schmitt, 2005), même si l’on a pu constater quelques 

exceptions pour certains construits. L’interprétation de ces dissociations 

entre mesures directes et mesures indirectes reste toutefois ambiguë 

puisqu’on peut soit retenir ce résultat comme montrant la faillite du 

paradigme (pour absence de validité convergente), soit l’utiliser pour 

attester de l’absence de contamination des mesures indirectes par les biais 

inhérents aux mesures directes. Rapidement esquissée, cette controverse 

amène à s’interroger sur ce que mesure réellement un paradigme comme 

l’IAT. C’est à cette question qu’est consacrée la majeure partie de la suite 

de cet article. 

3.4. Les limites : l’interprétation équivoque de l’effet IAT 

À un niveau strictement opératoire, l’effet IAT n’est qu’une différence de 

temps de réponse entre les deux blocs-tests de la procédure. On a d’abord 

considéré que cette différence reflétait des associations privilégiées entre 

concepts et attributs pouvant s’interpréter, selon le cas, comme des attitudes, 

des stéréotypes ou encore des représentations de soi. Ces 

interprétations – que l’on désignera par l’expression « interprétation 

naïve » – sont loin d’être aussi univoques qu’elles ne le paraissaient, et 

plusieurs éléments théoriques et/ou empiriques incitent aujourd’hui à 

davantage de prudence. Dans les points qui vont suivre, nous présentons 

les questionnements majeurs quant à l’interprétation d’un score IAT, 

ainsi que les garde-fous et/ou les raffinements méthodologiques permettant 

d’y répondre. 

Premièrement, la mesure IAT est une mesure d’associations relatives (De 

Houwer, 2002). Prenons pour illustrer un IAT censé appréhender les attitudes 

raciales (utilisant les cibles « Blancs » vs. « Noirs » et les attributs 

« Agréable » vs. « Désagréable »). Supposons qu’un sujet soit plus rapide 

dans le bloc où les catégories « Blancs » et « Agréable » (respectivement 

« Noirs » et « Désagréable ») partagent la même touche de réponse que 

dans le bloc où les catégories « Noirs » et « Agréable » (respectivement 

« Blancs » et « Désagréable ») sont associées. Tout ce que l’on peut dire, 

c’est que l’association « Blancs – Agréable » ou l’association « Noirs – 

Désagréable » est plus forte que l’association « Blancs – Désagréable » ou 

plus forte que l’association « Noirs – Agréable ». Et, pour inférer de ce 

résultat que le sujet a une attitude positive envers les Blancs et négative 

envers les Noirs, il faut supposer que les deux premières associations sont 

fortement établies et que les secondes sont faibles ou inexistantes. On 

observerait toutefois les mêmes résultats : a) si le sujet avait une attitude 

positive envers les Blancs et neutre vis-à-vis des Noirs (i.e., l’association 


Validité et fondements théoriques des scores IAT 315 

« Noirs – Agréable » est du même ordre de grandeur que l’association 

« Noirs – Désagréable ») ; b) ou s’il avait une attitude neutre envers les 

Blancs (i.e., même intensité des associations « Blancs – Agréable » et 

« Blancs – Désagréable ») et une attitude négative vis-à-vis des Noirs (i.e., 

association « Noirs – Désagréable » plus intense que l’association 

« Noirs – Agréable »). Pour trancher entre ces différentes interprétations, 

il faudrait connaître le niveau absolu de l’une des associations, ce qui n’est 

pas possible à l’intérieur du paradigme IAT, même si l’on essaie de 

contourner la difficulté en intégrant une catégorie supposée neutre. Les 

résultats obtenus dans cette perspective par Brendl, Markman et Messner 

(2001) montrent toute l’importance de cette relativité. Dans un premier 

temps, ces auteurs répliquent le résultat princeps de Greenwald et al. 

(1998) : les associations « Fleurs – Agréable » et « Insectes – Désagréable » 

donnent lieu en moyenne à des réponses plus rapides que les associations 

« Fleurs – Désagréable » et « Insectes – Agréable », ce qui est d’habitude 

interprété comme indiquant une attitude favorable vis-à-vis des fleurs et 

négative envers les insectes. Dans un second temps, les noms de fleurs ont 

été remplacés par des mots sans signification (catégorie « Pseudo-mots »), 

supposés affectivement neutres, le reste du matériel étant identique à 

celui de la première expérience. On observe alors que les associations 

« Insectes – Agréable » et « Pseudo-mots – Désagréable » donnent lieu à 

des réponses plus rapides que les associations « Insectes – Désagréable » et 

« Pseudo-mots – Agréable », ce qui, si l’on s’en tient à l’interprétation 

naïve, signifierait cette fois, qu’en général, les individus ont une attitude 

positive vis-à-vis des insectes et négative envers les pseudo-mots ! Cette 

étude illustre ainsi la relativité des mesures d’association révélées par 

l’IAT, et insiste donc sur le fait que l’appréciation d’un concept-cible est 

fortement dépendante de l’autre concept-cible utilisé. Ainsi, même 

lorsque l’application d’une méthode analytique afin d’évaluer une association 

absolue entre une seule cible et ses attributs semble séduisante, il 

est fortement déconseillé de calculer un effet IAT sur la base des temps de 

réponse aux exemplaires d’un seul concept-cible et de ses attributs (i.e., 

soustraction des moyennes des temps de réponse à « Fleurs » et 

« Agréable » dans le premier bloc, de la moyenne des temps de réponse à 

« Fleurs » et « Désagréable » dans le deuxième bloc) (Nosek, Greenwald et 

Banaji, étude 1, 2005a). 

Néanmoins, le fait que l’IAT ne permettrait que la mesure d’associations 

relatives n’est pas forcément problématique. En fait, que cela pose problème 

ou non dépend avant tout de ce que l’on cherche à appréhender. 

Par exemple, si l’on recourt à un IAT « Fleurs/Insectes » dans le but de 

situer des sujets les uns par rapport aux autres selon leur attitude envers 



les fleurs, le problème de la mesure d’associations relatives se pose alors 

dans le sens où les différences de scores entre les sujets ne reflètent pas 

forcément leur différence d’attitude envers les fleurs (e.g. des sujets ayant 

la même attitude envers les fleurs peuvent obtenir des scores IAT 

« Fleurs/Insectes » différents et des sujets obtenant le même score IAT 

peuvent avoir des attitudes différentes envers les fleurs). Par contre, si 

l’on cherche à situer des sujets les uns par rapport aux autres selon leur 

préférence pour les fleurs ou les insectes, alors le problème de la mesure 

relative ne se pose plus, en ce sens que les différences de scores entre les 

sujets devraient refléter leur niveau de préférence pour les fleurs ou les 

insectes (e.g. un effet IAT négatif indique une préférence pour les insectes 

par rapport aux fleurs, un effet IAT nul indique une absence de préférence, 

un effet IAT positif indique une préférence pour les fleurs par 

rapport aux insectes ; et plus l’effet est élevé, en valeur absolue, plus la 

préférence est marquée). 

Deuxièmement, il n’est pas certain que ce soient toujours les associations 

entre concepts-cibles et concepts-attributs qui soient pertinentes dans 

l’effet IAT, alors que c’est sur celles-ci que repose l’interprétation naïve. 

Dans la plupart des applications habituelles, la valence des concepts-cibles 

est confondue avec la valence des exemplaires qui les représentent (dans 

un IAT « Fleurs vs. Insectes », tous les noms de fleurs utilisés évoquent 

des représentations positives, tous les noms d’insectes utilisés évoquent 

des représentations négatives). De Houwer (2001) a essayé de rendre 

indépendantes la valence des cibles et celle de leurs exemplaires. Ainsi, 

dans un IAT « Anglais vs. Étrangers » réalisé en Grande-Bretagne, les 

exemplaires de chaque concept-cible sont pour moitié des personnes 

appréciées et, pour moitié, des personnes supposées détestées (e.g., respectivement 

« Ghandi » et « Hitler » pour la cible « Étrangers »). Les 

résultats obtenus semblent indiquer que les concepts-cibles priment sur 

les exemplaires, c’est-à-dire que l’on observe bien un effet IAT interprété 

comme une préférence envers l’endogroupe. Mais ce n’est pas toujours le 

cas : dans certaines situations, la valence des exemplaires peut contribuer 

à moduler l’effet IAT (Mitchell, Nosek et Banaji, 2003b), voire à l’expliquer 

totalement lorsque les concepts-cibles n’ont pas de valence marquée 

(De Houwer, 2001). L’effet IAT serait donc non seulement relatif aux 

concepts-cibles utilisés, mais aussi aux exemplaires choisis pour les représenter. 

Cette question étant néanmoins bien traitée dans la littérature, il 

est possible d’éviter les écueils d’interprétation qui lui sont liés pour peu 

que l’on respecte certaines règles établies de choix d’exemplaires. On peut 

trouver une belle synthèse méthodologique concernant le rationnel de ce 

choix dans Nosek, Greenwald et Banaji (2005b). 



Troisièmement, les différences de temps de réponse mesurés aux deux 

blocs-tests de l’IAT pourraient refléter davantage la fréquence avec 

laquelle les sujets sont confrontés aux associations rencontrées dans leur 

environnement plutôt que l’attitude individuelle que l’on infère souvent. 

Si l’on suit, par exemple, le raisonnement de Karpinski et Hilton (2001), 

on peut considérer en effet que l’on a davantage d’occasions d’établir des 

associations stéréotypées « Blancs – Agréable » et « Noirs – Désagréable » 

que l’inverse (dans la culture américaine tout du moins). La familiarisation 

avec ces associations permettrait de traiter plus rapidement le bloc 

dans lequel elles sont présentées et l’on n’aurait alors nul besoin d’invoquer 

une quelconque attitude pour rendre compte des différences 

constatées. Certains scores d’attitude IAT sont compatibles avec cette 

hypothèse, notamment ceux qui montrent que les fumeurs ont une attitude 

aussi négative envers le tabac que les non-fumeurs (Swanson et al., 

2001), ou bien qu’approximativement la moitié des Noirs américains ont 

une attitude plus positive vis-à-vis des Blancs que vis-à-vis des Noirs 

(Nosek et al., 2002b ; Banaji, 2001). En substance, l’idée qu’avancent Karpinski 

et Hilton (2001) ainsi que d’autres comme Olson et Fazio (2004), 

est que les associations « culturelles » ne nous appartiennent pas, et 

qu’elles parasitent de ce fait l’évaluation IAT des attitudes personnelles. 

Mais, avec Nosek et Hansen (2004), on pourrait réviser nos conceptions 

habituelles en considérant les attitudes automatiques (i.e., les attitudes 

telles qu’évaluées par l’IAT) comme des construits multidimensionnels 

dont l’une des nombreuses facettes serait forgée par un conditionnement 

culturel. Ce qui compterait alors, ce ne serait pas tant l’origine de l’attitude 

considérée, mais sa disponibilité, son accessibilité et son 

applicabilité dans un certain contexte (Nosek et Hansen, 2004). 

Quatrièmement, une autre explication de l’effet IAT met l’accent sur 

l’intervention de mécanismes de contrôle exécutif dont certains effets sur 

les temps de réponse seraient indépendants de la force d’association entre 

concepts et fausseraient par là l’interprétation des scores IAT (Mierke et 

Klauer, 2001, 2003 ; Klauer et Mierke, 2005). Comme le rappellent 

McFarland et Crouch (2002), on peut s’étonner que dès la première présentation 

de l’IAT (Greenwald et al., 1998), les auteurs trouvent une 

corrélation anormalement élevée (r = .58) entre les scores d’un IAT 

portant sur les concepts-cibles « Fleurs vs. Insectes » et ceux d’un IAT 

portant sur les concepts-cibles « Instruments de musique vs. Armes » (les 

attributs étant « Agréable » et « Désagréable » dans les deux cas) : l’attitude 

envers les fleurs serait ainsi assez fortement liée à l’attitude envers les 

instruments de musique. Obtenant des résultats similaires avec d’autres 

cibles dont on s’attend à ce qu’elles génèrent des attitudes indépendantes 



les unes des autres, McFarland et Crouch (2002) concluent alors que ces 

corrélations reflètent un effet de méthode qu’ils attribuent à la plus ou 

moins grande facilité avec laquelle les sujets sont capables de traiter le 

bloc-test dit incompatible, c’est-à-dire celui qui repose sur les associations 

les moins évidentes pour les sujets (et qui entraîne donc des temps de 

réponse en général plus longs). Mierke et Klauer (2001, 2003) proposent 

une explication cognitive élégante de cet effet faisant intervenir le coût de 

l’alternance entre deux tâches (“task switch cost”). Selon ces auteurs, 

confrontés au bloc compatible de l’IAT (celui dans lequel les associations 

sont les plus évidentes pour les sujets), les sujets pourraient simplifier la 

consigne qui leur demande de classer des stimuli soit en fonction des 

concepts-cibles (e.g., « Fleurs » vs. « Insectes »), soit en fonction des 

concepts-attributs (e.g., « Agréable » vs. « Désagréable »). Ainsi suffirait-il, 

dans le bloc où sont associés « Fleurs » et « Agréable » d’une part, et 

« Insectes » et « Désagréable » d’autre part, de ne classer qu’en fonction 

d’une seule dichotomie : « Agréable » vs. « Désagréable ». Cette simplification 

de deux tâches en une n’est plus possible dans le bloc incompatible 

(associations « Fleurs – Désagréable » et « Insectes – Agréable ») où la 

sélection de la réponse appropriée ne peut se faire qu’en fonction des 

deux dichotomies indiquées dans la consigne (i.e., « Fleurs » vs. 

« Insectes » et « Agréable » vs. « Désagréable »). Par exemple, lors du 

passage d’un exemplaire attribut à un exemplaire cible, le sujet doit 

inhiber la tendance de réponse maintenant non pertinente (classer selon 

la dichotomie « Agréable » vs. « Désagréable ») pour activer le schéma de 

réponse maintenant pertinent (classer selon la catégorie sémantique 

« Fleur » vs. « Insecte »). Cette alternance entre deux tâches entraînerait 

un coût cognitif supplémentaire dont l’importance serait propre à chaque 

individu et ce, quels que soient les concepts-cibles ou attributs à classer. 

C’est ici que s’infiltrerait une part de variabilité interindividuelle non 

désirée car indépendante de la force d’association entre concepts. Afin 

d’appuyer leur théorie, Mierke et Klauer (2001) rapportent les résultats 

d’études expérimentales montrant notamment que l’effet IAT diminue 

lorsqu’on fournit aux sujets, avant chaque essai, des indices permettant de 

diminuer le coût de l’alternance entre les tâches (cf. aussi l’étude de Dasgupta, 

McGhee, Greenwald et Banaji (2000) établissant que l’effet IAT est 

plus faible lorsqu’il s’agit de classer des photos que lorsqu’il s’agit de 

classer des noms, le premier classement étant jugé cognitivement moins 

complexe que le second). D’autres résultats semblent, eux aussi, apporter 

quelque crédit à cette hypothèse. Ainsi, Chee, Sriram, Soon et Lee (2000) 

observent, par IRMf, une activation des centres neuronaux impliqués 

dans l’inhibition lorsque des sujets réalisent un IAT ; Hummert et al. 



(2002) parviennent à faire disparaître ou à atténuer certaines différences 

entre groupes d’âge lorsque la vitesse globale de traitement de l’information 

des sujets est contrôlée. Dans une perspective quelque peu différente, 

les observations mettant en évidence le rôle de l’apprentissage dans l’effet 

IAT peuvent aussi être lues à l’aune de l’hypothèse de Mierke et Klauer 

(2001). Ainsi, des études montrent que l’effet IAT est plus faible : lors 

d’une seconde passation comparativement à la première (Steffens et 

Buchner, 2003) ; quand on le calcule sur la seconde partie des items des 

blocs-tests par rapport au même calcul sur la première moitié des items 

(Marsh, Johnson et Scott-Sheldon, 2001) ; lorsque le bloc incompatible 

précède le bloc compatible (Greenwald et Nosek, 2001)(4). La présence 

de variabilité systématique de méthode dans les scores produits par l’IAT 

est donc bien établie. Ce pourrait être un coup sérieux porté à la validité 

des scores IAT si l’on n’avait pas récemment découvert une parade à ce 

problème. Signalons d’abord qu’il existe deux manières « canoniques » de 

calculer l’effet IAT : l’algorithme dit « amélioré » apparu en 2003 

(Greenwald et al., 2003) ; l’algorithme dit « conventionnel » (Greenwald 

et al., 1998), considéré comme dépassé. Une des particularités de l’algorithme 

amélioré est de calculer l’effet IAT en unité d’écart-type des temps 

de réponse sur l’ensemble des deux blocs qui composent l’IAT. Mierke et 

Klauer (2003) ont montré que parce qu’il prenait en compte la variabilité 

intraindividuelle des temps de réponse, le nouvel algorithme contrôle en 

fait la variabilité interindividuelle de flexibilité cognitive dont provient la 

part de variance systématique de méthode des scores IAT. Pour cette 

raison, et parmi d’autres (cf. Greenwald et al., 2003), il est fortement 

conseillé d’utiliser maintenant l’algorithme amélioré pour tout calcul 

d’effet IAT. 

Cinquièmement, en raison de la relation asymétrique entre une association 

et une attitude, il n’est pas toujours certain que les associations 

observées dans les IAT d’attitudes renvoient aux attitudes correspondantes. 

Pour Fiedler, Messner et Bluemke (2005)(5), le fait de définir une 

attitude comme une association entre un objet donné et une valence 

(positive ou négative) (Fazio, 1986 ; Greenwald et al., 2002) ne doit pas 

faire oublier qu’il n’y a aucune raison de postuler, comme on le fait habituellement, 

qu’il existe une relation symétrique entre ces deux concepts : 

si l’on peut effectivement modéliser une attitude par l’association entre 

un objet donné et une valence, toute association entre un objet donné et 

une valence observée dans un IAT n’est pas forcément le reflet d’une attitude. 

Il suffit pour cela que les sujets utilisent d’autres critères de 

classification que ceux indiqués par l’expérimentateur. Comme illustration 

un peu extrême, prenons l’exemple de De Houwer, Geldof et De 



Bruycker (2005) qui montre que les associations « Pizzas – Pièces de 

monnaie » et « Serpents – Rivières » donnent lieu à des réponses plus 

rapides que les associations « Pizzas – Rivières » et « Serpents – Pièces de 

monnaie ». Dans la première situation et afin de simplifier la tâche, les 

sujets utilisent probablement la similarité de forme entre les concepts, 

même si cette caractéristique n’a jamais été évoquée dans les consignes. 

D’autres caractéristiques non pertinentes du point de vue du chercheur 

peuvent être utilisées par les sujets. Par exemple, Rothermund et Wentura 

(2004) expliquent la relative facilité des associations « Insectes – 

Agréable » et « Pseudo-mots – Désagréable » décrite supra par un modèle 

de saillance figure-fond. Selon ce dernier, les pseudo-mots (du fait de leur 

caractère étrange) et les attributs négatifs (e.g., « Désagréable ») (parce 

que les stimuli négatifs attirent davantage l’attention que les stimuli positifs, 

cf. Peeters, 1992) constituent des éléments saillants par rapport au 

fond constitué des attributs positifs et des exemplaires renvoyant à 

« Insectes ». Les associations peuvent se former ici suivant le degré de 

saillance du matériel à classer. D’où le fait que l’on observe une « attitude 

» favorable envers les insectes. En revanche, dans un IAT plus 

traditionnel (« Fleurs » vs. « Insectes » et « Agréable » vs. « Désagréable »), 

la catégorie « Désagréable » reste saillante par rapport à la catégorie 

« Agréable », mais cette fois-ci, la catégorie « Insectes » est plus saillante 

que la catégorie « Fleurs » (en raison de l’asymétrie entre concepts négatifs 

et positifs). L’association « Insectes – Désagréable » est dès lors 

facilitée, et on observe une « attitude » défavorable vis-à-vis des insectes. 

La « référence à soi » constituera un dernier exemple de critère de classification 

non pertinent du point de vue de l’expérimentateur. Dans un IAT 

« Blancs » vs. « Noirs » et « Agréable » vs. « Désagréable », un Blanc ayant 

une bonne estime de lui-même peut réduire la difficulté de la tâche en 

utilisant le fait que les stimuli de personnes blanches font référence à soi 

(car c’est une de ses caractéristiques propres) tout comme les stimuli de la 

caractéristique « Agréable » si elle possède une estime de soi élevée. Pour 

cette personne, l’association « Blancs – Agréable » va donner lieu à des 

réponses plus rapides, qui risquent d’être interprétées, à tort, comme un 

indicateur d’attitude favorable envers les Blancs et défavorable envers les 

Noirs. 

En fait, n’importe quelle ressemblance suscitée par des caractéristiques 

communes non pertinentes du point de vue du chercheur mais néanmoins 

utilisée par un sujet donné pour se faciliter la tâche de 

classification, peut provoquer des effets IAT. On peut alors réinterpréter 

le paradigme comme une mesure générale de similarité entre catégories 

(De Houwer et al., 2005). Le modèle de la redondance de Fiedler et al. 



(2003) tente d’en formuler les principes. Dans le bloc compatible, les 

catégories associées à la même touche de réponse partagent un maximum 

de caractéristiques, les catégories associées à des touches différentes n’ont 

que peu ou pas de caractéristiques communes : dans cette situation, il n’y 

a donc guère de raison de confondre les touches de réponse. Dans le bloc 

incompatible en revanche, les catégories associées à des touches différentes 

ont en commun une ou plusieurs caractéristiques, les deux touches 

de réponse ont par conséquent tendance à être psychologiquement 

confondues. Dans ce modèle, l’interprétation traditionnelle de l’effet IAT 

est appropriée quand, du point de vue du chercheur, la distance psychologique 

entre les touches de réponse est uniquement fonction des 

associations entre les caractéristiques pertinentes des attributs et des 

cibles ; elle devient inappropriée quand la distance psychologique est due 

à des redondances entre caractéristiques non pertinentes des attributs et 

des cibles. 

3.5. Des alternatives 

Afin de remédier à certaines des limitations venant d’être évoquées, des 

instruments concurrents ou plutôt complémentaires à l’IAT sont apparus. 

Dans ce qui suit, nous mentionnerons uniquement le GNAT (Go/No-go 

Association Task ; Nosek et Banaji, 2001), l’EAST (Extrinsic Affective 

Simon Task ; De Houwer, 2003) et le SCAT (Single Category Association 

Test ; Karpinski & Steinman, 2006), car ils nous semblent les plus 

prometteurs. 

Le GNAT résout le problème de la mesure relative car il permet de 

mesurer la force d’association entre un seul concept-cible et son attribut. 

La tâche du sujet consiste à discriminer entre les exemplaires d’un 

concept-cible (e.g., « Fruit ») ou d’un attribut (e.g., « Agréable ») et des 

distracteurs. Dans le premier cas (exemplaire-cible ou exemplaireattribut), 

le sujet appuie sur une touche prédéterminée (« Go ») alors que 

dans le second (distracteurs), aucune action n’est requise (« No Go »). 

Tout comme dans l’IAT, la procédure de mesure s’effectue en deux 

phases se distinguant par le changement d’attribut : par exemple, pour 

mesurer une attitude, on utilise un attribut positif dans une phase (e.g., 

« Agréable ») et un attribut négatif dans la seconde phase (e.g., « Désagréable 

»). Le concept-cible est donc associé soit à un attribut positif, soit 

à un attribut négatif. De la différence de performance entre ces deux 

phases, on en infère une attitude plus ou moins positive vis-à-vis du 

concept-cible. Bien que les qualités psychométriques du GNAT soient 

comparables à celles de l’IAT, les deux mesures corrèlent très faiblement 



ensemble (Nosek et Banaji, 2001) ; et les seules corrélations avec une 

mesure explicite rapportées, à notre connaissance, dans la littérature sont 

très faibles à inexistantes (Nosek et Banaji, 2001). Mais il est vrai que très 

peu d’études ont utilisé ce paradigme jusqu’à présent (pour de rares 

exceptions, cf. Blair, Ma et Lenton, 2001 ; Mitchell, et al., 2003). 

L’EAST (De Houwer, 2003) élimine lui aussi le problème de la mesure 

relative ; il évite, en plus, la comparaison entre deux blocs reposant sur 

des tâches différentes. Tout comme dans l’IAT, il s’agit de classer des stimuli, 

mais le critère de classification est ici soit la signification 

sémantique (pour les concepts-attributs), soit la couleur (pour le 

concept-cible). Concrètement, des exemplaires-attributs sont présentés 

dans une couleur blanche, le sujet devant indiquer s’ils relèvent de la catégorie 

« Agréable » ou de la catégorie « Désagréable » en appuyant sur la 

touche correspondante. Le concept-cible est, quant à lui, présenté soit en 

bleu, soit en vert, le sujet devant discriminer la couleur en utilisant les 

mêmes touches de réponse que celles utilisées pour discriminer les exemplaires-attributs. 

Même si la signification des concepts-cibles peut être 

ignorée pour réussir la tâche, on suppose que le sujet sera plus rapide 

lorsque la valence – automatiquement activée – de la cible et sa couleur 

correspondent à la même touche de réponse ; et qu’il sera plus lent 

lorsque la valence de la cible et sa couleur relèvent de deux touches différentes. 

Ainsi, si les catégories « Agréable » et « Couleur bleue » sont 

associées à la même touche de réponse alors que les catégories « Désagréable 

» et « Couleur verte » sont associées à l’autre touche de réponse, 

un sujet qui a une attitude favorable envers les fruits devrait répondre 

plus rapidement lorsque ceux-ci sont présentés en bleu que lorsqu’ils sont 

présentés en vert, ce qui est vérifié empiriquement (De Houwer, 2003). 

L’EAST permet donc d’estimer des associations absolues (i.e., non relatives) 

en une seule phase ; il présente aussi l’avantage de permettre la 

mesure simultanée de plusieurs attitudes puisqu’il est possible de présenter 

des exemplaires de plusieurs concepts-cibles, ceux-ci ne devant être 

discriminés que par rapport à leur couleur. Malheureusement, malgré le 

caractère ingénieux de la procédure, les qualités psychométriques du 

paradigme sont décevantes (De Houwer, 2003) et bien inférieures à celles 

de l’IAT, ce qui s’explique sans doute en partie par des écarts trop faibles 

de performances entre les deux conditions expérimentales (exemplairescibles 

d’une couleur vs. de l’autre couleur), et donc à des tailles d’effet 

insuffisantes pour assurer des différences interindividuelles stables. 

L’interprétation des effets mesurés dans ce paradigme étant toutefois 

moins équivoque que celle des effets IAT, on peut espérer que des aménagements 

internes puissent remédier à ces difficultés psychométriques. 



Le SCAT (Karpinski & Steinman, 2006) est le dernier né de ces trois instruments 

alternatifs. Il permet lui aussi de mesurer la force d’association 

absolue entre un concept-cible et son attribut. Il ressemble beaucoup à 

l’IAT dans sa mise en œuvre : grâce à deux touches, le sujet doit classer à 

droite ou à gauche des stimuli appartenant à des catégories différentes. 

Mais au lieu d’être quatre, ces catégories ne sont que trois : deux catégories 

d’attributs opposés (e.g., « Agréable » vs. « Désagréable ») et une seule 

catégorie cible (e.g., « Fruit »). Ainsi, dans le premier bloc-test les sujets 

doivent classer par exemple les stimuli relevant des catégories « Agréable » 

et « Fruit » à gauche et ceux de la catégorie « Désagréable » à droite ; dans 

le deuxième bloc-test, ils doivent cette fois classer les exemplaires de la 

catégorie « Agréable » à gauche et ceux des catégories « Désagréable » et 

« Fruit » à droite. Dans les trois applications rapportées par Karpinski 

(2004), les consistances internes sont satisfaisantes et du même ordre de 

grandeur que celles que l’on observe habituellement avec l’IAT ; les corrélations 

avec des mesures directes sont sensiblement supérieures à celles 

impliquant l’IAT, résultat que l’auteur attribue au fait que son instrument 

mesure des associations absolues alors que l’IAT ne mesure que des associations 

relatives. Cette caractéristique fait du SCAT un paradigme 

prometteur pour peu que l’on puisse expliquer certains résultats étonnants, 

comme l’absence totale de corrélation entre un SCAT d’estime de 

soi et un IAT d’estime de soi (Karpinski & Steinman, 2006). 

4. LES RELATIONS ENTRE MESURES DIRECTES 

ET MESURES INDIRECTES 

L’étude de validité des mesures dérivées des différents paradigmes de 

mesures indirectes en général et de l’IAT en particulier a largement fait 

référence à la mise en relation entre mesures directes et indirectes du 

même construit (Nosek, 2004 ; Hofman et al., 2005). Mais pour que les 

résultats de ces études puissent servir au processus de validation, encore 

faut-il que l’on ait des hypothèses précises quant à la nature des relations 

entre ces mesures. Or, s’il existe un relatif consensus sur le fait que les 

relations observées sont généralement faibles mais positives, l’interprétation 

de cette dissociation reste l’objet de débats : s’explique-t-elle 

simplement par les problèmes théoriques et méthodologiques posés par 

l’IAT ou bien par les biais inhérents aux mesures directes ? Renvoie-t-elle 

à l’existence de construits différents ? L’objectif de cette dernière partie est 



de détailler les arguments fournis en faveur des différentes explications 

proposées. 

Premièrement, la dissociation observée entre mesures directes et IAT peut 

s’expliquer par les problèmes méthodologiques et théoriques posés par 

l’IAT. Nous avons déjà fait référence au fait qu’il ne produit que des 

mesures d’associations relatives. Par exemple, un IAT d’estime de soi 

mesurerait en fait la force d’association entre les concepts « Moi – 

Agréable » comparativement à la force d’association entre les concepts 

« Pas moi – Agréable » et non la force d’association « Moi – Agréable » en 

elle-même (Karpinski & Steinman, 2006). Or, même si certains items des 

mesures directes d’estime de soi font référence à autrui, elles ne sont pas 

entièrement construites sur ce modèle, ce qui pourrait participer à la 

faible relation observée entre mesures directe et IAT. De plus, le fait que 

la tâche IAT se décompose en deux blocs indépendants introduit un 

certain nombre de biais de mesure, qui, alliés à ceux cités plus haut, contribuent 

sans doute aussi au manque de convergence entre mesures 

directes et IAT. Ces explications ne sont toutefois pas entièrement convaincantes 

puisque avec les nouveaux paradigmes censés corriger certains 

des défauts de l’IAT (GNAT, EAST, SCAT), les corrélations entre mesures 

directes et indirectes restent très inférieures à ce que l’on pourrait 

attendre. Il faut donc chercher des explications complémentaires. 

Deuxièmement, la dissociation observée entre mesures directes et IAT 

pourrait être imputée à certains biais propres aux mesures directes : 

l’auto-présentation et les limites des capacités introspectives des sujets. 

Alors que les mesures directes sont connues pour leur sensibilité aux stratégies 

de présentation adoptées par les sujets (Kop et Chassard, 2005), 

l’IAT n’en serait pas affecté (Greenwald et al., 2002). Néanmoins, les 

résultats des études portant sur le rôle modérateur de l’auto-présentation 

dans la relation entre mesures directe et IAT sont contradictoires. Alors 

que Nosek (2004) trouve effectivement que plus l’auto-présentation est 

élevée, plus la relation entre mesures directes et IAT est faible et que 

Banse (2004) montre que l’auto-présentation modère la relation entre 

mesures directes et IAT, Nosek et Banaji (2002) et Egloff et Schmukle 

(2003) ne répliquent pas ces résultats. Il semble en outre peu probable 

que l’auto-présentation puisse expliquer entièrement les dissociations 

observées. Si elle devait rendre compte, par exemple, de l’absence de corrélation 

(Greenwald et al., 1998) entre un IAT et une mesure directe 

censés appréhender l’attitude envers les fleurs, il faudrait alors faire 

l’hypothèse que ce type d’attitude est particulièrement sensible à l’autoprésentation 

! Enfin, les limites des capacités introspectives des sujets, 

plus difficiles à appréhender dans des études empiriques, ont fait l’objet 



de moins de discussions mais continuent à être invoquées comme une 

cause possible des dissociations entre mesures directes et indirectes. Toutefois, 

comme le reconnaissent Greenwald et al. (2002), il est souvent 

quasi impossible de faire la distinction entre ces deux facteurs explicatifs 

potentiels : les domaines pour lesquels les sujets n’ont que peu de raisons 

à chercher à dissimuler leur attitude sont aussi généralement ceux qui 

sont les plus facilement accessibles à l’introspection. 

Troisièmement, la dissociation entre mesures directes et IAT peut s’expliquer 

par des éléments théoriques relevant de la cognition implicite, grâce 

notamment à certaines réflexions récentes relatives aux attitudes. Deux 

grandes classes de modèles peuvent être distinguées selon que l’on considère 

que la mesure directe et la mesure indirecte appréhendent chacune 

un construit différent ou selon que l’on suppose qu’elles sont deux 

manières différentes d’appréhender le même construit. Nous commencerons 

par évoquer l’hypothèse de l’existence de deux construits différents. 

En postulant l’existence de deux construits, les partisans de cette 

approche supposent que chacun des construits possède sa propre représentation 

en mémoire (Greenwald et Banaji, 1995 ; Wilson, Lindsley et 

Schooler, 2000). Par exemple, le modèle des attitudes duelles (model of 

dual attitudes) développé par Wilson et al. (2000), distingue entre le 

construit d’« attitude explicite » (Ae) et celui d’« attitude implicite » (Ai) 

et repose sur les cinq hypothèses suivantes : a) Une Ae et une Ai envers un 

même objet peuvent coexister en mémoire ; b) Lorsque des attitudes 

duelles coexistent, Ai est activée automatiquement alors que Ae requiert 

davantage de ressources cognitives et de motivations pour être récupérée. 

Si les individus sont capables de récupérer Ae, celle-ci prend alors le pas 

sur Ai, de sorte que les sujets expriment Ae. Au contraire, si les individus 

n’ont ni les ressources ni la motivation nécessaires pour récupérer Ae, ils 

expriment Ai ; c) Même lorsque Ae est récupérée, Ai influence les 

réponses implicites, c’est-à-dire les réponses que les individus ne peuvent 

contrôler (e.g., comportements non-verbaux) ou qu’ils ne considèrent pas 

comme l’expression de leur attitude, et donc n’essaient pas de contrôler ; 

d) Les Ae changent relativement facilement, alors que les Ai, comme de 

vieilles habitudes, changent plus lentement ; e) Les attitudes duelles sont 

distinctes de l’ambivalence ainsi que des attitudes à composantes affective 

et cognitive contradictoires. En conséquence, plutôt que de faire l’expérience 

d’un état conflictuel subjectif, les individus expriment l’attitude la 

plus accessible (Wilson et al., 2000, p. 104). 

Wilson et al. (2000) distinguent quatre types d’attitudes duelles selon que 

l’on ait ou non conscience de posséder une attitude implicite Ai et selon 

que l’on ait besoin de capacités cognitives et de motivations particulières 



pour la remplacer par une attitude explicite Ae (cf. tableau II). Si l’on s’en 

tient à ce modèle, l’IAT permettrait plus particulièrement de mesurer des 

attitudes implicites que les individus seraient motivés à remplacer par 

leurs attitudes explicites, et ce qu’ils en aient conscience ou non (cf. cas de 

refoulement et de remplacement motivé). Mais que les individus aient 

conscience ou non de leurs attitudes implicites, qu’ils aient besoin ou non 

de ressources cognitives et de motivations particulières pour les remplacer, 

le modèle de Wilson et al. (2000) permet d’expliquer la 

dissociation entre mesures directe et indirecte par l’existence de deux 

construits de nature différente : un construit implicite qui se manifesterait 

systématiquement dans les mesures de type indirect, et un construit explicite 

qui s’exprimerait préférentiellement dans les mesures de type direct. 

Dans cette perspective, il est essentiel de mieux connaître les facteurs pouvant 

modérer la relation entre attitudes explicites et attitudes implicites. Nosek 

(2004) s’est ainsi lancé dans une entreprise de grande ampleur visant à 

repérer les modérateurs pertinents pour 57 objets d’attitude différents. Les 

corrélations entre mesures directes et indirectes (IAT) varient entre -0.05 et 

0.70 selon l’objet d’attitude et une part non négligeable de la variabilité de ces 

corrélations (39 %) peut effectivement être expliquée par les quatre modéra- 

Ai est-elle 

accessible 

à la 

conscience ? 

A-t-on 

besoin de 

ressources 

cognitives 

et de 

motivations 

particulières 

pour 

remplacer Ai 

par Ae ? 

Tableau II. Quatre types d’attitudes duelles 

(d’après Wilson et al., 2000, p. 105) 

Table II. Four types of dual attitudes (cf. Wilson et al ., 2000, p. 105) 

Refoulement 


Systèmes 

indépendants 

Remplacement 

motivé 

NON NON OUI 

Remplacement 

automatique 

Sous certaines 

conditions 

OUI NON OUI NON 

Note : Ai = Attitude implicite ; Ae = Attitude explicite


teurs retenus dans l’étude : auto-présentation (i.e., motivation à altérer ses 

réponses à des fins personnelles ou sociales) ; intensité de l’attitude ; dimensionnalité 

de l’attitude (i.e., degré de bipolarité) ; différence perçue entre son 

attitude personnelle et l’attitude moyenne. Ces résultats, prometteurs, méritent 

néanmoins d’être affinés et répliqués. 

Une seconde classe de modèles théoriques considère au contraire qu’il 

n’existe qu’un seul construit, supposé se différencier par le type de processus 

de traitement de l’information en jeu lors de sa mesure (Greenwald et 

Banaji, 1995 ; Dambrun et Guimond, 2003 ; Fazio et Olson, 2003). Ainsi, 

une dissociation entre mesures directes et IAT peut s’expliquer par le fait 

qu’une mesure indirecte appréhenderait un construit activé automatiquement 

sous l’effet de processus spontanés de traitement de l’information alors 

qu’une mesure directe appréhenderait ce même construit après intervention 

de processus délibérés (i.e., contrôlés). Le modèle de Fazio et Towles-Schwen 

(1999, « MODE model of attitude-behavior processes ») censé rendre 

compte des relations entre attitude et comportement est, dans ce contexte, 

particulièrement pertinent. En effet, ces auteurs distinguent entre des processus 

de type spontané qui ne nécessiteraient ni effort conscient, ni 

intention, ni contrôle de la part des individus et des processus délibérés qui 

demanderaient un travail cognitif important (inspection de l’information 

disponible, analyse des caractéristiques positives et négatives, des coûts et des 

bénéfices…), ce qui suppose de pouvoir disposer à la fois de la motivation et 

de l’opportunité (i.e., ressources cognitives et temps) nécessaires pour que ce 

type de processus puisse se mettre en place (Fazio et Towles-Schwen, 1999 ; 

Koole, Dijksterhuis et Van Knippenberg, 2001). Les processus spontanés et 

délibérés seraient relativement indépendants les uns des autres, mais ils interagiraient 

afin de déterminer conjointement le comportement, la 

prédominance d’un type de processus sur l’autre serait alors fonction de la 

motivation et de l’opportunité. Ainsi, lorsque la motivation et l’opportunité 

sont faibles, ce sont les processus spontanés qui détermineraient en grande 

partie le comportement. Au contraire, si la motivation et l’opportunité sont 

élevées, les processus de type délibéré prendraient le pas sur les processus 

spontanés (Fazio et Towles-Schwen, 1999). Banse et al. (2001) ont obtenu 

des résultats compatibles avec ce modèle théorique dans une étude d’attitude 

envers l’homosexualité. En particulier, les sujets ayant des attitudes négatives 

spontanées (mesurées à l’aide d’un IAT) envers l’homosexualité et ayant peu 

de motivation à contrôler leurs réactions se caractérisent par une attitude 

homophobe prononcée à une mesure directe. En revanche, chez des sujets 

ayant un même niveau d’attitudes négatives spontanées, mais chez lesquels la 

motivation à contrôler leurs réactions est accentuée, cette homophobie dans 

les mesures directes est fortement réduite. 




5. CONCLUSION 

L’apparition de l’IAT en 1998 a suscité un engouement dépassant largement 

le cercle restreint de la psychologie scientifique : articles de presse, 

émissions télévisées, sites Internet (https://implicit.harvard.edu/implicit/ 

france/) ont donné à cet outil une notoriété inattendue. Il faut sans doute 

y voir une certaine fascination de la psychologie populaire pour la possibilité 

d’accéder au plus profond de l’âme humaine. Se présentant comme 

un instrument permettant de révéler des sentiments que l’on tente habituellement 

de dissimuler, voire des sentiments auxquels on n’a pas accès, 

l’IAT a tout naturellement fait écho à ce penchant. La communauté scientifique, 

elle non plus, n’a pas échappé à cet effet de mode, si l’on en croit 

le nombre considérable de publications consacrées à ce paradigme depuis 

cette date. Toutefois, au fur et à mesure des années, la fascination initiale 

a peu à peu cédé la place à des approches plus critiques, davantage 

conformes à l’esprit scientifique. Et l’on s’aperçoit, aujourd’hui, que le 

monde de l’IAT est un monde de paradoxes. 

Paradoxe de sa construction, tout d’abord. L’étude de la cognition sociale 

implicite nécessitait en effet de nouveaux outils et c’est bien dans ce cadre 

de référence théorique que s’inscrit la naissance de l’IAT. Mais au lieu de 

construire un instrument s’inspirant des théories de ce courant, les 

concepteurs de l’IAT ont privilégié une démarche empirique s’appuyant 

essentiellement sur un critère de maximisation de la consistance interne 

qui n’est qu’une condition nécessaire pour produire des mesures offrant 

des scores fidèles et valides et en aucun cas une condition suffisante. 

Paradoxe de son fonctionnement ensuite. L’analyse des processus en 

œuvre dans l’IAT conduit à différentes interprétations de la mesure 

obtenue, interprétations parfois très éloignées de celle que souhaiteraient 

ses concepteurs (une force d’association entre concepts reflétant, selon la 

nature des concepts pris en compte, une attitude, un stéréotype, une 

représentation de soi…). Comment toutefois expliquer que les mesures 

IAT offrent par ailleurs des gages de validité compatibles avec l’interprétation 

naïve, comme par exemple, des fidélités comparables à celles des 

scores des mesures directes et des corrélations avec des indicateurs 

comportementaux spontanés ou des indicateurs physiologiques ? Qui 

plus est, pourquoi des outils considérés comme étant « processuellement 

» plus purs que l’IAT (et donc moins équivoques quant à 

l’interprétation de la mesure résultante) donnent des résultats si décevants, 

là même où l’IAT affiche ses résultats les plus convaincants ? 

Paradoxe des études de validation des mesures IAT enfin, qui, à quelques 

exceptions près, s’appuient sur la mise en relation de mesures directes


avec des mesures indirectes, alors que les premières sont accusées de 

maux que les secondes sont justement censées corriger. La signification 

donnée aux résultats obtenus dans cette perspective ne peut donner lieu 

qu’à des controverses difficiles à trancher, sauf à considérer comme 

Nosek et Smyth (2004), que les construits tels que mesurés par l’IAT sont 

théoriquement distincts de ceux mesurés par questionnaires. Par rapport 

aux scores recueillis à l’aide de questionnaires, il deviendrait alors plus 

intéressant d’explorer, à l’aide de plans de recherche différents, la valeur 

originale des scores produits par la famille de mesures dont l’IAT fait 

partie. 

Il faut avoir la modestie de reconnaître qu’aujourd’hui, alors que l’on 

continue d’avancer de manière remarquable (cf. Klauer et Mierke, 2005 ; 

Conrey, Sherman, Gawronski, Hugenberg et Groom, 2005), on ne maîtrise 

toujours pas complètement ce que mesurent les applications de 

l’IAT. L’article de Greenwald et al. (1998) reste néanmoins un révélateur : 

il a permis de décomplexer les chercheurs face à la possibilité de mesurer 

de manière fiable des construits inaccessibles aux mesures directes traditionnelles. 

Les imperfections de cet instrument de mesure relevées depuis 

ont eu en outre le mérite de stimuler la créativité des chercheurs dans différentes 

directions : étude des processus cognitifs en jeu dans des tâches 

de classification faisant intervenir des associations entre concepts, développement 

de modèles théoriques intégrant les construits implicites, mise 

au point de nouveaux paradigmes théoriquement mieux fondés. 

NOTES 

1. Même si l’on parle souvent de « mesure » ou d’« instrument » à propos 

de l’IAT, il serait plus correct de faire référence à un paradigme permettant 

de générer des instruments de mesure. Dans la suite du texte, afin de 

ne pas trop alourdir l’exposé, nous sacrifierons toutefois à l’usage en utilisant 

ces expressions. 

2. Conventionnellement, d = .20 : taille d’effet faible, d = .50 : taille d’effet 

moyenne et d = .80 : taille d’effet importante (Cohen, 1988). 

3. Il n’existe pas de consensus concernant la façon d’évaluer la consistance 

interne des scores produits par une adaptation particulière de l’IAT. Cette 

question est en outre très rarement débattue. Dans tous les articles l’évaluant, 

il est cependant une constante consistant à la calculer à partir d’un 

certain nombre de “sous-effets IAT” obtenus à partir d’autant de sousensembles 

de temps de réponse. Tout comme l’effet IAT principal, ils sont 

considérés comme reflétant la plus ou moins grande tendance à associer tel 

ou tel concept cible avec tel ou tel concept attribut. La consistance interne 



de ces sous-scores représente alors la consistance de cette tendance telle 

que révélée lors de la tâche IAT. Certains auteurs calculent deux souseffets 

IATs et les corrèlent (i.e., méthode split-half, ex., Marsh, Johnson et 

Scott-Sheldon, 2001 ; Greenwald et al., 2003), d’autres utilisent l’alpha de 

Cronbach soit à partir de deux sous-effet IAT (ex., Banse et al., 2001), soit 

à partir de quatre (ex., Asendorpf et al., 2002 ; Gawronski, 2002), soit 

encore à partir d’autant de sous-effets qu’il y a d’essais (i.e., essai 1 du 

deuxième bloc moins essai 1 du premier bloc, essai 2 du deuxième bloc 

moins essai 2 du premier bloc, etc. ; ex., Bosson et al., 2000 ; Egloff et Schmuckle, 

2004). 

4. Lorsque le bloc compatible précède le bloc incompatible, les associations 

du premier bloc correspondent à des associations connues nécessitant peu 

d’apprentissage (e.g., « Fleurs – Agréable »). Dans le bloc incompatible, il 

faut « désapprendre » ces associations et en apprendre de nouvelles, moins 

évidentes (e.g., « Fleurs – Désagréable »). La différence de vitesse entre les 

deux blocs est maximale. Or, lorsqu’on inverse les deux blocs, ce sont cette 

fois les associations du bloc incompatible qui sont nouvelles et nécessitent 

un apprentissage (e.g., « Fleurs – Désagréable »). À cela s’ajoute le fait que 

ces associations devront de surcroît être inhibées lors du second bloc. D’où 

le fait que dans cet ordre d’apparition des blocs, la différence de vitesse 

entre les deux blocs est minimale. C’est pourquoi, si l’on s’intéresse à l’effet 

IAT au niveau du groupe, il est généralement recommandé de contrebalancer 

les deux ordres de présentation (Greenwald et al., 1998). Par contre, 

il serait moins pertinent de le faire si l’on s’intéressait aux différences interindividuelles. 

Dans ce cas le fait de doubler le nombre d’essais 

d’entraînement entre les deux blocs tests éliminerait ou tout du moins 

réduirait l’effet de l’ordre de présentation des blocs pour un grand nombre 

d’IAT d’attitude (Nosek et al., 2005a). 

5. Même si Fiedler et al. (2005) évoquent plus volontiers le concept d’attitudes, 

leur critique peut être étendue aux autres types de concepts 

appréhendés par l’IAT (i.e. stéréotypes, estime de soi, concept de soi). 

Asendorpf, J.B., Banse, R. & Mucke, 

D. (2002). Double dissociation between 

implicit and explicit personality selfconcept: 

the case of shy behavior. Journal 


BIBLIOGRAPHIE 

of Personality and Social Psychology, 83, 

380-393. 

Ashburn,-Nardo, L., Voils, C.I., & Monteith, 

M.J. (2001). Implicit associations as


the seeds of intergroup bias: How easily do 

they take root? Journal of Personality and 

Social Psychology, 81, 789-799. 

Banaji, M.R. (2001). Implicit attitudes can 

be measured. In H.L. Roediger, III, J.S. 

Nairne, I. Neath, & A. Surprenant (Eds.), 

The nature of remembering: Essays in honor 

of Robert G. Crowder. Washington: American 

Psychological Association. 

Banse, R. (1999). Evaluation of self and significant 

others: Affective priming in close 

relationships. Journal of Social and Personal 

Relationships, 16, 803-821. 

Banse, R. (2004, July). Indirect measures of 

aggressiveness. Paper presented at the 12 th 

European Conference on Personality. Groningen: 

The Netherlands. 

Banse, R., Seise, J. & Zerbes, N. (2001). Implicit 

attitudes towards homosexuality : 

Reliability, validity, and controllability of 

the IAT. Zeitschrift für Experimentelle Psychologie, 

48, 145-160. 

Blair, I.V., Ma, J.E., & Lenton, A.P. (2001). 

Imagining stereotypes away: the moderation 

of implicit stereotypes through mental 

imagery. Journal of Personality and Social 

Psychology, 81, 828-841. 

Blaison, C. & Gana, K. (2004, July). 

Using the Implicit Association Test (IAT) 

to measure affectivity-trait versus state. 

Paper presented at the 12 th European 

Conference on Personality. Groningen: 

The Netherlands. 

Bosson, J.K., Swann, W.B., & Pennebaker, 

J.W. (2000). Stalking the perfect measure 

of implicit self-esteem: The blind men and 

the elephant revisited? Journal of Personality 

and Social Psychology, 79, 631-643. 

Brendl, C.M., Markman, A.B & Messner, 

C. (2001). How do indirect measures of 

evaluation work? Evaluating the inference 

of prejudice in the Implicit Association 

Test. Journal of Personality and Social Psychology, 

81, 760-773. 

Chassard, D., & Kop, J.-L. (2003). Des processus 

automatiques d’évaluation à la mesure 

des différences individuelles : l’essor 

des mesures indirectes. In A. Vom Hofe, 

H. Charvin, J.-L. Bernaud, D. & Guédon 

(Eds.), Psychologie différentielle : recherches 

et réflexions. Rennes, Presses Universitaires 

de Rennes. 

Chee, M., Sriram, N., Soon, C.H., & Lee, 

K.M. (2000). Dorsolateral prefrontal cortex 

and the implicit association of concepts 

and attributes. Neuroreport: For Rapid 

Communication of Neuroscience Research, 

11,135-140. 

Cohen, J. (1988). Statistical power analysis 

for the behavioral sciences. 2e ed. Hillsdale 

(NJ): Erlbaum. 

Conrey, F.R., Sherman, J.W., 

Gawronski, B., Hugenberg, K. & Groom, 

C.J. (2005) Separating multiple processes 

in implicit social cognition: the Quad model 

of implicit task performance. Journal of 

Personality and Social Psychology, 89, 469- 

487. 

Cunningham, W.A., Preacher, K.J. & Banaji, 

M.R. (2001). Implicit attitude measures: 

Consistency, stability, and convergent 

validity. Psychological Science, 121, 163- 

170. 

Dambrun, M. & Guimond, S. (2003). Les 

mesures implicites et explicites des préjugés 

et leur relation : développements récents 

et perspectives théoriques. Les Cahiers 

Internationaux de Psychologie Sociale, 

57, 52-73. 

Dasgupta, N. & Greenwald, A.G. (2001). 

On the malleability of automatic attitudes: 

combatting automatic prejudice with images 

of admired and disliked individuals. 

Journal of Personality and Social Psychology, 

85, 800-814. 

Dasgupta, N., Greenwald, A.G. & Banaji, 

M.R. (2003). The first ontological challenge 

to the IAT: attitude or mere familiarity. 

Psychological Inquiry, 14, 238-243. 

Dasgupta, N., McGhee, D.E., Greenwald, 

A.G., & Banaji, M.R. (2000). Automatic 

preference for white americans: eliminating 

the familiarity explanation. Journal of 

Experimental Social Psychology, 36, 316- 

328. 



De Houwer, J. (2001). A structural and 

process analysis of the Implicit Association 

Test. Journal of Experimental Social Psychology, 

37, 443-451. 

De Houwer, J. (2002). The Implicit Association 

Test as a tool for studying dysfunctional 

associations in psychopathology: 

strength and limitations. Journal of Behavior 

Therapy and Experimental Psychiatry, 

33, 115-133. 

De Houwer, J. (2003). The Extrinsic Affective 

Simon Task. Experimental Psychology, 

50, 77-85. 

De Houwer, J., Geldof, T, & De Bruycker, 

E. (2005) The Implicit Assocation Test as a 

general measure of similarity. Canadian 

Journal of Experimental Psychology, 59, 228- 

239. 

De Jong, P.J. (2002). Implicit self-esteem 

and social anxiety: differential selffavouring 

effects in high and low anxious 

individuals. Behaviour Research and Therapy, 

40, 501-508. 

De Jong, P.J., Van Den Hout, M.A., Rietbroek, 

H &, Huijding, J. (2003). Dissociation 

between implicit and explicit attitudes 

toward phobic stimuli. Cognition and Emotion, 

17, 521-545. 

Devos, T., & Banaji, M.R. (2003). Implicit 

self and identity. Annals of the New York 

Academy of Sciences, 1001, 177-211. 

Egloff, B. & Schmukle, S.C. (2002). Predictive 

validity of an implicit association test 

for assessing anxiety. Journal of Personality 


Egloff, B. & Schmukle, S.C. (2003). Does 

social desirability moderate the relationship 

between implicit and explicit anxiety 

measures? Personality and Individual 

Differences, 34, 1-10. 

Fazio, R.H. (1986). How do attitudes guide 

behaviour? In R.M. Sorrentino & E.T. Higgins 

(Eds.), Handbook of motivation and cognition 

: Foundations of social behaviour. 

New York: Guilford Press. 

Fazio, R.H, & Olson, M.A. (2003). Implicit 

measures in social cognition research: 


Their meaning and use. Annual Review of 


Fazio, R.H., Sanbonmatsu, D.M., Powell, 

M.C. & Kardes, F.R. (1986). On the automatic 

activation of attitudes. Journal of Personality 


Fazio, R.H. & Towles-Schwen, T. (1999). 

The MODE model of attitude-behavior 

processes. In S. Chaiken & Y. Trope (Eds.), 

Dual-process theories in social psychology. 

New York, Guilford Press. 

Fazio, R.H., Williams, C.J. & Powell, M.C. 

(2000). Measuring associative strength: Category-item 

associations and their activation 

from memory. Political Psychology, 21, 

7-25. 

Fiedler, K., Messner, C. & Blümke, M. 

(2003). Unresolved problems with the “I”, 

the “A” and the “T”: Logical and psychometric 

critique of the implicit association 

test (IAT). Manuscrit non publié. 

Fiedler, K., Messner, C. & Blümke, M. 

(2005). Some psychometric problems with 

the “I”, the“A” ans the“T” of the implicit association 

test. Soumis à publication. 

Gawronski, B. (2002). What does the implicit 

association test measure ? A test of 

the convergent and discriminant validity of 

prejudice-related IATs. Experimental Psychology, 

49, 171-180. 

Gemar, M.C., Segal, Z.V., Sagrati, S. & 

Kennedy, S.J. (2001). Mood-induced changes 

on the Implicit Association test in recovered 

depressed patients. Journal of Abnormal 

Psychology, 110, 282-289. 

Greenwald, A.G, & Banaji, M.R. (1995). 

Implicit social cognition : Attitudes, selfesteem, 

and stereotypes. Psychological Review, 

102, 4-27. 

Greenwald, A.G., Banaji, M.R., Rudman, 

L.A., Farnham, S.D., Nosek, B.A. & Mellott, 

D.S. (2002). A unified theory of implicit 

attitudes, stereotypes, self-esteem, 

and self-concept. Psychological Review, 

109, 3-25. 

Greenwald, A.G., & Farnham, S.D. (2000). 

Using the implicit association test to 

measure self-esteem and self-concept. Jour-


nal of Personality and Social Psychology, 79, 

1022-1038. 

Greenwald, A.G., McGhee, D.E. & 

Schwartz, J.L. (1998). Measuring individual 

differences in implicit cognition: The 

implicit association test. Journal of Personality 


Greenwald, A.G. & Nosek, B.A. (2001). 

Health of the Implicit Association Test at 

age 3. Zeitschrift für Experimentelle Psychologie, 

48, 85-93. 

Greenwald, A.G., Nosek, B.A., & Banaji, 

M.R. (2003). Understanding and using the 

Implicit Association Test: an improved algorithm. 

Journal of Personality and Social 


Hofman, W., Gawronski, B., Gschwendner, 

T., Le, H., & Schmitt, M. (2005). A 

meta-analysis on the correlation between 

IAT and explicit self-report measures. Personality 

and Social Psychology Bulletin, 31, 

1369-1385. 

Hummert, M.L., Gartska, T.A., O’Brien, L.T., 

Greenwald, A.G., & Mellott, D.S. (2002). 

Using the Implicit Association Test to 

measure age differences in implicit social cognition. 

Psychology and Aging, 17, 482-495. 

Jacoby, L.L., & Kelley, C.M. (1987). Unconscious 

influences of memory for a prior 

event. Personality and Social Behavior Bulletin, 

13, 314-336. 

Jacoby, L.L., Toth, J.P., & Yonelinas, A.P. 

(1993). Separating conscious and unconscious 

influences of memory: Measuring recollection. 

Journal of Experimental Psychology: 

General, 122, 139-154. 

Jelenec, P., & Steffens, M.C. (2002). Implicit 

attitude toward elderly women and 

men. Current Research in Social Psychology, 

7, 275-292. 

Karpinski, A. & Hilton, J.L. (2001). Attitudes 

and the implicit association test. Journal 

of Personality and Social Psychology, 81, 

774-788. 

Karpinski, A., & Steinman, R. B. (2006). 

The single category implicit association test 

as a measure of implicit social cognition. 


91, 16-32. 

Kihlstrom, J.F., Barnhardt, T.M., & Tataryn, 

D.J. (1992). The psychological unconscious: 

Found, lost, and regained. American 

Psychologist, 47, 788-791. 

Kihlstrom, J.F., Mulvaney, S., Tobias, B.A, 

& Tobis, I.P. (2000). The emotional unconscious. 

In E. Eich, J.F. Kihlstrom, G.H. 

Bower, J.P. Forgas & P.M. Niedenthal 

(Eds.), Cognition and emotion. Oxford: Oxford 

University Press. 

Klauer, K.C., & Mierke, J. (2005). Task-set 

inertia, attitude accessibility, and compatibility-order 

effects: New evidence for a 

task-set switching account of the IAT effect. 

Personality and Social Psychology Bulletin, 

31, 208-217. 

Koole, S.L., Dijksterhuis, A., & Van Knippenberg, 

A. (2001). What’s in a name: Implicit 

self-esteem and the automatic self. 


80, 669-685. 

Kop, J-L. & Chassard, D. (2005). La falsification 

des réponses dans l’évaluation de la 

personnalité : une solution du côté des mesures 

indirectes ? Psychologie du Travail et 

des Organisations, 11, 15-23. 

Marsh, K.L., Johnson, B.T., & Scott- 

Sheldon, L.A. (2001). Heart versus reason 

in condom use: implicit versus explicit 

attitudinal predictors of sexual behavior. 

Zeitschrift für Experimentelle Psychologie, 

48, 161-175. 

McFarland, S.G., & Crouch, Z. (2002). A 

cognitive skill confound on the IAT. Social 

Cognition, 20, 483-510. 

Mierke, J., & Klauer, K.C. (2001). Implicit 

association measurement with IAT: Evidence 

for effects of executive control processes. 

Zeitschrift für Experimentelle Psychologie, 

48, 107-192. 

Mierke, J., & Klauer, K.C. (2003). Methodspecific 

variance in the Implicit Association 

Test. Journal of Personality and Social Psychology, 

85, 1180-1192. 

Mitchell, C.J., Anderson, N.E., & Lovibond, 

P.F. (2003). Measuring evaluative 



conditionning using the Implicit Association 

Test. Learning and Motivation, 34, 

203-217. 

Mitchell, J.P., Nosek, B.A. & Banaji, M.R. 

(2003). Contextual variations in implicit 

variations. Journal of Experimental Psychology: 

General, 132, 455-469. 

Musch, J., & Klauer, K.C. (Eds.) (2003). 

The psychology of evaluation: Affective processes 

in cognition and emotion. Mahwah 

(NJ, US): Lawrence Erlbaum Associates. 

Nisbett, R.E., & Wilson, T.D. (1977). Telling 

more than we can know: verbal reports 

on mental processes. Psychological Review, 

84, 231-259. 

Nosek, B.A. (2004). Moderators of the relationship 

between implicit and explicit attitudes. 

Dissertation Abstracts International: 

Section-B: The Sciences and Engineering, 63, 

4965. 

Nosek, B.A., & Banaji, M.R. (2001). The 

go/no go association task. Social Cognition, 

19, 625-664. 

Nosek, B.A, & Banaji, M.R. (2002). [Polish 

language] (At least) two factors moderate 

the relationship between implicit and explicit 

attitudes. In R.K. Ohme & M. Jarymowicz 

(Eds.), Natura automatyzmon. 

Warszawa: Wip Pan & SWPS. 

Nosek, B.A., Banaji, M.R., & Greenwald, 

A.G. (2002a). Math = male, me = female, 

therefore math ≠ me. Journal of Personality 


Nosek, B.A., Banaji, M.R., & Greenwald, 

A.G. (2002b). Harvesting implicit group 

attitudes and beliefs from a demonstration 

web site. Group Dynamics, 6, 101-115. 

Nosek, B.A., Greenwald, A.G., & Banaji, 

M.R. (2005a). Understanding and using 

the Implicit Association Test: II. Method 

variables and construct validity. Personality 

and Social Psychology Bulletin, 31, 166-180. 

Nosek, B.A., Greenwald, A.G., & Banaji, 

M.R. (2005b). The Implicit Association 

Test at age 7: A methodological and 

conceptual review. In J.A. Bargh (Edit.), 

Automatic Processes in Social Thinking and 

Behavior. Psychology Press. 


Nosek, B.A., & Hansen, J.J. (2004). The associations 

in our heads belong to us: Measuring 

the multifaceted attitude construct in 

implicit social cognition. Manuscrit non 

publié. 

Nosek, B.A., & Smyth, F.L. (2005). A multitrait-multimethod 

validation of the 

Implicit Association Test: Implicit and 

explicit attitudes are related but distinct 

constructs. Sous presse. 

Olson, M.A., & Fazio, R.H. (2004). Reducing 

the influence of extrapersonal associations 

on the Implicit Association Test: personalizing 

the IAT. Journal of Personality 


Palfai, T.P., & Ostafin, B.D. (2003). Alcohol 

related motivational tendencies in hazardous 

drinkers: assessing implicit response 

tendencies using the modified-IAT. 

Behaviour Research and Therapy, 41, 1149- 

1162. 

Peeters, G. (1992). Evaluative meanings of 

adjectives in vitro and in context: Some 

theoretical implications and practical consequences 

of positive-negative asymmetry and 

behavioral-adaptive concepts of evaluation. 

Psychologica Belgica, 32, 211-231. 

Phelps, E.A., O’Connor, K.J., Cunningham, 

W.A., Funayama, E.S., Gatenby, 

J.C., Gore, J.C., & Banaji, M.R. (2000). Performance 

on indirect measures of race evaluation 

predicts amygdalia activation. Journal 

of Cognitive Neuroscience, 12, 729-738. 

Piontkowski, U., Blanz, M., Rohmann, A., 

Schmermund, A., & Florack, A. (2001). 

The impact of multiple fit on implicit associations 

between categories: the Implicit 

Association Test as a research instrument 

in the study of social categorization. In 

F. Columbus (Ed.), Advances in psychology 

research, t. VI. Hauppauge (NY): Nova 

Science Publishers. 

Poehlman, T.A., Uhlmann, E., Greenwald, 

A.G, & Banaji, M.R. (2005). Understanding 

and Using the Implicit Association Test: III. 

Meta-analysis of Predictive Validity. Manuscrit 

non publié.


Pratto, F., & John, O.P. (1991). Automatic 

vigilance: The attention-grabbing power of 

negative social information. Journal of Personality 


Rothermund, K., & Wentura, D. (2004). 

Underlying processes in the Implicit Association 

Test (IAT): Dissociating salience 

from association. Journal of Experimental 

Psychology: General, 133, 139- 

165. 

Steffens, M.C. (2004). Is the Implicit Association 

Test Immune to Faking? Experimental 


Steffens, M.C., & Buchner, A. (2003). Implicit 

Association Test: separating transituationally 

stable and variable components 

of attitudes toward gay men. Experimental 


Swanson, J.E., Rudman, L.A., & 

Greenwald, A.G. (2001). Using the Implicit 

Association Test to investigate 

attitude-behavior consistency for stigmatized 

behavior. Cognition and Emotion, 

15, 207-230. 

Teachman, B.A., Gregg, A.P. & Woody, 

S.R. (2001). Implicit associations for fearrelevant 

stimuli among individuals with 

snake and spider fears. Journal of Abnormal 

Psychology, 110, 226-235. 

Wilson, T.D., Lindsley, S. & Schooler, T.Y. 

(2000). A model of dual attitudes. Psychological 

Review, 107, 101-126.

UE 502 Psychométrie – Support TD : Textes - Vincent Berthet

Create successful ePaper yourself

Delete template?

Save as template?