Daryl Bem et l’astuce des tests multiples

Vessies, lanternes et statistiques

Par Nicolas Gauvrit

Comme souvent quand un article sur un phénomène paranormal arrive à se frayer un chemin jusqu’à une revue scientifique reconnue, l’annonce de la publication prochaine du psychologue Daryl Bem1 a fait grand bruit dans la presse internationale. Le New-York Times en parlait par exemple dans son édition du 10 janvier 2011.

Il faut dire que l’article du chercheur de la prestigieuse Cornell University semble révolutionnaire, si l’on se réfère aux comptes rendus approximatifs ou raccourcis de la presse et de divers sites2. Cet imposant article expose une série de neuf expériences qui, nous dit l’auteur, prouvent chacune un aspect de la précognition, c’est-à-dire de la connaissance implicite du futur. Pour cela, Bem inverse dans le temps des expériences classiques de psychologie. Il prétend que des effets connus, comme par exemple le priming (facilitation à reconnaître un stimulus qui a été présenté de manière subliminale juste avant la phase de reconnaissance), sont également vrais à rebours, la présentation facilitant la reconnaissance étant en l’occurrence présentée après la reconnaissance.

Les raisons qui ont poussé le célèbre Journal of Personality and Social Psychology à accepter ce manuscrit resteront sans doute mystérieuses (peut-être l’effet d’une précognition de buzz ?). En privé, le seul éditeur de la revue que nous ayons contacté déplore ce choix3, qui ne peut pas être seulement dû, comme nous allons le voir, à la rigueur scientifique du texte. D’ailleurs, si l’article de Bem ne paraîtra que dans quelques mois, la revue a déjà accepté une réponse critique de Wagenmakers et ses collègues, qui montrent l’ineptie des statistiques développées dans le papier de Bem.

La lecture attentive de l’article de Bem laisse voir un décalage formidable entre certains aspects très rigoureux et détaillés… et d’autres qui auraient jadis valu des coups de règles sur les doigts des expérimentateurs étudiants. Du côté positif, Bem détaille par exemple avec moult précautions et justifications le choix qu’il a fait concernant les générateurs aléatoires indispensables à ses expériences. Il est connu que les fonctions pseudo-aléatoires des langages de programmation classiques sont parfois insuffisantes ; eh bien, Bem fait largement mieux, en utilisant un générateur fondé sur des processus physiques4… mais qu’il n’utilise pas pour toutes les expériences, pour une raison non élucidée.

Comme on va le voir ci-dessous, une bonne partie de la méthodologie de Bem est pour le moins douteuse… et les traitements statistiques qu’il utilise parfaitement inadaptés. En corrigeant les erreurs de procédures statistiques, on ne trouve plus aucun résultat concluant, et l’affaire retombe comme un soufflé aux chimères.

Une méthodologie vaseuse

Le psychologue James Alcock – auteur sceptique du Committee for Skeptical Inquiry et professeur à la York University de Toronto – a très vite pointé, dans l’article de Bem, un ensemble de curiosités méthodologiques inexplicables5. Même pire : si l’on cherche à les expliquer, on est confronté au choix embarrassant de devoir accuser quelqu’un ou d’incompétence, ou de malhonnêteté.

Il serait bien long de passer en revue les 9 expériences de Bem. Concentrons-nous, pour les aspects méthodologiques, sur l’expérience numérotée 1 (mais qui n’est pas historiquement la première). Ce qu’on y découvre se retrouve de toute manière dans les autres expériences.

Cette première expérience est nommée par Bem « détection précognitive de stimuli érotiques », un nom trop restrictif, puisque Bem teste la détection précognitive de toutes sortes de stimuli, et pas seulement érotiques. Le principe de l’expérience est le suivant : les sujets sont placés devant un écran d’ordinateur sur lequel se trouvent affichés deux rideaux, un à droite et l’autre à gauche. On leur demande de deviner (en choix forcé) derrière lequel des deux rideaux se trouve « une image », sachant que derrière l’autre ne se trouve qu’un écran blanc. En réalité bien sûr, il n’y a rien derrière le rideau (qui n’est qu’une image), et l’ordinateur ne « choisit » de quel côté sera affiché l’image qu’après que les sujets ont répondu, en utilisant un algorithme pseudo-aléatoire, et donc indépendamment de la réponse des sujets – normalement.

Bem écrit que les sujets trouvent le bon rideau dans 53 % des cas environ, pour les images érotiques, ce qui est statistiquement significatif selon lui (nous verrons plus loin en quoi cet énoncé est aventureux).

Des expérimentateurs peu expérimentés

Il est fréquent que les sujets d’expériences de psychologie soient des étudiants de psychologie, comme c’est le cas ici. Moins classique en revanche : dans cette expérience, des étudiants font également passer le test à leurs camarades… ce qui pose problème si le recueil des données a été fait par ces étudiants6.

De toute évidence, un résultat aussi extraordinaire nécessite un protocole parfaitement irréprochable, et laisser à des étudiants le soin de faire une expérience aussi capitale est tout simplement irresponsable. D’autant que les étudiants en question savent qu’ils participent à une expérience sur les perceptions extrasensorielles : Bem n’a donc même pas profité de sa négligence pour s’approcher d’un protocole « en aveugle », toujours préférable (puisqu’il ne fait pas passer lui-même le test, il aurait pu laisser les sujets et les expérimentateurs dans l’ignorance).

Des images bien choisies… sauf des fois

Les images utilisées par Bem sont tantôt érotiques (peut-être même pornographiques, si l’on en croit la description), tantôt non. Parmi celles qui ne sont pas érotiques, certaines sont qualifiées de romantiques, d’autres de « positives », de « neutres » ou de « négatives », sans que soient explicités les critères de sélection. Ces dénominations sont totalement hors de propos, puisque l’hypothèse que Bem prétend tester avec cette première manipulation est que les gens vont choisir plus souvent le bon côté lorsque l’image est érotique. Il n’y a donc, dans ce cas, aucune raison a priori d’intégrer des images non érotiques. Bem explique que cela est néanmoins nécessaire pour que les sujets « se calment » entre deux images sexuelles. Même si l’on admet cet argument qui paraît pour le moins ad hoc, la classification en plusieurs rubriques des images non érotiques n’a aucun sens, et révèle sans doute quelque chose d’inquiétant : il est probable que l’hypothèse de Bem n’était pas au départ de savoir si les images érotiques seraient plus souvent trouvées par les participants… Il semble plutôt (c’est la critique majeure que Wagenmakers et al. développent dans leur article à paraître) que Bem n’avait pas d’idée précise initialement, et cherchait plutôt à savoir si un type d’image ou l’autre donnerait un résultat concluant.

Pour attribuer une valence (positif/neutre/négatif) à une image, un psychologue sérieux utilise des images qui ont déjà été testées expérimentalement, ou jugées par un échantillon suffisant de personnes. La base International Affective Picture System semble parfaite pour cet usage : elle contient 820 images qui ont été cotées comme plus ou moins chargées émotionnellement. Bem s’y réfère en expliquant que « la plupart » des images proviennent de cette base. Aucune réponse n’est fournie à cette taraudante question : pourquoi pas toutes ? Le pourcentage d’images ne provenant pas de la base, et la manière de les classer comme plus ou moins chargées, ne sont pas même évoqués.

Changement de cap à mi-parcours

Mais voilà trop peu d’innovations pour Bem. S’ajoute à ces entorses à la tradition scientifique une autre singularité. 100 personnes participent à l’expérience 1. Chacune de ces 100 personnes fait 36 essais. Sur ces 36 essais, 12 correspondent à des images érotiques, 12 à des images neutres, et 12 à des images négatives… du moins pour les 40 premiers participants. Puis tout change subitement. Ce sera désormais, pour les 60 participants restant, 18 images érotiques, et 18 « positives mais non érotiques ».

Cette bizarrerie montre une certaine désinvolture, mais n’est pas en soi une faute. On est tout de même en droit de se demander ce qui la motive… et il faut bien dire qu’une réponse parfaite se trouve du côté des traitements statistiques. Le fait de multiplier de la sorte les types d’images permet de multiplier également les tests, un comportement hélas courant même chez les psychologues, mais scandaleux pour un statisticien.

Des statistiques inadaptées

Et c’est bien du côté des statistiques que les pires défauts de l’étude de Bem se trouvent probablement. Pour illustrer cela, prenons l’exemple de l’expérience n° 5 sur l’habituation rétroactive. Ce que nous y verrons se retrouve dans les 9 expériences du papier.

Lorsque des sujets sont soumis à une présentation subliminale répétée d’une image, ils ont par la suite tendance, si on leur demande de sélectionner parmi deux images (celle présentée et une autre) leur préférée, à choisir un peu plus souvent l’image qui leur a d’abord été présentée. C’est ce que les psychologues nomment l’effet de simple exposition.

Bem, en bon inverseur de temporalité, teste dans cette expérience une version à la mode des sœurs Tatin. Il demande d’abord aux sujets de donner l’image (parmi deux) qu’ils préfèrent. Lorsque le choix est fait, l’ordinateur sélectionne aléatoirement l’une des deux images et la présente en subliminal. L’hypothèse de Bem est que, la conséquence ayant lieu avant la cause, les sujets choisiront plus l’image qui sera ensuite tirée au hasard.

Les images de chaque paire sont tantôt toutes deux négatives, tantôt toutes deux neutres, et tantôt toutes deux positives. Bem conclut en exhibant, parmi d’autres tests, un test positif, qui annonce un effet pour les images négatives. Pour comprendre l’énormité des conclusions de Bem, il faut bien saisir l’idée simple qui se trouve derrière les tests statistiques.

Le principe des tests statistiques

L’exemple le plus simple (certes moins sexy que les conclusions de Bem) de test statistique est le suivant : nous disposons d’un dé, dont nous voulons savoir s’il est pipé. Le but du test sera de prouver qu’il l’est (si c’est le cas) en rejetant l’hypothèse (dite « nulle ») inverse qu’il s’agit d’un dé normal.

Recette du test : lancez le dé deux fois de suite. S’il tombe deux fois sur 6, dites qu’il est truqué. On comprend bien sûr que ce test n’est pas fiable à 100 %. Avec un dé non truqué, il y a 1 chance sur 36 (environ 3 %) de tomber deux fois sur 6. Ce 1/36 est appelé le risque du test. En sciences humaines, la tradition est d’accepter un risque de 5 % (ou moins). Ce qu’on pourrait appeler le « test des deux 6 » est donc correct.

Les tests statistiques de Bem sont du même type. L’hypothèse nulle qu’il veut rejeter n’est pas qu’un dé n’est pas pipé, mais que la précognition n’existe pas. Pour l’expérience 1 par exemple, Bem exhibe un test valable au risque de 5 % (et même 1 %) montrant que les sujets choisissent le bon côté (le rideau cachant prétendument l’image) dans plus de la moitié des cas, pour les images érotiques.

La multiplication des tests

Les journalistes du New York Times en sont restés là. Pas les sceptiques. Reprenons l’image du dé pour comprendre ce qui se passe. Si je lance deux fois le dé et qu’il donne deux fois 6, vous serez sans doute relativement convaincu qu’il est (sans doute) truqué. Mais si je lance le dé deux fois, et que je recommence mes paires de lancers une dizaine de fois avant de tomber sur (6,6), vous ne serez plus aussi convaincus, et vous aurez bien raison. Ce que cet exemple intuitif met en lumière, c’est un principe très simple : on ne doit pas tester plusieurs fois la même chose7.

De la même manière, s’il existe plusieurs tests possibles (par exemple, on peut imaginer un « test des deux 1 » sur le même principe), on ne doit en faire qu’un seul. Et ça va même encore plus loin, car si je lance le dé deux fois et tombe sur 3 deux fois de suite et vous annonce après « j’utilise le tests des deux 3 pour dire que le dé est pipé », il y a encore une erreur manifeste.

La morale de cette histoire est la suivante : pour tester UNE hypothèse, il faut faire UN test, qui doit être fermement choisi avant de commencer l’expérience. Cette règle élémentaire a été ignorée par Bem, qui utilise, pour chacune de ces 9 hypothèses, plusieurs tests.

Il existe une méthode relativement simple de correction dans le cas (qui ne devrait pas se produire) où on utilise plusieurs tests sur une même hypothèse : il suffit de corriger les risques des tests. En gros, si vous testez 2 fois une hypothèse, il faudra que l’un des tests au moins fonctionne avec un risque de 5/2 = 2,5 % pour que la conclusion globale soit valable au risque de 5 %. Si vous utilisez 5 tests, c’est un risque de 1 % (5/5) qu’il faudra imposer à chacun des tests individuels, et ainsi de suite. Mais une question délicate se pose sur le nombre de tests à prendre en compte.

Lorsque quelqu’un utilise, pour une hypothèse, le test standard correspondant à sa situation, nous avons toutes les raisons de penser qu’il avait choisi à l’avance ce test. Lorsque ça n’est pas le cas, ce qui compte n’est pas le nombre de tests qu’il a effectivement utilisés, mais le nombre de tests qu’il aurait pu envisager si les premiers n’avaient pas fonctionné. On comprend ce qui se passe encore une fois avec l’exemple des dés :

Je dispose d’un test : le test des 1, qui consiste à dire que le dé est truqué s’il tombe sur 1, et encore 1. On imagine un « test des 2 », « des 3 », etc. sur le même principe. Chacun de ces tests est valable au même risque de 1/36, soit environ 3 %. Que dire maintenant de quelqu’un qui, trouvant 3 et encore 3, affirme avoir prouvé que le dé est truqué ? Le bon sens nous susurre qu’il aurait également donné cette conclusion si (2,2), (4,4)…, était sorti, bref pour chacun des 6 tests évoqués au-dessus. Bien qu’un seul test soit finalement cité, tout se passe comme si la personne avait utilisé les 6 tests, simplement parce qu’il aurait pu le faire8.

Et Bem ?

Or, en ce qui concerne Bem, on peut imaginer l’étendue de ce qu’il aurait été prêt à faire pour prouver le surnaturel. Dans l’expérience n° 5, Bem prétend tester l’hypothèse de l’habituation rétroactive, donc une hypothèse, et avance un test (parmi d’autres !) valable au risque de 1,4 % : celui correspondant à l’effet sur les images négatives9. Mais que fait-il exactement ?

D’abord, il teste son hypothèse sur chacun des trois types d’images (neutres, positives, négatives), ce qui fait a priori 3 tests. Ça n’est pas tout, puisqu’il teste chaque type d’image deux fois, utilisant successivement un test de Student (inadapté en l’occurrence), et un test binomial, à peu près adapté à la situation. Nous arrivons donc à 6 tests.

Pas tout à fait, car Bem utilise systématiquement un test unilatéral, ce qui signifie qu’il acceptera de conclure qu’il y a une preuve de précognition seulement si l’écart à la référence (50/50) se fait dans le bon sens10. Or, on aura du mal à croire que, s’il avait observé que les sujets ont une tendance marquée à ne pas choisir l’image qui sort ensuite du tirage par ordinateur, il n’en ait rien déduit en matière de pouvoirs paranormaux ! On est ainsi amené à considérer qu’il faut aussi prendre en compte ces tests unilatéraux dans l’autre sens, ce qui multiplie encore par 2 le nombre de tests à considérer, l’amenant à 12.

Si l’on parle de 12 tests, la correction d’erreur pour les tests multiples conduit à n’accepter de conclusion que lorsque le risque est inférieur à 5/12, donc moins de 0,5 %. Aucun test ne passe cette barre. Et même si l’on ne considère que les tests que Bem a effectivement publiés, il y en a déjà 6, et il faut donc imposer un risque par test de 5/6, donc moins de 1 %. Là encore, aucun des tests ne passe la barre.

Le même phénomène se produit pour chacune des 9 expériences. Les données de Bem, analysées avec sa propre méthode, mais en corrigeant pour les tests multiples, ne sont pas significatives, et on ne peut donc rien en conclure.

Une bourde hélas commune

Au-delà d’une désinvolture méthodologique incompatible avec la démarche scientifique, c’est par un tour de passe-passe statistique que l’auteur arrive à sa conclusion. Son principe pourrait se résumer ainsi « tester les tous, Bem reconnaîtra les siens ». Une fois les résultats de Bem corrigés pour le nombre de tests, plus rien n’est significatif, et tout son travail ne prouve donc… rien. La précognition reste une hypothèse, et une hypothèse, qui plus est, de plus en plus difficile à croire à mesure que ses tenants s’épuisent en vain à en prouver la réalité.

Il faut dire à la décharge de Bem que la multiplication des tests, si révoltante pour les statisticiens qui ne cessent de pester contre les utilisateurs trop légers de leurs outils et de préconiser la règle de modération « une hypothèse, un test (et choisi avant l’expérience) », est presque une constante des publications psychologiques. Une partie des psychologues est peu équipée en bagages mathématiques, trop peu en tout cas pour percevoir la philosophie derrière le calcul. Aussi les revues sont-elles, à contrecourant du bon sens mathématique, friandes d’avalanches de tests, qui leur prouvent que l’auteur a beaucoup travaillé, oubliant que beaucoup faire n’importe quoi ne vaudra jamais bien faire avec modération.

Bem s’est engouffré dans la brèche ouverte par la surdité de la communauté des psychologues aux avertissements réitérés des statisticiens…

Pour finir sur une note optimiste en forme de précognition, imaginons que, dans quelques mois, Bem avouera qu’il s’agissait d’un canular destiné à mettre en garde contre une mauvaise utilisation des statistiques en sciences humaines. Une sorte d’affaire Sokal en sciences humaines. Qui sait ?

Références

Bem, D. (à paraître). Feeling the Future : Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect. Journal of Personality and Social Psychology.

Lang P. J., Greenwald M. K. (1993). International affective picture system standardization procedure and results for affective judgments. Gainesville, FL : University of Florida Center for Research in Psychophysiology.

Wagenmakers E. J., Wetzels R., Borsboom D., van der Maas H. (à paraître). Why Psychologists Must Change the Way They Analyze Their Data : The Case of Psi. Journal of Personality and Social Psychology.

1 Disponible ici : http://dbem.ws/FeelingFuture.pdf

2 Lire par exemple http://www.circee.org/+Bem-precogni...

3 Communication personnelle par courriel.

4 Les générateurs pseudo-aléatoires utilisés par les ordinateurs, comme la fonction ALEA() de Excel, ont certains défauts. En particulier, ils ont tendance à alterner un peu trop les « pile » et « face » (si on les utilise pour de tels tirages). Lorsqu’un hasard de très bonne qualité est nécessaire, on préfère de ce fait des générateurs fondés sur des processus physiques, utilisant par exemple des produits radioactifs ou des cellules photosensibles.

5 http://www.csicop.org/specialarticl...

6 Ce point n’est pas clair du tout dans l’article de Bem pour l’expérience 1. Pour l’expérience 5 en revanche, il est précisé que l’expérimentateur se retire, et que l’expérience se déroule seulement sur l’ordinateur.

7 Ou alors, il faut tenir compte des échecs, et pas seulement des réussites.

8 Et c’est bien parce que ce « aurait pu » est subjectif et discutable qu’il est impératif de décider à l’avance quel test on fera, et de se tenir autant que possible à un seul test.

9 Si les données étaient concluantes, ce qu’elles ne sont pas, on pourrait se demander pourquoi les effets annoncés par Bem fonctionnent tantôt que pour les images négatives, tantôt que pour les positives, mais jamais dans les casinos.

10 Cela ne correspond pas du tout à la norme, ni en statistiques, ni en sciences humaines, sauf lorsqu’on a d’excellentes raisons de poser qu’un effet éventuel ne peut être que dans un sens. En l’occurrence, il est facile d’imaginer que des gens confrontés à des images négatives auront tendance à les éviter. C’est en tout cas une hypothèse plausible, qui doit conduire à privilégier un test bilatéral, équivalent de deux tests unilatéraux.

Mis en ligne le 29 janvier 2011
5120 visites

Explorer par thème


Valid HTML 4.01 Transitional CSS Valide !