Tromperies statistiques

par Nicolas Gauvrit - SPS n° 278, août 2007

Les tenants des pseudosciences usent parfois de « démonstrations » statistiques, copiant ainsi l’usage désormais incontournable des sciences expérimentales et notamment des sciences humaines. La parapsychologie affirme ainsi détenir des preuves statistiques de la transmission de pensée, les « alter-biologistes » de la perception extrasensorielle des regards dans la perspective des « champs morphiques »1, et bien entendu l’homéopathie de l’efficacité de ses confiseries.

Ces « preuves » statistiques sont bien évidemment le résultat de l’utilisation fautive, et parfois frauduleuse, des méthodes statistiques. Que les pseudosciences aient recours à de telles manigances ne surprendra pas. Il est plus triste que, pressés par l’ambition, d’avides universitaires tombent eux aussi dans cette délinquance scientifique.

Un inventaire exhaustif des méthodes de tromperies statistiques, ou des pièges de la statistique, serait bien évidemment fastidieux, et je renvoie le lecteur à des ouvrages complets (voir encadré en fin d’article). Aussi laisserai-je de côté l’erreur courante consistant à prendre pour causalité ce qui n’est que corrélation, ou encore la négligence des taux de base2 et autres erreurs ou techniques manipulatoires. Plutôt qu’une dénonciation et qu’un « j’accuse » modeste, je tenterai l’évocation à l’envolée de quelques pièges de la statistique qui, lorsqu’ils sont utilisés délibérément peuvent constituer une mystification.

Un peu de théorie…

Et plus particulièrement sur un cas spécial d’utilisation des statistiques : celui d’une inférence statistique classique (on peut aussi tromper les lecteurs en utilisant simplement des moyennes, ou au contraire des statistiques très complexes). En statistiques classiques, le principe de l’inférence (donc de la « démonstration ») peut être illustré par un exemple tout simple : lorsqu’une personne essaie de répondre « oui » ou « non » au hasard, elle répond plus souvent « oui » que « non » : c’est un cas particulier du biais d’acquiescement, bien connu des sondeurs.

Comment démontrer la réalité de la chose ?

1. On se fixe d’abord un risque d’erreur, typiquement 5 %.

2. On pose « l’hypothèse nulle » H0 suivante (le contraire de ce qu’on souhaite démontrer) : « la probabilité que “oui” soit choisi est de 50 % exactement ». Il faut bien comprendre que cette hypothèse est celle que nous espérons pouvoir réfuter grâce aux résultats que nous allons relever sur un échantillon.

3. On décide de considérer un événement particulier E, l’événement concluant, qui pourra ou non se produire sur notre échantillon. Cet événement doit être peu probable (moins de 5 %) si l’hypothèse nulle est vraie.

Imaginons que dans la réalité 50 % des gens répondent « oui », l’autre moitié « non » : c’est l’hypothèse nulle. Lorsque nous choisissons un échantillon, il se peut qu’on tombe par hasard sur plus de « oui » que de « non » : peut-être 52 % ou 56 %. Par contre, il serait étonnant qu’on trouve beaucoup plus de « oui » que de « non ». Par exemple, il serait très étonnant que l’on trouve 75 % de « oui » par hasard sur notre échantillon. Si donc nous trouvons tout de même 75 % de oui sur notre échantillon, nous penserons que notre hypothèse (nulle) de départ doit être fausse.

Pour formaliser cette idée qu’il serait « étonnant » d’observer par hasard 75 % de « oui », nous déterminons la probabilité que cela se produise. Et si nous trouvons qu’une telle probabilité est faible (moins de 5 %), alors nous pouvons choisir comme événement concluant « observer plus de 75 % de “oui” ». Et si cet événement se produit malgré tout, nous considérerons qu’il rend intenable l’hypothèse nulle.

4. On choisit un échantillon aléatoire (des personnes), à qui on fait passer l’expérience.

5. Si l’événement E se réalise, on conclut que H0 est fausse.

Il s’agit donc, plus ou moins, d’une version floue du raisonnement par l’absurde : en faisant l’hypothèse nulle, on aboutit à une « contradiction » qui n’est pas une impossibilité formelle, mais l’apparition d’un événement étrange, car peu probable. La méthode statistique, pour être rigoureuse, doit suivre un certain nombre de règles précises. L’ignorance de l’une d’entre elles invalide tout le raisonnement.

Cette méthode se scinde facilement en trois étapes, qui sont trois lieux d’erreurs (et donc aussi d’entourloupes) possibles : l’échantillonnage, le choix du test (donc de l’hypothèse et de E), et l’interprétation des résultats statistiques.

Choix d’un échantillon

Les résultats quelquefois farfelus des sondages d’opinion sont, entre autres, l’image d’une difficulté énorme en statistiques : l’exercice de l’échantillonnage. Des ouvrages entiers sont consacrés à cette question du bon échantillonnage. Il est à peu près impossible de choisir véritablement « au hasard », que ce soit dans la population totale ou dans une tranche donnée. On utilise donc des méthodes un peu détournées pour choisir les sondés.

Ces difficultés sont bien connues, mais ce qui l’est moins est qu’il peut parfois se glisser dans la phase d’échantillonnage des défauts très peu visibles. Ainsi, si l’on veut faire un « sondage » sur les bus de la ligne 24 pour connaître leur taux de remplissage, il ne faut surtout pas choisir les horaires des bus au hasard, mais bien les bus eux-mêmes. Il semble à première vue que cela revienne au même, et pourtant les différences entre les deux méthodes sont énormes…

Si, en effet, on choisit au hasard des horaires et non des bus, on a bien plus de chance de se trouver entre deux bus dont le second arrive longtemps après le premier qu’entre deux bus qui se suivent de près. Avec cette méthode des horaires, on privilégie donc les bus arrivant longtemps après le précédent, qui sont aussi les plus bondés, et on surestime ainsi le nombre de personnes moyen par véhicule.

Un autre exemple nous vient d’une invention de Sheldrake, qui, dans sa quête éperdue de surnaturel, nous gratifie régulièrement de mystifications statistiques. Dans le cas de l’expérience qui nous intéresse, il s’attache à démontrer la télépathie d’un perroquet3.

Aimée Morgana est, nous dit Sheldrake, l’heureuse propriétaire d’un perroquet gris d’Afrique nommé N’Kisi. N’Kisi semble disposer, outre d’un langage de 30 mots environ, d’un talent de télépathe. Mais Rupert Sheldrake ne croit pas sans preuve au surnaturel, et décide donc de tester scientifiquement N’Kisi. L’oiseau est placé dans une pièce, Aimée Morgana dans une autre. A. M. ouvre à intervalles réguliers des enveloppes, dans lesquelles elle trouve des photographies représentant certains objets, dont N’Kisi connaît les noms. A. M. se concentre bien fort sur ces images, et on note ce que conte le volatile pendant ce temps.

Bien évidemment, l’expérience est un succès. Mais (tic d’utilisateur des statistiques ?) on peut se demander comment les photographies furent choisies. Sheldrake et Morgana nous le révèlent : les 167 clichés ont été choisis par un tiers, Evan Izer, « au hasard » parmi les images disponibles dans une base de photographies.

Petite précision : parmi les 30 mots connus de N’Kisi, seuls 20 ont été en fait utilisés, car 10 d’entre eux ne correspondaient à aucune photo de la collection. On en déduit naturellement que certains mots sont plus abstraits ou moins courants que d’autres.

Deuxième précision : 167 n’étant pas divisible par 20, il n’y a pas autant de photos pour chacun des 20 mots cibles. Il est probable qu’Evan Izer a eu plus de facilité à choisir « par hasard » une photographie de fleur (qui apparaît en tout 17 fois) que d’un objet moins courant, comme la plume, qui ne vient qu’une fois. On peut donc en déduire une distorsion probable dans la répartition des photos : les mots les plus courants sont les plus représentés… et se sont aussi certainement ceux que N’Kisi connaît le mieux (pour les avoir entendus plus fréquemment), et qu’il prononce le plus souvent.

Pour être moins douteuse, l’expérience aurait dû utiliser autant de représentations de chaque mot. Il s’agit là d’un piège statistique courant : le tirage des « mots » n’est pas uniformément aléatoire, et l’échantillon est donc biaisé. Mais, certainement, une étude plus poussée montrerait que les médiums ne supportent pas bien les ondes lévogyres néfastes émises par les échantillons bien choisis.

Choix du test

Dans le bref aide-mémoire énumérant les étapes du test statistique, celle du choix du test (c’est-à-dire en fait de l’hypothèse nulle) est fondamentale. Cette hypothèse nulle influence la conclusion que l’on pourra tirer de cette étude, à supposer qu’elle soit concluante. Par exemple, lorsque l’on souhaite comparer, sur la base de notes à des examens scolaires, deux classes correspondant à deux groupes (zone urbaine/zone rurale par exemple), on se fonde généralement sur les moyennes. La conclusion que l’on pourra tirer de l’étude est que telle classe est meilleure que telle autre en moyenne, ce qui n’est pas la même chose que de dire qu’elle est meilleure en général ou en médiane4. Si l’on se base sur les moyennes, notre hypothèse nulle sera « les élèves de zone rurale ne sont ni meilleurs ni moins bons que les autres en moyenne  ».

J’ai rencontré des enseignants de psychologie dont les enseignements ignoraient totalement l’importance du choix du test. Pire : certains conseillaient à leurs étudiants de se lancer dans la série de tous les tests envisageables pour tirer les conclusions qu’ils voulaient ensuite.

Cette façon de procéder est incorrecte. Cela peut s’expliquer de deux manières, mais qui reviennent au même. (1) Le choix du test doit se faire indépendamment des données. Autrement dit, avant l’expérience. (2) Si on se laisse la possibilité de choisir entre plusieurs tests, il faut corriger les risques.

(1) Le choix du test doit se faire indépendamment des données.

Prenons un cas académique simple : je cherche à savoir si un dé est truqué. Pour cela, je vais le lancer deux fois. La probabilité qu’il tombe sur 66 (événement E : tomber deux fois sur 6) si le dé n’est pas truqué (hypothèse nulle) est faible (1/36). Par conséquent, le test consistant à conclure que le dé est truqué s’il tombe sur 66 est licite.

Bien entendu, la même chose est vraie en prenant les événements 55, 44, 33, voire pourquoi pas 16 ou 61 pour E, à la place de 66. Si je choisis comme événement concluant 55, j’obtiens un nouveau test, tout aussi valable que celui du 66.

Mais bien entendu, si, après avoir lancé mon dé, qui est tombé en l’occurrence sur 22, je décide d’utiliser 22 comme événement concluant, mon raisonnement devient ridicule5. C’est pourquoi choisir E après l’expérience est totalement illicite.

(2) Si on se laisse la possibilité de choisir entre plusieurs tests, il faut corriger les risques.

Si je veux absolument laisser ouvertes un certain nombre de possibilités, par exemple 11, 22, 33, 44, 55, et 66, je me laisse la possibilité de choisir après coup parmi 6 tests de risque 1/36, et le risque de ce nouveau test « combiné » est de 1/6, soit la somme des risques de départ. Et voilà pourquoi :

L’idée est la suivante : je vais lancer mon dé deux fois de suite. Si je tombe sur 6 deux fois (66), je dirai qu’il est truqué en vertu du « test des deux 6 », si on veut le nommer ainsi. Mais je veux aussi pouvoir conclure que mon dé n’est pas normal si je tombe sur 33. J’utiliserai alors le test des 3. Chacun de ces tests correspond à une probabilité de 1/36, c’est-à-dire que le test donne avec un dé non pipé un résultat faux une fois sur 36.

Que va-t-il se produire ? Si je tombe sur 33, je dirai que le dé est faux, en invoquant le test des 3. Si je tombe sur 44, j’invoquerai le test des 4 pour conclure pareillement. Au final, j’arriverai à dire que mon dé est truqué pourvu que je tombe sur 11, 22, 33, 44, 55 ou 66. Bien sûr, je n’invoquerai qu’un seul test : celui qui correspond à mes tirages. Néanmoins, si mon dé n’est pas truqué, je conclurai faussement chaque fois que les deux tirages donnent le même chiffre, ce qui se produit… une fois sur 6 et non plus une fois sur 36. C’est pourquoi le risque « combiné » est de 1/6 et non 1/36.

Le problème est que cela ne se lit pas dans mon rapport. J’écrirai par exemple « j’ai lancé le dé deux fois, j’ai trouvé 33. Le test des 3 montre que le dé est truqué ». Et nulle part je ne dis que j’avais aussi envisagé les autres tests.

Pour résumer : lorsqu’on traite des données, la méthode la plus simple, la plus robuste, de loin préférable, est de n’utiliser qu’un test choisi a priori.

Astrologie et médecine préventive
Récemment, une étude de grande envergure fut menée par Peter Austin, un statisticien de Toronto. Financée par le Natural Sciences and Engeneering Research Council, elle relevait des données médicales et les signes astrologiques de plus de 10 millions de personnes. Une telle quantité de données brutes ne laisse quasiment aucune place à une erreur qui serait la conséquence d’un trop petit échantillon !

Et pourtant, Peter Austin est formel : son étude montre que les personnes nées sous le signe des Poissons ont un risque accru de crise cardiaque par rapport aux autres signes. Les Taureaux, quant à eux, risquent plus que les autres de se briser le cou, et les Scorpions de souffrir de leucémie…

Mais à vrai dire, l’étude ne portait pas vraiment sur le signe astrologique et ses conséquences médicales. Ce qu’Austin voulait établir, c’est qu’on peut, en utilisant mal les statistiques, « démontrer » à peu près tout et n’importe quoi. C’est pourquoi l’étude eut lieu en deux temps : dans un premier temps, les chercheurs ont découvert, pour chaque signe astrologique, au moins deux troubles associés (c’est-à-dire qui sont présents significativement plus souvent pour ce signe que pour les autres). Mais lors de cette première étape, seule la moitié de l’échantillon disponible (donc 5 millions de personnes tout de même) a été utilisée.

Les 5 millions restants ont été utilisés dans une seconde phase de « vérification ». Et là, oh surprise : toutes les conclusions précédentes tombent à l’eau ! Le but des chercheurs était atteint : prouver par l’exemple qu’on peut faire dire beaucoup de choses aux statistiques.

Quelle est l’astuce d’Austin ? Tout simplement, de ne pas décider à l’avance quelle serait sa conclusion. Ainsi n’a-t-il pas « testé » seulement le risque de crise cardiaque chez les Poissons, mais aussi le risque de leucémie, de cirrhose, de malformations diverses et variées. Autrement dit, Austin envisage a priori des dizaines, voire des centaines, d’hypothèses. Ce qui, rappelons-le, revient à multiplier d’autant le risque. En testant de la sorte un immense ensemble d’hypothèses, on est quasiment certain d’en « démontrer » une par les statistiques. Et c’est la seule dont il sera fait mention par la suite, bien entendu !

Des fraudes ou des erreurs difficiles à détecter

La difficulté est grande de détecter des fraudes basées sur une violation de ce principe : comment savoir en effet si le test a été choisi avant ou après l’expérience ? Un indice toutefois : toute méthode peu usuelle est suspecte. Je pioche un exemple non en pseudosciences, mais en psychologie scientifique, et plus précisément en docimologie (étude des moyens de contrôle des connaissances, et notamment de la notation des copies par les professeurs). Cette discipline fut fondée dans les années 1920 par Henri Piéron. On peut lire chez certains auteurs, qui reprennent semble-t-il des résultats de Piéron, que les professeurs sont influencés par le niveau social présumé des auteurs des copies. Pour preuve, on aurait fait corriger le même paquet de copies à différents correcteurs, prétendant tantôt qu’elles étaient écrites par des fils d’ouvriers et tantôt des enfants de journalistes. Or, on nous dit que la proportion de notes supérieures à 16 est plus importante dans le groupe des prétendus fils de journalistes.

JPEG - 5.8 ko
0 % matière grise. Chen Apan.

Il paraît évident à quiconque utilise des statistiques pour les sciences humaines que la première idée pour comparer les groupes n’est pas un test portant sur le pourcentage de notes dépassant 16 ! On pense en premier lieu à la moyenne, éventuellement à une comparaison de médianes, mais sûrement pas à cet étrange pourcentage. Sans doute le test a-t-il été choisi après coup. Il est donc plus que probable qu’il y a là un bidonnage statistique ou une erreur, passés apparemment inaperçus puisque ce résultat de docimologie est fréquemment cité6.

Interprétation du résultat

Les statistiques les plus sérieuses permettent de savoir que la plupart des gens acceptent avec joie la description qui est faite, sur la base de l’astrologie, de leur personnalité. Si l’on demande simplement aux sujets « êtes-vous d’accord ou non avec cette description ? », la plupart répondent par l’affirmative.

L’échantillonnage n’est pas en cause : un bon échantillon, ou même une étude exhaustive, montrerait toujours la même chose. La statistique utilisée (comparaison de proportions) suit les règles standard. Ce qui pèche ici, c’est l’utilisation du résultat par les astrologues. Car s’il est vrai que la proportion de sujets qui adhèrent à tel portrait dépasse 50 %, cela ne dit pas du tout que l’astrologie prévoit ou permet de savoir quoi que ce soit.

En réalité, on obtient un taux d’accord dépassant 50 % avec à peu près n’importe quelle description flatteuse et floue : c’est l’effet Barnum, ou effet de validation subjective, bien connue des critiques des pseudosciences.

De cet argument grossier (une majorité de gens est d’accord), et tout à fait juste, on tire une conclusion erronée (l’astrologie n’est pas totalement creuse), mais convaincante. C’est la phase d’interprétation, toujours nécessaire lorsqu’on applique les statistiques, qui invalide la conclusion.

Ces trois exemples, piochés parmi tant d’autres possibles, montrent qu’aux trois grandes étapes de l’analyse statistique peuvent se glisser des manipulations ou des erreurs : échantillonnage, choix du test, interprétation des données. En ces trois lieux, on trouve effectivement, dans la littérature pseudoscientifique, mais aussi parfois dans la littérature scientifique, de tels défauts. Quant à savoir s’ils sont le résultat d’une erreur ou d’une tromperie délibérée, c’est une autre histoire...

0% De matière grise : Une aventure d’Epsilon
Chen Apan. Pole éditeur, 2005, 64 pages. 14,5 €
Peut-on faire dire ce qu’on veut aux nombres ? Avec un peu d’effort, un peu de liberté avec la rigueur, parfois beaucoup d’approximations, il semble que l’on peut faire dire ce qu’on veut aux nombres. Notre dossier l’illustre bien. Faire de l’humour avec les nombres est nettement plus délicat. Chen Apan y arrive à la perfection. 0 % de matière grise, recueil de dessins, est à mettre entre toutes les mains.

Matière à réconciliation pour ceux qui se croient brouillés avec les nombres, multiples clins d’œil pour les mathématiciens chevronnés. Humour, subtilité, finesse… une merveille.

J.-P. K.

1 La « théorie des champs morphiques » est une invention de Sheldrake (dont nous reparlons plus loin) pour expliquer le « fait » qu’on peut ressentir un regard dans le dos. En gros, il s’agit d’une description de l’esprit ou de l’âme, mais en termes pseudo-biologiques et laïques.

2 Lorsqu’on estime, de manière intuitive, la probabilité qu’une personne ayant donné un résultat « positif » à un test médical portant sur une certaine maladie, en soit effectivement atteinte, on ne tient pas spontanément compte du taux de personnes malades dans la population générale. C’est pourtant une donnée essentielle. Cette erreur fondamentale est ce que les psychologues nomment la « négligence des taux de base ».

3 Sheldrake, R, & Morgana, A. (2003) Testing a language – Using a Parrot for Telepathy. Journal of Scientific Exploration, 17, 60 1-615.

4 La médiane est la valeur coupant la classe en deux : on dira que la médiane est de 12 si la moitié de la classe a moins de 12, l’autre moitié plus. Mais si la moitié inférieure a des notes très inférieures à 12, alors que l’autre moitié ne dépasse pas 13, la moyenne sera bien plus basse que 12.

5 Une généralisation du « principe anthropique » est qu’on ne peut pas considérer comme étonnant après coup un événement qui s’est déjà produit sous prétexte qu’il était, a priori, de faible probabilité.

6 Sur ce sujet, voir par exemple Weiss, R. (1969). The reliability of the number marking system : An Austrian study. In (J. Lauwerys & D. Scalon eds.). Examinations. London : Evans Brothers.

Mis en ligne le 23 novembre 2007
10156 visites

Explorer par thème


Valid HTML 4.01 Transitional CSS Valide !