Perturbateurs endocriniens et troubles du comportement L’art d’alarmer la population sur des bases incertaines

par Catherine Hill - SPS n° 323 , janvier 2018

Il est extraordinairement facile de trouver des résultats alarmants à tort. La recette est simple : il suffit par exemple de doser une vingtaine de substances chez des sujets à un moment t, et de mesurer 25 caractéristiques ultérieures de ces sujets afin d’étudier les effets de l’exposition à ces 20 substances sur ces 25 caractéristiques. On compare ensuite pour chaque caractéristique les valeurs moyennes de la caractéristique chez les sujets plus exposés et chez les sujets moins exposés à chaque substance, soit 500 comparaisons au total (25 x 20). Par convention, un résultat qui a moins de 5 chances sur 100 d’être observé sous l’effet du hasard est dit statistiquement significatif. Dans notre exemple, le hasard va intervenir 500 fois (sur chacune des 500 comparaisons). Supposons, toujours dans notre exemple, qu’en réalité il n’y a aucun effet des expositions aux substances sur les caractéristiques observées. Alors, seul le hasard va intervenir et l’on s’attend à observer 25 résultats sur les 500 qui, pris isolément, sembleraient trop extrêmes et seraient donc considérés comme « statistiquement significatifs », mais en réalité, ne sont que le produit normal du hasard.

Il est ensuite très facile de produire une explication a posteriori pour les résultats observés.

Il existe de multiples façons d’améliorer encore les « chances » d’observer un résultat statistiquement significatif à tort. On peut, par exemple, restreindre l’analyse à un sous-groupe de sujets et conclure que globalement, l’exposition n’augmente pas le risque, mais que l’augmentation est significative chez les hommes (ou les femmes, ou les hommes de plus de 50 ans…). Le nombre de sous-groupes qu’on peut étudier étant considérable, on est quasi certain d’en trouver un dans lequel l’augmentation est statistiquement significative.

Pour se prémunir de cet énorme risque d’erreur, on peut, soit énoncer à l’avance une hypothèse parmi les 500, et attribuer alors un risque d’erreur de 5 % au résultat significatif observé, ou bien être beaucoup plus exigeant pour chacune des 500 comparaisons, par exemple en utilisant la méthode False Discovery Rate (FDR1).

Un exemple récent : perturbateurs endocriniens et troubles du comportement

C’est ainsi qu’un récent article [2] a été interprété à tort comme démontrant un lien entre perturbateurs endocriniens dans les urines de femmes enceintes et comportement de garçons issus de ces grossesses, aux âges de 3 ou 5 ans. En réalité, le contrôle du risque global d’erreur, que les auteurs mentionnent pourtant dans leur article, montre que les résultats observés sont totalement compatibles avec l’effet du hasard. Ils ont en effet contrôlé le risque global de faux positif par le FDR et écrivent qu’« aucune des associations reportées dans la partie “résultats” ne reste significative ».

Pourtant, les auteurs concluent que les expositions à plusieurs phénols et phtalates sont associées à de moins bons scores sur des sections du questionnaire « points forts – points faibles » à 3 et 5 ans. Et ils présentent l’analyse qui contrôle le risque d’erreur global comme une « analyse de sensibilité ».

Les résultats sont donc parfaitement compatibles avec l’effet du hasard. Mais cette étude va connaître un énorme retentissement médiatique (voir encadré).

Une extraordinaire saga médiatique

Comment passer d’une étude qui ne montre rien à un projet de loi demandant des pictogrammes sur des produits de consommation ?

Le premier glissement, et non des moindres, est opéré par les auteurs eux-mêmes, le résumé de la publication (l’abstract) ne mentionne pas la réserve (résultats non significatifs) indiquée dans le corps du texte, mais affirme simplement qu’une association avec les troubles du comportement a été trouvée (“was positively associated with the relationship problems”). Et les auteurs invitent à la réalisation d’autres études « nécessaires pour quantifier le fardeau de santé publique que ces associations pourraient éventuellement représenter ». Dans la presse, le vocabulaire utilisé par Rémy Slama, le responsable de l’étude, est nettement moins nuancé : « on a des signaux d’alerte » (France Info, 01/10/2017), « C’est une preuve de plus de l’effet de ces perturbateurs endocriniens » (AFP, 30/09/2017).

Le second glissement est opéré par le service de communication de l’Inserm qui décide la diffusion d’un communiqué de presse [1] dont le chapeau annonce qu’« une étude épidémiologique menée par l’Inserm […] montre que l’exposition pendant la grossesse à certains phénols et phtalates est associée à des troubles du comportement des garçons entre 3 et 5 ans »1.

L’AFP relaie alors l’information (29/09/2017) : « Le comportement des petits garçons affecté par les perturbateurs endocriniens », « L’étude montre que l’exposition au bisphénol A était associée à une augmentation des troubles relationnels à 3 ans et des comportements de type hyperactif à 5 ans ». Logiquement, quasiment tous les médias reprennent les termes de l’agence de presse, presque mot pour mot.

Quelques rares médias se sont néanmoins penchés sur l’article initial avec un peu de sens critique. Ainsi, par exemple, sur Europe 1, la journaliste Géraldine Woessner indique dans sa chronique « Le vrai-faux de l’info » (04/10/2017) qu’affirmer que cette étude prouverait l’effet des perturbateurs endocriniens sur le comportement des garçons est « très outrancier ». Elle ajoute que « cette étude ne prouve rien scientifiquement. Il suffit de la lire d’ailleurs, pour s’en apercevoir. Mais elle met en lumière des signaux d’alerte faibles, mais intéressants, qu’il sera indispensable d’approfondir » [2].

Couronnement de cette spirale, le 24 octobre 2017, 23 députés déposent une proposition de loi [3] qui s’appuie explicitement et principalement sur l’étude (« les travaux de cette étude épidémiologique menés par l’Inserm (panel de 500 garçons nés entre 2003 et 2005) montrent que l’exposition pendant la grossesse à certains phénols et phtalates est associée à des troubles du comportement des garçons entre 3 et 5 ans ») pour demander « de marquer d’un pictogramme “déconseillé aux femmes enceintes” tous les produits contenant des substances à caractère perturbateur endocrinien ».

Les perturbateurs endocriniens font l’objet de nombreuses recherches, des résultats sont obtenus et des réglementations se mettent en place. Une approche rigoureuse et sereine est nécessaire tout au long de la chaîne de production de l’information vers le public en évitant toute médiatisation intempestive.

[1] « Exposition prénatale aux perturbateurs endocriniens et troubles du comportement des enfants », Communiqué de l’INSERM, 29 septembre 2017. Sur le site presse.inserm.fr
[2] Géraldine Woessner, « Les perturbateurs endocriniens ont-ils un effet sur le comportement des garçons ? ». Chronique Le vrai-faux de l’info, Europe 1, 4 octobre 2017, sur le site www.europe1.fr.
[3] www.assemblee-nationale.fr/15/propositions/pion0325.asp

La faible crédibilité des effets de sous-groupe

L’enfer des résultats faux contient beaucoup de ces résultats médiatisés qui ont ensuite été infirmés. Dans le cas de la publication évoquée plus haut, les résultats n’ont pas encore été infirmés, mais on ne peut certainement pas les considérer comme démontrés.

Une étude publiée en 2005 dans The Lancet [3] donnait les exemples suivants de résultats d’essais de médicaments observés dans des sous-groupes et réfutés par la suite (l’article donne également les références des réfutations).

  • L’aspirine en prévention secondaire des AVC est inefficace chez les femmes.
  • Le traitement antihypertenseur en prévention primaire est inefficace chez les femmes.
  • Le traitement antihypertenseur est inefficace ou dangereux chez les personnes âgées.
  • Les inhibiteurs de l’enzyme de conversion de l’angiotensine ne réduisent pas la mortalité et le risque d’hospitalisation chez les patients souffrant d’insuffisance cardiaque qui prennent également de l’aspirine.
  • Les bêtabloquants sont inefficaces après un infarctus aigu du myocarde chez les personnes âgées et chez les patients avec un infarctus de la paroi inférieure du myocarde.
  • La thrombolyse n’est pas efficace si elle est faite plus de 6 h après le début de l’infarctus du myocarde.
  • La thrombolyse de l’infarctus aigu du myocarde est inefficace ou dangereuse en cas d’antécédent d’infarctus du myocarde.
  • Le citrate de tamoxifène est inefficace chez les femmes atteintes d’un cancer du sein qui ont moins de 50 ans.
  • L’avantage de l’endartériectomie carotidienne pour une sténose symptomatique est réduit chez les patients prenant uniquement de l’aspirine à faible dose en raison d’un risque opératoire accru.
  • L’amlodipine réduit la mortalité chez les patients atteints d’insuffisance cardiaque chronique si cette insuffisance est due à une cardiomyopathie non-ischémique mais pas si elle est due à une cardiomyopathie ischémique.

Chacune de ces affirmations a été réfutée par la suite.

Une autre étude publiée dans The British Medical Journal [4] en 2014 examine 894 protocoles d’essais thérapeutiques contrôlés randomisés soumis à six comités d’éthique. Elle compare les analyses de sous-groupes prévues dans les protocoles et celles rapportées dans les publications des résultats des essais. Les auteurs concluent que « les analyses de sous-groupes sont insuffisamment décrites dans les protocoles » et que plus d’un tiers des affirmations portant sur des sous-groupes dans les publications « n’avaient aucune documentation dans les protocoles correspondants ». Un jugement définitif sur la crédibilité des effets revendiqués est « impossible sans l’accès aux protocoles et aux plans d’analyse des essais ». En conclusion, les auteurs rappellent que, sans une pré-spécification de l’analyse des sous-groupes, la crédibilité des effets allégués est très faible.

Ces affirmations fausses fondées sur l’étude de sous-groupes peuvent conduire à refuser des soins potentiellement bénéfiques ou à recommander des traitements potentiellement dangereux.

L’étude des liens entre alimentation et risque de maladie fournit aussi beaucoup de résultats faux-positifs. Ayant étudié en détail l’alimentation passée d’un groupe de patients atteints d’une maladie (car la maladie peut entraîner un changement alimentaire) et l’alimentation d’un groupe de témoins, on compare alors leur consommation en prenant les aliments et les nutriments un par un. Les malades ont-ils une consommation différente de viande, de viande rouge, de charcuteries, de fruits, de légumes, de lait, de beurre, de produits laitiers, de crucifères, de soda, de vitamine C, de vitamine A, de protéines animales, de légumes secs, d’alcool, de vin, de vin rouge, etc. ? On trouve forcément une caractéristique de l’alimentation qui est « statistiquement et significativement » différente chez les malades et chez les témoins. Reste à publier ce résultat qui va se répandre très rapidement dans les médias.

Les médias adorent ces résultats faussement positifs, et c’est ainsi que les idées fausses se propagent à la vitesse de la lumière, alors qu’il faut beaucoup plus d’énergie pour les réfuter.

Références

[1] Benjamini Y, Hochberg Y, “Controlling the False Discovery Rate : A Practical and Powerful Approach to Multiple Testing”, Journal of the Royal Statistical Society, Series B (Methodological), 1995, 57:289–300.
[2] Philippat C et al., “Prenatal Exposure to Nonpersistent Endocrine Disruptors and Behavior in Boys at 3 and 5 Years”, Environ Health Perspect, 2017, doi:10.1289/EHP1314.
[3] Rothwell PM, “Subgroup analysis in randomised controlled trials : importance, indications, and interpretation”, The Lancet, 2005, 365:176–86.
[4] Kasenda B et al., “Subgroup analyses in randomised controlled trials : cohort study on trial protocols and journal publications”, The British Medical Journal, 2014, 349:g4921.

Cet article a suscité un commentaire de la part des auteurs de l’étude, adressé au rédacteur en chef de la revue Science et Pseudo-sciences. Nous le publions ici en intégralité, non pas au titre du « droit de réponse », comme demandé (les conditions d’un droit de réponse ne sont pas réunies), mais au titre de la conception du libre débat que l’Afis souhaite encourager.

Le lecteur trouvera en fin de cette publication les commentaires de la rédaction.

Le 19 octobre 2018.

Réponse à Science et Pseudoscience

La science des perturbateurs endocriniens est-elle aveugle ? De l’importance de ne pas tout faire reposer sur la signification statistique

Rémy Slama 1, Jérémie Botton2, Claire Philippat1
1 Inserm (IAB, Grenoble) et 2 Université Paris-Sud.

Votre journal a publié en janvier 2018 un commentaire intitulé « Perturbateurs endocriniens et troubles du comportement – L’art d’alarmer la population sur des bases incertaines  » visant notre étude parue en septembre 2017 dans la revue scientifique Environmental Health Perspectives 1 et son traitement par la presse, qualifié « d’extraordinaire saga médiatique » ; il énumérait ensuite une liste de résultats d’essais de médicaments observés dans des sous-groupes et finalement réfutés. Votre journaliste concluait en indiquant que «  Les médias adorent ces résultats faussement positifs, et c’est ainsi que les idées fausses se propagent à la vitesse de la lumière, alors qu’il faut beaucoup plus d’énergie pour les réfuter ». Comme nous le détaillons ci-dessous, le commentaire défend une vision de la recherche en santé se réduisant au concept binaire de « signification statistique  » et ignorant la biologie. Il passe sous silence les hypothèses a priori de notre étude, la littérature abondante sur les effets des perturbateurs endocriniens que nous étudions et fait, dans une sorte de syllogisme peu rigoureux, l’amalgame entre des essais cliniques isolés mettant en évidence des résultats statistiquement significatifs à la suite d’analyses par sous-groupe sans a priori et notre étude sur une population unique sans stratification en sous-groupes, et qui s’appuie sur le vaste corpus de la recherche pluridisciplinaire sur les effets des perturbateurs endocriniens. Il pourrait laisser croire que des substances comme le bisphénol A sont sans danger pour la santé humaine, contrairement aux connaissances scientifiques établies 2.

Après des considérations sur la correction des analyses statistiques pour les comparaisons multiples et le recours à la notion de « signification statistique » en épidémiologie, nous apportons des précisions sur la démarche et les hypothèses de notre étude, précisions que nous vous avions transmises lorsque vous nous aviez interrogés sur notre étude en préparant votre commentaire, mais que vous avez choisi d’ignorer.

La problématique des tests statistiques multiples

Un test de signification statistique de l’association entre deux variables vise à quantifier l’écart entre l’association calculée à partir des données observées et celle attendue sous l’hypothèse d’une indépendance entre ces variables (« l’hypothèse nulle »). La p-valeur qui en résulte est la probabilité d’observer, sous l’hypothèse nulle, un écart à cette hypothèse au moins aussi grand que celui observé. Son interprétation est délicate : plus cette p-valeur sera faible, moins on sera tenté de considérer les données comme compatibles avec l’hypothèse nulle , donc plus on sera tenté de la rejeter et de considérer que l’association observée n’est pas le fruit du hasard – et in fine, s’il n’y a pas de biais, de considérer que cette association pourrait être due à une relation de cause à effet. L’interprétation n’est pas symétrique : plus la p-valeur se rapproche de la valeur un, moins on a de raisons statistiques pour rejeter l’hypothèse nulle, mais cela ne signifie pas que l’on dispose d’arguments forts en faveur de l’hypothèse nulle. La p-valeur n’est pas la probabilité que l’hypothèse nulle (celle d’une absence d’association) soit vraie ; le fait que des données soient compatibles avec une certaine hypothèse (telle que l’hypothèse d’absence d’association) n’exclut pas leur compatibilité avec d’autres hypothèses.

Le problème bien connu des tests multiples évoqué dans le commentaire que vous avez publié correspond au fait que, dans le cadre d’une analyse par régression classique, s’il n’y a aucune association réelle, plus le nombre de tests statistiques réalisés à partir d’un jeu de données augmente, plus la probabilité d’obtenir au moins une association dite « statistiquement significative » du simple fait de ces fluctuations aléatoires augmente, si on ne corrige pas l’analyse sur le nombre de tests effectués. Différentes méthodes appartenant aux familles des corrections du taux de faux positifs par famille (FWER, pour Family-wise error rate) ou globalement (FDR, pour False Discovery Rate) peuvent être utilisées pour corriger l’analyse sur le nombre de tests. Cette correction statistique met au même niveau tous les tests faits. Elle est la règle dans les essais cliniques (si on fait des analyses exploratoires sur un grand nombre de sous-groupes), d’où sont issus tous les exemples d’études finalement réfutées cités par le commentaire. Elle est aussi utilisée dans les analyses pan-génomique où le nombre de tests faits est colossal (de l’ordre de la dizaine de milliers au million), l’approche essentiellement exploratoire et les hypothèses a priori faibles. En revanche, cette correction n’est pas optimale dans une situation où l’on dispose d’hypothèses a priori, par exemple via des études similaires sur la question ou, à une échelle plus fine, sur les déterminants physiopathologiques des troubles étudiés. En particulier, cette correction est loin d’être systématique en épidémiologie environnementale.

L’épidémiologiste Kenneth Rothman publiait en 1990 sur ce sujet dans le premier numéro de la prestigieuse revue Epidemiology, revue officielle de l’International Society of Environmental Epidemiology, un éditorial intitulé « No adjustments are needed for multiple comparison »4. Une des justifications est que le recours à un seuil de signification statistique fait la supposition que l’hypothèse nulle (celle d’une absence d’association entre toutes les paires de variables considérées) est la plus probable pour toutes les paires de variables testées ; en d’autres termes que l’aléatoire gouverne l’ensemble des processus étudiés. Or une telle hypothèse nulle est peu probable dans une étude où les variables mesurées ne sont pas choisies au hasard mais, par exemple, après une revue de la littérature sélectionnant les expositions les plus susceptibles d’être nocives, comme c’est souvent le cas en épidémiologie environnementale.

Une autre raison de la défiance des épidémiologistes pour cette approche de correction est qu’il est illusoire, dans le contexte d’études observationnelles, de contrôler le risque de faux positifs à un seuil donné. En d’autres termes, on croit contenir le taux de résultats faussement positifs (par exemple, le maintenir en-dessous de 5%) sans que ce soit le cas. En plus des difficultés intrinsèques à la nature des tests d’hypothèses, ceci peut par exemple être dû à des analyses préliminaires visant à optimiser le codage des facteurs considérés, qui font que même si on s’intéresse à l’effet d’un unique facteur dans un seul groupe, on a fait, avant d’arriver au modèle statistique final, plusieurs tests qui restent parfois cachés. Plus fondamentalement, nous avons démontré, dans le contexte d’études sur l’exposome prenant en compte de l’ordre de 200 expositions à la fois avec une certaine corrélation entre elles, que le taux de faux positifs effectif après l’utilisation d’approches visant à corriger les comparaisons multiples est bien supérieur à celui de 5% qu’elles sont censées garantir5.

Dans l’ensemble, ne pas appliquer cette correction est une façon d’éviter de faire reposer l’interprétation des résultats sur un paramètre au calcul incertain, voire imprécis. D’autres modèles, comme les approches de sélection de variables ou de réduction des données, semblent plus prometteuses quand le nombre de variables considérées augmente, et plusieurs équipes travaillant sur les perturbateurs endocriniens ou l’exposome, dont la nôtre, ont commencé à les mettre en œuvre.

Il ne s’agit pas d’une position isolée de l’épidémiologie environnementale. D’autres champs de l’épidémiologie, mais également les biologistes et les toxicologues (qui considèrent de plus en plus souvent l’effet de plusieurs substances combinées sur différents paramètres biologiques) ont traditionnellement peu souvent recours à une correction pour les comparaisons multiples.

Le danger des analyses par sous-groupes

Les bonnes pratiques cliniques peuvent recommander de corriger les comparaisons multiples si on réalise des analyses par sous-groupes – en fait, les recommandations sont surtout de ne pas conclure à l’effet d’un facteur donné à partir d’analyses par sous-groupes non prévues dans le protocole initial. Dans le cas d’une telle analyse, une étude visant à confirmer le résultat exploratoire doit être mise en place.

Le parallèle fait dans votre commentaire entre notre étude et les analyses par sous-groupe sur l’efficacité des médicaments dans lesquelles les auteurs ont trouvé un effet (ou une absence d’effet selon le cas) dans un sous-groupe non identifié a priori n’a pas de sens car nous n’avons pas procédé à une analyse dans des sous-groupes. Nous publions depuis 2014 dans cette population d’environ 500 garçons. Notre choix initial de nous restreindre à des garçons, dans le contexte où des études sur les perturbateurs endocriniens qui nous intéressent avaient suggéré une sensibilité différente des deux sexes, est justement ce qui nous a permis d’éviter d’avoir à faire des analyses par sous-groupes. Nous avons en effet préféré cette option à celle consistant à travailler sur un échantillon de même taille incluant garçons et filles, qui nous aurait obligés à faire deux analyses sur deux groupes plus petits de moitié, augmentant les problèmes liés aux fluctuations d’échantillonnages.

De plus, des sous-groupes sont des populations différentes. Tester l’effet de plusieurs substances sur plusieurs scores de neurodéveloppement dans un seul groupe comme nous l’avons fait n’est pas équivalent à faire des analyses sur des sous-groupes. Par exemple, deux des sept échelles de neurodéveloppement sont construites comme étant la somme d’autres échelles, ce qui fait que les tests correspondant à ces deux échelles ne sont pas indépendants des autres, et ne peuvent pas être comptés comme tels. De même, répéter les analyses avec deux codages différents des scores neurodéveloppementaux n’est pas du tout équivalent à multiplier par deux le nombre de tests car, là encore, il s’agit de tests fortement dépendants. Mais le plus important n’est pas le nombre effectif de tests statistiques indépendants réalisés, c’est le fait qu’il existence éventuellement des associations ayant une probabilité a priori beaucoup plus élevée que les autres d’être vraies – nous y reviendrons.

Utilisation et interprétation des p-valeurs en épidémiologie

Dans notre article, nous n’avons pas défini de seuil de signification statistique, ni a fortiori corrigé les p-valeurs pour prendre en compte des comparaisons multiples dans notre analyse principale ; la correction pour les tests multiples n’a été faite que dans une analyse de sensibilité. Notre approche est cohérente avec celle plébiscitée par la revue Epidemiology, qui, poussant dans sa logique la remarque de Bradford Hill considérant en 1965 qu’on avait tendance à donner trop de poids aux tests de signification6, décourage l’utilisation des tests de signification statistique et la mention des « p-valeurs » dans les articles qu’elle publie. L’American Statistical Association reconnaît elle aussi qu’en soit « une p-valeur ne fournit pas une bonne mesure de la preuve concernant un modèle ou une hypothèse »7. Le lecteur pourra se référer à cette publication4 et d’autres8 pour un détail des raisons justifiant cette approche. Citons, en plus de certains des points évoqués plus haut en lien avec la correction des tests multiples, le fait que, à effectif constant, diminuer la probabilité a priori de faux positifs se fait généralement en diminuant la puissance de l’étude, c’est-à-dire en augmentant la probabilité de faux négatifs et donc d’études qui pourraient être interprétées comme rassurantes à tort (dans le cas où il s’agit de tester l’effet d’une substance pouvant être dangereuse). Cet enjeu est similaire à celui des tests de dépistage ou de diagnostic pour lesquels on va, en modifiant le seuil défini comme « positif », faire varier en sens opposés les taux de sujets faussement positifs (sujets sains avec un test positif) et faussement négatifs (malades non identifiés par le test). Enfin, le degré de signification est une mesure ambigüe car il dépend à la fois de l’effectif de l’étude et de la « force statistique » de la relation entre les deux facteurs considérés. Pour cette raison, les épidémiologistes préfèrent remplacer la p-valeur par la mention d’une mesure d’association (par exemple sous la forme d’un risque relatif ou odds-ratio) associée à une quantification de la précision, sous la forme d’un intervalle de confiance beaucoup plus informatives 2 .

Dans tous les cas, réduire l’information quantitative du degré de signification à une information binaire, reposant sur un seuil arbitraire (souvent, les fameux 5% utilisés en recherche clinique) est déconseillé. Fisher lui-même, un des statisticiens qui a contribué à populariser le recours aux p-valeurs, indiquait que « aucun scientifique n’a de niveau de signification fixe auquel, année après année et dans toutes les circonstances, il rejette les hypothèses ; il décide plutôt dans chaque circonstance en fonction de ses preuves et idées » . Ceci peut paraître déroutant pour ceux qui ne se rappelleraient d’anciens cours de statistiques que la « règle » du « p<5% ». Mais cette « règle » qui n’en est pas une a toujours suscité moult débats parmi les statisticiens et est tout sauf le critère simple, intuitif et à toute épreuve qui permettrait aux statistiques de faire jaillir la lumière de n’importe quel jeu de données 3. De son côté, l’épidémiologiste Bradford Hill, dans sa fameuse discussion sur la causalité, cite de nombreux éléments méritant d’être considérés, dont un seul (la force de l’association), fait référence aux statistiques, au milieu d’autres tels que la plausibilité biologique.

L’importance de la réplication et le poids de la preuve

Les sciences de la santé sont, en effet, davantage que des statistiques appliquées à des données sanitaires ou démographiques. La solution aux problèmes liés aux fluctuations aléatoires n’est pas (ou pas seulement) davantage de tests statistiques plus complexes, mais davantage de sciences et de connaissances sur les données et le problème biologique étudié – ainsi que des réplications indépendantes. C’est ce qui est indiqué dans l’article du Lancet cité par votre commentaire, qui mentionne que le meilleur test de la validité d’analyses par sous-groupes n’est pas la signification [statistique] mais la réplication9. C’est d’autant plus vrai en épidémiologie environnementale où, étant donné le coût important de la mise en place de cohortes avec un effectif important, les études ont une puissance statistique probablement souvent faible (c’est-à-dire une probabilité faible de mettre en évidence une association qui existe). Ainsi, la « bonne » réponse n’est pas celle qui vient d’une seule étude, aussi rigoureuse soit-elle, mais de la mise en commun des résultats des études sur une même question. Cela peut se faire de façon informelle, comme nous l’avons fait, ou de façon plus formelle dans le cadre d’une méta-analyse consistant à estimer l’association « moyenne » (la moyenne étant pondérée par la précision de chaque étude) sur l’ensemble des études, si possible en corrigeant l’effet de biais de publication éventuels. La mise en commun de trois études dont le p est « non significatif » au seuil de 5% (par exemple 15%) peut très bien conduire à une méta-analyse révélant une association qui serait considérée statistiquement « significative » au seuil de 5%. La démarche de poids de la preuve (« weight of evidence ») qui se répand dans les sciences de l’environnement et ailleurs va tout à fait en ce sens.

Le poids des connaissances a priori

Pour notre étude, nos collègues des Centers for Disease Controls (ou CDC) ont dosé des métabolites de phtalates et des phénols. Ces substances ne sont pas des substances « aléatoires » présentes dans l’environnement, mais un ensemble de molécules que les CDC (l’équivalent américain de Santé Publique France) dosent dans les études de biosurveillance américaines (l’étude NHANES), et qui sont suivies du fait de l’existence, à des degrés divers, de suspicions ou preuves concernant un effet sanitaire à partir d’études toxicologiques ou épidémiologiques.

Pour certaines des substances testées, une suspicion concernant un effet sur le neurodéveloppement existe. De même qu’il n’est pas valide scientifiquement de présenter comme étant une hypothèse a priori une association qui sortirait de tests faits sur un grand nombre de substances sur lesquelles on n’avait pas de connaissance auparavant, il aurait été difficilement justifiable de mettre au même plan des substances pour lesquelles le niveau de preuve a priori n’est pas le même et d’ignorer la littérature existante . L’interprétation des études en santé ne se résume pas à comparer des p-valeurs à un seuil – sans quoi on pourrait les laisser à des statisticiens ignorant les pathologies et facteurs de risque pris en compte, voire à des machines. Il s’agit de mesurer la confiance à accorder à une théorie concernant l’effet sanitaire d’une substance, ce qui se fait non pas en considérant chaque étude isolément mais en confrontant tous les éléments disponibles à un moment donné à partir du trépied des connaissances moléculaires, expérimentales (toxicologiques) et en population. C’est dans ce cadre que notre article doit être discuté.

Nous sommes bien conscients du besoin de réplication, en particulier pour les substances que nous sommes les premiers à étudier. C’est une des raisons (en plus des limites mentionnées plus haut liées à l’utilisation des p-valeurs) pour laquelle dans la discussion de l’article et le communiqué de presse associé, nous nous sommes concentrés sur les associations pour lesquelles une cohérence a été observée avec la littérature humaine précédente portant sur l’exposition prénatale, ou avec la littérature animale lorsqu’aucune étude humaine n’était disponible. Ceci est clairement mentionné dans l’article et concerne les substances suivantes : bisphénol A, triclosan et un métabolite de phtalate (le MnBP, issu du dibutyl phtalate, ou DBP) qui sont les substances reprises dans le communiqué de presse publié par l’Inserm.

Par exemple, le bisphénol A était associé entre autres à une augmentation des scores évaluant les comportements d’externalisation de type hyperactivité et inattention à 5 ans et les comportements d’internalisation tels que les troubles relationnels à 3 ans. Il faut rappeler que le rythme des publications scientifiques sur les effets biologiques et sanitaires de ce composé est d’environ 400 par an depuis 2014. Cette littérature a donné lieu a au moins quatre rapports de l’ANSES depuis 2011, une expertise collective Inserm en 2011 et au classement du bisphénol A comme « substance extrêmement préoccupante » en 2017 par l’Agence européenne des produits chimiques (l’ECHA), ce qui constitue le niveau le plus élevé parmi les dangers sanitaires 2. Il a été démontré que le bisphénol A est, entre autres, un perturbateur de l’axe thyroïdien, qui a un rôle central dans le développement du système nerveux central. Une trentaine d’études ont concerné ses effets sur le neurodéveloppement chez le rongeur (dont la synthèse est en faveur d’une augmentation de l’hyperactivité chez les animaux exposés in utero, au moins pour les mâles)10. Chez l’humain, ce composé avait été associé à une augmentation de certains troubles du comportement dans 6 des 7 études publiées sur le sujet avant notre article (études détaillées dans le tableau 11 du supplément de notre article). D’autres composés, tels que le MBzP et le DEHP, étaient associés à des troubles du comportement dans notre article. Ces résultats n’étant pas soutenus par la littérature existante (très limitée), nous ne les avons pas repris dans notre conclusion ni dans le communiqué de presse, dans l’attente de travaux supplémentaires. Ainsi, notre étude ne tire pas une alarme sur des molécules anodines sur lesquelles on ne sait rien, mais distingue le niveau de preuve associé à chaque substance à partir de nos résultats et des connaissances antérieures, ce qu’un examen superficiel des tableaux de l’article ne permet pas de faire.

Comme on peut le constater, il s’agit d’une démarche suivie, lourde, de longue haleine, et pas d’une succession de tests statistiques interprétés en ignorant la biologie et la toxicologie.

La communication et la place du chercheur dans la société

Notre but n’est pas d’alarmer comme le commentaire que vous publiez l’indique, ni d’ailleurs de rassurer la population ou les décideurs, mais de transmettre à la communauté scientifique ce qui constitue selon nous l’hypothèse la plus probable du point de vue de l’effet de ces substances sur le comportement des enfants. Étant donné les études toxicologiques et épidémiologiques existantes, dont la nôtre, l’hypothèse la plus probable est que, parmi les substances que nous avons étudiées, le bisphénol A, le triclosan et le MnBP (ou son composé parent le DBP), aux niveaux auxquels la population française était exposée lors de notre étude, aient un effet néfaste sur le neurodéveloppement des enfants. Contrairement à ce qui est suggéré dans votre commentaire, les journalistes qui ont repris ce travail ne nous donnent pas l’impression de s’être jetés sur la première étude évoquant l’effet de molécules sur lesquelles on ne sait rien, générant une fausse alerte ou « propageant des idées fausses à la vitesse de la lumière ». C’était dans les années 1990 que communiquer sur le bisphénol A était plus aventureux. Au contraire, ces journalistes ont relayé des résultats montrant une certaine cohérence avec la littérature existante chez l’homme ou l’animal. Nous ne sommes pas convaincus que Science et Pseudoscience leur ait donné, avec leur commentaire, un meilleur exemple de ce qu’un traitement rigoureux, impartial et approfondi de la question aurait pu être. Celui-ci, en plus de la question de la pertinence de la prise en compte des comparaisons multiples et de la meilleure option pour le faire dans le contexte d’expositions corrélées, aurait pu aussi aborder l’erreur de mesure sur les expositions et le biais d’atténuation qui en résulte probablement 11, la façon de la limiter, ou encore la problématique de l’intégration entre les données moléculaires, toxicologiques in vivo et épidémiologiques sur les effets des perturbateurs endocriniens.

Que la presse relaye parfois les résultats d’études individuelles comme la nôtre (qui est loin d’être l’information santé la plus reprise de l’an passé) en plus des rapports de synthèse de l’ANSES ou d’expertises collectives telles que celles de l’Inserm sur le bisphénol A ou d’autres perturbateurs endocriniens, n’est pas de notre ressort. Une telle reprise peut dépendre de nombreux facteurs, comme l’actualité au moment de la sortie des travaux, celle propre au sujet (en l’occurrence la fin du processus de publication des critères légaux de définition des perturbateurs endocriniens dans les pesticides et biocides en Europe) ou extérieure. D’un côté, les expertises et rapports de synthèse ont indéniablement un niveau de preuve plus fort par leur recul sur un pan entier de la littérature et l’intégration de résultats venant de différentes disciplines, sur différents modèles mais d’un autre ils sortent, en général, plus tardivement et peuvent sembler moins novateurs à la presse, car synthétisant des études déjà publiées individuellement.

Enfin, qu’il existe une réglementation sur les perturbateurs endocriniens peut déplaire à l’auteure du commentaire mais n’est pas le fruit de cette étude : c’est le cas dans l’UE depuis 1999.

La recherche en santé environnementale génère-t-elle beaucoup de fausses alarmes ?

Historiquement, la recherche en santé environnementale a fait l’objet d’un travail de création de doute pour attaquer les travaux montrant les effets du tabac sur la santé, puis du tabagisme passif, problématique que l’auteure du commentaire connaît bien. Des approches similaires ont été employées contre les travaux sur les effets de l’amiante, du plomb, sur les origines du changement climatique et maintenant sur les perturbateurs endocriniens, notamment en Europe, pour retarder la publication d’une définition de critères scientifiques opérationnels des perturbateurs endocriniens, critères nécessaires pour appliquer des lois votées par le parlement européen en 2009 et 2012. Cette démarche de génération de doute en dehors du cercle des scientifiques indépendants et afin de ralentir la gestion du risque doit être distinguée du juste débat scientifique qui permet de réfuter et d’affiner les hypothèses. Ce juste débat se fait dans l’arène scientifique, et entre personnes informées et uniquement animées par la volonté de faire progresser les connaissances. La méthodologie de notre travail n’a pas été critiquée dans la revue scientifique qui l’a publié (ni lors des congrès où nous l’avons présenté), et nous espérons bien sûr que d’autres travaux indépendants pourront être réalisés, notamment sur les substances que nous avons été les premiers à étudier, pour confirmer, infirmer ou creuser les résultats issus de notre analyse, comme cela a pu être le cas pour nos précédents travaux publiés en 2014 et suggérant un effet du triclosan sur le périmètre crânien 12. Diffuser les résultats de notre étude est aussi une façon de contribuer à ce que d’autres travaux sur le même sujet soient soutenus et entrepris par d’autres équipes. La science est un processus incrémentiel – avec quelques rares révolutions – et très peu d’études, y compris la nôtre, peuvent prétendre être parfaites ou fournir la conclusion définitive sur une question.

Par une approche statistique rigoureuse alliée à un protocole élaboré et strict de recueil de données et une démarche alliant de plus en plus souvent plusieurs disciplines, la recherche en santé environnementale génère relativement peu de fausses alertes (si on ne considère pas la publication d’une unique étude sur une nouvelle question comme suffisante pour parler d’alerte), comme l’a démontré une publication de l’Agence européenne de l’environnement, et comme le montre le fait que le classement d’aucun carcinogène certain reconnu par le CIRC n’ait été invalidé. Elle fait parfois l’objet d’attaques, par des personnes semant le doute sur la qualité des travaux scientifiques, pour des raisons pouvant être liées à des conflits d’intérêt, ou d’autre nature, doute qui peut être lent à réfuter et n’est en général bénéfique ni pour la science ni pour la santé publique.

Références

1. Philippat C, Nakiwala D, Calafat AM, Botton J, De Agostini M, Heude B, Slama R. Prenatal Exposure to Nonpersistent Endocrine Disruptors and Behavior in Boys at 3 and 5 Years. Environmental Health Perspectives 2017 ;125(9).
2. Anses’s Working Group on Endocrine Disruptors, Pouzaud F, Thierry-Mieg M, Burga K, Verines-Jouin L, Fiore K, Beausoleil C, Michel C, Rousselle C, Pasquier E. Concerns related to ED-mediated effects of Bisphenol A and their regulatory consideration. Mol Cell Endocrinol 2018 ;475:92-106.
3. Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN, Altman DG. Statistical tests, P values, confidence intervals, and power : a guide to misinterpretations. Eur J Epidemiol 2016 ;31(4):337-50.
4. Rothman KJ. No adjustments are needed for multiple comparisons. Epidemiology 1990 ;1(1):43-6.
5. Agier L, Portengen L, Chadeau-Hyam M, Basagana X, Giorgis-Allemand L, Siroux V, Robinson O, Vlaanderen J, Gonzalez JR, Nieuwenhuijsen MJ, Vineis P, Vrijheid M, Slama R, Vermeulen R. A Systematic Comparison of Linear Regression-Based Statistical Methods to Assess Exposome-Health Associations. Environ Health Perspect 2016 ;124(12):1848-1856.
6. Hill AB. The environment and disease : Association or causation ? Proceedings of he Royal Society of Medicine 1965 ;58:295-300.
7. Wasserstein RL, Lazar NA. The ASA’s Statement on p-Values : Context, Process, and Purpose. The American Statistician 2016 ;70(2):129-133
8. Lang JM, Rothman KJ, Cann CI. That confounded P-value. Epidemiology 1998 ;9(1):7-8.
9. Rothwell PM. Treating individuals 2. Subgroup analysis in randomised controlled trials : importance, indications, and interpretation. Lancet 2005 ;365(9454):176-86.
10. Rochester JR, Bolden AL, Kwiatkowski CF. Prenatal exposure to bisphenol A and hyperactivity in children : a systematic review and meta-analysis. Environ Int 2018 ;114:343-356.
11. Perrier F, Giorgis Allemand L, Slama R, Philippat C. Within-subject pooling of biological samples as a way to reduce exposure misclassification in biomarker-based studies of chemicals with high temporal variability. Epidemiology 2016 ;27(3):378-388.
12. Philippat C, Botton J, Calafat AM, Ye X, Charles M-A, Slama R, Grp ES. Prenatal Exposure to Phenols and Growth in Boys. Epidemiology 2014 ;25(5):625-635.


Quelques commentaires sur la réponse des auteurs adressée à Science et pseudo-sciences

Les auteurs nous reprochent d’avoir « choisi d’ignorer » les éléments qu’ils nous avaient transmis quand nous les avions sollicités lors de la rédaction de l’article. Le lecteur pourra vérifier que nous en avions fait mention : « Contacté par SPS, Rémy Slama indique que “à la lumière des connaissances et hypothèses à priori” on s’attend à trouver l’effet observé, le test FDR n’est donc pour lui qu’une analyse de sensibilité” et il verse au dossier, pour preuve, un texte de la FDA (Food and Drug Administration) et une synthèse des données disponibles, documents qui ne prouvent absolument rien sur les liens entre perturbateurs endocriniens et troubles du comportement  ». Les auteurs indiquent, toujours dans le commentaire qu’ils nous ont adressé, que le choix de restreindre leur étude à la population de garçons leur a « permis d’éviter d’avoir à faire des analyses par sous-groupes ».

Néanmoins, dans leur étude, le problème n’est pas tant le nombre de sous-groupes que le nombre de variables testées qui démultiplie les tests statistiques (10 perturbateurs endocriniens, 7 caractéristiques de comportement, âge de 3 ans et âge de cinq ans, soit 140 tests). Les auteurs indiquent bien dans leur article qu’ils ont contrôlé le risque global de faux positif par une correction pour tests multiples, ce qui les conduit alors à conclure qu’« aucune des associations reportées dans la partie “résultats” ne reste significative ». Le meilleur moyen de s’affranchir des comparaisons pour tests multiples, c’est soit de réduire le nombre de variables testées (ce qui n’a pas été fait), soit de formuler un petit nombre d’hypothèses a priori qui seront testées sans correction. Mais, dans ce dernier cas, comme d’ailleurs indiqué dans le commentaire des auteurs, pour que ces hypothèses soient crédibles, il aurait fallu qu’elles soient formulées a priori, qu’elles aient été « prévues dans le protocole initial  » et préenregistrées, comme cela est couramment fait pour les essais cliniques.

Enfin, à propos de la médiatisation qui a entouré la publication de l’article, les auteurs affirment que leur but « n’est pas d’alarmer […] ni d’ailleurs de rassurer la population ou les décideurs, mais de transmettre à la communauté scientifique ce qui constitue selon [eux] l’hypothèse la plus probable du point de vue de l’effet de ces substances sur le comportement des enfants  » et ajoutent que le fait que « la presse relaye parfois les résultats d’études individuelles comme la nôtre […] n’est pas de [leur] ressort  ». La communication de l’Inserm, oubliant toutes les réserves méthodologiques de l’étude se serait-elle faite sans concertation avec les auteurs ? Et, par ailleurs, il nous semble, comme illustré dans l’article que nous avions publié, que les déclarations des auteurs à la presse grand public sont loin, dans leur contenu et dans leur forme, de la seule transmission factuelle à la communauté scientifique de résultats obtenus.

La rédaction de Science et pseudo-sciences

1 Contacté par SPS, Rémy Slama indique que « à la lumière des connaissances et hypothèses a priori » on s’attend à trouver l’effet observé, le test FDR n’est donc pour lui qu’« une analyse de sensibilité » et il verse au dossier, pour preuve, un texte de la FDA (Food and Drug Administration) et une synthèse des données disponibles, documents qui ne prouvent absolument rien sur les liens entre perturbateurs endocriniens et troubles du comportement.

Mis en ligne le 21 novembre 2017
8600 visites

Explorer par thème


Valid HTML 4.01 Transitional CSS Valide !