Version PDF

ORL

05 oct 2020

Attention à la « maladie statistique » en otorhinolaryngologie !

Ollivier LACCOURREYE*/**, Alain LONDERO**, Qunetin LISAN*/**, *Université Paris Centre, **Service d’otorhinolaryngologie et de chirurgie-cervico-faciale, HEGP, APHP, Paris

En 2015, dans un éditorial percutant, le rédacteur en chef du Lancet, Richard Horton(1), estimait que la moitié de ce qui était publié en médecine était « erroné » (www.thelancet.com, vol. 385, 2015 April 11). Parmi les multiples raisons (évaluation du nombre et non de la qualité des articles, valorisation financière des articles, irruption de l’accès libre et des revues prédatrices, pression de l’industrie) avancées pour expliquer ce problème, la mauvaise utilisation des statistiques qui se définissent dans le dictionnaire Larousse comme « l’ensemble des méthodes qui, à partir du recueil et de l’analyse de données réelles, permettent l’élaboration de modèles probabilistes autorisant les prévisions », joue un rôle majeur.

Dans la presse médicale scientifique anglo-saxonne dédiée à notre spécialité, plusieurs travaux(1-4) ont ainsi souligné que l’utilisation des statistiques n’était pas optimale et deux articles(5,6) récemment publiés dans les European Annals of Otorhinolaryngology Head & Neck Diseases soulignaient que ce travers n’était pas exclusivement anglo-saxon. Ainsi, si des tests statistiques étaient utilisés dans 73,7 % des articles scientifiques publiés en 2018 et 2019 dans l’organe d’expression écrite scientifique de la Société française d’otorhinolaryngologie, témoignant du poids de cet outil mathématique dans la diffusion du message scientifique, plusieurs défauts apparaissaient, au premier rang desquels l’évaluation de la notion de la significativité du (des) résultat(s) obtenus basés sur la valeur de p du (des) test(s) statistique(s) utilisé(s)(6). En postulant, dans les années 1920, que si la valeur de p du test statistique utilisé était inférieure à 0,05, alors la différence observée entre les groupes analysés était « significative » soit, en langage commun, qu’il y avait moins de 5 % de chance que le hasard explique à lui seul une différence au moins aussi importante que celle observée — mais pas que l’hypo thèse étudiée soit vraie… —, le biostatisticien Ronald Fisher fournissait leur « Graal » aux chercheurs en biomédecine(7). Prenant le pas sur la pertinence clinique, l’obtention d’une valeur de p dite « significative » coupait cours à toute discussion, permettant de généraliser au plus grand nombre les résultats obtenus à partir d’un échantillon, autorisant la poursuite de la recherch engagée, tout comme l’exploitation de médicaments ou d’outils technologiques, tout en justifiant les attitudes à adopter en pratique clinique et en favorisant l’obtention de financements. Ce seuil, adopté avec enthousiasme par la communauté scientifique pendant des décennies, vit des moments difficiles ; alarmée par le manque de reproductibilité des résultats biomédicaux publiés dans la presse médicale scientifique, l’American Statistical Association(8) rappelait récemment avec force les 6 points clés concernant la signification et l’utilisation appropriée des valeurs de p produites par des tests statistiques (encadré) tout en soulignant l’importance, lorsqu’un résultat dit « significatif » était obtenu, d’y associer une mesure de son incertitude (tel qu’un odd ratio et son intervalle de confiance) et de la puissance statistique de l’étude (un message repris dans une revue de la littérature médicale scientifique anglo-saxonne dédiée à l’utilisation correcte des statistiques l’otorhinolaryngologie(9)). Dans le même temps, un groupe international de biostatisticiens(10,11) suggérait d’établir le seuil de significativité de p à 0,005 (une me su re adoptée en 2020 par le comité de rédaction des European Annals of Otorhinolaryngology Head & Neck Diseases(6)) et de considérer les valeurs de p comprises entre 0,05 et 0,005 comme « suggestives », de telles valeurs devant encourager la poursuite de la recherche sur le sujet (au mieux dans un cadre prospectif multicentrique) afin d’accumuler des données permettant in fine de confirmer ou d’infirmer l’hypothèse avancée. Les difficultés que rencontre actuellement le seuil de p sont par ailleurs aggravées par deux phénomènes. Le premier est la fréquence avec laquelle les médecins méconnaissent la signification mathématique d’une valeur de p inférieure à 0,05 et de ce fait ne peuvent correctement interpréter la portée du (des) résultat(s) obtenu(s) ou lu(s)(12). Le second est le comportement peu déontologique de certains médecins, comme l’illustre une étude construite à partir des réponses faites à un questionnaire adressé à plus de 500 statisticiens biomédicaux nord-américains et qui souligne la fréquence des demandes répréhensibles qui leur étaient adressées, telles la suppression ou la modification de données recueillies pour mieux soutenir l’hypothèse de recherche, l’interprétation des résultats statistiques sur la base des attentes et non des résultats réels, l’omission de données clefs pouvant biaiser les résultats et l’absence de respect des hypothèses de départ(13). Des données qui ont conduit certains auteurs à considérer que les statistiques biomédicales étaient actuellement « perverties » par les chercheurs(14). Conclusion • Depuis le début du xxIe siècle, la science médicale est altérée par le manque de reproductibilité des résultats obtenus. • La bonne utilisation et la compréhension des statistiques utilisées en biomédecine est un point clé pour espérer traiter avec succès cette plaie qui participe de la perte de confiance actuelle dans la parole médicale.

Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.

pour voir la suite, inscrivez-vous gratuitement.

Si vous êtes déjà inscrit,
connectez vous :

Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :

Articles sur le même thème

  •  
  • 1 sur 20
  • >
publicité
publicité