Nous allons nous intéresser à d’autres erreurs d’interprétation des valeurs p, liées à la taille de l’effet.

La taille de l’effet désigne l’ampleur de l’effet recherché par l’étude. Prenons par exemple une étude hypothétique portant sur la prise en charge de lombalgiques chroniques et mesurant la douleur à l’échelle visuelle analogique (EVA), la fonction avec un score de Roland-Morris ainsi que le nombre de jours d’arrêt de travail. On observera éventuellement un effet sur ces 3 valeurs, comme par exemple -1 point à l’EVA, -3,1 points sur le Roland-Morris et -0,2 jours d’arrêt de travail en moins. Ces trois valeurs sont les tailles d’effet.

Une erreur (souvent inconsciente) est de croire qu’une valeur p faible va forcément de pair avec un taille d’effet importante.
Par exemple, si l’étude ci-dessus conclut que le traitement produit une diminution des arrêts de travail avec une excellente valeur p<0.01, on est tenté de croire que le traitement est très efficace, mais la valeur p à elle seule ne permet absolument pas de savoir à quel point le traitement a été efficace.

En effet deux autres éléments entrent en compte dans l’ordre de grandeur de p :

1-La variabilité des résultats :

La valeur p est modifiée par la dispersion des valeurs. Il sera plus simple de montrer la différence entre deux populations si leurs valeurs ne sont pas trop dispersées autour de leur moyenne.

Ceci est assez évident quand on regarde des graphes comme ceux qui suivent : les abscisses représentent la douleur à l’EVA, les ordonnées la fréquence de cette cotation dans la population étudiée. En violet le groupe expérimental, en bleu le groupe contrôle. Sur le premier schéma (fond blanc), la variabilité des résultats est faible, sur le second (fond beige) elle est beaucoup plus forte.

Dans les deux schémas la moyenne est la même : 6.5 pour le groupe expérimental (violet) contre 7,5 pour le groupe contrôle (bleu). Pourtant les courbes se rapprochent nettement plus dans le second exemple, et il sera plus difficile de distinguer les deux. Par exemple, quelqu’un qui a une EVA à 4 ou 5 dans le premier graphique est quasi certainement dans le groupe violet (expérimental), alors que ceci n’est plus évident dans le second cas.

La valeur p obtenue dans le premier schéma serait bien meilleure que dans le second : p=0.0031 pour le premier exemple (avec 20 sujets par groupe), contre p=0.11 pour le second exemple (toujours avec 20 sujets par groupe). Sans changer la taille des groupes (20 individus dans les deux cas), ni la taille de l’effet (-1 point à l’EVA), un résultat peut donc être significatif statistiquement ou pas, selon la variabilité des résultats.

On peut se retrouver dans la situation où un traitement étudié n’arrive pas à être statistiquement significatif, à cause de résultats très variables, alors qu’un autre traitement, moins efficace, mais aux résultats plus réguliers sera significatif. Si on lit une étude qui teste ces deux traitements, on pourrait être tentés de croire qu’un seul des deux est efficace…
Alors qu’il peut s’agir du moins efficace des deux ! Ceci donne encore plus d’importance aux critères d’inclusion/ d’exclusion des études, ainsi qu’à la recherche de facteurs permettant d’obtenir des groupes plus homogènes.

2-La taille de l’échantillon :

Avec un grand échantillon, la valeur p va aller en diminuant.
Pour reprendre le second schéma au dessus (fond jaune), avec la même variabilité, et toujours les mêmes moyennes par groupe à l’EVA (soit une différence d’un point en moins pour le groupe expérimental), mais en augmentant à 35 le nombre de sujets par groupe, on obtient p=0.035, et donc un résultat statistiquement significatif. Il est donc possible avec un plus grand groupe d’avoir une excellente valeur p traduisant en réalité un effet parfois faible. Comme une diminution de douleur vraiment minime, mais statistiquement significative, grâce à des échantillons énormes.

Il me semble que ce phénomène est particulièrement évident dans les coefficients de corrélation, qui montrent à quel point deux variables sont liées. Dans cet article, par exemple, les chercheurs ont trouvé avec p<=0.002 une corrélation dans leur population (patients atteints de polyarthrite rhumatoïde) entre douleur et rapidité à se boutonner.

Cette corrélation est de 0,13 (coefficient r de Pearson), ce qui traduit une corrélation extrêmement faible : seulement 1,69% (r² = 0.13² = 0.0169) des variations de la vitesse de boutonnage sont en corrélation avec la douleur, donc vraiment presque rien.

Pour mettre en évidence un effet aussi faible avec une telle certitude (valeur p extrêmement basse), on se doute que les chercheurs ont utilisé un grand échantillon : en effet, ils ont étudié une population de 779 patients.

Significativité clinique et statistique :

Comme nous venons de le voir, un résultat peut être significatif statistiquement tout en étant négligeable cliniquement : la corrélation entre vitesse de boutonnage et douleur est extrêmement faible et n’aura presque aucune incidence clinique.

A l’inverse une étude peut ne pas atteindre un seuil statistiquement significatif, malgré un effet cliniquement intéressant. Par exemple parce que la taille de l’échantillon est trop faible ou parce que la variabilité des résultats est trop grande.

Encore une fois, ce qu’il faut retenir ici est que la taille de l’effet et la valeur p ne sont qu’en partie liées. C’est pourtant bien la taille de l’effet qui nous intéresse quand nous traitons un patient.

Intervalles de confiance :

C’est à cause de ce problème que les tailles d’effets doivent être données avec leurs intervalles de confiance, ce qui permet au lecteur de connaître la plage de valeurs dans laquelle la moyenne du véritable effet est vraisemblablement comprise. Par exemple, le fameux indice de confiance à 95% nous donne un intervalle dans lequel la “valeur réelle” a 95% de chances d’être située.

Cette “valeur réelle” désigne la valeur qu’on obtiendrait si on ne faisait pas l’expérience sur un échantillon de population, mais sur la population totale (on peut noter, qu’on fait généralement dans ces calculs statistiques l’approximation que la population réelle est infinie), et l’incertitude provient toujours du problème d’échantillonage évoqué dans le premier article. Je ne vais pas développer ce point, puisque Pierre Trudelle a traduit et publié un article sur le sujet : Laissez tomber le petit p (lien ici) (l’article traite aussi de la significativité clinique et statistique), dont je vous conseille la lecture.

Je vais me contenter ici de reprendre les courbes utilisées plus haut, qui illustraient l’influence de la variabilité sur les valeurs p et de vous donner les intervalles de confiance correspondants :

-Le premier graphique, sur fond blanc, représente deux groupes aux variabilités faibles. La différence moyenne à l’EVA entre ces groupes est de -1 (le groupe expérimental a en moyenne 1 point de moins que le groupe contrôle). L’intervalle de confiance à 95% est le suivant : IC95: (-0.35 ; -1.64) on a donc dans les conditions décrites plus haut 95% de chances d’avoir comme valeur réelle une différence comprise entre -0.35 et -1.64 points.

-Dans le second cas (graphe au fond jaune), la variabilité est plus forte, ce qui va agrandir l’intervalle de confiance. IC95% (+0.25 ; -2.25). On a donc 95% de chances que la différence à l’EVA entre les deux groupes soit comprise entre +0,25 et -2,25 points… On ne sait donc même plus si le groupe expérimental n’a pas eu davantage mal que le groupe contrôle, c’est pourquoi p>0,05.

-Toujours avec le même graphique, si on augmentait la taille de l’échantillon de 20 à 35 sujets, l’intervalle de confiance serait plus réduit : IC95% (-0,069 ; -1,931). Cette fois, toutes les valeurs de l’intervalle sont négatives, et on peut donc affirmer qu’il y a un effet statistiquement significatif, ce qui est cohérent avec un valeur p qui devient inférieure à 0,05

Les Intervalles de confiance nous renseignent donc à la fois sur la significativité clinique (ils nous disent si l’effet est important ou pas), et sur la significativité statistique (si un intervalle contient la valeur 0, l’étude ne peut pas rejeter l’hypothèse que l’effet soit nul)