ActuKine.com - Actualité de la Kinésithérapie et de la Physiothérapie
              
Evidence Based Practice

Les pièges des valeurs p (2)

Rédigé par Corentin Glon le Samedi 14 Décembre 2013

Nous allons nous intéresser à d’autres erreurs d’interprétation des valeurs p, liées à la taille de l’effet.



Les pièges des valeurs p (2)
Nous allons nous intéresser à d’autres erreurs d’interprétation des valeurs p, liées à la taille de l’effet.

La taille de l’effet désigne l’ampleur de l’effet recherché par l’étude. Prenons par exemple une étude hypothétique portant sur la prise en charge de lombalgiques chroniques et mesurant la douleur à l’échelle visuelle analogique (EVA), la fonction avec un score de Roland-Morris ainsi que le nombre de jours d’arrêt de travail. On observera éventuellement un effet sur ces 3 valeurs, comme par exemple -1 point à l’EVA, -3,1 points sur le Roland-Morris et -0,2 jours d’arrêt de travail en moins. Ces trois valeurs sont les tailles d’effet.

Une erreur (souvent inconsciente) est de croire qu’une valeur p faible va forcément de pair avec un taille d’effet importante.
Par exemple, si l’étude ci-dessus conclut que le traitement produit une diminution des arrêts de travail avec une excellente valeur p<0.01, on est tenté de croire que le traitement est très efficace, mais la valeur p à elle seule ne permet absolument pas de savoir à quel point le traitement a été efficace.

En effet deux autres éléments entrent en compte dans l’ordre de grandeur de p :

1-La variabilité des résultats :

La valeur p est modifiée par la dispersion des valeurs. Il sera plus simple de montrer la différence entre deux populations si leurs valeurs ne sont pas trop dispersées autour de leur moyenne.

Ceci est assez évident quand on regarde des graphes comme ceux qui suivent : les abscisses représentent la douleur à l’EVA, les ordonnées la fréquence de cette cotation dans la population étudiée. En violet le groupe expérimental, en bleu le groupe contrôle. Sur le premier schéma (fond blanc), la variabilité des résultats est faible, sur le second (fond beige) elle est beaucoup plus forte.


Dans les deux schémas la moyenne est la même : 6.5 pour le groupe expérimental (violet) contre 7,5 pour le groupe contrôle (bleu). Pourtant les courbes se rapprochent nettement plus dans le second exemple, et il sera plus difficile de distinguer les deux. Par exemple, quelqu’un qui a une EVA à 4 ou 5 dans le premier graphique est quasi certainement dans le groupe violet (expérimental), alors que ceci n’est plus évident dans le second cas.

La valeur p obtenue dans le premier schéma serait bien meilleure que dans le second : p=0.0031 pour le premier exemple (avec 20 sujets par groupe), contre p=0.11 pour le second exemple (toujours avec 20 sujets par groupe). Sans changer la taille des groupes (20 individus dans les deux cas), ni la taille de l’effet (-1 point à l’EVA), un résultat peut donc être significatif statistiquement ou pas, selon la variabilité des résultats.

On peut se retrouver dans la situation où un traitement étudié n’arrive pas à être statistiquement significatif, à cause de résultats très variables, alors qu’un autre traitement, moins efficace, mais aux résultats plus réguliers sera significatif. Si on lit une étude qui teste ces deux traitements, on pourrait être tentés de croire qu’un seul des deux est efficace…
Alors qu’il peut s’agir du moins efficace des deux ! Ceci donne encore plus d’importance aux critères d’inclusion/ d’exclusion des études, ainsi qu’à la recherche de facteurs permettant d’obtenir des groupes plus homogènes.

2-La taille de l’échantillon :

Avec un grand échantillon, la valeur p va aller en diminuant.
Pour reprendre le second schéma au dessus (fond jaune), avec la même variabilité, et toujours les mêmes moyennes par groupe à l’EVA (soit une différence d’un point en moins pour le groupe expérimental), mais en augmentant à 35 le nombre de sujets par groupe, on obtient p=0.035, et donc un résultat statistiquement significatif. Il est donc possible avec un plus grand groupe d’avoir une excellente valeur p traduisant en réalité un effet parfois faible. Comme une diminution de douleur vraiment minime, mais statistiquement significative, grâce à des échantillons énormes.

Il me semble que ce phénomène est particulièrement évident dans les coefficients de corrélation, qui montrent à quel point deux variables sont liées. [Dans cet article]url:http://arthritis-research.com/content/6/4/r315 , par exemple, les chercheurs ont trouvé avec p<=0.002 une corrélation dans leur population (patients atteints de polyarthrite rhumatoïde) entre douleur et rapidité à se boutonner.

Cette corrélation est de 0,13 (coefficient r de Pearson), ce qui traduit une corrélation extrêmement faible : seulement 1,69% (r² = 0.13² = 0.0169) des variations de la vitesse de boutonnage sont en corrélation avec la douleur, donc vraiment presque rien.

Pour mettre en évidence un effet aussi faible avec une telle certitude (valeur p extrêmement basse), on se doute que les chercheurs ont utilisé un grand échantillon : en effet, ils ont étudié une population de 779 patients.

Significativité clinique et statistique :

Comme nous venons de le voir, un résultat peut être significatif statistiquement tout en étant négligeable cliniquement : la corrélation entre vitesse de boutonnage et douleur est extrêmement faible et n’aura presque aucune incidence clinique.

A l’inverse une étude peut ne pas atteindre un seuil statistiquement significatif, malgré un effet cliniquement intéressant. Par exemple parce que la taille de l’échantillon est trop faible ou parce que la variabilité des résultats est trop grande.

Encore une fois, ce qu’il faut retenir ici est que la taille de l’effet et la valeur p ne sont qu’en partie liées. C’est pourtant bien la taille de l’effet qui nous intéresse quand nous traitons un patient.

Intervalles de confiance :

C’est à cause de ce problème que les tailles d’effets doivent être données avec leurs intervalles de confiance, ce qui permet au lecteur de connaître la plage de valeurs dans laquelle la moyenne du véritable effet est vraisemblablement comprise. Par exemple, le fameux indice de confiance à 95% nous donne un intervalle dans lequel la “valeur réelle” a 95% de chances d’être située.

Cette “valeur réelle” désigne la valeur qu’on obtiendrait si on ne faisait pas l’expérience sur un échantillon de population, mais sur la population totale (on peut noter, qu’on fait généralement dans ces calculs statistiques l’approximation que la population réelle est infinie), et l’incertitude provient toujours du problème d’échantillonage évoqué dans le premier article. Je ne vais pas développer ce point, puisque Pierre Trudelle a traduit et publié un article sur le sujet : Laissez tomber le petit p [(lien ici)]url:http://www.em-consulte.com/en/article/237788 (l’article traite aussi de la significativité clinique et statistique), dont je vous conseille la lecture.

Je vais me contenter ici de reprendre les courbes utilisées plus haut, qui illustraient l’influence de la variabilité sur les valeurs p et de vous donner les intervalles de confiance correspondants :

-Le premier graphique, sur fond blanc, représente deux groupes aux variabilités faibles. La différence moyenne à l’EVA entre ces groupes est de -1 (le groupe expérimental a en moyenne 1 point de moins que le groupe contrôle). L’intervalle de confiance à 95% est le suivant : IC95: (-0.35 ; -1.64) on a donc dans les conditions décrites plus haut 95% de chances d’avoir comme valeur réelle une différence comprise entre -0.35 et -1.64 points.

-Dans le second cas (graphe au fond jaune), la variabilité est plus forte, ce qui va agrandir l’intervalle de confiance. IC95% (+0.25 ; -2.25). On a donc 95% de chances que la différence à l’EVA entre les deux groupes soit comprise entre +0,25 et -2,25 points… On ne sait donc même plus si le groupe expérimental n’a pas eu davantage mal que le groupe contrôle, c’est pourquoi p>0,05.

-Toujours avec le même graphique, si on augmentait la taille de l’échantillon de 20 à 35 sujets, l’intervalle de confiance serait plus réduit : IC95% (-0,069 ; -1,931). Cette fois, toutes les valeurs de l’intervalle sont négatives, et on peut donc affirmer qu’il y a un effet statistiquement significatif, ce qui est cohérent avec un valeur p qui devient inférieure à 0,05

Les Intervalles de confiance nous renseignent donc à la fois sur la significativité clinique (ils nous disent si l'effet est important ou pas), et sur la significativité statistique (si un intervalle contient la valeur 0, l'étude ne peut pas rejeter l'hypothèse que l'effet soit nul)

Notez
Cette information a été ouverte par un clic sur son titre 755 fois


1.Posté par Anonyme le 20/12/2013 11:37 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,

Je me permets de revenir sur 2 points.

'Le fameux indice de confiance à 95% nous donne un intervalle dans lequel la “valeur réelle” a 95% de chances d’être située'

L'approche frequentiste n'assigne pas de probabilités aux paramètres inconnus. L'hypothèse nulle est vraie ou fausse, mais n'a pas de probabilité d'être vraie. Par conséquent, la définition que vous donnez de l'intervalle de confiance est incorrecte. La valeur réelle n'a pas 95% de chances d'être comprise dans l'intervalle. Soit l'intervalle la contient, soit il ne la contient pas. Ce qu'on peut dire, c'est que 95% des IC à 95% calculés contiennent la vraie valeur du paramètre. Mais un intervalle particulier n'a pas 95% de contenir la vraie valeur. Il la contient, ou pas.

'C’est à cause de ce problème que les tailles d’effets doivent être données avec leurs intervalles de confiance'

Je pense que vous faites un amalgame.
Pour un article introductif, vous évoquiez l'intervalle de confiance de la taille d'effet avant même d'évoquer celui de la différence des paramètres en population (ici, la différence des moyennes). En effet, le premier, même s'il devrait être notre priorité, n'est jamais présenté (bien souvent parce que l'effect size lui même vient à manquer), à l'inverse du second (même si moins intéressant).
Êtes vous certain, donc, de parler de l'intervalle de confiance de la taille d'effet et non de celui de la différence des moyennes ?


En dehors de cela, votre trilogie est vraiment très bien ficelée : bravo !

2.Posté par Mathieu Vergnault le 20/12/2013 19:42 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Anonyme a encore frappé !!
Plus d'infos ici, ou encore
Bonne lecture et encore bravo pour ces articles !

3.Posté par Corentin GLON le 31/07/2014 19:33 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour à vous ! (avec 7 mois de retard...)
Merci pour vos commentaires et vos encouragements Anonyme ! Merci aussi pour vos précisions... Qui me poussent à vous en demander davantage :
Pour la définition que je donnais de l'IC95, votre explication sur l'absence de fréquence me convient bien (de même qu'on ne donne pas de proba à H0). Et pourtant vous dites "Ce qu'on peut dire, c'est que 95% des IC à 95% calculés contiennent la vraie valeur du paramètre". Si 95% des IC95 contiennent la vraie valeur alors un IC tiré aléatoirement a 95% de la contenir, non ?

J'ai encore plus de mal à comprendre votre seconde remarque... D'autant que je n'ai plus fait de stats depuis la rédaction de ces articles... La taille de l'effet est donc différente de la différence des moyennes ? Je ne parlais de l'IC de la taille de l'effet que parce que ça me semblait logique à ce point de l'article, et je cite "Laissez tomber le petit p" qui parle davantage de dispersions autour d'une moyenne.

Je sens que je vais me replonger dans tout ça pendant les vacances, moi ! Merci pour vos remarques, j'espère que je n'arrive pas trop tard pour vous demander plus d'explications !

Nouveau commentaire :

Merci d'apporter des commentaires constructifs et adaptés et de ne pas porter de propos diffamatoires ou portant atteinte à l'honneur à la profession

Exercice professionnel | Musculo-squelettique | Cardio-respiratoire | Neurologie & Neurosciences | Douleur | Posture et Equilibre | Evidence Based Practice | Domaines Spécifiques | A propos | Vidéos | Technologie de base