Cet article reprend le texte de la vidéo que vous pouvez trouver sur Youtube et Peertube.
Si vous êtes étudiants, ce script pourra vous être utile.
Les liens vers la chaîne Peertube
Les liens vers la chaîne Youtube
Si dans votre étude au super protocole vous trouvez des différences entre deux groupes par exemple, à partir de quand on va considérer que la différence n’est pas due au hasard ?
Si dans une étude de médecine par exemple, vous avez 35% de guérison dans le groupe qui a pris un traitement contre 30% de guérison dans le groupe qui a pris un placebo, est-ce que c’est suffisant pour conclure que le traitement est meilleur que le placebo ?
Alors je sais que pas mal de gens ne sont pas très à l’aise avec les stats, donc j’espère arriver à faire un truc accessible et le plus clair possible, en espérant que ça vous aide à comprendre certaines recherches ou certains résultats. Et si vous êtes étudiants et pas très à l’aise avec les stats, cette vidéo pourra particulièrement vous intéresser, surtout si vous avez une recherche ou un mémoire à faire.
Et précisons que toutes les études n’ont pas forcément recours à des statistiques. Suivant votre sujet de recherche, la méthodologie adaptée sera différente.
On peut distinguer les méthodologies quantitatives des méthodologies qualitatives. Les quantitatives, c’est celle où on mesure des données, où on fait des comparaisons avec des statistiques, etc. c’est celles-ci qui seront concernées par la présente vidéo.
Et ensuite les études qualitatives, c’est celles où on ne fait pas de mesures, et ou on va récolter des données pas forcément chiffrables, au travers d’entretiens par exemple.
TYPES DE VARIABLES (numériques / catégorielles ; indépendantes / dépendantes) :
Ce qui est important pour commencer, c’est de distinguer si notre variable est numérique ou catégorielle.
Comme leur nom l’indique, une variable numérique, c’est quand on a des chiffres plus ou moins grands qu’on peut moyenner. Alors que dans une variable catégorielle, on va distinguer les données en différentes catégories qu’on ne pourra pas moyenner (Par exemple : votre genre, ou le lieu où vous habitez).
Mais une même donnée peut être traitée comme une variable catégorielle ou numérique. Par exemple, si notre variable c’est l’âge, on peut faire des groupes d’âge dans lesquelles on catégorise les personnes, ce sera donc une variable catégorielle. Par contre, si on ne distingue pas en catégorie, mais qu’on garde les mesures avec un chiffre plus ou moins grand pour chaque mesure, alors on aura une variable numérique.
Donc : variable catégorielle, comme son nom l’indique, c’est quand on peut répartir les données dans des catégories, et variable numérique, c’est quand on peut chiffrer les données.
Une variable catégorielle peut avoir différentes modalités, qui correspondent à chaque catégorie de la variable. Dans cet exemple ci-dessus, notre variable a 6 modalités. Alors que dans une variable numérique, on n’a pas de modalité, puisque tout est continu. D’ailleurs on les appelle aussi des variables continues.
Et pour détailler un peu, même si ce ne sera pas toujours indispensable pour choisir un test statistique, on peut distinguer deux types de variables catégorielles et deux types de numérique.
Dans les variables catégorielles, on peut distinguer les nominales, qui ne supposent pas de hiérarchisation des valeurs, des variables ordinales, qui elles ont une hiérarchisation mais qui n’est pas chiffrable. Par exemple, les mentions « assez bien, bien, très bien » sont des variables catégorielles ordinales, puisqu’elles sont hiérarchisées, alors que le genre par exemple est une variable nominale.
Et dans les variables numériques, on peut distinguer les échelles d’intervalles des échelles de rapports. Comme exemple d’échelles d’intervalles, on peut citer la température : on peut hiérarchiser des températures et dire que 20 degrés est supérieur à 15, mais on ne peut pas calculer de rapport pour dire que 20 degrés est le double de 10 degrés. À l’inverse, dans une échelle de rapport, comme l’âge ou la taille, on pourra dire que 2 mètres est le double de 1 mètre ou que 30 ans et le double de 15 ans.
Mais bref, l’important c’est surtout de retenir la distinction catégorielle/numérique, puisque c’est elles qui vont définir le test qu’on va faire.
Et encore une distinction dans des variables, qui est vraiment importante. On distingue les variables indépendantes (VI) des variables dépendantes (VD), comme on avait déjà pu le voir dans la vidéo sur les chakras. La variable indépendante, c’est celle qu’on fait nous-mêmes varier lorsqu’on construit le protocole. Par exemple, si on veut mesurer le bien-être des personnes en fonction de l’intelligence. L’intelligence sera une variable indépendante dont on fixe les modalités lors de la préparation du protocole. On va chercher à prendre des gens d’intelligence différentes pour voir si cette différence influe sur le bien-être. Et le bien-être, ce sera la variable dépendante, la VD, celle qu’on mesure en fonction de la VI qu’est l’intelligence.
Pour retenir ça : dites-vous que la VD, la variable dépendante, est comme son nom l’indique dépendante, elle est dépendante de la variable indépendante, la VI. Dans un cadre expérimental, on fonctionne toujours comme ça : on regarde si la variable dépendante est différente suivant les différentes conditions de la variable indépendante.
Je donne un autre exemple pour que ce soit clair : si on fait un protocole pour tester l’efficacité d’un traitement médical, et qu’on cherche par exemple à mesurer le taux de guérison en fonction de si on a donné un traitement ou un placebo. Le fait de donner le traitement ou le placebo, c’est la variable indépendante, et le taux de guérison sera la variable dépendante, celle qu’on mesure.
Les tests statistiques
Alors, à la base dans cette partie, je voulais montrer comment faire les différents tests statistiques, en montrant au passage le logiciel Jamovi qui a l’avantage d’être simple à utiliser. Mais en fait, ça ferait une vidéo avec peut-être un peu trop d’informations.
Donc on ne va pas prendre le temps de montrer comment faire tous ces tests, et je vais seulement indiquer les tests statistiques adaptés en fonction de nos variables, en expliquant le principe de chacun de ces tests (Je vais faire au plus simple, mais attention, on verra à la fin de la vidéo des subtilités dans le choix des tests).
[Il est assez probable que cette partie ne vous intéresse pas beaucoup, ou que vous pensez que ça ne vous sera pas très utile de savoir tout ça. Si c’est le cas, vous pouvez aller directement à la partie suivante sur la p value et la taille d’effet, qui elle sera utile à beaucoup plus de monde et surtout dans plus de situation].
Ici, on va faire avec les situations les plus simples et les plus communes, celles où on a juste deux variables, une variable indépendante et une variable dépendante.
Pour ces deux variables, il nous faut déterminer si elles sont numériques ou catégorielles. C’est ce qu’on a vu avant.
Ensuite, on pourra faire un tableau en fonction de si notre VD est catégorielle ou numérique, et si notre VI est catégorielle ou numérique.
On a 4 conditions possibles : la VI et la VD sont catégorielles, la VI et la VD sont numériques, ou l’une des deux est catégorielle et l’autre numérique.
Et pour la suite, je vais rester sur l’exemple du lien entre l’intelligence et le bien-être, qui était à la fois le sujet de la dernière vidéo, et le sujet de mon mémoire de M1.
Le protocole de mon mémoire, c’était de faire passer des tests de QI, puis de faire passer aux participants des questionnaire de bien-être. Le QI, c’était la VI, et le bien-être, la VD, puisqu’on voulait voir si le bien-être différait suivant les scores de QI.
On va formuler l’hypothèse suivante : “plus les personnes auront un haut QI, plus leur bien-être sera élevé”. Et on aura donc une hypothèse nulle H0 : qui correspond à l’absence de différence : “il n’y a pas de différence de bien-être selon le QI”.
Cette hypothèse nulle, on va l’accepter par défaut. Et le test statistique va nous dire si on peut ou non rejeter cette hypothèse nulle, cette l’hypothèse de l’absence de différence.
Dans mon mémoire, on catégorisait les participants en 3 groupes : les QI entre 90 et 110 : donc dans la moyenne, les QI entre 110 et 130 : supérieur à la moyenne, et les QI supérieurs à 130 : donc ceux à haut potentiel. La VI était donc catégorielle, avec 3 modalités. Les modalités de la VI, c’est le nombre de catégories. Et on avait une VD numérique avec un score plus ou moins élevé de bien-être dans chaque groupe.
Dans ce cas de figure, on pourra par exemple avoir une description des données sous forme d’histogramme, et on cherchera à voir s’il y a une différence significative entre les groupes.
Le test ici, c’est une “analyse de la variance”, qu’on abrège ANOVA : analysis of variance, et on aurait pu faire un t de student si on avait eu que deux modalités dans le VI.
Bien sûr, on aurait très bien pu faire l’expérience avec une VI numérique, avec un score de QI qui ne serait pas donné en catégorie, mais qui serait plus ou moins élevé. Avec deux variables numériques donc, les données pourraient se présenter sous forme de nuage de points, et on verra s’il y a ou pas une corrélation.
On mesure la force d’une corrélation de -1 à 1. Si on est proche de 1, ça indique une corrélation quasi parfaite. Vers -1 une corrélation négative. Et si on est proche de 0, ça indique une absence de corrélation.
Et il est important de préciser que là on ne parle que d’une corrélation, ça n’implique pas forcément une causalité. Deux variables, mêmes fortement corrélées, peuvent être chacune influencer par un autre facteur.
(Par exemple, si on observe une corrélation positive entre le nombre de lunettes de soleil vendues et le nombre de glaces vendues, ça ne voudrait pas dire que l’un influence l’autre : ce sera plus probable qu’il y ait un facteur confondant comme la météo ou la saison).
Donc ça c’était quand on avait deux variables numériques, mais il aurait également été possible, à l’inverse, d’avoir deux variables catégorielles, si par exemple au lieu de mesurer le taux de bien-être on avait fait des catégories heureux / pas heureux (Attention, je ne dis pas que ce serait pertinent d’un point de vue méthodologique, là je présente juste ce qui est techniquement possible pour montrer les différents cas de figures). Et dans ce cas où on a deux variables catégorielles, on pourrait présenter les résultats sous forme d’un tableau. Et le test qu’on va faire, c’est un khi². Ce qu’on va faire dans le khi², c’est déterminer si nos deux variables sont indépendantes l’une de l’autre.
Si les variables sont indépendantes, on devrait avoir un truc comme ci-dessus, avec proportionnellement autant de gens heureux dans le groupe à haut QI que dans le groupe à QI moyen.
Là c’est ce qu’on appelle l’effectif théorique, c’est-à-dire la répartition la plus indépendante possible, avec des données réparties de manières uniforme.
Si on a un résultat comme ça, il y a de grande chance que les variables soient totalement indépendantes.
À l’inverse, si on avait des résultats comme ça, il y aurait beaucoup plus de chances que les variables soient liées, donc que l’intelligence soit liée au bien-être.
Et à chaque fois je dis bien : « de grande chance », parce que rien n’est certain, même une grande différence pourrait être due au hasard. Et c’est tout l’intérêt du test que de déterminer si nos résultats ont beaucoup de chance ou pas d’être dû au hasard.
Ici, contrairement à la corrélation, on ne va pas donner un indice de corrélation, on va dire soit que les variables ont une relation de dépendances, soit qu’elles sont indépendantes. Sans pour autant pouvoir affirmer qu’il y a une relation causale, là non plus.
Et dernier exemple, les cas où on a une VD catégorielle et une VI numérique, avec donc des catégories de bien-être, et des scores de QI en continu, et ici les résultats des participants (par résultat : on parle des données, on ne parle pas encore des résultats des tests statistiques) pourraient se présenter comme ça.
Le test à faire ici, c’est une régression logistique. Donc là, si on a une grande dépendance des variables, on aura un truc comme ci-dessus, et si elles sont complètement indépendantes, plutôt comme ça :
Attention pour le choix des tests, il y a une nuance à prendre en compte qui va considérablement augmenter la liste des tests, c’est si votre test statistique est paramétrique ou pas. En gros, on utilise généralement un test paramétrique quand la distribution des données suit une loi normale (mais ce n’est pas toujours la seule condition requise pour utiliser ces tests), c’est-à-dire une courbe de Gauss, c’est-à-dire ça :
Et pas ça :
Et si votre test n’est pas paramétrique, alors vous ne ferez pas les tests qu’on a évoqué tout à l’instant, mais des équivalents spécifiques aux statistiques non-paramétriques. Et là, pour vous retrouver, vous pouvez vous référer à un arbre décisionnel tel que ceux-ci.
P value et Taille d’effet
Imaginons, qu’on ait des résultats comme ça :
Est-ce qu’on pourrait dire qu’il y a une différence significative entre les deux groupes ? Évidemment… ça dépend.
Ce qui va faire varier les résultats du test, c’est 3 choses :
– Bon l’écart entre les moyennes, forcément, plus l’écart sera grand, plus on pourra facilement conclure à une différence.
– Mais aussi l’écart-type, qui mesure la dispersion des données. Même avec une différence de moyenne faible, un faible écart-type mettra plus facilement en évidence une différence significative, comparé à une plus grande différence de moyenne mais avec un plus grand écart-type (Schéma moyenne/ET grand).
– Ensuite la taille de l’échantillon. Une grande différence mais avec un faible échantillon a de plus de chance d’être due au hasard comparé à un grand échantillon. Tout simplement car dans un grand échantillon, les données auront moins de risque d’être influencées par des aléas inter-individuels.
Donc, plus on a de données, avec un grand échantillon, une différence moyenne forte et un faible écart-type, plus on aura un résultat significatif.
Et attention, un résultat significatif, ça ne veut pas forcément dire qu’on a mis en avant une énorme différence, ça c’est la taille d’effet.
Un résultat significatif, ça correspond en gros à notre degré de certitude quant au fait démontré. Si c’est significatif, alors on va rejeter l’hypothèse nulle, celle qui dit qu’il n’y a pas de différence, et on va donc conclure qu’il y a une différence.
Pour calculer ça, on se base sur la p-value, la valeur p. C’est une probabilité, donc elle peut aller de 0 à 1, et elle correspond à la probabilité que notre résultat soit dû au hasard. Une p-value de 0,1, ça veut donc dire qu’on avait 10% de chance de retrouver ces résultats par hasard, et en science on est quand même un peu plus exigeant.
Plus notre p value sera basse, plus on pourra avoir un degré de certitude élevé quant au fait qu’on cherche à démontrer. Et plus le seuil qu’on fixe est bas, plus l’exigence avant d’accepter un résultat comme significatif est élevée, et moins on aura de chance d’accepter une hypothèse par hasard.
Par convention, le seuil le plus haut qu’on accepte, c’est le seuil de 5%, et qui correspond donc à une p-value de 0,05, et donc un intervalle de confiance de 95%.
Et 5%, ça veut dire que ça peut arriver par hasard une fois sur 20, donc il faut rester prudent même face à une étude montrant un résultat significatif. Et c’est là l’intérêt de ne pas se fier à une seule étude et de multiplier les études, pour éviter les aléas du hasard.
RÉSUMÉ ET CONCLUSION :
Dans une étude, on aura des variables indépendantes (VI), qu’on va définir en amont de l’étude. Et on a les variables dépendantes (VD), qui correspondent à ce qu’on mesure.
Ces variables peuvent être catégorielles ou numériques.
Et en fonction de ça, on va choisir notre test.
Selon le test qu’on va utiliser, on va tester une hypothèse. Et déterminer si on doit conserver l’hypothèse de l’absence de lien entre les variables, ou si on doit la rejeter au profit de l’hypothèse d’un lien. Le tout avec un certain degré de certitude, c’est à ça que sert la p value : plus elle est basse, plus les résultats ont peu de chance d’être dus au hasard. Ça correspond donc à notre degré d’incertitude quant aux faits démontrés, à ne pas confondre avec la taille d’effet, qui indique l’ampleur de la différence.
On peut très bien avoir des résultats significatifs avec une petite taille d’effet.
Sur la p value, j’ajoute que malgré qu’elle soit énormément utilisé, il y a de nombreuses critiques qui y sont faites, mais ça ferait un peu trop d’informations d’aborder ça ici, donc je ne détaille pas, et je vous laisse ça en lien (Cf Science4All, cet article sur la revue Nature ou même Wikipédia).
Un grand merci à Lyla (raie.futée) pour ces superbes schémas et diagrammes, n’hésitez pas à aller voir son travail, ça parle de lutte sociale et de scepticisme scientifique de manière claire et synthétique, c’est très chouette.
1 Pingback