Skip to main content
Global

13.2 : Tester la signification du coefficient de corrélation

  • Page ID
    191762
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Le coefficient de corrélation,\(r\), nous renseigne sur la force et la direction de la relation linéaire entre\(X_1\) et\(X_2\).

    Les données de l'échantillon sont utilisées pour calculer\(r\) le coefficient de corrélation de l'échantillon. Si nous avions des données pour l'ensemble de la population, nous pourrions trouver le coefficient de corrélation de la population. Mais comme nous ne disposons que de données d'échantillonnage, nous ne pouvons pas calculer le coefficient de corrélation de la population. Le coefficient de corrélation de l'échantillon, r, est notre estimation du coefficient de corrélation de population inconnu.

    • Le test d'hypothèse nous permet de décider si la valeur du coefficient de corrélation de population \ rho est « proche de zéro » ou « significativement différente de zéro ». Nous prenons cette décision en fonction du coefficient de corrélation de l'échantillon\(r\) et de la taille de l'échantillon\(n\).

      Si le test conclut que le coefficient de corrélation est significativement différent de zéro, nous disons que le coefficient de corrélation est « significatif ».

      • Ce que les hypothèses signifient en mots
        • Tirer une conclusion Il existe deux méthodes pour prendre une décision concernant l'hypothèse. La statistique de test permettant de tester cette hypothèse est la suivante :

          \[t_{c}=\frac{r}{\sqrt{\left(1-r^{2}\right) /(n-2)}}\nonumber\]

          \[t_{c}=\frac{r \sqrt{n-2}}{\sqrt{1-r^{2}}}\nonumber\]

          Où la deuxième formule est une forme équivalente de la statistique de test,\(n\) est la taille de l'échantillon et les degrés de liberté sont\(n-2\). Il s'agit\(t\) d'une statistique qui fonctionne de la même manière que les autres\(t\) tests. Calculez la\(t\) valeur -et comparez-la à la valeur critique du\(t\) tableau aux degrés de liberté appropriés et au niveau de confiance que vous souhaitez maintenir. Si la valeur calculée se situe dans la queue, on ne peut pas accepter l'hypothèse nulle selon laquelle il n'existe aucune relation linéaire entre ces deux variables aléatoires indépendantes. Si la\(t\) valeur calculée n'est PAS dans la queue, il est impossible de rejeter l'hypothèse nulle selon laquelle il n'existe aucune relation linéaire entre les deux variables.

          La relation entre la taille de l'échantillon et la corrélation est un moyen rapide de tester les corrélations. Si :

          \[|r| \geq \frac{2}{\sqrt{n}}\nonumber\]

          cela implique alors que la corrélation entre les deux variables démontre qu'il existe une relation linéaire et qu'elle est statistiquement significative à environ 0,05 niveau de signification. Comme l'indique la formule, il existe une relation inverse entre la taille de l'échantillon et la corrélation requise pour la signification d'une relation linéaire. Avec seulement 10 observations, la corrélation requise pour la signification est de 0,6325, pour 30 observations, la corrélation requise pour la signification diminue à 0,3651 et pour 100 observations, le niveau requis n'est que de 0,2000.

          Les corrélations peuvent être utiles pour visualiser les données, mais elles ne sont pas utilisées de manière appropriée pour « expliquer » une relation entre deux variables. Aucune statistique n'est peut-être plus mal utilisée que le coefficient de corrélation. Le fait de citer des corrélations entre les problèmes de santé et tout, du lieu de résidence à la couleur des yeux, a pour effet d'impliquer une relation de cause à effet. Cela ne peut tout simplement pas être réalisé avec un coefficient de corrélation. Le coefficient de corrélation est évidemment exempt de cette erreur d'interprétation. Il est du devoir de l'analyste d'utiliser une statistique conçue pour tester les relations de cause à effet et de ne communiquer ces résultats que s'il a l'intention de faire une telle affirmation. Le problème est qu'il est difficile de réussir ce test plus rigoureux, de sorte que des « chercheurs » paresseux et/ou peu scrupuleux se rabattent sur les corrélations lorsqu'ils ne peuvent pas faire valoir leurs arguments de manière légitime.