Skip to main content
Global

13.1 : Le coefficient de corrélation r

  • Page ID
    191734
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Au début de cette section, nous constatons que le type de données avec lesquelles nous allons travailler a changé. Peut-être inaperçue, toutes les données que nous avons utilisées concernent une seule variable. Elle peut provenir de deux échantillons, mais il s'agit toujours d'une variable univariée. Le type de données décrit dans les exemples ci-dessus et pour tout modèle de cause à effet est constitué de données bidimensionnelles (« bi » pour deux variables). En réalité, les statisticiens utilisent des données multivariées, c'est-à-dire de nombreuses variables.

    Pour notre travail, nous pouvons classer les données en trois grandes catégories : les données de séries chronologiques, les données transversales et les données de panel. Nous avons rencontré les deux premiers très tôt. Les données de séries chronologiques mesurent une seule unité d'observation, par exemple une personne, une entreprise ou un pays, au fil du temps. Ce qui sera mesuré sera au moins deux caractéristiques, à savoir le revenu de la personne, la quantité d'un bien particulier qu'elle achète et le prix qu'elle a payé. Il s'agirait de trois éléments d'information sur une période donnée, disons 1985. Si nous suivions cette personne au fil du temps, nous disposerions des mêmes informations pour 1985, 1986, 1987, etc. Cela constituerait un ensemble de données chronologiques. Si nous le faisions pendant 10 ans, nous aurions 30 informations concernant les habitudes de consommation de ce produit par cette personne au cours de la dernière décennie et nous connaîtrions ses revenus et le prix qu'elle a payé.

    Un deuxième type d'ensemble de données concerne les données transversales. Ici, la variation ne se fait pas dans le temps pour une seule unité d'observation, mais entre les unités d'observation à un moment donné. Pour une période donnée, nous recueillerions le prix payé, le montant acheté et les revenus de nombreuses personnes.

    Les données de panel constituent un troisième type d'ensemble de données. Ici, un panel d'unités d'observation est suivi dans le temps. Si nous prenons notre exemple ci-dessus, nous pourrions suivre 500 personnes, l'unité d'observation, au fil du temps, sur dix ans, et observer leurs revenus, le prix payé et la quantité de biens achetés. Si nous avions 500 personnes et des données sur dix ans concernant le prix, les revenus et la quantité achetée, nous aurions 15 000 informations. Ces types d'ensembles de données sont très coûteux à créer et à maintenir. Ils fournissent cependant une quantité énorme d'informations qui peuvent être utilisées pour répondre à des questions très importantes. À titre d'exemple, quel est l'effet sur le taux d'activité des femmes en fonction de leur famille d'origine, de leur mère et de leur père, de leur âge ? Ou y a-t-il des effets différents sur les résultats de santé en fonction de l'âge auquel une personne a commencé à fumer ? Seules les données de panel peuvent apporter des réponses à ces questions et à des questions connexes, car nous devons suivre plusieurs personnes au fil du temps. Le travail que nous effectuons ici ne sera toutefois pas entièrement adapté à de tels ensembles de données.

    En commençant par un ensemble de données comportant deux variables indépendantes, nous posons la question suivante : sont-elles liées ? Une façon de répondre visuellement à cette question consiste à créer un nuage de points des données. Nous ne pouvions pas le faire auparavant lorsque nous faisions des statistiques descriptives parce que ces données étaient univariées. Nous disposons maintenant de données bivariées qui nous permettent de tracer en deux dimensions. Trois dimensions sont possibles sur une feuille de papier plat, mais il devient très difficile de les conceptualiser complètement. Bien entendu, plus de trois dimensions ne peuvent pas être représentées graphiquement, bien que les relations puissent être mesurées mathématiquement.

    Pour fournir une précision mathématique à la mesure de ce que nous voyons, nous utilisons le coefficient de corrélation. La corrélation nous renseigne sur le mouvement conjoint de deux variables, mais rien sur la raison pour laquelle ce mouvement s'est produit. Formellement, l'analyse de corrélation suppose que les deux variables analysées sont des variables indépendantes. Cela signifie que ni l'un ni l'autre ne provoque le mouvement de l'autre. De plus, cela signifie qu'aucune des deux variables ne dépend de l'autre ou, d'ailleurs, d'une autre variable. Malgré ces limites, l'analyse de corrélation peut donner des résultats intéressants.

    Le coefficient de corrélation, ρ (prononcé rho), est la statistique mathématique d'une population qui nous fournit une mesure de la force d'une relation linéaire entre les deux variables. Pour un échantillon de données, la statistique r, développée par Karl Pearson au début des années 1900, est une estimation de la corrélation entre les populations et est définie mathématiquement comme suit :

    \[r=\frac{\frac{1}{n-1} \Sigma\left(X_{1 i}-\overline{X}_{1}\right)\left(X_{2 i}-\overline{X}_{2}\right)}{s_{x_{1}} s_{x_{2}}}\nonumber\]

    OU

    \[r=\frac{\sum X_{1 i} X_{2 i}-n \overline{X}_{1}-\overline{X}_{2}}{\sqrt{\left(\Sigma X_{1 i}^{2}-n \overline{X}_{1}^{2}\right)\left(\Sigma X_{2 i}^{2}-n \overline{X}_{2}^{2}\right)}}\nonumber\]

    \(sx_1\) et\(sx_2\) sont les écarts types des deux variables indépendantes\(X_1\) et\(X_2\),\(\overline{X}_{1}\) et\(\overline{X}_{2}\) sont les moyennes d'échantillonnage des deux variables,\(X_{1i}\) et\(X_{2i}\) sont les observations individuelles de\(X_1\) et\(X_2\). La valeur du coefficient\(r\) de corrélation est comprise entre -1 et 1. La deuxième formule équivalente est souvent utilisée car elle peut être plus facile à calculer. Aussi effrayantes que puissent paraître ces formules, elles ne sont en réalité que le rapport entre la covariance entre les deux variables et le produit de leurs deux écarts types. C'est-à-dire qu'il s'agit d'une mesure des variances relatives.

    Dans la pratique, toutes les analyses de corrélation et de régression seront effectuées au moyen de logiciels informatiques conçus à ces fins. Rien de plus qu'une demi-douzaine d'observations engendre d'immenses problèmes de calcul. C'est pour cette raison que la corrélation, et plus encore la régression, n'ont été des outils de recherche largement utilisés qu'après l'avènement des « machines informatiques ». Aujourd'hui, la puissance informatique requise pour analyser les données à l'aide de progiciels de régression est considérée comme presque insignifiante par rapport à il y a à peine dix ans.

    Pour visualiser toute relation linéaire qui pourrait exister, passez en revue le diagramme de dispersion des données normalisées. La figure\(\PageIndex{2}\) présente plusieurs diagrammes de dispersion et la valeur calculée de r. Dans les panneaux (a) et (b), remarquez que les données tendent généralement ensemble, (a) à la hausse et (b) à la baisse. Le panneau (a) est un exemple de corrélation positive et le panneau (b) est un exemple de corrélation ou de relation négative. Le signe du coefficient de corrélation nous indique si la relation est positive ou négative (inverse). Si toutes les valeurs de\(X_1\) et\(X_2\) sont sur une ligne droite, le coefficient de corrélation sera l'un\(1\) ou l'autre,\(-1\) selon que la droite présente une pente positive ou négative, et plus la pente est proche de 1 ou négative, plus la relation entre les deux variables est forte. MAIS RAPPELEZ-VOUS TOUJOURS QUE LE COEFFICIENT DE CORRÉLATION NE NOUS INDIQUE PAS LA PENTE.

    Figurine\(\PageIndex{2}\)

    N'oubliez pas que tout ce que le coefficient de corrélation nous indique, c'est si les données sont liées linéairement ou non. Dans le panneau (d), les variables ont évidemment un type de relation très spécifique entre elles, mais le coefficient de corrélation est nul, ce qui indique qu'il n'existe aucune relation linéaire.

    Si vous soupçonnez une relation linéaire entre\(X_1\) et\(X_2\), vous\(r\) pouvez mesurer la force de la relation linéaire.

    Ce que la valeur nous\(r\) dit :

    • Ce que nous\(r\) dit le SIGNE
      • « la corrélation n'implique pas un lien de causalité. »