Skip to main content
Global

13.1: معامل الارتباط r

  • Page ID
    199023
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    عندما نبدأ هذا القسم، نلاحظ أن نوع البيانات التي سنعمل معها قد تغير. ربما لم يلاحظها أحد، جميع البيانات التي نستخدمها هي لمتغير واحد. قد يكون من عينتين، لكنه لا يزال متغيرًا أحادي المتغير. نوع البيانات الموضحة في الأمثلة أعلاه ولأي نموذج للسبب والنتيجة هو بيانات ثنائية المتغير - «bi» لمتغيرين. في الواقع، يستخدم الإحصائيون بيانات متعددة المتغيرات، مما يعني العديد من المتغيرات.

    بالنسبة لعملنا، يمكننا تصنيف البيانات إلى ثلاث فئات واسعة، وبيانات السلاسل الزمنية، وبيانات المقطع العرضي، وبيانات اللوحة. التقينا بالأولين في وقت مبكر جدًا. تقيس بيانات السلاسل الزمنية وحدة مراقبة واحدة؛ مثل شخص أو شركة أو بلد، مع مرور الوقت. ما يتم قياسه سيكون على الأقل خاصيتان، مثل دخل الشخص وكمية سلعة معينة يشترونها والسعر الذي يدفعه. ستكون هذه ثلاث أجزاء من المعلومات في فترة زمنية واحدة، على سبيل المثال 1985. إذا تابعنا هذا الشخص عبر الزمن، فستكون لدينا نفس المعلومات عن أعوام 1985 و 1986 و 1987 وما إلى ذلك، فسيشكل ذلك مجموعة بيانات سلسلة زمنية. إذا قمنا بذلك لمدة 10 سنوات، فسيكون لدينا 30 معلومة تتعلق بعادات استهلاك هذا الشخص لهذه السلعة خلال العقد الماضي وسنعرف دخله والسعر الذي دفعه.

    النوع الثاني من مجموعة البيانات هو لبيانات المقطع العرضي. هنا لا يكون الاختلاف عبر الزمن لوحدة واحدة من المراقبة، ولكن عبر وحدات المراقبة خلال نقطة زمنية واحدة. لفترة معينة من الوقت، سنجمع السعر المدفوع والمبلغ الذي تم شراؤه ودخل العديد من الأفراد.

    النوع الثالث من مجموعة البيانات هو بيانات اللوحة. هنا تتم متابعة لوحة من وحدات المراقبة عبر الزمن. إذا أخذنا مثالنا من الأعلى، فقد نتبع 500 شخص، ووحدة المراقبة، عبر الزمن، وعشر سنوات، ونراقب دخلهم والسعر المدفوع وكمية السلعة المشتراة. إذا كان لدينا 500 شخص وبيانات لمدة عشر سنوات من حيث السعر والدخل والكمية المشتراة، فسيكون لدينا 15000 قطعة من المعلومات. هذه الأنواع من مجموعات البيانات مكلفة للغاية في الإنشاء والصيانة. ومع ذلك، فإنها توفر كمية هائلة من المعلومات التي يمكن استخدامها للإجابة على أسئلة مهمة للغاية. على سبيل المثال، ما هو التأثير على معدل مشاركة المرأة في القوى العاملة مع عمر أسرتها الأصلية والأم والأب؟ أو هل هناك تأثيرات تفاضلية على النتائج الصحية اعتمادًا على العمر الذي بدأ فيه الشخص التدخين؟ يمكن لبيانات اللوحة فقط تقديم إجابات على هذه الأسئلة والأسئلة ذات الصلة لأننا يجب أن نتابع عدة أشخاص عبر الوقت. لكن العمل الذي نقوم به هنا لن يكون مناسبًا تمامًا لمجموعات البيانات مثل هذه.

    بدءًا من مجموعة من البيانات ذات متغيرين مستقلين، نطرح السؤال التالي: هل هذه مرتبطة؟ تتمثل إحدى طرق الإجابة المرئية على هذا السؤال في إنشاء مخطط مبعثر للبيانات. لم نتمكن من القيام بذلك من قبل عندما كنا نقوم بالإحصاء الوصفي لأن تلك البيانات كانت أحادية المتغير. الآن لدينا بيانات ثنائية المتغير حتى نتمكن من الرسم في بعدين. هناك ثلاثة أبعاد ممكنة على قطعة مسطحة من الورق، ولكن يصبح من الصعب جدًا تصورها بشكل كامل. بالطبع، لا يمكن رسم أكثر من ثلاثة أبعاد على الرغم من أنه يمكن قياس العلاقات رياضيًا.

    لتوفير الدقة الرياضية لقياس ما نراه، نستخدم معامل الارتباط. يخبرنا الارتباط شيئًا عن الحركة المشتركة لمتغيرين، ولكن لا شيء عن سبب حدوث هذه الحركة. من الناحية الرسمية، يفترض تحليل الارتباط أن كلا المتغيرين اللذين يتم تحليلهما هما متغيرات مستقلة. هذا يعني أن لا أحد يسبب الحركة في الآخر. علاوة على ذلك، فهذا يعني أن أي متغير لا يعتمد على الآخر، أو لهذا الأمر، على أي متغير آخر. حتى مع هذه القيود، يمكن أن يؤدي تحليل الارتباط إلى بعض النتائج المثيرة للاهتمام.

    معامل الارتباط، ω (يُنطق rho)، هو الإحصاء الرياضي للسكان الذي يوفر لنا قياسًا لقوة العلاقة الخطية بين المتغيرين. بالنسبة لعينة من البيانات، فإن الإحصائية، r، التي طورها كارل بيرسون في أوائل القرن العشرين، هي تقدير للارتباط السكاني ويتم تعريفها رياضيًا على النحو التالي:

    \[r=\frac{\frac{1}{n-1} \Sigma\left(X_{1 i}-\overline{X}_{1}\right)\left(X_{2 i}-\overline{X}_{2}\right)}{s_{x_{1}} s_{x_{2}}}\nonumber\]

    أو

    \[r=\frac{\sum X_{1 i} X_{2 i}-n \overline{X}_{1}-\overline{X}_{2}}{\sqrt{\left(\Sigma X_{1 i}^{2}-n \overline{X}_{1}^{2}\right)\left(\Sigma X_{2 i}^{2}-n \overline{X}_{2}^{2}\right)}}\nonumber\]

    أين\(sx_1\)\(sx_2\) هي الانحرافات المعيارية للمتغيرين المستقلين\(X_2\)،\(X_1\)\(\overline{X}_{1}\)\(\overline{X}_{2}\) وهي وسائل العينة للمتغيرين،\(X_{2i}\) وهي الملاحظات الفردية لـ\(X_1\) و\(X_2\).\(X_{1i}\) \(r\)يتراوح معامل الارتباط في القيمة من -1 إلى 1. غالبًا ما يتم استخدام الصيغة المكافئة الثانية لأنها قد تكون أسهل من الناحية الحسابية. بقدر ما تبدو هذه الصيغ مخيفة، فهي في الحقيقة مجرد نسبة التباين بين المتغيرين ومنتج الانحرافين المعياريين. وهذا يعني أنه مقياس للفروق النسبية.

    في الممارسة العملية، سيتم توفير جميع تحليلات الارتباط والانحدار من خلال برامج الكمبيوتر المصممة لهذه الأغراض. أي شيء يزيد عن نصف دزينة من الملاحظات يخلق مشاكل حسابية هائلة. وبسبب هذه الحقيقة، لم يكن الارتباط، بل والانحدار، أدوات بحث مستخدمة على نطاق واسع إلا بعد ظهور «آلات الحوسبة». الآن تعتبر قوة الحوسبة المطلوبة لتحليل البيانات باستخدام حزم الانحدار تافهة تقريبًا مقارنة بما كانت عليه قبل عقد من الزمان فقط.

    لتصور أي علاقة خطية قد تكون موجودة، راجع مخطط المخططات المبعثرة للبيانات الموحدة. \(\PageIndex{2}\)يعرض الشكل العديد من المخططات المبعثرة والقيمة المحسوبة لـ r. في اللوحين (أ) و (ب) لاحظ أن البيانات تتجه عمومًا معًا، (أ) لأعلى و (ب) لأسفل. اللوحة (أ) هي مثال على الارتباط الإيجابي واللوحة (ب) هي مثال على الارتباط السلبي أو العلاقة. تخبرنا علامة معامل الارتباط ما إذا كانت العلاقة إيجابية أو سلبية (عكسية). إذا كانت جميع قيم الخط المستقيم على خط مستقيم، فسيكون معامل الارتباط إما\(1\) أو\(-1\) اعتمادًا على ما إذا كان الخط يحتوي على منحدر إيجابي أو سلبي وكلما اقترب من واحد أو سالب، زادت قوة العلاقة بين المتغيرين.\(X_1\)\(X_2\) ولكن تذكر دائمًا أن معامل الارتباط لا يخبرنا بالمنحدر.

    الشكل\(\PageIndex{2}\)

    تذكر أن كل معامل الارتباط يخبرنا بما إذا كانت البيانات مرتبطة خطيًا أم لا. في اللوحة (د) من الواضح أن المتغيرات لها نوع من العلاقة المحددة للغاية مع بعضها البعض، ولكن معامل الارتباط هو صفر، مما يشير إلى عدم وجود علاقة خطية.

    إذا كنت تشك في وجود علاقة خطية بين\(X_1\)\(X_2\) ثم\(r\) يمكنك قياس مدى قوة العلاقة الخطية.

    ماذا\(r\) تخبرنا القيمة:

    • ماذا\(r\) تخبرنا علامة
      • «الارتباط لا يعني السببية».