Skip to main content
Global

13.4: معادلة الانحدار

  • Page ID
    199051
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    تحليل الانحدار هو تقنية إحصائية يمكنها اختبار الفرضية القائلة بأن المتغير يعتمد على متغير واحد أو أكثر من المتغيرات الأخرى. علاوة على ذلك، يمكن أن يوفر تحليل الانحدار تقديرًا لحجم تأثير التغيير في متغير واحد على آخر. هذه الميزة الأخيرة، بالطبع، كلها مهمة في التنبؤ بالقيم المستقبلية.

    يعتمد تحليل الانحدار على علاقة وظيفية بين المتغيرات، وعلاوة على ذلك، يفترض أن العلاقة خطية. هذا الافتراض الخطي مطلوب لأنه، في معظم الأحيان، لم يتم تحديد الخصائص الإحصائية النظرية للتقدير غير الخطي بشكل جيد حتى الآن من قبل علماء الرياضيات وعلماء الاقتصاد القياسي. هذا يطرح علينا بعض الصعوبات في التحليل الاقتصادي لأن العديد من نماذجنا النظرية غير خطية. منحنى التكلفة الحدية، على سبيل المثال، غير خطي بالتأكيد كما هو الحال مع دالة التكلفة الإجمالية، إذا أردنا أن نؤمن بتأثير تخصص العمل وقانون المنتج الهامشي المتناقص. هناك تقنيات للتغلب على بعض هذه الصعوبات، مثل التحويل الأسي واللوغاريتمي للبيانات على سبيل المثال، ولكن في البداية يجب أن ندرك أن تحليل انحدار المربعات الصغرى العادية (OLS) سيستخدم دائمًا دالة خطية لتقدير ما يمكن أن يكون غير خطي علاقة.

    يمكن تحديد نموذج الانحدار الخطي العام بالمعادلة:

    \[y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+\varepsilon_{i}\nonumber\]

    \(\beta_0\)أين التقاطع،\(\beta_i\) والانحدار بين\(Y\) والمناسب\(X_i\)، و\(\epsilon\) (يُنطق epsilon)، هو مصطلح الخطأ الذي يلتقط الأخطاء في القياس والتأثير على\(Y\) أي متغيرات مفقودة من المعادلة التي من شأنها\(Y\) المساهمة في شرح الاختلافات في\(Y\). هذه المعادلة هي المعادلة السكانية النظرية وبالتالي تستخدم الحروف اليونانية. ستحتوي المعادلة التي سنقدرها على الرموز الرومانية المكافئة. هذا بالتوازي مع كيفية تتبع المعلمات السكانية ومعايير العينة من قبل. كان\(\mu\) رمز المتوسط السكاني وبالنسبة لمتوسط\(\overline{X}\) العينة والانحراف المعياري للسكان\(\sigma\) وكان الانحراف المعياري للعينة هو\(s\). وبالتالي فإن المعادلة التي سيتم تقديرها مع عينة من البيانات لمتغيرين مستقلين ستكون:

    \[y_{i}=b_{0}+b_{1} x_{1 i}+b_{2} x_{2 i}+e_{i}\nonumber\]

    كما هو الحال مع عملنا السابق مع التوزيعات الاحتمالية، لا يعمل هذا النموذج إلا إذا صمدت افتراضات معينة. هذه هي أن الأخطاء\(Y\) يتم توزيعها بشكل طبيعي، ويتم أيضًا توزيع الأخطاء عادةً بمتوسط صفر وانحراف معياري ثابت، وأن مصطلحات الخطأ مستقلة عن الحجم\(X\) ومستقلة عن بعضها البعض.

    افتراضات نموذج انحدار المربعات الصغرى العادية

    يحتاج كل من هذه الافتراضات إلى مزيد من الشرح. إذا لم يكن أحد هذه الافتراضات صحيحًا، فسيكون له تأثير على جودة التقديرات. يمكن إصلاح بعض إخفاقات هذه الافتراضات بينما يؤدي البعض الآخر إلى تقديرات لا تقدم ببساطة أي نظرة ثاقبة للأسئلة التي يحاول النموذج الإجابة عليها أو الأسوأ من ذلك، إعطاء تقديرات متحيزة.

    1. يتم قياس جميع المتغيرات المستقلة بدون خطأ، وهي أرقام ثابتة مستقلة عن مصطلح الخطأ.\(x_i\) هذا الافتراض يقول في الواقع أن\(Y\) الأمر حتمي، وهو نتيجة المكون الثابت «\(X\)» ومكون الخطأ العشوائي «»\(\epsilon\).
    2. مصطلح الخطأ هو متغير عشوائي بمتوسط صفر وتباين ثابت. معنى هذا هو أن تباينات المتغيرات المستقلة مستقلة عن قيمة المتغير. ضع في اعتبارك العلاقة بين الدخل الشخصي وكمية السلعة المشتراة كمثال لحالة يعتمد فيها التباين على قيمة المتغير المستقل، الدخل. من المعقول أنه مع زيادة الدخل، سيزداد التباين حول المبلغ الذي تم شراؤه أيضًا بسبب المرونة المتوفرة مع مستويات أعلى من الدخل. الافتراض هو التباين المستمر فيما يتعلق بحجم المتغير المستقل المسمى التجانس. إذا فشل الافتراض، فإنه يطلق عليه اسم التغاير. يوضح الشكل 13.6 حالة التماثل حيث تحتوي جميع التوزيعات الثلاثة على نفس التباين حول القيمة المتوقعة\(Y\) بغض النظر عن حجمها\(X\).
    3. في حين أن المتغيرات المستقلة كلها قيم ثابتة، إلا أنها تأتي من توزيع احتمالي يتم توزيعه بشكل طبيعي. يمكن ملاحظة ذلك في الشكل 13.6 من خلال شكل التوزيعات الموضوعة على الخط المتوقع بالقيمة المتوقعة للقيمة ذات الصلة لـ\(Y\).
    4. المتغيرات المستقلة مستقلة عن\(X\) المتغيرات الأخرى\(Y\)، ولكن يُفترض أيضًا أنها مستقلة عنها. تم تصميم النموذج لتقدير تأثيرات المتغيرات المستقلة على بعض المتغيرات التابعة وفقًا للنظرية المقترحة. الحالة التي ترتبط فيها بعض المتغيرات المستقلة أو أكثر ليست غير عادية. قد لا تكون هناك علاقة سبب وتأثير بين المتغيرات المستقلة، ولكنها مع ذلك تتحرك معًا. خذ حالة منحنى العرض البسيط حيث ترتبط الكمية الموردة نظريًا بسعر المنتج وأسعار المدخلات. قد تكون هناك مدخلات متعددة قد تتحرك معًا بمرور الوقت من الضغط التضخمي العام. وبالتالي فإن أسعار المدخلات ستنتهك افتراض تحليل الانحدار هذا. تسمى هذه الحالة تعدد الخطوط، والتي سيتم تناولها بالتفصيل لاحقًا.
    5. مصطلحات الخطأ غير مرتبطة ببعضها البعض. تنشأ هذه الحالة من التأثير على مصطلح خطأ واحد من مصطلح خطأ آخر. على الرغم من أنها ليست مشكلة السلاسل الزمنية حصريًا، إلا أننا هنا غالبًا ما نرى هذه الحالة. \(X\)متغير في الفترة الزمنية الأولى له تأثير على\(Y\) المتغير، ولكن هذا التأثير يكون له تأثير في الفترة الزمنية التالية. يؤدي هذا التأثير إلى ظهور علاقة بين مصطلحات الخطأ. تسمى هذه الحالة الارتباط التلقائي، «الارتباط الذاتي». مصطلحات الخطأ الآن ليست مستقلة عن بعضها البعض، بل لها تأثيرها الخاص على مصطلحات الخطأ اللاحقة.

    لا يعرض الشكل 13.6 جميع افتراضات نموذج الانحدار، ولكنه يساعد على تصور هذه الافتراضات المهمة.

    الشكل 13.6

    الشكل 13.7

    هذا هو الشكل العام الذي يُطلق عليه غالبًا نموذج الانحدار المتعدد. يحتوي ما يسمى بتحليل الانحدار «البسيط» على متغير مستقل واحد فقط (يمين) بدلاً من العديد من المتغيرات المستقلة. الانحدار البسيط هو مجرد حالة خاصة من الانحدار المتعدد. هناك بعض القيمة في البدء بالانحدار البسيط: من السهل الرسم البياني في بعدين، ويصعب الرسم البياني في ثلاثة أبعاد، ويستحيل الرسم البياني في أكثر من ثلاثة أبعاد. وبالتالي، ستكون الرسوم البيانية الخاصة بنا لحالة الانحدار البسيطة. يعرض الشكل 13.7 مشكلة الانحدار في شكل رسم بياني مبعثر لمجموعة البيانات حيث\(Y\) يُفترض أن ذلك يعتمد على المتغير المستقل الفردي\(X\).

    العلاقة الأساسية من مبادئ الاقتصاد الكلي هي وظيفة الاستهلاك. تنص هذه العلاقة النظرية على أنه مع ارتفاع دخل الشخص، يرتفع استهلاكه، ولكن بمقدار أقل من ارتفاع الدخل. إذا كان الاستهلاك\(Y\)\(X\) هو الدخل في المعادلة أدناه الشكل 13.7، فإن مشكلة الانحدار هي، أولاً، إثبات وجود هذه العلاقة، وثانيًا، تحديد تأثير التغيير في الدخل على استهلاك الشخص. \(\beta_1\)كانت المعلمة تسمى الميل الهامشي للاستهلاك في مبادئ الاقتصاد الكلي.

    تمثل كل «نقطة» في الشكل 13.7 استهلاك ودخل الأفراد المختلفين في وقت ما. كان هذا يسمى بيانات المقطع العرضي سابقًا؛ ملاحظات حول المتغيرات في وقت ما عبر أشخاص مختلفين أو وحدات قياس أخرى. غالبًا ما يتم إجراء هذا التحليل باستخدام بيانات السلاسل الزمنية، والتي ستكون استهلاك ودخل فرد أو بلد واحد في نقاط زمنية مختلفة. بالنسبة لمشاكل الاقتصاد الكلي، من الشائع استخدام البيانات المجمعة للسلاسل الزمنية لبلد بأكمله. بالنسبة لهذا المفهوم النظري الخاص، تتوفر هذه البيانات بسهولة في التقرير السنوي لمجلس الرئيس للمستشارين الاقتصاديين.

    الشكل 13.8. يُطلق على تحليل الانحدار أحيانًا تحليل «المربعات الصغرى» لأن طريقة تحديد الخط الأكثر «ملاءمة» للبيانات هي تقليل مجموع البقايا المربعة للخط الذي يتم وضعه من خلال البيانات.

    الشكل 13.8 المعادلة
    السكانية: المعادلة\(\mathrm{C}=\beta_{0}+\beta_{1} \text{lncome}+\varepsilon\)
    التقديرية:\(C=b_{0}+b_{1} \text{lncome}+e\)

    يوضح هذا الشكل العلاقة المفترضة بين الاستهلاك والدخل من نظرية الاقتصاد الكلي. هنا يتم رسم البيانات كمخطط مبعثر وتم رسم خط مستقيم تقديري. من هذا الرسم البياني يمكننا رؤية مصطلح خطأ،\(e_1\). تحتوي كل نقطة بيانات أيضًا على مصطلح خطأ. مرة أخرى، يتم وضع مصطلح الخطأ في المعادلة لالتقاط التأثيرات على الاستهلاك التي لا تسببها تغيرات الدخل. قد تكون هذه الآثار الأخرى مدخرات الشخص أو ثروته، أو فترات البطالة. سنرى كيف يمكننا من خلال تقليل مجموع هذه الأخطاء الحصول على تقدير لمنحدر وتعترض هذا الخط.

    ضع في اعتبارك الرسم البياني أدناه. عاد الترميز إلى ذلك بالنسبة للنموذج الأكثر عمومية بدلاً من الحالة المحددة لوظيفة استهلاك الاقتصاد الكلي في مثالنا.

    الشكل 13.9

    \(\hat{\mathrm{y}}\)تتم قراءة "\(\bf y\)القبعة» وهي القيمة المقدرة لـ\(\bf y\). (في الشكل 13.8\(\hat{C}\) تمثل القيمة المقدرة للاستهلاك لأنها موجودة على الخط المقدر.) إنها القيمة التي\(y\) تم الحصول عليها باستخدام خط الانحدار. \(\hat{\mathrm{y}}\)لا تساوي بشكل عام\(y\) من البيانات.

    هذا المصطلح\(y_{0}-\hat{y}_{0}=e_{0}\) يسمى «الخطأ» أو المتبقي. إنه ليس خطأ بمعنى الخطأ. تم وضع مصطلح الخطأ في معادلة التقدير لالتقاط المتغيرات المفقودة والأخطاء في القياس التي قد تكون حدثت في المتغيرات التابعة. تقيس القيمة المطلقة للمتبقي المسافة الرأسية بين القيمة الفعلية والقيمة المقدرة لـ\(y\).\(y\) بمعنى آخر، يقيس المسافة الرأسية بين نقطة البيانات الفعلية والنقطة المتوقعة على الخط كما يمكن رؤيتها على الرسم البياني عند النقطة\(X_0\).

    إذا كانت نقطة البيانات المرصودة تقع فوق الخط، يكون المتبقي موجبًا، ويقلل الخط من قيمة البيانات الفعلية لـ\(y\).

    إذا كانت نقطة البيانات المرصودة تقع أسفل الخط، يكون المتبقي سالبًا، ويبالغ الخط في تقدير قيمة البيانات الفعلية لـ\(y\).

    في الرسم البياني،\(y_{0}-\hat{y}_{0}=e_{0}\) يظهر الجزء المتبقي من النقطة المعروضة. هنا تكمن النقطة فوق الخط والباقي إيجابي. بالنسبة لكل نقطة بيانات، يتم حساب\(y_{i}-\hat{y}_{i}=e_{i}\) البقايا أو الأخطاء\(i = 1, 2, 3, ..., n\) وفقًا\(n\) لمكان حجم العينة. كل منها\(|e|\) عبارة عن مسافة رأسية.

    مجموع الأخطاء المربعة هو المصطلح الذي يُطلق عليه بوضوح مجموع الأخطاء المربعة (SSE).

    باستخدام حساب التفاضل والتكامل، يمكنك تحديد الخط المستقيم الذي يحتوي على قيم المعلمات\(b_1\) والتي تقلل من SSE.\(b_0\) عندما تجعل SSE كحد أدنى، تكون قد حددت النقاط التي تقع على الخط الأنسب. اتضح أن الخط الأنسب له المعادلة:

    \[\hat{y}=b_{0}+b_{1} x\nonumber\]

    أين\(b_{0}=\overline{y}-b_{1} \overline{x}\) و\(b_{1}=\frac{\Sigma(x-\overline{x})(y-\overline{y})}{\Sigma(x-\overline{x})^{2}}=\frac{\operatorname{cov}(x, y)}{s_{x}^{2}}\)

    وسائل العينة\(x\) للقيم\(y\) والقيم هي\(\overline{x}\) و\(\overline{y}\)، على التوالي. يمر الخط الأفضل دائمًا عبر النقطة (\(\overline{y}\)،\(\overline{x}\)) التي تسمى نقاط الوسائل.

    \(b\)يمكن أيضًا كتابة المنحدر على النحو التالي:

    \[b_{1}=r_{\mathrm{y}, \mathrm{x}}\left(\frac{s_{y}}{s_{x}}\right)\nonumber\]

    حيث\(s_y\) = الانحراف المعياري\(y\) للقيم و\(s_x\) = الانحراف المعياري\(x\) للقيم\(r\) وهو معامل الارتباط بين\(x\) و\(y\).

    تسمى هذه المعادلات المعادلات العادية وتأتي من اكتشاف رياضي آخر مهم جدًا يسمى نظرية Gauss-Markov والتي بدونها لا يمكننا إجراء تحليل الانحدار. تخبرنا نظرية Gauss-Markov أن التقديرات التي نحصل عليها من استخدام طريقة انحدار المربعات الصغرى العادية (OLS) ستؤدي إلى تقديرات لها بعض الخصائص المهمة جدًا. في نظرية غاوس-ماركوف، ثبت أن خط المربعات الأقل هو الأزرق، وهو B est، L الخطي، U غير متحيز، E stimator. الأفضل هي الخاصية الإحصائية التي تفيد بأن المقدّر هو الذي يحتوي على الحد الأدنى من التباين. يشير الخطي إلى خاصية نوع الخط الذي يتم تقديره. المقدّر غير المتحيز هو الشخص الذي تحتوي دالة تقديره على متوسط متوقع يساوي متوسط عدد السكان. (ستتذكر أن القيمة المتوقعة\(\mu_{\overline{x}}\) كانت مساوية لمتوسط\(\mu\) السكان وفقًا لنظرية الحد المركزي. هذا هو بالضبط نفس المفهوم هنا).

    كان كل من غاوس وماركوف عمالقة في مجال الرياضيات، وغاوس في الفيزياء أيضًا، في القرن الثامن عشر وأوائل القرن التاسع عشر. وتداخلت بالكاد من الناحية الزمنية ولم تتداخل أبدًا في الجغرافيا، لكن عمل ماركوف على هذه النظرية استند بشكل كبير إلى العمل السابق لكارل غاوس. كان على القيمة التطبيقية الواسعة لهذه النظرية الانتظار حتى منتصف القرن الماضي.

    باستخدام طريقة OLS يمكننا الآن العثور على تقدير تباين الخطأ وهو تباين الأخطاء المربعة، e 2. يُطلق على هذا أحيانًا الخطأ القياسي للتقدير. (من الناحية النحوية، ربما يكون أفضل قول عن ذلك هو تقدير تباين الخطأ) صيغة تقدير تباين الخطأ هي:

    \[s_{e}^{2}=\frac{\Sigma\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-k}=\frac{\Sigma e_{i}^{2}}{n-k}\nonumber\]

    أين\(\hat{y}\) القيمة المتوقعة والقيمة الملاحظة، وبالتالي فإن المصطلح\(\left(y_{i}-\hat{y}_{i}\right)^{2}\) هو الأخطاء المربعة التي يجب تقليلها للعثور على تقديرات بارامترات خط الانحدار.\(y\)\(y\) هذا في الحقيقة مجرد تباين مصطلحات الخطأ ويتبع صيغة التباين العادية الخاصة بنا. إحدى الملاحظات المهمة هي أننا هنا\((n−k)\) نقسم على درجات الحرية. ستكون درجات حرية معادلة الانحدار هي عدد الملاحظات\(n\)، مع تقليلها بعدد المعلمات المقدرة، والتي تتضمن التقاطع كمعامل.

    يعد تباين الأخطاء أمرًا أساسيًا في اختبار فرضيات الانحدار. إنه يخبرنا عن مدى «ضيق» التشتت حول الخط. كما سنرى قريبًا، كلما زاد التشتت حول الخط، مما يعني أنه كلما زاد تباين الأخطاء، قل احتمال أن يكون للمتغير المستقل المفترض تأثير كبير على المتغير التابع. باختصار، من المرجح أن تفشل النظرية التي يتم اختبارها إذا كان تباين مصطلح الخطأ مرتفعًا. عند التفكير، لا ينبغي أن يكون هذا مفاجأة. عندما اختبرنا الفرضيات حول المتوسط، لاحظنا أن الفروق الكبيرة قللت من إحصائية الاختبار المحسوبة وبالتالي فشلت في الوصول إلى ذيل التوزيع. وفي هذه الحالات، لا يمكن رفض الفرضيات اللاغية. إذا لم نتمكن من رفض الفرضية الصفرية في مشكلة الانحدار، يجب أن نستنتج أن المتغير المستقل المفترض ليس له أي تأثير على المتغير التابع.

    تتمثل إحدى طرق تصور هذا المفهوم في رسم مخططين مبعثرين\(x\)\(y\) وبيانات على طول خط محدد مسبقًا. الأول سيكون له تباين بسيط في الأخطاء، مما يعني أن جميع نقاط البيانات ستتحرك بالقرب من الخط. الآن افعل نفس الشيء باستثناء نقاط البيانات التي ستحتوي على تقدير كبير لتباين الخطأ، مما يعني أن نقاط البيانات مبعثرة على نطاق واسع على طول الخط. من الواضح أن الثقة في العلاقة بين\(x\) وبين\(y\) وتتأثر بهذا الاختلاف بين تقدير تباين الخطأ.

    اختبار معايير الخط

    كان الهدف الكامل من تحليل الانحدار هو اختبار الفرضية القائلة بأن المتغير التابع\(Y\)، كان يعتمد في الواقع على قيم المتغيرات المستقلة كما تؤكدها بعض نظريات التأسيس، مثل مثال دالة الاستهلاك. بالنظر إلى المعادلة المقدرة تحت الشكل 13.8، نرى أن هذا يرقى إلى تحديد قيم\(b_0\) و\(b_1\). لاحظ أننا نستخدم مرة أخرى اصطلاح الحروف اليونانية لمعايير السكان والأحرف الرومانية لتقديراتها.

    سيُنتج ناتج تحليل الانحدار الذي يوفره برنامج الكمبيوتر تقديرًا\(b_0\) للمتغيرات المستقلة الأخرى التي تم تضمينها في المعادلة المقدرة.\(b_1\)\(b\) المشكلة هي ما مدى جودة هذه التقديرات؟ من أجل اختبار الفرضية المتعلقة بأي تقدير، وجدنا أننا بحاجة إلى معرفة توزيع العينات الأساسي. لا ينبغي أن يكون مفاجئًا في مرحلته من الدورة أن الإجابة ستكون التوزيع الطبيعي. يمكن ملاحظة ذلك من خلال تذكر افتراض أن مصطلح الخطأ في السكان،\(\epsilon\)، يتم توزيعه بشكل طبيعي. إذا كان مصطلح الخطأ موزعًا بشكل طبيعي وتم تحديد التباين في تقديرات معاملات المعادلة\(b_1\)،\(b_0\) ويتم تحديده من خلال تباين مصطلح الخطأ، فسيترتب على ذلك أن تباينات تقديرات المعلمات يتم توزيعها أيضًا بشكل طبيعي. وبالفعل هذا هو الحال فقط.

    يمكننا أن نرى ذلك من خلال إنشاء إحصائية الاختبار لاختبار فرضية معامل المنحدر،\(\beta_1\) في معادلة دالة الاستهلاك. لاختبار ما إذا كان الاستهلاك يعتمد بالفعل على الدخل أم\(Y\) لا\(X\)، أو في مثالنا، نحتاج فقط إلى اختبار الفرضية التي\(\beta_1\) تساوي الصفر. سيتم ذكر هذه الفرضية رسميًا على النحو التالي:

    \[H_{0} : \beta_{1}=0\nonumber\]

    \[H_{a} : \beta_{1} \neq 0\nonumber\]

    إذا لم نتمكن من رفض فرضية العدم، يجب أن نستنتج أن نظريتنا ليس لها أي صحة. إذا لم نتمكن من رفض الفرضية الصفرية\(b_1\)،\(\beta_1 = 0\) فإن معامل الدخل هو صفر وصفر مضروبًا في أي شيء يساوي صفرًا. لذلك فإن تأثير الدخل على الاستهلاك هو صفر. لا توجد علاقة كما اقترحت نظريتنا.

    لاحظ أننا أعددنا الافتراض، فرضية العدم، على أنه «لا علاقة». هذا يضع عبء الإثبات على الفرضية البديلة. بعبارة أخرى، إذا أردنا التحقق من صحة ادعائنا بإيجاد علاقة، يجب أن نفعل ذلك بمستوى أهمية أكبر من 90 أو 95 أو 99 بالمائة. الوضع الراهن هو الجهل، ولا توجد علاقة، ولكي نكون قادرين على الادعاء الذي أضفناه بالفعل إلى مجموعة المعرفة الخاصة بنا، يجب أن نفعل ذلك مع احتمال كبير بأن نكون على صواب. لقد فهم جون ماينارد كينز ذلك بشكل صحيح، وبالتالي ولد الاقتصاد الكينزي بدءًا من هذا المفهوم الأساسي في عام 1936.

    تأتي إحصائية الاختبار لهذا الاختبار مباشرة من صديقنا القديم بالصيغة الموحدة:

    \[t_{c}=\frac{b_{1}-\beta_{1}}{S_{b_{1}}}\nonumber\]

    أين\(b_1\) القيمة المقدرة لمنحدر خط الانحدار،\(\beta_1\) هي القيمة المفترضة لبيتا، في هذه الحالة صفر،\(S_{b_1}\) وهي الانحراف المعياري للتقدير\(b_1\). في هذه الحالة، نسأل عن عدد الانحرافات المعيارية التي تمثل المنحدر المقدر بعيدًا عن المنحدر المفترض. هذا هو بالضبط نفس السؤال الذي طرحناه من قبل فيما يتعلق بفرضية حول المتوسط: كم عدد الانحرافات المعيارية هي المتوسط المقدر، متوسط العينة، من المتوسط المفترض؟

    تتم كتابة إحصائيات الاختبار كتوزيع t للطالب، ولكن إذا كان حجم العينة أكبر بما يكفي بحيث تكون درجات الحرية أكبر من 30، فقد نستخدم التوزيع العادي مرة أخرى. لنرى لماذا يمكننا استخدام t للطالب أو التوزيع العادي الذي علينا فقط أن ننظر إليه\(S_{b_1}\)، صيغة الانحراف المعياري لتقدير\(b_1\):

    \[S_{b_{1}}=\frac{S_{e}^{2}}{\sqrt{\left(x_{i}-\overline{x}\right)^{2}}}\nonumber\]

    \[\text{or}\nonumber\]

    \[S_{b_{1}}=\frac{S_{e}^{2}}{(n-1) S_{x}^{2}}\nonumber\]

    أين\(S_e\) يتم تقدير تباين الخطأ\(S^2_x\) وتباين\(x\) قيم معامل المتغير المستقل الذي يتم اختباره.

    نرى أن\(S_e\) تقدير تباين الخطأ هو جزء من الحساب. نظرًا لأن تقدير تباين الخطأ يعتمد على افتراض الحالة الطبيعية لمصطلحات الخطأ، يمكننا أن نستنتج أن توزيع عينات الـ s\(b\)، ومعاملات خط الانحدار المفترض، يتم توزيعه أيضًا بشكل طبيعي.

    ملاحظة أخيرة تتعلق بدرجات حرية إحصائية الاختبار,\(ν=n-k\). لقد طرحنا سابقًا 1 من حجم العينة لتحديد درجات الحرية في مشكلة t الخاصة بالطالب. هنا يجب أن نطرح درجة واحدة من الحرية لكل معلمة مقدرة في المعادلة. على سبيل المثال، نفقد درجتين من الحرية\(b_0\)، واحدة للاعتراض، والأخرى\(b_1\) لمنحدر دالة الاستهلاك. ستكون درجات الحرية\(n - k - 1\)، حيث k هو عدد المتغيرات المستقلة ويتم فقدان المتغير الإضافي بسبب الاعتراض. إذا قمنا بتقدير معادلة تحتوي على ثلاثة متغيرات مستقلة، فسوف نفقد 4 درجات من الحرية: ثلاث للمتغيرات المستقلة\(k\)، وواحدة أخرى للمتغيرات المعترض.

    تتبع قاعدة القرار الخاصة بقبول أو رفض فرضية العدم نفس الشكل تمامًا كما في جميع اختبارات الفرضية السابقة. وبالتحديد، إذا كانت القيمة المحسوبة لـ\(t\) (أو\(Z\)) تقع في ذيول التوزيع، حيث يتم تحديد\(\alpha\) الذيول بمستوى الأهمية المطلوب في الاختبار، فلا يمكننا قبول الفرضية الصفرية. من ناحية أخرى، إذا كانت القيمة المحسوبة لإحصائية الاختبار ضمن المنطقة الحرجة، فلا يمكننا رفض الفرضية الصفرية.

    إذا استنتجنا أنه لا يمكننا قبول الفرضية الصفرية، فإننا قادرون على\((1−\alpha)\) القول بمستوى من الثقة بأن ميل الخط ناتج عن ذلك\(b_1\). هذا استنتاج مهم للغاية. لا يسمح لنا تحليل الانحدار باختبار ما إذا كانت هناك علاقة بين السبب والنتيجة فحسب، بل يمكننا أيضًا تحديد حجم تلك العلاقة، في حالة وجود علاقة. إن ميزة تحليل الانحدار هذه هي التي تجعلها ذات قيمة كبيرة. إذا كان من الممكن تطوير نماذج ذات صلاحية إحصائية، فإننا قادرون بعد ذلك على محاكاة تأثيرات التغييرات في المتغيرات التي قد تكون تحت سيطرتنا بدرجة معينة من الاحتمال، بالطبع. على سبيل المثال، إذا ثبت أن الإعلانات تؤثر على المبيعات، يمكننا تحديد آثار تغيير ميزانية الإعلان وتحديد ما إذا كانت المبيعات المتزايدة تستحق النفقات المضافة.

    الخطية متعددة الألوان

    أشارت مناقشتنا سابقًا إلى أنه مثل جميع النماذج الإحصائية، يحتوي نموذج انحدار OLS على افتراضات مهمة مرفقة. كل افتراض، في حالة انتهاكه، له تأثير على قدرة النموذج على تقديم تقديرات مفيدة وذات مغزى. لقد أكدت لنا نظرية Gauss-Markov أن تقديرات OLS غير متحيزة والحد الأدنى من التباين، ولكن هذا صحيح فقط في ظل افتراضات النموذج. هنا سنلقي نظرة على التأثيرات على تقديرات OLS إذا كانت المتغيرات المستقلة مرتبطة. يتم فحص الافتراضات الأخرى وطرق التخفيف من الصعوبات التي تشكلها إذا ثبت انتهاكها في دورات الاقتصاد القياسي. نحن نتناول تعدد الخطوط لأنه غالبًا ما يكون سائدًا في النماذج الاقتصادية وغالبًا ما يؤدي إلى نتائج محبطة.

    يفترض نموذج OLS أن جميع المتغيرات المستقلة مستقلة عن بعضها البعض. من السهل اختبار هذا الافتراض لعينة معينة من البيانات باستخدام معاملات ارتباط بسيطة. الارتباط، مثله مثل الكثير في الإحصاءات، هو مسألة درجة: القليل ليس جيدًا، والكثير أمر فظيع.

    الهدف من تقنية الانحدار هو استخلاص التأثيرات المستقلة لكل مجموعة من المتغيرات المستقلة على بعض المتغيرات التابعة المفترضة. إذا كان هناك متغيران مستقلان مترابطان، أي مترابطين، فلا يمكننا عزل التأثيرات على\(Y\) أحدهما عن الآخر. في الحالة القصوى التي\(x_1\) يكون فيها مزيج خطي من\(x_2\) الارتباط يساوي واحدًا، يتحرك كلا المتغيرين بطرق متطابقة مع\(Y\). في هذه الحالة، من المستحيل تحديد المتغير الذي هو السبب الحقيقي للتأثير على\(Y\). (إذا كان المتغيران مترابطين تمامًا فعليًا، فلا يمكن فعليًا حساب أي نتائج للانحدار رياضيًا.)

    تُظهر المعادلات العادية للمعاملات تأثيرات تعدد الخطوط على المعاملات.

    \[b_{1}=\frac{s_{y}\left(r_{x_{1} y}-r_{x_{1} x_{2}} r_{x_{2} y}\right)}{s_{x_{1}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[b_{2}=\frac{s_{y}\left(r_{x_{2 y}}-r_{x_{1} x_{2}} r_{x_{1} y}\right)}{s_{x_{2}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[b_{0}=\overline{y}-b_{1} \overline{x}_{1}-b_{2} \overline{x}_{2}\nonumber\]

    يظهر الارتباط بين\(x_1\) و\(x_2\)\(r_{x_{1} x_{2}}^{2}\), في المقام لكل من صيغة التقدير لـ\(b_1\) و\(b_2\). إذا استمر افتراض الاستقلال، فإن هذا المصطلح هو صفر. يشير هذا إلى عدم وجود تأثير للارتباط على المعامل. من ناحية أخرى، كلما زاد الارتباط بين المتغيرين المستقلين، يتناقص المقام، وبالتالي يزداد تقدير المعامل. الارتباط له نفس التأثير على كل من معاملات هذين المتغيرين. في الأساس، كل متغير «يأخذ» جزءًا من التأثير على Y الذي يجب أن يُنسب إلى المتغير الخطي. ينتج عن هذا تقديرات متحيزة.

    تعدد الخطوط له تأثير ضار آخر على تقديرات OLS. يظهر الارتباط بين المتغيرين المستقلين أيضًا في الصيغ لتقدير التباين للمعاملات.

    \[s_{b_{1}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{1}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[s_{b_{2}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{2}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    هنا مرة أخرى نرى الارتباط بين\(x_1\)\(x_2\) وفي مقام تقديرات التباين لمعاملات كلا المتغيرين. إذا كان الارتباط صفرًا كما هو مفترض في نموذج الانحدار، فإن الصيغة تنهار إلى النسبة المألوفة لتباين الأخطاء إلى تباين المتغير المستقل ذي الصلة. ولكن إذا كان المتغيران المستقلان مترابطان، فإن التباين في تقدير المعامل يزداد. ينتج عن هذا\(t\) قيمة -أصغر لاختبار فرضية المعامل. باختصار، يؤدي تعدد الخطوط إلى الفشل في رفض الفرضية الصفرية التي\(X\) ليس\(X\) للمتغير أي تأثير عليها\(Y\) عندما يكون له في الواقع تأثير مهم إحصائيًا عليها\(Y\). من ناحية أخرى، تشير الأخطاء القياسية الكبيرة للمعامل المقدر الناتج عن تعدد الخطوط إلى عدم الأهمية الإحصائية حتى عندما تكون العلاقة المفترضة قوية.

    ما مدى جودة المعادلة؟

    في القسم الأخير، اهتممنا باختبار الفرضية القائلة بأن المتغير التابع يعتمد بالفعل على المتغير أو المتغيرات المستقلة المفترضة. قد نجد متغيرًا مستقلاً له بعض التأثير على المتغير التابع، ولكنه قد لا يكون الوحيد، وقد لا يكون حتى الأكثر أهمية. تذكر أنه تم وضع مصطلح الخطأ في النموذج لالتقاط تأثيرات أي متغيرات مستقلة مفقودة. ويترتب على ذلك أنه يمكن استخدام مصطلح الخطأ لإعطاء مقياس «مدى ملاءمة» المعادلة المأخوذة ككل في شرح تباين المتغير التابع\(Y\).

    يتم إعطاء معامل الارتباط المتعدد، والذي يُطلق عليه أيضًا معامل التحديد المتعدد أو معامل التحديد، بواسطة الصيغة:

    \[R^{2}=\frac{\mathrm{SSR}}{\mathrm{SST}}\nonumber\]

    حيث SSR هو مجموع الانحدار للمربعات، والانحراف التربيعي للقيمة المتوقعة\(y\) من القيمة المتوسطة لـ\(y(\hat{y}-\overline{y})\)، و SST هو المجموع الإجمالي يوضح الشكل 13.10 كيفية تقسيم الانحراف الكلي للمتغير التابع، y، إلى هاتين القطعتين.

    الشكل 13.10

    يوضح الشكل 13.10 خط الانحدار المقدر وملاحظة واحدة\(x_1\). يحاول تحليل الانحدار شرح تباين البيانات حول القيمة المتوسطة للمتغير التابع\(y\). السؤال هو، لماذا تختلف ملاحظات y عن المستوى المتوسط لـ\(y\)؟ \(x_1\)تختلف قيمة y عند الملاحظة عن المتوسط\(y\) بالفرق\(\left(y_{i}-\overline{y}\right)\). مجموع هذه الاختلافات المربعة هو SST، مجموع المربعات. \(x_1\)تنحرف القيمة الفعلية لـ at عن القيمة المقدرة\(\hat{y}\)، بالفرق بين القيمة المقدرة والقيمة الفعلية،\(\left(y_{i}-\hat{y}\right)\).\(y\) نذكر أن هذا هو مصطلح الخطأ، e، ومجموع هذه الأخطاء هو SSE، مجموع الأخطاء المربعة. انحراف القيمة المتوقعة لـ\(y\)،\(\hat y\)، عن القيمة المتوسطة لـ\(y\) هو\((\hat{y}-\overline{y})\) و هو SSR، مجموع انحدار المربعات. يطلق عليه «الانحدار» لأنه الانحراف الذي يفسره الانحدار. (في بعض الأحيان يُطلق على SSR اسم SSM لمجموع مربعات المتوسط لأنه يقيس الانحراف عن القيمة المتوسطة للمتغير التابع، y، كما هو موضح في الرسم البياني.).

    نظرًا لأن SST = SSR + SSE نرى أن معامل الارتباط المتعدد هو النسبة المئوية للتباين، أو الانحراف عن قيمته المتوسطة، وهذا ما تفسره المعادلة عند أخذها ككل.\(y\) \(R^2\)سيختلف بين صفر و1، حيث يشير الصفر إلى أنه لم يتم تفسير أي من الاختلافات بالمعادلة، بينما تشير القيمة 1 إلى أن 100% من التباين\(y\) قد تم شرحه بالمعادلة.\(y\) بالنسبة لدراسات السلاسل الزمنية تتوقع ارتفاعًا\(R^2\) وبالنسبة لبيانات المقطع العرضي تتوقع انخفاضًا\(R^2\).

    في حين أن الارتفاع\(R^2\) أمر مرغوب فيه، تذكر أن اختبارات الفرضية المتعلقة بوجود علاقة بين مجموعة من المتغيرات المستقلة ومتغير تابع معين هو العامل المحفز في استخدام نموذج الانحدار. إنه التحقق من صحة علاقة السبب والنتيجة التي طورتها بعض النظريات وهذا هو السبب الحقيقي وراء اختيارنا لتحليل الانحدار. زيادة عدد المتغيرات المستقلة سيكون لها تأثير الزيادة\(R^2\). ولحساب هذا التأثير، فإن المقياس الصحيح لمعامل التحديد هو\(\overline{R}^{2}\)، المعدل لدرجات الحرية، للحفاظ على الإضافة الطائشة للمتغيرات المستقلة.

    لا يوجد اختبار إحصائي لـ،\(R^2\) وبالتالي لا يمكن قول الكثير عن النموذج\(R^2\) باستخدام مستوى الثقة المميز لدينا. قد يختلف الطرازان اللذان لهما نفس حجم SSE، أي مجموع الأخطاء المربعة، اختلافًا كبيرًا\(R^2\) إذا كانت النماذج المنافسة تحتوي على SST مختلفة، أي المجموع الإجمالي للانحرافات المربعة. جودة الملاءمة بين النموذجين هي نفسها؛ كلاهما لهما نفس مجموع المربعات غير المفسرة، والأخطاء المربعة، ولكن بسبب المجموع الإجمالي الأكبر للمربعات في أحد النموذجين،\(R^2\) يختلف الأمر. مرة أخرى، القيمة الحقيقية للانحدار كأداة هي فحص الفرضيات المطورة من نموذج يتنبأ بعلاقات معينة بين المتغيرات. هذه اختبارات للفرضيات حول معاملات النموذج وليست لعبة تعظيم\(R^2\).

    هناك طريقة أخرى لاختبار الجودة العامة للنموذج العام وهي اختبار المعاملات كمجموعة وليس بشكل مستقل. نظرًا لأن هذا الانحدار متعدد (أكثر من X)، فإننا نستخدم اختبار F لتحديد ما إذا كانت معاملاتنا تؤثر بشكل جماعي على Y. الفرضية هي:

    \(H_{o} : \beta_{1}=\beta_{2}=\ldots=\beta_{i}=0\)

    \(H_a\): «واحد على الأقل من\(\beta_i\) الأرقام لا يساوي 0"

    إذا كان لا يمكن رفض فرضية الصفر، فإننا نستنتج أن أيًا من المتغيرات المستقلة لا يساهم في شرح الاختلاف في\(Y\). عند مراجعة الشكل 13.10، نرى أن SSR، مجموع المربعات الموضح، هو مقياس لمقدار التباين الذي\(Y\) يتم تفسيره من خلال جميع المتغيرات في النموذج. SSE، مجموع الأخطاء المربعة، يقيس مقدار الأخطاء غير المبررة. ويترتب على ذلك أن نسبة هذين يمكن أن توفر لنا اختبارًا إحصائيًا للنموذج ككل. تذكر أن\(F\) التوزيع عبارة عن نسبة لتوزيعات مربع Chi وأن الفروق يتم توزيعها وفقًا لـ Chi Squared، ومجموع الأخطاء المربعة ومجموع المربعات كلاهما تباينات، فلدينا إحصائية الاختبار لهذه الفرضية على النحو التالي:

    \[F_{c}=\frac{\left(\frac{S S R}{k}\right)}{\left(\frac{S S E}{n-k-1}\right)}\nonumber\]

    \(n\)أين عدد الملاحظات وعدد\(k\) المتغيرات المستقلة. يمكن إثبات أن هذا يعادل:

    \[F_{c}=\frac{n-k-1}{k} \cdot \frac{R^{2}}{1-R^{2}}\nonumber\]

    الشكل 13.10 أين\(R^2\) هو معامل التحديد الذي يعد أيضًا مقياسًا لـ «جودة» النموذج.

    كما هو الحال مع جميع اختباراتنا للفرضية، نصل إلى نتيجة من خلال مقارنة\(F\) الإحصاء المحسوب بالقيمة الحرجة بالنظر إلى مستوى الثقة المطلوب. إذا كانت إحصائية الاختبار المحسوبة، وهي\(F\) إحصائية في هذه الحالة، في ذيل التوزيع، فلا يمكننا قبول الفرضية الصفرية. من خلال عدم القدرة على قبول الفرضيات الصفرية، نستنتج أن مواصفات هذا النموذج صالحة، لأن واحدًا على الأقل من المعاملات المقدرة يختلف اختلافًا كبيرًا عن الصفر.

    هناك طريقة بديلة للوصول إلى هذا الاستنتاج وهي استخدام قاعدة مقارنة قيمة p. \(p\)القيمة -هي المنطقة الموجودة في الذيل، بالنظر إلى\(F\) الإحصاء المحسوب. في الأساس، يجد الكمبيوتر\(F\) القيمة في الجدول بالنسبة لنا. عادةً ما يتم العثور على مخرجات انحدار الكمبيوتر\(F\) للإحصاءات المحسوبة في قسم جدول ANOVA المسمى «الأهمية F». يتم عرض كيفية قراءة مخرجات انحدار Excel أدناه. هذا هو احتمال عدم قبول فرضية العدم الزائفة. إذا كان هذا الاحتمال أقل من خطأ ألفا المحدد مسبقًا، فإن الاستنتاج هو أننا لا نستطيع قبول فرضية العدم.

    المتغيرات الوهمية

    حتى الآن افترض تحليل تقنية انحدار OLS أن المتغيرات المستقلة في النماذج التي تم اختبارها كانت متغيرات عشوائية مستمرة. ومع ذلك، لا توجد قيود في نموذج الانحدار مقابل المتغيرات المستقلة الثنائية. هذا يفتح نموذج الانحدار لاختبار الفرضيات المتعلقة بالمتغيرات الفئوية مثل الجنس والعرق ومنطقة الدولة، قبل بيانات معينة، بعد تاريخ معين وغيرها لا حصر لها. تأخذ هذه المتغيرات الفئوية قيمتين فقط، 1 و 0، النجاح أو الفشل، من التوزيع الاحتمالي ذي الحدين. يصبح شكل المعادلة:

    \[\hat{y}=b_{0}+b_{2} x_{2}+b_{1} x_{1}\nonumber\]

    الشكل 13.11

    أين\(x_2=0\). \(X_2\)هو المتغير الوهمي\(X_1\) وهو بعض المتغيرات العشوائية المستمرة. الثابت،\(b_0\)، هو التقاطع y، القيمة التي يعبر فيها الخط\(y\) المحور -. عندما تتقاطع قيمة\(X_2 = 0\) الخط المقدر عند\(b_0\). عندما تتقاطع\(X_2 = 1\) قيمة الخط المقدر عند\(b_0 + b_2\). في الواقع، يتسبب المتغير الوهمي في تحول الخط المقدر إما لأعلى أو لأسفل حسب حجم تأثير الخاصية الملتقطة بواسطة المتغير الوهمي. لاحظ أن هذا هو تحول متوازي بسيط ولا يؤثر على تأثير المتغير المستقل\(X_1\) الآخر؛ هذا المتغير هو متغير عشوائي مستمر ويتنبأ بقيم مختلفة\(X_1\) لثبات حالة المتغير الوهمي.\(y\)

    مثال على استخدام متغير وهمي هو العمل الذي يقدر تأثير الجنس على الرواتب. هناك مجموعة كاملة من المؤلفات حول هذا الموضوع ويتم استخدام المتغيرات الوهمية على نطاق واسع. في هذا المثال، يتم فحص رواتب معلمي المدارس الابتدائية والثانوية لولاية معينة. إن استخدام فئة عمل متجانسة ومعلمي المدارس ولولاية واحدة يقلل من العديد من الاختلافات التي تؤثر بشكل طبيعي على الرواتب مثل المخاطر البدنية التفاضلية وتكلفة المعيشة في ولاية معينة وظروف العمل الأخرى. تحدد معادلة التقدير في أبسط صورها الراتب كدالة لخصائص المعلم المختلفة التي تشير النظرية الاقتصادية إلى أنها يمكن أن تؤثر على الراتب. وسيشمل ذلك مستوى التعليم كمقياس للإنتاجية المحتملة والعمر و/أو الخبرة للحصول على التدريب أثناء العمل، مرة أخرى كمقياس للإنتاجية. نظرًا لأن البيانات مخصصة لمعلمي المدارس العاملين في المناطق التعليمية العامة بدلاً من العاملين في شركة ربحية، يتم تضمين متوسط إيرادات المنطقة التعليمية لكل متوسط حضور يومي للطلاب كمقياس للقدرة على الدفع. فيما يلي نتائج تحليل الانحدار باستخدام بيانات عن 24916 من معلمي المدارس.

    متغير معاملات الانحدار (ب) الأخطاء القياسية لتقديرات
    وظيفة أرباح المعلم (sb)
    اعتراض 4269.9
    الجنس (ذكر = 1) 632.38 13.39
    إجمالي سنوات الخبرة 52.32 1.10
    سنوات من الخبرة في المنطقة الحالية 29.97 1.52
    التعليم 629.33 13.16
    إجمالي الإيرادات لكل ADA 90.24 3.76
    \(\overline{R}^{2}\) 7.25
    \(n\) 24,916
    الجدول 13.1 تقدير الأرباح لمعلمي المدارس الابتدائية والثانوية

    تختلف معاملات جميع المتغيرات المستقلة بشكل كبير عن الصفر كما هو موضح في الأخطاء القياسية. ينتج عن قسمة الأخطاء القياسية لكل معامل قيمة t أكبر من 1.96 وهو المستوى المطلوب لأهمية 95٪. المتغير الثنائي، المتغير الوهمي الذي يهمنا في هذا التحليل، هو الجنس حيث يُعطى الذكر قيمة 1 وتُعطى الأنثى قيمة 0. يختلف المعامل اختلافًا كبيرًا عن الصفر مع إحصائية t مثيرة تبلغ 47 انحرافًا معياريًا. وبالتالي لا يمكننا قبول الفرضية الصفرية بأن المعامل يساوي صفرًا. لذلك نستنتج أن هناك معلمين ذكور يتقاضون أجورًا إضافية قدرها 632 دولارًا بعد حصولهم على الخبرة المستمرة والتعليم وثروة المنطقة التعليمية التي يعمل فيها المعلم. من المهم ملاحظة أن هذه البيانات تعود إلى بعض الوقت وأن مبلغ 632 دولارًا يمثل علاوة راتب بنسبة ستة بالمائة في ذلك الوقت. يتم عرض رسم بياني لهذا المثال للمتغيرات الوهمية أدناه.

    الشكل 13.12

    في بعدين، يكون الراتب هو المتغير المعتمد على المحور الرأسي وتم اختيار إجمالي سنوات الخبرة للمتغير المستقل المستمر على المحور الأفقي. كان من الممكن اختيار أي من المتغيرات المستقلة الأخرى لتوضيح تأثير المتغير الوهمي. تميل العلاقة بين إجمالي سنوات الخبرة إلى 52.32 دولارًا لكل سنة من الخبرة والخط المقدر له نقطة تقاطع قدرها 4,269 دولارًا إذا كان متغير الجنس يساوي صفرًا للإناث. إذا كان متغير الجنس يساوي 1، بالنسبة للذكور، يتم إضافة معامل متغير الجنس إلى التقاطع وبالتالي يتم تحويل العلاقة بين إجمالي سنوات الخبرة والراتب إلى الأعلى بالتوازي كما هو موضح في الرسم البياني. تم وضع علامة على الرسم البياني أيضًا على نقاط مختلفة كمرجع. تحصل معلمة المدرسة التي لديها 10 سنوات من الخبرة على راتب قدره 4792 دولارًا على أساس خبرتها فقط، ولكن هذا لا يزال أقل بـ 109 دولارات من المعلم الذكر الذي لا يمتلك أي سنوات من الخبرة.

    يمكن أيضًا تقدير التفاعل الأكثر تعقيدًا بين المتغير الوهمي والمتغير التابع. قد يكون للمتغير الوهمي أكثر من تأثير التحول البسيط على المتغير التابع، ولكنه يتفاعل أيضًا مع واحد أو أكثر من المتغيرات المستقلة المستمرة الأخرى. على الرغم من عدم اختباره في المثال أعلاه، يمكن افتراض أن تأثير النوع الاجتماعي على الراتب لم يكن نوبة لمرة واحدة، ولكنه أثر على قيمة سنوات الخبرة الإضافية على الراتب أيضًا. أي أنه تم تخفيض رواتب مدرسات المدارس في البداية، ولم تنمو بنفس المعدل من تأثير التجربة كما هو الحال بالنسبة لمعلمي المدارس الذكور. سيظهر هذا كمنحدر مختلف للعلاقة بين إجمالي سنوات الخبرة للذكور مقارنة بالإناث. إذا كان الأمر كذلك، فإن مدرسات المدارس لن يبدأن فقط خلف زملائهن الذكور (كما تم قياسه من خلال التحول في خط الانحدار المقدر)، بل سيتخلفون أكثر فأكثر مع زيادة الوقت والخبرة.

    يوضح الرسم البياني أدناه كيف يمكن اختبار هذه الفرضية باستخدام المتغيرات الوهمية ومتغير التفاعل.

    الشكل 13.13

    توضح معادلة التقدير كيف أن ميل تجربة المتغير العشوائي المستمر يحتوي على جزأين\(b_1\) و\(b_3\).\(X_1\) يحدث هذا بسبب المتغير الجديد\(X_2\)\(X_1\)، المسمى متغير التفاعل، الذي تم إنشاؤه للسماح بالتأثير على منحدر التغييرات في\(X_2\) المتغير الوهمي الثنائي.\(X_1\) لاحظ أنه عند المتغير الوهمي،\(X_2 = 0\) يكون لمتغير التفاعل قيمة 0، ولكن عندما يكون\(X_2 = 1\) لمتغير التفاعل قيمة\(X_1\). المعامل\(b_3\) هو تقدير للفرق في المعامل\(X_1\) عند\(X_2= 1\) مقارنته بالوقت\(X_2 = 0\). في مثال رواتب المعلمين، إذا كانت هناك علاوة مدفوعة للمعلمين الذكور تؤثر على معدل الزيادة في الرواتب من التجربة، فإن معدل ارتفاع رواتب المعلمين الذكور سيكون\(b_1 + b_3\) ومعدل ارتفاع رواتب المدرسات ببساطة\(b_1\). يمكن اختبار هذه الفرضية من خلال الفرضية:

    \[H_{0} : \beta_{3}=0 | \beta_{1}=0, \beta_{2}=0\nonumber\]

    \[H_{a} : \beta_{3} \neq 0 | \beta_{1} \neq 0, \beta_{2} \neq 0\nonumber\]

    هذا\(t\) اختبار -يستخدم إحصائية الاختبار الخاصة بالمعلمة\(\beta_3\). إذا لم نتمكن من قبول الفرضية الصفرية التي\(\beta_3=0\) خلصنا إلى وجود فرق بين معدل الزيادة للمجموعة التي تم تعيين قيمة المتغير الثنائي لها على 1، الذكور في هذا المثال. يمكن دمج معادلة التقدير هذه مع المعادلة السابقة التي تم رسمها في الشكل 13.13 لهذه الحالة مع تحول في دالة الأرباح واختلاف في ميل الدالة فيما يتعلق بإجمالي سنوات الخبرة.

    المثال 13.5

    أنتجت عينة عشوائية مكونة من 11 طالبًا إحصائيًا البيانات التالية، حيث x هي درجة الاختبار الثالثة من أصل 80، و y هي درجة الاختبار النهائية من أصل 200. هل يمكنك توقع درجة الاختبار النهائية لطالب تم اختياره عشوائيًا إذا كنت تعرف درجة الاختبار الثالث؟

    جدول يوضح درجات الاختبار النهائي بناءً على درجات الاختبار الثالث.
    \(x\)(درجة الاختبار الثالث) \(y\)(درجة الاختبار النهائي)
    65 175
    67 133
    71 185
    71 163
    66 126
    75 198
    67 153
    70 163
    71 159
    69 151
    69 159
    الجدول 13-2
    هذا مخطط مبعثر للبيانات المقدمة. يتم رسم نتيجة الاختبار الثالث على المحور السيني، ويتم رسم درجة الاختبار النهائية على المحور y. تشكل النقاط نمطًا خطيًا قويًا وإيجابيًا.

    الشكل 13.14 رسم بياني مبعثر يوضح الدرجات في الاختبار النهائي بناءً على درجات الاختبار الثالث.