Loading [MathJax]/extensions/TeX/boldsymbol.js
Skip to main content
Library homepage
 
Global

13.4: معادلة الانحدار

تحليل الانحدار هو تقنية إحصائية يمكنها اختبار الفرضية القائلة بأن المتغير يعتمد على متغير واحد أو أكثر من المتغيرات الأخرى. علاوة على ذلك، يمكن أن يوفر تحليل الانحدار تقديرًا لحجم تأثير التغيير في متغير واحد على آخر. هذه الميزة الأخيرة، بالطبع، كلها مهمة في التنبؤ بالقيم المستقبلية.

يعتمد تحليل الانحدار على علاقة وظيفية بين المتغيرات، وعلاوة على ذلك، يفترض أن العلاقة خطية. هذا الافتراض الخطي مطلوب لأنه، في معظم الأحيان، لم يتم تحديد الخصائص الإحصائية النظرية للتقدير غير الخطي بشكل جيد حتى الآن من قبل علماء الرياضيات وعلماء الاقتصاد القياسي. هذا يطرح علينا بعض الصعوبات في التحليل الاقتصادي لأن العديد من نماذجنا النظرية غير خطية. منحنى التكلفة الحدية، على سبيل المثال، غير خطي بالتأكيد كما هو الحال مع دالة التكلفة الإجمالية، إذا أردنا أن نؤمن بتأثير تخصص العمل وقانون المنتج الهامشي المتناقص. هناك تقنيات للتغلب على بعض هذه الصعوبات، مثل التحويل الأسي واللوغاريتمي للبيانات على سبيل المثال، ولكن في البداية يجب أن ندرك أن تحليل انحدار المربعات الصغرى العادية (OLS) سيستخدم دائمًا دالة خطية لتقدير ما يمكن أن يكون غير خطي علاقة.

يمكن تحديد نموذج الانحدار الخطي العام بالمعادلة:

y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+\varepsilon_{i}\nonumber

\beta_0أين التقاطع،\beta_i والانحدار بينY والمناسبX_i، و\epsilon (يُنطق epsilon)، هو مصطلح الخطأ الذي يلتقط الأخطاء في القياس والتأثير علىY أي متغيرات مفقودة من المعادلة التي من شأنهاY المساهمة في شرح الاختلافات فيY. هذه المعادلة هي المعادلة السكانية النظرية وبالتالي تستخدم الحروف اليونانية. ستحتوي المعادلة التي سنقدرها على الرموز الرومانية المكافئة. هذا بالتوازي مع كيفية تتبع المعلمات السكانية ومعايير العينة من قبل. كان\mu رمز المتوسط السكاني وبالنسبة لمتوسط\overline{X} العينة والانحراف المعياري للسكان\sigma وكان الانحراف المعياري للعينة هوs. وبالتالي فإن المعادلة التي سيتم تقديرها مع عينة من البيانات لمتغيرين مستقلين ستكون:

y_{i}=b_{0}+b_{1} x_{1 i}+b_{2} x_{2 i}+e_{i}\nonumber

كما هو الحال مع عملنا السابق مع التوزيعات الاحتمالية، لا يعمل هذا النموذج إلا إذا صمدت افتراضات معينة. هذه هي أن الأخطاءY يتم توزيعها بشكل طبيعي، ويتم أيضًا توزيع الأخطاء عادةً بمتوسط صفر وانحراف معياري ثابت، وأن مصطلحات الخطأ مستقلة عن الحجمX ومستقلة عن بعضها البعض.

افتراضات نموذج انحدار المربعات الصغرى العادية

يحتاج كل من هذه الافتراضات إلى مزيد من الشرح. إذا لم يكن أحد هذه الافتراضات صحيحًا، فسيكون له تأثير على جودة التقديرات. يمكن إصلاح بعض إخفاقات هذه الافتراضات بينما يؤدي البعض الآخر إلى تقديرات لا تقدم ببساطة أي نظرة ثاقبة للأسئلة التي يحاول النموذج الإجابة عليها أو الأسوأ من ذلك، إعطاء تقديرات متحيزة.

  1. يتم قياس جميع المتغيرات المستقلة بدون خطأ، وهي أرقام ثابتة مستقلة عن مصطلح الخطأ.x_i هذا الافتراض يقول في الواقع أنY الأمر حتمي، وهو نتيجة المكون الثابت «X» ومكون الخطأ العشوائي «»\epsilon.
  2. مصطلح الخطأ هو متغير عشوائي بمتوسط صفر وتباين ثابت. معنى هذا هو أن تباينات المتغيرات المستقلة مستقلة عن قيمة المتغير. ضع في اعتبارك العلاقة بين الدخل الشخصي وكمية السلعة المشتراة كمثال لحالة يعتمد فيها التباين على قيمة المتغير المستقل، الدخل. من المعقول أنه مع زيادة الدخل، سيزداد التباين حول المبلغ الذي تم شراؤه أيضًا بسبب المرونة المتوفرة مع مستويات أعلى من الدخل. الافتراض هو التباين المستمر فيما يتعلق بحجم المتغير المستقل المسمى التجانس. إذا فشل الافتراض، فإنه يطلق عليه اسم التغاير. يوضح الشكل 13.6 حالة التماثل حيث تحتوي جميع التوزيعات الثلاثة على نفس التباين حول القيمة المتوقعةY بغض النظر عن حجمهاX.
  3. في حين أن المتغيرات المستقلة كلها قيم ثابتة، إلا أنها تأتي من توزيع احتمالي يتم توزيعه بشكل طبيعي. يمكن ملاحظة ذلك في الشكل 13.6 من خلال شكل التوزيعات الموضوعة على الخط المتوقع بالقيمة المتوقعة للقيمة ذات الصلة لـY.
  4. المتغيرات المستقلة مستقلة عنX المتغيرات الأخرىY، ولكن يُفترض أيضًا أنها مستقلة عنها. تم تصميم النموذج لتقدير تأثيرات المتغيرات المستقلة على بعض المتغيرات التابعة وفقًا للنظرية المقترحة. الحالة التي ترتبط فيها بعض المتغيرات المستقلة أو أكثر ليست غير عادية. قد لا تكون هناك علاقة سبب وتأثير بين المتغيرات المستقلة، ولكنها مع ذلك تتحرك معًا. خذ حالة منحنى العرض البسيط حيث ترتبط الكمية الموردة نظريًا بسعر المنتج وأسعار المدخلات. قد تكون هناك مدخلات متعددة قد تتحرك معًا بمرور الوقت من الضغط التضخمي العام. وبالتالي فإن أسعار المدخلات ستنتهك افتراض تحليل الانحدار هذا. تسمى هذه الحالة تعدد الخطوط، والتي سيتم تناولها بالتفصيل لاحقًا.
  5. مصطلحات الخطأ غير مرتبطة ببعضها البعض. تنشأ هذه الحالة من التأثير على مصطلح خطأ واحد من مصطلح خطأ آخر. على الرغم من أنها ليست مشكلة السلاسل الزمنية حصريًا، إلا أننا هنا غالبًا ما نرى هذه الحالة. Xمتغير في الفترة الزمنية الأولى له تأثير علىY المتغير، ولكن هذا التأثير يكون له تأثير في الفترة الزمنية التالية. يؤدي هذا التأثير إلى ظهور علاقة بين مصطلحات الخطأ. تسمى هذه الحالة الارتباط التلقائي، «الارتباط الذاتي». مصطلحات الخطأ الآن ليست مستقلة عن بعضها البعض، بل لها تأثيرها الخاص على مصطلحات الخطأ اللاحقة.

لا يعرض الشكل 13.6 جميع افتراضات نموذج الانحدار، ولكنه يساعد على تصور هذه الافتراضات المهمة.

الشكل 13.6

الشكل 13.7

هذا هو الشكل العام الذي يُطلق عليه غالبًا نموذج الانحدار المتعدد. يحتوي ما يسمى بتحليل الانحدار «البسيط» على متغير مستقل واحد فقط (يمين) بدلاً من العديد من المتغيرات المستقلة. الانحدار البسيط هو مجرد حالة خاصة من الانحدار المتعدد. هناك بعض القيمة في البدء بالانحدار البسيط: من السهل الرسم البياني في بعدين، ويصعب الرسم البياني في ثلاثة أبعاد، ويستحيل الرسم البياني في أكثر من ثلاثة أبعاد. وبالتالي، ستكون الرسوم البيانية الخاصة بنا لحالة الانحدار البسيطة. يعرض الشكل 13.7 مشكلة الانحدار في شكل رسم بياني مبعثر لمجموعة البيانات حيثY يُفترض أن ذلك يعتمد على المتغير المستقل الفرديX.

العلاقة الأساسية من مبادئ الاقتصاد الكلي هي وظيفة الاستهلاك. تنص هذه العلاقة النظرية على أنه مع ارتفاع دخل الشخص، يرتفع استهلاكه، ولكن بمقدار أقل من ارتفاع الدخل. إذا كان الاستهلاكYX هو الدخل في المعادلة أدناه الشكل 13.7، فإن مشكلة الانحدار هي، أولاً، إثبات وجود هذه العلاقة، وثانيًا، تحديد تأثير التغيير في الدخل على استهلاك الشخص. \beta_1كانت المعلمة تسمى الميل الهامشي للاستهلاك في مبادئ الاقتصاد الكلي.

تمثل كل «نقطة» في الشكل 13.7 استهلاك ودخل الأفراد المختلفين في وقت ما. كان هذا يسمى بيانات المقطع العرضي سابقًا؛ ملاحظات حول المتغيرات في وقت ما عبر أشخاص مختلفين أو وحدات قياس أخرى. غالبًا ما يتم إجراء هذا التحليل باستخدام بيانات السلاسل الزمنية، والتي ستكون استهلاك ودخل فرد أو بلد واحد في نقاط زمنية مختلفة. بالنسبة لمشاكل الاقتصاد الكلي، من الشائع استخدام البيانات المجمعة للسلاسل الزمنية لبلد بأكمله. بالنسبة لهذا المفهوم النظري الخاص، تتوفر هذه البيانات بسهولة في التقرير السنوي لمجلس الرئيس للمستشارين الاقتصاديين.

الشكل 13.8. يُطلق على تحليل الانحدار أحيانًا تحليل «المربعات الصغرى» لأن طريقة تحديد الخط الأكثر «ملاءمة» للبيانات هي تقليل مجموع البقايا المربعة للخط الذي يتم وضعه من خلال البيانات.

الشكل 13.8 المعادلة
السكانية: المعادلة\mathrm{C}=\beta_{0}+\beta_{1} \text{lncome}+\varepsilon
التقديرية:C=b_{0}+b_{1} \text{lncome}+e

يوضح هذا الشكل العلاقة المفترضة بين الاستهلاك والدخل من نظرية الاقتصاد الكلي. هنا يتم رسم البيانات كمخطط مبعثر وتم رسم خط مستقيم تقديري. من هذا الرسم البياني يمكننا رؤية مصطلح خطأ،e_1. تحتوي كل نقطة بيانات أيضًا على مصطلح خطأ. مرة أخرى، يتم وضع مصطلح الخطأ في المعادلة لالتقاط التأثيرات على الاستهلاك التي لا تسببها تغيرات الدخل. قد تكون هذه الآثار الأخرى مدخرات الشخص أو ثروته، أو فترات البطالة. سنرى كيف يمكننا من خلال تقليل مجموع هذه الأخطاء الحصول على تقدير لمنحدر وتعترض هذا الخط.

ضع في اعتبارك الرسم البياني أدناه. عاد الترميز إلى ذلك بالنسبة للنموذج الأكثر عمومية بدلاً من الحالة المحددة لوظيفة استهلاك الاقتصاد الكلي في مثالنا.

الشكل 13.9

\hat{\mathrm{y}}تتم قراءة "\bf yالقبعة» وهي القيمة المقدرة لـ\bf y. (في الشكل 13.8\hat{C} تمثل القيمة المقدرة للاستهلاك لأنها موجودة على الخط المقدر.) إنها القيمة التيy تم الحصول عليها باستخدام خط الانحدار. \hat{\mathrm{y}}لا تساوي بشكل عامy من البيانات.

هذا المصطلحy_{0}-\hat{y}_{0}=e_{0} يسمى «الخطأ» أو المتبقي. إنه ليس خطأ بمعنى الخطأ. تم وضع مصطلح الخطأ في معادلة التقدير لالتقاط المتغيرات المفقودة والأخطاء في القياس التي قد تكون حدثت في المتغيرات التابعة. تقيس القيمة المطلقة للمتبقي المسافة الرأسية بين القيمة الفعلية والقيمة المقدرة لـy.y بمعنى آخر، يقيس المسافة الرأسية بين نقطة البيانات الفعلية والنقطة المتوقعة على الخط كما يمكن رؤيتها على الرسم البياني عند النقطةX_0.

إذا كانت نقطة البيانات المرصودة تقع فوق الخط، يكون المتبقي موجبًا، ويقلل الخط من قيمة البيانات الفعلية لـy.

إذا كانت نقطة البيانات المرصودة تقع أسفل الخط، يكون المتبقي سالبًا، ويبالغ الخط في تقدير قيمة البيانات الفعلية لـy.

في الرسم البياني،y_{0}-\hat{y}_{0}=e_{0} يظهر الجزء المتبقي من النقطة المعروضة. هنا تكمن النقطة فوق الخط والباقي إيجابي. بالنسبة لكل نقطة بيانات، يتم حسابy_{i}-\hat{y}_{i}=e_{i} البقايا أو الأخطاءi = 1, 2, 3, ..., n وفقًاn لمكان حجم العينة. كل منها|e| عبارة عن مسافة رأسية.

مجموع الأخطاء المربعة هو المصطلح الذي يُطلق عليه بوضوح مجموع الأخطاء المربعة (SSE).

باستخدام حساب التفاضل والتكامل، يمكنك تحديد الخط المستقيم الذي يحتوي على قيم المعلماتb_1 والتي تقلل من SSE.b_0 عندما تجعل SSE كحد أدنى، تكون قد حددت النقاط التي تقع على الخط الأنسب. اتضح أن الخط الأنسب له المعادلة:

\hat{y}=b_{0}+b_{1} x\nonumber

أينb_{0}=\overline{y}-b_{1} \overline{x} وb_{1}=\frac{\Sigma(x-\overline{x})(y-\overline{y})}{\Sigma(x-\overline{x})^{2}}=\frac{\operatorname{cov}(x, y)}{s_{x}^{2}}

وسائل العينةx للقيمy والقيم هي\overline{x} و\overline{y}، على التوالي. يمر الخط الأفضل دائمًا عبر النقطة (\overline{y}،\overline{x}) التي تسمى نقاط الوسائل.

bيمكن أيضًا كتابة المنحدر على النحو التالي:

b_{1}=r_{\mathrm{y}, \mathrm{x}}\left(\frac{s_{y}}{s_{x}}\right)\nonumber

حيثs_y = الانحراف المعياريy للقيم وs_x = الانحراف المعياريx للقيمr وهو معامل الارتباط بينx وy.

تسمى هذه المعادلات المعادلات العادية وتأتي من اكتشاف رياضي آخر مهم جدًا يسمى نظرية Gauss-Markov والتي بدونها لا يمكننا إجراء تحليل الانحدار. تخبرنا نظرية Gauss-Markov أن التقديرات التي نحصل عليها من استخدام طريقة انحدار المربعات الصغرى العادية (OLS) ستؤدي إلى تقديرات لها بعض الخصائص المهمة جدًا. في نظرية غاوس-ماركوف، ثبت أن خط المربعات الأقل هو الأزرق، وهو B est، L الخطي، U غير متحيز، E stimator. الأفضل هي الخاصية الإحصائية التي تفيد بأن المقدّر هو الذي يحتوي على الحد الأدنى من التباين. يشير الخطي إلى خاصية نوع الخط الذي يتم تقديره. المقدّر غير المتحيز هو الشخص الذي تحتوي دالة تقديره على متوسط متوقع يساوي متوسط عدد السكان. (ستتذكر أن القيمة المتوقعة\mu_{\overline{x}} كانت مساوية لمتوسط\mu السكان وفقًا لنظرية الحد المركزي. هذا هو بالضبط نفس المفهوم هنا).

كان كل من غاوس وماركوف عمالقة في مجال الرياضيات، وغاوس في الفيزياء أيضًا، في القرن الثامن عشر وأوائل القرن التاسع عشر. وتداخلت بالكاد من الناحية الزمنية ولم تتداخل أبدًا في الجغرافيا، لكن عمل ماركوف على هذه النظرية استند بشكل كبير إلى العمل السابق لكارل غاوس. كان على القيمة التطبيقية الواسعة لهذه النظرية الانتظار حتى منتصف القرن الماضي.

باستخدام طريقة OLS يمكننا الآن العثور على تقدير تباين الخطأ وهو تباين الأخطاء المربعة، e 2. يُطلق على هذا أحيانًا الخطأ القياسي للتقدير. (من الناحية النحوية، ربما يكون أفضل قول عن ذلك هو تقدير تباين الخطأ) صيغة تقدير تباين الخطأ هي:

s_{e}^{2}=\frac{\Sigma\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-k}=\frac{\Sigma e_{i}^{2}}{n-k}\nonumber

أين\hat{y} القيمة المتوقعة والقيمة الملاحظة، وبالتالي فإن المصطلح\left(y_{i}-\hat{y}_{i}\right)^{2} هو الأخطاء المربعة التي يجب تقليلها للعثور على تقديرات بارامترات خط الانحدار.yy هذا في الحقيقة مجرد تباين مصطلحات الخطأ ويتبع صيغة التباين العادية الخاصة بنا. إحدى الملاحظات المهمة هي أننا هنا(n−k) نقسم على درجات الحرية. ستكون درجات حرية معادلة الانحدار هي عدد الملاحظاتn، مع تقليلها بعدد المعلمات المقدرة، والتي تتضمن التقاطع كمعامل.

يعد تباين الأخطاء أمرًا أساسيًا في اختبار فرضيات الانحدار. إنه يخبرنا عن مدى «ضيق» التشتت حول الخط. كما سنرى قريبًا، كلما زاد التشتت حول الخط، مما يعني أنه كلما زاد تباين الأخطاء، قل احتمال أن يكون للمتغير المستقل المفترض تأثير كبير على المتغير التابع. باختصار، من المرجح أن تفشل النظرية التي يتم اختبارها إذا كان تباين مصطلح الخطأ مرتفعًا. عند التفكير، لا ينبغي أن يكون هذا مفاجأة. عندما اختبرنا الفرضيات حول المتوسط، لاحظنا أن الفروق الكبيرة قللت من إحصائية الاختبار المحسوبة وبالتالي فشلت في الوصول إلى ذيل التوزيع. وفي هذه الحالات، لا يمكن رفض الفرضيات اللاغية. إذا لم نتمكن من رفض الفرضية الصفرية في مشكلة الانحدار، يجب أن نستنتج أن المتغير المستقل المفترض ليس له أي تأثير على المتغير التابع.

تتمثل إحدى طرق تصور هذا المفهوم في رسم مخططين مبعثرينxy وبيانات على طول خط محدد مسبقًا. الأول سيكون له تباين بسيط في الأخطاء، مما يعني أن جميع نقاط البيانات ستتحرك بالقرب من الخط. الآن افعل نفس الشيء باستثناء نقاط البيانات التي ستحتوي على تقدير كبير لتباين الخطأ، مما يعني أن نقاط البيانات مبعثرة على نطاق واسع على طول الخط. من الواضح أن الثقة في العلاقة بينx وبينy وتتأثر بهذا الاختلاف بين تقدير تباين الخطأ.

اختبار معايير الخط

كان الهدف الكامل من تحليل الانحدار هو اختبار الفرضية القائلة بأن المتغير التابعY، كان يعتمد في الواقع على قيم المتغيرات المستقلة كما تؤكدها بعض نظريات التأسيس، مثل مثال دالة الاستهلاك. بالنظر إلى المعادلة المقدرة تحت الشكل 13.8، نرى أن هذا يرقى إلى تحديد قيمb_0 وb_1. لاحظ أننا نستخدم مرة أخرى اصطلاح الحروف اليونانية لمعايير السكان والأحرف الرومانية لتقديراتها.

سيُنتج ناتج تحليل الانحدار الذي يوفره برنامج الكمبيوتر تقديرًاb_0 للمتغيرات المستقلة الأخرى التي تم تضمينها في المعادلة المقدرة.b_1b المشكلة هي ما مدى جودة هذه التقديرات؟ من أجل اختبار الفرضية المتعلقة بأي تقدير، وجدنا أننا بحاجة إلى معرفة توزيع العينات الأساسي. لا ينبغي أن يكون مفاجئًا في مرحلته من الدورة أن الإجابة ستكون التوزيع الطبيعي. يمكن ملاحظة ذلك من خلال تذكر افتراض أن مصطلح الخطأ في السكان،\epsilon، يتم توزيعه بشكل طبيعي. إذا كان مصطلح الخطأ موزعًا بشكل طبيعي وتم تحديد التباين في تقديرات معاملات المعادلةb_1،b_0 ويتم تحديده من خلال تباين مصطلح الخطأ، فسيترتب على ذلك أن تباينات تقديرات المعلمات يتم توزيعها أيضًا بشكل طبيعي. وبالفعل هذا هو الحال فقط.

يمكننا أن نرى ذلك من خلال إنشاء إحصائية الاختبار لاختبار فرضية معامل المنحدر،\beta_1 في معادلة دالة الاستهلاك. لاختبار ما إذا كان الاستهلاك يعتمد بالفعل على الدخل أمY لاX، أو في مثالنا، نحتاج فقط إلى اختبار الفرضية التي\beta_1 تساوي الصفر. سيتم ذكر هذه الفرضية رسميًا على النحو التالي:

H_{0} : \beta_{1}=0\nonumber

H_{a} : \beta_{1} \neq 0\nonumber

إذا لم نتمكن من رفض فرضية العدم، يجب أن نستنتج أن نظريتنا ليس لها أي صحة. إذا لم نتمكن من رفض الفرضية الصفريةb_1،\beta_1 = 0 فإن معامل الدخل هو صفر وصفر مضروبًا في أي شيء يساوي صفرًا. لذلك فإن تأثير الدخل على الاستهلاك هو صفر. لا توجد علاقة كما اقترحت نظريتنا.

لاحظ أننا أعددنا الافتراض، فرضية العدم، على أنه «لا علاقة». هذا يضع عبء الإثبات على الفرضية البديلة. بعبارة أخرى، إذا أردنا التحقق من صحة ادعائنا بإيجاد علاقة، يجب أن نفعل ذلك بمستوى أهمية أكبر من 90 أو 95 أو 99 بالمائة. الوضع الراهن هو الجهل، ولا توجد علاقة، ولكي نكون قادرين على الادعاء الذي أضفناه بالفعل إلى مجموعة المعرفة الخاصة بنا، يجب أن نفعل ذلك مع احتمال كبير بأن نكون على صواب. لقد فهم جون ماينارد كينز ذلك بشكل صحيح، وبالتالي ولد الاقتصاد الكينزي بدءًا من هذا المفهوم الأساسي في عام 1936.

تأتي إحصائية الاختبار لهذا الاختبار مباشرة من صديقنا القديم بالصيغة الموحدة:

t_{c}=\frac{b_{1}-\beta_{1}}{S_{b_{1}}}\nonumber

أينb_1 القيمة المقدرة لمنحدر خط الانحدار،\beta_1 هي القيمة المفترضة لبيتا، في هذه الحالة صفر،S_{b_1} وهي الانحراف المعياري للتقديرb_1. في هذه الحالة، نسأل عن عدد الانحرافات المعيارية التي تمثل المنحدر المقدر بعيدًا عن المنحدر المفترض. هذا هو بالضبط نفس السؤال الذي طرحناه من قبل فيما يتعلق بفرضية حول المتوسط: كم عدد الانحرافات المعيارية هي المتوسط المقدر، متوسط العينة، من المتوسط المفترض؟

تتم كتابة إحصائيات الاختبار كتوزيع t للطالب، ولكن إذا كان حجم العينة أكبر بما يكفي بحيث تكون درجات الحرية أكبر من 30، فقد نستخدم التوزيع العادي مرة أخرى. لنرى لماذا يمكننا استخدام t للطالب أو التوزيع العادي الذي علينا فقط أن ننظر إليهS_{b_1}، صيغة الانحراف المعياري لتقديرb_1:

S_{b_{1}}=\frac{S_{e}^{2}}{\sqrt{\left(x_{i}-\overline{x}\right)^{2}}}\nonumber

\text{or}\nonumber

S_{b_{1}}=\frac{S_{e}^{2}}{(n-1) S_{x}^{2}}\nonumber

أينS_e يتم تقدير تباين الخطأS^2_x وتباينx قيم معامل المتغير المستقل الذي يتم اختباره.

نرى أنS_e تقدير تباين الخطأ هو جزء من الحساب. نظرًا لأن تقدير تباين الخطأ يعتمد على افتراض الحالة الطبيعية لمصطلحات الخطأ، يمكننا أن نستنتج أن توزيع عينات الـ sb، ومعاملات خط الانحدار المفترض، يتم توزيعه أيضًا بشكل طبيعي.

ملاحظة أخيرة تتعلق بدرجات حرية إحصائية الاختبار,ν=n-k. لقد طرحنا سابقًا 1 من حجم العينة لتحديد درجات الحرية في مشكلة t الخاصة بالطالب. هنا يجب أن نطرح درجة واحدة من الحرية لكل معلمة مقدرة في المعادلة. على سبيل المثال، نفقد درجتين من الحريةb_0، واحدة للاعتراض، والأخرىb_1 لمنحدر دالة الاستهلاك. ستكون درجات الحريةn - k - 1، حيث k هو عدد المتغيرات المستقلة ويتم فقدان المتغير الإضافي بسبب الاعتراض. إذا قمنا بتقدير معادلة تحتوي على ثلاثة متغيرات مستقلة، فسوف نفقد 4 درجات من الحرية: ثلاث للمتغيرات المستقلةk، وواحدة أخرى للمتغيرات المعترض.

تتبع قاعدة القرار الخاصة بقبول أو رفض فرضية العدم نفس الشكل تمامًا كما في جميع اختبارات الفرضية السابقة. وبالتحديد، إذا كانت القيمة المحسوبة لـt (أوZ) تقع في ذيول التوزيع، حيث يتم تحديد\alpha الذيول بمستوى الأهمية المطلوب في الاختبار، فلا يمكننا قبول الفرضية الصفرية. من ناحية أخرى، إذا كانت القيمة المحسوبة لإحصائية الاختبار ضمن المنطقة الحرجة، فلا يمكننا رفض الفرضية الصفرية.

إذا استنتجنا أنه لا يمكننا قبول الفرضية الصفرية، فإننا قادرون على(1−\alpha) القول بمستوى من الثقة بأن ميل الخط ناتج عن ذلكb_1. هذا استنتاج مهم للغاية. لا يسمح لنا تحليل الانحدار باختبار ما إذا كانت هناك علاقة بين السبب والنتيجة فحسب، بل يمكننا أيضًا تحديد حجم تلك العلاقة، في حالة وجود علاقة. إن ميزة تحليل الانحدار هذه هي التي تجعلها ذات قيمة كبيرة. إذا كان من الممكن تطوير نماذج ذات صلاحية إحصائية، فإننا قادرون بعد ذلك على محاكاة تأثيرات التغييرات في المتغيرات التي قد تكون تحت سيطرتنا بدرجة معينة من الاحتمال، بالطبع. على سبيل المثال، إذا ثبت أن الإعلانات تؤثر على المبيعات، يمكننا تحديد آثار تغيير ميزانية الإعلان وتحديد ما إذا كانت المبيعات المتزايدة تستحق النفقات المضافة.

الخطية متعددة الألوان

أشارت مناقشتنا سابقًا إلى أنه مثل جميع النماذج الإحصائية، يحتوي نموذج انحدار OLS على افتراضات مهمة مرفقة. كل افتراض، في حالة انتهاكه، له تأثير على قدرة النموذج على تقديم تقديرات مفيدة وذات مغزى. لقد أكدت لنا نظرية Gauss-Markov أن تقديرات OLS غير متحيزة والحد الأدنى من التباين، ولكن هذا صحيح فقط في ظل افتراضات النموذج. هنا سنلقي نظرة على التأثيرات على تقديرات OLS إذا كانت المتغيرات المستقلة مرتبطة. يتم فحص الافتراضات الأخرى وطرق التخفيف من الصعوبات التي تشكلها إذا ثبت انتهاكها في دورات الاقتصاد القياسي. نحن نتناول تعدد الخطوط لأنه غالبًا ما يكون سائدًا في النماذج الاقتصادية وغالبًا ما يؤدي إلى نتائج محبطة.

يفترض نموذج OLS أن جميع المتغيرات المستقلة مستقلة عن بعضها البعض. من السهل اختبار هذا الافتراض لعينة معينة من البيانات باستخدام معاملات ارتباط بسيطة. الارتباط، مثله مثل الكثير في الإحصاءات، هو مسألة درجة: القليل ليس جيدًا، والكثير أمر فظيع.

الهدف من تقنية الانحدار هو استخلاص التأثيرات المستقلة لكل مجموعة من المتغيرات المستقلة على بعض المتغيرات التابعة المفترضة. إذا كان هناك متغيران مستقلان مترابطان، أي مترابطين، فلا يمكننا عزل التأثيرات علىY أحدهما عن الآخر. في الحالة القصوى التيx_1 يكون فيها مزيج خطي منx_2 الارتباط يساوي واحدًا، يتحرك كلا المتغيرين بطرق متطابقة معY. في هذه الحالة، من المستحيل تحديد المتغير الذي هو السبب الحقيقي للتأثير علىY. (إذا كان المتغيران مترابطين تمامًا فعليًا، فلا يمكن فعليًا حساب أي نتائج للانحدار رياضيًا.)

تُظهر المعادلات العادية للمعاملات تأثيرات تعدد الخطوط على المعاملات.

b_{1}=\frac{s_{y}\left(r_{x_{1} y}-r_{x_{1} x_{2}} r_{x_{2} y}\right)}{s_{x_{1}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber

b_{2}=\frac{s_{y}\left(r_{x_{2 y}}-r_{x_{1} x_{2}} r_{x_{1} y}\right)}{s_{x_{2}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber

b_{0}=\overline{y}-b_{1} \overline{x}_{1}-b_{2} \overline{x}_{2}\nonumber

يظهر الارتباط بينx_1 وx_2r_{x_{1} x_{2}}^{2}, في المقام لكل من صيغة التقدير لـb_1 وb_2. إذا استمر افتراض الاستقلال، فإن هذا المصطلح هو صفر. يشير هذا إلى عدم وجود تأثير للارتباط على المعامل. من ناحية أخرى، كلما زاد الارتباط بين المتغيرين المستقلين، يتناقص المقام، وبالتالي يزداد تقدير المعامل. الارتباط له نفس التأثير على كل من معاملات هذين المتغيرين. في الأساس، كل متغير «يأخذ» جزءًا من التأثير على Y الذي يجب أن يُنسب إلى المتغير الخطي. ينتج عن هذا تقديرات متحيزة.

تعدد الخطوط له تأثير ضار آخر على تقديرات OLS. يظهر الارتباط بين المتغيرين المستقلين أيضًا في الصيغ لتقدير التباين للمعاملات.

s_{b_{1}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{1}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber

s_{b_{2}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{2}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber

هنا مرة أخرى نرى الارتباط بينx_1x_2 وفي مقام تقديرات التباين لمعاملات كلا المتغيرين. إذا كان الارتباط صفرًا كما هو مفترض في نموذج الانحدار، فإن الصيغة تنهار إلى النسبة المألوفة لتباين الأخطاء إلى تباين المتغير المستقل ذي الصلة. ولكن إذا كان المتغيران المستقلان مترابطان، فإن التباين في تقدير المعامل يزداد. ينتج عن هذاt قيمة -أصغر لاختبار فرضية المعامل. باختصار، يؤدي تعدد الخطوط إلى الفشل في رفض الفرضية الصفرية التيX ليسX للمتغير أي تأثير عليهاY عندما يكون له في الواقع تأثير مهم إحصائيًا عليهاY. من ناحية أخرى، تشير الأخطاء القياسية الكبيرة للمعامل المقدر الناتج عن تعدد الخطوط إلى عدم الأهمية الإحصائية حتى عندما تكون العلاقة المفترضة قوية.

ما مدى جودة المعادلة؟

في القسم الأخير، اهتممنا باختبار الفرضية القائلة بأن المتغير التابع يعتمد بالفعل على المتغير أو المتغيرات المستقلة المفترضة. قد نجد متغيرًا مستقلاً له بعض التأثير على المتغير التابع، ولكنه قد لا يكون الوحيد، وقد لا يكون حتى الأكثر أهمية. تذكر أنه تم وضع مصطلح الخطأ في النموذج لالتقاط تأثيرات أي متغيرات مستقلة مفقودة. ويترتب على ذلك أنه يمكن استخدام مصطلح الخطأ لإعطاء مقياس «مدى ملاءمة» المعادلة المأخوذة ككل في شرح تباين المتغير التابعY.

يتم إعطاء معامل الارتباط المتعدد، والذي يُطلق عليه أيضًا معامل التحديد المتعدد أو معامل التحديد، بواسطة الصيغة:

R^{2}=\frac{\mathrm{SSR}}{\mathrm{SST}}\nonumber

حيث SSR هو مجموع الانحدار للمربعات، والانحراف التربيعي للقيمة المتوقعةy من القيمة المتوسطة لـy(\hat{y}-\overline{y})، و SST هو المجموع الإجمالي يوضح الشكل 13.10 كيفية تقسيم الانحراف الكلي للمتغير التابع، y، إلى هاتين القطعتين.

الشكل 13.10

يوضح الشكل 13.10 خط الانحدار المقدر وملاحظة واحدةx_1. يحاول تحليل الانحدار شرح تباين البيانات حول القيمة المتوسطة للمتغير التابعy. السؤال هو، لماذا تختلف ملاحظات y عن المستوى المتوسط لـy؟ x_1تختلف قيمة y عند الملاحظة عن المتوسطy بالفرق\left(y_{i}-\overline{y}\right). مجموع هذه الاختلافات المربعة هو SST، مجموع المربعات. x_1تنحرف القيمة الفعلية لـ at عن القيمة المقدرة\hat{y}، بالفرق بين القيمة المقدرة والقيمة الفعلية،\left(y_{i}-\hat{y}\right).y نذكر أن هذا هو مصطلح الخطأ، e، ومجموع هذه الأخطاء هو SSE، مجموع الأخطاء المربعة. انحراف القيمة المتوقعة لـy،\hat y، عن القيمة المتوسطة لـy هو(\hat{y}-\overline{y}) و هو SSR، مجموع انحدار المربعات. يطلق عليه «الانحدار» لأنه الانحراف الذي يفسره الانحدار. (في بعض الأحيان يُطلق على SSR اسم SSM لمجموع مربعات المتوسط لأنه يقيس الانحراف عن القيمة المتوسطة للمتغير التابع، y، كما هو موضح في الرسم البياني.).

نظرًا لأن SST = SSR + SSE نرى أن معامل الارتباط المتعدد هو النسبة المئوية للتباين، أو الانحراف عن قيمته المتوسطة، وهذا ما تفسره المعادلة عند أخذها ككل.y R^2سيختلف بين صفر و1، حيث يشير الصفر إلى أنه لم يتم تفسير أي من الاختلافات بالمعادلة، بينما تشير القيمة 1 إلى أن 100% من التباينy قد تم شرحه بالمعادلة.y بالنسبة لدراسات السلاسل الزمنية تتوقع ارتفاعًاR^2 وبالنسبة لبيانات المقطع العرضي تتوقع انخفاضًاR^2.

في حين أن الارتفاعR^2 أمر مرغوب فيه، تذكر أن اختبارات الفرضية المتعلقة بوجود علاقة بين مجموعة من المتغيرات المستقلة ومتغير تابع معين هو العامل المحفز في استخدام نموذج الانحدار. إنه التحقق من صحة علاقة السبب والنتيجة التي طورتها بعض النظريات وهذا هو السبب الحقيقي وراء اختيارنا لتحليل الانحدار. زيادة عدد المتغيرات المستقلة سيكون لها تأثير الزيادةR^2. ولحساب هذا التأثير، فإن المقياس الصحيح لمعامل التحديد هو\overline{R}^{2}، المعدل لدرجات الحرية، للحفاظ على الإضافة الطائشة للمتغيرات المستقلة.

لا يوجد اختبار إحصائي لـ،R^2 وبالتالي لا يمكن قول الكثير عن النموذجR^2 باستخدام مستوى الثقة المميز لدينا. قد يختلف الطرازان اللذان لهما نفس حجم SSE، أي مجموع الأخطاء المربعة، اختلافًا كبيرًاR^2 إذا كانت النماذج المنافسة تحتوي على SST مختلفة، أي المجموع الإجمالي للانحرافات المربعة. جودة الملاءمة بين النموذجين هي نفسها؛ كلاهما لهما نفس مجموع المربعات غير المفسرة، والأخطاء المربعة، ولكن بسبب المجموع الإجمالي الأكبر للمربعات في أحد النموذجين،R^2 يختلف الأمر. مرة أخرى، القيمة الحقيقية للانحدار كأداة هي فحص الفرضيات المطورة من نموذج يتنبأ بعلاقات معينة بين المتغيرات. هذه اختبارات للفرضيات حول معاملات النموذج وليست لعبة تعظيمR^2.

هناك طريقة أخرى لاختبار الجودة العامة للنموذج العام وهي اختبار المعاملات كمجموعة وليس بشكل مستقل. نظرًا لأن هذا الانحدار متعدد (أكثر من X)، فإننا نستخدم اختبار F لتحديد ما إذا كانت معاملاتنا تؤثر بشكل جماعي على Y. الفرضية هي:

H_{o} : \beta_{1}=\beta_{2}=\ldots=\beta_{i}=0

H_a: «واحد على الأقل من\beta_i الأرقام لا يساوي 0"

إذا كان لا يمكن رفض فرضية الصفر، فإننا نستنتج أن أيًا من المتغيرات المستقلة لا يساهم في شرح الاختلاف فيY. عند مراجعة الشكل 13.10، نرى أن SSR، مجموع المربعات الموضح، هو مقياس لمقدار التباين الذيY يتم تفسيره من خلال جميع المتغيرات في النموذج. SSE، مجموع الأخطاء المربعة، يقيس مقدار الأخطاء غير المبررة. ويترتب على ذلك أن نسبة هذين يمكن أن توفر لنا اختبارًا إحصائيًا للنموذج ككل. تذكر أنF التوزيع عبارة عن نسبة لتوزيعات مربع Chi وأن الفروق يتم توزيعها وفقًا لـ Chi Squared، ومجموع الأخطاء المربعة ومجموع المربعات كلاهما تباينات، فلدينا إحصائية الاختبار لهذه الفرضية على النحو التالي:

F_{c}=\frac{\left(\frac{S S R}{k}\right)}{\left(\frac{S S E}{n-k-1}\right)}\nonumber

nأين عدد الملاحظات وعددk المتغيرات المستقلة. يمكن إثبات أن هذا يعادل:

F_{c}=\frac{n-k-1}{k} \cdot \frac{R^{2}}{1-R^{2}}\nonumber

الشكل 13.10 أينR^2 هو معامل التحديد الذي يعد أيضًا مقياسًا لـ «جودة» النموذج.

كما هو الحال مع جميع اختباراتنا للفرضية، نصل إلى نتيجة من خلال مقارنةF الإحصاء المحسوب بالقيمة الحرجة بالنظر إلى مستوى الثقة المطلوب. إذا كانت إحصائية الاختبار المحسوبة، وهيF إحصائية في هذه الحالة، في ذيل التوزيع، فلا يمكننا قبول الفرضية الصفرية. من خلال عدم القدرة على قبول الفرضيات الصفرية، نستنتج أن مواصفات هذا النموذج صالحة، لأن واحدًا على الأقل من المعاملات المقدرة يختلف اختلافًا كبيرًا عن الصفر.

هناك طريقة بديلة للوصول إلى هذا الاستنتاج وهي استخدام قاعدة مقارنة قيمة p. pالقيمة -هي المنطقة الموجودة في الذيل، بالنظر إلىF الإحصاء المحسوب. في الأساس، يجد الكمبيوترF القيمة في الجدول بالنسبة لنا. عادةً ما يتم العثور على مخرجات انحدار الكمبيوترF للإحصاءات المحسوبة في قسم جدول ANOVA المسمى «الأهمية F». يتم عرض كيفية قراءة مخرجات انحدار Excel أدناه. هذا هو احتمال عدم قبول فرضية العدم الزائفة. إذا كان هذا الاحتمال أقل من خطأ ألفا المحدد مسبقًا، فإن الاستنتاج هو أننا لا نستطيع قبول فرضية العدم.

المتغيرات الوهمية

حتى الآن افترض تحليل تقنية انحدار OLS أن المتغيرات المستقلة في النماذج التي تم اختبارها كانت متغيرات عشوائية مستمرة. ومع ذلك، لا توجد قيود في نموذج الانحدار مقابل المتغيرات المستقلة الثنائية. هذا يفتح نموذج الانحدار لاختبار الفرضيات المتعلقة بالمتغيرات الفئوية مثل الجنس والعرق ومنطقة الدولة، قبل بيانات معينة، بعد تاريخ معين وغيرها لا حصر لها. تأخذ هذه المتغيرات الفئوية قيمتين فقط، 1 و 0، النجاح أو الفشل، من التوزيع الاحتمالي ذي الحدين. يصبح شكل المعادلة:

\hat{y}=b_{0}+b_{2} x_{2}+b_{1} x_{1}\nonumber

الشكل 13.11

أينx_2=0. X_2هو المتغير الوهميX_1 وهو بعض المتغيرات العشوائية المستمرة. الثابت،b_0، هو التقاطع y، القيمة التي يعبر فيها الخطy المحور -. عندما تتقاطع قيمةX_2 = 0 الخط المقدر عندb_0. عندما تتقاطعX_2 = 1 قيمة الخط المقدر عندb_0 + b_2. في الواقع، يتسبب المتغير الوهمي في تحول الخط المقدر إما لأعلى أو لأسفل حسب حجم تأثير الخاصية الملتقطة بواسطة المتغير الوهمي. لاحظ أن هذا هو تحول متوازي بسيط ولا يؤثر على تأثير المتغير المستقلX_1 الآخر؛ هذا المتغير هو متغير عشوائي مستمر ويتنبأ بقيم مختلفةX_1 لثبات حالة المتغير الوهمي.y

مثال على استخدام متغير وهمي هو العمل الذي يقدر تأثير الجنس على الرواتب. هناك مجموعة كاملة من المؤلفات حول هذا الموضوع ويتم استخدام المتغيرات الوهمية على نطاق واسع. في هذا المثال، يتم فحص رواتب معلمي المدارس الابتدائية والثانوية لولاية معينة. إن استخدام فئة عمل متجانسة ومعلمي المدارس ولولاية واحدة يقلل من العديد من الاختلافات التي تؤثر بشكل طبيعي على الرواتب مثل المخاطر البدنية التفاضلية وتكلفة المعيشة في ولاية معينة وظروف العمل الأخرى. تحدد معادلة التقدير في أبسط صورها الراتب كدالة لخصائص المعلم المختلفة التي تشير النظرية الاقتصادية إلى أنها يمكن أن تؤثر على الراتب. وسيشمل ذلك مستوى التعليم كمقياس للإنتاجية المحتملة والعمر و/أو الخبرة للحصول على التدريب أثناء العمل، مرة أخرى كمقياس للإنتاجية. نظرًا لأن البيانات مخصصة لمعلمي المدارس العاملين في المناطق التعليمية العامة بدلاً من العاملين في شركة ربحية، يتم تضمين متوسط إيرادات المنطقة التعليمية لكل متوسط حضور يومي للطلاب كمقياس للقدرة على الدفع. فيما يلي نتائج تحليل الانحدار باستخدام بيانات عن 24916 من معلمي المدارس.

متغير معاملات الانحدار (ب) الأخطاء القياسية لتقديرات
وظيفة أرباح المعلم (sb)
اعتراض 4269.9
الجنس (ذكر = 1) 632.38 13.39
إجمالي سنوات الخبرة 52.32 1.10
سنوات من الخبرة في المنطقة الحالية 29.97 1.52
التعليم 629.33 13.16
إجمالي الإيرادات لكل ADA 90.24 3.76
\overline{R}^{2} 7.25
n 24,916
الجدول 13.1 تقدير الأرباح لمعلمي المدارس الابتدائية والثانوية

تختلف معاملات جميع المتغيرات المستقلة بشكل كبير عن الصفر كما هو موضح في الأخطاء القياسية. ينتج عن قسمة الأخطاء القياسية لكل معامل قيمة t أكبر من 1.96 وهو المستوى المطلوب لأهمية 95٪. المتغير الثنائي، المتغير الوهمي الذي يهمنا في هذا التحليل، هو الجنس حيث يُعطى الذكر قيمة 1 وتُعطى الأنثى قيمة 0. يختلف المعامل اختلافًا كبيرًا عن الصفر مع إحصائية t مثيرة تبلغ 47 انحرافًا معياريًا. وبالتالي لا يمكننا قبول الفرضية الصفرية بأن المعامل يساوي صفرًا. لذلك نستنتج أن هناك معلمين ذكور يتقاضون أجورًا إضافية قدرها 632 دولارًا بعد حصولهم على الخبرة المستمرة والتعليم وثروة المنطقة التعليمية التي يعمل فيها المعلم. من المهم ملاحظة أن هذه البيانات تعود إلى بعض الوقت وأن مبلغ 632 دولارًا يمثل علاوة راتب بنسبة ستة بالمائة في ذلك الوقت. يتم عرض رسم بياني لهذا المثال للمتغيرات الوهمية أدناه.

الشكل 13.12

في بعدين، يكون الراتب هو المتغير المعتمد على المحور الرأسي وتم اختيار إجمالي سنوات الخبرة للمتغير المستقل المستمر على المحور الأفقي. كان من الممكن اختيار أي من المتغيرات المستقلة الأخرى لتوضيح تأثير المتغير الوهمي. تميل العلاقة بين إجمالي سنوات الخبرة إلى 52.32 دولارًا لكل سنة من الخبرة والخط المقدر له نقطة تقاطع قدرها 4,269 دولارًا إذا كان متغير الجنس يساوي صفرًا للإناث. إذا كان متغير الجنس يساوي 1، بالنسبة للذكور، يتم إضافة معامل متغير الجنس إلى التقاطع وبالتالي يتم تحويل العلاقة بين إجمالي سنوات الخبرة والراتب إلى الأعلى بالتوازي كما هو موضح في الرسم البياني. تم وضع علامة على الرسم البياني أيضًا على نقاط مختلفة كمرجع. تحصل معلمة المدرسة التي لديها 10 سنوات من الخبرة على راتب قدره 4792 دولارًا على أساس خبرتها فقط، ولكن هذا لا يزال أقل بـ 109 دولارات من المعلم الذكر الذي لا يمتلك أي سنوات من الخبرة.

يمكن أيضًا تقدير التفاعل الأكثر تعقيدًا بين المتغير الوهمي والمتغير التابع. قد يكون للمتغير الوهمي أكثر من تأثير التحول البسيط على المتغير التابع، ولكنه يتفاعل أيضًا مع واحد أو أكثر من المتغيرات المستقلة المستمرة الأخرى. على الرغم من عدم اختباره في المثال أعلاه، يمكن افتراض أن تأثير النوع الاجتماعي على الراتب لم يكن نوبة لمرة واحدة، ولكنه أثر على قيمة سنوات الخبرة الإضافية على الراتب أيضًا. أي أنه تم تخفيض رواتب مدرسات المدارس في البداية، ولم تنمو بنفس المعدل من تأثير التجربة كما هو الحال بالنسبة لمعلمي المدارس الذكور. سيظهر هذا كمنحدر مختلف للعلاقة بين إجمالي سنوات الخبرة للذكور مقارنة بالإناث. إذا كان الأمر كذلك، فإن مدرسات المدارس لن يبدأن فقط خلف زملائهن الذكور (كما تم قياسه من خلال التحول في خط الانحدار المقدر)، بل سيتخلفون أكثر فأكثر مع زيادة الوقت والخبرة.

يوضح الرسم البياني أدناه كيف يمكن اختبار هذه الفرضية باستخدام المتغيرات الوهمية ومتغير التفاعل.

الشكل 13.13

توضح معادلة التقدير كيف أن ميل تجربة المتغير العشوائي المستمر يحتوي على جزأينb_1 وb_3.X_1 يحدث هذا بسبب المتغير الجديدX_2X_1، المسمى متغير التفاعل، الذي تم إنشاؤه للسماح بالتأثير على منحدر التغييرات فيX_2 المتغير الوهمي الثنائي.X_1 لاحظ أنه عند المتغير الوهمي،X_2 = 0 يكون لمتغير التفاعل قيمة 0، ولكن عندما يكونX_2 = 1 لمتغير التفاعل قيمةX_1. المعاملb_3 هو تقدير للفرق في المعاملX_1 عندX_2= 1 مقارنته بالوقتX_2 = 0. في مثال رواتب المعلمين، إذا كانت هناك علاوة مدفوعة للمعلمين الذكور تؤثر على معدل الزيادة في الرواتب من التجربة، فإن معدل ارتفاع رواتب المعلمين الذكور سيكونb_1 + b_3 ومعدل ارتفاع رواتب المدرسات ببساطةb_1. يمكن اختبار هذه الفرضية من خلال الفرضية:

H_{0} : \beta_{3}=0 | \beta_{1}=0, \beta_{2}=0\nonumber

H_{a} : \beta_{3} \neq 0 | \beta_{1} \neq 0, \beta_{2} \neq 0\nonumber

هذاt اختبار -يستخدم إحصائية الاختبار الخاصة بالمعلمة\beta_3. إذا لم نتمكن من قبول الفرضية الصفرية التي\beta_3=0 خلصنا إلى وجود فرق بين معدل الزيادة للمجموعة التي تم تعيين قيمة المتغير الثنائي لها على 1، الذكور في هذا المثال. يمكن دمج معادلة التقدير هذه مع المعادلة السابقة التي تم رسمها في الشكل 13.13 لهذه الحالة مع تحول في دالة الأرباح واختلاف في ميل الدالة فيما يتعلق بإجمالي سنوات الخبرة.

المثال 13.5

أنتجت عينة عشوائية مكونة من 11 طالبًا إحصائيًا البيانات التالية، حيث x هي درجة الاختبار الثالثة من أصل 80، و y هي درجة الاختبار النهائية من أصل 200. هل يمكنك توقع درجة الاختبار النهائية لطالب تم اختياره عشوائيًا إذا كنت تعرف درجة الاختبار الثالث؟

جدول يوضح درجات الاختبار النهائي بناءً على درجات الاختبار الثالث.
x(درجة الاختبار الثالث) y(درجة الاختبار النهائي)
65 175
67 133
71 185
71 163
66 126
75 198
67 153
70 163
71 159
69 151
69 159
الجدول 13-2
هذا مخطط مبعثر للبيانات المقدمة. يتم رسم نتيجة الاختبار الثالث على المحور السيني، ويتم رسم درجة الاختبار النهائية على المحور y. تشكل النقاط نمطًا خطيًا قويًا وإيجابيًا.

الشكل 13.14 رسم بياني مبعثر يوضح الدرجات في الاختبار النهائي بناءً على درجات الاختبار الثالث.