Skip to main content
Global

10.1: مقارنة وسيلتين سكانيتين مستقلتين

  • Page ID
    198850
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    تعتبر المقارنة بين اثنين من وسائل السكان المستقلة شائعة جدًا وتوفر طريقة لاختبار الفرضية القائلة بأن المجموعتين تختلفان عن بعضهما البعض. هل النوبة الليلية أقل إنتاجية من النوبة النهارية، هل تختلف معدلات العائد من استثمارات الأصول الثابتة عن تلك الخاصة باستثمارات الأسهم العادية، وما إلى ذلك؟ يعتمد الفرق الملحوظ بين وسيلتي العينة على كل من الوسائل والانحرافات المعيارية للعينة. يمكن أن تحدث وسائل مختلفة جدًا عن طريق الصدفة إذا كان هناك اختلاف كبير بين العينات الفردية. يجب أن تأخذ إحصائية الاختبار في الاعتبار هذه الحقيقة. يُطلق على الاختبار الذي يقارن بين اثنين من وسائل السكان المستقلة مع الانحرافات المعيارية السكانية غير المعروفة وربما غير المتكافئة\(t\) اختبار Aspin-Welch. تم تطوير صيغة درجات الحرية التي سنراها لاحقًا بواسطة Aspin-Welch.

    عندما طورنا اختبار الفرضيات للمتوسط والنسب، بدأنا بنظرية الحد المركزي. لقد أدركنا أن متوسط العينة جاء من توزيع وسائل العينة، وأن نسب العينة جاءت من توزيع العينات لنسب العينة. أدى ذلك إلى تحويل معايير العينة ووسائل العينة ونسب العينة إلى متغيرات عشوائية. كان من المهم بالنسبة لنا معرفة التوزيع الذي جاءت منه هذه المتغيرات العشوائية. أعطتنا نظرية الحد المركزي الإجابة: التوزيع الطبيعي. جاءت\(t\) الإحصائيات\(Z\) الخاصة بنا من هذه النظرية. قدم لنا هذا حلاً لسؤالنا حول كيفية قياس احتمال أن يكون متوسط العينة قد جاء من توزيع بقيمة مفترضة معينة للمتوسط أو النسبة. في كلتا الحالتين كان هذا هو السؤال: ما هو احتمال أن يكون المتوسط (أو النسبة) من بيانات العينة الخاصة بنا قد جاء من توزيع سكاني بالقيمة المفترضة التي نهتم بها؟

    نحن مهتمون الآن بما إذا كانت عينتان لهما نفس المتوسط أم لا. لم يتغير سؤالنا: هل تأتي هاتان العينتان من نفس التوزيع السكاني؟ للتعامل مع هذه المشكلة، نقوم بإنشاء متغير عشوائي جديد. نحن ندرك أن لدينا وسيلتين نموذجيتين، واحدة من كل مجموعة بيانات، وبالتالي لدينا متغيرين عشوائيين قادمين من توزيعين غير معروفين. لحل المشكلة، نقوم بإنشاء متغير عشوائي جديد، يعني الفرق بين العينة. يحتوي هذا المتغير العشوائي الجديد أيضًا على توزيع، ومرة أخرى، تخبرنا نظرية الحد المركزي أن هذا التوزيع الجديد يتم توزيعه بشكل طبيعي، بغض النظر عن التوزيعات الأساسية للبيانات الأصلية. قد يساعد الرسم البياني في فهم هذا المفهوم.

    الشكل\(\PageIndex{2}\)

    يوجد في الصورة توزيعان للبيانات\(X_2\)،\(X_1\) وبوسائل غير معروفة وانحرافات معيارية. تعرض اللوحة الثانية توزيع العينات للمتغير العشوائي الذي تم إنشاؤه حديثًا (\(\overline{X}_{1}-\overline{X}_{2}\)). هذا التوزيع هو التوزيع النظري للعديد من وسائل العينة من السكان 1 ناقص متوسط العينة من السكان 2. تخبرنا نظرية الحد المركزي أن توزيع العينات النظري للاختلافات في وسائل العينة يتم توزيعه بشكل طبيعي، بغض النظر عن توزيع بيانات السكان الفعلية الموضحة في اللوحة العلوية. نظرًا لتوزيع العينات يتم توزيعه بشكل طبيعي، يمكننا تطوير صيغة موحدة وحساب الاحتمالات من التوزيع العادي القياسي في اللوحة السفلية،\(Z\) التوزيع. لقد رأينا هذا التحليل نفسه من قبل في الفصل 7 الشكل\(\PageIndex{2}\).

    توفر لنا نظرية الحد المركزي، كما كان من قبل، الانحراف المعياري لتوزيع العينات، علاوة على ذلك، أن القيمة المتوقعة لمتوسط توزيع الاختلافات في وسائل العينة تساوي الاختلافات في وسائل السكان. يمكن ذكر ذلك رياضيًا:

    \[E\left(\mu_{\overline{x}_{1}}-\mu_{\overline{x}_{2}}\right)=\mu_{1}-\mu_{2}\nonumber\]

    نظرًا لأننا لا نعرف الانحرافات المعيارية للسكان، فإننا نقدرها باستخدام انحرافين معياريين للعينة عن عيناتنا المستقلة. بالنسبة لاختبار الفرضيات، نحسب الانحراف المعياري المقدر، أو الخطأ المعياري، للاختلاف في وسائل العينة،\(\overline{X}_{1}-\overline{X}_{2}\).

    \[\textbf{The standard error is:}\nonumber\]

    \[\sqrt{\frac{\left(s_{1}\right)^{2}}{n_{1}}+\frac{\left(s_{2}\right)^{2}}{n_{2}}}\nonumber\]

    نتذكر أن استبدال تباين العينة بالتباين السكاني عندما لم يكن لدينا التباين السكاني هو الأسلوب الذي استخدمناه عند بناء فاصل الثقة وإحصائية الاختبار لاختبار الفرضية لمتوسط واحد في فترات الثقة و اختبار الفرضيات مع عينة واحدة. يتم حساب إحصائية الاختبار (t- score) على النحو التالي:

    \[t_{c}=\frac{\left(\overline{x}_{1}-\overline{x}_{2}\right)-\delta_{0}}{\sqrt{\frac{\left(s_{1}\right)^{2}}{n_{1}}+\frac{\left(s_{2}\right)^{2}}{n_{2}}}}\nonumber\]

    حيث:

    • \(s_1\)والانحرافات المعيارية النموذجية هي تقديرات لـ\(\sigma_1\) و\(\sigma_2\)، على التوالي، و\(s_2\)
    • \(\sigma_1\)\(\sigma_2\)وهي الانحرافات المعيارية السكانية غير المعروفة.
    • \(\overline{x}_{1}\)\(\overline{x}_{2}\)وهي وسيلة العينة. \(\mu_1\)\(\mu_2\)وهي وسائل السكان غير المعروفة.

    يتطلب عدد درجات الحرية (df) حسابًا معقدًا إلى حد ما. إنها\(df\) ليست دائمًا رقمًا صحيحًا. تم تقريب إحصائية الاختبار أعلاه من خلال\(t\) توزيع الطلاب على\(df\) النحو التالي:

    درجات الحرية

    \[df=\frac{\left(\frac{\left(s_{1}\right)^{2}}{n_{1}}+\frac{\left(s_{2}\right)^{2}}{n_{2}}\right)^{2}}{\left(\frac{1}{n_{1}-1}\right)\left(\frac{\left(s_{1}\right)^{2}}{n_{1}}\right)^{2}+\left(\frac{1}{n_{2}-1}\right)\left(\frac{\left(s_{2}\right)^{2}}{n_{2}}\right)^{2}}\nonumber\]

    عندما يكون\(n_1\) حجمي\(n_2\) العينة 30 أو أكبر، يكون تقدير الطالب التقريبي جيدًا جدًا. إذا كانت كل عينة تحتوي على أكثر من 30 ملاحظة، فيمكن حساب درجات الحرية على النحو التالي\(n_1 + n_2 - 2\).

    يحدد شكل توزيع العينات، والاختلافات في وسائل العينة، أن شكل الفرضية الصفرية والبديلة هو:

    \[H_{0} : \mu_{1}-\mu_{2}=\delta_{0}\nonumber\]

    \[H_{\mathrm{a}} : \mu_{1}-\mu_{2} \neq \delta_{0}\nonumber\]

    \(\delta_{0}\)أين الفرق المفترض بين الوسيلتين. إذا كان السؤال ببساطة «هل هناك فرق بين الوسائل؟» \(\delta_{0} = 0\)ثم تصبح الفرضيات الباطلة والبديلة:

    \[H_{0} : \mu_{1}=\mu_{2}\nonumber\]

    \[H_{\mathrm{a}} : \mu_{1} \neq \mu_{2}\nonumber\]

    مثال على الوقت الذي\(\delta_{0}\) قد لا يكون فيه صفرًا هو عندما تتطلب المقارنة بين المجموعتين اختلافًا محددًا حتى يكون القرار ذا معنى. تخيل أنك تقوم باستثمار رأسمالي. أنت تفكر في التغيير من جهاز الطراز الحالي إلى جهاز آخر. يمكنك قياس إنتاجية أجهزتك من خلال السرعة التي تنتج بها المنتج. قد يكون المنافس لاستبدال النموذج القديم أسرع من حيث إنتاجية المنتج، ولكنه أيضًا أكثر تكلفة. قد يحتوي الجهاز الثاني أيضًا على المزيد من تكاليف الصيانة وتكاليف الإعداد وما إلى ذلك، وسيتم إعداد فرضية الصفر بحيث يجب أن يكون الجهاز الجديد أفضل من الجهاز القديم بما يكفي لتغطية هذه التكاليف الإضافية من حيث السرعة وتكلفة الإنتاج. يوضح هذا الشكل من الفرضية الصفرية والبديلة مدى قيمة اختبار الفرضية هذا. في معظم أعمالنا، سنختبر فرضيات بسيطة نسأل عما إذا كان هناك أي فرق بين وسيلتي التوزيع.

    مثال\(\PageIndex{1}\) INDEPENDENT GROUPS

    تنتج شركة Kona Iki حليب جوز الهند. يأخذون جوز الهند ويستخرجون الحليب من الداخل عن طريق حفر حفرة وسكب الحليب في وعاء للمعالجة. لديهم نوبة نهارية (تسمى النوبة B) ونوبة ليلية (تسمى نوبة G) للقيام بهذا الجزء من العملية. إنهم يرغبون في معرفة ما إذا كانت النوبة النهارية والنوبة الليلية فعالة بنفس القدر في معالجة جوز الهند. يتم إجراء دراسة لأخذ عينات من 9 نوبات من نوبة G و 16 نوبة من النوبة B. يتم عرض نتائج عدد الساعات المطلوبة لمعالجة 100 رطل من جوز الهند في الجدول\(\PageIndex{1}\). يتم إجراء دراسة وجمع البيانات، مما يؤدي إلى البيانات في الجدول\(\PageIndex{1}\).

    \ (\ فهرس الصفحات {1}\) «>
    حجم العينة متوسط عدد الساعات لمعالجة 100 رطل من جوز الهند الانحراف المعياري للعينة
    جي شيفت 9 2 0.8660.866
    ب- التحول 16 3.2 1.00
    طاولة\(\PageIndex{1}\)

    هل هناك فرق في متوسط الوقت لكل نوبة لمعالجة 100 رطل من جوز الهند؟ اختبار بمستوى 5٪ من الأهمية.

    إجابة

    الحل 10.1

    إن الانحرافات المعيارية للسكان غير معروفة ولا يمكن افتراض أنها تساوي بعضها البعض. دعونا\(g\) نكون البرنامج النصي لـ G Shift\(b\) وكن البرنامج النصي لـ B Shift. ثم،\(\mu_g\) هو متوسط عدد السكان لـ G Shift\(\mu_b\) وهو متوسط عدد السكان لـ B Shift. هذا اختبار لمجموعتين مستقلتين، يعني اثنان من السكان.

    متغير عشوائي:\(\overline{X}_{g}-\overline{X}_{b}\) = الفرق في متوسط العينة من الوقت بين G Shift و B Shift لمعالجة جوز الهند.
    \(\H_{0}: \mu_g = \mu_b\)\(\H_{0}: \mu_g – \mu_b = 0\)
    \(H_a: \mu_g \neq \mu_b\)\(H_a: \mu_g – \mu_b \neq 0\)
    تخبرك الكلمات «نفس الشيء» بأنها\(\H_{0}\) تحتوي على «=». نظرًا لعدم وجود كلمات أخرى للإشارة إليها\(H_a\)، فهي إما أسرع أو أبطأ. هذا اختبار ذو شقين.

    التوزيع للاختبار: استخدم\(t_{df}\) المكان الذي\(df\) يتم حسابه باستخدام\(df\) صيغة المجموعات المستقلة، وتعني مجموعتان من السكان أعلاه. يبلغ استخدام الآلة الحاسبة\(df\) حوالي 18.8462.

    رسم بياني:

    هذا هو منحنى التوزيع العادي الذي يمثل الفرق في متوسط الوقت الذي تمارس فيه الفتيات والفتيان الرياضة طوال اليوم. المتوسط يساوي صفرًا، ويتم تصنيف القيم -1.2 و 0 و 1.2 على المحور الأفقي. يمتد خطان رأسيان من -1.2 و 1.2 إلى المنحنى. يتم تظليل المنطقة الموجودة على يسار x = -1.2 والمنطقة على يمين x = 1.2 لتمثيل القيمة p. تبلغ مساحة كل منطقة 0.0028.

    الشكل\(\PageIndex{3}\)

    \[\mathrm{t}_{\mathrm{c}}=\frac{\left(\overline{X}_{1}-\overline{X}_{2}\right)-\delta_{0}}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}}=-3.01\nonumber\]

    بعد ذلك نجد القيمة الحرجة\(t\) على الطاولة باستخدام درجات الحرية من الأعلى. توجد القيمة الحرجة، 2.093، في العمود .025\(\alpha/2\)، أي عند 19 درجة من الحرية. (تهدف الاتفاقية إلى جمع درجات الحرية لجعل الاستنتاج أكثر تحفظًا.) بعد ذلك نحسب إحصائية الاختبار ونضع علامة عليها على\(t\) الرسم البياني للتوزيع.

    اتخاذ قرار: نظرًا لأن\(t\) القيمة -المحسوبة موجودة في الذيل، لا يمكننا قبول الفرضية الصفرية بعدم وجود فرق بين المجموعتين. الوسائل مختلفة.

    تضمن الرسم البياني توزيع عينات الاختلافات في وسائل العينة لإظهار كيفية توافق توزيع t مع بيانات توزيع العينات. نرى في اللوحة العلوية أن الفرق المحسوب في الوسيلتين هو -1.2 وتظهر اللوحة السفلية أن هذا هو 3.01 انحرافات معيارية عن المتوسط. عادةً لا نحتاج إلى عرض الرسم البياني لتوزيع العينات ويمكننا الاعتماد على الرسم البياني لإحصائية الاختبار، توزيع t في هذه الحالة، للوصول إلى استنتاجنا.

    الخلاصة: عند مستوى الأهمية البالغ 5٪، تُظهر بيانات العينة أن هناك أدلة كافية لاستنتاج أن متوسط عدد الساعات التي تستغرقها G Shift لمعالجة 100 رطل من جوز الهند يختلف عن B Shift (متوسط عدد الساعات لـ B Shift أكبر من متوسط عدد ساعات عمل لـ G Shift).

    ملاحظة

    عندما يكون مجموع أحجام العينات أكبر مما\(30\left(n_{1}+n_{2}>30\right)\) يمكنك استخدام التوزيع العادي لتقريب أحجام الطلاب\(t\).

    مثال\(\PageIndex{2}\)

    يتم إجراء دراسة لتحديد ما إذا كانت الشركة A تحتفظ بعمالها لفترة أطول من الشركة B. يُعتقد أن الشركة A لديها معدل احتفاظ أعلى من الشركة B. ووجدت الدراسة أنه في عينة مكونة من 11 عاملاً في الشركة A متوسط الوقت الذي تستغرقه الشركة في العمل هو أربع سنوات مع انحراف معياري قدره 1.5 سنة. وجدت عينة من 9 عمال في الشركة B أن متوسط الوقت مع الشركة كان 3.5 سنوات مع انحراف معياري قدره عام واحد. اختبر هذا الاقتراح على مستوى الأهمية بنسبة 1٪.

    أ. هل هذا اختبار لوسيلتين أم نسبتين؟

    إجابة

    الحل 10.2

    أ. يعني اثنان لأن الوقت هو متغير عشوائي مستمر.

    ب- هل الانحرافات المعيارية للسكان معروفة أم غير معروفة؟

    إجابة

    الحل 10.2

    ب. غير معروف

    ج. ما التوزيع الذي تستخدمه لإجراء الاختبار؟

    إجابة

    الحل 10.2

    ج. الطلاب\(t\)

    d. ما هو المتغير العشوائي؟

    إجابة

    الحل 10.2

    د.\(\overline{X}_{A}-\overline{X}_{B}\)

    هـ- ما هي الفرضيات الباطلة والبديلة؟

    إجابة

    الحل 10.2

    ه.

    • \(H_{0} : \mu_{A} \leq \mu_{B}\)
    • \(H_{a} : \mu_{A}>\mu_{B}\)

    f. هل هذا الاختبار ذو الذيل الأيمن أم الأيسر أم ذو الذيل المزدوج؟

    إجابة

    الحل 10.2

    F. الاختبار الصحيح ذو الذيل الواحد

    هذا منحنى توزيع عادي بمتوسط يساوي 0. يمتد الخط العمودي بالقرب من ذيل المنحنى إلى يمين الصفر من المحور إلى المنحنى. المنطقة تحت المنحنى الموجود على يمين الخط مظللة.

    الشكل\(\PageIndex{4}\)

    g. ما قيمة إحصائية الاختبار؟

    إجابة

    الحل 10.2

    ز.

    \(t_{c}=\frac{\left(\overline{X}_{1}-\overline{X}_{2}\right)-\delta_{0}}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}}=0.89\)

    ح. هل يمكنك قبول/رفض فرضية اللاغية؟

    إجابة

    الحل 10.2

    ح. لا يمكن رفض الفرضية الصفرية بعدم وجود فرق بين المجموعتين. إحصائية الاختبار ليست في الذيل. القيمة الحرجة لتوزيع t هي 2.764 مع 10 درجات من الحرية. يوضح هذا المثال مدى صعوبة رفض الفرضية الصفرية بعينة صغيرة جدًا. تتطلب القيم الحرجة إحصائيات اختبار كبيرة جدًا للوصول إلى الذيل.

    أولاً - الخلاصة:

    إجابة

    الحل 10.2

    1- عند مستوى الأهمية البالغ 1٪، من بيانات العينة، لا توجد أدلة كافية لاستنتاج أن الاحتفاظ بالعمال في الشركة A أطول من الشركة B، في المتوسط.

    مثال\(\PageIndex{3}\)

    سؤال البحث المثير للاهتمام هو التأثير، إن وجد، الذي تحدثه الأنواع المختلفة من أشكال التدريس على نتائج درجات الطلاب. للتحقيق في هذه المشكلة، تم أخذ عينة واحدة من درجات الطلاب من فصل مختلط وعينة أخرى من فصل دراسي بتنسيق محاضرة قياسي. كان كلا الفصلين لنفس الموضوع. متوسط درجة الدورة بالنسبة المئوية للطلاب الهجين البالغ عددهم 35 طالبًا هو 74 مع انحراف معياري قدره 16. كان متوسط درجات 40 طالبًا في فصل المحاضرة القياسي 76 بالمائة مع انحراف معياري قدره 9. اختبر بنسبة 5٪ لمعرفة ما إذا كان هناك أي فرق كبير في متوسط درجات السكان بين دورة المحاضرة القياسية والصف المختلط.

    إجابة

    الحل 10.3

    نبدأ بالإشارة إلى أن لدينا مجموعتين، طلاب من فصل مختلط وطلاب من فصل دراسي قياسي في شكل محاضرة. نلاحظ أيضًا أن المتغير العشوائي، ما يهمنا، هو درجات الطلاب، وهو متغير عشوائي مستمر. كان بإمكاننا طرح سؤال البحث بطريقة مختلفة وكان لدينا متغير عشوائي ثنائي. على سبيل المثال، كان بإمكاننا دراسة النسبة المئوية للطلاب الحاصلين على درجة رسوب، أو الحاصلين على درجة A. سيكون كلاهما ثنائيًا وبالتالي اختبارًا للنسب وليس اختبارًا للوسائل كما هو الحال هنا. أخيرًا، لا يوجد افتراض بشأن الشكل الذي قد يؤدي إلى درجات أعلى، لذلك يتم ذكر الفرضية كاختبار ثنائي الذيل.

    \(H_{0}: \mu_1 = \mu_2 \)
    \(H_a: \mu_1 \neq \mu_2\)

    كما هو الحال دائمًا تقريبًا، لا نعرف الفروق السكانية للتوزيعين، وبالتالي فإن إحصائية الاختبار لدينا هي:

    \[t_{c}=\frac{\left(\overline{x}_{1}-\overline{x}_{2}\right)-\delta_{0}}{\sqrt{\frac{s^{2}}{n_{1}}+\frac{s^{2}}{n_{2}}}}=\frac{(74-76)-0}{\sqrt{\frac{16^{2}}{35}+\frac{9^{2}}{40}}}=-0.65\nonumber\]

    لتحديد القيمة الحرجة للطالب، نحتاج إلى درجات الحرية. لهذه الحالة نستخدم:\(df = n_1 + n_2 - 2 = 35 + 40 -2 = 73\). هذا كبير بما يكفي لاعتباره التوزيع الطبيعي وبالتالي\(t_{\alpha /2} = 1.96\). مرة أخرى كما هو الحال دائمًا، نحدد ما إذا كانت القيمة المحسوبة في الذيل والتي تحددها القيمة الحرجة. في هذه الحالة، لا نحتاج حتى إلى البحث عن القيمة الحرجة: القيمة المحسوبة للاختلاف في هاتين الدرجتين المتوسطتين ليست حتى انحرافًا معياريًا واحدًا. بالتأكيد ليس في الذيل.

    الخلاصة: لا يمكن رفض القيمة الفارغة عند\(\bf{\alpha = 5\%}\). لذلك، لا توجد أدلة لإثبات أن الدرجات في الفئات الهجينة والقياسية تختلف.