2.7: مقاييس انتشار البيانات

Last updated
Save as PDF

Page ID: 198819

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

من الخصائص المهمة لأي مجموعة من البيانات الاختلاف في البيانات. في بعض مجموعات البيانات، تتركز قيم البيانات بشكل وثيق بالقرب من المتوسط؛ وفي مجموعات البيانات الأخرى، تنتشر قيم البيانات على نطاق أوسع من المتوسط. المقياس الأكثر شيوعًا للاختلاف أو الانتشار هو الانحراف المعياري. الانحراف المعياري هو رقم يقيس مدى بُعد قيم البيانات عن متوسطها.

الانحراف المعياري

يوفر مقياسًا عدديًا للمقدار الإجمالي للاختلاف في مجموعة البيانات، و
يمكن استخدامها لتحديد ما إذا كانت قيمة بيانات معينة قريبة من المتوسط أو بعيدة عنه.

يوفر الانحراف المعياري مقياسًا للتغير العام في مجموعة البيانات

يكون الانحراف المعياري دائمًا إيجابيًا أو صفرًا. يكون الانحراف المعياري صغيرًا عندما تتركز جميع البيانات بالقرب من المتوسط، مع إظهار القليل من الاختلاف أو الانتشار. يكون الانحراف المعياري أكبر عندما تكون قيم البيانات أكثر انتشارًا من المتوسط، مما يُظهر المزيد من التباين.

لنفترض أننا ندرس مقدار الوقت الذي ينتظره العملاء في الطابور عند الخروج في السوبر ماركت\(A\) والسوبر ماركت\(B\). متوسط وقت الانتظار في كلا السوبر ماركت هو خمس دقائق. في السوبر ماركت\(A\)، يكون الانحراف المعياري لوقت الانتظار دقيقتين؛ في السوبر ماركت\(B\). الانحراف المعياري لوقت الانتظار هو أربع دقائق.

نظرًا لأن السوبر ماركت\(B\) يحتوي على انحراف معياري أعلى، فإننا نعلم أن هناك المزيد من الاختلاف في أوقات الانتظار في السوبر ماركت\(B\). بشكل عام،\(B\) تكون أوقات الانتظار في السوبر ماركت أكثر انتشارًا من المتوسط؛ حيث تتركز أوقات الانتظار في السوبر ماركت\(A\) بالقرب من المتوسط.

حساب الانحراف المعياري

إذا كان\(x\) رقمًا، فإن الفرق "\(x\)ناقص المتوسط» يسمى انحرافه. في مجموعة البيانات، هناك العديد من الانحرافات مثل العناصر في مجموعة البيانات. يتم استخدام الانحرافات لحساب الانحراف المعياري. إذا كانت الأرقام تنتمي إلى مجموعة سكانية، فإن الانحراف في الرموز هو\(x – \mu\). بالنسبة لبيانات العينة، يكون الانحراف في الرموز\(x – \overline{x}\).

يعتمد إجراء حساب الانحراف المعياري على ما إذا كانت الأرقام هي المجموعة السكانية بأكملها أم أنها بيانات من عينة. الحسابات متشابهة ولكنها ليست متطابقة. لذلك يعتمد الرمز المستخدم لتمثيل الانحراف المعياري على ما إذا كان يتم حسابه من مجموعة سكانية أو عينة. يمثل الحرف الصغير s الانحراف المعياري للعينة ويمثل الحرف اليوناني\(\sigma\) (سيغما، الحرف الصغير) الانحراف المعياري للسكان. إذا كانت العينة لها نفس خصائص السكان، فيجب أن يكون s تقديرًا جيدًا لـ\(\sigma\).

لحساب الانحراف المعياري، نحتاج إلى حساب التباين أولاً. التباين هو متوسط مربعات الانحرافات (\(x – \overline{x}\)قيم العينة، أو\(x – \mu\) قيم السكان). \(\sigma^2\)يمثل الرمز التباين السكاني؛ الانحراف المعياري للسكان\(\sigma\) هو الجذر التربيعي للتباين السكاني. \(s^2\)يمثل الرمز تباين العينة; الانحراف المعياري للعينة s هو الجذر التربيعي لتباين العينة. يمكنك التفكير في الانحراف المعياري كمتوسط خاص للانحرافات. من الناحية الرسمية، يكون التباين هو اللحظة الثانية للتوزيع أو اللحظة الأولى حول المتوسط. تذكر أن المتوسط هو اللحظة الأولى للتوزيع.

إذا كانت الأرقام تأتي من تعداد السكان بالكامل وليس من عينة، فعندما نحسب متوسط الانحرافات المربعة للعثور على التباين، نقسم على عدد العناصر في المجموعة السكانية.\(N\) إذا كانت البيانات من عينة وليس من مجموعة سكانية، فعندما نحسب متوسط الانحرافات المربعة، نقسم على عدد يقل بمقدار واحد عن عدد العناصر في العينة.\(\bf{n – 1}\)

صيغ الانحراف المعياري للعينة

\(s=\sqrt{\frac{\Sigma(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\Sigma f(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\left(\sum_{i=1}^{n} x^{2}\right)^{-n x^{2}}}{n-1}}\)
بالنسبة للانحراف المعياري للعينة، فإن المقام هو\(\bf{n – 1}\)، أي حجم العينة ناقص 1.

صيغ الانحراف المعياري للسكان

\(\boldsymbol{\sigma}=\sqrt{\frac{\Sigma(x-\mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\Sigma f(x \mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\sum_{i=1}^{N} x_{i}^{2}}{N}-\mu^{2}}\)
بالنسبة للانحراف المعياري للسكان، فإن المقام هو\(N\) عدد العناصر في المجموعة السكانية.

في هذه الصيغ،\(f\) يمثل التردد الذي تظهر به القيمة. على سبيل المثال، إذا ظهرت قيمة مرة واحدة،\(f\) فهي واحدة. إذا ظهرت قيمة ثلاث مرات في مجموعة البيانات أو المجموعة،\(f\) تكون ثلاثة. ملاحظتان مهمتان تتعلقان بالتباين والانحراف المعياري: يتم قياس الانحرافات عن المتوسط ويتم تربيع الانحرافات. من حيث المبدأ، يمكن قياس الانحرافات من أي نقطة، ومع ذلك، فإن اهتمامنا هو القياس من الوزن المركزي للبيانات، ما هي القيمة «العادية» أو الأكثر شيوعًا للملاحظة. سنحاول لاحقًا قياس «غرابة» الملاحظة أو متوسط العينة وبالتالي نحتاج إلى مقياس من المتوسط. الملاحظة الثانية هي أن الانحرافات مربعة. يؤدي هذا إلى شيئين، أولاً يجعل جميع الانحرافات إيجابية وثانيًا يغير وحدات القياس عن تلك الخاصة بالمتوسط والملاحظات الأصلية. إذا كانت البيانات عبارة عن أوزان، فسيتم قياس المتوسط بالرطل، ولكن يتم قياس التباين بالباوند المربع. أحد أسباب استخدام الانحراف المعياري هو العودة إلى وحدات القياس الأصلية عن طريق أخذ الجذر التربيعي للتباين. علاوة على ذلك، عندما يتم تربيع الانحرافات فإنها تنفجر قيمتها. على سبيل المثال، الانحراف بمقدار 10 عن المتوسط عند التربيع هو 100، ولكن الانحراف بمقدار 100 عن المتوسط هو 10000. ما يفعله هذا هو وضع وزن كبير على القيم المتطرفة عند حساب التباين.

أنواع التباين في العينات

عند محاولة دراسة مجموعة سكانية، غالبًا ما يتم استخدام عينة، إما للراحة أو لأنه لا يمكن الوصول إلى جميع السكان. التباين هو المصطلح المستخدم لوصف الاختلافات التي قد تحدث في هذه النتائج. تتضمن الأنواع الشائعة من التباين ما يلي:

تباين الملاحظة أو القياس
التباين الطبيعي
التباين المستحث
تقلب العينة

فيما يلي بعض الأمثلة لوصف كل نوع من أنواع التباين.

مثال 1: تباين القياس

تحدث تقلبات القياس عندما تكون هناك اختلافات في الأدوات المستخدمة للقياس أو في الأشخاص الذين يستخدمون هذه الأدوات. إذا كنا نجمع بيانات حول المدة التي تستغرقها الكرة في الهبوط من ارتفاع من خلال قيام الطلاب بقياس وقت السقوط باستخدام ساعة توقيت، فقد نواجه تباينًا في القياس إذا كانت ساعتا الإيقاف المستخدمتان من صنع جهات تصنيع مختلفة: على سبيل المثال، يتم قياس ساعة توقيت واحدة إلى أقرب ثانية، في حين أن الآخر يساوي أقرب عُشر من الثانية. قد نواجه أيضًا تباينًا في القياس لأن شخصين مختلفين يجمعان البيانات. قد تختلف أوقات رد فعلهم عند الضغط على الزر الموجود في ساعة الإيقاف؛ وبالتالي، ستختلف النتائج وفقًا لذلك. قد تتأثر الاختلافات في النتائج بتغيرات القياس.

مثال 2: التباين الطبيعي

تنشأ التقلبات الطبيعية من الاختلافات التي تحدث بشكل طبيعي لأن أفراد السكان يختلفون عن بعضهم البعض. على سبيل المثال، إذا كان لدينا نباتان متطابقتان للذرة وعرّضنا كلا النباتين لنفس الكمية من الماء وضوء الشمس، فقد يستمران في النمو بمعدلات مختلفة لمجرد أنهما نباتان مختلفتان للذرة. يمكن تفسير الفرق في النتائج من خلال التباين الطبيعي.

مثال 3: التباين المستحث

التباين المستحث هو نظير التباين الطبيعي؛ يحدث هذا لأننا استحدثنا بشكل مصطنع عنصر الاختلاف (الذي، بحكم تعريفه، لم يكن موجودًا بشكل طبيعي): على سبيل المثال، نخصص الأشخاص لمجموعتين مختلفتين لدراسة الذاكرة، ونحفز متغيرًا في مجموعة واحدة عن طريق الحد من مقدار النوم الذي يحصلون عليه. قد يتأثر الفرق في النتائج بالتغير المستحث.

مثال 4: تباين العينة

يحدث تغير العينة عندما يتم أخذ عينات عشوائية متعددة من نفس المجموعة. على سبيل المثال، إذا أجريت أربعة استطلاعات لـ 50 شخصًا تم اختيارهم عشوائيًا من مجموعة سكانية معينة، فقد تتأثر الاختلافات في النتائج بتنوع العينة.

مثال\(\PageIndex{29}\)

في فصل الصف الخامس، كانت المعلمة مهتمة بمتوسط العمر والانحراف المعياري للعينة لأعمار طلابها. البيانات التالية هي أعمار عينة من طلاب الصف\(n = 20\) الخامس. يتم تقريب الأعمار إلى أقرب نصف عام:

9؛ 9.5؛ 9.5؛ 10؛ 10؛ 10؛ 10؛ 10.5؛ 10.5؛ 10.5؛ 11؛ 11؛ 11؛ 11؛ 11؛ 11؛ 11؛ 11.5؛ 11.5؛ 11.5؛ 11.5؛ 11.5؛ 11.5؛ 11.5؛

\[\overline{x}=\frac{9+9.5(2)+10(4)+10.5(4)+11(6)+11.5(3)}{20}=10.525\nonumber\]

يبلغ متوسط العمر 10.53 عامًا، مع تقريبه إلى مكانين.

يمكن حساب التباين باستخدام جدول. ثم يتم حساب الانحراف المعياري بأخذ الجذر التربيعي للتباين. سنشرح أجزاء الجدول بعد الحساب\(s\).

\ (\ فهرس الصفحات {28}\) «>

طاولة\(\PageIndex{28}\)
البيانات	فريق.	انحرافات	الانحرافات ²	(FREQ.) (الانحرافات ²)
\(x\)	\(f\)	\((x - \overline{x})\)	\((x – \overline{x})^2\)	\((f)(x – \overline{x})^2\)
9	1	\(9 – 10.525 = –1.525\)	\((–1.525)^2 = 2.325625\)	\(1 \times 2.325625 = 2.325625\)
9.5	2	\(9.5 – 10.525 = –1.025\)	\((–1.025)2 = 1.050625\)	\(2 \times 1.050625 = 2.101250\)
10	4	\(10 – 10.525 = –0.525\)	\((–0.525)2 = 0.275625\)	\(4 \times 0.275625 = 1.1025\)
10.5	4	\(10.5 – 10.525 = –0.025\)	\((–0.025)2 = 0.000625\)	\(4 \times 0.000625 = 0.0025\)
11	6	\(11 – 10.525 = 0.475\)	\((0.475)2 = 0.225625\)	\(6 \times 0.225625 = 1.35375\)
11.5	3	\(11.5 – 10.525 = 0.975\)	\((0.975)2 = 0.950625\)	\(3 \times 0.950625 = 2.851875\)
				المجموع هو 9.7375

يساوي تباين العينة مجموع العمود الأخير (9.7375) مقسومًا على العدد الإجمالي لقيم البيانات ناقص واحدة\((20 – 1)\):\(s^2\)

\(s^{2}=\frac{9.7375}{20-1}=0.5125\)

الانحراف المعياري للعينة s يساوي الجذر التربيعي لتباين العينة:

\(s=\sqrt{0.5125}=0.715891\)، الذي تم تقريبه إلى منزلتين عشريتين،\(s = 0.72\).

شرح حساب الانحراف المعياري الموضح في الجدول

توضح الانحرافات مدى انتشار البيانات حول المتوسط. قيمة البيانات 11.5 أبعد عن المتوسط من قيمة البيانات 11 التي يشار إليها بالانحرافات 0.97 و 0.47. يحدث الانحراف الإيجابي عندما تكون قيمة البيانات أكبر من المتوسط، بينما يحدث الانحراف السلبي عندما تكون قيمة البيانات أقل من المتوسط. الانحراف هو —1.525 لقيمة البيانات تسعة. إذا قمت بإضافة الانحرافات، يكون المجموع دائمًا صفرًا. (على سبيل المثال\(\PageIndex{29}\)، هناك\(n = 20\) انحرافات.) لذلك لا يمكنك ببساطة إضافة الانحرافات للحصول على انتشار البيانات. من خلال تسوية الانحرافات، يمكنك جعلها أرقامًا موجبة، وسيكون المجموع موجبًا أيضًا. التباين، إذن، هو متوسط الانحراف المربع. من خلال تسوية الانحرافات، نضع عقوبة قصوى على الملاحظات البعيدة عن المتوسط؛ تكتسب هذه الملاحظات وزنًا أكبر في حسابات التباين. سنرى لاحقًا أن التباين (الانحراف المعياري) يلعب دورًا حاسمًا في تحديد استنتاجاتنا في الإحصائيات الاستنتاجية. يمكننا أن نبدأ الآن باستخدام الانحراف المعياري كمقياس «للغرابة». «كيف كان أداؤك في الاختبار؟» «رائع! انحرافان معياريان فوق المتوسط.» سنرى أن هذه درجة اختبار جيدة بشكل غير عادي.

التباين هو مقياس مربع ولا يحتوي على نفس وحدات البيانات. أخذ الجذر التربيعي يحل المشكلة. يقيس الانحراف المعياري الفارق في نفس وحدات البيانات.

لاحظ أنه بدلاً من القسمة على الحساب\(n = 20\)، يتم قسمة الحساب على\(n – 1 = 20 – 1 = 19\) لأن البيانات عبارة عن عينة. بالنسبة لتباين العينة، نقسم على حجم العينة ناقص واحد\((n – 1)\). لماذا لا نقسم على\(n\)؟ الجواب يتعلق بالتباين السكاني. تباين العينة هو تقدير للتباين السكاني. يتطلب هذا التقدير استخدام تقدير لمتوسط السكان بدلاً من متوسط السكان الفعلي. استنادًا إلى الرياضيات النظرية التي تكمن وراء هذه الحسابات، فإن القسمة على\((n – 1)\) تعطي تقديرًا أفضل للتباين السكاني.

الانحراف المعياري،\(s\) أو\(\sigma\)، إما صفر أو أكبر من الصفر. يُطلق على وصف البيانات بالإشارة إلى الانتشار اسم «التباين». يعتمد التباين في البيانات على الطريقة التي يتم بها الحصول على النتائج؛ على سبيل المثال، عن طريق القياس أو عن طريق أخذ العينات العشوائية. عندما يكون الانحراف المعياري صفرًا، لا يوجد فرق؛ أي أن جميع قيم البيانات متساوية مع بعضها البعض. يكون الانحراف المعياري صغيرًا عندما تتركز جميع البيانات بالقرب من المتوسط، ويكون أكبر عندما تُظهر قيم البيانات مزيدًا من الاختلاف عن المتوسط. عندما يكون الانحراف المعياري أكبر بكثير من الصفر، تكون قيم البيانات منتشرة جدًا حول المتوسط؛ يمكن أن تكون القيم المتطرفة\(s\) أو كبيرة\(\sigma\) جدًا.

مثال\(\PageIndex{30}\)

استخدم البيانات التالية (درجات الاختبار الأول) من فصل ما قبل حساب التفاضل والتكامل الربيعي لسوزان دين:

\(33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 96; 100\)

قم بإنشاء مخطط يحتوي على البيانات والترددات والترددات النسبية التراكمية إلى ثلاث منازل عشرية.
احسب ما يلي لأقرب منزلة عشرية واحدة:
1. تعني العينة
2. الانحراف المعياري للعينة
3. الوسيط
4. الربع الأول
5. الربع الثالث
6. \(IQR\)

إجابة

الحل 2.30

أ. انظر الجدول\(\PageIndex{29}\)

ب.

متوسط العينة = 73.5
الانحراف المعياري للعينة = 17.9
الوسيط = 73
الربع الأول = 61
الربع الثالث = 90
\(IQR = 90 – 61 = 29\)

\ (\ فهرس الصفحات {29}\) «>

طاولة\(\PageIndex{29}\)
البيانات	التردد	التردد النسبي	التردد النسبي التراكمي
33	1	0.032	0.032
42	1	0.032	0.064
49	2	0.065	0.129
53	1	0.032	0.161
55	2	0.065	0.226
61	1	0.032	0.258
63	1	0.032	0.29
67	1	0.032	0.322
68	2	0.065	0.387
69	2	0.065	0.452
72	1	0.032	0.484
73	1	0.032	0.516
74	1	0.032	0.548
78	1	0.032	0.580
80	1	0.032	0.612
83	1	0.032	0.644
88	3	0.097	0.741
90	1	0.032	0.773
92	1	0.032	0.805
94	4	0.129	0.934
96	1	0.032	0.966
100	1	0.032	0.998 (لماذا لا تكون هذه القيمة 1؟ الإجابة: التقريب)

الانحراف المعياري لجداول التردد المجمعة

تذكر أنه بالنسبة للبيانات المجمعة، لا نعرف قيم البيانات الفردية، لذلك لا يمكننا وصف القيمة النموذجية للبيانات بدقة. بمعنى آخر، لا يمكننا العثور على المتوسط أو المتوسط أو الوضع الدقيق. ومع ذلك، يمكننا تحديد أفضل تقدير لمقاييس المركز من خلال إيجاد متوسط البيانات المجمعة باستخدام الصيغة:\(\text{ Mean of Frequency Table }=\frac{\sum \(f\) m} {\ sum f}\)
حيث ترددات\(f=\) الفاصل الزمني و\(m\) = نقاط الوسط الفاصلة.

مثلما لم نتمكن من العثور على المتوسط الدقيق، لا يمكننا أيضًا العثور على الانحراف المعياري الدقيق. تذكر أن الانحراف المعياري يصف عدديًا الانحراف المتوقع لقيمة البيانات عن المتوسط. في اللغة الإنجليزية البسيطة، يسمح لنا الانحراف المعياري بمقارنة كيفية مقارنة البيانات الفردية «غير العادية» بالمتوسط.

مثال\(\PageIndex{31}\)

ابحث عن الانحراف المعياري للبيانات في الجدول\(\PageIndex{30}\).

\ (\ فهرس الصفحات {30}\) «>

طاولة\(\PageIndex{30}\)
فئة	التردد،\(f\)	منتصف الطريق،\(m\)	\(f\cdot m\)	\(f(m−\bar{x})^2\)
0—2	\ (f\)» class= «lt-stats-5332">1	\ (m\)» class= «lt-stats-5332">1	\ (f\ cdot m\)» class="lt-stats-5332>\(1\cdot 1=1\)	\ (f (m−\ bar {x}) ^2\)» class= lt-stats-5332>\(1(1−6.88)^2=34.57\)
3-5	\ (f\)» class= «lt-stats-5332">6	\ (m\)» class= «lt-stats-5332">4	\ (f\ cdot m\)» class="lt-stats-5332>\(6\cdot 4=24\)	\ (f (m−\ bar {x}) ^2\)» class= lt-stats-5332>\(6(4−6.88)^2=49.77\)
6-8	\ (f\)» class= «lt-stats-5332">10	\ (m\)» class= «lt-stats-5332">7	\ (f\ cdot m\)» class="lt-stats-5332>\(10\cdot 7=70\)	\ (f (m−\ bar {x}) ^2\)» class= lt-stats-5332>\(10(7−6.88)^2=0.14\)
9-11	\ (f\)» class= «lt-stats-5332">7	\ (m\)» class= «lt-stats-5332">10	\ (f\ cdot m\)» class="lt-stats-5332>\(7\cdot 10=70\)	\ (f (m−\ bar {x}) ^2\)» class= lt-stats-5332>\(7(10−6.88)^2=68.14\)
12-14	\ (f\)» class= «lt-stats-5332">0	\ (m\)» class= «lt-stats-532" >13	\ (f\ cdot m\)» class="lt-stats-5332>\(0\cdot 13=0\)	\ (f (m−\ bar {x}) ^2\)» class= lt-stats-5332>\(0(13−6.88)^2=0\)
	\ (f\)» class= «lt-stats-5332">n = 24	\ (م\)» class="lt-stats-5332>	\ (f\ cdot m\)» class="lt-stats-5332>\(\bar{x}=16524=6.88\)	\ (f (m−\ bar {x}) ^2\)» class= lt-stats-5332>\(s^2=152.6224−1=6.64\)

بالنسبة لمجموعة البيانات هذه، لدينا المتوسط\(\bar{x} = 6.88\) والانحراف المعياري\(s_x = 2.58\). هذا يعني أنه من المتوقع أن تكون قيمة البيانات المختارة عشوائيًا 2.58 وحدة من المتوسط. إذا نظرنا إلى الدرجة الأولى، نرى أن نقطة الوسط للفئة تساوي واحدًا. هذا ما يقرب من ثلاثة انحرافات معيارية عن المتوسط. وفي حين أن صيغة حساب الانحراف المعياري ليست معقدة,

\[s_x=\sqrt{\frac{Σ(m−\bar{x})^2f}{n−1}}\nonumber\]

حيث\(s_x =\) الانحراف المعياري\(\bar{x} =\) للعينة، متوسط العينة، الحسابات مملة. من الأفضل عادةً استخدام التكنولوجيا عند إجراء العمليات الحسابية.

مقارنة القيم من مجموعات بيانات مختلفة

يكون الانحراف المعياري مفيدًا عند مقارنة قيم البيانات التي تأتي من مجموعات بيانات مختلفة. إذا كانت مجموعات البيانات تحتوي على وسائل وانحرافات معيارية مختلفة، فإن مقارنة قيم البيانات مباشرة يمكن أن تكون مضللة.

بالنسبة لكل قيمة بيانات x، احسب عدد الانحرافات المعيارية بعيدًا عن متوسط القيمة.
استخدم الصيغة: x = يعني + (#of STDevs) (الانحراف المعياري)؛ حل لـ #of STDevs.
\(\# \text { of } S T D E V s=\frac{x-\text { mean }}{\text { standard deviation }}\)
قارن نتائج هذا الحساب.

غالبًا ما يُطلق على #of STDevs اسم «z-score»؛ يمكننا استخدام الرمز\(z\). في الرموز، تصبح الصيغ:

\ (\ فهرس الصفحات {31}\) «>

طاولة\(\PageIndex{31}\)
عينة	\(x=\overline{x}+z s\)	\(z=\frac{x-\overline{x}}{s}\)
تعداد السكان	\(x=\mu+z \sigma\)	\(z=\frac{x-\mu}{\sigma}\)

مثال\(\PageIndex{32}\)

أراد اثنان من الطلاب، جون وعلي، من مدارس ثانوية مختلفة، معرفة من حصل على أعلى معدل تراكمي مقارنة بمدرسته. أي طالب حصل على أعلى معدل تراكمي مقارنة بمدرسته؟

\ (\ فهرس الصفحات {32}\) «>

طاولة\(\PageIndex{32}\)
طالب	الفجوة	المدرسة تعني المعدل التراكمي	الانحراف المعياري للمدرسة
يوحنا	2.85	3.0	0.7
علي	77	80	10

إجابة

الحل 2.32

بالنسبة لكل طالب، حدد عدد الانحرافات المعيارية (#of STDevs) التي يكون معدلها التراكمي بعيدًا عن المتوسط لمدرسته. انتبه جيدًا للعلامات عند مقارنة الإجابة وتفسيرها.

\(z=\# \text { of STDE } \mathrm{Vs}=\frac{\text { value - mean }}{\text { standard deviation }}=\frac{x-\mu}{\sigma}\)

بالنسبة لجون،\(z=\# \text { ofSTDEV } s=\frac{2.85 \cdot 3.0}{0.7}=-0.21\)

بالنسبة لعلي،\(z=\# \text { ofSTDEV } s=\frac{77-80}{10}=-0.3\)

حصل جون على معدل تراكمي أفضل مقارنة بمدرسته لأن معدله التراكمي هو 0.21 انحرافًا معياريًا أقل من متوسط مدرسته في حين أن المعدل التراكمي لعلي هو 0.3 انحراف معياري أقل من متوسط مدرسته.

النتيجة z لجون البالغة —0.21 أعلى من درجة z لعلي البالغة —0.3. بالنسبة لـ GPA، تعتبر القيم الأعلى أفضل، لذلك نستنتج أن جون لديه معدل تراكمي أفضل مقارنة بمدرسته.

التمارين\(\PageIndex{32}\)

أضف نصًا للتمارين هنا.

إجابة

أرادت سباحتان، أنجي وبيث، من فرق مختلفة، معرفة من لديه أسرع وقت لسباق 50 مترًا حرة مقارنة بفريقها. أي سباح حصل على أسرع وقت مقارنة بفريقها؟

\ (\ فهرس الصفحات {33}\) «>

طاولة\(\PageIndex{33}\)
سباح	الوقت (بالثواني)	متوسط وقت الفريق	الانحراف المعياري للفريق
أنجي	26.2	27.2	0.8
بيث	27.3	30.1	1.4

تقدم القوائم التالية بعض الحقائق التي توفر مزيدًا من الأفكار حول ما يخبرنا به الانحراف المعياري عن توزيع البيانات.

بالنسبة لأي مجموعة بيانات، بغض النظر عن توزيع البيانات:

تقع 75٪ على الأقل من البيانات ضمن انحرافين معياريين للمتوسط.
تقع 89٪ على الأقل من البيانات ضمن ثلاثة انحرافات معيارية للمتوسط.
يقع ما لا يقل عن 95٪ من البيانات ضمن 4.5 انحرافات معيارية للمتوسط.
يُعرف هذا بقاعدة Chebyshev.

بالنسبة للبيانات ذات التوزيع العادي، والتي سنقوم بفحصها بتفصيل كبير لاحقًا:

يقع ما يقرب من 68٪ من البيانات ضمن انحراف معياري واحد للمتوسط.
يقع ما يقرب من 95٪ من البيانات ضمن انحرافين معياريين للمتوسط.
يقع أكثر من 99٪ من البيانات ضمن ثلاثة انحرافات معيارية للمتوسط.
يُعرف هذا بالقاعدة التجريبية.
من المهم ملاحظة أن هذه القاعدة لا تنطبق إلا عندما يكون شكل توزيع البيانات على شكل جرس ومتماثل. سنتعلم المزيد عن هذا عند دراسة التوزيع الاحتمالي «العادي» أو «الغوسي» في الفصول اللاحقة.

معامل الاختلاف

هناك طريقة أخرى مفيدة لمقارنة التوزيعات إلى جانب المقارنات البسيطة للوسائل أو الانحرافات المعيارية وهي ضبط الاختلافات في حجم البيانات التي يتم قياسها. بكل بساطة، يختلف الاختلاف الكبير في البيانات ذات المتوسط الكبير عن نفس الاختلاف في البيانات بمتوسط صغير. لضبط حجم البيانات الأساسية، تم تطوير معامل التباين (CV). رياضياً:

\[C V=\frac{s}{\overline{x}} * 100 \text { conditioned upon } \overline{x} \neq 0, \text { where } s \text { is the standard deviation of the data and } \overline{x}\nonumber\]

يمكننا أن نرى أن هذا يقيس تنوع البيانات الأساسية كنسبة مئوية من القيمة المتوسطة؛ الوزن المركزي لمجموعة البيانات. هذا المقياس مفيد في مقارنة المخاطر حيث يكون التعديل مبررًا بسبب الاختلافات في حجم مجموعتي البيانات. في الواقع، يتم تغيير المقياس إلى المقياس الشائع، وفروق النسبة المئوية، ويسمح بإجراء مقارنة مباشرة بين مقادير أو أكثر من الاختلاف في مجموعات البيانات المختلفة.