Skip to main content
Global

1.2: البيانات وأخذ العينات والتنوع في البيانات وأخذ العينات

  • Page ID
    198758
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    قد تأتي البيانات من مجموعة سكانية أو من عينة. يتم استخدام الأحرف الصغيرة مثل\(x\) أو\(y\) بشكل عام لتمثيل قيم البيانات. يمكن وضع معظم البيانات في الفئات التالية:

    • نوعي
    • الكمية

    البيانات النوعية هي نتيجة تصنيف أو وصف سمات السكان. غالبًا ما تسمى البيانات النوعية أيضًا بالبيانات الفئوية. يعتبر لون الشعر ونوع الدم والمجموعة العرقية والسيارة التي يقودها الشخص والشارع الذي يعيش فيه الشخص أمثلة على البيانات النوعية (الفئوية). يتم وصف البيانات النوعية (الفئوية) بشكل عام بالكلمات أو الحروف. على سبيل المثال، قد يكون لون الشعر أسود أو بني داكن أو بني فاتح أو أشقر أو رمادي أو أحمر. قد تكون فصيلة الدم AB+ أو O- أو B+. غالبًا ما يفضل الباحثون استخدام البيانات الكمية على البيانات النوعية (الفئوية) لأنها تفسح المجال بسهولة أكبر للتحليل الرياضي. على سبيل المثال، ليس من المنطقي العثور على لون شعر متوسط أو فصيلة دم.

    البيانات الكمية هي دائمًا أرقام. البيانات الكمية هي نتيجة حساب أو قياس سمات السكان. يعد مقدار المال ومعدل النبض والوزن وعدد الأشخاص الذين يعيشون في بلدتك وعدد الطلاب الذين يأخذون الإحصائيات أمثلة على البيانات الكمية. قد تكون البيانات الكمية منفصلة أو مستمرة.

    جميع البيانات الناتجة عن العد تسمى البيانات الكمية المنفصلة. تأخذ هذه البيانات قيمًا عددية معينة فقط. إذا قمت بحساب عدد المكالمات الهاتفية التي تتلقاها لكل يوم من أيام الأسبوع، فقد تحصل على قيم مثل صفر أو واحد أو اثنين أو ثلاثة.

    تسمى البيانات التي لا تتكون فقط من عد الأرقام، ولكنها قد تتضمن الكسور أو الأرقام العشرية أو الأرقام غير المنطقية، البيانات الكمية المستمرة. غالبًا ما تكون البيانات المستمرة نتائج قياسات مثل الأطوال أو الأوزان أو الأوقات. ستكون قائمة الأطوال بالدقائق لجميع المكالمات الهاتفية التي تجريها في الأسبوع، بأرقام مثل 2.4 أو 7.5 أو 11.0، بيانات كمية مستمرة.

    مثال\(\PageIndex{1}\): DATA SAMPLE OF QUANTITATIVE DISCRETE DATA

    البيانات هي عدد الكتب التي يحملها الطلاب في حقائب الظهر الخاصة بهم. يمكنك أخذ عينة من خمسة طلاب. يحمل طالبان ثلاثة كتب، وطالب واحد يحمل أربعة كتب، وطالب واحد يحمل كتابين، وطالب واحد يحمل كتابًا واحدًا. أعداد الكتب (ثلاثة، أربعة، اثنان، وواحد) هي البيانات الكمية المنفصلة.

    التمارين الرياضية\(\PageIndex{1}\)

    البيانات هي عدد الأجهزة في صالة الألعاب الرياضية. يمكنك تذوق خمس صالات رياضية. تحتوي صالة الألعاب الرياضية الواحدة على 12 جهازًا، وصالة ألعاب رياضية واحدة بها 15 جهازًا، وصالة ألعاب رياضية واحدة بها 22 جهازًا، وصالة الألعاب الرياضية الأخرى بها 20 جهازًا. ما نوع البيانات هذه؟

    مثال\(\PageIndex{2}\): DATA SAMPLE OF QUANTITATIVE CONTINUOUS DATA

    البيانات هي أوزان حقائب الظهر التي تحتوي على كتب. يمكنك أخذ عينات من نفس الطلاب الخمسة. الأوزان (بالرطل) لحقائب الظهر الخاصة بهم هي 6.2، 7، 6.8، 9.1، 4.3. لاحظ أن حقائب الظهر التي تحمل ثلاثة كتب يمكن أن يكون لها أوزان مختلفة. الأوزان هي بيانات كمية مستمرة.

    التمارين الرياضية\(\PageIndex{2}\)

    البيانات هي مناطق المروج بالأقدام المربعة. يمكنك أخذ عينة من خمسة منازل. تبلغ مساحة المروج 144 قدمًا مربعًا، 160 قدمًا مربعًا، 190 قدمًا مربعًا، 180 قدمًا مربعًا، و 210 قدمًا مربعًا. ما نوع البيانات هذه؟

    مثال\(\PageIndex{3}\)

    تذهب إلى السوبر ماركت وتشتري ثلاث علب من الحساء (19 أونصة) من حساء الطماطم، و 14.1 أونصة من العدس، و 19 أونصة (الزفاف الإيطالي)، وعبوتين من المكسرات (الجوز والفول السوداني)، وأربعة أنواع مختلفة من الخضار (البروكلي والقرنبيط والسبانخ والجزر)، وحلويتين (16 أونصة من آيس كريم الفستق و 32 أونصة من رقائق الشوكولاتة (الكوكيز).

    مجموعات بيانات الأسماء التي تكون كمية منفصلة وكمية مستمرة ونوعية (فئوية).

    إجابة

    حل واحد ممكن:

    • تُعد علب الحساء الثلاث وعبوتين من المكسرات وأربعة أنواع من الخضروات واثنين من الحلويات بيانات كمية منفصلة لأنك تحسبها.
    • تعتبر أوزان الحساء (19 أونصة، 14.1 أونصة، 19 أونصة) بيانات كمية مستمرة لأنك تقيس الأوزان بأكبر قدر ممكن من الدقة.
    • تعتبر أنواع الحساء والمكسرات والخضروات والحلويات بيانات نوعية (فئوية) لأنها قاطعة.

    حاول تحديد مجموعات بيانات إضافية في هذا المثال.

    مثال\(\PageIndex{4}\)

    البيانات هي ألوان حقائب الظهر. مرة أخرى، يمكنك أخذ عينات من نفس الطلاب الخمسة. يمتلك أحد الطلاب حقيبة ظهر حمراء، واثنين من الطلاب لديهم حقائب ظهر سوداء، وطالب واحد لديه حقيبة ظهر خضراء، وطالب واحد لديه حقيبة ظهر رمادية. الألوان الأحمر والأسود والأسود والأخضر والرمادي هي بيانات نوعية (فئوية).

    التمارين الرياضية\(\PageIndex{4}\)

    البيانات هي ألوان المنازل. يمكنك أخذ عينة من خمسة منازل. ألوان المنازل هي الأبيض والأصفر والأبيض والأحمر والأبيض. ما نوع البيانات هذه؟

    يمكنك جمع البيانات كأرقام والإبلاغ عنها بشكل قاطع. على سبيل المثال، يتم تسجيل درجات الاختبار لكل طالب طوال الفصل الدراسي. في نهاية الفصل الدراسي، يتم الإبلاغ عن درجات الاختبار كـ A أو B أو C أو D أو F

    مثال\(\PageIndex{5}\)

    العمل بشكل تعاوني لتحديد نوع البيانات الصحيح (الكمية أو النوعية). حدد ما إذا كانت البيانات الكمية مستمرة أم منفصلة. تلميح: غالبًا ما تبدأ البيانات المنفصلة بالكلمات «عدد».

    1. عدد أزواج الأحذية التي تمتلكها
    2. نوع السيارة التي تقودها
    3. المسافة من منزلك إلى أقرب محل بقالة
    4. عدد الفصول التي تدرسها في كل عام دراسي
    5. نوع الآلة الحاسبة التي تستخدمها
    6. أوزان مصارعي السومو
    7. عدد الإجابات الصحيحة في الاختبار
    8. درجات الذكاء (قد يسبب هذا بعض النقاش.)
    إجابة

    البنود أ، د، ز هي كميات منفصلة؛ البنود ج، و، و، و، و ح هي كمية مستمرة؛ والبنود ب و هـ نوعية أو فئوية.

    التمارين الرياضية\(\PageIndex{5}\)

    حدد نوع البيانات الصحيح (الكمي أو النوعي) لعدد السيارات في موقف السيارات. حدد ما إذا كانت البيانات الكمية مستمرة أم منفصلة.

    مثال\(\PageIndex{6}\)

    تقوم أستاذة الإحصاء بجمع معلومات حول تصنيف طلابها كطلاب جدد أو طلاب في السنة الثانية أو صغار أو كبار السن. يتم تلخيص البيانات التي تجمعها في الرسم البياني الدائري الشكل 1.2. ما نوع البيانات التي يعرضها هذا الرسم البياني؟

    هذا مخطط دائري يوضح تصنيف الفصل لطلاب الإحصاء. يحتوي المخطط على 4 أقسام تحمل اسم الطالب الجديد، الطالب في السنة الثانية، قسم المبتدئين، قسم كبار يتم طرح سؤال أسفل المخطط الدائري: ما نوع البيانات التي يعرضها هذا الرسم البياني؟

    الشكل 1.2

    إجابة

    يُظهر هذا المخطط الدائري الطلاب في كل عام، وهي بيانات نوعية (أو فئوية).

    التمارين الرياضية\(\PageIndex{6}\)

    يحتفظ المسجل في جامعة الولاية بسجلات لعدد الساعات المعتمدة التي يكملها الطلاب في كل فصل دراسي. يتم تلخيص البيانات التي يجمعها في الرسم البياني. حدود الفئة هي 10 إلى أقل من 13، 13 إلى أقل من 16، 16 إلى أقل من 19، 19 إلى أقل من 22، 22 إلى أقل من 25.

    يتكون هذا الرسم البياني من 5 أشرطة مع تحديد المحور السيني على فترات من 3 من 10 إلى 25 والمحور y بزيادات 100 من 0 إلى 800. يُظهر ارتفاع الأشرطة عدد الطلاب في كل فاصل زمني.
    الشكل 1.3

    ما نوع البيانات التي يعرضها هذا الرسم البياني؟

    مناقشة البيانات النوعية

    فيما يلي جداول تقارن عدد الطلاب بدوام جزئي وبدوام كامل في كلية De Anza وكلية Foothill المسجلين في فصل ربيع 2010. تعرض الجداول الأعداد (الترددات) والنسب المئوية أو النسب (الترددات النسبية). تعمل أعمدة النسبة المئوية على تسهيل مقارنة الفئات نفسها في الكليات. غالبًا ما يكون عرض النسب المئوية جنبًا إلى جنب مع الأرقام مفيدًا، ولكنه مهم بشكل خاص عند مقارنة مجموعات البيانات التي لا تحتوي على نفس الإجماليات، مثل إجمالي التسجيلات لكلتا الكليتين في هذا المثال. لاحظ مدى زيادة النسبة المئوية للطلاب بدوام جزئي في Foothill College مقارنة بكلية De Anza.

    جدول\(\PageIndex{1}\): فصل الخريف 2007 (يوم التعداد)
    كلية دي أنزا كلية فوتهيل
    رقم بالمائة رقم بالمائة
    بدوام كامل 9,200 40.9% بدوام كامل 4,059 28.6 في المائة
    دوام جزئي 13,296 59.1% دوام جزئي 10,124 71.4%
    الإجمالي 22,496 100% الإجمالي 14,183 100%

    تعد الجداول طريقة جيدة لتنظيم البيانات وعرضها. لكن الرسوم البيانية يمكن أن تكون أكثر فائدة في فهم البيانات. لا توجد قواعد صارمة بشأن الرسوم البيانية التي يجب استخدامها. هناك رسمان بيانيان يستخدمان لعرض البيانات النوعية (الفئوية) هما المخططات الدائرية والرسوم البيانية الشريطية.

    • في المخطط الدائري، يتم تمثيل فئات البيانات بأسافين في دائرة وتتناسب في الحجم مع النسبة المئوية للأفراد في كل فئة.
    • في الرسم البياني الشريطي، يتناسب طول الشريط لكل فئة مع عدد الأفراد أو نسبتهم المئوية في كل فئة. قد تكون الأشرطة رأسية أو أفقية.
    • يتكون مخطط Pareto من أشرطة مرتبة بالترتيب حسب حجم الفئة (من الأكبر إلى الأصغر).

    انظر إلى الشكل 1.5 وحدد الرسم البياني (دائري أو شريط) الذي تعتقد أنه يعرض المقارنات بشكل أفضل.

    من الجيد إلقاء نظرة على مجموعة متنوعة من الرسوم البيانية لمعرفة أيها أكثر فائدة في عرض البيانات. قد نتخذ خيارات مختلفة لما نعتقد أنه الرسم البياني «الأفضل» اعتمادًا على البيانات والسياق. يعتمد اختيارنا أيضًا على ما نستخدم البيانات من أجله.

    الشكل 1.4 أ
    الشكل 1.4 ب

    الشكل 1.5

    النسب المئوية التي تضيف إلى أكثر (أو أقل) من 100%

    في بعض الأحيان تصل النسب المئوية إلى أكثر من 100٪ (أو أقل من 100٪). في الرسم البياني، تزداد النسب المئوية إلى أكثر من 100% لأن الطلاب يمكن أن يكونوا في أكثر من فئة واحدة. يُعد الرسم البياني الشريطي مناسبًا لمقارنة الحجم النسبي للفئات. لا يمكن استخدام المخطط الدائري. لا يمكن استخدامه أيضًا إذا تمت إضافة النسب المئوية إلى أقل من 100٪.

    الجدول\(\PageIndex{2}\): كلية دي أنزا لربيع 2010
    المميزة/الفئة بالمائة
    طلاب بدوام كامل 40.9%
    الطلاب الذين ينوون الانتقال إلى مؤسسة تعليمية مدتها 4 سنوات 48.6%
    الطلاب تحت سن 25 61.0%
    كلي 150.5%
    الشكل\(\PageIndex{2}\)

    حذف الفئات/البيانات المفقودة

    يعرض الجدول العرق للطلاب ولكنه يفتقد فئة «أخرى/غير معروف». تحتوي هذه الفئة على أشخاص لا يشعرون أنهم يندرجون في أي من الفئات العرقية أو رفضوا الرد. لاحظ أن الترددات لا تصل إلى إجمالي عدد الطلاب. في هذه الحالة، قم بإنشاء رسم بياني شريطي وليس مخطط دائري.

    الجدول\(\PageIndex{3}\): الأصل العرقي للطلاب في كلية دي أنزا، الفصل الدراسي الخريفي 2007 (يوم التعداد)
    التردد بالمائة
    آسيوي 8,794 36.1%
    أسود 1,412 5.8%
    فلبينية 1,298 5.3%
    أصل اسباني 4,180 17.1%
    أمريكي أصلي 146 0.6%
    جزر المحيط الهادئ 236 1.0%
    أبيض 5,978 24.5%
    كلي 22,044 من أصل 24,382 90.4% من أصل 100%
    الشكل\(\PageIndex{3}\)

    الرسم البياني التالي هو نفس الرسم البياني السابق ولكن تم تضمين النسبة المئوية «أخرى/غير معروفة» (9.6٪). فئة «أخرى/غير معروف» كبيرة مقارنة ببعض الفئات الأخرى (الأمريكيون الأصليون، 0.6٪، سكان جزر المحيط الهادئ 1.0٪). من المهم معرفة ذلك عندما نفكر فيما تخبرنا به البيانات.

    هذا الرسم البياني الشريطي الخاص في الشكل 1.9 هو مخطط باريتو. يحتوي مخطط باريتو على أشرطة مرتبة من الأكبر إلى الأصغر ويسهل قراءتها وتفسيرها.

    الشكل\(\PageIndex{4}\): رسم بياني شريطي مع فئة أخرى/غير معروفة

    الشكل\(\PageIndex{4}\): مخطط باريتو مع أشرطة مرتبة حسب الحجم

    المخططات الدائرية: لا توجد بيانات مفقودة

    تحتوي المخططات الدائرية التالية على فئة «أخرى/غير معروف» (حيث يجب إضافة النسب المئوية إلى 100٪). الرسم البياني في الشكل 1.10.

    الشكل\(\PageIndex{5}\): لصق التسمية التوضيحية هنا

    أخذ العينات

    غالبًا ما يكلف جمع المعلومات حول مجموعة سكانية بأكملها الكثير جدًا أو يكون مستحيلًا تقريبًا. بدلاً من ذلك، نستخدم عينة من السكان. يجب أن تتمتع العينة بنفس خصائص المجموعة السكانية التي تمثلها. يستخدم معظم الإحصائيين طرقًا مختلفة لأخذ العينات العشوائية في محاولة لتحقيق هذا الهدف. سيصف هذا القسم بعض الطرق الأكثر شيوعًا. هناك عدة طرق مختلفة لأخذ العينات العشوائية. في كل شكل من أشكال أخذ العينات العشوائية، يتمتع كل فرد من السكان في البداية بفرصة متساوية لاختياره للعينة. كل طريقة لها إيجابيات وسلبيات. أسهل طريقة للوصف تسمى عينة عشوائية بسيطة. من المرجح أيضًا اختيار أي مجموعة من الأفراد مثل أي مجموعة أخرى من\(n\) الأفراد إذا تم استخدام تقنية أخذ العينات العشوائية البسيطة. بمعنى آخر، كل عينة من نفس الحجم لها فرصة متساوية في الاختيار.

    إلى جانب أخذ العينات العشوائية البسيطة، هناك أشكال أخرى من أخذ العينات تتضمن عملية فرصة للحصول على العينة. طرق أخذ العينات العشوائية المعروفة الأخرى هي العينة الطبقية والعينة العنقودية والعينة المنهجية.

    لاختيار عينة طبقية، قسّم السكان إلى مجموعات تسمى الطبقات ثم خذ عددًا متناسبًا من كل طبقة. على سبيل المثال، يمكنك تقسيم (تجميع) طلاب الكلية حسب القسم ثم اختيار عينة عشوائية بسيطة متناسبة من كل طبقة (كل قسم) للحصول على عينة عشوائية طبقية. لاختيار عينة عشوائية بسيطة من كل قسم، قم بترقيم كل عضو في القسم الأول، ورقم كل عضو في القسم الثاني، وافعل الشيء نفسه بالنسبة للأقسام المتبقية. ثم استخدم أخذ العينات العشوائية البسيطة لاختيار الأرقام المتناسبة من القسم الأول والقيام بنفس الشيء لكل قسم من الأقسام المتبقية. تمثل هذه الأرقام المختارة من القسم الأول، والمختارة من القسم الثاني، وهكذا الأعضاء الذين يشكلون العينة الطبقية.

    لاختيار عينة عنقودية، قسّم المجموعة إلى مجموعات (مجموعات) ثم حدد بعض المجموعات عشوائيًا. جميع الأعضاء من هذه المجموعات موجودون في عينة الكتلة. على سبيل المثال، إذا قمت بأخذ عينة عشوائية من أربعة أقسام من طلاب الكلية، فإن الأقسام الأربعة تشكل العينة العنقودية. قسّم هيئة التدريس في كليتك حسب القسم. الأقسام هي المجموعات. قم بترقيم كل قسم، ثم اختر أربعة أرقام مختلفة باستخدام عينات عشوائية بسيطة. جميع أعضاء الأقسام الأربعة بهذه الأرقام هم عينة عنقودية.

    لاختيار عينة منهجية، حدد نقطة البداية بشكل عشوائي وأخذ كل\(n^{th}\) جزء من البيانات من قائمة السكان. على سبيل المثال، افترض أنه يجب عليك إجراء مسح عبر الهاتف. يحتوي دفتر الهاتف الخاص بك على 20,000 قائمة إقامة. يجب عليك اختيار 400 اسم للعينة. عدّد عدد السكان 1-20,000 ثم استخدم عينة عشوائية بسيطة لاختيار رقم يمثل الاسم الأول في العينة. ثم اختر كل خمسين اسمًا بعد ذلك حتى يكون لديك إجمالي 400 اسم (قد تضطر إلى العودة إلى بداية قائمة الهواتف الخاصة بك). يتم اختيار أخذ العينات المنهجية بشكل متكرر لأنها طريقة بسيطة.

    نوع أخذ العينات غير العشوائي هو أخذ العينات المريح. تتضمن عملية أخذ العينات الملائمة استخدام النتائج المتاحة بسهولة. على سبيل المثال، يقوم متجر برامج الكمبيوتر بإجراء دراسة تسويقية من خلال إجراء مقابلات مع العملاء المحتملين الذين يتواجدون في المتجر ويتصفحون البرامج المتاحة. قد تكون نتائج أخذ العينات الملائمة جيدة جدًا في بعض الحالات ومتحيزة للغاية (تفضل نتائج معينة) في حالات أخرى.

    يجب أن تتم بيانات أخذ العينات بعناية فائقة. يمكن أن يؤدي جمع البيانات بلا مبالاة إلى نتائج مدمرة. قد تكون الاستطلاعات المرسلة بالبريد إلى الأسر ثم إعادتها متحيزة للغاية (قد تفضل مجموعة معينة). من الأفضل للشخص الذي يجري الاستطلاع أن يختار عينة المستجيبين.

    يتم أخذ العينات العشوائية الحقيقية مع الاستبدال. أي بمجرد اختيار العضو، يعود هذا العضو إلى السكان وبالتالي يمكن اختياره أكثر من مرة. ولكن لأسباب عملية، في معظم السكان، يتم أخذ العينات العشوائية البسيطة دون استبدال. عادة ما يتم إجراء الاستطلاعات بدون استبدال. أي أنه يمكن اختيار أحد أفراد السكان مرة واحدة فقط. يتم أخذ معظم العينات من مجموعات كبيرة وتميل العينة إلى أن تكون صغيرة مقارنة بالسكان. نظرًا لأن هذه هي الحالة، فإن أخذ العينات بدون استبدال هو تقريبًا نفس أخذ العينات مع الاستبدال لأن فرصة اختيار نفس الشخص أكثر من مرة مع الاستبدال منخفضة جدًا.

    في الكلية التي يبلغ عدد سكانها 10,000 شخص، لنفترض أنك تريد اختيار عينة من 1000 شخص بشكل عشوائي للمسح. بالنسبة لأي عينة معينة من 1000، إذا كنت تقوم بأخذ العينات مع الاستبدال،

    • فرصة اختيار الشخص الأول هي 1000 من أصل 10000 (0.1000)؛
    • فرصة اختيار شخص ثانٍ مختلف لهذه العينة هي 999 من أصل 10000 (0.0999)؛
    • فرصة اختيار نفس الشخص مرة أخرى هي 1 من أصل 10000 (منخفضة جدًا).

    إذا كنت تقوم بأخذ العينات دون استبدال،

    • فرصة اختيار الشخص الأول لأي عينة معينة هي 1000 من أصل 10000 (0.1000)؛
    • فرصة اختيار شخص ثانٍ مختلف هي 999 من أصل 9,999 (0.0999)؛
    • لا تحل محل الشخص الأول قبل اختيار الشخص التالي.

    قارن الكسور 999/10,000 و 999/9,999. من أجل الدقة، احمل الإجابات العشرية إلى أربعة منازل عشرية. بالنسبة لأربعة منازل عشرية، تكون هذه الأرقام مكافئة (0.0999).

    يصبح أخذ العينات بدون استبدال بدلاً من أخذ العينات مع الاستبدال مشكلة رياضية فقط عندما يكون عدد السكان صغيرًا. على سبيل المثال، إذا كان عدد السكان 25 شخصًا، تكون العينة عشرة، وتقوم بأخذ عينات بديلة لأي عينة معينة، فإن فرصة اختيار الشخص الأول هي عشرة من أصل 25، وفرصة اختيار شخص آخر هي تسعة من أصل 25 (تحل محل الشخص الأول).

    إذا قمت بأخذ عينة بدون بديل، فإن فرصة اختيار الشخص الأول هي عشرة من أصل 25، ثم فرصة اختيار الشخص الثاني (الذي يختلف عن الآخر) هي تسعة من أصل 24 (لا تحل محل الشخص الأول).

    قارن الكسور 9/25 و 9/24. إلى أربعة أرقام عشرية، 9/25 = 0.3600 و 9/24 = 0.3750. بالنسبة لأربعة منازل عشرية، لا تكون هذه الأرقام مكافئة.

    عند تحليل البيانات، من المهم أن تكون على دراية بأخطاء أخذ العينات والأخطاء غير المتعلقة بأخذ العينات. تتسبب العملية الفعلية لأخذ العينات في حدوث أخطاء في أخذ العينات. على سبيل المثال، قد لا تكون العينة كبيرة بما يكفي. تتسبب العوامل غير المرتبطة بعملية أخذ العينات في حدوث أخطاء في عدم أخذ العينات. يمكن أن يتسبب جهاز العد المعيب في حدوث خطأ في عدم أخذ العينات.

    في الواقع، لن تكون العينة أبدًا ممثلة تمامًا للسكان، لذلك سيكون هناك دائمًا بعض الأخطاء في أخذ العينات. كقاعدة عامة، كلما كبرت العينة، قل خطأ أخذ العينات.

    في الإحصاءات، يتم إنشاء تحيز لأخذ العينات عندما يتم جمع عينة من مجموعة سكانية وليس من المحتمل أن يتم اختيار بعض أفراد السكان مثل الآخرين (تذكر أنه يجب أن يكون لكل فرد من السكان فرصة متساوية في أن يتم اختياره). عندما يحدث تحيز في أخذ العينات، يمكن أن تكون هناك استنتاجات غير صحيحة يتم استخلاصها حول السكان الذين تتم دراستهم.

    التقييم النقدي

    نحن بحاجة إلى تقييم الدراسات الإحصائية التي نقرأ عنها بشكل نقدي وتحليلها قبل قبول نتائج الدراسات. تشمل المشاكل الشائعة التي يجب أن تكون على دراية بها

    • مشاكل العينات: يجب أن تكون العينة ممثلة للسكان. العينة التي لا تمثل السكان متحيزة. تعطي العينات المتحيزة التي لا تمثل السكان نتائج غير دقيقة وغير صالحة.
    • العينات المختارة ذاتيًا: غالبًا ما تكون الردود فقط من قبل الأشخاص الذين يختارون الرد، مثل استطلاعات الاتصال، غير موثوقة.
    • مشاكل حجم العينة: قد تكون العينات الصغيرة جدًا غير موثوقة. العينات الأكبر هي الأفضل، إن أمكن. في بعض الحالات، لا يمكن تجنب الحصول على عينات صغيرة ولا يزال من الممكن استخدامها لاستخلاص النتائج. أمثلة: سيارات اختبار التصادم أو الاختبارات الطبية للحالات النادرة
    • التأثير غير المبرر: جمع البيانات أو طرح الأسئلة بطريقة تؤثر على الاستجابة
    • عدم الرد أو رفض الموضوع للمشاركة: قد لا تكون الردود المجمعة ممثلة للسكان. في كثير من الأحيان، قد يجيب الأشخاص الذين لديهم آراء إيجابية أو سلبية قوية على الاستطلاعات، مما قد يؤثر على النتائج.
    • السببية: لا تعني العلاقة بين متغيرين أن أحدهما يتسبب في حدوث الآخر. قد تكون مرتبطة (مرتبطة) بسبب علاقتها من خلال متغير مختلف.
    • دراسات التمويل الذاتي أو دراسات المصلحة الذاتية: دراسة أجراها شخص أو منظمة من أجل دعم مطالبتهم. هل الدراسة محايدة؟ اقرأ الدراسة بعناية لتقييم العمل. لا تفترض تلقائيًا أن الدراسة جيدة، ولكن لا تفترض تلقائيًا أن الدراسة سيئة أيضًا. قم بتقييمها بناءً على مزاياها والعمل المنجز.
    • الاستخدام المضلل للبيانات: الرسوم البيانية المعروضة بشكل غير صحيح أو البيانات غير المكتملة أو نقص السياق
    • مربك: عندما لا يمكن فصل تأثيرات عوامل متعددة على الاستجابة. الارتباك يجعل من الصعب أو المستحيل استخلاص استنتاجات صحيحة حول تأثير كل عامل.

    مثال\(\PageIndex{7}\)

    يتم إجراء دراسة لتحديد متوسط الرسوم الدراسية التي يدفعها طلاب المرحلة الجامعية في ولاية سان خوسيه لكل فصل دراسي. يُسأل كل طالب في العينات التالية عن مقدار الرسوم الدراسية التي دفعها لفصل الخريف. ما نوع أخذ العينات في كل حالة؟

    1. يتم أخذ عينة من 100 طالب جامعي في ولاية سان خوسيه من خلال تنظيم أسماء الطلاب حسب التصنيف (طالب جديد أو طالب في السنة الثانية أو مبتدئ أو كبير)، ثم اختيار 25 طالبًا من كل منهم.
    2. يتم استخدام مولد الأرقام العشوائية لاختيار طالب من القائمة الأبجدية لجميع الطلاب الجامعيين في فصل الخريف. بدءًا من هذا الطالب، يتم اختيار كل 50 طالبًا حتى يتم تضمين 75 طالبًا في العينة.
    3. يتم استخدام طريقة عشوائية تمامًا لاختيار 75 طالبًا. كل طالب جامعي في فصل الخريف لديه نفس احتمالية اختياره في أي مرحلة من مراحل عملية أخذ العينات.
    4. يتم ترقيم سنوات الطالب الأول والثاني والثاني والثالث والرابع على التوالي. يتم استخدام مولد الأرقام العشوائية لاختيار اثنين من تلك السنوات. جميع الطلاب في هذين العامين موجودون في العينة.
    5. يُطلب من مساعد إداري الوقوف أمام المكتبة يوم أربعاء وسؤال أول 100 طالب جامعي يقابلهم عما دفعوه مقابل الرسوم الدراسية في فصل الخريف. هؤلاء الطلاب المائة هم العينة.
    إجابة

    أ. طبقية؛ ب. منهجية؛ ج. عشوائية بسيطة؛ د. عنقودية؛ هـ. ملائمة

    مثال\(\PageIndex{8}\)

    حدد نوع العينة المستخدمة (عشوائية بسيطة أو طبقية أو منهجية أو عنقودية أو ملائمة).

    1. يختار مدرب كرة قدم ستة لاعبين من مجموعة من الأولاد الذين تتراوح أعمارهم بين 8 إلى 10 سنوات، وسبعة لاعبين من مجموعة من الأولاد الذين تتراوح أعمارهم بين 11 و 12 عامًا، وثلاثة لاعبين من مجموعة من الأولاد الذين تتراوح أعمارهم بين 13 و 14 عامًا لتشكيل فريق كرة قدم ترفيهي.
    2. يقوم أحد خبراء الاستطلاع بإجراء مقابلات مع جميع موظفي الموارد البشرية في خمس شركات مختلفة للتكنولوجيا العالية.
    3. أجرى باحث في مجال التعليم الثانوي مقابلات مع 50 معلمة في المدرسة الثانوية و50 معلمًا في المدرسة الثانوية.
    4. يقوم باحث طبي بإجراء مقابلات مع كل ثالث مريض بالسرطان من قائمة مرضى السرطان في مستشفى محلي.
    5. يستخدم مستشار المدرسة الثانوية جهاز كمبيوتر لإنشاء 50 رقمًا عشوائيًا ثم يختار الطلاب الذين تتوافق أسمائهم مع الأرقام.
    6. يقوم أحد الطلاب بإجراء مقابلات مع زملائه في فصل الجبر لتحديد عدد أزواج الجينز التي يمتلكها الطالب في المتوسط.
    إجابة

    أ. طبقية؛ ب. عنقودية؛ ج؛ طبقية؛ د. منهجية؛ هـ. عشوائية بسيطة؛ و. ملائمة

    إذا قمنا بفحص عينتين تمثلان نفس المجموعة، حتى لو استخدمنا طرق أخذ العينات العشوائية للعينات، فلن تكون هي نفسها تمامًا. مثلما يوجد اختلاف في البيانات، هناك اختلاف في العينات. عندما تعتاد على أخذ العينات، سيبدأ التباين في الظهور بشكل طبيعي.

    مثال\(\PageIndex{8}\)

    لنفترض أن كلية ABC تضم 10000 طالب بدوام جزئي (عدد السكان). نحن مهتمون بمتوسط المبلغ المالي الذي ينفقه الطالب بدوام جزئي على الكتب في فصل الخريف. إن طرح الأسئلة على جميع الطلاب البالغ عددهم 10,000 هو مهمة شبه مستحيلة.

    لنفترض أننا أخذنا عينتين مختلفتين.

    أولاً، نستخدم أخذ العينات بطريقة ملائمة ونقوم بمسح عشرة طلاب من فصل الكيمياء العضوية للفصل الدراسي الأول. يأخذ العديد من هؤلاء الطلاب حساب التفاضل والتكامل للفصل الدراسي الأول بالإضافة إلى فصل الكيمياء العضوية. مبلغ المال الذي ينفقونه على الكتب هو كما يلي:

    128 دولارًا؛ 87 دولارًا؛ 173 دولارًا؛ 116 دولارًا؛ 130 دولارًا؛ 204 دولارًا؛ 147 دولارًا؛ 189 دولارًا؛ 93 دولارًا؛ 153 دولارًا

    يتم أخذ العينة الثانية باستخدام قائمة من كبار السن الذين يأخذون دروسًا في التربية البدنية ويأخذون كل خامس من كبار السن في القائمة، ليصبح المجموع عشرة من كبار السن. إنهم ينفقون:

    50 دولارًا؛ 40 دولارًا؛ 36 دولارًا؛ 15 دولارًا؛ 50 دولارًا؛ 100 دولارًا؛ 40 دولارًا؛ 53 دولارًا؛ 22 دولارًا؛ 22 دولارًا

    من غير المحتمل وجود أي طالب في كلتا العينتين.

    أ- هل تعتقد أن أيًا من هذه العينات يمثل (أو سمة مميزة) لكامل الطلاب بدوام جزئي البالغ عددهم 10,000 طالب؟

    إجابة

    (أ) لا. ربما تتكون العينة الأولى من الطلاب المهتمين بالعلوم. إلى جانب دورة الكيمياء، يدرس البعض منهم أيضًا حساب التفاضل والتكامل للفصل الدراسي الأول. تميل كتب هذه الفصول إلى أن تكون باهظة الثمن. معظم هؤلاء الطلاب، على الأرجح، يدفعون أكثر من متوسط الطلاب بدوام جزئي مقابل كتبهم. العينة الثانية عبارة عن مجموعة من كبار السن الذين، على الأرجح، يأخذون دورات للصحة والاهتمام. ربما يكون مبلغ المال الذي ينفقونه على الكتب أقل بكثير من متوسط الطالب بدوام جزئي. كلا العينتين متحيزتان. أيضًا، في كلتا الحالتين، لا تتاح لجميع الطلاب فرصة المشاركة في أي من العينتين.

    ب- بما أن هذه العينات لا تمثل جميع السكان، فهل من الحكمة استخدام النتائج لوصف جميع السكان؟

    إجابة

    الحل 1.13

    (ب) لا. بالنسبة لهذه العينات، لم يكن لدى كل فرد من السكان فرصة متساوية في الاختيار.

    الآن، لنفترض أننا نأخذ عينة ثالثة. نختار عشرة طلاب مختلفين بدوام جزئي من تخصصات الكيمياء والرياضيات واللغة الإنجليزية وعلم النفس وعلم الاجتماع والتاريخ والتمريض والتربية البدنية والفن وتنمية الطفولة المبكرة. (نفترض أن هذه هي التخصصات الوحيدة التي يتم فيها تسجيل الطلاب بدوام جزئي في ABC College وأن عددًا متساويًا من الطلاب بدوام جزئي مسجلون في كل تخصص.) يتم اختيار كل طالب باستخدام عينات عشوائية بسيطة. باستخدام الآلة الحاسبة، يتم إنشاء أرقام عشوائية ويتم اختيار طالب من تخصص معين إذا كان لديه رقم مطابق. ينفق الطلاب المبالغ التالية:

    180 دولارًا؛ 50 دولارًا؛ 150 دولارًا؛ 85 دولارًا؛ 260 دولارًا؛ 75 دولارًا؛ 180 دولارًا؛ 200 دولارًا؛ 200 دولارًا؛ 150 دولارًا

    ج- هل العينة متحيزة؟

    إجابة

    الحل 1.13

    ج - العينة غير متحيزة، ولكن يوصى بأخذ عينة أكبر لزيادة احتمال أن تكون العينة قريبة من تمثيل السكان. ومع ذلك، بالنسبة لتقنية أخذ العينات المتحيزة، حتى العينة الكبيرة تتعرض لخطر عدم تمثيلها للسكان.

    غالبًا ما يسأل الطلاب عما إذا كان أخذ عينة «جيدًا بما يكفي»، بدلاً من مسح جميع السكان. إذا تم إجراء الاستطلاع بشكل جيد، فإن الإجابة هي نعم.

    التمارين الرياضية\(\PageIndex{8}\)

    تحتوي محطة إذاعية محلية على قاعدة جماهيرية من 20,000 مستمع. تريد المحطة معرفة ما إذا كان جمهورها يفضل المزيد من الموسيقى أو المزيد من البرامج الحوارية. إن سؤال جميع المستمعين البالغ عددهم 20,000 مستمع مهمة شبه مستحيلة.

    تستخدم المحطة عينات ملائمة وتستقصي أول 200 شخص يلتقون بهم في إحدى فعاليات الحفلات الموسيقية بالمحطة. قال 24 شخصًا إنهم يفضلون المزيد من البرامج الحوارية، وقال 176 شخصًا إنهم يفضلون المزيد من الموسيقى.

    هل تعتقد أن هذه العينة تمثل (أو هي سمة مميزة) لجميع المستمعين البالغ عددهم 20,000 شخص؟

    الاختلاف في البيانات

    الاختلاف موجود في أي مجموعة من البيانات. على سبيل المثال، قد تحتوي علب المشروبات سعة 16 أونصة على أكثر أو أقل من 16 أونصة من السائل. في إحدى الدراسات، تم قياس ثماني علب سعة 16 أونصة وإنتاج الكمية التالية (بالأوقية) من المشروبات:

    15.8؛ 16.1؛ 15.2؛ 14.8؛ 15.8؛ 15.9؛ 16.0؛ 15.5

    قد تختلف قياسات كمية المشروبات في 16 أونصة لأن الأشخاص المختلفين يقومون بالقياسات أو لأن الكمية الدقيقة، 16 أونصة من السائل، لم يتم وضعها في العلب. يقوم المصنعون بإجراء اختبارات منتظمة لتحديد ما إذا كانت كمية المشروبات في 16 أونصة يمكن أن تقع ضمن النطاق المطلوب.

    اعلم أنه أثناء أخذ البيانات، قد تختلف بياناتك إلى حد ما عن البيانات التي يأخذها شخص آخر لنفس الغرض. هذا طبيعي تمامًا. ومع ذلك، إذا كان اثنان أو أكثر منكم يأخذون نفس البيانات ويحصلون على نتائج مختلفة جدًا، فقد حان الوقت لك وللآخرين لإعادة تقييم طرق أخذ البيانات ودقتك.

    الاختلاف في العينات

    وقد ذُكر سابقًا أن عينتين أو أكثر من نفس المجموعة، يتم أخذها عشوائيًا، مع وجود ما يقرب من نفس خصائص السكان، من المحتمل أن تكون مختلفة عن بعضها البعض. لنفترض أن كل من دورين وجونغ قررا دراسة متوسط الوقت الذي ينام فيه الطلاب في الكلية كل ليلة. يأخذ كل من دورين وجونغ عينات من 500 طالب. تستخدم Doreen أخذ العينات بشكل منهجي ويستخدم Jung أخذ العينات العنقودية. ستكون عينة دورين مختلفة عن عينة جونغ. حتى لو استخدمت دورين وجونغ نفس طريقة أخذ العينات، فمن المرجح أن تكون عيناتهما مختلفة. ومع ذلك، لن يكون أي منهما خاطئًا.

    فكر فيما يساهم في جعل عينات دورين وجونغ مختلفة.

    إذا أخذت دورين وجونغ عينات أكبر (أي زيادة عدد قيم البيانات)، فقد تكون نتائج العينة (متوسط الوقت الذي ينام فيه الطالب) أقرب إلى متوسط عدد السكان الفعلي. ولكن مع ذلك، ستكون عيناتهم، في جميع الاحتمالات، مختلفة عن بعضها البعض. لا يمكن التأكيد على هذا التباين في العينات بما فيه الكفاية.

    حجم العينة

    يعد حجم العينة (يُطلق عليه غالبًا عدد الملاحظات، وعادةً ما يُعطى الرمز n) مهمًا. الأمثلة التي رأيتها في هذا الكتاب حتى الآن صغيرة. عينات من بضع مئات من الملاحظات فقط، أو حتى أصغر، كافية للعديد من الأغراض. في الاقتراع، تعتبر العينات التي تتراوح من 1200 إلى 1500 ملاحظة كبيرة بما يكفي وجيدة بما يكفي إذا كان المسح عشوائيًا وتم إجراؤه جيدًا. سنجد لاحقًا أنه حتى أحجام العينات الأصغر بكثير ستعطي نتائج جيدة جدًا. سوف تتعلم السبب عند دراسة فترات الثقة.

    انتبه إلى أن العديد من العينات الكبيرة متحيزة. على سبيل المثال، تكون استطلاعات الاتصال متحيزة دائمًا، لأن الأشخاص يختارون الرد أم لا.