Skip to main content
Global

1.R: أخذ العينات والبيانات (مراجعة)

  • Page ID
    198774
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    1.1 تعريفات الإحصاء والاحتمالات والمصطلحات الرئيسية

    من السهل تعلم النظرية الرياضية للإحصاء عندما تعرف اللغة. تقدم هذه الوحدة مصطلحات مهمة سيتم استخدامها في جميع أنحاء النص.

    1.2 البيانات وأخذ العينات والتنوع في البيانات وأخذ العينات

    البيانات هي عناصر فردية من المعلومات التي تأتي من مجموعة سكانية أو عينة. يمكن تصنيف البيانات على أنها نوعية (فئوية) أو كمية مستمرة أو كمية منفصلة.

    نظرًا لأنه ليس من العملي قياس مجموع السكان في الدراسة، يستخدم الباحثون عينات لتمثيل السكان. العينة العشوائية هي مجموعة تمثيلية من السكان الذين تم اختيارهم باستخدام طريقة تمنح كل فرد من السكان فرصة متساوية لإدراجه في العينة. تشمل طرق أخذ العينات العشوائية أخذ العينات العشوائية البسيطة، وأخذ العينات الطبقية، وأخذ العينات العنقودية، وأخذ العينات المنهجية. أخذ العينات المريح هو طريقة غير عشوائية لاختيار عينة غالبًا ما تنتج بيانات متحيزة.

    تؤدي العينات التي تحتوي على أفراد مختلفين إلى بيانات مختلفة. هذا صحيح حتى عندما يتم اختيار العينات جيدًا وتمثل السكان. عند اختيارها بشكل صحيح، تقوم العينات الأكبر بنمذجة المجموعة بشكل أقرب من العينات الأصغر. هناك العديد من المشكلات المحتملة المختلفة التي يمكن أن تؤثر على موثوقية العينة. يجب تحليل البيانات الإحصائية بشكل نقدي، وليس مجرد قبولها.

    1.3 مستويات القياس

    تولد بعض العمليات الحسابية أرقامًا دقيقة بشكل مصطنع. ليس من الضروري الإبلاغ عن قيمة لثمانية أرقام عشرية عندما تكون المقاييس التي ولدت هذه القيمة دقيقة فقط لأقرب جزء من عشرة. قم بتقريب إجابتك النهائية إلى منزلة عشرية واحدة أكثر من تلك الموجودة في البيانات الأصلية. وهذا يعني أنه إذا كانت لديك بيانات مقاسة لأقرب عُشر وحدة، فقم بالإبلاغ عن الإحصاء النهائي لأقرب جزء من مائة.

    بالإضافة إلى تقريب إجاباتك، يمكنك قياس بياناتك باستخدام مستويات القياس الأربعة التالية.

    • مستوى المقياس الاسمي: البيانات التي لا يمكن طلبها ولا يمكن استخدامها في العمليات الحسابية
    • مستوى المقياس الترتيبي: البيانات التي يمكن طلبها؛ لا يمكن قياس الاختلافات
    • مستوى مقياس الفاصل الزمني: بيانات بترتيب محدد ولكن بدون نقطة بداية؛ يمكن قياس الاختلافات، ولكن لا يوجد شيء مثل النسبة.
    • مستوى مقياس النسبة: البيانات ذات نقطة البداية التي يمكن طلبها؛ الاختلافات لها معنى ويمكن حساب النسب.

    عند تنظيم البيانات، من المهم معرفة عدد المرات التي تظهر فيها القيمة. كم عدد طلاب الإحصاء الذين يدرسون خمس ساعات أو أكثر للاختبار؟ ما هي النسبة المئوية للعائلات في منطقتنا التي تمتلك حيوانين أليفين؟ التردد والتردد النسبي والتردد النسبي التراكمي هي مقاييس تجيب على أسئلة مثل هذه.

    1.4 التصميم التجريبي والأخلاق

    لن تنتج دراسة سيئة التصميم بيانات موثوقة. هناك بعض المكونات الرئيسية التي يجب تضمينها في كل تجربة. للتخلص من المتغيرات الكامنة، يجب تخصيص الأشخاص بشكل عشوائي لمجموعات علاج مختلفة. يجب أن تعمل إحدى المجموعات كمجموعة مراقبة، مع توضيح ما يحدث عندما لا يتم تطبيق العلاج الفعال. يتلقى المشاركون في المجموعة الضابطة علاجًا وهميًا يشبه تمامًا العلاجات النشطة ولكن لا يمكنه التأثير على متغير الاستجابة. للحفاظ على سلامة الدواء الوهمي، قد يصاب كل من الباحثين والموضوعات بالعمى. عندما يتم تصميم الدراسة بشكل صحيح، فإن الفرق الوحيد بين مجموعات العلاج هو الذي يفرضه الباحث. لذلك، عندما تستجيب المجموعات بشكل مختلف للعلاجات المختلفة، يجب أن يكون الفرق بسبب تأثير المتغير التوضيحي.

    «تنشأ مشكلة أخلاقية عندما تفكر في إجراء يفيدك أو يفيد بعض الأسباب التي تدعمها، أو يضر أو يقلل من الفوائد التي تعود على الآخرين، وينتهك بعض القواعد». (أندرو جيلمان، «البيانات المفتوحة والأساليب المفتوحة»، الأخلاقيات والإحصاءات، http://www.stat.columbia.edu/~gelman...nceEthics1.pdf (تم الوصول إليه في 1 مايو 2013).) ليس من السهل دائمًا اكتشاف الانتهاكات الأخلاقية في الإحصاءات. تنشر الجمعيات المهنية والوكالات الفيدرالية إرشادات للسلوك السليم. من المهم أن تتعلم الإجراءات الإحصائية الأساسية حتى تتمكن من التعرف على تحليل البيانات المناسب.