Skip to main content
Global

1.R : Échantillonnage et données (examen)

  • Page ID
    191455
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    1.1 Définitions des statistiques, des probabilités et des termes clés

    La théorie mathématique des statistiques est plus facile à apprendre lorsqu'on connaît la langue. Ce module présente les termes importants qui seront utilisés tout au long du texte.

    1.2 Données, échantillonnage et variation des données et de l'échantillonnage

    Les données sont des éléments d'information individuels qui proviennent d'une population ou d'un échantillon. Les données peuvent être classées comme qualitatives (catégorielles), quantitatives continues ou quantitatives discrètes.

    Comme il n'est pas pratique de mesurer l'ensemble de la population dans le cadre d'une étude, les chercheurs utilisent des échantillons pour représenter la population. Un échantillon aléatoire est un groupe représentatif de la population choisi à l'aide d'une méthode qui donne à chaque individu de la population une chance égale d'être inclus dans l'échantillon. Les méthodes d'échantillonnage aléatoire incluent l'échantillonnage aléatoire simple, l'échantillonnage stratifié, l'échantillonnage en grappes et l'échantillonnage systématique. L'échantillonnage de commodité est une méthode non aléatoire de sélection d'un échantillon qui produit souvent des données biaisées.

    Les échantillons contenant des individus différents génèrent des données différentes. Cela est vrai même lorsque les échantillons sont bien choisis et représentatifs de la population. Lorsqu'ils sont correctement sélectionnés, les échantillons plus grands modélisent la population de manière plus précise que les échantillons plus petits De nombreux problèmes potentiels peuvent affecter la fiabilité d'un échantillon. Les données statistiques doivent faire l'objet d'une analyse critique, et non simplement être acceptées.

    1.3 Niveaux de mesure

    Certains calculs génèrent des nombres qui sont artificiellement précis. Il n'est pas nécessaire de déclarer une valeur à huit décimales lorsque les mesures qui ont généré cette valeur n'étaient précises qu'au dixième près. Complétez votre réponse finale à une décimale de plus que celle qui figurait dans les données d'origine. Cela signifie que si vous avez des données mesurées au dixième d'unité le plus proche, rapportez la statistique finale au centième le plus proche.

    En plus d'arrondir vos réponses, vous pouvez mesurer vos données à l'aide des quatre niveaux de mesure suivants.

    • Niveau d'échelle nominal : données qui ne peuvent pas être commandées et ne peuvent pas être utilisées dans les calculs
    • Niveau d'échelle ordinale : données pouvant être ordonnées ; les différences ne peuvent pas être mesurées
    • Niveau d'échelle d'intervalle : données avec un ordre défini mais sans point de départ ; les différences peuvent être mesurées, mais il n'existe aucun ratio.
    • Niveau d'échelle des ratios : données dont le point de départ peut être ordonné ; les différences ont une signification et les ratios peuvent être calculés.

    Lors de l'organisation des données, il est important de savoir combien de fois une valeur apparaît. Combien d'étudiants en statistique étudient cinq heures ou plus pour un examen ? Quel pourcentage des familles de notre quartier possèdent deux animaux de compagnie ? La fréquence, la fréquence relative et la fréquence relative cumulée sont des mesures qui répondent à de telles questions.

    1.4 Conception expérimentale et éthique

    Une étude mal conçue ne produira pas de données fiables. Certains éléments clés doivent être inclus dans chaque expérience. Pour éliminer les variables qui se cachent, les sujets doivent être répartis de manière aléatoire dans différents groupes de traitement. L'un des groupes doit agir en tant que groupe témoin, en démontrant ce qui se passe lorsque le traitement actif n'est pas appliqué. Les participants du groupe témoin reçoivent un traitement placebo qui ressemble exactement aux traitements actifs mais qui ne peut pas influencer la variable de réponse. Pour préserver l'intégrité du placebo, les chercheurs et les sujets peuvent être aveuglés. Lorsqu'une étude est bien conçue, la seule différence entre les groupes de traitement est celle imposée par le chercheur. Par conséquent, lorsque les groupes réagissent différemment à différents traitements, la différence doit être due à l'influence de la variable explicative.

    « Un problème d'éthique se pose lorsque vous envisagez une action qui vous profite ou qui est bénéfique pour une cause que vous soutenez, qui nuit ou réduit les avantages pour les autres, et qui viole une règle. » (Andrew Gelman, « Open Data and Open Methods », Ethics and Statistics, http://www.stat.columbia.edu/~gelman...nceEthics1.pdf (consulté le 1er mai 2013).) Les violations de l'éthique dans les statistiques ne sont pas toujours faciles à détecter. Les associations professionnelles et les agences fédérales publient des directives pour une bonne conduite. Il est important que vous appreniez les procédures statistiques de base afin de pouvoir reconnaître la bonne analyse des données.