Skip to main content
Global

7.1 : Le théorème de la limite centrale pour les moyennes d'échantillons

  • Page ID
    191691
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La distribution d'échantillonnage est une distribution théorique. Il est créé en prélevant de nombreux échantillons de taille\(n\) auprès d'une population. Chaque moyenne d'échantillon est ensuite traitée comme une seule observation de cette nouvelle distribution, la distribution d'échantillonnage. Le génie de cette façon de penser est qu'elle reconnaît que lorsque nous échantillonnons, nous créons une observation et que cette observation doit provenir d'une distribution particulière. Le théorème de la limite centrale répond à la question suivante : de quelle distribution provient la signification d'un échantillon ? Si cela est découvert, nous pouvons traiter la moyenne d'un échantillon comme n'importe quelle autre observation et calculer les probabilités quant aux valeurs qu'elle pourrait prendre. Nous sommes effectivement passés du monde des statistiques où nous ne savons que ce que nous tirons de l'échantillon à un monde des probabilités où nous connaissons la distribution d'où provient la moyenne de l'échantillon et les paramètres de cette distribution.

    Les raisons pour lesquelles on échantillonne une population sont évidentes. Le temps et les dépenses liés à la vérification de chaque facture pour déterminer sa validité ou de chaque expédition pour vérifier si elle contient tous les articles peuvent largement dépasser le coût des erreurs de facturation ou d'expédition. Pour certains produits, l'échantillonnage nécessiterait leur destruction, ce que l'on appelle l'échantillonnage destructif. L'un de ces exemples est la mesure de la capacité d'un métal à résister à la corrosion en eau salée pour les pièces des navires océaniques.

    L'échantillonnage soulève donc une question importante : quel échantillon exactement a été prélevé. Même si l'échantillon a été tiré au hasard, il existe théoriquement un nombre presque infini d'échantillons. Avec seulement 100 articles, il est possible de dessiner plus de 75 millions d'échantillons uniques de taille 5. Si l'échantillon comprend six, le nombre d'échantillons possibles augmente jusqu'à un peu plus d'un milliard. Sur les 75 millions d'échantillons possibles, lequel avez-vous obtenu ? S'il y a une variation dans les éléments à échantillonner, il y aura une variation dans les échantillons. On pourrait tirer un échantillon « malchanceux » et tirer des conclusions très erronées concernant la population. Cette reconnaissance du fait que tout échantillon que nous prélevons n'est en réalité qu'un échantillon provenant d'une distribution d'échantillons nous fournit ce qui est probablement le théorème le plus important en matière de statistiques : le théorème de la limite centrale. Sans le théorème de la limite centrale, il serait impossible de procéder à des statistiques inférentielles à partir de la simple théorie des probabilités. Dans sa forme la plus élémentaire, le théorème de la limite centrale indique que, quelle que soit la fonction de densité de probabilité sous-jacente des données de population, la distribution théorique des moyennes des échantillons de la population sera normalement distribuée. Cela signifie essentiellement que la moyenne d'un échantillon doit être traitée comme une observation tirée d'une distribution normale. Le théorème de la limite centrale n'est valable que si la taille de l'échantillon est « suffisamment grande », ce qui n'a été démontré que pour 30 observations ou plus.

    La figure 7.2 illustre graphiquement cette proposition très importante.

    Graphique 7.2

    Notez que l'axe horizontal du panneau supérieur est étiqueté\(X\). Il s'agit des observations individuelles de la population. Il s'agit de la distribution inconnue des valeurs de population. Le graphique est dessiné à dessein, tout en ondulant, pour montrer que peu importe à quel point elle est vraiment étrange. N'oubliez pas que nous ne saurons jamais à quoi ressemble cette distribution, ni sa moyenne ou son écart type d'ailleurs.

    L'axe horizontal du panneau inférieur est étiqueté.\(\overline{X}\) Il s'agit de la distribution théorique appelée distribution d'échantillonnage des moyennes. Chaque observation sur cette distribution est une moyenne d'échantillon. Toutes ces moyennes d'échantillons ont été calculées à partir d'échantillons individuels de la même taille d'échantillon. La distribution d'échantillonnage théorique contient toutes les valeurs moyennes de tous les échantillons possibles qui auraient pu être prélevés auprès de la population. Bien sûr, personne ne prélèverait jamais tous ces échantillons, mais s'ils le faisaient, voici à quoi ils ressembleraient. Et le théorème de la limite centrale indique qu'ils seront normalement distribués.

    Le théorème de la limite centrale va encore plus loin et nous indique la moyenne et l'écart type de cette distribution théorique.

    Tableau 7.1
    Paramètre Répartition de la population échantillon Distribution d'échantillonnage\(\overline{X}\) de
    Moyen \(\mu\) \(\overline{X}\) Le » style="vertical-align:middle ; « > de \ overline {X} \)\(\mu_{\overline{x}} \text { and } \mathrm{E}\left(\mu_{\overline{x}}\right)=\mu\)
    Écart type \(\sigma\) \(s\) Le » style="vertical-align:middle ; « > de \ overline {X} \)\(\sigma_{\overline{x}}=\frac{\sigma}{\sqrt{n}}\)

    La signification pratique du théorème de la limite centrale est que nous pouvons maintenant calculer les probabilités pour établir une moyenne d'échantillon\(\overline{X}\), de la même manière que nous l'avons fait pour établir des observations spécifiques,\(X\) lorsque nous connaissions la moyenne et l'écart type de la population et que les données de population étaient distribué normalement.. La formule de normalisation doit être modifiée pour tenir compte du fait que la moyenne et l'écart type de la distribution d'échantillonnage, parfois appelés erreur type de la moyenne, sont différents de ceux de la distribution de la population, sans quoi rien n'a changé. La nouvelle formule de normalisation est

    \[Z=\frac{\overline{X}-\mu_{\overline{X}}}{\sigma_{\overline{X}}}=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\nonumber\]

    Notez que\(\mu_{\overline{X}}\) la première formule a été remplacée simplement par\(\mu\) la deuxième version. La raison en est que mathématiquement, il peut être démontré que la valeur attendue de\(\mu_{\overline{X}}\) est égale à\(\mu\). Cela a été indiqué dans le tableau 7.1 ci-dessus. Mathématiquement, le\(E(x)\) symbole indique la « valeur attendue de\(x\) ». Cette formule sera utilisée dans l'unité suivante pour fournir des estimations du paramètre de population inconnu\(\mu\).