8.2 : Un intervalle de confiance pour un écart type de population inconnu, cas à petit échantillon
- Page ID
- 191348
Dans la pratique, nous connaissons rarement l'écart type de la population. Dans le passé, lorsque la taille de l'échantillon était importante, cela ne posait aucun problème aux statisticiens. Ils ont utilisé l'écart type de l'échantillon s comme estimation\(\sigma\) et ont procédé comme précédemment pour calculer un intervalle de confiance avec des résultats suffisamment proches. C'est ce que nous avons fait dans l'exemple\(\PageIndex{4}\) ci-dessus. L'estimation ponctuelle de l'écart type,\(s\), a été remplacée dans la formule de l'intervalle de confiance pour l'écart type de la population. Dans ce cas, il y a 80 observations bien au-dessus des 30 observations suggérées afin d'éliminer tout biais lié à un petit échantillon. Cependant, les statisticiens se sont heurtés à des problèmes lorsque la taille de l'échantillon était petite. Un échantillon de petite taille a entraîné des inexactitudes dans l'intervalle de confiance.
William S. Goset (1876-1937) de la brasserie Guinness de Dublin, en Irlande, s'est heurté à ce problème. Ses expériences avec le houblon et l'orge ont produit très peu d'échantillons. Le simple fait de\(\sigma\) remplacer par\(s\) n'a pas produit de résultats précis lorsqu'il a essayé de calculer un intervalle de confiance. Il s'est rendu compte qu'il ne pouvait pas utiliser une distribution normale pour le calcul ; il a constaté que la distribution réelle dépend de la taille de l'échantillon. Ce problème l'a amené à « découvrir » ce que l'on appelle la distribution t de Student. Le nom vient du fait que Gosset a écrit sous le pseudonyme « Un étudiant ».
Jusqu'au milieu des années 1970, certains statisticiens utilisaient l'approximation de la distribution normale pour les échantillons de grande taille et utilisaient la distribution t de Student uniquement pour des échantillons d'au plus 30 observations.
Si vous prélevez un échantillon aléatoire simple de taille\(n\) à partir d'une population présentant un écart type moyen\(\mu\) et inconnu\(\sigma\) et que vous calculez le score t
\[t=\frac{\overline{x}-\mu}{\left(\frac{s}{\sqrt{n}}\right)}\]
alors les scores t suivent la distribution t d'un étudiant avec des\(\bf{n – 1}\) degrés de liberté. Le score T a la même interprétation que le score Z. Il mesure la distance en unités\(\overline x\) d'écart type par rapport à sa moyenne \ mu. Pour chaque taille d'échantillon\(n\), il existe une distribution t de Student différente.
Les degrés de liberté proviennent du calcul de l'écart type de l'échantillon\(\bf{s}\).\(\bf{n – 1}\) N'oubliez pas que lorsque nous avons calculé l'écart type d'un échantillon pour la première fois, nous avons divisé la somme des écarts au carré par\(n – 1\), mais nous avons utilisé des\(n\) écarts (\(\overline x\)valeurs) pour le calculer\(\bf{s}\). Comme la somme des écarts est nulle, nous pouvons trouver le dernier écart une fois que nous connaissons les autres\(\bf{n – 1}\) écarts. Les autres\(\bf{n – 1}\) écarts peuvent changer ou varier librement. Nous appelons ce nombre\(\bf{n – 1}\) les degrés de liberté (\(df\)) en reconnaissance du fait que l'un d'eux est perdu dans les calculs. La perte d'un degré de liberté a pour effet d'augmenter la valeur de t et d'élargir l'intervalle de confiance.
Propriétés de la distribution T de l'étudiant
- Le graphique de la distribution t de Student est similaire à la courbe normale standard et, à des degrés de liberté infinis, il s'agit de la distribution normale. Vous pouvez le confirmer en lisant la ligne de fond à des degrés de liberté infinis pour obtenir un niveau de confiance familier. Par exemple, à la colonne 0,05, niveau de confiance à 95 %, nous trouvons la valeur t de 1,96 à des degrés de liberté infinis.
- La moyenne de la distribution t de Student est nulle et la distribution est symétrique autour de zéro, comme la distribution normale standard.
- La distribution t de Student a plus de probabilité dans ses extrémités que la distribution normale standard, car l'écart de la distribution t est supérieur à celui de la normale standard. Ainsi, le graphique de la distribution t de Student sera plus épais dans les queues et plus court au centre que le graphique de la distribution normale standard.
- La forme exacte de la distribution t de Student dépend des degrés de liberté. À mesure que les degrés de liberté augmentent, le graphique de la distribution t de Student ressemble davantage au graphique de la distribution normale standard.
- La population sous-jacente des observations individuelles est supposée être distribuée normalement avec une moyenne de population inconnue \\(mu\) et un écart type de population inconnu\(\sigma\). Cette hypothèse provient du théorème de la limite centrale car les observations individuelles dans ce cas sont les\(\overline x\) s de la distribution d'échantillonnage. La taille de la population sous-jacente n'est généralement pas pertinente, sauf si elle est très petite. Si c'est normal, l'hypothèse est satisfaite et n'a pas besoin d'être discutée.
Un tableau de probabilité pour la distribution t de Student est utilisé pour calculer les valeurs de t à différents niveaux de confiance couramment utilisés. Le tableau donne des scores de t qui correspondent au niveau de confiance (colonne) et aux degrés de liberté (ligne). Lorsque vous utilisez un tableau en T, notez que certains tableaux sont formatés de manière à indiquer le niveau de confiance dans les en-têtes de colonne, tandis que les en-têtes de colonne de certains tableaux peuvent n'afficher que la zone correspondante dans un ou les deux queues. Notez qu'en bas, le tableau affichera la valeur de t pour des degrés de liberté infinis. Mathématiquement, à mesure que les degrés de liberté augmentent, la\(t\) distribution se rapproche de la distribution normale standard. Vous pouvez trouver des valeurs Z familières en consultant la colonne alpha appropriée et en lisant la valeur dans la dernière ligne.
La table t d'un étudiant (table\(\PageIndex{6}\)) donne des scores t en fonction des degrés de liberté et de la probabilité droite.
La distribution t de Student possède l'une des propriétés les plus souhaitables de la normale : elle est symétrique. La distribution t de Student est d'étaler l'axe horizontal de sorte qu'il faut un plus grand nombre d'écarts types pour capturer la même quantité de probabilité. En réalité, il existe un nombre infini de distributions t de Student, une pour chaque ajustement de la taille de l'échantillon. À mesure que la taille de l'échantillon augmente, la distribution t de Student ressemble de plus en plus à la distribution normale. Lorsque la taille de l'échantillon atteint 30, la distribution normale est généralement remplacée par le t de Student, car ils se ressemblent beaucoup. Cette relation entre la distribution t de Student et la distribution normale est illustrée à la figure 2\(\PageIndex{8}\).
Ceci est un autre exemple d'une distribution limitant une autre, dans ce cas, la distribution normale est la distribution limite du t de Student lorsque les degrés de liberté dans le t de Student approchent de l'infini. Cette conclusion provient directement de la dérivation de la distribution t de Student par M. Gosset. Il a reconnu que le problème ne comportait que peu d'observations et aucune estimation de l'écart type de la population. Il substituait l'écart type de l'échantillon et obtenait des résultats volatils. Il a donc créé la distribution t de Student en tant que ratio entre la distribution normale et la distribution Chi au carré. La distribution du Chi carré est elle-même un ratio de deux variances, en l'occurrence la variance de l'échantillon et la variance inconnue de la population. La distribution t de Student est donc liée à la distribution normale, mais possède des degrés de liberté qui proviennent de ceux de la distribution Chi au carré. La solution algébrique démontre ce résultat.
Développement de la distribution T de Student :
- \(t=\frac{z}{\sqrt{\frac{\chi^{2}}{v}}}\)
Où\(Z\) est la distribution normale standard et\(X^2\) est la distribution du Khi carré avec\(v\) degrés de liberté.
- \(t=\frac{\frac{(\overline x-\mu)}{\sigma}}{\sqrt{\frac{\frac{s^{2}}{(n-1)}}{\frac{\sigma^{2}}{(n-1)}}}}\)
par substitution, et donc le t de Student avec\(v = n − 1\) degrés de liberté est :
- \(t=\frac{\overline{x}-\mu}{\frac{s}{\sqrt{n}}}\)
En reprenant la formule d'un intervalle de confiance pour la moyenne dans les cas où la taille de l'échantillon est inférieure à 30 et où nous ne connaissons pas l'écart type de la population,\(\sigma\) :
\[\overline{x}-t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right) \leq \mu \leq \overline{x}+t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right)\nonumber\]
Ici, l'estimation ponctuelle de l'écart type de la population\(s\) a été remplacée par l'écart type de la population\(\sigma\)\(t_{\nu}\), et\(\alpha\) a été remplacée par\(Z_{\alpha}\). La lettre grecque\(\nu\) (prononcée nu) est placée dans la formule générale en reconnaissance du fait qu'il existe de nombreuses\(t_{\nu}\) distributions d'étudiants, une pour chaque taille d'échantillon. \(\nu\)est le symbole des degrés de liberté de la distribution et dépend de la taille de l'échantillon. On utilise souvent df pour abréger les degrés de liberté. Pour ce type de problème, les degrés de liberté sont\(\nu = n-1\) les suivants : où\(n\) est la taille de l'échantillon ? Pour rechercher une probabilité dans le tableau de l'étudiant, nous devons connaître les degrés de liberté du problème.
Exemple\(\PageIndex{1}\)
Le bénéfice moyen par action (EPS) de 10 actions industrielles sélectionnées au hasard parmi celles cotées sur le Dow-Jones Industrial Average s'est avéré être\(\overline X = 1.85\) avec un écart-type de\(s=0.395\). Calculez un intervalle de confiance de 99 % pour l'EPS moyen de tous les industriels répertoriés sur le\(DJIA\).
\[\overline{x}-t_{v, \alpha}\left(\frac{s}{\sqrt{n}}\right) \leq \mu \leq \overline{x}+t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right)\nonumber\]
- Réponse
-
Pour vous aider à visualiser le processus de calcul d'un intervalle de confiance, nous dessinons la distribution appropriée au problème. Dans ce cas, il s'agit du t de Student parce que nous ne connaissons pas l'écart type de la population et que l'échantillon est petit, inférieur à 30.
Pour trouver la valeur de t appropriée, deux informations sont nécessaires : le niveau de confiance souhaité et les degrés de liberté. La question demandait un niveau de confiance de 99 %. Sur le graphique, cela est indiqué où (\(1-\alpha\)), le niveau de confiance, se trouve dans la zone non ombrée. Les queues ont donc une probabilité de 0,005 chacune\(\alpha/2\). Les degrés de liberté pour ce type de problème sont\(n-1= 9\). À partir du tableau t de Student, à la ligne marquée 9 et à la colonne marquée 0,05, se trouve le nombre d'écarts types permettant de capturer 99 % de la probabilité, soit 3,2498. Ils sont ensuite placés sur le graphique en se souvenant que la valeur de Student\(t\) est symétrique et que la valeur de t est à la fois plus ou moins de chaque côté de la moyenne.
L'insertion de ces valeurs dans la formule donne le résultat. Ces valeurs peuvent être placées sur le graphique pour voir la relation entre la distribution des moyennes de l'échantillon et la distribution t de Student.\(\overline X\)
\[\mu=\overline{X} \pm t_{\alpha / 2, \mathrm{df}=n-1} \frac{s}{\sqrt{n}}=1.851 \pm 3.2498 \frac{0.395}{\sqrt{10}}=1.8551 \pm 0.406\nonumber\]
\[1.445 \leq \mu \leq 2.257\nonumber\]
Nous énonçons la conclusion officielle comme suit :
Avec un niveau de confiance de 99 %, la moyenne\(EPS\) de toutes les industries répertoriées se\(DJIA\) situe entre 1,44$ et 2,26$.
Exercice\(\PageIndex{2}\)
Vous réalisez une étude sur l'hypnothérapie pour déterminer son efficacité à augmenter le nombre d'heures de sommeil que les sujets passent chaque nuit. Vous mesurez les heures de sommeil de 12 sujets avec les résultats suivants. Établissez un intervalle de confiance de 95 % pour le nombre moyen d'heures de sommeil pour la population (normale supposée) à partir de laquelle vous avez obtenu les données.
8,2 ; 9,1 ; 7,7 ; 8,6 ; 6,9 ; 11,2 ; 10,1 ; 9,9 ; 8,9 ; 9,2 ; 7,5 ; 10,5