Skip to main content
Global

12.3 : La distribution F et le rapport F

  • Page ID
    191409
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La distribution utilisée pour le test d'hypothèse est nouvelle. Elle s'appelle la distribution F, inventée par George Snedecor mais nommée en l'honneur de Sir Ronald Fisher, un statisticien anglais. La\(F\) statistique est un ratio (une fraction). Il existe deux ensembles de degrés de liberté : un pour le numérateur et un pour le dénominateur.

    Par exemple, si l'on\(F\) suit une\(F\) distribution et que le nombre de degrés de liberté pour le numérateur est de quatre et que le nombre de degrés de liberté pour le dénominateur est de dix, alors\(F \sim F_{4,10}\).

    Pour calculer le\(\bf{F}\) ratio, deux estimations de la variance sont effectuées.

    1. Variance entre les échantillons : Une estimation de\(\sigma^2\) cette valeur est la variance de la moyenne de l'échantillon multipliée par\(n\) (lorsque les tailles d'échantillon sont les mêmes). Si les échantillons sont de tailles différentes, la variance entre les échantillons est pondérée pour tenir compte des différentes tailles d'échantillon. La variance est également appelée variation due au traitement ou variation expliquée.
    2. Variance au sein des échantillons : estimation\(\sigma^2\) qui correspond à la moyenne des variances de l'échantillon (également appelée variance groupée). Lorsque la taille des échantillons est différente, la variance au sein des échantillons est pondérée. La variance est également appelée variation due à une erreur ou à une variation inexpliquée.
    • \(SS_{between}\)est la somme des carrés qui représente la variation entre les différents échantillons
    • \(SS_{within}\)est la somme des carrés qui représente la variation au sein des échantillons due au hasard.

    Trouver une « somme de carrés » signifie additionner des quantités au carré qui, dans certains cas, peuvent être pondérées. Nous avons utilisé la somme des carrés pour calculer la variance de l'échantillon et l'écart type de l'échantillon dans le tableau 1.19.

    MS signifie « carré moyen ». \(MS_{between}\)est la variance entre les groupes et\(MS_{within}\) la variance au sein des groupes.

    Calcul de la somme des carrés et du carré moyen

    • \(k\)est le nombre de groupes différents
    • \(n_j\)est la taille du\(j^{th}\) groupe
    • \(s_j\)= la somme des valeurs du\(j^{th}\) groupe
    • \(n\)est le nombre total de toutes les valeurs combinées (taille totale de l'échantillon :\(\Sigma n_{j}\))
    • \(x\)est la valeur unique :\[\sum x=\sum s_{j} \nonumber\]
    • Somme des carrés de toutes les valeurs de chaque groupe combiné :\[\sum x^{2} \nonumber\]
    • Variabilité entre les groupes :\[SS_{total} =\sum x^{2}-\frac{\left(\sum x^{2}\right)}{n} \nonumber\]
    • Somme totale des carrés :\[\sum x^{2}-\frac{\left(\sum x\right)^{2}}{n} \nonumber \]
    • Variation expliquée : somme des carrés représentant la variation entre les différents échantillons :
      \[SS_{between} =\sum\left[\frac{\left(s_{j}\right)^{2}}{n_{j}}\right]-\frac{\left(\sum s_{j}\right)^{2}}{n} \nonumber\]
    • Variation inexpliquée : somme des carrés représentant la variation au sein des échantillons due au hasard :\[S S_{\text { within }}=S S_{\text { total }}-S S_{\text { between }} \nonumber\]
    • \(df\)pour différents groupes (pour\(df\) le numérateur) :\[df = k – 1 \nonumber\]
    • Équation des erreurs au sein des échantillons (\(df\)pour le dénominateur) :\[df_{within} = n – k \nonumber\]
    • Carré moyen (estimation de la variance) expliqué par les différents groupes :\[M S_{\text { between }}=\frac{S S_{\text { between }}}{d f_{\text { between }}} \nonumber\]
    • Carré moyen (estimation de la variance) dû au hasard (inexpliqué) :\[M S_{\mathrm{within}}=\frac{S S_{\mathrm{within}}}{d f_{\mathrm{within}}} \nonumber\]

    \(MS_{between}\)et\(MS_{within}\) peut être écrit comme suit :

    \[\begin{align*} M S_{\mathrm{between}} & =\frac{S S_{\mathrm{between}}}{d f_{\mathrm{between}}}=\frac{S S_{\mathrm{between}}}{k-1} \\[4pt] M S_{within} &=\frac{SS_{w ithin}}{df_{within}}=\frac{SS_{within}}{n-k}\end{align*} \]

    Le test ANOVA unidirectionnel dépend du fait qu'il\(M S_{between}\) peut être influencé par les différences de population entre les moyennes des différents groupes. Comme il\(M S_{within}\) compare les valeurs de chaque groupe à la moyenne de son propre groupe, le fait que les moyennes des groupes puissent être différentes n'a aucune incidence\(M S_{within}\).

    L'hypothèse nulle indique que tous les groupes sont des échantillons provenant de populations ayant la même distribution normale. L'hypothèse alternative indique qu'au moins deux des groupes d'échantillons proviennent de populations ayant des distributions normales différentes. Si l'hypothèse nulle est vraie\(M S_{between}\) et que les deux\(M S_{within}\) devraient estimer la même valeur.

    Remarque

    L'hypothèse nulle indique que toutes les moyennes de population du groupe sont égales. L'hypothèse de moyennes égales implique que les populations ont la même distribution normale, car on suppose que les populations sont normales et qu'elles ont des variances égales.

    Définition : rapport F ou statistique F

    \[F=\frac{M S_{\text { between }}}{M S_{\text { within }}}\]

    Si\(M S_{between}\) et\(M S_{within}\) estimez la même valeur (en partant de la conviction que\(H_0\) c'est vrai), alors le\(F\) ratio doit être approximativement égal à un. La plupart du temps, de simples erreurs d'échantillonnage contribueraient à des écarts par rapport à un. Il s'avère qu'il s'\(M S_{between}\)agit de la variance de la population plus une variance produite à partir des différences entre les échantillons. \(M S_{within}\)est une estimation de la variance de la population. Comme les variances sont toujours positives, si l'hypothèse nulle est fausse, elle\(M S_{between}\) sera généralement supérieure à\(MS_{within}\) .Alors le\(F\) ratio sera supérieur à un. Toutefois, si l'effet sur la population est faible, il n'est pas improbable qu'il\(M S_{within}\) soit plus important dans un échantillon donné.

    Les calculs ci-dessus ont été effectués avec des groupes de tailles différentes. Si les groupes ont la même taille, les calculs sont quelque peu simplifiés et le rapport F peut être écrit comme suit :

    Formule du ratio F lorsque les groupes sont de la même taille

    Les calculs ci-dessus ont été effectués avec des groupes de tailles différentes. Si les groupes sont de la même taille, les calculs sont quelque peu simplifiés et le ratio F peut être écrit comme

    \[F=\frac{n \cdot s_{\overline{x}}^{2}}{s^{2}_{ pooled }}\]

    • \(n\)= la taille de l'échantillon
    • \(d f_{\text {numerator}}=k-1\)
    • \(d f_{\text {denominator}}=n-k\)
    • \(s_{pooled}^2\)= la moyenne des variances de l'échantillon (variance groupée)
    • \(s_{\overline x}^2\)= la variance des moyennes de l'échantillon

    Les données sont généralement placées dans un tableau pour faciliter la visualisation. Les résultats de l'ANOVA unidirectionnelle sont souvent affichés de cette manière par un logiciel informatique.

    Tableau\(\PageIndex{1}\)
    Source de variation Somme des carrés (\(SS\)) Degrés de liberté (\(df\)) Carré moyen (\(MS\)) \(F\)
    Facteur
    (entre)
    \ (SS \)) « >\(SS\) (Facteur) \ (df \)) « >\(k – 1\) \ (MS \)) « >\(MS(Factor) = \dfrac{SS(Factor)}{k– 1}\) \ (F \) « >\(F = \dfrac{MS(Factor)}{MS(Error)}\)
    Erreur
    (dans)
    \ (SS \)) « >\(SS\) (Erreur) \ (df \)) « >\(n – k\) \ (MS \)) « >\(MS(Error) = \dfrac{SS(Error)}{n – k}\) \ (F \) « >
    Totale \ (SS \)) « >\(SS\) (Total) \ (df \)) « >\(n – 1\) \ (MS \)) « > \ (F \) « >

    Exemple 12.2

    Trois régimes alimentaires différents doivent être testés pour la perte de poids moyenne. Les entrées du tableau sont les pertes de poids pour les différents plans. Les résultats de l'ANOVA unidirectionnelle sont présentés dans le tableau\(\PageIndex{2}\).

    Tableau\(\PageIndex{2}\)
    Plan 1 :\(n_1 = 4\) Plan 2 :\(n_2 = 3\) Plan 3 :\(n_3 = 3\)
    \ (n_1 = 4 \) « >5 \ (n_2 = 3 \) « >3,5 \ (n_3 = 3 \) « >8
    \ (n_1 = 4 \) « >4,5 \ (n_2 = 3 \) « >7 \ (n_3 = 3 \) « >4
    \ (n_1 = 4 \) « >4 \ (n_2 = 3 \) « > \ (n_3 = 3 \) « >3,5
    \ (n_1 = 4 \) « >3 \ (n_2 = 3 \) « >4,5 \ (n_3 = 3 \) « >

    \(s_{1}=16.5, s_{2}=15, s_{3}=15.5\)

    Vous trouverez ci-dessous les calculs nécessaires pour remplir le tableau ANOVA à sens unique. Le tableau est utilisé pour effectuer un test d'hypothèse.

    \[\begin{align*} S(\text { between }) &=\sum\left[\frac{\left(s_{j}\right)^{2}}{n_{j}}\right]-\frac{\left(\displaystyle \sum s_{j}\right)^{2}}{n} \\[4pt] &=\frac{s_{1}^{2}}{4}+\frac{s_{2}^{2}}{3}+\frac{s_{3}^{2}}{3}-\frac{\left(s_{1}+s_{2}+s_{3}\right)^{2}}{10}\end{align*}\]

    \(n_{1}=4, n_{2}=3, n_{3}=3\) et\(n=n_{1}+n_{2}+n_{3}=10\).

    \[\begin{align*} S(\text { between }) &= \frac{(16.5)^{2}}{4}+\frac{(15)^{2}}{3}+\frac{(15.5)^{2}}{3}-\frac{(16.5+15+15.5)^{2}}{10} \\[4pt] &=2.2458 \\[4pt] S(\text {total}) &=\sum x^{2}-\frac{\left(\sum x\right)^{2}}{n} \\[4pt] &=\left(5^{2}+4.5^{2}+4^{2}+3^{2}+3.5^{2}+7^{2}+4.5^{2}+8^{2}+4^{2}+3.5^{2}\right) -\frac{(5+4.5+4+3+3.5+7+4.5+8+4+3.5)^{2}}{10}\\[4pt] &=244-\frac{47^{2}}{10} \\[4pt] &=244-220.9 \\[4pt] & =23.1 \\[4pt] S(\text {within}) & = S(\text {total})-S S(\text {between}) \\[4pt] &=23.1-2.2458 \\[4pt] &=20.8542 \end{align*}\]

    Tableau\(\PageIndex{3}\)
    Source de variation Somme des carrés (\(SS\)) Degrés de liberté (\(df\)) Carré moyen (\(MS\)) \(F\)
    Facteur
    (entre)
    \ (SS \)) « >\(SS(Factor) = SS(Between) \\= 2.2458\) \ (df \)) « >\(k – 1 = 3 groups – 1 \\= 2\) \ (MS \)) « >\(MS(Factor) = \dfrac{SS(Factor)}{k – 1} \\= 2.2458/2 \\= 1.1229\) \ (F \) « >\(F = \dfrac{MS(Factor)}{MS(Error)} \\ = \dfrac{1.1229}{2.9792} \\= 0.3769\)
    Erreur
    (dans)
    \ (SS \)) « >\(SS(Error) = SS(Within) \\ = 20.8542\) \ (df \)) « >\(n – k = 10 total data – 3 groups \\= 7\) \ (MS \)) « >\(MS(Error) = \dfrac{SS(Error)}{n – k} \\= \dfrac{20.8542}{7} \\= 2.9792\) \ (F \) « >
    Totale \ (SS \)) « >\(SS(Total) = 2.2458 + 20.8542 \\= 23.1\) \ (df \)) « >\(n – 1 = 10 total data – 1 \\= 9\) \ (MS \)) « > \ (F \) « >

    Exercice 12.2

    Dans le cadre d'une expérience visant à déterminer comment différents types de couverture du sol affecteraient la production de tomates en tranches, des étudiants du Marist College ont cultivé des plants de tomates dans différentes conditions de couverture du sol. Des groupes de trois plantes ont subi chacun l'un des traitements suivants

    • sol nu
    • un couvre-sol commercial
    • plastique noir
    • paille
    • compost

    Toutes les plantes poussaient dans les mêmes conditions et appartenaient à la même variété. Les élèves ont enregistré le poids (en grammes) des tomates produites par chacune des plantes n = 15 :

    Nu :\(n_1 = 3\) Couvre-sol :\(n_2 = 3\) Plastique :\(n_3 = 3\) Paille :\(n_4 = 3\) Compost :\(n_5 = 3\)
    \ (n_1 = 3 \) « >2 625 \ (n_2 = 3 \) « >5 348 \ (n_3 = 3 \) « >6 583 \ (n_4 = 3 \) « >7 285 \ (n_5 = 3 \) « >6 277
    \ (n_1 = 3 \) « >2 997 \ (n_2 = 3 \) « >5 682 \ (n_3 = 3 \) « >8 560 \ (n_4 = 3 \) « >6 897 \ (n_5 = 3 \) « >7 818
    \ (n_1 = 3 \) « >4 915 \ (n_2 = 3 \) « >5 482 \ (n_3 = 3 \) « >3 830 \ (n_4 = 3 \) « >9 230 \ (n_5 = 3 \) « >8 677
    Tableau\(\PageIndex{4}\)

    Créez le tableau ANOVA à sens unique.

    Le test d'hypothèse de l'ANOVA à sens unique est toujours orienté vers la droite, car les\(F\) valeurs plus élevées se situent bien à l'extrémité droite de la courbe de distribution F et ont tendance à nous faire rejeter\(H_0\).

    Exemple 12.3

    Revenons à l'exercice de tranchage de tomates dans Try It. Les moyennes des rendements en tomates dans les cinq conditions de paillage sont représentées par\(\mu_{1}, \mu_{2}, \mu_{3}, \mu_{4}, \mu_{5}\). Nous effectuerons un test d'hypothèse pour déterminer si toutes les moyennes sont identiques ou si au moins l'une d'entre elles est différente. À l'aide d'un seuil de signification de 5 %, testez l'hypothèse nulle selon laquelle il n'y a aucune différence dans les rendements moyens entre les cinq groupes par rapport à l'hypothèse alternative selon laquelle au moins une moyenne est différente des autres.

    Réponse

    Les hypothèses nulles et alternatives sont les suivantes :

    \(H_{0} : \mu_{1}=\mu_{2}=\mu_{3}=\mu_{4}=\mu_{5}\)

    \(H_{a} : \mu_{i} \neq \mu_{j}\)certains\(i \neq j\)

    Les résultats de l'ANOVA à sens unique sont présentés dans le tableau\(\PageIndex{5}\)

    Tableau\(\PageIndex{5}\)
    Source de variation Somme des carrés (\(SS\)) Degrés de liberté (\(df\)) Carré moyen (\(MS\)) F
    Facteur (entre) \ (SS \)) « >36 648 561 \ (df \)) « >\(5 – 1 = 4\) \ (MS \)) « >\(\frac{36,648,561}{4}=9,162,140\) \(\frac{9,162,140}{2,044,672.6}=4.4810\)
    Erreur (dans) \ (SS \)) « >20 446 726 \ (df \)) « >\(15 – 5 = 10\) \ (MS \)) » class="mt-align-center">\(\frac{20,446,726}{10}=2,044,672.6\)  
    Totale \ (SS \)) « >57 095 287 \ (df \)) « >\(15 – 1 = 14\) \ (MS \)) « >  

    Distribution pour le test :\(F_{4,10}\)

    \(df(num) = 5 – 1 = 4\)

    \(df(denom) = 15 – 5 = 10\)

    Statistique du test :\(F = 4.4810\)

    Ce graphique montre une courbe de distribution F non symétrique. L'axe horizontal s'étend de 0 à 5 et l'axe vertical est compris entre 0 et 0,7. La courbe est fortement inclinée vers la droite.
    Figurine\(\PageIndex{1}\)

    Déclaration de probabilité :\(p\text{-value }= P(F > 4.481) = 0.0248.\)

    Comparez\(\bf{\alpha}\) et la\(\bf p\) valeur -:\(\alpha = 0.05\),\(p\text{-value }= 0.0248\)

    Prenez une décision : puisque\(\alpha > p\) -value, nous ne pouvons pas accepter\(H_0\).

    Conclusion : Au seuil de signification de 5 %, nous disposons de preuves assez solides selon lesquelles les différences entre les rendements moyens des plants de tomates tranchées cultivés dans différentes conditions de paillage ne sont probablement pas uniquement dues au hasard. Nous pouvons en conclure qu'au moins certains paillis ont donné des rendements moyens différents.

    Exercice 12.3

    Le SARM, ou Staphylococcus aureus, peut provoquer de graves infections bactériennes chez les patients hospitalisés. Le tableau\(\PageIndex{6}\) montre les différents dénombrements de colonies provenant de différents patients atteints ou non de SARM. Les données du tableau sont représentées dans la figure\(\PageIndex{2}\).

    Tableau\(\PageIndex{6}\)
    Conc = 0,6 Conc = 0,8 Conc = 1,0 Conc = 1,2 Conc = 1,4
    9 16 22 30 27
    66 93 147 199 168
    98 82 120 148 132

    Tracé des données pour les différentes concentrations :

    Ce graphique est un nuage de points pour les données fournies. L'axe horizontal est intitulé « Nombre de colonies » et s'étend de 0 à 200. L'axe vertical est intitulé « Concentrations de tryptone » et s'étend de 0,6 à 1,4.

    Figurine\(\PageIndex{2}\)

    Vérifiez si le nombre moyen de colonies est identique ou différent. Construisez le tableau ANOVA, trouvez la valeur de p et énoncez votre conclusion. Utilisez un seuil de signification de 5 %.

    Exemple 12.4

    Quatre sororités ont prélevé un échantillon aléatoire de sœurs en fonction de leur moyenne scolaire pour le trimestre précédent. Les résultats sont présentés dans le tableau\(\PageIndex{7}\).

    Tableau\(\PageIndex{7}\) : Notes moyennes pour quatre sororités
    Sororité 1 Sororité 2 Sororité 3 Sororité 4
    2.17 2,63 2,63 3,79
    1,85 1,77 3,78 3,45
    2,83 3,25 4,00 3,08
    1,69 1,86 2,55 2,26
    3,33 2.21 2,45 3.18

    En utilisant un seuil de signification de 1 %, y a-t-il une différence dans les notes moyennes entre les sororités ?

    Réponse

    \(\mu_{1}, \mu_{2}, \mu_{3}, \mu_{4}\)Soyons les moyens de population des sororités. Rappelez-vous que l'hypothèse nulle prétend que les groupes de sororité appartiennent à la même distribution normale. L'hypothèse alternative indique qu'au moins deux des groupes de sororité proviennent de populations ayant des distributions normales différentes. Notez que les quatre tailles d'échantillon sont de cinq chacune.

    Remarque : Il s'agit d'un exemple de conception équilibrée, car chaque facteur (c'est-à-dire la sororité) comporte le même nombre d'observations.

    \(H_{0}: \mu_{1}=\mu_{2}=\mu_{3}=\mu_{4}\)

    \(H_a\): Les moyens ne\(\mu_{1}, \mu_{2}, \mu_{3}, \mu_{4}\) sont pas tous égaux.

    Distribution pour le test :\(F_{3,16}\)

    \(k = 4\) groupes et\(n = 20\) échantillons au total

    \(df(num)= k – 1 = 4 – 1 = 3\)

    \(df(denom) = n – k = 20 – 4 = 16\)

    Calculez la statistique du test :\(F = 2.23\)

    Graphique :

    Ce graphique montre une courbe de distribution F non symétrique avec des valeurs de 0 et 2,23 sur l'axe des abscisses représentant la statistique de test des moyennes des notes de sororité. La courbe est légèrement inclinée vers la droite, mais elle est à peu près normale. Une ligne verticale ascendante s'étend de 2,23 à la courbe et la zone située à sa droite est ombrée pour représenter la valeur de p.

    Figurine\(\PageIndex{3}\)

    Déclaration de probabilité :\(p\text{-value }= P(F > 2.23) = 0.1241\)

    Comparez\(\bf{\alpha}\) et la\(\bf p\) valeur -value :\(\alpha = 0.01\)
    \(p\text{-value }= 0.1241\)
    \(\alpha < p\) -value

    Prenez une décision : depuis\(\alpha < p\) -value, vous ne pouvez pas refuser\(H_0\).

    Conclusion : Il n'existe pas de preuves suffisantes pour conclure à une différence entre les notes moyennes des sororités.

    Exercice 12.4

    Quatre équipes sportives ont prélevé un échantillon aléatoire de joueurs en fonction de leurs GPA pour l'année dernière. Les résultats sont présentés dans le tableau\(\PageIndex{8}\).

    Tableau\(\PageIndex{8}\) GPA pour quatre équipes sportives
    Basket baseball Hockey Lacrosse
    3.6 2.1 4,0 2,0
    2.9 2.6 2,0 3.6
    2,5 3.9 2.6 3.9
    3.3 3.1 3.2 2.7
    3.8 3.4 3.2 2,5

    Utilisez un seuil de signification de 5 % et déterminez s'il existe une différence de moyenne entre les équipes.

    Exemple 12.5

    Une classe de quatrième année étudie l'environnement. L'une des missions consiste à faire pousser des plants de haricots dans différents sols. Tommy a choisi de cultiver ses plants de haricots dans de la terre trouvée à l'extérieur de sa classe mélangée à des peluches sèches. Tara a choisi de cultiver ses plants de haricots dans du terreau acheté à la pépinière locale. Nick a choisi de faire pousser ses plants de haricots dans la terre du jardin de sa mère. Aucun produit chimique n'a été utilisé sur les plantes, uniquement de l'eau. Ils ont été cultivés à l'intérieur de la classe, à côté d'une grande fenêtre. Chaque enfant a fait pousser cinq plantes. À la fin de la période de croissance, chaque plante a été mesurée, produisant les données (en pouces) du tableau\(\PageIndex{9}\).

    Les plantes de Tommy Les plantes de Tara Les plantes de Nick
    24 25 23
    21 31 27
    23 23 22
    30 20 30
    23 28 20
    Tableau\(\PageIndex{9}\)

    Est-ce que les trois milieux dans lesquels les plants de haricots ont été cultivés produisent la même hauteur moyenne ? Test à un seuil de signification de 3 %.

    Réponse

    Cette fois, nous effectuerons les calculs qui conduiront à la statistique F'. Notez que chaque groupe a le même nombre de plantes, nous utiliserons donc la formule\(F^{\prime}=\frac{n \cdot s_{\overline{x}}^{2}}{s^{2}_{pooled}}\).

    Commencez par calculer la moyenne et la variance de l'échantillon de chaque groupe.

      Les plantes de Tommy Les plantes de Tara Les plantes de Nick
    Moyenne de l'échantillon 24.2 25,4 24,4
    Variance d'échantillon 11,7 18,3 16,3
    Tableau\(\PageIndex{10}\)

    Ensuite, calculez la variance des moyennes des trois groupes (calculez la variance de 24,2, 25,4 et 24,4). Variance des moyennes du groupe = 0,413 =\(s_{\overline{x}}^{2}\)

    Ensuite,\(M S_{b e t w e e n}=n s_{\overline{x}}^{2}=(5)(0.413)\)\(n = 5\) est la taille de l'échantillon (nombre de plantes que chaque enfant a cultivées).

    Calculez la moyenne des trois variances de l'échantillon (calculez la moyenne de 11,7, 18,3 et 16,3). Moyenne des variances de l'échantillon = 15,433 =\(\bf{s^2}\) regroupées

    Alors\(M S_{\text {within}}=s^{2} \text { pooled }=15.433\).

    La\(F\) statistique (ou\(F\) ratio) est\(F=\frac{M S_{\text { between }}}{M S_{\text { within }}}=\frac{n s_{\overline{x}}^{2}}{s^{2} \text { pooled }}=\frac{(5)(0.413)}{15.433}=0.134\)

    Le\(df\) s pour le numérateur = le nombre de groupes\(– 1 = 3 – 1 = 2\).

    Le\(df\) s pour le dénominateur = le nombre total d'échantillons — le nombre de groupes\(= 15 – 3 = 12\)

    La distribution du test est\(F_{2,12}\) et la\(F\) statistique est\(F = 0.134\)

    La\(p\) valeur -est\(P(F > 0.134) = 0.8759\).

    Décision : Depuis\(\alpha = 0.03\) et après\(p\text{-value }= 0.8759\), vous ne pouvez pas rejeter H0. (Pourquoi ?)

    Conclusion : Avec un seuil de signification de 3 %, les données de l'échantillon ne sont pas suffisantes pour conclure que la hauteur moyenne des plants de haricots est différente.

    Notation

    La notation de la\(F\) distribution est «\(F \sim F_{d f(n u m), d f(d e n o m)}\) where »\(df(num) = df_{between}\) et «\(df(denom) = df_{within}\). La moyenne de la\(F\) distribution est\(\mu=\frac{d f(n u m)}{d f(\text {denom})-2}\)