12.3: A distribuição F e a razão F
- Page ID
- 186541
A distribuição usada para o teste de hipóteses é nova. É chamada de distribuição F, inventada por George Snedecor, mas nomeada em homenagem a Sir Ronald Fisher, um estatístico inglês. A\(F\) estatística é uma proporção (uma fração). Existem dois conjuntos de graus de liberdade; um para o numerador e outro para o denominador.
Por exemplo, se\(F\) segue uma\(F\) distribuição e o número de graus de liberdade para o numerador é quatro e o número de graus de liberdade para o denominador é dez, então\(F \sim F_{4,10}\).
Para calcular a\(\bf{F}\) razão, duas estimativas da variância são feitas.
- Variância entre amostras: Uma estimativa\(\sigma^2\) disso é a variância da média da amostra multiplicada por\(n\) (quando os tamanhos das amostras são os mesmos). Se as amostras tiverem tamanhos diferentes, a variação entre as amostras é ponderada para levar em conta os diferentes tamanhos de amostra. A variância também é chamada de variação devido ao tratamento ou variação explicada.
- Variância dentro das amostras: uma estimativa\(\sigma^2\) disso é a média das variâncias da amostra (também conhecida como variância combinada). Quando os tamanhos das amostras são diferentes, a variância dentro das amostras é ponderada. A variância também é chamada de variação devido a um erro ou variação inexplicada.
- \(SS_{between}\)é a soma dos quadrados que representa a variação entre as diferentes amostras
- \(SS_{within}\)é a soma dos quadrados que representa a variação dentro das amostras que é devida ao acaso.
Encontrar uma “soma dos quadrados” significa somar quantidades quadradas que, em alguns casos, podem ser ponderadas. Usamos a soma dos quadrados para calcular a variância da amostra e o desvio padrão da amostra na Tabela 1.19.
MS significa “quadrado médio”. \(MS_{between}\)é a variância entre grupos e\(MS_{within}\) é a variância dentro dos grupos.
Cálculo da soma dos quadrados e da média quadrada
- \(k\)é o número de grupos diferentes
- \(n_j\)é o tamanho do\(j^{th}\) grupo
- \(s_j\)= a soma dos valores no\(j^{th}\) grupo
- \(n\)é o número total de todos os valores combinados (tamanho total da amostra:\(\Sigma n_{j}\))
- \(x\)é o único valor:\[\sum x=\sum s_{j} \nonumber\]
- Soma dos quadrados de todos os valores de cada grupo combinado:\[\sum x^{2} \nonumber\]
- Variabilidade entre grupos:\[SS_{total} =\sum x^{2}-\frac{\left(\sum x^{2}\right)}{n} \nonumber\]
- Soma total dos quadrados:\[\sum x^{2}-\frac{\left(\sum x\right)^{2}}{n} \nonumber \]
- Variação explicada: soma dos quadrados representando a variação entre as diferentes amostras:
\[SS_{between} =\sum\left[\frac{\left(s_{j}\right)^{2}}{n_{j}}\right]-\frac{\left(\sum s_{j}\right)^{2}}{n} \nonumber\] - Variação inexplicável: soma dos quadrados representando a variação dentro das amostras devido ao acaso:\[S S_{\text { within }}=S S_{\text { total }}-S S_{\text { between }} \nonumber\]
- \(df\)'s para grupos diferentes (\(df\)'s para o numerador):\[df = k – 1 \nonumber\]
- Equação para erros nas amostras (\(df\)s para o denominador):\[df_{within} = n – k \nonumber\]
- Quadrado médio (estimativa de variância) explicado pelos diferentes grupos:\[M S_{\text { between }}=\frac{S S_{\text { between }}}{d f_{\text { between }}} \nonumber\]
- Quadrado médio (estimativa de variância) devido ao acaso (inexplicável):\[M S_{\mathrm{within}}=\frac{S S_{\mathrm{within}}}{d f_{\mathrm{within}}} \nonumber\]
\(MS_{between}\)e\(MS_{within}\) pode ser escrito da seguinte forma:
\[\begin{align*} M S_{\mathrm{between}} & =\frac{S S_{\mathrm{between}}}{d f_{\mathrm{between}}}=\frac{S S_{\mathrm{between}}}{k-1} \\[4pt] M S_{within} &=\frac{SS_{w ithin}}{df_{within}}=\frac{SS_{within}}{n-k}\end{align*} \]
O teste ANOVA unidirecional depende do fato de que\(M S_{between}\) pode ser influenciado pelas diferenças populacionais entre as médias dos vários grupos. Como\(M S_{within}\) compara os valores de cada grupo com sua própria média de grupo, o fato de que as médias do grupo podem ser diferentes não afeta\(M S_{within}\).
A hipótese nula diz que todos os grupos são amostras de populações com a mesma distribuição normal. A hipótese alternativa diz que pelo menos dois dos grupos amostrais vêm de populações com diferentes distribuições normais. Se a hipótese nula for verdadeira,\(M S_{between}\) ambas\(M S_{within}\) devem estimar o mesmo valor.
Nota
A hipótese nula diz que todas as médias da população do grupo são iguais. A hipótese de médias iguais implica que as populações têm a mesma distribuição normal, porque se supõe que as populações sejam normais e que tenham variâncias iguais.
Definição: Razão F ou Estatística F
\[F=\frac{M S_{\text { between }}}{M S_{\text { within }}}\]
Se\(M S_{between}\) e\(M S_{within}\) estime o mesmo valor (seguindo a crença de que\(H_0\) é verdade), então a\(F\) razão -deve ser aproximadamente igual a um. Na maioria das vezes, apenas erros de amostragem contribuiriam para variações diferentes de um. Ao que parece,\(M S_{between}\) consiste na variância da população mais uma variância produzida a partir das diferenças entre as amostras. \(M S_{within}\)é uma estimativa da variância da população. Como as variâncias são sempre positivas, se a hipótese nula for falsa, geralmente\(M S_{between}\) será maior que\(MS_{within}\) .Então, a\(F\) razão -será maior que um. No entanto, se o efeito populacional for pequeno, não é\(M S_{within}\) improvável que seja maior em uma determinada amostra.
Os cálculos anteriores foram feitos com grupos de tamanhos diferentes. Se os grupos tiverem o mesmo tamanho, os cálculos simplificam um pouco e a razão F pode ser escrita como:
Fórmula da razão F quando os grupos são do mesmo tamanho
Os cálculos anteriores foram feitos com grupos de tamanhos diferentes. Se os grupos tiverem o mesmo tamanho, os cálculos simplificam um pouco e a razão F pode ser escrita como
\[F=\frac{n \cdot s_{\overline{x}}^{2}}{s^{2}_{ pooled }}\]
onde
- \(n\)= o tamanho da amostra
- \(d f_{\text {numerator}}=k-1\)
- \(d f_{\text {denominator}}=n-k\)
- \(s_{pooled}^2\)= a média das variâncias da amostra (variância combinada)
- \(s_{\overline x}^2\)= a variância das médias da amostra
Normalmente, os dados são colocados em uma tabela para facilitar a visualização. Os resultados da ANOVA unidirecional geralmente são exibidos dessa maneira pelo software de computador.
Fonte de variação | Soma dos quadrados (\(SS\)) | Graus de liberdade (\(df\)) | Quadrado médio (\(MS\)) | \(F\) |
---|---|---|---|---|
Fator (entre) |
\ (SS\)) ">\(SS\) (Fator) | \ (df\)) ">\(k – 1\) | \ (MS\)) ">\(MS(Factor) = \dfrac{SS(Factor)}{k– 1}\) | \ (F\) ">\(F = \dfrac{MS(Factor)}{MS(Error)}\) |
Erro (dentro) |
\ (SS\)) ">\(SS\) (Erro) | \ (df\)) ">\(n – k\) | \ (MS\)) ">\(MS(Error) = \dfrac{SS(Error)}{n – k}\) | \ (F\) "> |
Total | \ (SS\)) ">\(SS\) (Total) | \ (df\)) ">\(n – 1\) | \ (MS\)) "> | \ (F\) "> |
Exemplo 12.2
Três planos de dieta diferentes devem ser testados para perda média de peso. As entradas na tabela são as perdas de peso para os diferentes planos. Os resultados da ANOVA unidirecional são mostrados na Tabela\(\PageIndex{2}\).
Plano 1:\(n_1 = 4\) | Plano 2:\(n_2 = 3\) | Plano 3:\(n_3 = 3\) |
---|---|---|
\ (n_1 = 4\) ">5 | \ (n_2 = 3\) ">3,5 | \ (n_3 = 3\) ">8 |
\ (n_1 = 4\) ">4,5 | \ (n_2 = 3\) ">7 | \ (n_3 = 3\) ">4 |
\ (n_1 = 4\) ">4 | \ (n_2 = 3\) "> | \ (n_3 = 3\) ">3,5 |
\ (n_1 = 4\) ">3 | \ (n_2 = 3\) ">4,5 | \ (n_3 = 3\) "> |
\(s_{1}=16.5, s_{2}=15, s_{3}=15.5\)
A seguir estão os cálculos necessários para preencher a tabela ANOVA unidirecional. A tabela é usada para realizar um teste de hipótese.
\[\begin{align*} S(\text { between }) &=\sum\left[\frac{\left(s_{j}\right)^{2}}{n_{j}}\right]-\frac{\left(\displaystyle \sum s_{j}\right)^{2}}{n} \\[4pt] &=\frac{s_{1}^{2}}{4}+\frac{s_{2}^{2}}{3}+\frac{s_{3}^{2}}{3}-\frac{\left(s_{1}+s_{2}+s_{3}\right)^{2}}{10}\end{align*}\]
onde\(n_{1}=4, n_{2}=3, n_{3}=3\)\(n=n_{1}+n_{2}+n_{3}=10\) e.
\[\begin{align*} S(\text { between }) &= \frac{(16.5)^{2}}{4}+\frac{(15)^{2}}{3}+\frac{(15.5)^{2}}{3}-\frac{(16.5+15+15.5)^{2}}{10} \\[4pt] &=2.2458 \\[4pt] S(\text {total}) &=\sum x^{2}-\frac{\left(\sum x\right)^{2}}{n} \\[4pt] &=\left(5^{2}+4.5^{2}+4^{2}+3^{2}+3.5^{2}+7^{2}+4.5^{2}+8^{2}+4^{2}+3.5^{2}\right) -\frac{(5+4.5+4+3+3.5+7+4.5+8+4+3.5)^{2}}{10}\\[4pt] &=244-\frac{47^{2}}{10} \\[4pt] &=244-220.9 \\[4pt] & =23.1 \\[4pt] S(\text {within}) & = S(\text {total})-S S(\text {between}) \\[4pt] &=23.1-2.2458 \\[4pt] &=20.8542 \end{align*}\]
Fonte de variação | Soma dos quadrados (\(SS\)) | Graus de liberdade (\(df\)) | Quadrado médio (\(MS\)) | \(F\) |
---|---|---|---|---|
Fator (entre) |
\ (SS\)) ">\(SS(Factor) = SS(Between) \\= 2.2458\) | \ (df\)) ">\(k – 1 = 3 groups – 1 \\= 2\) | \ (MS\)) ">\(MS(Factor) = \dfrac{SS(Factor)}{k – 1} \\= 2.2458/2 \\= 1.1229\) | \ (F\) ">\(F = \dfrac{MS(Factor)}{MS(Error)} \\ = \dfrac{1.1229}{2.9792} \\= 0.3769\) |
Erro (dentro) |
\ (SS\)) ">\(SS(Error) = SS(Within) \\ = 20.8542\) | \ (df\)) ">\(n – k = 10 total data – 3 groups \\= 7\) | \ (MS\)) ">\(MS(Error) = \dfrac{SS(Error)}{n – k} \\= \dfrac{20.8542}{7} \\= 2.9792\) | \ (F\) "> |
Total | \ (SS\)) ">\(SS(Total) = 2.2458 + 20.8542 \\= 23.1\) | \ (df\)) ">\(n – 1 = 10 total data – 1 \\= 9\) | \ (MS\)) "> | \ (F\) "> |
Exercício 12.2
Como parte de um experimento para ver como diferentes tipos de cobertura do solo afetariam a produção de tomate em fatias, estudantes do Colégio Marista cultivaram plantas de tomate sob diferentes condições de cobertura do solo. Grupos de três plantas tiveram cada um dos seguintes tratamentos:
- solo nu
- uma cobertura comercial do solo
- plástico preto
- palha
- composto
Todas as plantas cresceram nas mesmas condições e tinham a mesma variedade. Os alunos registraram o peso (em gramas) dos tomates produzidos por cada uma das plantas n = 15:
Nua:\(n_1 = 3\) | Cobertura do solo:\(n_2 = 3\) | Plástico:\(n_3 = 3\) | Palha:\(n_4 = 3\) | Composto:\(n_5 = 3\) |
---|---|---|---|---|
\ (n_1 = 3\) ">2.625 | \ (n_2 = 3\) ">5.348 | \ (n_3 = 3\) ">6.583 | \ (n_4 = 3\) ">7.285 | \ (n_5 = 3\) ">6.277 |
\ (n_1 = 3\) ">2.997 | \ (n_2 = 3\) ">5.682 | \ (n_3 = 3\) ">8.560 | \ (n_4 = 3\) ">6.897 | \ (n_5 = 3\) ">7.818 |
\ (n_1 = 3\) ">4.915 | \ (n_2 = 3\) ">5.482 | \ (n_3 = 3\) ">3.830 | \ (n_4 = 3\) ">9.230 | \ (n_5 = 3\) ">8.677 |
Crie a tabela ANOVA unidirecional.
O teste de hipótese ANOVA unidirecional é sempre com cauda direita porque\(F\) valores maiores estão bem posicionados na extremidade direita da curva de distribuição F e tendem a nos fazer rejeitar\(H_0\).
Exemplo 12.3
Vamos voltar ao exercício de fatiar tomate em Try It. As médias de produção de tomate nas cinco condições de cobertura são representadas por\(\mu_{1}, \mu_{2}, \mu_{3}, \mu_{4}, \mu_{5}\). Faremos um teste de hipótese para determinar se todas as médias são iguais ou se pelo menos uma é diferente. Usando um nível de significância de 5%, teste a hipótese nula de que não há diferença nos rendimentos médios entre os cinco grupos em relação à hipótese alternativa de que pelo menos uma média é diferente das demais.
- Responda
-
As hipóteses nula e alternativa são:
\(H_{0} : \mu_{1}=\mu_{2}=\mu_{3}=\mu_{4}=\mu_{5}\)
\(H_{a} : \mu_{i} \neq \mu_{j}\)alguns\(i \neq j\)
Os resultados da ANOVA unidirecional são mostrados na Tabela\(\PageIndex{5}\)
Tabela\(\PageIndex{5}\) Fonte de variação Soma dos quadrados (\(SS\)) Graus de liberdade (\(df\)) Quadrado médio (\(MS\)) F Fator (entre) \ (SS\)) ">36.648.561 \ (df\)) ">\(5 – 1 = 4\) \ (MS\)) ">\(\frac{36,648,561}{4}=9,162,140\) \(\frac{9,162,140}{2,044,672.6}=4.4810\) Erro (dentro) \ (SS\)) ">20.446.726 \ (df\)) ">\(15 – 5 = 10\) \ (MS\))” class="mt-align-center">\(\frac{20,446,726}{10}=2,044,672.6\) Total \ (SS\)) ">57.095.287 \ (df\)) ">\(15 – 1 = 14\) \ (MS\)) "> Distribuição para o teste:\(F_{4,10}\)
\(df(num) = 5 – 1 = 4\)
\(df(denom) = 15 – 5 = 10\)
Estatística do teste:\(F = 4.4810\)
Declaração de probabilidade:\(p\text{-value }= P(F > 4.481) = 0.0248.\)
Compare\(\bf{\alpha}\) e o\(\bf p\) valor -:\(\alpha = 0.05\),\(p\text{-value }= 0.0248\)
Tome uma decisão: desde\(\alpha > p\) -value, não podemos aceitar\(H_0\).
Conclusão: No nível de significância de 5%, temos evidências razoavelmente fortes de que as diferenças nos rendimentos médios para fatiar plantas de tomate cultivadas sob diferentes condições de cobertura morta provavelmente não se devem apenas ao acaso. Podemos concluir que pelo menos algumas das coberturas resultaram em rendimentos médios diferentes.
Exercício 12.3
O MRSA, ou Staphylococcus aureus, pode causar infecções bacterianas graves em pacientes hospitalares. A tabela\(\PageIndex{6}\) mostra várias contagens de colônias de diferentes pacientes que podem ou não ter MRSA. Os dados da tabela são plotados na Figura\(\PageIndex{2}\).
Conc = 0,6 | Conc = 0,8 | Conc = 1,0 | Conc = 1,2 | Conc = 1,4 |
---|---|---|---|---|
9 | 16 | 22 | 30 | 27 |
66 | 93 | 147 | 199 | 168 |
98 | 82 | 120 | 148 | 132 |
Gráfico dos dados para as diferentes concentrações:
Teste se o número médio de colônias é o mesmo ou se é diferente. Construa a tabela ANOVA, encontre o valor de p e diga sua conclusão. Use um nível de significância de 5%.
Exemplo 12.4
Quatro irmandades coletaram uma amostra aleatória de irmãs em relação às médias de suas notas no último semestre. Os resultados são mostrados na Tabela\(\PageIndex{7}\).
Irmandade 1 | Irmandade 2 | Irmandade 3 | Irmandade 4 |
---|---|---|---|
2,17 | 2,63 | 2,63 | 3,79 |
1,85 | 1,77 | 3,78 | 3,45 |
2,83 | 3,25 | 4,00 | 3,08 |
1,69 | 1,86 | 2,55 | 2.26 |
3.33 | 2.21 | 2,45 | 3,18 |
Usando um nível de significância de 1%, há uma diferença nas notas médias entre as irmandades?
- Responda
-
\(\mu_{1}, \mu_{2}, \mu_{3}, \mu_{4}\)Seja o meio populacional das irmandades. Lembre-se de que a hipótese nula afirma que os grupos da irmandade são da mesma distribuição normal. A hipótese alternativa diz que pelo menos dois dos grupos da irmandade vêm de populações com diferentes distribuições normais. Observe que os quatro tamanhos de amostra são, cada um, cinco.
Nota: Este é um exemplo de experimento balanceado, porque cada fator (ou seja, irmandade) tem o mesmo número de observações.
\(H_{0}: \mu_{1}=\mu_{2}=\mu_{3}=\mu_{4}\)
\(H_a\): Nem todas as médias\(\mu_{1}, \mu_{2}, \mu_{3}, \mu_{4}\) são iguais.
Distribuição para o teste:\(F_{3,16}\)
onde\(k = 4\) grupos e\(n = 20\) amostras no total
\(df(num)= k – 1 = 4 – 1 = 3\)
\(df(denom) = n – k = 20 – 4 = 16\)
Calcule a estatística do teste:\(F = 2.23\)
Gráfico:
Declaração de probabilidade:\(p\text{-value }= P(F > 2.23) = 0.1241\)
Compare\(\bf{\alpha}\) e o\(\bf p\) -value:\(\alpha = 0.01\)
\(p\text{-value }= 0.1241\)
\(\alpha < p\) -valueTome uma decisão: desde\(\alpha < p\) -value, você não pode rejeitar\(H_0\).
Conclusão: Não há evidências suficientes para concluir que há uma diferença entre as notas médias das irmandades.
Exercício 12.4
Quatro equipes esportivas coletaram uma amostra aleatória de jogadores em relação aos GPAs do último ano. Os resultados são mostrados na Tabela\(\PageIndex{8}\).
Basquetebol | Beisebol | Hóquei | Lacrosse |
---|---|---|---|
3.6 | 2.1 | 4,0 | 2.0 |
2.9 | 2.6 | 2.0 | 3.6 |
2,5 | 3.9 | 2.6 | 3.9 |
3.3 | 3.1 | 3.2 | 2.7 |
3.8 | 3.4 | 3.2 | 2,5 |
Use um nível de significância de 5% e determine se há uma diferença no GPA entre as equipes.
Exemplo 12.5
Uma turma da quarta série está estudando o meio ambiente. Uma das tarefas é cultivar plantas de feijão em diferentes solos. Tommy optou por cultivar suas plantas de feijão em solo encontrado fora de sua sala de aula misturado com fiapos secadores. Tara optou por cultivar suas plantas de feijão em solo para vasos comprado no viveiro local. Nick escolheu cultivar suas plantas de feijão no solo do jardim de sua mãe. Nenhum produto químico foi usado nas plantas, apenas água. Eles cresceram dentro da sala de aula ao lado de uma grande janela. Cada criança cultivou cinco plantas. No final do período de crescimento, cada planta foi medida, produzindo os dados (em polegadas) na Tabela\(\PageIndex{9}\).
As plantas de Tommy | As plantas de Tara | As plantas de Nick |
---|---|---|
24 | 25 | 23 |
21 | 31 | 27 |
23 | 23 | 22 |
30 | 20 | 30 |
23 | 28 | 20 |
Parece que os três meios em que as plantas de feijão foram cultivadas produzem a mesma altura média? Teste em um nível de significância de 3%.
- Responda
-
Desta vez, realizaremos os cálculos que levam à estatística F'. Observe que cada grupo tem o mesmo número de plantas, então usaremos a fórmula\(F^{\prime}=\frac{n \cdot s_{\overline{x}}^{2}}{s^{2}_{pooled}}\).
Primeiro, calcule a média da amostra e a variância da amostra de cada grupo.
As plantas de Tommy As plantas de Tara As plantas de Nick Média da amostra 24,2 25,4 24,4 Variância da amostra 11,7 18.3 16.3 Tabela\(\PageIndex{10}\) Em seguida, calcule a variância das médias dos três grupos (Calcule a variância de 24,2, 25,4 e 24,4). Variância das médias do grupo = 0,413 =\(s_{\overline{x}}^{2}\)
Então,\(M S_{b e t w e e n}=n s_{\overline{x}}^{2}=(5)(0.413)\) onde\(n = 5\) está o tamanho da amostra (número de plantas que cada criança cultivou).
Calcule a média das três variâncias da amostra (Calcule a média de 11,7, 18,3 e 16,3). Média das variâncias da amostra = 15,433 =\(\bf{s^2}\) combinada
Então\(M S_{\text {within}}=s^{2} \text { pooled }=15.433\).
A\(F\) estatística (ou\(F\) proporção) é\(F=\frac{M S_{\text { between }}}{M S_{\text { within }}}=\frac{n s_{\overline{x}}^{2}}{s^{2} \text { pooled }}=\frac{(5)(0.413)}{15.433}=0.134\)
O\(df\) s para o numerador = o número de grupos\(– 1 = 3 – 1 = 2\).
O\(df\) s para o denominador = o número total de amostras — o número de grupos\(= 15 – 3 = 12\)
A distribuição para o teste é\(F_{2,12}\) e a\(F\) estatística é\(F = 0.134\)
O\(p\) valor -é\(P(F > 0.134) = 0.8759\).
Solução: Desde\(\alpha = 0.03\) e o\(p\text{-value }= 0.8759\), então você não pode rejeitar H0. (Por quê?)
Conclusão: Com um nível de significância de 3%, a partir dos dados da amostra, a evidência não é suficiente para concluir que as alturas médias das plantas de feijão são diferentes.
Notação
A notação para a\(F\) distribuição é\(F \sim F_{d f(n u m), d f(d e n o m)}\) onde\(df(num) = df_{between}\)\(df(denom) = df_{within}\) e. A média da\(F\) distribuição é\(\mu=\frac{d f(n u m)}{d f(\text {denom})-2}\)