Skip to main content
Global

8.2: Um intervalo de confiança para um desvio padrão populacional desconhecido, caso de amostra pequena

  • Page ID
    186520
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Na prática, raramente sabemos o desvio padrão da população. No passado, quando o tamanho da amostra era grande, isso não representava um problema para os estatísticos. Eles usaram o desvio padrão da amostra s como uma estimativa\(\sigma\) e procederam como antes para calcular um intervalo de confiança com resultados próximos o suficiente. Isso é o que fizemos no exemplo\(\PageIndex{4}\) acima. A estimativa pontual para o desvio padrão,\(s\), foi substituída na fórmula pelo intervalo de confiança para o desvio padrão da população. Nesse caso, há 80 observações bem acima das 30 observações sugeridas para eliminar qualquer viés de uma pequena amostra. No entanto, os estatísticos tiveram problemas quando o tamanho da amostra era pequeno. Um tamanho pequeno da amostra causou imprecisões no intervalo de confiança.

    William S. Goset (1876-1937), da cervejaria Guinness em Dublin, Irlanda, enfrentou esse problema. Seus experimentos com lúpulo e cevada produziram muito poucas amostras. Apenas\(\sigma\) substituir por\(s\) não produziu resultados precisos quando ele tentou calcular um intervalo de confiança. Ele percebeu que não poderia usar uma distribuição normal para o cálculo; ele descobriu que a distribuição real depende do tamanho da amostra. Esse problema o levou a “descobrir” o que é chamado de distribuição t de Student. O nome vem do fato de que Gosset escreveu sob o pseudônimo “A Student”.

    Até meados da década de 1970, alguns estatísticos usavam a aproximação de distribuição normal para amostras grandes e usavam a distribuição t de Student somente para tamanhos amostrais de no máximo 30 observações.

    Se você extrair uma amostra aleatória simples\(n\) de tamanho de uma população com média\(\mu\) e desvio padrão da população desconhecido\(\sigma\) e calcular a pontuação t

    \[t=\frac{\overline{x}-\mu}{\left(\frac{s}{\sqrt{n}}\right)}\]

    então as pontuações t seguem a distribuição t de Student com\(\bf{n – 1}\) graus de liberdade. A pontuação t tem a mesma interpretação que a pontuação z. Ele mede a distância em unidades\(\overline x\) de desvio padrão de sua média\ mu. Para cada tamanho de amostra\(n\), há uma distribuição t de Student diferente.

    Os graus de liberdade,\(\bf{n – 1}\), provêm do cálculo do desvio padrão da amostra\(\bf{s}\). Lembre-se de que, quando calculamos pela primeira vez um desvio padrão da amostra, dividimos a soma dos desvios quadrados por\(n – 1\), mas usamos\(n\) desvios (\(\overline x\)valores) para calcular\(\bf{s}\). Como a soma dos desvios é zero, podemos encontrar o último desvio quando conhecermos os outros\(\bf{n – 1}\) desvios. Os outros\(\bf{n – 1}\) desvios podem mudar ou variar livremente. Chamamos\(\bf{n – 1}\) o número de graus de liberdade (\(df\)) em reconhecimento de que um está perdido nos cálculos. O efeito da perda de um grau de liberdade é que o valor t aumenta e o intervalo de confiança aumenta em largura.

    Propriedades da distribuição T de Student

    • O gráfico da distribuição t de Student é semelhante à curva normal padrão e, em graus infinitos de liberdade, é a distribuição normal. Você pode confirmar isso lendo a linha de fundo em graus infinitos de liberdade para obter um nível familiar de confiança, por exemplo, na coluna 0,05, nível de confiança de 95%, encontramos o valor t de 1,96 em graus infinitos de liberdade.
    • A média da distribuição t de Student é zero e a distribuição é simétrica em torno de zero, novamente como a distribuição normal padrão.
    • A distribuição t de Student tem mais probabilidade em suas caudas do que a distribuição normal padrão porque a dispersão da distribuição t é maior do que a dispersão da normal padrão. Portanto, o gráfico da distribuição t de Student será mais grosso nas caudas e mais curto no centro do que o gráfico da distribuição normal padrão.
    • A forma exata da distribuição t do Student depende dos graus de liberdade. À medida que os graus de liberdade aumentam, o gráfico da distribuição t de Student se torna mais parecido com o gráfico da distribuição normal padrão.
    • Supõe-se que a população subjacente de observações individuais esteja normalmente distribuída com média populacional desconhecida\\(mu\) e desvio padrão da população desconhecida\(\sigma\). Essa suposição vem do teorema do Limite Central porque as observações individuais neste caso são os\(\overline x\) s da distribuição amostral. O tamanho da população subjacente geralmente não é relevante, a menos que seja muito pequeno. Se for normal, a suposição é atendida e não precisa ser discutida.

    Uma tabela de probabilidade para a distribuição t de Student é usada para calcular valores t em vários níveis de confiança comumente usados. A tabela fornece pontuações t que correspondem ao nível de confiança (coluna) e aos graus de liberdade (linha). Ao usar uma tabela t, observe que algumas tabelas são formatadas para mostrar o nível de confiança nos cabeçalhos das colunas, enquanto os cabeçalhos das colunas em algumas tabelas podem mostrar somente a área correspondente em uma ou ambas as pontas. Observe que, na parte inferior, a tabela mostrará o valor t para graus infinitos de liberdade. Matematicamente, à medida que os graus de liberdade aumentam, a\(t\) distribuição se aproxima da distribuição normal padrão. Você pode encontrar valores Z familiares examinando a coluna alfa relevante e lendo o valor na última linha.

    A tabela t de Student (Tabela\(\PageIndex{6}\)) fornece pontuações t dados os graus de liberdade e a probabilidade de cauda direita.

    A distribuição t de Student tem uma das propriedades mais desejáveis do normal: ela é simétrica. O que a distribuição t de Student faz é espalhar o eixo horizontal para que seja necessário um número maior de desvios padrão para capturar a mesma quantidade de probabilidade. Na realidade, há um número infinito de distribuições t de Student, uma para cada ajuste no tamanho da amostra. À medida que o tamanho da amostra aumenta, a distribuição t de Student se torna cada vez mais parecida com a distribuição normal. Quando o tamanho da amostra atinge 30, a distribuição normal geralmente é substituída pelo t de Student porque eles são muito parecidos. Essa relação entre a distribuição t de Student e a distribuição normal é mostrada na Figura\(\PageIndex{8}\).

    Figura\(\PageIndex{1}\)

    Este é outro exemplo de uma distribuição limitando outra, neste caso, a distribuição normal é a distribuição limitante do t de Student quando os graus de liberdade no t de Student se aproximam do infinito. Essa conclusão vem diretamente da derivação da distribuição t do Student pelo Sr. Gosset. Ele reconheceu o problema como tendo poucas observações e nenhuma estimativa do desvio padrão da população. Ele estava substituindo o desvio padrão da amostra e obtendo resultados voláteis. Portanto, ele criou a distribuição t de Student como uma razão entre a distribuição normal e a distribuição Qui quadrada. A distribuição do qui-quadrado é em si uma razão de duas variâncias, neste caso, a variância da amostra e a variância populacional desconhecida. A distribuição t de Student, portanto, está vinculada à distribuição normal, mas tem graus de liberdade provenientes dos da distribuição Qui-quadrado. A solução algébrica demonstra esse resultado.

    Desenvolvimento da distribuição t de Student:

    1. \(t=\frac{z}{\sqrt{\frac{\chi^{2}}{v}}}\)

      Onde\(Z\) está a distribuição normal padrão e\(X^2\) é a distribuição qui-quadrada com\(v\) graus de liberdade.

    2. \(t=\frac{\frac{(\overline x-\mu)}{\sigma}}{\sqrt{\frac{\frac{s^{2}}{(n-1)}}{\frac{\sigma^{2}}{(n-1)}}}}\)

      por substituição, e assim o t de Student com\(v = n − 1\) graus de liberdade é:

    3. \(t=\frac{\overline{x}-\mu}{\frac{s}{\sqrt{n}}}\)

    Reafirmando a fórmula de um intervalo de confiança para a média nos casos em que o tamanho da amostra é menor que 30 e não sabemos o desvio padrão da população,\(\sigma\):

    \[\overline{x}-t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right) \leq \mu \leq \overline{x}+t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right)\nonumber\]

    Aqui, a estimativa pontual do desvio padrão da população\(s\) foi substituída pelo desvio padrão da população,\(\sigma\), e\(t_{\nu}\),\(\alpha\) foi substituída por\(Z_{\alpha}\). A letra grega\(\nu\) (pronunciada nu) é colocada na fórmula geral em reconhecimento de que há muitas\(t_{\nu}\) distribuições de Student, uma para cada tamanho de amostra. \(\nu\)é o símbolo dos graus de liberdade da distribuição e depende do tamanho da amostra. Freqüentemente, df é usado para abreviar graus de liberdade. Para esse tipo de problema, os graus de liberdade são\(\nu = n-1\), onde\(n\) está o tamanho da amostra. Para pesquisar uma probabilidade na tabela t de Student, precisamos conhecer os graus de liberdade do problema.

    Exemplo\(\PageIndex{1}\)

    O lucro médio por ação (EPS) de 10 ações industriais selecionadas aleatoriamente dentre aquelas listadas na Média Industrial Dow-Jones foi encontrado\(\overline X = 1.85\) com um desvio padrão de\(s=0.395\). Calcule um intervalo de confiança de 99% para o EPS médio de todos os industriais listados no\(DJIA\).

    \[\overline{x}-t_{v, \alpha}\left(\frac{s}{\sqrt{n}}\right) \leq \mu \leq \overline{x}+t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right)\nonumber\]

    Resposta

    Para ajudar a visualizar o processo de cálculo de um intervalo de confiança, desenhamos a distribuição apropriada para o problema. Nesse caso, esse é o t de Student porque não sabemos o desvio padrão da população e a amostra é pequena, menor que 30.

    Figura\(\PageIndex{2}\)

    Para encontrar o valor t apropriado, são necessárias duas informações, o nível de confiança desejado e os graus de liberdade. A pergunta pedia um nível de confiança de 99%. No gráfico, isso é mostrado onde (\(1-\alpha\)), o nível de confiança, está na área sem sombra. As caudas, portanto, têm 0,005 de probabilidade cada,\(\alpha/2\). Os graus de liberdade para esse tipo de problema são\(n-1= 9\). Da tabela t de Student, na linha marcada com 9 e coluna marcada com 0,005, está o número de desvios padrão para capturar 99% da probabilidade, 3,2498. Eles são então colocados no gráfico, lembrando que o de Student\(t\) é simétrico e, portanto, o valor t é mais ou menos em cada lado da média.

    A inserção desses valores na fórmula fornece o resultado. Esses valores podem ser colocados no gráfico para ver a relação entre a distribuição das médias da amostra,\(\overline X\)'s e a distribuição t de Student.

    \[\mu=\overline{X} \pm t_{\alpha / 2, \mathrm{df}=n-1} \frac{s}{\sqrt{n}}=1.851 \pm 3.2498 \frac{0.395}{\sqrt{10}}=1.8551 \pm 0.406\nonumber\]

    \[1.445 \leq \mu \leq 2.257\nonumber\]

    Declaramos a conclusão formal como:

    Com um nível de confiança de 99%, a média\(EPS\) de todos os setores listados\(DJIA\) é de $1,44 a $2,26.

    Exercício\(\PageIndex{2}\)

    Você faz um estudo de hipnoterapia para determinar a eficácia dela em aumentar o número de horas de sono que os indivíduos dormem todas as noites. Você mede as horas de sono de 12 indivíduos com os seguintes resultados. Construa um intervalo de confiança de 95% para o número médio de horas dormidas para a população (presumida normal) da qual você extraiu os dados.

    8,2; 9,1; 7,7; 8,6; 6,9; 11,2; 10,1; 9,9; 8,9; 9,2; 7,5; 10,5