Skip to main content
Global

8.3: Uma média de população única usando a distribuição T de Student

  • Page ID
    190354
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Na prática, raramente sabemos o desvio padrão da população. No passado, quando o tamanho da amostra era grande, isso não representava um problema para os estatísticos. Eles usaram o desvio padrão da amostra\(s\) como estimativa\(\sigma\) e procederam como antes para calcular um intervalo de confiança com resultados próximos o suficiente. No entanto, os estatísticos tiveram problemas quando o tamanho da amostra era pequeno. Um tamanho pequeno da amostra causou imprecisões no intervalo de confiança.

    William S. Goset (1876-1937), da cervejaria Guinness em Dublin, Irlanda, enfrentou esse problema. Seus experimentos com lúpulo e cevada produziram muito poucas amostras. Apenas\(\sigma\) substituir por\(s\) não produziu resultados precisos quando ele tentou calcular um intervalo de confiança. Ele percebeu que não poderia usar uma distribuição normal para o cálculo; ele descobriu que a distribuição real depende do tamanho da amostra. Esse problema o levou a “descobrir” o que é chamado de distribuição t de Student. O nome vem do fato de que Gosset escreveu sob o pseudônimo de “Estudante”.

    Até meados da década de 1970, alguns estatísticos usavam a aproximação de distribuição normal para amostras grandes e usavam apenas a\(t\) distribuição de Student apenas para tamanhos amostrais de no máximo 30. Com calculadoras gráficas e computadores, a prática agora é usar a distribuição t de Student sempre que\(s\) for usada como estimativa para\(\sigma\). Se você extrair uma amostra aleatória simples\(n\) de tamanho de uma população que tem uma distribuição aproximadamente normal com média\(\mu\) e desvio padrão da população desconhecido\(\sigma\) e calcular o\(t\) -score

    \[t = \dfrac{\bar{x} - \mu}{\left(\dfrac{s}{\sqrt{n}}\right)},\]

    então as\(t\) pontuações -seguem a distribuição t de Student com\(n – 1\) graus de liberdade. A\(t\) pontuação -tem a mesma interpretação que a pontuação z. Ele mede o quão longe\(\bar{x}\) está de sua média\(\mu\). Para cada tamanho de amostra\(n\), há uma distribuição t de Student diferente.

    Os graus de liberdade,\(n – 1\), provêm do cálculo do desvio padrão da amostra\(s\). Anteriormente, usávamos\(n\) desvios (\(x - \bar{x}\)valores) para calcular\(s\). Como a soma dos desvios é zero, podemos encontrar o último desvio quando conhecermos os outros\(n – 1\) desvios. Os outros\(n – 1\) desvios podem mudar ou variar livremente. Chamamos\(n – 1\) o número de graus de liberdade (df).

    Para cada tamanho de amostra\(n\), há uma distribuição t de Student diferente.

    Propriedades do aluno\(t\)-Distribution

    • O gráfico da\(t\) distribuição de Student é semelhante à curva normal padrão.
    • A média da\(t\) distribuição de Student é zero e a distribuição é simétrica em torno de zero.
    • A\(t\) distribuição -de Student tem mais probabilidade em suas caudas do que a distribuição normal padrão porque a dispersão da\(t\) distribuição -é maior do que a dispersão da normal padrão. Portanto, o gráfico da\(t\) distribuição de Student será mais grosso nas caudas e mais curto no centro do que o gráfico da distribuição normal padrão.
    • A forma exata da\(t\) distribuição do aluno depende dos graus de liberdade. À medida que os graus de liberdade aumentam, o gráfico da\(t\) distribuição -de Student se torna mais parecido com o gráfico da distribuição normal padrão.
    • Supõe-se que a população subjacente de observações individuais esteja normalmente distribuída com média populacional desconhecida\(\mu\) e desvio padrão da população desconhecido\(\sigma\). O tamanho da população subjacente geralmente não é relevante, a menos que seja muito pequeno. Se for em forma de sino (normal), a suposição é atendida e não precisa ser discutida. A amostragem aleatória é assumida, mas essa é uma suposição completamente separada da normalidade.

    Calculadoras e computadores podem calcular facilmente as\(t\) probabilidades de qualquer aluno. O TI-83,83+ e 84+ têm uma função tcdf para encontrar a probabilidade de determinados valores de\(t\). A gramática para o comando tcdf é tcdf (limite inferior, limite superior, graus de liberdade). No entanto, para intervalos de confiança, precisamos usar probabilidade inversa para encontrar o valor de t quando conhecemos a probabilidade.

    Para o TI-84+, você pode usar o comando InVT no menu Distribution. O comando InVT funciona de forma semelhante ao invnorm. O comando InVT requer duas entradas: InVT (área à esquerda, graus de liberdade) A saída é a pontuação t que corresponde à área que especificamos.

    O TI-83 e o 83+ não têm o comando InVT. (O TI-89 tem um comando T inverso.)

    Uma tabela de probabilidade para a\(t\) distribuição de Student também pode ser usada. A tabela fornece\(t\) -pontuações que correspondem ao nível de confiança (coluna) e aos graus de liberdade (linha). (O TI-86 não tem um programa ou comando InVT, portanto, se você estiver usando essa calculadora, precisará usar uma tabela de probabilidade para a\(t\) Distribuição de Alunos.) Ao usar uma\(t\) tabela -, observe que algumas tabelas são formatadas para mostrar o nível de confiança nos cabeçalhos das colunas, enquanto os cabeçalhos das colunas em algumas tabelas podem mostrar somente a área correspondente em uma ou ambas as pontas.

    A\(t\) tabela de um aluno fornece\(t\) -pontuações de acordo com os graus de liberdade e a probabilidade com cauda direita. A mesa é muito limitada. Calculadoras e computadores podem calcular facilmente as\(t\) probabilidades de qualquer aluno.

    A notação para a distribuição t de Student (usando T como variável aleatória) é:

    • \(T \sim t_{df}\)onde\(df = n – 1\).
    • Por exemplo, se tivermos uma amostra de\(n = 20\) itens de tamanho, calculamos os graus de liberdade\(df = n - 1 = 20 - 1 = 19\) e escrevemos a distribuição como\(T \sim t_{19}\).

    Se o desvio padrão da população não for conhecido, o limite de erro para uma média da população é:

    • \(EBM = \left(t_{\frac{\alpha}{2}}\right)\left(\frac{s}{\sqrt{n}}\right)\),
    • \(t_{\frac{\alpha}{2}}\)é a\(t\) pontuação -com área à direita igual a\(\frac{\alpha}{2}\),
    • use\(df = n – 1\) graus de liberdade e
    • \(s =\)desvio padrão da amostra.

    O formato do intervalo de confiança é:

    \[(\bar{x} - EBM, \bar{x} + EBM). \label{confint}\]

    Para calcular o intervalo de confiança diretamente:

    Pressione STAT.
    Seta até TESTES.
    Seta para baixo até 8:TInterval e pressione ENTER (ou simplesmente pressione 8).

    Exemplo\(\PageIndex{1}\): Acupuncture

    Suponha que você faça um estudo da acupuntura para determinar a eficácia dela no alívio da dor. Você mede as taxas sensoriais de 15 indivíduos com os resultados fornecidos. Use os dados da amostra para construir um intervalo de confiança de 95% para a taxa sensorial média da população (presumida normal) da qual você retirou os dados.

    A solução é mostrada passo a passo e usando as calculadoras TI-83, 83+ ou 84+.

    8,6; 9,4; 7,9; 6,8; 8,3; 7,3; 9,2; 9,6; 8,7; 11,4; 10,3; 5,4; 8,1; 5,5; 6,9

    Resposta

    • A primeira solução é passo a passo (Solução A).
    • A segunda solução usa as calculadoras TI-83+ e TI-84 (Solução B).

    Solução A

    Para encontrar o intervalo de confiança, você precisa da média da amostra\(\bar{x}\), e\(EBM\) a.

    \(\bar{x} = 8.2267 \)

    \(s = 1.6722\)\(n = 15\)

    \(df = 15 – 1 = 14 CL so \alpha = 1 – CL = 1 – 0.95 = 0.05\)

    \(\frac{\alpha}{2} = 0.025 t_{\frac{\alpha}{2}} = t_{0.025}\)

    A área à direita de\(t_{0.025}\) é 0,025 e a área à esquerda de\(t_{0.025}\) é 1 — 0,025 = 0,975

    \(t_{\frac{\alpha}{2}} = t_{0.025} = 2.14\)usando InVT (.975,14) na calculadora TI-84+.

    \[ \begin{align*} EBM &= \left(t_{\frac{\alpha}{2}}\right)\left(\frac{s}{\sqrt{n}}\right) \\[4pt] &= (2.14)\left(\frac{1.6722}{\sqrt{15}}\right) = 0.924 \end{align*}\]

    Agora é apenas uma aplicação direta da Equação\ ref {confint}:

    \[ \begin{align*} \bar{x} – EBM &= 8.2267 – 0.9240 = 7.3 \\[4pt] \bar{x} + EBM &= 8.2267 + 0.9240 = 9.15 \end{align*}\]

    O intervalo de confiança de 95% é (7,30, 9,15).

    Estimamos com 95% de confiança que a taxa sensorial média da população real está entre 7,30 e 9,15.

    Solução B

    Pressione STAT e flecha até TESTS.

    Seta para baixo até 8:TInterval e pressione ENTER (ou você pode simplesmente pressionar 8).
    Seta para Data e pressione ENTER.
    Desça até a Lista e insira o nome da lista em que você colocou os dados.
    Deve haver um 1 após Freq.
    Seta para baixo até o nível C e digite 0,95
    Seta para baixo para calcular e pressione ENTER.
    O intervalo de confiança de 95% é (7,3006, 9,1527)

    Ao calcular o limite de erro, uma tabela de probabilidade para a distribuição t de Student também pode ser usada para encontrar o valor de\(t\). A tabela fornece\(t\) -pontuações que correspondem ao nível de confiança (coluna) e aos graus de liberdade (linha); a\(t\) pontuação -é encontrada onde a linha e a coluna se cruzam na tabela.

    Exercício\(\PageIndex{1}\)

    Você faz um estudo de hipnoterapia para determinar a eficácia dela em aumentar o número de horas de sono que os indivíduos dormem todas as noites. Você mede as horas de sono de 12 indivíduos com os seguintes resultados. Construa um intervalo de confiança de 95% para o número médio de horas dormidas para a população (presumida normal) da qual você obteve os dados.

    8,2; 9,1; 7,7; 8,6; 6,9; 11,2; 10,1; 9,9; 8,9; 9,2; 7,5; 10,5

    Resposta

    (8.1634, 9.8032)

    Exemplo\(\PageIndex{2}\): The Human Toxome Project

    O Projeto Toxoma Humano (HTP) está trabalhando para entender o escopo da poluição industrial no corpo humano. Os produtos químicos industriais podem entrar no corpo por meio da poluição ou como ingredientes em produtos de consumo. Em outubro de 2008, os cientistas da HTP testaram amostras de sangue do cordão umbilical de 20 recém-nascidos nos Estados Unidos. O sangue do cordão umbilical do grupo “No útero/recém-nascido” foi testado para 430 compostos industriais, poluentes e outros produtos químicos, incluindo substâncias químicas ligadas à toxicidade do cérebro e do sistema nervoso, toxicidade do sistema imunológico e toxicidade reprodutiva e problemas de fertilidade. Existem problemas de saúde sobre os efeitos de algumas substâncias químicas no cérebro e no sistema nervoso. A tabela\(\PageIndex{1}\) mostra quantos dos produtos químicos visados foram encontrados no sangue do cordão umbilical de cada bebê.

    Tabela\(\PageIndex{1}\)
    79 145 147 160 116 100 159 151 156 126
    137 83 156 94 121 144 123 114 139 99

    Use esses dados de amostra para construir um intervalo de confiança de 90% para o número médio de produtos químicos industriais específicos encontrados no sangue de um bebê.

    Solução A

    A partir da amostra, você pode calcular\(\bar{x} = 127.45\)\(s = 25.965\) e. Há 20 bebês na amostra, então\(n = 20\),\(df = 20 – 1 = 19\) e.

    Você deve calcular um intervalo de confiança de 90%:\(CL = 0.90\), então

    \[\alpha = 1 – CL = 1 – 0.90 = 0.10 \frac{\alpha}{2} = 0.05, t_{\frac{\alpha}{2}} = t_{0.05}\]

    Por definição, a área à direita de\(t_{0.05}\) é 0,05 e, portanto, a área à esquerda de\(t_{0.05}\) é\(1 – 0.05 = 0.95\).

    Use uma mesa, calculadora ou computador para descobrir isso\(t_{0.05} = 1.729\).

    \(EBM = t_{\frac{\alpha}{2}}\left(\frac{s}{\sqrt{n}}\right) = 1.729\left(\frac{25.965}{\sqrt{20}}\right) \approx 10.038\)

    \(\bar{x} – EBM = 127.45 – 10.038 = 117.412\)

    \(\bar{x} + EBM = 127.45 + 10.038 = 137.488\)

    Estimamos com 90% de confiança que o número médio de todos os produtos químicos industriais específicos encontrados no sangue do cordão umbilical nos Estados Unidos está entre 117.412 e 137.488.

    Solução B

    Insira os dados como uma lista.

    Pressione STAT e flecha até TESTS.
    Seta para baixo até 8:TInterval e pressione ENTER (ou você pode simplesmente pressionar 8). Seta para Data e pressione ENTER.
    Desça até a Lista e insira o nome da lista em que você colocou os dados.
    Seta para baixo até Freq e digite 1.
    Seta para baixo até o nível C e digite 0,90
    Seta para baixo para calcular e pressione ENTER.

    O intervalo de confiança de 90% é (117,41, 137,49).

    Exemplo\(\PageIndex{3}\)

    Uma amostra aleatória de estudantes de estatística foi solicitada a estimar o número total de horas que passam assistindo televisão em uma semana normal. As respostas são registradas na Tabela\(\PageIndex{2}\). Use esses dados de amostra para construir um intervalo de confiança de 98% para o número médio de horas que os estudantes de estatística passarão assistindo televisão em uma semana.

    Tabela\(\PageIndex{2}\)
    0 3 1 20 9
    5 10 1 10 4
    14 2 4 4 5

    Solução A

    • \(\bar{x} = 6.133\),
    • \(s = 5.514\),
    • \(n = 15\), e
    • \(df = 15 – 1 = 14\).

    \(CL = 0.98\), então\(\alpha = 1 - CL = 1 - 0.98 = 0.02\)

    \(\frac{\alpha}{2} = 0.01 t_{\frac{\alpha}{2}} = t_{0.01} 2.624\)

    \(EBM = t_{\frac{\alpha}{2}}\left(\frac{s}{\sqrt{n}}\right) = 2.624\left(\frac{5.514}{\sqrt{15}}\right) - 3.736\)

    \(\bar{x} – EBM = 6.133 – 3.736 = 2.397\)

    \(\bar{x} + EBM = 6.133 + 3.736 = 9.869\)

    Estimamos com 98% de confiança que o número médio de todas as horas que os estudantes de estatística passam assistindo televisão em uma semana está entre 2.397 e 9.869.

    Solução B

    Insira os dados como uma lista.

    Pressione STAT e flecha até TESTS.
    Seta para baixo até o intervalo 8:T.
    Pressione ENTER.
    Seta para Data e pressione ENTER.
    Use a seta para baixo e digite o nome da lista em que os dados estão armazenados.
    Digite Freq: 1
    Digite C-Level: 0.98
    Seta para baixo para calcular e pressione Enter.
    O intervalo de confiança de 98% é (2,3965, 9.8702).

    Referência

    1. “As melhores pequenas empresas da América”. Forbes, 2013. Disponível on-line em http://www.forbes.com/best-small-companies/list/ (acessado em 2 de julho de 2013).
    2. Dados do Microsoft Bookshelf.
    3. Dados de http://www.businessweek.com/.
    4. Dados de http://www.forbes.com/.
    5. “Catálogo de dados de divulgação: PAC de liderança e relatório de patrocinadores, 2012.” Comissão Eleitoral Federal. Disponível on-line em www.fec.gov/data/index.jsp (acessado em 2 de julho de 2013).
    6. “Projeto de toxoma humano: mapeando a poluição nas pessoas”. Grupo de Trabalho Ambiental. Disponível on-line em www.ewg.org/sites/humantoxome... Tero%2FNewborn (acessado em 2 de julho de 2013).
    7. “Descrição de metadados da lista de PAC de liderança”. Comissão Eleitoral Federal. Disponível on-line em www.fec.gov/finance/disclosur... PPAClist.shtml (acessado em 2 de julho de 2013).

    Glossário

    Graus de liberdade (\(df\))
    o número de objetos em uma amostra que podem variar livremente
    Distribuição normal
    uma variável aleatória contínua (RV) com pdf\(f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^{2}}\), onde\(\mu\) é a média da distribuição e\(\sigma\) é o desvio padrão, notação:\(X \sim N(\mu,\sigma)\). Se\(\mu = 0\) e\(\sigma = 1\), o RV é chamado de distribuição normal padrão.
    Desvio padrão
    um número que é igual à raiz quadrada da variância e mede a que distância os valores dos dados estão de sua média; notação:\(s\) para desvio padrão da amostra e\(\sigma\) para desvio padrão da população
    Distribuição t do aluno
    investigado e relatado por William S. Gossett em 1908 e publicado sob o pseudônimo de Student; as principais características da variável aleatória (RV) são:
    • É contínuo e assume quaisquer valores reais.
    • O pdf é simétrico em relação à média de zero. No entanto, é mais espalhado e mais plano no ápice do que a distribuição normal.
    • Ele se aproxima da distribuição normal padrão à medida que n aumenta.
    • Há uma “família” de distribuições t: cada representante da família é completamente definido pelo número de graus de liberdade, que é um a menos que o número de dados.