Skip to main content
Global

12.7E: Outliers (exercícios)

  • Page ID
    190061
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Use as informações a seguir para responder aos próximos quatro exercícios. O gráfico de dispersão mostra a relação entre as horas gastas estudando e as notas dos exames. A linha mostrada é a linha calculada de melhor ajuste. O coeficiente de correlação é\(0.69\).

    Figura\(\PageIndex{5}\).

    Exercício 12.7.4

    Parece haver algum valor atípico?

    Resposta

    Sim, parece haver um outlier em\((6, 58)\).

    Exercício 12.7.5

    Um ponto é removido e a linha de melhor ajuste é recalculada. O novo coeficiente de correlação é 0,98. O argumento parece ter sido um outlier? Por quê?

    Exercício 12.7.6

    Que efeito o potencial outlier teve na linha de melhor ajuste?

    Resposta

    O potencial outlier nivelou a inclinação da linha de melhor ajuste porque ela estava abaixo do conjunto de dados. Isso tornou a linha de melhor ajuste menos precisa como preditora dos dados.

    Exercício 12.7.7

    Você está mais ou menos confiante na capacidade preditiva da nova linha de melhor ajuste?

    Exercício 12.7.8

    A soma dos erros quadrados para um conjunto de dados de 18 números é 49. Qual é o desvio padrão?

    Resposta

    \(s = 1.75\)

    Exercício 12.7.9

    O desvio padrão para a soma dos erros quadrados de um conjunto de dados é 9,8. Qual é o limite para a distância vertical que um ponto pode estar da linha de melhor ajuste para ser considerado um outlier?

    Reúna tudo

    Exercício 12.7.10

    O número médio de pessoas em uma família que receberam assistência social por vários anos é apresentado na Tabela.

    Ano Tamanho da família de assistência social
    1969 4.0
    1973 3.6
    1975 3.2
    1979 3.0
    1983 3.0
    1988 3.0
    1991 2.9
    1. Usando “ano” como variável independente e “tamanho da família previdenciária” como variável dependente, desenhe um gráfico de dispersão dos dados.
    2. Calcule a linha dos mínimos quadrados. Coloque a equação na forma de:\(\hat{y} = a + bx\)
    3. Encontre o coeficiente de correlação. É significativo?
    4. Escolha dois anos entre 1969 e 1991 e encontre o tamanho estimado das famílias assistenciais.
    5. Com base nos dados da Tabela, existe uma relação linear entre o ano e o número médio de pessoas em uma família de bem-estar?
    6. Usando a linha dos mínimos quadrados, estime o tamanho das famílias de bem-estar para 1960 e 1995. A linha dos mínimos quadrados fornece uma estimativa precisa para esses anos? Explique por que ou por que não.
    7. Há alguma diferença nos dados?
    8. Qual é o tamanho médio estimado da família previdenciária para 1986? A linha dos mínimos quadrados fornece uma estimativa precisa para esse ano? Explique por que ou por que não.
    9. Qual é a inclinação da linha de mínimos quadrados (melhor ajuste)? Interprete a inclinação.

    Exercício 12.7.11

    A porcentagem de trabalhadoras assalariadas e assalariadas que recebem taxas horárias é apresentada na Tabela para os anos de 1979 a 1992.

    Ano Porcentagem de trabalhadores que pagam taxas horárias
    1979 61.2
    1980 60.7
    1981 61.3
    1982 61.3
    1983 61,8
    1984 61.7
    1985 61,8
    1986 62,0
    1987 62.7
    1990 62,8
    1992 62,9
    1. Usando “ano” como variável independente e “porcentagem” como variável dependente, desenhe um gráfico de dispersão dos dados.
    2. A partir da inspeção, parece que existe uma relação entre as variáveis? Por que ou por que não?
    3. Calcule a linha dos mínimos quadrados. Coloque a equação na forma de:\(\hat{y} = a + bx\)
    4. Encontre o coeficiente de correlação. É significativo?
    5. Encontre as porcentagens estimadas para 1991 e 1988.
    6. Com base nos dados, existe uma relação linear entre o ano e a porcentagem de mulheres assalariadas e assalariadas que recebem taxas horárias?
    7. Há alguma diferença nos dados?
    8. Qual é a porcentagem estimada para o ano de 2050? A linha dos mínimos quadrados fornece uma estimativa precisa para esse ano? Explique por que ou por que não.
    9. Qual é a inclinação da linha dos mínimos quadrados (melhor ajuste)? Interprete a inclinação.

    Resposta

    1. Verifique a solução do aluno.
    2. sim
    3. \(\hat{y} = -266.8863 + 0.1656x\)
    4. \(0.9448\); Sim
    5. \(62.8233; 62.3265\)
    6. sim
    7. sim;\((1987, 62.7)\)
    8. \(72.5937\); não
    9. \(slope = 0.1656\).

      À medida que o ano aumenta em um, a porcentagem de trabalhadores que pagam taxas horárias tende a aumentar em 0,1656.

    Use as informações a seguir para responder aos próximos dois exercícios. O custo de um detergente líquido líder em diferentes tamanhos é apresentado na Tabela.

    Tamanho (onças) Custo ($) Custo por onça
    16 3,99
    32 4,99
    64 5,99
    200 10,99

    Exercício 12.7.12

    1. Usando “tamanho” como variável independente e “custo” como variável dependente, desenhe um gráfico de dispersão.
    2. A partir da inspeção, parece que existe uma relação entre as variáveis? Por que ou por que não?
    3. Calcule a linha dos mínimos quadrados. Coloque a equação na forma de:\(\hat{y} = a + bx\)
    4. Encontre o coeficiente de correlação. É significativo?
    5. Se o sabão em pó for vendido em um tamanho de 40 onças, encontre o custo estimado.
    6. Se o sabão em pó for vendido em um tamanho de 90 onças, encontre o custo estimado.
    7. Parece que uma linha é a melhor forma de ajustar os dados? Por que ou por que não?
    8. Há alguma diferença nos dados fornecidos?
    9. A linha de mínimos quadrados é válida para prever quanto custaria um tamanho de 300 onças do detergente para a roupa? Por que ou por que não?
    10. Qual é a inclinação da linha dos mínimos quadrados (melhor ajuste)? Interprete a inclinação.

    Exercício 12.7.13

    1. Tabela completa para o custo por onça dos diferentes tamanhos.
    2. Usando “tamanho” como variável independente e “custo por onça” como variável dependente, desenhe um gráfico de dispersão dos dados.
    3. A partir da inspeção, parece que existe uma relação entre as variáveis? Por que ou por que não?
    4. Calcule a linha dos mínimos quadrados. Coloque a equação na forma de:\(\hat{y} = a + bx\)
    5. Encontre o coeficiente de correlação. É significativo?
    6. Se o sabão em pó for vendido em um tamanho de 40 onças, encontre o custo estimado por onça.
    7. Se o sabão em pó for vendido em um tamanho de 90 onças, encontre o custo estimado por onça.
    8. Parece que uma linha é a melhor forma de ajustar os dados? Por que ou por que não?
    9. Há alguma diferença nos dados?
    10. A linha de mínimos quadrados é válida para prever quanto custaria um tamanho de 300 onças de sabão em pó por onça? Por que ou por que não?
    11. Qual é a inclinação da linha dos mínimos quadrados (melhor ajuste)? Interprete a inclinação.

    Resposta

    1. Tamanho (onças) Custo ($) centavos/onça
      16 3,99 24,94
      32 4,99 15,59
      64 5,99 9,36
      200 10,99 5,50
    2. Verifique a solução do aluno.
    3. Há uma relação linear para os tamanhos 16 a 64, mas essa tendência linear não continua no tamanho de 200 onças.
    4. \(\hat{y} = 20.2368 - 0.0819x\)
    5. \(r = -0.8086\)
    6. 40 onças: 16,96 centavos/onça
    7. 90 onças: 12,87 centavos/onça
    8. A relação não é linear; a linha de mínimos quadrados não é apropriada.
    9. sem valores atípicos
    10. Não, você estaria extrapolando. O tamanho de 300 onças está fora da faixa de\(x\).
    11. \(slope = -0.08194\); para cada onça adicional de tamanho, o custo por onça diminui em 0,082 centavos.

    Exercício 12.7.14

    De acordo com um folheto de um representante da Prudential Insurance Company, os custos de taxas e impostos sucessórios aproximados para propriedades tributáveis líquidas selecionadas são os seguintes:

    Patrimônio líquido tributável ($) Taxas e impostos sucessórios aproximados ($)
    600.000 30.000
    750.000 92.500
    1.000.000 203.000
    1.500.000 438.000
    2.000.000 688.000
    2.500.000 1.037.000
    3.000.000 1.350.000
    1. Decida qual variável deve ser a variável independente e qual deve ser a variável dependente.
    2. Desenhe um gráfico de dispersão dos dados.
    3. A partir da inspeção, parece que existe uma relação entre as variáveis? Por que ou por que não?
    4. Calcule a linha dos mínimos quadrados. Coloque a equação na forma de:\(\hat{y} = a + bx\).
    5. Encontre o coeficiente de correlação. É significativo?
    6. Encontre o custo total estimado para um próximo patrimônio tributável de $1.000.000. Encontre o custo de $2.500.000.
    7. Parece que uma linha é a melhor forma de ajustar os dados? Por que ou por que não?
    8. Há alguma diferença nos dados?
    9. Com base nesses resultados, quais seriam as taxas e impostos sucessórios de uma propriedade que não possui ativos?
    10. Qual é a inclinação da linha dos mínimos quadrados (melhor ajuste)? Interprete a inclinação.

    Exercício 12.7.15

    A seguir estão os preços de venda anunciados de televisores em cores na Anderson's.

    Tamanho (polegadas) Preço de venda ($)
    9 147
    20 197
    27 297
    31 447
    35 1177
    40 2177
    60 2497
    1. Decida qual variável deve ser a variável independente e qual deve ser a variável dependente.
    2. Desenhe um gráfico de dispersão dos dados.
    3. A partir da inspeção, parece que existe uma relação entre as variáveis? Por que ou por que não?
    4. Calcule a linha dos mínimos quadrados. Coloque a equação na forma de:\(\hat{y} = a + bx\).
    5. Encontre o coeficiente de correlação. É significativo?
    6. Encontre o preço de venda estimado para uma televisão de 32 polegadas. Encontre o custo de uma televisão de 50 polegadas.
    7. Parece que uma linha é a melhor forma de ajustar os dados? Por que ou por que não?
    8. Há alguma diferença nos dados?
    9. Qual é a inclinação da linha dos mínimos quadrados (melhor ajuste)? Interprete a inclinação.

    Resposta

    1. O tamanho é\(x\), a variável independente, o preço é\(y\), a variável dependente.
    2. Verifique a solução do aluno.
    3. A relação não parece ser linear.
    4. \(\hat{y} = -745.252 + 54.75569x\)
    5. \(r = 0.8944\), sim, é significativo
    6. 32 polegadas: $1006,93, 50 polegadas: $1992,53
    7. Não, a relação não parece ser linear. No entanto,\(r\) é significativo.
    8. sim, a TV de 60 polegadas
    9. Para cada polegada adicional, o preço aumenta em $54,76

    Exercício 12.7.16

    A tabela mostra as alturas médias dos meninos americanos em 1990.

    Idade (anos) Altura (cm)
    nascimento 50,8
    2 83,8
    3 91,4
    5 106,6
    7 119,3
    10 137.1
    14 157,5
    1. Decida qual variável deve ser a variável independente e qual deve ser a variável dependente.
    2. Desenhe um gráfico de dispersão dos dados.
    3. A partir da inspeção, parece que existe uma relação entre as variáveis? Por que ou por que não?
    4. Calcule a linha dos mínimos quadrados. Coloque a equação na forma de:\(\hat{y} = a + bx\).
    5. Encontre o coeficiente de correlação. É significativo?
    6. Encontre a altura média estimada para uma criança de um ano. Encontre a altura média estimada para uma criança de onze anos.
    7. Parece que uma linha é a melhor forma de ajustar os dados? Por que ou por que não?
    8. Há alguma diferença nos dados?
    9. Use a linha dos mínimos quadrados para estimar a altura média de um homem de sessenta e dois anos. Você acha que sua resposta é razoável? Por que ou por que não?
    10. Qual é a inclinação da linha dos mínimos quadrados (melhor ajuste)? Interprete a inclinação.

    Exercício 12.7.17

    Estado # letras no nome Ano de entrada na União Classificações para entrar na União Área (milhas quadradas)
    Alabama 7 1819 22 52.423
    Colorado 8 1876 38 104.100
    Havaí 6 1959 50 10.932
    Iowa 4 1846 29 56.276
    Maryland 8 1788 7 12.407
    Missouri 8 1821 24 69.709
    Nova Jersey 9 1787 3 8.722
    Ohio 4 1803 17 44.828
    Carolina do Sul 13 1788 8 32.008
    Utah 4 1896 45 84.904
    Wisconsin 9 1848 30 65.499

    Estamos interessados em saber se existe uma relação entre a classificação de um estado e a área do estado.

    1. Quais são as variáveis independentes e dependentes?
    2. Como você acha que será o gráfico de dispersão? Faça um gráfico de dispersão dos dados.
    3. A partir da inspeção, parece que existe uma relação entre as variáveis? Por que ou por que não?
    4. Calcule a linha dos mínimos quadrados. Coloque a equação na forma de:\(\hat{y} = a + bx\).
    5. Encontre o coeficiente de correlação. O que isso implica sobre o significado do relacionamento?
    6. Encontre as áreas estimadas para o Alabama e para o Colorado. Eles estão próximos das áreas reais?
    7. Use os dois pontos na parte f para traçar a linha dos mínimos quadrados em seu gráfico a partir da parte b.
    8. Parece que uma linha é a melhor forma de ajustar os dados? Por que ou por que não?
    9. Existem valores atípicos?
    10. Use a linha de mínimos quadrados para estimar a área de um novo estado que entra na União. A linha dos mínimos quadrados pode ser usada para predizer isso? Por que ou por que não?
    11. Exclua “Havaí” e substitua “Alasca” por isso. O Alasca é o quadragésimo nono estado com uma área de 656.424 milhas quadradas.
    12. Calcule a nova linha de mínimos quadrados.
    13. Encontre a área estimada para o Alabama. Está mais próximo da área real com essa nova linha de mínimos quadrados ou com a anterior que incluía o Havaí? Por que você acha que esse é o caso?
    14. Você acha que, em geral, os estados mais novos são maiores do que os estados originais?

    Resposta

    1. Seja a classificação a variável independente e a área a variável dependente.
    2. Verifique a solução do aluno.
    3. Parece haver uma relação linear, com um outlier.
    4. \(\hat{y} \text{ (area) } = 24177.06 + 1010.478x\)
    5. \(r = 0.50047\), não\(r\) é significativo, então não há relação entre as variáveis.
    6. Alabama: 46407.576 Colorado: 62575.224
    7. A estimativa do Alabama está mais próxima do que a estimativa do Colorado.
    8. Se o outlier for removido, há uma relação linear.
    9. Há um outlier (Havaí).
    10. classificação 51:75711.4; não
    11. Alabama 7 1819 22 52.423
      Colorado 8 1876 38 104.100
      Alasca 6 1959 51 656.424
      Iowa 4 1846 29 56.276
      Maryland 8 1788 7 12.407
      Missouri 8 1821 24 69.709
      Nova Jersey 9 1787 3 8.722
      Ohio 4 1803 17 44.828
      Carolina do Sul 13 1788 8 32.008
      Utah 4 1896 45 84.904
      Wisconsin 9 1848 30 65.499
    12. \(\hat{y} = -87065.3 + 7828.532x\)
    13. Alabama: 85.162,404; a estimativa anterior estava mais próxima. O Alasca é um outlier.
    14. sim, com exceção do Havaí