Skip to main content
Global

12.7: Outliers

  • Page ID
    190047
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Em alguns conjuntos de dados, existem valores (pontos de dados observados) chamados outliers. Os valores atípicos são pontos de dados observados que estão longe da linha dos mínimos quadrados. Eles têm grandes “erros”, onde o “erro” ou resíduo é a distância vertical da linha até o ponto. Os valores atípicos precisam ser examinados de perto. Às vezes, por algum motivo ou outro, eles não devem ser incluídos na análise dos dados. É possível que um outlier seja resultado de dados errôneos. Outras vezes, um outlier pode conter informações valiosas sobre a população em estudo e deve permanecer incluído nos dados. A chave é examinar cuidadosamente o que faz com que um ponto de dados seja um valor atípico.

    Além dos valores atípicos, uma amostra pode conter um ou alguns pontos chamados de pontos influentes. Pontos influentes são pontos de dados observados que estão distantes dos outros pontos de dados observados na direção horizontal. Esses pontos podem ter um grande efeito na inclinação da linha de regressão. Para começar a identificar um ponto influente, você pode removê-lo do conjunto de dados e ver se a inclinação da linha de regressão foi alterada significativamente.

    Computadores e muitas calculadoras podem ser usados para identificar valores atípicos nos dados. A saída do computador para análise de regressão geralmente identifica tanto valores atípicos quanto pontos influentes para que você possa examiná-los.

    Identificação de valores atípicos

    Poderíamos adivinhar valores atípicos observando um gráfico do gráfico de dispersão e da linha de melhor ajuste. No entanto, gostaríamos de algumas diretrizes sobre a distância que um ponto precisa estar para ser considerado um outlier. Como regra geral, podemos sinalizar qualquer ponto que esteja localizado além de dois desvios padrão acima ou abaixo da linha de melhor ajuste como um outlier. O desvio padrão usado é o desvio padrão dos resíduos ou erros.

    Podemos fazer isso visualmente no gráfico de dispersão desenhando um par extra de linhas que são dois desvios padrão acima e abaixo da linha de melhor ajuste. Todos os pontos de dados que estão fora desse par extra de linhas são sinalizados como possíveis valores atípicos. Ou podemos fazer isso numericamente calculando cada resíduo e comparando-o com o dobro do desvio padrão. No TI-83, 83+ ou 84+, a abordagem gráfica é mais fácil. O procedimento gráfico é mostrado primeiro, seguido pelos cálculos numéricos. Geralmente, você precisaria usar apenas um desses métodos.

    Exemplo\(\PageIndex{1}\)

    No exemplo do terceiro exame/exame final, você pode determinar se há um outlier ou não. Se houver um outlier, como exercício, exclua-o e ajuste os dados restantes em uma nova linha. Neste exemplo, a nova linha deve se ajustar melhor aos dados restantes. Isso significa que o SSE deve ser menor e o coeficiente de correlação deve estar mais próximo de 1 ou -1.

    Resposta

    Identificação gráfica de valores atípicos

    Com as calculadoras gráficas TI-83, 83+, 84+, é fácil identificar os valores atípicos gráfica e visualmente. Se precisássemos medir a distância vertical de qualquer ponto de dados até o ponto correspondente na linha de melhor ajuste e essa distância fosse igual a 2 s ou mais, consideraríamos que o ponto de dados está “muito longe” da linha de melhor ajuste. Precisamos encontrar e representar graficamente as linhas que são dois desvios padrão abaixo e acima da linha de regressão. Todos os pontos que estão fora dessas duas linhas são discrepantes. Chamaremos essas linhas de Y2 e Y3:

    Como fizemos com a equação da linha de regressão e o coeficiente de correlação, usaremos a tecnologia para calcular esse desvio padrão para nós. Usando o LinRegtTest com esses dados, role para baixo pelas telas de saída para encontrar\(s = 16.412\).

    Linha\(Y2 = -173.5 + 4.83x - 2(16.4)\) e linha\(Y3 = -173.5 + 4.83x + 2(16.4)\)

    onde\(\hat{y} = -173.5 + 4.83x\) está a linha de melhor ajuste. \(Y2\)e\(Y3\) têm a mesma inclinação da linha de melhor ajuste.

    Faça um gráfico do gráfico de dispersão com a melhor linha de ajuste na equação e\(Y1\), em seguida, insira as duas linhas extras como\(Y2\) e\(Y3\) no editor de equações\(Y=\) "" e pressione ZOOM 9. Você descobrirá que o único ponto de dados que não está entre linhas\(Y2\) e\(Y3\) é o ponto\(x = 65\),\(y = 175\). Na tela da calculadora, ele mal está fora dessas linhas. O outlier é o aluno que obteve uma nota de 65 no terceiro exame e 175 no exame final; esse ponto está a mais de dois desvios padrão da linha de melhor ajuste.

    Às vezes, um ponto está tão próximo das linhas usadas para sinalizar valores atípicos no gráfico que é difícil dizer se o ponto está entre ou fora das linhas. Em um computador, ampliar o gráfico pode ajudar; em uma pequena tela de calculadora, ampliar pode tornar o gráfico mais claro. Observe que quando o gráfico não fornece uma imagem clara o suficiente, você pode usar as comparações numéricas para identificar valores atípicos.

    O gráfico de dispersão das notas dos exames com uma linha de melhor ajuste. Duas linhas tracejadas amarelas correm paralelas à linha de melhor ajuste. As linhas tracejadas correm acima e abaixo da linha de melhor ajuste em distâncias iguais. Um ponto de dados fica fora do limite criado pelas linhas tracejadas — é uma exceção.
    Figura 12.7.1.

    Exercício\(\PageIndex{1}\)

    Identifique o potencial outlier no gráfico de dispersão. O desvio padrão dos resíduos ou erros é de aproximadamente 8,6.

    Figura 12.7.2.
    Resposta

    O outlier parece estar em (6, 58). O\(y\) valor esperado na linha para o ponto (6, 58) é aproximadamente 82. Cinquenta e oito são 24 unidades de 82. Vinte e quatro é mais do que dois desvios padrão (\(2s = (2)(8.6) = 17.2\)). Portanto, 82 é mais do que dois desvios padrão de 58, o que gera\((6, 58)\) um potencial outlier.

    Identificação numérica de valores atípicos

    Na tabela abaixo, as duas primeiras colunas são os dados do terceiro exame e do exame final. A terceira coluna mostra os\(\hat{y}\) valores previstos calculados a partir da linha de melhor ajuste:\(\hat{y} = -173.5 + 4.83x\). Os resíduos, ou erros, foram calculados na quarta coluna da tabela:\(y\) valor observado -\(y\) valor previsto\(= y − \hat{y}\).

    s é o desvio padrão de todos os\(y - \hat{y} = \varepsilon\) valores onde\(n = \text{the total number of data points}\). Se cada resíduo for calculado e quadrado e os resultados forem adicionados, obteremos\(SSE\) o. O desvio padrão dos resíduos é calculado da\(SSE\) seguinte forma:

    \[s = \sqrt{\dfrac{SSE}{n-2}}\nonumber \]

    NOTA

    Nós dividimos por (\(n – 2\)) porque o modelo de regressão envolve duas estimativas.

    Em vez de calcular o valor de s nós mesmos, podemos encontrar s usando o computador ou a calculadora. Neste exemplo, a função de calculadora LinRegtTest encontrada\(s = 16.4\) como o desvio padrão dos resíduos 35; —17; 16; —6; —19; 9; 3; —1; —10; —9; —1.

    \(x\) \(y\) \(\hat{y}\) \(y – \hat{y}\)
    \ (x\) ">65 \ (y\) ">175 \ (\ hat {y}\) ">140 \ (y —\ hat {y}\) ">175 — 140 = 35
    \ (x\) ">67 \ (y\) ">133 \ (\ hat {y}\) ">150 \ (y —\ hat {y}\) ">133 — 150= —17
    \ (x\) ">71 \ (y\) ">185 \ (\ hat {y}\) ">169 \ (y —\ hat {y}\) ">185 — 169 = 16
    \ (x\) ">71 \ (y\) ">163 \ (\ hat {y}\) ">169 \ (y —\ hat {y}\) ">163 — 169 = —6
    \ (x\) ">66 \ (y\) ">126 \ (\ hat {y}\) ">145 \ (y —\ hat {y}\) ">126 — 145 = —19
    \ (x\) ">75 \ (y\) ">198 \ (\ hat {y}\) ">189 \ (y —\ hat {y}\) ">198 — 189 = 9
    \ (x\) ">67 \ (y\) ">153 \ (\ hat {y}\) ">150 \ (y —\ hat {y}\) ">153 — 150 = 3
    \ (x\) ">70 \ (y\) ">163 \ (\ hat {y}\) ">164 \ (y —\ hat {y}\) ">163 — 164 = —1
    \ (x\) ">71 \ (y\) ">159 \ (\ hat {y}\) ">169 \ (y —\ hat {y}\) ">159 — 169 = —10
    \ (x\) ">69 \ (y\) ">151 \ (\ hat {y}\) ">160 \ (y —\ hat {y}\) ">151 — 160 = —9
    \ (x\) ">69 \ (y\) ">159 \ (\ hat {y}\) ">160 \ (y —\ hat {y}\) ">159 — 160 = —1

    Estamos procurando todos os pontos de dados para os quais o resíduo é maior\(2s = 2(16.4) = 32.8\) ou menor que\(-32.8\). Compare esses valores com os resíduos na coluna quatro da tabela. O único dado desse tipo é o aluno que teve uma nota de 65 no terceiro exame e 175 no exame final; o resíduo para esse aluno é 35.

    Como o outlier afeta a melhor linha de ajuste?

    Numericamente e graficamente, identificamos o ponto (65, 175) como um outlier. Devemos reexaminar os dados desse ponto para ver se há algum problema com os dados. Se houver um erro, devemos corrigi-lo, se possível, ou excluir os dados. Se os dados estiverem corretos, nós os deixaremos no conjunto de dados. Para esse problema, suporemos que examinamos os dados e descobrimos que esses dados atípicos eram um erro. Portanto, continuaremos e excluiremos o outlier, para que possamos explorar como isso afeta os resultados, como uma experiência de aprendizado.

    Calcule uma nova linha de melhor ajuste e um coeficiente de correlação usando os dez pontos restantes

    Nas calculadoras TI-83, TI-83+, TI-84+, exclua o outlier de L1 e L2. Usando o LinRegtTest, a nova linha de melhor ajuste e o coeficiente de correlação são:

    \[\hat{y} = -355.19 + 7.39x\nonumber \]e\[r = 0.9121\nonumber \]

    A nova linha com\(r = 0.9121\) é uma correlação mais forte do que a original (\(r = 0.6631\)) porque\(r = 0.9121\) está mais próxima de uma. Isso significa que a nova linha se ajusta melhor aos dez valores de dados restantes. A linha pode prever melhor a pontuação do exame final, dada a pontuação do terceiro exame.

    Identificação numérica de valores atípicos: calculando s e encontrando valores atípicos manualmente

    Se você não tiver a função LinRegtTest, poderá calcular o outlier no primeiro exemplo fazendo o seguinte.

    Primeiro, coloque cada quadrado\(|y – \hat{y}|\)

    Os quadrados são 35 2; 17 2; 16 2; 6 2; 19 2; 9 2; 3 2; 1 2; 10 2; 9 2; 1 2

    Em seguida, adicione (some) todos os termos\(|y – \hat{y}|\) quadrados usando a fórmula

    \[ \sum^{11}_{i = 11} (|y_{i} - \hat{y}_{i}|)^{2} = \sum^{11}_{i - 1} \varepsilon^{2}_{i}\nonumber \]

    Lembre-se de que

    \[\begin{align*} y_{i} - \hat{y}_{i} &= \varepsilon_{i} \nonumber \\ &= 35^{2} + 17^{2} + 16^{2} + 6^{2} + 19^{2} + 9^{2} + 3^{2} + 1^{2} + 10^{2} + 9^{2} + 1^{2} \nonumber \\ &= 2440 = SSE. \nonumber \end{align*} \]

    O resultado\(SSE\) é a soma dos erros quadrados.

    Em seguida, calcule s, o desvio padrão de todos os\(y - \hat{y} = \varepsilon\) valores onde\(n = \text{the total number of data points}\).

    O cálculo é

    \[s = \sqrt{\dfrac{SSE}{n-2}}.\nonumber \]

    Para o problema do terceiro exame/exame final:

    \[s = \sqrt{\dfrac{2440}{11 - 2}} = 16.47.\nonumber \]

    Em seguida, multiplique\(s\) por\(2\):

    \[(2)(16.47) = 32.94\nonumber \]

    \(32.94\)é o desvio\(2\) padrão da média dos\(y - \hat{y}\) valores.

    Se precisássemos medir a distância vertical de qualquer ponto de dados até o ponto correspondente na linha de melhor ajuste e essa distância fosse pelo menos\(2s\), consideraríamos que o ponto de dados está “muito longe” da linha de melhor ajuste. Chamamos esse ponto de potencial outlier.

    Por exemplo, se algum dos\(|y – \hat{y}|\) valores for pelo menos 32,94, o ponto de dados correspondente (\(x, y\)) é uma possível exceção.

    Para o problema do terceiro exame/exame final, todos os\(|y – \hat{y}|\) números são menores que 31,29, exceto o primeiro, que é 35.

    \(35 > 31.29\)Ou seja,\(|y – \hat{y}| \geq (2)(s)\)

    O ponto que corresponde a\(|y – \hat{y}| = 35\) é\((65, 175)\). Portanto, o ponto de dados\((65,175)\) é um potencial outlier. Neste exemplo, vamos excluí-lo. (Lembre-se de que nem sempre excluímos um outlier.)

    NOTA

    Quando os valores atípicos são excluídos, o pesquisador deve registrar que os dados foram excluídos e por quê, ou o pesquisador deve fornecer resultados com e sem os dados excluídos. Se os dados estiverem errados e os valores corretos forem conhecidos (por exemplo, o aluno na verdade obteve 70 em vez de 65), essa correção pode ser feita nos dados.

    A próxima etapa é calcular uma nova linha de melhor ajuste usando os dez pontos restantes. A nova linha de melhor ajuste e o coeficiente de correlação são:

    \[\hat{y} = -355.19 + 7.39x\nonumber \]e\[r = 0.9121\nonumber \]

    Exemplo\(\PageIndex{2}\)

    Usando essa nova linha de melhor ajuste (com base nos dez pontos de dados restantes no exemplo do terceiro exame/exame final), o que um aluno que recebeu 73 no terceiro exame esperaria receber no exame final? Isso é o mesmo que a previsão feita usando a linha original?

    Resposta

    Usando a nova linha de best fit,\(\hat{y} = -355.19 + 7.39(73) = 184.28\). Um aluno que obteve 73 pontos no terceiro exame esperaria ganhar 184 pontos no exame final.

    A linha original foi prevista\(\hat{y} = -173.51 + 4.83(73) = 179.08\) para que a previsão usando a nova linha com o outlier eliminado seja diferente da previsão original.

    Exercício\(\PageIndex{2}\)

    Os pontos de dados para um estudo que foi feito são os seguintes: (1, 5), (2, 7), (2, 6), (3, 9), (4, 12), (4, 13), (5, 18), (6, 19), (7, 12) e (7, 21). Remova o outlier e recalcule a linha de melhor ajuste. Encontre o valor de quando x = 10.

    Resposta

    \(\hat{y} = 1.04 + 2.96x; 30.64\)

    Exemplo\(\PageIndex{3}\): The Consumer Price Index

    O Índice de Preços ao Consumidor (CPI) mede a variação média ao longo do tempo nos preços pagos pelos consumidores urbanos por bens e serviços de consumo. O CPI afeta quase todos os americanos por causa das muitas maneiras pelas quais é usado. Um de seus maiores usos é como medida da inflação. Ao fornecer informações sobre mudanças de preços na economia do país para o governo, empresas e mão de obra, o CPI os ajuda a tomar decisões econômicas. O Presidente, o Congresso e o Conselho da Reserva Federal usam as tendências do CPI para formular políticas monetárias e fiscais. Na tabela a seguir,\(x\) está o ano e\(y\) é o CPI.

    Dados
    \(x\) \(y\) \(x\) \(y\)
    \ (x\) ">1915 \ (y\) ">10,1 \ (x\) ">1969 \ (y\) ">36,7
    \ (x\) ">1926 \ (y\) ">17,7 \ (x\) ">1975 \ (y\) ">49,3
    \ (x\) ">1935 \ (y\) ">13,7 \ (x\) ">1979 \ (y\) ">72,6
    \ (x\) ">1940 \ (y\) ">14,7 \ (x\) ">1980 \ (y\) ">82,4
    \ (x\) ">1947 \ (y\) ">24,1 \ (x\) ">1986 \ (y\) ">109,6
    \ (x\) ">1952 \ (y\) ">26,5 \ (x\) ">1991 \ (y\) ">130,7
    \ (x\) ">1964 \ (y\) ">31,0 \ (x\) ">1999 \ (y\) ">166,6
    1. Desenhe um gráfico de dispersão dos dados.
    2. Calcule a linha dos mínimos quadrados. Escreva a equação na forma = a + bx.
    3. Desenhe a linha no gráfico de dispersão.
    4. Encontre o coeficiente de correlação. É significativo?
    5. Qual é a média do IPC para o ano 1990?

    Resposta

    1. Veja a Figura.
    2. \(\hat{y} = -3204 + 1.662x\)é a equação da linha de melhor ajuste.
    3. \(r = 0.8694\)
    4. O número de pontos de dados é\(n = 14\). Use os Valores Críticos de 95% da tabela do Coeficiente de Correlação da Amostra no final do Capítulo 12. \(n - 2 = 12\). O valor crítico correspondente é 0,532. Desde 0,8694 > 0,532, r é significativo.

      \[\hat{y} = -3204 + 1.662(1990) = 103.4 \text{CPI}\nonumber \]

    5. Usando a calculadora LinRegtTest, descobrimos isso\(s = 25.4\); representando graficamente as linhas\(Y2 = -3204 + 1.662X – 2(25.4)\) e\(Y3 = -3204 + 1.662X + 2(25.4)\) mostrando que nenhum valor de dados está fora dessas linhas, não identificando valores atípicos. (Observe que o ano de 1999 estava muito próximo da linha superior, mas ainda dentro dela.)
    Gráfico de dispersão e linha de melhor ajuste dos dados do índice de preços ao consumidor, no eixo y, e dados do ano, no eixo x.
    Figura 12.7.3.

    NOTA

    No exemplo, observe o padrão dos pontos em comparação com a linha. Embora o coeficiente de correlação seja significativo, o padrão no gráfico de dispersão indica que uma curva seria um modelo mais apropriado para usar do que uma linha. Neste exemplo, um estatístico deve preferir usar outros métodos para ajustar uma curva a esses dados, em vez de modelar os dados com a linha que encontramos. Além de fazer os cálculos, é sempre importante observar o gráfico de dispersão ao decidir se um modelo linear é apropriado.

    Se você estiver interessado em ver mais anos de dados, visite o site da CPI do Bureau of Labor Statistics ftp://ftp.bls.gov/pub/special.requests/cpi/cpiai.txt; nossos dados foram retirados da coluna intitulada “Média anual”. (terceira coluna da direita). Por exemplo, você pode adicionar mais anos atuais de dados. Tente adicionar os anos mais recentes: 2004:\(\text{CPI} = 188.9\); 2008:\(\text{CPI} = 215.3\); 2011:\(\text{CPI} = 224.9\). Veja como isso afeta o modelo. (Verifique:\(\hat{y} = -4436 + 2.295x\);\(r = 0.9018\). É\(r\) significativo? O ajuste é melhor com a adição dos novos pontos?)

    Exercício\(\PageIndex{3}\)

    A tabela a seguir mostra o desenvolvimento econômico medido em renda per capita PCINC.

    Ano PCINC Ano PCINC
    1870 340 1920 1050
    1880 499 1930 1170
    1890 592 1940 1364
    1900 757 1950 1836
    1910 927 1960 2132
    1. Quais são as variáveis independentes e dependentes?
    2. Desenhe um gráfico de dispersão.
    3. Use a regressão para encontrar a linha de melhor ajuste e o coeficiente de correlação.
    4. Interprete a significância do coeficiente de correlação.
    5. Existe uma relação linear entre as variáveis?
    6. Encontre o coeficiente de determinação e interprete-o.
    7. Qual é a inclinação da equação de regressão? O que isso significa?
    8. Use a linha de melhor ajuste para estimar o PCINC para 1900, para 2000.
    9. Determine se há algum valor atípico.
    Responda a

    A variável independente (x) é o ano e a variável dependente (y) é a renda per capita.

    Resposta b

    Figura 12.7.4.

    Resposta c

    \(\hat{y} = 18.61x – 34574\);\(r = 0.9732\)

    Resposta d

    Em\(df = 8\), o valor crítico é\(0.632\). O\(r\) valor é significativo porque é maior do que o valor crítico.

    Responda e

    Parece haver uma relação linear entre as variáveis.

    Resposta f

    O coeficiente de determinação é\(0.947\), o que significa que 94,7% da variação do PCINC é explicada pela variação nos anos.

    Resposta g e h

    A inclinação da equação de regressão é 18,61, e isso significa que a renda per capita aumenta em $18,61 a cada ano que passa. \(\hat{y} = 785\)quando o ano é 1900 e\(\hat{y} = 2,646\) quando o ano é 2000.

    Resposta i

    Não parece haver nenhum valor atípico.

    Valores críticos de 95% da tabela de coeficientes de correlação da amostra

    Graus de liberdade:\(n – 2\) Valores críticos: (+ e —)
    \ (n — 2\) ">1 0,997
    \ (n — 2\) ">2 0,950
    \ (n — 2\) ">3 0,878
    \ (n — 2\) ">4 0,811
    \ (n — 2\) ">5 0,754
    \ (n — 2\) ">6 0,707
    \ (n — 2\) ">7 0,666
    \ (n — 2\) ">8 0,632
    \ (n — 2\) ">9 0,602
    \ (n — 2\) ">10 0,576
    \ (n — 2\) ">11 0,55
    \ (n — 2\) ">12 0,532
    \ (n — 2\) ">13 0,514
    \ (n — 2\) ">14 0,497
    \ (n — 2\) ">15 0,482
    \ (n — 2\) ">16 0,468
    \ (n — 2\) ">17 0,456
    \ (n — 2\) ">18 0,444
    \ (n — 2\) ">19 0,433
    \ (n — 2\) ">20 0,423
    \ (n — 2\) ">21 0,413
    \ (n — 2\) ">22 0,404
    \ (n — 2\) ">23 0,396
    \ (n — 2\) ">24 0,388
    \ (n — 2\) ">25 0,381
    \ (n — 2\) ">26 0,374
    \ (n — 2\) ">27 0,367
    \ (n — 2\) ">28 0,361
    \ (n — 2\) ">29 0,355
    \ (n — 2\) ">30 0,349
    \ (n — 2\) ">40 0,304
    \ (n — 2\) ">50 0,273
    \ (n — 2\) ">60 0,250
    \ (n — 2\) ">70 0,232
    \ (n — 2\) ">80 0,217
    \ (n — 2\) ">90 0,205
    \ (n — 2\) ">100 0,195

    Resumo

    Para determinar se um ponto é um valor atípico, faça o seguinte:

    1. Insira as seguintes equações no TI 83, 83+,84, 84+:
      \[y_{1} = a + bx\nonumber \]
      \[y_{2} = a + bx +2s\nonumber \]
      \[y_{3} = a + bx - 2s\nonumber \]
      onde\(s\) está o desvio padrão dos resíduos

      Se algum ponto estiver acima\(y_{2}\) ou abaixo\(y_{3}\) desse ponto, o ponto é considerado um outlier.
    2. Use os resíduos e compare seus valores absolutos com\(2s\) onde\(s\) está o desvio padrão dos resíduos. Se o valor absoluto de qualquer resíduo for maior ou igual a\(2s\), o ponto correspondente será um outlier.

    Nota: A função da calculadora LinRegtTest (STATS TESTS LinRegtTest) calcula\(s\).

    Referências

    1. Dados do Comitê de Meios e Meios da Câmara, do Departamento de Saúde e Serviços Humanos.
    2. Dados do Microsoft Bookshelf.
    3. Dados do Departamento do Trabalho dos Estados Unidos, do Bureau of Labor Statistics.
    4. Dados do Manual do Médico, 1990.
    5. Dados do Departamento do Trabalho dos Estados Unidos, do Bureau of Labor Statistics.

    Glossário

    Outlier
    uma observação que não se encaixa no resto dos dados