Skip to main content
Global

2.7: Medidas da disseminação dos dados

  • Page ID
    186608
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Uma característica importante de qualquer conjunto de dados é a variação nos dados. Em alguns conjuntos de dados, os valores dos dados estão concentrados próximos à média; em outros conjuntos de dados, os valores dos dados são mais amplamente distribuídos da média. A medida mais comum de variação, ou dispersão, é o desvio padrão. O desvio padrão é um número que mede a distância entre os valores dos dados e sua média.

    O desvio padrão

    • fornece uma medida numérica da quantidade geral de variação em um conjunto de dados, e
    • pode ser usado para determinar se um determinado valor de dados está próximo ou distante da média.

    O desvio padrão fornece uma medida da variação geral em um conjunto de dados

    O desvio padrão é sempre positivo ou zero. O desvio padrão é pequeno quando os dados estão todos concentrados perto da média, exibindo pouca variação ou dispersão. O desvio padrão é maior quando os valores dos dados estão mais dispersos da média, exibindo mais variação.

    Suponha que estejamos estudando a quantidade de tempo que os clientes esperam na fila do caixa do supermercado\(A\) e do supermercado\(B\). O tempo médio de espera nos dois supermercados é de cinco minutos. No supermercado\(A\), o desvio padrão para o tempo de espera é de dois minutos; no supermercado\(B\). O desvio padrão para o tempo de espera é de quatro minutos.

    Como o supermercado\(B\) tem um desvio padrão mais alto, sabemos que há mais variação nos tempos de espera no supermercado\(B\). No geral, os tempos de espera no supermercado\(B\) são mais diferentes da média; os tempos de espera no supermercado\(A\) estão mais concentrados perto da média.

    Calculando o desvio padrão

    Se\(x\) for um número, então a diferença “\(x\)menos a média” é chamada de desvio. Em um conjunto de dados, há tantos desvios quanto itens no conjunto de dados. Os desvios são usados para calcular o desvio padrão. Se os números pertencerem a uma população, em símbolos, um desvio é\(x – \mu\). Para dados de amostra, em símbolos, um desvio é\(x – \overline{x}\).

    O procedimento para calcular o desvio padrão depende se os números são da população inteira ou se são dados de uma amostra. Os cálculos são semelhantes, mas não idênticos. Portanto, o símbolo usado para representar o desvio padrão depende se ele é calculado a partir de uma população ou de uma amostra. A letra minúscula s representa o desvio padrão da amostra e a letra grega\(\sigma\) (sigma, minúscula) representa o desvio padrão da população. Se a amostra tiver as mesmas características da população, então s deve ser uma boa estimativa de\(\sigma\).

    Para calcular o desvio padrão, precisamos primeiro calcular a variância. A variância é a média dos quadrados dos desvios (os\(x – \overline{x}\) valores de uma amostra ou os\(x – \mu\) valores de uma população). O símbolo\(\sigma^2\) representa a variância da população; o desvio padrão da população\(\sigma\) é a raiz quadrada da variância da população. O símbolo\(s^2\) representa a variância da amostra; o desvio padrão da amostra s é a raiz quadrada da variância da amostra. Você pode pensar no desvio padrão como uma média especial dos desvios. Formalmente, a variância é o segundo momento da distribuição ou o primeiro momento em torno da média. Lembre-se de que a média é o primeiro momento da distribuição.

    Se os números vierem de um censo de toda a população e não de uma amostra, quando calculamos a média dos desvios quadrados para encontrar a variância, dividimos por\(N\), o número de itens na população. Se os dados forem de uma amostra em vez de uma população, quando calculamos a média dos desvios quadrados, dividimos por\(\bf{n – 1}\), um a menos que o número de itens na amostra.

    Fórmulas para o desvio padrão da amostra

    • \(s=\sqrt{\frac{\Sigma(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\Sigma f(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\left(\sum_{i=1}^{n} x^{2}\right)^{-n x^{2}}}{n-1}}\)
    • Para o desvio padrão da amostra, o denominador é\(\bf{n – 1}\), ou seja, o tamanho da amostra menos 1.

    Fórmulas para o desvio padrão da população

    • \(\boldsymbol{\sigma}=\sqrt{\frac{\Sigma(x-\mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\Sigma f(x \mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\sum_{i=1}^{N} x_{i}^{2}}{N}-\mu^{2}}\)
    • Para o desvio padrão da população, o denominador é\(N\) o número de itens na população.

    Nessas fórmulas,\(f\) representa a frequência com que um valor aparece. Por exemplo, se um valor aparecer uma vez,\(f\) é um. Se um valor aparecer três vezes no conjunto de dados ou na população,\(f\) será três. Duas observações importantes sobre a variância e o desvio padrão: os desvios são medidos a partir da média e os desvios são quadrados. Em princípio, os desvios podem ser medidos a partir de qualquer ponto, no entanto, nosso interesse é medir a partir do peso central dos dados, qual é o valor “normal” ou mais usual da observação. Posteriormente, tentaremos medir a “incomumidade” de uma observação ou de uma média amostral e, portanto, precisamos de uma medida a partir da média. A segunda observação é que os desvios são quadrados. Isso faz duas coisas: primeiro, torna os desvios todos positivos e, segundo, altera as unidades de medida da média e das observações originais. Se os dados forem pesos, a média será medida em libras, mas a variância será medida em libras quadradas. Um motivo para usar o desvio padrão é retornar às unidades de medida originais tomando a raiz quadrada da variância. Além disso, quando os desvios são quadrados, seu valor explode. Por exemplo, um desvio de 10 da média quando quadrado é 100, mas um desvio de 100 da média é 10.000. O que isso faz é atribuir grande peso aos valores atípicos ao calcular a variância.

    Tipos de variabilidade em amostras

    Ao tentar estudar uma população, uma amostra é frequentemente usada, seja por conveniência ou porque não é possível acessar toda a população. Variabilidade é o termo usado para descrever as diferenças que podem ocorrer nesses resultados. Os tipos comuns de variabilidade incluem o seguinte:

    • Variabilidade observacional ou de medição
    • Variabilidade natural
    • Variabilidade induzida
    • Variabilidade da amostra

    Aqui estão alguns exemplos para descrever cada tipo de variabilidade.

    Exemplo 1: Variabilidade de medição

    A variabilidade da medição ocorre quando há diferenças nos instrumentos usados para medir ou nas pessoas que usam esses instrumentos. Se estivermos coletando dados sobre quanto tempo leva para uma bola cair de uma altura fazendo com que os alunos meçam o tempo da queda com um cronômetro, podemos experimentar variabilidade de medição se os dois cronômetros usados forem feitos por fabricantes diferentes: Por exemplo, um cronômetro mede até o segundo mais próximo, enquanto o outro mede até o décimo de segundo mais próximo. Também podemos experimentar a variabilidade da medição porque duas pessoas diferentes estão coletando os dados. Seus tempos de reação ao pressionar o botão no cronômetro podem ser diferentes; portanto, os resultados variarão de acordo. As diferenças nos resultados podem ser afetadas pela variabilidade da medição.

    Exemplo 2: Variabilidade natural

    A variabilidade natural surge das diferenças que ocorrem naturalmente porque os membros de uma população diferem uns dos outros. Por exemplo, se tivermos duas plantas de milho idênticas e as expormos à mesma quantidade de água e luz solar, elas ainda podem crescer em taxas diferentes simplesmente porque são duas plantas de milho diferentes. A diferença nos resultados pode ser explicada pela variabilidade natural.

    Exemplo 3: Variabilidade induzida

    A variabilidade induzida é a contrapartida da variabilidade natural; isso ocorre porque induzimos artificialmente um elemento de variação (que, por definição, não estava presente naturalmente): Por exemplo, atribuímos pessoas a dois grupos diferentes para estudar a memória e induzimos uma variável em um grupo limitando a quantidade de sono que eles dormem. A diferença nos resultados pode ser afetada pela variabilidade induzida.

    Exemplo 4: Variabilidade da amostra

    A variabilidade da amostra ocorre quando várias amostras aleatórias são retiradas da mesma população. Por exemplo, se eu realizar quatro pesquisas com 50 pessoas selecionadas aleatoriamente de uma determinada população, as diferenças nos resultados podem ser afetadas pela variabilidade da amostra.

    Exemplo\(\PageIndex{29}\)

    Em uma turma da quinta série, a professora estava interessada na idade média e no desvio padrão da amostra das idades de seus alunos. Os dados a seguir são as idades de uma AMOSTRA de alunos da\(n = 20\) quinta série. As idades são arredondadas para o semestre mais próximo:

    9; 9,5; 9,5; 10; 10; 10; 10,5; 10,5; 10,5; 10,5; 11; 11; 11; 11; 11; 11; 11; 11,5; 11,5; 11,5; 11,5;

    \[\overline{x}=\frac{9+9.5(2)+10(4)+10.5(4)+11(6)+11.5(3)}{20}=10.525\nonumber\]

    A idade média é de 10,53 anos, arredondada para dois lugares.

    A variância pode ser calculada usando uma tabela. Em seguida, o desvio padrão é calculado tomando a raiz quadrada da variância. Explicaremos as partes da tabela após o cálculo\(s\).

    \ (\ PageIndex {28}\) “>
    Dados Freq. Desvios Desvios 2 (Freq.) (Desvios 2)
    \(x\) \(f\) \((x - \overline{x})\) \((x – \overline{x})^2\) \((f)(x – \overline{x})^2\)
    9 1 \(9 – 10.525 = –1.525\) \((–1.525)^2 = 2.325625\) \(1 \times 2.325625 = 2.325625\)
    9.5 2 \(9.5 – 10.525 = –1.025\) \((–1.025)2 = 1.050625\) \(2 \times 1.050625 = 2.101250\)
    10 4 \(10 – 10.525 = –0.525\) \((–0.525)2 = 0.275625\) \(4 \times 0.275625 = 1.1025\)
    10,5 4 \(10.5 – 10.525 = –0.025\) \((–0.025)2 = 0.000625\) \(4 \times 0.000625 = 0.0025\)
    11 6 \(11 – 10.525 = 0.475\) \((0.475)2 = 0.225625\) \(6 \times 0.225625 = 1.35375\)
    11,5 3 \(11.5 – 10.525 = 0.975\) \((0.975)2 = 0.950625\) \(3 \times 0.950625 = 2.851875\)
    O total é 9.7375
    Tabela\(\PageIndex{28}\)

    A variância da amostra\(s^2\),, é igual à soma da última coluna (9,7375) dividida pelo número total de valores de dados menos um\((20 – 1)\):

    \(s^{2}=\frac{9.7375}{20-1}=0.5125\)

    O desvio padrão da amostra s é igual à raiz quadrada da variância da amostra:

    \(s=\sqrt{0.5125}=0.715891\), que é arredondado para duas casas decimais,\(s = 0.72\).

    Explicação do cálculo do desvio padrão mostrado na tabela

    Os desvios mostram a dispersão dos dados em relação à média. O valor de dados 11,5 está mais distante da média do que o valor de dados 11, que é indicado pelos desvios 0,97 e 0,47. Um desvio positivo ocorre quando o valor dos dados é maior que a média, enquanto um desvio negativo ocorre quando o valor dos dados é menor que a média. O desvio é —1,525 para o valor de dados nove. Se você somar os desvios, a soma é sempre zero. (Por exemplo\(\PageIndex{29}\), há\(n = 20\) desvios.) Portanto, você não pode simplesmente adicionar os desvios para obter a distribuição dos dados. Ao quadrar os desvios, você os torna números positivos, e a soma também será positiva. A variância, então, é o desvio quadrático médio. Ao quadrar os desvios, estamos colocando uma penalidade extrema nas observações que estão longe da média; essas observações obtêm maior peso nos cálculos da variância. Veremos mais adiante que a variância (desvio padrão) desempenha um papel fundamental na determinação de nossas conclusões em estatísticas inferenciais. Podemos começar agora usando o desvio padrão como uma medida de “anormalidade”. “Como você se saiu no teste?” “Ótimo! Dois desvios padrão acima da média.” Isso, veremos, é uma nota de exame excepcionalmente boa.

    A variância é uma medida quadrada e não tem as mesmas unidades dos dados. Tomar a raiz quadrada resolve o problema. O desvio padrão mede a dispersão nas mesmas unidades dos dados.

    Observe que, em vez de dividir por\(n = 20\), o cálculo é dividido por\(n – 1 = 20 – 1 = 19\) porque os dados são uma amostra. Para a variância da amostra, dividimos pelo tamanho da amostra menos um\((n – 1)\). Por que não dividir por\(n\)? A resposta tem a ver com a variação da população. A variância da amostra é uma estimativa da variância da população. Essa estimativa exige que usemos uma estimativa da média da população em vez da média real da população. Com base na matemática teórica que está por trás desses cálculos, dividir por\((n – 1)\) fornece uma melhor estimativa da variância da população.

    O desvio padrão,\(s\) ou\(\sigma\), é zero ou maior que zero. A descrição dos dados com referência à dispersão é chamada de “variabilidade”. A variabilidade nos dados depende do método pelo qual os resultados são obtidos; por exemplo, por medição ou por amostragem aleatória. Quando o desvio padrão é zero, não há dispersão; ou seja, todos os valores dos dados são iguais entre si. O desvio padrão é pequeno quando os dados estão todos concentrados perto da média e é maior quando os valores dos dados mostram mais variação da média. Quando o desvio padrão é muito maior que zero, os valores dos dados estão muito dispersos em torno da média; valores atípicos podem\(s\) resultar em valores\(\sigma\) muito grandes.

    Exemplo\(\PageIndex{30}\)

    Use os seguintes dados (notas do primeiro exame) da aula de pré-cálculo de primavera de Susan Dean:

    \(33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 96; 100\)

    1. Crie um gráfico contendo os dados, as frequências, as frequências relativas e as frequências relativas cumulativas com três casas decimais.
    2. Calcule o seguinte com uma casa decimal:
      1. A média da amostra
      2. O desvio padrão da amostra
      3. A mediana
      4. O primeiro quartil
      5. O terceiro quartil
      6. \(IQR\)
    Resposta

    Solução 2.30

    a. Veja a tabela\(\PageIndex{29}\)

    b.

    1. A média da amostra = 73,5
    2. O desvio padrão da amostra = 17,9
    3. A mediana = 73
    4. O primeiro quartil = 61
    5. O terceiro quartil = 90
    6. \(IQR = 90 – 61 = 29\)
    \ (\ PageIndex {29}\) “>
    Dados Frequência Frequência relativa Frequência relativa cumulativa
    33 1 0,032 0,032
    42 1 0,032 0,064
    49 2 0,065 0,129
    53 1 0,032 0.161
    55 2 0,065 0,226
    61 1 0,032 0,258
    63 1 0,032 0,29
    67 1 0,032 0,322
    68 2 0,065 0,387
    69 2 0,065 0,452
    72 1 0,032 0,484
    73 1 0,032 0,516
    74 1 0,032 0,548
    78 1 0,032 0,580
    80 1 0,032 0,612
    83 1 0,032 0,644
    88 3 0,097 0,741
    90 1 0,032 0,773
    92 1 0,032 0,805
    94 4 0,129 0,934
    96 1 0,032 0,966
    100 1 0,032 0,998 (Por que esse valor não é 1? Resposta: Arredondamento)
    Tabela\(\PageIndex{29}\)

    Desvio padrão das tabelas de frequência agrupadas

    Lembre-se de que, para dados agrupados, não conhecemos valores de dados individuais, portanto, não podemos descrever o valor típico dos dados com precisão. Em outras palavras, não podemos encontrar a média, a mediana ou o modo exatos. Podemos, no entanto, determinar a melhor estimativa das medidas do centro encontrando a média dos dados agrupados com a fórmula:\(\text{ Mean of Frequency Table }=\frac{\sum \(f\) m} {\ sum f}\)
    onde frequências de\(f=\) intervalo e\(m\) = pontos médios do intervalo.

    Assim como não conseguimos encontrar a média exata, também não podemos encontrar o desvio padrão exato. Lembre-se de que o desvio padrão descreve numericamente o desvio esperado que um valor de dados tem da média. Em inglês simples, o desvio padrão nos permite comparar como os dados individuais “incomuns” são comparados à média.

    Exemplo\(\PageIndex{31}\)

    Encontre o desvio padrão para os dados na Tabela\(\PageIndex{30}\).

    \ (\ PageIndex {30}\) “>
    Classe Frequência,\(f\) Ponto médio,\(m\) \(f\cdot m\) \(f(m−\bar{x})^2\)
    0—2 \ (f\)” class="lt-stats-5332">1 \ (m\)” class="lt-stats-5332">1 \ (f\ cdot m\)” class="lt-stats-5332">\(1\cdot 1=1\) \ (f (m−\ bar {x}) ^2\)” classe="lt-stats-5332">\(1(1−6.88)^2=34.57\)
    3—5 \ (f\)” class="lt-stats-5332">6 \ (m\)” class="lt-stats-5332">4 \ (f\ cdot m\)” class="lt-stats-5332">\(6\cdot 4=24\) \ (f (m−\ bar {x}) ^2\)” classe="lt-stats-5332">\(6(4−6.88)^2=49.77\)
    6-8 \ (f\)” class="lt-stats-5332">10 \ (m\)” class="lt-stats-5332">7 \ (f\ cdot m\)” class="lt-stats-5332">\(10\cdot 7=70\) \ (f (m−\ bar {x}) ^2\)” classe="lt-stats-5332">\(10(7−6.88)^2=0.14\)
    9-11 \ (f\)” class="lt-stats-5332">7 \ (m\)” class="lt-stats-5332">10 \ (f\ cdot m\)” class="lt-stats-5332">\(7\cdot 10=70\) \ (f (m−\ bar {x}) ^2\)” classe="lt-stats-5332">\(7(10−6.88)^2=68.14\)
    12-14 \ (f\)” class="lt-stats-5332">0 \ (m\)” class="lt-stats-5332">13 \ (f\ cdot m\)” class="lt-stats-5332">\(0\cdot 13=0\) \ (f (m−\ bar {x}) ^2\)” classe="lt-stats-5332">\(0(13−6.88)^2=0\)
    \ (f\)” class="lt-stats-5332">n = 24 \ (m\)” class="lt-stats-5332"> \ (f\ cdot m\)” class="lt-stats-5332">\(\bar{x}=16524=6.88\) \ (f (m−\ bar {x}) ^2\)” classe="lt-stats-5332">\(s^2=152.6224−1=6.64\)
    Tabela\(\PageIndex{30}\)

    Para esse conjunto de dados, temos a média\(\bar{x} = 6.88\) e o desvio padrão\(s_x = 2.58\). Isso significa que um valor de dados selecionado aleatoriamente seria de 2,58 unidades da média. Se olharmos para a primeira classe, veremos que o ponto médio da classe é igual a um. Isso é quase três desvios padrão da média. Embora a fórmula para calcular o desvio padrão não seja complicada,

    \[s_x=\sqrt{\frac{Σ(m−\bar{x})^2f}{n−1}}\nonumber\]

    onde\(s_x =\) o desvio padrão da\(\bar{x} =\) amostra, a média da amostra, os cálculos são entediantes. Geralmente, é melhor usar a tecnologia ao realizar os cálculos.

    Comparando valores de diferentes conjuntos de dados

    O desvio padrão é útil ao comparar valores de dados provenientes de diferentes conjuntos de dados. Se os conjuntos de dados tiverem médias e desvios padrão diferentes, comparar os valores dos dados diretamente pode ser enganoso.

    • Para cada valor de dados x, calcule a quantos desvios padrão de distância de sua média o valor está.
    • Use a fórmula: x = mean + (#of StDevs) (desvio padrão); resolva para #of StDevs.
    • \(\# \text { of } S T D E V s=\frac{x-\text { mean }}{\text { standard deviation }}\)
    • Compare os resultados desse cálculo.

    #of StDevs geralmente é chamado de “z-score”; podemos usar o símbolo\(z\). Em símbolos, as fórmulas se tornam:

    \ (\ PageIndex {31}\) “>
    Amostra \(x=\overline{x}+z s\) \(z=\frac{x-\overline{x}}{s}\)
    População \(x=\mu+z \sigma\) \(z=\frac{x-\mu}{\sigma}\)
    Tabela\(\PageIndex{31}\)

    Exemplo\(\PageIndex{32}\)

    Dois estudantes, John e Ali, de diferentes escolas secundárias, queriam descobrir quem tinha o maior GPA em comparação com sua escola. Qual aluno teve o maior GPA em comparação com sua escola?

    \ (\ PageIndex {32}\) “>
    Estudante LACUNA GPA médio escolar Desvio padrão escolar
    John 2,85 3,0 0.7
    Ali 77 80 10
    Tabela\(\PageIndex{32}\)
    Resposta

    Solução 2.32

    Para cada aluno, determine quantos desvios padrão (#of StDevs) seu GPA está longe da média, para sua escola. Preste muita atenção aos sinais ao comparar e interpretar a resposta.

    \(z=\# \text { of STDE } \mathrm{Vs}=\frac{\text { value - mean }}{\text { standard deviation }}=\frac{x-\mu}{\sigma}\)

    Para John,\(z=\# \text { ofSTDEV } s=\frac{2.85 \cdot 3.0}{0.7}=-0.21\)

    Para Ali,\(z=\# \text { ofSTDEV } s=\frac{77-80}{10}=-0.3\)

    John tem o melhor GPA em comparação com sua escola porque seu GPA é 0,21 desvios padrão abaixo da média de sua escola, enquanto o GPA de Ali é 0,3 desvios padrão abaixo da média de sua escola.

    A pontuação z de John de —0,21 é maior do que a pontuação z de Ali de —0,3. Para o GPA, valores mais altos são melhores, então concluímos que John tem o melhor GPA quando comparado à sua escola.

    Exercício\(\PageIndex{32}\)

    Adicione o texto dos exercícios aqui.

    Resposta

    Duas nadadoras, Angie e Beth, de equipes diferentes, queriam descobrir quem tinha o tempo mais rápido nos 50 metros livres em comparação com sua equipe. Qual nadadora teve o tempo mais rápido em comparação com sua equipe?

    \ (\ PageIndex {33}\) “>
    Nadador Tempo (segundos) Tempo médio da equipe Desvio padrão da equipe
    Angie 26.2 27.2 0,8
    Beth 27.3 30.1 1.4
    Tabela\(\PageIndex{33}\)

    As listas a seguir fornecem alguns fatos que fornecem um pouco mais de visão sobre o que o desvio padrão nos diz sobre a distribuição dos dados.

    Para QUALQUER conjunto de dados, não importa qual seja a distribuição dos dados:

    • Pelo menos 75% dos dados estão dentro de dois desvios padrão da média.
    • Pelo menos 89% dos dados estão dentro de três desvios padrão da média.
    • Pelo menos 95% dos dados estão dentro de 4,5 desvios padrão da média.
    • Isso é conhecido como Regra de Chebyshev.

    Para dados com distribuição normal, que examinaremos detalhadamente posteriormente:

    • Aproximadamente 68% dos dados estão dentro de um desvio padrão da média.
    • Aproximadamente 95% dos dados estão dentro de dois desvios padrão da média.
    • Mais de 99% dos dados estão dentro de três desvios padrão da média.
    • Isso é conhecido como Regra Empírica.
    • É importante observar que essa regra só se aplica quando a forma da distribuição dos dados é em forma de sino e simétrica. Aprenderemos mais sobre isso ao estudar a distribuição de probabilidade “Normal” ou “Gaussiana” em capítulos posteriores.

    Coeficiente de variação

    Outra forma útil de comparar distribuições, além de comparações simples de médias ou desvios padrão, é ajustar as diferenças na escala dos dados que estão sendo medidos. Muito simplesmente, uma grande variação nos dados com uma média grande é diferente da mesma variação nos dados com uma média pequena. Para ajustar a escala dos dados subjacentes, o Coeficiente de Variação (CV) foi desenvolvido. Matematicamente:

    \[C V=\frac{s}{\overline{x}} * 100 \text { conditioned upon } \overline{x} \neq 0, \text { where } s \text { is the standard deviation of the data and } \overline{x}\nonumber\]

    Podemos ver que isso mede a variabilidade dos dados subjacentes como uma porcentagem do valor médio; o peso central do conjunto de dados. Essa medida é útil na comparação de riscos em que um ajuste é necessário devido às diferenças na escala de dois conjuntos de dados. Na verdade, a escala é alterada para escala comum, diferenças percentuais e permite a comparação direta das duas ou mais magnitudes de variação de diferentes conjuntos de dados.