2.R: Estatísticas descritivas (revisão)
- Page ID
- 186625
2.1 Exibir dados
Um gráfico de caule e folha é uma forma de plotar dados e observar a distribuição. Em um gráfico de caule e folha, todos os valores de dados dentro de uma classe são visíveis. A vantagem em um gráfico de caule e folha é que todos os valores são listados, diferentemente de um histograma, que fornece classes de valores de dados. Um gráfico de linhas é frequentemente usado para representar um conjunto de valores de dados em que uma quantidade varia com o tempo. Esses gráficos são úteis para encontrar tendências. Ou seja, encontrar um padrão geral nos conjuntos de dados, incluindo temperatura, vendas, emprego, lucro ou custo da empresa durante um período de tempo. Um gráfico de barras é um gráfico que usa barras horizontais ou verticais para mostrar comparações entre categorias. Um eixo do gráfico mostra as categorias específicas que estão sendo comparadas e o outro eixo representa um valor discreto. Alguns gráficos de barras apresentam barras agrupadas em grupos de mais de uma (gráficos de barras agrupadas) e outros mostram as barras divididas em subpartes para mostrar o efeito cumulativo (gráficos de barras empilhadas). Os gráficos de barras são especialmente úteis quando dados categóricos estão sendo usados.
Um histograma é uma versão gráfica de uma distribuição de frequência. O gráfico consiste em barras de igual largura desenhadas adjacentes umas às outras. A escala horizontal representa classes de valores de dados quantitativos e a escala vertical representa frequências. As alturas das barras correspondem aos valores de frequência. Os histogramas são normalmente usados para conjuntos de dados grandes, contínuos e quantitativos. Um polígono de frequência também pode ser usado ao representar graficamente grandes conjuntos de dados com pontos de dados que se repetem. Os dados geralmente vão no eixo y com a frequência sendo representada graficamente no eixo x. Gráficos de séries temporais podem ser úteis ao analisar grandes quantidades de dados para uma variável durante um período de tempo.
2.2 Medidas da localização dos dados
Os valores que dividem um conjunto de dados ordenado por classificação em 100 partes iguais são chamados de percentis. Os percentis são usados para comparar e interpretar dados. Por exemplo, uma observação no percentil 50 seria maior que 50 por cento das outras observações no conjunto. Os quartis dividem os dados em trimestres. O primeiro quartil (\(Q_1\)) é o 25º percentil, o segundo quartil (\(Q_2\)ou mediana) é o 50º percentil e o terceiro quartil (\(Q_3\)) é o 75º percentil. O intervalo interquartil, ou\(IQR\), é o intervalo dos 50% médios dos valores dos dados. O\(IQR\) é encontrado\(Q_1\) subtraindo de\(Q_3\) e pode ajudar a determinar valores atípicos usando as duas expressões a seguir.
- \(Q_3 + IQR(1.5)\)
- \(Q_1 – IQR(1.5)\)
2.3 Medidas do centro dos dados
A média e a mediana podem ser calculadas para ajudar você a encontrar o “centro” de um conjunto de dados. A média é a melhor estimativa para o conjunto de dados real, mas a mediana é a melhor medida quando um conjunto de dados contém vários valores atípicos ou valores extremos. O modo mostrará os dados (ou dados) que ocorrem com mais frequência em seu conjunto de dados. A média, a mediana e o modo são extremamente úteis quando você precisa analisar seus dados, mas se o conjunto de dados consistir em intervalos sem valores específicos, a média pode parecer impossível de calcular. No entanto, a média pode ser aproximada se você adicionar o limite inferior com o limite superior e dividir por dois para encontrar o ponto médio de cada intervalo. Multiplique cada ponto médio pelo número de valores encontrados no intervalo correspondente. Divida a soma desses valores pelo número total de valores de dados no conjunto.
2.6 Distorção e média, mediana e modo
Analisar a distribuição dos dados pode revelar muito sobre a relação entre a média, a mediana e o modo. Há três tipos de distribuições. Uma distribuição distorcida à direita (ou positiva) tem a forma de Figura\(\PageIndex{11}\).
2.7 Medidas da disseminação dos dados
O desvio padrão pode ajudar você a calcular a dispersão dos dados. Existem diferentes equações a serem usadas se estiver calculando o desvio padrão de uma amostra ou de uma população.
- O desvio padrão nos permite comparar dados ou classes individuais com a média do conjunto de dados numericamente.
- \(s=\sqrt{\frac{\sum(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\sum f(x-\overline{x})^{2}}{n-1}}\)é a fórmula para calcular o desvio padrão de uma amostra. Para calcular o desvio padrão de uma população, usaríamos a média da população, μ e a fórmula\(\sigma=\sqrt{\frac{\sum(x-\mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\sum f(x-\mu)^{2}}{N}}\).