2.1: Exibir dados
- Page ID
- 186636
Gráficos de caule e folha (Stemplots), gráficos de linhas e gráficos de barras
Um gráfico simples, o gráfico de caule e folha ou stemplot, vem do campo da análise exploratória de dados. É uma boa opção quando os conjuntos de dados são pequenos. Para criar o gráfico, divida cada observação de dados em um caule e uma folha. A folha consiste em um dígito final significativo. Por exemplo, 23 tem caule dois e folha três. O número 432 tem caule 43 e folha dois. Da mesma forma, o número 5.432 tem caule 543 e folha dois. O decimal 9,3 tem caule nove e folha três. Escreva as hastes em uma linha vertical do menor para o maior. Desenhe uma linha vertical à direita das hastes. Em seguida, escreva as folhas em ordem crescente ao lado do caule correspondente.
Exemplo\(\PageIndex{2}\).1
Para a aula de pré-cálculo de primavera de Susan Dean, as notas do primeiro exame foram as seguintes (da menor para a maior):
33; 42; 49; 49; 53; 55; 61; 63; 67; 68; 68; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 88; 90; 92; 94; 94; 94; 94; 94; 94; 96; 100
\ (\ PageIndex {1}\) Gráfico de caule e folha “>Caule | Folha |
---|---|
3 | 3 |
4 | 2 9 9 |
5 | 3 5 5 |
6 | 1 3 7 8 8 9 9 |
7 | 2 3 4 8 |
8 | 0 3 8 8 8 |
9 | 0 2 4 4 4 4 6 |
10 | 0 |
O modelo mostra que a maioria das pontuações caiu nos anos 60, 70, 80 e 90. Oito das 31 pontuações ou aproximadamente 26% (831) (831) estavam nos anos 90 ou 100, um número bastante alto de As.
Exercício\(\PageIndex{2}\).1
Para o time de basquete de Park City, as pontuações dos últimos 30 jogos foram as seguintes (da menor para a maior):
32; 32; 33; 34; 38; 40; 42; 42; 43; 44; 46; 47; 47; 48; 48; 48; 49; 50; 50; 51; 52; 52; 53; 54; 56; 57; 60; 61
Construa um gráfico de tronco para os dados.
O stemplot é uma forma rápida de representar graficamente os dados e fornece uma imagem exata dos dados. Você quer procurar um padrão geral e quaisquer valores atípicos. Um outlier é uma observação de dados que não se encaixa no resto dos dados. Às vezes, é chamado de valor extremo. Quando você representa graficamente um outlier, ele parece não se encaixar no padrão do gráfico. Alguns valores atípicos são causados por erros (por exemplo, anotar 50 em vez de 500), enquanto outros podem indicar que algo incomum está acontecendo. São necessárias algumas informações básicas para explicar os valores atípicos, então os abordaremos com mais detalhes posteriormente.
Exemplo\(\PageIndex{2}\).2
Os dados são as distâncias (em quilômetros) de uma casa até os supermercados locais. Crie um modelo usando os dados:
1,1; 1,5; 2,3; 2,5; 2,7; 3,2; 3,3; 3,3; 3,5; 3,8; 4,0; 4,2; 4,5; 4,5; 4,7; 4,8; 5,5; 5,6; 6,5; 6,7; 12,3
Os dados parecem ter alguma concentração de valores?
NOTA
As folhas estão à direita do decimal.
- Resposta
-
O valor 12,3 pode ser um outlier. Os valores parecem se concentrar em três e quatro quilômetros.
\ (\ PageIndex {2}\) “>Caule Folha 1 1 5 2 3 5 7 3 2 3 3 5 8 4 0 2 5 5 7 8 5 5 6 6 5 7 7 8 9 10 11 12 3 Tabela\(\PageIndex{2}\) 2.
Exercício\(\PageIndex{2}\).2
Os dados a seguir mostram as distâncias (em milhas) das casas de estudantes de estatística fora do campus até a faculdade. Crie um gráfico de tronco usando os dados e identifique quaisquer valores atípicos:
0,5; 0,7; 1,1; 1,2; 1,2; 1,3; 1,3; 1,5; 1,5; 1,7; 1,7; 1,8; 1,9; 2,0; 2,2; 2,5; 2,6; 2,8; 2,8; 2,8; 3,5; 3,8; 4,4; 4,8; 4,8; 4,9; 5,5; 5,7; 5,7; 5,8; 8,0
Exemplo\(\PageIndex{2}\).3
Um gráfico de caule e folha lado a lado permite uma comparação dos dois conjuntos de dados em duas colunas. Em um gráfico lado a lado com caule e folhas, dois conjuntos de folhas compartilham o mesmo caule. As folhas estão à esquerda e à direita dos caules. A Tabela\(\PageIndex{2}\) 4 e a Tabela\(\PageIndex{2}\) 5 mostram a idade dos presidentes na posse e na morte. Construa um gráfico de caule e folhas lado a lado usando esses dados.
- Resposta
-
\ (\ PageIndex {3}\) “>
Idades na inauguração Idades na morte 9 9 8 7 7 7 6 3 2 4 6 9 8 7 7 7 7 6 6 5 5 5 5 4 4 4 4 4 4 2 2 1 1 1 1 1 1 0 5 3 6 6 7 7 8 9 8 5 4 4 2 1 1 1 0 6 0 0 3 3 4 4 5 6 7 7 7 8 7 0 0 1 1 1 4 7 8 8 9 8 0 1 3 5 8 9 0 0 3 3 Tabela\(\PageIndex{2}\) 3.
Presidente | Idade | Presidente | Idade | Presidente | Idade |
---|---|---|---|---|---|
Washington | 57 | Lincoln | 52 | Hoover | 54 |
J. Adams | 61 | A. Johnson | 56 | F. Roosevelt | 51 |
Jefferson | 57 | Grant | 46 | Truman | 60 |
Madison | 57 | Hayes | 54 | Eisenhower | 62 |
Monroe | 58 | Garfield | 49 | Kennedy | 43 |
J. Q. Adams | 57 | Artur | 51 | L. Johnson | 55 |
Jackson | 61 | Cleveland | 47 | Nixon | 56 |
Van Buren | 54 | B. Harrison | 55 | Ford | 61 |
William H. Harrison | 68 | Cleveland | 55 | Carter | 52 |
Tyler | 51 | McKinley | 54 | Reagan | 69 |
Polk | 49 | T. Roosevelt | 42 | G. H. W. Bush | 64 |
Taylor | 64 | Taft | 51 | Clinton | 47 |
Fillmore | 50 | Wilson | 56 | G. W. Bush | 54 |
Pierce | 48 | endurecimento | 55 | Obama | 47 |
Buchanan | 65 | Coolidge | 51 | Trump | 70 |
Presidente | Idade | Presidente | Idade | Presidente | Idade |
---|---|---|---|---|---|
Washington | 67 | Lincoln | 56 | Hoover | 90 |
J. Adams | 90 | A. Johnson | 66 | F. Roosevelt | 63 |
Jefferson | 83 | Grant | 63 | Truman | 88 |
Madison | 85 | Hayes | 70 | Eisenhower | 78 |
Monroe | 73 | Garfield | 49 | Kennedy | 46 |
J. Q. Adams | 80 | Artur | 56 | L. Johnson | 64 |
Jackson | 78 | Cleveland | 71 | Nixon | 81 |
Van Buren | 79 | B. Harrison | 67 | Ford | 93 |
William H. Harrison | 68 | Cleveland | 71 | Reagan | 93 |
Tyler | 71 | McKinley | 58 | ||
Polk | 53 | T. Roosevelt | 60 | ||
Taylor | 65 | Taft | 72 | ||
Fillmore | 74 | Wilson | 67 | ||
Pierce | 64 | endurecimento | 57 | ||
Buchanan | 77 | Coolidge | 60 |
Outro tipo de gráfico que é útil para valores de dados específicos é um gráfico de linhas. No gráfico de linhas específico mostrado no Exemplo\(\PageIndex{4}\), o eixo x (eixo horizontal) consiste em valores de dados e o eixo y (eixo vertical) consiste em pontos de frequência. Os pontos de frequência são conectados usando segmentos de linha.
Exemplo\(\PageIndex{2}\).4
Em uma pesquisa, 40 mães foram questionadas sobre quantas vezes por semana um adolescente deve ser lembrado de fazer suas tarefas. Os resultados são mostrados na Tabela\(\PageIndex{2}\) 6 e na Figura\(\PageIndex{2}\) 2.
\ (\ PageIndex {6}\) “>Número de vezes que o adolescente é lembrado | Frequência |
---|---|
0 | 2 |
1 | 5 |
2 | 8 |
3 | 14 |
4 | 7 |
5 | 4 |
Exercício\(\PageIndex{4}\)
Em uma pesquisa, 40 pessoas foram questionadas sobre quantas vezes por ano tinham o carro na oficina para reparos. Os resultados são mostrados na Tabela\(\PageIndex{7}\). Construa um gráfico de linhas.
\ (\ PageIndex {7}\) “>Número de vezes na loja | Frequência |
---|---|
0 | 7 |
1 | 10 |
2 | 14 |
3 | 9 |
Os gráficos de barras consistem em barras separadas umas das outras. As barras podem ser retângulos ou caixas retangulares (usadas em gráficos tridimensionais) e podem ser verticais ou horizontais. O gráfico de barras mostrado no Exemplo\(\PageIndex{5}\) tem faixas etárias representadas no eixo x e proporções no eixo y.
Exercício\(\PageIndex{1}\)
Adicione o texto dos exercícios aqui.
- Resposta
-
Solução 2.5
Exemplo\(\PageIndex{5}\)
No final de 2011, o Facebook tinha mais de 146 milhões de usuários nos Estados Unidos. A Tabela\(\PageIndex{2}\) 8 mostra três faixas etárias, o número de usuários em cada faixa etária e a proporção (%) de usuários em cada faixa etária. Construa um gráfico de barras usando esses dados.
\ (\ PageIndex {8}\) “>Grupos etários | Número de usuários do Facebook | Proporção (%) de usuários do Facebook |
---|---|---|
13—25 | 65.082.280 | 45% |
26—44 | 53.300.200 | 36% |
45—64 | 27.885.100 | 19% |
Solução
Exercício\(\PageIndex{5}\)
Adicione o texto dos exercícios aqui.
- Resposta
-
A população em Park City é composta por crianças, adultos em idade ativa e aposentados. A tabela\(\PageIndex{9}\) mostra as três faixas etárias, o número de pessoas na cidade de cada faixa etária e a proporção (%) de pessoas em cada faixa etária. Construa um gráfico de barras mostrando as proporções.
\ (\ PageIndex {9}\) “>Grupos etários Número de pessoas Proporção da população Crianças 67.059 19% Adultos em idade ativa 152.198 43% Aposentados 131.662 38%
Exemplo\(\PageIndex{2}\).6
As colunas na Tabela\(\PageIndex{2}\) .10 contêm: a raça ou etnia dos estudantes nas escolas públicas dos EUA para a turma de 2011, porcentagens da população examinada de colocação avançada para essa turma e porcentagens para a população geral de estudantes. Crie um gráfico de barras com a raça ou etnia do aluno (dados qualitativos) no eixo x e as porcentagens da população de examinandos do Advanced Placement no eixo y.
\ (\ PageIndex {10}\) “>Raça/etnia | População de examinandos da AP | População geral de estudantes |
---|---|---|
1 = Asiático, asiático-americano ou ilhéu do Pacífico | 10,3% | 5,7% |
2 = negro ou afro-americano | 9,0% | 14,7% |
3 = hispânico ou latino | 17,0% | 17,6% |
4 = índio americano ou nativo do Alasca | 0,6% | 1,1% |
5 = Branco | 57,1% | 59,2% |
6 = Não relatado/outro | 6,0% | 1,7% |
- Resposta
-
Solução 2.6
Exercício\(\PageIndex{2}\).6
Adicione o texto dos exercícios aqui.
- Resposta
-
Park City é dividida em seis distritos eleitorais. A tabela mostra a porcentagem da população total de eleitores registrados que vive em cada distrito, bem como a porcentagem total de toda a população que vive em cada distrito. Construa um gráfico de barras que mostre a população eleitoral registrada por distrito.
\ (\ PageIndex {11}\) “>Distrito População de eleitores registrados População geral da cidade 1 15,5% 19,4% 2 12,2% 15,6% 3 9,8% 9,0% 4 17,4% 18,5% 5 22,8% 20,7% 6 22,3% 16,8% Tabela\(\PageIndex{2}\) 1.1
Exemplo\(\PageIndex{2}\).7
Abaixo está uma tabela bidirecional mostrando os tipos de animais de estimação pertencentes a homens e mulheres:
\ (\ PageIndex {12}\) “>Cães | Gatos | Peixe | Total | |
---|---|---|---|---|
Homens | 4 | 2 | 2 | 8 |
Mulheres | 4 | 6 | 2 | 12 |
Total | 8 | 8 | 4 | 20 |
Dados esses dados, calcule as distribuições condicionais para a subpopulação de homens que possuem cada tipo de animal de estimação.
- Resposta
-
- Homens que possuem cães = 4/8 = 0,5
- Homens que possuem gatos = 2/8 = 0,25
- Homens que possuem peixes = 2/8 = 0,25
Nota: A soma de todas as distribuições condicionais deve ser igual a uma. Nesse caso, 0,5 + 0,25 + 0,25 = 1; portanto, a solução “verifica”.
Histogramas, polígonos de frequência e gráficos de séries temporais
Para a maior parte do trabalho que você faz neste livro, você usará um histograma para exibir os dados. Uma vantagem de um histograma é que ele pode exibir facilmente grandes conjuntos de dados. Uma regra geral é usar um histograma quando o conjunto de dados consiste em 100 valores ou mais.
Um histograma consiste em caixas contíguas (adjacentes). Tem um eixo horizontal e um eixo vertical. O eixo horizontal é rotulado com o que os dados representam (por exemplo, a distância de sua casa até a escola). O eixo vertical é rotulado como frequência ou frequência relativa (ou porcentagem de frequência ou probabilidade). O gráfico terá a mesma forma com qualquer rótulo. O histograma (como o stemplot) pode fornecer a forma dos dados, o centro e a dispersão dos dados.
A frequência relativa é igual à frequência de um valor observado dos dados dividido pelo número total de valores de dados na amostra. (Lembre-se de que a frequência é definida como o número de vezes que uma resposta ocorre.) Se:
- \(f\)= frequência
- \(n\)= número total de valores de dados (ou a soma das frequências individuais) e
- \(RF\)= frequência relativa,
então:
\ [\ RF=\ frac {f} {n}\ nonumber]
Por exemplo, se três alunos da turma de inglês do Sr. Ahab de 40 alunos receberam de 90% a 100%\(f = 3\), então\(n = 40\),,\(RF = \frac{f}{n} = \frac{3}{40} = 0.075\) e. 7,5% dos alunos receberam 90— 100%. 90— 100% são medidas quantitativas.
Para construir um histograma, primeiro decida quantas barras ou intervalos, também chamados de classes, representam os dados. Muitos histogramas consistem em cinco a 15 barras ou classes para maior clareza. O número de barras precisa ser escolhido. Escolha um ponto de partida para que o primeiro intervalo seja menor que o menor valor de dados. Um ponto de partida conveniente é um valor menor realizado com mais uma casa decimal do que o valor com mais casas decimais. Por exemplo, se o valor com mais casas decimais for 6,1 e esse for o menor valor, um ponto de partida conveniente será 6,05 (6,1 — 0,05 = 6,05). Dizemos que 6,05 tem mais precisão. Se o valor com mais casas decimais for 2,23 e o menor valor for 1,5, um ponto de partida conveniente será 1,495 (1,5 — 0,005 = 1,495). Se o valor com mais casas decimais for 3,234 e o menor valor for 1,0, um ponto de partida conveniente será 0,9995 (1,0 — 0,0005 = 0,9995). Se todos os dados forem inteiros e o menor valor for dois, um ponto de partida conveniente será 1,5 (2 — 0,5 = 1,5). Além disso, quando o ponto de partida e outros limites são transportados para uma casa decimal adicional, nenhum valor de dados cairá em um limite. Os próximos dois exemplos detalham como construir um histograma usando dados contínuos e como criar um histograma usando dados discretos.
Exemplo\(\PageIndex{2}\).8
Os dados a seguir são as alturas (em polegadas até a meia polegada mais próxima) de 100 jogadores de futebol semiprofissionais do sexo masculino. As alturas são dados contínuos, pois a altura é medida.
60; 60,5; 61; 61; 61,5 63,5; 63,5;
63,5 64; 64; 64;
64; 64; 64; 64; 64; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66;
66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66 6,5; 66,5; 66,5; 66,5; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67,5; 67,5; 67,5; 67,5; 67,5; 67,5; 67,5;
68; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69,5; 69,5; 69,5; 69,5; 69,5; 69,5; 70; 70; 70; 70; 70; 70; 70; 70; 70; 70;
70; 70,5; 70,5; 70,5; 71; 71; 72; 72; 72; 72; 72; 72; 72; 72; 72; 72;
72; 70; 70; 70; 70; 70; 70; 70; 70,5; 70,5; 70,5; 70,5; 71; 71 72,5; 72,5; 73; 73,5
74
O menor valor de dados é 60. Como os dados com mais casas decimais têm um decimal (por exemplo, 61,5), queremos que nosso ponto de partida tenha duas casas decimais. Como os números 0,5, 0,05, 0,005 etc. são números convenientes, use 0,05 e subtraia de 60, o menor valor, para o ponto de partida conveniente.
60 — 0,05 = 59,95, o que é mais preciso do que, digamos, 61,5 por uma casa decimal. O ponto de partida é, então, 59,95.
O maior valor é 74, então 74 + 0,05 = 74,05 é o valor final.
Em seguida, calcule a largura de cada barra ou intervalo de classe. Para calcular essa largura, subtraia o ponto inicial do valor final e divida pelo número de barras (você deve escolher o número de barras que deseja). Suponha que você escolha oito barras.
\[\frac{74.05−59.95}{8}=1.76\non\nonumber\]
NOTA
Arredondaremos para dois e faremos com que cada barra ou intervalo de aula tenha duas unidades de largura. Arredondar para dois é uma forma de evitar que um valor caia em um limite. O arredondamento para o próximo número geralmente é necessário, mesmo que isso vá contra as regras padrão de arredondamento. Neste exemplo, usar 1,76 como largura também funcionaria. Uma diretriz seguida por algumas para a largura de uma barra ou intervalo de classe é pegar a raiz quadrada do número de valores de dados e, em seguida, arredondar para o número inteiro mais próximo, se necessário. Por exemplo, se houver 150 valores de dados, pegue a raiz quadrada de 150 e arredonde para 12 barras ou intervalos.
Os limites são:
- 59,95
- 59,95 + 2 = 61,95
- 61,95 + 2 = 63,95
- 63,95 + 2 = 65,95
- 65,95 + 2 = 67,95
- 67,95 + 2 = 69,95
- 69,95 + 2 = 71,95
- 71,95 + 2 = 73,95
- 73,95 + 2 = 75,95
As alturas de 60 a 61,5 polegadas estão no intervalo de 59,95 a 61,95. As alturas que são 63,5 estão no intervalo 61,95—63,95. As alturas que são de 64 a 64,5 estão no intervalo de 63,95 a 65,95. As alturas 66 a 67,5 estão no intervalo 65,95—67,95. As alturas 68 a 69,5 estão no intervalo 67,95—69,95. As alturas de 70 a 71 estão no intervalo 69,95—71,95. As alturas de 72 a 73,5 estão no intervalo de 71,95—73,95. A altura 74 está no intervalo 73,95—75,95.
O histograma a seguir exibe as alturas no eixo x e a frequência relativa no eixo y.
Exercício\(\PageIndex{2}\).8
Os dados a seguir são os tamanhos de calçados de 50 estudantes do sexo masculino. Os tamanhos são dados contínuos, pois o tamanho do sapato é medido. Crie um histograma e calcule a largura de cada barra ou intervalo de classe. Suponha que você escolha seis barras.
9; 9; 9,5; 9,5; 10; 10; 10; 10; 10; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5
11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11,5; 11,5; 11,5;
12; 12; 12; 12; 12; 12; 12; 12; 12,5; 12,5; 12,5; 12,5; 14
Exemplo\(\PageIndex{2}\).9
Crie um histograma para os seguintes dados: o número de livros comprados por 50 estudantes universitários em tempo parcial no ABC College. O número de livros é um dado discreto, já que os livros são contados.
1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 2; 2; 2; 2; 2;
2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3;
3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4;
4; 4; 4; 4; 4; 4; 5; 5;
5; 5; 5; 5; 5; 6; 6;
6; 6;
Onze estudantes compram um livro. Dez estudantes compram dois livros. Dezesseis estudantes compram três livros. Seis estudantes compram quatro livros. Cinco estudantes compram cinco livros. Dois estudantes compram seis livros.
Como os dados são números inteiros, subtraia 0,5 de 1, o menor valor de dados, e adicione 0,5 a 6, o maior valor de dados. Então, o ponto de partida é 0,5 e o valor final é 6,5.
Em seguida, calcule a largura de cada barra ou intervalo de classe. Se os dados forem discretos e não houver muitos valores diferentes, uma largura que coloque os valores dos dados no meio da barra ou do intervalo da classe é a mais conveniente. Como os dados consistem nos números 1, 2, 3, 4, 5, 6 e o ponto inicial é 0,5, uma largura de um coloca o 1 no meio do intervalo de 0,5 a 1,5, o 2 no meio do intervalo de 1,5 a 2,5, o 3 no meio do intervalo de 2,5 a 3,5, o 4 no meio do intervalo de _____ __ a _______, o 5 no meio do intervalo de _______ a _______ e o _______ no meio do intervalo de _______ a _______.
Solução
Calcule o número de barras da seguinte forma:
\[\frac{6.5−0.5}{\text{number of bars}}=1\nonumber\]
onde 1 é a largura de uma barra. Portanto, barras = 6.
O histograma a seguir mostra o número de livros no eixo x e a frequência no eixo y.
Exemplo\(\PageIndex{2}\).10
Usando esse conjunto de dados, construa um histograma.
\ (\ PageIndex {13}\) “>Número de horas que meus colegas passaram jogando videogame nos fins de semana | ||||
---|---|---|---|---|
9,95 | 10 | 2,25 | 16,75 | 0 |
19,5 | 22,5 | 7.5 | 15 | 12,75 |
5.5 | 11 | 10 | 20,75 | 17,5 |
23 | 21,9 | 24 | 23,75 | 18 |
20 | 15 | 22,9 | 18,8 | 20,5 |
- Resposta
-
Solução 2.10
Alguns valores nesse conjunto de dados estão dentro dos limites dos intervalos das classes. Um valor é contado em um intervalo de classe se cair no limite esquerdo, mas não se cair no limite direito. Pesquisadores diferentes podem configurar histogramas para os mesmos dados de maneiras diferentes. Há mais de uma maneira correta de configurar um histograma.
Polígonos de frequência
Os polígonos de frequência são análogos aos gráficos de linha e, assim como os gráficos de linha tornam os dados contínuos visualmente fáceis de interpretar, o mesmo acontece com os polígonos de frequência.
Para construir um polígono de frequência, primeiro examine os dados e decida o número de intervalos, ou intervalos de classe, a serem usados nos eixos x e y. Depois de escolher os intervalos apropriados, comece a traçar os pontos de dados. Depois que todos os pontos estiverem plotados, desenhe segmentos de linha para conectá-los.
Exemplo\(\PageIndex{2}\).11
Um polígono de frequência foi construído a partir da tabela de frequência abaixo.
\ (\ PageIndex {14}\) “>Limite inferior | Limite superior | Frequência | Frequência cumulativa |
---|---|---|---|
49,5 | 59,5 | 5 | 5 |
59,5 | 69,5 | 10 | 15 |
69,5 | 79,5 | 30 | 45 |
79,5 | 89,5 | 40 | 85 |
89,5 | 99,5 | 15 | 100 |
A primeira etiqueta no eixo x é 44,5. Isso representa um intervalo que se estende de 39,5 a 49,5. Como a pontuação mais baixa do teste é 54,5, esse intervalo é usado apenas para permitir que o gráfico toque no eixo x. O ponto rotulado 54,5 representa o próximo intervalo, ou o primeiro intervalo “real” da tabela, e contém cinco pontuações. Esse raciocínio é seguido para cada um dos intervalos restantes, com o ponto 104,5 representando o intervalo de 99,5 a 109,5. Novamente, esse intervalo não contém dados e é usado apenas para que o gráfico toque o eixo x. Olhando para o gráfico, dizemos que essa distribuição está distorcida porque um lado do gráfico não reflete o outro lado.
Exercício\(\PageIndex{2}\).11
Construa um polígono de frequência das idades dos presidentes dos EUA na inauguração, mostrado na Tabela\(\PageIndex{15}\).
\ (\ PageIndex {15}\) “>Idade na inauguração | Frequência |
---|---|
41,5—46,5 | 4 |
46,5—51,5 | 11 |
51,5—56,5 | 14 |
56,5—61,5 | 9 |
61,5—66,5 | 4 |
66,5—71,5 | 2 |
Polígonos de frequência são úteis para comparar distribuições. Isso é obtido sobrepondo os polígonos de frequência desenhados para diferentes conjuntos de dados.
Exemplo\(\PageIndex{2}\).12
Construiremos um polígono de frequência de sobreposição comparando as pontuações do Example\(\PageIndex{11}\) com a nota numérica final dos alunos.
\ (\ PageIndex {16}\) “>Limite inferior | Limite superior | Frequência | Frequência cumulativa |
---|---|---|---|
49,5 | 59,5 | 5 | 5 |
59,5 | 69,5 | 10 | 15 |
69,5 | 79,5 | 30 | 45 |
79,5 | 89,5 | 40 | 85 |
89,5 | 99,5 | 15 | 100 |
Limite inferior | Limite superior | Frequência | Frequência cumulativa |
---|---|---|---|
49,5 | 59,5 | 10 | 10 |
59,5 | 69,5 | 10 | 20 |
69,5 | 79,5 | 30 | 50 |
79,5 | 89,5 | 45 | 95 |
89,5 | 99,5 | 5 | 100 |
Construindo um gráfico de séries temporais
Suponha que queiramos estudar a faixa de temperatura de uma região por um mês inteiro. Todos os dias, ao meio-dia, notamos a temperatura e a anotamos em um registro. Diversos estudos estatísticos poderiam ser feitos com esses dados. Poderíamos encontrar a temperatura média ou mediana do mês. Poderíamos construir um histograma exibindo o número de dias em que as temperaturas atingem uma determinada faixa de valores. No entanto, todos esses métodos ignoram uma parte dos dados que coletamos.
Uma característica dos dados que talvez queiramos considerar é a do tempo. Como cada data é combinada com a leitura da temperatura do dia, não precisamos pensar nos dados como aleatórios. Em vez disso, podemos usar os tempos dados para impor uma ordem cronológica aos dados. Um gráfico que reconhece essa ordem e exibe a mudança de temperatura à medida que o mês avança é chamado de gráfico de série temporal.
Para construir um gráfico de séries temporais, precisamos examinar as duas partes do nosso conjunto de dados pareado. Começamos com um sistema de coordenadas cartesiano padrão. O eixo horizontal é usado para traçar os incrementos de data ou hora, e o eixo vertical é usado para traçar os valores da variável que estamos medindo. Ao fazer isso, fazemos com que cada ponto no gráfico corresponda a uma data e a uma quantidade medida. Os pontos no gráfico são normalmente conectados por linhas retas na ordem em que ocorrem.
Exemplo\(\PageIndex{2}\).13
Os dados a seguir mostram o Índice Anual de Preços ao Consumidor, a cada mês, por dez anos. Construa um gráfico de séries temporais somente para os dados do Índice Anual de Preços ao Consumidor.
\ (\ PageIndex {18}\) “>Ano | Jan | Fevereiro | Mar | abr | Pode | Junho | jul |
---|---|---|---|---|---|---|---|
2003 | 181,7 | 183.1 | 184,2 | 183,8 | 183,5 | 183,7 | 183,9 |
2004 | 185.2 | 186,2 | 187,4 | 188,0 | 189,1 | 189,7 | 189,4 |
2005 | 190.7 | 191,8 | 193.3 | 194,6 | 194,4 | 194,5 | 195,4 |
2006 | 198,3 | 198,7 | 1998 | 201,5 | 202,5 | 202,9 | 203,5 |
2007 | 202.416 | 203.499 | 205.352 | 206.686 | 207.949 | 208.352 | 208.299 |
2008 | 211.080 | 211.693 | 213.528 | 214.823 | 216.632 | 218.815 | 219.964 |
2009 | 211.143 | 212.193 | 212.709 | 213.240 | 213.856 | 215.693 | 215.351 |
2010 | 216.687 | 216.741 | 217.631 | 218.009 | 218.178 | 217.965 | 218.011 |
2011 | 220.223 | 221.309 | 223,467 | 224.906 | 25.964 | 25.722 | 25.922 |
2012 | 226.665 | 227.663 | 229.392 | 230,085 | 229.815 | 229.478 | 229.104 |
Ano | Ago | 6 de setembro | Out | Novembro | Dez | Anual |
---|---|---|---|---|---|---|
2003 | 184,6 | 185.2 | 185,0 | 184,5 | 184,3 | 184,0 |
2004 | 189,5 | 189,9 | 190,9 | 191,0 | 190,3 | 188,9 |
2005 | 196,4 | 198,8 | 1992 | 197,6 | 196,8 | 195,3 |
2006 | 203,9 | 202,9 | 201.8 | 201,5 | 201.8 | 201,6 |
2007 | 207.917 | 208.490 | 208.936 | 210.177 | 210.036 | 207.342 |
2008 | 219.086 | 218.783 | 216.573 | 212.425 | 210.228 | 215.303 |
2009 | 215.834 | 215,969 | 216.177 | 216.330 | 215.949 | 214.537 |
2010 | 218.312 | 218.439 | 218.711 | 218.803 | 219.179 | 218.056 |
2011 | 226.545 | 226.889 | 226.421 | 226.230 | 25.672 | 224.939 |
2012 | 230,379 | 231.407 | 231.317 | 230,221 | 229.601 | 229.594 |
- Resposta
-
Solução 2.13
Exercício\(\PageIndex{2}\).13
A tabela a seguir é uma parte de um conjunto de dados do www.worldbank.org. Use a tabela para criar um gráfico de séries temporais das emissões de CO 2 nos Estados Unidos.
\ (\ PageIndex {20}\) “>Ano | Ucrânia | Reino Unido | Estados Unidos |
---|---|---|---|
2003 | 352.259 | 540.640 | 5.681.664 |
2004 | 343.121 | 540.409 | 5.790.761 |
2005 | 339.029 | 541.990 | 5.826.394 |
2006 | 327.797 | 542.045 | 5.737.615 |
2007 | 328.357 | 528.631 | 5.828,697 |
2008 | 323.657 | 522.247 | 5.656.839 |
2009 | 272.176 | 474.579 | 5.299.563 |
Usos de um gráfico de séries temporais
Gráficos de séries temporais são ferramentas importantes em várias aplicações de estatísticas. Ao registrar valores da mesma variável durante um longo período de tempo, às vezes é difícil discernir qualquer tendência ou padrão. No entanto, quando os mesmos pontos de dados são exibidos graficamente, alguns recursos se destacam. Os gráficos de séries temporais facilitam a identificação de tendências.
Como NÃO mentir com estatísticas
É importante lembrar que a própria razão pela qual desenvolvemos uma variedade de métodos para apresentar dados é desenvolver insights sobre o que as observações representam. Queremos ter uma “noção” dos dados. As observações são todas muito parecidas ou estão espalhadas por uma ampla faixa de valores, estão agrupadas em uma extremidade do espectro ou estão distribuídas uniformemente e assim por diante. Estamos tentando obter uma imagem visual dos dados numéricos. Em breve, desenvolveremos medidas matemáticas formais dos dados, mas nossa apresentação gráfica visual pode dizer muito. Infelizmente, também pode dizer muita coisa que distrai, confusa e simplesmente errada em termos da impressão que o visual deixa. Há muitos anos, Darrell Huff escreveu o livro How to Lie with Statistics. Já passou por mais de 25 impressões e vendeu mais de um milhão e meio de cópias. Sua perspectiva era dura e usou muitos exemplos reais que foram projetados para enganar. Ele queria conscientizar as pessoas sobre esse engano, mas talvez o mais importante seja educar para que outras pessoas não cometam os mesmos erros inadvertidamente.
Novamente, o objetivo é iluminar com imagens que contam a história dos dados. Os gráficos circulares têm vários problemas comuns quando usados para transmitir a mensagem dos dados. Muitos pedaços da torta sobrecarregam o leitor. Talvez mais de cinco ou seis categorias devam dar uma ideia da importância relativa de cada peça. Afinal, esse é o objetivo de um gráfico circular, qual subconjunto é mais importante em relação aos outros. Se houver mais componentes do que isso, talvez uma abordagem alternativa seja melhor ou talvez alguns possam ser consolidados em uma “outra” categoria. Os gráficos circulares não mostram mudanças ao longo do tempo, embora vejamos essa tentativa com muita frequência. Em documentos financeiros federais, estaduais e municipais, gráficos de pizza são frequentemente apresentados para mostrar os componentes da receita disponíveis para apropriação do órgão regulador: imposto de renda, imposto sobre vendas, impostos sobre veículos automotores e assim por diante. Por si só, essa é uma informação interessante e pode ser bem feita com um gráfico circular. O erro ocorre quando dois anos são definidos lado a lado. Como a receita total muda de ano para ano, mas o tamanho da torta é fixo, nenhuma informação real é fornecida e o tamanho relativo de cada pedaço da torta não pode ser comparado de forma significativa.
Os histogramas podem ser muito úteis para entender os dados. Apresentados adequadamente, eles podem ser uma forma visual rápida de apresentar probabilidades de diferentes categorias pelo simples visual de comparar áreas relativas em cada categoria. Aqui, o erro, intencional ou não, é variar a largura das categorias. Obviamente, isso torna impossível a comparação com as outras categorias. Ela embeleza a importância da categoria com a largura expandida porque tem uma área maior, de forma inadequada e, portanto, “diz” visualmente que essa categoria tem uma probabilidade maior de ocorrência.
Os gráficos de séries temporais talvez sejam os mais abusados. Um gráfico de alguma variável ao longo do tempo nunca deve ser apresentado em eixos que mudam parcialmente na página, seja na dimensão vertical ou horizontal. Talvez o prazo seja alterado de anos para meses. Talvez isso seja para economizar espaço ou porque os dados mensais não estavam disponíveis nos primeiros anos. Em ambos os casos, isso confunde a apresentação e destrói qualquer valor do gráfico. Se isso não for feito para confundir propositalmente o leitor, certamente é um trabalho preguiçoso ou desleixado.
Alterar as unidades de medida do eixo pode suavizar uma queda ou acentuá-la. Se você quiser mostrar grandes mudanças, meça a variável em unidades pequenas, centavos em vez de milhares de dólares. E, claro, para continuar a fraude, certifique-se de que o eixo não comece em zero, zero. Se começar em zero, zero, fica claro que o eixo foi manipulado.
Talvez você tenha um cliente preocupado com a volatilidade do portfólio que você gerencia. Uma maneira fácil de apresentar os dados é usar longos períodos de tempo no gráfico de séries temporais. Use meses ou mais, trimestres em vez de dados diários ou semanais. Se isso não diminuir a volatilidade, espalhe o eixo do tempo em relação à taxa de retorno ou ao eixo de avaliação do portfólio. Se você quiser mostrar um crescimento dramático “rápido”, reduza o eixo do tempo. Qualquer crescimento positivo mostrará taxas de crescimento visualmente “altas”. Observe que, se o crescimento for negativo, esse truque mostrará que o portfólio está entrando em colapso a uma taxa dramática.
Novamente, o objetivo da estatística descritiva é transmitir imagens significativas que contem a história dos dados. A manipulação intencional é fraude e antiética na pior das hipóteses, mas mesmo na melhor das hipóteses, cometer esse tipo de erro causará confusão por parte da análise.