Skip to main content
Global

2.1: Exibir dados

  • Page ID
    186636
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Gráficos de caule e folha (Stemplots), gráficos de linhas e gráficos de barras

    Um gráfico simples, o gráfico de caule e folha ou stemplot, vem do campo da análise exploratória de dados. É uma boa opção quando os conjuntos de dados são pequenos. Para criar o gráfico, divida cada observação de dados em um caule e uma folha. A folha consiste em um dígito final significativo. Por exemplo, 23 tem caule dois e folha três. O número 432 tem caule 43 e folha dois. Da mesma forma, o número 5.432 tem caule 543 e folha dois. O decimal 9,3 tem caule nove e folha três. Escreva as hastes em uma linha vertical do menor para o maior. Desenhe uma linha vertical à direita das hastes. Em seguida, escreva as folhas em ordem crescente ao lado do caule correspondente.

    Exemplo\(\PageIndex{2}\).1

    Para a aula de pré-cálculo de primavera de Susan Dean, as notas do primeiro exame foram as seguintes (da menor para a maior):

    33; 42; 49; 49; 53; 55; 61; 63; 67; 68; 68; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 88; 90; 92; 94; 94; 94; 94; 94; 94; 96; 100

    \ (\ PageIndex {1}\) Gráfico de caule e folha “>
    Caule Folha
    3 3
    4 2 9 9
    5 3 5 5
    6 1 3 7 8 8 9 9
    7 2 3 4 8
    8 0 3 8 8 8
    9 0 2 4 4 4 4 6
    10 0
    Tabela\(\PageIndex{2}\) 1. Gráfico de caule e folha

    O modelo mostra que a maioria das pontuações caiu nos anos 60, 70, 80 e 90. Oito das 31 pontuações ou aproximadamente 26% (831) (831) estavam nos anos 90 ou 100, um número bastante alto de As.

    Exercício\(\PageIndex{2}\).1

    Para o time de basquete de Park City, as pontuações dos últimos 30 jogos foram as seguintes (da menor para a maior):

    32; 32; 33; 34; 38; 40; 42; 42; 43; 44; 46; 47; 47; 48; 48; 48; 49; 50; 50; 51; 52; 52; 53; 54; 56; 57; 60; 61

    Construa um gráfico de tronco para os dados.

    O stemplot é uma forma rápida de representar graficamente os dados e fornece uma imagem exata dos dados. Você quer procurar um padrão geral e quaisquer valores atípicos. Um outlier é uma observação de dados que não se encaixa no resto dos dados. Às vezes, é chamado de valor extremo. Quando você representa graficamente um outlier, ele parece não se encaixar no padrão do gráfico. Alguns valores atípicos são causados por erros (por exemplo, anotar 50 em vez de 500), enquanto outros podem indicar que algo incomum está acontecendo. São necessárias algumas informações básicas para explicar os valores atípicos, então os abordaremos com mais detalhes posteriormente.

    Exemplo\(\PageIndex{2}\).2

    Os dados são as distâncias (em quilômetros) de uma casa até os supermercados locais. Crie um modelo usando os dados:

    1,1; 1,5; 2,3; 2,5; 2,7; 3,2; 3,3; 3,3; 3,5; 3,8; 4,0; 4,2; 4,5; 4,5; 4,7; 4,8; 5,5; 5,6; 6,5; 6,7; 12,3

    Os dados parecem ter alguma concentração de valores?

    NOTA

    As folhas estão à direita do decimal.

    Resposta

    O valor 12,3 pode ser um outlier. Os valores parecem se concentrar em três e quatro quilômetros.

    \ (\ PageIndex {2}\) “>
    Caule Folha
    1 1 5
    2 3 5 7
    3 2 3 3 5 8
    4 0 2 5 5 7 8
    5 5 6
    6 5 7
    7
    8
    9
    10
    11
    12 3
    Tabela\(\PageIndex{2}\) 2.

    Exercício\(\PageIndex{2}\).2

    Os dados a seguir mostram as distâncias (em milhas) das casas de estudantes de estatística fora do campus até a faculdade. Crie um gráfico de tronco usando os dados e identifique quaisquer valores atípicos:

    0,5; 0,7; 1,1; 1,2; 1,2; 1,3; 1,3; 1,5; 1,5; 1,7; 1,7; 1,8; 1,9; 2,0; 2,2; 2,5; 2,6; 2,8; 2,8; 2,8; 3,5; 3,8; 4,4; 4,8; 4,8; 4,9; 5,5; 5,7; 5,7; 5,8; 8,0

    Exemplo\(\PageIndex{2}\).3

    Um gráfico de caule e folha lado a lado permite uma comparação dos dois conjuntos de dados em duas colunas. Em um gráfico lado a lado com caule e folhas, dois conjuntos de folhas compartilham o mesmo caule. As folhas estão à esquerda e à direita dos caules. A Tabela\(\PageIndex{2}\) 4 e a Tabela\(\PageIndex{2}\) 5 mostram a idade dos presidentes na posse e na morte. Construa um gráfico de caule e folhas lado a lado usando esses dados.

    Resposta
    \ (\ PageIndex {3}\) “>
    Idades na inauguração Idades na morte
    9 9 8 7 7 7 6 3 2 4 6 9
    8 7 7 7 7 6 6 5 5 5 5 4 4 4 4 4 4 2 2 1 1 1 1 1 1 0 5 3 6 6 7 7 8
    9 8 5 4 4 2 1 1 1 0 6 0 0 3 3 4 4 5 6 7 7 7 8
    7 0 0 1 1 1 4 7 8 8 9
    8 0 1 3 5 8
    9 0 0 3 3
    Tabela\(\PageIndex{2}\) 3.
    \ (\ PageIndex {4}\) Idades presidenciais na inauguração “>
    Presidente Idade Presidente Idade Presidente Idade
    Washington 57 Lincoln 52 Hoover 54
    J. Adams 61 A. Johnson 56 F. Roosevelt 51
    Jefferson 57 Grant 46 Truman 60
    Madison 57 Hayes 54 Eisenhower 62
    Monroe 58 Garfield 49 Kennedy 43
    J. Q. Adams 57 Artur 51 L. Johnson 55
    Jackson 61 Cleveland 47 Nixon 56
    Van Buren 54 B. Harrison 55 Ford 61
    William H. Harrison 68 Cleveland 55 Carter 52
    Tyler 51 McKinley 54 Reagan 69
    Polk 49 T. Roosevelt 42 G. H. W. Bush 64
    Taylor 64 Taft 51 Clinton 47
    Fillmore 50 Wilson 56 G. W. Bush 54
    Pierce 48 endurecimento 55 Obama 47
    Buchanan 65 Coolidge 51 Trump 70
    Tabela\(\PageIndex{2}\) 4. Idades presidenciais na inauguração
    \ (\ PageIndex {5}\) Idade presidencial na morte “>
    Presidente Idade Presidente Idade Presidente Idade
    Washington 67 Lincoln 56 Hoover 90
    J. Adams 90 A. Johnson 66 F. Roosevelt 63
    Jefferson 83 Grant 63 Truman 88
    Madison 85 Hayes 70 Eisenhower 78
    Monroe 73 Garfield 49 Kennedy 46
    J. Q. Adams 80 Artur 56 L. Johnson 64
    Jackson 78 Cleveland 71 Nixon 81
    Van Buren 79 B. Harrison 67 Ford 93
    William H. Harrison 68 Cleveland 71 Reagan 93
    Tyler 71 McKinley 58
    Polk 53 T. Roosevelt 60
    Taylor 65 Taft 72
    Fillmore 74 Wilson 67
    Pierce 64 endurecimento 57
    Buchanan 77 Coolidge 60
    Tabela\(\PageIndex{2}\) 5. Idade presidencial na morte

    Outro tipo de gráfico que é útil para valores de dados específicos é um gráfico de linhas. No gráfico de linhas específico mostrado no Exemplo\(\PageIndex{4}\), o eixo x (eixo horizontal) consiste em valores de dados e o eixo y (eixo vertical) consiste em pontos de frequência. Os pontos de frequência são conectados usando segmentos de linha.

    Exemplo\(\PageIndex{2}\).4

    Em uma pesquisa, 40 mães foram questionadas sobre quantas vezes por semana um adolescente deve ser lembrado de fazer suas tarefas. Os resultados são mostrados na Tabela\(\PageIndex{2}\) 6 e na Figura\(\PageIndex{2}\) 2.

    \ (\ PageIndex {6}\) “>
    Número de vezes que o adolescente é lembrado Frequência
    0 2
    1 5
    2 8
    3 14
    4 7
    5 4

    Tabela 2.6

    Um gráfico de linhas mostrando o número de vezes que um adolescente precisa ser lembrado de fazer tarefas no eixo x e a frequência no eixo y.

    Figura 2.2

    Exercício\(\PageIndex{4}\)

    Em uma pesquisa, 40 pessoas foram questionadas sobre quantas vezes por ano tinham o carro na oficina para reparos. Os resultados são mostrados na Tabela\(\PageIndex{7}\). Construa um gráfico de linhas.

    \ (\ PageIndex {7}\) “>
    Número de vezes na loja Frequência
    0 7
    1 10
    2 14
    3 9

    Tabela 2.2.7

    Os gráficos de barras consistem em barras separadas umas das outras. As barras podem ser retângulos ou caixas retangulares (usadas em gráficos tridimensionais) e podem ser verticais ou horizontais. O gráfico de barras mostrado no Exemplo\(\PageIndex{5}\) tem faixas etárias representadas no eixo x e proporções no eixo y.

    Exercício\(\PageIndex{1}\)

    Adicione o texto dos exercícios aqui.

    Resposta

    Solução 2.5

    Este é um gráfico de barras que corresponde aos dados fornecidos. O eixo x mostra as faixas etárias e o eixo y mostra as porcentagens de usuários do Facebook.
    Figura\(\PageIndex{2}\) 3.

    Exemplo\(\PageIndex{5}\)

    No final de 2011, o Facebook tinha mais de 146 milhões de usuários nos Estados Unidos. A Tabela\(\PageIndex{2}\) 8 mostra três faixas etárias, o número de usuários em cada faixa etária e a proporção (%) de usuários em cada faixa etária. Construa um gráfico de barras usando esses dados.

    \ (\ PageIndex {8}\) “>
    Grupos etários Número de usuários do Facebook Proporção (%) de usuários do Facebook
    13—25 65.082.280 45%
    26—44 53.300.200 36%
    45—64 27.885.100 19%

    Tabela 2.2.8

    Solução

    Exercício\(\PageIndex{5}\)

    Adicione o texto dos exercícios aqui.

    Resposta

    A população em Park City é composta por crianças, adultos em idade ativa e aposentados. A tabela\(\PageIndex{9}\) mostra as três faixas etárias, o número de pessoas na cidade de cada faixa etária e a proporção (%) de pessoas em cada faixa etária. Construa um gráfico de barras mostrando as proporções.

    \ (\ PageIndex {9}\) “>
    Grupos etários Número de pessoas Proporção da população
    Crianças 67.059 19%
    Adultos em idade ativa 152.198 43%
    Aposentados 131.662 38%

    Tabela 2.2.9

    Exemplo\(\PageIndex{2}\).6

    As colunas na Tabela\(\PageIndex{2}\) .10 contêm: a raça ou etnia dos estudantes nas escolas públicas dos EUA para a turma de 2011, porcentagens da população examinada de colocação avançada para essa turma e porcentagens para a população geral de estudantes. Crie um gráfico de barras com a raça ou etnia do aluno (dados qualitativos) no eixo x e as porcentagens da população de examinandos do Advanced Placement no eixo y.

    \ (\ PageIndex {10}\) “>
    Raça/etnia População de examinandos da AP População geral de estudantes
    1 = Asiático, asiático-americano ou ilhéu do Pacífico 10,3% 5,7%
    2 = negro ou afro-americano 9,0% 14,7%
    3 = hispânico ou latino 17,0% 17,6%
    4 = índio americano ou nativo do Alasca 0,6% 1,1%
    5 = Branco 57,1% 59,2%
    6 = Não relatado/outro 6,0% 1,7%

    Tabela 2.2.10

    Resposta

    Solução 2.6

    Este é um gráfico de barras que corresponde aos dados fornecidos. O eixo x mostra raça e etnia, e o eixo y mostra as porcentagens de examinandos AP.
    Figura\(\PageIndex{2}\) 4.

    Exercício\(\PageIndex{2}\).6

    Adicione o texto dos exercícios aqui.

    Resposta

    Park City é dividida em seis distritos eleitorais. A tabela mostra a porcentagem da população total de eleitores registrados que vive em cada distrito, bem como a porcentagem total de toda a população que vive em cada distrito. Construa um gráfico de barras que mostre a população eleitoral registrada por distrito.

    \ (\ PageIndex {11}\) “>
    Distrito População de eleitores registrados População geral da cidade
    1 15,5% 19,4%
    2 12,2% 15,6%
    3 9,8% 9,0%
    4 17,4% 18,5%
    5 22,8% 20,7%
    6 22,3% 16,8%
    Tabela\(\PageIndex{2}\) 1.1

    Exemplo\(\PageIndex{2}\).7

    Abaixo está uma tabela bidirecional mostrando os tipos de animais de estimação pertencentes a homens e mulheres:

    \ (\ PageIndex {12}\) “>
    Cães Gatos Peixe Total
    Homens 4 2 2 8
    Mulheres 4 6 2 12
    Total 8 8 4 20
    Tabela\(\PageIndex{2}\) 1.2

    Dados esses dados, calcule as distribuições condicionais para a subpopulação de homens que possuem cada tipo de animal de estimação.

    Resposta
    • Homens que possuem cães = 4/8 = 0,5
    • Homens que possuem gatos = 2/8 = 0,25
    • Homens que possuem peixes = 2/8 = 0,25

    Nota: A soma de todas as distribuições condicionais deve ser igual a uma. Nesse caso, 0,5 + 0,25 + 0,25 = 1; portanto, a solução “verifica”.

    Histogramas, polígonos de frequência e gráficos de séries temporais

    Para a maior parte do trabalho que você faz neste livro, você usará um histograma para exibir os dados. Uma vantagem de um histograma é que ele pode exibir facilmente grandes conjuntos de dados. Uma regra geral é usar um histograma quando o conjunto de dados consiste em 100 valores ou mais.

    Um histograma consiste em caixas contíguas (adjacentes). Tem um eixo horizontal e um eixo vertical. O eixo horizontal é rotulado com o que os dados representam (por exemplo, a distância de sua casa até a escola). O eixo vertical é rotulado como frequência ou frequência relativa (ou porcentagem de frequência ou probabilidade). O gráfico terá a mesma forma com qualquer rótulo. O histograma (como o stemplot) pode fornecer a forma dos dados, o centro e a dispersão dos dados.

    A frequência relativa é igual à frequência de um valor observado dos dados dividido pelo número total de valores de dados na amostra. (Lembre-se de que a frequência é definida como o número de vezes que uma resposta ocorre.) Se:

    • \(f\)= frequência
    • \(n\)= número total de valores de dados (ou a soma das frequências individuais) e
    • \(RF\)= frequência relativa,

    então:

    \ [\ RF=\ frac {f} {n}\ nonumber]

    Por exemplo, se três alunos da turma de inglês do Sr. Ahab de 40 alunos receberam de 90% a 100%\(f = 3\), então\(n = 40\),,\(RF = \frac{f}{n} = \frac{3}{40} = 0.075\) e. 7,5% dos alunos receberam 90— 100%. 90— 100% são medidas quantitativas.

    Para construir um histograma, primeiro decida quantas barras ou intervalos, também chamados de classes, representam os dados. Muitos histogramas consistem em cinco a 15 barras ou classes para maior clareza. O número de barras precisa ser escolhido. Escolha um ponto de partida para que o primeiro intervalo seja menor que o menor valor de dados. Um ponto de partida conveniente é um valor menor realizado com mais uma casa decimal do que o valor com mais casas decimais. Por exemplo, se o valor com mais casas decimais for 6,1 e esse for o menor valor, um ponto de partida conveniente será 6,05 (6,1 — 0,05 = 6,05). Dizemos que 6,05 tem mais precisão. Se o valor com mais casas decimais for 2,23 e o menor valor for 1,5, um ponto de partida conveniente será 1,495 (1,5 — 0,005 = 1,495). Se o valor com mais casas decimais for 3,234 e o menor valor for 1,0, um ponto de partida conveniente será 0,9995 (1,0 — 0,0005 = 0,9995). Se todos os dados forem inteiros e o menor valor for dois, um ponto de partida conveniente será 1,5 (2 — 0,5 = 1,5). Além disso, quando o ponto de partida e outros limites são transportados para uma casa decimal adicional, nenhum valor de dados cairá em um limite. Os próximos dois exemplos detalham como construir um histograma usando dados contínuos e como criar um histograma usando dados discretos.

    Exemplo\(\PageIndex{2}\).8

    Os dados a seguir são as alturas (em polegadas até a meia polegada mais próxima) de 100 jogadores de futebol semiprofissionais do sexo masculino. As alturas são dados contínuos, pois a altura é medida.

    60; 60,5; 61; 61; 61,5 63,5; 63,5;
    63,5 64; 64; 64;
    64; 64; 64; 64; 64; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5; 64,5; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66;
    66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66 6,5; 66,5; 66,5; 66,5; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67,5; 67,5; 67,5; 67,5; 67,5; 67,5; 67,5;
    68; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69,5; 69,5; 69,5; 69,5; 69,5; 69,5; 70; 70; 70; 70; 70; 70; 70; 70; 70; 70;
    70; 70,5; 70,5; 70,5; 71; 71; 72; 72; 72; 72; 72; 72; 72; 72; 72; 72;
    72; 70; 70; 70; 70; 70; 70; 70; 70,5; 70,5; 70,5; 70,5; 71; 71 72,5; 72,5; 73; 73,5
    74

    O menor valor de dados é 60. Como os dados com mais casas decimais têm um decimal (por exemplo, 61,5), queremos que nosso ponto de partida tenha duas casas decimais. Como os números 0,5, 0,05, 0,005 etc. são números convenientes, use 0,05 e subtraia de 60, o menor valor, para o ponto de partida conveniente.

    60 — 0,05 = 59,95, o que é mais preciso do que, digamos, 61,5 por uma casa decimal. O ponto de partida é, então, 59,95.

    O maior valor é 74, então 74 + 0,05 = 74,05 é o valor final.

    Em seguida, calcule a largura de cada barra ou intervalo de classe. Para calcular essa largura, subtraia o ponto inicial do valor final e divida pelo número de barras (você deve escolher o número de barras que deseja). Suponha que você escolha oito barras.

    \[\frac{74.05−59.95}{8}=1.76\non\nonumber\]

    NOTA

    Arredondaremos para dois e faremos com que cada barra ou intervalo de aula tenha duas unidades de largura. Arredondar para dois é uma forma de evitar que um valor caia em um limite. O arredondamento para o próximo número geralmente é necessário, mesmo que isso vá contra as regras padrão de arredondamento. Neste exemplo, usar 1,76 como largura também funcionaria. Uma diretriz seguida por algumas para a largura de uma barra ou intervalo de classe é pegar a raiz quadrada do número de valores de dados e, em seguida, arredondar para o número inteiro mais próximo, se necessário. Por exemplo, se houver 150 valores de dados, pegue a raiz quadrada de 150 e arredonde para 12 barras ou intervalos.

    Os limites são:

    • 59,95
    • 59,95 + 2 = 61,95
    • 61,95 + 2 = 63,95
    • 63,95 + 2 = 65,95
    • 65,95 + 2 = 67,95
    • 67,95 + 2 = 69,95
    • 69,95 + 2 = 71,95
    • 71,95 + 2 = 73,95
    • 73,95 + 2 = 75,95

    As alturas de 60 a 61,5 polegadas estão no intervalo de 59,95 a 61,95. As alturas que são 63,5 estão no intervalo 61,95—63,95. As alturas que são de 64 a 64,5 estão no intervalo de 63,95 a 65,95. As alturas 66 a 67,5 estão no intervalo 65,95—67,95. As alturas 68 a 69,5 estão no intervalo 67,95—69,95. As alturas de 70 a 71 estão no intervalo 69,95—71,95. As alturas de 72 a 73,5 estão no intervalo de 71,95—73,95. A altura 74 está no intervalo 73,95—75,95.

    O histograma a seguir exibe as alturas no eixo x e a frequência relativa no eixo y.

    O histograma consiste em 8 barras com o eixo y em incrementos de 0,05 de 0-0,4 e o eixo x em intervalos de 2 de 59,95-75,95.
    Figura\(\PageIndex{2}\) 5.

    Exercício\(\PageIndex{2}\).8

    Os dados a seguir são os tamanhos de calçados de 50 estudantes do sexo masculino. Os tamanhos são dados contínuos, pois o tamanho do sapato é medido. Crie um histograma e calcule a largura de cada barra ou intervalo de classe. Suponha que você escolha seis barras.

    9; 9; 9,5; 9,5; 10; 10; 10; 10; 10; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5; 10,5
    11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11,5; 11,5; 11,5;
    12; 12; 12; 12; 12; 12; 12; 12; 12,5; 12,5; 12,5; 12,5; 14

    Exemplo\(\PageIndex{2}\).9

    Crie um histograma para os seguintes dados: o número de livros comprados por 50 estudantes universitários em tempo parcial no ABC College. O número de livros é um dado discreto, já que os livros são contados.

    1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 2; 2; 2; 2; 2;
    2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3;
    3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4;
    4; 4; 4; 4; 4; 4; 5; 5;
    5; 5; 5; 5; 5; 6; 6;
    6; 6;

    Onze estudantes compram um livro. Dez estudantes compram dois livros. Dezesseis estudantes compram três livros. Seis estudantes compram quatro livros. Cinco estudantes compram cinco livros. Dois estudantes compram seis livros.

    Como os dados são números inteiros, subtraia 0,5 de 1, o menor valor de dados, e adicione 0,5 a 6, o maior valor de dados. Então, o ponto de partida é 0,5 e o valor final é 6,5.

    Em seguida, calcule a largura de cada barra ou intervalo de classe. Se os dados forem discretos e não houver muitos valores diferentes, uma largura que coloque os valores dos dados no meio da barra ou do intervalo da classe é a mais conveniente. Como os dados consistem nos números 1, 2, 3, 4, 5, 6 e o ponto inicial é 0,5, uma largura de um coloca o 1 no meio do intervalo de 0,5 a 1,5, o 2 no meio do intervalo de 1,5 a 2,5, o 3 no meio do intervalo de 2,5 a 3,5, o 4 no meio do intervalo de _____ __ a _______, o 5 no meio do intervalo de _______ a _______ e o _______ no meio do intervalo de _______ a _______.

    Solução

    Calcule o número de barras da seguinte forma:

    \[\frac{6.5−0.5}{\text{number of bars}}=1\nonumber\]

    onde 1 é a largura de uma barra. Portanto, barras = 6.

    O histograma a seguir mostra o número de livros no eixo x e a frequência no eixo y.

    O histograma consiste em 6 barras com o eixo y em incrementos de 2 de 0-16 e o eixo x em intervalos de 1 de 0,5-6,5.
    Figura\(\PageIndex{2}\) 6.

    Exemplo\(\PageIndex{2}\).10

    Usando esse conjunto de dados, construa um histograma.

    \ (\ PageIndex {13}\) “>
    Número de horas que meus colegas passaram jogando videogame nos fins de semana
    9,95 10 2,25 16,75 0
    19,5 22,5 7.5 15 12,75
    5.5 11 10 20,75 17,5
    23 21,9 24 23,75 18
    20 15 22,9 18,8 20,5
    Tabela\(\PageIndex{2}\) 1.3
    Resposta

    Solução 2.10

    É um histograma que corresponde aos dados fornecidos. O eixo x consiste em 5 barras em intervalos de 5 de 0 a 25. O eixo y é marcado em incrementos de 1 de 0 a 10. O eixo x mostra o número de horas gastas jogando videogame nos finais de semana e o eixo y mostra o número de alunos.
    Figura\(\PageIndex{2}\) 7.

    Alguns valores nesse conjunto de dados estão dentro dos limites dos intervalos das classes. Um valor é contado em um intervalo de classe se cair no limite esquerdo, mas não se cair no limite direito. Pesquisadores diferentes podem configurar histogramas para os mesmos dados de maneiras diferentes. Há mais de uma maneira correta de configurar um histograma.

    Polígonos de frequência

    Os polígonos de frequência são análogos aos gráficos de linha e, assim como os gráficos de linha tornam os dados contínuos visualmente fáceis de interpretar, o mesmo acontece com os polígonos de frequência.

    Para construir um polígono de frequência, primeiro examine os dados e decida o número de intervalos, ou intervalos de classe, a serem usados nos eixos x e y. Depois de escolher os intervalos apropriados, comece a traçar os pontos de dados. Depois que todos os pontos estiverem plotados, desenhe segmentos de linha para conectá-los.

    Exemplo\(\PageIndex{2}\).11

    Um polígono de frequência foi construído a partir da tabela de frequência abaixo.

    \ (\ PageIndex {14}\) “>
    Limite inferior Limite superior Frequência Frequência cumulativa
    49,5 59,5 5 5
    59,5 69,5 10 15
    69,5 79,5 30 45
    79,5 89,5 40 85
    89,5 99,5 15 100
    Tabela\(\PageIndex{2}\) .14: Distribuição de frequência para os resultados finais do teste de cálculo
    Um polígono de frequência foi construído a partir da tabela de frequência abaixo.
    Figura\(\PageIndex{2}\) 8.

    A primeira etiqueta no eixo x é 44,5. Isso representa um intervalo que se estende de 39,5 a 49,5. Como a pontuação mais baixa do teste é 54,5, esse intervalo é usado apenas para permitir que o gráfico toque no eixo x. O ponto rotulado 54,5 representa o próximo intervalo, ou o primeiro intervalo “real” da tabela, e contém cinco pontuações. Esse raciocínio é seguido para cada um dos intervalos restantes, com o ponto 104,5 representando o intervalo de 99,5 a 109,5. Novamente, esse intervalo não contém dados e é usado apenas para que o gráfico toque o eixo x. Olhando para o gráfico, dizemos que essa distribuição está distorcida porque um lado do gráfico não reflete o outro lado.

    Exercício\(\PageIndex{2}\).11

    Construa um polígono de frequência das idades dos presidentes dos EUA na inauguração, mostrado na Tabela\(\PageIndex{15}\).

    \ (\ PageIndex {15}\) “>
    Idade na inauguração Frequência
    41,5—46,5 4
    46,5—51,5 11
    51,5—56,5 14
    56,5—61,5 9
    61,5—66,5 4
    66,5—71,5 2

    Tabela 2.2.15

    Polígonos de frequência são úteis para comparar distribuições. Isso é obtido sobrepondo os polígonos de frequência desenhados para diferentes conjuntos de dados.

    Exemplo\(\PageIndex{2}\).12

    Construiremos um polígono de frequência de sobreposição comparando as pontuações do Example\(\PageIndex{11}\) com a nota numérica final dos alunos.

    \ (\ PageIndex {16}\) “>
    Limite inferior Limite superior Frequência Frequência cumulativa
    49,5 59,5 5 5
    59,5 69,5 10 15
    69,5 79,5 30 45
    79,5 89,5 40 85
    89,5 99,5 15 100
    Tabela\(\PageIndex{2}\) .16: Distribuição de frequência para os resultados finais do teste de cálculo
    \ (\ PageIndex {17}\) “>
    Limite inferior Limite superior Frequência Frequência cumulativa
    49,5 59,5 10 10
    59,5 69,5 10 20
    69,5 79,5 30 50
    79,5 89,5 45 95
    89,5 99,5 5 100
    Tabela\(\PageIndex{2}\) .17: Distribuição de frequência para notas finais de cálculo
    Esse é um polígono de frequência de sobreposição que corresponde aos dados fornecidos. O eixo x mostra as notas e o eixo y mostra a frequência.
    Figura\(\PageIndex{2}\) 9.

    Construindo um gráfico de séries temporais

    Suponha que queiramos estudar a faixa de temperatura de uma região por um mês inteiro. Todos os dias, ao meio-dia, notamos a temperatura e a anotamos em um registro. Diversos estudos estatísticos poderiam ser feitos com esses dados. Poderíamos encontrar a temperatura média ou mediana do mês. Poderíamos construir um histograma exibindo o número de dias em que as temperaturas atingem uma determinada faixa de valores. No entanto, todos esses métodos ignoram uma parte dos dados que coletamos.

    Uma característica dos dados que talvez queiramos considerar é a do tempo. Como cada data é combinada com a leitura da temperatura do dia, não precisamos pensar nos dados como aleatórios. Em vez disso, podemos usar os tempos dados para impor uma ordem cronológica aos dados. Um gráfico que reconhece essa ordem e exibe a mudança de temperatura à medida que o mês avança é chamado de gráfico de série temporal.

    Para construir um gráfico de séries temporais, precisamos examinar as duas partes do nosso conjunto de dados pareado. Começamos com um sistema de coordenadas cartesiano padrão. O eixo horizontal é usado para traçar os incrementos de data ou hora, e o eixo vertical é usado para traçar os valores da variável que estamos medindo. Ao fazer isso, fazemos com que cada ponto no gráfico corresponda a uma data e a uma quantidade medida. Os pontos no gráfico são normalmente conectados por linhas retas na ordem em que ocorrem.

    Exemplo\(\PageIndex{2}\).13

    Os dados a seguir mostram o Índice Anual de Preços ao Consumidor, a cada mês, por dez anos. Construa um gráfico de séries temporais somente para os dados do Índice Anual de Preços ao Consumidor.

    \ (\ PageIndex {18}\) “>
    Ano Jan Fevereiro Mar abr Pode Junho jul
    2003 181,7 183.1 184,2 183,8 183,5 183,7 183,9
    2004 185.2 186,2 187,4 188,0 189,1 189,7 189,4
    2005 190.7 191,8 193.3 194,6 194,4 194,5 195,4
    2006 198,3 198,7 1998 201,5 202,5 202,9 203,5
    2007 202.416 203.499 205.352 206.686 207.949 208.352 208.299
    2008 211.080 211.693 213.528 214.823 216.632 218.815 219.964
    2009 211.143 212.193 212.709 213.240 213.856 215.693 215.351
    2010 216.687 216.741 217.631 218.009 218.178 217.965 218.011
    2011 220.223 221.309 223,467 224.906 25.964 25.722 25.922
    2012 226.665 227.663 229.392 230,085 229.815 229.478 229.104
    Tabela\(\PageIndex{2}\) 1.8
    \ (\ PageIndex {19}\) “>
    Ano Ago 6 de setembro Out Novembro Dez Anual
    2003 184,6 185.2 185,0 184,5 184,3 184,0
    2004 189,5 189,9 190,9 191,0 190,3 188,9
    2005 196,4 198,8 1992 197,6 196,8 195,3
    2006 203,9 202,9 201.8 201,5 201.8 201,6
    2007 207.917 208.490 208.936 210.177 210.036 207.342
    2008 219.086 218.783 216.573 212.425 210.228 215.303
    2009 215.834 215,969 216.177 216.330 215.949 214.537
    2010 218.312 218.439 218.711 218.803 219.179 218.056
    2011 226.545 226.889 226.421 226.230 25.672 224.939
    2012 230,379 231.407 231.317 230,221 229.601 229.594
    Tabela\(\PageIndex{2}\) 1.9
    Resposta

    Solução 2.13

    Este é um gráfico de séries temporais que corresponde aos dados fornecidos. O eixo x mostra os anos de 2003 a 2012, e o eixo y mostra o CPI anual.
    Figura\(\PageIndex{2}\) 1.0

    Exercício\(\PageIndex{2}\).13

    A tabela a seguir é uma parte de um conjunto de dados do www.worldbank.org. Use a tabela para criar um gráfico de séries temporais das emissões de CO 2 nos Estados Unidos.

    \ (\ PageIndex {20}\) “>
    Ano Ucrânia Reino Unido Estados Unidos
    2003 352.259 540.640 5.681.664
    2004 343.121 540.409 5.790.761
    2005 339.029 541.990 5.826.394
    2006 327.797 542.045 5.737.615
    2007 328.357 528.631 5.828,697
    2008 323.657 522.247 5.656.839
    2009 272.176 474.579 5.299.563
    Tabela\(\PageIndex{20}\): Emissões de CO 2

    Usos de um gráfico de séries temporais

    Gráficos de séries temporais são ferramentas importantes em várias aplicações de estatísticas. Ao registrar valores da mesma variável durante um longo período de tempo, às vezes é difícil discernir qualquer tendência ou padrão. No entanto, quando os mesmos pontos de dados são exibidos graficamente, alguns recursos se destacam. Os gráficos de séries temporais facilitam a identificação de tendências.

    Como NÃO mentir com estatísticas

    É importante lembrar que a própria razão pela qual desenvolvemos uma variedade de métodos para apresentar dados é desenvolver insights sobre o que as observações representam. Queremos ter uma “noção” dos dados. As observações são todas muito parecidas ou estão espalhadas por uma ampla faixa de valores, estão agrupadas em uma extremidade do espectro ou estão distribuídas uniformemente e assim por diante. Estamos tentando obter uma imagem visual dos dados numéricos. Em breve, desenvolveremos medidas matemáticas formais dos dados, mas nossa apresentação gráfica visual pode dizer muito. Infelizmente, também pode dizer muita coisa que distrai, confusa e simplesmente errada em termos da impressão que o visual deixa. Há muitos anos, Darrell Huff escreveu o livro How to Lie with Statistics. Já passou por mais de 25 impressões e vendeu mais de um milhão e meio de cópias. Sua perspectiva era dura e usou muitos exemplos reais que foram projetados para enganar. Ele queria conscientizar as pessoas sobre esse engano, mas talvez o mais importante seja educar para que outras pessoas não cometam os mesmos erros inadvertidamente.

    Novamente, o objetivo é iluminar com imagens que contam a história dos dados. Os gráficos circulares têm vários problemas comuns quando usados para transmitir a mensagem dos dados. Muitos pedaços da torta sobrecarregam o leitor. Talvez mais de cinco ou seis categorias devam dar uma ideia da importância relativa de cada peça. Afinal, esse é o objetivo de um gráfico circular, qual subconjunto é mais importante em relação aos outros. Se houver mais componentes do que isso, talvez uma abordagem alternativa seja melhor ou talvez alguns possam ser consolidados em uma “outra” categoria. Os gráficos circulares não mostram mudanças ao longo do tempo, embora vejamos essa tentativa com muita frequência. Em documentos financeiros federais, estaduais e municipais, gráficos de pizza são frequentemente apresentados para mostrar os componentes da receita disponíveis para apropriação do órgão regulador: imposto de renda, imposto sobre vendas, impostos sobre veículos automotores e assim por diante. Por si só, essa é uma informação interessante e pode ser bem feita com um gráfico circular. O erro ocorre quando dois anos são definidos lado a lado. Como a receita total muda de ano para ano, mas o tamanho da torta é fixo, nenhuma informação real é fornecida e o tamanho relativo de cada pedaço da torta não pode ser comparado de forma significativa.

    Os histogramas podem ser muito úteis para entender os dados. Apresentados adequadamente, eles podem ser uma forma visual rápida de apresentar probabilidades de diferentes categorias pelo simples visual de comparar áreas relativas em cada categoria. Aqui, o erro, intencional ou não, é variar a largura das categorias. Obviamente, isso torna impossível a comparação com as outras categorias. Ela embeleza a importância da categoria com a largura expandida porque tem uma área maior, de forma inadequada e, portanto, “diz” visualmente que essa categoria tem uma probabilidade maior de ocorrência.

    Os gráficos de séries temporais talvez sejam os mais abusados. Um gráfico de alguma variável ao longo do tempo nunca deve ser apresentado em eixos que mudam parcialmente na página, seja na dimensão vertical ou horizontal. Talvez o prazo seja alterado de anos para meses. Talvez isso seja para economizar espaço ou porque os dados mensais não estavam disponíveis nos primeiros anos. Em ambos os casos, isso confunde a apresentação e destrói qualquer valor do gráfico. Se isso não for feito para confundir propositalmente o leitor, certamente é um trabalho preguiçoso ou desleixado.

    Alterar as unidades de medida do eixo pode suavizar uma queda ou acentuá-la. Se você quiser mostrar grandes mudanças, meça a variável em unidades pequenas, centavos em vez de milhares de dólares. E, claro, para continuar a fraude, certifique-se de que o eixo não comece em zero, zero. Se começar em zero, zero, fica claro que o eixo foi manipulado.

    Talvez você tenha um cliente preocupado com a volatilidade do portfólio que você gerencia. Uma maneira fácil de apresentar os dados é usar longos períodos de tempo no gráfico de séries temporais. Use meses ou mais, trimestres em vez de dados diários ou semanais. Se isso não diminuir a volatilidade, espalhe o eixo do tempo em relação à taxa de retorno ou ao eixo de avaliação do portfólio. Se você quiser mostrar um crescimento dramático “rápido”, reduza o eixo do tempo. Qualquer crescimento positivo mostrará taxas de crescimento visualmente “altas”. Observe que, se o crescimento for negativo, esse truque mostrará que o portfólio está entrando em colapso a uma taxa dramática.

    Novamente, o objetivo da estatística descritiva é transmitir imagens significativas que contem a história dos dados. A manipulação intencional é fraude e antiética na pior das hipóteses, mas mesmo na melhor das hipóteses, cometer esse tipo de erro causará confusão por parte da análise.