1.2: Definições de estatística, probabilidade e termos-chave

Last updated
Save as PDF

Page ID: 190374

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

A ciência da estatística lida com a coleta, análise, interpretação e apresentação de dados. Nós vemos e usamos dados em nossa vida cotidiana.

Exercício colaborativo

Em sua sala de aula, experimente este exercício. Peça aos alunos que escrevam o tempo médio (em horas, até a meia hora mais próxima) em que dormem por noite. Seu instrutor registrará os dados. Em seguida, crie um gráfico simples (chamado de gráfico de pontos) dos dados. Um gráfico de pontos consiste em uma linha numérica e pontos (ou pontos) posicionados acima da linha numérica. Por exemplo, considere os seguintes dados:

5; 5,5; 6; 6; 6,5; 6,5; 6,5; 6,5; 7; 7; 8; 8; 9

O gráfico de pontos para esses dados seria o seguinte:

Seu gráfico de pontos tem a mesma aparência ou é diferente do exemplo? Por quê?
Se você fizesse o mesmo exemplo em uma aula de inglês com o mesmo número de alunos, acha que os resultados seriam os mesmos? Por que ou por que não?
Onde seus dados parecem se agrupar? Como você pode interpretar o agrupamento?

As perguntas acima solicitam que você analise e interprete seus dados. Com este exemplo, você começou seu estudo de estatística.

Neste curso, você aprenderá a organizar e resumir dados. Organizar e resumir dados é chamado de estatística descritiva. Duas formas de resumir dados são por meio de gráficos e usar números (por exemplo, encontrar uma média). Depois de estudar as distribuições de probabilidade e probabilidade, você usará métodos formais para tirar conclusões a partir de dados “bons”. Os métodos formais são chamados de estatísticas inferenciais. A inferência estatística usa a probabilidade para determinar o quão confiantes podemos ter de que nossas conclusões estão corretas.

A interpretação eficaz dos dados (inferência) é baseada em bons procedimentos para produzir dados e em um exame cuidadoso dos dados. Você encontrará o que parecem ser muitas fórmulas matemáticas para interpretar dados. O objetivo das estatísticas não é realizar vários cálculos usando as fórmulas, mas obter uma compreensão dos seus dados. Os cálculos podem ser feitos usando uma calculadora ou um computador. O entendimento deve vir de você. Se você conseguir entender completamente os fundamentos das estatísticas, poderá ter mais confiança nas decisões que toma na vida.

Probabilidade

A probabilidade é uma ferramenta matemática usada para estudar a aleatoriedade. Ele lida com a chance (a probabilidade) de um evento ocorrer. Por exemplo, se você jogar uma moeda justa quatro vezes, os resultados podem não ser duas caras e duas coroas. No entanto, se você jogar a mesma moeda 4.000 vezes, os resultados serão próximos a meia cabeça e meia cauda. A probabilidade teórica esperada de cabeças em qualquer sorteio é de$\frac{1}{2}$ ou 0,5. Embora os resultados de algumas repetições sejam incertos, há um padrão regular de resultados quando há muitas repetições. Depois de ler sobre o estatístico inglês Karl Pearson, que jogou uma moeda 24.000 vezes com o resultado de 12.012 cabeças, um dos autores jogou uma moeda 2.000 vezes. Os resultados foram 996 cabeças. A fração$\frac{996}{2000}$ é igual a 0,498, que é muito próxima de 0,5, a probabilidade esperada.

A teoria da probabilidade começou com o estudo de jogos de azar, como o pôquer. As previsões assumem a forma de probabilidades. Para prever a probabilidade de um terremoto, de chuva ou se você obterá um A neste curso, usamos probabilidades. Os médicos usam a probabilidade para determinar a chance de uma vacinação causar a doença que a vacinação deve prevenir. Um corretor da bolsa usa a probabilidade para determinar a taxa de retorno dos investimentos de um cliente. Você pode usar a probabilidade para decidir comprar um bilhete de loteria ou não. Em seu estudo de estatística, você usará o poder da matemática por meio de cálculos de probabilidade para analisar e interpretar seus dados.

Termos-chave

Em estatística, geralmente queremos estudar uma população. Você pode pensar em uma população como uma coleção de pessoas, coisas ou objetos em estudo. Para estudar a população, selecionamos uma amostra. A ideia da amostragem é selecionar uma porção (ou subconjunto) da população maior e estudar essa porção (a amostra) para obter informações sobre a população. Os dados são o resultado da amostragem de uma população.

Como é preciso muito tempo e dinheiro para examinar uma população inteira, a amostragem é uma técnica muito prática. Se você quiser calcular a média geral de notas em sua escola, faria sentido selecionar uma amostra de alunos que frequentam a escola. Os dados coletados da amostra seriam as médias de notas dos alunos. Nas eleições presidenciais, amostras de pesquisas de opinião de 1.000 a 2.000 pessoas são coletadas. A pesquisa de opinião deve representar as opiniões das pessoas em todo o país. Os fabricantes de bebidas carbonatadas enlatadas coletam amostras para determinar se uma lata de 16 onças contém 16 onças de bebida carbonatada.

A partir dos dados da amostra, podemos calcular uma estatística. Uma estatística é um número que representa uma propriedade da amostra. Por exemplo, se considerarmos uma aula de matemática como uma amostra da população de todas as aulas de matemática, o número médio de pontos ganhos pelos alunos nessa aula de matemática no final do período é um exemplo de estatística. A estatística é uma estimativa de um parâmetro da população. Um parâmetro é um número que é uma propriedade da população. Como consideramos todas as aulas de matemática como sendo a população, o número médio de pontos ganhos por aluno em todas as aulas de matemática é um exemplo de parâmetro.

Uma das principais preocupações no campo da estatística é a precisão com que uma estatística estima um parâmetro. A precisão realmente depende de quão bem a amostra representa a população. A amostra deve conter as características da população para ser uma amostra representativa. Estamos interessados na estatística da amostra e no parâmetro da população em estatísticas inferenciais. Em um capítulo posterior, usaremos a estatística da amostra para testar a validade do parâmetro populacional estabelecido.

Uma variável, notada por letras maiúsculas, como$X$ e$Y$, é uma característica de interesse para cada pessoa ou coisa em uma população. As variáveis podem ser numéricas ou categóricas. As variáveis numéricas assumem valores com unidades iguais, como peso em libras e tempo em horas. As variáveis categóricas colocam a pessoa ou coisa em uma categoria. Se deixarmos$X$ igualar o número de pontos ganhos por um estudante de matemática no final de um período, então$X$ é uma variável numérica. Se deixarmos$Y$ ser a filiação partidária de uma pessoa, alguns exemplos$Y$ incluem republicano, democrata e independente. $Y$é uma variável categórica. Poderíamos fazer algumas contas com valores de$X$ (calcular o número médio de pontos ganhos, por exemplo), mas não faz sentido fazer cálculos com valores de$Y$ (calcular uma afiliação partidária média não faz sentido).

Os dados são os valores reais da variável. Podem ser números ou palavras. Datum é um valor único.

Duas palavras que aparecem com frequência nas estatísticas são média e proporção. Se você fizesse três exames em suas aulas de matemática e obtivesse notas de 86, 75 e 92, calcularia sua pontuação média somando as três notas dos exames e dividindo por três (sua pontuação média seria de 84,3 com uma casa decimal). Se, na sua aula de matemática, há 40 alunos e 22 são homens e 18 são mulheres, então a proporção de estudantes do sexo masculino é$\frac{22}{40}$ e a proporção de estudantes do sexo feminino é$\frac{18}{40}$. A média e a proporção são discutidas com mais detalhes nos capítulos posteriores.

As palavras "significa" e "média" são frequentemente usadas de forma intercambiável. A substituição de uma palavra pela outra é uma prática comum. O termo técnico é “média aritmética” e “média” é tecnicamente uma localização central. No entanto, na prática entre não estatísticos, “média” é comumente aceita como “média aritmética”.

Exemplo$\PageIndex{1}$

Determine a que os termos-chave se referem no estudo a seguir. Queremos saber a quantia média (média) de dinheiro que os estudantes universitários do primeiro ano gastam no ABC College em material escolar que não inclui livros. Pesquisamos aleatoriamente 100 alunos do primeiro ano da faculdade. Três desses estudantes gastaram $150, $200 e $225, respectivamente.

Resposta

A população é composta por todos os estudantes do primeiro ano que frequentam o ABC College neste semestre.
A amostra pode ser de todos os alunos matriculados em uma seção de um curso inicial de estatística no ABC College (embora essa amostra possa não representar toda a população).
O parâmetro é a quantia média (média) de dinheiro gasta (excluindo livros) pelos estudantes universitários do primeiro ano do ABC College neste semestre.
A estatística é a quantia média (média) de dinheiro gasta (excluindo livros) pelos estudantes universitários do primeiro ano da amostra.
A variável pode ser a quantidade de dinheiro gasta (excluindo livros) por um aluno do primeiro ano. Seja$X$ = a quantia de dinheiro gasta (excluindo livros) por um aluno do primeiro ano do ABC College.
Os dados são os valores em dólares gastos pelos alunos do primeiro ano. Exemplos dos dados são $150, $200 e $225.

Exercício$\PageIndex{1}$

Determine a que os termos-chave se referem no estudo a seguir. Queremos saber a quantia média (média) de dinheiro gasta em uniformes escolares a cada ano por famílias com crianças na Knoll Academy. Pesquisamos aleatoriamente 100 famílias com crianças na escola. Três das famílias gastaram $65, $75 e $95, respectivamente.

Resposta

A população é composta por famílias com crianças que frequentam a Knoll Academy.
A amostra é uma seleção aleatória de 100 famílias com crianças frequentando a Knoll Academy.
O parâmetro é a quantia média (média) de dinheiro gasta em uniformes escolares por famílias com crianças na Knoll Academy.
A estatística é a quantia média (média) de dinheiro gasta em uniformes escolares pelas famílias da amostra.
A variável é a quantidade de dinheiro gasta por uma família. Seja$X$ = a quantia de dinheiro gasta em uniformes escolares por uma família com filhos que frequentam a Knoll Academy.
Os dados são os valores em dólares gastos pelas famílias. Exemplos dos dados são $65, $75 e $95.

Exemplo$\PageIndex{2}$

Determine a que os termos-chave se referem no estudo a seguir.

Um estudo foi realizado em uma faculdade local para analisar a média cumulativa de GPA dos alunos que se formaram no ano passado. Preencha a letra da frase que melhor descreve cada um dos itens abaixo.

1._____ População 2._____ Estatística 3._____ Parâmetro 4._____ Amostra 5._____ Variável 6._____ Dados

todos os estudantes que frequentaram a faculdade no ano passado
o GPA cumulativo de um aluno que se formou na faculdade no ano passado
3,65, 2,80, 1,50, 3,90
um grupo de estudantes que se formaram na faculdade no ano passado, selecionados aleatoriamente
o GPA médio cumulativo dos estudantes que se formaram na faculdade no ano passado
todos os estudantes que se formaram na faculdade no ano passado
o GPA médio cumulativo dos estudantes do estudo que se formaram na faculdade no ano passado

Resposta

1. f; 2,5 g; 3. e; 4. d; 5. b; 6,5 c

Exemplo$\PageIndex{3}$

Determine a que os termos-chave se referem no estudo a seguir.

Como parte de um estudo desenvolvido para testar a segurança de automóveis, o National Transportation Safety Board coletou e revisou dados sobre os efeitos de um acidente automobilístico em manequins de teste. Aqui está o critério que eles usaram:

Velocidade com que os carros caíram	Localização do “drive” (ou seja, manequins)
35 milhas/hora	Banco dianteiro

Carros com manequins nos bancos dianteiros bateram contra uma parede a uma velocidade de 35 milhas por hora. Queremos saber a proporção de manequins no banco do motorista que teriam sofrido ferimentos na cabeça, se fossem motoristas reais. Começamos com uma amostra aleatória simples de 75 carros.

Resposta

A população é composta por todos os carros que contêm bonecos no banco da frente.
A amostra são os 75 carros, selecionados por uma amostra aleatória simples.
O parâmetro é a proporção de motoristas bonecos (se fossem pessoas reais) que teriam sofrido ferimentos na cabeça na população.
A estatística é a proporção de motoristas manequins (se fossem pessoas reais) que teriam sofrido ferimentos na cabeça na amostra.
A variável$X$ = o número de motoristas bonecos (se fossem pessoas reais) que teriam sofrido ferimentos na cabeça.
Os dados são: sim, teve um ferimento na cabeça ou não, não teve.

Exemplo$\PageIndex{4}$

Determine a que os termos-chave se referem no estudo a seguir.

Uma seguradora gostaria de determinar a proporção de todos os médicos que estiveram envolvidos em uma ou mais ações judiciais por negligência médica. A empresa seleciona aleatoriamente 500 médicos de um diretório profissional e determina o número na amostra que estiveram envolvidos em uma ação judicial por negligência médica.

Resposta

A população é composta por todos os médicos listados no diretório profissional.
O parâmetro é a proporção de médicos que estiveram envolvidos em um ou mais processos por negligência médica na população.
A amostra são os 500 médicos selecionados aleatoriamente do diretório profissional.
A estatística é a proporção de médicos que estiveram envolvidos em um ou mais processos por negligência médica na amostra.
A variável$X$ = o número de médicos que estiveram envolvidos em um ou mais processos por negligência médica.
Os dados são: sim, esteve envolvido em um ou mais processos por negligência médica, ou não, não estava.

Exercício colaborativo

Faça o seguinte exercício de forma colaborativa com até quatro pessoas por grupo. Encontre uma população, uma amostra, o parâmetro, a estatística, uma variável e dados para o seguinte estudo: Você deseja determinar o número médio (médio) de copos de leite que estudantes universitários bebem por dia. Suponha que ontem, em sua aula de inglês, você perguntasse a cinco alunos quantos copos de leite eles beberam no dia anterior. As respostas foram 1, 0, 1, 3 e 4 copos de leite.

Referências

The Data and Story Library, https://dasl.datadescription.com/ (acessado em 1º de maio de 2013).

Prática

Use as informações a seguir para responder aos próximos cinco exercícios. Os estudos geralmente são feitos por empresas farmacêuticas para determinar a eficácia de um programa de tratamento. Suponha que um novo medicamento anticorpo contra a AIDS esteja atualmente em estudo. É administrado aos pacientes assim que os sintomas da AIDS se revelam. Interessante é o tempo médio (médio) em meses de vida dos pacientes após o início do tratamento. Cada um de dois pesquisadores acompanha um conjunto diferente de 40 pacientes com AIDS desde o início do tratamento até a morte. Os seguintes dados (em meses) são coletados.

Pesquisador A:

3; 4; 11; 15; 16; 17; 22; 44; 37; 16; 14; 24; 25; 15; 26; 27; 33; 29; 35; 44; 13; 21; 22; 10; 12; 8; 40; 32; 26; 27; 31; 34; 29; 17; 8; 24; 18; 47; 33; 34

Pesquisador B:

3; 14; 11; 5; 16; 17; 28; 41; 31; 18; 14; 14; 26; 25; 21; 22; 31; 2; 35; 44; 23; 21; 21; 16; 12; 18; 41; 22; 16; 25; 33; 34; 29; 13; 18; 24; 23; 42; 33; 29

Determine a que os termos-chave se referem no exemplo do Pesquisador A.

Exercício$\PageIndex{2}$

população

Resposta

Pacientes com AIDS.

Exercício$\PageIndex{3}$

amostra

Exercício$\PageIndex{4}$

parâmetro

Resposta

O tempo médio (em meses) que os pacientes com AIDS vivem após o tratamento.

Exercício$\PageIndex{5}$

estatística

Exercício$\PageIndex{6}$

variável

Resposta

$X =$o período de tempo (em meses) que os pacientes com AIDS vivem após o tratamento

Glossário

A teoria matemática da estatística é mais fácil de aprender quando você conhece o idioma. Este módulo apresenta termos importantes que serão usados em todo o texto.

Média: também chamado de média; um número que descreve a tendência central dos dados

Variável categórica: variáveis que assumem valores que são nomes ou rótulos

Dados: um conjunto de observações (um conjunto de resultados possíveis); a maioria dos dados pode ser colocada em dois grupos: qualitativo (um atributo cujo valor é indicado por um rótulo) ou quantitativo (um atributo cujo valor é indicado por um número). Os dados quantitativos podem ser separados em dois subgrupos: discretos e contínuos. Os dados são discretos se forem o resultado da contagem (como o número de alunos de um determinado grupo étnico em uma classe ou o número de livros em uma prateleira). Os dados são contínuos se forem o resultado de uma medição (como a distância percorrida ou o peso da bagagem)

Variável numérica: variáveis que assumem valores indicados por números

Parâmetro: um número que é usado para representar uma característica da população e que geralmente não pode ser determinado facilmente

População: todos os indivíduos, objetos ou medidas cujas propriedades estão sendo estudadas

Probabilidade: um número entre zero e um, inclusive, que fornece a probabilidade de que um evento específico ocorra

Proporção: o número de sucessos dividido pelo número total na amostra

Amostra representativa: um subconjunto da população que tem as mesmas características da população

Amostra: um subconjunto da população estudada

Estatística: uma característica numérica da amostra; uma estatística estima o parâmetro populacional correspondente.

Variável: uma característica de interesse para cada pessoa ou objeto em uma população