Glossário
- Page ID
- 187015
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)
iniciar
- Média
- também chamado de média ou média aritmética; um número que descreve a tendência central dos dados
- Cegando
- não dizer aos participantes qual tratamento o sujeito está recebendo
- Variável categórica
- variáveis que assumem valores que são nomes ou rótulos
- Amostra de cluster
- um método para selecionar uma amostra aleatória e dividir a população em grupos (agrupamentos); use amostragem aleatória simples para selecionar um conjunto de agrupamentos. Cada indivíduo nos clusters escolhidos é incluído na amostra.
- Variável aleatória contínua
- uma variável aleatória (VR) cujos resultados são medidos; a altura das árvores na floresta é um RV contínuo.
- Grupo de controle
- um grupo em um experimento randomizado que recebe um tratamento inativo, mas é gerenciado exatamente como os outros grupos
- Amostra de conveniência
- um método não aleatório de seleção de uma amostra; esse método seleciona indivíduos que são facilmente acessíveis e podem resultar em dados enviesados.
- Frequência relativa cumulativa
- O termo se aplica a um conjunto ordenado de observações da menor para a maior. A frequência relativa cumulativa é a soma das frequências relativas de todos os valores que são menores ou iguais ao valor dado.
- Dados
- um conjunto de observações (um conjunto de resultados possíveis); a maioria dos dados pode ser colocada em dois grupos: qualitativo (um atributo cujo valor é indicado por um rótulo) ou quantitativo (um atributo cujo valor é indicado por um número). Os dados quantitativos podem ser separados em dois subgrupos: discretos e contínuos. Os dados são discretos se forem o resultado da contagem (como o número de alunos de um determinado grupo étnico em uma classe ou o número de livros em uma prateleira). Os dados são contínuos se forem o resultado de uma medição (como a distância percorrida ou o peso da bagagem)
- Variável aleatória discreta
- uma variável aleatória (RV) cujos resultados são contados
- Dupla cegueira
- o ato de cegar tanto os sujeitos de um experimento quanto os pesquisadores que trabalham com os sujeitos
- Unidade experimental
- qualquer indivíduo ou objeto a ser medido
- Variável explicativa
- a variável independente em um experimento; o valor controlado pelos pesquisadores
- Frequência
- o número de vezes que um valor dos dados ocorre
- Consentimento informado
- Qualquer sujeito humano em um estudo de pesquisa deve estar ciente de quaisquer riscos ou custos associados ao estudo. O sujeito tem o direito de conhecer a natureza dos tratamentos incluídos no estudo, seus riscos potenciais e seus benefícios potenciais. O consentimento deve ser dado livremente por um participante informado e apto.
- Conselho de Revisão Institucional
- um comitê encarregado de supervisionar programas de pesquisa que envolvem seres humanos
- Variável oculta
- uma variável que tem um efeito em um estudo, mesmo que não seja uma variável explicativa nem uma variável de resposta
- Modelos matemáticos
- uma descrição de um fenômeno usando conceitos matemáticos, como equações, desigualdades, distribuições, etc.
- Erro de não amostragem
- um problema que afeta a confiabilidade dos dados de amostragem além da variação natural; inclui uma variedade de erros humanos, incluindo design de estudo inadequado, métodos de amostragem tendenciosos, informações imprecisas fornecidas pelos participantes do estudo, erros de entrada de dados e análise deficiente.
- Variável numérica
- variáveis que assumem valores indicados por números
- Estudo observacional
- um estudo em que a variável independente não é manipulada pelo pesquisador
- Parâmetro
- um número que é usado para representar uma característica da população e que geralmente não pode ser determinado facilmente
- Placebo
- um tratamento inativo que não tem efeito real na variável explicativa
- População
- todos os indivíduos, objetos ou medidas cujas propriedades estão sendo estudadas
- Probabilidade
- um número entre zero e um, inclusive, que fornece a probabilidade de que um evento específico ocorra
- Proporção
- o número de sucessos dividido pelo número total na amostra
- Dados qualitativos
- Veja os dados.
- Dados quantitativos
- Veja os dados.
- Cessão aleatória
- o ato de organizar unidades experimentais em grupos de tratamento usando métodos aleatórios
- Amostra aleatória
- um método de seleção de uma amostra que dá a cada membro da população uma chance igual de ser selecionado.
- Frequência relativa
- a razão entre o número de vezes que um valor dos dados ocorre no conjunto de todos os resultados e o número de todos os resultados e o número total de resultados
- Amostra representativa
- um subconjunto da população que tem as mesmas características da população
- Variável de resposta
- a variável dependente em um experimento; o valor que é medido para mudança no final de um experimento
- Amostra
- um subconjunto da população estudada
- Viés de amostra
- nem todos os membros da população têm a mesma probabilidade de serem selecionados
- Erro de amostragem
- a variação natural que resulta da seleção de uma amostra para representar uma população maior; essa variação diminui à medida que o tamanho da amostra aumenta, portanto, selecionar amostras maiores reduz o erro de amostragem.
- Amostragem com substituição
- Depois que um membro da população é selecionado para inclusão em uma amostra, esse membro é devolvido à população para a seleção do próximo indivíduo.
- Amostragem sem substituição
- Um membro da população pode ser escolhido para inclusão em uma amostra apenas uma vez. Se for escolhido, o membro não será devolvido à população antes da próxima seleção.
- Amostragem aleatória simples
- um método simples para selecionar uma amostra aleatória; dê a cada membro da população um número. Use um gerador de números aleatórios para selecionar um conjunto de rótulos. Esses rótulos selecionados aleatoriamente identificam os membros da sua amostra.
- Estatística
- uma característica numérica da amostra; uma estatística estima o parâmetro populacional correspondente.
- Modelos estatísticos
- uma descrição de um fenômeno usando distribuições de probabilidade que descrevem o comportamento esperado do fenômeno e a variabilidade nas observações esperadas.
- Amostragem estratificada
- um método para selecionar uma amostra aleatória usado para garantir que os subgrupos da população sejam representados adequadamente; divida a população em grupos (estratos). Use amostragem aleatória simples para identificar um número proporcional de indivíduos de cada estrato.
- Probabilidade condicional
- a probabilidade de que um evento ocorra, uma vez que outro evento já ocorreu
- Tabela de contingência
- o método de exibir uma distribuição de frequência como uma tabela com linhas e colunas para mostrar como duas variáveis podem ser dependentes (contingentes) uma da outra; a tabela fornece uma maneira fácil de calcular probabilidades condicionais.
- Eventos dependentes
- Se dois eventos NÃO são independentes, então dizemos que eles são dependentes.
- Igualmente provável
- Cada resultado de um experimento tem a mesma probabilidade.
- Evento
- um subconjunto do conjunto de todos os resultados de um experimento; o conjunto de todos os resultados de um experimento é chamado de espaço amostral e geralmente é denotado por S. Um evento é um subconjunto arbitrário em S. Ele pode conter um resultado, dois resultados, nenhum resultado (subconjunto vazio), todo o espaço amostral e similares. As notações padrão para eventos são letras maiúsculas, como A, B, C e assim por diante.
- Experimento
- uma atividade planejada realizada sob condições controladas\(P(A|B) = P(A)\)
\(P(B|A) = P(B)\)
\(P(A \cap B) = P(A)P(B)\)
- Eventos independentes
- A ocorrência de um evento não tem efeito sobre a probabilidade da ocorrência de outro evento. Os eventos A e B são independentes se uma das seguintes situações for verdadeira:
- Mutuamente exclusivo
- Dois eventos são mutuamente exclusivos se a probabilidade de ambos acontecerem ao mesmo tempo for zero. Se os eventos A e B forem mutuamente exclusivos, então\(P(A \cap B) = 0\).
- Resultado
- um resultado específico de um experimento\(0 ≤ P(A) ≤ 1\)
Se A e B são dois eventos mutuamente exclusivos, então\(P(A \cup B) = P(A) + P(B)\).
\(P(S) = 1\)
- Probabilidade
- um número entre zero e um, inclusive, que dá a probabilidade de que um evento específico ocorra; a base da estatística é dada pelos seguintes 3 axiomas (de A.N. Kolmogorov, 1930): Seja S denotar o espaço amostral e A e B são dois eventos em S. Então: (1) Existem apenas dois resultados possíveis chamados” “sucesso” e “fracasso” para cada tentativa e (2) A probabilidade\(p\) de sucesso é a mesma para qualquer tentativa (portanto, a probabilidade\(q = 1 − p\) de falha é a mesma para qualquer tentativa).
- Testes de Bernoulli
- um experimento com as seguintes características: Há um número fixo de ensaios,\(n\). Há apenas dois resultados possíveis, chamados de “sucesso” e “fracasso”, para cada tentativa. A letra\(p\) indica a probabilidade de sucesso em uma tentativa e\(q\) denota a probabilidade de falha em uma tentativa. Os\(n\) ensaios são independentes e são repetidos usando condições idênticas.
- Experimento binomial
- um experimento estatístico que satisfaz as três condições a seguir:
- Distribuição de probabilidade binomial
- uma variável aleatória discreta (VR) que surge dos ensaios de Bernoulli; há um número fixo,\(n\), de ensaios independentes. “Independente” significa que o resultado de qualquer ensaio (por exemplo, o primeiro ensaio) não afeta os resultados dos ensaios a seguir, e todos os ensaios são conduzidos nas mesmas condições. Nessas circunstâncias, o binômio RV\(X\) é definido como o número de sucessos em n ensaios. A média é\(\mu=n p\) e o desvio padrão é\(\sigma=\sqrt{n p q}\). A probabilidade de exatamente x sucessos em\(n\) testes é\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Distribuição geométrica
- uma variável aleatória discreta (VR) que surge dos ensaios de Bernoulli; os ensaios são repetidos até o primeiro sucesso. A variável geométrica X é definida como o número de tentativas até o primeiro sucesso. A média é\(\mu=\frac{1}{p}\) e o desvio padrão é\(\sigma = \sqrt{\frac{1}{p}\left(\frac{1}{p}-1\right)}\). A probabilidade de exatamente x falhas antes do primeiro sucesso é dada pela fórmula:\(P(X=x)=p(1-p)^{x-1}\) onde se quer saber a probabilidade do número de tentativas até o primeiro sucesso: a trilha\(x\) th é o primeiro sucesso. Uma formulação alternativa da distribuição geométrica faz a pergunta: qual é a probabilidade de\(x\) falhas até o primeiro sucesso? Nesta formulação, o ensaio que resultou no primeiro sucesso não é contado. A fórmula para esta apresentação do geométrico é:\(P(X=x)=p(1-p)^{x}\). O valor esperado nessa forma da distribuição geométrica é\(\mu=\frac{1-p}{p}\). A maneira mais fácil de manter essas duas formas da distribuição geométrica retas é lembrar que p é a probabilidade de sucesso e\((1−p)\) é a probabilidade de falha. Na fórmula, os expoentes simplesmente contam o número de sucessos e o número de falhas do resultado desejado do experimento. É claro que a soma desses dois números deve ser adicionada ao número de ensaios no experimento.
- Há um ou mais testes de Bernoulli com todos os fracassos, exceto o último, que é um sucesso.
- Em teoria, o número de testes poderia durar para sempre. Deve haver pelo menos um teste.
- A probabilidade,\(p\), de um sucesso e a probabilidade,\(q\), de um fracasso não mudam de tentativa para tentativa.
- Experiência geométrica
- um experimento estatístico com as seguintes propriedades:
- Experiência hipergeométrica
- um experimento estatístico com as seguintes propriedades:
- Você coleta amostras de dois grupos.
- Você está preocupado com um grupo de interesse, chamado primeiro grupo.
- Você coleta amostras sem substituição dos grupos combinados.
- Cada escolha não é independente, pois a amostragem não é substituída.
- Distribuição normal
- uma variável aleatória contínua\((RV)\) com pdf\(f(x) =\)\[\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\nonumber\], onde\(\mu\) é a média da distribuição e\(\sigma\) é o desvio padrão; notação:\(X \sim N(\mu, \sigma)\). Se\(\mu = 0\) e\(\sigma = 1\), o\(RV\),\(Z\), é chamado de distribuição normal padrão. Distribuição normal padrão é uma variável aleatória contínua\((RV) X \sim N(0, 1)\); quando\(X\) segue a distribuição normal padrão, geralmente é notada como\(Z \sim N(0, 1)\). z-score a transformação linear da forma\(z=\frac{x-\mu}{\sigma}\) ou escrita como\(z=\frac{|x-\mu|}{\sigma}\); se essa transformação for aplicada a qualquer distribuição normal \(X \sim N(\mu, \sigma)\)o resultado é a distribuição normal padrão\(Z \sim N(0,1)\). Se essa transformação for aplicada a qualquer valor específico\(x\) do\(RV\) com média\(\mu\) e desvio padrão\(\sigma\), o resultado será chamado de pontuação z de\(x\). A pontuação z nos permite comparar dados que normalmente são distribuídos, mas escalados de forma diferente. Uma pontuação z é o número de desvios padrão que um determinado\(x\) está fora de seu valor médio.
- Distribuição binomial
- uma variável aleatória discreta (VR) que surge dos ensaios de Bernoulli; há um número fixo,\(n\), de ensaios independentes. “Independente” significa que o resultado de qualquer ensaio (por exemplo, ensaio 1) não afeta os resultados dos ensaios a seguir, e todos os ensaios são conduzidos nas mesmas condições. Sob essas circunstâncias, o binômio\(RV\)\(X\) é definido como o número de sucessos em n ensaios. A notação é:\(X \sim B(\bf{n,p})\). A média é\(\mu = np\) e o desvio padrão é\(\sigma=\sqrt{n p q}\). A probabilidade exata de\(x\) sucesso nos\(n\) testes é\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Intervalo de confiança (CI)
- uma estimativa de intervalo para um parâmetro populacional desconhecido. Isso depende de:
- o nível de confiança desejado,
- informações conhecidas sobre a distribuição (por exemplo, desvio padrão conhecido),
- a amostra e seu tamanho.
- Nível de confiança (CL)
- a expressão percentual para a probabilidade de que o intervalo de confiança contenha o verdadeiro parâmetro da população; por exemplo, se CL = 90%, em 90 das 100 amostras, a estimativa do intervalo incluirá o parâmetro da população real.
- Graus de liberdade (df)
- o número de objetos em uma amostra que podem variar livremente
- Limite de erro para uma média populacional (EBM)
- a margem de erro; depende do nível de confiança, do tamanho da amostra e do desvio padrão da população conhecido ou estimado.
- Limite de erro para uma proporção da população (EBP)
- a margem de erro; depende do nível de confiança, do tamanho da amostra e da proporção estimada (da amostra) de sucessos.
- Estatísticas inferenciais
- também chamada de inferência estatística ou estatística indutiva; essa faceta da estatística lida com a estimativa de um parâmetro populacional com base em uma estatística de amostra. Por exemplo, se quatro das 100 calculadoras amostradas estiverem com defeito, podemos inferir que quatro por cento da produção está com defeito.
- Distribuição normal
- uma variável aleatória contínua (RV) com pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-(x-\mu)^{2} / 2 \sigma^{2}}\), onde\(\mu\) é a média da distribuição e\(\sigma\) é o desvio padrão, notação:\(X \sim N(\mu,\sigma)\). Se\(\mu = 0\) e\(\sigma = 1\), o RV é chamado de distribuição normal padrão.
- Distribuição binomial
- uma variável aleatória discreta (RV) que surge dos ensaios de Bernoulli. Há um número fixo, n, de ensaios independentes. “Independente” significa que o resultado de qualquer ensaio (por exemplo, ensaio 1) não afeta os resultados dos ensaios a seguir, e todos os ensaios são conduzidos nas mesmas condições. Nessas circunstâncias, o binômio RV ÷ é definido como o número de sucessos em\(n\) ensaios. A notação é:\(X \sim B(n, p) \mu = np\) e o desvio padrão é\(\sigma=\sqrt{n p q}\). A probabilidade exata de\(x\) sucesso nos\(n\) testes é\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Teorema do Limite Central
- Dada uma variável aleatória (VR) com média conhecida\(\mu\) e desvio padrão conhecido\(\sigma\). Estamos amostrando com tamanho n e estamos interessados em dois novos RVs - a média da amostra,\(\overline X\). Se o tamanho n da amostra for suficientemente grande, então\(\overline{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\). Se o tamanho n da amostra for suficientemente grande, a distribuição das médias da amostra se aproximará de uma distribuição normal, independentemente da forma da população. O valor esperado da média das médias da amostra será igual à média da população. O desvio padrão da distribuição das médias da amostra,\(\frac{\sigma}{\sqrt{n}}\), é chamado de erro padrão da média.
- O nível de confiança desejado.
- Informações conhecidas sobre a distribuição (por exemplo, desvio padrão conhecido).
- A amostra e seu tamanho.
- Intervalo de confiança (CI)
- uma estimativa de intervalo para um parâmetro populacional desconhecido. Isso depende de:
- Valor crítico
- O\(Z\) valor\(t\) ou definido pelo pesquisador que mede a probabilidade de um erro do Tipo I,\(\sigma\).
- Hipótese
- uma afirmação sobre o valor de um parâmetro populacional, no caso de duas hipóteses, a afirmação assumida como verdadeira é chamada de hipótese nula (notação\(H_0\)) e a afirmação contraditória é chamada de hipótese alternativa (notação\(H_a\)).
- Teste de hipóteses
- Com base na evidência da amostra, um procedimento para determinar se a hipótese declarada é uma afirmação razoável e não deve ser rejeitada, ou não é razoável e deve ser rejeitada.
- O anúncio de Cohen
- uma medida do tamanho do efeito com base nas diferenças entre duas médias. Se\(d\) estiver entre 0 e 0,2, o efeito é pequeno. Se a\(d\) aproximação for 0,5, o efeito será médio e, se se\(d\) aproximar de 0,8, será um efeito grande.
- a é o símbolo do Y-Intercept
- Às vezes escrito como\(b_0\), porque ao escrever o modelo linear teórico\(\beta_0\) é usado para representar um coeficiente para uma população.
- b é o símbolo de inclinação
- A palavra coeficiente será usada regularmente para a inclinação, porque é um número que sempre estará ao lado da letra “”\(x\). Ele será escrito como\(b_1\) quando uma amostra for usada e\(\beta_1\) será usado com uma população ou ao escrever o modelo linear teórico.
- Bivariada
- duas variáveis estão presentes no modelo onde uma é a “causa” ou variável independente e a outra é o “efeito” da variável dependente.
- Linear
- um modelo que pega dados e os regride em uma equação de linha reta.
- Multivariada
- um sistema ou modelo em que mais de uma variável independente está sendo usada para prever um resultado. Só pode haver uma variável dependente, mas não há limite para o número de variáveis independentes.
- R2R2 — Coeficiente de Determinação
- Esse é um número entre 0 e 1 que representa a variação percentual da variável dependente que pode ser explicada pela variação na variável independente. Às vezes é calculado pela equação em\(R^{2}=\frac{S S R}{S S T}\) que\(SSR\) é a “Regressão da Soma dos Quadrados” e\(SST\) é a “Soma dos Quadrados Total”. O coeficiente de determinação apropriado a ser relatado deve sempre ser ajustado primeiro para graus de liberdade.
- Residual ou “erro”
- o valor calculado a partir da subtração\(y_{0}-\hat{y}_{0}=e_{0}\). O valor absoluto de um resíduo mede a distância vertical entre o valor real de y e o valor estimado de y que aparece na linha de melhor ajuste.
- RR — Coeficiente de correlação
- Um número entre −1 e 1 que representa a força e a direção da relação entre “\(X\)” e “”\(Y\). O valor para “\(r\)” será igual a 1 ou −1 somente se todos os pontos traçados formarem uma linha perfeitamente reta.
- Soma dos erros quadrados (SSE)
- o valor calculado a partir da soma de todos os termos residuais quadrados. A esperança é que esse valor seja muito pequeno ao criar um modelo.
- X — a variável independente
- Às vezes, isso será chamado de variável “preditora”, porque esses valores foram medidos para determinar quais possíveis resultados poderiam ser previstos.
- Y — a variável dependente
- Além disso, usar a letra “\(y\)” representa valores reais, enquanto\(\hat{y}\) representa valores previstos ou estimados. Os valores previstos virão da inserção dos valores “\(x\)” observados em um modelo linear.
- todas as populações de interesse são normalmente distribuídas.
- as populações têm desvios padrão iguais.
- amostras (não necessariamente do mesmo tamanho) são selecionadas aleatoriamente e de forma independente de cada população.
- há uma variável independente e uma variável dependente.
A estatística de teste para análise de variância é a\(F\) razão.
- Análise da variância
- também conhecido como ANOVA, é um método de testar se as médias de três ou mais populações são iguais ou não. O método é aplicável se:
- ANOVA unidirecional
- um método para testar se as médias de três ou mais populações são iguais; o método é aplicável se:
- todas as populações de interesse são normalmente distribuídas.
- as populações têm desvios padrão iguais.
- amostras (não necessariamente do mesmo tamanho) são selecionadas aleatoriamente e de forma independente de cada população.
A estatística de teste para análise de variância é a\(F\) razão.
- Variância
- média dos desvios quadrados da média; o quadrado do desvio padrão. Para um conjunto de dados, um desvio pode ser representado como\(x – \overline{x}\) onde\(x\) está um valor dos dados e\(\overline{x}\) é a média da amostra. A variância da amostra é igual à soma dos quadrados dos desvios dividida pela diferença do tamanho amostral e um.
- Tabela de contingência
- uma tabela que exibe valores de amostra para dois fatores diferentes que podem ser dependentes ou contingentes um do outro; facilita a determinação de probabilidades condicionais.
- Bondade de ajuste
- um teste de hipótese que compara valores esperados e observados a fim de procurar diferenças significativas dentro de uma variável não paramétrica. Os graus de liberdade usados são iguais a (número de categorias — 1).
- Teste de homogeneidade
- um teste usado para tirar uma conclusão sobre se duas populações têm a mesma distribuição. Os graus de liberdade usados são iguais a (número de colunas — 1).
- Teste de Independência
- um teste de hipótese que compara valores esperados e observados para tabelas de contingência a fim de testar a independência entre duas variáveis. Os graus de liberdade usados são iguais ao (número de colunas — 1) multiplicado pelo (número de linhas — 1).
- Grupos independentes
- duas amostras que são selecionadas de duas populações, e os valores de uma população não estão relacionados de forma alguma com os valores da outra população.
- Pares combinados
- duas amostras que são dependentes. As diferenças entre um cenário antes e um depois são testadas testando a média de diferenças de uma população.
- Variação combinada
- uma média ponderada de duas variâncias que podem então ser usadas ao calcular o erro padrão.
- Distribuição normal
- uma variável aleatória contínua (RV) com pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\), onde\(\mu\) é a média da distribuição e\(\sigma\) é o desvio padrão, notação:\(X \sim N(\mu, \sigma)\). Se\(\mu = 0\) e\(\sigma = 1\), o RV é chamado de distribuição normal padrão.
- Desvio padrão
- um número que é igual à raiz quadrada da variância e mede a que distância os valores dos dados estão de sua média; notação: s para desvio padrão da amostra e σ para desvio padrão da população.
- Distribuição T de Student
- investigado e relatado por William S. Gossett em 1908 e publicado sob o pseudônimo de Student. As principais características da variável aleatória (RV) são:
- É contínuo e assume quaisquer valores reais.
- O pdf é simétrico em relação à média de zero. No entanto, é mais espalhado e mais plano no ápice do que a distribuição normal.
- Ela se aproxima da distribuição normal padrão à medida que n fica maior.
- Existe uma “família” de distribuições t: cada representante da família é completamente definido pelo número de graus de liberdade que é um a menos do que o número de itens de dados.
- Estatística do teste
- A fórmula que conta o número de desvios padrão na distribuição relevante desse parâmetro estimado está longe do valor hipotético.
- Erro do tipo I
- A decisão é rejeitar a hipótese nula quando, na verdade, a hipótese nula é verdadeira.
- Erro do tipo II
- A decisão é não rejeitar a hipótese nula quando, na verdade, a hipótese nula é falsa.
- Parâmetro
- uma característica numérica de uma população
- Estimativa de
- um único número calculado a partir de uma amostra e usado para estimar um parâmetro populacional
- Desvio padrão
- um número que é igual à raiz quadrada da variância e mede a que distância os valores dos dados estão de sua média; notação:\(s\) para desvio padrão da amostra e\ sigma para desvio padrão da população
- Distribuição t do aluno
- investigado e relatado por William S. Gossett em 1908 e publicado sob o pseudônimo de Student; as principais características dessa variável aleatória (\(RV\)) são:
- É contínuo e assume quaisquer valores reais.
- O pdf é simétrico em relação à média de zero.
- Ele se aproxima da distribuição normal padrão à medida\(n\) que aumenta.
- Existe uma “família” de distribuições t: cada representante da família é completamente definido pelo número de graus de liberdade, que depende da aplicação para a qual o t está sendo usado.
- Média
- um número que descreve a tendência central dos dados; há várias médias especializadas, incluindo a média aritmética, média ponderada, mediana, modo e média geométrica.
- Teorema do limite central
- Dada uma variável aleatória com média conhecida μ e desvio padrão conhecido, σ, estamos amostrando com tamanho n e estamos interessados em dois novos RVs: a média amostral,\(\overline X\). Se o tamanho (\(n\)) da amostra for suficientemente grande, então\(\overline{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\). Se o tamanho (\(n\)) da amostra for suficientemente grande, a distribuição das médias da amostra se aproximará de uma distribuição normal, independentemente da forma da população. A média das médias da amostra será igual à média da população. O desvio padrão da distribuição das médias da amostra,\(\frac{\sigma}{\sqrt{n}}\), é chamado de erro padrão da média.
- Fator de correção de população finita
- ajusta a variância da distribuição amostral se a população for conhecida e mais de 5% da população estiver sendo amostrada.
- Significa
- um número que mede a tendência central; um nome comum para média é “média”. O termo “média” é uma forma abreviada de “média aritmética”. Por definição, a média de uma amostra (indicada por\(\overline x\)) é\(\overline x =\overline{x}=\frac{\text { Sum of all values in the sample }}{\text { Number of values in the sample }}\), e a média de uma população (indicada por\(\mu\)) é\(\mu=\frac{\text { Sum of all values in the population }}{\text { Number of values in the population }}\).
- Distribuição normal
- uma variável aleatória contínua com pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\), onde\(\mu\) é a média da distribuição e\(\sigma\) é o desvio padrão.; notação:\(X \sim N(\mu, \sigma)\). Se\(\mu = 0\) e\(\sigma = 1\), a variável aleatória,\(Z\), é chamada de distribuição normal padrão.
- Distribuição de amostras
- Dadas amostras aleatórias simples\(n\) de tamanho de uma determinada população com uma característica medida, como média, proporção ou desvio padrão para cada amostra, a distribuição de probabilidade de todas as características medidas é chamada de distribuição amostral.
- Erro padrão da média
- o desvio padrão da distribuição das médias da amostra, ou\(\frac{\sigma}{\sqrt{n}}\).
- Erro padrão da proporção
- o desvio padrão da distribuição amostral de proporções
- Probabilidade condicional
- a probabilidade de que um evento ocorra, uma vez que outro evento já ocorreu.
- parâmetro de decaimento
- O parâmetro de decaimento descreve a taxa na qual as probabilidades caem para zero para valores crescentes de\(x\). É o valor m na função densidade de probabilidade\(f(x)=m e^{(-m x)}\) de uma variável aleatória exponencial. Também é igual a\(m = \frac{1}{\mu}\), onde\(\mu\) está a média da variável aleatória.
- Distribuição exponencial
- uma variável aleatória contínua (VR) que aparece quando estamos interessados nos intervalos de tempo entre alguns eventos aleatórios, por exemplo, o período de tempo entre as chegadas de emergência em um hospital. A média é\(\mu = \frac{1}{m}\) e o desvio padrão é\(\sigma = \frac{1}{m}\). A função de densidade de probabilidade é\(f(x)=m e^{-m x} \text { or } f(x)=\frac{1}{\mu} e^{-\frac{1}{\mu} x}, x \geq 0\) e a função de distribuição cumulativa é\(P(X \leq x)=1-e^{-m x} \text { or } P(X \leq x)=1-e^{-\frac{1}{\mu} x}\).
- propriedade sem memória
- Para uma variável aleatória exponencial\(X\), a propriedade sem memória é a afirmação de que o conhecimento do que ocorreu no passado não tem efeito sobre as probabilidades futuras. Isso significa que a probabilidade que\(X\) excede\(x + t\), dado que foi excedida\(x\), é a mesma que a probabilidade que\(X\) excederia t se não tivéssemos conhecimento sobre ela. Em símbolos, dizemos isso\(P(X > x + t|X > x) = P(X > t)\).
- Distribuição de Poisson
- Se houver uma média conhecida de\ mu eventos ocorrendo por unidade de tempo e esses eventos forem independentes um do outro, o número de eventos X ocorrendo em uma unidade de tempo terá a distribuição de Poisson. A probabilidade de eventos x ocorrerem em uma unidade de tempo é igual\(P(X=x)=\frac{\mu^{x} e^{-\mu}}{x !}\) a.
- Distribuição uniforme
- uma variável aleatória contínua (RV) que tem resultados igualmente prováveis sobre o domínio\(a < x < b\); geralmente é chamada de distribuição retangular porque o gráfico do pdf tem a forma de um retângulo. A média é\(\mu=\frac{a+b}{2}\) e o desvio padrão é\(\sigma=\sqrt{\frac{(b-a)^{2}}{12}}\). A função de densidade de probabilidade é\ (f (x) =\ frac {1} {b-a}\ text {for} a.
- Probabilidade hipergeométrica
- uma variável aleatória discreta (RV) que é caracterizada por:
- Um número fixo de testes.
- A probabilidade de sucesso não é a mesma de uma tentativa para outra.
- Distribuição de probabilidade de Pois
- uma variável aleatória discreta (RV) que conta o número de vezes que um determinado evento ocorrerá em um intervalo específico; características da variável:
- A probabilidade de que o evento ocorra em um determinado intervalo é a mesma para todos os intervalos.
- Os eventos ocorrem com uma média conhecida e independentemente do tempo decorrido desde o último evento.
- Função de distribuição de probabilidade (PDF)
- uma descrição matemática de uma variável aleatória discreta (RV), dada na forma de uma equação (fórmula) ou na forma de uma tabela listando todos os resultados possíveis de um experimento e a probabilidade associada a cada resultado.
- Variável aleatória (RV)
- uma característica de interesse em uma população que está sendo estudada; notação comum para variáveis são letras latinas maiúsculas\(X, Y, Z\),...; notação comum para um valor específico do domínio (conjunto de todos os valores possíveis de uma variável) são letras latinas minúsculas\(x, y\),\(z\) e. Por exemplo, se\(X\) for o número de filhos em uma família, então\(x\) representa um número inteiro específico 0, 1, 2, 3,... As variáveis na estatística diferem das variáveis da álgebra intermediária nas duas formas a seguir.
- O domínio da variável aleatória (VR) não é necessariamente um conjunto numérico; o domínio pode ser expresso em palavras; por exemplo, se a cor do\(X =\) cabelo, o domínio é {preto, loiro, cinza, verde, laranja}.
- Só podemos dizer qual valor específico x a variável aleatória\(X\) assume após realizar o experimento.
- Espaço de amostra
- o conjunto de todos os resultados possíveis de um experimento
- Amostragem com substituição
- Se cada membro de uma população for substituído depois de ser escolhido, esse membro terá a possibilidade de ser escolhido mais de uma vez.
- Amostragem sem substituição
- Quando a amostragem é feita sem reposição, cada membro de uma população pode ser escolhido apenas uma vez.
- O evento Complement
- O complemento do evento A consiste em todos os resultados que NÃO estão em A.
- A probabilidade condicional de\(A | B\)
- P (A||B) é a probabilidade de que o evento A ocorra, dado que o evento B já ocorreu.
- A interseção: o\(\cap \) evento
- Um resultado está no evento | (A\ cap B\) se o resultado estiver em ambos ao\(A \cap B\) mesmo tempo.
- A União: o\(\cup\) evento
- Um resultado está no evento\(A \cup B\) se o resultado estiver em A ou em B ou estiver em A e B.
- diagrama de árvore
- a representação visual útil de um espaço amostral e eventos na forma de uma “árvore” com galhos marcados por possíveis resultados, juntamente com probabilidades associadas (frequências, frequências relativas)
- Diagrama de Venn
- a representação visual de um espaço amostral e eventos na forma de círculos ou ovais mostrando suas interseções
- Pesquisa
- um estudo no qual os dados são coletados conforme relatado por indivíduos.
- Amostra sistemática
- um método para selecionar uma amostra aleatória; liste os membros da população. Use amostragem aleatória simples para selecionar um ponto de partida na população. Seja k = (número de indivíduos na população)/(número de indivíduos necessários na amostra). Escolha cada késimo indivíduo na lista, começando com aquele que foi selecionado aleatoriamente. Se necessário, retorne ao início da lista da população para completar sua amostra.
- Tratamentos
- valores ou componentes diferentes da variável explicativa aplicada em um experimento
- Variável
- uma característica de interesse para cada pessoa ou objeto em uma população
- Frequência
- o número de vezes que um valor dos dados ocorre
- Tabela de frequências
- uma representação de dados na qual os dados agrupados são exibidos junto com as frequências correspondentes
- Histograma
- uma representação gráfica na forma x - y da distribuição de dados em um conjunto de dados; x representa os dados e y representa a frequência, ou frequência relativa. O gráfico consiste em retângulos contíguos.
- Intervalo interquartil
- ou IQR, é o intervalo dos 50 por cento médios dos valores dos dados; o IQR é encontrado subtraindo o primeiro quartil do terceiro quartil.
- Média (aritmética)
- um número que mede a tendência central dos dados; um nome comum para média é “média”. O termo “média” é uma forma abreviada de “média aritmética”. Por definição, a média para uma amostra (indicada por\(\overline{x}\)) é\(\overline{x}=\frac{\text { Sum of all values in the sample }}{\text { Number of values in the sample }}\), e a média para uma população (indicada por μ) é\(\boldsymbol{\mu}=\frac{\text { Sum of all values in the population }}{\text { Number of values in the population }}\)
- Média (geométrica)
- uma medida de tendência central que fornece uma medida do crescimento geométrico médio em vários períodos de tempo.
- Mediana
- um número que separa os dados ordenados em metades; metade dos valores são o mesmo número ou menores que a mediana e metade dos valores são o mesmo número ou maiores que a mediana. A mediana pode ou não fazer parte dos dados.
- Ponto médio
- a média de um intervalo em uma tabela de frequência
- Modo
- o valor que aparece com mais frequência em um conjunto de dados
- Outlier
- uma observação que não se encaixa no resto dos dados
- Percentil
- um número que divide os dados ordenados em centésimos; os percentis podem ou não fazer parte dos dados. A mediana dos dados é o segundo quartil e o percentil 50. O primeiro e o terceiro quartis são os percentis 25 e 75, respectivamente.
- Quartis
- os números que separam os dados em trimestres; quartis podem ou não fazer parte dos dados. O segundo quartil é a mediana dos dados.
- Frequência relativa
- a razão entre o número de vezes que um valor dos dados ocorre no conjunto de todos os resultados e o número de todos os resultados
- Desvio padrão
- um número que é igual à raiz quadrada da variância e mede a que distância os valores dos dados estão de sua média; notação: s para desvio padrão da amostra e σ para desvio padrão da população.
- Variação
- média dos desvios quadrados da média ou o quadrado do desvio padrão; para um conjunto de dados, um desvio pode ser representado como x —\(\overline{x}\) onde x é um valor dos dados e\(\overline{x}\) é a média da amostra. A variância da amostra é igual à soma dos quadrados dos desvios dividida pela diferença do tamanho amostral e um.