词汇表
- Page ID
- 205053
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)
开始
- 平均值
- 也称为平均值或算术平均值;一个描述数据中心趋势的数字
- 致盲
- 不告诉参与者受试者正在接受哪种治疗
- 类别变量
- 使用名称或标签值的变量
- 集群采样
- 一种选择随机样本并将群体分成组(聚类)的方法;使用简单的随机抽样来选择一组聚类。 所选群集中的每个人都包含在样本中。
- 连续随机变量
- 一个随机变量 (RV),其结果是测量的;森林中树木的高度是一个连续的 RV。
- 对照组
- 随机实验中的一组接受非活性治疗,但在其他方面受到的管理与其他组完全相同
- 便捷采样
- 一种选择样本的非随机方法;此方法选择易于访问且可能导致数据偏差的个体。
- 累积相对频率
- 该术语适用于从小到大的有序观测值集。 累积相对频率是所有小于或等于给定值的值的相对频率之和。
- 数据
- 一组观测值(一组可能的结果);大多数数据可以分为两组:定性(其值由标签表示的属性)或定量(由数字表示值的属性)。 定量数据可以分为两个子组:离散和连续。 如果数据是计数的结果(例如班级中给定族裔群体的学生人数或书架上的书籍数量),则数据是离散的。 如果数据是测量结果(例如行驶距离或行李重量),则数据是连续的
- 离散随机变量
- 计算其结果的随机变量 (RV)
- 双盲
- 使实验对象和与受试者一起工作的研究人员失明的行为
- 实验单位
- 任何要测量的个人或物体
- 解释性变量
- 实验中的自变量;研究人员控制的值
- 频率
- 数据值出现的次数
- 知情同意
- 研究中的任何人类受试者都必须意识到与该研究相关的任何风险或成本。 受试者有权了解研究中包含的治疗的性质、其潜在风险及其潜在益处。 必须由知情、健康的参与者自由表示同意。
- 机构审查委员会
- 一个负责监督涉及人类受试者的研究计划的委员会
- 潜伏变量
- 对研究有影响的变量,尽管它既不是解释变量也不是响应变量
- 数学模型
- 使用数学概念(如方程、不等式、分布等)对现象的描述。
- 非采样误差
- 影响除自然变异以外的抽样数据可靠性的问题;它包括各种人为错误,包括研究设计不佳、抽样方法有偏见、研究参与者提供的信息不准确、数据输入错误和分析不佳。
- 数值变量
- 使用由数字表示的值的变量
- 观察性研究
- 一项研究中,自变量不是由研究人员操纵的
- 参数
- 这个数字用于表示人口特征,通常不容易确定
- 安慰剂
- 一种不活跃的治疗,对解释变量没有实际影响
- 人口
- 正在研究其特性的所有个体、物体或测量对象
- 概率
- 一个介于零和一之间(含)的数字,它给出了特定事件发生的可能性
- 比例
- 成功次数除以样本中的总数
- 定性数据
- 参见数据。
- 定量数据
- 参见数据。
- 随机分配
- 使用随机方法将实验单位组织成治疗组的行为
- 随机抽样
- 一种选择样本的方法,它使人口中的每个成员都有同等的被选机会。
- 相对频率
- 数据值在所有结果集合中出现的次数与所有结果的数量与结果总数之比
- 代表性样本
- 人口中与人口具有相同特征的子集
- 响应变量
- 实验中的因变量;实验结束时测量变化的值
- 示例
- 所研究人群的一个子集
- 采样偏差
- 并非所有人口都同样有可能被选中
- 采样错误
- 选择样本代表更大总体而产生的自然变异;这种变异随着样本数量的增加而降低,因此选择较大的样本可以减少抽样误差。
- 取样和替换
- 一旦选择了要纳入样本的总体成员,该成员将返回到总体中以选择下一个个体。
- 采样无需更换
- 人口中的一个成员只能被选入样本一次。 如果选中,则在下一次选择之前,该成员不会返回到人口中。
- 简单随机抽样
- 选择随机样本的简单方法;给总体的每个成员一个数字。 使用随机数生成器选择一组标签。 这些随机选择的标签可识别样本的成员。
- 统计数据
- 样本的数值特征;统计数据估计相应的总体参数。
- 统计模型
- 使用概率分布对现象的描述,描述该现象的预期行为和预期观测结果的变异性。
- 分层采样
- 一种选择随机样本的方法,用于确保充分代表人口的亚组;将人口分成组(阶层)。 使用简单的随机抽样来确定每个阶层中按比例数量的个体。
- 条件概率
- 鉴于另一个事件已经发生,该事件发生的可能性
- 应急表
- 将频率分布显示为包含行和列的表的方法,以显示两个变量如何相互依赖(依赖);该表提供了一种计算条件概率的简便方法。
- 依赖事件
- 如果两个事件不是独立的,那么我们就说它们是依赖的。
- 同样有可能
- 实验的每个结果都有相同的概率。
- 事件
- 实验所有结果集合的子集;实验所有结果的集合称为样本空间,通常用 S 表示。事件是 S 中的任意子集。它可以包含一个结果、两个结果、无结果(空子集)、整个样本空间等。 事件的标准符号是大写字母,例如 A、B、C 等。
- 实验
- 在受控条件下开展的计划活动\(P(A|B) = P(A)\)
\(P(B|A) = P(B)\)
\(P(A \cap B) = P(A)P(B)\)
- 独立活动
- 一个事件的发生对另一个事件发生的概率没有影响。 如果满足以下条件之一,则事件 A 和 B 是独立的:
- 相互排斥
- 如果两个事件同时发生的概率为零,则这两个事件是相互排斥的。 如果事件 A 和 B 相互排斥,那么\(P(A \cap B) = 0\)。
- 成果
- 实验的特定结果\(0 ≤ P(A) ≤ 1\)
如果 A 和 B 是任意两个相互排斥的事件,那么\(P(A \cup B) = P(A) + P(B)\)。
\(P(S) = 1\)
- 概率
- 一个介于零和一之间的数字(含),它给出特定事件发生的可能性;统计的基础由以下 3 个公理(A.N. Kolmogorov,1930 年代)给出:让 S 表示样本空间,A 和 B 是 S 中的两个事件。然后:(1)只有两个可能的结果叫做”每次试验的 “成功” 和 “失败” 以及(2)任何试验\(p\)的成功概率都相同(因此任何试验\(q = 1 − p\)的失败概率都相同)。
- 伯努利试验
- 具有以下特征的实验:有固定数量的试验,\(n\)。 每项试验只有两种可能的结果,分别是 “成功” 和 “失败”。 字母\(p\)表示一次试验成功的概率,\(q\)表示一次试验失败的概率。 \(n\)试验是独立的,使用相同的条件重复试验。
- 二项式实验
- 满足以下三个条件的统计实验:
- 二项式概率分布
- 产生于伯努利试验的离散随机变量 (RV);独立试验的数量是固定的。\(n\) “独立” 是指任何试验(例如试验一)的结果不影响以下试验的结果,并且所有试验都是在相同的条件下进行的。 在这种情况下,二项式 RV 被定义\(X\)为 n 次试验中的成功次数。 均值为\(\mu=n p\),标准差为\(\sigma=\sqrt{n p q}\)。 \(n\)试验中恰好有 x 次成功的概率为\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\)。
- 几何分布
- 产生于伯努利试验的离散随机变量 (RV);重复试验,直到第一次成功。 几何变量 X 被定义为第一次成功之前的试验次数。 均值为\(\mu=\frac{1}{p}\),标准差为\(\sigma = \sqrt{\frac{1}{p}\left(\frac{1}{p}-1\right)}\)。 在第一次成功之前,恰好有 x 次失败的概率由公式给出:\(P(X=x)=p(1-p)^{x-1}\)其中人们想知道在第一次成功之前试验次数的概率:\(x\)第 th 条线是第一次成功。 另一种几何分布公式提出了一个问题:在第一次成功之前\(x\)失败的概率是多少? 在此公式中,不计算取得第一次成功的试验。 这种几何图形表示的公式是:\(P(X=x)=p(1-p)^{x}\). 这种形式的几何分布的预期值为\(\mu=\frac{1-p}{p}\)。 保持这两种形式的几何分布直线的最简单方法是记住 p 是成功概率,\((1−p)\)也是失败概率。 在公式中,指数仅计算预期实验结果的成功次数和失败次数。 当然,这两个数字的总和必须与实验中的试验次数相加。
- 有一次或多次伯努利试验都失败了,但最后一次试验是成功的。
- 从理论上讲,试验的数量可能会永远持续下去。 必须至少进行一次试验。
- 成功的\(p\)概率和失败的概率不会因试验而变化。\(q\)
- 几何实验
- 具有以下属性的统计实验:
- 超几何实验
- 具有以下属性的统计实验:
- 你从两组中采集样本。
- 你关心的是一个兴趣群体,称为第一组。
- 您可以从组合组中抽样,无需替换。
- 每个采样都不是独立的,因为采样无需替换。
- 正态分布
- \((RV)\)带有 pdf 的连续随机变量\(f(x) =\)\[\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\nonumber\],其中\(\mu\)是分布的平均值,\(\sigma\)是标准差;表示法:\(X \sim N(\mu, \sigma)\)。 如果\(\mu = 0\)和\(\sigma = 1\)\(RV\)\(Z\),则称为标准正态分布。 标准正态分布是一个连续的随机变量\((RV) X \sim N(0, 1)\);当\(X\)遵循标准正态分布时,它通常被标记为\(Z \sim N(0, 1)\)。z-score 表示形式的线性变换,\(z=\frac{x-\mu}{\sigma}\)或者写成\(z=\frac{|x-\mu|}{\sigma}\);如果此变换应用于任何正态分布\(X \sim N(\mu, \sigma)\)结果是标准正态分布\(Z \sim N(0,1)\)。 如果将此变换应用于\(RV\)具有均值\(\mu\)和标准差\(x\)的任意特定值\(\sigma\),则结果称为 z 得分\(x\)。 z 分数允许我们比较正态分布但比例不同的数据。 z 分数\(x\)是特定值与其平均值相差的标准差数。
- 二项分布
- 来自伯努利试验的离散随机变量 (RV);独立试验的数量是固定的。\(n\) “独立” 是指任何试验(例如,试验 1)的结果不影响以下试验的结果,并且所有试验都是在相同的条件下进行的。 在这种情况下,二项式被定义\(RV\)\(X\)为在 n 次试验中成功的次数。 表示法是:\(X \sim B(\bf{n,p})\)。 均值为\(\mu = np\),标准差为\(\sigma=\sqrt{n p q}\)。 在\(n\)试验中\(x\)成功的概率是\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\)。
- 置信区间 (CI)
- 未知总体参数的间隔估计值。 这取决于:
- 所需的信心水平,
- 有关分布的已知信息(例如,已知的标准差),
- 样本及其大小。
- 信心水平 (CL)
- 置信区间包含真实总体参数的概率的百分比表达式;例如,如果 CL = 90%,则在 100 个样本中的 90 个样本中,区间估计值将包含真实总体参数。
- 自由度 (df)
- 样本中可自由变化的物体数量
- 总体均值 (EBM) 的误差界限
- 误差幅度;取决于置信水平、样本数量以及已知或估计的总体标准差。
- 人口比例 (EBP) 的误差界限
- 误差幅度;取决于置信水平、样本数量和(根据样本)估计的成功比例。
- 推断统计
- 也称为统计推理或归纳统计;统计的这一方面涉及根据样本统计数据估算总体参数。 例如,如果抽样的 100 个计算器中有四个有缺陷,我们可以推断出 4% 的产品存在缺陷。
- 正态分布
- 带有 pdf 的连续随机变量 (RV)\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-(x-\mu)^{2} / 2 \sigma^{2}}\),其中\(\mu\)是分布的平均值,\(\sigma\)是标准差,表示法:\(X \sim N(\mu,\sigma)\)。 如果为\(\mu = 0\) an\(\sigma = 1\) d,则 RV 称为标准正态分布。
- 二项分布
- 来自伯努利试验的离散随机变量 (RV)。 有固定数量的 n 个独立试验。 “独立” 是指任何试验(例如,试验 1)的结果不影响以下试验的结果,并且所有试验都是在相同的条件下进行的。 在这种情况下,二项式 RV 被定义为\(n\)试验的成功次数。 表示法为:\(X \sim B(n, p) \mu = np\),标准差为\(\sigma=\sqrt{n p q}\)。 在\(n\)试验中\(x\)成功的概率是\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\)。
- 中心极限定理
- 给定一个具有已知均值\(\mu\)和已知标准差的随机变量 (RV)\(\sigma\)。 我们正在采样大小为 n,我们对两个新的 RV 感兴趣——样本均值\(\overline X\)。 如果样本的大小 n 足够大,那么\(\overline{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\)。 如果样本的大小 n 足够大,则无论总体形状如何,样本均值的分布都将近似正态分布。 样本均值的预期值将等于总体均值。 样本均值分布的标准差称为均值的标准差。\(\frac{\sigma}{\sqrt{n}}\)
- 所需的置信水平。
- 有关分布的已知信息(例如,已知的标准差)。
- 样本及其大小。
- 置信区间 (CI)
- 未知总体参数的间隔估计值。 这取决于:
- 临界值
- 由研究人员设定的\(t\)或\(Z\)值,用于测量 I 型错误的概率\(\sigma\)。
- 假设
- 关于总体参数值的陈述,如果有两个假设,则假定为真的陈述称为原假设(表示法\(H_0\)),矛盾的陈述称为备择假设(表示法\(H_a\))。
- 假设检验
- 基于样本证据,一种确定所述假设是否为合理陈述且不应被驳回的程序,还是不合理且应予以拒绝的程序。
- Cohen's d
- 根据两个均值之间的差值来衡量效应大小。 如果介\(d\)于 0 和 0.2 之间,则效果很小。 如果\(d\)接近为 0.5,则效果为中等;如果接\(d\)近 0.8,则为大效应。
- a 是 Y 截距的符号
- 有时写成\(b_0\),因为在编写理论线性模型\(\beta_0\)时,使用理论线性模型来表示总体的系数。
- b 是斜率的符号
- 将经常使用系数这个词来表示斜率,因为它是一个总是在字母 “” 旁边的数字\(x\)。 它将像使用样本\(b_1\)时一样编写,\(\beta_1\)将与总体一起使用或在编写理论线性模型时使用。
- 双变量
- 模型中存在两个变量,其中一个是 “原因” 或自变量,另一个是因变量的 “影响”。
- 线性
- 一种获取数据并将其回归为直线方程的模型。
- 多变量
- 使用多个自变量来预测结果的系统或模型。 只能有一个因变量,但对自变量的数量没有限制。
- R2R2 — 确定系数
- 这是一个介于 0 和 1 之间的数字,表示因变量的百分比变异,可以用自变量的变异来解释。 有时由方程计算,\(R^{2}=\frac{S S R}{S S T}\)其中\(SSR\)是 “平方和回归”,\(SST\)是 “总平方和”。 要报告的适当确定系数应始终首先根据自由度进行调整。
- 残差或 “错误”
- 通过减去计算得出的值\(y_{0}-\hat{y}_{0}=e_{0}\)。 残差的绝对值用于测量 y 的实际值与出现在最佳拟合线上的 y 的估计值之间的垂直距离。
- RR — 相关系数
- 介于 −1 和 1 之间的数字,表示 “” 和 “\(X\)” 之间关系的强度和方向\(Y\)。 只有当所有标绘点都形成一条完全的直线时,“\(r\)” 的值才等于 1 或 −1。
- 误差平方和 (SSE)
- 将所有残差项的平方相加得出的值。 希望在创建模型时这个值非常小。
- X — 自变量
- 这有时会被称为 “预测变量”,因为测量这些值的目的是确定可以预测哪些可能的结果。
- Y — 因变量
- 此外,使用字母 “\(y\)” 表示实际值,而\(\hat{y}\)表示预测值或估计值。 预测值将来自将观测到\(x\)的 “” 值插入线性模型。
- 所有感兴趣的种群均为正态分布。
- 总体具有相等的标准差。
- 样本(不一定大小相同)是从每个群体中随机独立地选择的。
- 有一个自变量和一个因变量。
用于方差分析的检验统计量是\(F\)-ratio。
- 方差分析
- 也称为方差分析,是一种检验三个或更多总体的均值是否相等的方法。 该方法在以下情况下适用:
- 单因子方差分析
- 一种检验三个或更多总体的均值是否相等的方法;该方法在以下情况下适用:
- 所有感兴趣的种群均为正态分布。
- 总体具有相等的标准差。
- 样本(不一定大小相同)是从每个群体中随机独立地选择的。
用于方差分析的检验统计量是\(F\)-ratio。
- 方差
- 偏差平方与均值的平均值;标准差的平方。 对于一组数据,偏差可以表示为 wh\(x – \overline{x}\) ere\(x\) 是数据的值,\(\overline{x}\)是样本均值。 样本方差等于偏差的平方和除以样本数量和 1 的差值。
- 应急表
- 显示两个不同因子的样本值的表,这两个因子可能相互依赖或相互依存;它有助于确定条件概率。
- 合身优点
- 一种假设检验,用于比较预期值和观测值,以寻找一个非参数变量中的显著差异。 使用的自由度等于(类别数 — 1)。
- 同质性测试
- 该检验用于得出两个总体是否具有相同分布的结论。 使用的自由度等于(列数 — 1)。
- 独立性考验
- 一种假设检验,用于比较列联表的预期值和观测值,以检验两个变量之间的独立性。 使用的自由度等于(列数 — 1)乘以(行数 — 1)。
- 独立团体
- 从两个总体中选出的两个样本以及来自一个总体的值与另一个总体的值没有任何关系。
- 匹配的配对
- 两个依赖样本。 前后情景之间的差异是通过检验一个总体差异均值来检验的。
- 合并方差
- 两个方差的加权平均值,然后可以在计算标准误差时使用。
- 正态分布
- 带有 pdf 的连续随机变量 (RV)\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\),其中\(\mu\)是分布的平均值,\(\sigma\)是标准差,表示法:\(X \sim N(\mu, \sigma)\)。 如果为\(\mu = 0\) an\(\sigma = 1\) d,则 RV 称为标准正态分布。
- 标准偏差
- 一个等于方差平方根的数字,用于衡量数据值与其平均值的距离;表示法:s 表示样本标准差,α 表示总体标准差。
- 学生的 T 分布
- William S. Gossett 于 1908 年调查和报道,并以化名 Student 出版。 随机变量 (RV) 的主要特征是:
- 它是连续的,假设任何实数值。
- pdf 的均值为零,是对称的。 但是,它在顶点比正态分布更分散,更平坦。
- 随着 n 变大,它接近标准正态分布。
- 有一个 t 分布的 “族群”:该族的每个代表完全由自由度数定义,自由度数比数据项数少一。
- 测试统计
- 计算相关分布上的标准差数的公式表示估计参数偏离假设值。
- I 型错误
- 当事实上原假设为真时,决定否定原假设。
- 第二类错误
- 决定不是否定原假设,而事实上原假设是错误的。
- 参数
- 人口的数字特征
- 分数估算
- 根据样本计算得出的单个数字,用于估计总体参数
- 标准偏差
- 一个等于方差平方根的数字,\(s\)用于测量数据值与其平均值的距离;表示法:表示样本标准差,\ sigma 表示总体标准差
- 学生的 t-分布
- William S. Gossett 于 1908 年调查和报道,并以化名 Student 出版;这个随机变量 (\(RV\)) 的主要特征是:
- 它是连续的,假设任何实数值。
- pdf 的均值为零,是对称的。
- 随着\(n\)变大,它接近标准正态分布。
- 有一个 t 分布的 “族”:该族的每个代表完全由自由度数定义,这取决于使用 t 的应用。
- 平均值
- 描述数据中心趋势的数字;有许多专门的平均值,包括算术平均值、加权平均值、中位数、模态和几何平均值。
- 中心极限定理
- 给定一个具有已知平均值 μ 和已知标准差 α 的随机变量,我们正在使用大小为 n 的随机变量,我们对两个新 RV 感兴趣:样本均值\(\overline X\)。 如果样本的大小 (\(n\)) 足够大,那么\(\overline{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\)。 如果样本的大小 (\(n\)) 足够大,则无论总体形状如何,样本均值的分布都将近似正态分布。 样本均值的均值将等于总体均值。 样本均值分布的标准差称为均值的标准差。\(\frac{\sigma}{\sqrt{n}}\)
- 有限种群校正系数
- 如果已知总体且正在抽样的总体超过 5%,则调整抽样分布的方差。
- 意思
- 衡量中心趋势的数字;均值的通用名称是 “平均值”。 术语 “平均值” 是 “算术平均值” 的缩写形式。 根据定义,样本的均值(用表示\(\overline x\))为\(\overline x =\overline{x}=\frac{\text { Sum of all values in the sample }}{\text { Number of values in the sample }}\),总体的均值(用表示\(\mu\))为\(\mu=\frac{\text { Sum of all values in the population }}{\text { Number of values in the population }}\)。
- 正态分布
- 带有 pdf 的连续随机变量\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\),其中\(\mu\)是分布的平均值,\(\sigma\)是标准差。; 符号:\(X \sim N(\mu, \sigma)\)。 如果为\(\sigma = 1\) and\(\mu = 0\),则随机变量称为标准正态分布。\(Z\)
- 采样分布
- 假定\(n\)来自给定总体的规模的简单随机样本具有每个样本的平均值、比例或标准差等测量特征,则所有测量特征的概率分布称为抽样分布。
- 均值的标准误
- 样本均值分布的标准差,或\(\frac{\sigma}{\sqrt{n}}\)。
- 比例的标准误差
- 比率抽样分布的标准差
- 条件概率
- 鉴于另一个事件已经发生,该事件发生的可能性。
- 衰减参数
- 衰减参数描述了值增加时概率衰减到零的速率\(x\)。 它是指数随机变量的概率密\(f(x)=m e^{(-m x)}\)度函数中的值 m。 它也等于\(m = \frac{1}{\mu}\),其中\(\mu\)是随机变量的均值。
- 指数分布
- 一个连续随机变量 (RV),当我们对某些随机事件之间的时间间隔(例如,紧急到达医院之间的时间长度)感兴趣时出现。 均值为\(\mu = \frac{1}{m}\),标准差为\(\sigma = \frac{1}{m}\)。 概率密度函数为\(f(x)=m e^{-m x} \text { or } f(x)=\frac{1}{\mu} e^{-\frac{1}{\mu} x}, x \geq 0\),累积分布函数为\(P(X \leq x)=1-e^{-m x} \text { or } P(X \leq x)=1-e^{-\frac{1}{\mu} x}\)。
- 无记忆的财产
- 对于指数随机变量\(X\),无记忆属性表示知道过去发生的事情对未来的概率没有影响。 这意味着,假设已超\(X\)\(x\)过\(x + t\) t 的概率与我们不知情时超过 t 的概率相同。\(X\) 在符号中我们是这样说的\(P(X > x + t|X > x) = P(X > t)\)。
- 泊松分布
- 如果已知平均每单位时间内发生\ mu 个事件,并且这些事件相互独立,则在一个单位时间内发生的事件数 X 具有泊松分布。 在一个单位时间内发生 x 个事件的概率等于\(P(X=x)=\frac{\mu^{x} e^{-\mu}}{x !}\)。
- 均匀分布
- 一种连续随机变量 (RV),在整个域上产生同样可能的结果\(a < x < b\);它通常被称为矩形分布,因为 pdf 的图形呈矩形形式。 均值为\(\mu=\frac{a+b}{2}\),标准差为\(\sigma=\sqrt{\frac{(b-a)^{2}}{12}}\)。 概率密度函数为\ (f (x) =\ frac {1} {b-a}\ text {for} a
- 超几何概率
- 一种离散随机变量 (RV),其特征为:
- 固定数量的试验。
- 每次试验的成功概率都不一样。
- 泊松概率分布
- 一种离散随机变量 (RV),用于计算特定事件在特定间隔内发生的次数;变量的特征:
- 事件在给定间隔内发生的概率在所有时间间隔内都是相同的。
- 这些事件以已知的平均值发生,与自上次事件发生以来的时间无关。
- 概率分布函数 (PDF)
- 对离散随机变量 (RV) 的数学描述,以方程(公式)或表格的形式给出,列出实验的所有可能结果以及与每个结果相关的概率。
- 随机变量 (RV)
- 正在研究的群体中感兴趣的特征;变量的常用表示法是大写拉丁字母\(X, Y, Z\),...;来自域的特定值(变量所有可能值的集合)的常用表示法是小写拉丁字母\(x, y\),以及\(z\)。 例如,如果\(X\)是家庭中孩子的数量,则\(x\)表示一个特定的整数 0、1、2、3... 统计中的变量与中间代数中的变量在以下两个方面有所不同。
- 随机变量 (RV) 的域不一定是数字集;域可以用文字表示;例如,如果\(X =\)头发颜色,则该域为 {黑色、金色、灰色、绿色、橙色}。
- 只有在执行实验之后,我们才能分辨出随机变量\(X\)需要多少特定值 x。
- 样本空间
- 实验的所有可能结果的集合
- 取样和替换
- 如果人口中的每个成员在被选中后都被替换,则该成员有可能被多次选中。
- 采样无需更换
- 如果在没有替换的情况下进行抽样,则人口中的每个成员只能被选中一次。
- 补充活动
- 事件 A 的补码包含不在 A 中的所有结果。
- 的条件概率\(A | B\)
- P (A||B) 是在事件 B 已经发生的情况下事件 A 发生的概率。
- 十字路口:\(\cap \)事件
- 如果结果同时存在于两个事件中,则结果在事件 | (A\ c\(A \cap B\) ap B\) 中。
- 联盟:\(\cup\)活动
- \(A \cup B\)如果结果在 A 中或者在 B 中或者同时在 A 和 B 中,则结果在事件中
- 树图
- 以 “树” 的形式对样本空间和事件进行有用的可视化表示,树枝上标有可能的结果以及相关的概率(频率、相对频率)
- 维恩图
- 样本空间和事件的视觉表现形式以圆形或椭圆形的形式显示它们的交叉点
- 调查
- 一项研究,其中收集的数据是按个人报告的方式收集的。
- 系统采样
- 一种选择随机样本的方法;列出总体成员。 使用简单的随机抽样在总体中选择起点。 假设 k =(总体中的个体数量)/(样本中需要的个体数量)。 选择列表中的每个 k 个人,从随机选择的那个人开始。 如有必要,请返回人口列表的开头以完成样本。
- 治疗方法
- 实验中应用的解释变量的不同值或分量
- 变量
- 人口中每个人或物体感兴趣的特征
- 频率
- 数据值出现的次数
- 频率表
- 一种数据表示法,其中显示了分组的数据以及相应的频率
- 直方图
- 数据集中数据分布的 x-y 形式的图形表示;x 表示数据,y 表示频率或相对频率。 该图由连续的矩形组成。
- 四分位间距
- 或 IQR 是数据值中间 50% 的范围;IQR 是通过从第三个四分位数中减去第一个四分位数得出的。
- 平均值(算术)
- 用于衡量数据中心趋势的数字;均值的常用名称是 “平均值”。 术语 “平均值” 是 “算术平均值” 的缩写形式。 根据定义,样本的均值(用表示\(\overline{x}\))为\(\overline{x}=\frac{\text { Sum of all values in the sample }}{\text { Number of values in the sample }}\),总体的均值(用 μ 表示)为\(\boldsymbol{\mu}=\frac{\text { Sum of all values in the population }}{\text { Number of values in the population }}\)
- 平均值(几何)
- 一种衡量中心趋势的指标,用于衡量多个时间段内的平均几何增长。
- 中位数
- 将有序数据分成两半的数字;一半的值等于或小于中位数,一半的值是相同的数字或大于中位数。 中位数可能是也可能不是数据的一部分。
- 中点
- 频率表中间隔的平均值
- 模式
- 一组数据中最常出现的值
- 异常值
- 这个观测值与其余数据不匹配
- 百分位数
- 将有序数据分成百分之一的数字;百分位数可能是数据的一部分,也可能不是数据的一部分。 数据的中位数是第二个四分位数和第 50 个百分位数。 第一和第三个四分位数分别是第 25 个百分位数和第 75 个百分位数。
- 四分位数
- 将数据分成四分位数的数字;四分位数可能是也可能不是数据的一部分。 第二个四分位数是数据的中位数。
- 相对频率
- 数据值在所有结果集合中出现的次数与所有结果的次数之比
- 标准偏差
- 一个等于方差平方根的数字,用于衡量数据值与其平均值的距离;表示法:s 表示样本标准差,α 表示总体标准差。
- 方差
- 偏差的平方平均值或标准差的平方;对于一组数据,偏差可以表示为 x,其\(\overline{x}\)中 x 是数据的值,\(\overline{x}\)是样本均值。 样本方差等于偏差的平方和除以样本数量和 1 的差值。