Skip to main content
Global

2.4: 分析发现

  • Page ID
    203412
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    学习目标

    • 解释相关系数告诉我们关于变量之间关系的内容
    • 认识到相关性并不表示变量之间存在因果关系
    • 讨论我们倾向于寻找实际上不存在的变量之间的关系
    • 解释随机抽样并将参与者分配到实验组和对照组中
    • 讨论实验者或参与者的偏见如何影响实验结果
    • 识别自变量和因变量

    你知道吗,随着冰淇淋销量的增加,总体犯罪率也在增加? 沉迷于你最喜欢的冰淇淋口味有可能让你疯狂犯罪吗? 或者,在犯罪之后,你认为你会决定用锥体对待自己吗? 毫无疑问,冰淇淋和犯罪之间存在关系(例如,Harper,2013),但是决定一件事实际上导致了另一件事的发生是相当愚蠢的。

    冰淇淋销售和犯罪率更有可能与室外温度有关。 当温度变暖时,会有很多人走出家门,互相交流,互相烦恼,有时还会犯罪。 另外,当外面很温暖时,我们更有可能寻找冰淇淋等凉爽的食物。 我们如何确定两件事之间是否确实存在关系? 当存在关系时,我们如何辨别它是巧合还是因果关系?

    相关研究

    相关性意味着两个或多个变量(例如冰淇淋消费和犯罪)之间存在关系,但这种关系不一定意味着因果关系。 当两个变量相互关联时,这只是意味着当一个变量发生变化时,另一个变量也会发生变化。 我们可以通过计算称为相关系数的统计数据来测量相关性。 相关系数是从\(-1\)到的数字\(+1\),表示变量之间关系的强度和方向。 相关系数通常用字母 r 表示。

    相关系数的数字部分表示关系的强度。 数字越接近\(1\)(无论是负数还是正数),变量的相关性就越强,一个变量的变化随着另一个变量的变化而变得越可预测。 数字越接近零,关系越弱,变量之间的关系就越难以预测。 例如,相关系数为\(0.9\)表示关系比相关系数强得多\(0.3\)。 如果变量彼此之间根本不相关,则相关系数为\(0\)。 上面关于冰淇淋和犯罪的例子是两个我们可能认为彼此之间没有关系的变量的示例。

    相关系数的正负符号表示关系的方向。 正相关意味着变量朝相同的方向移动。 换句话说,这意味着当一个变量增加时,另一个变量也会增加,相反,当一个变量减少时,另一个变量也会减少。 负相关性意味着变量朝相反的方向移动。 如果两个变量呈负相关,则一个变量的减少与另一个变量的增加有关,反之亦然。

    冰淇淋和犯罪率的例子是正相关的,因为当温度升高时,这两个变量都会增加。 正相关性的其他例子包括个人的身高和体重之间的关系,或者一个人的年龄与皱纹数量之间的关系。 人们可能会预计,某人白天的疲劳与前一天晚上的睡眠时数之间存在负相关性:随着疲劳感的增加,睡眠量会减少。 在一个真实的负相关性例子中,明尼苏达大学的学生研究人员发现,学生每周睡眠时间少于\(5\)小时的平均天数与他们的 GPA 之间存在微弱的负相关性(Lowry、Dean 和 Manders,2010)。\(r = -0.29\) 请记住,负相关性与无关联并不相同。 例如,我们可能会发现睡眠时间和鞋子尺码之间没有关联。

    如前所述,相关性具有预测价值。 想象一下,你是一所主要大学的招生委员会成员。 你面临着大量的申请,但你只能容纳申请人群中的一小部分。 你怎么能决定谁应该被录取? 你可以尝试将当前学生的大学GPA与他们在SAT或ACT等标准化考试中的分数相关联。 通过观察哪些相关性对你目前的学生来说最强,你可以利用这些信息来预测那些申请大学录取的学生的相对成功。

    显示了三个散点图。 Scatterplot (a) 被标记为 “正相关”,显示散点从左下角到右上角形成一条粗略的直线;x 轴标记为 “重量”,y 轴标记为 “高度”。 Scatterplot (b) 被标记为 “负相关”,显示从左上角到右下角形成一条粗略的线条的散点图;x 轴标记为 “疲倦”,y 轴标记为 “睡眠时间”。 散点图 (c) 被标记为 “无关联”,显示没有图案的散点点;x 轴标记为 “鞋码”,y 轴标记为 “睡眠时间”。
    \(\PageIndex{1}\):散点图是关联强度和方向的图形视图。 相关性越强,数据点离直线越近。 在这些例子中,我们看到(a)体重和身高之间存在正相关性,(b)疲劳与睡眠时间之间存在负相关性,(c)鞋码和睡眠时间之间没有相关性。

    关联不表示因果关系

    关联研究很有用,因为它使我们能够发现两个变量之间存在的关系的强度和方向。 但是,关联性是有限的,因为建立关系的存在几乎不能告诉我们因果关系。 虽然有时变量是相关的,因为一个变量确实会导致另一个变量,但也可能是其他因素,即混淆变量,实际上导致了我们感兴趣的变量的系统变动。 在前面提到的冰淇淋/犯罪率示例中,温度是一个混杂变量,可以解释这两个变量之间的关系。

    即使我们无法指向清除混淆变量,我们也不应假设两个变量之间的关联意味着一个变量会导致另一个变量发生变化。 当因果关系看起来清晰直观时,这可能会令人沮丧。 回想一下我们对美国癌症协会所做研究的讨论,以及他们的研究项目是如何首次证明吸烟与癌症之间联系的。 假设吸烟会导致癌症似乎是合理的,但如果我们仅限于相关研究,那么做出这样的假设就会超越界限。

    不幸的是,人们一直错误地宣称因果关系是相关性的函数。 这种说法在广告和新闻报道中尤其常见。 例如,最近的研究发现,经常吃麦片的人的体重比很少吃麦片的人更健康(Frantzen、Treviño、Echon、Garcia-Dominic和DiMarco,2013年;Barton等人,2005年)。 猜猜谷类公司是如何报告这一发现的。 吃麦片真的能使个人保持健康的体重吗?还是有其他可能的解释,比如,体重健康的人比肥胖的人或为了节食而避免进食的人更有可能定期吃健康的早餐? 尽管相关研究对于识别变量之间的关系非常宝贵,但一个主要的限制是无法确定因果关系。 心理学家想就因果关系做出陈述,但做到这一点的唯一方法是进行实验来回答研究问题。 下一节介绍科学实验如何采用消除或控制替代解释的方法,从而使研究人员能够探索一个变量的变化如何导致另一个变量的变化。

    一张照片显示了一碗麦片。
    \(\PageIndex{2}\):吃麦片真的会使某人的体重健康吗? (来源:Tim Skillern)

    虚幻的关联

    在相关研究的基础上做出错误的因果陈述的诱惑并不是我们倾向于误解数据的唯一途径。 我们还倾向于犯虚幻关联的错误,尤其是在不系统的观察中。 当人们认为两件事之间存在关系而没有这种关系时,就会出现虚@@ 的相关性或虚假的相关性。 一个众所周知的虚幻关联是月相对人类行为的假定影响。 许多人热情地断言,人类的行为受到月相的影响,具体而言,月亮满时人们的行为很奇怪。

    一张照片显示了月亮。
    \(\PageIndex{3}\):许多人认为满月会让人表现得很奇怪。 (来源:Cory Zanker)

    不可否认的是,月球对我们的星球产生了强大的影响。 海洋潮汐的潮起潮落与月球的引力紧密相关。 因此,许多人认为,我们也受到月球的影响是合乎逻辑的。 毕竟,我们的身体主要由水组成。 但是,对近几\(40\)项研究的荟萃分析一致表明,月球与我们的行为之间的关系并不存在(Rotton & Kelly,1985)。 虽然我们可能会更多地关注月球满相期间的奇怪行为,但在整个月球周期中,奇怪行为的发生率保持不变。

    为什么我们如此倾向于相信这样的虚幻关联? 我们经常阅读或听到这些信息,只接受这些信息是有效的。 或者,我们对某件事的运作有预感,然后寻找证据来支持这种预感,忽略能告诉我们直觉是错误的证据;这就是所谓的确认偏见。 其他时候,我们会根据最容易想到的信息发现虚幻的相关性,即使这些信息受到严重限制。 尽管我们可能有信心利用这些关系来更好地理解和预测我们周围的世界,但虚幻的关联可能有很大的缺点。 例如,研究表明,虚幻的关联——其中某些行为被错误地归因于某些群体——参与了偏见态度的形成,最终可能导致歧视行为(Fiedler,2004)。

    因果关系:进行实验和使用数据

    如你所知,确定两个变量之间存在因果关系的唯一方法是进行科学实验。 实验在科学背景下的含义与在日常生活中的含义不同。 在日常对话中,我们经常用它来描述第一次尝试某件事,比如尝试新发型或新食物。 但是,在科学背景下,实验对设计和实施有精确的要求。

    实验假设

    为了进行实验,研究人员必须有一个特定的假设需要检验。 如你所知,假设可以通过直接观察现实世界或在仔细回顾先前的研究之后得出。 例如,如果你认为不应允许孩子在电视上观看暴力节目,因为这样做会导致他们的行为更加暴力,那么你基本上已经形成了一个假设,即看暴力电视节目会导致孩子的行为更加暴力。 你怎么可能得出这个特殊的假设? 你可能有年幼的亲戚看动画片,这些动画片以使用武术从邪恶分子手中拯救世界的角色为特色,他们用拳打、踢球和防守姿势令人印象深刻。 你注意到,在看了这些节目一段时间之后,你的年轻亲戚模仿了动画片中描绘的角色的战斗行为。

    一张照片显示一个孩子指着玩具枪。
    \(\PageIndex{4}\):在孩子看暴力电视节目后马上看到这样的行为可能会让你假设观看暴力电视节目会增加暴力行为的显示量。 (来源:艾姆兰·卡西姆)

    这类个人观察往往促使我们提出具体的假设,但我们不能使用有限的个人观察和传闻证据来严格检验我们的假设。 相反,为了找出真实世界的数据是否支持我们的假设,我们必须进行实验。

    设计实验

    最基本的实验设计涉及两组:实验组和对照组。 这两个组的设计是相同的,只有一个区别——实验操作。 实验组得到实验操作,即正在测试的治疗方法或变量(在本例中为暴力电视图像),而对照组没有。 由于实验操纵是实验组和对照组之间的唯一区别,因此我们可以肯定,两者之间的任何差异都是由于实验操纵而不是偶然造成的。

    在我们的暴力电视节目如何影响儿童暴力行为的例子中,我们让实验小组在规定的时间内观看暴力电视节目,然后衡量他们的暴力行为。 我们衡量对照组在相同时间观看非暴力电视节目后的暴力行为。 重要的是,对照组要接受与实验组相似的对待,唯一的例外是对照组不接受实验操纵。 因此,我们让对照组观看非暴力电视节目的时间与实验组相同。

    我们还需要精确定义或实施所谓的暴力和非暴力。 操作定义是对我们将如何测量变量的描述,它对于让其他人准确了解研究人员在特定实验中测量的方式和内容非常重要。 在实施暴力行为时,我们可以选择只将脚踢或拳打等身体行为算作这种行为的实例,或者我们也可以选择包括愤怒的口头交流。 无论我们做出什么决定,重要的是我们要以这样的方式来操作暴力行为,这样任何第一次听说我们研究的人都确切地知道我们所说的暴力是什么意思。 这有助于人们解释我们的数据,也有助于他们选择重复我们的实验的能力。

    一旦我们将所谓的暴力电视节目和实验参与者视为暴力的行为付诸实施,我们就需要确定我们将如何进行实验。 在这种情况下,我们可能会让参与者观看一\(30\)分钟的电视节目(暴力或非暴力,取决于他们的团体成员资格),然后将他们送到游乐场待一个小时,观察他们的行为并记录暴力行为的数量和类型。

    理想情况下,观察和记录孩子行为的人不知道谁被分配到实验组或对照组,以控制实验者的偏见。 实验者偏见是指研究人员的期望可能会扭曲研究结果的可能性。 请记住,进行实验需要大量的规划,支持他们的假设符合参与研究项目的人员的既得利益。 如果观察者知道哪个孩子属于哪个群体,这可能会影响他们对每个孩子行为的关注程度以及他们如何解释该行为。 通过对哪个孩子属于哪个群体视而不见,我们可以保护他们免受这些偏见。 这种情况是单盲研究,这意味着其中一个小组(参与者)不知道自己属于哪个组(实验或对照组),而开发实验的研究人员知道每个组中有哪些参与者。

    在一项双盲研究中,研究人员和参与者都对小组作业视而不见。 为什么研究人员要进行一项没人知道谁属于哪个组的研究? 因为通过这样做,我们可以控制实验者和参与者的期望。 如果你熟悉安慰剂效应这个词,那么你已经知道为什么这是一个重要的考虑因素了。 当人们的期望或信念影响或决定他们在给定情况下的经历时,就会产生安慰剂效应。 换句话说,仅仅期待某件事发生实际上可以使它发生。

    安慰剂效应通常用测试新药的有效性来描述。 想象一下,你在一家制药公司工作,你认为你有一种可以有效治疗抑郁症的新药。 为了证明你的药物是有效的,你可以用两组进行实验:实验组接受药物,对照组没有。 但是你不想让参与者知道他们是否服用了药物。

    这是为什么? 想象一下,你是这项研究的参与者,你刚刚服用了一种你认为可以改善情绪的药丸。 因为你期望避孕药有作用,所以你可能会感觉好些,仅仅因为你服用了避孕药,而不是因为药丸中实际含有任何药物——这就是安慰剂效应。

    为了确保对情绪的任何影响都是由药物而不是预期引起的,对照组服用了安慰剂(在本例中为糖丸)。 现在每个人都有药丸,研究人员和实验参与者都不知道谁得到了药物,谁得到了糖丸。 现在,实验组和对照组之间的任何情绪差异都可以归因于药物本身,而不是实验者的偏见或参与者的期望。

    一张照片显示了三瓶标有安慰剂的玻璃药丸。
    \(\PageIndex{5}\):向对照组提供安慰剂治疗可以防止预期造成的偏见。 (来源:伊莱恩和亚瑟·夏皮罗)

    自变量和因变量

    在一项研究实验中,我们努力研究一件事的变化是否会导致另一件事的改变。 为了实现这一目标,在任何实验研究中,我们必须注意两个重要的变量或可以改变的东西:自变量和因变量。 自变量由实验者操纵或控制。 在精心设计的实验研究中,自变量是实验组和对照组之间唯一的重要区别。 在我们的暴力电视节目如何影响儿童表现暴力行为的示例中,自变量是研究参与者观看的节目类型,无论是暴力还是非暴力。 因变量是研究人员测量的变量,以查看自变量产生了多大的影响。 在我们的示例中,因变量是实验参与者显示的暴力行为的数量。

    标有 “自变量:观看的电视节目的类型” 的盒子里有一张射击自动武器的人的照片。 标有 “影响... 的变化” 的箭头指向第二个方框。 第二个方框标有 “因变量:显示的暴力行为”,上面有一张孩子指着玩具枪的照片。
    \(\PageIndex{6}\):在实验中,自变量的操纵预计会导致因变量的变化。 (来源 “自动武器”:丹尼尔·奥因斯对作品的修改;来源 “玩具枪”:艾姆兰·卡西姆对作品的修改)

    我们预计因变量将作为自变量的函数而变化。 换句话说,因变量依赖于自变量。 思考自变量和因变量之间关系的一个好方法是问这个问题:自变量对因变量有什么影响? 回到我们的例子,观看半小时的暴力电视节目或非暴力电视节目会对操场上显示的人身攻击事件数量产生什么影响?

    选择和分配实验参与者

    现在我们的研究已经设计完毕,我们需要获得一个个体样本以纳入我们的实验。 我们的研究涉及人类参与者,因此我们需要确定将谁包括在内。 参与者是心理学研究的主体,顾名思义,参与心理学研究的个人积极参与该过程。 通常,心理研究项目依靠大学生作为参与者。 事实上,心理学子领域的绝大多数研究历来都涉及学生作为研究参与者(Sears,1986;Arnett,2008)。 但是,大学生真的能代表普通民众吗? 与普通人群相比,大学生往往更年轻、受教育程度更高、更自由、多样化程度更低。 尽管使用学生作为考试对象是一种公认的做法,但依赖如此有限的研究参与者可能会出现问题,因为很难将研究结果推广到更多人群。

    我们的假设实验涉及儿童,我们必须首先生成儿童参与者的样本。 之所以使用样本,是因为群体通常太大,无法合理地让每个成员参与我们的特定实验。 如果可能的话,我们应该使用随机样本(还有其他类型的样本,但出于本章的目的,我们将重点介绍随机样本)。 随机样本是较大人口的子集,其中总体中的每个成员都有同等的机会被选中。 首选随机样本,因为如果样本足够大,我们可以合理地确定参与者代表了更大的人群。 这意味着样本中特征的百分比(性别、种族、社会经济水平以及可能影响结果的任何其他特征)与较大人口中的百分比接近。

    在我们的示例中,假设我们决定感兴趣的人群是四年级学生。 但是所有四年级学生都是非常庞大的人口,因此我们需要更具体地说;相反,我们可以说我们感兴趣的人口是特定城市的所有四年级学生。 我们应该包括来自不同收入阶层、家庭状况、种族、民族、宗教和城镇地理区域的学生。 有了这个更易于管理的人群,我们可以与当地学校合作,随机选择我们想参加实验的大约\(200\)四年级学生的样本。

    总而言之,因为我们无法测试一个城市中的所有四年级学生,所以我们想找一组\(200\)能反映该城市构成的群体。 通过一个具有代表性的群体,我们可以将我们的发现推广到更多的人群,而不必担心我们的样本在某种程度上会有偏见。

    (a) 一张照片显示了街道上人群的鸟瞰图。 (b) 一张照片显示了一小群儿童。
    \(\PageIndex{7}\):研究人员可能使用 (a) 大量人群或 (b) 作为较大人群子集的样本组。 (来源 “crowd”:修改詹姆斯·克里德兰的作品;学分 “学生”:劳里·沙利文对作品的修改)

    现在我们有了样本,实验过程的下一步是通过随机分配将参与者分为实验组和对照组。 通过随机分配,所有参与者都有平等的机会被分配到任一组。 有统计软件可以将样本中的每个四年级学生随机分配到实验组或对照组。

    随机分配对于声音实验设计至关重要。 如果样本足够大,随机分配使得各组之间不太可能存在系统差异。 因此,举例来说,我们不太可能组成一个完全由男性、特定的种族身份或特定的宗教意识形态组成的群体。 这很重要,因为如果两组在实验开始之前存在系统差异,我们就不知道两组之间发现的任何差异的起源:差异是先前存在的,还是由操纵自变量引起的? 随机分配允许我们假设观察到的实验组和对照组之间的任何差异都是操纵自变量造成的。

    需要考虑的问题

    尽管实验允许科学家提出因果主张,但它们并非没有问题。 真正的实验要求实验者操纵自变量,这会使心理学家可能想要解决的许多问题变得复杂。 例如,假设你想知道性(自变量)对空间记忆(因变量)有什么影响。 尽管你当然可以在利用空间记忆的任务中寻找男性和女性之间的差异,但你无法直接控制一个人的性别。 我们将这种研究方法归类为准实验方法,并认识到在这种情况下我们无法提出因果主张。

    实验者也受到伦理约束的限制。 例如,你将无法进行旨在确定小时候遭受虐待是否会降低成年人的自尊心的实验。 要进行这样的实验,你需要将一些实验参与者随机分配到一个受到滥用的小组中,该实验是不道德的。

    解读实验发现

    从实验组和对照组收集数据后,将进行统计分析,以确定两组之间是否存在有意义的差异。 统计分析确定发现的任何差异有多大可能是偶然造成的(因此没有意义)。 在心理学中,如果群体差异仅偶然发生的几率为\(5\)百分比或更低,则群体差异被认为是有意义的或显著的。 换句话说,如果我们重复这个实验\(100\)时间,我们预计至少会有\(95\)几次找到相同的结果\(100\)

    实验的最大优势在于能够断言发现中的任何显著差异都是由自变量造成的。 之所以出现这种情况,是因为随机选择、随机分配以及限制实验者偏见和参与者预期影响的设计应该创建在组成和治疗方面相似的群组。 因此,各组之间的任何差异都归因于自变量,现在我们终于可以做出因果陈述了。 如果我们发现观看暴力电视节目比观看非暴力节目导致更多的暴力行为,那么我们可以肯定地说,观看暴力电视节目会增加暴力行为的显示。

    报告研究

    当心理学家完成研究项目时,他们通常希望与其他科学家分享他们的发现。 美国心理学会(APA)出版了一本手册,详细介绍了如何撰写论文以提交给科学期刊。 与可能在像《今日心理学》这样的杂志上发表的文章不同,该杂志针对的是对心理学感兴趣的普通受众,科学期刊通常发表经过同行评审的期刊文章,面向专业人士和学者自己积极参与研究。

    同行评审的期刊文章由其他几位具有该主题专业知识的科学家(通常是匿名的)阅读。 这些同行评审员向作者和期刊编辑提供有关草稿质量的反馈。 同行评审者寻找所描述研究的有力理由、对研究进行方式的清晰描述以及研究以合乎道德的方式进行的证据。 他们还寻找研究设计、方法和统计分析中的缺陷。 鉴于研究期间的观察,他们检查了作者得出的结论是否合理。 同行评审员还评论了这项研究在提高该学科知识方面的价值。 这有助于防止科学文献中不必要的研究结果重复,并在某种程度上确保每篇研究文章都提供新的信息。 最终,期刊编辑将汇编所有同行评审员的反馈意见,并确定文章是以当前状态发表(这种情况很少见)、修改后发表,还是不接受发表。

    同行评审为心理学研究提供了一定程度的质量控制。 构思或执行不当的研究可以被淘汰,即使是精心设计的研究也可以通过建议的修订来改进。 同行评审还确保对研究的描述足够清晰,以便其他科学家进行复制,这意味着他们可以使用不同的样本重复实验以确定可靠性。 有时,复制涉及额外的措施,这些措施扩展了最初的发现。 无论如何,每次复制都有助于提供更多证据来支持最初的研究结果。 成功复制已发表的研究使科学家更倾向于采纳这些发现,而一再失败往往会使人们对原始文章的合法性产生怀疑,并导致科学家将目光转向其他地方。 例如,如果一项已发表的研究表明服用新药可以帮助个人在不改变饮食的情况下达到健康的体重,那将是医学领域的一项重大进步。 但是,如果其他科学家无法复制结果,则最初研究的说法将受到质疑。

    DIG DEEPER:疫苗自闭症的神话和已发表研究的撤回

    一些科学家声称,常规儿童疫苗会导致一些儿童患上自闭症,事实上,一些经过同行评审的出版物发表了提出这些主张的研究。 自初次报告以来,大规模的流行病学研究表明,疫苗接种不是导致自闭症的原因,让孩子接种疫苗比不接种疫苗要安全得多。 此外,最初提出这一主张的几项研究已被撤回。

    当数据因伪造、捏造或严重的研究设计问题而受到质疑时,可以撤销已发表的作品。 一旦撤销,科学界就会被告知原始出版物存在严重问题。 撤回可以由领导研究的研究人员、研究合作者、雇用该研究人员的机构或最初发表文章的期刊的编辑委员会发起。 在疫苗-自闭症案例中,撤回是因为存在重大利益冲突,主要研究人员在建立儿童疫苗与自闭症之间的联系方面有经济利益(Offit,2008)。 不幸的是,最初的研究受到了媒体的广泛关注,以至于世界各地的许多父母对让孩子接种疫苗犹豫不决()。 有关疫苗/自闭症故事如何展开以及这个故事的影响的更多信息,请看保罗·奥菲特的著作《自闭症的假先知:坏科学、危险医学和寻找治疗方法》。

    一张照片显示一名儿童正在接种口服疫苗。
    \(\PageIndex{8}\):有些人仍然认为疫苗接种会导致自闭症。 (来源:联合国儿童基金会瑞典分会对作品的修改)

    可靠性和有效性

    可靠性和有效性是任何类型的数据收集都必须考虑的两个重要考虑因素。 可靠性是指持续产生给定结果的能力。 在心理学研究的背景下,这意味着任何用于收集数据的工具或工具都以一致、可重复的方式进行收集。

    不幸的是,测量的一致性并不一定意味着你已经正确测量了某些东西。 为了说明这个概念,可以考虑一个厨房秤,它可以用来测量你早上吃的谷物的重量。 如果体重秤未正确校准,则可能会持续低估或高估正在测量的谷物量。 尽管体重秤在产生一致结果方面非常可靠(例如,每次倒入体重秤上的相同数量的谷物会产生相同的读数),但这些结果是不正确的。 这就是有效性发挥作用的地方。 有效性是指给定仪器或工具在多大程度上准确地衡量了它应该测量的内容。 虽然任何有效的措施都必然是可靠的,但不一定是相反的。 研究人员努力使用既高度可靠又有效的仪器。

    日常连接:SAT 考试的有效性如何?

    像SAT这样的标准化考试本应衡量个人接受大学教育的能力,但是这样的考试的可靠性和有效性如何? 大学理事会进行的研究表明,SAT考试成绩对大学一年级学生的GPA具有很高的预测有效性(Kobrin、Pattern、Shaw、Mattern和Barbuti,2008年)。 在这种情况下,预测有效性是指考试有效预测大学新生 GPA 的能力。 鉴于许多高等教育机构要求SAT考试才能入学,这种高度的预测有效性可能令人欣慰。

    但是,大学录取中对SAT成绩的强调在许多方面引起了一些争议。 例如,一些研究人员断言SAT考试是一种有偏见的考试,它使少数民族学生处于不利地位,不公平地降低了被大学录取的可能性(Santelices & Wilson,2010)。 此外,一些研究表明,SAT考试的预测有效性在预测大学一年级学生GPA的能力方面被严重夸大了。 事实上,有人认为,国家税务总局的预测有效性可能被高估了多达\(150\%\)(Rothstein,2004)。 许多高等教育机构开始考虑不再强调SAT成绩在录取决定中的重要性(Rimer,2008)。

    2014年,大学理事会主席戴维·科尔曼表达了他对这些问题的认识,他认识到高中成绩比SAT成绩更准确地预测大学成绩。 为了解决这些问题,他呼吁对SAT考试进行重大修改(Lewin,2014)。

    摘要

    用相关系数描述相关性\(r\),其范围\(-1\)为到\(+1\)。 相关系数告诉我们两个或多个变量之间关系的性质(正或负)和强度。 无论变量之间的关系有多强,相关性都不能告诉我们任何关于因果关系的信息。 实际上,证明因果关系的唯一方法是进行实验。 人们常常会错误地声称存在相关性,而实际上却不存在。

    研究人员可以通过进行实验来检验因果假设。 理想情况下,实验参与者是从感兴趣的人群中随机选择的。 然后,参与者被随机分配到各自的小组中。 有时,研究人员和参与者对小组成员视而不见,以防止他们的期望影响结果。

    在理想的实验设计中,实验组和对照组之间的唯一区别是参与者是否暴露于实验操纵。 每个组都要经历实验的所有阶段,但每个组将经历不同水平的自变量:实验组面临实验操纵,对照组不接触实验操纵。 然后,研究人员测量每组因变量产生的变化。 从两个组收集数据后,将对其进行统计分析,以确定两组之间是否存在有意义的差异。

    心理学家在同行评审的期刊文章中报告了他们的研究发现。 以这种格式发表的研究由其他几位心理学家检查,他们充当过滤器,将有证据支持的想法与不支持的想法区分开来。 复制在确保已发表研究的合法性方面起着重要作用。 从长远来看,只有那些能够持续复制的发现才能在科学界达成共识。

    词汇表

    因果关系
    一个变量的变化会导致另一个变量的变化;只能通过实验研究设计来确定
    确认偏差
    倾向于忽视反驳思想或信念的证据
    混淆变量
    影响两个相关变量的意想不到的外部因素,常常给人一种错误的印象,即一个变量的变化会导致另一个变量的变化,而实际上,外部因素会导致两个变量的变化
    对照组
    可作为比较和控制可能影响研究结果的机会因素的基础,方法是使各组之间的机会因素保持不变,因此实验操纵是各组之间的唯一区别
    相关性
    两个或多个变量之间的关系;当两个变量关联时,一个变量会像另一个变量一样变化
    相关系数
    从 -1 到 +1 的数字,表示变量之间关系的强度和方向,通常用 r 表示
    因变量
    研究人员测量的变量以查看自变量产生了多大的影响
    双盲研究
    实验中,研究人员和参与者都对小组作业视而不见
    实验组
    小组旨在回答研究问题;实验操纵是实验组和对照组之间的唯一区别,因此两者之间的任何差异都是由于实验操纵而不是偶然造成的
    实验者偏见
    研究人员的期望扭曲了研究结果
    虚幻的关联
    看到两件事之间的关系,而实际上不存在这种关系
    自变量
    受实验者影响或控制的变量;在合理的实验研究中,自变量是实验组和对照组之间唯一重要的区别
    负相关性
    两个变量朝不同的方向变化,其中一个变量随着另一个变小而变大;负相关与没有关联不是一回事
    操作定义
    描述将使用哪些动作和运算来测量因变量和操纵自变量
    参与者
    心理学研究的主题
    同行评审的期刊文章
    文章由其他几位具有该主题专业知识的科学家(通常是匿名的)阅读,他们在稿件被接受出版之前就稿件的质量提供反馈
    安慰剂效应
    人们的期望或信念影响或决定了他们在特定情况下的经历
    正相关
    两个变量朝同一方向变化,都变大或变小
    随机分配
    实验组分配方法,其中所有参与者都有平等的机会被分配到任一组
    随机样本
    较大人口的子集,其中每个人口成员都有同等的机会被选中
    可靠性
    给定结果的一致性和可重复性
    复制
    使用不同的样本重复实验以确定研究的可靠性
    单盲研究
    实验中,研究人员知道哪些参与者在实验组中,哪些参与者在对照组中
    统计分析
    确定实验组之间的任何差异有多大可能是偶然造成的
    有效性
    在测量设计测量结果时给定结果的准确性

    Contributors and Attributions