2.4: 分析发现
- Page ID
- 203769
你知道吗,随着冰淇淋销量的增加,总体犯罪率也在增加? 沉迷于你最喜欢的冰淇淋口味有可能让你疯狂犯罪吗? 或者,在犯罪之后,你认为你会决定用锥体对待自己吗? 毫无疑问,冰淇淋和犯罪之间存在关系(例如,Harper,2013),但是决定一件事实际上导致了另一件事的发生是相当愚蠢的。
冰淇淋销售和犯罪率更有可能与室外温度有关。 当温度变暖时,会有很多人走出家门,互相交流,互相烦恼,有时还会犯罪。 另外,当外面很温暖时,我们更有可能寻找冰淇淋等凉爽的食物。 我们如何确定两件事之间是否确实存在关系? 当存在关系时,我们如何辨别它是巧合还是因果关系?
相关研究
相关性意味着两个或多个变量(例如冰淇淋消费和犯罪)之间存在关系,但这种关系不一定意味着因果关系。 当两个变量相互关联时,这只是意味着当一个变量发生变化时,另一个变量也会发生变化。 我们可以通过计算称为相关系数的统计数据来测量相关性。 相关系数是介于 -1 到 +1 之间的数字,表示变量之间关系的强度和方向。 相关系数通常用字母 r 表示。
相关系数的数字部分表示关系的强度。 数字越接近 1(无论是负数还是正数),变量的相关性就越强,一个变量的变化随着另一个变量的变化而变得越可预测。 数字越接近零,关系越弱,变量之间的关系就越难以预测。 例如,相关系数 0.9 表示关系比相关系数 0.3 强得多。 如果变量彼此之间根本不相关,则相关系数为 0。 上面关于冰淇淋和犯罪的例子是两个我们可能认为彼此之间没有关系的变量的示例。
相关系数的正负符号表示关系的方向(图 2.12)。 正相关意味着变量朝相同的方向移动。 换句话说,这意味着当一个变量增加时,另一个变量也会增加,相反,当一个变量减少时,另一个变量也会减少。 负相关性意味着变量朝相反的方向移动。 如果两个变量呈负相关,则一个变量的减少与另一个变量的增加有关,反之亦然。
冰淇淋和犯罪率的例子是正相关的,因为当温度升高时,这两个变量都会增加。 正相关性的其他例子包括个人的身高和体重之间的关系,或者一个人的年龄与皱纹数量之间的关系。 人们可能会预计,某人白天的疲劳与前一天晚上的睡眠时数之间存在负相关性:随着疲劳感的增加,睡眠量会减少。 在一个真实的负相关性例子中,明尼苏达大学的学生研究人员发现,学生每周睡眠时间少于5小时的平均天数与他们的GPA之间存在微弱的负相关性(r = -0.29)(Lowry、Dean 和 Manders,2010)。 请记住,负相关性与无关联并不相同。 例如,我们可能会发现睡眠时间和鞋子尺码之间没有关联。
如前所述,相关性具有预测价值。 想象一下,你是一所主要大学的招生委员会成员。 你面临着大量的申请,但你只能容纳申请人群中的一小部分。 你怎么能决定谁应该被录取? 你可以尝试将当前学生的大学GPA与他们在SAT或ACT等标准化考试中的分数相关联。 通过观察哪些相关性对你目前的学生来说最强,你可以利用这些信息来预测那些申请大学录取的学生的相对成功。
关联不表示因果关系
关联研究很有用,因为它使我们能够发现两个变量之间存在的关系的强度和方向。 但是,关联性是有限的,因为建立关系的存在几乎不能告诉我们因果关系。 虽然有时变量是相关的,因为一个变量确实会导致另一个变量,但也可能是其他因素,即混淆变量,实际上导致了我们感兴趣的变量的系统变动。 在前面提到的冰淇淋/犯罪率示例中,温度是一个混杂变量,可以解释这两个变量之间的关系。
即使我们无法指向清除混淆变量,我们也不应假设两个变量之间的关联意味着一个变量会导致另一个变量发生变化。 当因果关系看起来清晰直观时,这可能会令人沮丧。 回想一下我们对美国癌症协会所做研究的讨论,以及他们的研究项目是如何首次证明吸烟与癌症之间联系的。 假设吸烟会导致癌症似乎是合理的,但如果我们仅限于相关研究,那么做出这样的假设就会超越界限。
不幸的是,人们一直错误地宣称因果关系是相关性的函数。 这种说法在广告和新闻报道中尤其常见。 例如,最近的研究发现,经常吃麦片的人的体重比很少吃麦片的人更健康(Frantzen、Treviño、Echon、Garcia-Dominic和DiMarco,2013年;Barton等人,2005年)。 猜猜谷类公司是如何报告这一发现的。 吃麦片真的能使个人保持健康的体重吗?还是有其他可能的解释,例如,体重健康的人比肥胖的人或为了节食而避免进食的人更有可能定期吃健康的早餐(图 2)。13)? 尽管相关研究对于识别变量之间的关系非常宝贵,但一个主要的限制是无法确定因果关系。 心理学家想就因果关系做出陈述,但做到这一点的唯一方法是进行实验来回答研究问题。 下一节介绍科学实验如何采用消除或控制替代解释的方法,从而使研究人员能够探索一个变量的变化如何导致另一个变量的变化。
虚幻的关联
根据相关研究做出错误的因果陈述的诱惑并不是我们倾向于误解数据的唯一途径。 我们还倾向于犯虚幻关联的错误,尤其是在不系统的观察中。 当人们认为两件事之间存在关系而没有这种关系时,就会出现虚@@ 幻的相关性或虚假的相关性。 一个众所周知的虚幻关联是月相对人类行为的假定影响。 许多人热情地断言人类行为受到月相的影响,具体而言,月亮满时人们的行为很奇怪(图 2.14)。
不可否认的是,月球对我们的星球产生了强大的影响。 海洋潮汐的潮起潮落与月球的引力紧密相关。 因此,许多人认为,我们也受到月球的影响是合乎逻辑的。 毕竟,我们的身体主要由水组成。 但是,对近40项研究的荟萃分析一致表明,月球与我们的行为之间并不存在关系(Rotton & Kelly,1985)。 虽然我们可能会更多地关注月球满相期间的奇怪行为,但在整个月球周期中,奇怪行为的发生率保持不变。
为什么我们如此倾向于相信这样的虚幻关联? 我们经常阅读或听到这些信息,只接受这些信息是有效的。 或者,我们对某件事的运作有预感,然后寻找证据来支持这种预感,忽略能告诉我们直觉是错误的证据;这就是所谓的确认偏见。 其他时候,我们会根据最容易想到的信息发现虚幻的相关性,即使这些信息受到严重限制。 尽管我们可能有信心利用这些关系来更好地理解和预测我们周围的世界,但虚幻的关联可能有很大的缺点。 例如,研究表明,虚幻的关联——其中某些行为被错误地归因于某些群体——参与了偏见态度的形成,最终可能导致歧视行为(Fiedler,2004)。
因果关系:进行实验和使用数据
如你所知,确定两个变量之间存在因果关系的唯一方法是进行科学实验。 实验在科学背景下的含义与在日常生活中的含义不同。 在日常对话中,我们经常用它来描述第一次尝试某件事,比如尝试新发型或新食物。 但是,在科学背景下,实验对设计和实施有精确的要求。
实验假设
为了进行实验,研究人员必须有一个特定的假设需要检验。 如你所知,假设可以通过直接观察现实世界或在仔细回顾先前的研究之后得出。 例如,如果你认为在课堂上使用技术会对学习产生负面影响,那么你基本上已经形成了一个假设,即应该限制在课堂上使用技术,因为它会减少学习。 你怎么可能得出这个特殊的假设? 你可能已经注意到,在笔记本电脑上做笔记的同学在课堂考试中的成绩低于手工记笔记的同学,或者通过计算机程序和通过面对面老师上课的同学在考试中的表现不同(图 2.15))。
这类个人观察往往促使我们提出具体的假设,但我们不能使用有限的个人观察和传闻证据来严格检验我们的假设。 相反,为了找出真实世界的数据是否支持我们的假设,我们必须进行实验。
设计实验
最基本的实验设计涉及两组:实验组和对照组。 这两个组的设计是相同的,只有一个区别——实验操作。 实验组获得实验操作,即正在测试的治疗方法或变量(在本例中为技术的使用),而对照组则没有。 由于实验操纵是实验组和对照组之间的唯一区别,因此我们可以肯定,两者之间的任何差异都是由于实验操纵而不是偶然造成的。
在我们关于如何限制在课堂上使用技术的例子中,我们让实验小组使用计算机程序学习代数,然后测试他们的学习情况。 在传统课堂上由老师教代数之后,我们会衡量对照组中的学习情况。 重要的是,对照组要接受与实验组相似的对待,唯一的例外是对照组不接受实验操纵。
我们还需要精确定义或操作化我们如何衡量代数学习。 操作定义是对我们变量的精确描述,它对于让其他人准确理解研究人员在特定实验中测量的方式和内容非常重要。 在操作化学习中,我们可以选择考试的表现,该考试涵盖教师教学的个人所依据的材料或计算机程序。 我们还可能要求参与者总结刚才以某种方式提供的信息。 无论我们做出什么决定,重要的是我们要以这样的方式将学习付诸实践,这样任何第一次听说我们学习的人都能确切地知道我们所说的学习的意思。 这有助于人们解释我们的数据,也有助于他们选择重复我们的实验的能力。
一旦我们将所谓的技术用途和实验参与者视为学习的内容付诸实践,我们就需要确定如何进行实验。 在这种情况下,我们可能会让参与者花 45 分钟学习代数(通过计算机程序或面对面的数学老师),然后对他们在 45 分钟内涵盖的材料进行测试。
理想情况下,获得测试分数的人不知道谁被分配到实验组或对照组,以控制实验者的偏见。 实验者偏见是指研究人员的预期可能会扭曲研究结果的可能性。 请记住,进行实验需要大量的规划,支持他们的假设符合参与研究项目的人员的既得利益。 如果观察者知道哪个孩子属于哪个群体,这可能会影响他们解释模棱两可的反应的方式,例如草率的笔迹或轻微的计算错误。 通过对哪个孩子属于哪个群体视而不见,我们可以保护他们免受这些偏见。 这种情况是单盲研究,这意味着其中一个小组(参与者)不知道自己属于哪个组(实验或对照组),而开发实验的研究人员知道每个组中有哪些参与者。
在一项双盲研究中,研究人员和参与者都对小组作业视而不见。 为什么研究人员要进行一项没人知道谁属于哪个组的研究? 因为通过这样做,我们可以控制实验者和参与者的期望。 如果你熟悉安慰剂效应这个词,那么你已经知道为什么这是一个重要的考虑因素了。 当人们的期望或信念影响或决定他们在给定情况下的经历时,就会产生安慰剂效应。 换句话说,仅仅期待某件事发生实际上可以使它发生。
安慰剂效应通常用测试新药的有效性来描述。 想象一下,你在一家制药公司工作,你认为你有一种可以有效治疗抑郁症的新药。 为了证明你的药物是有效的,你可以用两组进行实验:实验组接受药物,对照组没有。 但是你不想让参与者知道他们是否服用了药物。
这是为什么? 想象一下,你是这项研究的参与者,你刚刚服用了一种你认为可以改善情绪的药丸。 因为你期望避孕药有作用,所以你可能会感觉好些,仅仅因为你服用了避孕药,而不是因为药丸中实际含有任何药物——这就是安慰剂效应。
为了确保对情绪的任何影响都是由药物而不是预期引起的,对照组服用了安慰剂(在本例中为糖丸)。 现在每个人都有药丸,研究人员和实验参与者都不知道谁得到了药物,谁得到了糖丸。 现在,实验组和对照组之间的任何情绪差异都可以归因于药物本身,而不是实验者的偏见或参与者的期望(图2.16)。
自变量和因变量
在一项研究实验中,我们努力研究一件事的变化是否会导致另一件事的改变。 为了实现这一目标,在任何实验研究中,我们必须注意两个重要的变量或可以改变的东西:自变量和因变量。 自变量由实验者操纵或控制。 在精心设计的实验研究中,自变量是实验组和对照组之间唯一的重要区别。 在我们的课堂使用技术如何影响学习的示例中,自变量是研究参与者的学习类型(图 2.17)。 因变量是研究人员测量的变量,以查看自变量产生了多大的影响。 在我们的示例中,因变量是参与者展示的学习。
我们预计因变量将作为自变量的函数而变化。 换句话说,因变量依赖于自变量。 思考自变量和因变量之间关系的一个好方法是问这个问题:自变量对因变量有什么影响? 回到我们的例子,通过计算机程序上课与通过面对面讲师上课有什么影响?
选择和分配实验参与者
现在我们的研究已经设计完毕,我们需要获得一个个体样本以纳入我们的实验。 我们的研究涉及人类参与者,因此我们需要确定将谁包括在内。 参与者是心理学研究的主体,顾名思义,参与心理学研究的个人积极参与该过程。 通常,心理研究项目依靠大学生作为参与者。 事实上,心理学子领域的绝大多数研究历来都涉及学生作为研究参与者(Sears,1986;Arnett,2008)。 但是,大学生真的能代表普通民众吗? 与普通人群相比,大学生往往更年轻、受教育程度更高、更自由、多样化程度更低。 尽管使用学生作为考试对象是一种公认的做法,但依赖如此有限的研究参与者可能会出现问题,因为很难将研究结果推广到更多人群。
我们的假设实验涉及高中生,我们必须首先生成学生样本。 之所以使用样本,是因为群体通常太大,无法合理地让每个成员参与我们的特定实验(图 2.18)。 如果可能的话,我们应该使用随机样本(还有其他类型的样本,但出于本章的目的,我们将重点介绍随机样本)。 随机样本是较大人口的子集,其中总体中的每个成员都有同等的机会被选中。 首选随机样本,因为如果样本足够大,我们可以合理地确定参与者代表了更大的人群。 这意味着样本中特征的百分比(性别、种族、社会经济水平以及可能影响结果的任何其他特征)与较大人口中的百分比接近。
在我们的示例中,假设我们决定感兴趣的人群是代数学生。 但是所有的代数学生都是非常庞大的人口,所以我们需要更具体一点;相反,我们可以说我们感兴趣的人群是特定城市的所有代数学生。 我们应该包括来自不同收入阶层、家庭状况、种族、民族、宗教和城镇地理区域的学生。 有了这个更易于管理的人群,我们可以与当地学校合作,随机选择一个我们想参与实验的大约200名代数学生的样本。
总而言之,因为我们无法测试一个城市中的所有代数学生,所以我们想找到一个大约 200 人的小组来反映该城市的构成。 通过一个具有代表性的群体,我们可以将我们的发现推广到更多的人群,而不必担心我们的样本在某种程度上会有偏见。
现在我们有了样本,实验过程的下一步是通过随机分配将参与者分为实验组和对照组。 通过随机分配,所有参与者都有平等的机会被分配到任一组。 有统计软件可以将样本中的每个代数学生随机分配到实验组或对照组。
随机分配对于声音实验设计至关重要。 如果样本足够大,随机分配使得各组之间不太可能存在系统差异。 因此,举例来说,我们不太可能组成一个完全由男性、特定的种族身份或特定的宗教意识形态组成的群体。 这很重要,因为如果两组在实验开始之前存在系统差异,我们就不知道两组之间发现的任何差异的起源:差异是先前存在的,还是由操纵自变量引起的? 随机分配允许我们假设观察到的实验组和对照组之间的任何差异都是操纵自变量造成的。
需要考虑的问题
尽管实验允许科学家提出因果主张,但它们并非没有问题。 真正的实验要求实验者操纵自变量,这会使心理学家可能想要解决的许多问题变得复杂。 例如,假设你想知道性(自变量)对空间记忆(因变量)有什么影响。 尽管你当然可以在利用空间记忆的任务中寻找男性和女性之间的差异,但你无法直接控制一个人的性别。 我们将这种研究方法归类为准实验方法,并认识到在这种情况下我们无法提出因果主张。
实验者也受到伦理约束的限制。 例如,你将无法进行旨在确定小时候遭受虐待是否会降低成年人的自尊心的实验。 要进行这样的实验,你需要将一些实验参与者随机分配到一个受到滥用的小组中,该实验是不道德的。
解释实验发现
从实验组和对照组收集数据后,将进行统计分析,以确定两组之间是否存在有意义的差异。 统计分析确定发现的任何差异有多大可能是偶然造成的(因此没有意义)。 例如,如果对营养补充剂的功效进行了实验,而服用安慰剂药丸(而不是补充剂)的人的结果与服用该补充剂的人相同,那么实验表明该营养补充剂无效。 通常,心理学家认为,如果各组之间实际上没有差异,则观察到差异的几率低于百分之五,则这些差异具有统计学意义。 换句话说,心理学家希望将提出 “误报” 主张的机会限制在百分之五或以下。
实验的最大优势在于能够断言发现中的任何显著差异都是由自变量造成的。 之所以出现这种情况,是因为随机选择、随机分配以及限制实验者偏见和参与者预期影响的设计应该创建在组成和治疗方面相似的群组。 因此,各组之间的任何差异都归因于自变量,现在我们终于可以做出因果陈述了。 如果我们发现观看暴力电视节目比观看非暴力节目导致更多的暴力行为,那么我们可以肯定地说,观看暴力电视节目会增加暴力行为的显示量。
报告研究
当心理学家完成研究项目时,他们通常希望与其他科学家分享他们的发现。 美国心理学会(APA)出版了一本手册,详细介绍了如何撰写论文提交给科学期刊。 与可能在像《今日心理学》这样的杂志上发表的针对对心理学感兴趣的普通受众的文章不同,科学期刊通常发表经过同行评审的期刊文章,面向积极参与心理学的专业人士和学者自己参与研究。
同行评审的期刊文章由其他几位具有该主题专业知识的科学家(通常是匿名的)阅读。 这些同行评审员向作者和期刊编辑提供有关草稿质量的反馈。 同行评审者寻找所描述研究的有力理由、对研究进行方式的清晰描述以及研究以合乎道德的方式进行的证据。 他们还寻找研究设计、方法和统计分析中的缺陷。 鉴于研究期间的观察,他们检查了作者得出的结论是否合理。 同行评审员还评论了这项研究在提高该学科知识方面的价值。 这有助于防止科学文献中不必要的研究结果重复,并在某种程度上确保每篇研究文章都提供新的信息。 最终,期刊编辑将汇编所有同行评审员的反馈意见,并确定文章是以当前状态发表(这种情况很少见)、修改后发表,还是不接受发表。
同行评审为心理学研究提供了一定程度的质量控制。 构思或执行不当的研究可以被淘汰,即使是精心设计的研究也可以通过建议的修订来改进。 同行评审还确保对研究的描述足够清晰,以便其他科学家进行复制,这意味着他们可以使用不同的样本重复实验以确定可靠性。 有时,复制涉及额外的措施,这些措施扩展了最初的发现。 无论如何,每次复制都有助于提供更多证据来支持最初的研究结果。 成功复制已发表的研究使科学家更倾向于采纳这些发现,而一再失败往往会使人们对原始文章的合法性产生怀疑,并导致科学家将目光转向其他地方。 例如,如果一项已发表的研究表明服用新药可以帮助个人在不改变饮食的情况下达到健康的体重,那将是医学领域的一项重大进步。 但是,如果其他科学家无法复制结果,则最初研究的说法将受到质疑。
近年来,人们越来越担心 “复制危机”,这种危机影响了包括心理学在内的许多科学领域。 一些最著名的研究和科学家提出的研究未能被其他人复制(如Shrout & Rodgers,2018年所述)。 事实上,即使是一位著名的诺贝尔奖得主科学家最近也因为难以复制自己的研究结果而撤回了一篇已发表的论文(诺贝尔奖得主弗朗西斯·阿诺德撤回了论文,2020年1月3日)。 这些结果促使一些科学家开始更加公开地合作,有些人认为当前的 “危机” 实际上正在改善科学的开展方式以及与他人分享科学结果的方式(Aschwanden,2018)。
一些科学家声称,常规儿童疫苗会导致一些儿童患上自闭症,事实上,一些经过同行评审的出版物发表了提出这些主张的研究。 自初次报告以来,大规模的流行病学研究表明,疫苗接种不是导致自闭症的原因,让孩子接种疫苗比不接种疫苗要安全得多。 此外,最初提出这一主张的几项研究已被撤回。
当数据因伪造、捏造或严重的研究设计问题而受到质疑时,可以撤销已发表的作品。 一旦撤销,科学界就会被告知原始出版物存在严重问题。 撤回可以由领导研究的研究人员、研究合作者、雇用该研究人员的机构或最初发表文章的期刊的编辑委员会发起。 在疫苗-自闭症案例中,撤回是因为存在重大利益冲突,主要研究人员在建立儿童疫苗与自闭症之间的联系方面有经济利益(Offit,2008)。 不幸的是,最初的研究受到了媒体的广泛关注,以至于世界各地的许多父母对让孩子接种疫苗犹豫不决(图2.19)。 继续依赖这些被揭穿的研究会产生重大后果。 例如,在2019年1月至10月期间,美国各地爆发了22起麻疹疫情,超过一千例感染麻疹的病例(Patel等人,2019年)。 这可能是由于被揭穿的研究引发了反疫苗接种运动。 有关疫苗/自闭症故事如何展开以及这个故事的影响的更多信息,请看保罗·奥菲特的著作《自闭症的假先知:坏科学、危险医学和寻找治疗方法》。
可靠性和有效性
可靠性和有效性是任何类型的数据收集都必须考虑的两个重要考虑因素。 可靠性是指持续产生给定结果的能力。 在心理学研究的背景下,这意味着任何用于收集数据的工具或工具都以一致、可重复的方式进行收集。 有许多不同类型的可靠性。 其中一些包括评分者间的可靠性(两个或多个不同的观察者对所观察结果达成共识的程度)、内部一致性(调查中衡量相同事物的不同项目之间的关联程度)和重测可靠性(一项特定措施的结果在多个政府中保持一致)。
不幸的是,测量的一致性并不一定意味着你已经正确测量了某些东西。 为了说明这个概念,可以考虑用厨房秤来测量你早上吃的麦片的重量。 如果体重秤未正确校准,则可能会持续低估或高估正在测量的谷物量。 尽管体重秤在产生一致结果方面非常可靠(例如,每次倒入体重秤上的相同数量的谷物会产生相同的读数),但这些结果是不正确的。 这就是有效性发挥作用的地方。 有效性是指给定工具或工具在多大程度上准确地衡量了它应该衡量的内容,再说一遍,有多种方式可以表达有效性。 生态有效性(研究结果推广到现实世界应用的程度)、构造有效性(给定变量实际捕获或测量其打算测量的内容的程度)和面部有效性(给定变量表面上看起来有效的程度)只是一个研究人员考虑的类型很少。 虽然任何有效的措施都必然是可靠的,但不一定是相反的。 研究人员努力使用既高度可靠又有效的仪器。
像SAT和ACT这样的标准化考试本应衡量个人接受大学教育的能力,但是这样的考试的可靠性和有效性如何? 大学理事会进行的研究表明,SAT考试成绩对大学一年级学生的GPA具有很高的预测有效性(Kobrin、Pattern、Shaw、Mattern和Barbuti,2008年)。 在这种情况下,预测有效性是指考试有效预测大学新生 GPA 的能力。 鉴于许多高等教育机构需要SAT或ACT才能入学,这种高度的预测有效性可能令人欣慰。
但是,大学录取中对SAT或ACT分数的强调在许多方面引起了一些争议。 例如,一些研究人员断言这些考试有偏见,使少数民族学生处于不利地位,不公平地降低了被大学录取的可能性(Santelices & Wilson,2010)。 此外,一些研究表明,这些测试的预测有效性在预测大学一年级学生GPA的能力方面被严重夸大了。 事实上,有人认为,国家税务总局的预测有效性可能被高估多达150%(Rothstein,2004)。 许多高等教育机构开始考虑不再强调SAT成绩在录取决定中的重要性(Rimer,2008)。
最近国内外备受瞩目的作弊丑闻的例子只会增加对这类考试的审查,截至2019年3月,已有1000多所高等教育机构放宽或取消了SAT或ACT招生考试的要求(施特劳斯,2019 年 3 月 19 日)。