为什么大模型“杀不死”心理学?

2024-09-18 09:08:25 浏览数 (2)

赵诗彤 中科院神经所硕博连读

自2022年底以来,ChatGPT如一股澎湃的春潮,席卷了全球,人们对其潜在的应用场景无不心生向往。商界人士、学者乃至日常生活中的普通人,都在思索同一个问题:自己的工作未来会如何被AI塑造?

随着时间流逝,很多构想逐渐落地,人类似乎已经习惯于AI在许多工作场景帮助甚至替代我们的实际工作。早期人们对GPT的恐惧逐渐消散,反而变得过度依赖GPT,甚至忽略了可能的局限性与风险。这种大肆依赖GPT并忽视其风险的情况,我们称之为“GPT学”(GPTology)。

心理学的发展一直紧紧跟随科技的创新,社会学家与行为科学家总是依赖尽可能多的技术来收集丰富的数据类型,从神经影像技术、在线调查平台到眼动追踪技术的开发等,都助力心理学取得了关键性的突破。数字革命和大数据的兴起推动了计算社会科学等新学科的形成。正如其他领域(医学[1]、政治[2])一样,能够以惊人的微妙性和复杂性理解、生成和翻译人类语言的大语言模型(LLM),对心理学也产生了深远的影响。

在心理学领域,大语言模型有两类主流应用模式:一方面,通过研究大语言模型本身的机制,可能对人类认知的研究提供新的见解;另一方面,这些模型在文本分析和生成方面的能力,使得它成为了分析文本数据的强大工具,如它们能将个人的书面或口头表达等文本数据,转化为可分析的数据形式,从而协助心理健康专业人员评估和理解个体的心理状态。最近,使用大语言模型促进心理学研究的成果大量涌现,ChatGPT在社会与行为科学领域的应用,如仇恨言论分类、情感分析等,已显示出其初步成果和广阔的发展前景。

然而,我们应该放任现在“GPT学”的势头在科研领域肆虐吗?事实上所有科技创新的融合过程总是充满动荡的,放任某种技术的应用与对其依赖过深,都可能会导致意想不到的后果。回望心理学的发展历程,当功能性磁共振成像(fMRI)技术初露锋芒时,便有研究者滥用此技术,导致了一些荒谬却在统计学上显著的神经关联现象——譬如,研究人员对一条已经死亡的大西洋鲑鱼进行了fMRI扫描,结果显示该鱼在实验期间表现出显著的脑活动;还有研究表明,由于统计误用,fMRI研究中发现虚假相关性的可能性极高。这些研究已经进入心理学的教科书,警示所有心理学学生与研究人员在面对新技术时应保持警惕。

Abdurahman, Suhaib, et al. "Perils and opportunities in using large language models in psychological research." PNAS nexus 3.7 (2024): pgae245.

可以说,我们已经进入了与大语言模型相处的“冷静期”,除了思考大语言模型可以做什么,我们更需要反思是否以及为何要使用它。近日PNAS Nexus的综述论文便探讨了大语言模型在心理学研究中的应用,及其为研究人类行为学带来的新机遇。

文章承认LLMs在提升心理学方面的潜在效用,但同时也强调了对其未经审慎应用的警惕。目前这些模型在心理学研究中可能引起的统计上显著但意义不明确的相关性,是研究者必须避免的。作者提醒到,面对近几十年来该领域遇到的类似挑战(如可信度革命),研究人员应谨慎对待LLMs的应用。该文还提出了在未来如何更批判性和谨慎性地利用这些模型以推进心理学研究的方向。

大语言模型可以替代人类被试吗?

提到大语言模型,人们最直观的感受便是其高度“类人”的输出能力。Webb等人考察了ChatGPT的类比推理能力[3],发现它已涌现出了零样本推理能力,能够在没有明确训练的情况下解决广泛的类比推理问题。一些人认为,如果像ChatGPT这样的LLM确实能够对心理学中的常见测量产生类似人类的响应(例如对行动的判断、对价值的认可、对社会问题的看法),那么它们在未来可能会取代人类受试者群体。

针对这个问题,Dillion等人进行了专门的研究[4]:首先,通过比较人类与语言模型(GPT-3.5)在道德判断上的相关性,他们肯定了语言模型可以复制一些人类判断的观点;但他们也提出了解释语言模型输出的挑战。从原理上说,LLM的“思维”建立在人类的自然表达之上,但实际能代表的人群有限,并且有过于简化人类复杂行为思想的风险。这是一种警示,因为这种对AI系统拟人化的倾向可能会误导我们,让我们期望那些基于根本不同原理运行的系统表现出类人表现。

从目前的研究来看,使用LLM模拟人类被试至少有三大问题。

首先,认知过程的跨文化差异是心理学研究中极为重要的一环,但很多证据表明,目前流行的大语言模型无法模拟出这样的差异。像GPT这样的模型主要基于WEIRD(西方、受过教育的、工业化的、富裕的、民主的)人群的文本数据训练。这种以英语为中心的数据处理延续了心理学的英语中心主义,与对语言多样性的期待背道而驰。语言模型也因此难以准确反映大众群体的多样性。例如,ChatGPT显示出偏向男性视角和叙事的性别偏见,偏向美国视角或一般多数人群的文化偏见,以及偏向自由主义、环保和左翼自由意志主义观点的政治偏见。这些偏见还延伸到个性、道德和刻板印象。

总的来说,由于模型输出高度反映WEIRD人群心理,当人类样本不那么WEIRD时,AI与人类之间的高度相关性无法重现。在心理学研究中,过度依赖WEIRD被试(例如北美的大学生)的现象一度引发了讨论,用LLM的输出替代人类参与者将是一个倒退,会使得心理学研究变得更加狭隘,普适性更差。

将 ChatGPT与按政治观点分组的人类对“大五人格”的反应进行比较。注:图中显示了人类和ChatGPT在大五人格结构和不同人口统计数据中的响应分布。图中显示,ChatGPT 在宜人性、尽责性方面给出了显着更高的响应,而在开放性和神经质方面给出了显着较低的响应。重要的是,与所有人口统计群体相比,ChatGPT在所有个性维度上显示出显着较小的差异。

其次,大语言模型似乎存在“正确答案”偏好,也就是说LLM在回答心理学调查的问题时变化幅度较小——即使这些问题涉及的主题(例如道德判断)并没有实际的正确答案——而人类对这些问题的回答往往具有多样性。当要求LLM多次回答同一个问题,并测量其回答的差异时,我们会发现大语言模型的回答无法像人类一样产生思想上显著的差异。这依旧与生成式语言模型背后的原理分不开,它们通过自回归的方式计算下一个可能出现的单词的概率分布来生成输出序列。从概念上讲,反复向LLM提问类似于反复向同一个参与者提问,而不是向不同的参与者提问。

然而,心理学家通常感兴趣的是研究不同参与者之间的差异。这警告我们当想用大语言模型模拟人类被试时,不能简单地用大语言模型模拟群体平均值,或用它模拟个体在不同任务中的反应;应当开发出合适的方法真实再现人类样本复杂性。此外,训练大语言模型的数据可能已经包含许多心理学实验中使用的项目和任务,导致模型在接受测试时依赖记忆而不是推理,又进一步加剧了上述问题。为了获得对LLM类人行为的无偏评估,研究人员需要确保他们的任务不属于模型的训练数据,或调整模型以避免影响实验结果,比如通过“去学习”等方法。

最后,GPT是否真的形成与人类类似的道德体系也是值得怀疑的。通过向LLM提问,建立它内在的逻辑关系网络(nomological network),观察不同道德领域之间的相关性,发现这两个指标都与基于人类得到的结果大不相同。

ChatGPT 与人类道德判断。注:a)人类道德判断(浅蓝色)和GPT(浅红色)在六个道德领域的分布。虚线代表平均值。b) 人类道德价值观之间的相互关系(

0 人点赞