超越人类认知谬误的LLM – CASE 报科学
分享至
你有没有想过,当别人向你提问时,你回答问题的思考逻辑是什麽呢?这个看似很奇怪的问题,其实是非常重要的事情,因为它可能是造成我们思维与人工智慧思维有所区别的最大原因。从经典的心理学实验「琳达问题」,认知心理家发现人们在思考时,容易因为捷思法,透过自己的经验反射性判断出答案,而非经过复杂缜密的思考。让人意外的是,这样的问题在LLM当中也同样会发生,但差别在於LLM如果透过提示与修正提问方式之後,回答准确度会有上升的趋势,但在人类身上并没有这样的效果。如此看来,机器的发展和人类大脑的发展,似乎并不是依循着相同的发展路线而前进,这又是另一个值得玩味的议题。
撰文|王冠云
人类在进行思考与推论时,可能会根据过往经验或寻求更快的找到解法,而直觉性地回答了问题,而忽略的问题本身的机率。着名的心理学实验例子如「琳达问题」,问题是这麽问的:
琳达今年三十一岁,单身,说话坦率直接,个性开朗,主修哲学。在学生时期,就非常关注歧视和社会正义,也参与反核游行。
请问下列哪种情形比较有可能?
一、琳达是银行出纳
二、琳达是银行出纳,平日积极参与女权运动
这个问题,答案是什麽?人类和AI的回答有没有差别?认知心理学家展开了相关的研究。
容易落入直觉思考的人类
上文提到的问题,或许很多人会回答「二、琳达是银行出纳,平日积极参与女权运动」,毕竟叙述中所提到关於她的背景,都非常符合典型的女权主义者的设定。然而,就客观的机率而言,选项一的机率比选项二高很多,可是很多人选了选项二。这就是所谓的「合取谬误 (conjunction fallacy)」,我们的大脑容易受到「代表性」的影响。由於故事叙述非常具有「女权主义者」的「代表性」,所以即使「同时是银行出纳且是女权主义者」的机率比「银行出纳」的机率低,我们还是会犯了谬误,而选择了机率实际上比较低的选项。
除了琳达问题之外,心理学家还有另一套称为「认知反射测验 (Cognitive Reflection Test, CRT)」的题目。同样也考验了作答者的思考逻辑,是否容易落入陷阱之中。例题如:「一根球棒和一颗球合计1.10美元,球棒比球贵1美元,请问一颗球几美元?」看似简单的数学问题,若是没有仔细用数学思考而透过心理捷径来思考的话,可能不小心想成「球棒1美元,所以球是0.1美元」,那麽这题可就答错啦。
用人类易犯错的题目来考验AI
如今大语言模型 (LLM) 的发展正在飞快的进步当中,除了文本摘要、翻译、校对等工作之外,我们也期待LLM能够帮助我们进行推论与思考。若是将上述人类的思考容易受影响的问题,请LLM回答,是否能透过AI之力,解决人类推论的极限以及认知思考的谬误呢?
Yax等人 (2024) 的研究,采用了8种大型语言GPT (Generative Pretrained Transformer) 模型,来测试LLM是否也会有人类的谬误。为了避免LLM过去的训练资料就有涵盖上述知名心理学实验的例子,因此Yax等人也重新撰写了一组琳达问题和一组认知反射测验的题目。
在他们的研究中,针对琳达问题找到了128位实验参与者,认知反射测验则是找到了100位实验参与者,平均年龄大约介於37至40岁,男女各半。另外,由於LLM的回答具有创造性,并非每次皆回答相同的答案,所以研究者在进行测试时,也把LLM回答的次数等同於人类参与者的数量,反覆进行提问和收集LLM的答案。
研究结果发现,一般LLM的回答,确实会受到谬误的影响,而导致模型回答出了错误的答案,人类的回答仍然表现较好。有趣的是,研究者还进行了一项操弄,在实验参与者回答问题前,先提示他们要记得按照步骤推理,或者先提供范例给参与者参考。同样的,LLM也会先给予不同的「prompt」,然後再请LLM回答。然而,人类在听了必须按照步骤推理的指示,效果并不显着,只有在看到范例的时候,才比较能提升回答的正确度。相反的,对LLM来说,为了让模型能进行推理,也给予了推理的具体指示,例如琳达问题的问法,从「请问下列哪种情形比较有可能?」变成了「100人当中有多少人是银行出纳员」这种类型的题目时,稍微提高了LLM的准确度,但却不见於人类实验参与者中有同样的效果。
未来的LLM越来越强大,甚至能超越人类谬误?
最後,Yax等人 (2024) 使用了OpenAI发布的最新模型「Turbo GPT-3.5」和「GPT-4」(在研究者论文写成时的最新版),他们发现,这两个最新模型所产生的谬误是最小的,也因此甚至比人类的表现还要好。
不过,研究者也坦言,由於OpenAI并没有公开LLM模型,因此难以分析背後的机制是如何让LLM可以变得具有「超人类」的表现。研究者甚至在同一年,前後隔了三个月,使用GPT-4进行相同的实验,得到的准确率却有大大的不同。这也让研究更难下断言,无法了解是LLM背後什麽样的机制影响了回答问题的效果。
此外,Yax等人 (2024) 的实验问题中,除了利用语言文字问逻辑推理问题之外,也用了单纯的数学式子请LLM解决,结果发现,LLM在进行这两种推理时的能力是截然不同的。另外,研究者也提出了很特别的观点,人类通常会刻意规避复杂的大脑运算,所以会利用捷思法来快速回答问题,即使人类被提醒需要利用推理来解决,人类还是更倾向於透过范例来被动理解该如何解题。可是LLM却不会避开复杂的运算,可以透过给予实际的机率的逻辑叙述来导正合取谬误。
至於为什麽LLM模型越是发展,越能减轻谬误推论,而不会因为学习人类行为而变得跟人类一样容易产生思考谬误呢?由於表现最好的LLM并没有被公开,而机器的发展和人类大脑的发展,似乎并不是依循着相同的发展路线而前进,这又是另一个值得玩味的议题了。
参考文献
- Yax, N., Anlló, H. & Palminteri, S. Studying and improving reasoning in humans and machines. Communications Psychology, 2, 51 (2024).
- 一个叫「琳达问题」心理学实验
- 困难:帮助我们停下来思考