智东西(公众号:zhidxcom)
编译 | 徐豫
编辑 | 心缘
智东西9月29日消息,国际顶尖科学学术期刊Nature(《自然》)9月25日刊登了一篇有关AI大模型“脑雾”现象的研究。一个来自西班牙的研究团队发现,几个参数量更大、版本更新的AI大模型,误答比例超60%。
其研究对象包括美国AI大模型独角兽OpenAI的GPT大模型、美国元宇宙巨头Meta的Llama大模型,以及由美国明星AI创企Hugging Face参与创立的AI研究组织BigScience,推出的BLOOM大模型。
“脑雾”通常用来描述一种大脑功能下降的状态,可能导致人们短暂出现一些认知功能障碍。在AI界,“脑雾”二字用来类比AI系统在处理某些任务时,会间歇性地失灵,使得生成结果准确性和响应效率都低于正常水平。
这3家主流人工智能(AI)大模型的产品不断升级迭代。据研究数据显示,经过优化后的AI大模型虽然基本上做到有问必答,但遇到超纲的问题时会错答、乱答,而不是像以前那样逃避回答。这大幅削弱了AI大模型的可信度。
与此同时,该研究还发现用户难以分辨这些AI回答的真实性,可能会错信AI聊天机器人的说法,以至于被混淆视听。
这项研究的论文标题为《参数量更大且学习能力更强的大语言模型的可靠性降低(Larger and more instructable language models become less reliable)》,作者包括Lexin Zhou,Wout Schellaert,Fernando Martínez-Plumed,Yael Moros-Daval,Cèsar Ferri和José Hernández-Orallo。
论文地址:https://www.nature.com/articles/d41586-024-03137-3
一、GPT-4等AI大模型,升级后“脑雾”却更严重了
José Hernández-Orallo是一位AI行业的资深人士,也是这篇论文的作者之一。据他介绍,该研究团队选择了3个有代表性的AI大模型作为研究对象,分别是OpenAI的GPT,Meta的Llama,以及由美国AI研究组织BigScience研发的开源模型BLOOM。研究范围包括这些AI大模型的早期原始版本和经过优化的版本。
研究人员对这些AI大模型开展了数千次测试。其测试内容涵盖算术、字谜、地理和科学等领域的问题。同时,他们还设置了诸如“将列表内容按字母顺序排列”的任务,以评估AI大模型的信息转化能力。
除此之外,他们还参考人们的主观感受来区分提问难度。例如,人们普遍认为,一些有关加拿大多伦多的问题,比一些有关墨西哥的冷门小镇Akil的问题更简单易答。
从测试结果可以得知,AI大模型的参数量越大、版本越新,其回答的准确度越高,但随着问题难度逐步增加,其回答的准确度有所下降。这大致与研究人员的预期相符。
然而,研究人员发现这些主流的AI聊天机器人即使经过优化,遇到无法回答的问题时还是会倾向于生成错误答案,而不是直接承认不清楚、不知道。
在面对非常难的问题时,AI大模型选择不回答可能是一个明智之举。不过,研究人员在测试的AI大模型中,并未发现明显的回避提问的趋势。相反地,GPT-4等AI大模型几乎回答了所有提问。
事实上,这些经过优化的AI大模型版本,反而误答的情况更严重。在所有误答和不答的情况中,几个经过微调的版本给出错误答案的比例甚至超过了60%。
与此同时,研究人员还发现AI大模型面对简单的提问,有时也会出现“脑雾”现象。这也意味着,用户使用这些AI大模型时不存在所谓的“安全操作范围”,无法确保AI给出的答案是对的。
二、可能有10%到40%的用户,听信了AI大模型生成的错误言论
除了AI大模型本身“犯迷糊”,该研究还发现,人们通常也难以发现AI回答中的错误。
为了测试人们是否能自己发现AI的“脑雾”行为,研究人员让人们随机判断这些回答是正确的、错误的、还是逃避回答。
然而事实上,无论这些问题的难度如何,人们经常误判,将不准确的答案当作正确答案。测试结果显示,人们误判的频率大约介于10%到40%。
Hernández-Orallo称:“人类自身无法有效监督这些AI大模型的演化。”他认为,用户日常可能会过分高估和信任AI聊天机器人的能力,而这会带来危险的后果。
三、人为划定AI大模型的作答范围,超纲一律答“不知道”
Hernández-Orallo提议,AI开发者应着重提升AI大模型在处理简单问题时的整体表现,并且引导AI聊天机器人拒绝回答一些较为困难的问题,从而让用户更容易判断,在哪些情况下AI助手是值得信赖的。人们要懂得在哪个范围内适合使用AI,而在哪个范围内AI助手难以胜任工作。
他进一步解释道,虽然训练AI聊天机器人处理复杂问题的能力,不仅表面上令人印象深刻,还能在排行榜上有不错的竞争力,但有时并不管用。
OpenAI最新的o1大模型给他留下了深刻的印象。但他发现,尽管该模型可以执行两个非常大的数字的乘法运算指令,但是它给出了一个错误的答案。
在Hernández-Orallo看来,这个问题可以通过设定一个阈值上线来解决,当AI聊天机器人遇到超出这个阈值的复杂问题,直接回复“我不知道”就好。
四、AI大模型越来越擅长不懂装懂,会用观点而非事实作答
AI大语言模型(LLM)在回答问题时会犯错,或者出现“脑雾”的情况,已经引起了很多人的注意。
来自西班牙瓦伦西亚AI研究所的Hernández-Orallo及其同事共同研究了,AI大模型不断迭代优化后,其“脑雾”现象是如何随之变化的。
这里AI大模型的优化包括更大的参数量或决策节点、使用了更多的训练数据、消耗了更多的算力等情况。该研究团队还跟踪分析了AI大模型出现“脑雾”的频率高低,是否与人们所认为的问题难度相匹配,以及是否与人们发现AI回答错误的频率相对应。
该研究团队发现,采用强化学习等方式人为微调后的AI大模型版本,其生成答案的准确度整体上有所提高。但似乎不能高兴得太早,这些AI大模型的错误率也在同步增加。
研究发现一些原本AI大模型选择“逃避回答”的问题,过去会用“我不知道”或者转移话题来解决,但现在更多是通过给出一个错误答案来应付。这使得这些AI大模型出现“脑雾”情况的比例增加,反而变得更加不可靠。
Hernández-Orallo称:“现在这些AI大模型基本上有问必答,这意味着生成更多正确答案的同时,错误答案却也更多了。”换句话说,当聊天的话题超出了一个AI聊天机器人现有的知识储备,它输出观点的倾向比过去更明显。
在英国格拉斯哥大学(the University of Glasgow)攻读科学与技术专业的哲学家Mike Hicks,将这种“脑雾”现象称为“胡扯”,即这些AI大模型越来越擅长不懂装懂。
结语:针对专业领域微调的AI聊天机器人,其“脑雾”频率有效降低
现在已有部分AI大模型采取了与设定阈值类似的方法。它们遇到超出知识范围的问题后,会回答“我不知道”,或者“我没有足够的信息来解答这个问题”。
哥伦比亚南卡罗来纳大学(the University of South Carolina)的计算机科学家Vipula Rawte称,基本上所有AI开发者都致力于减少AI大模型的“脑雾”现象,有时还会特意优化这一点。包括医学用途在内,一些针对专业领域设计的AI聊天机器人,其回答机制通常更严谨,以免它们乱答超纲问题。
然而,Vipula Rawte也补充说,如果AI开发者想要销售通用的AI聊天机器人,那么这种更保守的回答机制,一般情况下不是他们会选择的卖点。
来源:Nature