AI宪法要来了？谷歌OpenAI联手制定，AI也要讲价值观和原则了

智东西（公众号：zhidxcom）
编译 | 佳慧
编辑 | 云鹏

智东西10月10日消息，据英国《金融时报》报道，谷歌DeepMind、OpenAI、Anthropic等AI领域的领先公司，正在制定一套AI模型可以遵守的价值观和原则，以防止AI模型被滥用，这被称为AI宪法。

随着OpenAI、Meta等公司竞相商业化AI，AI研究人员认为，防止这些AI系统出现例如生成有害内容、错误信息等问题的防护措施，难以跟上AI的发展步伐。因此，AI科技公司制定AI宪法，试图让AI从中学习价值观和原则，并在没有大量人类干预的情况下保持自我约束。

据英国《金融时报》报道，使AI软件拥有诚实、尊重和宽容等积极特质已经成为生成式AI发展的核心。但制定AI宪法的方法并非万无一失，它往往带有AI工程师和计算机科学家的主观色彩，并且难以为AI的安全护栏进行有效评估。

一、RLHF方法和“红队测试”是确保AI安全的关键，但效果有限

OpenAI称，ChatGPT现在可以提供看、听、说三个方面的服务，即用图片和文字回答用户的提问，以及使用语音与用户对话。Meta也宣布，将为通讯软件WhatsApp和图片社交软件Instagram中的数十亿用户提供一个AI助手和多个聊天机器人。

在各大科技公司争相发展AI技术并将AI商业化的时候，据英国《金融时报》报道，AI研究人员认为，防止AI系统出错的安全防护措施没有跟上AI发展的脚步。

一般情况下，各大科技公司主要依赖RLHF方法（基于人类反馈的强化学习方法）来处理AI生成回复的问题，这是一种从人类偏好中学习的方法。

为了应用RLHF方法，各大科技公司会雇佣大量承包商团队来审查其AI模型的回复，并对回复进行“好”或“坏”的评分。通过足够多的分析和打分，AI模型会逐渐适应这些判断，并在之后回复的时候过滤掉那些“坏”的回复。

据英国《金融时报》报道，从表面上看，RLHF方法的处理过程可以完善AI模型的回复，但之前在OpenAI工作并曾经帮助开发RLHF方法的Amodei称，该方法还是很原始。他认为RLHF方法不太准确或有针对性，并且在整个处理过程中，有很多影响团队评分的因素。

正是看到了RLHF方法的弊端，有一些公司就尝试使用替代方案，以确保其AI系统的道德性和安全性。

AI宪法要来了？谷歌OpenAI联手制定，AI也要讲价值观和原则了

▲OpenAI“红队测试”（图源：英国《金融时报》）

例如，去年，OpenAI就招聘了50名学者和专家来测试GPT-4模型的极限。在六个月时间里，来自化学、核武器、法律、教育和错误信息等多个学科领域的专家团队对GPT-4模型进行“定性探究和对抗性测试”，试图打破GPT-4模型的安全防线，使其系统发生混乱。这个过程被称为“红队测试”。谷歌DeepMind和Anthropic也用过“红队测试”来发现其软件的弱点并进行修复。

不过据英国《金融时报》报道，虽然RLHF方法和“红队测试”是确保AI安全的关键，但它们并不能完全解决AI输出有害内容的问题。

二、谷歌等公司创建AI宪法，模型规则更明确但比较主观

现在，为了解决AI可能输出有害内容的问题，包括谷歌DeepMind、OpenAI、Anthropic在内的一些AI领先公司正在创建AI宪法，建立一套他们的AI模型可以遵守的价值观和原则，以防止AI模型被滥用。并且期望达到在没有大量人类干预的情况下，AI也能保持自我约束的目标。

例如，谷歌DeepMind的研究人员发表了一篇论文，为聊天机器人Sparrow定义了的一套自己的规则，旨在实现“有益、正确和无害”的对话。其中一条规则就要求AI“选择负面、侮辱、骚扰或仇恨最少的回复”。

作为该论文的作者之一，谷歌DeepMind的高级研究科学家Laura Weidinger认为，他们制定的这套规则不是固定不变的，它实际上是建立一种灵活的机制，随着时间的推移，其中的规则应该进行更新。

Anthropic也已经发布了自己的AI宪法。Anthropic的首席执行官兼联合创始人Dario Amodei称，人类不知道如何理解AI模型的内部发生了什么，建立一套宪法章程，可以让规则更加透明、明确，这样任何使用AI模型的人都将知道接下来会发生什么，并且如果模型不遵循原则，人类可以有章程依据与其争论。

但据英国《金融时报》报道，创建AI宪法的公司都发出过警告，说AI宪法的章程还在制定过程中，并不能完全反应所有人和所有文化的价值观，因为这些章程暂时是由员工选择的。

AI宪法要来了？谷歌OpenAI联手制定，AI也要讲价值观和原则了

▲谷歌DeepMind研究人员正在致力于开发AI可以遵循的宪法（图源：英国《金融时报》）

例如，谷歌DeepMind为Sparrow制定的规则就公司内部员工确定的，但DeepMind计划在未来把其他人纳入规则确定的名单。Anthropic发布的AI宪法也是由公司领导编制的规则，借鉴了DeepMind发布的原则，以及《联合国人权宣言》、苹果服务条款等外部资源。同时Amodei称，Anthropic正在进行一个实验，通过某种参与式过程来反映外部专家的价值观，以此更加民主地确定其AI宪法规则。

悉尼大学的AI伦理研究员Rebecca Johnson去年曾在谷歌工作过一段时间，分析了谷歌的语言模型，如LaMDA和PaLM。AI宪法章程的现状正如她说，AI模型内部的价值观和规则，以及测试它们的方法，往往由AI工程师和计算机科学家创建，他们是带有自己特定的世界观的。

Johnson还说，工程师们尝试解决AI模型的内部规则带有主观色彩的问题，但人性是混乱的、无法解决的。并且，据英国《金融时报》报道，有事实证明，制定AI宪法的方法并非万无一失。

今年7月，卡内基梅隆（Carnegie Mellon University）和旧金山AI安全中心的研究人员成功突破了，包括OpenAI的ChatGPT、谷歌的Bard、Anthropic的Claude在内的，所有领先的AI模型的防护栏。他们在恶意的请求的代码末尾添加了一系列随机字符，就成功绕过了模型的过滤器和基础宪法规则。

AI安全研究公司Conjecture的研究院兼首席执行官Connor Leahy说，当前的AI系统非常脆弱，以至于人们只需要使用一个越狱提示，它就会完全脱离轨道，并开始做完全相反的事情。

同时，还有研究人员认为，AI安全面临的最大挑战就是弄清AI的安全护栏是否真正起作用。AI模型是开放式的，它面向无数人来接收信息并回答问题，但AI模型内部的规则是有限的人群制定的，目前很难为AI的安全护栏进行有效评估。Amodei说，Anthropic正在研究如何利用AI本身进行更好的评估。

结语：科技公司试图增强AI自我约束能力，AI安全防护发展仍然滞后

随着AI技术出现在人们的视野以及科技公司商业化AI，从最初的机器学习到现在的生成式AI，这一技术正在不断拓展其能力和应用领域。伴随而来的就是一系列问题，例如使用AI是否安全？AI会不会提供错误信息或者有害信息？以及越来越强大的AI会不会被坏人利用？

从RLHF到“红队测试”，AI科技公司也在不断尝试各种方法来降低AI可能带来的负面影响，增强AI安全防护能力。现在，谷歌DeepMind、OpenAI、Anthropic等AI领域的领先公司也在通过制定AI宪法的方法，提升AI系统的自我约束能力，以确保其安全可靠性。

但据英国《金融时报》报道，RLHF和“红队测试”无法完全解决AI输出有害内容的问题，制定AI宪法的方法也存在主观色彩较强、难以为AI的安全护栏进行有效评估等问题，AI安全防护的发展相对于AI应用技术的发展，是比较滞后的。因此，我们将持续关注各大AI公司，了解他们未来会对AI安全防护方法做出怎样的更新。

来源：英国《金融时报》

一、RLHF方法和“红队测试”是确保AI安全的关键，但效果有限

二、谷歌等公司创建AI宪法，模型规则更明确但比较主观

结语：科技公司试图增强AI自我约束能力，AI安全防护发展仍然滞后

相关推荐