百川智能又一开源大模型亮相，中英文能力超Llama！开源社区下载量近500万次

智东西（公众号：zhidxcom）
作者 | 程茜
编辑 | 心缘

智东西9月6日报道，今天下午，百川智能发布开源大模型Baichuan2 70亿和130亿参数规模的两个版本。

相比于上一代Baichuan模型，Baichuan2在文科理科能力方面得到了全面提升，其中数学能力提升49%，代码能力提升46%、安全能力提升37%、逻辑推理能力提升25%、语义理解能力提升15%。

百川智能又一开源大模型亮相，中英文能力超Llama！开源社区下载量近500万次

百川智能创始人、CEO王小川透露，在中英文通用榜单、垂直领域、跨语言能力上，Baichuan2相比于ChatGLM2-6B、LlaMA2-7B、LlaMA2-7B等开源模型都取得了较好表现。

同时，Baichuan在开源社区总下载量已经接近500万次，月下载量达到300多万次。

王小川透露，此前百川智能计划今年三季度发布超500亿参数规模的模型，四季度发布对标GPT-3.5的模型，明年一季度发布超级应用，百川智能这一计划的实际执行节奏目前十分顺利。

百川智能又一开源大模型亮相，中英文能力超Llama！开源社区下载量近500万次

王小川提到，Baichuan2的发布意味着Llama作为开源模型的时代已经过去了。此前Llama-2开源大模型使用有两个限制条件，其一是用户数超过7亿不提供开源支持，第二，仅适用以英文为主的模型环境。

因此，Llama-2在中文领域的使用场景十分受限。他补充说，Baichuan2的发布能帮助开发者获得一个更加友好、能力更强的模型。

发布会最后，百川智能联合阿里云、高通、瀚博半导体、火山引擎、寒武纪等共同启动了“创新、协作、共赢”开源生态合作。

一、中英文全面超越国外开源模型，开源全部参数模型

王小川透露，目前已经有200多家企业申请部署了百川大模型，涵盖云厂商、科技行业、制造、消费等行业的企业。此次发布的Baichuan2是百川智能的又一个里程碑。

70亿参数规模的Baichuan2在中英文主流任务中已经全面超越LlaMA2-13B，王小川解释道，全面超越指的是，更小参数规模的Baichuan2在性能表现上超过LlaMA2-13B，同等尺寸上，可以吊打一众开源模型。

百川智能又一开源大模型亮相，中英文能力超Llama！开源社区下载量近500万次

分拆来看，数据方面，Baichuan2的特点是规模大、覆盖全、质量优。

Baichuan2的数据基于万亿互联网数据精选，同时筛选了健康、法律等垂直行业的数据，并且构建自世界知识体系之上。在数据处理阶段，该模型通过小时级完成千亿数据清晰和滤重，打造了超大规模内容聚类系统，并且对篇章、段落、句子质量进行打分做评价，实现多粒度内容质量打分。对于训练语料，Baichuan2采用了2.6TB的超大规模语料，并支持中、英、西、法等数十种语言。

在训练方面，Baichuan2采取的是高效、稳定、可预测方式。该模型采用分布式训练框架和科学可预测的scaling law，使得小模型可以准确预测大模型的效果。

安全价值观对齐方面，Baichuan2实现了系统性价值观对齐、多类型价值观对其、有用性无害性平衡。

具体的评测效果上，王小川称，中英文通用榜单上，70亿和130亿参数规模的Baichuan2均取得同尺寸开源模型最优异效果。

70亿参数规模的Baichuan2在中英文通用榜单上的中文、英文、代码方面领先于ChatGLM2-6B、LlaMA2-7B、LlaMA2-7B等开源模型，数学能力上仅次于ChatGLM2-6B。

百川智能又一开源大模型亮相，中英文能力超Llama！开源社区下载量近500万次

70亿参数规模的Baichuan2在中英文、数学、代码方面都超过了其它开源模型。

百川智能又一开源大模型亮相，中英文能力超Llama！开源社区下载量近500万次

在医疗、法律垂直领域榜单上，Baichuan2两个参数规模的模型均超过其它开源模型。

百川智能又一开源大模型亮相，中英文能力超Llama！开源社区下载量近500万次

跨语言能力中，Baichuan2在英语、法语、西班牙语、阿拉伯语、俄语中的能力都超过其它开源模型。

百川智能又一开源大模型亮相，中英文能力超Llama！开源社区下载量近500万次

总的来看，王小川谈道，Baichuan2的文科理科能力均处于开源模型最好水平。包括多轮对话能力、代码生成的可用率、复杂问题逻辑推理能力、语义理解能力。

在开源生态建设方面，学术和生态支持计划，百川智能公开了训练过程中的全部参数模型，以及不同大小的tokens、训练切片，使得学术界在进行预训练微调、强化时更容易操作，更容易获得学术经验和成果。王小川透露，这也是国内首次开放训练过程。

百川智能还打造了CCF-百川-大模型科研基金，覆盖大模型技术和大模型垂直领域及应用方面。百川智能联合亚马逊云科技打造AI黑客马拉松，覆盖医疗健康和游戏娱乐两大赛道，为开发者提供算力支持和超20万元的冠军奖励。

二、大模型可解释、幻觉问题是关键，不会与人类完全对齐

中国科学院院士、清华大学人工智能研究院名誉院长、吴文俊人工智能最高成就奖、CCF终身成就奖、国家科技进步奖获得者张钹提到，目前，国内已经推出了几十亿到几百亿不同规模的大模型，这些大模型很少定位于助力大模型本身的学术研究上。因此他重点提及了百川智能对于大模型学术研究的助力工作。

张钹院士谈道，这项工作非常重要。原因在于全世界对大模型的工作原理、所产生的现象一头雾水，所有结论都归到智能涌现之下，“所谓‘涌现’就是给自己一条退路，解释不清楚”。因此，他认为只有把这个问题搞清楚，国内才有可能发展出来有中国特色的大模型。

其中包含几个方面，首先，研究人员必须回答的问题是大模型为什么能产生出来非常连贯、多样化的人类语言。张钹院士认为，实现这一结果的措施有三个。

第一是文本的语义表示，文本的词、句、段落经过抽象后都变成向量，这为构造连续的拓扑空间构造了条件。第二是转换器，注意力机制可以保证大模型上下文的一致性。第三是下一个词的预测。

其次，研究人员必须要回答的问题是，为什么大模型会产生幻觉。

这与ChatGPT和人类自然语言的生成原理有关，ChatGPT采取的是外部驱动，人类是意图控制、内部驱动，这导致ChatGPT生成内容的正确性、合理性无法被保证。

因此，ChatGPT没有对齐之前，会产生大量的不合理、不正确内容，只能通过Alignment（对齐）去解决这一问题。

其中，张钹院士提到，GPT-3.5到GPT-4的性能实现飞跃，主要原因就是对齐。

这之后又会涉及到治理和开发的问题，并且治理会影响生成质量的多样性，因此如何去平衡这二者的关系也很重要。

最后，张钹院士谈道，他将ChatGPT生成的语言称作GPT语言，其与人类语言不同，又延伸出一个问题：“我们将来努力的方向是什么？我们是不是想把GPT语言完全对齐到人类自然语言？”

目前而言，这个可能性不大。他解释说，如果想完全对齐，必须先让GPT有自我意识，目前科学上没有条件能实现。

人工智能不是要做一个机器和人类一样，目前最重要的是研究了解GPT语言，只有彻底了解它，才能更好的发展它、使用它，发展出健康的人工智能产业。

结语：开源大模型生态逐渐完善

作为大模型浪潮下备受瞩目的明星企业之一，百川智能自王小川搭建团队、筹备研发起，已经发布四个大模型：6月发布70亿参数规模开源模型Baichuan-7B，7月发布130亿参数规模大模型Baichuan-13B，8月发布530亿参数规模大模型Baichuan-53B，再到现在的Baichuan2开源大模型，其大模型产品落地、商业化应用之路稳步向前。

正如张钹院士提到的，可解释性、幻觉问题是大模型亟需回答的两大问题。开源大模型对于学术研究推动的意义重大。当下，国内开源开放的大模型生态社区正在逐渐完善，相比于国外开源大模型性能更好、应用更友好的大模型出现，有望加速国内大模型产业的突破。

一、中英文全面超越国外开源模型，开源全部参数模型

二、大模型可解释、幻觉问题是关键，不会与人类完全对齐

结语：开源大模型生态逐渐完善

相关推荐