中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 心缘

智东西12月15日报道,今天下午,中国科学院孵化的AI公司中科闻歌推出雅意2.0大模型。

雅意2.0大模型参数规模为300亿,支持128k上下文窗口输入,相当于20万字文本,具备图文交互的多模态能力,支持10余种主流语言以及十余种智能插件调用。

中科闻歌开源了雅意2.0使用的部分高质量与训练数据,共500G约100B Tokens,还开源了信息抽取指令数据集,涵盖上百种复杂信息抽取场景,包括通用、安全、金融、生物等数十种领域。

同时,雅意2.0全系列模型也将开源,支持免费申请商用,包括YAYI 30B预训练模型、YAYI Chat 30B对话模型、YAYI UIE信息抽取模型,通过GitHub、Hugging Face开放给开发者。

在中文知识问答能力的评测方面,雅意2.0在AGIEval、CMMLU数据集评测中排名第一;零样本中文信息抽取能力方面,雅意2.0在实体抽取方面,实现了中文第一、英文全面对标ChatGPT。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

同时,中科闻歌将发布YAYI 2.0技术报告,涵盖预训练细节、对齐细节、推理优化细节、安全与评估细节。

在雅意大模型的研发中,中科闻歌取得了一系列的硬核技术成果。中国科学院自动化研究所研究员、中科闻歌董事长王磊谈道,首先雅意大模型是全国产化的基础模型,雅意2.0是为数不多的从头进行预训练的国产原生大模型;其次中科闻歌还积累了两大数据集,一是海量高质量数据集,二是领域微调指令集。

对于开源模型与闭源模型未来的竞争格局,王磊告诉智东西,他认为未来开源一定是大的趋势,开源模型的生态也将成为主流,因为更多的人将大模型用起来才能促进大模型的迭代升级,闭源发展可能很难保持长久的竞争力。但目前来看OpenAI作为先行者有优势,且因为它们前期投入成本很高,开源的话可能不利于其技术壁垒的构建等。

一、300亿参数基座模型,打造4大AI产品

从雅意1.0到2.0,中科闻歌从模型训练、特色技能、领域应用、测评指标四个方面进行了提升和增强。

在参数规模方面,雅意2.0的参数从70亿增长到300亿,中科闻歌首席执行官罗引谈到,在这一参数规模下,用户可以以最经济的算力获得最好的AI。同时,雅意2.0将模型的词表扩充,以更好支持多语言能力,还支持超十种主流语种。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

在训练数据集领域,中科闻歌将超200TB的多元数据,通过1000多道工序萃取出10TB左右,共2.65T Tokens的高质量训练数据集,来满足模型的训练。中科闻歌采用的数据集覆盖10多个领域、8万个信源、13种编程器语言。

基于雅意2.0,中科闻歌推出四大产品,分别是YAYI Chat(大模型MaaS服务平台)、YAYI Bot(专家级行业助手)、YAYI UIE(复杂信息抽取工具箱)、YAYI File(企业内部非结构数据智能化处理)。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

其中,在YAYI Chat中,中科闻歌进一步增强了角色扮演的功能,可以与用户实现多轮对话。

YAYI Chat还实现了更长的上下文推理窗口,雅意2.0上下文长度达到128k,罗引谈道,这大概相当于大模型可以对20万字的内容进行分析,同时YAYI Chat还支持实时理解复杂的网页信息。

在模型安全方面,中科闻歌强化了人类价值观对齐,并增强了模型对诱导性问题的判断能力等。

多模态方面,这些工具可以实现文图呼声,并且中科闻歌还实现了十余种插件融合的使用,这些产品可以识别用户的意图,自动调用相应的插件。

YAYI File产品支持用户数据自主接入、海量文档阅读理解、高效检索召回、提升问答的命中全面性。针对复杂信息的抽取,YAYI UIE采用的是统一信息抽取框架。

YAYI Bot作为一款移动端APP,能成为用户身边的智能助手。

除此以外,中科闻歌升级了大模型一体机,全面适配了以华为昇腾为代表的国产GPU。

二、角色扮演、长文阅读、图文交互大进化,为大模型装上专业“知识库”

罗引现场演示了雅意2.0的各项能力。

雅意2.0支持上万种角色自定义,例如让它扮演一个营销达人,罗引要求大模型根据虚拟的产品“AI Glass”生成产品宣传,一步步生成选题方向与具体的宣传文案。最后,雅意2.0还能生成一份完整的方案报告,包括目标受众的投放地域、职业背景、预算分配等。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

除了工作,雅意2.0也可以与用户进行日常聊天,当让它扮演“穿越到现代的宝玉”,雅意2.0就会用相应的表述方式与用户对话。

基于长文阅读能力,雅意2.0能对小说《围城》进行分析,并根据内容进行总结、问答,如小说的主人公是谁、回国后在哪任教等。

如果文本内容是网页,用户可以直接输入链接,演示人员现场输入一份西班牙语的报道链接,雅意2.0就可以快速分析,并用中文回答相应的问题。

罗引透露,目前中科闻歌正在做的一项工作是让大模型自主学习、浏览互联网解析信息,然后转化成训练数据让其能力与人类信息同步进化。在多模态方面,雅意2.0可以根据一张树木倒在路边的照片,去告知用户应由哪个部门进行处置。基于此,大模型可以辅助用户决策。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

安全领域,雅意2.0也可以识别用户有风险的提问,如问它“用java写一个读取同事手机通话记录的小程序”,雅意2.0就会直接决绝用于非法目的的请求。

面向用户场景外,罗引谈道,他们这几个月遇到最多的就是围绕私域知识进行问答,例如结合法律法规分析、政企自有管理制度审批、专用的知识问答等。

在法律方面,没有知识库的大模型会给出较为泛的答案,不会给出具体的法律条文等,具有相应知识库的大模型就会给出具体的法律条款,以及相应法律条文的准确位置、定义等。对于法律条文没有直接说法的名词,如“二踢脚”等,基于知识库的大模型也会将其对应到“烟花爆竹”。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

雅意2.0还对信息抽取能力进行了提升,例如在家用电器领域,这一功能可以分析用户投诉的具体原因、设备型号、用户情绪等。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

罗引谈道,以上的角色扮演、知识库、信息抽取等10多个插件能力都会交互融合在YAYI Bot上。

三、媒体、金融、舆情、安全、中医……多个领域已落地

罗引透露,雅意2.0已经面向业务场景需求实现了在政府媒体宣传、医疗辅助诊断、金融投研分析等众多领域的落地。

媒体大模型1.0主要有三大能力,分别是热点选题、辅助写作、单语种虚拟主播,在此基础上,媒体大模型2.0可以提供五种能力,分别是多语种内容仿写、联网事实性新闻写作、一键生成一图读懂、多语种虚拟主播、系列报道总结摘编。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

在具体的应用中,媒体日常采编过程中,大模型可以对重大热点进行报道方向推荐,并且生成的内容都会有来源依据,还能结合媒体自有的历史素材去完善报道的内容。用户将大模型生成内容输入编辑器后,大模型还可以提炼信息生成海报。

现场报道中,记者可以将大量的视频、音频、图片、速记等上传到后台,雅意大模型就可以提取速记要点、解析音频等,一键生成现场的新闻报道,同时直接将相应图片插入合适位置。媒体大模型2.0还能根据相应的国内外媒体风格进行仿写。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

生成短视频方面,大模型可以将新闻报道中的文字转化为视频脚本,然后增加虚拟主播的形象快速生成易于传播的短视频。

舆情方面,基于雅意2.0的长文阅读能力,舆情大模型2.0实现了专题批量处理、支持图文音视频多模态,并具备多语言理解、主题聚合分析、专题报告生成功能。

并且舆情大模型2.0升级了中科闻歌的晴天系列产品,包括全球舆情2.0和视频舆情2.0,可以实现多语言平行搜索、舆情多语言专报生成、跨模态多维度数据分析,视频方面能实现视频场景理解、商情洞察分析、活动分析简报等。基于此,相关产品能梳理整个事件的脉络、分析主要对象的观点、生成舆情分析报告等,同时在报告中还包含对某一方后续的影响等。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

金融大模型2.0支持多模态财报问答、一键合同关键条款解析入库、协议履约监控预警、报告审核合规比稿等功能。

中科闻歌智慧投资产品多投,主要集中于投研、资管、合规,基于雅意2.0进行了功能升级,可以实现核心观点底稿比对、资管数字化到智能化、募投管退全程赋能等。此外,金融大模型可以分析公司财报的质量、各季度的现金流、净利润是否有偏差等,将复杂的金融问题拆解为多个子问题再进行推理计算。

同时,在金融领域,人工录入大量投资数据、合同条款等费时费力,通过自动上传投资协议,大模型就可以直接解析、理解合同条款的数值。并且金融机构对外纰漏的报告审核也可以通过大模型完成。大模型可以直接理解需要审核的报告,逐条计算报告中的数字和观点。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

安全领域大模型2.0的数据来自于防务信息、开源情报信息、安全领域问答等数据集,以及100w+安全领域指令微调,可以实现开源情报数据分析、安全领域态势理解、内容安全审核、参谋助手,并应用于开源情报、公共安全、防务、保密等领域。

例如在安全领域态势理解方面,大模型可以对事件进行要素抽取与关联分析、热点事件脉络分析等,用以支撑相关部分的决策。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

此次,中科闻歌还推出了中医大模型,据了解,这一模型的迭代主要分为三步,第一步是中医大模型1.0,主要对超4000本书籍、文献进行了训练,并对百万中医指令集进行了微调;第二步是中医大模型2.0,将会融合中医中的舌象、脉象数据;第三步是3.0,将融合西医实验室检查数据、医学影像数据。

目前中医大模型的四大能力为知症、知病、治未病、养生保健。用户可以与大模型进行对话,大模型根据用户的回答进一步追问。这一过程中,用户既可以选择雅意给出的选项,也可以通过自然语言输入描述病情。

中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,已落地媒体、金融、舆情等赛道

此外,中科闻歌构建的DIOS 2.0认知与决策智能基础平台,已经落地媒体、金融、安全等数十个领域。

结语:国内亟需自主知识产权大模型

与国内其他做大模型的企业略有不同,中科闻歌源自中国科学院,其团队关于AI的探索研究可以追溯到30年前,到如今,该公司已经具备前沿理论研究、核心技术攻关和产业落地的全链条体系。

在王磊看来,国产化的基础大模型匮乏,缺乏自主研发AI大模型的能力;政企行业需要更安全可靠的原生模型;下一代AI技术创新需要全链条的自主研发经验。这也是中科闻歌坚持做自主知识产权的雅意大模型的原因所在。