一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

智东西（公众号：zhidxcom）
作者 | 程茜
编辑 | 漠影

文心一言发布两周年，百度搞了件大事！

智东西3月16日报道，刚刚，百度文心大模型4.5和文心大模型X1两款大模型上新，已上线文心一言官网并免费开放，比之前百度官宣的4月1日全面免费提前了半个月。

文心大模型X1是首个自主运用工具的深度思考模型，具备更强的理解、规划、反思、进化能力。其在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面的表现更强。

文心大模型4.5是百度自研新一代原生多模态基础大模型，在多个测试集上的测评表现已经超过GPT-4o。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

该模型的能力可以用一个字“全”来概括，其图片理解涵盖照片、电影截图、网络梗图、漫画、图标等多种形态，也能理解音视频中的场景、画面、人物等特征，并且在生成名人、物品等方面更具真实性。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

对于原生多模态大模型，3月初，百度创始人、CEO李彦宏在人民网发表的署名文章就提到：“原生多模态大模型，打破之前先训练单模态模型再拼接的方式，通过统一架构实现文本、图像、音频、视频等多模态数据的‌原生级融合，实现对复杂世界的统一理解，这是迈向通用人工智能（AGI）的重要一步。”

目前，文心大模型4.5面向企业用户和开发者开放，登录百度智能云千帆大模型平台即可调用API；文心大模型4.5、X1也将陆续上线百度搜索、文小言APP等产品，文心大模型4.5将于6月30日起开源。

文心大模型4.5输入价格为0.004元/千tokens，输出价格为0.016元/千tokens；文心大模型X1也即将在千帆平台上线，输入价格为0.002元/千tokens，输出价格为0.008元/千tokens。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

文心X1与文心4.5价格对比图：

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

百度2024年财报显示，文心大模型的日均调用量已经达到16.5亿次的显著成绩，稳居国内大模型产业应用规模前列。此次伴随着新模型的发布，其将进一步扩宽技术赋能深度与场景覆盖广度。

体验地址：https://yiyan.baidu.com/

一、全能选手上线，擅长看图说话、经典电车难题、多轮复杂交互

实践出真知，先来看下百度文心大模型X1的实战效果。

目前，X1已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。

我上传了一张有山有水的风景图，并询问文心X1这是哪里，模型就会调用图片理解工具准确识别出地名。可以看到，文心X1在思考过程中完整呈现了其调用工具以及根据图片元素进行判断的诸多环节，并给出了准确答案——杭州西湖。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

经典的电车难题，文心X1也可以给出全面的答案，可以看到其思考过程中首先明确了这是“经典的伦理困境问题”，然后通过理解这一背景和核心问题、分析不同伦理理论、权衡因素的过程，最后生成完整的答案。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

面对经典的数理化难题“鸡兔同笼”，X1不仅答案满分，还在解题思路上自由发挥了一波。其在输出结果中附上了两种解题思路。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

面对涉及到酒店住宿费用的计算难题，文心X1不仅给出了明确答案，并且输出的结果，清晰简洁，我可以一目了然题目计算过程中出现的逻辑漏洞。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

在用户的实际场景中，其需求往往更为复杂，需要满足不同的限定条件，这也是大模型生成结果能满足用户需求的关键。我输入的指令是“帮我生成一个为期三个月的减肥计划”，此外，还给出了几个限定：工作忙、周末时间宽松、对部分食物过敏等。

可以看出X1给出的生成结果中，其对应给出了符合我特定需求的食谱，如果遇到食物本身包含鸡蛋、牛奶的，X1会在括号中给出替代的方案。并且考虑到工作的情况，计划表中还包含适宜在办公室进行锻炼的运动计划。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

在多轮对话中，我首先给出了比较模糊的需求：去新疆旅行的最佳时间、只有法定节假日可以去怎么办、哪个性价比最高，基于之前的输入与输出结果，文心X1准确定位了我的需求，从新疆不同季节的景色变化到不同假期的人流量变化等进行分析，最终给出了性价比最高且符合我特定需求的行程安排。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

文心4.5的能力也不在话下，其既能理解文本、图片、音视频等多模态内容，还可以进行图片生成、文本创作等，并完成输入内容中的逻辑梳理等。

在图片理解能力，我上传了一张照片，图中两个人物并没有清晰正脸，所以所以需要模型从整个画面的构图、场景等来判断，文心4.5不仅清晰展现出了场景的具体特征，还给出了电影名称、相关人物以及场景在电影中的意义等。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

文本生成中，文心4.5还可以针对不同平台的特点生成相对应文案，如短视频平台的发布文案多为一句话概括、小红书文案需要配合文字以及emoji表情，此外，其还可以生成对应的视频脚本等。

我结合当下关注度较高的短视频爽剧，让文心4.5生成关于出身平凡主角隐藏惊人审视、顶级豪门云集、争夺商业帝国等元素的脚本。

生成结果中，文心4.5总共给出5个场景，涵盖了镜头切换、旁白台词、旁白语气等诸多完整元素。

一手实测百度X1：看得懂脑筋急转弯、秒解数理化难题、逻辑漏洞，还会自主调用工具

整体来看，文心4.5的跨模态理解能力、捕捉细节能力、推理逻辑的连贯性等方面表现实现了全面的提升。

二、从训练提效、多模态理解生成到降低幻觉，百度核心技术攻坚

两大模型的表现升级背后，是百度在核心技术方面的突破与深耕。

从技术层面看，更全面的深度思考模型文心X1背后有三大核心技术，递进式强化学习训练方法、基于思维链和行动链的端到端训练、多元统一的奖励系统。

基于应用递进式强化学习方法，可以在创作、搜索、工具调用、推理等场景全面提升模型的综合应用能力。思维链和行动链的端到端训练可以针对深度搜索、工具调用等场景，根据结果反馈进行端到端的模型训练，显著提升训练效果。

文心X1的训练还建立了统一的奖励系统，融合多种类型的奖励机制，为模型训练提供更加鲁棒的反馈。

在此基础上，文心X1可以准确理解用户需求，并实现中文知识问答、文学创作、复杂计算、逻辑推理以及工具调用等多元化且强大的能力展现。

同时，作为原生多模态基础大模型，文心4.5背后也有百度的独特技术优势加持，具体来看就是FlashMask动态注意力掩码、多模态异构专家扩展技术、时空维度表征压缩技术、基于知识点的大规模数据构建技术、基于自反馈的Post-training技术。

综合来看，这四大技术的目的就是全方位提升大模型的多模态理解能力，以及降低大模型幻觉，这也是大模型当下支撑用户实际应用、发挥更大价值的关键。

在提升模型能力方面，FlashMask动态注意力掩码可以有效提升大模型的长序列建模能力和训练效率，优化长文本的处理能力和多轮交互表现；多模态异构专家扩展技术能解决因模态差异导致的信息提取和处理困难的问题，提升多模态融合能力。

在提升模型训练效率方面，多模态大模型训练中还有一大难题是，其图片和视频通常占据大量的存储空间，在传输过程中也需要耗费较多的时间和带宽资源，时空维度表征压缩技术就可以对其语义表征进行压缩，提升多模态数据训练效率。

此外，为了进一步提高模型学习效率，降低幻觉。一方面，文心4.5通过基于知识点的大规模数据构建技术，在知识分级采样、数据压缩与融合、稀缺知识点定向合成技术加持下，构建高知识密度预训练数据；另一方面，基于自反馈的Post-training技术，大模型可以融合多种评价方式的自反馈迭代式后训练技术，提升预训练模型对齐人类意图能力。

这正是文心X1和文心4.5全方位性能得到提升的有力支撑。

三、四层技术体系全栈布局，百度已先人一步

将时间的标尺拉长，百度文心大模型的发展历程清晰映照出国产大模型茁壮成长的坚实轨迹。

2023年3月16日，文心一言正式发布并开启邀请测试，首日超6.5万家企业申请调用。

同年10月，文心大模型4.0发布，彼时达到了与GPT-4性能相当的水平。从去年6月至今，文心大模型4.0 Turbo、性能强劲的轻量模型ERNIE Speed Pro和ERNIE Lite Pro到当下的文心大模型4.5、文心大模型X1。

如今，百度文心大模型家族持续壮大，成员数量稳步递增，模型类型愈发多元。

到2024年，文心大模型的日均调用量达到16.5亿，而2023年同期这一数字仅为5000万次，增长达到33倍。

作为国产大模型的头部玩家，百度已经基于大模型构建起了全栈技术布局，以支撑其上述业务体系的发展。

在当下，大模型的蓬勃发展正深刻改写AI时代的演进轨迹。从技术架构来看，其技术栈大致可划分为四个关键层级，自下而上依次为芯片层、框架层、模型层以及应用层，而百度也成为当下全球范围内鲜少的在这四层都有所布局的公司之一。

也就是在芯片层，百度智能云已经成功点亮自研万卡集群昆仑芯三代万卡集群，框架层飞桨文心开发者数量已经达到1808万名，应用层百度已经基于大模型重构了百度搜索、百度文库等多个国民级应用。

从更为具体的数据层面来看，百度近十年来的累计研发投入已经超过1800亿元。

截至2023年12月，百度全球AI专利申请超过2.5万件，国内AI专利申请量近1.9万件，中国人工智能专利申请量突破8000件，国内人工智能专利授权率行业领先。

可以看出，百度在AI领域的研发与积累已经转化为自身大模型研发的养料以及国内大模型产业发展的加速引擎，助推国内大模型产业发展在全球的竞争态势中飞速前进。

结语：全球大模型产业竞争加剧，百度开启国内赛道超车模式

当下，全球大模型产业发展的竞争态势仍然激烈，不光是基础模型的研发还是AI应用的规模化落地，都成为各家大模型厂商布局的关键。

一方面，基础模型作为整个大模型产业的根基，其研发难度极高且至关重要；另一方面，一个优秀的基础模型只有通过广泛的应用落地，才能真正实现其商业价值和社会价值。

以百度为代表的国内大模型产业代表玩家，正在这一波全球的技术发展浪潮中发挥自己的独特优势，并逐渐在这一竞争浪潮之中占据先机。

一、全能选手上线，擅长看图说话、经典电车难题、多轮复杂交互

二、从训练提效、多模态理解生成到降低幻觉，百度核心技术攻坚

三、四层技术体系全栈布局，百度已先人一步

结语：全球大模型产业竞争加剧，百度开启国内赛道超车模式

相关推荐