智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 云鹏
智东西5月21日报道,今天,华为在法国巴黎举办的创新数据基础设施论坛上,集中展示了面向AI时代的数据基础设施最新解决方案,并提出从“高可用”迈向“高韧性”的数据基础设施新理念。
华为公司副总裁兼数据存储产品线总裁袁远系统阐述了企业构建私有AI堆栈的五层架构需求,梳理了华为面向超大规模数据中心的OceanStor Pacific系列存储、上下文记忆存储平台CMS、一站式模型工程平台ModelEngine以及智能体开发平台Nexent等全栈解决方案。
针对数据基础设施韧性,华为法国数据中心解决方案CTO Benoît Fix认为,传统灾备设计已过时,企业面临AI供应链风险、微服务脆弱性及灾备测试滞后三大新风险。他介绍了华为的“0135”智能运维框架,并强调在智能时代,唯一可以确定的就是数据基础设施的韧性。
华为菲尔茨研究中心首席存储科学家David Slik则分享了华为数据存储技术的未来演进方向,包括高带宽闪存(HBF)、存储-计算-网络融合、新型AI接口(知识服务与记忆服务)、统一权限系统等六大重点攻关技术,旨在构建可解释、可逆和受约束的AI系统。
此外,来自挪威国家图书馆、法国零售巨头欧尚、法国电信运营商Orange、国际自然保护联盟等企业、机构的嘉宾也分享了与华为长期合作、共同构建数据基础设施的实践经验。
一、AI驱动数据黄金时代,华为已覆盖企业AI五层堆栈
开幕环节中,华为执行董事、ICT业务集团CEO杨超斌通过视频发表了开幕致辞。他认为,AI正在驱动一个数据的黄金时代,token经济全速推进,而数据是基础。
杨超斌称,数字化的深度将决定智能化的高度,全闪存存储将成为AI数据中心标配,数据范式正发生根本性转变,以支持大模型的发展。

随后,华为欧洲企业业务总裁宋文琦在欢迎辞中称,欧洲正通过“AI大陆行动计划”和19座已建成的AI工厂加速智能转型,华为将凭借“全智能化”战略和位于欧洲的29个研发中心,提供领先的产品与解决方案,全力投入欧洲的绿色与数字化双重转型,并坚持“在欧洲、为欧洲”的策略。

IDC高级研究总监Andy Buss在主旨演讲中谈道,科技正处于前所未有的大变革之中,我们正进入由生成式AI和智能体(Agentic AI)驱动的“AI超级周期”。
他认为,AI正从训练时代转向推理及智能体时代。全球已有超过3000万个AI智能体在协同工作,预计到2030年这一数字将超过22亿。AI正从后台效率工具,转变为面向员工、客户和伙伴的数字体验提供者,乃至商业模型本身。到2029年,企业AI投资将增长到千亿美元规模。

但挑战依然存在。许多企业在规模化整合AI时面临困难,而其中最关键的是数据就绪度。IDC预测,到2026年,因缺乏高质量AI就绪数据,将导致企业生产力损失15%。Andy Buss强调,没有优质数据,AI无法产出优异成果。企业需要建立统一的数据湖和高质量数据平台,这是智能体系统的生命线。
华为公司副总裁兼数据存储产品线总裁袁远系统阐述了如何构建面向AI时代的就绪数据基础设施。
他观察到,Token正成为一种新的信用形式。OpenAI的报告显示,该公司的Token处理量在一年间从每分钟60亿个跃升至150亿。这意味着AI从根本上改变了我们的日常生活,也改变了我们的商业模式和日常运营。

袁远通过多个案例,提炼出企业构建AI堆栈的五层架构需求。

在最顶层的是智能体框架层。企业需要简易的开发平台、安全的运行环境及持续演化能力。第二层是模型,企业需要一站式工具进行模型部署、精调、评估和对齐。
而在计算层,企业需要GPU、NPU等异构算力。AI数据平台层是承载关键业务的核心环境,需要高性能知识库、可大幅节省首Token时延与成本的KV缓存,以及让智能体越用越聪明的记忆系统。在最底层,企业需要打造数据湖层。
华为目前在上述五层都可以提供解决方案。
在数据湖层,华为的OceanStor Pacific系列产品面向需要处理超大规模数据的客户,系统可从几TB扩展至9000 PB,单机柜容量达100 PB,拥有业界最高的密度与最低的单位功耗。
在这一层华为还提供提供跨数据中心的统一管理工具,实现全局数据可见性,支持百万级文件秒级呈现,数千亿文件秒级定位,支持向量维度检索,可实现图搜图、视频搜图、图搜文等跨模态搜索。

数据平台层,华为提供了CMS上下文记忆存储平台,面向超大规模数据中心、超级计算机及AI for Science场景,为拥有数千张计算卡的AI系统提供独立的、高性能的内容内存存储池。
华为的解决方案是业内首个能连接异构计算系统(英伟达、华为、AMD等不同厂商的AI卡)的架构,单卡性能达50 GB/秒,聚合性能可达10 TB/秒。

同时,面向中小规模企业客户,华为提供了3+1一站式解决方案,以OceanStor A800为例,该产品具备高性能知识库、PB级KV缓存、自我演进的记忆系统以及UCM(统一协调管理)功能。
在模型引擎层,华为通过核心产品ModelEngine,为客户提供一站式模型工程化平台,帮助用户将模型部署到生产环境。
该平台具备全生命周期工具链,涵盖模型优化、对齐、权重调整、量化与评估等关键环节;预置超过30个流行模型,实现开箱即用;并设有模型网关作为统一入口,连接模型与外部资源。
同时,ModelEngine支持智能资源调度,能够细粒度、按需分配GPU资源,并根据需求动态切换或关闭不同模型,从而最大化GPU利用率、有效降低成本。

在智能体平台层,华为推出Agent平台Nexent,旨在降低智能体开发门槛,并保障企业级应用的安全与可靠性。该平台支持通过自然语言生成智能体或技能,配合图形化工具和链条拖拽,使医生、金融从业者、教师等非技术用户也能轻松开发智能体,无需编写Python代码。
平台内置自我演进框架,可推动技能与提示词的持续优化;同时提供强安全隔离区域,将运行环境与其他资源进行物理或逻辑隔离,并在各层面嵌入针对误用、数据投毒、篡改及勒索软件等威胁的防御技术,实现多层次的主动安全防护。

袁远总结道,AI的第一章是算力,第二章是模型,而第三章是智能体。第四章将是数据,数据“将最终决定你的AI能力与安全”。
二、从“高可用”到“高韧性”:华为应对AI存储三大新风险
当前,数据基础设施正从追求“高可用”转向追求“真正的高韧性”。
华为法国数据中心解决方案CTO Benoît Fix在演讲中直言,过去两年IT行业经历了深刻变化,传统基于单一站点、单一应用的灾备设计思路已经过时。
他说道:“如今,我们的应用和服务跨越多个城市、多个国家、多个区域部署,是真正的跨地域协作,灾难恢复能力已不能再简单等同于可用性。”

Fix重点剖析了当前面临的三大新风险。首先是AI普及带来的供应链风险。大量应用基于开源软件工具链构建,一个底层组件一旦被攻击者注入漏洞,可能引发连锁反应。
其次是容器化与微服务架构带来的脆弱性。“一次单一微服务的故障,就可能演变为整个业务的中断,”他举例说,近期引发全球关注的重大互联网事故即是明证。
最后,也是最为关键的一点:用户的灾难恢复能力测试普遍滞后。

Fix观察到,如今企业高层提出了从“性能优先”到“数据为核”的设计范式转移。Fix强调,在AI时代,尤其是面对无法预测的AI工作负载,传统的服务质量控制已捉襟见肘。“你必须为关键应用的最差场景做规划,无论是控制器故障还是磁盘损坏,高峰性能都必须得到绝对保证。”

在数据存储层面,Fix介绍了华为的OceanStor Pacific系列解决方案,其关键突破在于可实现最高三个站点的双活容灾,并支持多达十二个站点的多活部署,同时优化了海量数据下的故障检测和快速重建机制。

针对备份,Fix认为恢复性能是核心。“我们正全力推动全闪存备份,因为恢复速度决定了业务生死。”为优化成本,华为同时引入了新型磁盘技术,混合使用SSD和HDD,在性能与成本间取得平衡。
此外,面对攻击者同样利用AI分析漏洞、开发定制化攻击代码的新形势,华为为其OceanProtect X8100/9100专用备份存储打造了多层协同防护体系:从快速备份、入侵分析,到具备“洁净区”气隙隔离的复制方案,最终确保存有一份绝对安全的数据副本。

在运维层面,Fix宣布推出“0135”智能运维框架:0人工主动预防、1分钟故障检测、3分钟问题定界、5分钟根因分析。Fix说道:“我们能做到这一点,完全依赖于AI。”
华为为此开发了名为DataMaster的新智能运维Agent,能从容量规划、性能监测到风险预警,实现从人工经验驱动到数据驱动的转型。

“在智能时代,不确定性无处不在,”Fix最后总结,“唯一可以确定的,就是数据基础设施的韧性。它比高可用要重要得多。”
三、构建可解释、可逆、受约束的AI系统,六大技术方向布局未来
华为菲尔茨研究中心首席存储科学家David Slik分享了华为在数据存储领域的技术探索与未来演进方向。
Slik称,从生成式AI的初步实验、聊天机器人等应用部署,到如今关键业务场景的真实落地,AI应用才刚刚开始。
除了生成式AI,能够感知并响应环境的“物理AI”正在兴起,最典型的应用是自动驾驶。同时,组织内部人与技术的边界日益模糊,智能体能力增强,可自主承担更多任务,逐渐成为工作中的“伙伴”。

Slik甚至预测,几年后企业可能会出现类似人力资源的岗位,专门管理智能体部署中产生的问题。
在这一趋势下,数据存储处于核心位置。数据用于训练模型,针对业务场景微调模型,增强推理所需的上下文,引入实时感知,并保存所有运行记录。存储承载着反馈闭环,而反馈闭环正是价值来源。
随着AI从内容生成走向任务自动化,再到企业级自主运行,数据存储也必须从单点支持,演进为支撑智能体协同、执行、评估、反馈、审查与观察的核心角色。Slik强调,当前最具价值的智能体部署模式之一,就是参照人类组织的运作方式,让AI智能体融入其中。
他重点分享了三个正在研究的关键挑战及应对方向:
首先是效率与成本。企业在AI落地后常常面临高昂账单,难以规模化。Slik称,软硬件深度整合的存储技术可显著降低硬件自身及运行过程中的能耗,并且随着上下文长度增加,这一优势更为明显。要让AI更准确、更可靠,需要引入更多上下文信息,而存储正是保存上下文的基础。通过存储避免重复计算,可直接应对成本与能耗挑战。

其次是可信与可靠性。如果AI不可信、不可靠,可持续发展便无从谈起。存储在提供知识与记忆服务方面扮演关键角色,帮助AI达到业务运行所需的准确性与可信度。

第三是隐私与安全。缺乏社会信任,可持续和可靠的AI部署仍会受阻。AI带来新脆弱性,放大已有使用风险,并已被攻击者日常利用。存储能够在强制执行访问权限、保护个人身份信息、知识产权、企业及客户数据机密性,以及实现错误后的回滚等方面发挥关键作用。企业需要为智能体系统构建类似于人类组织的纠错和审查流程,存储可以赋能这一过程。

随后,Slik介绍了华为在数据存储领域的几项技术探索:
高带宽闪存(HBF)技术让NAND闪存和数据存储更靠近AI加速器,在实现大规模并行I/O吞吐、增加容量和降低成本三方面同时取得突破,不仅能支持更长上下文,还通过减少数据搬移降低能耗,并让AI加速器成为存储系统的有机组成部分。

存储、计算与网络融合技术消除了多套重复网络的复杂性和成本。存储可直接通过高性能、低延迟的统一网络连接AI加速器,省去大量低效协议转换、内存拷贝和队列等待,实现更快的AI处理和更低能耗。

在准确性与可信度方面,除了传统的文件、块、对象接口,华为正研发新型AI接口,支持快速检索精准数据并加载到AI智能体上下文中,这些被称为“知识服务”和“记忆服务”。它们让AI能够理解数据之间的关系、上下文、逻辑和语义,以及这些知识如何随时间与智能体的思考过程交织。

存储系统需要创建“AI就绪”的知识表示,将原始数据中的关系提取出来,这本身可借助AI智能体来完成,从而实现“可解释AI”,使AI的请求、输入数据、思考过程、工具调用和结论都清晰可见,便于观测、分析,甚至让一个智能体去审查另一个智能体的行为。
在安全方面,华为正研发统一权限系统,确保无论通过数据库、文件系统还是AI知识系统访问,数据访问控制都能一致执行。智能体状态事务引擎可暂时保留中间状态,用于实时监督分析、问题检测以及主动回滚和恢复。

此外,华为还推动机密数据与计算分离,使同一基础设施安全地同时处理普通数据和高保密数据。这些技术共同构建起可解释、可逆和受约束的AI三大特性。
最后,Slik强调了六大重点攻关方向:缩小HBM与NAND之间的差距,将高带宽闪存应用于更多AI负载;应对数据“太珍贵不能删、太昂贵难以存”的矛盾,在归档存储容量和成本上寻求重大突破;把数据处理和存储能力延伸进网络本身;防止知识表示过程中的数据无序复制和格式混乱,避免降低准确性;持续探索知识图谱与细粒度安全的最佳实践;增强不同负载下存储生命周期的可见性,使存储成为可预测的消耗品。

结语:数据基础设施成为AI时代关键基石
在AI时代,存储已从后台的数据仓库逐渐转变为影响智能高度的关键基础设施。它不仅是海量知识的载体,也是确保AI可信、高效与安全的基石。
从降低推理成本、支撑长上下文理解,到构建可解释、可回溯的智能系统,数据基础设施正成为AI基础设施的关键一环。