智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 李水青
智东西4月8日报道,今日,腾讯云宣布云存储解决方案面向AIGC(生成式AI)场景全面升级,针对AI大模型数据采集清洗、训练、推理、数据治理全流程,提供全面高效的云存储支持。数据显示,采用腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。
▲腾讯云存储AIGC解决方案升级
据腾讯云存储总经理马文霜介绍,腾讯云AIGC云存储解决方案主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成,是国内首个实现存储引擎全面自研的云存储解决方案。目前,已经有80%的头部大模型企业选择了腾讯云AIGC云存储解决方案,包括百川智能、智谱AI、元象等。
此前,腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、向量数据库、以及行业大模型服务MaaS等大模型全链路云服务。马文霜强调,本次存储方案“升级不加价”,价格方面没有任何变化。
一、实现秒级Checkpoint写入,端到端一条龙服务
大模型的研发生产流程,分为数据采集与清洗、模型训练、推理三大环节,其中每个环节都涉及海量的数据处理。尤其是目前大模型的参数量越“卷”越大,从十亿、百亿一直到万亿级,这对云基础设施提出了新要求。
▲大模型对云基础设施提出新要求
对此,腾讯云从每个环节分别入手,面向AIGC场景推出覆盖全链路的端到端解决方案升级,实现了低延时、高OPS(每秒操作数)。
在数据采集环节,腾讯云COS(对象存储)支持单集群管理百EB级别存储规模,提供便捷、高效的数据公网接入能力,并支持多种协议,充分支持大模型PB级别的海量数据采集。
▲腾讯云全自研对象存储引擎
同时,随着训练数据和推理数据的增长,需要低成本的存储能力以减少存储开销。对象存储服务提供了12个9的数据持久性和99.995%的数据可用性,能够为业务提供持续可用的存储服务。
在数据清洗环节,大数据引擎需要快速地读取并过滤出有效数据,COS通过自研数据加速器GooseFS提升数据访问性能,可实现高达数TBps的读取带宽,单次清洗任务耗时减少一半,单个文件读取速度提升10倍。
▲腾讯云自研数据加速服务
在模型训练环节,由于大模型训练时间一般长达数周甚至数月,在这期间,任何GPU出现故障都会导致训练终止,通常需要每2-4小时保存一次训练成果,以便能在GPU故障时时能回滚。因此,快速读写Checkpoint(检查点)文件也成了能否高效利用算力资源、提高训练效率的关键。
腾讯云自主研发并行文件存储CFS Turbo,面向AIGC训练场景的进行了专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,均为业界第一。面向3TB规模的Checkpoint,写入时间从10分钟缩短至10秒内,样本读取效率也提升50%。
▲腾讯云自研并行文件存储CFS Turbo
这一能力的背后,是腾讯云自研的文件存储引擎Histor,这也是业内唯一云原生自研并行文件存储引擎,其单客户端能力达10GiB/s,支持百万计OPS、千亿级文件扩展。
▲腾讯云自研文件存储引擎Histor
在数据审核阶段,大模型推理场景对数据安全与可追溯性提出更高要求。腾讯云一站式内容智理平台数据万象CI推出图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等功能,为数据生产业务全流程提供有力支撑。
其中,明暗水印为每个AI作品生成专属ID,MetaInsight支持跨模态检索,可文搜图、文搜视频、图搜视频等,内容审核延时降低50%,支持全媒体类型。
▲腾讯云一站式内容智理平台数据万象
马文霜透露,目前国内80%的头部大模型企业都在用腾讯云存储服务,包括百川智能、智谱AI、元象、右脑科技等。
腾讯云智能存储产品总监叶嘉梁为我们演示了MetaInsight的智能检索功能,如输入一张红裙舞者照片,右边可以在对象存储直接找到对应的图片。
▲MetaInsight智能检索
通过自然语言输入,MetaInsight同样能在对象存储空间中输出符合描述的图片。
▲MetaInsight智能检索
二、存储引擎全面自研,四大核心技术实现高性能文件读写
腾讯云文件存储总监陆志刚解读了并行文件存储CFS Turbo的技术升级。据称,这是国内目前唯一实现存储引擎全面自研的云存储解决方案。
CFS Turbo拥有四大核心技术,分别是并行客户端、智能缓存技术、自适应条带化以及分布式元数据。
▲AIGC时代下的文件存储技术要素
并行客户端支持一个客户端同时和多个服务端通过多条链路传输,提升访问速率。
▲CFS Turbo总体架构
智能缓存技术在客户端和服务端两级采用分布式缓存,元数据和数据之间采用独立缓存机制,读写操作可分别配置,读缓存加速重复数据的读取,写缓存提升Checkpoint的保存速度。
▲分布式缓存
自适应条带化通过智能分片,把大文件切割成小文件同时并发写入,提升吞吐,单文件读写吞吐可达5GB/s,集群读写吞吐线性增长,1PB容量规模可达1TB/s读写吞吐,单客户端文件读写性能达10GB/s。
▲文件动态条带化
分布式元数据对上亿级别文件目录分散处理,提升并发性能。传统元数据服务器是树型,受单点制约,而业内普遍的解决方式是采用联邦式,但仍需要提前规划文件和目录分配。CFS Turbo采取的分布式,能使元数据性能线性扩展至十多倍,文件和目录自动均衡分配。
▲分布式元数据
在这些技术的支撑下,腾讯云CFS Turbo能提供业界第一的TiB/s级别总读写吞吐和百万OPS的每秒元数据性能,解决训练文件读写瓶颈。以3TB大小的Checkpoint为例,写入能从10分钟瞬间缩短至10秒内。在GPU发生故障时,能大幅降低对训练时长的影响。
▲Checkpoint写入效果
此外在数据推理阶段,CFS Turbo可实现字节粒度强一致,在模型发布或修改时,多客户端可同时读写同意模型文件,保证数据一致性。
▲字节粒度强一致
基于自研分布式高性能存储引擎Histor,CFS Turbo底层通过自研用户态协议栈和RDMA等技术,减少数据的多次拷贝与虚拟化消耗,大幅降低了存储时延、提升吞吐性能;在应用侧,CFS Turbo自研并行文件传输协议,实现了多链路并行访问,大大提升了吞吐效率。
除了大模型企业以外,CFS Turbo也被广泛应用于自动驾驶与工业仿真场景,包括博世汽车、蔚来等自动驾驶厂商,上海电气、深势等厂商的仿真场景,墨镜天合、追光等企业的影视特效场景。
结语:大模型倒逼云存储升级,腾讯云树立新标杆
今年1月,在沙利文联合头豹研究院发布的《2023年中国云存储解决方案市场报告》中,腾讯云存储入选“领导者”阵营,位列第一。随着大模型时代来临,AIGC场景对数据存储和处理的需求日益增长,腾讯云凭借其在云计算领域的深厚积累,推出了全面升级的AIGC云存储解决方案,为AI大模型提供更加高效、全面的云存储支持。
在数据采集、清洗、训练、推理、数据治理等全流程中,腾讯云的AIGC云存储解决方案展现出了卓越的性能。通过自研的核心技术和产品,腾讯云不仅在性能上实现了质的飞跃,更在价格上保持了亲民,成为众多头部大模型企业的首选。