智东西(公众号:zhidxcom)
作者 | 徐珊
编辑 | 云鹏
智东西11月16日报道,昨日,腾讯在其技术开放日举办了AGI时代的“数据枢纽”腾讯云向量数据库技术&产业峰会。在此次大会上,腾讯云联合中国信通院联合发布向量数据库标准。腾讯云向量数据库成为首家通过信通院的向量库标准测试的向量数据库,最高支持千亿级向量规模和500万QPS峰值能力。
向量是AI理解世界的通用数据形势,是多模态数据库的压缩。向量数据则是由数值向量组成的数据集合,向量数据库是以向量嵌入式存储和管理向量数据的数据库,其主要的来自于对文本、语音、图像、视屏等非结构化数据,提供向量化的功能。
“向量数据库不仅是支撑大模型的重要基础设施,也正在成为企业以数据驱动打造未来竞争力的重要一环。”腾讯集团高级执行副总裁、腾讯云与智慧产业事业群CEO汤道生说道。他认为,目前企业数据库内80%的数据都是非结构化的数据,向量数据可以让AI直接解读语音、视频等多模态的数据。
据腾讯云数据库副总经理罗云介绍,目前腾讯云向量数据库已经累积服务了腾讯内部40多个业务,日请求量达1600亿次,服务了包括博世、销售易、搜狐、好未来、链家等在内的超过1000家外部客户。
此外,腾讯云向量数据库和百川智能联合发布的“AGI启航计划”也正式启动,向量数据库免费实例及Baichuan2 400万免费Tokens将限量开放领取,助力用户快速搭建RAG应用。同时,腾讯云还与硬件厂商、大模型厂商、行业代表等联合成立了“AGI技术生态联盟”。
一、腾讯集团高级执行副总裁汤道生:向量数据库比传统数据库的检索规模提升数百倍
“向量数据库可以成为大模型的外部知识库,给大模型输入最新,最全面,最有效的信息,让大模型拥有长记忆,避免聊天时的断线,是大模型的最佳拍档。”汤道生通过视频说道。他认为,AI驱动产业数据变动的时代正在到来,向量数据库正在成为数据的枢纽。
据他介绍,早在2019年,腾讯云向量数据库已经接入了QQ浏览器等多业务场景,每天处理超过1600亿次的请求。在向量检索帮助下,QQ浏览器检索成本38%,QQ音乐的技术支持也较大提升。
今年8月,腾讯云正式推出向量数据库,如今,腾讯云向量数据库也成为首个通过信通院标准测试的厂商,该向量库拥有千亿级的向量规模,比传统数据库的检索规模提升数百倍。
汤道生认为,数据在大模型的向量数据库实现了智能计算、智能存储,大幅降低客户的应用门槛和成本。不少用户基于腾讯云向量数据库打造相应的应用,让用户在模糊的提示词下,也可以准确的找到答案,帮助客户节省80%的人工客服成本。
二、腾讯云副总裁陈平:国内拥有130个大模型,向量数据库是AGI时代大模型的最佳拍档
“向量数据库已经被业内公认大模型时代的数据枢纽,因此其建设也尤为重要。”腾讯云副总裁陈平谈到在新的时代,AI行业将会改变千行百业,传统行业需要及时调整自己的生产方式,以跟上新的时代。
同时,在新兴数据技术集成上,移动互联网、泛互联网等数据正呈现指数级成长,传统处理数据的能力带来压力,更高效的数据存储需要更智能存储、梳理等。他认为,向量数据库是AGI时代大模型的最佳拍档。
企业需要将数据采集和存储,更多利用大模型的数据和存储。在数据采集层,腾讯计划部署各种AI芯片,提供稳定的服务性能,为各种各样的AI厂商提供服务。在模型层,据他统计,中国已经有130个大模型,接下来需要厂商将大模型沉淀到各个产业中。大模型的应用并不完全看算力,也看生态合作。而应用层,AGI应用需要投入到真实环节,也是其实现价值最重要的一环。
在2018年左右,由于自身业务的需要,腾讯云就已经开始打磨向量数据库,如今已经成为较为成熟体系。“腾讯云积极参与向量数据库相关标准制定,并通过搭建AGI技术生态联盟,与上下游伙伴一道,加强产业合作,打造更多的行业解决方案,加速大模型落地。”陈平说道。
三、中国信通院人工智能创新中心负责人魏凯:国内数据库仍以关系型为主
中国数据库产业开始于20世纪末,并在2013年后迎来新的繁荣发展,在2020年后,中国数据库迎来的真正的爆发。“数据库是一个生命力比较顽强的产业,几乎每几年都有一个热点。在全球数据库第二波爆发阶段,中国赶上了浪潮。”中国信通院人工智能创新中心负责人、云计算与大数据研究所副所长魏凯说道。
数据库上云成为当今产业行业重要的趋势,2022年,国内的公有云市场首次超过了私有云,市场份额超过一半。
向量数据库是存储检索、多维度向量最关键的数据库。向量数据库与大模型的结合,成为其当下的产业热门。向量数据库与传统数据库会协同发展、相互补充。向量数据库将会通过数据的向量化来满足特定需求,尤其是传统关系型数据库难以处理的大规模数据。
目前,全球数据库产品数量整体分布呈现以非关系型数据为主。但国内却出现关系型数据库的发展超过非关系型数据库的现象。从创新看,非关系型数据是热点,我国创新实力不断增强。而从标准上看,行业组织正逐步推动我国标准体系完善。从模式来看,开源模式在全球范围内发展势头较猛,目前,我国国内的开源数据库共有42款,开源数据库中69%为关系型数据库。
他提到目前向量数据库的核心技术有Embedding技术、向量索引技术、分布式系统架构、硬件加速技术等。向量数据库可以在文本、图像、视频、生物制药等多场景中,发挥其创造性,提供丰富的应用。
四、对话腾讯云向量数据库负责人罗云:智能化数据平台的数据要可流通、可对话
随着AI的发展,整个计算机科学行业的底层基础设施将会构建全新的方式。
“AGI时代大模型是提供算力、调度的智能平台,向量数据库就是这个智能化的数据的调度平台的中枢”腾讯云创始团队成员、腾讯云数据库副总经理兼向量数据库负责人罗云认为,大模型的本质是带有智能计算的计算平台,将会将人们所接触编程语言才可以触达的计算体,转换成人们自然语言就可以接触的计算体。
他认为AGI时代,智能化数据平台将会存在两大特点,第一、底层数据化数据将要可以通过智能化的方式流通;第二则是,能够和数据库对话。因此,在AGI时代,向量数据库是数据的中枢。通过向量这样中间模式,将会磨平了数据之间的差异。
在会后的采访环节,罗云提到向量是一种通用的人工智能背后的数据格式,它可能是需要桥接关键数据库、非关键数据库、对象存储、文件存储所有的各式各样结构的数据,把这些数据集中化放在一个数据管理平台上。而传统的插件式向量数据库相比,很难让某一个数据库的插件支持到其他的格式。“向量数据库会成为智能化AI的一个索引层,它会把底层所有的数据都智能化的管理起来,让人类通过自然语言,通过向量去做交互。”他补充道。
▲中间为腾讯云创始团队成员、腾讯云数据库副总经理兼向量数据库负责人罗云
AGI时代的数据中枢及既要有传统数据路的企业级能力,更需要智能化升级。向量数据库需要在可用性、分布式、性能、可靠性等六大能力方面,拥有新的要求,实现计算智能化、存储智能化、接口智能化。
为了加速向量数据库在企业的大规模应用,腾讯云还推出了国内“首个”端到端的向量数据库解决方案,通过文本智能化分割、选择向量化模型、帮助客户建立索引,再经智能化排序实现端到端的数据接入体验。将端到端召回率提高30%,缩短数据接入AI的时间。
现阶段,腾讯云已经接入了百余项项目,同时,腾讯已经外部接入了千余家企业。例如,在SaaS领域,帮助企业客户快速构建私域知识库、智能客服系统;在电商行业,使用向量数据库来提升推荐、搜索、广告业务的推荐效果;在出行行业,使用向量数据库来加速自动驾驶模型训练,此外,在教育行业以及文创等行业也有广泛应用。
在产业创新方向上,他提到不少在向量数据库厂商发力的点集中在在成本层的一些调优,且想要去做AI Native,AI原生的把智能化的东西做成一站式的向量数据库。客户在向量数据库的采购方面也并未卡在成本环节,更多在思考怎么样把自己的行业know-how和AI的整个技术站打通起来。
对于向量数据库的版本迭代节奏,罗云计划在未来的一年时间内可能会把向量数据库升级的节奏控制在三个月到六个月会有一个大的版本,再往后会随着AI的进展再去看。
结语:腾讯云加速向量数据库大规模应用
向量数据库正在成为当下大模型热潮中底层技术突破重点。通过向量的方式存储各式各样的数据,能够让大模型更快、更自然的理解相应的数据内容,从而给出更准确、合适的内容,帮助企业提高生产效率。
目前,我国的数据库正呈多样、丰富化的组合方式。腾讯云和信通院一起联合50多家企业共同发布了国内首个向量数据库标准,推进向量数据库及大模型相关产业走向大规模应用。