智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 李水青
智东西5月17日报道,今日,腾讯云公布了一系列生成式AI研发、产品进展。腾讯混元大模型全面升级,最高拓展至万亿参数规模,总体性能相比上一代提升50%。同时在多模态能力方面,腾讯云开源中文原生DiT架构文生图模型,混元支持单图可30s生成3D模型,视频生成时长达到16s。
基于自研混元大模型底座,腾讯云打造大模型时代原生工具链,发布三大AI引擎工具:大模型知识引擎、图像创作引擎以及视频创作引擎。此外,腾讯云还推出一站式AI智能体创作与分发开放平台——腾讯元器,用户可以在平台上创建专属AI智能体,并发布到QQ、微信等腾讯生态上。
据透露,腾讯云将于本月底5月30日上线混元大模型App“腾讯元宝”,提供混元及搜索引擎驱动的高效信息整合工具。在备受关注的文生视频方向,混元正在基于ST-DiT全面升级架构,预计到第三季度实现30秒的视频生成时长,并且在2-3个月内将开放文生视频API接口。
腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生强调,腾讯始终以“产业实用”,作为发展大模型的核心战略,通过打造高性能的模型、高效率的工具平台、高敏捷的场景应用、高可用的算力基础设施,以及强安全的模型环境,构建离产业最近的AI。
发布会后,智东西等少数媒体与腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人、腾讯企点负责人吴运声进行了深入交谈。
谈及本周OpenAI、谷歌发布的语音助手有什么样的商业或应用价值,吴运声认为,其中将视觉、音频、文本三种模态真正融合在一起,并做到端到端输入输出的技术值得关注,将成为未来技术发展的主要趋势,有很大的商业化前景。
腾讯元器试用申请地址:
https://open.hunyuan.tencent.com
腾讯云官网地址:
https://cloud.tencent.com/product/hunyuan
一、万亿参数MoE,单图30s可生成3D模型,视频生成时长达到16s
腾讯集团副总裁蒋杰蒋杰谈道,混元已实现从算力、平台等基础设施,到生文、生图、生视频、生3D等模型构建的全面布局。
▲混元从基础设施到模型构建的布局
腾讯去年发布混元大模型,经过多次迭代升级,文本生成基座模型已拓展至万亿参数规模,采用MoE(混合专家模型)结构,最高支持256k上下文,总体性能相比上一代提升50%。
目前,混元已推出Pro、Standard、Lite三个版本,分别对应万亿、千亿、百亿参数,并通过腾讯云平台提供给开发者和企业用户使用。
▲混元拓展至万亿MoE模型
在文生图方面,混元文生图基础架构全面升级,由传统的U-Net升级为DiT架构,参数量提升十几倍,测评结果在国内领先。
▲混元文生图架构升级
除了生成高质量、多风格的图片之外,混元还升级了多轮对话能力,用户可通过自然语言交互,在已生成图片的基础上进行二次编辑。
▲混元文生图多轮对话能力
在商用层面,混元可高效合成商品素材,例如给商品图片更换不同背景,目前已在广告场景投产。
▲混元文生图可高效合成商品素材
此外,混元大模型已开始布局文生、图生3D,据蒋杰透露,单图输入仅需30秒即可生成动漫、汽车、建筑等类型的3D模型。
▲混元布局3D生成
在视频生成方面,腾讯混元拥有文生视频、图生视频、图文生视频、视频生视频4大核心能力,支持视频风格化、视频重绘等多样化的产品玩法,相比Pika、Runway等友商分辨率更高、运动幅度更大,最长可以生成16s视频。
▲混元生视频4大核心能力
蒋杰透露,混元正在基于ST-DiT全面升级架构,预计到第三季度实现30秒的视频生成,并且在2-3个月内将开放文生视频API接口。
▲混元文生视频能力
二、推一站式Agent创作分发平台,月底将上线“腾讯元宝”App
基于混元大模型能力,腾讯于本周二(5月14日)全面开源了DiT架构文生图模型。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。
跟其他业界开源模型对比,混元DiT在多个维度上无短板,其综合指标在所有开源和闭源算法中排名第三,实现开源版本中的SOTA。
▲混元中文原生DiT架构文生图模型开源
今日腾讯云宣布,后续将开源三个尺寸文生文MoE模型,包括面向手机端部署的Hunyuan-S、面向PC端部署的Hunyuan-M以及面向云/数据中心部署的Hunyuan-L,参数规模从30亿到300亿不等。
▲混元即将开源多种尺寸MoE模型
此外腾讯云全面开启智能体生态,推出一站式AI智能体创作与分发开放平台“腾讯元器”,用户不仅可以在平台上创建专属AI智能体,使用腾讯官方的插件和知识库,还能将这些智能体并发布到QQ、微信或App上。
腾讯元器即日起开放申请体验,具有低门槛创建智能体、丰富的插件和知识库、打通腾讯全域分发通路等优势。
▲一站式AI智能体创作与分发开放平台腾讯元器
基于混元大模型能力,腾讯云将于月底5月30日正式上线腾讯元宝App,旨在高效搜索和提炼信息,为用户提供混元及搜索引擎驱动的高效信息整合工具,以及结合腾讯内容生态提供有趣实用的生活功能。
蒋杰称,腾讯元宝在交互方面较为简洁,只有一个输入框,通过这个入口可以实现AI搜索、文档总结、翻译官、口语陪练等功能。
▲腾讯元宝App即将上线
三、三大引擎降低模型落地门槛,5分钟开发企业级知识应用
腾讯云副总裁吴运声谈道,以大模型技术为核心,AI已成为数字化发展的关键动力。据Gartner机构发布的《生成式AI产业落地路径研究报告》,中国10亿参数规模以上的大模型数量已超过100个,超过60%的中国企业都计划在未来12-24个月部署生成式AI。
▲AI成为数字化发展关键动力
但要加速大模型产业创新,大模型厂商还需要解决三大挑战:降低工具使用门槛、提高平台适配性、安全合规保障。
为了应对这些挑战,腾讯云全新推出大模型时代原生工具链,包括“大模型知识引擎”、“大模型图像创作引擎”和“大模型视频创作引擎”三款PaaS工具,助力企业在知识服务、图像和视频创作场景提质提效。
针对知识管理场景,腾讯云推出大模型知识引擎,让AI不仅懂“产业”,更懂“企业”和“产品”。
知识引擎是聚焦企业知识服务场景的大模型应用开发平台,以大模型+RAG(检索增强生成)为框架打造。利用自然语言,企业用户5分钟就可以开发出一款知识服务应用,快速在客服营销、企业知识社区等业务场景落地。
▲大模型知识引擎
背后的腾讯云OCR解析大模型,将“知识解析”的准确率提升25%。通过语义级知识切分、数据向量化,大模型能快速检索到最匹配的答案,大幅度降低幻觉,回答更可靠。
大模型图像创作引擎提供AI图像生成与处理能力的API技术服务,可以结合输入的文本或图片智能创作出与输入相关的图像内容,支持图像风格化、AI写真、线稿生图等能力。
大模型视频创作引擎基于腾讯视频生成大模型等一系列音视频AI技术,支持高质量生成或处理视频内容,覆盖视频转译、视频风格化、图像跳舞、视频插帧、艺术字视频、运动笔刷、画布拓展等能力。
大模型原生工具链推动AI普惠的同时,腾讯云也升级了智能座舱、企点营销云AI助手、AI代码助手等多款大模型产品应用,让“开箱即用”的AI加速落地产业。
四、已接入内部600+场景,B端、C端双管齐下
据汤道生透露,混元大模型已接入腾讯内部600多个应用场景。
在C端,近日微信读书基于混元大模型推出AI问书、AI大纲等新功能,大幅提升用户的阅读效率和体验。
▲混元大模型在C端落地
在B端,腾讯旗下的SaaS协作产品全面接入混元。腾讯客服团队基于混元大模型升级智能客服体系,独创智能客服垂直领域精调模型,在智能对话的意图理解准确性和多轮问答流畅性方面,相比传统小模型下文准确性提升了38%。
腾讯广告基于混元推出了一站式AI广告创意平台腾讯广告妙思,助力提升广告生产及投放效率,其中图生图平均点击通过率提升15%。
▲混元大模型在B端落地
结语:打破AI“落地玻璃”,让大模型从可见变为可用
大模型技术已逐渐趋于成熟,但从“可见”到“可用”之间,仍有一定的距离。企业该怎么找到生成式AI落地的最优路径?从模型、平台、场景应用到算力基础设施的全链路战略是腾讯云交出的答卷。
正如汤道生所说,“大模型的打造只是起点,把技术落地到产业场景,创造价值才是目标”,打造大模型原生工具链,助力企业在知识服务、图像和视频创作上提质提效,“构建离产业最近的AI”才能让大模型发挥最大的价值。