谷歌推出Gemini 1.5 Pro公共预览版!支持本地音频理解,开源Gemma变种也来了

智东西(公众号:zhidxcom)
作者 | 长颈鹿
编辑 | 李水青

智东西4月12日报道,4月9日,谷歌面向180多个国家/地区推出公开预览版的Gemini 1.5 Pro,它具有首个原生音频(语音)理解功能和新的文件API,可轻松处理文件。

不到两个月前,谷歌在Google AI Studio中推出Gemini 1.5 Pro模型,供开发人员试用。该模型在长语境理解方面取得突破,能持续运行多达100万个tokens,相当于可一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。现在这些能力都将对外开放,同时谷歌还推出系统指令和JSON模式等新功能,助开发人员加强模型输出控制。

同日,谷歌宣布Gemma开源模型系列增员,推出用于代码生成等任务的CodeGemma,以及用于研究实验的效率优化架构RecurrentGemma。这是自今年2月谷歌推出Gemma之后该系列的首次更新。

一、Gemma的两个变体模型:一个智能编写代码,一个提高处理效率

Gemma家族迎来了两个新成员,均为研究人员提高效率而设计的模型。一个是用于为开发人员和企业提供代码生成服务的CodeGemma,它可以帮助开发人员完成代码、生成代码片段,并且还能提供与代码相关的交流和支持,这些功能可以应用于开发过程中的各种场景和任务。

另一个是用于从事实验研究的效率优化架构RecurrentGemma,这意味着在处理数据时,这个模型可以更有效地利用计算资源,提高处理速度和效率。此外,谷歌还更新了Gemma自身的升级和使用协议。

1.CodeGemma:面向开发人员和企业的代码编写、生成和对话的语言模型

基于开源大模型Gemma,CodeGemma为社区带来了更高性能且轻量化的编码功能。CodeGemma模型有专门用于代码补全和代码生成任务的7B预训练模型变体、用于代码聊天和指令跟踪的7B指令微调变体模型,以及适用于本地电脑的用于快速代码补全的2B预训练模型变体。

CodeGemma模型有以下几个优势:

(1)智能代码的完成和生成:无论本地工作还是利用云资源,CodeGemma都能生成代码行、函数,甚至整个代码块。

(2)更高的准确性:CodeGemma模型从网络文档、数学和代码的5000亿个英语数据为基础进行训练,生成的代码在语法和在语义上更为准确,有助于减少调试时间。

(3)精通多种语言:能够适用于Python、JavaScript、Java和其他流行语言。

(4)简化工作流程:将CodeGemma模型集成到您的开发环境中,从而减少模板的编写,更快地专注于重要的代码。

谷歌推出Gemini 1.5 Pro公共预览版!支持本地音频理解,开源Gemma变种也来了▲CodeGemma与其他类似模型在单行和多行代码完成任务方面的性能比较(来源:谷歌)

2.RecurrentGemma:为研究人员提供更高效、更快速的批量推理

RecurrentGemma是一种新型技术模型,它通过递归神经网络和局部注意力来提高内存效率。

在实现与Gemma 2B模型类似的基准分数性能的同时,RecurrentGemma的独特架构带来了多项优势:

(1)降低内存使用率:较低的内存需求允许在内存有限的设备(如单GPU或CPU)上生成较长的样本。

(2)更高的生产能力:由于降低了内存使用率,RecurrentGemma可以通过更高的批量大小执行推理,从而每秒生成更多的文本(尤其是在生成长序列时)。

(3)研究创新:RecurrentGemma是一种新型的模型,它虽不是基于Transformer架构,但在性能上表现出色,凸显了深度学习领域的研究正在不断取得进步。

谷歌推出Gemini 1.5 Pro公共预览版!支持本地音频理解,开源Gemma变种也来了▲RecurrentGemma与Gemma在采样速度的比较(来源:谷歌)

两个新的变体模型继承了Gemma的基础结构和特性,并且在此基础上进一步增加了更多能力。具体能力为:

(1)开放可用性:与原始的Gemma模型一样,新模型变体也具有开放的可用性,这鼓励创新和合作,任何人都可以使用它,并且具有灵活的使用条款。

(2)高性能和高效能:新模型变体具有高性能和高效能,通过针对特定领域的代码专业知识和优化设计,使得模型的完成和生成速度非常快。

(3)负责任的设计:这些模型遵循负责任的AI原则,以确保模型能够提供安全可靠的结果。

(4)灵活适用于各种软件和硬件:CodeGemma和RecurrentGemma都是使用JAX构建的,并与JAX、PyTorch、Hugging Face Transformers和Gemma.cpp兼容。这使得模型能够在本地进行实验,并在包括笔记本电脑、台式机、NVIDIA GPU和Google Cloud TPU等各种硬件上进行成本效益高的部署。

此外,CodeGemma还与Keras、NVIDIA NeMo、TensorRT-LLM、Optimum-NVIDIA、MediaPipe等兼容,并可在Vertex AI上使用。RecurrentGemma会在未来几周内同样支持上述所有产品。

3.三种方法,使用Gemma模型变体

这些首批Gemma模型变体可在全球多个地方使用,从9号开始在Kaggle、Hugging Face和Vertex AI Model Garden上使用。谷歌提供了三种Gemma模型变体的使用方法:

(1)获取模型:访问Gemma网站、Vertex AI Model Garden、Hugging Face、NVIDIA NIM APIs或Kaggle,按照下载说明获取模型。

(2)探索集成选项:查找用于将模型集成到您喜爱的工具和平台的指南和资源。

(3)进行实验和创新:将Gemma模型变体添加到您的下一个项目中,并探索其能力。

这些指导旨在帮助用户开始使用Gemma模型,并将其整合到他们的工作流程中,以实现更高效的工作和更好的成果。

二、Gemini 1.5 Pro开放使用,支持本地语音和视频理解

本月9日,谷歌将在180多个国家和地区通过Gemini API公开预览版提供Gemini 1.5 Pro,并首次提供本地音频理解功能和新的文件API以方便处理文件。此外,谷歌还将推出系统说明和JSON模式等新功能,让开发人员能够更好地控制模型输出。最后,谷歌将发布下一代文本嵌入模型,使其性能优于同类模型。

Gemini 1.5 Pro的有以下两大新功能扩展:

1.音频模态支持:Gemini 1.5 Pro现在可以在Gemini API和Google AI Studio中实现对音频的理解,这意味着用户可以通过语音输入来与Gemini进行交互。

2.视频理解:Gemini 1.5 Pro现在可以同时处理视频中的每一帧图像和音频内容,并从中提取有用的信息。未来,谷歌还计划为此添加API支持,以便用户可以在自己的应用程序中利用这一功能。

Gemini API有以下三项政策方面的改进:

1.系统说明:用户现在可以通过系统说明来引导模型的响应,这一功能在Google AI Studio和Gemini API中都可用。用户可以为其特定的使用案例定义角色、格式、目标和规则,以指导模型的行为。

谷歌推出Gemini 1.5 Pro公共预览版!支持本地音频理解,开源Gemma变种也来了

▲能够轻松的在谷歌AI Studio在设置系统指令(来源:谷歌)

2.JSON模式:用户可以指示模型仅输出JSON对象,这种模式可以从文本或图像中提取结构化数据。该模式目前仅支持通过cURL实现,未来即将推出Python SDK。

3.函数调用的改进:用户现在可以选择模式来限制模型的输出,从而提高可靠性。用户可以在与模型交互时选择文本、函数调用或函数本身。

从9日起,开发人员将能够通过Gemini API访问谷歌的新一代文本嵌入模型。这个新模型名为text-embedding-004(在Vertex AI中称为text-embedding-preview-0409),在MTEB基准测试中取得了更强的检索性能,并优于现有可比模型。

谷歌推出Gemini 1.5 Pro公共预览版!支持本地音频理解,开源Gemma变种也来了▲在 MTEB 基准测试中,使用256维输出的”Text-embedding-004″(又名Gecko)优于所有较大的768维输出模型(来源:谷歌)

谷歌实验室称这些是Gemini API 和Google AI Studio未来几周内的第一批改进,未来还将持续优化更多。

结语:开源闭源两手抓,谷歌加快落地大模型

无论是开源的大语言模型Gemma还是多模态大模型Gemini的改进,于同类模型而言都有着领先的功能特征。不断优化开源大模型彰显着谷歌在AI领域的技术实力,同时也为整个行业提供了重要的技术资源和参考;闭源大模型成员的增添,意味着对开发环境进行了大幅优化,以便考虑到技术研究人员的需求。

谷歌强调大模型的实用性以及输出的准确性,它还期望一个能共同塑造由人工智能驱动的内容创作和理解的未来,为推动人类AI技术的发展和应用做出了一份努力。