智东西(公众号:zhidxcom)
编译 | 杨蕊伃
编辑 | 漠影

智东西9月12日消息,据VentureBeat报道,法国大模型独角兽Mistral AI昨日正式发布Pixtral 12B,这是该公司首个能够同时处理文本和图像的多模态大模型。

Pixtral 12B拥有120亿参数,大小约为24GB,该模型允许用户上传图像或提供图像链接,并能针对图像内容提出问题。

Mistral直接提供了一个磁力链接,用于下载新模型文件。目前Pixtral 12B模型尚未对公众开放网络使用,但其源代码已经可以在Hugging Face和GitHub上下载,方便用户在本地实例上进行测试。

磁力链接:Release v1.4.0 – Mistral common goes 🖼 · mistralai/mistral-common · GitHub

此外,Mistral开发者关系负责人Sophia Yang在社交平台X上发文透露,该模型将很快在Mistral的聊天机器人Le Chat和API平台Le platform上提供。

Mistral AI由前DeepMind研究员Arthur Mensch、前Meta员工Timothée Lacroix和前Meta员工Guillaume Lample于2023年4月共同创立。

据悉,Mistral在6月份筹集了6.45亿美元的资金,将其估值推高至60亿美元。

欧洲版OpenAI,法国独角兽推多模态大模型Pixtral 12B,源代码已开放下载

▲Mistral开发者关系负责人Sophia Yang在社交平台X上透露,Pixtral 12B将很快在Mistral的聊天机器人Le Chat和API平台Le platform上提供(图源:X截图)

一、Pixtral 12B模型能够原生支持任意图像:40层架构、14336个隐藏维度、32个注意力头

Pixtral 12B模型是Mistral AI的Nemo 12B文本模型的延伸,具备处理通过URL链接或base64编码提供的图像的能力。无论图像的数量或尺寸如何,Pixtral 12B都能够回答相关问题。

据悉,Pixtral 12B大小约为24GB,其架构包含40层、有14336个隐藏维度和32个注意力头,能够执行广泛的计算处理。

据TechCrunch报道,大多数生成式AI模型,包括Mistral的其他模型,都是基于来自网络的大量公共数据进行训练的,这些数据通常受版权保护。

尽管Pixtral 12B模型的官方细节和训练数据目前仍然保密,但其核心功能是允许用户分析图片,并将文本提示与图片结合起来进行综合处理。

这意味着用户可以上传图像或提供图像链接,并针对图像内容提出问题,Pixtral 12B将能够理解和回答这些问题。

发布Pixtral 12B对Mistral来说是首次尝试,但需要注意的是,其他竞争对手,如OpenAI和Anthropic,已经推出了具备图像处理功能的模型。

在X平台上,当被问及Pixtral 12B模型的120亿参数有何独特之处时,Mistral AI的开发者关系负责人Sophia Yang回答说:“该模型的特别之处在于它能够原生支持任意数量和任意尺寸的图像。

据外媒NewsBytes报道,该模型有望执行诸如为图像添加标题和计算照片中的对象等任务,类似于Anthropic的Claude家族和OpenAI的GPT-4o等其他多模态模型。

在视觉处理方面,该模型配备了一个专用的视觉编码器,不仅能处理1024×1024分辨率的图像,还具备24个隐藏层以支持高级图像处理功能。

二、Mistral被誉为“欧洲版OpenAI”,其Large 2模型支持80多种编程语言

Mistral AI成立仅一年多,就因为其在AI技术上的影响力,被业界称为“欧洲版OpenAI”。

目前,Mistral已经与Microsoft、AWS和Snowflake等行业巨头建立了合作关系,以扩大其技术的覆盖范围。

Mistral开发者关系主管Sophia Yang称,Pixtral 12B将很快在Le Chat和Le Platforme上推出

La Platforme是Mistral AI提供的一个服务平台,它提供三个聊天端点,mistral-tiny、mistral-small和mistral-medium,这些端点能够根据文本说明生成文本。

除聊天端点外,该平台还提供了一个嵌入端点Mistral-embed。该端点具有1024维度的嵌入模型,专为检索功能设计,在MTEB上达到了55.26的检索得分,适合需要进行文本相似性分析和数据检索的应用场景。

此外,在Pixtral 12B发布的几个月前,Mistral就已经推出了Mistral Large 2模型。

Mistral Large 2具有1230亿参数和128k的上下文窗口,支持包括中文、英语、法语、德语、西班牙语、意大利语、俄语、日语和韩语在内的多种语言,以及80多种编程语言

这款GPT-4级别的模型不仅具备先进的多语言处理能力,还在推理、代码生成和数学性能方面实现了显著提升。

此外,该公司还推出了多个先进模型,包括具有专家混合架构的Mixtral 8x22B、开放权重编码模型Codestral(参数规模达22B),以及专为数学推理和科学发现设计的专用模型。

结语:Pixtral 12B输出不受限制,确切性能有待考究

随着Pixtral 12B的推出,Mistral将进一步拓展视觉应用程序的访问渠道。

虽然该开放模型的确切性能尚待验证,但这一举措延续了Mistral在AI领域所采取的积极策略。

TechCrunch援引知情人士称,Pixtral 12B模型可以在Apache 2.0许可下进行微调和使用。这意味着该模型的输出可以不受限制地用于个人或商业用途。

作为欧洲AI领域的新星,Mistral AI正以其独特的商业模式和开放策略,迅速崛起为全球AI竞赛中的重要参与者,其未来发展值得我们持续关注。

来源:VentureBeat、TechCrunch、NewsBytes