清华系出手！全球第一款端侧全模态理解模型开源

智东西（公众号：zhidxcom）
编辑 | Panken

智东西12月16日报道，今日，清华系AI Infra创企无问芯穹正式开源端侧解决方案中的全模态理解小模型Megrez-3B-Omni，并同步开源其纯语言模型版本Megrez-3B-Instruct。

Megrez-3B-Omni为端侧而生，选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，单模态版本的推理速度最大领先同精度模型300%。

该模型同时具备图片、音频、文本三种模态数据的处理能力，并在三个模态的多种测评基准中取得了同尺寸下最优性能。

其多模态能力可灵活切换，响应非常迅速。比如先随手拍张单据照片发给它，问“6个人AA人均多少钱”，再语音输入让它写个诙谐文案催大家交钱，它能立即按要求出稿。

▲Megrez-3B-Omni可实现在语音、图像、文本多个模态之间自由切换

和同样三模态的VITA（based on Mixtral 8×7B）、Baichuan-Omni-7B ，双模态的MiniCPM-V 2.6（based on Qwen2-7B）、Qwen2-VL-7B、Qwen2-Audio-7B，以及单一模态的Qwen、Baichuan等模型相比，Megrez-3B-Omni在主流基准测试集上的表现都不逊色。

Megrez-3B-Instruct还提供了WebSearch功能，支持调用外部工具进行网页搜索。

无问芯穹成立于2023年5月，由清华大学电子工程系教授、系主任汪玉教授发起，汪玉的第一任博士毕业生夏立雪担任联合创始人兼CEO。其技术团队源起于清华大学电子工程系NICS-EFC实验室，在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验，擅长模型轻量化、软硬件协同优化。

该公司以“释放无穹算力，让AGI触手可及”为使命，致力于成为大模型时代首选的“算力运营商”。百度、智谱AI、联想、小米、软通高科等知名企业均是无问芯穹的投资方。

今年9月，无问芯穹CEO夏立雪、无问芯穹战略运营SVP王梦菲在与智东西等媒体交流时透露，该公司今年已有一些规模化收入，主要来自销售算力，明年会进一步扩大市场份额。其端侧大模型推理处理器LPU将以IP形式，与合作伙伴做联合的芯片发布，计划明年有一些落地尝试。经其内部测算，无问芯穹预计将在3到5年内实现盈利。

作为无问芯穹“端模型+端软件+端IP”端上智能一体化解决方案的重要构成，无问芯穹认为要实现端侧AGI，像Megrez-3B-Omni这样的全模态理解模型是必不可少的一环。

无问芯穹称Megrez-3B-Omni是一个能力预览，接下来将持续迭代Megrez系列，提升自动化水平至“edge device use”效果，让用户只需要给出简单的语音指令，就可完成端设备的设置或应用操作，并将它作为“端模型+端软件+端IP”端上智能一体化解决方案的重要构成推向市场。

无问芯穹Github、HuggingFace主页以及Modelers魔乐、ModelScope魔搭等社区均可获取Megrez-3B-Omni及其大语言模型版本。无问芯穹Infini-AI异构云平台上可获取大语言模型版本的API或直接在线体验。

Github地址：https://github.com/infinigence/Infini-Megrez
HuggingFace地址：https://huggingface.co/Infinigence/Megrez-3B-Omni
Infini-AI异构云地址：https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr