智东西8月7日消息,据智源研究院微信公众号今日发文,为加快解决大模型的制约问题,近日,智源发布最强开源可商用中英文语义向量模型BGE(BAAI General Embedding),在中英文语义检索精度与整体语义表征能力均超越了社区所有同类模型,如OpenAI 的text embedding 002等。此外,BGE保持了同等参数量级模型中的最小向量维度,使用成本更低。将LangChain与智源BGE结合,可以轻松定制本地知识问答助手,而不需要花较高的成本训练垂类大模型。
本次BGE模型相关代码均开源于FlagOpen飞智大模型技术开源体系旗下FlagEmbedding项目,一个聚焦于Embedding技术和模型的新版块。智源研究院将持续向学术及产业界开源更为完整的大模型全栈技术。
同时,鉴于当前中文社区缺乏全面的评测基准,智源团队发布了当前最大规模、最为全面的中文语义向量表征能力评测基准C-MTEB(Chinese Massive Text Embedding Benchmark),包含6大类评测任务和31个数据集,为评测中文语义向量的综合表征能力奠定可靠的基础,全部测试数据以及评测代码已开源。
BGE模型链接:https://huggingface.co/BAAI/
BGE代码仓库:https://github.com/FlagOpen/FlagEmbedding
C-MTEB评测基准链接:https://github.com/FlagOpen/FlagEmbedding/tree/master/benchmark