阿里通义Qwen2成斯坦福榜单最强开源大模型

智东西6月20日消息，斯坦福大学的大模型测评榜单HELM MMLU发布最新结果。斯坦福大学基础模型研究中心主任Percy Liang发文称，阿里巴巴的通义千问开源模型Qwen2-72B排名第5，仅次于Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4，是排名第一的开源大模型，也是排名最高的中国大模型，性能超越Llama3-70B模型。通义千问Qwen2于6月初开源，包含5个尺寸的预训练和指令微调模型，目前Qwen系列模型下载量已经突破1600万。

斯坦福大学基础模型研究中心（CRFM，Center for Research on Foundation Models）提出的基础模型评估框架HELM（A holistic framework for evaluating foundation models），旨在创造一种透明、可复现的评估方法。该方法基于HELM框架，对不同模型在MMLU上的评估结果进行标准化和透明化处理，从而克服现有MMLU评估中存在的问题。比如，针对所有参评模型，都采用相同的提示词；针对每项测试主题，都给模型提供同样的5个示例进行情境学习，等等。