欢迎来智东西
登录
免费注册
我的订阅
关注我们
智东西
车东西
芯东西
智猩猩
阿里通义Qwen2成斯坦福榜单最强开源大模型
2024-06-20
智东西
11
智东西6月20日消息,斯坦福大学的大模型测评榜单HELM MMLU发布最新结果。斯坦福大学基础模型研究中心主任Percy Liang发文称,阿里巴巴的通义千问开源模型Qwen2-72B排名第5,仅次于Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4,是排名第一的开源大模型,也是排名最高的中国大模型,性能超越Llama3-70B模型。通义千问Qwen2于6月初开源,包含5个尺寸的预训练和指令微调模型,目前Qwen系列模型下载量已经突破1600万。
斯坦福大学基础模型研究中心(CRFM,Center for Research on Foundation Models)提出的基础模型评估框架HELM(A holistic framework for evaluating foundation models),旨在创造一种透明、可复现的评估方法。该方法基于HELM框架,对不同模型在MMLU上的评估结果进行标准化和透明化处理,从而克服现有MMLU评估中存在的问题。比如,针对所有参评模型,都采用相同的提示词;针对每项测试主题,都给模型提供同样的5个示例进行情境学习,等等。
阿里