智东西(公众号:zhidxcom)
作者 | 李水青 香草
编辑 | 云鹏

智东西8月14日消息,北京时间今天下午,马斯克的大模型创企xAI推出二代模型Grok-2测试版,包括Grok-2和Grok-2 mini两个版本。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

马斯克在自家社交平台X上激情发文,揭开Grok-2在Lmsys大模型竞技场上的“马甲”——sus-column-r

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

他转发Lmsys的推文称:“Grok是火箭速度”。sus-column-r在排行榜上获得了超1.2万投票,表现优于Claude 3.5 Sonnet和GPT-4-Turbo,与GPT-4o并列第三名

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

在GPQA、MMLU、MMLU-Pro、MATH、MathVista等多项测评中,Grok-2的得分都超过了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5等主流模型,但仍不敌GPT-4o。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

目前,X Premium及Premium+用户现可体验Grok-2与Grok-2 mini,智东西第一时间进行了实测体验。

一番体验下来,Grok-2给我最明显的感受是逻辑非常清晰。例如在下面这个实例中,Grok-2和GPT-4o虽然都给出了正确答案,但前者每一步的步骤和计算都很明了,更容易读懂。此外,Grok-2的文生图能力在FLUX.1的加持下直线飞升,并且保留了其一如既往的“大胆”风格。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

xAI还计划在本月稍晚时候,推出Grok-2两个版本的企业API。

体验地址:https://lmarena.ai/?model=sus-column-r

一、性能赶超GPT-4多个版本,视觉与逻辑能力变强

在LMSYS聊天机器人竞技场,Grok-2的早期版本sus-column-r参与了测评,它总体Elo得分表现超越了Claude和多个GPT-4版本

如下图所示,Grok-2的得分超越了7月18日版的GPT-4o-mini、4月9日版的GPT-4-Turbo,但得分仍低于8月8日版的ChatGPT-4o-latest、5月15日版的GPT-4o。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

▲Grok-2早期版本sus-column-r的Elo得分情况

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

▲Grok-2与其他主流模型的胜率比较

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

▲Grok-1.5与Grok-2两个版本基于事实性的胜率比较

在内部,xAI团队遵循类似的流程来评估模型,评估重点集中在模型的两个核心能力上:一是遵循指令的精准度,二是提供信息的准确性和真实性

值得一提的是,Grok-2在推理分析检索内容使用工具方面取得了显著进步,比如它能准确识别缺失信息,通过事件序列进行逻辑推理,并有效剔除无关帖子。

在基准测试上,团队采用了一系列涵盖推理、阅读理解、数学、科学和编码等领域的学术基准,对Grok-2模型进行了全面评估。

结果显示,Grok-2及其简化版Grok-2 mini相比前代Grok-1.5模型均有显著提升。

在研究生级别的科学知识(如GPQA)、常识问答(如MMLU、MMLU-Pro)以及数学竞赛题(如MATH)等领域,它们的表现已可与其他顶尖模型一较高下。

如下图所示,Grok-2在这些所有的测评中得分都超过了GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5,但仍打不过GPT-4o

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

值得一提的是,Grok-2在视觉任务上表现出色,特别是在视觉数学推理(MathVista)基于文档的问答(DocVQA)方面表现尤为出色。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

▲Grok 2视觉能力应用案例

二、Grok-2已上线X平台,一手实测:文生图直线飞升、逻辑推理更加清晰

X订阅用户现在可以使用Grok-2和Grok-2 mini,非订阅用户也可以在大模型竞技场中,免费体验Grok-2的早期版本模型sus-column-r。

大模型竞技场中还有GPT-4o等共62个模型可供选择,为了方便对比,我们先来测试一下这个早期模型。

首先是前段时间让一众模型翻车的比大小问题:13.11和13.8哪个大。Grok-2和GPT-4o都准确回答,不过Grok-2的思考过程更清晰,列出了详细的思考步骤。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

在另一个经典问题“Strawberry中有几个r”上,Grok-2一开始答错了,但换成用英文提问后又给出了正确答案,GPT-4o则是中英文都回答正确。看来大模型还是会存在碰运气的成分。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

大模型竞技场中的模型没有实时联网,当我询问“谷歌刚发的Pixel 9有什么亮点”,两款模型都称自己还未掌握这一信息。随后Grok-2根据技术发展趋势和Pixel以往的特点给出了预测,有一说一猜得还挺靠谱,摄像、处理器、AI等都是谷歌这次更新的重点。

GPT-4o则没有给出预测,而是总结了Pixel手机以往的亮点。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

在代码能力上,两款模型的表现不相上下,针对需求都给出了详细的解决步骤以及完整的代码。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

逻辑推理方面,Grok-2再一次展现了逻辑的清晰性,每一步的推理都分了小标题。GPT-4o虽然也回答正确,但思考步骤不够清晰。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

文生图能力是Grok-2此次更新的一大重点,其接入的FLUX.1模型,最近凭借强大的性能在开源社区十分火爆。不过图像生成能力在大模型竞技场体验不到,只能通过X订阅实现。

网友们已经在Grok-2文生图上玩出了花,比如利用其文本生成的能力,帮Grok-2开一场线下发布会。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

或是发挥想象力,让马斯克在火星上开车。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

而基于Grok一贯以来几乎为零的审查制度,不少网友玩起了梗,比如让特朗普开枪、让小布什吸可卡因……

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

又或是让特朗普坐上SpaceX的火箭上天。而面对同样的要求,GPT-4o拒绝得非常果断。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

Grok的审查制度究竟有多不加掩饰呢,有网友测试了让大模型“按种族排出智商前10位”,只有Grok-2毫不犹豫地给出了回答,ChatGPT、Claude直接拒绝,Gemini则展开了苦口婆心的教育。

马斯克又搅局!新大模型单挑GPT-4o,啥都敢聊,网友玩疯,一手实测来了

总的来看,Grok-2仍然贯彻了其一直以来的大胆风格,同时在模型性能上与GPT-4o等头部模型不相上下,逻辑更加清晰,多模态能力更是在FLUX.1的加持下直线飞升。

三、月底推出企业API平台,无缝集成企业系统

本月末,xAI将通过全新的企业API平台,正式向开发者推出Grok-2及Grok-2 mini。

这款API将采用全新定制的技术架构,支持多区域推理部署,为全球用户提供低延迟的流畅体验。

同时,xAI强化了安全功能,包括强制性的多因素身份验证(如Yubikey、Apple TouchID或TOTP),并提供了详尽的流量统计数据和高级计费分析服务,支持数据导出。

此外,xAI还特别推出了管理API,支持将团队、用户及计费管理等功能,无缝集成至现有的内部工具和服务中。

结语:Grok-2与X平台联动更深,OpenAI等压力大了

Grok-2和Grok-2 mini现已在X平台上线,比如增强的搜索体验、X帖子的深度解析、优化回复功能都比较令人期待。不久后,xAI还将发布多模态理解功能的预览版。

自2023年11月Grok-1问世以来,xAI在技术、产品及融资方面一路高歌猛进,Grok-2的推出是其新的里程碑。一旦马斯克将Grok大模型能力与X平台的强大内容用户生态连接,形成闭环,包括OpenAI在内的大模型创企的压力都更大了。