
智东西(公众号:zhidxcom)
编译 | 陈骏达
编辑 | Panken
智东西2月13日报道,春节期间,DeepSeek一跃成为全球科技界的顶流,从媒体头条到巨头财报都有其身影。AI界声量最大的播客节目之一Lex Fridman Podcast也发布了一期长达5小时的深度播客,花费大量篇幅讨论了DeepSeek对全球AI发展趋势的影响及其技术优势。
节目嘉宾分别为半导体行业咨询公司SemiAnalysis创始人Dylan Patel与艾伦人工智能研究院研究科学家Nathan Lambert。
Lambert将DeepSeek在强化学习上的突破称为“DeepSeek时刻”。针对OpenAI对DeepSeek抄袭的指控,Lambert特别强调DeepSeek-R1不太可能窃取了OpenAI o1的推理链数据,而是通过基于强化学习的“试错”型学习模式,让模型自然涌现出了推理能力。
两位嘉宾还详细拆解了DeepSeek的技术优势。DeepSeek创新的MLA机制与初代注意力机制相比,内存使用降低了80%-90%。DeepSeek还通过对MoE架构路由机制的创新,提升了专家模型的使用效率,实现降本增效。
参与对谈的三人都对DeepSeek的开源模式深表赞同,Lambert称其为“真正的开源”,而Fridman则夸赞其技术报告详尽,具备较好的可操作性,是开源界的一股积极力量。本地运行开源模型还能更好地保护用户隐私数据。
计算资源方面,Patel认为DeepSeek在全球名列前茅,仅次于OpenAI、Anthropic、Meta等少数几家公司,可能拥有50000张左右GPU。这一数字虽然与国际巨头动辄10万卡量级的储备有一定差距,但巨头们还需要将这些算力分配给其他业务。
因完整节目过长,智东西特别整理出访谈中几位嘉宾关于DeepSeek值得关注的五大观点,供大家参考:
一、DeepSeek的贡献:最开放的前沿模型之一,推动AI知识普及
1、DeepSeek-R1上线后立即开源,并特别采⽤了宽松的MIT许可证,没有对商用和具体用例进行限制,这也意味着其他开发者可以使用这款模型输出合成数据,训练高质量模型。
2、虽然Llama也开源了权重,并附带技术报告,但DeepSeek的技术报告可操作性更强,也披露了更多的训练细节,还包括开发过程中遇到的困难,可能是⽬前最开放的前沿模型之⼀。
3、DeepSeek团队推动了AI知识的普及,他们的论文详细披露技术细节,连失败的经验都悉数分享,为全球其他团队改进⾃身训练技术提供了切实可⾏的参考。
4、能通过优化芯片底层代码,实现高效训练的人才屈指可数,DeepSeek就拥有此类人才。从全球范围来看,这种人才只存在于美国的前沿实验室和DeepSeek这样的企业。
5、模型本身并不会窃取数据,模型的托管方才有可能窃取数据。DeepSeek的开源意味着用户不必联网使用AI服务,对自己的数据有完全的掌控权。
6、梁文锋是一位马斯克、黄仁勋式的人物,他事必躬亲,深入研究AI技术;他坚信AGI(通用人工智能)的愿景,并希望让中国在AI⽣态系统建设⽅⾯发领导作⽤,是DeepSeek背后的“梦想家”。
7、DeepSeek-R1在海外引发担忧,本质上是因为其提出了新的模型训练方向。AI技术惊人发展,未来更多类似的突破还会出现,目前虽然有很多人在关注Agent,但AI的未来不止于此。
8、模型表现得好就应该尽快发布,由于AI发展迅猛,企业最好能缩短模型训练完成到正式发布之间的时间差距。如果运行良好,就尽快发布,这能提升用户对产品性能提升的感知。DeepSeek在这方面做得更好。
二、模型特点:推理能力靠自学,大方展示思维链
1、DeepSeek-R1的亮点之一是会展示完整思维链,模型的思考过程本身能提供一种独特的美感。o1-pro在许多问题上的表现仍然比较亮眼,o3-mini-high聪明快速但平庸,缺乏新意与深度。
2、DeepSeek-V3倾向于快速生成答案,通常会以格式化的方式呈现,与大部分AI模型类似。DeepSeek-R1会先呈现大量思维链过程,然后转变语气,给出最终答案,答案的形式与V3类似。
3、OpenAI与DeepSeek的服务成本差异巨大,这是因为前者的利润率很高,毛利超75%。DeepSeek其实是在赔钱运营,目前还没有能力大规模提供服务。
4、DeepSeek-R1的推理能力不太可能是因为他们窃取了OpenAI o1的推理链数据。即便DeepSeek真如OpenAI指控的那样蒸馏了模型,也在效率方面实现了令人惊叹的成就。
5、DeepSeek-V3与DeepSeek-R1都使用了DeepSeek-V3 base作为基础模型。这一基础模型在预训练阶段,通过预测互联网上海量文本中的下一个词语,学习了语言的通用规律。其主要功能是续写文本,但并不像主流的聊天机器人那样易于使用。
6、DeepSeek-V3采用的后训练流程,通过指令调优、基于人类反馈的强化学习(RLHF)等方法,构建出了指令模型、聊天模型或者所谓的“对齐模型”、“助手模型”等。DeepSeek-V3的性能出色,可以与GPT-4、Llama 405B等模型媲美。
7、DeepSeek-R1-Zero没有使用人工撰写的推理数据作为参考,而是运用了强化学习的方式,让模型自己在大量已有标准答案的可验证问题上进行训练,并根据答案的正确性给予模型奖励,从而让模型自发地涌现出了推理能力。
8、DeepSeek-R1完整版的推理能力是预训练语言模型和强化学习结合的产物。在推理训练之后,进行了基于人类反馈的强化学习。
三、技术突破:MoE架构、降低成本、底层优化
1、DeepSeek创新的多头注意力机制在长上下文的处理过程中有很大优势。与初代注意力机制相比,这一创新能让注意力机制的内存占用减少大约80%-90%。
2、DeepSeek显著改进了专家混合模型(MoE)的路由机制,并引⼊了⼀个额外的参数,通过不断更新这个参数,积少成多,最终让模型能更均衡地使⽤所有专家。
3、为实现性能的最大化,DeepSeek进行了CUDA层以下的超底层编程优化,精细地控制哪些核心负责模型计算、哪些核心负责通信,并在两者之间进行动态切换。
4、通常的MoE模型只包含8-16个专家模型,每次激活两个模型,但DeepSeek采用了极高的稀疏因子,并从256个专家模型中激活8个,减少了激活参数的规模,从而让成本更低。
四、训练启发:不断小规模试错,但也要有All-in的勇气
1、“苦涩的教训”:在深度学习领域,那些具有可扩展性的学习和搜索⽅法最终会胜出,研究人员最好减少人为先验知识的影响,探索有效利用深度学习系统,解决宏大问题的简单方法。DeepMind没有使用人为数据,凭借强化学习就训练出了强大的AlphaZero模型,有效证明了上述观点的正确性,而DeepSeek-R1在推理能力上实现的进步,也源自强化学习。
2、DeepSeek的代码库很可能比较混乱,用于测试各种新想法。初期代码比较粗糙,但用于训练DeepSeek-V3和DeepSeek-R1的代码质量会比较高。
3、DeepSeek通过大量小规模的失败,逐渐积累经验,证明了专家混合模型的有效性、MLA方案的可行性等,最终找到超参数成功组合。这一过程中需要不断试错。
4、在试错到一定阶段时,开发者也需要发挥YOLO精神(即You Only Live Once,只活一次,大胆去做),将全部资源押注于一条路径上。DeepSeek早期几乎赌上全部资源,正如OpenAI 2022年用公司100%的资源训练GPT-4那样,都是极为大胆的举措。
五、计算资源:集群规模全球领先,与幻方共享基础设施
1、幻方量化在2021年时就对外界宣称拥有万卡A100集群,虽然这些模型并不全部应用于大语言模型训练。后期DeepSeek成立后他们持续购⼊更多的GPU,并与幻方量化共享基础设施。DeepSeek论文中提到V3模型训练时用了2000个H800 GPU,但SemiAnalysis认为他们实际拥有的GPU数可能接近50000个,但分布于多个领域。
2、Meta同样训练开源模型,他们的训练集群拥有约60000-100000个H100等效GPU,Llama 3训练时使用了16000个H100 GPU,Meta去年披露其总计购买了40多万个GPU,其中仅有很小一部分用于模型训练。从这一角度来看,DeepSeek的集群规模在全球范围内名列前茅,仅次于OpenAI、Anthropic、Meta等少数几家公司。
3、无论将超级AI应用于哪里,都需要大量计算能力,计算资源差距累积效应对美国至关重要。如果未来世界只有2%-3%的经济增长,那维持芯片这样的高科技产品出口是很愚蠢的,会损失大量经济利益。但在超级AI即将出现,并产生重大影响的背景下,美国单方面维持技术差距是有利可图的。随着AI对算力的需求呈指数级增长,即便是DeepSeek这样的中国企业也会在大规模普及AI的过程中遇到困难。
六、DeepSeek或将开启一场AI冷战
1、AGI可能会在2030年之后实现,未来⼏年会持续出现快速、令⼈惊讶的进展。DeepSeek-R1就是这一进程中的一个最新进展。
2、AGI竞赛不会是“赢家通吃”的局面,目前AI领域的各大玩家都还在牌桌上,谷歌仍是AGI竞赛的领跑者,OpenAI则更具有舆论优势,微软已经在AI方面实现盈利。
3、DeepSeek的出现让中美双方都更为直接地感受到AGI的影响。DeepSeek时刻很可能是⼀场冷战的开始,但这不是DeepSeek的错,⽽是⼀些因素共同作⽤的结果。
视频链接:
https://www.youtube.com/watch?v=_1f-o0nqpEI