智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智东西7月3日报道,在2026亚马逊云科技中国峰会期间,作为国内大模型企业代表,月之暗面Kimi B端负责人黄震昕分享了与亚马逊云科技的合作进展,并透露月之暗面“提供给研发人员的是行业内最高的人均算力支持”,“C端用户和B端企业业务在今年增长都非常快”,希望在探索智能上限的征途中“能和海外那三家模型掰一掰手腕”。
他谈道,月之暗面和亚马逊云科技之间是一个飞轮式的合作:月之暗面一方面会从给亚马逊云科技采购全球的云基础设施等服务;另一方面,也借助亚马逊云科技的渠道来服务全球企业。
“亚马逊云科技的品牌和合规在海外全球做得非常好,我们也希望通过和亚马逊云科技的合作,能让我们的收入迎来一个增长更快的、更好的上升曲线。”黄震昕说。
一、四层合作,实现全球协同效应
月之暗面与亚马逊云科技的合作覆盖从基础设施层到应用层,具体包括:

1、基础设施层
Kimi借助亚马逊云科技遍布全球的数据中心和网络基础设施扩展全球业务。亚马逊云科技为Kimi提供了稳定可靠的算力等基础设施支持,确保模型运行得又快又稳。
2、平台服务层
Kimi多个模型现已登陆亚马逊云科技的Amazon SageMaker , 让更多开发者可以进行其模型的训练与推理,大幅降低使用门槛。
同时,亚马逊云科技 Amazon Bedrock已接入Kimi K2.5等开源模型,未来Kimi正在积极推进接入更多最新模型,让用户无需自行管理基础设施或单独部署服务器就能使用Kimi模型。
在这种情况下,Kimi将直接使用亚马逊云科技的算力,跑在亚马逊云科技的Gateway网关上,为亚马逊云科技的客户提供推理服务。
3、业务合作层
Kimi官方API已登陆亚马逊AWS Marketplace,直接触达全球数百万活跃企业客户。全球客户可以通过该数字软件市场简化采购流程,实现一键使用、按量付费与零门槛接入。
黄震昕透露,当前全球大模型处于供不应求的硬件紧缺状态,Kimi会有一定的TPM(每分钟 Token 配额)限制,对渠道供给有所侧重。目前,对于新上线的亚马逊云科技 Marketplace 渠道,Kimi会提供重点资源倾斜,保障其拥有充足、稳定的TPM供给。
同时,借助APN合作伙伴网络,Kimi正在快速拓展企业客户。
4、垂直行业层
Kimi与亚马逊云科技的解决方案架构师联合打造行业解决方案,已覆盖金融、医疗、制造等垂直行业场景。Kimi提供核心大模型,亚马逊云科技发挥其丰富的行业经验与客户资源,共同将Kimi的能力无缝嵌入到企业的真实业务流程中。
二、B端业务比重增加,提供模型、API和产品
据黄震昕分享,月之暗面成立于2023年3月,致力于成为一家全球化的公司,希望让全球用户平等地获得AI赋能,在技术推广、开源、服务方面都是全球统一的。
他强调,月之暗面专注于生产力场景,不做娱乐场景,其愿景是要寻找能源转化成智能的最优解,探索智能上限的方式。
月之暗面的B端业务比重不断增加。面向企业级客户,Kimi依托亚马逊云科技的技术底座和全球基础设施,构建了一套完整的生产力赋能体系,包括模型层(K2.7 Code、K2.6、K2.5等基础模型)、服务层(丰富API供深度集成)、工具/产品层(Kimi Agent集群、Kimi Code、Kimi Claw 、Kimi Work等开箱即用的产品)。

黄震昕补充说,Kimi将视觉理解、Coding和Agent都合在一个模型上,在预训练阶段就将视觉数据和文本数据放在一起训练,使模型具备更广泛的是适配性。
例如,其Visual-to-Code功能可以把视觉动效直接用代码实现出来。月之暗面近期与字节Trae合作推出的Visual Debug功能,允许程序员录屏截图标注bug,以便模型快速修复。
很多程序员习惯抛张图或录屏,让模型去debug。黄震昕总结道,Kimi在这种“图片+Coding”混合场景中有明显的领先优势。
企业内还是需要有最后一公里的服务。因此,Kimi也在积极部署FDE(Forward Deployed Engineer)的合作伙伴,能在其模型基础上给客户做端到端交付。
三、预测大模型服务价格趋势,拆解智能体三大技术创新
谈及近期的大模型服务价格波动,黄震昕认为,今年模型普遍涨价的核心原因是算力成本在全球范围内都在上涨,都跟不上token需求的增长。
他对价格趋势有两点判断:首先,用户对于最高性能的token需求是有溢价支付意愿的;其次,虽然由于芯片荒和算力成本上升导致成本在涨,但模型厂商也在通过Cache优化、推理优化等技术努力,将token的实际成本往下拉。所以目前在成本和技术优化两端,是有“两股力量在同时做功”。
“只要给客户提供了性价比更高、更强的模型,即便价格有波动,客户整体的体验和性价比其实是大幅提升的。”黄震昕说,Kimi希望做最高性能的模型,而不是最便宜的模型,但也希望给终端用户提升性价比,降低使用成本。
月之暗面的团队很精简,仅有300多人,不仅做模型效率优化,还专注于底层创新,致力于解决Scaling Law里遇到的卡点。
在技术创新方面,Kimi围绕智能体的三个核心维度进行规模化战略布局,并已取得如下成果:
(1)Token效率:2025年首次大规模应用Muon二阶优化器,成功让10T数据发挥出20T的效用,token效率翻倍;Muon已经被GLM、DeepSeek V4等模型采用。
(2)长程推理:发布Kimi Linear架构,将模型扩大10倍时原本Token成本膨胀100倍的指数级增长,成功压缩为线性的10倍增长,大幅降低长链路成本。
(3)Agent集群:支持300个子Agent并行完成4000个协作步骤,实现更大规模的并行化,进一步推高多 Agent 系统协作的能力上限。
Kimi还通过持续的工程效率优化来降低使用成本和提升运行速度。
在降本方面,Kimi自研的KVCache中心化解耦架构Mooncake,将Cache命中率提升至92.5%,使K2.7-code模型的有效输入价格降低74%。
在提效方面,高速版K2.7-code-highspeed输出速度约为180tokens/s,短上下文场景可达260tokens/s,实现“十几秒输出200行代码”。
黄震昕建议看模型价格时,不能只看输入输出,更要看Cache命中率,命中率九十多与七八十相比,成本可能差好几倍。
他透露,Kimi与亚马逊云科技已经开始推进这方面的合作,探讨如何将原厂在底层推理优化上的能力共享给合作伙伴,并由双方协同优化。其目标是在最终上线时,两边提供给客户的Cache命中率、推理性能等水平在同一个高度上。
此外,Kimi也找到很多技术手段来解决服务稳定性方面的问题。
结语:基模厂商应看向更底层的前沿技术
“在探索Scaling Law的路上,Kimi选择直接向底层模型架构发起挑战。因为我们深知,只有实现底层架构创新突破,才能真正承载更大的模型规模,让Scaling Law持续向前,探索智能的上限。”黄震昕说。
2026年初,Kimi开源的“注意力残差”技术,为下一代大模型架构设计提供了新的思路。OpenAI推理之父Jerry Tworek点评称“我们应该重新思考一切,深度学习的2.0时代正在到来”。
在他看来,基模厂商不能只看着现有的Harness,必须向更底层的前沿技术看。