
智东西(公众号:zhidxcom)
编译 | 金碧辉
编辑 | 程茜
智东西6月17日消息,美国AI芯片创企Groq昨天宣布,其已正式成为Hugging Face Hub支持的推理服务提供商,推理服务已无缝集成至Hugging Face的JS和Python客户端SDK,开发者可便捷地将各类模型与优选服务提供商对接使用。
开源平台Hugging Face目前托管超50万个AI模型,月活跃开发者突破300万,已成为全球最大的开源AI模型社区。Groq作为首家高速推理供应商正式接入该平台后,开发者仅需三行代码,便可直接在Hugging Face Playground或API中一键调用Groq服务,账单统一结算至平台账户。
此举使金融科技、工业研发等领域的AI原型验证周期缩短50%,为开发者提供了低门槛高性能工具链支持。
一、131K上下文独家支持,Groq推理服务集成至Hugging Face
▲独立基准测试公司Artificial Analysis关于Qwen3 32B的相关验证信息
阿里巴巴Qwen3 32B是一款参数规模达328亿的大语言模型,专为复杂推理与高效对话优化,支持超100种语言及方言。
通过Groq创新的语言处理单元(LPU)架构,Qwen3 32B+Groq组合首次实现131k完整上下文窗口支持。
成本方面,Groq为Qwen3 32B提供的按需定价为:输入tokens 0.29美元(约合人民币2.08元)/百万、输出tokens 0.59美元(约合人民币4.24元)/百万。
在Groq平台,Qwen3 32B模型支持特有的“思考/非思考”双模式动态切换机制,可根据推理任务的复杂度自动适配最优运行模式。
三、基础设施与用户增长,Groq盈利前夜的两大难题
据外媒VentureBeat昨日报道,Groq的上述举措堪称其向亚马逊云服务(AWS)、谷歌云等现有云服务提供商发起挑战的关键一步。但当前Groq也面临诸多挑战,其基础设施虽已覆盖美国、加拿大及中东地区,但与AWS在全球布局的28个地理区域、谷歌云的26个区域相比,物理节点数量仍存在显著差距。
Groq自研LPU芯片单系统部署成本达1144万美元(折合人民币约8200万元),若按当2000万token/s的处理速度推算,单台LPU系统每日可处理172.8亿token,仅能产生约500美元收入(折合人民币约3587.3元),需连续运营63年才能覆盖硬件成本。
结语:Groq推理速度碾压GPU十倍,模型训练依赖与基建瓶颈待解
Groq凭借LPU架构的确定性计算优势,从第三方机构Artificial Analysis的验证基准测试结果透露,实时推理场景中实现较GPU十倍的速度碾压,为长文本分析、跨国多语种应用创造新可能。
研究公司Grand View Research今年6月透露,受各行各业AI应用部署不断增加的推动,到2030年,全球AI推理芯片市场规模将达1549亿美元(折合人民币约为1.11万亿元)。然而,Groq芯片仅限推理场景,模型训练仍需依赖英伟达GPU,在一定程度上增加了开发者与企业用户的使用成本和技术风险。同时Groq的基础设施扩张速度能否匹配Hugging Face带来的流量爆发仍是未知数。
如果Groq的基础设施无法满足用户增长的需求,可能会导致服务质量下降,影响用户满意度和口碑。
来源:Groq官网、VentureBeat