英特尔为LIama 2大模型提供加速

智东西7月20日消息，根据英特尔官方消息，英特尔通过AI硬件组合及开放的软件环境，服务Meta发布的Llama 2模型。在Llama 2发布之际，英特尔分享了70亿和130亿参数的Llama 2模型的初始推理性能测试结果。

这些模型在英特尔AI产品组合上运行，包括Habana Gaudi 2深度学习加速器、第四代英特尔至强可扩展处理器、英特尔至强CPU Max系列和英特尔数据中心GPU Max系列。其中，Habana Gaudi2在近期发布的MLPerf基准测试中，对于128至2000输入token，在70亿参数Llama 2模型上的推理延迟范围为每token 9.0-12.2毫秒，而对于130亿参数模型，范围为每token 15.5-20.4毫秒。