芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西12月11日报道,今日,英伟达宣布正在开发用于可视化和监测GPU集群的软件解决方案,并再度强调:“NVIDIA GPU没有硬件跟踪技术、终止开关和后门。”

此前据外媒报道,英伟达已开发出位置验证技术,可显示其芯片在哪个国家运行。今日英伟达在一篇博客文章中提供了更多相关细节,包括计划将客户端软件智能体开源。

根据英伟达博客文章,这项新软件解决方案是为了确保AI数据中心保持最佳状态运行而设计,向云合作伙伴和企业提供洞察仪表板,可帮助数据中心运营商监测整个AI GPU集群运行状况,提高整个计算基础设施的GPU正常运行时间。

该功能将以软件选件的形式提供给用户安装,并利用GPU的“机密计算能力”。这项服务由客户选择、自行安装和控制,用于监测GPU使用情况、配置和错误。

通过这项服务,数据中心运营商将能够:

  • 追踪功耗峰值,在不超出能耗预算的前提下最大化单位功耗性能。
  • 监测整个集群的利用率、内存带宽和互连运行状况。
  • 及早发现热点和气流问题,以避免过热降频和组件过早老化。
  • 确认软件配置和设置一致,以确保结果可复现以及运行可靠。
  • 发现错误和异常情况,及早发现故障部件。

这些功能可以帮助企业和云提供商可视化其GPU集群、解决系统瓶颈并优化生产力,从而提高投资回报。

此可选服务提供实时监测,让每个GPU系统与外部云服务通信和共享GPU指标。服务将配备客户端软件智能体,客户可安装该智能体,将节点级GPU遥测数据流式传输到托管在NVIDIA NGC的门户网站上。

客户可在仪表板中可视化其GPU集群利用率,既可以全局查看,也可以按计算区域(在同一物理或云位置注册的节点组)查看。

英伟达开发GPU定位技术?官方回应!

该客户端工具智能体也计划开源,以提供透明度和可审计性。它将提供一个实际示例,展示客户如何将英伟达工具整合到他们自己的GPU基础设施监测解决方案中。

这一软件能够帮助企业了解其GPU库存情况,但无法修改GPU配置或底层运行机制。它提供的是只读遥测数据,并由客户自行管理及自定义。

该服务还支持客户生成详细介绍GPU集群信息的报告。

另据外媒今日报道,英伟达周三透露,“没有功能允许英伟达远程控制或对已注册系统采取行动”,发送给英伟达服务器的遥测数据是“只读的”,这意味着该公司的服务器不能将数据写回芯片,“英伟达GPU内部没有允许英伟达或远程参与者禁用英伟达GPU的功能”。

该功能将首先在英伟达最新的Blackwell芯片上实现,英伟达也在研究前几代芯片的选择。