芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
芯东西12月11日报道,今日,英伟达宣布正在开发用于可视化和监测GPU集群的软件解决方案,并再度强调:“NVIDIA GPU没有硬件跟踪技术、终止开关和后门。”
此前据外媒报道,英伟达已开发出位置验证技术,可显示其芯片在哪个国家运行。今日英伟达在一篇博客文章中提供了更多相关细节,包括计划将客户端软件智能体开源。
根据英伟达博客文章,这项新软件解决方案是为了确保AI数据中心保持最佳状态运行而设计,向云合作伙伴和企业提供洞察仪表板,可帮助数据中心运营商监测整个AI GPU集群运行状况,提高整个计算基础设施的GPU正常运行时间。
该功能将以软件选件的形式提供给用户安装,并利用GPU的“机密计算能力”。这项服务由客户选择、自行安装和控制,用于监测GPU使用情况、配置和错误。
通过这项服务,数据中心运营商将能够:
- 追踪功耗峰值,在不超出能耗预算的前提下最大化单位功耗性能。
- 监测整个集群的利用率、内存带宽和互连运行状况。
- 及早发现热点和气流问题,以避免过热降频和组件过早老化。
- 确认软件配置和设置一致,以确保结果可复现以及运行可靠。
- 发现错误和异常情况,及早发现故障部件。
这些功能可以帮助企业和云提供商可视化其GPU集群、解决系统瓶颈并优化生产力,从而提高投资回报。
此可选服务提供实时监测,让每个GPU系统与外部云服务通信和共享GPU指标。服务将配备客户端软件智能体,客户可安装该智能体,将节点级GPU遥测数据流式传输到托管在NVIDIA NGC的门户网站上。
客户可在仪表板中可视化其GPU集群利用率,既可以全局查看,也可以按计算区域(在同一物理或云位置注册的节点组)查看。
该客户端工具智能体也计划开源,以提供透明度和可审计性。它将提供一个实际示例,展示客户如何将英伟达工具整合到他们自己的GPU基础设施监测解决方案中。
这一软件能够帮助企业了解其GPU库存情况,但无法修改GPU配置或底层运行机制。它提供的是只读遥测数据,并由客户自行管理及自定义。
该服务还支持客户生成详细介绍GPU集群信息的报告。
另据外媒今日报道,英伟达周三透露,“没有功能允许英伟达远程控制或对已注册系统采取行动”,发送给英伟达服务器的遥测数据是“只读的”,这意味着该公司的服务器不能将数据写回芯片,“英伟达GPU内部没有允许英伟达或远程参与者禁用英伟达GPU的功能”。
该功能将首先在英伟达最新的Blackwell芯片上实现,英伟达也在研究前几代芯片的选择。
