NVIDIA Triton 推理引擎公开课上新:基于多实例 GPU 和 K8s 的大规模 CV 模型部署实践

去年7月,智东西公开课曾策划推出 NVIDIA Triton 推理引擎专场,NVIDIA 高级深度学习软件架构师何成杰和蚂蚁集团高级技术专家饶星,两位技术专家围绕主题《面向多框架的AI模型部署服务 Triton 及其在蚂蚁预测引擎中的应用实践》,对 Triton 推理引擎的多框架兼容特性,以及 Triton 在蚂蚁预测引擎中的创新应用进行了深度讲解。

6月28日,NVIDIA Triton 推理引擎公开课再上新。本次公开课由 NVIDIA 解决方案架构师张萌和申意分别主讲和直播答疑,主题为《基于 NVIDIA Triton 的AI模型高效部署实践》。

NVIDIA Triton 推理服务器(以前称为 TensorRT 推理服务器)是一款开源软件,可简化深度学习模型在生产环境中的部署。借助 Triton 推理服务器,Devops 和 MLops 团队可以将各类框架(TensorFlowPyTorch、TensorRT、ONNX Runtime、MXNet、XGBoost 等或自定义框架后端)训练的 AI 模型,在基于 GPU 或 CPU的本地、数据中心、云、边缘云等平台,快速可靠地部署在诸如 Kubernetes、KFServing、Prometheus、Grafana 等大规模生产环境中,并轻松扩展。


视频来源于 NVIDIA

借助 NVIDIA Ampere 架构 Tensor Core 和多实例并行运行多个工作负载( MIG ),Triton 推理服务器可以最大化 A100 GPU 和 A30 GPU 的利用率。它不仅可在单个 NVIDIA GPU 上同时运行多个模型,以更大限度地提高利用率,与 Kubernetes 集成以用于编排、指标和自动扩展,还可以让多个用户共享一个 GPU ,通过将单个 GPU 划分为多个 GPU 实例,让每个实例都有专用的内存和计算资源,在确保执行工作负载的同时,保证服务质量和故障隔离。

在本次公开课,张萌将参与主讲环节。她会结合AI模型部署的挑战和 NVIDIA Triton 的重要功能,分享应用 Triton 的收益,之后会重点讲解基于 Ampere 架构多实例 GPU 特性和 K8s 实现 Triton 大规模部署。最后,张萌会就如何使用 Triton 部署端到端的 CV 模型进行实例演示,并介绍 Triton 在行业内的一些应用案例。另一位主讲人申意则将主要参与问答环节。

「 NVIDIA Triton 推理引擎公开课」将在智东西公开课知识店铺上以视频直播的形式进行。同时,针对本次公开课,也组建了专属交流群,届时张萌和申意将加入,欢迎感兴趣的朋友申请。

NVIDIA Triton 推理引擎公开课上新:基于多实例 GPU 和 K8s 的大规模 CV 模型部署实践

公开课信息

主 题
《基于NVIDIA Triton的AI模型高效部署实践》

提 纲
1、AI 模型部署现状及挑战
2、NVIDIA Triton 的重要功能
3、基于 Ampere 架构多实例 GPU 特性和 K8s 实现 Triton 大规模部署
4、实例演示:使用 Triton 部署端到端的 CV 模型
5、应用案例

主 讲 人
张萌,NVIDIA解决方案架构师;负责NVIDIA 医疗健康行业 GPU 计算解决方案设计与研究,包括深度学习训练和推理,GPU 分布式并行计算加速等。

申意,NVIDIA解决方案架构师;负责为消费互联网行业提供 GPU 计算解决方案。包括编解码,数据前后处理,模型推理及服务化等。

直 播 时 间
6月28日19:00-20:00

加入专属交流群

对本次公开课感兴趣的朋友,可以扫描下方二维码,添加小助手瑞奇进行报名。已添加过瑞奇的老朋友,可以给瑞奇私信,发送“ NVIDIA2206 ”即可报名。

同时,为了方便大家交流和咨询,针对「NVIDIA Triton 推理引擎公开课」还设置了专属交流群,将会邀请主讲人加入。希望加入交流群与主讲人直接认识和交流的朋友,也可以与瑞奇进行申请。

NVIDIA Triton 推理引擎公开课上新:基于多实例 GPU 和 K8s 的大规模 CV 模型部署实践