NVIDIA Triton推理引擎专场上线,深度讲解Triton多框架兼容及在蚂蚁预测引擎中的实践 | 专场预告

在实际场景中使用AI模型,即推理服务,是将AI整合到应用中最复杂的部分,同时推理服务本身也是一个十分复杂的过程。

比如单一应用程序中可能要使用来自不同框架下训练的多个模型,以及各种预处理和后处理步骤;又或者有实时在线、脱机批次和串流等不同类型的推理需求;或者是需要考虑模型是在公有云、数据中心或者企业边缘端的GPU和CPU基础架构上等不同方式上的执行;甚至还需要考虑可扩展性、状态可监控,以及硬件利用率/模型推理时间/TCO等KPI优化等问题。

推理服务的解决方案虽然可以处理其中一些复杂事项,但是往往会缺少许多进行高效推理服务的优化方式。在去年,NVIDIA 推出了一个名为Triton的推理服务器。它采用 KFServing 最新社区标准 gRPC 和 HTTP/REST 数据平面 v2协定推理服务,并以微服务为基础进行推理,提供数据中心和云端规模两种模式,可在GPU 或 CPU上可以使用所有的主流框架后端进行推理:TensorFlow、PyTorch、TensorRT、ONNX Runtime。Triton可以让开发者更加专注于应用程序的开发,而简化并高效优化模型的推理部署问题。

NVIDIA已经将该项目开源,感兴趣的朋友都可以动手试试。附项目地址:https://github.com/triton-inference-server/server。

7月6日晚7点,智东西公开课策划推出NVIDIA Triton推理引擎专场,并邀请到NVIDIA高级深度学习软件架构师何成杰,和蚂蚁集团高级技术专家饶星参与,带来主题为《面向多框架的AI模型部署服务Triton及其在蚂蚁预测引擎中的应用实践》的直播讲解。

何成杰目前是NVIDIA高级深度学习软件架构师,擅长深度学习模型网络GPU性能优化,深度学习推理部署,长期关注AI方案在云上的落地。而饶星是蚂蚁集团的高级技术专家,同样擅长深度学习在线预测、模型训练优化等技术,并长期专注与AI相关的技术,对多模态深度学习也有着深厚的兴趣。

在本次专场中,何成杰老师将从TensorRT到Triton,AI模型的推理部署出发,重点讲解Triton推理引擎及其多框架兼容性实现,和TensorRT推理加速库方面的内容。而饶星将深度剖析Triton在蚂蚁预测引擎中的创新应用以及在蚂蚁其他重要场景下的应用。

同时,本次专场将在智东西公开课知识店铺上以视频直播的形式进行,包含主讲和问答两个环节。主讲环节60分钟,两位老师通过视频直播的方式实时讲解;问答环节30分钟,两位老师将通过语音的形式进行实时解答。

专场信息

专场主题

《面向多框架的AI模型部署服务Triton及其在蚂蚁预测引擎中的应用实践》

专场提纲

1、从TensorRT到Triton,AI模型的推理部署
2、Triton中的多框架兼容实现
3、TensorRT推理加速库与Triton推理引擎
4、蚂蚁预测引擎概述
5、蚂蚁在Triton上的创新以及重要场景下的应用
6、Triton在蚂蚁的未来

讲师介绍

何成杰, NVIDIA高级深度学习软件架构师。擅长深度学习模型网络GPU性能优化,深度学习推理部署,长期关注AI方案在云上的落地。

饶星, 蚂蚁集团-高级技术专家。擅长深度学习在线预测、模型训练优化,长期专注在AI相关的技术,对多模态深度学习感兴趣。

直播信息

直播时间:7月6日19:00
直播地点:智东西公开课知识店铺