NVIDIA Triton推理引擎专场上线，深度讲解Triton多框架兼容及在蚂蚁预测引擎中的实践

在实际场景中使用AI模型，即推理服务，是将AI整合到应用中最复杂的部分，同时推理服务本身也是一个十分复杂的过程。

比如单一应用程序中可能要使用来自不同框架下训练的多个模型，以及各种预处理和后处理步骤；又或者有实时在线、脱机批次和串流等不同类型的推理需求；或者是需要考虑模型是在公有云、数据中心或者企业边缘端的GPU和CPU基础架构上等不同方式上的执行；甚至还需要考虑可扩展性、状态可监控，以及硬件利用率/模型推理时间/TCO等KPI优化等问题。

推理服务的解决方案虽然可以处理其中一些复杂事项，但是往往会缺少许多进行高效推理服务的优化方式。在去年，NVIDIA 推出了一个名为Triton的推理服务器。它采用 KFServing 最新社区标准 gRPC 和 HTTP/REST 数据平面 v2协定推理服务，并以微服务为基础进行推理，提供数据中心和云端规模两种模式，可在GPU 或 CPU上可以使用所有的主流框架后端进行推理：TensorFlow、PyTorch、TensorRT、ONNX Runtime。Triton可以让开发者更加专注于应用程序的开发，而简化并高效优化模型的推理部署问题。

NVIDIA已经将该项目开源，感兴趣的朋友都可以动手试试。附项目地址：https://github.com/triton-inference-server/server。

7月6日晚7点，智东西公开课策划推出NVIDIA Triton推理引擎专场，并邀请到NVIDIA高级深度学习软件架构师何成杰，和蚂蚁集团高级技术专家饶星参与，带来主题为《面向多框架的AI模型部署服务Triton及其在蚂蚁预测引擎中的应用实践》的直播讲解。

何成杰目前是NVIDIA高级深度学习软件架构师，擅长深度学习模型网络GPU性能优化，深度学习推理部署，长期关注AI方案在云上的落地。而饶星是蚂蚁集团的高级技术专家，同样擅长深度学习在线预测、模型训练优化等技术，并长期专注与AI相关的技术，对多模态深度学习也有着深厚的兴趣。

在本次专场中，何成杰老师将从TensorRT到Triton，AI模型的推理部署出发，重点讲解Triton推理引擎及其多框架兼容性实现，和TensorRT推理加速库方面的内容。而饶星将深度剖析Triton在蚂蚁预测引擎中的创新应用以及在蚂蚁其他重要场景下的应用。

同时，本次专场将在智东西公开课知识店铺上以视频直播的形式进行，包含主讲和问答两个环节。主讲环节60分钟，两位老师通过视频直播的方式实时讲解；问答环节30分钟，两位老师将通过语音的形式进行实时解答。

专场信息

专场主题

《面向多框架的AI模型部署服务Triton及其在蚂蚁预测引擎中的应用实践》

专场提纲

1、从TensorRT到Triton，AI模型的推理部署
2、Triton中的多框架兼容实现
3、TensorRT推理加速库与Triton推理引擎
4、蚂蚁预测引擎概述
5、蚂蚁在Triton上的创新以及重要场景下的应用
6、Triton在蚂蚁的未来

讲师介绍

何成杰, NVIDIA高级深度学习软件架构师。擅长深度学习模型网络GPU性能优化，深度学习推理部署，长期关注AI方案在云上的落地。

饶星, 蚂蚁集团-高级技术专家。擅长深度学习在线预测、模型训练优化，长期专注在AI相关的技术，对多模态深度学习感兴趣。

直播信息

直播时间：7月6日19:00
直播地点：智东西公开课知识店铺

相关推荐