公开课预告：NVIDIA A100 Tensor Core GPU 加速下的深度学习容器创建及分布式并行训练

在深度学习训练过程中，各种模型所依赖的 TensorFlow 和 PyTorch 的版本和其依赖包往往错综复杂，同时也需要通过 NVIDIA GPU 进行模型训练的加速，而并行加速最重要的依赖是 NVIDIA 开发的 cuda-toolkit 软件包。但是基于 Anaconda创建的虚拟环境虽然能解决 TensorFlow 和 Pytorch 版本不同的问题，却不能解决 cuda-toolkit 版本不同的问题。如果深度学习模型不同的版本实现所依赖的 cuda-toolkit 版本有冲突，往往需要重装系统，费事费力。

而在 NVIDIA GPU 加快深度学习任务运行速度的同时，其 GPU 资源又是十分珍贵的。对于相对简单的深度学习任务，一块 GPU 往往可以满足多个任务的算力需求。因此如何尽可能的提高 GPU 资源的利用率，充分利用 GPU 的算力也是需要考虑的问题。

思腾合力 SCM 人工智能云平台(SitonHoly Cloud Management)，是一款专为企业级AI开发者设计的GPU高效开发与管理的资源调度云平台。基于思腾合力自主研发的作业调度器，支持对 TensorFlow、PyTorch、Caffe等常用框架的集成与 GPU 资源调度，同时具备良好的扩展性和兼容性。使用者通过简单的 web 页面操作，能集中管理、监控、运用企业或科研机构的开发资源。同时以最高的效率执行深度学习、机器学习等科学模型训练，缩短模型开发周期。

7月21日，智东西公开课联合思腾合力、NVIDIA 策划的「深度学习容器创建公开课」上线开讲，思腾合力软件解决方案架构师、SCM 人工智能云平台负责人江艺展将主讲 NVIDIA A100加速下的 Docker 容器创建及并行训练。

在本次公开课中，江艺展将以《NVIDIA A100 Tensor Core GPU 加速下的深度学习容器创建及分布式并行训练》为主题，对 NVIDIA A100 GPU 和 GPU 集群管理与资源调度云平台 SCM 6.0 进行介绍，之后重点讲解基于 Docker 的深度学习容器创建及分布式并行训练。最后，他也将分享 NVIDIA A100 加速下的 SCM 部署案例。

「深度学习容器创建公开课」将以视频直播形式进行，包含40分钟主讲和20分钟问答。同时，针对本次公开课，也组建了主讲群，届时主讲人江艺展将加入，欢迎感兴趣的朋友申请。

公开课信息

主题
《NVIDIA A100 Tensor Core GPU 加速下的深度学习容器创建及分布式并行训练》

提纲
1、NVIDIA A100 GPU 架构及应用介绍
2、GPU 集群管理与资源调度云平台 SCM 6.0 解析
3、基于 Docker 的深度学习容器创建及分布式并行训练
4、NVIDIA A100 加速下的 SCM 部署案例

主讲人
江艺展，思腾合力软件解决方案架构师，资深项目经理，思腾合力 SCM 人工智能云平台负责人；在人工智能与 HPC 基础架构解决方案领域有多年项目经验，对 AI 行业有着深刻的理解；参与并负责过多个大型项目，如北京语言大学知识工程实验中心环境升级与平台构建项目，中国信息通信研究院测试云项目项目，青海大学深度学习计算平台建设项目等。

直播时间
7月21日19:00-20:00

相关推荐