在深度学习训练过程中,各种模型所依赖的 TensorFlow 和 PyTorch 的版本和其依赖包往往错综复杂,同时也需要通过 NVIDIA GPU 进行模型训练的加速,而并行加速最重要的依赖是 NVIDIA 开发的 cuda-toolkit 软件包。但是基于 Anaconda创建的虚拟环境虽然能解决 TensorFlow 和 Pytorch 版本不同的问题,却不能解决 cuda-toolkit 版本不同的问题。如果深度学习模型不同的版本实现所依赖的 cuda-toolkit 版本有冲突,往往需要重装系统,费事费力。

而在 NVIDIA GPU 加快深度学习任务运行速度的同时,其 GPU 资源又是十分珍贵的。对于相对简单的深度学习任务,一块 GPU 往往可以满足多个任务的算力需求。因此如何尽可能的提高 GPU 资源的利用率,充分利用 GPU 的算力也是需要考虑的问题。

思腾合力 SCM 人工智能云平台(SitonHoly Cloud Management),是一款专为企业级AI开发者设计的GPU高效开发与管理的资源调度云平台。基于思腾合力自主研发的作业调度器,支持对 TensorFlow、PyTorch、Caffe等常用框架的集成与 GPU 资源调度,同时具备良好的扩展性和兼容性。使用者通过简单的 web 页面操作,能集中管理、监控、运用企业或科研机构的开发资源。同时以最高的效率执行深度学习、机器学习等科学模型训练,缩短模型开发周期。

7月21日,智东西公开课联合思腾合力、NVIDIA 策划的「深度学习容器创建公开课」上线开讲,思腾合力软件解决方案架构师、SCM 人工智能云平台负责人江艺展将主讲 NVIDIA  A100加速下的 Docker 容器创建及并行训练。

在本次公开课中,江艺展将以《NVIDIA A100 Tensor Core GPU 加速下的深度学习容器创建及分布式并行训练》为主题,对 NVIDIA A100 GPU 和 GPU 集群管理与资源调度云平台 SCM 6.0 进行介绍,之后重点讲解基于 Docker 的深度学习容器创建及分布式并行训练。最后,他也将分享 NVIDIA A100 加速下的 SCM 部署案例。

「深度学习容器创建公开课」将以视频直播形式进行,包含40分钟主讲和20分钟问答。同时,针对本次公开课,也组建了主讲群,届时主讲人江艺展将加入,欢迎感兴趣的朋友申请。

公开课信息

主 题
《NVIDIA A100 Tensor Core GPU 加速下的深度学习容器创建及分布式并行训练》

提 纲
1、NVIDIA A100 GPU 架构及应用介绍
2、GPU 集群管理与资源调度云平台 SCM 6.0 解析
3、基于 Docker 的深度学习容器创建及分布式并行训练
4、NVIDIA A100 加速下的 SCM 部署案例

主 讲 人
江艺展,思腾合力软件解决方案架构师,资深项目经理,思腾合力 SCM 人工智能云平台负责人;在人工智能与 HPC 基础架构解决方案领域有多年项目经验,对 AI 行业有着深刻的理解;参与并负责过多个大型项目,如北京语言大学知识工程实验中心环境升级与平台构建项目,中国信息通信研究院测试云项目项目,青海大学深度学习计算平台建设项目等。

直 播 时 间
7月21日19:00-20:00