北航在读博士游心:深度推荐模型的推理与训练加速技术|AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

深度推荐模型已经在电商、视频、游戏等产业领域有广泛应用。在实际生产使用中,深度推荐模型的性能需要满足苛刻的服务延迟要求,并以此来满足日益增长的模型服务请求与服务质量要求。然而,目前已有的模型服务框架由于以下三点挑战导致其不能提供足够高效的推荐模型推理服务:

1)冗余的数据传输与计算;
2)开销无感知的算子调度;
3)算子启动的高开销。

为了应对上述挑战,阿里DeepRec项目组实习生、北京航空航天大学在读博士游心等人提出了高性能深度推荐模型服务框架RecServe,从而支持结构化特征以及会话组运行时设计来避免冗余数据传输与计算的同时,应用GPU支持的多流并行方式来加速推荐模型服务过程。同时,他们也在会话组运行时设计中增加了开销感知的算子调度器,并实现了基于关键路径的算子调度策略来进一步加速推荐模型服务过程。

此外,海量的训练数据对深度推荐模型的训练性能提出了更高的要求。其中,深度推荐模型训练中存在的未知张量形状、并行执行模式导致的不确定的算子执行顺序等现象,导致其内存分配请求的时机与大小都具有很强的动态性与不规则性。然而,目前没有一个已有的内存分配器可以有效处理深度推荐模型带来的动态性与不规则性,并在训练过程中引入不合理的内存分配,从而导致高昂的页错误处理开销。

因此,游心博士等人提出了一种图感知内存分配器GAMMA来实现可动态适配的图感知内存分配策略。相较Tensorflow,GAMMA可以有效提升CPU、GPU上的端到端模型训练性能,并降低CPU、GPU上的峰值内存占用。

12月12日晚7点,「AI新青年讲座」第181讲邀请到游心博士参与,主讲《深度推荐模型的推理与训练加速技术》。

讲者
游心,北京航空航天大学在读博士;师从杨海龙副教授;当前研究方向为高性能优化、性能分析工具、编译优化;曾获世界大学生超算竞赛ASC17总决赛银奖、ASC18总决赛一等奖,欧洲大学生超算竞赛ISC17总决赛季军,获得第一届开源科学软件创意大赛二等奖、第二届开源科学软件创意大赛三等奖;以第一作者发表CCF A类顶会论文《ZeroSpy: Exploring Software Inefficiency with Redundant Zeros》(SC20)、《VClinic: A Portable and Efficient Framework for Fine-grained Value Profilers》(ASPLOS23),B类论文2篇,C类论文2篇,EI论文4篇,累计发表论文18篇;目前正在阿里DeepRec项目组实习。

第181讲

主 题
《深度推荐模型的推理与训练加速技术》

提 纲
1、深度推荐模型在实际业务部署中的挑战
2、加速推理的多流并行及DeepRec框架
3、海量训练数据对深度推荐模型的要求
4、动态适配的图感知内存分配策略及训练

直 播 信 息
直播时间:12月12日19:00
直播地点:智东西公开课知识店铺

成果
DeepRec项目地址:https://github.com/alibaba/DeepRec