今年9月起,智东西公开课品牌全新升级为智猩猩。智猩猩定位硬科技讲解与服务平台,提供公开课、在线研讨会、讲座、线上闭门会、峰会等线上线下产品。

「线上闭门会」由智猩猩全新升级推出,将邀请行业、领域专家担任出品人进行策划,探讨人工智能、自动驾驶领域中的最新技术研究与应用。

随着深度学习技术的飞速发展,尤其是最近涌现出的大型基础模型,人工智能领域正在发生翻天覆地的变化。这些模型在图像识别、自然语言处理等各种任务上取得了显著的突破,显示出巨大的潜力。然而,这些大模型往往具有庞大的参数量、计算量和功耗,这给它们的实际应用带来了一定的挑战。特别是在资源受限的环境中,如何实现高效深度学习成为了一个亟待解决的问题。

为了解决这一问题,许多研究者开始关注大模型的微调以及边缘设备上的应用。通过优化训练方法、设计高效算法以及利用边缘设备的资源,研究者们试图降低大模型的计算成本,提高其在实际应用中的性能。

12月5日上午10点,智猩猩AI教研组推出「大模型微调与推理部署线上闭门会」。本次闭门会由北京航空航天大学人工智能研究院助理教授郭晋阳参与出品。郭晋阳同时也是国家级青年人才、硕士生导师,主要研究方向为轻量深度学习、边缘智能计算,相关技术成果已在港中文-商汤 Open-MM、亚马逊 DGL、百度飞桨等多个开放平台中集成验证,并在商汤科技业务场景中上线应用。

本次闭门会,Monash University 长聘助理教授庄博涵、麻省理工学院在读博士朱力耕和商汤科技研究副总监龚睿昊参与主讲。他们将分别围绕主题《大模型的高效微调和部署》、《边缘设备上的大模型微调训练》和《大语言模型量化和 LightLLM 高性能推理部署系统设计》,从不同的角度探讨如何提高大模型的效率和性能,并为实际应用场景提供有效的解决方案。

线上闭门会上新!北航、MIT、莫纳什和商汤四位专家直播探讨大模型微调与推理部署

出品人

郭晋阳,北京航空航天大学人工智能研究院助理教授、国家级青年人才、硕士生导师;主要研究方向为轻量深度学习、边缘智能计算;近年来,主持国家自然科学基金青年基金、科技创新2030重大项目子课题等多个重点课题项目;发表TIP、CVPR等国际顶级期刊和会议论文20余篇;担任TPAMI、IJCV等国际顶级期刊审稿人与CVPR、ICCV等国际顶级会议程序委员会委员;荣获ICCV Doctoral Consortium、无人机视觉检测挑战赛全球亚军等荣誉奖项;作为专家组成员参与国内外标准制定2项,在国际会议上组织专题研讨会2次;相关技术已在港中文-商汤Open-MM、亚马逊DGL、百度飞桨等多个开放平台中集成验证,并在商汤科技业务场景中上线应用。

主题介绍

Monash University 长聘助理教授庄博涵:大模型的高效微调和部署

深度学习,尤其是最近涌现的基础大模型,已经彻底颠覆了人工智能领域。这些模型在图像识别、自然语言处理等各种任务取得了显著的突破。然而,大模型存在参数量大、计算量大、功耗高等挑战,这些问题限制了它们在资源受限的环境中的实际应用。因此,高效深度学习已经成为一个热门的研究领域。

本次闭门会,庄博涵将介绍近两年 ZIP Lab 在高效深度学习领域的部分研究成果,涵盖了从训练、部署到推理的整个流程,例如参数高效微调、可缝合神经网络、高效注意力机制和大模型压缩算法等。

庄博涵是 Monash University 长聘助理教授、博士生导师,ZIP Lab 独立 PI。目前他专注于高效机器学习算法和理论研究,以及它们在视觉和语言领域的应用,近年来在计算机视觉和机器学习领域的顶级国际会议(如CVPR、NeurIPS)和期刊(如TPAMI)上发表了40多篇论文。他还承担了多个业界项目,部分研究成果已经被业界广泛引用,并转化为工业界实际应用工具,还曾担任多个知名学术会议的高级委员会成员,包括 ICML、NeurIPS、ICLR、CVPR 和 ICCV 等。

麻省理工学院在读博士朱力耕:边缘设备上的大模型微调训练

设备上的学习和高效微调可实现持续且保护隐私的定制(例如,根据个性化数据在本地微调大型语言模型)。 然而,现有的训练框架是为具有强大加速器(例如 GPU、TPU)的云服务器设计的,缺乏对边缘学习的优化,面临资源限制和边缘硬件多样性的挑战。

本次闭门会,朱力耕将介绍一个可在各种边缘设备上进行微调的、微型、稀疏且高效的引擎 PockEngine。 PockEngine 支持稀疏反向传播。它会修剪反向图并通过测量内存节省和延迟减少来稀疏更新模型,同时保持模型质量。

同时,PockEngine也支持多种应用程序、前端(PyTorch/TensorFlow/Jax)和硬件后端(CPU/GPU/DSP)。 与现成的 TensorFlow (Raspberry Pi) 相比,PockEngine 实现了高达 15 倍的加速,节省了 5.6 倍的内存反向传播 (Jetson Orin)。 值得注意的是,PockEngine 能够以 550 个令牌/秒的速度在 NVIDIA Jetson Orin 上微调 LLaMA2-7B,比 PyTorch 快 7.9 倍。

朱力耕师从韩松教授, 研究方向主要集中在高效深度学习系统和算法之间。他设计了第一个软硬协同的 AutoML 算法并可以扩展到大规模的数据集的算法 ProxylessNAS,迄今已有 1400 引用和 1300 Github stars,并开发了高效推理系统和深度学习训练系统,项目已经被整合到 PyTorch 和 AutoGluon 等框架中,曾被麻省理工学院新闻和 IEEE Spectrum 等媒体报道。

商汤科技研究副总监龚睿昊:大语言模型量化和 LightLLM 高性能推理部署系统设计

大语言模型动辄上千亿的参数量对于各种平台的高效、低成本部署带来了更大挑战。模型量化和高效的推理系统设计成为提高 LLM 推理效率的关键。

本次闭门会,龚睿昊将分享 Outlier Suppression 大语言模型量化系列方法和基于 LightLLM 的高性能推理部署系统 ,全面介绍实现极致性能和吞吐的算法与系统设计。

龚睿昊是商汤科技研究副总监、模型工具链团队负责人,主要负责工业级模型工具链,包括大规模模型训练、多平台部署、模型压缩和软硬件协同技术体系。通过算法和工具实现规模化工业落地,支持智慧城市、智能驾驶、AIOT、手机场景等大量业务模型的模型生产,团队支撑了商量等商汤大模型体系的底层技术搭建,致力于 ML+System 的综合效率提升。他在 ICLR、NeuIPS、CVPR、ICCV、IJCV 等期刊会议发表二十余篇论文,多次获得低功耗计算机视觉比赛 LPCV 冠军、无人机追逐赛亚军等奖项。

报名方式

线上闭门会将仅限通过报名审核的用户参与。对本次线上闭门会感兴趣的朋友,可以扫描海报上的二维码,添加小助手小双进行报名。已添加过小双的老朋友,可以直接给小双私信,发送“ 闭门会07 ”即可报名。

此次线上闭门会设有专属交流群,将邀请出品人和三位主讲人入群。通过报名的用户将可以受邀入群,并可获得直播地址进行观看。