在线研讨会上新!德克萨斯大学奥斯汀分校三位青年学者主讲大模型的稀疏性、参数微调与优化设计

随着语言模型规模的快速增大,对计算资源和时延要求越来越高。由此,以稀疏化为代表的模型压缩技术应运而生。这些方法为模型压缩和加速提供了一种可能的方向。

稀疏性(Sparsity),指的是模型具有非常大的容量,但只有模型的用于给定的任务、样本或标记的某些部分被激活。这样,能够显著增加模型容量和能力,而不必成比例增加计算量。同时,稀疏性的概念,也可以降低核心 Transformer 架构中注意力机制的成本,比如经典的 ETC 模型、BigBird 模型等。

8月2日早10点,智东西公开课教研组推出「大模型稀疏性及优化设计在线研讨会」。研讨会由德克萨斯大学奥斯汀分校博士后刘世伟参与出品。神经网络中的稀疏性是他的主要研究方向之一。刘世伟博士还曾担任 ICIP’22 和 ICIP’23 的Area Chair,并在各大顶会担任审稿人。

本次研讨会,刘世伟博士也将进行主讲,主题为《大型语言模型 LLMs 的稀疏化探究》。同时,他也邀请了德克萨斯大学奥斯汀分校陈天龙和陈武阳两位博士带来主讲。两位主讲人将分别围绕《高效的大模型参数微调算法》和《大模型的结构优化设计》带来分享。

出品人

刘世伟,德克萨斯大学奥斯汀分校博士后;于2022年在埃因霍温理工大学获得博士学位;研究兴趣主要包括(1)通过empirical theory去理解神经网络,(2)神经网络中的稀疏性;在多AI顶会和期刊上发表了30多篇论文,包括NeurIPS、ICML、ICLR、IJCV、AAAI、IJCAI、ECMLPKDD、UAI、LoG;曾先后获得最佳博士论文奖和LoG’22 最佳论文,担任了ICIP’22 和ICIP’23的Area Chair,并在各大顶会担任审稿人。

主题介绍

德克萨斯大学奥斯汀分校博士后刘世伟:大型语言模型 LLMs 的稀疏化探究

本次分享分为两部分:(1)稀疏性能为LLMs带来高效性吗?我们大规模的研究了 LLMs 的稀疏性,发现了稀疏性是在 LLMs 上的普遍性、早期性、和数据量的相关性;(2) 稀疏性在 LLMs 上的一些陷阱。

我们探究了 LLMs 上稀疏度和测试任务难易程度的相关性,并提出了 LLMs 上稀疏化的一些更有挑战性的任务。最后,也将分享一些 LLMs 稀疏化未来有趣的研究方向。

德克萨斯大学奥斯汀分校博士陈天龙:高效的大模型参数微调算法

如何建立高效和可靠的机器学习系统?本次分享将会先对经典的模型压缩算法(比如模型剪枝,彩票假说)进行分享,这一部分会具体讲到如何从不规则的稀疏网络获得对硬件加速有益的规则稀疏性。

之后,会对大型语言模型的高效微调算法进行全面讲解,包括基于混合专家模型的高效训练,以及高效参数微调算法(比如从经典的 LoRA 形式如何得到更加泛化的高效分解)。最后,也会介绍机器学习系统常见的安全隐患和如何提升其鲁棒性,以及对未来进一步的工作进行展望。

德克萨斯大学奥斯汀分校博士陈武阳:大模型的结构优化设计

深度神经网络极大地推动了机器学习的成功。在过去的十年中,深层和有复杂连接的网络架构不断被设计出来。然而,深度学习的理论与应用之间的差距正在不断扩大。这次分享将围绕这一问题展开,试图弥补这一差距。

通过对神经网络的训练、复杂度、泛化性能的理论和实验分析,我们可以为网络架构的设计做准确和高效的指导。借助我们的理论指导,我们不需要训练深度神经网络就可以显著加速网络结构搜索。在没有任何训练 (梯度下降) 成本的情况下,我们的方法 (“TE-NAS”) 在GPU上仅耗时4个小时就可以自动设计 ImageNet 数据集上新颖且准确的网络架构。