蒙特利尔大学MILA在读博士陆玉晨：交互式训练中语言变形问题研究及应用

「机器学习前沿讲座」，是智东西公开课针对机器学习领域推出的一档讲座，聚焦于机器学习前沿领域研究成果与进展。我们将持续邀请研究者、专家与资深开发者，为大家带来直播讲解。

在过去的一段时间,神经网络监督学习通过建模文本的统计信息可以取得很好的成果,但是这些模型在一个目标导向(goal oriented)的场景下却无法有效的通过语言去解决任务。当人们尝试使用类似SelfPlay的训练方式去最大化那些任务指标的时候，他们发现agent会发生语言变形(Language Drift)的情况：虽然任务的分数有所提高，但是agent开始使用的是自己“独创”的语言，而不是一开始监督训练时候的人类文本。

由于仅专注于解决任务，它们逐渐失去了语言的句法和语义特性。而蒙特利尔大学MILA实验室的陆玉晨等人提出了一种使用迭代学习来对抗语言变形的通用方法。在具有交互式训练步骤的微调代理之间进行迭代，并定期使用从上一次迭代播种并经过训练以模仿最新微调模型的新代理替换它们。因为迭代学习不需要外部语法约束或语义知识，因此是一种有价值的与任务无关的微调方法。

8月14日上午10点，智东西公开课邀请到蒙特利尔大学MILA在读博士在读博士陆玉晨参与到「机器学习前沿讲座」第6讲，带来主题为《交互式训练中语言变形问题研究及应用》的直播讲解。陆博士将从语言变形问题的定义出发，深度讲解交互式训练中的种子迭代学习方法，并介绍其在Lewis游戏中的探索及应用扩展。

陆玉晨是蒙特利尔大学MILA的在读博士，主要的研究方向是emergent communication, language for RL以及对话系统，在ICML、NeurIPS等顶会发表多篇论文。陆博本科曾经就读于上海交通大学以及伊利诺伊大学香槟分校。

课程内容

主题：
交互式训练中语言变形问题研究及应用
提纲：
1、什么是语言变形问题
2、交互式训练中的种子迭代学习
3、在Lewis游戏中的探索及应用扩展

讲师介绍

直播信息

直播时间：8月14日上午10点
直播地点：智东西公开课小程序
答疑地址：智东西公开课讨论群

加入讨论群

本次课程的讲解分为主讲和答疑两部分，主讲以视频直播形式，答疑将在「智东西公开课讨论群」进行。
加入讨论群，除了可以免费收看直播之外，还能认识讲师，与更多同行和同学一起学习，并进行深度讨论。
添加小助手曼曼（ID：zhidx006）即可申请，备注“姓名-公司/学校/单位-职位/专业”的朋友将会优先审核通过哦~

相关推荐