智东西(公众号:zhidxcom)
编 | 刘阳

导语:亚马逊将发布超410万字主题聊天数据集,提供大量针对自然语言处理研究的数据样本。

据外媒报道,亚马逊计划提供大量针对自然语言处理研究的数据样本。亚马逊在4月1日表示,在今年9月份将发布“主题聊天数据集”(Topical Chat),这是一系列众包的人类对话的语料库,提供给参加年度Alexa奖Socialbot Grand Challenge比赛的团队。

亚马逊表示,该主题聊天数据集包含超过21万条话语,超过410万个单词,是最大的公共社交对话和知识数据集之一。语料库中的每个会话和会话转换都与提供给人群工作者的知识相关联,这些知识是从一系列与一组实体相关的“非结构化”和“松散结构化”文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在一篇博客文章中明确表示,这些对话都不是来自与Alexa客户的互动。Hakkani-Tur称:“这次收集的目标是使基于知识的神经反应生成系统的下一步研究成为可能,解决自然对话中其他公开数据集无法解决的难题。” “这将使研究人员能够专注于人类在话题之间的转换方式,知识的选择和丰富,以及将事实和观点整合到对话中……并支持发表高质量、可重复的研究。”

亚马逊表示,竞争Alexa奖的团队将可以访问数据集的扩展版本——名为Extended topic Chat dataset,它包含了正在进行的收集和注释的结果。

大约六个月前,亚马逊就已经公开了一套数据集,这套数据集可用于训练人工智能模型,识别不同语言和脚本类型的名称。它被称为“多语种名称实体音译系统”,包含了从维基百科中摘取的近40万个名字,这些名字囊括了多个语种,包括阿拉伯语、英语、希伯来语、日语片假名和俄语。

原文来自:VentureBeat