智东西(公众号:zhidxcom
编 | 花弧

导语:音乐网站Deezer主导一项利用AI来识别歌曲所传达情绪的项目,AI可从音轨和歌词两个维度判断歌曲所传递的情绪。

智东西9月29日消息,Deezer(音乐网站)研究者在Arxiv.org 上发表论文《基于深度神经网络对音频歌词进行情绪检测》,基于对音频信号和音轨歌词的多模态情绪检测,可识别歌曲所传递的情绪。

人类的耳朵可以毫不费力地感知歌曲所传达的情感,比如Eric Clapton’s 的Tears in Heaven所流露的忧郁、Led Zeppelin的Whole Lotta Love 所传达的激情。机器也想如此。 为了让机器表现得更像人,Deezer 的研究人员开发了一款可以识别音轨情绪的人工智能系统。

“过去二十年,研究界一直都很关注对音乐的情绪检测”,他们写道,“这项研究主要关注音轨的音频信号和歌词,并使用多模态情绪检测对其进行分析,最终是要使程序听到音轨就能自主判断其所传达的情绪。”

心理学研究表明,在分析音乐所传达的情绪时,歌词也应被考虑进去。Deezer研究团队据此设计了一个神经网络,分别输入音频信号和基于160万句歌词训练Word2Vec embeddings(Word2Vec是在2013年Google开发的一套词嵌入方法)。

为了教会AI判断歌曲的情感,他们基于百万歌曲数据集(Million Song Dataset ,MSD)——一个采用音乐网站LastFM标签的音乐数据集,其中部分标签是标记情绪的——和14000个描述情绪的英文单词来挑选用于训练AI的情绪标签,这些单词主要关注情感色彩(从消极到积极)和兴奋程度(从平静到精力旺盛) ,他们用这个数据库来选择上述标签进行训练。

因为 MSD 的标签比较泛化,并未考虑音频信号和歌词的细节,所以Deezer研究团队基于歌曲的元数据对歌曲重新进行分类。该研究团队还对应歌词长度从相应位置提取歌词。

基于以上步骤,最终得到一个数据集,数据的60%——18,644条注释音轨——将用来训练模型,40%将用来校验及测试模型。

相较依靠词库来识别情感的经典系统,深度学习模型在兴奋程度检测方面更有优越性。 针对情感色彩检测,深度学习模型稍逊经典系统——研究人员注意到,基于歌词的深度学习方法往往表现不佳——但能比肩基于特征的工程学方法。

“尤其在进行情感色彩预测时,我们的模型在揭示并利用音频与歌词的相关性上表现优异。”研究人员写道,“在对音乐进行情绪识别时,研究和优化卷积神经网络能暂时定位负责情感色彩和兴奋程度的区域。”

针对后续研究,他们建议:使用带有标签的数据集,来判断音轨中情感的模糊程度;或者利用一个由大量未标记数据训练而来的无监督模型。 他们认为,这两种方法都能”显著提高”未来模型的预测准确性。

原文来自:venturebeat