智东西(公众号:zhidxcom)
编 | 董温淑
智东西3月31日消息,脑机接口研究又有新进展!美国加州大学旧金山分校研究人员研发了一种新型机器翻译算法,能以较高准确率解码脑神经活动,并将其翻译成文字,转录错误率低至3%,可媲美专业的语音转录算法。
该研究30日发表在英国《自然-神经科学(Nature Neuroscience)》杂志上,论文题目为《翻译大脑(Translating the brain)》。
对于失去语言能力但认知完整的人(比如中风病人)而言,这一研究为他们带来了像正常人般顺畅交流的希望。
论文链接:https://www.nature.com/articles/s41593-020-0616-8
一、转录之难:表达过程复杂,表述方式多样
大约在10年前,一些学者已在进行脑机接口相关研究。然而多年过去,脑机接口在解码神经活动方面普遍存在速度慢和准确率低的问题。
据论文介绍,此前的解码模型错误率高至约60%。
1、语言表达过程复杂,难以切入
语言表达本身是一个复杂的过程:
首先,大脑要确定想要表达的意思,并在表达的过程中对语义进行不断修正。
然后,大脑要选择与语义相匹配的词汇。当然,人类掌握了语言能力后,可以在说话或写文章时自然而然地进行选择。
最后,当组织好了语言,大脑会安排肌肉群来发声。
面对这个过程,解码模型很难找到合适的切入点来完成转录。
2、表达方式丰富,难以准确转录
除了语言表达过程本身的复杂性,脑机接口还受到表达方式的影响。说话时,多个不同的音节组成单词、不同单词再造成句子。
在这个过程中,不同的口音、口误及其他听觉问题都会对转录结果造成影响。多样的表达方式、难以理解的表达错误大大提升了计算难度。
二、受翻译软件启发,实验验证错误率仅3%
此次研究中,美国加州大学旧金山分校的神经外科研究员约瑟夫·马金(Joseph Makin)及其同事借助机器翻译方法,训练了一种循环神经网络,将大脑神经信号直接映射成句子,平均错误率仅有3%。
1、从翻译软件获得灵感
根据论文,研究人员是从翻译软件中获得了启发。
翻译软件的工作原理是先从句子层面对文本加以理解,根据语境推测出句子的意思,再根据语义排除歧义词的影响。翻译过程中,软件会先将文本处理成一种过渡形式,从中提取意义,再倒推文字应该是什么。
马金教授团队认为,解码神经活动也可以借鉴文本翻译过程,先将神经活动处理为过渡形式,再解码为语言。
论文写道:“为了获得更高的准确度,我们利用解码语言神经信号与机器翻译的相似之处,他们都是从一种语言向另一种语言的算法翻译。从概念上讲,这两件事的目标都是在同一基础分析单元的两种不同表达之间建立联系。”
为了实现这种设想,研究人员计划先将神经信号转化成各自独立的单词,而不是语序通顺的语法模块。这样就可以在不扩大词汇量的情况下获得更高的准确度。
2、4位癫痫患者参与测试,转录错误率仅3%
为了验证设想,研究团队用两种不同的神经网络和颅内电极制作了一个解码器模型,并邀请了4位女性癫痫患者来参与实验。
实验之前,研究人员在受试者大脑中植入颅内电极,以监测她们的脑电波。
实验过程中,每位受试者被要求在40分钟内阅读一组句子,每组句子重复两次。据了解,每组句子约有30~50个句子,最多包含250个不同的单词。
受试者朗读的同时,研究者记录了她们的大脑神经活动。
朗读完后,研究人员将受试者的神经活动记录,以及阅读的录音输入一个循环神经网络数据库。该神经网络会对实验数据进行梳理,寻找元音、辅音等与语言相关的信号。通过比较相似之处,数据库会识别出受试者阅读同一句话的脑电波。然后,该数据库会捕捉这些与语言相关的信号,将它们处理成一个过渡形式。
最后,这个过渡形式将被发至第二个神经网络。第二个神经网络系统会把过渡形式转换成单词,进而组成句子。
在这一过程中,算法并没有记忆受试者说某个句子时的脑电波。马金教授解释说,每当一个人说同一个句子时,大脑活动是相似的,但并不完全相同,“记忆这些句子对大脑活动不会有帮助,所以网络必须去学习它们的相似之处,以便它最后能概括出这个例子”。
研究人员发现,在这四名女性之中,模型的平均错误率仅有3%,几乎达到了专业语音转录算法的准确率。考虑到仅进行了少量训练,它达到的准确率已经算是十分优秀。
3、经过迁移学习,模型准确率再提高
除了对固定的几组句子进行实验,研究人员还训练模型进行了各种形式的迁移学习。
例如,一位受试者说了一组在之前测试中没有使用过的句子。经过训练,模型的转录错误率下降了30%。另外,研究人员还根据两位用户提供的数据对模型进行了训练,最终模型的单词错误率低于8%,与人工翻译的错误率相当。
这些迁移学习具有重要意义:
一方面,它说明了该模型的模块化特征可以让它在源于文本的中间表征上进行训练,而不是在任何时候都需要神经记录。尽管在最初,这种做法可能会导致解码错误率增加,但长远来说,这将使模型适宜于在更多情况下使用。
另一方面,这也表明了这个模型最终也可以为实验受试者以外的人群服务,比如那些丧失发声能力的人。此外,个人所需的训练时间也将大大减少。
三、词汇量少,训练时间短,模型仍有局限性
尽管这个模型在实验中的准确率较高,但是它距离实际应用的要求仍有距离。
目前,模型能够识别的语言还十分有限。研究人员在论文中坦承了这一点:“尽管我们希望解码器能够学习并利用语言的规律性,但是我们也知道从实验中的少量语料扩展到常用英语还需要很多数据。”
伦敦大学学院的索菲·斯科特(Sophie Scott)也认为距离实现全面翻译大脑信号数据还有很长的路要走,“他们实验中使用的语言是非常有限的。”她说到。
如果要做到为语言障碍者弥补语言能力,则“至少是几年以后的事了。”马金博士接受采访时说。
另外,目前该解码模型的安全性也还未经验证,植入人体仍需谨慎。
结语:研究仍在继续,语言障碍患者或能从中受益
研究人员表示,他们将在之后的研究中继续扩展这个模型的词汇量和灵活性。迁移实验的结果也说明了解码模型还具有很大的发展潜力。
或许在未来,语言障碍患者可以通过植入这一类系统而获得“说话”的能力,让我们拭目以待。
文章来源:Ars Technica,Inverse,BBC,NewScientist