谷歌开源自然语言理解技术SyntaxNet 人工智能要提速了

智东西(公众号:zhidxcom)
文 | 海中天

如果你命令Siri将闹钟定在早上5点,它就会设定在5点。如果你问她,哪种治痛药可以让你的胃不再疼痛,她就无计可施了,因为情况太复杂了。Siri离计算机科学家所描述的“自然语言理解”还有很远的距离,尽管苹果在电视广告中将她描绘得出类拔萃,实际上她无法真正理解人类说话的“自然形式”。我们在谈论Siri时根本不能称其为“她”。Siri的个性只是一种营销手法,它是苹果自己炮制的,而且不怎么让人信服。

难道虚拟助手永远无法模拟人类吗?不是的。科技巨头、创业公司、大学的许多研究人员都在推动计算机朝着真正理解自然语言的目标前进。技术越来越先进,深度神经网络功不可没——网络可以将硬件软件连接起来,模拟大脑的神经网。

谷歌开源自然语言理解技术SyntaxNet 人工智能要提速了

谷歌在深度神经网络研究方面领先,它已经将技术应用在搜索引擎、Siri式Andorid语音助手中,今天,谷歌向业界传达一个信号:深度神经网络将在未来扮演很重要的角色。谷歌开放了构成自然语言研究根基的软件,与世界分享它。在科技世界,这种策略很管用。企业放弃一部分重要的成果,推动市场前进。

开放的软件叫作SyntaxNet,在神经语言研究者眼中,它的句法解析器相当知名。SyntaxNet利用神经网络解析句子,尽力理解每一个词汇扮演什么角色,组合在一起又是什么意义。系统试图确定底层语法逻辑——什么是名词、什么是动词、主语是什么、它和宾语是怎么联系的——最终,系统利用这些信息来提取句子的主旨,只是它要用机器可以阅读操作的形式来提取。

谷歌研究主管佩雷拉(Fernando Pereira)负责指导公司的自然语言理解工作,他说:“和没有深度学习的时候相比,现在的精准度大大提高了。”照他的估计,工具让公司的错误率降低了20至40%。

谷歌开源自然语言理解技术SyntaxNet 人工智能要提速了

分享软件

谷歌之外的一些研究人员认为,和竞争对手相比,SyntaxNet也许没有太大的飞跃,但是它肯定是同类系统中最先进的。谷歌曾经发表研究报告通报自己的研究工作。华盛顿大学计算机教授、自然语言理解专家诺亚•史密斯(Noah Smith)表示:“报告的结果很好,它让我们的研究前进了一点点。有许多人还在继续研究这个问题。”最吸引人的可能是谷歌持续开放类似的工具。

通过分享SyntaxNet,谷歌的目标是加速自然语言研究的进展,当年它还曾开放软件引擎 TensorFlow ,该引擎可以加快AI研究的速度,谷歌开放的目的大体一致。

毫无疑问,通过类似SyntaxNet的技术,谷歌希望可以让计算机进行真正地对话。与谷歌在同一领域竞争的有苹果Siri,还有其它计算机系统,谷歌想让世界知道自己的技术有多好。

谷歌开源自然语言理解技术SyntaxNet 人工智能要提速了

让数字助手无处不在

在个人虚拟助手研发中,谷歌并不孤单。微软已经拥有数字助手Cortana,亚马逊在语音驱动的Echo上获得成功。还有许多创业公司参加竞赛,比如最近推出的Viv,这家公司是Siri设计者创办的。Facebook的野心更大,它推出了Facebook M。

尽管许多明星企业正在努力解决此问题,但数字助手和聊天机器人远远称不上完美。为什么?因为处理自然语言理解的底层程序离完美还很遥远。Facebook M部分依赖AI,但更多还是靠真人来协助完成复杂的任务。谷歌研究主管佩雷拉说:“我们离目标还很遥远。”

事实上,佩雷拉将SyntaxNet描述为垫脚石,它指向的目标更庞大。佩雷拉认为句法分析只是根本,要让SyntaxNet输出结果、真正明白意思还需要许多其它的技术。谷歌开放工具,部分原因是想激励社区不要将眼光局限于句法分析。

佩雷拉称:“我们希望鼓励研发社区——以及每一个从事自然语言理解工作的人——朝句法之外前进,朝着更深的语义推理前进,语义推理很有必要。我们只想告诉他们:‘不要担心句法分析,你可以将它作为一种馈赠,现在可以探索更难的问题了。’”

进入深度神经网络

使用深度神经网络,SyntaxNet和相似的系统可以将句法分析提升到新的水平。神经网络分析海量数据。在SyntaxNet中,神经网络可以通过分析数百万个句子来理解句子的意思。人类细心为句子贴上标签,仔细检查各种例句,小心确定每一个词扮演的角色。通过分析所有带标签的句子,系统就可以在其它句子中确定相似的特征。

虽然SyntaxNet是面向工程师、AI研究人员的工具,但是谷歌还分享了预构建自然语言处理服务,它已经用系统训练过。谷歌管它叫Parsey McParseface,它专门针对英语进行过训练。谷歌介绍说,用Parsey McParseface识别一个词汇与句子其它部分的关系时,94%是准确的,公司相信这样的精准度已经和人类很接近了(96-97%)。

史密斯认为,类似的数据集是存在限制的,因为它像《华尔街日报》的说话方式一样。“这是一种非常特殊的语言。” 史密斯解释说,“它和人们理解的大多语言并不相同。”研究者希望最后可以在更广泛的数据——直接来自于互联网——上训练系统,但是训练的过程更困难一些,因为人类在互联网上使用许言的方式太多了。当谷歌用此类数据集训练自己的神经网络时,精准度降到了大约90%。研究还有很远的路要走,训练的数据并不好。问题的难度提高。史密斯还说,除了英语,其它语言的研究还没有走太远。

换句话说,要让数字助手像我们身边的真人一样还不现实,但我们正在朝目标靠近。谷歌研究主管佩雷拉称:“要让系统具备人类一样的能力,我们还很遥远,但是我们正在开发更精准的技术。”

谷歌开源自然语言理解技术SyntaxNet 人工智能要提速了