智东西(公众号:zhidxcom)
文 | 李水青

智东西7月31日消息,今天,“第四期百度大脑开放日·NLP专场”深度解读了百度大脑在自然语言处理(NLP)方面的最新技术突破和开放能力,并邀请来自央视、国美和纵横文学的合作伙伴分享了相关应用创新。另外,百度大脑还公布了其3项新能力、8重产品服务升级及3款软硬一体新品。

据百度NLP处理部副总监忻舟介绍,百度大脑的ERNIE2.0工具致力于解决传统语义理解模型的数据稀疏、先验知识难融入等问题,据称在16个中英文任务上表现已优于BERT和XLNet。在NLP技术及应用的开放上,百度大脑智能创作平台2.0可以为创作过程节约大概80%的时间。

百度大脑自2006年启动开放以来,已有超过130万开发者使用,开放了超过210项核心技术能力,并面向广泛的企业和开发者,不断降低着AI应用落地的门槛。

本期百度大脑的更新主要包括3项新能力,8重大升级,3款软硬一体新品,另外其开放能力在服务部署层面上也有一些新的功能发布。

百度大脑开放日NLP专场:智能创作平台2.0可节约80%时间
▲第四期百度大脑开放日现场

一、百度大脑NLP技术及应用全景大观

在NLP技术及应用方面,百度大脑的最新技术进展主要集中在语义层面,包括语言理解、篇章分析和自动创作方面。百度大脑NLP技术及应用目前可提供30多项技术工具,囊括了文本审核、机器翻译、语言生成等多项能力,服务方式多样、灵活、可定制,含有多套场景技术方案。

百度大脑开放日NLP专场:智能创作平台2.0可节约80%时间
▲百度语言与知识技术布局

1、语义理解模型ERNIE 2.0:解决数据稀疏等问题,据称测试优于BERT

在语言理解层面,词法分析是基础工作,包括词汇、词性等维度的分析。“传统”语言理解模型以统计为主,将所有的可能都列出来,以寻求最有可能的路径。该方法主要考虑的是转移概率和发射概率。前者是指某个词以各种关系与其他词连接组合的概率,后者是指某个词作为某类词性使用的概率。

“传统”方法有三个严重问题,首先是数据稀疏,即未出现过的语料得不到预测。其次,先验知识难以与新的数据融合。最后,特征信息利用不充分,“传统”方法一般只会利用转移概率和发射概率进行分析。

百度大脑致力于解决“传统”语言理解模型的问题。

首先通过“词向量”来解决“数据稀疏”的问题。一个词能让人联想到很多信息,但计算机在处理时会损失很多信息,难以充分联系。百度大脑转而利用连续的稠密向量来囊括这些信息。其CBOW工具用一种简单但有效的词向量表示信息,其核心思想是,将一个词周围所有的词都利用起来“理解和描述”这个词。当词向量聚合为向量空间, 就能解决数据稀疏”问题。

然后,通过构建NLP任务充分利用上下文,理解文义。通过神经网络、transformer、循环神经网络等新技术,所有词向量的上下文也被利用进去,可以大大提高语义理解的准确度。解决了这个问题,我们就可以将NLP技术更好的应用到短文本相似度、情感识别、搜索结果优化等领域。

最后,利用预训练模型来解决信息利用不充分的问题。这个方法利用了“引力弹弓”效应,具体来说“流浪地球利用木星速度加上地球速度运行”就是利用了类似逻辑。人们常常面临标注数据太少,成本高难度大的问题,但有一些便宜的大规模在别的任务上标注的数据,团队希望能够把这些数据以“预训练模型”的方式也用上,于是ERNIE(知识增强的语义理解框架)应运而生。

百度大脑开放日NLP专场:智能创作平台2.0可节约80%时间
▲将预训练模型和新的特定模型结合起来

据称,ERNIE 2.0语义理解框架正是针对传统方法的主要问题。ERNIE2.0可通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识,目前累计学习超过10亿条知识,能与用户的少量数据结合起来使用。目前已在百度众多产品应用中显现效果。根据测试对比,ERNIE2.0在16个中英文任务上表现优于BERT和XLNet。

2、篇章分析:绘制关系图谱,搜素、交互多领域应用

百度大脑的篇章分析能力可以应用于较长的内容,涉及要素识别、关系抽取、文本结构化、知识发现等任务,可应用于医疗、法律、金融领域。

在篇章表示方面,百度大脑能够根据篇章绘制关系图谱。在对篇章的要素进行识别之后,机器会进行关系抽取和文本结构化处理,最后发现不同主体间的关系。

百度大脑开放日NLP专场:智能创作平台2.0可节约80%时间
▲通过篇章知识获取构建关系图谱

在阅读理解方面,百度大脑利用深度学习模型,可以对相关知识进行在线处理分析,可用于搜索、交互、推荐等领域。企业或个人只需要将文档上传到后台,点击在线训练以形成模型,便可以获得机器从上传文档中找到的提问答案。

当然,忻舟也表示,在实际应用中也可能会有机器对提问的回答不准的情况,这就需要用户进行手动标注,通过人工辅助做校正。这项技术也是在不断的迭代中走向成熟。

另外,百度大脑NLP工具还可以提炼摘要并生成播报。通过相关视频了解到,其播报可以对内容进行一些有“亲和力”的改进,比如会附加生成儿化音、拟声词等语音语调的改写。

3、自动写作:根据数据流创作,涉及创作及分发全流程

在自动写作方面,百度大脑NLP主要是根据数据流创作。相关工具可以根据文章聚合写作、诗词创作、多模创作。

在创作中,百度大脑NLP工具可以从数据流中获取触发事件的信息,然后经过“写什么”、“怎么写”及“如何呈现”等“思考”后输出内容,最后通过信息流、百家号及开放订阅等方式推送内容。

百度大脑开放日NLP专场:智能创作平台2.0可节约80%时间
▲百度大脑NLP自动写作框架

具体而言,在创作前,百度大脑NLP工具能够提供实时领域热点、地域热点信息,同时对TOP热点事件提供实时热度分析;创作中,能够预置素材数据,提供多模素材推荐,同时进行实时智能纠错;创作后,能够自动审校、自动标签分类,生成自动摘要,提供用词润色建议及多模发布功能。

据称,与人工撰稿相比,百度大脑NLP自动写作可以利用大数据对热点、素材进行更加迅速准确的抓取,对数据类、限定格式的文章更易把握。但是在形式多变、深度题材上仍有局限。

央视网技术事业群副总经理朱立松在会场发言表示,央视网已经与百度合作,推进智能创作进行快讯写作,利用智能分析功能辅助视频生成和后期编辑,借助智能审核工具和工审核结合以提高审核效率,等等。同时,NLP技术在抽象概念表现及先验知识的融入仍存在局限,因为央视报道会覆盖方方面面,迫切需要更多先验知识集成到系统中,让机器更有“常识”。

百度大脑开放日NLP专场:智能创作平台2.0可节约80%时间
▲央视网技术事业群副总经理朱立松

二、开放PaddleNLP、智能创作平台2.0等平台,使用门槛低

自2006年起,百度就开始进行语言与知识技术的开放发展,以降低技术使用门槛,使开发者也可以使用。

据调查,团队发现大多数开发者主要具有三大诉求,包括基于多个而非单个场景应用、灵活的应用实用性、效果的极致性。针对这些诉求,百度大脑构建了其语言与知识技术开放全景。

百度大脑开放日NLP专场:智能创作平台2.0可节约80%时间
▲百度大脑语言与知识技术开放全景

百度PaddleNLP是一款工业级NLP开源工具与预训练模型集,但是没有技术基础的人也可以上手使用。用户可以在官网下载包括应用网络层和应用预模型等文件包,运用到自己的模型训练。据称,目前,这项开源工具主要支持CV领域,而在NOP领域可支持一部分可用。

当有记者问道PaddleNLP能直接替换BERT吗,忻舟表示还需要代码转换,因为该模型是基于Paddle做的分布式训练。而在数据训练上则不用做太多改变,因为PaddleNLP底层原理与BERT相似。除了PaddleNLP,百度大脑还提供可定制的NLP技术。

另外,百度NLP技术是服务的每个接口都有免费的额度,零成本测试效果,对于个人账号来说赠送50万次调用量,对于企业赠送更多,200万调用量。这些是百度大脑提到的免费福利。

除了在技术上提供开源模型,百度大脑也在媒体内容平台上发力。百度大脑智能创作平台2.0可以为企业和个人提供智能创作助手,涉及机器自主创作和辅助创作。百度大脑智能创作平台在选题、素材、生成标题、脉络梳理、修改润色、审核、打标分类等多个环节都可以应用。

据称,该平台可以使创作过程整体节约80%时间,且平台接入成本较小。另外,除了在语义角度,百度大脑智能创作平台还会利用百度平台流量优势对分发进行优化。目前已有央视网、纵横科技等单位在使用该工具。

百度大脑开放日NLP专场:智能创作平台2.0可节约80%时间
▲百度大脑智能创作平台2.0

三、本期新动向:3项新能力,8重大升级,3款软硬一体新品

作为第四次开放日,百度大脑一如既往地对其新的能力和技术产品升级做了介绍。主要更新包括3项新能力,8重大升级,3款软硬一体新品,另外其开放能力在服务部署层面上也有一些新的功能发布。

百度大脑的三项能力更新主要集中在视觉方面。首先,能进行手部关键点识别,可以识别21个骨节点,应用于AR特效等领域。其次,能进行危险行为识别,应用于安防监控场景。最后,能对车辆图片分割,比如完成智能车辆抠图,可以应用在VR看车场景。

在服务部署方面,首先,人脸离线识别SDK升级到3.0版本,在此全新发布。升级后的人脸离线识别SDK特性:1.全流程耗时<300ms。2、活体通过率高于99.5%。3、接口数减少50%,但功能不变,目前已经可以下载使用。

然后,在人脸识别私有化部署上,适配了最新显卡,能够适配RTX2080系列,相对于P4硬件成本降低40%,单卡QPS也大大提高。

在语音自训练平台上,其在原有搜索模型、输入法模型的基础上,进一步支持了呼叫中心语音识别模型的自训练,支持智能客服场景实时语音识别和音频文件转写场景应用。智能创作平台也迎来了2.0版本的全新升级。

百度大脑开放日NLP专场:智能创作平台2.0可节约80%时间
▲百度大脑第四期开放日现场

在EasyDL平台上,已可以在数据服务方面提供智能标注,用户需要启动智能标注,系统会提示优先标注的图片,用户一键标注即可。在使用中,用户只需要人工处理30%的数据,就可以完成整个数据标注,目前主要支持模型检测数据的。据称,该平台可节约70%的数据标注成本。目前已有1.6万开发者,创建了超过35000个模型。

另外,在OCR方面,也有车牌识别、表格文字识别、行驶证识别等5款产品能力的提升。在人体分析和车辆识别方面,有人体关键点识别、人流量统计、驾驶行为分析3款产品上的能力提升。

除此之外,百度大脑还推出了3款软硬一体的新品。首先,EdgeBoard边缘AI计算盒全新发布,与EasyDL共同支持软硬一体方案。然后,全新的EasyDL开发套件,体积仅为38x38cm,预计价格在1000元以内。最后,新发布的全目标抓拍机,正式上架,适用于高精度远距离的监控场景。

百度大脑开放日NLP专场:智能创作平台2.0可节约80%时间
▲百度大脑推出的3款软硬一体的新品

在深度学习平台方面,源于产业实践的开源深度学习平台飞桨(PaddlePaddle)此次主要升级的内容包括:核心框架Paddle Fluid v1.5版本发布,PaddleNLP,PaddleCV,发布动态图,训练性能优化;工具组件PaddleHub新增29个预训练模型、发布图学习框架PGL Preview版。

AI Studio是基于飞桨(PaddlePaddle)的深度学习在线实训与教育平台。AI Studio全新功能升级包括:上线图形化编程,可用图形拖拽方式构建模型训练过程,并生成可执行代码方便学习和调整;NoteBook在运行监控等方面也进行了体验升级;在算力方面,GPU下配套环境的CPU升至8核, 内存升至32GB。

为了帮助开发者更好地上手和应用深度学习技术, 百度大脑AI Studio亿元算力支持计划也在进一步扩容, 增加更多的计算资源。同时,每年举办10余场赛事的百度AI Studio人工智能竞赛也在火热招募中,总奖金超百万元。

结语:百度NLP技术框架趋于成熟,应用于电商、影视等多领域

随着NLP技术的不断发展,其相关应用正变得日益丰富和成熟。从百度大脑NLP的技术框架和应用情况,我们能看到除了在相对常见的搜索、机器翻译、阅读理解方面NLP技术在不断提高,NLP技术也开始更为深入地切入工业场景,并在电商评论分析、视频策划制作、文学创作等领域发挥更大的商业价值。

国美零售控股管家技术总监高旭表示,国美与百度合作的“北斗项目”可以对用户评价进行分析,解决人工查看处理效率低、缺乏量化考核等问题。在利用百度大脑NLP技术之后,其负向问题处理率由60%提升到100%,售后师傅的差评率降低7%。

网络文学公司纵横文学产品总监张皓表示,百度大脑NLP技术已成为其文本审核助力,使得两个人可以处理五个人的工作。自定义词库、审核力度可自定义、监控维度丰富等特征非常实用。