Facebook公开多项AI审核新利器!反“仇恨言论”征途虽远必达

智东西(公众号:zhidxcom)
编译 |  子佩
编辑 |  Panken

智东西11月20日消息,一直以来,Facebook都极力阻止社交平台上仇恨言论和错误信息的传播,但效果却往往不佳。本周四,Facebook在其官网上发表了《社区标准执行报告》,公开了近期对抗仇恨言论的“战果”,也展示了正在以及即将投入使用的AI审核工具。

Facebook公开多项AI审核新利器!反“仇恨言论”征途虽远必达

▲Facebook《社区标准执行报告》

Facebook首席技术官Mike Schroepfer指出,去年的许多措施,已经在打击仇恨言论方面体现出积极作用。2020年第一季度,Facebook识别并处理了平台上近960万条内容,几乎是上个季度(570万条内容)的两倍。

Facebook公开多项AI审核新利器!反“仇恨言论”征途虽远必达

▲2019Q2-202Q3 检测出来的负面内容数量

“从去年第三季度到今年第三季度,Facebook自动检测系统,检测并删除负面内容的数量增长达三倍以上(从690万到2210万条内容 )。”Schroepfer周三在视频会议中表示,“一个成熟的检测系统,能在短短一年内,检测数量翻三倍,我认为是非常不错的成果。”

Facebook上的技术成果同样迁移到了旗下的Instagram中。

上个季度,Instagram也同样进行了大量的负面内容检测工作,在速度翻倍的情况下,识别准确率达到了95%。

一、AI模型架构Linformer,“并行”提速减消耗

可以确定的是,由于不同时期的负面内容基数不同,仅用删除条数多少来评价AI审核工具的进步是不准确的。Schroepfer也提到:“像在2019年第四季度,就不会存在关于新冠肺炎的错误信息,也不会大量由选举引起的争议言论。但即使负面言论基数的不同,在整体评估下来,我们的AI审核工具也是有很大的进步的。”

现在Facebook披露的AI审核工具包括半监督式自学习模型和语言模型XLM-R,而在周四的报告中,Facebook还提到另外两项技术:AI模型架构Linformer和语言分类器RIO。

简单来说,Linformer可以通过自动为文本贴上标签,从而分析社交平台上内容是否带有负面信息。通过在XLM-R等大型语言模型中大规模部署Linformer,Facebook可以快速优化其负面信息识别过程。

相比递归神经网络,Linformer使用的是更适用于自然语言处理领域的Transformer体系结构。Transformer结构的优势之一就是可以并行处理数据,从而加快训练模型的速度,而缺点就是,随着输入数据长度增加,Transformer结构也会占用大量资源去满足内存和计算的需求。

但在研究人员设计架构中,Linformer就规避了这个缺陷,要求系统所用资源和输入数据量保持线性关系,从而强制要求系统以更少资源处理更多数据。

二、基于强化学习,RIO动态寻找“仇恨言论”最优解

另一项新技术称为RIO(Reinforced Integrity Optimizer),本质上是一个基于强化学习的语言分类器,指导AI模型在数百万内容中学习,并树立奖励指标,迫使模型在学习过程中达到奖励指标,从而实现优化目的。

Facebook公开多项AI审核新利器!反“仇恨言论”征途虽远必达

▲RIO架构示意图

与之前只在固定数据集中进行训练的分类器不同,RIO需要不断适应一个动态变化的环境,使模型逼近不停变化的最优解。

“在传统的AI驱动系统中,预测和执行是两个单独的步骤。AI模型会预测内容是仇恨言论还是煽动暴力,然后会由其他系统判断是否要采取行动,如删除、标记或将其发送给审查人员……这种方法最大的缺点是,即使一个模型识别仇恨言论准确率极高,但这只是这个阶段、这个时期的表现,无法保证下一时期,相同的模型还能做得这么好。” Facebook在博客中解释道,“但有了RIO,我们不仅可以获得动态训练数据,还能减少训练、修正模型的时间精力。”

随着RIO继续生成越来越准确的分类器,它将使Facebook审核团队拥有更多的余地来贯彻社区准则。

这些用于反负面言论的AI技术也会进一步“洁净”社交平台。

Schropfer说道:“识别仇恨言论的难点就在于,不同时期使用的词是不同的,会导致传统分类器难以识别。基于强化学习的内容分类器非常有用,正是因为它可以敏锐地识别出不同主题下的仇恨言论。”

结语:全智能识别尚有距离,“仇恨言论”之战尚未结束

Facebook在过去的五年时间里一直在开发自动检测和审核系统,但目前来看,这场与“恶势力”的斗争仍在继续。 

今年早些时候,Facebook以5200万美元与11000名曾在Facebook平台遭受网络暴力的用户达成和解。本周早些时候,有用户向Facebook管理层发出了一封公开信,称Facebook作为平台维护方,所谓的社区准则并没有保障用户们的心理健康,而距离开发出完全智能的AI系统尚有数年之遥。

Schroepfer总结道:“我们的目标是继续推动‘反仇恨言论’技术的发展,以便希望在某个时候,我们社区准则能被完全地贯彻下去。”

来源:VentureBeat、IEEE Spectrum、Engadget