Facebook公开多项AI审核新利器！反“仇恨言论”征途虽远必达

智东西（公众号：zhidxcom）
编译 | 子佩
编辑 | Panken

智东西11月20日消息，一直以来，Facebook都极力阻止社交平台上仇恨言论和错误信息的传播，但效果却往往不佳。本周四，Facebook在其官网上发表了《社区标准执行报告》，公开了近期对抗仇恨言论的“战果”，也展示了正在以及即将投入使用的AI审核工具。

Facebook公开多项AI审核新利器！反“仇恨言论”征途虽远必达

▲Facebook《社区标准执行报告》

Facebook首席技术官Mike Schroepfer指出，去年的许多措施，已经在打击仇恨言论方面体现出积极作用。2020年第一季度，Facebook识别并处理了平台上近960万条内容，几乎是上个季度（570万条内容）的两倍。

Facebook公开多项AI审核新利器！反“仇恨言论”征途虽远必达

▲2019Q2-202Q3 检测出来的负面内容数量

“从去年第三季度到今年第三季度，Facebook自动检测系统，检测并删除负面内容的数量增长达三倍以上（从690万到2210万条内容）。”Schroepfer周三在视频会议中表示，“一个成熟的检测系统，能在短短一年内，检测数量翻三倍，我认为是非常不错的成果。”

Facebook上的技术成果同样迁移到了旗下的Instagram中。

上个季度，Instagram也同样进行了大量的负面内容检测工作，在速度翻倍的情况下，识别准确率达到了95%。

一、AI模型架构Linformer，“并行”提速减消耗

可以确定的是，由于不同时期的负面内容基数不同，仅用删除条数多少来评价AI审核工具的进步是不准确的。Schroepfer也提到：“像在2019年第四季度，就不会存在关于新冠肺炎的错误信息，也不会大量由选举引起的争议言论。但即使负面言论基数的不同，在整体评估下来，我们的AI审核工具也是有很大的进步的。”

现在Facebook披露的AI审核工具包括半监督式自学习模型和语言模型XLM-R，而在周四的报告中，Facebook还提到另外两项技术：AI模型架构Linformer和语言分类器RIO。

简单来说，Linformer可以通过自动为文本贴上标签，从而分析社交平台上内容是否带有负面信息。通过在XLM-R等大型语言模型中大规模部署Linformer，Facebook可以快速优化其负面信息识别过程。

相比递归神经网络，Linformer使用的是更适用于自然语言处理领域的Transformer体系结构。Transformer结构的优势之一就是可以并行处理数据，从而加快训练模型的速度，而缺点就是，随着输入数据长度增加，Transformer结构也会占用大量资源去满足内存和计算的需求。

但在研究人员设计架构中，Linformer就规避了这个缺陷，要求系统所用资源和输入数据量保持线性关系，从而强制要求系统以更少资源处理更多数据。

二、基于强化学习，RIO动态寻找“仇恨言论”最优解

另一项新技术称为RIO（Reinforced Integrity Optimizer），本质上是一个基于强化学习的语言分类器，指导AI模型在数百万内容中学习，并树立奖励指标，迫使模型在学习过程中达到奖励指标，从而实现优化目的。

Facebook公开多项AI审核新利器！反“仇恨言论”征途虽远必达

▲RIO架构示意图

与之前只在固定数据集中进行训练的分类器不同，RIO需要不断适应一个动态变化的环境，使模型逼近不停变化的最优解。

“在传统的AI驱动系统中，预测和执行是两个单独的步骤。AI模型会预测内容是仇恨言论还是煽动暴力，然后会由其他系统判断是否要采取行动，如删除、标记或将其发送给审查人员……这种方法最大的缺点是，即使一个模型识别仇恨言论准确率极高，但这只是这个阶段、这个时期的表现，无法保证下一时期，相同的模型还能做得这么好。” Facebook在博客中解释道，“但有了RIO，我们不仅可以获得动态训练数据，还能减少训练、修正模型的时间精力。”

随着RIO继续生成越来越准确的分类器，它将使Facebook审核团队拥有更多的余地来贯彻社区准则。

这些用于反负面言论的AI技术也会进一步“洁净”社交平台。

Schropfer说道：“识别仇恨言论的难点就在于，不同时期使用的词是不同的，会导致传统分类器难以识别。基于强化学习的内容分类器非常有用，正是因为它可以敏锐地识别出不同主题下的仇恨言论。”

结语：全智能识别尚有距离，“仇恨言论”之战尚未结束

Facebook在过去的五年时间里一直在开发自动检测和审核系统，但目前来看，这场与“恶势力”的斗争仍在继续。

今年早些时候，Facebook以5200万美元与11000名曾在Facebook平台遭受网络暴力的用户达成和解。本周早些时候，有用户向Facebook管理层发出了一封公开信，称Facebook作为平台维护方，所谓的社区准则并没有保障用户们的心理健康，而距离开发出完全智能的AI系统尚有数年之遥。

Schroepfer总结道：“我们的目标是继续推动‘反仇恨言论’技术的发展，以便希望在某个时候，我们社区准则能被完全地贯彻下去。”

来源：VentureBeat、IEEE Spectrum、Engadget

一、AI模型架构Linformer，“并行”提速减消耗

二、基于强化学习，RIO动态寻找“仇恨言论”最优解

结语：全智能识别尚有距离，“仇恨言论”之战尚未结束

相关推荐