IBM亚马逊研发对抗攻击模型,撕破有害信息的伪装!

智东西(公众号:zhidxcom)
编 | 王颖

导语:研究人员研发新算法,能够对抗释义攻击问题,帮助建立更准确的文本AI模型。

智东西4月2日消息,在昨日斯坦福大学举行的SysML AI会议上,来自IBM、亚马逊和德克萨斯大学的研究人员展示了一种对抗“释义”攻击的通用框架,用以解决恶意软件钻文本分类算法漏洞、躲避有害信息筛查的问题,帮助建立更稳健的文本AI模型。

其研究论文名为《离散攻击和子模块优化在文本分类中的应用(Discrete Attacks and Submodular Optimization with Applications to Text Classification)》,于2018年12月1日提交。

IBM亚马逊研发对抗攻击模型,撕破有害信息的伪装!

由于自然语言处理(NLP)技术的进步,越来越多的公司和组织开始使用人工智能算法来执行与文本相关的任务,比如过滤垃圾邮件、分析社交媒体帖子和在线评论的情绪、评估简历和检测假新闻。AI算法可以用来评估电子邮件的文本,将其归类为“垃圾邮件”或“非垃圾邮件”。

然而,有些恶意行为者开始通过使用工具,在不修改文本核心意思的前提下,篡改即将输入到AI模型的文本内容,导致文本分类算法错将垃圾文本归类于非垃圾文本,而人们仍能从这条被误筛的信息时中读出和原文无异的垃圾信息。这一恶意行为被称之为“释义攻击(paraphrasing attacks)”,也就是本文中研究者们试图解决的核心问题。

一、对抗释义攻击比图像和音频攻击更难

在过去几年,一些研究小组已经从多种探讨了关于对抗攻击的方方面面,修改输入数据会导致AI算法对图像和音频样本进行错误分类,而人类感官最终接收到的信息仍是原信息。

人工智能研究员、语言模型专家Stephen Merity表示,音频和图像与文本相比有很大的差异性。例如,图像分类算法可以通过逐渐更改像素的颜色,观察这些修改如何影响模型的输出,这可以帮助研究人员找到模型中的漏洞。

由于文本具有离散性,所以相比图像和音频算法更难攻击。IBM的研究员Pin-Yu Chen表示,对于图像和音频,进行对抗干扰是有意义的,但对于文本来说,即使只是对一个摘要的一两个词做一些小小的修改,也很难让AI模型流畅的读给人类。释义攻击就是这些攻击的文本等价物。

二、修改内容但不改原义的典例

过去,针对文本模型的对抗攻击(adversarial attacks)研究,主要是改变句子中的单个单词。虽然这种方法成功地改变了AI算法的输出,但它经常导致修改后的句子听起来像是人为修改的。Pin-Yu Chen和他的同事们除了关注单词的改变,更希望通过改写句子和以有意义的方式改变更长的序列。

对抗释义攻击的研究,通过创建与目标句子语义相似的序列,来为攻击提供更大的空间,并观察模型是否将它们归类为原始句子。

IBM 研究所的科学家Lingfei Wu表示,他们的研究人员开发了一种算法,可以在非常大的空间中搜索单词和句子,目前这是最佳的搜索方式。通过修改搜索的内容,可以对AI模型的输出产生很大影响。这种算法的主要难度是,确保文本的修改版本在语义上与原始版本相似。在该空间中找到最佳对抗示例非常耗时,但该算法具有计算效率,并且提供了理论上的保证。

此项研究中,研究人员还提供了改变情绪分析算法,假新闻检测器和垃圾邮件过滤器行为的修改示例。例如,在一份产品评论中,只要把”定价比一些大牌集团便宜”这句话换成”价格比下面的一些大牌更便宜”,评论的情绪就从100%正面变为100%负面。

三、释义攻击成功的关键:易被人类忽视

释义攻击成功的关键在于它们是人类难以察觉的,因为它们保留了原始文本的语境和意义。Lingfei Wu说:“我们将原始段落和修改后的段落给了人类评估员,他们很难看到语义上的差异。但对于机器而言,它完全不同。”

Stephen Merity指出,人类每天都会处理错误的输入,所以让人类去正确检测出此类攻击是不合适的。对我们来说,错误的输入只是一些不连贯的句子,当人们现在看到拼写错误时,并不认为这是一个安全问题。所在不久的将来,释义攻击可能是我们必须应对的严重问题。

释义攻击和对抗攻击(adversarial attacks)将引发新的安全风险,许多科技公司依靠自动化决策对内容进行分类,它无法实现人与人之间的互动,这使得整个过程很容易受到攻击。除了我们将会发现的逻辑漏洞,它还将与数据泄露同时发生。

四、对抗释义攻击技术构建更准确模型

研究人员发现,通过对抗释义攻击(reversing paraphrasing attacks),他们可以构建更健壮,更准确的模型。

在生成一个模型错误分类的释义句子之后,开发人员可以用修改过的句子和正确的标签对其重新进行训练。这将使模型能更准确、更具弹性的抵御释义攻击。

研究人员表示,对抗攻击是这个项目中得到的惊人发现,这种方法不仅可以提高模型的稳健性,而且是一种可以提高模型能力的很好的泛化工具。

研究人员在对抗训练前后测试了不同的单词和句子模型,在所有案例中,测试活动模型的表现和对抗攻击的能力都有所提高。

论文链接:https://arxiv.org/pdf/1812.00151.pdf

原文来自:VentureBeat