人有很强的抽象性和联想性,比如一个由几个积木组成的乐高玩具,孩子很容易认出里面描述的场景即使只有几个像素,玩家也能轻松识别出是哪个角色
但是AI可能不容易识别。
不久前,一款知名品牌汽车被曝光,其自动驾驶系统无法像白色卡车箱一样识别墙一样的障碍物在自动驾驶中,行人和车辆被错过或没有及时发现,可能导致交通事故此外,安全方面遗漏危险人员和物品也可能导致安全隐患所有这些风险都表明AI视觉的安全性值得关注
最近,这项研究成果被AI峰会的ICCV 2021收集
扎克的研究源于购物和观看乐高玩具生成的灵感当时她有一个疑问:人眼是如何识别‘马赛克’玩具的还有早期的超级马里奥,虽然只是由几个简单的像素组成,但是人们可以正确的识别出这种抽象的表达AI模型能正确面对‘马赛克’画面吗
虽然我们期望AI模型拥有和人类一样的能力,抽象能力对于目前的AI模型来说显然是相当具有挑战性的相反,如果从对立样本的角度来考虑:有没有可能
那么对抗样本是什么呢。
对抗样本
对抗样本是指在原始图像X上添加一些故意制造的微小扰动,从而导致生成的图像无法被正确识别一般来说,反干扰被限制在一定的阈值内,以确保结果图像与原始图像几乎无法区分后续还有很多相关工作要进一步探索更多的攻击方式来生成计数器样本等属性,比如移动性
图1。反击攻击
对抗样本可能是特征
对抗样本提出后,提出了各种各样的防御工作,其中对抗训练是最有效的防御方法之一,但对抗训练中有一个非常明显的问题:鲁棒性和准确性之间总是有一个平衡点,即对抗训练提高了模型的鲁棒性,但也导致了模型准确性的下降为了解释这一现象,易勒雅斯等人对对抗样本的存在提出了一个假设:对抗样本不是一个bug,而是一组人类无法察觉的特征聚焦于人的感知,人类能够感知的特征是鲁棒特征,而其他特征是非鲁棒的例如,在图2的狗中,人类只会注意耳朵和鼻子等健壮的特征
图2。鲁棒特征和非鲁棒特征
易勒雅斯等人通过一组巧妙的实验表明,对抗样本实际上是模型从数据中学习到的特征的一部分虽然对人来说不易察觉,但对模型有预测意义受易勒雅斯等人工作的启发,Zach的研究团队试图从一个相反的角度讨论一个潜在的攻击机制:我们能否去掉一些对人来说很小,不易察觉但对模型决策很重要的特征,从而形成对抗样本
AdvDrop,通过丢失信息制作对抗样本
他们验证了这个猜想,实验过程如下:
图3。左边是AdvDrop,信息丢失越来越多,右边是PGD,抗噪声越来越多
在这项工作中,他们提出了一种生成对抗样本的新机制:我们扔掉一些不易察觉的图像细节来生成对抗样本,而不是添加对抗扰动两种相反机制的解释如图3所示相反,伴随着干扰幅度的增大,PGD产生的对抗样本越来越接近无序噪声
更详细的比较如图4所示相反,AdvDrop生成的对抗样本与原始图像相比,丢失了一些局部细节,表现为颜色精度下降
图4当地色彩丰富度为4
他们如何确定哪些区域会丢失。
为了确定哪些区域的图像信息丢失,并确保细节不易察觉,他们提出了一种通过优化量化表来选择丢失信息区域和丢失信息量的方法此外,为了保证丢失的细节仍然不被人察觉,需要通过离散傅里叶变换将图像从RGB变换到频域,然后使用量化表在频域量化一些信息与RGB相比,频域运算的优势在于可以更好地将细节信息与结构信息分离开来,因此可以保证抛出的细节让人察觉不到
图5。AdvDrop算法流程
整个过程如图5所示,可以定义为:
其中,D和分别代表离散余弦变量环和逆变换,代表一个可微量化过程。
通常的量化可以定义为:
但是量化函数不能微分,对优化过程影响很大。因此,Zach的研究团队参考了龚等人的工作,通过引入可控tanh函数,逐步逼近阶梯量化函数,因此:
它的斜率可以通过来调节。如下图所示,在量化函数可以被微处理之后,梯度可以被更精确地传播回来,从而可以更精确地估计和量化丢失信息的位置
的大小。
图 6. 不同 alpha 下 tanh 函数对量化函数的逼近程度
结果评估
用 lpips 比较 AdvDrop 及 PGD 在相同信息量变化下的视觉得分:从对抗样本的不可感知角度来说,在同样的感知得分下,丢信息操作允许操作的信息量要比加干扰允许的更大。从人类视觉上来说,相比于加噪,人眼对于局部平滑其实更为不敏感,从图 7 可见,伴随着量化表阈值的增大,AdvDrop 生成的对抗样本的局部细节越少,例如蜥蜴鳞片的纹理:
图 7. 不同预知下的攻击结果展示
从成功率上来说,无论是在目标攻击还是无目标攻击的设定下,AdvDrop 有相当高的成功率来生成一个对抗样本在目标攻击下,最高可以达到一个 99.95% 成功率但相比于传统加噪的对抗攻击生成方式 可以轻易达到 100% 的成功率来说,依然是强度较弱的
我们觉得 AdvDrop 强度方面的局限可能来自于两方面:一方面是由于量化这样的方式,另一方面,减信息可以操作的空间相比于加信息的空间来说要小很多。
他们也评估了 AdvDrop 在不同防御下的表现目前主流防御方式主要分为两种,一种是对抗训练 ,另一种是基于去噪的防御方式研究发现 AdvDrop 生成的对抗样本对于现阶段防御方式来说仍是一个挑战,尤其是基于去噪的防御方式
但是对于用 AdvDrop 生成的 对抗样本来说,其本身就是由于部分特征丢失而导致的错误识别,而去噪操作甚至会加剧这种由于丢失而无法识别的问题
图 8. AdvDrop 和 PGD 在 Denoise 操作下的细节展示
除了防御的角度,考虑到很多数据都是从网上收集而来,而网络传输中往往存在数据压缩过程,所以通过 AdvDrop 生成的对抗样本可能更耐传输当然,另一个角度来想,也有可能对于正常图像数据来说,一些正常的数据压缩也许不经意间就引入了对抗样本
总结
这意味着,针对打码攻击,难以有防御措施
该工作也展示了 AI 模型另一个角度的局限性:对重要细节丢失的稳健性。
在这个工作中,仅仅探索了在频域上丢信息的操作,通过其他丢信息方式来生成对抗样本都是可以值得尝试的未来工作。
越丰认为,这对当前内容安全场景的 AI 识别而言,都是不小的挑战
越丰举例道,AI 安全行业应该警惕这种类型的对抗
当然,致盲 AI不是研究人员的目标,研究人员最终还是想发现 AI 模型的脆弱性,进一步提升 AI 安全在 AI 安全前沿技术上进行探索,一是为了让 AI 更安全,二是为了让 AI 助力安全,三是为解决具体社会问题寻找提效的新途径阿里安全图灵实验室负责人薛晖提醒,相比事后弥补,安全应前置,从源头守卫安全,对前沿技术进行研究布局,以科技创新造就最好的网络安全
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。