数据要素产业
尴尬!OpenAI惊现大漏洞,一张手写纸条竟瞒过计算机视觉系统
作者 | Carol
出品 | CSDN(ID:CSDNnews)
第一反应:这字是什么颜色?
正确答案:这两个字的颜色是黄色。
有没有第一反应是“红色”的小伙伴?恭喜你,你阅读文本的能力欺骗了你的大脑。
近日,机器学习实验室OpenAI的研究人员发现,他们最先进的计算机视觉系统可以被简单工具所欺骗:只要写下一个物体的名称贴在另一个物体上,就足以欺骗AI软件,让其“眼见不一定为实”。
“不想当iPod的苹果不是好苹果”
这个工具有多简单呢?只需要一张纸和一支笔。
OpenAI研究人员做了个小实验,用笔在纸上写下“iPod”这个单词,然后将纸贴在一个能吃的澳洲青苹果上,随即CLIP系统没有识别出这是个苹果,而是将它识别为“iPod”。
从下图可以看出,在没贴纸条之前,系统成功识别了“澳洲青苹果”,准确度达到85.6%;而在贴了“iPod”纸条之后,系统将苹果识别为iPod,显示的准确率竟然高达99.7%!
真是一个“有上进心”的苹果。
在另一个实验中,研究人员分别在一张贵宾犬照片和一张链锯的照片上加上了几个美元的符号,最终系统都将它们识别为“小猪存钱罐”。
这意味着在其他物品上覆盖“$$”字符串,也可以欺骗CLIP将其识别为存钱罐。
只要几个简单的文本符号就骗过了AI?这到底是怎么回事?
排版攻击
经过研究,OpenAI的研究人员将这些攻击称为【排版攻击】:即使是手写文字的照片,基于模型强大的读取文本能力也能够“欺骗”模型,核心在于CLIP的“多模态神经元”,多模态神经元能够对物体的照片、草图和文本做出反应。他们还指出,这类攻击相当于可以欺骗商业机器视觉系统的“对抗性图像”,但制作起来简单得多。
对抗性图像对于依赖机器视觉的系统来说非常危险。此前有研究人员已经证明,他们可以通过在路面上贴上某些标签,在没有警告的情况下成功欺骗特斯拉自动驾驶汽车的软件改变车道。
如此重大的攻击只需要简单贴几个标签就完成了,对于如今已经广泛采用人工智能技术的领域来说是很危险的,如果这种攻击用于医疗、军事等领域,那将会造成非常严重的威胁。
幸好,OpenAI软件目前还是CLIP的一个实验系统,还没有部署在任何商业产品上,不会被广泛使用造成攻击风险。
“抽象的谬误”
OpenAI之所以检测出这样的漏洞,是源于CLIP不同于寻常的机器学习架构性质,正如文章开头的“红色”图片,有时候也会误导人类的大脑。
所以像OpenAI这类软件在同样的能力让程序能够在抽象层面上将文字和图像联系起来,就会造成了排版攻击得以成功的弱点。OpenAI将其描述为“抽象的谬误”。
根据近期OpenAI发表的新论文,研究人员发现所谓的“多模态神经元”不仅能对物体的图像做出反应,还能对素描、漫画和相关文本做出反应。
惊喜的是,这似乎反应了人类大脑对刺激的反应,因为已经观察到单个脑细胞对抽象的概念而不是具体的例子做出反应。虽然这种能力还处于初级阶段,但OpenAI这个研究很可能表明人工智能系统有望像人类一样内化知识。关于防止对抗攻击这件事,CLIP还需要继续努力。
“多模态神经元”加速AI可解释性
“多模态”指的是单个神经元对特定的照片、草图甚至文本产生反应,所有不同的“模式”都可以被归为一个单一的概念。
根据CLIP最新研究表示,可靠的计算机视觉是众多人工智能应用的基石,但神经网络识别图像的有效性只有在其不可穿透性的基础上才能与之匹敌。这项研究有望让科学家们窥探计算机视觉的黑盒子,从而减少偏见和错误。
CLIP在可用性和可解释性的关系中,艰难又坚持地前进。毕竟目前可解释AI做出的模型很难满足于当下的实际应用。
就像同一个神经元对蜘蛛的图像发出信号,也可能会对包含“蜘蛛”这个词的文本发出信号,甚至对蜘蛛侠漫画中识别出特定红蓝斑纹,从而返回信号。
OpenAI表示,目前大脑和这类合成视觉系统似乎都聚集在一种非常相似的信息组织模式上,这些系统并不像我们想象中的那么难以探索。深度了解错误、了解系统的工作可以帮助我们理解系统存在的偏见。
最重要的是,找到人脑和人工神经网络的相似之处,“深度学习”有望会进一步超越人们的想象。