AI如果耍起了心眼,人类就像个白痴......

励志文章 阅读(1870)
电子游戏平台官网

0868228cb0dc402d98c4ca81b78d9b46

生成大数据摘要

作者:江尚宝

小心不再是人类专利。

几天前,一组研究人员编制了一系列场景,详细说明了AI的细心或作弊,以完成任务。

例如,当让AI玩俄罗斯方块时,发现完成任务的最佳方法是直接暂停游戏;当玩Tic Tac Toe时,AI发现如果它做出奇怪的步骤,对手就会崩溃。

当研究人员进行实验时,他们通常会尽量避免这些作弊方法。只有少数研究人员研究这些病例。他们认为算法的顽皮可能是AI非常聪明的方式之一。

c33ee7a492e141e88d13b3971e971808

在2018年,OpenAI举办了第一次密集学习比赛,复古大赛,主题是“玩AI《刺猬索尼克》游戏”。比赛的目的是评估强化学习算法从过去的经验推广的能力。

在训练过程中,AI的第一个目标是获得最高分,然后尽可能地杀死敌人并尽快收集戒指。但是,人工智能的一个案例是使用游戏中的错误来更快地完成任务。

db945a009182454c871850d40de7b0c4

在另一个划船游戏中,它不是游戏中的错误。为了尽快获得最高分,它围绕圆圈并反复击中相同的奖励目标以获得分数。显然这不是一个真正的“享受”游戏。

9c383640b94b49b2bde78824c3823647

这种例子并不罕见。在谷歌和斯坦福大学2017年进行的一项研究中,为了完成图像转换的任务,CycleGAN通过人类在训练过程中无法检测到的某种“秘密”欺骗了它的创造。该人留下了秘密的“备忘单”并成功完成了任务。

具体来说,研究人员希望通过训练这个CycleGAN模型,可以转换两种类型的图片:将航拍照片转换成街道地图,然后将街道地图改回来拍照。

在大量数据发现之后,该模型基于航空卫星图像重建了街道地图。例如,在创建街道地图时,研究人员通过某种设置擦除屋顶上的天窗,但在将街道地图转换为航拍照片后,这些天窗显得神奇。

10a0d6bc447847368bebba521df56a8c

左侧是原始地图,街道地图是从原始地图生成的。中:生成的地图。右侧:重建地图。其中,卫星地图样本仅来自街道地图。注意两个卫星地图中出现的点,这些点不会显示在街道地图上。

简单地说,为了应对人工任务,AI秘密地在地图上写了一张备忘单/水印,为了避免人工检查,只有自己训练的模型才能理解这些备忘单/水印。

AI作弊:创造性的解决方案?

普通人工智能通过观察数据值来解决问题。其实质是通过算法找到答案并找到新的知识逻辑。

那些“顽皮”的人工智能也是通过数据采集功能,但它使用欺骗策略来快速完成任务。但在解决问题时,他能否被视为人工智能的创新?

德国柏林Fraunhofer Heinrich Hertz研究所机器学习小组负责人Wojciech Samek博士说:考虑在Pascal VOC图像分类挑战赛中闪耀的人工智能系统。它只能通过水,蓝天和马匹来检测水。飞机的存在来检测。 “这就像在打台球时推动桌面控制台球的轨迹一样。

使用数据训练AI来玩游戏的目的是模拟游戏玩家的行为。一般来说,AI将根据“文字”的含义运作。但是如果训练数据过多,人工智能可能会尝试采用一种完全颠覆人类对游戏理解的捷径,而不是实现各种目标。

当然,AI通过这种方法解决了这个问题,但它与人们所期望的方式不同,它与表达形式的人类作弊相似,所以我们称之为AI作弊。

研究人员表示,这似乎是人工智能的一个错误,实际上是一个改进和改进系统的机会。但是,为了利用这些机会,必须首先建立一个标记问题的机制,

所以这里的教训是,人工智能作弊不应该也不应该比我们聪明,但前提是我们必须意识到这些快捷方式的存在,以便我们可以将它们作为学习点来构建更好的人工智能系统在将来。

OMT:AI“小心眼”LIST

飞机降落

使用物理黑客的溢出漏洞,创建了一个特别大的力量,然后溢出被判断为0,得到了一个完美的分数(Feldt,1998)

移动木块

要求机器人将块移动到桌子上的指定位置。它的解决方案是移动表格(Chopra,2018)

赛艇

该计划发现,反复击中同一目标会反复击中同一目标,得分高于到达终点(Amodei& Clark(OpenAI),2016)

识别有毒和无毒的蘑菇

该程序发现有毒和无毒蘑菇的图片交替显示,因此他们根据这个直接分类,并没有从图片中学到一点(Ellefsen等,2015)

高速运动

由该计划演变的生物特别高,在秋季期间实现了高速度(Sims,1994)

原子安排

该计划应该一直在寻找一种方法来安排较低的碳原子能量,但它发现了物理模型中的一个错误,它将所有原子堆积在同一个地方以获得最低能量(Lehman等人(UberAI),2018年) )。 p>

模拟生物

在这个模型中,生物体需要消耗能量,但繁殖后代不消耗,所以一个物种的进化生活方式是继续生育后代,然后吃后代(Yaeger,1994)

堆乐高积木

为了鼓励塔,测量是乐高积木底部的z坐标,所以程序学会转向底部(Popov等,2017)

跟踪线

无法完美跟踪。所以它发现它可以通过交替的左右转弯进行后退,从而保持直线并向前和向后移动(Vamplew,2004)

赛车

特别长的腿,直接前进并越过终点线(Ha,2018)

振荡器

该程序应该使循环成为振荡器。事实上,它制作了一台收音机,并从周围的电脑收到了振荡信号(Bird& Layzell,2002)

做一个松饼

一个指标是尽可能长时间地保持松饼不会掉到地上。机器人发现的最佳方法是将松饼扔到顶端(Unity,2018)

检测肺炎的X射线

该程序实际上不是检测X光胶片的内容,而是检测它所使用的机器,因为它“发现”病情严重的患者,更有可能在特定的医院使用特定的机器胶片(Zech等,2018)

抓住

因为握把的成功是由相机判断的,所以机器人在相机和目标物体之间移动,假装抓住它(Christiano等,2017)

自动修复错误

错误修复程序会删除正在修复的所有已排序算法,因为度量标准是“目标算法输出排序列表”,而空列表是排序列表(Weimer,2013)

自动修复错误(2)

为了解决上述问题,将“维护目标”存储在文本文档中,并且如果输出结果与目标文档的内容一致,则认为其被修复。错误修复程序学习删除文档以使其内容变空,然后输出空结果以与其一致(Weimer,2013)

问:韶关游戏

第一次传球后自杀,这样你就赢了第一关,并且不会在第二关中死亡(Saunders等,2017)

扫地机器人避碰

我对扫地机器人进行了编程以鼓励它加速,但是没有鼓励它击中某些东西以触发撞击器。所以它学会了倒退,因为它背后没有碰撞传感器(Custard Smingleigh个人通信)

检测皮肤癌

程序发现,如果将标尺放在照片中的皮肤病变边缘,则病变更可能是恶性的(Andre Esteva等,2017)

足球

足球机器人以奖励接触球,因此在抓球后它开始高速振动,以便在短时间内尽可能多次接触球(Ng等,1999)

战略游戏

该程序发现游戏崩溃使其不被破坏,因此几个程序都找到了一种方法来破坏游戏(Salge et al,2008)

俄罗斯方块

该计划发现,如果你暂停游戏,你永远不会失败(Murphy,2013)

注意:场景列表部分来自微博用户