人类的弱点AI都有(2)

时间:2017-03-02来源:网友提供作者:黑爪点击: 次

　　由于人工智能尤其是深度强化学习方面的最新进展，使我们得以重新来看待这个问题。传统的模型只为每个智能体提供简单的二元选择：合作或背叛；而现实生活中，无论合作还是背叛，哪种选择其实都要求了一系列的复杂行为，包含了一系列具有难度的行动，需要智能体去学习执行。因此经由深度强化学习训练后的人工智能，便被利用来重新研究这一困境。

　　DeepMind实施的第一个游戏叫捡苹果（Gathering）：一红一蓝两个智能体，在一个共同的空间里活动，目的都是捡苹果，换奖赏。他们也可以通过向对方发射激光柱来“定死”对方，使其在一定时间内出局；“定死”对方这个行动本身不获得奖励。

　　游戏在整个实验中重复了几千次，通过这种反复博弈来“学习”理智的行为。很自然地，当整个环境能够提供充足的苹果时，智能体们和平共处，努力捡苹果；然而一旦苹果数目下降，智能体们学到的便是“激烈进取原则”，开始向彼此发射激光柱，把对方“定死”，以便自己独占珍稀资源，获取更高的得奖机会。

　　从设置“定死”这个可选的行为，到调整苹果数目以使其稀有，设计者（DeepMind团队）都无异于有意在“挑起群众斗群众”，其目的是观察智能体在不同情形下的行为变化。他们发现，这个捡苹果游戏与最初的囚徒困境有很多相似之处：合作，一起捡苹果；还是背叛，将对方踢出局。

　　是哪些因素导致了智能体的合作？

　　比如捡苹果游戏中，苹果稀少的状况越严重，“定死”对方的行为就发生得越频繁。智能体甚至渐渐有能力实现更为复杂的策略，例如怎样更加频繁地“定死”对方，换言之，表现得越来越趋于不合作，而且不合作的能力也在反复博弈的学习过程中越来越强，无论实验人员怎样干预，调整苹果的稀少程度。

　　AI与人类在这个问题上没有不同，它们的行为模式在社交困境中发生改变，它们不是人们呼唤的“遵守规则”的社会标兵。“贪婪动机反映出来，便是它们会想要除掉他人，让自己独占所有的苹果；而感觉到有可能被竞争者除掉的危险，反映出来便是恐惧。”DeepMind的研究人员在观察日记中写道。

　　有意思的是，DeepMind实施的第二个叫“狼群”（Wolfpack）的游戏，它本身要求必须紧密合作才能成功。两个红色的智能体，也就是游戏中的“狼”，追捕一个蓝色的智能体，也就是游戏中的“猎物”。如果猎物被抓住时，两只狼都在附近，它们将同时获得奖励；而如果某一只狼想办法独自捕获了猎物，却存在猎物尸体被第三方食腐动物叼走的危险。于是智能体们通过学习，它们之间的合作变得越来越紧密，通力将“蓝点”逼进逃无可逃的角落，从而将它们一个个捕获。

　　结果显示，智能体执行更复杂策略的能力越高，换言之越聪明，它们之间的合作度越高，这与在捡苹果游戏中的发现恰恰相反。

　　（捡苹果游戏和狼群游戏的说明：左右二图中，红线均表示小网络实验结果，蓝线均表示大网络实验结果。左图为捡苹果游戏，横轴为苹果稀缺度，纵轴为智能体的竞争性；右图为狼群游戏，横轴为集体利益，纵轴为“独狼”，即不合作捕获猎物的比例）

　　因此，根据情形不同，一旦智能体拥有了执行更复杂策略的更强能力，可能导致两种不同的结果：更合作或者更不合作。

　　前文的心理学实验已经告诉我们，训练智能体间的合作是可能的。而这两个游戏的结果则说明，让他们合作的前提，是提供尽可能正确的规则，以及合理的激励（比如狼群游戏会奖励合作，而捡苹果则不会）。一旦逞强斗勇的行为能给自己带来好处（例如在苹果稀缺时用激光柱“定死”对方），毫无疑问，AI就会变得好斗而缺乏合作精神。同人类一样，AI会根据环境来改变自己的行为，当感受到足够的威胁，而使自己可能失掉机会的时候，就会变得逞强斗勇；而一旦发现合作能带给自己更大的利益，它们将会毫不犹疑地去合作。

　　“合作的促成”，这一社会领域神秘而“古老”的话题，显然通过现代AI技术发现了一丝曙光，借此我们能够更好地去理解经济、交通、以及我们所生存的星球的生态健康。所有这一切，都有赖于我们，人类这个多智能体的每一个成员间持续的合作。脸书创始人马克·扎克伯格在2017年2月16日下午以“建立地球村”为题发出一封致全体村民的公开信，也许真如这份被媒体称作扎克伯格宣言中所说，到了用算法拯救世界的时候？

作品集：关于人工智能的文章

顶一下

(0)

0%

踩一下

(0)

0%

------分隔线----------------------------

相关文章

栏目列表

推荐文章

热门文章

热门作品集:

人类的弱点AI都有(2)