由于人工智能尤其是深度强化学习方面的最新进展,使我们得以重新来看待这个问题。传统的模型只为每个智能体提供简单的二元选择:合作或背叛;而现实生活中,无论合作还是背叛,哪种选择其实都要求了一系列的复杂行为,包含了一系列具有难度的行动,需要智能体去学习执行。因此经由深度强化学习训练后的人工智能,便被利用来重新研究这一困境。
DeepMind实施的第一个游戏叫捡苹果(Gathering):一红一蓝两个智能体,在一个共同的空间里活动,目的都是捡苹果,换奖赏。他们也可以通过向对方发射激光柱来“定死”对方,使其在一定时间内出局;“定死”对方这个行动本身不获得奖励。
游戏在整个实验中重复了几千次,通过这种反复博弈来“学习”理智的行为。很自然地,当整个环境能够提供充足的苹果时,智能体们和平共处,努力捡苹果;然而一旦苹果数目下降,智能体们学到的便是“激烈进取原则”,开始向彼此发射激光柱,把对方“定死”,以便自己独占珍稀资源,获取更高的得奖机会。
从设置“定死”这个可选的行为,到调整苹果数目以使其稀有,设计者(DeepMind团队)都无异于有意在“挑起群众斗群众”,其目的是观察智能体在不同情形下的行为变化。他们发现,这个捡苹果游戏与最初的囚徒困境有很多相似之处:合作,一起捡苹果;还是背叛,将对方踢出局。
是哪些因素导致了智能体的合作?
比如捡苹果游戏中,苹果稀少的状况越严重,“定死”对方的行为就发生得越频繁。智能体甚至渐渐有能力实现更为复杂的策略,例如怎样更加频繁地“定死”对方,换言之,表现得越来越趋于不合作,而且不合作的能力也在反复博弈的学习过程中越来越强,无论实验人员怎样干预,调整苹果的稀少程度。
AI与人类在这个问题上没有不同,它们的行为模式在社交困境中发生改变,它们不是人们呼唤的“遵守规则”的社会标兵。“贪婪动机反映出来,便是它们会想要除掉他人,让自己独占所有的苹果;而感觉到有可能被竞争者除掉的危险,反映出来便是恐惧。”DeepMind的研究人员在观察日记中写道。
有意思的是,DeepMind实施的第二个叫“狼群”(Wolfpack)的游戏,它本身要求必须紧密合作才能成功。两个红色的智能体,也就是游戏中的“狼”,追捕一个蓝色的智能体,也就是游戏中的“猎物”。如果猎物被抓住时,两只狼都在附近,它们将同时获得奖励;而如果某一只狼想办法独自捕获了猎物,却存在猎物尸体被第三方食腐动物叼走的危险。于是智能体们通过学习,它们之间的合作变得越来越紧密,通力将“蓝点”逼进逃无可逃的角落,从而将它们一个个捕获。
结果显示,智能体执行更复杂策略的能力越高,换言之越聪明,它们之间的合作度越高,这与在捡苹果游戏中的发现恰恰相反。
(捡苹果游戏和狼群游戏的说明:左右二图中,红线均表示小网络实验结果,蓝线均表示大网络实验结果。左图为捡苹果游戏,横轴为苹果稀缺度,纵轴为智能体的竞争性;右图为狼群游戏,横轴为集体利益,纵轴为“独狼”,即不合作捕获猎物的比例)
因此,根据情形不同,一旦智能体拥有了执行更复杂策略的更强能力,可能导致两种不同的结果:更合作或者更不合作。
前文的心理学实验已经告诉我们,训练智能体间的合作是可能的。而这两个游戏的结果则说明,让他们合作的前提,是提供尽可能正确的规则,以及合理的激励(比如狼群游戏会奖励合作,而捡苹果则不会)。一旦逞强斗勇的行为能给自己带来好处(例如在苹果稀缺时用激光柱“定死”对方),毫无疑问,AI就会变得好斗而缺乏合作精神。同人类一样,AI会根据环境来改变自己的行为,当感受到足够的威胁,而使自己可能失掉机会的时候,就会变得逞强斗勇;而一旦发现合作能带给自己更大的利益,它们将会毫不犹疑地去合作。
“合作的促成”,这一社会领域神秘而“古老”的话题,显然通过现代AI技术发现了一丝曙光,借此我们能够更好地去理解经济、交通、以及我们所生存的星球的生态健康。所有这一切,都有赖于我们,人类这个多智能体的每一个成员间持续的合作。脸书创始人马克·扎克伯格在2017年2月16日下午以“建立地球村”为题发出一封致全体村民的公开信,也许真如这份被媒体称作扎克伯格宣言中所说,到了用算法拯救世界的时候?