前几天读到公众号“今日话题”一篇题为《也许有一天,人类要向人工智能学习怎么做人》的文章,文中在引述了近期因“规则意识缺乏”而酿成的几起社会热点事件后,提及DeepMind(谷歌母公司阿尔法贝特“Alphabet”的人工智能分部)最近开展的一项关于智能体(Agent)之间合作倾向的实验。文章称DeepMind通过AI技术“找到了解决社会困境问题的新工具”,并且认为它所模拟出的“理性人”,“是真正的‘理性人’ ,而不是人类这种存在诸多缺点的”。不得不说,这有些误解,不仅夸大了这个实验本身的初衷,更一厢情愿地美化了它的结果。
顾名思义,AI是有智慧的,起码某个方向、某种程度的智慧。但它在利用智力开展工作时,是否依靠理性来进行抉择和决策就不一定了。这就必须首先回到人类本身——人工智能的学习对象——来看。合作与否,在人类活动中,属于理性而非智力的决策,因此理解它们之间的差异,对于帮助我们看懂这个谷歌实验的意义很有必要。
智力和理性的话题,去年《纽约时报》刊登过一篇探讨人类认知属性的文章,它开篇就问:“你是智慧的,还是理性的?”看上去很有点像网上流行的人格/性格测试 。文章回顾了最早于20世纪70年代初,以色列裔美国心理学家,2002年诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman)与他的研究伙伴,认知科学先驱人物阿摩司·特沃斯基(Amos Tversky)合作展开的一系列实验。简单地说,他们经过大量不同情节设置的实验,认为人们在做决定时,往往倾向于直觉,而非理性推断。
举一个例,他们让人给一群研究对象读一段话,这段话描述了一位叫琳达的妇女:“琳达31岁,单身,直言而聪慧,曾主修哲学,求学期间,她极其关心有关歧视和社会公正等议题,并参加过反核游行。”然后他们让研究对象做选择,哪一项的可能性更大:A琳达是一位银行出纳,B琳达是一位银行出纳,并积极参与女权运动。85%的研究对象选择了B。但从逻辑的角度看,A的可能性绝对更大,因为,所有的女权主义出纳员,都是出纳员;而并非所有的出纳员都是女权主义者。
这是一个思维陷阱,一个被叫做“合取谬误”(conjunction fallacy)的坑,使得人们认为多重条件“甲且乙”比单一条件“甲”发生的可能性更大。简言之,这个实验结果让他们认为,人类从根本上来看,是非理性的。
然而到了1990年代后期,研究者们开始质疑这个观点。心理学家凯斯·斯坦诺维奇(Keith E. Stanovich)发现,就连卡尼曼和特沃斯基自己留下的数据也显示出,其实有相当一部分人,是有明显理性倾向的。
这么一来,是否理性就成了个体差异。有趣的是,与智力不同,理性能力是可以通过训练得到提升的,开始靠近我们的主题“机器学习”了。
说回谷歌DeepMind关于智能体合作倾向的实验。简单地说,它是利用多智能体(multi-agent)的深度学习来模拟出一个促使合作出现的模型。其结果,更多地在于,希望它可以帮助我们更好地理解,从而更有效地控制复杂的多智能体系统的行为,例如经济、交通和环境等问题,而绝非找到了解决社会困境的钥匙。更重要的,实验结果恰恰揭示了理性智能体,也就是“今日话题”文中所说的“理性人”,一点也不比人类更守规矩,它们具有人类的一切弱点,面对不同环境所做出的反应,也与人类完全一致。
先解决几个拗口的词。什么是多智能体(multi-agent)?甚至,什么是智能体(agent)?“agent”,英文字面意思是代理,但放在计算机或者人工智能的语境里,“代理”显得语焉不详。这个概念是人工智能先驱,MIT的科学怪才马尔文·明斯基在他1985年的著作《意识的社会》(Society of Mind)里首次提出。事实上,它就是一个实体或者说主体,既可以是硬件,也可以是软件。因为具有自治性,对外界刺激做出相应反应的能力,社会性以及自动学习修正从而进化等特性,而被称作“智能体”。那么多智能体,顾名思义,就是多个智能体的集合,成员间可以通信和协调,以达成多智能体的目标。如果将鸟群或者兽群想象成多智能体,也许就容易理解一些。
这里显然留下了一个问题,多智能体成员间,或者说鸟群和兽群的成员间,刚才说到会彼此协调,这个协调,是合作还是竞争,还是彼此进攻?
这正是DeepMind希望通过这个实验模型来发现的答案。而结果显示,AI也会逞强斗勇,会贪婪,会产生不安全感。不过好消息是,经过反复的学习,它们会发现合作是共赢的出路。
在不完美的天性,吃一堑长一智这样的过程面前,人类和AI是平等的,谁都没有躲过。
天性自私的人类,从诞生起,就一直通过协同工作,直至创造出了今日的文明。如果把每个人比做一个自私的智能体,整个社会是一个多智能体。在什么情形下,如何让这些自私的智能体合作,是社会学领域的一个基本问题。
用来描述这个现象的,有一个最简单经典的模型,就是博弈论中著名的囚徒困境(Prisoner's Dilemma):两个犯罪嫌疑人被单独关押,在没有得到他们招供的情况下,警方没有足够证据对他们的主要指控定罪,但足够用次要指控处以他们每人一年的监禁。为了引诱这二名囚徒招供,他们分别向他俩提出如下条件:如果你作证指控对方(也就是如果你叛变),你将获释,而对方将服刑三年;如果两人都招供,则两人均服刑两年;若二人默契协作,都保持沉默,不指控对方,则两人都只服刑一年。
这两个理性智能体(囚徒)总是选择招供,也就是背叛伙伴,因为无论对方选择如何,一定是招供对自己最有利。矛盾的是,如果两个囚徒都同样以这个思路来决策的话,两人均会服刑两年,这比起二人协作,保持沉默的情况多出了一年。这个囚徒困境的矛盾可以推而广之,用来描述通用的社会困境。