發(fā)布時間:2010-10-05
突破“囚徒困境”:合作是如何可能的
——讀羅伯特·阿克塞爾羅德《合作的進化》
胡明光
*《合作的進化》是美國著名的行為分析及博弈論專家羅伯特·阿克塞爾羅德的經(jīng)典著作,作者通過兩輪“重復囚徒困境”競賽以及后續(xù)的“進化實驗”,揭示了合作出現(xiàn)的前提條件以及合作的進化過程。毫不夸張地說,《合作的進化》的出版帶來了一個新的研究領(lǐng)域的出現(xiàn),被這本書所激發(fā)出來的研究成果也在不斷地增加。
理查德·道金斯在為這本書寫的序言中講到:這是一本樂觀的書,但這種樂觀是可信的,它不是天上掉餡餅式的、不切實際的天真愿望(或者革命的狂熱)。在適者生存的達爾文世界里,充滿著那些使得生存者生存下來的特質(zhì)。按照達爾文的說法,我們悲觀地假設(shè)生命在自然選擇這一層面是極端自私的,對苦難無情地冷漠,殘忍地損人利己。然而從這個被扭曲的起點開始,即使不必是刻意的,類似于友善的兄弟姐妹般的伙伴關(guān)系也會出現(xiàn)。這就是羅伯特·阿克塞爾羅德這本不平凡的書要傳遞的令人振奮的信息,讓我們在這個私利的世界里感到無比的欣慰和鼓舞。
一、“重復囚徒困境實驗”:合作的產(chǎn)生
為了闡釋合作是如何產(chǎn)生的,阿克塞爾羅德組織了一次“重復囚徒困境”的計算機程序競賽,對策論專家被邀請?zhí)崴退麄冋J為可以在重復囚徒困境中得分最高的策略程序,每個策略與其他所有策略逐個對局,以找出總體得分最高的策略。最后的優(yōu)勝者是加拿大學者羅伯布寫的“一報還一報”(tit for tat)。這個策略首先在第一步合作,然后就模仿對方上一步的選擇。然而,單一競賽的結(jié)果是不能最后說明問題的,為了進一步驗證實驗的結(jié)果,阿克塞爾羅德組織了第二輪競賽,在第二輪競賽中,所有的參賽者都得到了一份關(guān)于第一輪競賽的詳細分析報告,包括競賽過程中成功的思想和概念、易犯的策略性錯誤,但結(jié)果依然是“一報還一報”取勝。阿克塞爾羅德還發(fā)現(xiàn),得分排在前面的程序有四個特性:一、善良性:從不首先背叛;二、報復性:對于對方的背叛行為一定要報復,不能總是合作,也就是“可激怒的”;三、寬容性:在反擊對方的報復后要寬容對方,只要對方合作,你就合作,有助于重新恢復合作;四、清晰性:行為簡單清晰,使對方能適應(yīng)你的行為模式,從而引出長期合作。
二、進化實驗:合作的進化
關(guān)于成功策略特性的發(fā)現(xiàn)是令人欣喜的,在競賽中,“一報還一報”是如此成功,那么,在動態(tài)的進化群體中,這種合作是否仍然可以產(chǎn)生,并不斷地發(fā)展下去呢?對此,作者進行了第三個實驗:進化實驗。實驗依據(jù)生態(tài)學原理:成功的參賽規(guī)則更有可能在下一輪中被采用,而不成功的規(guī)則很少再被采用。更確切的說是,在所有的規(guī)則中,一個規(guī)則的后代的數(shù)量與它的競賽得分成正比。這樣,群體的結(jié)構(gòu)就會在進化過程中改變,實驗結(jié)果表明:“一報還一報”和其他名列前茅的規(guī)則隨著一代一代進化,逐漸變得多起來。這個過程模擬了適者生存,到了生態(tài)模擬的1000代的時候,那些靠背叛占便宜而取得成功的規(guī)則,由于被占便宜的規(guī)則的消失,而失去了剝削者賴以生存的基礎(chǔ),剝削者就要遭受同樣滅絕的命運,而“一報還一報”確實是最成功的規(guī)則,比其他任何一個規(guī)則增長都快,這又是一個“一報還一報”帶給我們的令人興奮而難忘的記錄。
進化實驗告訴我們:如果成功是來自與其他成功的規(guī)則相互作用的話,這個成功將孕育更多的成功,而如果成功是靠占失敗者的便宜而得到的,這樣的成功者必將隨著失敗者的淘汰而失去賴以生存的基礎(chǔ),走上一條自我毀滅的道路。
三、突破“囚徒困境”的研究困境
實驗的結(jié)果帶來了作者三方面的考慮:第一、潛在的合作策略如何才能在不合作占優(yōu)勢的環(huán)境中取得最初的立足之地?第二、何種策略能在由其他各種簡單和復雜的策略組成的多樣化環(huán)境中脫穎而出?第三、在何種條件下,這樣的策略一旦在群體中完全立足,就能抵御不合作策略的侵入?與之對應(yīng)的就是作者關(guān)于合作的初始成活性、魯棒性和穩(wěn)定性的發(fā)現(xiàn)。由此發(fā)現(xiàn):即使是在一個總是背叛的小人世界,只要有哪怕是很小的一個合作性群體,合作仍然可以產(chǎn)生,合作一旦在群體中建立,就能保護自己不受非合作策略的侵入,并不斷的發(fā)展壯大,群體以不可逆轉(zhuǎn)的方式向合作的方向進化。
這樣的合作理論是鼓舞人心的,阿克塞爾羅德正是以這樣的結(jié)論突破了“囚徒困境”的研究困境。在沒有集權(quán)的利己主義者之間,合作依然可以產(chǎn)生并不斷繁榮,那么,應(yīng)該如何促進合作呢?
對于參與者和改革者來說,作者提了幾點建議:(1)不要首先背叛,首先背叛只會給自己帶來很多的麻煩和道德的壓力;(2)對方無論是合作還是背叛,都要給以回應(yīng);(3)不要耍小聰明,以試圖獲得更大的收益;(4)不要嫉妒,嫉妒是自我毀滅,要求自己比對方做得好不是一個很好的標準,“一報還一報”在任何一場對決中都不會得到比對方更高的分數(shù),然而它卻表現(xiàn)得如此精彩;(5)為促進合作,可以改變對策者的可能結(jié)果的收益值;(6)使得未來相對于現(xiàn)在更重要,也就是對策雙方有足夠高的概率再次相遇;(7)教給對策者促進合作的準則、事實和技能,讓有預見能力的參與者了解合作理論的真諦,如:教育人們相互關(guān)心、學會回報等等,以加快合作的進化。
四、研究的局限性
借助計算機和數(shù)學的研究方法,阿克塞爾羅德通過嚴謹?shù)倪壿嬐茖В芯咳绾瓮黄魄敉嚼Ь?,達成合作,這個證明的過程是無可置疑,也是令人信服的。為了盡可能地接近現(xiàn)實世界,避免許多可能限制分析者的約束性框架,作者設(shè)定了盡量仿真的博弈環(huán)境:(1)對策者是多種多樣的,聰明或狡詐,隨機或復雜,一切動機和想法都是可能的;(2)對策者不必是理性的,甚至不必總是追求利益最大化的,他們的策略可能只是簡單的依靠直覺、經(jīng)驗或是模仿他人;(3)對策者行為不必都是有意識的選擇,并不都是經(jīng)過深思熟慮的;(4)博弈手段是可以不斷變化的,每一個對策者都可以使用所有可能的策略,甚至是不擇手段的;(5)博弈回合是相當多的,并且是全體參與者的循環(huán)賽。這樣的博弈環(huán)境更接近現(xiàn)實的“人性人”社會,而不是經(jīng)濟學家所偏好的“理性人”游戲,但不能忽視的是,作者的一些假設(shè)依然是天真的,與現(xiàn)實脫節(jié)的:
(1)阿克塞爾羅德在“重復囚徒困境”競賽中假定:博弈各方能力是相當?shù)?,沒有差異的。這在現(xiàn)實中并不總是存在的,當對策雙方能力不等時,若同時選擇背叛,結(jié)果可能不是雙方同時得到“對雙方背叛的懲罰”1分,而是強勢的一方得到5分,弱勢的一方得到0分,無異于是強者選擇背叛,得到“對背叛的誘惑”5分,弱者選擇合作,得到“給笨蛋的報酬”0分。但是作者在第八章談到了地位、等級、信譽、威懾等博弈能力的差異性所帶來的,對策雙方在寬容性、對背叛的偏好以及報復的有效性等問題上的不同,這是對之前“重復博弈困境”實驗的一個現(xiàn)實修正和補充。
(2)作者設(shè)計的競賽有一個很重要的假設(shè)就是:不能消滅對方,也不能放棄對局。這樣一來,現(xiàn)實生活中的生死游戲就被弱化成了實驗中的輸贏游戲。不能消滅對方就意味著輸了永遠都有機會報復,這就在很大程度上限制了不善良策略的威力,從而提高了“一報還一報”這些善良對策存活并不斷發(fā)展壯大的可能性,使其在長期博弈中獲得明顯優(yōu)勢。如果修正一下“不能消滅對方”這一假設(shè),將其變?yōu)椋寒攲Σ哒哂捎谶x擇合作而遭受背叛達到一定次數(shù)時,該對策者就失去了參與資格,對局就此結(jié)束,這樣就更接近現(xiàn)實的世界。
(3)在作者看來,合作的產(chǎn)生最重要的一個條件就是未來足夠重要,也就是折扣系數(shù)w(表示每一步的收益相對于前一步收益的折扣程度)足夠大,這就使得博弈回合可以足夠多。然而,重復博弈在現(xiàn)實生活中并不總是存在的,一次性博弈導致了很多不合作行為。在“資源悖論”的情況下,無法將蛋糕做大,此時每個人追求的就是如何分得更多的蛋糕,一次性博弈的大量存在和利益的驅(qū)使,大大提高了人們對背叛的偏好,使得“未來足夠重要”這一假定的約束力被弱化甚至被完全忽視。這就需要有力的制度安排來促使合作的產(chǎn)生,規(guī)范合作的秩序,通過法律和制度手段懲罰不合作行為來控制每個人的行為,而不是簡單的“一報還一報”。
(4)研究的基本假設(shè)和命題是整個研究的靈魂所在,它決定了研究的問題和方向,奠定了整個研究的基調(diào)。《合作的進化》一書圍繞“合作是如何產(chǎn)生的”這一問題展開,前提是在沒有合作的環(huán)境中,合作是如何產(chǎn)生的。然而,如果換個角度思考,就會有很有意思的發(fā)現(xiàn)。正如《人類的趨社會性及其研究》指出的,“強互惠”和“利他”是人類獨有的屬性,那么,研究的問題就不再是合作是如何產(chǎn)生的,而是:背叛是如何出現(xiàn)的?合作是如何被破壞的?
五、結(jié) 語
讀完《合作的進化》,感覺意猶未盡,作者巧妙的實驗、精湛的分析帶給我們很多有益的啟發(fā)。阿克塞爾羅德通過實驗證明,一個“小人”的世界可以阻止任何使用其他策略的個體的入侵,只要這個新來者每次都是單個的,然而,如果新來者是一個小群體,它們就有機會建立合作,并不斷壯大。因此不能“孤獨的與人為善”,即使是“一報還一報”這樣的優(yōu)秀策略,也是需要遇到同樣采取合作策略的伙伴的,它的優(yōu)勢不是在單次博弈中獲得比對方更高的分數(shù)(單次博弈中“一報還一報”得分從來不會超過對方),而在于引發(fā)并擴大合作,與合作伙伴一起戰(zhàn)勝不合作者,這對于探索如何開啟個人、組織和國家間的合作具有重要的意義。
作者的研究以生物進化的生存競爭和適者生存理論為基礎(chǔ)的,優(yōu)勝劣汰的法則使得模仿表現(xiàn)最出色的策略具有很大的誘惑力,這樣一來,“一報還一報”這樣優(yōu)秀的合作策略就會被更多的對策者所選擇,并被普遍接受而形成制度,公正的制度能夠促成、維持合作,但它不是合作出現(xiàn)的條件,而是合作的結(jié)果,這對于制度學派研究來說是一個重要啟發(fā)。
《合作的進化》帶給了我們一些驚人的、甚至是具有顛覆意義的結(jié)論,突破了傳統(tǒng)的“囚徒困境”的研究困境,形成了一個新的研究領(lǐng)域。但是在這個復雜紛繁的領(lǐng)域中,阿克塞爾羅德的分析卻是清晰直白的,他的合作策略在人類日常生活中廣泛存在,比如:“投桃報李”、“好心有好報”就體現(xiàn)了“一報還一報”的寬容性,而“人不犯我,我不犯人;人若犯我,我必犯人”則對應(yīng)其“善良性”和“可激怒性”;“惡人自有惡人磨”則印證了作者所說的,依靠占別人便宜而取勝的對策在遇到同樣的投機對策時,就會兩敗俱傷。這些深入淺出的思想是善良的、美好的、欣慰的、令人鼓舞的,可以讓這個世界更美好。
* 作者簡介:胡明光,復旦大學國際關(guān)系與公共事務(wù)學院行政管理專業(yè)2009級碩士研究生。