2010年1月4日

科學論道30

三十、一報還一報
  
   現實社會的博弈局面往往是復雜的,對博弈局面產生影響的要素非常多,並且具有重復性和持續性。為了對重復和持續的博弈局面進行研究,從而選出最優的博弈方案,美國科學院院士,行為學家阿克塞爾羅德對所謂的“重復囚徒困境”進行了研究。
  
  阿克塞爾羅德及其研究小組利用著名的“囚徒困境”游戲,設計了跨國界的程序競賽,在6個國家中征集了62個對策程序,其作者包括對策論教授到普通的計算機愛好者,進行兩兩對陣,每個程序的目的都是為了獲取最高的分數,也就是最好的收益。通過無數次的自動計算,找出最優對策程序。該游戲的目的,就是模仿在現實社會中,在理性思維影響下,到底什麼樣的行為模式是能夠在長期而殘酷的競爭中獲勝。實驗結果很出人意料,獲勝的並不是那些復雜的程序,而是一種叫“一報還一報”(Tit for Tat)的最簡單的程序獲得了最終的勝利。
  
   “一報還一報”的原理是這樣的:第一次采取合作態度,隨後的行為則根據第一次的結果來判斷,如果對方也是合作,則繼續合作,若對方選擇背叛,下一次就選擇不合作。這樣一個簡單的程序,在與其它62個程序捉對博弈,經過一千代的進化後,程序份額從原來的1/63上升並穩定在24%,而其它一些程序或者份額減少,或者徹底消失。
  
   阿克塞爾羅德發現“一報還一報”策略的成功主要有這樣一些特點:
  
   首先,“一報還一報”程序是“善良”的,即,從不主動背叛對方;其次,對背叛行為采取必要的反應,即“可激怒性”;再次,“寬容性”,即別人背叛了一次,適可而止的報復就可以了,不能沒完沒了的報復下去。最後,程序模式簡單行為,容易被別人識別和學習。
  
  阿克塞爾羅德總結的這些特點,在程序成績的排名中也得到了證實。因為63人中的前15名裡,只有第8名的哈靈頓程序是“不善良的”,後15名中,只有1個總是合作的是“善良的”。可激怒性和寬容性也得到了證明。當游戲中考慮到隨機干擾,即對策者由於誤會而開始互相背叛的情形時,阿克塞爾羅德的著作《合作的進化》一書的中文譯者吳堅忠博士經研究發現,采用修正的“一報還一報”,即以一定的概率不報復對方的背叛,和“悔過的一報還一報”,以一定的概率主動停止背叛,這樣的策略使群體所有成員處理隨機環境的能力更強。
  從阿克塞爾羅德的研究中可以看出,“一報還一報”是理性社會中經過自然選擇而必然形成的人類的一種行為准則。這種行為准則或者可以認為是理性“進化”的結果,因此,這種行為准則具有某種客觀規律的特性,它並不會因某個理性人的非理性行為而改變。只要社會中大多數是理性人的話,這樣的規律必然形成。
  
   我們還可以從一些策略的模擬演化來說明這種規律性。
  
  假設在一個孤島上生活著一群猴子,猴子的頭上身上有許多虱子,猴子光憑自己的力量沒辦法抓自己身上的虱子,因此需要別的猴子幫忙。但這群猴子有三種類型:騙子、傻瓜和小氣鬼。騙子的策略是,只希望別的猴子給自己抓虱子,卻從不幫別的猴子抓虱子。傻瓜的策略是,不管是誰要幫忙絕不拒絕。小氣鬼的策略就是“一報還一報”的策略,即自己首先無償幫別人,但下一次是否幫忙就要看第一次的結果。如果你回報了我,我就再幫你,但如果你沒有回報我,我就不再幫你。假定每只猴子頭上的虱子多到一定數目就會死亡,那麼這三種策略博弈的最終結果會怎樣呢?
  
  生物學家理查德·道金斯對三種策略的博弈進行了計算機模擬。開始模擬時,傻瓜占大多數,小氣鬼占少數,騙子也屬於少數,與小氣鬼的比例相仿。騙子對傻瓜進行無情的剝削,在傻瓜種群中引發了劇烈的崩潰。騙子的激增隨著最後一個傻瓜的死去而達到高峰。這時,騙子還要應付小氣鬼。在傻瓜激劇減少時,小氣鬼在日益取得優勢的騙子的打擊下也緩慢地減少,但仍能勉強地維持下去。在最後一個傻瓜死去之後,騙子不再能夠跟以前一樣那麼隨心所欲地進行剝削。小氣鬼在抗拒騙子剝削的情況下開始緩慢地增加,並逐漸取得穩步上升的勢頭。接著小氣鬼突然激增,騙子從此處於劣勢並逐漸接近滅絕的邊緣。由於處於少數派的有利地位同時因受到小氣鬼懷恨的機會相對地減少,騙子這時得以苟延殘喘。不過,騙子的覆滅是不可挽回的。它們最終慢慢地相繼死去,留下小氣鬼獨占整個種群。道金斯的結論同樣證明了“一報還一報”是理性環境下自然選擇的結果。
  
  這種“一報還一報”行為規律,中國人並不陌生。民間的說法是“善有善報,惡有惡報,不是不報,時候未到”。道家的太上感應篇開篇即是,“太上曰:禍福無門,惟人自召;善惡之報,如影隨形。”可見,這種一報還一報的思想早已深入民間。這種思想,應該看作是人類對自身社會行為特征的自然總結,是人類思維的結晶,應該進行深入的研究,而不是簡單的斥之為封建迷信。
  
   “一報還一報”的策略是在理性環境中最有生命力的一種行為方式,但是,卻不一定是最優的行為方式。以上無論是阿克塞爾羅德還是道金斯的研究,都是建立在一種純邏輯環境下的模擬,而自然社會中的個人,正如前文所述,其行為方式是復雜的。而所謂的利益,在每一個人的眼中可能並不相同。有人追求物質利益,有人追求精神享受,有人追求欲望的滿足,有人追求道德的完美,有人追求刺激,有人追求安穩。可以說,什麼是利益,在每一個人的角度看來,並不相同,或者說,程度並不相同。社會中常有拾金不昧、見義勇為的好人,他們是不愛財,不愛惜自己的生命嗎?我想並不是這樣。應該說,他們所追求的道德、正義要高於一般的物質利益,在好人的眼裡,這些才是最大的利益。金錢、生命與道德、正義相比,就顯得不那麼重要了。古德有雲,“君子愛財,取之有道”。君子並非不需要物質利益,而是與道義相比,道義才是更大的利益。
  
  不同的人生觀、價值觀必然引發不同的行為模式,而這是計算機的邏輯系統所無法模擬的。在計算機的系統裡,不可能自發產生出“拾金不昧、見義勇為”的行為方式,因為從行為的進化角度來看,這種行為是首先被淘汰的。然而,在現實社會中,無論是古代還是現代,無論科技多麼先進,時代多麼進步,對完美的道德,對真、善、美的追求始終是人類共同的理想。這樣的目標,使得人類社會與計算機內的邏輯世界區別開來,同樣的,這樣的目標也把人的理性與動物的理性區別開來。
  
  動物的理性表現在對食物的需求以及繁衍的欲望。動物的所有行為都是以這些基本的需求為動力。如果說動物的行為也是有理性的話,那麼動物的理性是一種非常低級的理性,因為這種理性僅僅是以自身生理需求來引導而產生的理性,也就是說是完全以自私自利以及趨利避害為原則原則的理性。人作為最高級的生物,同樣也具有這種以自私自利和趨利避害為原則的動物理性,在“囚徒困境”中,正是假定人是完全自私的,由動物理性所支配理性人。
  
  但是,人之所以為人,自然有不同於普通動物的特質。這種特質就是人有高於普通動物的理性思維能力。這種思維能力,使我們能夠衡量一種行為的結果是有害還是有利,是小利還是大利,是大利還是大害。比如竭澤而漁的行為從動物理性的角度上看是得利,但從人類理性的角度看是得小利失大利的行為,反而是有害的。又比如,為了發展經濟而把森林過度砍伐,使環境破壞,從動物理性的角度看是得利,但從人類理性的角度看卻是有害的。任何一種行為,從不同的角度來看,都會產生利弊不同的結果,是利大還是弊大則要看從什麼角度去看,這就是辯證分析的方法。事實上,辯證法是人類理性發展的最高成就,只有以辯證的方法來看待事物,才可能正確的把握事物的發展規律,才可能使人類得到最大的利益。
  
   我們可以從辯證法的角度來看看“一報還一報”這種行為方式是不是現實社會中人類行為的最優策略。
  
  由於每個自然人都有自私自利的動物理性,在生活中難免因利益衝突發生矛盾,從動物理性的思維方式來行動的話,一場爭鬥在所難免。所謂爭鬥,其實就是彼此傷害,和自己傷害自己所產生的結果是一樣的,最終的結局很可能是兩敗俱傷。假使強者獲勝,弱者落敗,弱者會糾集其它弱者一起組成強者,這樣與前面的強者再次爭鬥。同樣的,結果不是兩敗俱傷就是失利者再次積蓄力量尋求反擊。這樣的爭鬥游戲可以無止境的進行下去,這正是我們常說的“冤冤相報何時了”。
  
  這樣的行為模式從動物理性的角度看是理所應當的,但從人類的理性來看,這是一種自我傷害和自我毀滅的行為,因此是大害。雖然是大害,可是現實生活中卻時時處處都上演者這樣的互相傷害的爭鬥游戲。從小孩子之間因為一塊糖果引起的爭鬥打鬧,到公司裡為了獎金職位進行的勾心鬥角游戲,再到國家與國家之間為能源、土地而發動的戰爭,無不是這種動物理性思維的演化,同時也是“一報還一報”策略的在現實當中反復運用的結果。如果對這樣的思維不加以控制,小小的衝突也會發展成為大的戰爭。《呂氏春秋.察微》中記載了這樣一個故事:
  
  楚國有個邊境城邑叫卑梁,那裡的姑娘和吳國邊境城邑的姑娘同在邊境上采桑葉,她們在做游戲時,吳國的姑娘不小心踩傷了卑梁的姑娘。卑梁的人帶著受傷的姑娘去責備吳國人。吳國人出言不恭,卑梁人十分惱火,殺死吳人走了。吳國人去卑梁報復,把那個卑梁人全家都殺了。卑梁的守邑大夫大怒,說:“吳國人怎麼敢攻打我的城邑?”於是發兵反擊吳人,把當地的吳人老幼全都殺死了。吳王夷昧聽到這件事後很生氣,派人領兵入侵楚國的邊境城邑,攻占夷以後才離去。吳國和楚國因此發生了大規模的衝突。吳國公子光又率領軍隊在雞父和楚國人交戰,大敗楚軍,俘獲了楚軍的主帥潘子臣、小帷子以及陳國的大夫夏囓,又接著攻打郢都,俘虜了楚平王的夫人回國。
  
  從做游戲踩傷腳,一直到兩國爆發大規模的戰爭,直到吳軍攻入郢都,中間一系列的演變過程,所有人的行為模式都遵從著“一報還一報”的動物理性思維。很明顯,這種策略,只會使人們不斷的陷入新的逐漸升級的爭鬥之中,結果是互相傷害和互相毀滅,因此並不是現實社會中最優的行為模式。

沒有留言: