本文出自:http://tw.myblog.yahoo.com/jw!4_ltTWaFGRlZDPIlaXb6ln4-/article?mid=19812&prev=19813&next=19811&l=a&fid=7 網絡轉發,如有侵權,敬請告知刪除!
鞋子除臭vikkiheathtravis19virgiefrancemartre城市之旅
囚徒困境
囚徒困境
囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇。雖然困境本身只屬模型性質,但現實中的價格競爭、環境保護等方面,也會頻繁出現類似情況。單次發生的囚徒困境,和多次重複的囚徒困境結果不會一樣。在重複的囚徒困境中,博弈被反覆地進行。因而每個參與者都有機會去「懲罰」另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結果出現。欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。作為反覆接近無限的數量,納什均衡趨向於帕累托最優。囚徒困境的主旨為,囚徒們雖然彼此合作,堅不吐實,可為全體帶來最佳利益(無罪開釋),但在資訊不明的情況下,因為出賣同夥可為自己帶來利益(縮短刑期),也因為同夥把自己招出來可為他帶來利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。但實際上,執法機構不可能設立如此情境來誘使所有囚徒招供,因為囚徒們必須考慮刑期以外之因素(出賣同夥會受到報復等),而無法完全以執法者所設立之利益(刑期)作考量。%26nbsp;經典的囚徒困境1950年,由就職於蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式闡述,並命名為「囚徒困境」。經典的囚徒困境如下:警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人有罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:%26nbsp; 若一人認罪並作證檢控對方(相關術語稱「背叛」對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。%26nbsp; 若二人都保持沉默(相關術語稱互相「合作」),則二人同樣判監半年。%26nbsp; 若二人都互相檢舉(互相「背叛」),則二人同樣判監2年。
用表格概述如下: 甲沉默(合作)甲認罪(背叛) 乙沉默(合作)二人同服刑半年甲即時獲釋;乙服刑10年
乙認罪(背叛)甲服刑10年;乙即時獲釋二人同服刑2年- 解說如同博弈論的其他例證,囚徒困境假定每個參與者(即「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為「嚴格劣勢」,理性的參與者絕不會選擇。另外,沒有任何其他力量干預個人決策,參與者可完全按照自己意願選擇策略。囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇:%26nbsp; 若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。%26nbsp; 若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑2年。這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑半年,總體利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判監均比合作為高,總體利益較合作為低。這就是「困境」所在。例子華麗地證明了:非零和博弈中,帕累托最優和納什均衡是相衝突的。
- 固定局數的囚徒困境試想像囚徒困境的情況進行十次。我們可以合理地設想,如果囚徒第一次被對方指控,第二次這個囚徒也會指控對方。相反,如果第一次別人保持沉默,建立了互信的關係,你也會保持沉默,達致帕累托最優。當然,兩個囚徒都會有相似的想法,在第一局保持沉默,以期望建立互信關係,所以雙方都會保持沉默。第二局時,雙方亦應有相似的想法,繼續保持沉默,以期繼續在互信的情況下進行第三局,以致餘下的八局。 這種想法合理嗎?在第十局時,互信的關係明顯是沒有意義的,因為十局已經完結,囚徒沒有必要為維持互信的關係而沉默(沒有第十一局),所以第十局囚徒一定會背叛對方的,理由和只有一局囚徒困境一樣。問題是,既然大家都知道在第十局,無論如何對方都會背叛自己的,你在第九局保持沉默也是沒有意思的,要知道,保持沉默(友好關係)的原因是為了希望下一局別人保持沉默。所以第九局雙方都一定會背叛對方的。下一個問題是,雙方都有相同的想法,明知第九局對方會背叛自己,所以第八局保持沉默也是沒有意思的,第七局亦然,如此類推,納什均衡是十局都會互相背叛,建立互信關係是沒有可能的。只有在囚徒困境的局數大家都不肯定的情況下,上述的推論才不會發生,才會出現互相保持沉默的現象。- 一般形式整理囚徒困境的基本博弈結構,可更清楚地分析囚徒困境。實驗經濟學常用這種博弈的一般形式分析各種論題。以下是實現一般形式的其中一例:有兩個參與者和一個莊家。參與者每人有一式兩張卡片,各印有「合作」和「背叛」。參與者各把一張卡片文字面朝下,放在莊家面前。文字面朝下排除了參與者知道對方選擇的可能性1。然後,莊家翻開兩個參與者卡片,根據以下規則支付利益:%26nbsp; 一人背叛、一人合作:背叛者得5分(背叛誘惑),合作者0分(受騙支付)。%26nbsp; 二人都合作:各得3分(合作報酬)。%26nbsp; 二人都背叛:各得1分(背叛懲罰)。用支付矩陣表格展示支付如下(以紅和藍分別表示二參與者):%26nbsp; 一般形式囚徒困境的支付矩陣 合作背叛 合作3, 30, 5 背叛5, 01, 1 以「T、R、P、S」符號表示%26nbsp; 合作背叛 合作R, RS, T 背叛T, SP, P 以「勝-負」術語表示%26nbsp; 合作背叛 合作勝-勝大負-大勝
背叛大勝-大負負-負簡單博弈獲得的點數可以得出一些一般化的結論。T、R、P、S符號表%26nbsp; 符號分數英文中文(非術語)解釋%26nbsp; T5Temptation背叛誘惑單獨背叛成功所得。%26nbsp; R3Reward合作報酬共同合作所得%26nbsp; P1Punishment背叛懲罰共同背叛所得
S0Suckers受騙支付被單獨背叛所獲若以T(Temptation)=背叛誘惑,R(Reward)=合作報酬,P(Punishment)=背叛懲罰,S(Suckers)=受騙支付,以個人選擇得分而言,可得出以下不等式。T%26gt;R%26gt;P%26gt;S(解:從5%26gt;3%26gt;1%26gt;0獲得以上不等式)若以整體獲分而言,將得出以下不等式。2R%26gt;T S或2R%26gt;2P(解:2×3%26gt;5 0或2×3%26gt;2x1;合作2人共得6分,比起互相背叛的共得2分及單獨背叛的共得5分,顯然合作獲分比背叛高。合作在團體而言是支配性策略。)而重複博弈或重複的囚徒困境將會使參與者從注重T%26gt;R%26gt;P%26gt;S轉變成注重2R%26gt;T S。就是說將使參與者脫離困境。 以上理論是道格拉斯·霍夫施塔特創建的。- 現實的例子上述例子可能顯得不甚自然,但現實中,無論是人類社會或大自然都可以找到類似囚徒困境的例子,將結果劃成同樣的支付矩陣。社會科學中的經濟學、政治學和社會學,以及自然科學的動物行動學、進化生物學等學科,都可以用囚徒困境分析,模擬生物面對無止境的囚徒困境博弈。囚徒困境可以廣為使用,說明這種博弈的重要性。以下為各界例子:- 政治學例子:軍備競賽在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩種選擇:增加軍備(背叛)、或是達成削減武器協議(合作)。兩國都無法肯定對方會遵守協議,因此兩國最終會傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會是兩國的「理性」行為,但結果卻顯得「非理性」(例如會對經濟造成都有損壞等)。這可視作遏制理論的推論,就是以強大的軍事力量來遏制對方的進攻,以達到和平。- 經濟學例子:關稅戰兩個國家,在關稅上可以有以兩個選擇: 提高關稅,以保護自己的商品。(背叛)%26nbsp; 與對方達成關稅協定,降低關稅以利各自商品流通。(合作)當一國因某些因素不遵守關稅協定,而獨自提高關稅(背叛)時,另一國也會作出同樣反應(亦背叛),這就引發了關稅戰,兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然後二國又重新達成關稅協定。(重複博弈的結果是將發現共同合作利益最大。)- 商業例子:廣告戰商業活動中亦會出現各種囚徒困境例子。以廣告競爭為例。兩個公司互相競爭,二公司的廣告互相影響,即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者同時期發出質量類似的廣告,收入增加很少但成本增加。但若不提高廣告質量,生意又會被對方奪走。此二公司可以有二選擇: 互相達成協議,減少廣告的開支。(合作)%26nbsp; 增加廣告開支,設法提升廣告的質量,壓倒對方。(背叛)若二公司不信任對方,無法合作,背叛成為支配性策略時,二公司將陷入廣告戰,而廣告成本的增加損害了二公司的收益,這就是陷入囚徒困境。在現實中,要二互相競爭的公司達成合作協議是較為困難的,多數都會陷入囚徒困境中。- 自行車賽例子自行車賽事的比賽策略也是一種博弈,而其結果可用囚徒困境的研究成果解釋。例如每年都舉辦的環法自由車賽中有以下情況:選手們在到終點前的路程常以大隊伍(英文:Peloton)方式前進,他們採取這策略是為了令自己不至於太落後,又出力適中。而最前方的選手在迎風時是最費力的,所以選擇在前方是最差的策略。通常會發生這樣的情況,大家起先都不願意向前(共同背叛),這使得全體速度很慢,而後通常會有二或多位選手騎到前面,然後一段時間內互相交換最前方位置,以分擔風的阻力(共同合作),使得全體的速度有所提升,而這時如果前方的其中一人試圖一直保持前方位置(背叛),其他選手以及大隊伍就會趕上(共同背叛)。而通常的情況是,在最前面次數最多的選手(合作)通常會到最後被落後的選手趕上(背叛),因為後面的選手騎在前面選手的沖流之中,比較不費力。- 與囚徒困境相關的各事件- 異想威廉·龐德斯通(William Poundstone)在他的著作中,以一紐西蘭的例子來說明囚徒困境。在紐西蘭,報亭既無管理員也不上鎖,買報紙的人自行放下錢後拿走報紙。當然某些人可能取走報紙卻不付錢(背叛),但由於大家認識到如果每個人都偷竊報紙(共同背叛)會造成以後不方便的有害結果,這種情形很少發生。這例子特別之處是紐西蘭人並沒有被任何其他因素影響而能脫離囚徒困境。並沒有任何人特別去注意報亭,人們守規則是為了避免共同背叛帶來的惡果。這種避免囚徒困境的大家共同的推理或想法被稱為「異想(magical thinking)」。[3]- 「認罪減刑」不可行囚徒困境的結論是許多國家中認罪減刑(英文:plea bargain)被禁止的原因之一。囚徒困境帶來的結論是:如果有二個罪犯,其中一人犯罪而另外一人是無辜的,犯罪者會為了減刑坦白一切甚至冤枉清白者(單獨背叛)。最糟糕的情況是,如果他們二人都被判入獄,坦白的犯罪者刑期少,堅持無罪的冤枉者刑期反而更多。- 公用品悲劇現實的博弈參與者不只一方,會有多方參與的囚徒困境。加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲劇就是一例:「公用品悲劇是指凡是屬於最多數人的公共財產常常是最少受人照顧的事物」,例如漁業,公海中的魚是屬於公共的,而在本身不濫捕其他人也濫捕的思想下,漁民會沒有節制的大撈特撈,結果海洋生態破壞,漁民的生計也受影響(共同背叛的結果)。但是,多方囚徒困境的提法有待商榷,因為其總是可以被分解為一組組經典的二方囚徒困境。就是說只有二方的囚徒困境,沒有多方的。所謂多方的囚徒困境只是由多個二方囚徒困境混雜在一起而形成的錯覺。- 重複的囚徒困境羅伯特·阿克塞爾羅德在其著作《合作的進化》中,探索了經典囚徒困境情景的一個擴展,並把它稱作「重複的囚徒困境」(IPD)。在這個博弈中,參與者必須反覆地選擇他們彼此相關的策略,並且記住他們以前的對抗。阿克塞爾羅德邀請全世界的學術同行來設計計算機策略,並在一個重複囚徒困境競賽中互相競爭。參賽的程序的差異廣泛地存在於這些方面:演算法的複雜性、最初的對抗、寬恕的能力等等。阿克塞爾羅德發現,當這些對抗被每個選擇不同策略的參與者一再重複了很長時間之後,從利己的角度來判斷,最終「貪婪」策略趨向於減少,而比較「利他」策略更多地被採用。他用這個博弈來說明,通過自然選擇,一種利他行為的機制可能從最初純粹的自私機制進化而來。最佳確定性策略被認為是「以牙還牙」,這是阿納托爾·拉波波特(Anatol Rapoport)開發並運用到錦標賽中的方法。它是所有參賽程序中最簡單的,只包含了四行BASIC語言,並且贏得了比賽。這個策略只不過是在重複博弈的開頭合作,然後,採取你的對手前一回合的策略。更好些的策略是「寬恕地以牙還牙」。當你的對手背叛,在下一回合中你無論如何要以小機率(大約是1%-5 %)時而合作一下。這是考慮到偶爾要從循環背叛的受騙中復原。當錯誤傳達被引入博弈時,「寬恕地以牙還牙」是最佳的。這意味著有時你的動作被錯誤地傳達給你的對手:你合作但是你的對手聽說你背叛了。通過分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個必要條件。%26nbsp; 友善 最重要的條件是策略必須「友善」,這就是說,不要在對手背叛之前先背叛。幾乎所有的高分策略都是友善的。因此,完全自私的策略僅僅出於自私的原因,也永遠不會首先打擊其對手。%26nbsp; 報復 但是,阿克斯洛德主張,成功的策略必須不是一個盲目樂觀者。要始終報復。一個非報復策略的例子是始終合作。這是一個非常糟糕的選擇,因為「下流」策略將殘酷地剝削這樣的傻瓜。%26nbsp; 寬恕 成功策略的另一個品質是必須要寬恕。雖然它們不報復,但是如果對手不繼續背叛,它們會一再退卻到合作。這停止了報復和反報復的長期進行,最大化了得分點數。%26nbsp; 不嫉妒%26nbsp; 最後一個品質是不嫉妒,就是說不去爭取得到高於對手的分數(對於「友善」的策略來說這也是不可能的,也就是說「友善」的策略永遠無法得到高於對手的分數)。因此,阿克塞爾羅德得到一種給人以烏托邦印象的結論,認為自私的個人為了其自私的利益會趨向友善、寬恕和不嫉妒。阿克塞爾羅德關於重複囚徒困境的研究的重要結論之一,是友善的傢伙能先完成交易。重新考慮經典的囚徒困境一節中給定的軍備競賽模型:結論是,只是理性策略增進了軍事力量,似乎兩個國家都寧可花費其GDP在槍炮而不是黃油上。有趣的是,企圖說明對抗國家實際上以這種方式(在「重複囚徒困境假定」下的不同時期,軍費支出在「高」和「低」之間反覆)競賽的嘗試,卻經常表明假定的軍備競賽並沒有如預想的那樣出現。(例如希臘人和土耳其人的軍費支出,看來並不像遵循「以牙還牙」的重複囚徒困境式的軍備競賽,卻更可能是被其國內的政策所驅使。)這可能是一次性博弈和重複性博弈中的理性行為不同的例子。對一次性囚徒困境博弈來說,最佳(點數最大化的)策略是簡單地背叛;正如前面解釋的,無論對手的行動可能是什麼,這都是真實的。但是,在重複的囚徒困境博弈中,最佳策略依賴於可能的對手的策略,和他們怎樣對背叛和合作作出反應。例如,考慮這樣一個人群,那裡每個人每次都背叛,除了一個人是遵循以牙還牙策略。這個人處於一種輕微的不利地位,因為第一回合的損失。在這樣的人群中,對這個人來說最佳策略就是每次都背叛。在一個有一定的百分比的總背叛者而剩下的則是以牙還牙者的人群中,對個人來說的最佳策略依賴於這個百分比和博弈的長度。一般有兩種方法得到最佳策略: 貝葉斯納什均衡:如果對抗策略的統計分佈能被確定(例如,50%以牙還牙,50%一直合作),就能從數學上獲得最佳的相對策略[4]。%26nbsp; 已經有了人群的蒙特卡羅模擬,在這裡低分個人消失了,高分個人一再被生產出來(一種獲得最佳策略的天才演算法)。決賽人群中的演算法合成通常依賴於初賽人群中的演算法合成。儘管以牙還牙始終被認為是最可靠的基本策略,但是在重複囚徒困境的20周年紀念賽中,來英國南安普敦大學的一個小組(由尼古拉斯·詹寧斯(Nicholas Jennings)[1]領導,包括了拉蒂普·達什(Rajdeep Dash)、薩瓦帕里·拉姆瓊(Sarvapali Ramchurn)、亞歷克斯·羅傑斯(Alex Rogers)斯和皮魯克里士南·維特林根(Perukrishnen Vytelingum))介紹了一個新的策略,這個策略證明了它比以牙還牙更成功。這個策略依賴於程序之間的合作,為單一程序中獲得了最高的點數。南安普敦大學提交了60個程序參與競賽,這些程序的開頭被設計成通過一組5到10個的動作去彼此識別。一旦這些識別被作出,一個程序將總是合作,其他程序則總是背叛,保證背叛者得到最大的點數。如果程序識別出它在操作一個非南安普敦參與者,這程序將持續地背叛,企圖去最小化競爭程序的得分。結果[5],這個策略以獲得前3位結束了競賽,也得到了大量接近底部的位置。雖然這個策略顯著地證明了比以牙還牙有效,但是這是因為利用了下述事實:在這個特殊的競賽中,多重通道是被允許的。在一方只能控制單一參與者的競賽中,以牙還牙確實是更好的策略。如果重複囚徒困境將被精確地重複N次,已知N是一個常數,那麼會產生另一個有趣的事實。納什均衡就是每次都背叛。這很容易用歸納法證明。你也可以在最後的回合背叛,既然你的對手將沒有機會懲罰你。因此,你們都將在最後的回合背叛。這時,你可以在倒數第二回合中背叛,既然最後一回無論你做什麼,你的對手都將背叛。依此類推。為了合作以保持請求,這時未來必須對兩個參與者來說是不確定的。一個解決方案是讓博弈總次數N變成隨機的。對未來的預期必須是無法確定的長度。另一個單獨的案例是「永不停止」的囚徒困境。這個博弈被重複很多次,而且你的分數是一個平均數(當然是用計算機計算的)。囚徒困境博弈是某些人類合作和信任理論的基礎。假定囚徒困境能夠模擬需要信任的兩人之間的交流,群體的合作行為可以用有多個參與者的、重複博弈的變體來模擬。這從而引起了許許多多學者經久不衰的興趣。1975年,格羅夫曼(Grofman)和普爾(Pool)估計,致力於這方面研究的學術文章,數量超過2000篇。- 學習心理學和博弈論當博弈參與者能學會估計其他參與者背叛的可能性,他們自身的行為就為他們關於其他人的經驗所影響。簡單的統計顯示,總體上,缺乏經驗的參與者與其他參與者的互動,或者是典型的好,或者是典型的壞。如果他們在這些經驗的基礎上行動,(通過更多的背叛或合作,否則)他們可能在未來的交易中受損。隨著經驗逐漸豐富,他們獲得了對背叛可能性的更真實的印象,變得更成功地參與博弈。不成熟的參與者經歷的早期交易對他們未來參與的影響,可能比這些交易對成熟的參與者的影響要大得多。這個原理部分地解釋了,為什麼年輕人的成長經驗這麼具有影響力,以及為什麼他們特別容易被欺負,有時他們本身最後也成為欺凌弱小者。群體中背叛的可能性,可以被合作的經驗所削弱[6],因為先前的博弈建立了信任。因此自我犧牲行為可以,例如,加強團體的道德品質。如果團體很小,積極行為更可能以互相肯定的方式——鼓勵這個團體中的個人繼續合作——得到反饋。這與相似的困境有關:鼓勵那些你將援助的人,從可能使他們處於危險的境地的行為中得到滿足。這類方法主要在互惠利他主義、群選擇、血緣選擇和道德哲學的研究中涉及。- 相關的博弈- 封閉袋子交易霍夫施塔特2曾提出,像囚徒困境一類的問題,若以簡單博弈的形式來說明,人們會較容易理解。例如他以「封閉袋子交易」的簡單博弈來說明此論題:%26nbsp; 兩人面對面互相交換封閉的袋子,共同了解其中一方放錢,另一方放商品。雙方可以誠實的依照承諾,把東西放到袋子里交換;又或者交空袋子給對方,選擇背叛。在這場博弈中,由於背叛可獲得巨大利益,必然有多人選擇背叛。這意味著理性的商人不會進行這種交易,因而「封閉袋子交易」將由於逆向選擇而失去市場。- 是敵是友?「是敵是友?」是一個競賽表演節目,從2002年到2005年在美國競賽表演廣播網(Game Show Network)放映。這是一個用真人進行的囚徒困境博弈例子,不過情景是人造的。這個競賽表演有三對人參與競爭。當每對人被淘汰時,他們做一個囚徒困境博弈,決定如何分他們的獎品。如果他們都合作(「朋友」),他們的獎品就被平分。如果一個合作而另一個背叛(「敵人」),背叛者得到所有的獎品,合作者什麼都得不到。如果都背叛,那麼兩人都一無所獲。注意,這個支付矩陣與前述標準的支付矩陣不同,因為發生「都背叛」的情形和「我合作而對手背叛」的情形,其損失是一樣的。和標準囚徒困境的穩定均衡相比,「都背叛」是不穩固的均衡(weak equilibrium)。如果你知道你的對手將成為「敵人」,這時你的選擇無法影響你的獎品。在某種意義上,「是敵是友」擁有一個介於「囚徒困境」和「小雞」之間的支付模型。這個支付矩陣是:%26nbsp; 如果參與者都合作,每人得到 1。%26nbsp; 如果都背叛,每人得到 0。%26nbsp; 如果甲合作而乙背叛,甲得到0而乙得到 2。是敵是友對於想對囚徒困境作現實分析的人將是有用的。注意到,參與者只能進行一次,所以所有涉及重複進行博弈的觀點都不適用,「以牙還牙」策略也無法發展出來。在是敵是友中,每個參賽者被允許做一個聲明,使另一半友在雙方秘密決定合作或背叛之前,確信他的友善。可能「打破制度」的方法將是一個參與者告訴他的對手:「我會選擇做敵人。如果你相信我後來會和你分獎品的話,就選擇做朋友。否則,如果你選擇做敵人,我們都回空手而回。」一個更貪婪的版本將是:「我將選擇做敵人。我會給你百分之X,剩下的百分之(100-X)歸我。所以,要或不要,要麼我們都得到一些,要麼我們都一無所獲。」(在最後通牒博弈中時。)現在,奸計就是去盡量減少那個百分之X,並保持另一個競爭者仍然選擇做朋友。基本上,這個參與者必須知道這個界限,在這裡他的對手從看到他一無所獲中得到的效用,要超過他從肯定能贏得的金錢中得到的效用,如果他順利的話。在競賽中這個方法從未被試驗過;可能是因為裁判們不會允許,而且即使允許,不平等厭惡也會由於這個規則的使用而導致較低的期望收益。(最後通牒博弈中嘗試了這個方法,結果導致對高而不平等的出價的拒絕 ——在一些案例中,相當於兩周的工資優先於兩個參與者一無所獲被決絕。)
======================================================================================
在經濟學裡,有一個賽局理論叫「囚犯困境」,是說有兩個嫌疑犯,在分隔受偵訊時,若兩者均不招供,可能只被關一陣子;但若一個招供,而另一個不招,則招供者成為汙點證人,獲得減刑,而另一不招供者,將以不合作為由被求處重刑;另外,若兩者最後均招供,則兩者均無法享受汙點證人的優待。這樣一個賽局理論,最後的均衡解,當然是兩者均招供,雖然他們兩者均知道,若兩個均不招,會獲得最好的結果,這就是囚犯者的困境。事實證明囚犯者的困境,亦適合於當前生活中各式各樣的情況。
在現今激烈競爭的社會中,賽局理論 (Game Theory) 因應而生。其理論為 Von Neumann 於1928年所奠基。當時,他的研究並不受到重視,直到1944年《Theory of games and economic behavior》一書問世才受到廣泛注目。那麼,賽局到底是什麼?首先,我們來看如下二人「零和賽局」的例子,這可以說是孩提時代的遊戲。 (賽局淺說 姚景星;劉睦雄)
經濟賽局(博弈)論
首先闡釋賽局論(Game theory),瞭解它是如何填平事實與價值的鴻溝,引導經濟人向倫理人的轉變。經濟學最基本的假設是人是理性自利的,即要實現自己利益的最大化,這在實踐中就會產生“囚徒困境”(Prisoner’s Dilemma)。“囚徒困境”是賽局論中的著名案例:員警抓住了兩個罪犯,但是警察局卻缺乏足夠的證據指證他們所犯下的罪行。為了得到所需的口供,員警將這兩名罪犯分押以防他們串供或結成攻守同盟,並分別跟他們講清了他們的處境
和面臨的選擇:如果他們兩人中有一人坦白認罪則坦白者立即釋放而另一人將重判8年徒刑;如果兩個人都坦白認罪,則他們將被各判5年監禁;當然若兩人都拒不認罪,因員警手
上缺乏證據,那他們會被以較輕的妨礙公務罪各判一年徒刑。
在這個賽局中,賽局雙方對對方的可能得益完全知曉,並且各自獨立做出策略選擇。每個博弈方選擇自己的策略時,雖然無法知道另一方的實際選擇,但他卻不能忽視另一方的選擇對自己利益的影響,因此他會根據對方兩種可能的選擇分別考慮自己的最佳策略。於是,每名囚犯從自身利益最大化出發,他就會“聰明”地發現,無論對方選擇坦白還是抗拒,自己總是選擇坦白最有利:如果對方坦白,則自己坦白要比抗拒少判3年徒刑;如果對方抗拒,則自己坦白的收益是立即釋放。結果雙方的最終選擇必然是都坦白,各判5年監禁,這樣的結局被稱為“納什均衡”,也叫非合作均衡。看似最優的選擇,實際上只是一個“次優解”。如果雙方合作,拒不承認 ,他們只會被各判一年徒刑,這才是真正的最佳策略。在單局博弈中,假若只從個人理性出發,最基本的道德現象——合作——無從發生,個人不會得到實際的最大化利益,更不用說集體利益。
當然,這只是一次性博弈中形成的結果,如果是有限次重複博弈,結局會有所不同嗎?不幸的是嚴格的分析表明,如果博弈次數是有限的,根據逆向歸納法,人們會在最後一次背叛,於是倒數第二次也會背叛??依此類推,合作仍然不會出現。
“囚徒困境”深刻反映了個體理性與集體理性之間的矛盾: 一個人自私地尋求最大效益並不意味著就能得到最好的結果,也不意味著由此可以促進公共的利益。相反,只有甘願捨棄自己的部分利益,走向合作才能獲得最好的結果。那麼,人類相互合作在何種情況下會出現呢?
博弈論會給出兩套解決方案。
可以得到數學證明的答案是無限次重複賽局(博弈)。如果賽局(博弈)無窮次,雙方就會逐漸從互相背叛走向互相合作。因為任何一次背叛都會招致對方在下一次博弈時的報復;而雙方都取合作態度會帶來合作收益。人生的生存競爭如同博弈,人們總是要互相交往,而且不止一次。因此重複的博弈會使人們遵守道德,不做損害他人的事。但是實際情況又不完全這樣,人總是要死的,因而人與人之間的博弈不是無限次的。當一個人知道他終將退出博弈時,他就可能不再害怕此後別人對他的報復,從而可以在博弈結束前做損害他人的事情,這就回復到多次重複的博弈的境況。
然而,如果死後還有靈魂,情況就會發生變化。因為有限次的博弈變成了無限次的博弈,那個使導致合作的多次博弈鏈條瓦解的因素不復存在。這也就是為什麼康得會假設靈魂不朽,上帝存在的理由,當然,康得的本意並不是僅僅解決此問題。宗教,無論基督教、伊斯蘭教、佛教、印度教,不是有靈魂之說,就是有來世之說,絕非偶然,根本上是為了實現有限博弈向無限博弈的轉變,從而為善的可能提供終極的理論保證。也許只有在宗教信仰的底層隱藏著功利的計較,才能獲的經久不衰的生命。
中國式的解決之道與上述策略迥異。在普遍的觀念裏是靠祖先、自我、子孫後代的延續來論證無限博弈存在的必然性,由此使善惡福禍互為因果的鏈條不致斷裂。士大夫則以“立德、立功、立言”的三不朽精神安身立命,讓個體的有限生命融入無限的集體生命中,從而實現了博弈的無限延續。儒家三不朽論的優越性顯而易見,避免了有組織的宗教所帶來的種種弊端,如宗教衝突與戰爭等,是一筆值得我們倍加珍視的思想遺產。
第二個答案主要歸功於美國密西根大學的羅伯特‧愛克斯羅德(Robert‧Axelrod)。愛克斯羅德是一個政治科學家,對合作的問題久有研究興趣。為了進行關於合作的研究,他組織了一場電腦競賽。這個競賽的思路非常簡單:任何想參加這個電腦競賽的人都扮演“囚徒困境”案例中一個囚犯。他們把自己的策略編入電腦程式,然後這些程式會被成雙成對地融入不同的組合。分好組以後,參與者就開始玩“囚徒困境”的遊戲。他們每個人都要在合作與背叛之間做出選擇。
第一輪遊戲有14個程式參加,再加上艾克斯羅德自己的一個隨機程式(即以50%的概率選取合作或不合作),運轉了300次。結果得分最高的程式是加拿大學者羅伯布(Anatol Rapoport)寫的%26quot;一報還一報%26quot;(tit for tat)。這個程式的特點是,第一次對局採用合作的策略,以後每一步都跟隨對方上一步的策略,你上一次合作,我這一次就合作,你上一次不合作,我這一次就不合作。艾克斯羅德還發現,得分排在前面的程式有三個特點:第一,從不首先背叛,即%26quot;善良的%26quot;;第二,對於對方的背叛行為一定要報復,不能總是合作,即%26quot;可激怒的";第三,不能人家一次背叛,你就沒完沒了的報復,以後人家只要改為合作,你也要合作,即"寬容性%26quot;。
為了進一步驗證上述結論,艾克斯羅德決定邀請更多的人再做一次遊戲,並把第一次的結果公開發表。第二次徵集到了62個程式,加上他自己的隨機程式,又進行了一次競賽。結果,第一名的仍是"一報還一報%26quot;。艾氏總結這次遊戲的結論是:第一,%26quot;一報還一報%26quot;仍是最優策略。第二,前面提到的三個特點仍然有效,因為63人中的前15名裏,只有第8名的哈靈頓程式是"不善良的",後15名中,只有1個總是合作的是%26quot;善良的%26quot;。可激怒性和寬容性也得到了證明。此外,好的策略還必須具有的一個特點是"清晰性%26quot;,能讓對方在三、五步對局內辨識出來,太複雜的對策不見得好。%26quot;一報還一報%26quot;就有很好的清晰性,讓對方很快發現規律,從而不得不採取合作的態度。
"一報還一報%26quot;策略的優越性向我們充分展示了一個純粹自利的人何以會選擇善,只因為合作是自我利益最大化的一種必要手段。
納氏均衡點 或 納什平衡(Nash equilibrium),又稱為非合作賽局平衡,是由 John Nash 所提出的, 經典的例子就是囚徒困境,囚徒困境是一個非零和賽局。 大意是:一個案子的兩個嫌疑犯被分開審訊,警官分別告訴兩個囚犯,如果你招供,而對方不招供,則你將被判刑一年,而對方將被判刑十年;如果兩人均招供,將均被判刑五年。如果兩人均不招供,將最有利,只被判刑三年。 於是,兩人同時陷入招供還是不招供的兩難處境。 但兩人無法溝通,於是從各自的利益角度出發,都依據各自的理性而選擇了招供, 這種情況就稱為納氏均衡點。 這時,個體的理性利益選擇是與整體的理性利益選擇不一致的。
囚犯甲的賽局矩陣 囚犯甲
招供 不招供
囚犯乙 招供 判刑五年 甲判刑十年;乙判刑一年
不招供 甲判刑一年;乙判刑十年 判刑三年
基於經濟學中Rational agent的前提假設,兩個囚犯符合自己利益的選擇是坦白招供,原本對雙方都有利的策略不招供從而均被判刑三年就不會出現。事實上,這樣兩人都選擇坦白的策略以及因此被判五年的結局被稱作是「納什平衡」(也叫非合作均衡),換言之,在此情況下,無一參與者可以「獨自行動」(即單方面改變決定)而增加收穫。
賽局中的納什平衡 Nash Equilibria in Game Theory
前段時間讀完了《你身邊的賽局》一書,更加感歎自己一直較少理論結合實際,原來身邊的許多生活現象是可以用賽局原理來分析的,特別是其中的納什平衡原則。賽局原理http://en.wikipedia.org/wiki/John_Forbes_Nash
(Game Theory)是美國著名數學家John Forbes Nash 總結出來的。這其中的納什平衡(Nash Equilibria)還曾經獲得諾貝爾獎。最簡明解釋賽局原理的例子是“窮徒困境”。假設兩個共同作案的犯人被警方抓起來了,分別審問。如果他們都認罪,都坐三年牢;都不認,都坐兩年牢,一人認一人不認,認的坐一年,不認的五年。其實但從每個人的角度考慮,無論對方認與不認,自己都是認的情況划算,一年vs兩年,三年vs五年。所以通常情況是,兩人都認,一起坐三年牢。這時就達到了納什平衡。
納什平衡是指個體出於自身利益最大化的考慮,一般會採取“不合作”的遊戲 “玩法”。
又比如我們Indium公司和另外一家競爭對手同時被一個大客戶指定做錫膏(或是其他各種半導體材料,散熱材料,或是焊片,太陽能材料等)的產品測試,如果大家的產品性能,技術服務等都很好,現在就只剩下價格這最後一關,來決定誰能做這筆生意,能做多少。讓我們假設客戶只會用我們兩家中的一家,沒有任何不合法的交易或是不正當關係的影響;那麼根據我自製的表格,兩家都會以最低利潤的價格來爭取更多的生意,最終結果是兩家都以低價賣,各得50%的份額。這也是一個納什平衡。(表格的數位是我自己假設的)
讓我們來看看第一種情況,其實如果兩家都以高價賣,總得是200;都以低價,總得是120。少的80那部分去哪里了呢?去客戶那裏了!客戶是最大的受益者!但是這裏還有一個前提,就是資訊不對稱!如果競爭對手和我們知道彼此的資訊,而且同意一起賣高價,那麼很有可能都能賺取更高的利潤。在市場競爭如此激烈的今天,各行各業的競爭參與者都有很多,許多企業也在用趨於納什平衡的價格來銷售自己的產品。如此看來,增加自己產品/服務的特性/閃光點,定位好目標市場,市場策略和銷售策略,對能在競爭中取勝,至關重要也!
“納什平衡是指個體出於自身利益最大化的考慮,一般會採取“不合作”的遊戲 “玩法”。” 《A Beautiful Mind》是一部與John Nash有關的電影。
這句總結的話是有問題的,所謂的“不合作”是納什平衡理論的前提,說明參與者之間沒有合作的渠道(要有的話結果顯然不是納什平衡點),而不是說從納什平衡推導出 “個體出於利益最大化的考慮而會採取不合作的玩法“,納什平衡理論告訴我們,儘管存在有更好的玩法,但由於個體的不合作,導致他們會出於避險原因選擇一個看上去其實並不是“最好的”玩法。納什平衡是賽局論的一個重要概念,以約翰‧納什命名。
納什平衡,又稱為非合作賽局平衡,是賽局論的一個重要概念,以約翰‧納什命名。如果某情況下無一參與者可以獨自行動而增加收益,則此策略組合被稱為納什均衡點。
第一, 納什(Nash)的關於非合作(non-cooperative)賽局論的平衡不動點解(equilibrium/fixpoint)學術證明是非構造性的(non-constructive),就是說納什用角穀靜夫不動點定理(Kakutani fixed point theorem) 證明瞭平衡不動點解是存在的,但卻不能指出以什麼構造演算法如何去達到這個平衡不動點解。這種非構造性的發現對現實生活裏的賽局的作用是有限的,即使知道平衡不動點解存在,在很多情況下卻找不到,因此仍不能解決問題。[來源請求]在數學意義上,納什並沒有超越角穀靜夫不動點定理。
經過《美麗心靈》的Sylvia Nasar(書作者)和Ron Howard(電影作者)這樣的主流媒體的介入,角穀靜夫(Kakutani)在這些人的作品裏被完全忽略。有人認為,「納什平衡」(Nash equilibrium)的更合適的名字應該叫作「角穀靜夫—納什賽局論不動點」(Kakutani-Nash game-theoretic fixed point)或「角穀靜夫—納什平衡」(Kakutani-Nash equilibrium),沒有角穀靜夫不動點定理,納什的證明沒有多大學術意義。《美麗心靈》完全忽視角穀靜夫之關鍵貢獻的作法有待商榷。
第二, 納什的非合作(non-cooperative)賽局論模型僅僅是突破了賽局論中的一個局限。一個更大的局限是,賽局論面對的往往是由幾十億節點的龐大對象構成的社會、經濟等複雜行為,但馮‧諾伊曼(Von Neumann)和納什的研究是針對兩三個節點的小規模賽局論(有人稱之為tiny-scale toy case)。[來源請求]
這個假設的不完善處,可能比假設大家都是合作的(cooperative)更嚴重。因為在經濟學裏,一個龐大社會裡的人極不可能全部都是合作的,非合作的情況通常在龐大對象的情形中更普遍,而在兩三個節點的小規模經濟中倒反而影響較小。既然改了合作前提為非合作前提,卻仍然停留在兩三個節點的小規模賽局論中,這是一個不可忽視的缺陷。最近香港城市大學和北京清華大學的學者群鄧小鐵、姚期智在基於複雜度理論的大規模賽局論上有所進展。
社會生物學
人類的誕生不是上帝幾句話創造的奇跡,而是漫長的自然演化的結果。早在二千多年前莊子與亞里斯多德就有天才式的簡約陳述,至達爾文的《物種起源》出版後,自然進化更是婦孺皆知,伴隨著分子生物學的發展,這一理論得到更多的實證支援。基因學研究表明,人的基因圖譜與雞有八成相同,與牛則有九成相同,而 2002年1月4 日美國《科學》發表成果說,人與黑猩猩的基因圖譜在堿基對排列上98.77%完全相同,差異只占1.23%。這使我們研究道德現象的視野不再局限於人類社會本身,通過對生物種群內部利他性行為(altruism)的觀察,即可獲得對人類道德行為的本源性認識,避免許多無謂的紛爭和虛妄的假設。
社會生物學家一般把生物的利他性行為分為三種:“親屬(親緣)利他”(kin selection)、“互惠利他”(reciprocal selection) 、“群體利他” (group selection)。
“親屬(親緣)利他”,即有血緣關係的生物個體為自己的親屬提供幫助或作出犧牲,例如父母與子女、兄弟與姐妹之間的相互幫助。這一理論由W. D.Hamilton首先提出,認為生物的進化取決於基因遺傳頻率的最大化,“親緣利他”是一種內在的適應性(inclusive fitness),雖然這一行為表面上使自己的遺傳性狀的延續受到損害,但因親屬基因間的相似性,實質上卻使自我的基因得到最大程度的保留,因而凡是能夠提供“親緣利他”的物種在生存競爭中具有明顯的進化優勢。因此,“親緣利他”在整個生物世界都是一種非常穩定、非常普遍的行為模式。例如,當幼鳥遭受攻擊時,許多鳥類父母都會挺身而出,用偽裝受傷的方法把猛禽引向自己,使子女得以逃脫。在這一行為過程中,父親或母親雖然可能因此喪生,但由於父母與子女之間有1/2的基因完全相同,從“基因遺傳頻率最大化”的角度看,原則上只要能使2只以上的幼雛得以逃生,父親或母親作出的犧牲就是值得的。如果考慮到年幼子女喪生的幾率遠遠超過經驗豐富的父母,這類行為對生物繁衍所具有的功效就更一目了然。 在動物中,為了其他個體的生殖而減少自己生殖的現象廣泛存在,社會性昆蟲在這方面是最為鮮明的例證。在白蟻、螞蟻、蜜蜂、黃蜂之中,存在著一個為數眾多的不育階層,它們的基本功能是增加王后(一般是它們的母親)的產卵,並撫養王后的子女(通常是它們的兄弟或姐妹)。而隨著親緣關係的疏遠,“親緣利他”的強度也會逐步衰減。所以,無論在人類社會或生物世界,“親緣利他”在父母與子女關係上表現得尤為普遍明顯。生物學家甚至設計出所謂的“親緣指數”,並根據它來計算“親緣利他”行為的得失和強弱(Hamilton,1964)。“親緣利他”用來解釋人類政治和經濟活動中的裙帶關係(nepotism)尤為有效
“互惠利他”,即沒有血緣關係的生物個體為了以後得到回報而相互提供幫助。生物個體之所以不惜降低自己的生存競爭力幫助另一個與已毫無血緣關係的個體,因為它們期待日後得到回報,以獲取更大的收益。例如,一種生活在哥斯大黎加的蝙蝠(vampire bats),以吸食其他動物的血液為生,如果連續兩晝夜吃不到血就會餓死;一隻剛剛飽餐一頓的蝙蝠往往會把自己吸食的血液吐出一些來反哺那些頻臨死亡的同伴,儘管它們之間沒有任何親屬關係。生物學家發現,蝙蝠們會優先回報那些曾經向它饋贈過血液的個體。顯然,這是一種非常典型的“互惠利他”。派克(Packer)給出了非洲橄欖狒狒(olive baboons)的例證,此處不詳述。“互惠利他”在自然進化中只有以下情況是穩定和可取的:1)資源豐富與匱乏的非同步性;2)對每個個體來說收益超過成本;3)這種交互作用會高頻率發生;4)可識別欺騙行為並給以懲罰。(Robert Trivers 1970)即它是一種進化穩定策略(Evolutionary Stable Strategy (ESS)),如果整個群體接受了某一策略,則自然選擇裏沒有一種新的策略可以改變它,因為這種新的策略不會取得種族繁殖的成功。人類的理性保證了這些附加條件的充分滿足,這可以說明為什麼“互惠利他”在人類行為中普遍存在而在生物世界中相當罕見。精密的“互惠利他”模型由博弈論專家阿克塞羅德論述,即“一報還一報”(tit for tat)策略。
前面的理論立足於個體選擇(Individual Selection)的遺傳學,它可以完美的解釋“親緣利他”、 “互惠利他” ,但對“純粹利他”——即利他行為者不追求任何針對其個體的客觀回報——的解釋缺乏足夠的力度。例如,湯姆遜瞪羚(Thomson’s gazelles)的利他主義行為:當獅子或獵豹接近時,往往會有一隻瞪羚在原地不停地跳躍向同伴們發出警告。按照一般的行為原則,最早發現危險應該最早逃跑才是最佳生存策略。但湯姆遜瞪羚的卻放棄了第一時間逃生的機會,並以此代價向同伴報警,使自己暴露在捕食者面前。這一行為看上去頗似我們前面提到的母鳥保護幼鳥的行為,但它們的內涵卻有明顯的差別。因為湯姆遜瞪羚所保護的並非是它的子女或親屬,對個體來說這是一項沒有任何收益的投資。這一行為與吸血蝙蝠的“互惠利他”有著更明顯的區別,對個體來說這一行為的風險與預期回報存在著極大的不相稱,而且也不可能通過識別機制來剔除那些具有機會主義傾向的欺騙者。這裏就需要另一種利他主義闡釋模式,即“群體選擇”(group selection).
“群體選擇”理論認為自然選擇的基本單位是群體、種族,而不是生物個體。為了整個物種的更大利益,個體就就有可能成為犧牲品。一個群體,如果它的個體成員為了本群體的利益準備犧牲自己,要比與之競爭的另一個群體——它的個體成員把自己的自私利益放在首位——有更大的生存適應性。遺傳進化是在生物種群層次上實現的,當生物個體的利他行為有利於種群利益時,這種行為特徵就可能隨種群利益的最大化而得以保存和進化。(Wynne Edwards 1962)例如葡萄牙水母往往組成一大群相互高度配合行動的整體,選擇單位則是自己所屬的群落,擠塞在膠狀的一團裏的單個成員幾乎無足輕重,有的成員缺胃,有的缺少神經系統,多數從不繁殖,而幾乎所有成員都可以通過分裂生殖。但是這一理論有相當大的破綻:1)它不是一個穩定進化策略(ESS),會被採取欺騙策略的自利者入侵;2)實驗證明它需要更為苛刻的條件。當然,許多生物學家並不排除“群體選擇”發生的可能性,但主流正統的生物學家堅持“個體選擇”理論。
“個體選擇”還是“群體選擇”是個爭執不休的問題,當前尚無定論。理查‧道金斯在《自私的基因》裏則提出另一種觀點,認為“選擇的基本單位,因此也是自我利益的基本單位,既不是物種,也不是群體,嚴格說來,甚至也不是個體,而是遺傳單位基因。”個體、群體、種族不過是基因的運載工具——基因機器,生物的行為,不管是自私的或利他的,都在基因控制之下,都是為了最大限度地保證基因存活可能性所採用的策略。利他性行為歸根到底只是促進基因生存的迂回隱蔽方式。
自然世界裏,每一種生物都有高速率繁衍後代的傾向,其速度是按照幾何比例增加的,同時,由於可能生存區域的有限,食物、資源的匱乏,必然引起生物同種個體之間,或和異種的個體,或和自然的生活環境鬥爭。因同屬的物種個體通常在習性、體質、構造及生存環境方面,有極大的相似性,所以它們之間的鬥爭,一般要比異屬的物種之間的鬥爭更為劇烈。生物個體各自極力擴張增加,相互之間又通過複雜的機理彼此制約抗衡,最終形成一種動態的平衡,既有竟爭,又有表面上顯現出來的合作、和諧共處,這也必然在同種屬間表現得更充分清楚。從生物本身來說,竟爭與合作只是為最大限度地繁衍後代所採取的不同策略,不存在道德問題,但從人類的視角出發,它們卻分別有自利性行為與他利性行為的道德意味。
自然進化的過程,一直存在著竟爭與合作兩種基本趨向,竟爭是生物個體無限制擴張的力量,而合作則是生物個體互相制約以求更好發展的力量,竟爭是目的,合作是手段。
道德心理學
現在讓我們從人類道德心理發生的角度去認識道德倫理現象,由於原始人類的心理特徵與兒童的心理有相當大的相似性,如主客不分,唯靈論傾向等,此處從略不論,單單闡釋少年兒童的道德心理發展歷程。
皮亞傑(Jean Piaget)把兒童的道德意識發展分為四個階段:1)自我中心階段(2—5);2)他律階段(6—7,8歲);3)自律階段(8—10歲);4)公正階段(10—12歲)。
心理學家勞倫斯‧卡爾伯格(Lawvrence Kahlberg)認為在人的精神發育中有六個倫理推理階段,孩童從不加懷疑地依賴幹外在的規則和控制,到逐漸有一套成熟的內在標準,要經過(1)僅僅為了免受懲罰而遵守規則和權威:(2)為了得到獎賞和互換寵倖,而使自己與集團行為相符;(3)好孩子意向,為了免受別人的白眼和拒斥;(4)職責意向,免遭權威斥責、免得破壞秩序和招致罪過;(5)墨守法規意向,認識到契約的價值、制定規則中的某些武斷是為了維護普遍的善;(6)意識或原則意向,對選擇原則的初步忠誠,在法律被認為害大於利的情況下,這種意向能否決法律。
由於知識和訓練的不同,一個人可以在這個階梯的任何一級上停下來,大多數人達到了第四或第五階段,當倫理選擇帶有契約和墨守成規的性質時,所體現的道德就是大多數人類社會進化的基礎。個體通過學習規則和相對不靈活的情緒反應的控制,可以越過第五階段。
從以上的簡單?述可知,個體在道德發生的源始呈現出極強的自利性,隨著經驗的積累和認知的發展,他會逐漸被強迫或自願地拋棄單純利己的行為模式,而遵循道德、選擇大眾所遵從的行為規則。個體只有如此,才能實現自我更好地生存發展,其實這也是對穩定進化策略(ESS)的選擇。當然做出這種選擇的根本原因既有遺傳因素,也有後天環境因素,人有極大的可塑性,這是人和其他生物的迥異之處。
佛洛德(Sigmund Freud)把人的心理結構分為三個層次,依次為本我(Id)、自我(Ego)、超我(Super-Ego)。本我是人的生物本能,它依快樂原則行動,屬於一種無所顧忌的擴張性毀滅性力量。超我則由良知和理想自我組成,通過社會交往的經驗發展而成,基本上是針對人的生物本能的抑制性力量。自我是人的人格表像,它依照實用的現實原則行動,同時受本我和超我的制約,從而形成一種穩定的心理狀態,即個人的道德品質。
榮格(Carl Jung)則把心理分析的研究推進一步,追溯到集體無意識(Collective unconscious)及其表徵——原型(Archetype),認為集體無意識是千萬年來人類祖先,動物遠祖心理沉澱的結果,不僅僅是個人後天生活經驗的積累,這一理論實現了很大的突破,使人類心理與生物意識的溝通成為可能。那麼,在此基礎上,我們是否可以進一步創新,將集體無意識的起始延伸到更遠,至植物、微生物、最初的生命,乃至地球的誕生,時間的原點——大爆炸(Big Bang)?
我認為可行,並在這當中能找到根本的道德起源。
自然的演化是自組織過程,絕不服從熱力學第二定律(熵增原理),耗散結構(dissipative structure)說明,物質在開放的遠離平衡條件下,在與外界交換物質和能量的過程中,可以輸入負熵,經過突變而形成持久穩定的有序結構。宇宙的演化,地球的演變,生命的進化,社會的發展等等,無不經歷突變,平衡,突變,再平衡的螺旋上升過程,並且此過程是不可逆的,即它不具有時間反演不變性。平衡態不是進化的終極目的,它只是一個為實現突變進化而不可或缺的中間階段。類似於此,生物界的合作,和諧共處也只是為了竟爭勝出而採用的必要手段。
如何解釋進化的不可逆性,時間之矢的單向性?一個值得關注的觀點是認為不可逆性源於宇宙大爆炸,宇宙學箭頭是最基本的時間箭頭,其他的一切時間箭頭,如熱力學箭頭,歷史箭頭、生命箭頭等都可由宇宙學箭頭推導。已知的宇宙一直處於膨脹過程,大爆炸所產生的擴張能量大於由於引力所導致的塌縮,這是時間之矢的單向性的原因。宇宙的擴張能量大於收縮能量,而這種特徵為一切物質,生物,人類所共有,自然因正能量的輸入而不斷進化,也許這是為什麼生物界、人類社會竟爭優先於合作,自利優先於他利的終極起源。
沒有留言:
張貼留言