社會悖論生活污水_為什麼不讀書的人比讀書的人更能看清社會現實

㈠動態博弈論模型如何建立

一、博弈中最優策略的產生
艾克斯羅德（Robert Axelrod）在開始研究合作之前，設定了兩個前提：一、每個人都是自私的；二、沒有權威干預個人決策。也就是說，個人可以完全按照自己利益最大化的企圖進行決策。在此前提下，合作要研究的問題是：第一、人為什麼要合作；第二、人什麼時候是合作的，什麼時候又是不合作的；第三、如何使別人與你合作。
社會實踐中有很多合作的問題。比如國家之間的關稅報復，對他國產品提高關稅有利於保護本國的經濟，但是國家之間互提關稅，產品價格就提高了，喪失了競爭力，損害了國際貿易的互補優勢。在對策中，由於雙方各自追求自己利益的最大化，導致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。
A和B各表示一個人，他們的選擇是完全無差異的。選擇C代表合作，選擇D代表不合作。如果AB都選擇C合作，則兩人各得3分；如果一方選C，一方選D，則選C的得零分，選D的得5分；如果AB都選D，雙方各得1分。
顯然，對群體來說最好的結果是雙方都選C，各得3分，共得6分。如果一方選C，一方選D，總體得5分。如果兩人都選D，總體得2分。
對策學界用這個矩陣來描述個體理性與群體理性的沖突：每個人在追求個體利益最大化時，就使群體利益受損，這就是囚徒困境。在矩陣中，對於A來說，當對方選C，他選D得5分，選C只得3分；當對方選D，他選D得1分，選C得零分。因此，無論對方選C或D，對A來說，選D都得分最多。這是A單方面的優超策略。而當兩個優超策略相遇，即A，B都選D時，結果是各得1分。這個結果在矩陣中並非最優。困境就在於，每個人採取各自的優超策略時，得出的解是穩定的，但不是帕累托最優的，這個結果體現了個體理性與群體理性的矛盾。在數學上，這個一次性決策的矩陣沒有最優解。
如果博弈進行多次，只要對策者知道博弈次數，他們在最後一次肯定採取互相背叛的策略。既然如此，前面的每一次也就沒有合作的必要，因此，在次數已知的多次博弈中，對策者沒有一次會合作。
如果博弈在多人間進行，而且次數未知，對策者就會意識到，當持續地採取合作並達成默契時，對策者就能持續地各得3分，但如果持續地不合作的話，每個人就永遠得1分。這樣，合作的動機就顯現出來。多次對局下，未來的收益應比現在的收益多一個折現率W，W越大，表示未來的收益越重要。在多人對策持續進行下去，且W比較大，即未來充分重要時，最優的策略是與別人採取的策略有關的。假設某人的策略是，第一次合作，以後只要對方不合作一次，他就永不合作。對這種對策者，當然合作下去是上策。假如有的人不管對方採取什麼策略，他總是合作，那麼總是對他採取不合作的策略得分最多。對於總是不合作的人，也只能採取不合作的策略。
艾克斯羅德做了一個實驗，邀請多人來參加游戲，得分規則與前面的矩陣相同，什麼時候結束游戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機程序，然後用單循環賽的方式將參賽程序兩兩博弈，以找出什麼樣的策略得分最高。
第一輪游戲有14個程序參加，再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取合作或不合作)，運轉了300次。結果得分最高的程序是加拿大學者羅伯布寫的"一報還一報"(tit for tat)。這個程序的特點是，第一次對局採用合作的策略，以後每一步都跟隨對方上一步的策略，你上一次合作，我這一次就合作，你上一次不合作，我這一次就不合作。艾克斯羅德還發現，得分排在前面的程序有三個特點：第一，從不首先背叛，即"善良的"；第二，對於對方的背叛行為一定要報復，不能總是合作，即" 可激怒的"；第三，不能人家一次背叛，你就沒完沒了的報復，以後人家只要改為合作，你也要合作，即"寬容性"。
為了進一步驗證上述結論，艾氏決定邀請更多的人再做一次游戲，並把第一次的結果公開發表。第二次徵集到了62個程序，加上他自己的隨機程序，又進行了一次競賽。結果，第一名的仍是"一報還一報"。艾氏總結這次游戲的結論是：第一，"一報還一報"仍是最優策略。第二，前面提到的三個特點仍然有效，因為63人中的前15名里，只有第8名的哈靈頓程序是"不善良的"，後15名中，只有1個總是合作的是"善良的"。可激怒性和寬容性也得到了證明。此外，好的策略還必須具有的一個特點是"清晰性"，能讓對方在三、五步對局內辨識出來，太復雜的對策不見得好。"一報還一報"就有很好的清晰性，讓對方很快發現規律，從而不得不採取合作的態度。
二、合作的進行過程及規律
"一報還一報"的策略在靜態的群體中得到了很好的分數，那麼，在一個動態的進化的群體中，這種合作者能否產生、發展、生存下去呢？群體是會向合作的方向進化，還是向不合作的方向進化？如果大家開始都不合作，能否在進化過程中產生合作？為了回答這些疑問，艾氏用生態學的原理來分析合作的進化過程。
假設對策者所組成的策略群體是一代一代進化下去的，進化的規則包括：一，試錯。人們在對待周圍環境時，起初不知道該怎麼做，於是就試試這個，試試那個，哪個結果好就照哪個去做。第二，遺傳。一個人如果合作性好，他的後代的合作基因就多。第三，學習。比賽過程就是對策者相互學習的過程，"一報還一報"的策略好，有的人就願意學。按這樣的思路，艾氏設計了一個實驗，假設63個對策者中，誰在第一輪中的得分高，他在第二輪的群體中所佔比例就越高，而且是他的得分的正函數。這樣，群體的結構就會在進化過程中改變，由此可以看出群體是向什麼方向進化的。
實驗結果很有趣。"一報還一報"原來在群體中佔1/63，經過1000代的進化，結構穩定下來時，它佔了24%。另外，有一些程序在進化過程中消失了。其中有一個值得研究的程序，即原來前15名中唯一的那個"不善良的"哈靈頓程序，它的對策方案是，首先合作，當發現對方一直在合作，它就突然來個不合作，如果對方立刻報復它，它就恢復合作，如果對方仍然合作，它就繼續背叛。這個程序一開始發展很快，但等到除了"一報還一報"之外的其它程序開始消失時，它就開始下降了。因此，以合作系數來測量，群體是越來越合作的。
進化實驗揭示了一個哲理：一個策略的成功應該以對方的成功為基礎。"一報還一報"在兩個人對策時，得分不可能超過對方，最多打個平手，但它的總分最高。它賴以生存的基礎是很牢固的，因為它讓對方得到了高分。哈靈頓程序就不是這樣，它得到高分時，對方必然得到低分。它的成功是建立在別人失敗的基礎上的，而失敗者總是要被淘汰的，當失敗者被淘汰之後，這個好占別人便宜的成功者也要被淘汰。
那麼，在一個極端自私者所組成的不合作者的群體中，"一報還一報"能否生存呢？艾氏發現，在得分矩陣和未來的折現系數一定的情況下，可以算出，只要群體的 5%或更多成員是"一報還一報"的，這些合作者就能生存，而且，只要他們的得分超過群體的總平均分，這個合作的群體就會越來越大，最後蔓延到整個群體。反之，無論不合作者在一個合作者佔多數的群體中有多大比例，不合作者都是不可能自下而上的。這就說明，社會向合作進化的棘輪是不可逆轉的，群體的合作性越來越大。艾克斯羅德正是以這樣一個鼓舞人心的結論，突破了"囚犯困境"的研究困境。
在研究中發現，合作的必要條件是：第一、關系要持續，一次性的或有限次的博弈中，對策者是沒有合作動機的；第二、對對方的行為要做出回報，一個永遠合作的對策者是不會有人跟他合作的。
那麼，如何提高合作性呢？首先，要建立持久的關系，即使是愛情也需要建立婚姻契約以維持雙方的合作。（火車站的小販為什麼要騙人？為什麼工作中要形成小組制度？換防的時候一方總是要小小地進攻一下的，在中越前線就是這樣）第二、要增強識別對方行動的能力，如果不清楚對方是合作還是不合作，就沒法回報他了。第三、要維持聲譽，說要報復就一定要做到，人家才知道你是不好欺負的，才不敢不與你合作。第四、能夠分步完成的對局不要一次完成，以維持長久關系，比如，貿易、談判都要分步進行，以促使對方採取合作態度。第五、不要嫉妒人家的成功，"一報還一報"正是這樣的典範。第六、不要首先背叛，以免擔上罪魁禍首的道德壓力。第七、不僅對背叛要回報，對合作也要作出回報。第八、不要耍小聰明，占人家便宜。
（打橋牌和打麻將的區別）
艾克斯羅德在《合作的進化》一書結尾提出幾個結論。第一、友誼不是合作的必要條件，即使是敵人，只要滿足了關系持續，互相回報的條件，也有可能合作。比如，第一次世界大戰期間，德英兩軍在戰壕戰中遇上了三個月的雨季，雙方在這三個月中達成了默契，互相不攻擊對方的糧車給養，到大反攻時再你死我活地打。這個例子說明，友誼不是合作的前提。第二、預見性也不是合作的前提，艾氏舉出生物界低等動物、植物之間合作的例子來說明這一點。但是，當有預見性的人類了解了合作的規律之後，合作進化的過程就會加快。這時，預見性是有用的，學習也是有用的。
當游戲中考慮到隨機干擾，即對策者由於誤會而開始互相背叛的情形時，吳堅忠博士經研究發現，以修正的"一報還一報"，即以一定的概率不報復對方的背叛，和 "悔過的一報還一報"，即以一定的概率主動停止背叛。群體所有成員處理隨機環境的能力越強，"悔過的一報還一報"效果越好，"寬大的一報還一報"效果越差。
三、艾克斯羅德的貢獻與局限性
艾克斯羅德通過數學化和計算機化的方法研究如何突破囚徒困境，達成合作，將這項研究帶到了一個全新境界，他在數學上的證明無疑是十分雄辯和令人信服的，而且，他在計算機模擬中得出的一些結論是非常驚人的發現，比如，總分最高的人在每次博弈中都沒有拿到最高分。（劉邦和項羽的戰爭）
艾氏所發現的"一報還一報"策略，從社會學的角度可以看作是一種"互惠式利他"，這種行為的動機是個人私利，但它的結果是雙方獲利，並通過互惠式利他有可能覆蓋了范圍最廣的社會生活，人們通過送禮及回報，形成了一種社會生活的秩序，這種秩序即使在多年隔絕，語言不通的人群之間也是最易理解的東西。比如，哥倫布登上美洲大陸時，與印地安人最初的交往就開始於互贈禮物。有些看似純粹的利他行為，比如無償損贈，也通過某些間接方式，比如社會聲譽的獲得，得到了回報。研究這種行為，將對我們理解社會生活有很重要的意義。
囚徒困境擴展為多人博弈時，就體現了一個更廣泛的問題——"社會悖論"，或"資源悖論"。人類共有的資源是有限的，當每個人都試圖從有限的資源中多拿一點兒時，就產生了局部利益與整體利益的沖突。人口問題、資源危機、交通阻塞，都可以在社會悖論中得以解釋，在這些問題中，關鍵是通過研究，制定游戲規則來控制每個人的行為。
艾克斯羅德的一些結論在中國古典文化道德傳統中可以很容易地找到對應，"投桃報李"、"人不犯我，我不犯人"都體現了"tit for tat"的思想。但這些東西並不是最優的，因為"一報還一報"在充滿了隨機性的現實社會生活里是有缺陷的。對此，孔子在幾千年前就說出了"以德報德，以直報怨"這樣精彩的修正策略，所謂"直"，就是公正，以公正來回報對方的背叛，是一種修正了的"一報還一報"，修正的是報復的程度，本來會讓你損失5分，現在只讓你損失3分，從而以一種公正審判來結束代代相續的報復，形成文明。
但是，艾氏對博弈者的一些假設和結論使其研究不可避免地與現實脫節。首先，《合作的進化》一書暗含著一個重要的假定，即，個體之間的博弈是完全無差異的。現實的博弈中，對策者之間絕對的平等是不可能達到的。一方面，對策者在實際的實力上有差異，雙方互相背叛時，可能不是各得1分，而是強者得5分，弱者得0 分，這樣，弱者的報復就毫無意義。另一方面，即使對局雙方確實旗鼓相當，但某一方可能懷有賭徒心理，認定自己更強大，採取背叛的策略能佔便宜。艾氏的得分矩陣忽視了這種情形，而這種賭徒心理恰恰在社會上大量引發了零和博弈。因此，程序還可以在此基礎上進一步改進。
其次，艾氏認為合作不需預期和信任。這是他受到質疑頗多之處。對策者根據對方前面的戰術來制定自己下面的戰術，合作要求個體能夠識別那些曾經相遇過的個體並且記得與其相互作用的歷史，以便作出反應，這些都暗含著"預期"行為。在應付復雜的對策環境時，信任可能是對局雙方達成合作的必不可少的環節。但是，預期與信任如何在計算機的程序中體現出來，仍是需要研究的。
最後，重復博弈在現實中是很難完全實現的。一次性博弈的大量存在，引發了很多不合作的行為，而且，對策的一方在遭到對方背叛之後，往往沒有機會也沒有還手之力去進行報復。比如，資本積累階段的違約行為，國家之間的核威懾。在這些情況下，社會要使交易能夠進行，並且防止不合作行為，必須通過法制手段，以法律的懲罰代替個人之間的"一報還一報"，規范社會行為。這是艾克斯羅德的研究對制度學派的一個重要啟發。

㈡什麼叫博弈

博弈論是指某個個人或是組織，面對一定的環境條件，在一定的規則約束下，依靠所掌握的信息，從各自選擇的行為或是策略進行選擇並加以實施，並從各自取得相應結果或收益的過程，在經濟學上博奕論是個非常重要的理論概念。

什麼是博弈論？古語有雲，世事如棋。生活中每個人如同棋手，其每一個行為如同在一張看不見的棋盤上布一個子，精明慎重的棋手們相互揣摩、相互牽制，人人爭贏，下出諸多精彩紛呈、變化多端的棋局。博弈論是研究棋手們「出棋」著數中理性化、邏輯化的部分，並將其系統化為一門科學。換句話說，就是研究個體如何在錯綜復雜的相互影響中得出最合理的策略。事實上，博弈論正是衍生於古老的游戲或曰博弈如象棋、撲克等。數學家們將具體的問題抽象化，通過建立自完備的邏輯框架、體系研究其規律及變化。這可不是件容易的事情，以最簡單的二人對弈為例，稍想一下便知此中大有玄妙：若假設雙方都精確地記得自己和對手的每一步棋且都是最「理性」的棋手，甲出子的時候，為了贏棋，得仔細考慮乙的想法，而乙出子時也得考慮甲的想法，所以甲還得想到乙在想他的想法，乙當然也知道甲想到了他在想甲的想法…

面對如許重重迷霧，博弈論怎樣著手分析解決問題，怎樣對作為現實歸納的抽象數學問題求出最優解、從而為在理論上指導實踐提供可能性呢？現代博弈理論由匈牙利大數學家馮·諾伊曼於20世紀20年代開始創立，1944年他與經濟學家奧斯卡·摩根斯特恩合作出版的巨著《博弈論與經濟行為》，標志著現代系統博弈理論的初步形成。對於非合作、純競爭型博弈，諾伊曼所解決的只有二人零和博弈--好比兩個人下棋、或是打乒乓球，一個人贏一著則另一個人必輸一著，凈獲利為零。在這里抽象化後的博弈問題是，已知參與者集合(兩方) ，策略集合(所有棋著) ，和盈利集合(贏子輸子) ，能否且如何找到一個理論上的「解」或「平衡」，也就是對參與雙方來說都最「合理」、最優的具體策略？怎樣才是「合理」？應用傳統決定論中的「最小最大」准則，即博弈的每一方都假設對方的所有功略的根本目的是使自己最大程度地失利，並據此最優化自己的對策，諾伊曼從數學上證明，通過一定的線性運算，對於每一個二人零和博弈，都能夠找到一個「最小最大解」。通過一定的線性運算，競爭雙方以概率分布的形式隨機使用某套最優策略中的各個步驟，就可以最終達到彼此盈利最大且相當。當然，其隱含的意義在於，這套最優策略並不依賴於對手在博弈中的操作。用通俗的話說，這個著名的最小最大定理所體現的基本「理性」思想是「抱最好的希望，做最壞的打算」。

㈢蘇小小的生平死時多大年紀她有哪些詩詞作品

1、生平：

蘇小小，乃是南齊時錢塘第一名伎，中國古代最有名的才女佳人，傳說中的名伎。

蘇小小家先世曾為東晉官，從江南姑蘇流落到錢塘後靠祖產經營，成了當地較為殷實的商人，她的父母只有她這么個女兒，十分寵愛，因她長的嬌小，所以叫小小。蘇小小十五歲時，父母謝世，於是變賣家產，帶著乳母賈姨移居到城西的西泠橋畔。她們住在松柏林中的小樓里，每日靠積蓄生活，盡情享受於山水之間。因她玲瓏秀美，氣韻非常，在她的車後總有許多風流倜儻的少年跟隨。沒有父母的管束，蘇小小也樂得和文人雅士們來往，常在她的小樓里以詩會友，她的門前總是車來車往，蘇小小成了錢塘一帶有名的詩妓。
有一天蘇小小在遊玩之時碰到了一位俊美的公子――阮郁。兩人一見傾心，阮郁到蘇小小家拜訪，受到美人的禮遇，晚上便同榻而眠。蘇小小從此與阮郁形影不離，每日共同遊山玩水。可是阮郁的父親聽說他在錢塘整日與妓混在一起，非常生氣，把他逼回了金陵（今南京）。蘇小小整日企盼，卻不見情人回來，終於病倒了。幸好她還不是愛鑽牛角尖的人，一些可心的文雅公子進屋來，陪蘇小小聊天，她漸漸恢復了車馬盈門的往日生活。
在一個晴朗的秋天，在湖濱她見到一位模樣酷似阮郁的人，卻衣著儉朴，神情沮喪，聞訊後才知此人叫鮑仁，因盤纏不夠而無法趕考。她覺得此人氣宇不凡，必能高中，於是主動提出為提供錢物上的幫助。鮑仁感激不盡，滿懷抱負地奔赴考場。
當時的上江觀察使孟浪因公事來到錢塘，身為官員不好登蘇小小之門，於是派人請她來府中，沒想到蘇小小架子很大，催了幾次方來，孟浪決定難為她一下，於是指著庭外一株梅花讓她做詩，蘇小小從容不迫地信口吟出：梅花雖傲骨，怎敢敵春寒？若更分紅白，還須青眼看！孟浪贊佩不已。
佳人薄命，蘇小小在第二年春天因病而逝。這時鮑仁已金榜題名，出任滑州刺史，赴任時順道經過蘇小小家，卻趕上她的葬禮，鮑仁撫棺大哭，在她墓前立碑曰：錢塘蘇小小之墓。
有詩雲：「湖山此地曾埋玉，花月其人可鑄金」。墓上覆六角攢尖頂亭，叫「慕才亭」，據說是蘇小小資助過的書生鮑仁所建。
「生在西泠，死在西泠，葬在西泠，不負一生愛好山水」是蘇小小的遺願，山水之於小小，猶如小小之於我。
西泠橋畔的埋香之所，既了卻了佳人遺願，又為西湖山水增色。

2、相關詩詞：

蘇小小歌
南朝民歌

妾乘油壁車，郎跨青驄馬。何處結同心，西陵松柏下。

（按，這首詩並非蘇小小所作，但對後世相關詩歌影響深遠。）

3、其他詩歌：

蘇小小墓
李賀

幽蘭露，如啼眼。無物結同心，煙花不堪剪。
草如茵，松如蓋。風為裳，水為佩。
油壁車，夕相待。冷翠燭，勞光彩。
西陵下，風吹雨。

㈣為什麼不讀書的人比讀書的人更能看清社會現實

為什麼有抄些人成績好，人緣也好？為什麼有些人會玩，也會念書？因為他們的大腦結構不一樣！

幾十年前，庫珀發現了運動與心臟的奧秘，瑞迪則在《運動改造大腦》一書中，通過確鑿的證據、大量突破性研究揭示了運動與大腦的聯系。所以，動起來吧！你的大腦會感謝您的付出，並加倍回報給你。

別懷疑，你絕對有能力改造自己的大腦！想改善智商與心智嗎？先穿上你的足球鞋吧！

㈤什麼是貝葉斯納什均衡

博弈論(Game Theory)，有時也稱為對策論，或者賽局理論，應用數學的一個分支, 目前在生物學，經濟學，國際關系，計算機科學, 政治學，軍事戰略和其他很多學科都有廣泛的應用。主要研究公式化了的激勵結構（游戲或者博弈（Game)）間的相互作用。是研究具有斗爭或競爭性質現象的數學理論和方法。也是運籌學的一個重要學科。

博弈論考慮游戲中的個體的預測行為和實際行為，並研究它們的優化策略。表面上不同的相互作用可能表現出相似的激勵結構(incentive structure)，所以他們是同一個游戲的特例。其中一個有名有趣的應用例子是囚徒困境悖論(Prisoner's dilemma)。

具有競爭或對抗性質的行為成為博弈行為。在這類行為中，參加斗爭或競爭的各方各自具有不同的目標或利益。為了達到各自的目標和利益，各方必須考慮對手的各種可能的行動方案，並力圖選取對自己最為有利或最為合理的方案。比如日常生活中的下棋，打牌等。博弈論就是研究博弈行為中斗爭各方是否存在著最合理的行為方案，以及如何找到這個合理的行為方案的數學理論和方法。

生物學家使用博弈理論來理解和預測進化論的某些結果。例如，John Maynard Smith 和George R. Price 在1973年發表於Nature上的論文中提出的「evolutionarily stable strategy」的這個概念就是使用了博弈理論。還可以參見進化博弈理論（evolutionary game theory）和行為生態學（behavioral ecology）。

博弈論也應用於數學的其他分支，如概率，統計和線性規劃等。

[編輯]博弈論簡史
對於博弈論的研究，開始於策墨洛(Zermelo,1913)，波雷爾(Borel,1921)及馮·諾伊曼(von Neumann, 1928)，後來由馮·諾伊曼和奧斯卡·摩根斯坦(von Neumann and Morgenstern，1944，1947)首次對其系統化和形式化（參照Myerson, 1991）。隨後約翰·福布斯·納什(John Forbes Nash Jr., 1950, 1951)利用不動點定理證明了均衡點的存在，為博弈論的一般化奠定了堅實的基礎。

當代博弈論的「三大家」和「四君子」

"三大家" 包括約翰·福布斯·納什、約翰·C·海薩尼，以及萊因哈德·澤爾騰。這三人同時因為他們對博弈論的突出貢獻而獲得1994年的瑞典銀行經濟學獎（也稱諾貝爾經濟學獎）。

"四君子" 包括羅伯特·J·奧曼、肯·賓摩爾、戴維·克瑞普斯，以及阿里爾·魯賓斯坦。

[編輯]博弈論分類
博弈的分類根據不同的基準也有不同的分類。一般認為，博弈主要可以分為合作博弈和非合作博弈。它們的區別在於相互發生作用的當事人之間有沒有一個具有約束力的協議，如果有，就是合作博弈，如果沒有，就是非合作博弈。

從行為的時間序列性，博弈論進一步分為兩類：靜態博弈是指在博弈中，參與人同時選擇或雖非同時選擇但後行動者並不知道先行動者採取了什麼具體行動；動態博弈是指在博弈中，參與人的行動有先後順序，且後行動者能夠觀察到先行動者所選擇的行動。通俗的理解："囚徒困境"就是同時決策的，屬於靜態博弈；而棋牌類游戲等決策或行動有先後次序的，屬於動態博弈

按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。完全博弈是指在博弈過程中，每一位參與人對其他參與人的特徵、策略空間及收益函數有準確的信息。如果參與人對其他參與人的特徵、策略空間及收益函數信息了解的不夠准確、或者不是對所有參與人的特徵、策略空間及收益函數都有準確的信息，在這種情況下進行的博弈就是不完全信息博弈。

目前經濟學家們現在所談的博弈論一般是指非合作博弈，由於合作博弈論比非合作博弈論復雜，在理論上的成熟度遠遠不如非合作博弈論。非合作博弈又分為：完全信息靜態博弈，完全信息動態博弈，不完全信息靜態博弈，不完全信息動態博弈。與上述四種博弈相對應的均衡概念為：納什均衡(Nash equilibrium)，子博弈精煉納什均衡（subgame perfect Nash equilibrium），貝葉斯納什均衡(Bayesian Nash equilibrium)，精煉貝葉斯納什均衡(perfect Bayesian Nash equilibrium)。

博弈論還又很多分類，比如：以博弈進行的次數或者持續長短可以分為有限博弈和無限博弈；以表現形式也可以分為一般型（戰略型）或者展開型，等等。

[編輯]博弈論的意義
博弈論的研究方法和其他許多利用數學工具研究社會經濟現象的學科一樣，都是從復雜的現象中抽象出基本的元素，對這些元素構成的數學模型進行分析，而後逐步引入對其形勢產影響的其他因素，從而分析其結果。

基於不同抽象水平，形成三種博弈表述方式，標准型、擴展型和特徵函數型利用這三種表述形式,可以研究形形色色的問題。因此,它被稱為「社會科學的數學」從理論上講，博弈論是研究理性的行動者相互作用的形式理論，而實際上正深入到經濟學、政治學、社會學等等，被各門社會科學所應用。

[編輯]博弈論與納什平衡
博弈論（game theory）對人的基本假定是：人是理性的（rational，或者說自私的）,理性的人是指他在具體策略選擇時的目的是使自己的利益最大化，博弈論研究的是理性的人之間如何進行策略選擇的。

納什（John Nash）編制的博弈論經典故事"囚徒的困境"，說明了非合作博弈及其均衡解的成立，故稱"納什平衡"。

所有的博弈問題都會遇到三個要素。在囚徒的故事中，兩個囚徒是當事人(players)又稱參與者；當事人所做的選擇策略 (strategies)是承認了殺人事實，最後兩個人均贏得(payoffs)了中間的宣判結果。如果兩個囚徒之中有一個承認殺人，另外一個抵賴，不承認殺人，那麼承認者將會得到減刑處理，而抵賴者將會得到最嚴厲的死刑判決，在納什故事中兩個人都承認了犯罪事實，所以兩個囚徒得到的是中間的結果。

類似的：我們也能從「自私的基因」等理論中看到「納什平衡」的體現。

在互聯網這個原始叢林中：最優策略是如何產生的呢？

[編輯]博弈中最優策略的產生
艾克斯羅德（Robert Axelrod）在開始研究合作之前，設定了兩個前提：一、每個人都是自私的；二、沒有權威干預個人決策。也就是說，個人可以完全按照自己利益最大化的企圖進行決策。在此前提下，合作要研究的問題是：第一、人為什麼要合作；第二、人什麼時候是合作的，什麼時候又是不合作的；第三、如何使別人與你合作。

社會實踐中有很多合作的問題。比如國家之間的關稅報復，對他國產品提高關稅有利於保護本國的經濟，但是國家之間互提關稅，產品價格就提高了，喪失了競爭力，損害了國際貿易的互補優勢。在對策中，由於雙方各自追求自己利益的最大化，導致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。

A和B各表示一個人，他們的選擇是完全無差異的。選擇C代表合作，選擇D代表不合作。如果AB都選擇C合作，則兩人各得3分；如果一方選C，一方選D，則選C的得零分，選D的得5分；如果AB都選D，雙方各得1分。

顯然，對群體來說最好的結果是雙方都選C，各得3分，共得6分。如果一方選C，一方選D，總體得5分。如果兩人都選D，總體得2分。

對策學界用這個矩陣來描述個體理性與群體理性的沖突：每個人在追求個體利益最大化時，就使群體利益受損，這就是囚徒困境。在矩陣中，對於A來說，當對方選 C，他選D得5分，選C只得3分；當對方選D，他選D得1分，選C得零分。因此，無論對方選C或D，對A來說，選D都得分最多。這是A單方面的優超策略。而當兩個優超策略相遇，即A，B都選D時，結果是各得1分。這個結果在矩陣中並非最優。困境就在於，每個人採取各自的優超策略時，得出的解是穩定的，但不是帕累托最優的，這個結果體現了個體理性與群體理性的矛盾。在數學上，這個一次性決策的矩陣沒有最優解。

如果博弈進行多次，只要對策者知道博弈次數，他們在最後一次肯定採取互相背叛的策略。既然如此，前面的每一次也就沒有合作的必要，因此，在次數已知的多次博弈中，對策者沒有一次會合作。

如果博弈在多人間進行，而且次數未知，對策者就會意識到，當持續地採取合作並達成默契時，對策者就能持續地各得3分，但如果持續地不合作的話，每個人就永遠得1分。這樣，合作的動機就顯現出來。多次對局下，未來的收益應比現在的收益多一個折現率W，W越大，表示未來的收益越重要。在多人對策持續進行下去，且W比較大，即未來充分重要時，最優的策略是與別人採取的策略有關的。假設某人的策略是，第一次合作，以後只要對方不合作一次，他就永不合作。對這種對策者，當然合作下去是上策。假如有的人不管對方採取什麼策略，他總是合作，那麼總是對他採取不合作的策略得分最多。對於總是不合作的人，也只能採取不合作的策略。

艾克斯羅德做了一個實驗，邀請多人來參加游戲，得分規則與前面的矩陣相同，什麼時候結束游戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機程序，然後用單循環賽的方式將參賽程序兩兩博弈，以找出什麼樣的策略得分最高。

第一輪游戲有14個程序參加，再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取合作或不合作)，運轉了300次。結果得分最高的程序是加拿大學者羅伯布寫的"一報還一報"(tit for tat)。這個程序的特點是，第一次對局採用合作的策略，以後每一步都跟隨對方上一步的策略，你上一次合作，我這一次就合作，你上一次不合作，我這一次就不合作。艾克斯羅德還發現，得分排在前面的程序有三個特點：第一，從不首先背叛，即"善良的"；第二，對於對方的背叛行為一定要報復，不能總是合作，即" 可激怒的"；第三，不能人家一次背叛，你就沒完沒了的報復，以後人家只要改為合作，你也要合作，即"寬容性"。

為了進一步驗證上述結論，艾氏決定邀請更多的人再做一次游戲，並把第一次的結果公開發表。第二次徵集到了62個程序，加上他自己的隨機程序，又進行了一次競賽。結果，第一名的仍是"一報還一報"。艾氏總結這次游戲的結論是：第一，"一報還一報"仍是最優策略。第二，前面提到的三個特點仍然有效，因為63人中的前15名里，只有第8名的哈靈頓程序是"不善良的"，後15名中，只有1個總是合作的是"善良的"。可激怒性和寬容性也得到了證明。此外，好的策略還必須具有的一個特點是"清晰性"，能讓對方在三、五步對局內辨識出來，太復雜的對策不見得好。"一報還一報"就有很好的清晰性，讓對方很快發現規律，從而不得不採取合作的態度。

[編輯]合作的進行過程及規律
"一報還一報"的策略在靜態的群體中得到了很好的分數，那麼，在一個動態的進化的群體中，這種合作者能否產生、發展、生存下去呢？群體是會向合作的方向進化，還是向不合作的方向進化？如果大家開始都不合作，能否在進化過程中產生合作？為了回答這些疑問，艾氏用生態學的原理來分析合作的進化過程。

假設對策者所組成的策略群體是一代一代進化下去的，進化的規則包括：一，試錯。人們在對待周圍環境時，起初不知道該怎麼做，於是就試試這個，試試那個，哪個結果好就照哪個去做。第二，遺傳。一個人如果合作性好，他的後代的合作基因就多。第三，學習。比賽過程就是對策者相互學習的過程，"一報還一報"的策略好，有的人就願意學。按這樣的思路，艾氏設計了一個實驗，假設63個對策者中，誰在第一輪中的得分高，他在第二輪的群體中所佔比例就越高，而且是他的得分的正函數。這樣，群體的結構就會在進化過程中改變，由此可以看出群體是向什麼方向進化的。

實驗結果很有趣。"一報還一報"原來在群體中佔1/63，經過1000代的進化，結構穩定下來時，它佔了24%。另外，有一些程序在進化過程中消失了。其中有一個值得研究的程序，即原來前15名中唯一的那個"不善良的"哈靈頓程序，它的對策方案是，首先合作，當發現對方一直在合作，它就突然來個不合作，如果對方立刻報復它，它就恢復合作，如果對方仍然合作，它就繼續背叛。這個程序一開始發展很快，但等到除了"一報還一報"之外的其它程序開始消失時，它就開始下降了。因此，以合作系數來測量，群體是越來越合作的。

進化實驗揭示了一個哲理：一個策略的成功應該以對方的成功為基礎。"一報還一報"在兩個人對策時，得分不可能超過對方，最多打個平手，但它的總分最高。它賴以生存的基礎是很牢固的，因為它讓對方得到了高分。哈靈頓程序就不是這樣，它得到高分時，對方必然得到低分。它的成功是建立在別人失敗的基礎上的，而失敗者總是要被淘汰的，當失敗者被淘汰之後，這個好占別人便宜的成功者也要被淘汰。

那麼，在一個極端自私者所組成的不合作者的群體中，"一報還一報"能否生存呢？艾氏發現，在得分矩陣和未來的折現系數一定的情況下，可以算出，只要群體的 5%或更多成員是"一報還一報"的，這些合作者就能生存，而且，只要他們的得分超過群體的總平均分，這個合作的群體就會越來越大，最後蔓延到整個群體。反之，無論不合作者在一個合作者佔多數的群體中有多大比例，不合作者都是不可能自下而上的。這就說明，社會向合作進化的棘輪是不可逆轉的，群體的合作性越來越大。艾克斯羅德正是以這樣一個鼓舞人心的結論，突破了"囚犯困境"的研究困境。

在研究中發現，合作的必要條件是：第一、關系要持續，一次性的或有限次的博弈中，對策者是沒有合作動機的；第二、對對方的行為要做出回報，一個永遠合作的對策者是不會有人跟他合作的。

那麼，如何提高合作性呢？首先，要建立持久的關系，即使是愛情也需要建立婚姻契約以維持雙方的合作。（火車站的小販為什麼要騙人？為什麼工作中要形成小組制度？換防的時候一方總是要小小地進攻一下的，在中越前線就是這樣）第二、要增強識別對方行動的能力，如果不清楚對方是合作還是不合作，就沒法回報他了。第三、要維持聲譽，說要報復就一定要做到，人家才知道你是不好欺負的，才不敢不與你合作。第四、能夠分步完成的對局不要一次完成，以維持長久關系，比如，貿易、談判都要分步進行，以促使對方採取合作態度。第五、不要嫉妒人家的成功，"一報還一報"正是這樣的典範。第六、不要首先背叛，以免擔上罪魁禍首的道德壓力。第七、不僅對背叛要回報，對合作也要作出回報。第八、不要耍小聰明，占人家便宜。

艾克斯羅德在《合作的進化》一書結尾提出幾個結論。第一、友誼不是合作的必要條件，即使是敵人，只要滿足了關系持續，互相回報的條件，也有可能合作。比如，第一次世界大戰期間，德英兩軍在戰壕戰中遇上了三個月的雨季，雙方在這三個月中達成了默契，互相不攻擊對方的糧車給養，到大反攻時再你死我活地打。這個例子說明，友誼不是合作的前提。第二、預見性也不是合作的前提，艾氏舉出生物界低等動物、植物之間合作的例子來說明這一點。但是，當有預見性的人類了解了合作的規律之後，合作進化的過程就會加快。這時，預見性是有用的，學習也是有用的。

當游戲中考慮到隨機干擾，即對策者由於誤會而開始互相背叛的情形時，吳堅忠博士經研究發現，以修正的"一報還一報"，即以一定的概率不報復對方的背叛，和 "悔過的一報還一報"，即以一定的概率主動停止背叛。群體所有成員處理隨機環境的能力越強，"悔過的一報還一報"效果越好，"寬大的一報還一報"效果越差。

[編輯]艾克斯羅德的貢獻與局限性
艾克斯羅德通過數學化和計算機化的方法研究如何突破囚徒困境，達成合作，將這項研究帶到了一個全新境界，他在數學上的證明無疑是十分雄辯和令人信服的，而且，他在計算機模擬中得出的一些結論是非常驚人的發現，比如，總分最高的人在每次博弈中都沒有拿到最高分。（劉邦和項羽的戰爭）

艾氏所發現的"一報還一報"策略，從社會學的角度可以看作是一種"互惠式利他"，這種行為的動機是個人私利，但它的結果是雙方獲利，並通過互惠式利他有可能復蓋了范圍最廣的社會生活，人們通過送禮及回報，形成了一種社會生活的秩序，這種秩序即使在多年隔絕，語言不通的人群之間也是最易理解的東西。比如，哥倫布登上美洲大陸時，與印地安人最初的交往就開始於互贈禮物。有些看似純粹的利他行為，比如無償損贈，也通過某些間接方式，比如社會聲譽的獲得，得到了回報。研究這種行為，將對我們理解社會生活有很重要的意義。

囚徒困境擴展為多人博弈時，就體現了一個更廣泛的問題——"社會悖論"，或"資源悖論"。人類共有的資源是有限的，當每個人都試圖從有限的資源中多拿一點兒時，就產生了局部利益與整體利益的沖突。人口問題、資源危機、交通阻塞，都可以在社會悖論中得以解釋，在這些問題中，關鍵是通過研究，制定游戲規則來控制每個人的行為。

艾克斯羅德的一些結論在中國古典文化道德傳統中可以很容易地找到對應，"投桃報李"、"人不犯我，我不犯人"都體現了"tit for tat"的思想。但這些東西並不是最優的，因為"一報還一報"在充滿了隨機性的現實社會生活里是有缺陷的。對此，孔子在幾千年前就說出了"以德報德，以直報怨"這樣精彩的修正策略，所謂"直"，就是公正，以公正來回報對方的背叛，是一種修正了的"一報還一報"，修正的是報復的程度，本來會讓你損失5分，現在只讓你損失3分，從而以一種公正審判來結束代代相續的報復，形成文明。

但是，艾氏對博弈者的一些假設和結論使其研究不可避免地與現實脫節。首先，《合作的進化》一書暗含著一個重要的假定，即，個體之間的博弈是完全無差異的。現實的博弈中，對策者之間絕對的平等是不可能達到的。一方面，對策者在實際的實力上有差異，雙方互相背叛時，可能不是各得1分，而是強者得5分，弱者得0分，這樣，弱者的報復就毫無意義。另一方面，即使對局雙方確實旗鼓相當，但某一方可能懷有賭徒心理，認定自己更強大，採取背叛的策略能佔便宜。艾氏的得分矩陣忽視了這種情形，而這種賭徒心理恰恰在社會上大量引發了零和博弈。因此，程序還可以在此基礎上進一步改進。

其次，艾氏認為合作不需預期和信任。這是他受到質疑頗多之處。對策者根據對方前面的戰術來制定自己下面的戰術，合作要求個體能夠識別那些曾經相遇過的個體並且記得與其相互作用的歷史，以便作出反應，這些都暗含著"預期"行為。在應付復雜的對策環境時，信任可能是對局雙方達成合作的必不可少的環節。但是，預期與信任如何在計算機的程序中體現出來，仍是需要研究的。

最後，重復博弈在現實中是很難完全實現的。一次性博弈的大量存在，引發了很多不合作的行為，而且，對策的一方在遭到對方背叛之後，往往沒有機會也沒有還手之力去進行報復。比如，資本積累階段的違約行為，國家之間的核威懾。在這些情況下，社會要使交易能夠進行，並且防止不合作行為，必須通過法制手段，以法律的懲罰代替個人之間的"一報還一報"，規范社會行為。這是艾克斯羅德的研究對制度學派的一個重要啟發。

㈥你對「光碟」行動有什麼認識你認為「光碟行動」對社會經濟文化有什麼影響希望能回答我

我國正處於社會主義初級階段，生產力落後，商品經濟不發達；開展光碟行動有助於版我們發揚艱苦奮斗的精權神，早日實現社會主義現代化，提高生活水平和質量，這既是推動人類文明進步的客觀要求，也是自身健康發展的重要動力。同時有助於保護自然資源，保護環境，推動和實施可持續發展戰略，共享經濟繁榮成果。

導航:首頁 > 污水知識 > 社會悖論生活污水

社會悖論生活污水

與社會悖論生活污水相關的資料