《行為經濟學：選擇、互動與宏觀行為》第8章學習

上傳人：獨*** IP屬地：江蘇上傳時間：2022-11-30 格式：PPTX 頁數：40 大?。?88.39KB 積分：15 舉報 版權申訴

已閱讀5頁，還剩35頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

第8章

學習

《行為經濟學：選擇、互動與宏觀行為》配套課件——引言本章將探討解析博弈論的第二條基本假定——博弈的均衡是瞬間達到的，不存在由其他因素導致的時間滯后在第7章中我們已經指出，個體在進行博弈時由于認知水平有限，因此會出現(xiàn)有誤差的計算或不充分的推理，從而導致其策略選擇偏離納什均衡。此外我們還指出，這種偏離不一定是一種恒常狀態(tài)。當博弈是重復進行時，隨著時間的推移，博弈的參與者會不斷調整其策略選擇，這可能意味著存在學習過程。對這一過程的考察正是本章的主題。在本章，我們主要對學習的定義、相關概念、檢驗方法等進行介紹。其后，我們將分別介紹三種重要的學習理論，它們是：強化學習、信念學習、模仿學習。另外一種學習理論即經驗加權吸引力學習，由于難度較大可不作講授安排。目錄8.1博弈中的學習8.2強化學習8.3信念學習8.4模仿學習8.5經驗加權吸引力學習（略）8.6案例分析進一步閱讀8.1博弈中的學習8.1.1學習的定義在標準博弈論的大部分發(fā)展史中，均衡是如何產生的問題在很大程度上被避而不談。根據解析博弈論的基本假定，博弈的參與者具有完備的計算與推理能力，因此總能瞬時達到均衡的位置，時間變量對于均衡的形成似乎不起作用。然而，第7章已經展示了博弈參與者的策略選擇對均衡的偏離情形，以及隨著整個博弈的重復進行，這種偏離狀態(tài)會出現(xiàn)向均衡的調整。據此，行為博弈論作出了新的假定，認為個體雖在博弈的最初幾局難以達到均衡，但卻可通過學習而不斷向均衡調整。學習可被定義為個體隨著自身經驗的累積而改變行為。需指出的是，在很多情形下，學習并不一定導向對納什均衡的收斂，而是依實驗的初始信息條件甚至是實驗者的主觀導向而定。故而從廣義上看，只要參與者在重復博弈的過程中表現(xiàn)出不斷調整策略的跡象，就可認為存在學習。因此各種學習模型的關注點不是參與者在某類博弈中具有怎樣的規(guī)律性行為，而是試圖在一般情況下盡可能模擬參與者的策略調整過程。8.1.2若干基本概念在許多學習理論中，都涉及一個重要的概念即吸引力，其含義是，參與者根據某些標準來計算每個策略對他的吸引力值，并以此作為策略選擇的基礎。其中，對吸引力的計算是根據歷史經驗的變化而更新的。在每種學習理論中，吸引力的計算標準、構成要素和更新方式都是不同的，這是區(qū)分不同學習理論的關鍵。在這里，我們有必要介紹一下與學習理論相關的各種概念的標記法?，F(xiàn)在，我們可以用圖8-1所示的囚徒困境博弈來描述這些與吸引力有關的要素，其中的數字代表每名囚徒可能被判的監(jiān)禁年數。對于囚徒A來說，如果囚徒B坦白，那么囚徒A也應當選擇坦白，因為這使他只會被判5年而不是10年；而如果囚徒B不坦白，囚徒A也應該選擇坦白，因為他將得到釋放。因此，無論囚徒B選擇什么，囚徒A的最優(yōu)選擇都是坦白，并且這一分析邏輯同樣適用于囚徒B。故而兩名參與者的占優(yōu)策略都是坦白，此即該博弈的納什均衡。在上述博弈中，如果將參與者A和B的策略分別記為sA1（坦白）、sA2（不坦白）和sB1（坦白）、sB2（不坦白），那么當A決定不坦白而B決定坦白時，有：上述七個信息是形成每個策略的吸引力的基礎。根據這些信息，我們就可對某個學習理論進行評估，因為每個學習理論所涉及的信息都在這七個信息之內。8.1.3心理學基礎我們在第5章中已指出，人類固有的認知能力局限使其無法迅速獲得解決問題的最佳方案，而只能借助一些直覺推斷法來形成基本判斷。但每種直覺推斷法都有其適用范圍，在范圍以內是很有效的，一旦超出則容易導致嚴重偏差。此時，通過學習就可對這些偏差予以調整。但需要強調的是，學習也是漫長進化年代里形成的一種適應性機制，在很多時候，某些學習規(guī)則本身就是一種直覺推斷法，如后文將要介紹的模仿學習就屬此例。因此，學習也是以解決適應性問題為導向的，而不是以標準經濟學意義下的理性為導向。換言之，學習的目的不是理性，而是最大化生物體的適應性。因此，學習本身并不能保證現(xiàn)實博弈的結果一定收斂于納什均衡，學習僅僅意味著個體能夠依靠經驗的累積來調整策略。8.2強化學習強化學習理論源于行為學派的心理學。在20世紀20年代到60年代這段心理學發(fā)展期內，行為學派是一個極端而重要的組成部分。行為學派厭倦了之前的“精神學家們”對不可直接觀測的思維過程的模糊描述，于是在對認知過程的建模中強行加入了智力限制，并且堅持認為所有的行為都可解釋成是對以前強化的習得性反應。雖然強化理論關于人類特性的極端觀點長期統(tǒng)治著心理學領域，但行為學派不能解釋在具有大量可能反應和缺乏直接強化的領域里人們是如何通過感知和模仿來迅速學習的，比如兒童學習語言就屬此例。不過，強化模型在研究動物學習和某些人類行為時仍有廣泛的應用，比如恐懼癥，或是像老虎機（一種賭博方式）這樣的簡單決策環(huán)境下的學習，等等。我們以馬卡里斯特(1991)的方法作為強化學習理論的基本形式并予以介紹。在他的方法下，博弈參與者i面對的每個策略的吸引力根據如下兩個公式進行更新：從(8.1)及(8.2)式可看到，強化學習理論認為，受試者在進行策略選擇時使用的信息很少，僅包括他們自己以前的選擇以及當前所得到的收益。雖然這種行為在許多動物身上確實存在，但已有許多經驗研究顯示，人類不僅使用這些信息，而且還使用其他信息，因此僅用強化學習理論有時很難解釋人類的行為。從統(tǒng)計檢驗上看，強化學習理論雖然可能預測到學習的方向，但是它所預測的學習速度過慢，這與人類學習的真實速度不符。一個可能的原因是，在許多現(xiàn)實情形中，無論是博弈實驗還是日常生活，其實都很少存在強化。只有當一名受試者選擇了一個好策略時，針對這一策略的強化才會發(fā)生；而當選擇的是壞策略時，受試者就很難獲得搜尋更好策略的線索，并且之前選過的好策略也得不到進一步強化。另外，即便受試者選擇的是好策略，這一策略也可能不是最優(yōu)的，但受試者卻很難知道這一點，從而在錯誤的方向上進行了強化。8.3信念學習本節(jié)將對信念學習理論及其主要形式進行評述。在經濟學中，有關信念學習的著名例子可追溯至古諾寡頭模型(Cournot,1838)。其后的伯川德(Bertrand,1883)和馮·斯塔克爾伯格(vonStackelberg,1934)的寡頭模型也屬于類似的例子。在這些寡頭模型中，描述的都是廠商如何對前一期觀測到的行為作出最優(yōu)反應，其中，對前一期行為的觀測構成了廠商在本期的信念，而廠商在本期的選擇也正是基于這些信念，因此，信念的動態(tài)調整對于廠商的策略選擇就至為重要，此即信念學習的基本思想。8.3.1古諾最優(yōu)反應動態(tài)最初的古諾寡頭模型涉及的是一個只有兩家廠商的市場，稱為A和B。一般來說，古諾寡頭模型基于如下幾條假定：市場上存在若干家廠商和大量購買者，且不會有新的廠商進入市場。廠商生產同質的產品，因此每家廠商只能索取相同的市場價格。廠商之間展開的是產量競爭，即每家廠商對其他廠商的產量水平進行估計，并據此決定自己的產量水平。每家廠商都相信，它自己的產量策略不會影響其他廠商的策略。每家廠商都力圖最大化利潤，并認為其他廠商也是如此。基于上述假定，我們可用兩廠商情形（A和B）來闡明古諾模型的要義。首先，我們假定市場需求函數為P=400-2Q。其次，兩家廠商面臨不變的邊際成本為40，不存在固定成本。于是，該模型的解析過程可表示為如下幾個步驟：設廠商A和B的產量分別為QA、QB，這意味著Q=QA+QB。于是，市場需求函數可重新表達為：將每家廠商的利潤表述為兩家廠商產量的函數。由于不存在固定成本，因此邊際成本與平均成本是相等的，于是廠商A的利潤方程可寫作：將廠商A的最優(yōu)產量表述為廠商B的產量的函數。為此，我們需計算利潤函數ΠA對QA的導數，并令其等于零（以使利潤最大化）：于是得到：(8.9)式即為廠商A的最優(yōu)反應函數。它說明的是，廠商A根據它對廠商B的產量的估計來決定自己在市場上應投放多少產量。上述的解析步驟也可用于廠商B，從而得到廠商B的最優(yōu)反應函數。由于廠商A和廠商B是對稱的，因此廠商B的最優(yōu)反應函數可寫為：通過聯(lián)立上面兩個最優(yōu)反應函數，即可解出廠商A和B的均衡產量，為QA=QB=60。上面求出的兩家廠商的均衡產量可被稱為古諾-納什均衡，因為每家廠商都對另一家廠商的產量策略作了最優(yōu)反應，并且兩家廠商都沒有偏離這一策略的傾向。但嚴格來說，廠商A與B并不會在瞬間達到這一均衡，一個更可能的情況是，它們會不斷根據對方的產量來調整自己的產量，進而不斷逼近納什均衡。這一調整過程可通過將時間變量引入(8.9)、(8.10)式來得到：上兩式的含義是，無論是廠商A還是廠商B，它們均通過觀察對手的上一期產量，來決定它們在本期的最優(yōu)產量。這一過程循環(huán)往復，最后二者將達到納什均衡。但其中隱含的一個假定是，廠商相信對手不會在本期改變產量，換言之，廠商將對手的上一期產量作為自己在本期所持有的信念，并基于這一信念來決定自己本期的產量選擇。這一過程實際上描述了一個最為簡單的信念學習形式，可將之稱為古諾最優(yōu)反應動態(tài)。8.3.2虛擬對策基于早期古諾寡頭模型的啟發(fā)，一些學者于20世紀50年代提出了一種關于虛擬對策的模型(Brown,1951;Robinson,1951)。其基本思想是，參與者觀察其他參與者在過去一段時期內選擇不同策略的相對頻率，而這些相對頻率就成為對其他參與者在下一期如何行為的信念。根據這些信念，參與者就可算出選擇每種策略的期望收益，并更多地選擇那些期望收益較高的策略。在最基本的虛擬對策模型中，對所有的歷史觀測值都賦予相同的權重，但其后的一些變體模型對不同的歷史觀測值賦予了差異化的權重，其中越久遠的觀測值被賦予的權重也越低，這反映了越久遠的信息對于形成當前信念越不重要。如此一來，上述的古諾寡頭模型就可看作虛擬對策模型的一個極端情形，因為它實際上只對最近一期的觀測值賦予了權重，而對更久遠的觀測值不賦予任何權重。張和弗里德曼(CheungandFriedman,1997)較早地通過全面使用實驗數據來研究虛擬對策。他們假定，參與者基于加權的虛擬對策來形成對其他人選擇各策略相對頻率的信念。于是，在一個簡單的兩人兩策略博弈中，參與者A認為B在時期t+1選擇策略sB1的相對頻率為：8.3.3一般信念學習當博弈存在多個納什均衡時，究竟哪個均衡會被最終選出？此時，參與者之間面臨著協(xié)調問題，因此這類博弈被稱為協(xié)調博弈。我們在7.1節(jié)已經提到，解析博弈論很難對協(xié)調博弈的結果作出有效預測。因此，我們需要借助重復的實驗，來觀察參與者策略的動態(tài)調整及收斂方向。這一調整過程反映的就是參與者的學習過程。由于協(xié)調博弈涉及多個均衡，因此在實驗的起始階段，各參與者持有的初始信念往往是分散化的。對此，克勞福德(Crawford,1995)、克勞福德和布羅塞塔(CrawfordandBroseta,1998)提出了所謂的一般信念學習模型，其中基于分散的初始信念和適應性動態(tài)的相互作用來解釋博弈中的收斂方式，即參與者的一般信念的形成過程。為了說明一般信念學習模型的預測機制，我們先來看范·哈依克、巴特里奧和貝爾(VanHuyck,BattalioandBeil,1990;1991)所研究的某種協(xié)調博弈。在這類博弈中，參與者i從1到7中選取一個數字，并且他的收益取決于所選的數字si(t)，以及所有被選數字的某個次序統(tǒng)計量y(t)（比如中位數或最小值等）。一般來說，參與者的收益通常是y(t)的增函數，但卻是si(t)和y(t)偏差的減函數。比如，當y(t)被規(guī)定為所有被選數字的中位數時，如果參與者選擇的數字高于或低于這個中位數，他受到的懲罰將是偏差的平方倍，因此所有人都力圖尋求相互一致的中位數，這需要他們之間存在某種協(xié)調。而當y(t)被規(guī)定為所有被選數字的最小值時，如果參與者的選擇大于這一最小值，則他將會受到處罰。顯然，在上述博弈中，如果所有參與者都選擇了某個相同的數字，那么就構成了一個納什均衡，這意味著納什均衡共有七個。那么究竟哪個均衡會最終出現(xiàn)？范·哈依克等人的實驗結果是，在關于中位數的博弈中，參與者初始的選擇會比較分散，但選擇4和5的人比較多，并且會在幾個時期內迅速收斂于最初的中位數。在關于最小值的博弈中，初始選擇的分散性意味著他們選擇的最小值通常很低，并且參與者一般在幾期內就會收斂于最小值1。對于上述實驗結果，克勞福德認為，由于參與者在偏離次序統(tǒng)計量時會受到懲罰，因此在研究中無需將參與者對次序統(tǒng)計量的信念與他的實際選擇區(qū)分開來?；谶@一考慮以及自適應性控制方面的研究成果，克勞福德假設參與者i在時期1的初始選擇si(1)為：而在隨后的其他時期，調整過的選擇si(t)為：借助一定的計量經濟學手段，基于上述中位數博弈的實驗數據，可估計出α0值為4.75，這反映了參與者在第1期主要傾向于選擇4或5。另外，參與者在第1期的對信念的沖擊方差為1.62，意味著各參與者初始選擇的標準差為1.27。而學習速度系數?t被估計為0.42，這表明相對于參與者上一期的選擇來說，他們賦予了觀察到的上一期中位數y(t)更高的權重（即1-0.42=0.58）。而基于上述最小值博弈的實驗數據，漂移項αt在t個時期內都被限定為非零常數。其估計值為-0.27，這反映了各期選擇數據具有明顯的下降趨勢。學習速度系數?t的估計值為0.75，表明參與者在最小值博弈中的學習速度要比在中位數博弈中更慢。8.3.4方向學習略，可作加深閱讀。8.3.5貝葉斯學習略，可作加深閱讀。8.4模仿學習本節(jié)的關注點為模仿學習理論。模仿是人類常見的一種學習方式。在動物或兒童中，模仿行為尤其普遍。在很多時候，模仿是一個非常有效的直覺推斷法，因為參與者只需重復選擇別人的策略即可，無需形成自己的信念或評估所有的策略(Schlag,1999)。胡克、諾曼和奧奇斯勒(Hück,NormannandOechssler,1999)研究了古諾寡頭市場中的模仿學習情形。在他們的實驗中，四名參與者（扮演廠商）每一期都在區(qū)間[0,100]中選擇某個產量qi(t)，i=1,2,3,4，這一過程共進行40期。產品價格由市場需求函數P(t)=100-Q(t)決定。假設所有參與者的邊際成本都是1，于是每名參與者的利潤方程為πi(t)=qi(t)(P(t)-1)。通過簡單的計算，我們即可得到關于總產量的三個基本預測：一是古諾納什均衡產量，為79.2；二是瓦爾拉斯或競爭性產量，即價格等于邊際成本時的產量，為99；三是共謀產量，即最大化行業(yè)利潤的產量，為49.5。胡克等人的研究焦點是，當參與者面臨的信息條件不同時，他們會表現(xiàn)出怎樣的學習方式。為此，他們比較了四種信息條件下的參與者行為，分別是BEST、FULL、IMIT和NOIN條件，見表8-2。此外，他們還在實驗中引入了“慣性”，即假定廠商在每一期只能以1/3的概率改變其產量?？梢姡诓煌男畔l件下，不同的學習方式會得到不同的結果：

（1）在BEST條件下，參與者不但可獲知需求函數形式和

邊際成本，而且還可獲知總產量。于是，如果參與者是按照古諾最優(yōu)反應動態(tài)來學習的，那么他們將使總產量收斂于古諾產量79.2；而如果他們是模仿學習的，那么他們此時并不知道該去模仿誰，這意味著此時模仿學習理論是失效的。

（2）在FULL條件下，參與者不但可獲知需求函數形式和邊際成本，而且還可獲知每名參與者的產量和利潤。于是，如果參與者是按照古諾最優(yōu)反應動態(tài)來學習的，那么他們仍能將總產量收斂于古諾產量79.2；而如果他們是模仿學習的，由于此時他們清楚每名廠商的產量和利潤，因此模仿行為是可行的，那么他們將使總產量收斂于競爭性產量99。

（3）在IMIT條件下，參與者僅能獲知每名參與者的產量和利潤。于是，如果參與者是按照古諾最優(yōu)反應動態(tài)來學習的，他們將無法算出古諾產量，這意味著此時古諾模型是失效的；而如果他們是模仿學習的，那么他們將使總產量收斂于競爭性產量99。

（4）在NOIN條件下，參與者僅能獲知自己的利潤，因此他們既無法按古諾最優(yōu)反應動態(tài)來學習，也無法實施模仿學習。此時，這兩種學習理論都是失效的。胡克等人用一個多項回歸式來描述這些學習，從而把各期產量的變化qi(t)-qi(t-1)與各種學習理論預測的產量變化聯(lián)系了起來，回歸函數可表達為：結果顯示，所有系數的顯著性都很高，并且在FULL條件下，古諾最優(yōu)反應動態(tài)對產量變化的預測程度(β1=0.366)要比模仿最成功廠商(β2=0.110)強得多。但在IMIT條件下，古諾最優(yōu)反應動態(tài)是無法被計算的。此時，模仿最成功廠商對產量變化的預測程度最為突出，β2的估計值為0.465，而模仿平均廠商對產量變化的預測程度很小，β3的估計值僅為0.151。上述分析表明，在胡克等人的實驗中，古諾最優(yōu)反應動態(tài)和模仿學習是同時存在的。這一結論意味著我們應該把模仿行為嚴格地看作學習的一種經驗性來源。上述實驗結果的另一個啟示是，學習過程并不一定朝向納什均衡收斂（在本節(jié)的實驗中納什均衡為古諾產量），而是依賴于可得的信息條件以及所采取的學習規(guī)則。比如在本節(jié)的實驗例子中，F(xiàn)ULL條件下的產量就會收斂于瓦爾拉斯產量，這意味著模仿學習的結果并不一定收斂于納什均衡。8.5經驗加權吸引力學習此節(jié)內容較難，可不做教學要求，供課后閱讀。8.6案例分析本節(jié)將給出一個基于強化學習模型而得到的關于參與者策略選擇的模擬路徑，以及它與實際選擇的對比，所基于的博弈為范·哈依克等(1990)的協(xié)調博弈。在該博弈中，參與者選擇從1到7中的一個數字，并且參與者i的收益取決于他選擇的數字si(t)以及所有被選數字的某個次序統(tǒng)計量y(t)。其中，參與者i的收益通常是y(t

人人文庫> 全部分類> 行業(yè)資料 > 醫(yī)學制藥

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《行為經濟學：選擇、互動與宏觀行為》第8章學習

文檔簡介

溫馨提示

最新文檔

評論

《行為經濟學：選擇、互動與宏觀行為》第8章學習

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

《行為經濟學：選擇、互動與宏觀行為》第8章學習