亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于信念學(xué)習(xí)模型的虛擬博弈實(shí)驗(yàn)研究

2017-03-31 01:45:24何婧

經(jīng)濟(jì)師 2016年9期

摘要：信念學(xué)習(xí)模型是博弈論的一個(gè)前沿?zé)狳c(diǎn)問(wèn)題，當(dāng)前研究多數(shù)處于初始階段，國(guó)內(nèi)鮮少有實(shí)驗(yàn)驗(yàn)證該模型。文章將教學(xué)問(wèn)答環(huán)節(jié)進(jìn)行博弈化設(shè)計(jì)，對(duì)虛擬博弈信念學(xué)習(xí)模型進(jìn)行驗(yàn)證，實(shí)驗(yàn)數(shù)據(jù)分析顯示：模型收斂于均衡策略。實(shí)驗(yàn)證明了信念學(xué)習(xí)模型的有效性，并對(duì)今后構(gòu)建該類(lèi)模型提出有益的建議。

關(guān)鍵詞：信念學(xué)習(xí) 實(shí)驗(yàn)經(jīng)濟(jì)學(xué) 虛擬博弈

中圖分類(lèi)號(hào)：F240 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1004-4914（2016）09-247-03

一、引言

隨著博弈論在各門(mén)學(xué)科中的廣泛使用，個(gè)體行為選擇在學(xué)習(xí)中的作用也不斷被學(xué)者們研究。North（1996）將心理學(xué)中個(gè)體的認(rèn)知系統(tǒng)引入到經(jīng)濟(jì)模型中，有效解釋了決策中信念及偏好的關(guān)系，并將兩者融合為理性決策的基礎(chǔ)，由此得出結(jié)論：信念是個(gè)人行為的準(zhǔn)則，它是影響個(gè)人行為選擇的重要因素。他人的認(rèn)知、行動(dòng)和信念是構(gòu)建有用模型的先決條件。

隨著重復(fù)博弈研究的不斷加深，經(jīng)濟(jì)學(xué)家逐步重視學(xué)習(xí)信念行為，用以解釋當(dāng)重復(fù)整個(gè)博弈時(shí)行為往往變得更為理性的原因。隨著實(shí)驗(yàn)經(jīng)濟(jì)學(xué)家對(duì)個(gè)體在重復(fù)博弈中的學(xué)習(xí)過(guò)程進(jìn)行研究，信念的形成歸納為：自身學(xué)習(xí)以及外界互動(dòng)。自身學(xué)習(xí)指自身經(jīng)歷不斷強(qiáng)化使某種行為發(fā)生的概率上升，外界互動(dòng)指通過(guò)觀察別人行為的收益情況進(jìn)而指導(dǎo)自身行為決策。在此基礎(chǔ)上，Colin F.Camerer（2003）將信念學(xué)習(xí)模型定義為：“假設(shè)參與者根據(jù)過(guò)去的事件來(lái)更新他們認(rèn)為別人會(huì)如何行動(dòng)的信念，從而根據(jù)這些信念來(lái)決定哪種策略是最優(yōu)的?！毙拍顚W(xué)習(xí)模型大致分為三類(lèi)：信念學(xué)習(xí)模型，強(qiáng)化學(xué)習(xí)模型，經(jīng)歷-加權(quán)吸引模型（章平，2006）。

信念學(xué)習(xí)模型以Fundenberg and Levine（1998）和Cheung and Friedman（1997）的虛擬博弈模型為代表，該理論的基礎(chǔ)是：參與人通過(guò)觀察其他參與人在過(guò)去各期內(nèi)采取的行動(dòng)概率，由此做出自身預(yù)期收益最大化概率的行為。信念學(xué)習(xí)模型強(qiáng)調(diào)參與者始終牢記其他參與者以前的所有行動(dòng)，并且還要求參與者對(duì)每一期對(duì)手過(guò)去的行動(dòng)賦予相等的權(quán)重，以此來(lái)決定自己本輪的行為策略。該模型的觀測(cè)經(jīng)歷主要來(lái)源于其他參與人過(guò)去的經(jīng)歷，即外界互動(dòng)。強(qiáng)化學(xué)習(xí)模型以Bush-Mosteller Modle（1997）為代表，該理論基礎(chǔ)是：心理學(xué)認(rèn)為一旦一種行動(dòng)得到了獎(jiǎng)賞，那么個(gè)人在未來(lái)繼續(xù)做出該行動(dòng)的概率上升。如果是懲罰則未來(lái)做出該行動(dòng)的概率下降。強(qiáng)化學(xué)習(xí)模型不強(qiáng)調(diào)參與者形成有關(guān)其他參與者可能行動(dòng)的信念，因?yàn)閰⑴c者更關(guān)注自己過(guò)往行為的獎(jiǎng)賞和懲罰，該模型的觀測(cè)經(jīng)歷主要來(lái)源是自身經(jīng)歷，即自身學(xué)習(xí)。經(jīng)歷-加權(quán)吸引模型以Camerer and Teck Ho（1999）的Experience-Weighted Attraction Modle為代表，將強(qiáng)化學(xué)習(xí)模型和信念學(xué)習(xí)模型相結(jié)合，通過(guò)將自身獎(jiǎng)懲和觀察其他參與者的支付情況賦予不同的權(quán)重，擬合為吸引力指標(biāo)，參與者對(duì)吸引力越敏感采取該行動(dòng)的概率越大。

綜上，本文通過(guò)對(duì)教學(xué)提問(wèn)環(huán)節(jié)進(jìn)行博弈化設(shè)計(jì)對(duì)信念學(xué)習(xí)模型進(jìn)行研究，檢驗(yàn)在重復(fù)博弈下該模型是否有效？探討行為博弈、信念形成及制度設(shè)計(jì)方面的相互關(guān)系。

二、理論模型

在序貫二元決策場(chǎng)景的重復(fù)博弈下，通常假設(shè)對(duì)手的行動(dòng)集合為C（c1，c2···ci···ck），在t輪博弈之中，參與者對(duì)于其他參與者選擇行動(dòng)ci所賦予的信念權(quán)重不斷更新為：

bt（ci）=bt-1（ci）+1 在t期對(duì)手選擇行動(dòng)ci，信念權(quán)重相應(yīng)的增加1bt-1（ci）在t期對(duì)手選擇行動(dòng)ci，信念權(quán)重相應(yīng)的增加1

則在t期，參與者形成的其對(duì)手選擇行動(dòng)ci的概率與信念權(quán)重之間的關(guān)系：

μt（ci）=

在給定其他參與者選擇各種行動(dòng)的概率的信念下，參與者計(jì)算出自己可供選擇的每一個(gè)純策略ai（參與者的策略空間為A）的期望支付π（ai/μt），則參與者在t+1期選擇純策略ai的概率為：

P =

同樣地，參與者選擇具有最大概率值的策略為自己的最優(yōu)響應(yīng)。

三、實(shí)驗(yàn)設(shè)計(jì)和實(shí)施

（一）實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)在教學(xué)提問(wèn)環(huán)節(jié)進(jìn)行博弈化設(shè)計(jì)的背景下，通過(guò)多次重復(fù)博弈使本次回答問(wèn)題的學(xué)生在充分了解其他參與者（之前回答問(wèn)題的學(xué)生）的支付、以及對(duì)手（教師）的行動(dòng)基礎(chǔ)上，來(lái)決定自己本輪的行為策略。

所謂教學(xué)提問(wèn)環(huán)節(jié)的博弈化設(shè)計(jì)是指：將每次課堂提問(wèn)作為一次博弈局，博弈的參與者是老師和學(xué)生，由于課堂提問(wèn)內(nèi)容和教學(xué)內(nèi)容息息相關(guān)，兩個(gè)參與者都能夠充分掌握背景信息，信息對(duì)于兩者來(lái)說(shuō)是充分的。實(shí)驗(yàn)的行動(dòng)是教師讓學(xué)生起來(lái)回答問(wèn)題，教師根據(jù)學(xué)生的回答質(zhì)量，依據(jù)公開(kāi)透明量化的考核標(biāo)準(zhǔn)對(duì)學(xué)生回答進(jìn)行打分。該分?jǐn)?shù)作為學(xué)生的支付，最終體現(xiàn)在期末成績(jī)中占有一定權(quán)重。為保證博弈的公平性、有效性，實(shí)驗(yàn)過(guò)程采用搖號(hào)的方式隨機(jī)選取同學(xué)起來(lái)回答問(wèn)題。即，在課堂提問(wèn)出來(lái)之后，教師和學(xué)生都不知道誰(shuí)將起來(lái)回答問(wèn)題。本實(shí)驗(yàn)中的行動(dòng)次序固定為教師先提問(wèn)然后隨機(jī)選擇學(xué)生回答問(wèn)題最終依照量化標(biāo)準(zhǔn)打分的序貫博弈，并且相同的博弈局在每次課都會(huì)整體重復(fù)出現(xiàn)，在下一周也會(huì)重復(fù)出現(xiàn)。因此，學(xué)生有充分長(zhǎng)的時(shí)間來(lái)搜尋對(duì)手的行動(dòng)、其他參與者之前的行動(dòng)，從而形成信念指導(dǎo)自己的行動(dòng)。實(shí)驗(yàn)的信念傳遞過(guò)程如圖1（見(jiàn)下頁(yè)）所示。

實(shí)驗(yàn)的參與者是從課題組老師教授的某一門(mén)課程中選取2個(gè)班級(jí)對(duì)教學(xué)提問(wèn)環(huán)節(jié)進(jìn)行博弈化設(shè)計(jì)教學(xué)，實(shí)驗(yàn)的對(duì)比組是另外幾個(gè)平行班沿用傳統(tǒng)的教學(xué)提問(wèn)設(shè)計(jì)教學(xué)。

實(shí)驗(yàn)的支付是學(xué)生回答問(wèn)題獲得相應(yīng)的分?jǐn)?shù)，最終體現(xiàn)在期末成績(jī)中。為保證支付的公平和有效性，試題根據(jù)難度和題型的不同被賦予不同權(quán)重，例如：?jiǎn)芜x題權(quán)重為0.8，A類(lèi)簡(jiǎn)答題權(quán)重為1，B類(lèi)簡(jiǎn)答題權(quán)重為1.2，A類(lèi)案例分析題權(quán)重為1.2，B類(lèi)案例分析題權(quán)重為1.5。為保證學(xué)生對(duì)支付的敏感性，按照每次課平均10%的同學(xué)參與博弈的數(shù)量安排每周的實(shí)驗(yàn)次數(shù)。作為重復(fù)博弈，為保證非合作行為的發(fā)生設(shè)計(jì)了懲罰策略，促使學(xué)生采取合作策略，最終實(shí)現(xiàn)合謀性的均衡結(jié)果。

教師行動(dòng)集為：處罰、0分、60分、80分、100分。因此，教師行動(dòng)集的效用為（-1，0，1，2，3）。學(xué)生的行動(dòng)集為：不回答、答非所問(wèn)式回答、預(yù)期能力以下式回答、與預(yù)期能力相匹配的回答、超預(yù)期能力的回答。因此，學(xué)生行動(dòng)集的效用為（-1，0，1，2，3），如表1所示。

從上述策略及收益矩陣不難看出：通過(guò)懲罰性策略，學(xué)生一般將采取回答問(wèn)題的合作策略。本實(shí)驗(yàn)的最佳均衡是學(xué)生充分思考提問(wèn)內(nèi)容，在現(xiàn)有的評(píng)定標(biāo)準(zhǔn)下超預(yù)期能力回答問(wèn)題，同時(shí)教師的教學(xué)效用也達(dá)到最大化，教學(xué)效果顯著提高。

（二）實(shí)驗(yàn)實(shí)施

為避免學(xué)生沿用大學(xué)課程回答問(wèn)題的思維慣性，課題組優(yōu)先考慮大一新生為實(shí)驗(yàn)參與者。為更好地進(jìn)行題目設(shè)置和量化考核，課題組優(yōu)先考慮使用開(kāi)放性知識(shí)點(diǎn)、專(zhuān)業(yè)通識(shí)性課程作為樣本，最終選取會(huì)計(jì)專(zhuān)業(yè)第一期學(xué)期課程《財(cái)政與金融》作為實(shí)驗(yàn)樣本。作為一項(xiàng)長(zhǎng)期的行為學(xué)實(shí)驗(yàn)，與之前許多論文中在實(shí)驗(yàn)室內(nèi)短時(shí)期內(nèi)完成數(shù)輪虛擬博弈的計(jì)算機(jī)模擬不同，本實(shí)驗(yàn)實(shí)施中存在很多的不可控因素和需要剔除的影響因素。因此，本實(shí)驗(yàn)先后進(jìn)行過(guò)兩次大規(guī)模的實(shí)施。2014年9月到12月課題組甄選2014級(jí)會(huì)計(jì)專(zhuān)業(yè)2個(gè)教學(xué)班進(jìn)行了初次實(shí)驗(yàn)。經(jīng)過(guò)初次實(shí)驗(yàn)，課題組對(duì)實(shí)驗(yàn)設(shè)計(jì)的細(xì)節(jié)進(jìn)行優(yōu)化，修改了量化評(píng)分體系，對(duì)數(shù)據(jù)搜集和數(shù)據(jù)可比性進(jìn)行了完善。2015年9月到12月課題組再次對(duì)2015級(jí)會(huì)計(jì)專(zhuān)業(yè)2個(gè)教學(xué)班進(jìn)行了第二次試驗(yàn)。本文第四部分?jǐn)?shù)據(jù)分析將主要對(duì)第二次實(shí)驗(yàn)的有效樣本數(shù)據(jù)進(jìn)行分析。

實(shí)驗(yàn)具體實(shí)施方案如下：任課教師于第一次課時(shí)對(duì)受驗(yàn)班級(jí)學(xué)生介紹如下規(guī)則：每節(jié)課將不低于6次提問(wèn)（每個(gè)班級(jí)人數(shù)約60人，按照10%的概率隨機(jī)抽取人數(shù)進(jìn)行實(shí)驗(yàn)），采用搖學(xué)號(hào)的方式隨機(jī)抽選同學(xué)起來(lái)回答問(wèn)題。詳細(xì)介紹單選、簡(jiǎn)答、案例分析三類(lèi)提問(wèn)的量化評(píng)分標(biāo)準(zhǔn)、分?jǐn)?shù)權(quán)重。實(shí)驗(yàn)的前兩個(gè)有效周讓學(xué)生熟悉實(shí)驗(yàn)的流程、熟悉實(shí)驗(yàn)的評(píng)分規(guī)則。實(shí)驗(yàn)數(shù)據(jù)從第三個(gè)有效周開(kāi)始提取，由于總學(xué)時(shí)12周且中途有國(guó)家法定節(jié)假日等不可控因素影響，實(shí)際提取合計(jì)7周的數(shù)據(jù)（包含1周實(shí)驗(yàn)熟悉周）用于分析比較，并且該7周（包含1周實(shí)驗(yàn)熟悉周）的數(shù)據(jù)盡可能做到了提問(wèn)內(nèi)容基本一致。所謂實(shí)驗(yàn)的有效周，是指受驗(yàn)的2個(gè)班級(jí)在本周都同時(shí)有課，且教學(xué)進(jìn)度基本一致。本次實(shí)驗(yàn)獲取樣本數(shù)據(jù)132個(gè)，其中有效樣本數(shù)據(jù)84個(gè)。

四、實(shí)驗(yàn)結(jié)果分析及啟示

（一）實(shí)驗(yàn)結(jié)果分析

1.一般的信念學(xué)習(xí)模型存在并收斂。通過(guò)對(duì)實(shí)驗(yàn)有效樣本數(shù)據(jù)進(jìn)行處理，對(duì)第二部分信念學(xué)習(xí)模型的結(jié)論進(jìn)行驗(yàn)證。從每周平均分（如圖2所示）和分題型周平均分（如圖3所示）來(lái)看，加權(quán)平均分和未加權(quán)平均分均呈收斂趨勢(shì)，說(shuō)明教學(xué)環(huán)節(jié)的博弈化設(shè)計(jì)有效并收斂，重復(fù)博弈存在納什均衡。隨著實(shí)驗(yàn)次數(shù)的增加，參與者對(duì)其他參與者選擇行為ci的經(jīng)驗(yàn)愈來(lái)愈豐富，自己的最優(yōu)決策bt（ci）不斷優(yōu)化，平均分值隨實(shí)驗(yàn)次數(shù)增加呈穩(wěn)步上升趨勢(shì)。說(shuō)明圖一所示的外界互動(dòng)對(duì)參與者自身信念bt+1（ci）的信念傳遞過(guò)程存在，一般的信念學(xué)習(xí)模型存在并有效。

在《財(cái)政與金融》課程為期12周的教學(xué)（累積132回合的虛擬博弈），有8人在不同的教學(xué)周（不局限于有效實(shí)驗(yàn)周）中累積2次被隨機(jī)抽取參與虛擬博弈，有1人累積3次被隨機(jī)抽取參與虛擬博弈，重復(fù)參與人數(shù)占比11%。重復(fù)參與人的次間分差如圖4所示，累積9人中有6人出現(xiàn)明顯的進(jìn)步，3人保持現(xiàn)狀。說(shuō)明參與者自身信念bt+1（ci）更新有效率達(dá)到67%，強(qiáng)化學(xué)習(xí)模型存在并有效。

2.一般的信念學(xué)習(xí)模型有效性驗(yàn)證。在一般的信念學(xué)習(xí)模型參與者的預(yù)期支付π（ai/μt）與實(shí)際支付的有效性驗(yàn)證方面，本文通過(guò)查詢學(xué)生當(dāng)期期末總評(píng)成績(jī)排名預(yù)測(cè)學(xué)生的預(yù)期支付π（ai/μt）。通常情況下，期末總評(píng)成績(jī)排名靠前的學(xué)生，其期望支付就越高。結(jié)合往年經(jīng)驗(yàn)和課堂實(shí)際采訪情況，本文將期末總評(píng)排名1～10名的同學(xué)期望支付定為85分，11～20名的同學(xué)期望支付定為80分，21～40名的同學(xué)期望支付定為70分，41～60名的同學(xué)期望支付定為60分。處理后整個(gè)實(shí)驗(yàn)期望差值情況如圖5所示。在實(shí)驗(yàn)提取的7周數(shù)據(jù)中第1周為實(shí)驗(yàn)熟悉周，第2周起為正式實(shí)驗(yàn)周，在實(shí)驗(yàn)前2周，12位參與者中約40%左右的人支付情況與預(yù)期不一致，出現(xiàn)負(fù)支付情況。在其后的2周中，參與者的支付情況與預(yù)期一致的比例穩(wěn)步提升，穩(wěn)步提升至50%以上。從第5個(gè)實(shí)驗(yàn)周開(kāi)始，參與者的超預(yù)期獲得正支付的比例明顯提升，并且正的期望差值數(shù)額不斷擴(kuò)大，第6和第7周時(shí)，90%以上的參與者獲得正支付，且期望差較前幾周擴(kuò)大。說(shuō)明一般的信念學(xué)習(xí)模型能有效改進(jìn)參與者的決策、獲得超額支付。

（二）實(shí)驗(yàn)結(jié)果的啟示

1.信息對(duì)稱(chēng)及制度建設(shè)的重要性。信念是行為互動(dòng)過(guò)程中完全理性決策的主體的主觀概率。完全理性決策的先決條件是信息對(duì)稱(chēng)。在信息不充分的情況下，參與者無(wú)法做出完全理性的決策。將2014年不成熟的實(shí)驗(yàn)和2015年的實(shí)驗(yàn)對(duì)比來(lái)看：評(píng)定細(xì)節(jié)越詳細(xì)、行為決策過(guò)程越明晰，參與者（老師）的決策過(guò)程信息披露越充分，后續(xù)參與者的表現(xiàn)越好。與2014年相比2015年的本次實(shí)驗(yàn)中，評(píng)定信息的公開(kāi)使學(xué)生回答問(wèn)題的質(zhì)量明顯提高，對(duì)評(píng)定細(xì)則的詳細(xì)講解以及成績(jī)?cè)u(píng)定剖析后學(xué)生的成績(jī)有效提高。因此，博弈決策選擇的概率通常與決策過(guò)程相關(guān)，特定細(xì)節(jié)制度的設(shè)計(jì)，將有效引導(dǎo)決策行為，為參與者提供系統(tǒng)分析制度性和結(jié)構(gòu)性變量的理論效用的方法。

2015年實(shí)驗(yàn)結(jié)束后，本課題組進(jìn)行了滿意度調(diào)查。學(xué)生對(duì)該實(shí)驗(yàn)的滿意度為92%，學(xué)生認(rèn)為實(shí)驗(yàn)有效性的占90%，認(rèn)為最大收獲是“學(xué)會(huì)并掌握答題思路”的占73%，對(duì)重要因素的排序分別為：評(píng)分細(xì)則講解、先手示范、自我表達(dá)能力。因此，在一般的信念學(xué)習(xí)模型（虛擬博弈）中，完善的制度和對(duì)手在t-1期中的決策過(guò)程越明晰，局中參與人學(xué)習(xí)先手經(jīng)驗(yàn)在t期中行為的bt（ci）權(quán)重越大，做出完全理性決策的主體的主觀概率顯著提高。

2.虛擬博弈信念學(xué)習(xí)模型構(gòu)建的建議。信念學(xué)習(xí)模型主要來(lái)自博弈互動(dòng)實(shí)驗(yàn)的證據(jù)。“信念學(xué)習(xí)模型”研究的是行為互動(dòng)中參與者最優(yōu)策略的選擇問(wèn)題。本實(shí)驗(yàn)通過(guò)教學(xué)問(wèn)答環(huán)節(jié)博弈化設(shè)計(jì)模擬該模型，通過(guò)實(shí)驗(yàn)充分闡述和論證了虛擬博弈信念學(xué)習(xí)模型的存在性、收斂性、有效性在，此處不在贅述。

常見(jiàn)的基于虛擬博弈信念學(xué)習(xí)模型要求參與者始終牢記另一個(gè)參與者以前采取每種策略的相對(duì)頻率，從而主觀概率的采取某一策略，達(dá)到預(yù)期收益和實(shí)際收益的均衡，實(shí)現(xiàn)參與者雙方的效用最大化。那么重復(fù)博弈多少次合適？參與者從第幾次開(kāi)始學(xué)習(xí)效果開(kāi)始顯現(xiàn)？根據(jù)實(shí)驗(yàn)數(shù)據(jù)來(lái)看，周平均成績(jī)和分題型平均成績(jī)都從第3個(gè)有效實(shí)驗(yàn)周波動(dòng)降低開(kāi)始呈穩(wěn)態(tài)向上趨勢(shì)，說(shuō)明參與者對(duì)于對(duì)手的行動(dòng)經(jīng)驗(yàn)μt（ci）一般需要學(xué)習(xí)兩期之后開(kāi)始有效，自身行為策略Pt+1ai自從第3期開(kāi)始有效，即t≥2時(shí)一般信念形成，開(kāi)始指導(dǎo)參與者行為。因此，在虛擬博弈信念學(xué)習(xí)模型中重復(fù)博弈的次數(shù)應(yīng)該不少于三次。

簡(jiǎn)單博弈行為參與者的決策具有較高確定性，但是在行為互動(dòng)過(guò)程較復(fù)雜的博棄中，或者是長(zhǎng)期內(nèi)的重復(fù)博弈過(guò)程中，參與者出現(xiàn)隨機(jī)性、非理性決策的概率大大提高。虛擬博弈信念學(xué)習(xí)模型要求參與者記住前手采取該策略的概率，因此，在虛擬博弈信念學(xué)習(xí)模型構(gòu)建中過(guò)往行動(dòng)人的一方要嚴(yán)格按照博弈制度進(jìn)行決策和支付，形成穩(wěn)定的、可靠的“選擇頻率”，才有利于參與者形成信念，指導(dǎo)決策。

3.信念權(quán)重設(shè)定的啟示。信念權(quán)重形成于參與者對(duì)過(guò)往參與者以前采取每種策略的概率和獲得的支付，學(xué)習(xí)過(guò)程形成的信念可以有效提高策略上的優(yōu)勢(shì)影響最終支付，但是自身能力與最終支付之間的相關(guān)性也不應(yīng)該被忽略。在進(jìn)行數(shù)據(jù)比較和分析時(shí)，要充分強(qiáng)調(diào)預(yù)期支付，對(duì)預(yù)期支付進(jìn)行有效的界定和評(píng)估，將最終支付和預(yù)期支付進(jìn)行比較才能獲得真實(shí)、相較客觀的學(xué)習(xí)成果描述。例如，本實(shí)驗(yàn)中對(duì)于題目難度的劃分、結(jié)合期末排名對(duì)每次博弈結(jié)果的加權(quán)處理等。脫離參與者自身能力一味強(qiáng)調(diào)信念學(xué)習(xí)的效果，實(shí)驗(yàn)將不能更好的還原現(xiàn)實(shí)生活中行為決策過(guò)程。

信念權(quán)重除了取決于上述條件外，還取決于參與者對(duì)支付的敏感程度。重復(fù)博弈過(guò)程中，參與者的后向?qū)W習(xí)能力，例如歸納、推理，使得重復(fù)博弈的結(jié)果越來(lái)越理性，但是仍然會(huì)出現(xiàn)一定比例的與模型預(yù)測(cè)相悖的結(jié)果，此時(shí)就必需要關(guān)注參與者對(duì)支付的敏感程度。在今后的模型構(gòu)建中，應(yīng)對(duì)支付結(jié)果的表現(xiàn)形式進(jìn)行多樣化設(shè)計(jì)。參與者的決策行為影響因素眾多，多樣化的支付結(jié)果能更好地還原現(xiàn)實(shí)生活情況，更好的模擬決策行為。本實(shí)驗(yàn)中，支付結(jié)果的表現(xiàn)形式較為單一，因此采取懲罰性措施，增加參與者對(duì)現(xiàn)有支付的敏感度，降低非理性在行為決策中的干擾。例如，本實(shí)驗(yàn)在2014年的初次實(shí)驗(yàn)早期未設(shè)計(jì)懲罰性措施，造成參與者對(duì)支付不敏感出現(xiàn)非合作的不理性行為。同時(shí)，懲罰性措施在理論上還可以有效避免重復(fù)博弈中常見(jiàn)的合謀性均衡結(jié)果。因此，今后在構(gòu)建該類(lèi)模型中建議適當(dāng)引入懲罰性措施能有效提高參與者對(duì)支付結(jié)果的敏感程度。

4.外界環(huán)境對(duì)于實(shí)驗(yàn)的影響。信念的學(xué)習(xí)過(guò)程還來(lái)源于對(duì)外界環(huán)境的界定，外界環(huán)境提供的信息不可忽視。在始終牢記參與者以前采取每種策略的相對(duì)頻率的同時(shí)，參與者會(huì)對(duì)信息進(jìn)行選擇性加工，加強(qiáng)自身認(rèn)同信息的權(quán)重，弱化不認(rèn)同信息的權(quán)重，對(duì)于那些會(huì)有效甄別信息的參與者，其信念的學(xué)習(xí)就好，反之亦然。在信息的甄別過(guò)程中，由于參與者始終牢記前手的決策，所以在虛擬博弈信念學(xué)習(xí)模型中容易出現(xiàn)“羊群效應(yīng)”。例如，在2014年和2015年的兩次實(shí)驗(yàn)中，有的受驗(yàn)班級(jí)周平均成績(jī)長(zhǎng)期一致略微差于對(duì)比班級(jí)，有的受驗(yàn)班級(jí)間長(zhǎng)期存在某種莫名的情緒左右影響到參與者的最終行為決策。個(gè)體決策行為除了博弈制度、博弈對(duì)手的影響，還存在外部評(píng)估的過(guò)程。因此，個(gè)體行為存在異常決策，如若個(gè)性異常行為頻繁出現(xiàn)，實(shí)驗(yàn)者需思考，頻繁非理性決策背后是否存在非公平、非道德、非合法等隱形缺陷存在。因此，在今后的實(shí)驗(yàn)構(gòu)建和實(shí)驗(yàn)數(shù)據(jù)分析中應(yīng)當(dāng)考慮到群體行為對(duì)個(gè)人決策行為的影響。

[基金項(xiàng)目：四川省教育廳人文社科一般項(xiàng)目（項(xiàng)目編號(hào)：15SB0373）。]

參考文獻(xiàn)：

[1] 章平.信念調(diào)整、學(xué)習(xí)行為和均衡收斂的博弈模型研究進(jìn)展[J].南京社會(huì)科學(xué).2009（1）

[2] 章平，戴燕.個(gè)體決策與學(xué)習(xí)行為：有限理性建模綜述[J].南開(kāi)經(jīng)濟(jì)研究，2006（3）

[3] Douglas D. Davis ，Charles A. Holt.實(shí)驗(yàn)經(jīng)濟(jì)學(xué)[M].北京：中國(guó)人民大學(xué)出版社，2013

[4] 科林·凱莫勒.行為博弈（對(duì)策略互動(dòng)的實(shí)驗(yàn)研究）[M].北京：中國(guó)人民大學(xué)出版社，2006

[5] C Camerer，T Ho.Experience-Weighted Attraction Learning in Normal Form Games[J].Econometrica，1999（67）

[6] Fudenberg D ， Levine.The Theory of Learning in Games[M].The M.I.T. Press， Cambridge，MA，1998

（作者單位：四川華新現(xiàn)代職業(yè)學(xué)院經(jīng)濟(jì)管理系，四川廣播電視大學(xué)高職院四川成都 610045）

（作者簡(jiǎn)介：何婧，四川華新現(xiàn)代職業(yè)學(xué)院經(jīng)濟(jì)管理系，四川廣播電視大學(xué)高職院講師，經(jīng)濟(jì)學(xué)碩士，研究方向：行為博弈、證券投資。）

（責(zé)編：賈偉）

經(jīng)濟(jì)師2016年9期

經(jīng)濟(jì)師的其它文章: 淺析事業(yè)單位財(cái)務(wù)人員的轉(zhuǎn)型定位; 交通警察執(zhí)勤執(zhí)法中應(yīng)對(duì)襲警的策略分析; 基于法學(xué)視角的公司治理結(jié)構(gòu)思考; 淺析金融消費(fèi)者權(quán)益的法律保護(hù); “中國(guó)平安訴比利時(shí)投資爭(zhēng)端案”相關(guān)問(wèn)題研究; 地勘單位礦業(yè)開(kāi)發(fā)的發(fā)展模式探討