四川職業(yè)技術學院電子電氣工程系 劉 宸
基于交互學習神經(jīng)網(wǎng)路的仿真研究
四川職業(yè)技術學院電子電氣工程系 劉 宸
交互學習可促使人更加具有智慧,因此,研究人類的交互學習對于探索人類的學習規(guī)律具有十分重要的意義。有研究表明,神經(jīng)網(wǎng)路同博弈理論相結合能夠構建人類交互學習模型,本文通過對交互學習神經(jīng)網(wǎng)路模型進行構建,采用仿真技術對人類交互學習的過程及其基本規(guī)律進行研究,結果顯示,此模型能夠對交互及競爭學習過程進行有效模擬。
交互學習;博弈理論;神經(jīng)網(wǎng)路;仿真
人類作為一種群居性的動物天生就具有交互性學習的能力,交互性學習可以促使人變得更有智慧,因為一旦某一只動物變聰明,其它動物就能夠對此能力進行學習,因此也會跟著變得更聰明。若某人了解交互學習與競爭學習之間的關系,那么這個人就會變得更加聰明。若某民族了解此道理,則此民族也會更興旺。因此,研究交互學習規(guī)律對于人類思維發(fā)展具有十分重要的意義。
同人類的個體學習過程不同,交互學習具有其較為顯著的特征:若有n個參與人員,各參與人員均會通過對除其自身以外的n-1個參與人員進行同時性的學習,并以此為基礎來對自身的行為策略進行改變,即某個參與人員其自身的選擇會受到剩余其他參與人員的選擇影響,同時也會對其他參與人員的選擇帶來影響。此特征普遍存在于如今的經(jīng)濟生活當與社會環(huán)境之中,因而研究人與人的交互學習模型具有很重要的意義。
本文通過將在人工神經(jīng)網(wǎng)路中融合入博弈支付函數(shù)的結構,并將博弈支付矩陣中各個支付值作為其輸入的結點xj以及對手支付值,同時,將參與人相應可進行選擇的行動策略作為其輸出的結點y,并最終建立了一個人類交互學習的神經(jīng)網(wǎng)路模型。
圖1 交互及競爭學習模型的博弈實驗訓練過程曲線
圖2 博弈實驗的數(shù)據(jù)同仿真結果之間的比較
通常而言,重復性的博弈理論中的學習過程通常包括如下兩種模型:一種是強化性的學習模型,另一種是強化及環(huán)境兩者交互性混合學習模型。此兩種學習過程模型的各種相應的權重參數(shù)均需以實驗數(shù)據(jù)等為依據(jù)進行調整。同以上兩種學習模式不同,有資料還提出了另一種模式,及以Regret反饋為基礎的學習神經(jīng)網(wǎng)路,此模式可成功進行混合策略博弈中唯一性均衡點的預測。以Regret反饋為基礎的學習神經(jīng)網(wǎng)路為前饋與反饋兩種神經(jīng)網(wǎng)路的結合。對于人工神經(jīng)網(wǎng)路而言,其實質主要是將眾多相對較為簡單的神經(jīng)元在某一網(wǎng)路系統(tǒng)中進行有機組合,以以信息流的方向為依據(jù)將其分為前饋與反饋兩種神經(jīng)網(wǎng)路。
由于神經(jīng)網(wǎng)路學習的過程為誤差向后由輸出至輸入層傳播且對網(wǎng)路連接的權值進行修正的過程,因此學習目的即為了確保網(wǎng)路實際的輸出同某一期望輸出相接近。對于交互學習神經(jīng)網(wǎng)路結構而言,其輸入節(jié)點主要為支付矩陣中的8個支付值,而將兩個輸出節(jié)點來對實際過程的行動選擇概率進行具體表示。通常而言,各輸入節(jié)點的輸入信息取當前博弈過程中相對應支付值,而對于輸出結點而言,其激活函數(shù)主要是將相相應的輸入節(jié)點同連接權wij的乘積進行求和,之后再由Sigmoid活化函數(shù)進行計算后獲得,公式如下:
式中,ti(a-k)——參與人員k對剩余參與人員行動后的最佳反應;yi——參與人員做出行為i的概論;Rk(·)——通過行為及其他參與人員行為所得的Regret值;xj——輸入節(jié)點強度,也可認為是支付值;λ——學習率。Regret主要是由實際所收入的支付值同可能獲取最大支付值之間的差值進行計算的。因此,以上述兩個公式可對連接權進行如下調整:學習效率、實際情況下的收益同事后的最佳收益之間的差、Regret值以及輸入特性等多種因素間的乘積。
將Regret引入到反饋學習中極大程度地改善了神經(jīng)網(wǎng)路混合策略預測性能的均衡性。Regret等于在對手行為選擇已知的情況下參與人員可能能獲得的最大支付值同博弈過程實際的支付值之間的差值。此法為通過神經(jīng)網(wǎng)絡對人類的交互學習行為進行了科學模擬,并提出了相應的算法。模型基于單神經(jīng)元感知器對博弈收益進行了考慮,以便對反饋過程進行修改。此種事后驅動同學習過程相符。參與者在得知同剩余參與者上次行動的選擇之后可得Regret值,而后以Regret程度為依據(jù)來對自己最佳行動策略進行選擇,以逐漸接近最佳策略。也就是說,參與者了解剩余參與者前一次的博弈行動選擇之后,會將其目前行動朝著上一次博弈最佳反應方向轉變。
為了對交互學習模型的性能進行比較,本文采用了均方差準則MSD,MSD作為檢測估計值同實測值間差值中普遍受到認可的方法,其公式如下:
其中,y——實測值向量;y′——估計值向量;yi——第i個博弈試驗中y向量所選相應行動頻率值;yi′——模型的輸出頻率值,N——對應向量的長度。
基礎數(shù)據(jù)采用博弈理論支付函數(shù),借助于所構建的交互學習神經(jīng)網(wǎng)路模型進行仿真分析,計算結果如圖1所示:圖1的上方為仿真計算中輸出的A1與A2分別表示的是參與人A所選行動1的頻率,以及參與人B所選行動2的頻率。而圖2顯示的是此組數(shù)據(jù)同實驗結果之間的比較,由圖2可知,交互學習神經(jīng)網(wǎng)路模式的仿真結果同實驗的數(shù)據(jù)較為吻合。
在對10組不同的博弈實驗進行MSD準則計算及對比后可知,Regret模型具有相對較好的預測結果。結果顯示:在反饋過程中進行Regret變量的引入能夠對人工神經(jīng)網(wǎng)路的性能進行顯著的改善。進行Regret模型的構建能夠體現(xiàn)如下重要特點,即可對人類交互學習的過程進行有效模擬,就像博弈實驗相同。作為自然進化過程中十分重要的特征之一,人類的交互學習過程不僅包括了人與人之間的交互學習過程,還包括了人與自然以及人與自然界中其它生物之間的交互學習。
隨著人類對思維及知識掌握過程探索及論證的逐步深入,有關人類交互學習的研究已經(jīng)成為當今領域的研究熱點之一。在人工神經(jīng)網(wǎng)路交互學習的進化過程中,通過對人類的學習方法中的回顧和對比進行效仿來對人工神經(jīng)網(wǎng)路的連接權值進行有效的更新。通過所構建的交互學習模型進行仿真分析,結果顯示,此模型不僅能夠對人類的交互學習過程進行較好的描述,還可對博弈均衡狀態(tài)進行較為有效的預測。
[1]李伯虎,柴旭東,侯寶存等.一種新型的分布協(xié)同仿真系統(tǒng)——“仿真網(wǎng)格”[J].系統(tǒng)仿真學報,2010(20):5 423-5430.
[2]Kepecs A,Uchida1 N,Zariwala1 H A,Mainen Z F.Neural correlates,computation and behavioural impact of decision conf i dence[J].Nature(S0028-0836),2008,455(7210):227-231.