亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        純策略納什均衡的博弈強化學習

        2022-08-09 05:44:20陳希亮趙芷若
        計算機工程與應用 2022年15期
        關鍵詞:納什不動點維數(shù)

        王 軍,曹 雷,陳希亮,陳 英,趙芷若

        1.陸軍工程大學 指揮控制工程學院,南京 210007

        2.東部戰(zhàn)區(qū)總醫(yī)院 博士后科研工作站,南京 210002

        DQN(deep Q-learning)算法[1-2]在Atari游戲中的完美表現(xiàn)標志著單智能體強化學習已取得重大突破,而多智能體強化學習由于維度爆炸、環(huán)境非平穩(wěn)性和信度分配等問題依舊未能完全攻克。

        近年來,將博弈理論融入到多智能體強化學習形成博弈強化學習取得了不錯結果,典型算法有Nash Qlearning[3]和Mean field[4-5]。博弈理論和強化學習可以相互結合的原因主要有以下四點:(1)博弈論研究的主要是社會系統(tǒng)、經(jīng)濟系統(tǒng)的各類問題,并且這些系統(tǒng)的很多行為都依賴于計算機系統(tǒng)做出的決策和預測,如智能推薦系統(tǒng)和廣告投放系統(tǒng);(2)大多數(shù)經(jīng)濟系統(tǒng)和社會系統(tǒng)中的決策者都是多個個體或多個組織,與強化學習中多智能體形成對應關系;(3)大多數(shù)多智能體強化學習任務主要是希望在有限時間、有限資源、有限溝通下實現(xiàn)高效率計算并獲得更高累積回報,而博弈論所研究的經(jīng)濟系統(tǒng)主要是在多個類型不同,限制不同的玩家中尋找出互惠且穩(wěn)態(tài)的策略,因此兩者都是在一定限制條件下的優(yōu)化問題;(4)博弈論中根據(jù)玩家之間的利益關系而劃分成的競爭型、合作型和混合型模型可以平行推廣,用來描述強化學習中智能體的相互關系,然而博弈強化學習仍然有許多亟待解決的關鍵問題。

        1 博弈強化學習關鍵技術問題

        博弈強化學習除了多智能體強化學習的維度爆炸、環(huán)境的非平穩(wěn)性和信度分配等固有問題外[6-7],還存在以下幾個特有問題。

        (1)如何平衡理性假設與探索利用。大多數(shù)博弈理論的結果都是基于理性人假設和共同知識假設,即博弈玩家所采取的策略都是為最大化自身的效用值,并且同步地認為對手也會采取最大化效用值的策略。然而強化學習主要是通過智能體與環(huán)境的不斷交互,憑借試錯機制和獎賞函數(shù)最大化自己的長期累積回報的期望,而試錯機制的重要環(huán)節(jié)就是增加探索幾率。如果智能體是完全理性的,則何時探索、何時利用是兩個理論融合必須要考慮的問題。

        (2)如何高效通用求解大規(guī)模博弈強化學習任務。大規(guī)模博弈問題的求解是博弈理論中的公開難點,主要由于大規(guī)模博弈問題不易建模,且多數(shù)為非凸問題不易求得近似解,因此利用強化學習中集中式訓練分布式執(zhí)行框架、值函數(shù)分解等是求解上述問題的一個新型思路,典型算法有MADDPG[8]、COMA[9]、VDN[10]和QMIX[11]等。但是這些算法還遠未達到高效和通用的層次,基本都是在累加性和單調性等假設條件下對特定問題進行抽象、分解和轉換,因此高效通用求解博弈強化學習任務仍需要重點關注。

        (3)純策略納什均衡的存在性。諾貝爾經(jīng)濟得主Aumann曾說:“混合策略在直覺上是有問題的”。美國著名經(jīng)濟學家Roy Rander也指出“博弈理論沒有廣泛應用于各個領域的一個重要原因就是在于策略的隨機性”。關于混合策略,博弈論大師Ariel Rubinstein給出了兩種解釋,一是解釋認為混合策略是玩家認知能力的偏差和不完全信息共同作用的結果,另一種認為混合策略是基于所有玩家關于純策略選擇的分布,然而這種分布無法解釋單個玩家的策略選擇。同時,對于智能體而言混合策略納什均衡的執(zhí)行往往需要多次決策,并以頻率替代概率,這種做法會花費更多的時間和精力。因此,混合策略一直以來都飽受詬病[12-13],更高效、敏捷的博弈強化學習更需要純策略納什均衡,然而在很多具有實際背景的博弈問題中,純策略納什均衡并非總是存在。

        針對博弈強化學習中的純策略納什均衡問題的主要解決辦法有如下幾類:

        (1)簡化式方法。該類方法的主要思想是簡化問題模型,仍然用混合策略的納什均衡代替純策略納什均衡,該類方法的優(yōu)勢是使得問題可以求解,但是混合策略也會使得算法的計算量增加,并且最終學習到的策略在執(zhí)行時也存在一些難度。該類的典型算法有Nash Q-learning和Friend or foe[14]算法。

        (2)逼近式方法。由于純策略納什均衡并不總是存在,所以此類方法主要是利用其他解來逼近純策略納什均衡,例如ε-均衡[15]就是通過控制與純策略納什均衡的距離來保證問題的合理性,Lipschitz博弈[16]也是通過Lipschitz常數(shù)來控制智能體收益變化的幅度來求解具體問題。

        (3)推理式方法。此類方法主要是基于當前的局部信息對對手進行建模,然后通過推理和預測得出對手的策略,然后在針對性的做出最佳反應。如此反復地進行上述過程直至最終收斂至穩(wěn)定策略。此類典型的算法有OpenAI和牛津大學提出的LOLA算法[17]。

        如何解決不存在純策略納什均衡的博弈問題正是本文重點討論和解決的問題,針對此問題主要提出了元強化學習算法和基于分形維數(shù)的均衡程度評估模型,全文的邏輯框架如圖1所示。

        圖1 邏輯框架Fig.1 Logical framework

        2 主要概念

        重點敘述文中涉及到博弈強化學習相關概念,如元博弈和元均衡。同時也會介紹基于分形的均衡程度評估模型中提及的分形及分形維數(shù)。關于馬爾科夫決策過程和納什均衡等基本概念不再過多描述,具體定義、符號和基本結論可在相關文獻中查找[18-24]。

        2.1 元博弈

        對于n人一般式博弈,其關于智能體i的一階元博弈iG可以表示成:

        其中,F(xiàn)i表示智能體i的反應函數(shù)空間。反應函數(shù)的定義為f:A-i→A i。對于智能體i的任意反應函數(shù)f∈F i,以及其他智能體的任意聯(lián)合動作a-i∈A-i,有

        2.2 元均衡(Meta equilibrium)

        對于一個n人一般式博弈G及該博弈中某個聯(lián)合動作a,如果存在一個元博弈θG和這個元博弈的一個純策略納什均衡σ*,滿足φ(σ*)=a,則稱聯(lián)合動作a為博弈G的一個元均衡[25],也可以稱a為元博弈θG導出的一個元均衡。

        2.3 盒維數(shù)(Box dimension)

        假設P∈Rn為非空有界集,Nε(P)為能夠覆蓋集合P所需要的最小網(wǎng)格數(shù),且此這些網(wǎng)格中最大直徑為ε,定義集合P的上盒維數(shù)和下盒維數(shù)分別為:

        如果集合P的上下盒維數(shù)相等,則稱該值為集合P的盒維數(shù)[26]。

        2.4 Weyl分數(shù)階微積分

        假設f(x)∈C(I),0<v<1,如果f(x)逐段可積,則f(x)的v階Weyl分數(shù)階積分[27]定義如下:

        記BV I為在I上所有有界變差函數(shù)的集合,C(I)為所有在I上連續(xù)的函數(shù)集合。

        3 均衡建模模型

        解決不存在純策略納什均衡博弈問題的首要是對均衡問題進行合理建模,然后利用現(xiàn)有理論和算法進行科學求解。目前主要建模及求解方式有如下二種,一是轉換為具體表格形式,再利用壓縮映射求解不動點問題。二是轉換為具體線性或非線性函數(shù)[28-29],利用李雅普諾夫穩(wěn)定性理論求解。

        3.1 基于不動點理論的均衡模型

        不動點,即方程f(x)=x的解,博弈問題中的均衡解是使博弈過程達到一種穩(wěn)態(tài)的策略。在問題規(guī)模比較小且狀態(tài)為離散時,可將玩家的策略、狀態(tài)以及效用分別以表格形式進行存儲,通過Banach不動點定理進行求解,Banach不動點定理的主要內容如下:

        引理1(Banach不動點定理)[30]如果f是完備距離空間(X,d)到自身的壓縮映射,則在X中一定能找到唯一的x∈X,使得f(x)=x,即x是壓縮映射f在X上唯一的不動點。

        下面結合具體的博弈問題,給出利用Banach不動點定理求解不動點的詳細過程,求解過程基于以下兩條假設:一是玩家的動作空間和狀態(tài)空間都是完備的距離空間,二是構造出的策略選擇函數(shù)f是壓縮映射。因此在運用該框架求解時應對上述兩點假設進行合理證明和解釋。

        假設博弈玩家的數(shù)量為n,并且具有相同動作集A=(a1,a2,…,an),初始階段時任取x0=(y1,y2,…,yn),其中y i∈A,設策略選擇函數(shù)f的Lipschitz常數(shù)為β,d(x n,x n-1)=d(f(x n-1),f(x n))≤βn-1d(f(x0),x0),同時,對于任意給定的n和k,根據(jù)完備空間中關于距離的三角不等式,可知:

        因此,{x n}為Cauchy列,結合空間的完備性可知:

        如果x*是另外一個不動點,則:

        所以x=x*,即唯一性得證。

        3.2 基于李雅普諾夫穩(wěn)定性的均衡模型

        該建模方法的核心思想主要是將玩家已選取策略、當前狀態(tài)和環(huán)境一起看成一個系統(tǒng),通過尋找并建立合適的Lyapunov函數(shù)L(x),再利用李雅普諾夫穩(wěn)定性理論來判定當前狀態(tài)是否穩(wěn)定,穩(wěn)定性定義如下:

        (1)對于任意狀態(tài)x,?t0,?ε>0,?δ(t0,ε)使得‖x(t0)‖<δ(t0,ε),則稱該狀態(tài)為李雅普諾夫穩(wěn)定的。

        (2)對于任意狀態(tài)x,?δ(t0)>0,‖x(t0)‖<δ(t0)使得,則稱該狀態(tài)為漸進穩(wěn)定的。

        上述兩類穩(wěn)定性的主要區(qū)別在于漸進穩(wěn)定的狀態(tài)在出現(xiàn)擾動后會隨著時間的推移逐漸回到狀態(tài)x,而李雅普諾夫穩(wěn)定意味在出現(xiàn)擾動后平衡點仍在一定范圍內移動,兩者的具體解釋可見圖2。

        圖2 穩(wěn)定性解釋Fig.2 Explanation of stability

        點A與點B的區(qū)別在于,分別給兩點一個任意擾動后,點A將脫離原狀態(tài)并無法回到原始狀態(tài),但是點B仍然能夠回到原始狀態(tài),因此點A是在李雅普諾夫穩(wěn)定性理論下是不穩(wěn)定的,點B是穩(wěn)定的。點C在施加擾動后如果仍在圓中波動,則稱其為李雅普諾夫穩(wěn)定的。點D在受到擾動后,如果最終會收斂到原點則稱其為漸進穩(wěn)定的。在針對具體問題抽象建模時,可依據(jù)實際將其建模成線性系統(tǒng)或非線性系統(tǒng),并且二者的判定依據(jù)有所差異。

        (1)線性系統(tǒng):x=A x,矩陣A的所有特征值為λ=a+bi。如果a≤0,b=0,則為李雅普諾夫穩(wěn)定的;如果a<0,b=0,則為漸進穩(wěn)定的,否則為不穩(wěn)定的。

        (2)非線性系統(tǒng):針對x=x0,如果L(x0)=0,并且L(x)≥0,L′(x)≤0,x為除x0以外所有點,則稱x0為李雅普諾夫穩(wěn)定的;如果L(x0)=0,并且L(x)>0,L′(x)<0,x為除x0以外所有點,則稱x0為漸進穩(wěn)定的,否則為不穩(wěn)定的。

        運用過程中,最主要的難點在于如何找到合適的Lyapunov函數(shù)L(x)。

        4 元均衡博弈強化學習算法

        Howard在1971年提出的元博弈理論,其核心思想是在原有博弈基礎上構建一種假想博弈,稱為元博弈,元博弈導出的元均衡是一種純策略納什均衡,元均衡和純策略納什均衡最主要區(qū)別在于,不存在純策略納什均衡的博弈也存在元均衡,在任意一個一般式博弈中,至少存在一個元均衡,從該博弈的完全元博弈中導出的元均衡一定存在。同時,元均衡能夠保證每個玩家的效用值高于某個閾值,因此元均衡所對應的策略具有一定的合理性。

        4.1 元均衡的合理性和存在性

        引理1聯(lián)合動作a為元均衡的充要條件為:

        定理1在任一般式博弈G中,元均衡一定存在。

        證明設G為n人一般式博弈,對于擴展博弈1G和智能體1,可以找到最優(yōu)反應函數(shù),對于?a-1∈A-1有:

        因此,f1(A-1)在博弈1G中是對其他智能體的聯(lián)合動作的最佳反應。以1G為基礎博弈再以智能體2進行擴展,形成博弈21G。在21G博弈中,在智能體1始終采取f1(A-1)情況下,可以找到智能體2的最佳反應函數(shù)為:

        從上述推導過程可知,f2(A-2)是對其他智能體的任意聯(lián)合動作的最佳反應。重復上述構造過程可知,由G推導出的元博弈n…1G的元均衡一定存在。

        4.2 元均衡博弈強化學習算法復雜度

        Meta EquilibriumQ-learning算法的主要改進在于智能體動作集的替換,元博弈是以原始博弈為基礎,元博弈中智能體的動作變成對于其他智能體的聯(lián)合動作的反應函數(shù)。聯(lián)合動作的數(shù)量由于組合變化的多種可能使得聯(lián)合動作的數(shù)量大幅增加,因此元博弈中的動作空間與原始博弈動作空間相比會增大。

        以二人矩陣博弈為例,||S=m為狀態(tài)集的大小,為玩家動作集的大小,因此雙人矩陣博弈的空間復雜度為2m42。擴展成元博弈1G后,玩家1的反應函數(shù)集大小為:

        所以元博弈1G的空間復雜度為2m4×312。基于元博弈的算法模型雖然增加了空間復雜度,但是該算法在理論上可以保證純策略納什均衡的存在性。

        Meta EquilibriumQ-learning算法的偽代碼如下:

        1.初始化

        2.令t=0,獲得初始狀態(tài)s0

        3.對于智能體i,獲取對應的元博弈iG,反應函數(shù)f∈F

        4.對于所有的s∈S,f i∈Fi,令

        5.選取動作f it

        7.更新,對于j=1,2,…,n

        MetaQt j(s′)為元博弈中的純策略納什均衡中的Q值,αt∈[0,1]

        8.令t=t+1

        4.3 收斂性證明

        Meta Equilibrium Q-learning算法的收斂性證明基于Schauder不動點定理,具體內容如下:

        引理2(Schauder不動點定理)A是賦范線性空間中的凸緊集(如果A?X,?x,y∈A,t∈[0,1],tx+(1-t)y∈A,則A是X中的凸緊集),對于從A到A的連續(xù)映射f,存在不動點使得f(x*)=x*。f t是完備空間Q到Q的映射:

        其中:

        定理2Q是Q函數(shù)空間,對于任意的Q1,Q2∈Q,定義如下范數(shù):

        則該范數(shù)滿足非負性、齊次性和三角不等式。

        證明(1)非負性:對于每個

        當且僅當智能體保持靜止不采取任何動作。

        (2)齊次性:?x∈R,Q∈Q

        (3)三角不等式:任意Q1,Q2∈Q

        因此,上述定義的范數(shù)有合理性。對于s,a1,a2,…,an,令

        所以,f(Q*)=E?P(Q*)=Q*。

        定理3Q是一個凸集,并且f是Q到Q的連續(xù)映射。

        證明由于Q=Q1×Q2×…×Qn,

        記元均衡為σ*,則

        此處r k(s,σ*)是從狀態(tài)s到s?的累積回報,由于Q kx和Q ky是收斂的,則tQ kx+(1-t)Q ky也是收斂的,即tQ kx+(1-t)Q ky∈Qk,Q是一個凸集。

        同時:

        通過函數(shù)連續(xù)性定義可知,

        f是Q到Q的連續(xù)映射。因此,根據(jù)上述論述過程可知,映射f滿足Schauder不動點定理條件,并且Q是一個凸集,即映射f的不動點σ*存在。如果智能體的每個動作和狀態(tài)都能隨機的采樣,并且學習率滿足:

        則算法最終會收斂至Q*。

        4.4 實例驗證

        (1)福利博弈:福利博弈模型中的玩家分別為政府和貧民,政府愿意救濟努力尋找工作的貧民,但是不愿意救濟在家待業(yè)的貧民。然而,貧民只有在政府不救濟的情況下才會努力尋找工作,福利博弈的支付矩陣如表1所示。

        表1 福利博弈的支付矩陣Table 1 Payout matrix of welfare game

        通過驗證可知(救濟,尋找工作)、(救濟,在家待業(yè))、(不救濟,尋找工作)和(不救濟,在家待業(yè))都不是納什均衡。因此,福利博弈中不存在純策略的納什均衡。記政府為玩家1,貧民為玩家2,一階元博弈1G中貧民的反應函數(shù)的集合為(f1,f2,f3,f4):

        f1:無論政府救濟還是不救濟,貧民始終工作;

        f2:無論政府救濟還是不救濟,貧民始終待業(yè);

        f3:如果政府救濟就工作,不救濟則待業(yè);

        f4:無論政府救濟就待業(yè),不救濟則工作。

        則一階元博弈1G的支付矩陣如表2所示。

        表2 一階元博弈1G的支付矩陣Table 2 Payout matrix of first-order metagame 1 G

        通過計算可知,一階元博弈1G存在純策略納什均衡σ*=(救濟,f4),則

        即(救濟,在家待業(yè))是原始福利博弈的一個元均衡。原始博弈中四個策略的總效用值如下:

        (救濟,尋找工作):總效用值為5;

        (救濟,在家待業(yè)):總效用值為2;

        (不救濟,尋找工作):總效用值為0;

        (不救濟,在家待業(yè)):總效用值為0;

        從總體效用可知該策略并不是最優(yōu)策略,但是在保證得到純策略的前提下,該策略是最合理策略。

        由于福利博弈中并不存在純策略的納什均衡,而Nash Q-learning算法要求博弈的每個階段都存在鞍點或全局最優(yōu)點,因此Nash Q-learning算法在福利博弈中難以收斂,然而利用元均衡替代納什均衡形成的Meta Equilibrium Q-learning算法仍然可以此問題。

        (2)奪控戰(zhàn):奪控戰(zhàn)中,紅藍雙方的起始位置分別為2號地域和1號地域,雙方在對抗的每個階段每次只能移動至與其相連的地域,如藍方首次可到達的地域編號分別為3、4和6,紅方首次可到達的地域編號分別為4、5和7。雙方對抗的核心目標都是盡快占領14區(qū)域。

        具體對抗中,如果雙方同時到達除14號以外的區(qū)域,系統(tǒng)將對雙方做出處罰,并將雙方分別移動至上個階段的各自位置,如在對抗的第一階段,紅藍雙方都移動至4號區(qū)域,則系統(tǒng)將會使紅藍雙方分別重新回到2號和1號區(qū)域。如果其中一方優(yōu)先達到14地域,則該方獲勝,對抗結束。對抗示意圖如圖3所示。

        圖3 奪控戰(zhàn)Fig.3 Control war

        具體實驗中,獎賞函數(shù)的設置為到達目標區(qū)域獲得回報值為100;如果雙方到達同一位置,則分別獲得回報值為-1;其他情況下的回報值為0。以Nash Q-learning算法作為參考。兩種算法的具體實驗結果如圖4所示。

        圖4 兩種算法實驗結果圖Fig.4 Experimental results of two algorithms

        實驗結果表明,Meta Equilibrium Q-learning算法收斂時間比較長,但是兩個算法的累積回報相差不大,這表明在保證純策略的納什均衡的前提下,使用Meta Equilibrium Q-learning算法解決類似博弈問題更有優(yōu)勢。然而,Meta Equilibrium Q-learning算法也有很大的改進空間,算法使得智能體的動作集變成對于其他智能體聯(lián)合動作的反應函數(shù)集,這使得動作空間較原始博弈會大幅增大,從而使得算法的時間復雜度會增加。對于元博弈中智能體的反應函數(shù),從福利博弈的具體實例可以看出某些特殊的反應函數(shù)不滿足合理性和科學性,所以反應函數(shù)可以進一步優(yōu)化。同時,均衡解的求解被證明是NP-hard問題,因此尋求更高效的求解方式也是博弈強化學習研究的重難點,基于群體智能優(yōu)化算法是否能夠為求解均衡解帶來新的突破也寄希望于后續(xù)研究。

        5 基于分形維數(shù)的均衡程度評估模型

        元均衡博弈強化學習算法的缺點主要是由于動作集的擴大而導致計算量遞增,為提高算法計算效率,如果能夠評估某些特定狀態(tài)與均衡狀態(tài)的距離,則可以人為地引導智能體向正確的方向收斂,以減少算法計算時間。李雅普諾夫穩(wěn)定性理論雖然可以評估系統(tǒng)的穩(wěn)定性,但是在實際運用過程中發(fā)現(xiàn),很多博弈問題通過此方法建模后,很難找到合適的Lyapunov函數(shù),導致沒法判定狀態(tài)是否趨于穩(wěn)定。但是均衡狀態(tài)與非均衡狀態(tài)在本質上是有所區(qū)分的,因此應該有其他可以刻畫此差異的指標。

        分形維數(shù)最早是用于度量某些不規(guī)則的集合和函數(shù),如三分康托集、謝爾賓斯基墊片和Koch雪花曲線等。分形維數(shù)較拓撲維數(shù)的優(yōu)點在于其度量的尺度更加精確,能夠撲捉特殊集合和系統(tǒng)的內部構造,同時分形維數(shù)的計算與構造Lyapunov函數(shù)相比更加簡單。分形維數(shù)的種類有很多,常見的分形維數(shù)有Box維數(shù)、豪斯道夫維數(shù)和K-維數(shù),每種維數(shù)的計算方式也有差別,應用最廣泛的是Box維數(shù)和豪斯道夫維數(shù),本文主要計算的是Box維數(shù),因為它是豪斯道夫維數(shù)的天然上界,且更易于編程和計算。關于一般連續(xù)函數(shù)的分形維數(shù)主要有以下定理。

        5.1 分形維數(shù)定理

        定理4任意給定的有界變差函數(shù)f(x):

        (1)f(x)的Box維數(shù)為1;

        (2)f(x)經(jīng)過Weyl分數(shù)階積分后的函數(shù)的Box維數(shù)依然是1;

        (3)任意連續(xù)函數(shù)的Box維數(shù)大于等于1小于等于2。

        證明假設是分劃點并且滿足:

        則:

        假設m為等于或者大于ε-1的最小整數(shù),令Nδ是f(x)圖像與ε-網(wǎng)正方形相交的正方形的個數(shù),則:

        令1≤i≤m-1,同時令:

        則:

        所以存在一個確定的常數(shù)C使得Nδ≤Cε-1。

        結合Box維數(shù)的定義可知:

        又因為連續(xù)函數(shù)f()x的拓撲維數(shù)不小于1,所以

        由于f(x)∈C(I),并且f(x)在I上是有界變差函數(shù),由實變函數(shù)可知,f(x)可以被寫成兩個連續(xù)且單調遞增函數(shù)w1(x),w2(x)的差,即:

        這里w1(x)=h1(x)-c,w2(x)=h2(x)-c,同時在區(qū)間[1,+∞)上,h1(x)=h2(x)=c,顯然可知h1(x)、h2(x)也是單調遞增的連續(xù)函數(shù)。

        (1)如果f(0)≥0,選定w1(0)≥0和w2(0)=0,根據(jù)Weyl分數(shù)階積分的定義可知:

        由連續(xù)的定義知當w1(x)在I上連續(xù)時,G1(x)仍然在I上連續(xù)。令0≤x1≤x2≤1和0<v<1,則:

        因此函數(shù)G1(x)在I上仍然是一個單調遞增的連續(xù)函數(shù)。同理可得G2(x)是一個單調遞增的連續(xù)函數(shù)。

        (2)如果f(0)<0,選定w1(0)=0和w2(0)>0,使用類似的討論即可得出D-v w1(x)和D-v w2(x)在I仍然是單調遞增的連續(xù)函數(shù)。所以,D-v f(x)在I仍然是一個有界變差函數(shù)。由于任意給定的一元連續(xù)函數(shù)無法超出整個平面,因此其Box維數(shù)小于等于2。

        5.2 分形評估模型計算流程

        基于分形維數(shù)的均衡程度評估模型中計算的分形維數(shù)是盒維數(shù),該方法將智能體的動作、狀態(tài)、回報和環(huán)境等看成多維空間的點,對于任意狀態(tài)s,將初始狀態(tài)s0到s的多個點構建為空間中不規(guī)則點集,通過求解該點集的盒維數(shù)來判斷此狀態(tài)與均衡狀態(tài)在空間中的距離。盒維數(shù)越大狀態(tài)越穩(wěn)定,離均衡狀態(tài)距離越近。但在具有求解過程發(fā)現(xiàn),隨著網(wǎng)格最大直徑的變化,盒維數(shù)也在不斷變化,因此模型最后采用最小二乘法對盒維數(shù)進行擬合處理。分形評估模型計算流程如下:

        1.數(shù)據(jù)歸一化

        2.計算權重因子:

        3.計算N(P):為點到原點的距離

        4.計算盒維數(shù):B=lnN(P)lnr

        5.最小二乘法擬合盒維數(shù)

        在上述奪控戰(zhàn)的紅藍博弈中,從開始至對抗結束,分別依次選取四個狀態(tài),記為s1,s2,s3,s4,計算其盒維數(shù)并進行最小二乘法擬合后的結果如圖5所示。

        圖5 四個狀態(tài)的盒維數(shù)擬合結果Fig 5 Box dimension fitting results of four states

        從擬合結果可知,第四個狀態(tài)s4的盒維數(shù)最大,因此該狀態(tài)相對最穩(wěn)定,離均衡狀態(tài)的距離最近,這與具體的博弈進程一致。

        6 結論

        純策略納什均衡運用于強化學習算法中的效率相比于混合策略納什均衡要高很多,但是純策略納什均衡的存在性在實際問題中并不能總是得到有效保證,Meta Equilibrium Q-learning算法主要的優(yōu)勢如下:

        (1)能夠保證純策略納什均衡的存在性

        該算法通過反應函數(shù)將原始博弈轉換為元博弈,而從元博弈推導出來的元均衡必定是純策略納什均衡。因此能夠有效解決純策略納什均衡的存在性問題。

        (2)能夠保證最終策略的科學性

        Meta Equilibrium Q-learning算法中智能體的動作空間會增加,但是所有智能體的回報會大于某個特定的閾值,這使得智能體有意愿選擇該策略,因此該算法學習到的最終策略具有科學性。

        (3)能夠擴大算法應用的范圍

        解決純策略納什均衡意味著Meta Equilibrium Q-learning算法能夠解決一些不存在純策略納什均衡的問題,因此該算法的應用范圍要大于一般強化學習算法。

        博弈強化學習目前還處于發(fā)展階段,即概念融合階段。例如,Nash Q-learning主要利用納什均衡引導智能體快速收斂,F(xiàn)FQ(Friend-or-Foe)則是通過劃分智能體為朋友和敵人以達到削減博弈規(guī)模的目的,并且上述算法和結論都依賴于博弈論中理性人假設和共同知識假設。因此,博弈強化學習在后續(xù)的研究中需要考慮的問題仍然有很多,一是如何解決“戰(zhàn)爭迷霧”下的博弈強化學習。博弈充滿了不確定性,博弈也可劃分為完美信息博弈和不完美信息博弈、完全信息博弈和不完全信息博弈,則此時的問題是建模成擴展式博弈模型還是部分可觀測下的馬爾科夫決策模型,兩種模型內部又存在何種聯(lián)系。二是如何解決非對稱下的博弈強化學習。目前博弈強化學習所解決的問題局限在德?lián)浜途W(wǎng)格世界等游戲環(huán)境中,重要的是此時各智能體的動作集都是相同的,即對稱博弈。然而,博弈強化學習的落地無法回避非對稱博弈強化學習,雖然基于復因子動力學等方法通過將非對稱博弈轉換為對稱博弈進行求解,但此類方法遠未達到通用效果,且高度依賴于專業(yè)領域知識對模型進行抽象和簡化。博弈強化學習的現(xiàn)有成果指明了學科交叉融合是解決該問題的正確思路,未來持續(xù)不斷地研究和新領域知識的加入必將解決博弈強化學習的現(xiàn)有難題,使其廣泛應用于各個領域。

        猜你喜歡
        納什不動點維數(shù)
        β-變換中一致丟番圖逼近問題的維數(shù)理論
        THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
        THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
        一類抽象二元非線性算子的不動點的存在性與唯一性
        一類齊次Moran集的上盒維數(shù)
        活用“不動點”解決幾類數(shù)學問題
        關于齊次Moran集的packing維數(shù)結果
        涉及相變問題Julia集的Hausdorff維數(shù)
        不動點集HP1(2m)∪HP2(2m)∪HP(2n+1) 的對合
        一類非錐映射減算子的不動點定理及應用
        久久久诱惑一区二区三区| 国产精品久久久福利| 人妻激情偷乱视频一区二区三区| 无码欧美毛片一区二区三| 中文字幕av一区中文字幕天堂| 国产免费久久精品99re丫y| 久久精品国产亚洲av热九九热| 中文字幕人妻互换激情| 不卡的av网站在线观看| 国产日产综合| 永久黄网站色视频免费| 久久洲Av无码西西人体| 黄片免费观看视频播放| 亚洲精品国产精品乱码视色| 亚洲国产成人精品无码区二本| 色拍拍在线精品视频| 国产一区二区三区最新视频| 久久精品国产亚洲av网站| 久久精品国产免费观看三人同眠| 午夜色大片在线观看| 荡女精品导航| 少妇被爽到自拍高潮在线观看| 蜜桃视频羞羞在线观看| 伊人久久大香线蕉av色婷婷色| 人妻暴雨中被强制侵犯在线| 亚洲日韩区在线电影| 亚洲国产综合久久精品| 日韩有码中文字幕在线观看| 无码人妻人妻经典| 一本色道久久综合狠狠躁| 亚洲免费视频一区二区三区| 女同一区二区三区在线观看| 亚洲乱码中文字幕久久孕妇黑人 | 青青草成人免费在线视频| 久久精品aⅴ无码中文字字幕| 狼色精品人妻在线视频| 四虎国产精品成人影院| 蓝蓝的天空,白白的云| 十四以下岁毛片带血a级| 国产精品jizz视频| 色哟哟av网站在线观看|