亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多機(jī)器人系統(tǒng)強(qiáng)化學(xué)習(xí)研究綜述

        2015-01-07 07:59:44張文旭戴朝華
        關(guān)鍵詞:個(gè)體機(jī)器人文獻(xiàn)

        馬 磊, 張文旭, 戴朝華

        (西南交通大學(xué)電氣工程學(xué)院,四川成都610031)

        多機(jī)器人系統(tǒng)強(qiáng)化學(xué)習(xí)研究綜述

        馬 磊, 張文旭, 戴朝華

        (西南交通大學(xué)電氣工程學(xué)院,四川成都610031)

        強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn)多機(jī)器人對(duì)復(fù)雜和不確定環(huán)境良好適應(yīng)性的有效手段,是設(shè)計(jì)智能系統(tǒng)的核心技術(shù)之一.從強(qiáng)化學(xué)習(xí)的基本思想與理論框架出發(fā),針對(duì)局部可觀測(cè)性、計(jì)算復(fù)雜度和收斂性等方面的固有難題,圍繞學(xué)習(xí)中的通信、策略協(xié)商、信度分配和可解釋性等要點(diǎn),總結(jié)了多機(jī)器人強(qiáng)化學(xué)習(xí)的研究進(jìn)展和存在的問題;介紹了強(qiáng)化學(xué)習(xí)在機(jī)器人路徑規(guī)劃與避障、無人機(jī)、機(jī)器人足球和多機(jī)器人追逃問題中的應(yīng)用;最后指出了定性強(qiáng)化學(xué)習(xí)、分形強(qiáng)化學(xué)習(xí)、信息融合的強(qiáng)化學(xué)習(xí)等若干多機(jī)器人強(qiáng)化學(xué)習(xí)的前沿方向和發(fā)展趨勢(shì).

        多機(jī)器人系統(tǒng);強(qiáng)化學(xué)習(xí);馬爾科夫決策過程;計(jì)算復(fù)雜度;不確定性

        多機(jī)器人合作是近年自動(dòng)化與控制領(lǐng)域發(fā)展的前沿方向[1].多機(jī)器人的研究與應(yīng)用體現(xiàn)出了廣泛的學(xué)科交叉,涉及眾多的課題,目前已在工業(yè)、農(nóng)業(yè)、商業(yè)、太空與海洋探索、環(huán)境監(jiān)測(cè)、災(zāi)害救險(xiǎn)、國防等領(lǐng)域獲得越來越多的關(guān)注與應(yīng)用.

        要實(shí)現(xiàn)多機(jī)器人靈活和有效的行為選擇能力,保證它們之間的協(xié)作關(guān)系,僅依靠設(shè)計(jì)者的經(jīng)驗(yàn)和知識(shí),很難獲得多機(jī)器人系統(tǒng)對(duì)復(fù)雜和不確定環(huán)境的良好適應(yīng)性[2].為此,必須在機(jī)器人的規(guī)劃與控制中引入學(xué)習(xí)機(jī)制,使機(jī)器人能夠在與環(huán)境的交互中,具有一定的識(shí)別、判斷、比較、鑒別、記憶和自行調(diào)整的能力.

        機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來模擬人類學(xué)習(xí)活動(dòng)的一門學(xué)科,強(qiáng)化學(xué)習(xí)(reinforcementlearning,RL)作為機(jī)器學(xué)習(xí)的一種重要手段,可以使機(jī)器人與復(fù)雜的動(dòng)態(tài)環(huán)境建立起一種交互關(guān)系.其嘗試獲得知識(shí)的過程與人類的學(xué)習(xí)十分相似,因此獲得了廣泛的關(guān)注,被認(rèn)為是設(shè)計(jì)智能系統(tǒng)的核心技術(shù)之一[3].

        多個(gè)機(jī)器人可以通過協(xié)作完成單個(gè)機(jī)器人無法解決的復(fù)雜任務(wù).協(xié)作是多機(jī)器人系統(tǒng)的核心,但并非機(jī)器人與生俱來的特性.人類的許多協(xié)作行為都是通過后天不斷的學(xué)習(xí)獲得的,因此,多機(jī)器人也可以通過學(xué)習(xí)來增強(qiáng)和改進(jìn)自身的能力,提高團(tuán)隊(duì)的協(xié)作行為與效率.多機(jī)器人系統(tǒng)的學(xué)習(xí)并不是單個(gè)機(jī)器人學(xué)習(xí)的簡(jiǎn)單疊加.事實(shí)上,多機(jī)器人系統(tǒng)的學(xué)習(xí)過程直接依賴于學(xué)習(xí)系統(tǒng)中多個(gè)機(jī)器人的存在和交互,是一個(gè)復(fù)雜的交互學(xué)習(xí)過程,需要考慮到它們之間的協(xié)商、信度分配及局部性等多方面因素.

        本文第1節(jié)首先介紹強(qiáng)化學(xué)習(xí)的基本思想和理論框架,并在第2節(jié)將相關(guān)概念擴(kuò)展到多機(jī)器人強(qiáng)化學(xué)習(xí).在第3節(jié)中,針對(duì)局部可觀測(cè)性、計(jì)算復(fù)雜度和收斂性等方面的固有難題,圍繞學(xué)習(xí)中的通信、策略協(xié)商、信度分配和可解釋性等內(nèi)容總結(jié)多機(jī)器人強(qiáng)化學(xué)習(xí)的研究進(jìn)展和存在的問題.第4節(jié)介紹強(qiáng)化學(xué)習(xí)的在多機(jī)器人系統(tǒng)中的若干典型應(yīng)用.最后指出多機(jī)器人強(qiáng)化學(xué)習(xí)的前沿方向及發(fā)展趨勢(shì)和面臨的挑戰(zhàn),以期促進(jìn)相關(guān)研究.

        1 強(qiáng)化學(xué)習(xí)理論與方法

        1.1 強(qiáng)化學(xué)習(xí)原理

        經(jīng)典的強(qiáng)化學(xué)習(xí)基于馬爾科夫決策過程(Markov decision process,MDP),介于監(jiān)督式學(xué)習(xí)和無監(jiān)督式學(xué)習(xí)之間,以一個(gè)單獨(dú)的學(xué)習(xí)系統(tǒng)為載體進(jìn)行.如圖1所示,學(xué)習(xí)系統(tǒng)(機(jī)器人、個(gè)體(Agent))通過與環(huán)境的即時(shí)交互來獲得環(huán)境的狀態(tài)信息,并通過反饋強(qiáng)化信號(hào)對(duì)所采取的行動(dòng)進(jìn)行評(píng)價(jià),利用不斷地試錯(cuò)和選擇,進(jìn)而逐步改進(jìn)從狀態(tài)到動(dòng)作的映射策略,達(dá)到學(xué)習(xí)的目的.在強(qiáng)化學(xué)習(xí)的過程中,所有系統(tǒng)和環(huán)境狀態(tài)都被認(rèn)為具有馬爾科夫性,即當(dāng)前的狀態(tài)只取決于上一時(shí)刻的狀態(tài)和動(dòng)作.這一假設(shè)大大簡(jiǎn)化了決策過程的復(fù)雜性.

        圖1 強(qiáng)化學(xué)習(xí)框架Fig.1 Framework of reinforcement learning

        1.2 強(qiáng)化學(xué)習(xí)方法

        1.2.1 瞬時(shí)差分法

        對(duì)于一個(gè)還未完全了解的系統(tǒng),可以通過學(xué)習(xí)過去的經(jīng)驗(yàn)預(yù)測(cè)其未來行為.瞬時(shí)差分法(temporal difference,TD)[4]基于這一思想,結(jié)合了動(dòng)態(tài)規(guī)劃與蒙特卡洛算法,通過預(yù)測(cè)當(dāng)前動(dòng)作的長(zhǎng)期影響(即預(yù)測(cè)未來回報(bào))將獎(jiǎng)懲信號(hào)傳遞到動(dòng)作中.最簡(jiǎn)單的TD算法是一步TD算法(TD(0)),個(gè)體獲得瞬時(shí)獎(jiǎng)賞值僅向后回退一步,即只迭代修改了相鄰狀態(tài)的估計(jì)值,迭代表式為

        式中:β為學(xué)習(xí)率;V(st)和V(st+1)分別為個(gè)體在t和t+1時(shí)刻訪問狀態(tài)st和st+1時(shí)估計(jì)的狀態(tài)值函數(shù);rt+1為瞬時(shí)獎(jiǎng)賞值;γ為折扣因子.

        個(gè)體獲得瞬時(shí)獎(jiǎng)賞值可以向后回退任意步,則形成TD(λ)算法,其表達(dá)式為

        式中:e(s)為狀態(tài)s的選舉度,可通過式(3)計(jì)算:

        式中:λ為折扣速率;

        在當(dāng)前狀態(tài)歷史的t步,如果一個(gè)狀態(tài)被多次訪問,則其e(s)越大,表明其對(duì)當(dāng)前獎(jiǎng)賞值的貢獻(xiàn)越大.式(4)為式(3)的遞歸形式:

        與TD(0)算法相比,TD(λ)算法在收斂速度上有很大提升.但是,由于其在遞歸過程中的每個(gè)時(shí)間步都要對(duì)所有的狀態(tài)進(jìn)行更新,所以當(dāng)狀態(tài)空間較大時(shí),難以保證算法的實(shí)時(shí)性.近年來,很多學(xué)者都對(duì)其做了研究,代表性工作有:文獻(xiàn)[5]提出一種基于核心的在線選擇TD(OSKTD)學(xué)習(xí)算法,通過對(duì)值函數(shù)進(jìn)行在線稀疏化和參數(shù)更新兩個(gè)過程,用以處理大規(guī)模連續(xù)的強(qiáng)化學(xué)習(xí)問題;文獻(xiàn)[6]證明了任意的表格型折扣回報(bào)TD(λ)學(xué)習(xí)算法的概率收斂性;文獻(xiàn)[7]研究了TD(λ)學(xué)習(xí)算法均方差與的函數(shù)關(guān)系,給出了一定假設(shè)下的表達(dá)式,針對(duì)采用線性值函數(shù)逼近的TD(λ)學(xué)習(xí)算法.

        1.2.2 Q-學(xué)習(xí)

        文獻(xiàn)[8]提出了一類通過引入期望的延時(shí)回報(bào),求解無完全信息的馬爾科夫決策過程類問題的方法,稱為Q-學(xué)習(xí)(Q-learning).Q-學(xué)習(xí)是一種模型無關(guān)的基于瞬時(shí)策略的強(qiáng)化學(xué)習(xí)方法,提供機(jī)器人在馬爾科夫環(huán)境中,利用經(jīng)歷的動(dòng)作序列執(zhí)行最優(yōu)動(dòng)作的一種學(xué)習(xí)能力.Q學(xué)習(xí)算法的基本形式為:

        其中:Q*(s,a)表示機(jī)器人在狀態(tài)s下才用動(dòng)作a所獲得的獎(jiǎng)賞折扣總和;γ為折扣因子;P(s,a,s′)表示概率函數(shù).最優(yōu)策略為狀態(tài)s下選用Q值最大的行動(dòng)a.

        不同于TD算法,Q-學(xué)習(xí)迭代時(shí)采用狀態(tài)-動(dòng)作對(duì)的獎(jiǎng)賞和Q(s,a)作為估計(jì)函數(shù),而不是TD算法中的狀態(tài)獎(jiǎng)賞V(s),這樣在每次學(xué)習(xí)迭代時(shí)都需要考察每個(gè)行為,可確保學(xué)習(xí)過程收斂[9].Q-學(xué)習(xí)可以根據(jù)TD(λ)算法的方法擴(kuò)展到Q(λ)算法.

        近年來,Q-學(xué)習(xí)算法得到廣泛關(guān)注.文獻(xiàn)[10]提出一種基于最小二乘支持向量機(jī)的Q-學(xué)習(xí)方法,由一個(gè)最小二乘支持向量回歸機(jī)(LS-SXRM)和一個(gè)最小二乘支持向量分類機(jī)(LS-SVCM)構(gòu)成,LS-SXRM用于逼近狀態(tài)-動(dòng)作對(duì)的值函數(shù)映射,LS-SVCM用于逼近連續(xù)狀態(tài)空間到離散動(dòng)作空間的映射;文獻(xiàn)[11]將流形學(xué)習(xí)中計(jì)算復(fù)雜度較小的LE方法引入啟發(fā)式Q學(xué)習(xí)中,提出了一種基于譜圖理論的啟發(fā)式函數(shù)設(shè)計(jì)方法;文獻(xiàn)[12]提出一種保真概率的Q-學(xué)習(xí)(fidelity-based probabilistic q-learning,F(xiàn)PQL)方法,在學(xué)習(xí)迭代過程中采用保真度幫助學(xué)習(xí)過程和行動(dòng)概率的選擇,以此來平衡強(qiáng)化學(xué)習(xí)中策略的試探與利用的關(guān)系.

        Sarsa(state-action-reward-state-action)算法[13]是Q-學(xué)習(xí)算法的一種特殊在線策略形式.Q-學(xué)習(xí)采用值函數(shù)的最大值進(jìn)行迭代,Sarsa采用實(shí)際的Q值進(jìn)行迭代.另外,Sarsa算法的每個(gè)學(xué)習(xí)步,機(jī)器人都依據(jù)當(dāng)前Q值確定下一狀態(tài)時(shí)的動(dòng)作,Q-學(xué)習(xí)中需要依據(jù)修改后的Q值確定動(dòng)作.Sarsa算法的更新規(guī)則為

        1.2.4 Actor-Critic學(xué)習(xí)算法

        上述3種學(xué)習(xí)算法具有一個(gè)共同特點(diǎn),即僅對(duì)MDP的值函數(shù)進(jìn)行估計(jì),行為選擇策略則由值函數(shù)的估計(jì)完全確定.為了同時(shí)對(duì)值函數(shù)和策略進(jìn)行估計(jì),文獻(xiàn)[14]提出了Actor-Critic學(xué)習(xí)算法,采用TD學(xué)習(xí)算法實(shí)現(xiàn)值函數(shù)的估計(jì),并利用一種策略梯度估計(jì)方法進(jìn)行梯度下降學(xué)習(xí).文獻(xiàn)[15]進(jìn)一步研究了求解連續(xù)行為空間MDP最優(yōu)策略的Actor-Critic學(xué)習(xí)算法.

        2 多機(jī)器人的強(qiáng)化學(xué)習(xí)方法

        與單個(gè)機(jī)器人相比,多機(jī)器人的強(qiáng)化學(xué)習(xí)更注重機(jī)器人之間學(xué)習(xí)知識(shí)、經(jīng)驗(yàn)等的交互.在有多個(gè)機(jī)器人參與的協(xié)作過程中,考慮到環(huán)境的不確定性與局部可觀測(cè)的影響,它們與環(huán)境的交互擴(kuò)展至局部可觀測(cè)馬爾科夫決策過程(POMDP)和分布式局部可觀測(cè)馬爾科夫決策過程(DEC-POMDP).學(xué)習(xí)過程不再具有馬爾科夫性,每個(gè)時(shí)刻都需要通過考慮自身及隊(duì)友的歷史信息及經(jīng)驗(yàn)來進(jìn)行學(xué)習(xí)和判斷,在這種情況下,學(xué)習(xí)的難度與計(jì)算復(fù)雜度都遠(yuǎn)高于單機(jī)器人的強(qiáng)化學(xué)習(xí).DEC-POMDP的求解是一個(gè)NEXP(non-deter-ministic exponential time)問題[6].

        多機(jī)器人的強(qiáng)化學(xué)習(xí)分為集中式和分布式.集中式的強(qiáng)化學(xué)習(xí)將所有機(jī)器人看作一個(gè)整體,利用一個(gè)全局學(xué)習(xí)單元,采用經(jīng)典的強(qiáng)化學(xué)習(xí)方法進(jìn)行學(xué)習(xí),然后將策略分配給每個(gè)機(jī)器人.其常用于調(diào)度問題,例如電梯組[17]和異構(gòu)機(jī)器[18]等調(diào)度問題.分布式強(qiáng)化學(xué)習(xí)要復(fù)雜得多,又可以分為獨(dú)立強(qiáng)化學(xué)習(xí)(reinforcement learning individually,RLI)與群體強(qiáng)化學(xué)習(xí)(reinforcement learning in group,RLG),是當(dāng)前研究的主要課題.在學(xué)習(xí)系統(tǒng)中,如果每個(gè)機(jī)器人的學(xué)習(xí)不考慮其他機(jī)器人的狀態(tài),稱之為獨(dú)立強(qiáng)化學(xué)習(xí),其協(xié)作過程可以稱為自私型或者完全自私型;如果每個(gè)機(jī)器人在學(xué)習(xí)過程中,既考慮自身及任務(wù),還要考慮到隊(duì)友可能的行動(dòng)與策略,通過學(xué)習(xí)和推理后得到一個(gè)利于團(tuán)隊(duì)的個(gè)體策略,則稱為群體強(qiáng)化學(xué)習(xí),其協(xié)作過程為協(xié)作型或完全協(xié)作型.

        多機(jī)器人分布式強(qiáng)化學(xué)習(xí)中,所有機(jī)器人在追求一個(gè)共同的目標(biāo)過程中彼此通信、合作.每個(gè)機(jī)器人在與環(huán)境的交互中,由于獲取信息而改變自身狀態(tài)和周圍環(huán)境,在學(xué)習(xí)過程中又受到其他機(jī)器人的知識(shí)、信念、意圖、經(jīng)驗(yàn)等的影響,這在狀態(tài)局部感知情況下尤為突出,其結(jié)構(gòu)如圖2所示.多機(jī)器人強(qiáng)化學(xué)習(xí)難點(diǎn)就在于如何協(xié)調(diào)它們間的知識(shí)和學(xué)習(xí),以及如何在保證學(xué)習(xí)速度的前提下加強(qiáng)它們之間的協(xié)作.

        單個(gè)機(jī)器人強(qiáng)化學(xué)習(xí)的思想和算法可以通過組合狀態(tài)、組合動(dòng)作、策略分配等方法,實(shí)現(xiàn)在多機(jī)器人強(qiáng)化學(xué)習(xí)中延續(xù)和擴(kuò)展.一些代表性工作有:文獻(xiàn)[19]提出了一種基于多個(gè)體并行采樣和學(xué)習(xí)經(jīng)驗(yàn)復(fù)用的改進(jìn)算法,在探索階段,通過多個(gè)體并行采樣,快速收集模型信息;在利用階段,通過保留最優(yōu)值函數(shù)的方式復(fù)用算法的學(xué)習(xí)經(jīng)驗(yàn),提高了算法迭代計(jì)算值函數(shù)的效率;文獻(xiàn)[20]依靠局部通信和計(jì)算,設(shè)計(jì)了一種網(wǎng)絡(luò)環(huán)境中基于MDP的分布式Q-學(xué)習(xí)算法,并證明了該算法的漸進(jìn)收斂性;文獻(xiàn)[21]設(shè)計(jì)了一種分布式的核強(qiáng)化學(xué)習(xí)方法,首先通過添加虛擬機(jī)器人領(lǐng)隊(duì)實(shí)現(xiàn)編隊(duì)控制,再利用強(qiáng)化學(xué)習(xí)算法來優(yōu)化編隊(duì)控制策略;文獻(xiàn)[22]提出了一種多個(gè)體的合作樹框架,定義兩種樹枝權(quán)重來描述個(gè)體是否參與合作,然后利用強(qiáng)化學(xué)習(xí)算法求解聯(lián)合行動(dòng)的策略.

        圖2 多機(jī)器人學(xué)習(xí)與交互方式Fig.2 Learning and interactive mode of robots

        3 多機(jī)器人強(qiáng)化學(xué)習(xí)存在的問題

        在多機(jī)器人的強(qiáng)化學(xué)習(xí)中,隨著參與機(jī)器人數(shù)量的增加,它們之間的交互關(guān)系愈加繁雜.客觀環(huán)境會(huì)帶來局部可觀測(cè)及不確定性等問題,每一個(gè)機(jī)器人在考慮自身局部信息的情況下,還需要考慮隊(duì)友的信息,需要考慮機(jī)器人行為對(duì)環(huán)境的影響;求解多機(jī)器人的強(qiáng)化學(xué)習(xí)計(jì)算難度更高,解決目標(biāo)問題時(shí)存在維度災(zāi)難問題;利用現(xiàn)有算法,求解強(qiáng)化學(xué)習(xí)的手段會(huì)引出多機(jī)器人通信、策略協(xié)商及團(tuán)隊(duì)信度分配等問題.所有問題圍繞著強(qiáng)化學(xué)習(xí)的核心:學(xué)習(xí)速度與收斂性,呈現(xiàn)出一個(gè)相互關(guān)聯(lián)的邏輯關(guān)系,如圖3所示.

        在隆重紀(jì)念改革開放40年的日子里,我們認(rèn)認(rèn)真真地總結(jié)一下自己走過的路,認(rèn)認(rèn)真真借鑒一下歷史和他人的正面經(jīng)驗(yàn)和反面教訓(xùn),是非常有必要的。我們理應(yīng)在改革開放今天與明天的偉大事業(yè)中,力求有所作為!我們做人就清清白白地做人,做官就規(guī)規(guī)矩矩地做官,做事就扎扎實(shí)實(shí)地做事,做學(xué)問就正正經(jīng)經(jīng)地做學(xué)問!中國優(yōu)秀傳統(tǒng)文化的重要內(nèi)容之一是“三不朽”——立德,立功,立言,我們要學(xué)習(xí)實(shí)踐“三不朽”。

        3.1 局部可觀測(cè)與環(huán)境不確定性

        描述一個(gè)智能系統(tǒng)面臨的環(huán)境可以從五方面進(jìn)行分析[23],其中狀態(tài)部分可知(partial observation)和不確定性(uncertainties)在多機(jī)器人的研究

        圖3 問題邏輯關(guān)系Fig.3 Logic of problems

        中尤為突出.

        由于每個(gè)機(jī)器人的感知能力和范圍有限,以及復(fù)雜環(huán)境中突發(fā)情況等因素的存在,機(jī)器人獲得的信息往往帶有局部性和不確定性,這在大規(guī)模的多機(jī)器人系統(tǒng)中更是難以避免.因此,克服狀態(tài)局部感知與不確定性,是多機(jī)器人強(qiáng)化學(xué)習(xí)的重要研究方向.一些代表性工作有:文獻(xiàn)[24]結(jié)合了MaxQ算法和分層強(qiáng)化學(xué)習(xí)算法,首先通過MaxQ學(xué)習(xí)獲得環(huán)境特征,然后綜合局部選擇并制定多機(jī)器人在未知環(huán)境下的合作策略;文獻(xiàn)[25]利用學(xué)習(xí)壓力領(lǐng)域作為一種手段來評(píng)估強(qiáng)化學(xué)習(xí)算法在多個(gè)體學(xué)習(xí)進(jìn)程,研究了部分可觀察模型有限分析隨機(jī)過程框架,以長(zhǎng)期的平均預(yù)期收益為實(shí)際策略.

        在學(xué)習(xí)過程中,每個(gè)機(jī)器人都需要考慮系統(tǒng)的不完整信息和其他個(gè)體的不確定因素,目前多數(shù)針對(duì)局部觀測(cè)的研究都使用POMDP,但是該模型是研究團(tuán)隊(duì)中每個(gè)機(jī)器人的局部性后才考慮機(jī)器人間的協(xié)作的.作者認(rèn)為,DEC-POMDP模型將單個(gè)機(jī)器人的局部性擴(kuò)展到了所有機(jī)器人,使得多個(gè)機(jī)器人間的局部性得到交互,可以更好地還原它們?cè)趶?fù)雜未知環(huán)境中的學(xué)習(xí)和協(xié)作過程.目前多機(jī)器人的強(qiáng)化學(xué)習(xí)與DEC-POMDP的結(jié)合還不多見,是一個(gè)值得研究的方向.

        3.2 維度災(zāi)難與計(jì)算復(fù)雜度

        多機(jī)器人協(xié)作過程中,環(huán)境是在多個(gè)機(jī)器人的聯(lián)合動(dòng)作下進(jìn)行狀態(tài)遷移的.強(qiáng)化學(xué)習(xí)方法采用狀態(tài)-動(dòng)作的映射來表示行為策略,由于復(fù)雜環(huán)境的不確定性影響和機(jī)器人感知的局部性,因而不可避免地出現(xiàn)學(xué)習(xí)策略隨狀態(tài)、動(dòng)作的維數(shù)呈指數(shù)增長(zhǎng)的現(xiàn)象,即“維數(shù)災(zāi)難”.

        “分而治之”是解決復(fù)雜問題的重要手段[26].分層強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning,HRL)基于這一思想,對(duì)問題空間進(jìn)行結(jié)構(gòu)化分解或分層,代表性工作有文獻(xiàn)[27-29].另外,文獻(xiàn)[30]提出一種基于分層強(qiáng)化學(xué)習(xí)的多機(jī)器人任務(wù)分解方法,在每個(gè)機(jī)器人的運(yùn)動(dòng)范圍基礎(chǔ)上,假設(shè)存在一個(gè)位置坐標(biāo)負(fù)載(load position),負(fù)載類似于運(yùn)動(dòng)中的障礙,通過逐漸減小位置坐標(biāo)負(fù)載來分解任務(wù).文獻(xiàn)[31]基于分層理論,通過研究多個(gè)體的分層狀態(tài)表達(dá)、狀態(tài)-行動(dòng)抽象空間和社會(huì)結(jié)構(gòu),將其嵌入學(xué)習(xí)過程,并量化搜索過程,達(dá)到減小計(jì)算復(fù)雜度和提高強(qiáng)化學(xué)習(xí)效率的目的.其余解決維數(shù)災(zāi)難問題的方法還有狀態(tài)聚類法[32]、有限策略空間搜索法[33]、值函數(shù)近似法[34]等.但目前的方法仍存在學(xué)習(xí)效率不高、收斂性難以保證等缺點(diǎn)[35].

        作者研究了一致性算法與多個(gè)體決策過程的結(jié)合[36],探索了一致性收斂對(duì)策略空間規(guī)模的影響、策略空間的化簡(jiǎn)和最優(yōu)策略搜尋方法,并尋求一種新的方法來刪減、合并冗余和沖突的策略,以此緩解維度災(zāi)難并降低計(jì)算復(fù)雜度.

        3.3 學(xué)習(xí)速度與收斂性

        強(qiáng)化學(xué)習(xí)速度較慢的主要原因是沒有明確的教師信號(hào).個(gè)體在與環(huán)境的交互過程中,完全采用試探的方法,僅依靠外部的評(píng)價(jià)來調(diào)整自己的行為,這勢(shì)必需要經(jīng)過一個(gè)漫長(zhǎng)的學(xué)習(xí)過程.這是強(qiáng)化學(xué)習(xí)的固有難題.

        文獻(xiàn)[19]提出在學(xué)習(xí)的不同階段復(fù)用以前的學(xué)習(xí)經(jīng)驗(yàn),通過設(shè)定初始值函數(shù)融入模型先驗(yàn)知識(shí)的方法,提高了算法的收斂速率;文獻(xiàn)[37]將歐拉向前微分計(jì)算方法與強(qiáng)化學(xué)習(xí)算法相結(jié)合,提出一類非線性不確定動(dòng)態(tài)系統(tǒng)基于強(qiáng)化學(xué)習(xí)的最優(yōu)控制方法,較好地解決了連續(xù)狀態(tài)-動(dòng)作空間的泛化問題,提高了非線性系統(tǒng)的學(xué)習(xí)效率;文獻(xiàn)[38]通過Q-學(xué)習(xí)獲取協(xié)作行為準(zhǔn)則,使多機(jī)器人在預(yù)知的環(huán)境中相互協(xié)作,縮短了學(xué)習(xí)時(shí)間;文獻(xiàn)[39]提出一種基于啟發(fā)式的快速多個(gè)體強(qiáng)化學(xué)習(xí)算法(HAMRL),利用啟發(fā)式函數(shù)表示初始行動(dòng)策略,從前期經(jīng)驗(yàn)中提取特征或從觀察中學(xué)習(xí).另外,文獻(xiàn)[40]提出了利用經(jīng)驗(yàn)回放(experience replay)思想提高強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效率.文獻(xiàn)[41]提出一種基于Actor-Critic結(jié)構(gòu)的積分強(qiáng)化學(xué)習(xí)(integral reinforcement learning,IRL)方法,利用經(jīng)驗(yàn)回放更新Critic的權(quán)重,以此來求解IRL的Bellman方程,提高學(xué)

        習(xí)收斂速度.

        3.4 學(xué)習(xí)中的通信

        由于無法獲得全局的環(huán)境信息,處于復(fù)雜和未知環(huán)境中的多機(jī)器人很難進(jìn)行正確的學(xué)習(xí),容易根據(jù)自身獲得的局部信息,做出多余或有沖突的策略,因此通信是重要的提高學(xué)習(xí)速度和質(zhì)量的手段.

        多機(jī)器人間協(xié)作的通信可以分為隱式與顯式通信.隱式通信利用機(jī)器人的行為對(duì)產(chǎn)生環(huán)境的變化來影響其他機(jī)器人的行為.當(dāng)某一個(gè)機(jī)器人做出特定的動(dòng)作或達(dá)到指定的位置時(shí),相當(dāng)于告訴其他機(jī)器人一個(gè)之前約定好的信息,但是這種方式可以傳遞的信息量有限,并且不能保證其他機(jī)器人都觀測(cè)到,因此只能用于比較簡(jiǎn)單的學(xué)習(xí)模型中.顯式通信指機(jī)器人間通過硬件通信設(shè)備直接通信,是當(dāng)前主要的在線學(xué)習(xí)手段.文獻(xiàn)[42]研究了多移動(dòng)機(jī)器人通信仿真系統(tǒng)設(shè)計(jì)方案,側(cè)重于反映通信網(wǎng)絡(luò)的拓?fù)渥兓闆r.文獻(xiàn)[43]研究了基于強(qiáng)化學(xué)習(xí)的通信在多個(gè)體合作中的應(yīng)用.

        目前大多數(shù)多機(jī)器人系統(tǒng)仍然采用集中通訊方式,該方式存在通訊消耗大、延遲明顯等缺點(diǎn),因此,如何降低多機(jī)器人系統(tǒng)對(duì)通信的依賴程度也是一個(gè)重要的問題.作者認(rèn)為,可以在網(wǎng)絡(luò)化多機(jī)器人學(xué)習(xí)系統(tǒng)中應(yīng)用一致性方法[44],通過局部通訊,以較少的通訊代價(jià)實(shí)現(xiàn)信息傳輸和共享.目前,專門針對(duì)通訊代價(jià)或通訊復(fù)雜度的研究還不多見.文獻(xiàn)[45]將通訊復(fù)雜度定義為通訊次數(shù)和一致性收斂精度的函數(shù),并研究了確定性和隨機(jī)(Gossip)一致性算法要求的通訊復(fù)雜度,提出了一種在Gossip算法中通訊復(fù)雜度的凸優(yōu)化方法.事實(shí)上,通訊復(fù)雜度是分布式計(jì)算中的一個(gè)重要問題,文獻(xiàn)[46]提出了一種通訊復(fù)雜度最優(yōu)和時(shí)間復(fù)雜度幾乎最優(yōu)(almost optimal)的Gossip算法,通過挑選若干“協(xié)調(diào)者(coordinators)”承擔(dān)主要的決策任務(wù),避免了節(jié)點(diǎn)之間的冗余信息交換.

        3.5 策略協(xié)商

        協(xié)商的思想產(chǎn)生于經(jīng)濟(jì)活動(dòng)中的理論,主要用于資源競(jìng)爭(zhēng),任務(wù)分配和沖突消解等問題中.文獻(xiàn)[47]指出,在當(dāng)前還不足以成功地將人類的協(xié)商技巧程序化的情況下,機(jī)器人在協(xié)商過程中通過學(xué)習(xí)不斷更新策略是一個(gè)有效的辦法.

        在協(xié)商策略的研究中,對(duì)于機(jī)器人如何獲得合適的策略有兩種解決方案,一種方案是在機(jī)器人初始化時(shí)配置足夠的策略,這意味著需要先驗(yàn)描述所有可能的情況及其解決辦法,但是,對(duì)于大多數(shù)的實(shí)際應(yīng)用來說這是不可能做到的.另外一種方案是機(jī)器人自身具有學(xué)習(xí)能力,能夠從協(xié)商過程中獲取經(jīng)驗(yàn).在多個(gè)體系統(tǒng)的強(qiáng)化學(xué)習(xí)中,個(gè)體間交換即時(shí)狀態(tài)、學(xué)習(xí)片段或?qū)W習(xí)策略,都可以提高個(gè)體的學(xué)習(xí)和任務(wù)完成效率[48].文獻(xiàn)[49]在多機(jī)器人協(xié)作的MaxQ學(xué)習(xí)方法中引入π心智演算過程,構(gòu)建起具有學(xué)習(xí)與通信能力的機(jī)器人心智狀態(tài)模型,對(duì)機(jī)器人主體的公共知識(shí)、信念、目標(biāo)、意圖、承諾、信任、知識(shí)更新等進(jìn)行了定義,并構(gòu)建起多機(jī)器人主體協(xié)商模型.文獻(xiàn)[50]研究了多個(gè)體協(xié)商決策過程,設(shè)計(jì)了一種基于Q-學(xué)習(xí)的第n步多主體協(xié)商算法,多個(gè)體之間通過協(xié)商未來的行動(dòng),來選擇最優(yōu)的聯(lián)合策略.

        協(xié)商過程中信息交互量越大,協(xié)商效果越好.以適當(dāng)?shù)耐ㄓ崬榇鷥r(jià)實(shí)現(xiàn)個(gè)體間的信息交換和共享,加強(qiáng)多機(jī)器人之間的協(xié)商,是提高決策效率的重要手段,故有必要研究通訊代價(jià)和學(xué)習(xí)效果之間的平衡.

        3.6 信度分配問題

        信度分配問題(credit-assignment problem,CAP)是實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的一個(gè)難點(diǎn),主要需要考慮如何根據(jù)系統(tǒng)性能的改變,合理地將獎(jiǎng)懲分配到學(xué)習(xí)系統(tǒng)中每個(gè)行為動(dòng)作上,可以分為結(jié)構(gòu)分配(structure-CAP,SCAP)和時(shí)間信度分配問題(time-CAP,TCAP)[51-54].

        對(duì)于多機(jī)器人學(xué)習(xí),該問題(multi-robot credit assignment,MCA)變得更加復(fù)雜,首先要考慮結(jié)構(gòu)信度分配問題.當(dāng)一個(gè)由多個(gè)機(jī)器人的合作任務(wù)完成時(shí),如果全部回報(bào)由最后一個(gè)執(zhí)行動(dòng)作的機(jī)器人獲得,則只有這一個(gè)機(jī)器人可以進(jìn)行學(xué)習(xí),是不利于機(jī)器人團(tuán)隊(duì)的,要考慮如何合理地將回報(bào)分配給參與合作的機(jī)器人.但是,如果僅按照機(jī)器人的貢獻(xiàn)來分配,也會(huì)存在一些問題,比如在異構(gòu)多機(jī)器人合作中,某次偶然出現(xiàn)高性能的機(jī)器人會(huì)得到較多的回報(bào),使其性能評(píng)價(jià)逐漸增強(qiáng),而影響到團(tuán)隊(duì)中真正擁有高性能并需要強(qiáng)化的機(jī)器人.目前主要的可行方法是將任務(wù)分解為子任務(wù),然后根據(jù)每個(gè)子任務(wù)的重要性及執(zhí)行的機(jī)器人進(jìn)行評(píng)判.文獻(xiàn)[55]研究了噪聲環(huán)境中的多個(gè)體信度分配問題,利用強(qiáng)化學(xué)習(xí)算法消除噪聲對(duì)回報(bào)值的影響;文獻(xiàn)[56]利用配置評(píng)判個(gè)體(critic agent)的方法研究了信度分配問題.

        在實(shí)際應(yīng)用中,一個(gè)動(dòng)作的成功或失敗可能需要一段時(shí)間以后才能知道,所以強(qiáng)化信號(hào)往往是一個(gè)動(dòng)作序列中以前的某個(gè)動(dòng)作引起的響應(yīng),也就是所謂的延遲回報(bào).回報(bào)被延遲得越多,學(xué)習(xí)算法就需要越多的嘗試,收斂時(shí)間會(huì)越長(zhǎng),這就是時(shí)間信度分配問題.回報(bào)函數(shù)的設(shè)計(jì)對(duì)于強(qiáng)化學(xué)習(xí)算法的學(xué)習(xí)性有重要的意義,逆強(qiáng)化學(xué)習(xí)(inverse RL)[57]在近年來得到了關(guān)注[26].逆強(qiáng)化學(xué)習(xí)的思想就是利用已有的經(jīng)驗(yàn)數(shù)據(jù)來學(xué)習(xí)MDP的回報(bào)函數(shù),從而實(shí)現(xiàn)回報(bào)函數(shù)的自動(dòng)設(shè)計(jì).目前逆強(qiáng)化學(xué)習(xí)的研究已經(jīng)取得了若干成果[58-59].但是,回報(bào)函數(shù)與經(jīng)驗(yàn)知識(shí)的融合依舊存在一些問題,比如,如何評(píng)判過去經(jīng)驗(yàn)是否有價(jià)值、如何判斷環(huán)境的變化與經(jīng)驗(yàn)的關(guān)系等問題,還有待深入研究和完善.

        3.7 可解釋性

        機(jī)器學(xué)習(xí)的另一個(gè)問題是得到的模型的可解釋性差[60].可解釋性和實(shí)際應(yīng)用密切相關(guān),機(jī)器人通過學(xué)習(xí)解決一些具體的問題時(shí),需要領(lǐng)域的專家能夠理解模型,能夠理解“為什么”這個(gè)模型能夠?qū)ξ粗獦颖咀鲱A(yù)測(cè).在求解學(xué)習(xí)問題時(shí)可能得到多個(gè)解,如果使用其一直以來所遵循的“輸入輸出滿足”原則,可能建立的多個(gè)模型獲得多個(gè)解,則需要以對(duì)問題世界可解釋性來分辨其優(yōu)劣.

        4 多機(jī)器人強(qiáng)化學(xué)習(xí)的應(yīng)用

        對(duì)于多自主移動(dòng)機(jī)器人系統(tǒng),強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn)具有自適應(yīng)性、自學(xué)習(xí)能力的智能機(jī)器人的重要途徑,這也為解決智能系統(tǒng)的知識(shí)獲取這個(gè)瓶頸問題提供了一個(gè)可行之法[35].

        4.1 機(jī)器人路徑規(guī)劃與避障

        移動(dòng)機(jī)器人的路徑規(guī)劃是指在有障礙物的工作環(huán)境中,如何尋找一條從給定起點(diǎn)到終點(diǎn)的適當(dāng)?shù)倪\(yùn)動(dòng)路徑,使機(jī)器人在運(yùn)動(dòng)過程中能安全、無碰地繞過所有障礙物[61],一般可以歸結(jié)為面向路徑長(zhǎng)度、所需時(shí)間、能量消耗等多目標(biāo)的優(yōu)化問題.

        復(fù)雜環(huán)境下機(jī)器人路徑規(guī)劃是強(qiáng)化學(xué)習(xí)的主要應(yīng)用領(lǐng)域之一.文獻(xiàn)[62]利用強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)局部導(dǎo)航行為,通過矢量量化(vector quantization,VQ)來表示空間狀態(tài)的一般化方法,從而獲得多個(gè)體的狀態(tài)空間;文獻(xiàn)[63]基于迪科斯徹算法(Dijkstra's algorithm),設(shè)計(jì)了結(jié)合強(qiáng)化學(xué)習(xí)的多機(jī)器人最優(yōu)路線算法;文獻(xiàn)[64]利用波爾茲曼(Boltzmann)分布與Q-學(xué)習(xí)方法的結(jié)合,Q-學(xué)習(xí)算法用來解決低維路徑規(guī)劃問題,玻耳茲曼策略采用統(tǒng)計(jì)概率和模擬退火法,避免多機(jī)器人的策略陷入局部最優(yōu)并提供全局最優(yōu)解,減少數(shù)量的探索和加快收斂的過程;文獻(xiàn)[65]結(jié)合波爾茲曼分布與基于動(dòng)態(tài)規(guī)劃的Q-學(xué)習(xí)方法(QVDP),研究了多個(gè)體路徑規(guī)劃及延遲問題.

        4.2 多機(jī)器人任務(wù)分解

        多機(jī)器人任務(wù)分配(multi-robot task allocation,MRTA)是保證多機(jī)器人協(xié)調(diào)的重要因素,任務(wù)分配的好壞將直接影響整個(gè)多機(jī)器人系統(tǒng)協(xié)作的效率,并關(guān)系到每個(gè)機(jī)器人能否最大限度發(fā)揮自身的能力.

        近年來,強(qiáng)化學(xué)習(xí)在多機(jī)器人任務(wù)分配的問題中也受到廣泛的關(guān)注.文獻(xiàn)[66]基于強(qiáng)化學(xué)習(xí)算法,提出一種智能合作控制框架,用于解決多個(gè)無人機(jī)(UAV)的任務(wù)分配問題;文獻(xiàn)[67]分析多衛(wèi)星協(xié)同任務(wù)規(guī)劃問題的數(shù)學(xué)模型,提出了一種多衛(wèi)星強(qiáng)化學(xué)習(xí)算法,引入了約束懲罰算子和多衛(wèi)星聯(lián)合懲罰算子,對(duì)衛(wèi)星個(gè)體原始的效用值增益函數(shù)進(jìn)行改進(jìn),以求解多衛(wèi)星協(xié)同任務(wù)分配策略;文獻(xiàn)[68]結(jié)合強(qiáng)化學(xué)習(xí),設(shè)計(jì)了一種空置鏈調(diào)度(vacancy chain scheduling,VCS)的多機(jī)器人資源分配過程,依賴于優(yōu)化配置模式來擺脫不直接機(jī)器人交互作用的影響;文獻(xiàn)[69]提出一種多個(gè)體的分布式并行多任務(wù)分配算法,每個(gè)個(gè)體先通過利益分享學(xué)習(xí)(profit sharing learning,PSL)方法進(jìn)行學(xué)習(xí),然后利用通訊和協(xié)商來分配每次任務(wù)的真實(shí)工作量.

        4.3 機(jī)器人足球

        機(jī)器人足球比賽是典型的開放式、分布式、動(dòng)態(tài)的、實(shí)時(shí)的多機(jī)器人系統(tǒng),其中涉及到的技術(shù)包括機(jī)器人學(xué)、機(jī)電一體化、多機(jī)器人協(xié)作、決策與對(duì)策、人工生命和傳感器數(shù)據(jù)融合等,是人工智能與機(jī)器人領(lǐng)域的應(yīng)用基礎(chǔ)研究課題.本文主要從機(jī)器人的高層決策方面闡述強(qiáng)化學(xué)習(xí)的應(yīng)用.

        文獻(xiàn)[70]研究了基于動(dòng)作預(yù)測(cè)的多個(gè)體強(qiáng)化學(xué)習(xí)算法,使用樸素貝葉斯分類器來預(yù)測(cè)其他個(gè)體的動(dòng)作,并引入策略共享機(jī)制來交換多個(gè)體所學(xué)習(xí)的策略;文獻(xiàn)[71]使用重復(fù)Q-學(xué)習(xí)和經(jīng)驗(yàn)復(fù)用Sarsa算法進(jìn)行了機(jī)器人足球守門員的實(shí)驗(yàn);文獻(xiàn)[72]通過策略梯度強(qiáng)化學(xué)習(xí)方法來尋找機(jī)器人足球賽中的最優(yōu)策略;文獻(xiàn)[73]研究了強(qiáng)化學(xué)習(xí)在機(jī)器人足球賽中的決策機(jī)制,并利用分層的思想改進(jìn)每個(gè)機(jī)器人的個(gè)體行為.對(duì)于大規(guī)模強(qiáng)化學(xué)習(xí)系統(tǒng),通過融入恰當(dāng)?shù)闹R(shí)(knowledge)和建議(advise),可以有效提高系統(tǒng)的學(xué)習(xí)效率.文獻(xiàn)[74-75]分別將基于知識(shí)的核回歸(knowledge basedkernelregression,KBKR)和優(yōu)先級(jí)(preference KBKR)算法引入到強(qiáng)化學(xué)習(xí)系統(tǒng)中,并將其應(yīng)用于機(jī)器人足球仿真比賽中.

        4.4 多機(jī)器人追逃問題

        多機(jī)器人追逃問題是多機(jī)器人系統(tǒng)的典型應(yīng)用,在搜救和對(duì)抗領(lǐng)域有重要實(shí)用價(jià)值,常被用于評(píng)價(jià)多機(jī)器人協(xié)作方法的性能.

        代表性的工作有:文獻(xiàn)[76]采用強(qiáng)化學(xué)習(xí)方法更新回報(bào)值并在追擊者間傳播,從而獲得最優(yōu)捕獲時(shí)間;文獻(xiàn)[77]引入關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘方法進(jìn)行任務(wù)分配,針對(duì)各逃逸者建立相應(yīng)的追捕聯(lián)盟,降低了策略空間的復(fù)雜度,基于不同狀態(tài)下的獎(jiǎng)勵(lì)差異提出了一種分段式強(qiáng)化學(xué)習(xí)方法,利用其作為已知環(huán)境下追捕問題的模型求解追捕聯(lián)盟的協(xié)作追捕策略;文獻(xiàn)[78]采用了基于模型的Rmax學(xué)習(xí)算法解決多機(jī)器人追逃問題;文獻(xiàn)[79]基于分層強(qiáng)化學(xué)習(xí)研究了多機(jī)器人追逃算法,將學(xué)習(xí)過程分解為高層與低層兩個(gè)階段,并設(shè)計(jì)學(xué)習(xí)機(jī)制以平衡兩個(gè)學(xué)習(xí)階段的值函數(shù).

        作者在前期工作中[80],假設(shè)了環(huán)境不確定性與機(jī)器人的局部觀測(cè)性,在DEC-POMDP框架下對(duì)多機(jī)器人追逃問題進(jìn)行了數(shù)學(xué)描述,將其用8元組建模,并采用分布式濾波對(duì)逃逸者的運(yùn)動(dòng)狀態(tài)進(jìn)行估計(jì),在此基礎(chǔ)上更新追擊者的回報(bào)值和策略空間,再進(jìn)行追擊決策.下一步研究會(huì)將通訊代價(jià)、追擊者信息可信度和回報(bào)值等因素統(tǒng)一到該模型中.

        5 多機(jī)器人強(qiáng)化學(xué)習(xí)的前沿方向與挑戰(zhàn)

        根據(jù)任務(wù)的具體特點(diǎn),尋求適當(dāng)?shù)亩鄼C(jī)器人系統(tǒng)的學(xué)習(xí)、決策和控制方法,使其能夠在復(fù)雜環(huán)境中高效、可靠地完成給定任務(wù),是多機(jī)器人系統(tǒng)研究所面臨的巨大挑戰(zhàn)和機(jī)遇.

        5.1 分形學(xué)習(xí)

        分形理論是非線性科學(xué)理論中的一個(gè)分支,用以描述復(fù)雜、混沌現(xiàn)象背后的規(guī)律性,揭示局部與整體之間的關(guān)系.分形理論認(rèn)為,整體的復(fù)雜性遠(yuǎn)遠(yuǎn)大于部分,而分形中任何一個(gè)相對(duì)獨(dú)立的部分,在一定程度上都是整體的再現(xiàn)和相對(duì)縮影(分形元),人們可以通過認(rèn)識(shí)部分來認(rèn)識(shí)整體.分形學(xué)習(xí)(fractal learning)利用系統(tǒng)的自相似性,通過對(duì)數(shù)據(jù)集分形維數(shù)的計(jì)算,提取出相關(guān)規(guī)則、建立相應(yīng)的模型,并為以后的行為提供指導(dǎo),行為的反饋信息又可以用來修正更新規(guī)則或模型,進(jìn)而使系統(tǒng)的性能不斷優(yōu)化.如何將分形學(xué)習(xí)與多機(jī)器人相結(jié)合,以及如何突破分形學(xué)習(xí)的應(yīng)用范圍約束以及簡(jiǎn)化分形維數(shù)的計(jì)算等都還需要不斷地探索和完善[81].

        5.2 模糊強(qiáng)化學(xué)習(xí)

        模糊理論具有對(duì)復(fù)雜不精確知識(shí)較強(qiáng)的表達(dá)能力,以及對(duì)實(shí)際問題較好的處理能力,且易于先驗(yàn)知識(shí)的加入,使之一直受到研究者的重視,并在實(shí)際中取得了廣泛應(yīng)用.比如在復(fù)雜未知環(huán)境下,利用模糊強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人導(dǎo)航應(yīng)用等[82-84].但是,對(duì)多機(jī)器人的模糊強(qiáng)化學(xué)習(xí)研究還比較少見,在模糊不確定環(huán)境下,采用模糊理論可以使得多機(jī)器人獲得更多信息,為學(xué)習(xí)和決策過程提供更有彈性的空間,以便采取更加靈活的回報(bào)值和行動(dòng)策略,提高學(xué)習(xí)效率.

        5.3 定性強(qiáng)化學(xué)習(xí)

        定性推理源于對(duì)物理現(xiàn)象的常識(shí)推理,是一種從物理系統(tǒng)的結(jié)構(gòu)描述出發(fā),導(dǎo)出行為描述和功能描述.定性推理可充分利用定性及不完全、不精確的信息來推理系統(tǒng)的定性行為,給出易于理解的行為描述和因果解釋,為信息不完全的復(fù)雜系統(tǒng)產(chǎn)生行為預(yù)測(cè),便于先驗(yàn)知識(shí)的加入,從而加快推理過程[85].文獻(xiàn)[86]通過建立系統(tǒng)的定性模型,提出一種基于定性模糊網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)知識(shí)傳遞方法,并利用定性模糊網(wǎng)絡(luò)抽取基于定性動(dòng)作的次優(yōu)策略的共同特征獲得與系統(tǒng)參數(shù)無關(guān)知識(shí).如何將定性推理應(yīng)用于強(qiáng)化學(xué)習(xí)是一個(gè)誘人的研究方向,比如通過局部傳播在較高層次上給出系統(tǒng)的宏觀描述、結(jié)合灰色系統(tǒng)理論和定性推理構(gòu)建灰色定性強(qiáng)化學(xué)習(xí)策略,以及從知識(shí)運(yùn)用的角度論證強(qiáng)化學(xué)習(xí)理論的完備性等問題都需要深入研究[86].

        5.4 遷移強(qiáng)化學(xué)習(xí)

        遷移學(xué)習(xí)(transfer learning)考慮了任務(wù)之間的聯(lián)系,利用過去的學(xué)習(xí)經(jīng)驗(yàn)加速對(duì)于新任務(wù)的學(xué)習(xí),可以分為行為遷移和知識(shí)遷移.行為遷移通常意味著將先前學(xué)到的策略或者某些公共的“子過程”用于新任務(wù)的學(xué)習(xí),這一類技術(shù)側(cè)重于挖掘、利用不同任務(wù)的解決方案之間的相似性.知識(shí)遷移技術(shù)注重對(duì)任務(wù)本身的理解,并試圖學(xué)習(xí)解決問題的一般原理,因此知識(shí)遷移技術(shù)更多地涉及知識(shí)表示、規(guī)則提取等內(nèi)容[87].文獻(xiàn)[88]利用拉普拉斯特征映射能保持狀態(tài)空間局部拓?fù)浣Y(jié)構(gòu)不變的特點(diǎn),對(duì)基于譜圖理論的層次分解技術(shù)進(jìn)行了改進(jìn),提出一種基函數(shù)與子任務(wù)最優(yōu)策略相結(jié)合的強(qiáng)化學(xué)習(xí)混合遷移方法;文獻(xiàn)[89]提出了一種局部約束模型(partially constrained model,PCM)下的遷移學(xué)習(xí)方法,可以更好地處理狀態(tài)-行動(dòng)策略.多機(jī)器人的遷移學(xué)習(xí)可以擴(kuò)展傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法,考慮如何將多個(gè)機(jī)器人間不同的學(xué)習(xí)任務(wù)相互關(guān)聯(lián),以及獲得更多的知識(shí)表示、規(guī)則提取等內(nèi)容,可以作為今后的研究方向.

        5.5 結(jié)合信息融合的強(qiáng)化學(xué)習(xí)

        結(jié)合信息融合,實(shí)現(xiàn)值函數(shù)估計(jì)的強(qiáng)化學(xué)習(xí)是一個(gè)新的研究方向.文獻(xiàn)[90-91]將卡爾曼濾波與TD算法結(jié)合起來,提出一種卡爾曼瞬時(shí)差分法(Kalman temporal different,KTD)算法,引入了一個(gè)值函數(shù)估計(jì)問題的狀態(tài)空間,通過卡爾曼濾波器融合值函數(shù)的近似過程;文獻(xiàn)[92]提出了基于Q-學(xué)習(xí)的KTD-Q學(xué)習(xí)算法和基于Sarsa算法的KTDSarsa算法,通過信息融合的強(qiáng)化學(xué)習(xí)算法,可以更好地處理在線學(xué)習(xí)、有效樣本、非定常性和非線性等問題.但噪聲模型的選擇與如何融入KTD模型,以及KTD如何由MDP擴(kuò)展至POMDP依舊是一個(gè)開放性問題,而且在結(jié)合多機(jī)器人上的研究還比較少見,是一個(gè)值得深入探究的領(lǐng)域.

        5.6 多目標(biāo)強(qiáng)化學(xué)習(xí)

        傳統(tǒng)的強(qiáng)化學(xué)習(xí)中,所有機(jī)器人都為達(dá)成一個(gè)共同目標(biāo)而協(xié)作.多目標(biāo)強(qiáng)化學(xué)習(xí)(multi objective reinforcement learning,MORL)考慮的是多個(gè)機(jī)器人在合作中,可能會(huì)面對(duì)兩個(gè)或兩個(gè)以上的目標(biāo),每個(gè)目標(biāo)都有自己的回報(bào)值,目標(biāo)間可能相關(guān)也可能沖突,需要研究學(xué)習(xí)任務(wù)間的協(xié)調(diào)與決策等問題[93].文獻(xiàn)[94]提出一種基于最大集合期望損失的多目標(biāo)強(qiáng)化學(xué)習(xí)算法,在平衡各個(gè)目標(biāo)的前提下選擇最佳聯(lián)合動(dòng)作以產(chǎn)生最優(yōu)聯(lián)合策略,并應(yīng)用到機(jī)器人足球射門局部策略訓(xùn)練中;文獻(xiàn)[95]利用MORL算法擴(kuò)展了多個(gè)體蒙特卡羅樹型檢索(Monte-Carlo tree search)中的的連續(xù)決策問題.文獻(xiàn)[96]提出了一種新的多任務(wù)學(xué)習(xí)方法,通過學(xué)習(xí)潛在的形函數(shù)來獲取相關(guān)領(lǐng)域的知識(shí),用人造回報(bào)來增大任務(wù)的回報(bào)函數(shù).但是,多目標(biāo)強(qiáng)化學(xué)習(xí)在使用非線性函數(shù)泛化時(shí),依然存在算法不穩(wěn)定、不收斂等問題,尚需深入研究.

        6 結(jié)束語

        多機(jī)器人的強(qiáng)化學(xué)習(xí)是一個(gè)年輕而充滿活力的研究領(lǐng)域,結(jié)合了博弈論和最優(yōu)搜索等內(nèi)容,涉及到多機(jī)器人的群體體系結(jié)構(gòu)、感知與多傳感器信息融合、通信與協(xié)商、運(yùn)動(dòng)規(guī)劃、任務(wù)分配、沖突消解、系統(tǒng)實(shí)現(xiàn)等許多方面,為多機(jī)器人在缺少或只有局部先驗(yàn)知識(shí)的情況下,解決非線性、隨機(jī)策略任務(wù)提供了一個(gè)有力的方法論和一系列算法.

        本文簡(jiǎn)要介紹了強(qiáng)化學(xué)習(xí)的基本思想與理論框架,對(duì)基于強(qiáng)化學(xué)習(xí)的多機(jī)器人研究現(xiàn)狀作了概述,以期促進(jìn)相關(guān)研究.應(yīng)當(dāng)指出,強(qiáng)化學(xué)習(xí)的本質(zhì)是一種試錯(cuò)反應(yīng)式的學(xué)習(xí),并不能理解事物之間的因果聯(lián)系,更無法歸納出一般事物的發(fā)展規(guī)律.當(dāng)前的研究重點(diǎn)在于對(duì)分布式強(qiáng)化學(xué)習(xí)的算法研究,但其在多機(jī)器人的合作應(yīng)用尚不充分.在今后的發(fā)展中,仍然需要在理論和應(yīng)用方面開展創(chuàng)新研究,增強(qiáng)機(jī)器人的分析、歸納、推測(cè)、任務(wù)分解等方面的學(xué)習(xí)能力,以此更好地理解多個(gè)機(jī)器人之間的關(guān)系,使其協(xié)作更加緊密,結(jié)構(gòu)信度分配更加合理,從而達(dá)到更高的智能層次.

        [1] MURRAY R M,ASTROM K M,BODY S P,et al.Future directions in control in an information-rich world[J].IEEE Control Systems Magazine,2003,23(2):20-23.

        [2] 陳學(xué)松,楊宜民.強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2010,27(8):2834-2844.CHENXuesong,YANGYimin.Reinforcement learning:surveyofrecentwork[J].Application Research of Computers,2010,27(8):2834-2844.

        [3] WIERING M,OTTERLO M V.Reinforcement learning state-of-the-art[M].Berlin:Springer-Verlag,2012:3-42.[4] SUTTON R S.Learning to predict by the methods of temporal differences[J].Machine Learning,1988,3(1):9-44.

        [5] CHEN Xingguo,GAO Yang,WANG Ruili.Online selective kernel-based temporal difference learning[J].IEEE Transactions on Neural Networks and Learning Systems,2013,24(12):1944-1956.

        [6] ZOU Bin,ZHANG Hai,XU Zongben.Learning from uniformlyergodicMarkovchains[J].Journalof Complexity,2009,25(2):188-200.

        [7] YU Huizhen,BERTSEKAS D P.Convergence results for some temporal difference methods based on least squares[J].IEEE Transactions on Automatic Control,2009,54(7):1515-1531.

        [8] WATKINS C,DAYAN P.Q-learning[J].Machine Learning,1992,8(3):279-292.

        [9] 沈晶,程曉北,劉海波,等.動(dòng)態(tài)環(huán)境中的分層強(qiáng)化學(xué)習(xí)[J].控制理論與應(yīng)用,2008,25(1):71-74.SHEN Jing,CHENG Xiaobei,LIU Haibo,et al.Hierarchicalreinforcementlearningindynamic environment[J].Control Theory&Applications,2008,25(1):71-74

        [10] 王雪松,田西蘭,程玉虎.基于協(xié)同最小二乘支持向量機(jī)的Q學(xué)習(xí)[J].自動(dòng)化學(xué)報(bào),2009,35(2):214-219.WANG Xuesong,TIAN Xilan,CHENG Yuhu.Q-learning system based on cooperative least squares support vector machine[J].Acta Automatica Sinica,2009,35(2):214-219.

        [11] 朱美強(qiáng),李明,程玉虎,等.基于拉普拉斯特征映射的啟發(fā)式Q學(xué)習(xí)[J].控制與決策,2014,29(3):425-430.ZHU Meiqiang,LI Ming,CHENG Yuhu,et al.Heuristically accelerated Q-learning algorithm based on Laplacian eigenmap[J].Control and Decision,2014,29(3):425-430.

        [12] CHEN Chunlin,DONG Daoyi,LI Hanxiong.Fidelitybased probabilistic Q-learning for control of quantum systems[J].IEEE Transactions on Neural Networks and Learning Systems,2014,25(5):920-933.

        [13] RUMMERY G,NIRANJAN M.On-line Q-learning using connectionist systems[D].Cambridge:University of Cambridge,1994.

        [14] BARTO A G,SUTTON R S,ANDERSON C W.Neuronlike adaptive elements that can solve difficult learning control problems[J].IEEE Transactions on Systems,Man and Cybernetics,1983,13(5):834-846.

        [15] LIN C T,LEE C S G.Reinforcement structure/parameter learning for neural-network based fuzzy logic controlsystem[J].IEEETransactionsonFuzzy System,2008,2(1):46-63.

        [16] BERNSTEIN D S,GIVAN R.The complexity of decentralized control of Markov decision processes[J].Mathematics of operations Research,2002,27(4):819-840.

        [17] CRITES R H,BARTO A G.Elevator group control usingmultiplereinforcementlearningagents[J].Machine Learning,1998,33(2/3):235-262.

        [18] KIM G H,LEE C S G.Genetic reinforcement learning approach to the heterogeneous machine scheduling problem[J].IEEETransactionsonRoboticsand Automation,1998,14(6):879-893.

        [19] 劉全,楊旭東,荊玲,等.基于多Agent并行采樣和學(xué)習(xí)經(jīng)驗(yàn)復(fù)用的E~3算法[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2013,43(1):135-140.LIU Quan,YANG Xudong,JING Ling,et al.Optimalcontrol of a class of nonlinear dynamic systems based onreinforcementlearning[J].JournalofJilin University:EngineeringandTechnologyEdition,2013,43(1):135-140.

        [20] KAR S,MOURA J M F,POOR H V.QD-Learning:a collaborativedistributedstrategyformulti-agent reinforcementlearningthroughconsensusplus innovations[J].IEEETransactionsonSignal Processing,2013,61(7):1848-1862.

        [21] 吳軍,徐昕,連傳強(qiáng),等.采用核增強(qiáng)學(xué)習(xí)方法的多機(jī)器人編隊(duì)控制[J].機(jī)器人,2011,33(3):379-384.WU Jun,XU Xin,LIAN Chuanqiang,et al.Multirobot formation control with kernel-based reinforcement learning[J].Robot,2011,33(3):379-384.

        [22] FANG M,GROEN F C A,LI H.Collaborative multiagentreinforcementlearningbasedonanovel coordination tree frame with dynamic partition[J].EngineeringApplicationsofArtificialIntelligence,2014,27:191-198.

        [23] BOWLING M,Multi agent learning in the presence of agentswithlimitations[D].Pittsburgh:Carnegie Mellon University,2003.

        [24] CAI Yifan,YANG Simon X,XU Xin.A hierarchical reinforcement learning-based approach to multi-robot cooperationfortargetsearchinginunknown environments[J].Control and Intelligent Systems,2013,41(4):218-30.

        [25] DICKENS L,BRODA K,RUSSO A.The dynamics of multi-agentreinforcementlearning[C]∥In19th EuropeanConferenceonArtificialIntelligence(ECAI).Lisbon:Univ Lisbon,F(xiàn)acSci,2010:367-372.

        [26] 徐昕,沈棟,高巖青,等.基于馬氏決策過程模型的動(dòng)態(tài)系統(tǒng)學(xué)習(xí)控制:研究前沿與展望[J].自動(dòng)化學(xué)報(bào),2012,38(5):673-687.XU Xin,SHEN Dong,GAO Yanqing,et al.Learning control of dynamical systems based on Markov decision processes:research frontiers and outlooks[J].Acta Automatica Sinica,2012,38(5):673-687.

        [27] 沈晶,劉海波,張汝波,等.基于半馬爾可夫?qū)Σ叩亩鄼C(jī)器人分層強(qiáng)化學(xué)習(xí)[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2010,40(4):1-7.SHEN Jing,LIU Haibo,ZHANG Rubo,et al.Multirobot hierarchical reinforcement learning based on semi-Markovgames[J].JournalofShandong University:Engineering Science,2010,40(4):1-7.

        [28] GHAVAMZADEH M,MAHADEVAN S.Hierarchical average reward reinforcement learning[J].Journal of Machine Learning Research,2007,8:2629-2669.

        [29] ZUO Lei,XU Xin,LIU Chunming.A hierarchical reinforcementlearningapproachforoptimalpath tracking of wheeled mobile robots[J].Neural Computing&Applications,2013,23(7/8):1873-1883.

        [30] KAWANO H.Hierarchical sub-task decomposition for reinforcementlearningofmulti-robotdelivery mission[C]∥In IEEE International Conference on Robotics and Automation(ICRA).Karlsruhe:IEEE,2013:828-835

        [31] SUN Xueqing,MAO Tao,LAURA R.Hierarchical stateabstracted and socially augmented Q-Learning for reducingcomplexityinagent-basedlearning[J].Journal of Control Theory and Applications,2011,9(3):440-50.

        [32] SINGH SP,JAAKOLAT,JORDANMI.Reinforcement learning with soft state aggregation[M].Cambridge:MIT Press,1995:361-368.

        [33] MORIARTY D,SCHULTZ A,GREFENSTETTE J.Evolutionary algorithms for reinforcement learning[J].Journal of Artificial IntelligenceResearch,1999,11(1):241-276.

        [34] BERTSEKAS D P,TSITSIKLIS J N.Neuro-dynamic programming[M].Belmont:Athena Scientific,1996:107-109.

        [35] PALLOTTINO L,VINCENZO G S,BICCHIA.Decentralized cooperative policy for conflict resolution in multivehicle systems[J].IEEE Transactions on Robotics,2007,23(6):1170-1183.

        [36] ZHANG Wenxu,CHEN Xiaolong,MA Lei.Online planningformulti-agentsystemswithconsensus protocol[C]∥In 33nd Chinese Control Conference.Nanjing:IEEE,2014:1126-1131.

        [37] 陳學(xué)松,劉富春.一類非線性動(dòng)態(tài)系統(tǒng)基于強(qiáng)化學(xué)習(xí)的最優(yōu)控制[J].控制與決策,2013,28(12):1889-1893.CHEN Xuesong,LIU Fuchun.Optimal control of a classofnonlineardynamicsystemsbased onreinforcement learning[J].Control and Decision,2013,28(12):1889-1893.

        [38] XIEMengchun.Representationoftheperceived environment and acquisition of behavior rule for multiagent systems by Q-learning[C]∥In 4th International ConferenceonAutonomousRobotsandAgents.Wellington:Inst of Elec and Elec Eng,2009:453-457.

        [39] REINALDO A C B,MARTINS M F,RIBEIRO C H C.Heuristically accelerated multi agent reinforcementlearning[J].IEEETransactionsonCybernetics,2014,44(2):252-265.

        [40] K-LIN L J.Self-improving reactive agents based on reinforcement learning,planning and teaching[J].Machine Learning,1992,8(3/4):293-321.

        [41] MODARES H,LEWIS F L,NAGHIBI-SISTANI M B.Integral reinforcement learning and experience replay foradaptiveoptimalcontrolofpartially-unknown constrained-inputcontinuous-timesystems[J].Automatica,2014,50(1):193-202.

        [42] 蔡自興,任孝平,鄒磊.分布式多機(jī)器人通信仿真系統(tǒng)[J].智能系統(tǒng)學(xué)報(bào),2009,4(4):309-313.CAI Zixing,REN Xiaoping,ZOU Lei.A simulated communications system for distributed multi robots[J].CAAI Transactions on Intelligent Systems,2009,4(4):309-313.

        [43] MARAVALL D,JAVIER D L,DOMINGUEZ R.Coordination of communication in robot teams by reinforcement learning[J].Robotics and Autonomous Systems,2013,61(7):661-666.

        [44] 馬磊,史習(xí)智.多智能體系統(tǒng)中一致性卡爾曼濾波的研究進(jìn)展[J].西南交通大學(xué)學(xué)報(bào),2011,46(2):287-293.MA Lei,SHI Xizhi.Recent development on consensusbased Kalman filtering in multi-agent systems[J].JournalofSouthwestJiaotongUniversity,2011,46(2):287-293.

        [45] YILIN M,BRUNO S.Communication complexity and energy efficient consensus algorithm[C]∥2nd IFAC Workshop on Distributed Estimation and Control in Networked Systems.Annecy:The IFAC Secretariat,2010:209-214

        [46] KOWALSKI D R,GILBERT S.Distributed agreement withoptimalcommunicationcomplexity[C]∥Proceedings of the 21st Annual ACM-SIAM Symposium onDiscreteAlgorithms.Austin:Associationfor Computing Machinery,2010:965-977.

        [47] DWORMAN G,KIMBROUGH S O,LAING J D.Bargaining by artificial agents in two coalition games:a studyingeneticprogrammingforelectronic commerce[C]∥Proceedings of Genetic Programming 1996 Conference.Stanford:MIT Press,1996:54-62.

        [48] NUNES L,OLIVEIRA E.Cooperative learning using advice exchange[J].Adaptive Agents and Multi-Agent Systems,2003,2636:33-48.

        [49] 柯文德,洪炳镕,崔剛,等.一種基于π-MaxQ學(xué)習(xí)的多機(jī)器人協(xié)作方法[J].智能計(jì)算機(jī)與應(yīng)用,2013,3(3):13-17. KE Wende,HONG Bingrong,CUI Gang,et al.A cooperative method for multi robots based on π-MaxQ[J].Intelligent Computer and Applications,2013,3(3):13-17.

        [50] JOB J,JOVIC F,LIVADA C.Q-learning by the nth step state and multi-agent negotiation in unknown environment[J].Tehnicki Vjesnik-Technical Gazette,2012,19(3):529-534.

        [51] HOLLANDJ H.Properties of the bucket brigade[C]∥Proceedings of the 1st International Conference on Genetic Algorithms.Berlin:Springer-Verlag,1985:1-7.

        [52] CHAPMAN K L,BAY J S.Task decomposition and dynamic policy merging in the distributed Q-learning classifiersystem[C]∥ProceedingsofIEEE International Symposium on Computational Intelligence in Robotics and Automation,CIRA.Monterey:IEEE Computer Society,1997:166-171.

        [53] ONO N,IKEDA O,F(xiàn)UKUMOTO K.Acquisition of coordinatedbehaviorbymodularQ-learning agents[J].IEEEInternationalConferenceon Intelligent Robots and Systems,1996,3:1525-1529.

        [54] BAY J S,STANHOPE J D.Distributed optimization of tacticalactionsbymobileintelligentagents[J].Journal of Robotic Systems,1997,14(4):313-323.

        [55] RAEISY B,HAGHIGHI S G,SAFAVI A A.Active noisecontrolsystemviamulti-agentcredit assignment[J].JournalofIntelligent&Fuzzy Systems,2014,26(2):1051-1063.

        [56] ZAHRA R,HAMID B.Addition of learning to critic agent as a solution to the multi-agent credit assignment problem[C]∥5th International Conference on Soft Computing,Computing with Words and Perceptions in System Analysis,Decision and Control.Famagusta:IEEE Computer Society,2009:219-222.

        [57] NG A Y,RUSSELL S J.Algorithms for inverse reinforcement learning[C]∥Proceedings of the 17th International Conference on Machine Learning.San Francisco:Morgan Kaufmann,2000:663-670.

        [58] RAMACHANDRAN D,AMIR E.Bayesian inversereinforcement learning[C]∥Proceedings of the 20th InternationalJointConferenceonArtificial Intelligence.Hyderabad:IJCAI,2007:2586-2591.

        [59] MICHINB,JONATHANPH.Improvingthe efficiencyofbayesianinversereinforcement learning[C]∥IEEEInternationalConferenceon Robotics and Automation(ICRA).St Paul:IEEE,2012:3651-3656.

        [60] 張長(zhǎng)水.機(jī)器學(xué)習(xí)面臨的挑戰(zhàn)[J].中國科學(xué):信息科學(xué),2013,43(12):1612-1623.ZHANG Changshu.Challenges in machine learning[J].ScientiaSinica:Informationis,2013,43(12):1612-1623.

        [61] 席裕庚,張純剛.一類動(dòng)態(tài)不確定環(huán)境下機(jī)器人滾動(dòng)路徑規(guī)劃[J].自動(dòng)化學(xué)報(bào),2002,25(2):261-175.XI Yugeng,ZHANG Chungang.Rolling path planning of mobile robot in a kind of dynamic uncertain environment[J].Acta Automatica Sinica,2002,25(2):261-175.

        [62] MARTINEZ-GIL F,LOZANO M,F(xiàn)ERNANDEZ F.Multi-agentreinforcementlearningforsimulating pedestrian navigation[C]∥In Adaptive and Learning Agents,International Workshop.Berlin:Springer-Verlag,2011,7113:54-69.

        [63] ROKHLO M Z,ALI S,HASHIM M,et al.Multiagentreinforcementlearningforrouteguidance system[J].International Journal of Advancements in Computing Technology,2011,3(6):224-232.

        [64] WANGZeying,SHIZhiguo,LIYuankai.The optimization of path planning for multi-robot system usingBoltzmannPolicybasedQ-learning algorithm[C]∥In IEEE International Conference on RoboticsandBiomimetics(ROBIO).Shenzhen:IEEE,2013:1199-204.

        [65] MORTAZA Z A,ALI S,HASHIM S Z.Mohd,modeling of route planning system based on Q valuebaseddynamicprogrammingwithmulti-agent reinforcementlearningalgorithms[J].Engineering Applications of Artificial Intelligence,2014(29):163-177.

        [66] GERAMIFARDA,REDDINGJ,HOWJP.Intelligentcooperativecontrolarchitecture:a framework for performance improvement using safe learning[J].Journal of Intelligent&Robotic Systems,2013,72(1):83-103.

        [67] 王沖,景寧,李軍,等.一種基于多Agent強(qiáng)化學(xué)習(xí)的多星協(xié)同任務(wù)規(guī)劃算法[J].國防科技大學(xué)學(xué)報(bào),2011,33(1):53-58.WANG Chong,JING Ning,LI Jun,et al.An algorithm of cooperative multiple satellites mission planning based on multi-agent reinforcement learning[J].JournalofNationalUniversityofDefense Technology,2011,33(1):53-58.

        [68] DAHL T S,MATARIC M,SUKHATME G S.Multirobottaskallocationthroughvacancychain scheduling[J].Robotics and Autonomous Systems, 2009,57(6/7):674-687.

        [69] SU Zhaopin,JIANG Jianguo,LIANG Changyong,et al.A distributed algorithm for parallel multi-task allocation based on profit sharing learning[J].Acta Automatica Sinica,2011,37(7):865-872.

        [70] 段勇,崔寶俠,徐心和.多智能體強(qiáng)化學(xué)習(xí)及其在足球機(jī)器人角色分配中的應(yīng)用[J].控制理論與應(yīng)用,2009,26(4):371-376.DUAN Yong,CUI Baoxia,XU Xinhe.Multi-agent reinforcementlearninganditsapplicationtorole assignment of robot soccer[J].Control Theory&Applications,2009,26(4):371-376.

        [71] ADAM S,LUCIAN B,BABU?KA R.Experience replay for real-time reinforcement learning control[J].IEEE Transactions on Systems,Man and Cybernetics Part C:Applications and Reviews,2012,42(2):201-212.

        [72] MARTINR,THOMASG,ROLANDH.Reinforcementlearningforrobotsoccer[J].Autonomous Robots,2009,27(1):55-73.

        [73] HWANG K S,CHEN Y J,LEE C H.Reinforcement learning in strategy selection for a coordinated multirobot system[J].IEEE Transactions On Systems Man and Cybernetics Part A Systems and Humans,2007,37(6):1151-1157.

        [74] OLVI L M,SHAVLIK J W,EDWARD W W.Knowledgebasedkernelapproximation[J].The Journal of Machine Learning Research Archive,2004,5:1127-1141.

        [75] RICHARD M,JUDE S,LISA T,et al.Giving advice about preferred actions to reinforcement learners via knowledge-based kernel regression[C]∥Proceedings ofthe20thNationalConferenceonArtificial Intelligence.Pittsburgh:AmericanAssociationfor Artificial Intelligence,2005:819-824.

        [76] KWAK D J,KIM H J.Policy improvements for probabilisticpursuit-evasiongame[J].Journalof Intelligent&Robotic Systems,2013,74(3/4):709-724.

        [77] LIJun,PANQishu,HONGBingrong.Anew approach of multi-robot cooperative pursuit based on association rule data mining[J].International Journal of Advanced Robotic Systems,2009,6(4):329-336.

        [78] BOUZY B,M TIVIER M.Multi-agent model-based reinforcement learningexperimentsinthepursuit evasion game[D].Paris:Paris Descartes University,2008.

        [79] LIU Shuhua,LIU Jie,CHENG Yu.A pursuit-evasionalgorithmbasedonhierarchicalreinforcement learning[J].Information:AnInternationalInterdisciplinary Journal,2010,13(3):635-645.

        [80] ZHANG Wenxu,CHEN Xionglong,MA Lei.Multiagentsystempursuitwithdecision-makingand formationcontrol[C]∥32ndChineseControl Conference,Xi'an:IEEE,2013:7016-7022.

        [81] 倪志偉,胡湯磊,吳曉璇,等.基于分形理論的一種新的機(jī)器學(xué)習(xí)方法:分形學(xué)習(xí)[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2013,43(4):265-270.NI Zhiwei,HU Tanglei,WU Xiaoxuan,et al.A novel machine learning approach based on fractal theory:Fractal learning[J].Journal of University of Science and Technology of China,2013,43(4):265-270.

        [82] 陳衛(wèi)東,朱奇光.基于模糊算法的移動(dòng)機(jī)器人路徑規(guī)劃[J].電子學(xué)報(bào),2011,39(4):971-974.CHEN Weidong,ZHU Qiguang.Mobile robot path planningbasedonfuzzyalgorithms[J].Acta Electronica Sinica,2011,39(4):971-974.

        [83] JUANG C F,HSU C H.Reinforcement ant optimized fuzzy controller for mobile-robot wall-following control[J].IEEE Transactions on Industrial Electronics,56(10):3931-3940,2009

        [84] 徐明亮,柴志雷,須文波.移動(dòng)機(jī)器人模糊Q-學(xué)習(xí)沿墻導(dǎo)航[J].電機(jī)與控制學(xué)報(bào),2010,14(6):83-88.XU Mingliang,CHAI Zhilei,XU Wenbo.Wallfollowing control of a mobile robot with fuzzy Q-learning[J].Electric Machines and Control,2010,14(6):83-88.

        [85] 陳宗海,楊志華,王海波,等.從知識(shí)的表達(dá)和運(yùn)用綜述強(qiáng)化學(xué)習(xí)研究[J].控制與決策,2008,23(9):961-968.CHEN Zonghai,YANG Zhihua,WANG Haibo,et al.Overview of reinforcement learning from knowledge expression and handling[J].Control and Decision,2008,23(9):961-968.

        [86] 黃晗文,鄭宇.強(qiáng)化學(xué)習(xí)中基于定性模型的知識(shí)傳遞方法[J].計(jì)算機(jī)工程與科學(xué),2011,33(6):118-124.HUANG Hanwen,ZHENG Yu.Knowledge transfer method based on the qualitative model in reinforcement learning[J].Computer Engineering&Science,2011,33(6):118-124.

        [87] 王皓,高陽,陳興國.強(qiáng)化學(xué)習(xí)中的遷移:方法和進(jìn)展[J].電子學(xué)報(bào),2008,36(12A):39-43.WANG Hao,GAO Yang,CHEN Xingguo.Transfer of reinforcement learning:the state of the art[J].Acta Electronica Sinica,2008,36(12A):39-43.

        [88] 朱美強(qiáng),程玉虎,李明,等.一類基于譜方法的強(qiáng)化學(xué)習(xí)混合遷移算法[J].自動(dòng)化學(xué)報(bào),2012,38(11):1765-1776.ZHU Meiqiang,CHENG Yuhu,LI Ming,et al.A hybrid transfer algorithm for reinforcement learning based on spectral method[J].Acta Automatica Sinica,2012,38(11):1765-1776.

        [89] BORJA F G,JOSE M L G,MANUEL G.Transfer learning with partially constrained models:application to reinforcement learning of linked multicomponent robot system control[J].Robotics and Autonomous Systems,2013,61(7):694-703.

        [90] GEISTM,PIETQUINO.Kalmantemporal differences[J].JournalofArtificialIntelligence Research,2010,39:483-532.

        [91] PIETQUIN O,GEIST M,CHANDRAMOHAN S,et al.Sampleefficienton-linelearningofoptimal dialoguepolicieswithKalmantemporal differences[C]∥InternationalJointConferenceon ArtificialIntelligence(IJCAI).Barcelona:InternationalJointConferencesonArtificial Intelligence,2011:1878-1883.

        [92] GEIST M,PIETQUIN O.Revisiting natural actorcritics with value function approximation[J].Modeling Decisions for Artificial Intelligence,2010,6408:207-218.

        [93] FERREIRA L A,COSTA R,CARLOS H,et al.Heuristicallyacceleratedreinforcementlearning modularization for multi-agent multi-objective problems[J].Applied Intelligence,2014,41(2):551-562.

        [94] 劉全,李瑾,傅啟明,等.一種最大集合期望損失的多目標(biāo)Sarsa(λ)算法[J].電子學(xué)報(bào),2013,41(8):1469-1473.LIU Quan,LI Jin,F(xiàn)U Qiming,et al,A multiple-goal Sarsa(λ)algorithm based on lost reward of greatest mass[J].Acta Electronica Sinica,2013,41(8):1469-1473.

        [95] WANG Weijia,SEBAG M.Hypervolume indicator and dominance reward based multi-objective Monte-Carlo tree search[J].Machine Learning,2013,93(2/3):403-29.

        [96] SNEL M,WHITESON S.Learning potential functions and their representations for multi-task reinforcement learning[J].AutonomousAgentsandMulti-Agent Systems,2014,28(4):637-681.

        (中文編輯:唐 晴 英文編輯:周 堯)

        A Review of Developments in Reinforcement Learning for Multi-robot Systems

        MA Lei, ZHANG Wenxu, DAI Chaohua
        (School of Electrical Engineering,Southwest Jiaotong University,Chengdu 610031,China)

        Reinforcement learning(RL)is an effective mean for multi-robot systems to adapt to complex and uncertain environments.It is considered as one of the key technologies in designing intelligent systems.Based on the basic ideas and theoretical framework of reinforcement learning,main challenges such as partial observation,computational complexity and convergence were focused.The state of the art and difficulties were summarized in terms of communication issues,cooperative learning,credit assignment and interpretability.Applications in path planning and obstacle avoidance,unmanned aerial vehicles,robot football,the multi-robot pursuit-evasion problem,etc.,were introduced.Finally,the frontier technologies such as qualitative RL,fractal RL and information fusion RL,were discussed to track its future development.

        multi-robot systems;reinforcement learning;Markov decision process;computational complexity;uncertainties

        TP181

        :A

        0258-2724(2014)06-1032-13

        10.3969/j.issn.0258-2724.2014.06.015

        2014-05-28

        國家自然科學(xué)基金資助項(xiàng)目(61075104)

        馬磊(1972-),男,教授,博士,研究方向?yàn)榭刂评碚摷捌湓跈C(jī)器人、新能源和軌道交通系統(tǒng)中的應(yīng)用,

        E-mail:malei@swjtu.edu.cn

        馬磊,張文旭,戴朝華.多機(jī)器人系統(tǒng)強(qiáng)化學(xué)習(xí)研究綜述[J].西南交通大學(xué)學(xué)報(bào),2014,49(6):1032-1044.

        猜你喜歡
        個(gè)體機(jī)器人文獻(xiàn)
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        關(guān)注個(gè)體防護(hù)裝備
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        個(gè)體反思機(jī)制的缺失與救贖
        機(jī)器人來幫你
        認(rèn)識(shí)機(jī)器人
        機(jī)器人來啦
        認(rèn)識(shí)機(jī)器人
        日韩精品自拍一区二区| 亚洲中久无码永久在线观看软件| 亚洲最新版无码AV| 亚洲视一区二区三区四区| 中文字幕亚洲乱码熟女1区| 黑人上司粗大拔不出来电影| 欧美日韩在线观看免费| 国产毛片三区二区一区| 中文字幕免费人成在线网站| 女人被弄到高潮的免费视频| 综合网自拍| 在线视频一区二区三区中文字幕| 永久免费视频网站在线| 曰本无码人妻丰满熟妇啪啪| 国产成人精品精品欧美| 激情视频在线观看免费播放| 手机看片久久第一人妻| av一区二区三区人妻少妇| 蜜桃传媒一区二区亚洲av婷婷| 亚洲丰满熟女一区二亚洲亚洲| 亚洲中国精品精华液| 成人国产精品一区二区网站公司 | 少妇人妻综合久久中文字幕| 国内少妇偷人精品视频免费| 开心五月婷婷综合网站| 国产女同va一区二区三区| 东北妇女xx做爰视频| 9久久精品视香蕉蕉| 成人全部免费的a毛片在线看| 天天做天天摸天天爽天天爱| 久久丫精品国产亚洲av| 日本熟妇精品一区二区三区| 国产一区二区三区仙踪林| 夜先锋av资源网站| 在线国产视频精品视频| 亚洲国产区中文在线观看| 日韩精品久久久久久久电影蜜臀| 欧美日韩国产综合aⅴ| 99视频偷拍视频一区二区三区| 国内精品久久久久影院优| 亚洲影院天堂中文av色 |