任天助, 周 銳, 李 浩
(1.北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191; 2.中航工業(yè)成都飛機(jī)設(shè)計(jì)研究所,成都 610091)
一種基于情感智能的無(wú)人機(jī)自主決策方法
任天助1, 周 銳1, 李 浩2
(1.北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191; 2.中航工業(yè)成都飛機(jī)設(shè)計(jì)研究所,成都 610091)
無(wú)人機(jī)在各領(lǐng)域的不斷深化應(yīng)用使得人們對(duì)無(wú)人機(jī)的自主性提出了更高的要求。通過(guò)模擬人的情感決策過(guò)程建立一種基于情感智能的決策方法進(jìn)行人工情感與智能決策設(shè)計(jì),并將其應(yīng)用于無(wú)人機(jī)航路規(guī)劃與威脅規(guī)避的決策問(wèn)題。仿真結(jié)果表明,基于情感智能的決策方法在應(yīng)用中具有較傳統(tǒng)方法更優(yōu)的效果。
無(wú)人機(jī); 情感智能; 智能決策
近年來(lái),軍用無(wú)人機(jī)在現(xiàn)代戰(zhàn)爭(zhēng)中嶄露頭角,成為許多軍事強(qiáng)國(guó)的重要裝備;民用無(wú)人機(jī)在航拍、物流等領(lǐng)域亦有了越來(lái)越多的應(yīng)用,逐漸給人們生活帶來(lái)重大的影響。然而當(dāng)前無(wú)論是軍用固定翼無(wú)人機(jī)還是民用多旋翼無(wú)人機(jī),其自主性都很低[1]。無(wú)人機(jī)對(duì)于復(fù)雜環(huán)境下的任務(wù),往往難以做到自主決策,還需要人的介入來(lái)完成?,F(xiàn)實(shí)中的任務(wù)實(shí)時(shí)性很高,而通訊鏈路不能保證每時(shí)每刻都可靠,智能自主決策的缺失對(duì)無(wú)人機(jī)的進(jìn)一步發(fā)展形成制約。從目前的研究和技術(shù)水平來(lái)看,真正實(shí)現(xiàn)非結(jié)構(gòu)化環(huán)境下無(wú)人機(jī)的自主飛行控制還是一項(xiàng)具有挑戰(zhàn)性的技術(shù)難題。從人類(lèi)的認(rèn)知決策過(guò)程環(huán)(Observation-Orientation-Decision-Action,OODA)來(lái)看[2],實(shí)現(xiàn)無(wú)人機(jī)自主飛行的關(guān)鍵是實(shí)現(xiàn)以“態(tài)勢(shì)感知為中心”而不是“以人為中心”的智能決策與管理,也就是說(shuō),讓無(wú)人機(jī)根據(jù)其自身外部信息進(jìn)行決策,而不是過(guò)多的人為干預(yù)。
研究智能體決策的一個(gè)重要方向就是模擬人的認(rèn)知-決策-行為過(guò)程,建立仿人的智能決策結(jié)構(gòu),實(shí)現(xiàn)無(wú)人機(jī)的智能決策。根據(jù)當(dāng)代認(rèn)知心理學(xué)研究的成果,人在做決策的過(guò)程中,一部分依賴于對(duì)過(guò)往知識(shí)的學(xué)習(xí)水平,另一部分依賴于當(dāng)前的情感狀態(tài)[3]。因此把對(duì)知識(shí)學(xué)習(xí)與情感相結(jié)合運(yùn)用于智能體決策是一種有效的方案。其中,研究的熱點(diǎn)集中在探討智能體(Agent)在外界激勵(lì)情況下的情感改變和行為特征。文獻(xiàn)[4]提出一種嵌入式情感Agent 結(jié)構(gòu),論述了大腦的情感產(chǎn)生機(jī)制,通過(guò)距離費(fèi)用函數(shù)量化情感的影響,并使用復(fù)雜度和準(zhǔn)確性不同的兩種變量刻畫(huà)外界激勵(lì);同時(shí),文獻(xiàn)[5]論述了一種Greta’s mind,通過(guò)Agent的BDI 模型(目標(biāo)、信念、事件)刻畫(huà)面部表情的情感表達(dá);國(guó)內(nèi)的研究中,文獻(xiàn)[6-7]通過(guò)建立交互式的情感決策模型得到一套多屬性決策方法,并在工程控制中得到應(yīng)用。然而上述的文獻(xiàn)并沒(méi)有根據(jù)無(wú)人機(jī)自主決策的特點(diǎn)進(jìn)行嘗試與應(yīng)用,缺乏對(duì)決策結(jié)構(gòu)與具體問(wèn)題的詳細(xì)闡述。
本文通過(guò)借鑒前人經(jīng)驗(yàn)提出一套基于情感智能的無(wú)人機(jī)決策結(jié)構(gòu),采用情感模型作為感知的融合,強(qiáng)化學(xué)習(xí)作為經(jīng)驗(yàn)的積累,以無(wú)人機(jī)航路規(guī)劃與威脅規(guī)避的具體問(wèn)題進(jìn)行理論分析與仿真實(shí)驗(yàn)對(duì)這個(gè)方法的有效性進(jìn)行驗(yàn)證。
在傳統(tǒng)的無(wú)人機(jī)決策的框架下,影響無(wú)人機(jī)決策的因素只有環(huán)境,無(wú)人機(jī)感知外界的環(huán)境變化,將這些信息反饋到控制系統(tǒng)中然后做出行為選擇,這個(gè)過(guò)程忽視了無(wú)人機(jī)內(nèi)部的一些信息,如無(wú)人機(jī)的“內(nèi)在需求”和“身體狀況”,將它們都認(rèn)為處于理想的狀況。當(dāng)無(wú)人機(jī)處于一些極端的環(huán)境或者復(fù)雜多變的環(huán)境下,無(wú)人機(jī)自身的續(xù)航能力、各零部件狀態(tài)、性能也是很重要的因素,必須將這樣的“身體狀況”考慮進(jìn)來(lái),這時(shí)候傳統(tǒng)的無(wú)人機(jī)決策算法(如圖1所示)就不能滿足對(duì)決策任務(wù)的要求?;谌斯で楦械臒o(wú)人機(jī)決策框架(如圖2所示)就是基于這樣一個(gè)思路,將無(wú)人機(jī)的內(nèi)部狀態(tài)或者一些內(nèi)在的需求信息和外界的環(huán)境信息先經(jīng)過(guò)情感模型處理,得到無(wú)人機(jī)目前所處狀態(tài)的綜合評(píng)價(jià),然后反饋到無(wú)人機(jī)的控制系統(tǒng)中,使無(wú)人機(jī)能夠更加全面地考慮當(dāng)前無(wú)人機(jī)所處的實(shí)際狀態(tài),進(jìn)而做出更加正確的行為選擇。除了上面情感因素對(duì)無(wú)人機(jī)決策的促進(jìn)方面,另一方面,情感因素的作用體現(xiàn)在無(wú)人機(jī)對(duì)學(xué)習(xí)經(jīng)驗(yàn)的積累上,也就是說(shuō)無(wú)人機(jī)在學(xué)習(xí)的過(guò)程中會(huì)不斷地積累面對(duì)各種環(huán)境的經(jīng)驗(yàn),當(dāng)無(wú)人機(jī)再次處于類(lèi)似的環(huán)境狀態(tài)時(shí),就可以利用情感的因素直接指導(dǎo)無(wú)人機(jī)的控制系統(tǒng)根據(jù)以前的經(jīng)驗(yàn)做出行為選擇,而不必通過(guò)邏輯推理等過(guò)程后再進(jìn)行決策。這個(gè)作用類(lèi)似于人類(lèi)的直覺(jué)反應(yīng),在一些復(fù)雜多變的環(huán)境下是很有用的,能夠使無(wú)人機(jī)快速做出應(yīng)對(duì)措施,避免對(duì)其自身的損害,使無(wú)人機(jī)在這些復(fù)雜環(huán)境下的生存能力增強(qiáng)。
圖1 傳統(tǒng)無(wú)人機(jī)決策框架Fig.1 Traditional decision-making framework for UAV
相對(duì)于傳統(tǒng)的無(wú)人機(jī)決策框架,基于人工情感的無(wú)人機(jī)決策框架在決策的過(guò)程中更加綜合地考慮了環(huán)境和自身狀態(tài)的一些因素,并且能夠利用之前已經(jīng)學(xué)習(xí)到的經(jīng)驗(yàn),在復(fù)雜情況下幫助無(wú)人機(jī)更好地做出行為選擇,提高學(xué)習(xí)的速度,并且增強(qiáng)學(xué)習(xí)的性能。本文借鑒文獻(xiàn)[8]的思路,可以通過(guò)融合強(qiáng)化學(xué)習(xí)與情感智能的方法進(jìn)行決策的設(shè)計(jì)。
圖2 基于人工情感的無(wú)人機(jī)決策框架Fig.2 Decision-making framework for UAV based on artificial emotion
讓無(wú)人機(jī)在決策過(guò)程中擁有類(lèi)似人類(lèi)的智能,一個(gè)比較直接的方法就是類(lèi)比人類(lèi)的決策方法,使得無(wú)人機(jī)具有綜合自身?xiàng)l件與周?chē)h(huán)境的決策能力?,F(xiàn)代認(rèn)知心理學(xué)研究表明,人類(lèi)的決策與自身情感狀態(tài)有著顯著的關(guān)系,其過(guò)程可由一種多級(jí)情感的模型表示。
如圖3所示,人的情感對(duì)于決策的影響分為兩級(jí),當(dāng)人受到外界刺激時(shí),首先會(huì)產(chǎn)生類(lèi)似條件反射式的一級(jí)情感,這種情感與對(duì)周?chē)闆r進(jìn)行態(tài)勢(shì)感知之后的結(jié)果與大腦中的經(jīng)驗(yàn)知識(shí)建立聯(lián)系,生成更加成熟的二級(jí)情感,進(jìn)而生成正確的決策判斷。將類(lèi)似的決策機(jī)制應(yīng)用在無(wú)人機(jī)上,以無(wú)人機(jī)遇到威脅進(jìn)行規(guī)避和重規(guī)劃為例。無(wú)人機(jī)發(fā)現(xiàn)周?chē)型{靠近時(shí),如果其擁有類(lèi)似人類(lèi)的情感智能,首先應(yīng)該出于自身安全考慮,在檢測(cè)到有威脅靠近時(shí),應(yīng)對(duì)威脅進(jìn)行規(guī)避。同時(shí),如果無(wú)人機(jī)有需要按時(shí)到達(dá)的目標(biāo),無(wú)人機(jī)應(yīng)該在躲避威脅的同時(shí)盡可能地向目標(biāo)靠近,這就需要經(jīng)過(guò)多次訓(xùn)練后無(wú)人機(jī)在檢測(cè)到威脅靠近時(shí),根據(jù)先驗(yàn)知識(shí),向靠近目標(biāo)點(diǎn)的方向進(jìn)行規(guī)避。如果說(shuō)一級(jí)情感就是一種“消極的恐懼”,而二級(jí)情感則是基于先驗(yàn)知識(shí)的一種“積極的恐懼”,因?yàn)槠湓趹?yīng)對(duì)無(wú)人機(jī)自身的情況同時(shí),更多地考慮了它要完成的目標(biāo),在智能水平上更近一步。針對(duì)這種思路,可以設(shè)計(jì)如圖4所示的無(wú)人機(jī)決策流程。
圖3 多級(jí)情感決策模型Fig.3 Multi-level emotion decision-making model
圖4 基于情感智能的無(wú)人機(jī)決策流程Fig.4 UAV decision-making process based on emotion intelligence
針對(duì)上文提到情感決策流程,有必要建立一種用于決策的情感模型。對(duì)于情感模型,根據(jù)文獻(xiàn)[9]的描述,可以用一個(gè)“情感空間”進(jìn)行向量的描述,圖5所示是一種常見(jiàn)的二維情感模型。
圖5 二維情感模型Fig.5 Two-dimensional emotion model
根據(jù)基本情緒的研究,將討論最常見(jiàn)的 4 種互為反向的情緒:恐懼、放松、積極和消極。即基本情緒空間S={A,B,C,D},其中:A表示放松情緒;B表示恐懼情緒;C表示積極情緒;D表示消極情緒。放松和恐懼互為反向情緒,代表橫向坐標(biāo)軸的兩端;積極和消極互為反向情緒,代表縱向坐標(biāo)軸的兩端。所有的情緒的值都被限制在圓心在原點(diǎn)、半徑為1的單位圓之中。在此情緒空間中,某一情緒的值是由一個(gè)向量表示的,通過(guò)向量的模與向量的方向來(lái)代表一個(gè)情緒。用數(shù)學(xué)式可以表示情緒為
ea=(xa,ya)
(1)
而情緒強(qiáng)度為
(2)
情緒方向?yàn)?/p>
(3)
式中,xa和ya分別對(duì)應(yīng)圖中的x軸與y軸的4種基本情感的數(shù)值。
對(duì)于情感數(shù)值的確定,在許多文獻(xiàn)中多使用OCC模型進(jìn)行確定。然而OCC模型具有復(fù)雜多樣的特點(diǎn),對(duì)于決策屬性比較單一的問(wèn)題,諸如無(wú)人機(jī)在威脅環(huán)境中躲避障礙可以采用更簡(jiǎn)單具體的方法進(jìn)行設(shè)計(jì)。如圖6所示,圖中,五角星代表無(wú)人機(jī)所在的位置,其與威脅i的距離可以用di來(lái)表示。對(duì)于不同種類(lèi)的威脅,還可以對(duì)其威脅程度進(jìn)行加權(quán),其與威脅i的威脅權(quán)值用ci來(lái)表示。認(rèn)為當(dāng)大量威脅距離無(wú)人機(jī)很近時(shí),無(wú)人機(jī)的情感處于“恐懼”狀態(tài),當(dāng)周?chē){數(shù)量很少且距離無(wú)人機(jī)很遠(yuǎn),認(rèn)為無(wú)人機(jī)處于“放松”狀態(tài)。具體計(jì)算如下
Ta=k·(c1/d1+c2/d2+…+cn/dn)
(4)
式中,k為歸一化因子。情感ea的分量xa可以根據(jù)Ta確定為
(5)
式中,Tm為選擇情感值的閾值,根據(jù)實(shí)驗(yàn)的結(jié)果以及對(duì)威脅的敏感程度決定。
圖6 威脅與無(wú)人機(jī)關(guān)系圖Fig.6 The relationship between threat and UAV
情感ea的分量ya的值則由無(wú)人機(jī)當(dāng)前的學(xué)習(xí)情況而定,如果無(wú)人機(jī)處于相對(duì)熟悉的環(huán)境,則處于“積極”的情感,如果處于陌生的環(huán)境,則處于“消極”的情感。無(wú)人機(jī)對(duì)環(huán)境的熟悉程度由學(xué)習(xí)策略的收斂情況決定。學(xué)習(xí)策略可采用強(qiáng)化學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)等方式進(jìn)行離線與在線學(xué)習(xí)。本文采用Q學(xué)習(xí)方法,旨在對(duì)無(wú)人機(jī)威脅規(guī)避問(wèn)題中一些基本威脅情況進(jìn)行學(xué)習(xí),逐步形成對(duì)相對(duì)復(fù)雜的環(huán)境的應(yīng)對(duì)機(jī)制。
Q學(xué)習(xí)是一類(lèi)重要的增強(qiáng)學(xué)習(xí)算法,它屬于“非監(jiān)督學(xué)習(xí)”,不通過(guò)正確的學(xué)習(xí)樣本采取何種行為,而是通過(guò)不斷試錯(cuò)的方法來(lái)逐步發(fā)現(xiàn)最優(yōu)策略。由于無(wú)人機(jī)往往應(yīng)用于未知環(huán)境的探索,這種算法在各種新環(huán)境中更具有適應(yīng)性。假定Q學(xué)習(xí)系統(tǒng)接受環(huán)境狀態(tài)的輸入為s,根據(jù)學(xué)習(xí)決策機(jī)制,系統(tǒng)輸出的行為動(dòng)作為a。此時(shí)環(huán)境狀態(tài)在動(dòng)作a作用下,“轉(zhuǎn)移”到新的狀態(tài)s′。系統(tǒng)接受環(huán)境中新的狀態(tài)輸入,同時(shí)得到由環(huán)境對(duì)于系統(tǒng)的獎(jiǎng)懲反饋r。對(duì)于Q學(xué)習(xí)系統(tǒng)而言,其目標(biāo)是學(xué)習(xí)一個(gè)行為策略,使系統(tǒng)選擇的動(dòng)作能夠獲得環(huán)境獎(jiǎng)賞的累計(jì)值最大。
轉(zhuǎn)移規(guī)則可以寫(xiě)為
Q(s,a)=r(s,a)+γ·max{Q(s′,a′)}
(6)
式中,γ為學(xué)習(xí)參數(shù),0≤γ<1 。
Q學(xué)習(xí)算法的運(yùn)行步驟如圖7所示。
圖7 Q學(xué)習(xí)算法流程圖Fig.7 Q learning algorithm flow
此外,要對(duì)Q學(xué)習(xí)的熟練程度進(jìn)行描述,這里以到達(dá)目標(biāo)步數(shù)n作為指標(biāo)。設(shè)定一個(gè)閾值N1,N1為直接使用貪婪算法無(wú)碰撞到達(dá)目標(biāo)的總步數(shù)。當(dāng)n>N1時(shí),認(rèn)為無(wú)人機(jī)尚未學(xué)習(xí)熟練,此時(shí)對(duì)應(yīng)的情感狀態(tài)認(rèn)定為消極,即ya=-1。當(dāng)n 根據(jù)之前所描述的情感計(jì)算方法,得到人工情感以后,根據(jù)表1的方式進(jìn)行策略選擇。在無(wú)人機(jī)情感處于膽怯狀態(tài)時(shí),首先要保證無(wú)人機(jī)的安全,此時(shí)應(yīng)該選擇緊急避撞策略,無(wú)人機(jī)不再向目標(biāo)前進(jìn)而是向沒(méi)有威脅的位置進(jìn)行規(guī)避。當(dāng)無(wú)人機(jī)能保證自身安全時(shí),則根據(jù)當(dāng)前掌握先驗(yàn)知識(shí)的情況進(jìn)行選擇,此時(shí)如果無(wú)人機(jī)尚未熟練掌握在當(dāng)前環(huán)境中進(jìn)行尋路的能力,則進(jìn)行Q學(xué)習(xí),并采用貪婪算法完成決策,如果已經(jīng)掌握,則直接用Q學(xué)習(xí)的知識(shí)進(jìn)行決策。 表1 不同情感狀態(tài)下行為選擇策略 為了驗(yàn)證方法的可行性,在仿真環(huán)境下對(duì)其進(jìn)行驗(yàn)證。分別在簡(jiǎn)單靜態(tài)威脅場(chǎng)景和同時(shí)具有動(dòng)、靜態(tài)威脅的復(fù)雜場(chǎng)景下,將本文方法與人工勢(shì)場(chǎng)法[10]進(jìn)行對(duì)比。人工勢(shì)場(chǎng)法實(shí)現(xiàn)較為簡(jiǎn)單,是一種具有代表性的無(wú)人機(jī)路徑規(guī)劃與避障算法。仿真實(shí)驗(yàn)環(huán)境為軟件Matlab 7.0;計(jì)算機(jī)配置Windows XP操作系統(tǒng)、CPU為Inter Core i5、主頻3.3 GHz。 圖8中,藍(lán)色圓形代表無(wú)人機(jī)所面對(duì)的威脅,無(wú)人機(jī)的起點(diǎn)由一個(gè)紅叉表示,終點(diǎn)以綠色星形來(lái)表示,學(xué)習(xí)的目標(biāo)是讓無(wú)人機(jī)在避開(kāi)威脅的情況下從起點(diǎn)移動(dòng)到終點(diǎn)。首先讓無(wú)人機(jī)在一些簡(jiǎn)單環(huán)境下進(jìn)行學(xué)習(xí),場(chǎng)景大小20×20,起點(diǎn)(1,1),終點(diǎn)(10,10)。設(shè)所有威脅與無(wú)人機(jī)所在位置均為整數(shù)點(diǎn),威脅數(shù)目為10,訓(xùn)練次數(shù)為900次,其訓(xùn)練效果如下。 圖8 簡(jiǎn)單靜態(tài)威脅場(chǎng)景Fig.8 The simple static threat scenarios 這里只是為了驗(yàn)證算法的有效性,而使用相對(duì)簡(jiǎn)單的質(zhì)點(diǎn)模型。對(duì)于無(wú)人機(jī)決策的執(zhí)行手段,假設(shè)無(wú)人機(jī)的決策集為{(0,1),(0,-1),(1,0),(-1,0)},即在地圖上只能向正北、正南、正東、正西4個(gè)方向進(jìn)行移動(dòng),對(duì)應(yīng)實(shí)際情況中多旋翼無(wú)人機(jī)的一般情況。用從起點(diǎn)到終點(diǎn)的總路程作為學(xué)習(xí)的指標(biāo),其學(xué)習(xí)過(guò)程收斂曲線如圖9所示。 圖9 學(xué)習(xí)過(guò)程收斂曲線Fig.9 The convergence curve of learning 在簡(jiǎn)單環(huán)境中獲取了一定的經(jīng)驗(yàn)知識(shí)以后,無(wú)人機(jī)在更復(fù)雜的靜態(tài)環(huán)境中進(jìn)行應(yīng)用,此時(shí)就需要之前提到的情感智能。如圖10所示,場(chǎng)景大小150×150,起點(diǎn)(10,10),終點(diǎn)(150,150)。無(wú)人機(jī)已經(jīng)對(duì)一些簡(jiǎn)單樣本完成訓(xùn)練,無(wú)人機(jī)能在復(fù)雜的環(huán)境中智能地找到一條路徑。然而由于有些環(huán)境是無(wú)人機(jī)不熟悉的,所以飛行中的路徑有毛刺現(xiàn)象,在加入平滑算法之后問(wèn)題會(huì)得到改善。 圖10 復(fù)雜靜態(tài)威脅場(chǎng)景Fig.10 The complicated static threat scenarios 本文為了驗(yàn)證無(wú)人機(jī)情感智能算法的有效性,設(shè)計(jì)了如下的一個(gè)簡(jiǎn)單的仿真程序,并采用人工勢(shì)場(chǎng)法進(jìn)行對(duì)比。場(chǎng)景大小規(guī)定為2500×2500,起點(diǎn)可以在程序中設(shè)定,終點(diǎn)假設(shè)為一個(gè)移動(dòng)目標(biāo),繞一固定點(diǎn)做半徑為5的圓周運(yùn)動(dòng)。無(wú)人機(jī)繞過(guò)障礙物對(duì)目標(biāo)進(jìn)行捕捉。障礙物設(shè)計(jì)為上下各4排彼此交錯(cuò)的威脅,隨時(shí)間進(jìn)行上下往復(fù)運(yùn)動(dòng),無(wú)人機(jī)從起始點(diǎn)以一個(gè)固定速度移動(dòng)到目標(biāo)位置。兩種方法的效果如圖11所示。 圖11 仿真程序界面Fig.11 Simulation program interface 由表2的結(jié)果可以看出,兩種算法在實(shí)時(shí)性上不分伯仲,但是在最優(yōu)性與安全性上,經(jīng)過(guò)學(xué)習(xí)訓(xùn)練之后的情感智能算法有著很大的優(yōu)勢(shì)。當(dāng)然這只是一次實(shí)驗(yàn)的值,多次實(shí)驗(yàn)的值在總的尋優(yōu)時(shí)間上有比較大的差異,但在訓(xùn)練程度相同而情感的時(shí)間比例不同的各次實(shí)驗(yàn)的差別不大,其分布如圖12所示。 表2 動(dòng)態(tài)場(chǎng)景下仿真結(jié)果對(duì)比 圖12 各情感比例分布圖Fig.12 The distribution of emotion state 然而即使對(duì)于仿真中這樣有規(guī)律的動(dòng)態(tài)威脅,無(wú)人機(jī)依然不能在一半時(shí)間都以最佳的狀態(tài)飛行,說(shuō)明多種情感狀態(tài)均起到了作用,同時(shí)也說(shuō)明該算法還有很大的優(yōu)化空間。 本文運(yùn)用情感智能的理念,將人工情感模型與無(wú)人機(jī)決策方法相結(jié)合,提出了基于情感智能的無(wú)人機(jī)自主決策方法。不同于傳統(tǒng)的輸入-決策方法,該方法通過(guò)Q學(xué)習(xí)訓(xùn)練使無(wú)人機(jī)獲得基本經(jīng)驗(yàn),根據(jù)環(huán)境與無(wú)人機(jī)自身感知決定情感屬性,應(yīng)用經(jīng)驗(yàn)與感知的融合進(jìn)行決策。仿真結(jié)果表明,基于情感智能的無(wú)人機(jī)自主決策方法在靜態(tài)航路規(guī)劃與動(dòng)態(tài)威脅規(guī)避的決策中具有良好的實(shí)時(shí)性。本文的主要工作: 1) 提出了結(jié)合情感的無(wú)人機(jī)決策框架與決策流程,通過(guò)將外界信息與自身經(jīng)驗(yàn)形成高級(jí)情感融合,從而形成從感知到執(zhí)行的完整決策流程; 2) 建立適用于無(wú)人機(jī)航路規(guī)劃與威脅規(guī)避決策問(wèn)題的二維情感模型,并通過(guò)Q學(xué)習(xí)對(duì)無(wú)人機(jī)決策過(guò)程進(jìn)行在線學(xué)習(xí)和訓(xùn)練、實(shí)現(xiàn),以兼顧在熟悉環(huán)境中的決策效率與陌生環(huán)境中的適應(yīng)性。 本文的不足之處在于,該方法考慮的模型比較簡(jiǎn)單,應(yīng)用到真正的無(wú)人機(jī)上還存在一定的問(wèn)題。另外,在適用于具體問(wèn)題時(shí)往往需要進(jìn)行大量的學(xué)習(xí)才能對(duì)決策效果有大幅度提高,本文所有的仿真均假設(shè)威脅與無(wú)人機(jī)坐標(biāo)均在所設(shè)計(jì)網(wǎng)格的整數(shù)點(diǎn),因而要考慮的情況大幅度減少,很容易找到匹配的學(xué)習(xí)方案,而實(shí)際情況則復(fù)雜得多,Q學(xué)習(xí)的經(jīng)驗(yàn)很難直接進(jìn)行應(yīng)用。因此,接下來(lái)的工作希望在經(jīng)驗(yàn)學(xué)習(xí)方面提高學(xué)習(xí)的效率與質(zhì)量,并找到在更大范圍內(nèi)應(yīng)用的具體方法。 [1] Office of the Secretary of Defense.Unmanned aircraft systems roadmap 2005-2030[R].Washington:DOD,2005. [2] BREHMER B.The dynamic OODA loop:amalgamating body’s OODA loop and the cybernetic approach to command and control[C]//The 10th International Command and Control Research and Technology Symposium(ICCRTS), 2005:126-139. [3] 江道平,班曉娟,尹怡欣,等.情感理論及基于情感的決策理論與模型研究[J].計(jì)算機(jī)科學(xué),2007,34(4):154-157. [4] VENTURA R,FERREIR C P.Responding efficiently to relevant stimuli using an affect-based agent architecture[J].Neuro Computing,2009,72(13):923-930. [5] ROSIS F D,PELACHAUD C,POGGI I,et al.From Greta’s mind to her face:modelling the dynamics of affective states in a conversational embodied agent[J].International Journal of Human-Computer Studies,2003,59(1):81-118. [6] SU C,LI H.Approaches to affective computing and learning towards interactive decision making in process control engineering[J].Acta Automatica Sinica,2013,39(5):617-625. [7] 宿翀,李宏光.基于情感學(xué)習(xí)智能體的交互式進(jìn)化計(jì)算方法[J].計(jì)算機(jī)集成制造系統(tǒng),2012,18(3):617-625. [8] MATSUDA A,MISAWA H,HORIO K.Decision making based on reinforcement learning and emotion learning for social behavior[C]//2011 IEEE International Conference on Fuzzy Systems (FUZZ),IEEE,2011:2714-2719. [9] 王志良,喬向杰,王超,等.基于自定義空間和 OCC 模型的情緒建模研究[J].計(jì)算機(jī)工程,2007,33(4):189-192. [10] KOREN Y,BORENSTEIN J.Potential field methods and their inherent limitations for mobile robot navigation[C]//Proceedings of the IEEE Conference on Robotics and Automation,1991:1394-1404. AnEmotionalIntelligenceBasedAutonomousDecision-MakingMethodforUAVs REN Tian-zhu1, ZHOU Rui1, LI Hao2 (1.School of Automation Science and Electrical Engineering,Beihang University,Beijing 100191,China;2.Chengdu Aircraft Design Research Institute of AVIC,Chengdu 610091,China) The continuous deepening of the application of UAVs in all fields raises higher requirements to the autonomy of the UAVs.Through the simulation to human emotion decision-making process,we established a decision-making method based on emotional intelligence,and used it in the decision-making problems of UAV path planning and threat avoidance.The simulation results show that the method of decision-making based on emotional intelligence has better effect than the traditional method. UAV; emotion intelligence; intelligent decision V279 A 1671-637X(2017)03-0011-05 2016-03-29 2016-04-15 國(guó)家自然科學(xué)基金(61273349,61573042) 任天助(1992 —),男,北京人,碩士生,研究方向?yàn)闊o(wú)人機(jī)航路規(guī)劃算法。2.3 基于情感的行為選擇策略
3 仿真實(shí)驗(yàn)
3.1 簡(jiǎn)單靜態(tài)威脅場(chǎng)景的學(xué)習(xí)訓(xùn)練
3.2 在復(fù)雜靜態(tài)場(chǎng)景中的應(yīng)用
3.3 在動(dòng)態(tài)環(huán)境中的仿真實(shí)驗(yàn)
4 結(jié)束語(yǔ)