亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自主機器人多智能體軟件架構(gòu)及伴隨行為機制*

        2020-09-23 07:31:56毛新軍黃裕泓
        軟件學報 2020年6期
        關(guān)鍵詞:規(guī)劃智能環(huán)境

        毛新軍 , 楊 碩 , 黃裕泓 , 王 碩

        1(國防科技大學 計算機學院,湖南 長沙 410073)2(復雜系統(tǒng)軟件工程重點實驗室(國防科技大學),湖南 長沙 410073)

        隨著計算的泛在化及計算機應用的不斷拓展,計算機軟件與各類物理、社會系統(tǒng)深度融合,形成更為復雜的人-機-物共融系統(tǒng)已成為必然趨勢[1],由此產(chǎn)生新的研究問題和熱點[2].機器人是一類典型和復雜的信息物理系統(tǒng),軟件是其核心和關(guān)鍵,負責與外部環(huán)境進行交互、處理傳感數(shù)據(jù)、管理機器人資源、決策和控制機器人運行等等[3,4].近年來,機器人應用正從傳統(tǒng)的工廠、車間等典型工業(yè)制造領(lǐng)域逐步延伸到諸如醫(yī)療、家庭、娛樂等新穎的應用領(lǐng)域[5].這種應用變化的關(guān)鍵是:機器人的運行環(huán)境正從傳統(tǒng)的封閉、靜態(tài)、確定的單一環(huán)境(如生產(chǎn)車間)逐步過渡到開放、動態(tài)、難控和不確定的人-機-物高度融合的環(huán)境,進而對機器人行為的自主性、安全性、適應性和靈活性等提出了新的要求.本文針對運行在開放環(huán)境下、通過與環(huán)境持續(xù)交互和自主決策以實現(xiàn)任務的自主機器人[3,6],研究其控制軟件(control software of autonomous robot,簡稱CSAR)的設(shè)計和構(gòu)造問題,以支持機器人在開放環(huán)境下的有效和協(xié)調(diào)運行.

        不同于純粹的信息系統(tǒng)或者其他的信息物理系統(tǒng),自主機器人的行為具有多樣化和多目的性特點,既有物理行為(如移動和抓取)也有計算行為(如圖像檢測和識別等);既有達成任務實現(xiàn)、影響環(huán)境狀態(tài)的行為(稱為任務行為),也有觀察外部環(huán)境、主動獲取環(huán)境狀態(tài)的行為(稱為觀察行為).機器人的多樣行為通常由不同的軟硬構(gòu)件負責執(zhí)行,并在執(zhí)行時序、并發(fā)、交互等方面存在固有的復雜性.例如:機器人在實施任務行為(如通過機械臂抓取物品)時,需要同時實施觀察行為,從而為任務行為提供必要的輸入數(shù)據(jù)(如待抓取對象的位置信息).對于開放環(huán)境下的自主機器人而言,其控制軟件需要重點解決任務行為實施過程中的行為協(xié)調(diào)性和有效性問題.具體地講,行為協(xié)調(diào)性是指任務行為和觀察行為二者間要相互配合,任務行為需要通過觀察行為獲得行為實施所需的外部環(huán)境信息,觀察行為可獲取任務行為的實際執(zhí)行效果,并為行為的重規(guī)劃等提供決策依據(jù).行為有效性是指所規(guī)劃的任務行為和觀察行為以及它們之間的交互始終以任務為驅(qū)動,其結(jié)果最終能夠促使任務的有效達成.由于自主機器人所在環(huán)境變化的動態(tài)性和不可預知性、機器人行為實施效果的難控性和不確定性、機器人對外部環(huán)境變化感知的不準確性和不完整性,如何確保機器人行為的協(xié)調(diào)性和有效性,是CSAR 研究與實踐面臨的一項重大挑戰(zhàn).

        為了迎接上述挑戰(zhàn),CSAR 的研究與實踐需要解決兩個方面的關(guān)鍵問題.

        · 一是如何尋找有效的機制和方法來實現(xiàn)任務行為和觀察行為的協(xié)調(diào)和有效交互,這涉及自主機器人行為的決策、規(guī)劃和執(zhí)行等方面的研究.現(xiàn)有的研究通常直接將反應式控制理論[7]、控制環(huán)路的決策理論、自適應控制模型[8]、智能體的認知模型和決策方法[9]等應用到機器人領(lǐng)域,未能充分考慮開放環(huán)境對機器人行為決策和實施帶來的挑戰(zhàn),未能顯式區(qū)分和抽象機器人不同類型的行為.無論是反應式?jīng)Q策方法還是基于知識或者認知推理的決策方法[10,11],它們或者將機器人不同行為及其內(nèi)在關(guān)聯(lián)性在設(shè)計階段預先封裝和實現(xiàn)在相關(guān)行為規(guī)則中,導致機器人的行為缺乏靈活性和自主性,難以應對環(huán)境動態(tài)變化帶來的挑戰(zhàn);或者將機器人不同類別的行為集中封裝和固化在一起加以實現(xiàn),使得機器人不同類型行為之間的交互缺乏靈活性和協(xié)調(diào)性;

        · 二是如何為CSAR 的開發(fā)和運行提供軟件工程技術(shù)和支撐平臺.近年來,圍繞機器人控制軟件的研究與實踐有諸多的工作和成果,涉及自適應模型[8]、程序設(shè)計語言[9]、軟件架構(gòu)[10,12,13]、開發(fā)框架[14]等方面.然而,如何通過CSAR 的架構(gòu)設(shè)計來實現(xiàn)其行為的協(xié)調(diào)性和有效性,仍是一個開放的研究問題.

        本文針對自主機器人的特點及其在開放環(huán)境下行為協(xié)調(diào)、有效實施所面臨的挑戰(zhàn),提出了基于多智能體系統(tǒng)的 CSAR 架構(gòu) MaRSA;在此基礎(chǔ)上,設(shè)計了自主機器人的伴隨行為機制以及伴隨行為的自主決策算法DAAB(decision algorithm of accompanying behaviors).

        本文第1 節(jié)介紹相關(guān)的研究工作.第2 節(jié)介紹自主機器人的典型應用案例和場景,提出CSAR 的多智能體抽象模型以及基于組織理論的軟件架構(gòu)MaRSA.第3 節(jié)設(shè)計基于MaRSA 的自主機器人伴隨行為機制及行為決策算法.第4 節(jié)開展實驗及分析,以檢驗本文所提出架構(gòu)、機制和算法的可行性和高效性.最后,對本文工作進行總結(jié)和展望.

        1 相關(guān)工作

        1.1 自主機器人行為決策方法及軟件架構(gòu)

        (1) 反應式?jīng)Q策方法及基于反應式的層次式架構(gòu)

        在該方法中,行為決策的本質(zhì)是一個外部變化-響應規(guī)則的映射過程.環(huán)境變化觸發(fā)機器人決策系統(tǒng)中相應的反應式規(guī)則執(zhí)行,每個反應式規(guī)則描述了在什么情況下該執(zhí)行什么樣的動作.這種決策方式具有實現(xiàn)簡單、快速響應等優(yōu)點,能夠滿足機器人決策對實時性的要求;不足之處在于需要預先定義好規(guī)則且不具備行為的運行時規(guī)劃能力.基于反應式?jīng)Q策方法的機器人控制軟件通常采用層次式的架構(gòu),整個軟件由若干個相互交互、可并發(fā)執(zhí)行的反應式層次組成,每個層次對應于一個有窮狀態(tài)機,可接收感知輸入,控制效應器實施行為[15].各個層次的模塊單元獨立、平行工作,無需全局的指導和協(xié)調(diào).典型的工作有Brooks 的包容式體系結(jié)構(gòu)[7]、AuRA[16]、iB2C[17]等.

        (2) 基于Belief-Desire-Intention(BDI)范型的決策方法

        BDI 模型是Bratman 提出的一個著名Agent 決策模型,使用信念(belief)、愿望(desire)和意圖(intention)來解決智能體的決策問題.BDI 模型的基本假設(shè)是任何動作都由practical reasoning 的兩個步驟驅(qū)動[18],其中,第1 步為目標-商討(goal-deliberation),即根據(jù)Agent 的信念決定在當前狀況下哪些愿望是Agent 要追求的;第2 步為手段-目的推理(means-end reasoning),即如何使用Agent 可用的方法,實現(xiàn)上一步中的具體愿望.目前,已有各式各樣的基于BDI 模型的決策方法出現(xiàn)和廣泛應用,如PRS[19],JACK[20]和JADEX[21].當前,BDI 決策模型在機器人任務決策中應用最為廣泛的就是概率規(guī)劃方法(probabilistic planning)[22,23],其核心是引入先驗概率、后驗概率等概念,根據(jù)獲得的傳感器數(shù)據(jù)來估計機器人的信念狀態(tài).“概率估計”的決策方法能夠提高機器人規(guī)劃決策的準確性和魯棒性.

        (3) 混合式的決策方法和層次式的軟件架構(gòu)

        該方法將多種決策方法集成在一起,發(fā)揮每種方法的優(yōu)勢,既可支持行為的反應式實時響應,又可支持行為的持續(xù)性規(guī)劃,如Firby 提出的RAPs 系統(tǒng)[24]、Volpe 的CLARAty 系統(tǒng)[25].整個軟件系統(tǒng)由多個層次構(gòu)成,每個層次負責某種特定的決策方法,不同層次之間相對獨立.典型的層次式模型有SERA[12],walkman[17]等.

        1.2 自主機器人控制軟件的開發(fā)支持

        (1) 面向?qū)ο蠹夹g(shù)

        基于對象技術(shù)來實現(xiàn)控制軟件架構(gòu)及其構(gòu)件,其優(yōu)勢是具有良好的程序結(jié)構(gòu)和可重用性,有眾多面向?qū)ο蟪绦蛟O(shè)計語言的支持(如C++,Python 等),可有效支持自主機器人控制軟件的功能層、控制層和交互層等的開發(fā),如Miro[26],ARIA[27],Robotics API[28]等;但對象模型存在一些固有不足,如無法主動感知環(huán)境變化、不具有自主和自發(fā)的行為、一旦實例化之后其結(jié)構(gòu)和行為將無法改變等等,因而在支持CSAR 的自主決策層、自主管理層等方面有其局限性.

        (2) 基于構(gòu)件技術(shù)

        通過構(gòu)件接口的靈活組裝來滿足自主機器人軟件開發(fā)的不同需求,如可重用性、模塊化等.例如,Saddek Bensalem 等人提出了基于形式化構(gòu)件的方法以及相應的體系結(jié)構(gòu)LAAS 來開發(fā)可信的自主機器人軟件[10].基于構(gòu)件技術(shù)可有效支持軟件重用,但其很少關(guān)心自主機器人軟件決策層的行為自主性和自發(fā)性等問題以及管理層的自我管理問題,也沒有為此提供相應的支持,因而在支持自主機器人軟件的自主決策層、自我管理層等方面存在局限性.

        (3) 基于智能體技術(shù)

        借助多智能體系統(tǒng)的技術(shù)來設(shè)計和實現(xiàn)機器人控制軟件.該技術(shù)手段可充分發(fā)揮智能體技術(shù)的行為自主性、模塊獨立性等特點,為自主機器人軟件在決策層、管理層的開發(fā)提供元層支持,如:文獻[29]提出了基于主體的認知模型來支持自主機器人軟件的行為決策,文獻[30]提出了面向自主協(xié)同服務機器人的軟件體系結(jié)構(gòu)COROS 以封裝機器人軟構(gòu)件,文獻[31]提出了VOMAS 架構(gòu)以實現(xiàn)自主機器人在動態(tài)環(huán)境中的任務和角色轉(zhuǎn)換.然而,現(xiàn)有工作缺乏對于機器人軟件中多智能體協(xié)同機制的研究,尚未提供有效的多智能體架構(gòu)和協(xié)調(diào)機制,用于加強機器人控制軟件中不同構(gòu)件之間的交互以支持機器人協(xié)調(diào)地實施行為.

        2 自主機器人控制軟件的抽象模型和軟件架構(gòu)

        2.1 家庭服務機器人應用案例及任務場景

        家庭服務機器人(family service robot,簡稱FSR)運行在開放的房間中,可根據(jù)家庭成員的要求,幫助其完成特定的任務,如拿取水杯.由于環(huán)境的開放性,在實現(xiàn)任務的過程中,機器人的行為決策及實施受環(huán)境變化以及機器人動作執(zhí)行結(jié)果的不確定性等多種因素的影響.針對于搜尋水杯的過程中,機器人根據(jù)其與杯的相對位置規(guī)劃生成運動路徑,以移動到可拿取水杯的位置,其可能面臨以下兩方面問題.

        (1) 場景1:地面摩擦系統(tǒng)的差異性導致機器人的行為執(zhí)行存在偏差

        然而,機器人的運動環(huán)境是不可知的,且存在大量難以被其控制模型事先規(guī)約的因素,如地面的摩擦系數(shù).這些不可預知的因素容易導致預設(shè)的控制模型在任務執(zhí)行過程中出現(xiàn)與預期結(jié)果不一致的偏差.這些偏差可表現(xiàn)為運動過程中感知內(nèi)容的抖動現(xiàn)象.當抖動現(xiàn)象較為嚴重時,會導致機器人任務目標的識別出錯,從而妨礙任務的可持續(xù)執(zhí)行.為此,機器人需要在執(zhí)行過程中進行伴隨觀察,根據(jù)行為的實際執(zhí)行效果來適應性地調(diào)整規(guī)劃,維持機器人行為的協(xié)調(diào)性以確保實現(xiàn)任務.

        (2) 場景2:抓取對象的位置被移動導致機器人在行為執(zhí)行中丟失目標

        如圖1 所示,機器人在搜尋水杯的過程中,其所在的環(huán)境可能會發(fā)生動態(tài)變化,如水杯的位置發(fā)生變化,從而導致機器人任務目標丟失.環(huán)境的動態(tài)變化,可能導致機器人任務目標出現(xiàn)絮亂.當機器人的原先任務執(zhí)行策略失效時,其需要通過重規(guī)劃進行校正.為此,機器人需要輔助以觀察行為重新確定目標物體水杯位置,以指導后續(xù)行為決策的高效實施.

        Fig.1 Object searchscenario of FSR in open environment圖1 在開放環(huán)境下機器人搜尋物體的應用場景

        2.2 自主機器人控制軟件的MAS組織模型

        自主機器人是一個極為復雜的信息物理系統(tǒng).從結(jié)構(gòu)和行為視角上看,CSAR 具有以下一組特點.

        · 首先是構(gòu)成分布性.CSAR 包含多個軟構(gòu)件,它們分別承擔不同的職責和任務,分布在不同的計算節(jié)點上運行,如任務規(guī)劃構(gòu)件負責決策機器人行為、傳感構(gòu)件負責控制傳感器來感知環(huán)境信息等等;

        · 其次是行為自主性.各個軟構(gòu)件獨立運作、自主運行,如傳感器構(gòu)件根據(jù)其任務來自主地執(zhí)行相應的行為來獲取外部環(huán)境信息、分析感知數(shù)據(jù)、建立環(huán)境模型;

        · 第三是管理發(fā)散性.由于軟構(gòu)件的構(gòu)成分布性和行為自主性,CSAR 通常采用發(fā)散而非集中的方式來管理各個軟構(gòu)件;

        · 第四是運行協(xié)同性.各個軟構(gòu)件間通過交互和協(xié)作來共同完成任務,應對各種預期和非預期的變化,從而實現(xiàn)自主機器人的有效決策和協(xié)調(diào)運行.

        為了獨立于機器人的物理硬件(如馬達、機械臂等)和底層異構(gòu)技術(shù)細節(jié)(如運行平臺、編程語言等)來研究自主機器人的復雜行為及規(guī)律,本文針對CSAR 的特點為其提供高層抽象的軟件模型,以分析和揭示CSAR 的結(jié)構(gòu)和行為特征.本文針對 CSAR 的特點為其提供基于多智能體系統(tǒng)的高層抽象軟件模型,以分析和揭示CSAR 的結(jié)構(gòu)和行為特征.多智能體系統(tǒng)是指由多個相對獨立同時又相互作用的主體所構(gòu)成的系統(tǒng).在多智能體系統(tǒng)中:一方面,每個智能體都是自主的行為實體,封裝了行為以及行為控制機制,可以在無須外部指導的情況下實施行為,因而具有相對的獨立性了;另一方面,這些智能體并不是孤立的,它們之間存在各種關(guān)系,需要相互交互和協(xié)同,進而達成問題的求解.多智能體系統(tǒng)一個典型的特點是所有智能體是對等的,系統(tǒng)不存在具有全局控制能力的智能體,即可以完全控制其他智能體的行為以及環(huán)境狀態(tài)的變遷,它也不能對系統(tǒng)的運行進行充分和完全的協(xié)調(diào)和控制.多智能體系統(tǒng)(multi-agent system,簡稱MAS)的概念和思想可為復雜系統(tǒng)的研究提供抽象、分解和組織等技術(shù)手段,它用具有自主行為能力的“智能體”來抽象表示復雜系統(tǒng)中的行為實體,將復雜系統(tǒng)分解為由一組相對獨立但存在交互的智能體所構(gòu)成的多智能體系統(tǒng),并通過諸如聯(lián)盟、層次等形式來描述系統(tǒng)中不同智能體間的關(guān)系,進而來組織系統(tǒng)中的各個實體.

        本質(zhì)上,CSAR 可抽象為一組運行在特定環(huán)境(包括計算環(huán)境和物理環(huán)境)下相互協(xié)作的智能體所構(gòu)成的多智能體系統(tǒng),其抽象模型對應于一個五元偶〈AGENTS,ENV,TASKS,ROLES,BEHAVIORS〉.

        ·AGENTS={Agent1,Agent2,…,Agentn},n∈Integer.CSAR 由一組具有自主行為的智能體組成.每個智能體在系統(tǒng)中所起的作用、可執(zhí)行的動作、具有的能力與智能體在系統(tǒng)中所承擔的職責和扮演的角色密切相關(guān);

        ·ENV.任何機器人及其構(gòu)成的智能體都駐留在環(huán)境中并受環(huán)境的影響,CSAR 需要控制傳感器來獲取環(huán)境信息,通過對環(huán)境信息的分析建立起環(huán)境模型,并根據(jù)環(huán)境模型來規(guī)劃和決策機器人的行為.ENV={χ0,…,χk}表示環(huán)境狀態(tài)集合,χk指t時刻的環(huán)境狀態(tài),可由一組一階謂詞τ來表示,即:

        ·TASKS={T0,…,Tp-1}是自主機器人的包含p個子任務的任務集合,每一任務Ti(i∈[0,p])對應于一個序偶〈χk,χ*〉,描述了任務Ti的目標是要從初始狀態(tài)χk遷移至目標狀態(tài)χ*;

        ·ROLES={R-PLANNER,R-ACTUATOR,R-SENSOR,R-DISPATCHER,R-EXECUTOR,…},定義了CSAR 中的智能體可扮演的角色.例如:“R-PLANNER”負責規(guī)劃行為;“R-ACTUATOR”負責執(zhí)行任務行為;“RSENSOR”負責執(zhí)行觀察行為;“R-DISPATCHER”負責分發(fā)和調(diào)度規(guī)劃行為;“R-EXECUTOR”負責與機器人底層軟硬件系統(tǒng)交互,將抽象的行為轉(zhuǎn)化為底層的執(zhí)行指令;

        ·BAHAVIORS=BEHAVIORT∪BEHAVIORO,描述了自主機器人的兩類行為:一類是任務行為(taskachievement behavior,簡稱TB),其執(zhí)行將有助于任務的達成并會改變機器人的運行環(huán)境;另一類是觀察行為(observation behavior,簡稱OB),其執(zhí)行將獲取環(huán)境信息但不會改變環(huán)境狀態(tài).

        2.3 MaRSA架構(gòu)模式

        在基于MAS 的CSAR 模型中,不同智能體所承擔的職責、扮演的角色、達成的任務等是不一樣的,因此它們在軟件架構(gòu)中所處的地位和相互間的關(guān)系有所差別.在開放環(huán)境下,自主機器人的行為及其實施有其特殊性,具體表現(xiàn)為以下兩個方面.

        · 首先,任務行為的實施往往需要觀察行為的支持,以幫助任務行為獲得其執(zhí)行所需的數(shù)據(jù).例如在場景一靜態(tài)環(huán)境中,機器人需要以傳感器信息(如水杯離機器人的距離和角度)作為輸入來實現(xiàn)搜尋水杯的動作;

        · 其次,在變化的環(huán)境中,觀察行為的持續(xù)觀察結(jié)果可為任務行為的在線決策提供支持.例如在場景二動態(tài)環(huán)境中,由于水杯位置可能變化,持續(xù)性的并發(fā)式視覺觀察行為能夠支持規(guī)劃器適時做出在線決策,根據(jù)實時的感知結(jié)果規(guī)劃產(chǎn)生新的運動軌跡.

        針對上述特點,在分析和設(shè)計CSAR 時,有必要顯式地區(qū)分機器人的任務行為和觀察行為,并通過加強二者之間的伴隨執(zhí)行,以支持行為的協(xié)調(diào)性和交互性.這就需要在軟件架構(gòu)層面合理地組織CSAR 中的智能體、明確它們之間的關(guān)系以及加強不同智能體之間的協(xié)同,從而在行為層面為自主機器人的伴隨行為機制設(shè)計奠定基礎(chǔ).

        在面向智能體軟件工程研究領(lǐng)域,人們通常將多智能體系統(tǒng)視為社會化的組織,借助組織理論以及社會組織模式的思想來指導軟件架構(gòu)的設(shè)計[32].Structure-in-5 是一類典型的組織結(jié)構(gòu)模式,它是指一個組織可由5 個承擔不同職責的子組織構(gòu)成.它們處于組織中的3 個不同層次,分別承擔不同的職責和義務:處于頂層的子組織稱為“戰(zhàn)略頂點(strategic apex)”,負責制定組織的總體戰(zhàn)略;底層的子組織稱為“執(zhí)行核心(operational core)”,負責執(zhí)行相關(guān)的活動以落實頂層制定的總體戰(zhàn)略;中間層有3 個不同的子組織結(jié)構(gòu),分別是“技術(shù)結(jié)構(gòu)(technostructure)”“輔助(support)”和“中間代理(middle agency)”,負責落實頂層制定的戰(zhàn)略并為底層的執(zhí)行和操作提供標準、服務和資源等,起到上傳下達、監(jiān)管下層的活動、輔助下層開展工作等功效.

        基于CSAR 的特點及其MAS 組織模型,CSAR 軟件架構(gòu)可視為是一種特殊的Structure-in-5 組織模式(如圖2 所示),將其稱為MaRSA.

        Fig.2 CSAR’s software architecture MaRSA based on structure-in-5圖2 基于structure-in-5 的CSAR 架構(gòu)MaRSA

        處于架構(gòu)頂層的智能體為任務規(guī)劃器AgentR-PLANNER,負責規(guī)劃和決策自主機器人的行為;中間層包含3 類智能體,分別是任務行為效應器智能體AgentR-ACTUATOR、傳感器智能體AgentR-SENSOR、規(guī)劃調(diào)度器智能體AgentR-DISPATCHER,它們負責落實頂層的行為規(guī)劃,并為下層的動作執(zhí)行提供支持,其中,AgentR-DISPATCHER負責將頂層生成的規(guī)劃分發(fā)到AgentR-PLANNER和AgentR-SENSOR去執(zhí)行,AgentR-ACTUATOR負責實例化和實施任務行為,AgentR-SENSOR負責實例化和實施觀察行為;處于底層的智能體稱為執(zhí)行器AgentR-EXECUTOR,負責執(zhí)行機器人的控制程序,通過機器人的底層接口來控制機器人的運動.本文提出的基于Structure-in-5 組織結(jié)構(gòu)的多智能體系統(tǒng)架構(gòu),在智能體的功能抽象上具有顯著的層次性,即高層抽象規(guī)劃到底層感知和實施.然而從系統(tǒng)運行角度看,此多智能體系統(tǒng)架構(gòu)呈發(fā)散式組織結(jié)構(gòu),即該架構(gòu)沒有統(tǒng)一的控制中心,所有智能體都是自主管理和運行的.每個智能體之間的運行不存在嚴格層次上的依賴關(guān)系.當某一功能組件智能體出現(xiàn)故障,系統(tǒng)的其他智能體可以通過自適應調(diào)整重新進行交互以實現(xiàn)系統(tǒng)功能,從而提高系統(tǒng)的健壯性.關(guān)于故障情況下智能體自適應調(diào)整,這一工作是本文的后續(xù)研究工作的重點.本文所提出的架構(gòu)采用Structure-in-5 組織的多智能體系統(tǒng),通過功能抽象將一個復雜的自主機器人控制軟件分解為多個獨立自主運行和管理的智能體組件,每個智能體都定義了其主動交互行為,能夠通過統(tǒng)一的交互協(xié)議和模式與其他智能體進行配合,極大降低了架構(gòu)的組織復雜性,便于系統(tǒng)組件的組織和管理.

        不同于一般的Structure-in-5 結(jié)構(gòu),CSAR 軟件架構(gòu)MaRA 在以下二方面做了進一步的增強,以支持機器人觀察行為和任務行為之間的協(xié)調(diào)和有效交互.

        (1) 觀察行為與任務行為交互的協(xié)調(diào)性

        在MaRSA 的中間層,AgentR-ACTUATOR依賴于AgentR-SENSOR所提供的感知信息,并依此來指導任務行為的實施.這意味著AgentR-ACTUATOR所執(zhí)行的任務行為與AgentR-SENSOR所執(zhí)行的感知行為之間存在伴隨性,也即任務行為的執(zhí)行需要觀察行為的輔助,觀察行為所獲得的感知信息將為任務行為的實施提供支持.AgentR-ACTUATOR行為與AgentR-SENSOR行為的伴隨性意味著在機器人運行過程中,其觀察行為是“按需的”和“有針對性的”,而非“盲目的”和“無所事事的”.

        (2) 觀察行為與任務行為交互的有效性

        在 MaRSA 的頂層和中間層之間,當AgentR-SENSOR與AgentR-ACTUATOR采取持續(xù)性并發(fā)交互模式時,AgentR-PLANNER可依賴AgentR-SENSOR所反饋的實時感知信息進行適應性在線決策.根據(jù)每一時刻獲得的感知反饋,AgentR-PLANNER做出當前環(huán)境狀態(tài)下的理性規(guī)劃.這種根據(jù)任務行為和觀察行為之間的協(xié)調(diào)交互始終以任務為驅(qū)動,兩類行為的協(xié)調(diào)交互結(jié)果最終能夠促使任務目標有效達成.

        概括起來,CSAR 的MaRSA 架構(gòu)具有以下特點.

        · 首先,以智能體作為基本的軟構(gòu)件形態(tài),每個智能體不僅封裝了數(shù)據(jù)和動作,而且還具有自主的行為,從而確保軟構(gòu)件能夠獨立自主的運行,具有更好的封裝性和可重用性;

        · 其次,發(fā)散式管理.MaRSA 架構(gòu)的智能體之間雖然存在層次性的組織關(guān)系,但是它們是對等的,不存在中心控制節(jié)點,整個系統(tǒng)采用發(fā)散性的管理方式,降低了系統(tǒng)組織和管理的復雜度;

        · 第三,協(xié)調(diào)運行.MaRSA 架構(gòu)的不同智能體之間基于依賴關(guān)系(包括任務、目標和資源依賴等)來進行交互和協(xié)同,如AgentR-ACTUATOR行為與AgentR-SENSOR行為之間的伴隨性,從而使得整個系統(tǒng)能夠在整體上以一種協(xié)調(diào)的方式來運行,提高了系統(tǒng)應對變化的能力.

        3 基于MaRSA 的伴隨行為機制及決策算法

        本節(jié)介紹自主機器人的伴隨行為機制,以支持自主機器人的協(xié)調(diào)和有效行為實施.

        3.1 伴隨行為及伴隨關(guān)系

        3.1.1 伴隨行為定義

        在CSAR 中,機器人的任務行為和觀察行為之間在執(zhí)行時序、數(shù)據(jù)交互、指令控制等方面存在交互,以實現(xiàn)相互間的協(xié)作,促進任務的完成、應對各種非預期的變化.本文將任務行為與觀察行為間的上述關(guān)系稱為伴隨行為.在執(zhí)行過程中兩類行為所形成的伴隨交互關(guān)系構(gòu)成了本文伴隨行為機制設(shè)計的基礎(chǔ)(如圖3 所示).

        Fig.3 Accompanying interaction relationships between task behaviorsand observation behaviors圖3 任務行為與觀察行為的伴隨交互關(guān)系

        定義1(任務行為).任務行為是面向機器人任務實現(xiàn)的一組行為動作,其實施將使得環(huán)境狀態(tài)發(fā)生變化,逐步遷移至目標狀態(tài),從而支持任務的實現(xiàn).一個任務行為p定義為三元偶p=〈?,δ,ε〉,其中,?代表該任務行為的前提條件,δ代表其實施中需滿足的不變條件,而ε則代表該任務行為成功執(zhí)行后的預期效果.

        例1:以抓取水杯任務行為pickUp為例,其前提條件?為:{(at cup cupboard),(at robotroomA)},其中,(at cup cupboard)表示當前環(huán)境狀態(tài)下水杯位于櫥柜中,(at robotroomA)表示當前機器人位于房間A中;不變條件δ定義為{collision free},預期效果ε定義為{(carry robot cup),not (at cup cupboard)}.

        定義2(觀察行為).觀察行為指機器人為獲得環(huán)境狀態(tài)信息而實施的感知行為.一個觀察行為定義為二元偶q=〈φ,ξ〉,其中,φ為觸發(fā)觀察的條件,ξ表示該觀察行為所需觀察的對象.

        例2:以機器人所實施的觀察行為observe(location?=kitchen)為例,其對應的觸發(fā)條件φ=(location?=kitchen)為對應任務行為pickUp的預期效果,由此可推斷出φ=not (at cup cupboard)和ξ=cupboard.

        3.1.2 伴隨行為關(guān)系

        在開放環(huán)境下,任務行為和觀察行為間的伴隨交互具有以下3 類關(guān)系:因果性、時序性和按需性.

        (1) 因果性

        因果伴隨關(guān)系指任務行為與觀察行為之間具有明顯的“因-果”的特點.在開放環(huán)境中,機器人執(zhí)行任務行為需要相應的環(huán)境狀態(tài)作為輸入,由此產(chǎn)生的環(huán)境觀察需求構(gòu)成“因”.觀察行為則由于任務行為執(zhí)行的需要被規(guī)劃、調(diào)度和執(zhí)行,其獲取的感知輸入作為“果”,從而為任務行為的執(zhí)行和決策提供依據(jù).

        定義3(因果伴隨關(guān)系).當任務行為p的前提條件p(?)、不變條件p(δ)或預期效果條件p(ε)與觀察行為q的待判斷條件q(φ)相一致,即p(?)|p(δ)|p(ε)=q(φ),則說明任務行為p和觀察行為q之間存在因果伴隨關(guān)系,記為

        例3:對于圖4 中的任務行為p=Move(roomA,roomB)而言,其前提條件p(?)=(at robotroomA)表示該行為的執(zhí)行前提是機器人初始位置為roomA;其過程條件為(collision free),表示該行為在執(zhí)行過程中需要保證機器人始終處于障礙物的安全距離;預期效果描述為(at robotroomB),即當該行為結(jié)束后,機器人應位于目的地roomB.當對任務行為的這些條件進行分析以獲知該任務行為的執(zhí)行情況時,需要由相應的觀察行為q=observe〈(at robotroomA),location〉的支持.例如,需要判斷p(?)=(at robotroomA)是否滿足.為此,機器人應采取相應的觀察行為予以觀察和分析,如通過攝像頭觀察機器人當前所處環(huán)境的信息,進而來分析和判斷機器人所處的房間位置.由任務行為的規(guī)約條件所產(chǎn)生的“因”,促使機器人采取針對性的觀察行為,從而來感知相關(guān)的“果”,從而為任務行為的條件判斷提供信息來源.

        (2) 時序性

        機器人任務行為的執(zhí)行具有持續(xù)性的特點,即任務行為的實施是持續(xù)性過程而非瞬時過程.在任務行為的執(zhí)行過程中可能產(chǎn)生不同的觀察需求,觀察行為需要滿足一定的時序約束來輔助不同階段的任務行為執(zhí)行需求.例如:在任務行為執(zhí)行過程中,觀察行為需要進行持續(xù)性伴隨,使得任務執(zhí)行過程始終獲得對環(huán)境狀態(tài)的實時感知,增強任務執(zhí)行的感知性;當任務行為執(zhí)行結(jié)束后,觀察行為需要進行伴隨觀察,以獲得任務行為的實際執(zhí)行效果.

        Fig.4 Causal-effect relationship between task behaviors and observation behaviors圖4 任務行為與觀察行為間的因果關(guān)系

        定義4(時序伴隨關(guān)系).對于任務行為p和觀察行為q這兩類持續(xù)性行為,任務行為的3 種規(guī)約條件分別定義了該行為執(zhí)行的3 個時序特征:執(zhí)行前(before)、執(zhí)行中(during)和執(zhí)行后(after).相應地,當觀察行為q在不同的時間階段與任務行為p在執(zhí)行時序上存在相應的時序關(guān)系:執(zhí)行前(p?q)、執(zhí)行中(p∨q)以及執(zhí)行后(p?q).則稱任務行為p和觀察行為q在執(zhí)行時序上滿足一定的時序關(guān)系,記為RELATIONtemporal(p,q,?),其中,?代表?,?或∨.

        例4:如圖5 所示,任務行為p=Move(roomA,roomB)執(zhí)行前(?)以及執(zhí)行后(?),機器人需要執(zhí)行相應觀察行為q=observe〈(at robotroomA),location〉或者q=observe〈(at robotroomB),location〉來觀察當前環(huán)境狀態(tài).這樣的觀察行為往往只執(zhí)行一次,只需反饋當前環(huán)境狀態(tài),不需要進行持續(xù)性觀察.相反,在該任務執(zhí)行期間,機器人需要采取持續(xù)性的觀察行為對環(huán)境狀態(tài)進行感知,實時更新環(huán)境中相關(guān)狀態(tài)的變化情況,以支持在實施過程中對任務行為的安全條件進行持續(xù)性、實時性的判斷.

        Fig.5 Temporal relationship between taskbehaviorsand observation behaviors圖5 任務行為與觀察行為的時序關(guān)系

        (3) 按需性

        觀察行為的觀察目標和伴隨反饋通常是按需執(zhí)行的,針對任務行為執(zhí)行過程中所需的輸入需求,機器人需要實施不同的觀察行為.因此,任務行為的執(zhí)行輸入與觀察行為的感知結(jié)果間存在語義方面的相關(guān)性,即觀察行為所產(chǎn)生的語義結(jié)果將作為任務行為的輸入信息,我們將這種伴隨關(guān)系稱之為按需伴隨.

        定義5(按需伴隨關(guān)系).對于任務行為p,當其蘊含的觀察需求p(?)ξ,p(δ)ξ或p(ε)ξ能夠被觀察行為q的觀察結(jié)果q(ξ)所滿足,即p(?)ξ∨p(δ)ξ∨p(ε)ξ?q(ξ),則稱任務行為p與觀察行為q間存在按需伴隨關(guān)系,記為

        例5:通過建立起與任務相關(guān)的環(huán)境語義模型,任務行為與觀察行為之間可以實現(xiàn)有針對性、按需性的伴隨,具體體現(xiàn)在:當任務行為中某一條件需要進行判斷時,機器人會根據(jù)該條件所隱含的具體語義信息,實施相應的觀察行為,從而獲得相應的語義結(jié)果.當任務行為p=Move(roomA,roomB)中前提條件p(?)=(at robotroomA)需要被判斷是否滿足時,機器人需要去觀察機器人當前所處位置,而這種對位置環(huán)境(roomA)的觀察往往可以通過觀察是否存在相應的標志性物體(obj)來實現(xiàn).在此情況下,觀察行為q=observe〈(at robotroomA),obj〉與該任務行為構(gòu)成按需伴隨關(guān)系.

        3.2 伴隨行為的自主決策算法

        基于自主機器人的上述軟件架構(gòu)和伴隨行為機制,自主機器人控制軟件需要解決伴隨行為的自主決策及實施問題.本文介紹伴隨行為的決策算法DAAB(decision algorithm of accompanying behaviors),它采用分步規(guī)劃和動態(tài)決策的思想.

        · 分步規(guī)劃:第1 步為全局任務規(guī)劃,即根據(jù)機器人的任務,通過經(jīng)典任務規(guī)劃算法,規(guī)劃出機器人的任務行為序列;第2 步為伴隨行為規(guī)劃,針對每一個執(zhí)行任務,為其行為規(guī)劃出所需的觀察行為以及它們之間的交互.分步規(guī)劃將兩類行為的規(guī)劃過程交由不同的規(guī)劃器智能體執(zhí)行,該方法可降低規(guī)劃過程的復雜度,并提高行為決策的靈活性;

        · 動態(tài)決策:觀察行為的規(guī)劃過程與當前任務行為的執(zhí)行狀態(tài)相關(guān),觀察行為與任務行為通過伴隨行為約束建立運行時的動態(tài)關(guān)系,而非在任務行為規(guī)劃和執(zhí)行之前事先制定.這種動態(tài)決策的方式實現(xiàn)了觀察與任務行為之間的松耦合伴隨,有助于提高伴隨行為實施的靈活性.整個自主決策過程如圖6 所示.伴隨行為決策算法包含兩部分:任務行為決策和伴隨行為決策.

        Fig.6 Two-step decision-making process of accompanying behaviors圖6 伴隨行為的二階段決策過程

        (1) 任務行為決策算法

        根據(jù)任務描述,任務行為的決策算法可規(guī)劃出一組有序的任務行為序列,該任務序列在理想狀態(tài)下能夠?qū)崿F(xiàn)機器人由初始狀態(tài)到達目標狀態(tài),從而實現(xiàn)任務.算法1 中,任務行為規(guī)劃算法T(X0,X*)的輸入為任務描述Π,其定義了機器人任務的問題域和規(guī)劃域模型.算法首先遍歷所有可用的任務行為p=〈?,δ,ε〉,若該任務行為的前提條件在當前初始狀態(tài)下可滿足,即X0?p(?),則將任務行為p加入可行序列集P中.從集合P中逐個遍歷每一可用行為pi,采取一步預測方法,預測該行為在初始狀態(tài)X0下執(zhí)行后的預期效果,即中,機器人任務行為的預期效果可以通過其行為模型進行預測.

        算法1.任務行為規(guī)劃算法T(X0,X*).

        輸入:任務描述Π=(X0,X*,P);

        輸出:一組有序任務行為序列P=[p1,…,pn].

        1.當初始狀態(tài)與目標狀態(tài)一致,即X0=X*,任務行為序列為空集P=?;

        2.當某一任務行為p=〈?,δ,ε〉在初始狀態(tài)X0可執(zhí)行,即X0?p(?),則p∈P;

        3.遍歷可行序列集P中每一個任務行為pi=〈?i,δi,εi〉,預測其在初始狀態(tài)X0下執(zhí)行后的預期效果,即得:

        5.輸出一組有序任務行為序列P=[p1,…,pn].

        圖7 舉例展示了機器人的任務行為Move(roomA,roomB)的行為模型,該模型定義了行為執(zhí)行的前提條件、不變條件以及預期效果(at robotroomB).在每一步的任務行為決策時,算法通過輪詢當前每個可用任務行為模型中的預期效果,同時依次取,并繼續(xù)在當前所有任務行為中選取當前狀態(tài)X0下可行任務行為pj,并將其加入可行序列集P中.重復上述過程,直至達成目標狀態(tài),即X0=X*,此時得到的可行序列集P即為一組有序任務行為.

        Fig.7 Action model of task behavior Move(roomA,roomB)圖7 機器人任務行為Move(roomA,roomB)的行為模型

        (2) 伴隨行為決策算法

        針對任務規(guī)劃所決策產(chǎn)生的每一個任務行為,伴隨行為規(guī)劃算法根據(jù)伴隨關(guān)系約束,規(guī)劃產(chǎn)生對應的觀察行為以及觀察行為與任務行為間的交互.算法2 以算法1 所產(chǎn)生的任務行為序列P=[p1,…,pn]以及前述伴隨關(guān)系約束為輸入,輸出一組符合伴隨交互關(guān)系的任務-觀察伴隨行為.針對每一任務行為p的執(zhí)行,該決策算法會依據(jù)伴隨關(guān)系的約束條件產(chǎn)生相應的觀察行為,以輔助當前任務行為的執(zhí)行.當任務行為pi執(zhí)行之前,算法會依據(jù)其前提條件p(?i)在觀察行為庫尋找合適的觀察行為q,使得該觀察行為與任務行為符合伴隨因果關(guān)系p(?i)=q(φ);同時,觀察行為的觀察結(jié)果符合該任務行為的觀察需求p(?i)?q(ξ).此時,觀察行為q與該任務行為構(gòu)成前序時序關(guān)系pi?q,觀察行為在任務行為執(zhí)行前進行環(huán)境觀察.當任務行為pi執(zhí)行過程中,若存在觀察行為q能夠?qū)θ蝿招袨榈倪^程條件進行觀察,并且觀察結(jié)果滿足其觀察需求,即p(δi)=q(φ),p(δi)?q(ξ),則觀察行為q與任務行為pi構(gòu)成并發(fā)時序關(guān)系pi∨q,觀察行為在任務行為執(zhí)行過程中進行觀察活動.同樣,在任務行為pi執(zhí)行結(jié)束后,若觀察行為q滿足p(εi)=q(φ),p(εi)?q(ξ),則觀察行為q與任務行為pi構(gòu)成后序時序關(guān)系pi?q,觀察行為在任務行為執(zhí)行結(jié)束后觀察.

        算法2.伴隨行為決策算法A(P,RELATIONcausal-effect,RELATIONtemporal,RELATIONon-demand).

        輸入:任務行為序列P=[p1,…,pn],RELATIONcausal-effect,RELATIONtemporal和RELATIONon-demand;

        輸出:一組伴隨執(zhí)行的任務/觀察行為序列O=[p1,q1,p2,q2,…].

        1.任務規(guī)劃器基于任務描述Π=(X0,X*,P)由算法1 的T(X0,X*)產(chǎn)生一組任務行為:X0+X*→P=[p1,…,pn];

        2.對于每一子任務行為pi=〈?i,δi,εi〉∈P的執(zhí)行,在執(zhí)行前,當存在觀察行為q=〈φ,ξ〉使得p(?i)=q(φ),p(?i)?q(ξ)且pi?q,則調(diào)度觀察行為q在任務行為pi前執(zhí)行;

        3.在執(zhí)行過程中,當存在觀察行為q=〈φ,ξ〉使得p(δi)=q(φ),p(δi)?q(ξ)且pi∨q,則調(diào)度觀察行為q在任務行為pi執(zhí)行過程中并發(fā)執(zhí)行;

        4.在執(zhí)行結(jié)束后,當存在觀察行為q=〈φ,ξ〉使得p(εi)=q(φ),p(εi)?q(ξ)且pi?q,則調(diào)度觀察行為q在任務行為pi執(zhí)行結(jié)束后執(zhí)行;

        5.當無滿足伴隨關(guān)系的觀察行為時,繼續(xù)執(zhí)行下一任務行為pi+1,直至任務結(jié)束.

        4 實驗分析

        本節(jié)介紹論文所開展的實驗,分別針對環(huán)境變化和行為執(zhí)行結(jié)果不確定兩種應用場景,對比分析基于MaRSA 架構(gòu)和伴隨行為機制的DAAB 算法所生成的行為規(guī)劃在達成任務實現(xiàn)方面的可行性和高效性.

        4.1 實驗設(shè)計

        針對第2.1 節(jié)所描述的開放環(huán)境下自主機器人任務實現(xiàn)所面臨的二類典型挑戰(zhàn),分別在基于仿真的機器人實驗環(huán)境和基于真實機器人的實驗環(huán)境中開展實驗.基于仿真環(huán)境的實驗主要用于模擬機器人行為執(zhí)行結(jié)果的不確定性,通過設(shè)置地板的摩擦系數(shù),使得機器人在移動過程中產(chǎn)生運動偏差,以此來表征機器人行為執(zhí)行的不確定性.基于真實機器人的實驗主要研究當機器人的外部環(huán)境發(fā)生變化時,如人為地移動水杯的位置,機器人如何通過伴隨行為來快速地定位目標并進行重規(guī)劃,以高效率地完成任務.

        4.1.1 基于固定目標搜索的仿真實驗

        為了驗證所提出的方案對機器人任務執(zhí)行過程中協(xié)調(diào)性的支持,本文于仿真環(huán)境下進行目標物體位置不變、運動環(huán)境存在大量干擾因素的目標跟蹤實驗.基于V-REP 仿真器,使用NAO 機器人模型、水杯模型等構(gòu)筑仿真案例場景.在仿真場景中(如圖8 所示),機器人需要尋找固定位置的目標水杯.然而,由于地面摩擦系數(shù)較小以及機器人運動系統(tǒng)的固有偏差,機器人在該環(huán)境下的移動存在較大的方向和距離偏差,從而導致感知及結(jié)果的抖動現(xiàn)象出現(xiàn).這種行為執(zhí)行上的不確定性導致機器人在運動過程中容易偏離規(guī)劃軌跡,視覺系統(tǒng)容易丟失目標水杯,從而導致已決策的任務規(guī)劃不可行.在此仿真實驗中,根據(jù)機器人的視野調(diào)整與目標水杯之間的對應關(guān)系,我們通過機器人最終能否順利到達目標水杯的位置,來評估算法所決策生成規(guī)劃對機器人動作的協(xié)調(diào)性.仿真實驗中地面摩擦參數(shù)設(shè)置見表1.

        Fig.8 Simulated scenario for uncertainties in robot plan execution圖8 針對行為執(zhí)行結(jié)果不確定的仿真實驗場景

        Table 1 Parameter settings of contacting floor in the simulator表1 仿真環(huán)境地面摩擦參數(shù)設(shè)置

        4.1.2 基于動態(tài)目標搜索的真實機器人實驗

        為了驗證所提出的方案對機器人生成任務決策的高效性,本文于實際環(huán)境中進行目標物體位置變化、無明顯運動環(huán)境干擾因素的目標跟蹤實驗.基于真實機器人的實驗建立在雙足人形機器人NAO 硬件平臺(操作系統(tǒng)版本1.14)之上,在室內(nèi)環(huán)境中設(shè)置真實的水杯來構(gòu)造真實的實驗環(huán)境(如圖9 所示).在此實驗中,NAO 機器人運行在開放的室內(nèi)環(huán)境中,在實現(xiàn)任務的過程中,待抓取機器人的位置會發(fā)生變化.在此情況下,機器人所決策生成的規(guī)劃變得不可行,機器人需要通過觀察行為來搜尋并確定目標對象的位置,依此來指導機器人的行為決策及執(zhí)行,并進行高效的重規(guī)劃過程.

        Fig.9 Indoor scenario based on real robot to take the target with changed position圖9 基于真實機器人、針對拿取對象位置動態(tài)變化的實驗場景

        4.2 實驗結(jié)果及其分析

        上述仿真和真實場景通過以下數(shù)據(jù)評估本文DAAB 算法所生成的行為規(guī)劃在達成任務實現(xiàn)方面的可行性和高效性.

        (1) 世界坐標系中機器人距目標物體的距離CoordinateDistance 與機器人視野中目標物體與視野中心的距離ObjectVisionDistance.通過這兩種距離的變化情況,得以判斷所決策的行為能否以及多大程度上有助于任務的實現(xiàn),評估決策算法所生成的規(guī)劃在達成任務實現(xiàn)方面的可行性;

        (2) 機器人從初始位置到目標位置所用時間,即完成任務所需的時間TaskTime,以及任務實現(xiàn)過程中從任務重規(guī)劃到重新執(zhí)行階段所用時間AdjustmentTime.評估決策算法所生成的規(guī)劃在任務實現(xiàn)方面的高效性.

        4.2.1 實驗對比算法的選擇

        實驗選取了在自主機器人行為決策領(lǐng)域的二類主流算法進行對比和分析:反應式行為決策算法[7]和基于BDI 模型的概率決策算法[23].這兩種決策算法中,對機器人的觀察行為和執(zhí)行行為沒有進行顯式區(qū)分和建模,在決策時也沒有考慮這二類行為之間的伴隨.實驗通過與這兩種決策算法進行對比,評估DAAB 算法所生成的規(guī)劃在支持任務實現(xiàn)方面的可行性和高效性.本文基于文獻[23]復現(xiàn)了基于BDI 模型的概率決策方法,其主要算法思想(文獻[23]中算法4)是:通過對機器人觀察結(jié)果的概率估計來更新機器人信念狀態(tài),并根據(jù)當前信念狀態(tài)選擇下一步行為.基于此算法思想,本文復現(xiàn)了如圖10(c)所示的BDI 式機器人決策算法.通過反饋信息,計算機器人當前行為執(zhí)行的信念值.結(jié)合這一信念值與意圖行為序列,生成一組行為以縮短機器人與目標物體之間的距離.同樣,基于文獻[7]中提出的基于反應式方法,本文在復現(xiàn)算法中考慮直接根據(jù)反饋的感知信息輸出相應的控制行為,無更高層次的規(guī)劃和推理過程.如圖10(b)所示,機器人的控制系統(tǒng)通過上層決定的控制結(jié)果來驅(qū)動下層控制行為的執(zhí)行,以條件觸發(fā)的形式進行反應式的行為調(diào)整.

        圖10 展示了這3 種決策方法的規(guī)劃過程及產(chǎn)生的規(guī)劃結(jié)果.伴隨行為決策過程中,機器人根據(jù)目標在視野中相對位置進行決策,使其位于視野中心,DAAB 算法最終產(chǎn)生的為觀察行為和任務行為伴隨執(zhí)行的伴隨行為規(guī)劃.反應式?jīng)Q策過程中,機器人根據(jù)目標與機器人的相對位置直接生成控制參數(shù)來驅(qū)動機器人運動,以快速應對目標與機器人的相對位置變化.基于BDI 模型的概率決策過程根據(jù)目標與機器人的相對位置來獲取機器人對任務執(zhí)行的信念值,并通過概率模型來表征機器人的控制參數(shù)變化期望與任務實現(xiàn)的意圖,從而在保證任務執(zhí)行效率的同時提高任務執(zhí)行的穩(wěn)定性.反應式行為決策算法和基于BDI 模型的概率決策算法由于沒有顯式區(qū)分機器人的觀察行為和任務行為,因此產(chǎn)生的規(guī)劃為傳統(tǒng)的任務規(guī)劃.本文提供3 種對比算法的實現(xiàn)源碼,以供讀者進一步理解上述算法思想(https://github.com/yangshuo11/Accompanying-Behavior-Planning-Algorithmsfor-Structure-in-5-Architecture.git).

        Fig.10 Accompanying behavior,reactive behavior and BDI-based probabilistic planning processes圖10 伴隨行為決策算法、反應式行為決策算法和基于BDI 模型的概率決策算法的決策過程和規(guī)劃結(jié)果

        4.2.2 仿真場景下的實驗數(shù)據(jù)及分析

        仿真場景下,機器人距離目標物體的距離以及機器人對目標物體的觀察狀態(tài)如圖11 和圖12 所示.

        Fig.11 Global distance between robot and target in the simulated scenario圖11 仿真實驗中在世界坐標系下機器人與目標物體間的距離

        Fig.12 Distance between target and robot vision center in the simulated scenario圖12 仿真實驗中,在機器人視野中目標物體與視野中心的距離

        從圖11 中可知:在反應式?jīng)Q策方法中,機器人在180s 摔倒從而任務執(zhí)行失敗;在基于BDI 的概率規(guī)劃方法中,機器人在210s 完成給定任務抵達水杯附近;基于MaSRA 的DBBA 算法的完成任務時間為320s.因此,本文提出的DAAB 算法以及BDI 概率決策算法所產(chǎn)生的規(guī)劃在實現(xiàn)任務執(zhí)行過程中具有較高的可行性,而反應式?jīng)Q策算法所產(chǎn)生規(guī)劃可行性相對較差.下面具體分析其原因.

        反應式的決策過程中,機器人與目標物體的距離快速縮小,但最終出現(xiàn)斷崖式下跌,即機器人摔倒.基于BDI的方法使得機器人與目標物體的距離先是迅速縮小到1.5m 左右的位置處,之后呈平緩變化并出現(xiàn)快速下跌過程.而本文提出的DAAB 算法使得機器人與目標物體的距離長期呈現(xiàn)一個平穩(wěn)變化的過程.結(jié)合圖12 可以發(fā)現(xiàn):當機器人能夠持續(xù)發(fā)現(xiàn)目標物體時(0s~100s 內(nèi)),由于反應快速,反應式?jīng)Q策方法能夠根據(jù)目標物體與機器人的相對位置支撐機器人直接轉(zhuǎn)向并持續(xù)運動.BDI 決策方法與反應式?jīng)Q策方法類似.而本文提出的DAAB 算法則由于其需要長期保持目標物體位于視野中心,因此會花費大量時間開銷在伴隨行為間的切換過程,效率較反應式的決策過程相對較低.就反應式與BDI 方法而言,當機器人接近目標物體時,目標物體頻繁脫離機器人視野(在圖12 中表現(xiàn)為距離值達到400 pixel),而基于伴隨行為的DAAB 算法仍能長期保持觀察到目標物體.因此出現(xiàn)了圖11 中,反應式方法距離的斷崖式下跌以及BDI 方法的距離變化明顯減緩而基于伴隨行為的方法距離變化仍較為穩(wěn)定.為了分析反應式?jīng)Q策算法所產(chǎn)生的規(guī)劃的低可行性原因,本文將結(jié)合圖13 反應式?jīng)Q策方法過程進一步闡述.

        如圖13 所示,對于反應式?jīng)Q策方法,由于機器人運動過程中的抖動,目標物體在機器人視野中總是出現(xiàn)于視野邊緣,機器人容易丟失目標物體.特別當機器人抵達目標物體附近時,運動抖動對機器人觀察視野的影響將被放大.因此出現(xiàn)了如圖12 所示的現(xiàn)象:在100s 后,機器人抵達目標物體附近時,目標物體在機器人視野中出現(xiàn)頻繁丟失,機器人需要不斷原地旋轉(zhuǎn)來搜尋目標物體.由于極大的轉(zhuǎn)動慣量及光滑地面的影響,導致機器人摔倒和任務失敗.同時,我們進一步分析采用伴隨行為的DAAB 算法與基于BDI 的概率決策方法所產(chǎn)生規(guī)劃的高可行性的原因.對于DAAB 算法,由于機器人需要通過頻繁的觀察行為與任務行為間的調(diào)度,其能保證目標物體處于機器人視野中心.對于BDI 的概率規(guī)劃方法,機器人總是能夠根據(jù)前段時間的物體對機器人的相對信息賦予任務執(zhí)行以信念值.當信念值較高時,機器人將以較高的速率運動.當機器人運動受阻時,該模型將暫時降低任務執(zhí)行的信念值,以任務實現(xiàn)意圖為驅(qū)動保證機器人任務的順利執(zhí)行,如50s~90s 期間的平緩運動.

        Fig.13 Robot movement and observation results at different time in reactive behavior planning process圖13 反應式?jīng)Q策過程中,不同時刻的NAO 機器人的運動及觀察結(jié)果

        4.2.3 真實場景下的實驗數(shù)據(jù)及分析

        圖14 展示了機器人在DAAB 算法所產(chǎn)生的伴隨行為規(guī)劃下的機器人運動狀態(tài).

        Fig.14 NAO robot movement results of different time in accompanying behavior planning process圖14 伴隨行為決策過程中,不同時刻NAO 機器人的運動狀態(tài)

        整個運動過程分為4 個階段.

        · 階段1:當機器人運動一段距離后,在機器視野范圍內(nèi)直線后移目標物體(15s 處);

        · 階段2:在機器做出進一步運動后,快速將目標物體往某一方向進行偏移(20s 處);

        · 階段3:當機器人找到目標物體并進一步運動一段時間后,快速將目標物體往另一個方向進行偏移(22s處);

        · 階段4:當機器人再次找到目標物體并進一步運動一段時間后,快速將目標物體移置到機器人背后(53s處).

        在階段1 與階段2 的過程中,DAAB 算法的規(guī)劃總是能夠保持目標物在機器人視野中,并持續(xù)面向目標物體運動.對于階段3,由于目標物體的移動速率較快且偏移幅度相對于階段2 而言是其偏移量的兩倍,機器人不能快速地跟蹤目標物體的變化,因此出現(xiàn)了第1 次較長的目標物體丟失狀態(tài),在此情況下,機器人并未丟失目標物體信息,而是通過記錄的歷史信息按目標物體的偏移方向持續(xù)轉(zhuǎn)動,最終能盡可能快地發(fā)現(xiàn)目標物體所在.對于階段4,由于人為的控制導致了目標物體位置相對于機器人而言出現(xiàn)了劇烈的變化,因此出現(xiàn)了第2 次較長的目標物體丟失狀態(tài).這一次的目標物體丟失狀態(tài)由于變化較為明顯,并且機器人完全丟失了目標物體信息,從而觸發(fā)了搜尋目標物體狀態(tài).在重新發(fā)現(xiàn)目標物體后,機器人快速調(diào)整自身狀態(tài)并向目標物體移動.由此,相比其他兩種決策算法,DAAB 算法所決策的行為所生成的規(guī)劃在根據(jù)變動的目標調(diào)整機器人觀察行為過程中具有更好的可行性.

        表2 展示了真實場景下機器人在任務執(zhí)行各階段的時間開銷及任務執(zhí)行的總時間開銷.首先,從任務執(zhí)行的總時間開銷來看,基于MaSRA 的DAAB 算法的時間開銷遠低于其余兩種方法.其原因在于:反應式?jīng)Q策算法中,機器人的視野調(diào)整會出現(xiàn)大量擾動,目標物體長期處于機器人的視野邊緣.在這一情況下,當目標物體出現(xiàn)即使如階段1 的較小幅度變化,機器人也會由于對環(huán)境觀察過程的延時導致機器人完全丟失目標物體信息,從而觸發(fā)大量的搜尋過程.因此當環(huán)境動態(tài)變化時,反應式的決策方法由于花費大量時間用于目標物體搜尋過程,因此其時間開銷遠大于基于伴隨行為的決策方法.基于BDI 的概率決策方法同樣由于短期記憶的失效附加以目標物體處于視野邊緣,因此機器人多次丟失目標物體信息而觸發(fā)大量搜尋過程.而基于MaSRA 的DAAB 算法受益于其靈活的觀察行為與任務行為的調(diào)度,機器人總是能快速發(fā)現(xiàn)目標物體,從而避免了大量的搜尋過程.特別的,就BDI 而言,當目標物體丟失時,由于其固有運動期望的影響,BDI 的搜尋過程時間開銷較反應式更長.基于此分析,雖然BDI 在靜態(tài)環(huán)境中,任務執(zhí)行效率最高,但是當環(huán)境復雜多變時,BDI 模型難以適應環(huán)境變化.而基于MaSRA 的DAAB 算法由于其靈活的行為調(diào)度,在靜態(tài)環(huán)境中運動效率不高,但當機器人處于動態(tài)變化的環(huán)境中時,其就任務執(zhí)行效率的優(yōu)勢將得以展現(xiàn).反應式的方法就任務執(zhí)行效率介于其二者之間.由此說明,基于MaSRA 的DAAB 算法所產(chǎn)生的規(guī)劃在機器人任務動態(tài)變化時將具有更高的高效性.

        Table 2 Time costs of 4 execution phases and the total time of task execution in real-world environment表2 真實機器人4 個任務執(zhí)行階段的時間開銷及任務執(zhí)行總時間開銷

        5 結(jié)束語和未來工作

        本文針對開放環(huán)境下自主機器人任務執(zhí)行所面臨的行為決策和實施的挑戰(zhàn),根據(jù)自主機器人控制軟件的構(gòu)成分布性、行為自主性、管理發(fā)散性、運行協(xié)同性等特點,開展了自主機器人控制軟件的架構(gòu)、伴隨行為機制和決策算法的研究,取得了3 個方面的研究成果和貢獻.

        (1) 采用組織理論的思想,提出了基于Structure-in-5 組織架構(gòu)的自主機器人控制軟件架構(gòu)MaRSA.該架構(gòu)顯式抽象和封裝了自主機器人的任務行為和觀察行為,實現(xiàn)了自主機器人控制軟件的感知和執(zhí)行功能相分離,并能夠促進任務行為實施構(gòu)件與觀察行為實施構(gòu)件間的靈活交互和協(xié)同;

        (2) 提出了自主機器人的伴隨行為機制,從時序、按需、因果這3 個方面描述和規(guī)約了任務行為和觀察行為間的伴隨交互關(guān)系,從而為自主機器人的有效和協(xié)調(diào)運行提供了核心運行機制支持;

        (3) 設(shè)計了基于二階段、動態(tài)規(guī)劃思想的伴隨行為自主決策算法,將伴隨行為的決策延后到任務行為實施過程中進行,降低了伴隨行為決策的復雜度,提高了自主機器人伴隨行為決策和實施的靈活性.

        本文分別在仿真環(huán)境和實際機器人環(huán)境下設(shè)計了對比性實驗,結(jié)果表明:與主流的反應式行為決策算法和BDI 式概率決策算法相比較,基于MaRSA 和伴隨行為機制的DAAB 算法所生成的伴隨行為規(guī)劃在開放環(huán)境下具有可行性和更高效的執(zhí)行效率.

        未來將圍繞以下幾個方面開展研究工作:(1) 面向多任務多目標的行為決策機制及算法的設(shè)計,支持多目標任務決策的優(yōu)化;(2) 自主機器人的支撐軟件平臺,支持自主機器人控制軟件的開發(fā)、部署和運行;(3) 結(jié)合具體的應用場景,開展基于實際機器人的應用開發(fā)和演示.

        猜你喜歡
        規(guī)劃智能環(huán)境
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學習的虛擬仿真環(huán)境
        孕期遠離容易致畸的環(huán)境
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        規(guī)劃引領(lǐng)把握未來
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        亚洲狠狠婷婷综合久久| 国产成人精品cao在线| 亚欧乱色束缚一区二区三区| 久久成人黄色免费网站| 精品福利一区二区三区| 丰满熟妇乱又伦精品| 国产精品白丝喷水在线观看| 亚洲 日韩 在线精品| 国产女主播大秀在线观看| 国产精品亚洲а∨无码播放| 北条麻妃国产九九九精品视频 | 国产精品久久久久尤物| 久久丁香花综合狼人| 久久精品国产亚洲av日韩一| 久久精品亚洲熟女av蜜謦| 99久久免费国产精品| 亚洲一本大道无码av天堂| 热久久亚洲| 久久亚洲春色中文字幕久久久综合| 蜜桃18禁成人午夜免费网站| 亚洲av无码之国产精品网址蜜芽| 久久人人97超碰超国产| 日韩国产自拍精品在线| 黄色一区二区三区大全观看| 国产成人精品白浆久久69| 亚洲丁香婷婷综合久久小说| 久久久亚洲精品蜜臀av| 亚洲三级中文字幕乱码| 亚洲 日韩 激情 无码 中出 | 97超碰精品成人国产| 国产人妻精品无码av在线| 456亚洲人成影视在线观看| 福利视频一二区| 中文字幕文字幕一区二区| 91色老久久偷偷精品蜜臀懂色 | 亚洲三级中文字幕乱码| 久久久久亚洲精品无码网址蜜桃| 丰满女人又爽又紧又丰满| 中文字幕成人精品久久不卡| 免费在线不卡黄色大片| 亚洲免费观看视频|