趙 月,沈 博,武文亮,周興社
西北工業(yè)大學 計算機學院,西安710129
隨著機器人技術的發(fā)展和社會需求的進一步提高,機器人的應用領域不斷擴展。在機器人的許多新的應用領域,例如復雜產(chǎn)品裝配、無人機自主作業(yè)、快遞物流分揀、深海生物勘探等,多機器人通過協(xié)作可以完成單個機器人難以完成甚至無法完成的復雜任務,集群機器人應運而生。
集群機器人在個體機器人不斷進化的基礎上,重點考慮個體之間有機協(xié)作以及群體及其環(huán)境的交互。集群機器人能否表現(xiàn)出期望的群體行為及相應的智能特性,以及在不同的群體規(guī)模和運行環(huán)境下,如何準確評估群體系統(tǒng)能力并預測其行為,是集群機器人行為分析研究的重點。
對真實的集群機器人進行實物驗證,成本高昂且耗時較長。而模擬仿真的集群機器人實驗雖然運行較快,但是當集群機器人中的個體機器人與其他個體或者環(huán)境交互,特別是當機器人試圖在實際任務和不受控制的環(huán)境中執(zhí)行復雜任務時,無法連續(xù)觀察不斷變化的個體對群體行為的影響。此外,隨著集群機器人規(guī)模的不斷擴大,模擬仿真的運行效率也受到限制,無法反映真實集群機器人的行為及其可擴展性。不同于實物實驗驗證和模擬仿真,數(shù)學建模提供了一種補充方法。建模是系統(tǒng)行為的抽象化表示,通過模型構建,抽象出集群機器人行為的關鍵特征,揭示其群體活動機理,可快速有效地預測行為演化,評估其性能變化。與仿真與真實的實驗驗證相比,建模有助于開發(fā)人員深入了解集群機器人行為的基本特征和內在機理,以有效支撐集群機器人系統(tǒng)優(yōu)化設計與高效評估。
集群機器人的設計靈感主要來自于對螞蟻、蜜蜂、大雁等群居動物行為的觀察與啟發(fā),是一種分布式多機器人系統(tǒng)。在集群機器人中,個體能夠在物理環(huán)境中自主感知并行動,個體之間通過協(xié)作從而產(chǎn)生復雜的群體智能行為。
集群機器人可由同構或異構的機器人構成。同構的集群機器人中,每一個機器人結構與能力相同,均能完成任何其他機器人的任務,集群機器人能夠靈活且魯棒地適應多種任務。異構機器人群體由具有不同設計或功能的機器人組成,這些機器人功能互補多樣,可有效地協(xié)作完成某些特定任務。利用集群異構可執(zhí)行需要專業(yè)能力的任務。
集群機器人最終目標是在動態(tài)可變、真實復雜的環(huán)境中活動,執(zhí)行預定任務。根據(jù)活動空間可分為水下(如無人潛艇)、水上(如無人船)、地面(如無人車)和空中(如無人機)以及空間(如月球車)等集群機器人。依據(jù)應用領域可分為工業(yè)、農(nóng)業(yè)、家用等集群機器人。
集群機器人具有以下特點:
(1)局部感知。在復雜的工作任務及多變的工作環(huán)境下,集群機器人需要通過協(xié)調或協(xié)作完成個體機器人無法或難以完成的任務,以實現(xiàn)共同的目標。群體中個體機器人僅具有局部感知及與相鄰通信的能力,只能獲得關于環(huán)境和集體活動的局部信息,無法獲得全局信息。個體并不知道群體中的機器人數(shù)量,也不知道全局目標。只能通過與其他個體或它們所處的環(huán)境交互來收集信息,并傳播到整個集群機器人系統(tǒng),群體根據(jù)這些信息做出決策。
(2)自主組織。集群機器人可以通過自主更新其結構組織使群體能夠自主適應任務或環(huán)境變化,通過個體機器人協(xié)作實現(xiàn)任務優(yōu)化分配,在添加或刪除個體時自動更新其拓撲結構。自主組織是機器人協(xié)作結果,個體之間正負反饋相互作用,從而協(xié)調所有機器人使群體具有某種特定組織行為。
(3)分布控制。集群機器人的行為協(xié)調是分布式的,即個體之間通過協(xié)調,決定群體行為統(tǒng)一變化。分布式計算復雜性可以獨立于群體規(guī)模,同時也減少了與集中處理相關的延遲和實時性等問題,避免了集中分析可能產(chǎn)生的計算過載。
集群機器人的主要優(yōu)勢是可變環(huán)境條件下的靈活性、適應個體故障的魯棒性以及不同群體規(guī)模的可擴展性。
(1)靈活性。群體中的個體能夠協(xié)調自身行為以適應不同環(huán)境和各種任務。在集群機器人中,個體具有獨立性和自主性,能夠解決給定的子問題,自主地推理和規(guī)劃并選擇適當?shù)牟呗?,以特定的方式影響環(huán)境。局部通信和分布式控制使得多個自主機器人通過協(xié)作和信息共享也可完成復雜任務。
(2)魯棒性。集群機器人中的個體故障可被另一個個體快速替換。單個或幾個機器人的故障并不意味著群體任務失敗,不會嚴重影響群體全局任務執(zhí)行。集群機器人的感知、執(zhí)行與協(xié)調是分散的。群體某一特定部分的破壞不會使其停止運作。因此,集群機器人對環(huán)境中的擾動、局部個體的失效和故障并不敏感,具有強魯棒性。
(3)可擴展性。集群機器人的分布式協(xié)調機制可確保群體在不同規(guī)模下運行,易于擴展。允許個體動態(tài)加入或離開群體。系統(tǒng)結構不經(jīng)更新,參數(shù)不必修改,即可適應不同的群體規(guī)模。
集群機器人呈現(xiàn)出的靈活性、魯棒性、可擴展性等特點,在軍用與民用各類場景得到廣泛應用。集群機器人可通過團隊合作,低成本、高效率地完成任務,對未來社會將產(chǎn)生巨大影響,可以有效提高人們的生活質量,提升工農(nóng)業(yè)及國防現(xiàn)代化水平。集群機器人研究與應用不僅可推動群體智能理論進步,也為其技術落地提供驅動力。因此,國內外學術與科研機構已開展較多集群機器人研究,在理論和實踐方面均取得重要進展。
群體行為研究始于對生物群體(如螞蟻、蜜蜂等)行為的觀察。群居生物的集體常表現(xiàn)出超越個體的智能行為。隨著群體智能的發(fā)展,群體行為的含義遠遠超出了對生物仿生行為的理解。在集群機器人中,群體行為是指多個自主運動體作為一個整體,通過個體與個體間及個體與環(huán)境間的交互與協(xié)作過程,涌現(xiàn)出的整體行為。
集群機器人空間組織行為指集群機器人在其運行空間的自主運動,通過群體中各機器人在環(huán)境中協(xié)同合作而完成某種任務的行為,包括群體聚集、群體分散、群體編隊、群集運動、群體運輸、群體搜索、群體導航等。更復雜的群體行為,如群體覓食、圍捕、搜索救援等,均由這些行為組合而成。
(1)群體聚集。群體聚集即對一定數(shù)量的自治個體發(fā)生聚集現(xiàn)象,這是一種基本的群體行為,同時也是眾多集群機器人系統(tǒng)應用的一個重要基礎。諸多集群機器人的應用場景均需分散的個體機器人聚集行動。
(2)群體分散。群體分散是指群體中的個體互相遠離使距離最大化,以覆蓋盡可能多的區(qū)域,但個體之間仍需保持在彼此的通信范圍內。群體分散是群體聚集的反向行為,對大面積區(qū)域進行監(jiān)測、覆蓋等都需要集群機器人進行群體分散行動。
(3)群體編隊。圖案形成是指機器人之間保持特定的距離,按照一定的形狀對自身進行排列以便組成所需圖形模式。其中形狀可以是預先定義的圖案,也可以是通過與鄰近機器人和環(huán)境的局部交互以自組織、自適應方式形成。例如,在空間中按照一定的優(yōu)先關系,有序排列成鏈路為其他機器人導航,方便其他機器人完成指定序列任務,完成下水道、管道、隧道或狹窄通道的監(jiān)視和勘測。
(4)群集運動。群集運動是相互作用的個體模擬陸地上獸群的奔跑、天空中鳥群的聚集飛行等行為所構成的一種群體行為,所有個體都保持相同的運動模式,以相同的速度運動,并且保持群體內的凝聚力。群集行為中,個體之間存在相對運動,宏觀上以群的方式在空間中移動。
(5)群體運輸。群體運輸是指多個機器人協(xié)調動作,按照明確的方向將物體移向目標區(qū)域,如集群機器人的典型實驗——推箱子,將特定物體從原始地點運送到目標地點。真實場景中,參與救援行動的群體將物體運送到安全地點,在此過程中需要不斷判斷距離和速度,并避讓障礙物體等。
(6)群體搜索。群體搜索是指群體在特定環(huán)境中協(xié)同導航進行探索,完成獲取環(huán)境概況、搜索對象、監(jiān)視環(huán)境或建立通信網(wǎng)絡等任務。群體搜索中,核心問題是集群機器人如何有效地穿越未知的、不可預測的極端環(huán)境區(qū)域。一般來說,尋找目標和覓食均可看作是搜索任務,因此群體搜索應用廣泛,包括行星探索、圍獵目標、應急救援等。
(7)群體導航。群體導航是指集群機器人基于地圖,實現(xiàn)從起始點前進到目標點的過程。群體導航一般需要有環(huán)境和定位的信息,根據(jù)這些信息就可以得知目標點以及感知的障礙物信息進行路徑規(guī)劃。群體導航是集群機器人領域的一項重要任務,可分為兩類:全局導航和局部導航。在全局導航中,應具備環(huán)境的先驗知識。在局部導航中,機器人可以使用配備的傳感器自主決定或控制其運動和方向。
集群機器人以個體機器人能力為基礎,目標是在沒有中央控制節(jié)點和全局信息的限制條件下實現(xiàn)系統(tǒng)級的群體協(xié)調。然而,在分布式環(huán)境下,個體無法獲得全局信息,純粹的局部合作有時并不能保證系統(tǒng)目標的實現(xiàn)及性能的最優(yōu),群體行為難以預測。建??梢悦枋龊皖A測集群機器人的整體行為。
集群機器人可以在微觀與宏觀兩個不同的層次建模,大多數(shù)集群機器人建模方法關注宏觀或微觀一個層次。微觀建模根據(jù)系統(tǒng)行為定義個體之間及個體與環(huán)境之間的交互規(guī)則,更關注個體的局部特征,可以刻畫一些細節(jié)的局部行為,具有較高的精度。微觀建模通常需要從初始化的群體中抽取樣本或降維,才能獲得統(tǒng)計上有意義的結果,但是這導致了較高的計算需求。個體簡單的局部規(guī)則和復雜的全局屬性之間的關系是間接的,需要根據(jù)具體的系統(tǒng)級目標設計局部規(guī)則,從而保證系統(tǒng)層面行為。宏觀建模更為抽象,往往忽略個體的局部特征,通常選取能夠代表系統(tǒng)行為的狀態(tài)平均量,通過簡化環(huán)境中的交互作用和抽象行為建立模型。宏觀建模將各個體參數(shù)與群級別的動力學聯(lián)系起來,可以快速并且容易捕捉到全局的定性特征,從而產(chǎn)生更具解釋力的描述。使用宏觀模型,可以直接評估參數(shù)的影響,通??梢灾庇^地對集群機器人的全局動力學進行分析。
隨著集群機器人系統(tǒng)研究的不斷深入,集群機器人行為建模近年來受到學術界的普遍重視,研究人員已經(jīng)提出了多種不同的建模方法。本文依據(jù)建模方法機理要素,將其分為圖論、仿生模型、動力學模型以及學習模型,如圖1 所示,并在以下章節(jié)分別闡述。
圖1 集群機器人空間協(xié)作行為模型構建方法Fig.1 Modeling method of spatial cooperative behavior of swarm robots
圖是由若干給定的頂點及連接兩頂點的邊所構成的圖形,通常用來描述某些事物之間的某種特定關系。有限狀態(tài)機和馬爾可夫鏈都是有向圖。
(1)方法概述
圖論是以圖為研究對象,圖論中的圖是由若干給定的點及連接兩點的線所構成的圖形,用點代表事物,用連接兩點的線表示相應兩個事物間的關系。圖可以是無向圖,每個邊相關聯(lián)的兩個點之間沒有方向。圖也可以是有向的,邊從一個點指向另一個點。
在集群機器人空間協(xié)作領域,如果將環(huán)境模型建模為圖,圖由點和邊表示,機器人的路徑即從圖中某個頂點到達另一個頂點所經(jīng)過的路徑,在實際應用中可以理解為從某點出發(fā)抵達目標點所經(jīng)過的路線。
(2)應用實例
建立環(huán)境模型是求解集群機器人路徑問題的基礎和前提。目前應用比較廣泛的建模方法有柵格法、可視圖法和自由空間法等。柵格法以柵格為單位記錄環(huán)境信息,環(huán)境被量化成具有一定分辨率的柵格,柵格的大小直接影響著環(huán)境信息,存儲量的大小、規(guī)劃時間的長短,是影響路徑規(guī)劃效果的重要因素,且隨柵格數(shù)的增加,算法復雜度急劇增加。因此,柵格法不適用于障礙物比較密集、環(huán)境空間相對狹窄而實時規(guī)劃要求高的路徑規(guī)劃問題??梢晥D法和自由空間法建立的環(huán)境模型為幾何數(shù)據(jù)模型,矢量數(shù)據(jù)有嚴密的數(shù)據(jù)結構,可以建立事物之間的拓撲關系,能夠描述空間關系,但數(shù)據(jù)結構復雜、數(shù)據(jù)更新困難。3D 地圖和其對應的部分柵格地圖如圖2所示。
圖2 3D 地圖和其對應的部分柵格地圖Fig.2 3D map and a part of corresponding grid map
圖的優(yōu)點是,可以用矩陣代數(shù)中的各種運算來研究圖的結構特征及性質。經(jīng)過環(huán)境建模之后,集群機器人路徑問題就相應地轉換成在圖中求解路徑的問題。目前已經(jīng)為集群機器人平臺開發(fā)了廣泛的基于圖論的搜索算法,其中大多數(shù)集中在最短路徑問題上,如Dijkstra、A*、Floyd 和SPFA(shortest path faster algorithm)等。
Dijkstra 實質是廣度優(yōu)先搜索,可以保證搜索的節(jié)點一定是從起點開始到當前的最小距離的路徑,可準確獲取全局最優(yōu)路徑。但是Dijkstra不知道目標節(jié)點的位置,它必須向所有方向擴展,因此空間復雜度和時間復雜度都比較高,且所處理的圖中不能有負權邊。Dijkstra也可以用在3D 環(huán)境中進行搜索。
A*算法加入了目標節(jié)點的信息,提升了搜索效率。但是該算法計算量大,內存占用多,且由于自身算法的局限性使得搜索出來的路徑并非最優(yōu)。當目標點很多時,如果不要求獲得具體路徑而只比較路徑長度時,Dijkstra算法會成為更好的選擇。
Floyd 偏向多源最短路徑求解,用鄰接矩陣存儲,可以處理負邊權,但不能處理負環(huán)。Floyd 能夠求出任意兩個節(jié)點的最短路徑。Floyd 和Dijkstra 兩種方法的時間復雜度相同,但Floyd 形式上更簡易。
SPFA 算法通常用于求含負權邊的單源最短路徑,以及判斷負權環(huán),在隨機圖上的優(yōu)勢明顯。為了避免最壞情況的出現(xiàn),在正權圖上應使用效率更高的Dijkstra算法。
如果以集群機器人個體或網(wǎng)絡中的移動傳感器為節(jié)點,圖論可用于表征個體之間信息交互關系和狀態(tài)。機器人占據(jù)圖的點,機器人之間的距離或通信狀態(tài)為有向圖的邊,通過設計距離反饋率來約束集群機器人的空間位置關系。
(3)適用場景
圖在集群機器人中得到了廣泛的應用,如編隊、圍捕、避障、導航、覆蓋等。在解決兩點間最短距離問題上尤具優(yōu)勢,具有實時重規(guī)劃性能突出、算法最優(yōu)性較好的特點,在動態(tài)環(huán)境中廣泛適用,但所需的計算和存儲資源通常較多。
(1)方法概述
有限狀態(tài)機(finite state machine,F(xiàn)SM)對事物運行規(guī)律進行抽象,表示有限個狀態(tài),以及狀態(tài)之間的轉移。有限狀態(tài)機是一種用來進行系統(tǒng)行為建模的工具,描述對象在其生命周期內所經(jīng)歷的狀態(tài)序列,處理各種事件和狀態(tài)切換,以及響應來自外界的各種事件。
(2)應用實例
集群機器人的空間協(xié)作行為通常很容易建模為有限狀態(tài)機。FSM 是描述系統(tǒng)順序行為的強大工具,有助于將問題劃分為更小的單元,同時提供對過程的清晰和全局概述,其輸出不僅取決于輸入,還取決于機器人當前狀態(tài)或計劃執(zhí)行階段(例如機器人是向前還是向后)。FSM 被廣泛用于集群機器人的宏觀和微觀建模,通常將機器人的幾個相關的動作或行為看作單一的狀態(tài)來粗化模型,表示狀態(tài)之間的轉換。
在使用概率有限狀態(tài)機(probabilistic finite state machine,PFSM)進行集群機器人空間協(xié)作行為微觀建模時,其核心思想是將集群機器人行為描述為一系列隨機事件。每個機器人由PFSM 表示,狀態(tài)的轉換取決于機器人之間、機器人與環(huán)境之間的交互概率。概率由某些協(xié)作特性或系統(tǒng)實驗計算得出,也可使用固定的轉移概率值。切換到新狀態(tài)的概率通常與機器人的當前狀態(tài)有關。在群體聚集行為中,機器人隨機游走,當機器人發(fā)現(xiàn)到其他機器人時,可根據(jù)有限范圍內的機器人數(shù)量決定是否加入該群體。處于某個群體中的機器人也可以以一定概率離開該群體,繼續(xù)隨機行走。在PFSM 建模中,概率可以簡單地定為一個固定值,在群體搜索中,如圖3 所示,PFSM 定義了六種不同狀態(tài)之間的變化,分別為暫停、轉彎、搜索、前往目標、返回、行走,機器人在有限的范圍內進行通信。
圖3 集群機器人搜索中的有限狀態(tài)機Fig.3 Finite state machine in swarm robot search
在宏觀模型中,單個PFSM 直接描述整個機器人群體,其中每個狀態(tài)代表特定時間步內的平均隊友數(shù)。如使用PFSM 為集群機器人搜索建模時,狀態(tài)機中有搜索、收集目標、返回等固定狀態(tài),每個狀態(tài)表示處于該狀態(tài)的個體平均數(shù)量。在群體搜索建模中,文獻[10]將其建模為一個三態(tài)PFSM,將搜索簡化為擴散、搜索和目標處理。在集群機器人圍捕中,基于FSM 原理可建立機器人狀態(tài)轉換的FSM 模型,機器人在其運動周期內的每一次實時策略選擇的過程,以及各種運動狀態(tài)的選擇與轉換策略,均可用FSM 描述。
(3)適用場景
FSM 易于理解,可讀性和可維護性高。如果需要添加更多狀態(tài),只需聲明新的狀態(tài)轉移方法。FSM代表了一種使用簡單構造部件來形成強大系統(tǒng)的方法。同時,F(xiàn)SM 使系統(tǒng)的后續(xù)更改和診斷變得容易。如果要修改FSM,通常只在單點進行,修改不影響輸出設置。FSM 容易測試。如果機器人發(fā)生故障,通常很容易檢測到是在什么狀態(tài)下發(fā)生的,因此可以顯著高效地執(zhí)行重復性任務。
理論上,F(xiàn)SM 根據(jù)集群機器人的不同狀態(tài)切換不同的策略,實現(xiàn)多狀態(tài)的同步切換。但將導致系統(tǒng)嚴重依賴于狀態(tài)的識別精度,F(xiàn)SM 難以保證切換過程中控制量的連續(xù)性,容易使系統(tǒng)處于不穩(wěn)定或臨界穩(wěn)定狀態(tài)。且該方法可擴展性較差,對大規(guī)模群體進行微觀建模,將面臨狀態(tài)空間爆炸。
FSM 在集群機器人中應用廣泛,可以用于集群機器人聚集、搜索、編隊等空間協(xié)作行為建模。PFSM建模特點是通過概率來確定狀態(tài),可用于集群機器人隨機行為的表達,不依賴于數(shù)學函數(shù)。
(1)方法概述
馬爾可夫鏈是一組具有馬爾可夫性質的離散隨機變量的集合。隨機變量的條件概率滿足如下關系:
如果第時刻上的取值依賴于且僅依賴于第-1時刻的取值,即馬爾可夫鏈。服從馬爾可夫性質的系統(tǒng),其未來狀態(tài)只取決于當前狀態(tài)而不是過去,僅根據(jù)輸入和當前執(zhí)行的動作來決定未來的動作,這些系統(tǒng)也可以表示為馬爾可夫過程。時間和狀態(tài)都是離散的馬爾可夫過程稱為馬爾可夫鏈。
形式上,馬爾可夫鏈可以看成一個概率狀態(tài)機,以一定的概率在各個狀態(tài)之間跳轉。馬爾可夫鏈是一個基于隨機過程的狀態(tài)機,隨機過程是描述不確定系統(tǒng)的基礎。馬爾可夫鏈允許無限的狀態(tài)空間,其轉換由概率描述,轉移概率只能取決于當前狀態(tài)。馬爾可夫鏈中的轉換是概率性的而不是確定性的,這意味對時刻的狀態(tài)并不確定。
(2)應用實例
馬爾可夫不確定理論可以解決滿足馬爾可夫性質的集群機器人在不確定性環(huán)境下的感知、規(guī)劃和學習等問題。在預測方面,對于不確定因素的估計,馬爾可夫模型可使用經(jīng)驗概率來創(chuàng)建初始的概率分布、狀態(tài)轉移矩陣,從而對具體的集群機器人空間協(xié)作行為開展進一步的研究。利用時不變齊次的馬爾可夫鏈對無人機(unmanned aerial vehicle,UAV)路徑規(guī)劃問題建模,如圖4所示,其中為狀態(tài)轉移概率。
圖4 馬爾可夫鏈對無人機路徑規(guī)劃問題建模Fig.4 UAVs path planning based on Markov chain
集群機器人根據(jù)馬爾可夫性可表達為:
(,)為集群在時刻機器人數(shù)的分布,那么+Δ時的分布為(,+Δ),則邊緣密度概率為:
從這個方程中可以看出集群機器人在各狀態(tài)下其數(shù)量隨著時間的變化而變化,從中可以觀察系統(tǒng)的動態(tài)變化。馬爾可夫鏈也可以轉換成一個差分方程或微分方程組,主要用于跟蹤每個狀態(tài)下機器人的平均數(shù)量,總結平均狀態(tài)轉換。
在集群機器人中,每個機器人個體的狀態(tài)空間可用馬爾可夫鏈表示。利用馬爾可夫鏈可引導集群機器人達到期望的空間分布,將馬爾可夫鏈的轉移概率的副本發(fā)給每個機器人,每個機器人都將其位置作為馬爾可夫鏈的統(tǒng)計進行實時傳播。假設每個機器人都知道自己的位置,并且移動到馬爾可夫鏈所指示的位置,群體作為一個整體收斂到期望的穩(wěn)態(tài)分布,表現(xiàn)出涌現(xiàn)行為。在群體覆蓋行為中,覆蓋環(huán)境復雜多變,個體攜帶的傳感器存在精度誤差,局部的可觀測性和環(huán)境存在不確定性。馬爾可夫鏈建模集群機器人的動態(tài)覆蓋,覆蓋過程的不確定性可與個體的速度、通信范圍和模型參數(shù)相結合。
近年來,馬爾可夫鏈與增強學習被應用于航跡的在線實時規(guī)劃,集群機器人空間協(xié)作行為形式復雜,且需要在線實時更新調整,靜態(tài)的傳統(tǒng)規(guī)劃方法并不適合動態(tài)不確定的場景,馬爾可夫鏈為不確定性規(guī)劃提供了具有理論支撐的形式化描述手段。在航跡規(guī)劃中,任務及環(huán)境是完全可觀的,可以利用狀態(tài)轉移逐步進行區(qū)域的探索和預測,通過機器學習來提高集群機器人處理復雜未知環(huán)境的能力,保證規(guī)劃的可執(zhí)行性。
(3)適用場景
馬爾可夫鏈在集群機器人空間協(xié)作行為建模中得到了廣泛應用,例如群體聚集、群體覆蓋、避障等。馬爾可夫鏈根據(jù)歷史數(shù)據(jù)分析總結出變化規(guī)律,實際使用的主要是狀態(tài)和概率。馬爾可夫鏈是概率模型,每一個時間點的觀測值體現(xiàn)為狀態(tài)值,所謂狀態(tài)值即某一個類別的概率。馬爾可夫鏈是研究離散事件動態(tài)系統(tǒng)狀態(tài)空間的重要模型,適用于集群機器人空間按協(xié)作行為中基于序列的過程,如時間序列、狀態(tài)序列。
許多科學家從生物中尋求新的用于人造系統(tǒng)的靈感,從生物進化的機理中發(fā)展出適合于現(xiàn)實世界復雜問題優(yōu)化的模型。這些模型主要基于仿生原理,因此稱此類模型為仿生模型。
(1)方法概述
近些年來,常見的仿生優(yōu)化模型主要有蟻群優(yōu)化(ant colony optimization,ACO)、粒子群優(yōu)化(particle swarm optimization,PSO)、模擬退火(simulated annealing,SA)等。ACO、PCO 和SA 模型簡單易于實現(xiàn),也是目前應用最為廣泛的仿生優(yōu)化模型。ACO源于對蟻群覓食行為的研究。ACO 通過正反饋、分布式協(xié)作尋找最優(yōu)路徑,常用來解決最短路徑問題。Dorigo 等提出了三種不同的信息素增量模型,分別為Ant-Cycle、Ant-Quantity 和Ant-Density 模型。Ant-Cycle 利用全局信息更新路徑上的信息素量,且該方法有很多的改進研究。Ant-Quantity和Ant-Density使用局部信息。PSO 源于對鳥群捕食行為的研究?;赑SO 的常見模型有慣性權重PSO 模型、帶收縮系數(shù)的PSO模型、Bare Bones Particle Swarm模型。SA概念來自統(tǒng)計力學,是一種受金屬退火啟發(fā)的迭代搜索模型。
(2)應用實例
在對實際的ACO 進行建模的過程中,需要關注蟻群中個體的建模問題、信息素的更新機制,以及整個蟻群的內部機制。信息素的更新方式有兩種:一種是揮發(fā),所有路徑上的信息素以一定的比率減少。另一種是信息素的增強,給螞蟻走過的路徑增加信息素。信息素的蒸發(fā)機制使得螞蟻對過去的尋優(yōu)歷史有一定的遺忘度。如圖5,在機器人路徑規(guī)劃中,機器人在網(wǎng)格上行走,并釋放信息素,網(wǎng)格中的值代表信息素強度,紅色的虛線為機器人的路徑。ACO 的信息更新公式為:
圖5 基于ACO 的路徑規(guī)劃Fig.5 Path planning based on ACO
其中,Δτ(,a)表示螞蟻在時刻,位于狀態(tài)時,選擇行動a的路徑信息素增量:
其中,為信息素強度,L為轉化后的路徑長度。
PSO 通過初始化一群隨機粒子,再迭代、進化找到最優(yōu)解。每個粒子不斷改變自己在搜索空間的速度,通過局部最優(yōu)位置和全局最優(yōu)位置更新自己。PSO 的更新公式為:
其中,在維空間中,第個粒子的速度為V=(v,v,…,v),位置為X=(x,x,…,x)。為權重,、為0 到1 之間的隨機數(shù),、為學習因子,p是粒子的局部最優(yōu)解,p是全局最優(yōu)解。
SA 是一種概率技術,用于逼近給定函數(shù)的全局最優(yōu)解。一般用于優(yōu)化問題的搜索空間是離散的情況。在固定時間內找到全局最優(yōu)解,SA 比梯度下降等方法更具優(yōu)勢。
ACO、PSO 和SA 在集群機器人的應用是一個新的組合優(yōu)化問題,其中應用最廣的是群體導航中的路徑規(guī)劃問題。通常,全局的路徑規(guī)劃是在已知環(huán)境中進行的。傳統(tǒng)的路徑規(guī)劃通常假設環(huán)境是完全已知的,并且多數(shù)考慮靜態(tài)環(huán)境中工作。而局部的路徑規(guī)劃相對復雜,因為環(huán)境可能是部分未知的、完全未知的,或是動態(tài)環(huán)境,在機器人運行期間路徑會發(fā)生改變,已知環(huán)境下的靜態(tài)障礙物的避障研究已經(jīng)趨于成熟,但未知環(huán)境下的動態(tài)障礙物環(huán)境避障仍然是一項挑戰(zhàn)。集群機器人共享同一工作空間尋找路徑,在完成共同任務時,機器人要避免與障礙物碰撞,個體相互干擾,同時還要避免死鎖??紤]到不同類型的機器人、環(huán)境、動態(tài)或靜態(tài)障礙物等對群體導航的影響,關鍵問題在于找出最短路徑,同時又要避免與其他機器人或障礙物碰撞。由于集群機器人路徑規(guī)劃的復雜性,同時需要考慮滿足多目標,通常視其為NP-hard 問題。在大型復雜環(huán)境中,仿生模型被廣泛用于路徑規(guī)劃問題。為了實現(xiàn)這些目標,ACO 通過和不同的模型構建新的混合模型來解決集群機器人的路徑規(guī)劃。人工勢場和ACO 在實驗環(huán)境下解決了碰撞問題。遺傳算法和A*算法與ACO的結合對死鎖問題有了明顯的改善。模糊邏輯嵌入ACO 中可實時收斂,并且可達到局部最優(yōu)。文獻[22]用PSO 模型研究了異構水下航行器路徑規(guī)劃和協(xié)同目標打擊的問題。文獻[23]提出了PSO 的改進方法,并進行集群機器人的路徑規(guī)劃。SA 成功應用于機器人的3D 路徑規(guī)劃,在沒有雷達威脅的情況下,SA 可以在更短的時間內解決無人集群的路徑規(guī)劃問題。
(3)適用場景
群體導航是蟻群和粒子群模型主要的應用。該模型在機器清潔、滅火、編隊等場景有廣泛應用。除了路徑規(guī)劃外,ACO、PSO 和SA 也廣泛應用于群集運動、避障、編隊等集群機器人行為。ACO 和PSO 模型不存在中心控制,天然并行性使之適用于分布式計算,并且具有強魯棒性、操作簡單、易于實現(xiàn)、易與其他算法結合等優(yōu)點,能處理大型的搜索空間,且容易發(fā)現(xiàn)全局最優(yōu)解。已經(jīng)有學者建立了ACO、PSO 的數(shù)學模型,其有效性在一些實驗中已得到證明,在實際的集群機器人中也有應用。SA 模型可靈活搜索,可擴展性強,可用于求解集群機器人中復雜的非線性優(yōu)化問題,但也存在收斂需要多次迭代、模型性能對初始值及參數(shù)較敏感等缺點。群體表現(xiàn)出來的復雜行為是通過簡單個體的交互過程涌現(xiàn)出來的智能,具有自組織性。這些模型能有效地解釋應用于復雜環(huán)境的集群機器人空間協(xié)作行為特性,且其性能的優(yōu)劣有理論保證。ACO、PSO 和SA 模型優(yōu)點與適用場景見表1。
表1 ACO、PSO 和SA 建模方法對比Table 1 Comparison of ACO,PSO and SA modeling methods
(1)方法概述
蜜蜂聚集(BEECLUST)算法受蜜蜂行為的啟發(fā),蜜蜂在36 ℃的溫度下可形成聚集。這種聚集行為源于個體與個體的相互作用,大多數(shù)的個體幾乎是隨機移動的,并沒有能力將自己定位在最佳溫度點上。在蜜蜂聚集中,個體在搜索空間隨機移動,當兩個或多個個體碰撞或接觸時,個體停下來對該點進行測量,測量該點的適度值(如亮度、溫度、聲音等),根據(jù)測量結果在規(guī)定的時間內等待,測量值越高,等待時間越長,最終聚集在搜索空間中高舒適區(qū)域。
(2)應用實例
蜜蜂聚集模型已經(jīng)在集群機器人空間協(xié)作行為模型中使用。如圖6 中的集群機器人在理想情況下,所有機器人都是直線運動的。機器人通過傳感器探測前方的物體,如果沒有相關的信號,機器人隨機轉動并繼續(xù)前進保持直線運動。如果檢測到信號,機器人會假設前面的物體是另一個機器人,停止運動,然后測量局部亮度,亮度越高,它在那個地方等待的時間就越長。等待時間過后,機器人繼續(xù)轉動,再前進保持直線運動。蜜蜂聚集模型使得一個群體聚集在某個環(huán)境特征(如亮度、溫度、聲音等)的適度值高的地點。
圖6 蜜蜂聚集模型Fig.6 BEECLUST model
Wahby 等基于蜜蜂聚集模型提出自適應變體的模型,該模型可以自動適應任何光照條件。在蜜蜂模型中有不同的蜜蜂類型,如隨機游走的蜜蜂、負責目標發(fā)現(xiàn)的蜜蜂、追隨著墻移動的蜜蜂和不動的蜜蜂,也會影響群體決策。一般情況下,蜜蜂聚集模型只測量一種適度值,在部分研究中,也研究了多適度值對集群機器人行為的影響。
蜜蜂聚集模型本質上是吸引群體聚集在某個特定點,在群體聚集中應用較廣。歐盟支持的COCORO項目中,水下機器人群使用蜜蜂聚集模型在特定的位置進行聚集。蜜蜂聚集模型還被應用于污染定位與清理,機器人上的傳感器測量機器人輪子下的化學品強度,通過跟蹤化學品的蹤跡,機器人將向化學品泄漏量最高的區(qū)域聚集,找出泄漏的源頭,機器人將聚集在化學品濃度高的區(qū)域執(zhí)行凈化任務。
蜜蜂聚集不僅是一種用于聚集行為的模型,由于它能夠區(qū)分不同的環(huán)境條件,被認為是一種強大而可靠的勘探工具,可用于機器人探測任務。此外,蜜蜂聚集模型還可用于無人機編隊,將搜索空間表示為二維網(wǎng)格,集群機器人使用蜜蜂聚集模型為無人機生成飛行路線。
(3)適用場景
在蜜蜂聚集模型中,個體之間隨機移動,不必知道自己的位置,彼此檢測碰撞測量并進行乘法運算,這樣簡單的處理會減少個體所需的硬件,從而縮小個體總體大小和電源需求,也不需要內存。蜜蜂聚集模型不需要群體之間的通信,因此與通信半徑、協(xié)議或帶寬無關,不僅能夠在同構的集群機器人中穩(wěn)定運行,而且還適用于具有不同策略的異構集群機器人。特別是當環(huán)境中存在某些溫度、光照等特征與其他區(qū)域不同的特殊區(qū)域時,使用蜜蜂聚集模型,這些特殊區(qū)域將對群體行為形成指引信號,群體向該區(qū)域運動,產(chǎn)生聚集行為。
人工勢場法和SCA(separation,cohesion,alignment)模型中的個體都被視為物理粒子,在個體與個體之間存在力的作用而產(chǎn)生了一些群體行為。微分也可用于表示集群機器人系統(tǒng)的動態(tài)特性。
(1)方法概述
人工勢場法的基本思想是,在個體之間存在虛擬的排斥力和吸引力,群體中每個個體根據(jù)勢場梯度的方向,由虛擬的吸引力和斥力的合力引導進行運動。長期以來,研究人員一直致力于對群體行為的理解和建模。一種被研究人員所普遍接受的觀點是,群體之間的相互作用可能是簡單的吸引排斥力或復雜的相互作用力的組合,是個體之間的長距離吸引和短距離排斥相互作用的結果。
(2)應用實例
人工勢場法已應用于集群機器人聚集的建模方法中。各種各樣的人工勢函數(shù)被用于群體聚集中:
其中,()為相互作用的勢函數(shù),和是作用在連接第個機器人和第個機器人直線方向吸引力和排斥力的值。
人工勢場是自動執(zhí)行集群機器人覆蓋的主要方法之一,機器人將利用彼此之間的虛擬力在區(qū)域內運動。人工勢場也常用來引導群體分散。虛擬的恒定引力、邊界力、Lennard-Jones 分子力等物理學中的運動力學和分子力學,這些理論也可引導無人機分散運動。人工勢場也常用于多無人機編隊,無人機集群可在人工勢場的作用下調整飛行速度和方向,在保持穩(wěn)定的編隊隊形的同時,通過控制排斥力作用保持最小距離,避免碰撞以確保與編隊內其他成員保持安全飛行間隔,通過人工勢場的方法可使無人機群構成多種圖案,形成預設的規(guī)則結構的隊伍。
人工勢場可以引導集群機器人避障。在船舶群的區(qū)域跟蹤控制中,通過環(huán)境中的目標點引力勢場和障礙物斥力勢場以實現(xiàn)避障。對于動態(tài)障礙物,黃東晉等采用人工勢場和相對速度障礙物結合的方法進行避障,再使用彈簧系統(tǒng)使群體隊形在避障過程中盡可能保持隊形的整體穩(wěn)定。
人工勢場的標準方法是以吸引勢函數(shù)和排斥勢函數(shù)的混合負梯度作為輸入。標準方法的一個缺點是吸引和排斥存在局部平衡的時刻,即復合矢量力場消失,機器人在這種情況下可能被困在某個位置。為了解決這個問題,研究人員證明了群體中的成員可以聚集成一個超球體,超球體的質心為群體質心。利用極限函數(shù)將多機器人系統(tǒng)封閉在曲面結構中,通過調整參數(shù)可以控制群體的形狀和程度,以及群體成員之間的相對距離。這種方法可有效用于建模機器人集群的形成、避障和集群運動。在這種方法中,微觀層次關注每個機器人的軌跡和機器人之間的距離,群體層次只考慮與整個群體有關的任務。
針對人工勢場的集群機器人研究中,并不局限于單純的排斥力和吸引力,額外的輔助力可使群朝特定方向移動,形成線性或旋轉等期望的群體運動模式。文獻[46]將吸引力定義為相對位置的吸引力和相對速度的吸引力,斥力定義為位置和速度的負梯度。一般情況下,這種修正使得群體運動的收斂速度更快。人工勢場函數(shù)形式多樣,針對不同的集群機器人場景可進行修改。
(3)適用場景
人工勢場法定義了主體間的相互作用,通常用于集群機器人在空間中的運動問題,如覆蓋、分散、編隊等。人工勢場法在保持群體聚集性方面具有良好的穩(wěn)定性,只由一個單一的引斥力數(shù)學規(guī)則就可以模擬群體智能行為,易于理解,也可以與其他動力學模型一起使用,同時還有反應快速、計算簡單以及實時性強等優(yōu)點,被廣泛用于集群機器人空間協(xié)作行為中。人工勢場法的缺點是,勢函數(shù)可能有局部極小值。在集群機器人中,人工勢場法對傳感器有嚴格的要求,不適應于使用簡單傳感器(如紅外等)的集群機器人,簡單傳感器在環(huán)境中難以獲取位置信息。因此人工勢場法實現(xiàn)難度大,成本高。
群集行為研究方面的突出代表Reynolds 在其Boid模型中提出了SCA 規(guī)則。SCA 規(guī)則原用于描述粒子群運動:(1)分離(separation),即每個個體受到其鄰域內的其他個體的排斥力的矢量和,避免和附近的個體碰撞。(2)聚合(cohesion),即每個個體受到其鄰域內的其他個體的吸引力的矢量和,以保持整個團隊的緊湊。(3)速度一致(alignment),即讓每個個體與其鄰域內的其他個體的平均速度保持一致,最終使整個團隊的速度趨于一致。Reynolds 通過仿真證明了當群體中所有個體都遵循這三條原則時,個體將聚集在一起以共同的速度運動,且群體中個體不會碰撞。以下主要分析Vicsek 模型、Cucker-Smale模型、Couzin 模型等代表性的SCA 模型。
(1)方法概述
①Vicsek 模型
Vicsek 等人基于SCA 規(guī)則提出了一個簡單的離散時間模型——Vicsek 模型。在Vicsek 模型中,一組粒子有個,在×正方形區(qū)域中運動。每個粒子具有相同的絕對速度,粒子的初始位置和方向是隨機分布的。每個粒子的運動方向由其鄰域內所有粒子的平均方向決定。在時間時,第個粒子的位置和方向按照下列規(guī)則更新:
其中,||·||是歐氏距離,是傳感器半徑,Δθ是白噪音。在個體密度和噪聲值超過臨界值時,個體運動從無序變?yōu)橛行颉?/p>
②Cucker-Smale模型
Cucker-Smale(C-S)模型中個體受到其他個體的速度影響,這種影響用權重a來表示,表示個體之間的相互作用強度,這一相互作用在近處保持穩(wěn)定,在遠處衰減。a與個體、之間的距離相關:
其中,為系統(tǒng)參數(shù)。位置更新函數(shù)如下:
在C-S 模型中速度更新代替了Vicsek 模型中的角度更新:
Cucker 證明了當<1/2 時,群體會收斂到一個共同的速度,然而當≥1/2 時,只有某些特殊的初始位置、速度分布可以讓群體的速度收斂。在一定的條件下,系統(tǒng)實現(xiàn)同步,發(fā)生群集行為。
③Couzin 模型
在Couzin 模型中,個體在原點中心處,由內而外并將其周圍空間依次劃分為三個區(qū)域:排斥區(qū)域(zone of repulsion,zor)、一致區(qū)域(zone of orientation,zoo)、吸引區(qū)域(zone of attraction,zoa),分別對應群體中的分離、聚合、速度一致,如圖7 所示。Couzin 模型可以改變zor、zoo 和zoa 的大小。優(yōu)先級最高的為zor 區(qū)域。如果在zor 區(qū)域中出現(xiàn)了其他個體,那么將受到zor區(qū)域個體排斥,下一時刻速度為:
圖7 Couzin 模型Fig.7 Couzin model
其中,c、c表示位置矢量,表示位于個體的zor區(qū)域內的其他個體的數(shù)量。如果在zor 區(qū)域沒有其他個體,那么個體對zoo 和zoa 區(qū)域的個體產(chǎn)生作用。對于zoo 區(qū)域的個體:
對于zoa區(qū)域的個體:
、為個體位于zoo、zoa 的數(shù)量,v為的速度矢量。個體會盡力與方向區(qū)域中其他個體的飛行速度保持一致,并且盡力靠近zoa區(qū)域中的其他個體。
(2)應用實例
國內外相關領域有較多重要的SCA 規(guī)則模型的研究成果。對于Vicsek 模型,一方面,有研究人員從圖論的角度對其進行了研究,利用圖論的知識分析了圖的連通性,建立信息傳遞網(wǎng)絡,證明了關于同步的充分條件;另一方面也有研究人員從初始參數(shù)的角度進行研究,通過限制初始參數(shù)使系統(tǒng)同步。還有部分針對加快同步速度的研究,如基于視線方向的有限視場角對原有模型進行了修正,真實的生物必須不斷地轉動頭部或眼睛,觀察鄰居在其他方向的運動,修正后的模型更接近生物世界。李玉劍等的研究證明了存在一個最佳的視野角,使系統(tǒng)最快地達到方向同步。
Wang 等根據(jù)Vicsek 和Couzin 模型生成的仿 真數(shù)據(jù),利用遺傳選擇規(guī)則和基于遺傳規(guī)則這兩個層次的自組織規(guī)則對三種群體(高度并行群體、動態(tài)并行群體和環(huán)面群體)進行建模。Vicsek 團隊提出了一個可調的群集模型,根據(jù)排斥力、速度一致、與障礙物的作用等給出了期望速度,在這個研究中定義了6 個評價函數(shù),加權得出最終的評價函數(shù),使用進化算法優(yōu)化參數(shù)。
在C-S 模型下,研究人員展開了大量的相關分析,如在時間延遲的情況下,碰撞場景、共識機制等對群集的影響。Ma 等在C-S 模型中使用有限時間控制法研究了集群機器人的碰撞行為,導出了群集時間上界的數(shù)學表達式。Canale 等在一個多agent系統(tǒng)上驗證了C-S 模型的魯棒性。
SCA 規(guī)則模型主要用于無人機或一些飛行器的群集。Vicsek 團隊使用了30 個無人機進行了實驗。這些無人機沒有任何中央控制,無人機在GPS 噪聲、通信延遲等故障環(huán)境下均可穩(wěn)定飛行,在有障礙物或無障礙物的封閉空間中可保持穩(wěn)定、無碰撞地集體運動。歐洲空間局的Darwin 計劃將C-S 模型用于多個太空探測器組成編隊,這些太空探測器分布于月球軌道上,實施探測任務。
(3)適用場景
Vicsek 模型具有簡單直觀的局部規(guī)則,個體運動可以表現(xiàn)出從隨機到同步的某種相變。在以上SCA規(guī)則模型中,Vicsek 模型中的假設是在二維空間內,而Couzin 模型更滿足實際群體情況,建立在三維空間中。與Boid 模型相比,Couzin 模型在行為規(guī)則和算法上更為簡單,方便分析。目前,已有大量關于Boid 模型和Vicsek 模型的研究,在系統(tǒng)模型分析和優(yōu)化上的工作已經(jīng)比較充分。Couzin 模型當前的研究工作還較為有限,其中存在的一些系統(tǒng)性能等相關問題還沒有充分地討論,相關的優(yōu)化策略較少。
在一定條件下C-S 模型可以轉換成Vicsek 模型,C-S 模型與Vicsek 模型的主要區(qū)別在于:Vicsek 模型是基于局部規(guī)劃的影響,而C-S 模型考慮的則是全局影響。表2 從建模維度、模型粒度、模型特點三方面對SCA 模型進行對比。
表2 SCA 模型對比Table 2 SCA model comparison
典型的集群機器人空間協(xié)作行為使用的微分方程有速率方程、擴散方程、Langevin 和Fokker-Planck方程等。
(1)方法概述
速率方程是一種基本的宏觀概率模型。將描述集群機器人概率密度演化的主方程進行宏觀平均,即可得到平均量動力學的速率方程。速率方程并不需要知道每個機器人的精確軌跡,而是通過推導得到集群機器人行為的平均量動力學模型。集群機器人在其行為方面均顯示出不同程度的不確定性,使用速率方程進行建模,集群機器人可以看作是一個隨機系統(tǒng),狀態(tài)代表了集群機器人要完成一個任務所需要的一系列行為,一個狀態(tài)可以包括一個或多個行為。
(2)應用實例
Lerman 等使用速率方程對集群機器人覓食過程進行建模。群體覓食由多個群體空間協(xié)作行為組成。機器人為了搜索目標食物,在搜索場中四處游蕩,躲避障礙物。發(fā)現(xiàn)目標后,機器人將從搜索狀態(tài)過渡到拾取狀態(tài),最后過渡到歸位狀態(tài)。這些個體的行為是隨機的。根據(jù)馬爾可夫的性質,集群機器人在+1 時刻的狀態(tài)取決于時刻的狀態(tài),用條件概率寫概率密度函數(shù)得:
轉換速率為:
則在狀態(tài)的機器人分布:
上述即速率方程。等式右邊第一項描述的是從其他狀態(tài)轉換到狀態(tài)而導致的占用數(shù)n的增加,而第二項描述從狀態(tài)轉換到其他狀態(tài)的損失。
對一個集群機器人空間協(xié)作行為進行速率方程分析的前提是集群機器人系統(tǒng)可以看作一個隨機系統(tǒng),并且該系統(tǒng)滿足馬爾可夫性質。速率方程在集群機器人的成功應用表明集群機器人空間協(xié)作行為模型可以通過加入隨機項而進行擴展。速率方程是一種將微觀模型轉化為宏觀模型的系統(tǒng)方法,需要考慮定義集群機器人中所有的狀態(tài)及狀態(tài)之間的轉換,對于每個狀態(tài),模型中都有一個動態(tài)變量和一個描述變量隨時間如何變化的速率方程。
(3)適用場景
速率方程已被應用于集群機器人行為建模的研究中,如聚集行為、棒料抽取實驗和覓食,可有效分析集群機器人行為的動態(tài)性,描述平均量的動力學。
速率方程可以表示環(huán)境變量、控制變量以及時間的復雜非線性函數(shù)的概率值。速率方程的主要限制是,很難對空間和時間進行建模,對空間的位置表達有限,不適用于依賴于個體位置的場景。在使用速率方程時,如果需要時間關系的描述,通常將時間假定為離散型。
(1)方法概述
擴散方程描述了由擴散控制的物理量的時空變化,是一個偏微分方程。
1952 年,圖靈用一個反應擴散模型刻畫了生物體表面圖案的形成機理,揭示了自然形態(tài)的化學本質:
其中,和是和兩種圖案形成有關的化學物質,D?和D?表示化學物質的自由擴散,D和D為擴散系數(shù),(,) 和(,) 分別表示和的生成率。圖靈把形態(tài)發(fā)生看作是激活和抑制因子之間的相互作用,通過一個激活因子、一個抑制因子以及不同擴散系數(shù)即可實現(xiàn)自組織。這些模式可以表明個體在組織中的空間位置以及它們的相關行為等。反應擴散方程式(26)右端的非線性項給予了群體可形成的模式豐富的自由度。
(2)應用實例
圖靈的反應擴散模型在集群機器人應用中對應的個體濃度變化可由下式表示:其中,分子作為激活劑,分子作為抑制劑,每一個機器人都跟蹤自身的和濃度,并傳送給相鄰的機器人,兩個分子之間的相互作用被配置成一個激活-抑制網(wǎng)絡,為反應系數(shù)。
在Slavkov 等人的實驗中,如圖8 所示,小型機器人Kilobots 有一個彩色LED,當激活劑濃度高于閾值時,LED 的綠色被激活。LED 的顏色在最高電平顯示為綠色,電平逐漸降低,顏色也對應地變?yōu)榍嗌⑺{色和紫色。電平非常低時,LED 被關閉。機器人從激活因子值低的區(qū)域向高值的區(qū)域移動,在接近最高值,即綠色LED 時停止,這樣就會在綠色LED 周圍產(chǎn)生聚集。而運動過程中,濃度不斷變化,這種持續(xù)不斷的組織運動和模式適應,最終使群體形成了一種圖案。通過改變參數(shù),可以控制群體機器形成斑點、條紋或反轉斑點等圖案類型,參數(shù)的變化會觸發(fā)不同的圖靈模式,并在真實集群機器人中也觀察到了類似的模式。
圖8 集群機器人的反應擴散模型Fig.8 Reaction diffusion model of swarm robots
利用圖靈形態(tài)發(fā)生原理組織集群機器人形成均勻分布的群體形狀,群體的魯棒性和自適應性也得到了證實。除了反應擴散方程,對流反應擴散方程也經(jīng)常被用于集群機器人的行為建模。
(3)適用場景
擴散方程在集群機器人中得到了廣泛的應用,如群體覆蓋、避障、聚集和圖案形成。在集群機器人中,空間圖案也可以由局部自組織的如對流反應擴散方程控制。
擴散方程有很強的實際背景,在物理學、化學、生物化學、生態(tài)學、神經(jīng)學等系統(tǒng)科學等領域中均有應用,可以應用于任何初始的群體分布,瞬態(tài)現(xiàn)象最終都將達到穩(wěn)態(tài)或長期平衡值。擴散方程可對集群機器人完整時變過程進行建模。
(1)方法概述
隨機微分方程和偏微分方程可用來創(chuàng)建空間模型。經(jīng)典的方法是基于一個隨機微分方程(Langevin方程)和一個偏微分方程(Fokker-Planck 方程)的模型。
Langevin 方程是描述粒子在流體中運動的隨機微分方程,是一個介觀模型(介于微觀和宏觀之間)。從微觀方法角度來說,Langevin 方程的確定性部分模擬了受個體行為影響的確定性運動,而隨機部分則模擬了個體與其他個體、個體與環(huán)境的相互作用。
(2)應用實例
Langevin 方程可以模擬個體的運動:
式中,是漂移,是向量,表示方向信息;是擴散系數(shù),是標量;定義了不確定進程??梢远x為:
式中定義了位場的上升梯度。Langevin 方程是用于模擬布朗運動的方法,在集群機器人中用其描述集群機器人的軌跡。
對于宏觀方法,F(xiàn)okker-Planck 方程可以用來描述整個群體的動力學,模擬環(huán)境中所有個體狀態(tài)(例如位置或速度等)概率密度函數(shù)的時間演化。
式中,是單個粒子在位置和時間的概率密度。Fokker-Planck 方程描述一維空間中粒子概率分布的時間演化,在集群機器人空間協(xié)作行為建模中可以視為集群機器人的密度。
集群機器人在空間和時間域中的行為是有界的。當目標概率密度足夠規(guī)則時,在給定的有限時間內,只考慮有界向量場作為控制參數(shù),F(xiàn)okker-Planck 方程也是可控的。
(3)適用場景
群體聚集、非周期環(huán)境群體探索、群體運輸和群集運動等集群機器人空間協(xié)作行為都是基于異質空間的。Langevin 和Fokker-Planck 方程可對這些群體行為進行顯式的空間表示。
針對Fokker-Planck 方程計算量大的問題,可通過機器學習方法來解決。機器學習中使用了具有低計算復雜度的在線梯度下降方法進行訓練,形成了Fokker-Planck 方程的近似解。
Fokker-Planck 方程的優(yōu)點是,原則上它可以用來模擬任何集群機器人行為。缺點是Fokker-Plank方程解析求解難度較大,同時通信方面建模難度較大。
三種微分方程模型粒度、特點對比見表3。
表3 微分方程對比Table 3 Comparison of differential equations
從個體行為到群體行為的演變過程往往極其復雜,以至于無法預測。集群機器人可通過群體行為學習來實現(xiàn)問題求解,群體中的每個成員通過學習它自身的經(jīng)驗和其他成員的經(jīng)驗來不斷地改變搜索方向。
(1)方法概述
人工進化基于變化和選擇原則,以整體的方式來建模集群機器人空間協(xié)作行為特征。不同于其他基于數(shù)學或物理的建模方法,進化法本質上是基于生物遺傳和自然選擇機理,與生物界中物種進化的情況類似,集群機器人能夠在不同的代中進化自己的行為,并完成給定的任務。人工進化已經(jīng)發(fā)展成為研究集群機器人空間協(xié)作行為的一種重要工具。通常使用進化法對神經(jīng)網(wǎng)絡的參數(shù)進行調節(jié),從參數(shù)的初始值開始,使用適應度函數(shù)評估群體因個體行為而產(chǎn)生的群體行為,迭代執(zhí)行機器人實驗,但是目前適應度函數(shù)主要依靠專業(yè)人員的經(jīng)驗。對于復雜的任務也很難設計出能夠表達行為目標的有效適應度函數(shù)。
(2)應用實例
神經(jīng)網(wǎng)絡是用于人工進化機器人的一種常見類型。在圖9 的集群機器人聚集中,每個機器人由神經(jīng)網(wǎng)絡控制。神經(jīng)網(wǎng)絡的輸入是傳感器的測量值,在機器人周圍有15 個紅外測距傳感器、1 個揚聲器和4個定向麥克風。圖中使用單層神經(jīng)網(wǎng)絡作為控制器,有12 個輸入神經(jīng)元,4 個連接到麥克風,8 個連接到紅外傳感器;3 個輸出神經(jīng)元控制機器人的執(zhí)行,1 個控制揚聲器,2 個控制機器人的輪子。隨機初始化若干群體成員,每個種群成員編碼一個控制器,評估控制器的適應度。新種群是由當前種群中的一個精英群體,加上通過交叉變異選擇的組而獲得的新控制器。
圖9 人工進化中的神經(jīng)網(wǎng)絡Fig.9 Neural network in artificial evolution
集群機器人可以看作是多目標優(yōu)化問題,多目標優(yōu)化關注的是優(yōu)化多個可能相互沖突的目標。Triann 等首次將多目標優(yōu)化的思想用于進化集群機器人中的棒料抽取實驗和導航等群體行為。聚集行為也可以描述為一個優(yōu)化問題,基于進化計算的集群機器人控制器由粒子群優(yōu)化算法求解。
近年來,人們對在線進化的興趣再度升溫。在線進化使集群機器人能夠學習新任務,并在任務執(zhí)行過程中適應不斷變化的環(huán)境。例如,一種在線學習的新穎方法odNEAT可以在聚集、趨光性、導航和避障等集群機器人行為中展示出高度的容錯能力,能夠在出現(xiàn)故障的情況下適應并學習新的行為。在線進化的主要優(yōu)點是,如果環(huán)境或任務要求發(fā)生變化,集群機器人可以修改自己的行為以應對新的環(huán)境。
(3)適用場景
集群機器人的一個關鍵的技術挑戰(zhàn)是行為的綜合控制。相鄰機器人之間以及機器人與環(huán)境之間的相互作用,從而產(chǎn)生全局的、集體的自組織行為。研究者需要能夠理解個體機器人交互和集群機器人行為屬性之間的關系。人工進化可以幫助集群機器人建立微觀到宏觀行為的聯(lián)系,基于宏觀群體級行為的需求,人工進化迭代地調節(jié)每個機器人的參數(shù)和微觀規(guī)則。
人工進化可用于協(xié)調運動、鏈形成、群體運輸、覓食、分散、環(huán)境監(jiān)測等。集群機器人在物理系統(tǒng)上實現(xiàn)具有很大的挑戰(zhàn)性。成功進化的控制器可能在仿真中表現(xiàn)良好,但在實際集群機器人中表現(xiàn)較差。
集群機器人在人工進化中易陷入局部最優(yōu)解。解決這個問題的一種方法是采用多樣性維護技術,例如在群體聚集行為中,新穎性搜索明確地搜索新的行為,可引導進化和規(guī)避收斂到局部最優(yōu)。還有利用行為分解的方法,將不同的演化行為結合起來,以產(chǎn)生能夠執(zhí)行整個任務的更復雜的控制器。
人工進化是支撐集群機器人空間協(xié)作行為建模的強大工具,但是會受到過度擬合的影響。進化過程中需要大量評估才能找到合適的控制器,通常需要多代,且涉及的不是一個而是多個機器人的仿真,這些個體的生命可能持續(xù)數(shù)年甚至數(shù)十年。模擬特定數(shù)量的機器人以進化群體行為的另一個問題是,進化過程中使用確切數(shù)量的機器人,這意味著無法保證集群機器人的可擴展性。如果在整個進化過程中模擬不同的種群規(guī)模,將花費更多的模擬時間。
(1)方法概述
將機器人個體抽象為智能體,這些智能體具有自主與學習特性,集群機器人就成為了多智能體系統(tǒng),其空間協(xié)作行為可為多智能體學習模型,個體通過與環(huán)境進行交互來獲取獎勵值并學習改善自己的行為策略,從而獲得該環(huán)境下最優(yōu)策略的過程,即多智能體強化學習(multi-agent reinforcement learning,MARL)。MARL 模型是指在數(shù)據(jù)上運行之后創(chuàng)建的機器學習模型。
多智能體強化學習有兩種不同的方法:獨立學習和合作學習。獨立學習將多智能體的學習問題簡化為單個智能體的學習問題。單智能體學習算法可以直接應用于多智能體環(huán)境,并且可伸縮性強,不會受到個體數(shù)量的影響。深度確定性策略梯度(deep deterministic policy gradient,DDPG)、異步優(yōu)勢演員評論家(asynchronous advantage actor-critic,A3C)和信賴域策略優(yōu)化(trust region policy optimization,TRPO)等算法可通過獨立學習的方式,使用參數(shù)共享擴展到多智能體領域,這些方法對MARL 領域做出了早期貢獻。
然而,單智能體強化學習面臨的一個主要問題是環(huán)境的動態(tài)非平穩(wěn)性,這不符合傳統(tǒng)強化學習的收斂條件,馬爾可夫性不再成立。個體策略的變化可能會影響其他個體的獎勵,從而影響其他個體的最優(yōu)策略,無法通過僅僅改變個體自身的策略來適應動態(tài)不穩(wěn)定的環(huán)境。盡管存在這些缺點,但獨立學習模型在一些多智能體環(huán)境中也有良好的表現(xiàn)。
合作學習考慮到了其他個體,觀察其他個體的行為進行策略估計,如集中訓練分散執(zhí)行的范式,在訓練期間共享信息,執(zhí)行時僅以本地觀察和本地策略選擇操作為條件,訓練算法以集中的方式運行,執(zhí)行時以分散的方式進行。如多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradients,MADDPG)、反事實思維多智能體策略梯度(counterfactual multi-agent policy gradients,COMA)、多智能體近端策略優(yōu)化(multi-agent proximal policy optimization,MAPPO)等。MADDPG 通過使用一個智能體聯(lián)合狀態(tài)和聯(lián)合行動函數(shù)來擴展DDPG。如圖10,Critic根據(jù)估計的Q 值和實際的Q 值進行訓練,執(zhí)行時Actor 根據(jù)Critic 的反饋來更新策略,選擇一個動作,為智能體的策略集合。COMA 使用一個反事實基線,比較當前的動作與默認的動作,這個默認的動作稱為基線,COMA 以此解決回報分配的問題。
圖10 MADDPG 的集中訓練分散執(zhí)行Fig.10 Centralized training and decentralized execution of MADDPG
(2)應用實例
OpenAI Gym 和Unity ML Agents 等工具提供了標準化的界面,并允許將游戲和模擬器轉換為學習環(huán)境,MPE(multi-agent particle environment)、星際爭霸、Mujoco、Neural MMO 等環(huán)境已經(jīng)成為MARL 最流行的實驗平臺。許多集群機器人復雜的現(xiàn)實問題,可以表述為MARL 問題,近年來已經(jīng)出現(xiàn)大量相關應用文章,如集群機器人的群集、無人機集群對抗、多車輛通過十字路口等。
為防止多機器人碰撞的案例中,研究人員使用了MADDPG 算法為每個機器人建立了由Actor 網(wǎng)絡和Critic 網(wǎng)絡組成的神經(jīng)網(wǎng)絡。Actor 網(wǎng)絡通過將相應機器人的狀態(tài)作為輸入來返回機器人的當前操作?;诃h(huán)境信息和所有代理的動作信息,Critic 網(wǎng)絡返回動作值函數(shù)。
(3)適用場景
強化學習側重研究智能體為了最大限度地提高累積獎勵而如何基于環(huán)境行動。MARL 是人工智能領域的研究熱點,研究的是多個具有自主決策能力的智能體在環(huán)境中進行連續(xù)決策的優(yōu)化問題,在一些游戲場景中,MARL 的反應已經(jīng)超過了人類。單智能體強化算法可以很容易地應用于集群機器人環(huán)境,有較強的可伸縮性,但是行動空間、狀態(tài)空間也會隨著個體的數(shù)量呈指數(shù)增長,高方差特性是單智能體強化學習模型推廣到多智能體的重要挑戰(zhàn)。
MARL 結合博弈論的研究基礎解決多智能體連續(xù)決策與優(yōu)化問題成為了新的研究領域。MARL 并不穩(wěn)定,且模型和訓練方法很難推廣到新的任務?,F(xiàn)有的聯(lián)合行動學習也需要大量的計算資源來學習最優(yōu)策略,這阻礙了MARL 在集群機器人等系統(tǒng)中的應用,且其性能還沒有像單代理方法那樣得到深入的研究。同時,可伸縮性問題阻礙了MARL 在大規(guī)模集群機器人系統(tǒng)中的應用。
表4 從建模方法、模型粒度、適用場景、模型特點、建模難度五方面對以上具有重要作用的集群機器人空間協(xié)作行為建模方法進行了對比分析。
表4 各建模方法對比Table 4 Comparison of modeling methods
集群機器人研究目標是構建魯棒、可擴展和靈活的復雜自主智能系統(tǒng),理解集群機器人行為并獲得期望的執(zhí)行結果是其基礎。而模型是系統(tǒng)行為或其部分屬性的形式化描述。隨著集群機器人技術及其應用的進一步發(fā)展,集群機器人空間協(xié)作行為建模將更凸顯其重要性。集群機器人空間協(xié)作行為建模研究從不同角度已取得了一些重要成果,本文分析總結了集群機器人空間協(xié)作行為的現(xiàn)有主流建模方法,不同建模方法有不同的能力,且適用不同的場景,本文對此進行了較為全面的比較和評論。未來集群機器人的理論研究將更加深入,系統(tǒng)設計更加優(yōu)化,領域應用更加廣泛,集群機器人協(xié)同行為建模研究也將隨之深化和擴展。本文認為以下幾方面應予以關注和深入研究:
(1)群體行為跨學科綜合模型。集群機器人具有鮮明的多學科交叉與融合特點,系統(tǒng)設計不僅涉及機電一體化、嵌入式計算、無線通訊、自適應控制、人工智能等,而且其協(xié)作行為以動力學、社會學、認知科學、組織理論為基礎。例如,群體中的個體合作、競爭等行為,以博弈論為基礎分析和構建相應行為模型,分析集群機器人行為的可能性和局限性。因此,汲取和融合不同學科的理論、知識、工具,推動形成新的集群機器人行為模型,會是一種創(chuàng)新研究的具體體現(xiàn)。
(2)適應規(guī)范通用的元模型。雖然已提出一些適應集群機器人某一特定行為或應用場景的行為模型,并在典型集群機器人場景中得到應用,但目前還缺乏這些具體模型的規(guī)范。元模型作為模型的模型,有助于揭示集群機器人模型的普適性與規(guī)范性。再則,群體從簡單規(guī)則的作用中形成了復雜的智能模式,這種智能涌現(xiàn)難以從低層的個體描述預測。已有建模方法通常與具體的集群機器人行為關聯(lián)緊密,各個具體行為模型之間是否有共有元素或存在某種聯(lián)系,也是集群機器人空間協(xié)作行為元模型有待深入研究的問題。
(3)可定制的工程化模型。若將已有的面向具體領域或場景的行為模型建成自主體行為源模型范例庫,當一具體集群機器人需要建模時,則可從源范例庫中檢索之前已有模型,找到與目標范例相匹配的源范例建立所需的模型,對其稍加修改后便可得到所需的模型。這需借鑒軟件工程的原則與方法,例如可重構建??蚣?、可定義的建模語義、模型檢查以及屬性驅動等,據(jù)此構建行為源模型范例,不僅可提高集群機器人行為建模質量,降低成本,改進模型,還可加速集群機器人行為建模的規(guī)范化發(fā)展。
(4)數(shù)據(jù)與知識雙驅動的智能模型。集群機器人活動過程中產(chǎn)生大量狀態(tài)與行為數(shù)據(jù),適時通過感知元件獲得這些數(shù)據(jù),將其運用到集群機器人行為模型優(yōu)化或分析過程,即成為數(shù)據(jù)驅動。該方式通過實現(xiàn)集群機器人行為解空間的大范圍覆蓋和探索,從規(guī)?;瘮?shù)據(jù)中持續(xù)學習和進化群體行為,以有效補充提升數(shù)學模型的精確性。面向特定應用領域的集群機器人,其集群協(xié)作行為及其演化依賴于應用領域機理知識。未來隨著個體機器人智能行為不斷提升,群體智能行為的隨機涌現(xiàn)也與領域機理知識密切關聯(lián)。因此,知識驅動不僅可簡化集群機器人行為建模,避免群體行為狀態(tài)空間爆炸,而且與數(shù)據(jù)驅動結合,可實現(xiàn)未來集群機器人行為的智能模型構建。
(5)集群機器人行為模型形式化驗證。目前,已有部分集群機器人空間協(xié)作行為模型,通過模型檢驗器得到形式化驗證,例如可使用UPPAAL 對集群機器人的路徑規(guī)劃和導航進行驗證。進一步,可面向集群機器人行為建模需求,擴展已有模型檢驗器的驗證能力,也可對集群機器人更多行為模型開展形式化驗證,以保障模型的正確性與完備性。