知識和數(shù)據(jù)協(xié)同驅(qū)動的群體智能決策方法研究綜述

2022-04-14 02:18:38蒲志強易建強劉振丘騰海孫金林李非墨

自動化學報 2022年3期

蒲志強易建強劉振丘騰海孫金林李非墨

群體智能 (Collective intelligence,CI)起源于對群居性生物及人類社會性行為的觀察研究,因其分布性、靈活性和健壯性等優(yōu)勢,為很多極具挑戰(zhàn)的復雜性問題提供了新的解決方案,是新一代人工智能重點發(fā)展的五大智能形態(tài)之一[1].進一步,由無人機、無人車等自主無人平臺組成的無人集群系統(tǒng)獲得長足發(fā)展,在智能交通管控、區(qū)域物流調(diào)度、機器人集群控制、復雜網(wǎng)絡同步等領(lǐng)域取得了一系列研究和應用成果[1-11].特別是在軍事智能領(lǐng)域,群體智能已被認為是有可能帶來顛覆性變革的新技術(shù),國內(nèi)外紛紛部署相關(guān)研究項目,如美國的 “進攻性蜂群使能戰(zhàn)術(shù)” (Offensive swarm-enabled tactics,OFFSET)項目、“拒止環(huán)境中的協(xié)同作戰(zhàn)” (Collaborative operations in denied environment,CODE)項目,印度2019 年發(fā)布的首個無人機集群概念項目 “空射彈性資產(chǎn)群” (Air-launched flexible assetswarm,ALFA-S),國內(nèi)中國電子科技集團、北航、國防科大等開展的無人機集群試飛項目等[12].

盡管群體智能已成為當前發(fā)展熱點,但現(xiàn)今并沒有關(guān)于這一概念的統(tǒng)一定義[6-7].不同學者從生物群體智能[13]、人群智能[1]、多智能體系統(tǒng)[9]、復雜網(wǎng)絡[14-15]、演化博弈論[16]等截然不同的學科視角出發(fā)展開研究,從不同側(cè)面取得了豐富的研究成果.本文統(tǒng)一稱其為 “群體智能”,并選擇其對應英文為Collective intelligence.一方面因為在我國新一代人工智能中,群體智能已顯性地成為一種智能形態(tài),此時已有必要將不同學科下的概念加以融合;另一方面CI 在英文文獻中的內(nèi)涵也更為廣泛[1-6],能相對更好地與 “群體智能”這一概念相對應.特別地,本文將融合控制論等學科進展,較多著墨于由無人系統(tǒng)這類物理平臺組成的群體系統(tǒng).因此,本文在談及統(tǒng)一性概念時采用 “群體智能”,而在具體問題中則可能結(jié)合上下文稱這樣的系統(tǒng)為 “集群系統(tǒng)”“多智能體系統(tǒng)”等.

當前群體智能決策主要基于兩大類方法:知識驅(qū)動和數(shù)據(jù)驅(qū)動.知識驅(qū)動方法[17]可充分利用已有知識,包括已有模型與算法知識、規(guī)則經(jīng)驗知識以及特定領(lǐng)域知識.知識的廣泛內(nèi)涵便于實現(xiàn)多學科知識的靈活集成;同時,許多基于模型的知識驅(qū)動方法具有完備的理論支撐體系,在分析算法穩(wěn)定性、最優(yōu)性、收斂性等方面具有天然優(yōu)勢;此外,知識驅(qū)動模型具有更好的可解釋性;而知識作為一種數(shù)據(jù)和信息高度凝練的體現(xiàn),也往往意味著更高效的算法執(zhí)行效率.但在實際應用中,特別是大規(guī)模群體協(xié)同等復雜問題中,群智激發(fā)匯聚的知識機理尚不完全清晰,知識獲取的代價高昂,同時現(xiàn)有知識難以實現(xiàn)復雜群體行為龐大解空間的完備覆蓋,也難以支持集群行為的持續(xù)學習與進化.近年來廣泛興起的深度強化學習等數(shù)據(jù)驅(qū)動方法[18]具有無需精確建模、能實現(xiàn)解空間的大范圍覆蓋和探索、從數(shù)據(jù)中持續(xù)學習和進化、算法通用性強等特點,同時具有海量開源模型和算法庫等工具支撐.然而,這類方法在理論特性分析上往往存在困難,其典型的“黑箱”特性也帶來了可解釋性差等問題;同時,其高度依賴高質(zhì)量的大數(shù)據(jù),而在群體智能應用中,這類數(shù)據(jù)本身較難獲取;此外,隨著群體規(guī)模和問題復雜度的提升,解空間維度災難問題為學習效率帶來了嚴峻挑戰(zhàn);而其依賴龐大算力的特點也使得個人或一般性機構(gòu)在開展研究時面臨嚴重瓶頸.知識驅(qū)動與數(shù)據(jù)驅(qū)動方法的主要優(yōu)缺點總結(jié)如圖1所示.

圖1 知識驅(qū)動和數(shù)據(jù)驅(qū)動各自優(yōu)缺點Fig.1 Advantages and disadvantages of knowledgebased and data-driven methodologies

基于上述分析,將知識驅(qū)動和數(shù)據(jù)驅(qū)動兩大類方法相結(jié)合,利用各自優(yōu)勢,形成知識與數(shù)據(jù)協(xié)同驅(qū)動的新方法路徑,有望為群體智能系統(tǒng)研究和應用提供更為廣闊的空間.這類方法盡管在近年來逐步受到關(guān)注[19-23],但尚未形成體系.為此,本文首先對知識驅(qū)動和數(shù)據(jù)驅(qū)動概念進行定性界定,在此基礎(chǔ)上系統(tǒng)梳理了知識與數(shù)據(jù)協(xié)同驅(qū)動可能存在的不同方法路徑,主要從知識與數(shù)據(jù)的架構(gòu)級協(xié)同、算法級協(xié)同兩個不同層面進行了方法歸類,總體框架如圖2 所示.在架構(gòu)級協(xié)同層面,從個體架構(gòu)、群體架構(gòu)兩方面介紹常見架構(gòu)體系,為復雜群體協(xié)同問題提供總體解決框架;在算法級協(xié)同層面,進一步劃分為算法的層次化協(xié)同、組件化協(xié)同,并在每類協(xié)同方法中具體選取了若干代表性方法進行介紹.這里,架構(gòu)級協(xié)同和算法級協(xié)同間的區(qū)別和關(guān)聯(lián)在于,前者為復雜問題的解決搭建了基礎(chǔ)框架,這為各類知識驅(qū)動、數(shù)據(jù)驅(qū)動以及知識與數(shù)據(jù)協(xié)同驅(qū)動的算法提供了 “容器”,體現(xiàn)為不同算法間的邏輯關(guān)系;而算法級協(xié)同則主要探討具體算法內(nèi)部如何協(xié)同運用知識與數(shù)據(jù)的相關(guān)要素,體現(xiàn)為某類算法內(nèi)的邏輯關(guān)系.在對上述兩大類協(xié)同方法進行詳細介紹后,本文最后從群體智能理論進一步深化、應用進一步落地等實際需求出發(fā),指出了知識與數(shù)據(jù)協(xié)同驅(qū)動的群體智能決策中未來幾個重要的研究方向.值得說明的是,由于知識與數(shù)據(jù)驅(qū)動的外延極其廣泛,學科交叉特點十分明顯,本文難以覆蓋所有方法,但致力于系統(tǒng)地為知識與數(shù)據(jù)協(xié)同驅(qū)動這類極具潛力的方法開啟討論,并為當前群體智能以及機器學習兩大熱點領(lǐng)域各自及其交叉領(lǐng)域的研究提供必要借鑒.

圖2 知識與數(shù)據(jù)協(xié)同驅(qū)動總體框架Fig.2 Overall framework of knowledge-based and data-driven methods integration

1 知識和數(shù)據(jù)驅(qū)動的概念界定

本質(zhì)上來說,任何人為設(shè)計的方法均包含 “知識”,例如所有神經(jīng)網(wǎng)絡模型中網(wǎng)絡結(jié)構(gòu)、激活函數(shù)、超參數(shù)的選取都體現(xiàn)了人的經(jīng)驗或先驗知識,但學術(shù)界顯然默認神經(jīng)網(wǎng)絡屬于數(shù)據(jù)驅(qū)動方法.從這個意義來說,所有數(shù)據(jù)驅(qū)動方法都體現(xiàn)了知識和數(shù)據(jù)協(xié)同的理念.但這樣的理解卻使問題變得過于 “平凡”,失去了對方法設(shè)計的指導意義.本文所述知識與數(shù)據(jù)協(xié)同,體現(xiàn)了一種更有針對性的 “顯式”協(xié)同.以下將首先對知識驅(qū)動及數(shù)據(jù)驅(qū)動方法進行適當界定,并簡要介紹各自發(fā)展的總體情況.值得一提的是,這種界定本身仍停留在定性列舉而非嚴格的概念定義層面.

1.1 知識驅(qū)動概念界定及簡介

本文所述 “知識”包括一系列基于數(shù)學/物理模型的算法知識、規(guī)則經(jīng)驗知識以及面向特定應用的領(lǐng)域知識.知識驅(qū)動是許多實際群體智能系統(tǒng)的主要研究路徑,在無人集群任務規(guī)劃、博弈決策、協(xié)同控制等方方面面具有廣泛的應用基礎(chǔ).

一是數(shù)學/物理模型知識.以群體動力學模型為例,典型的模型知識包括Reynold 模型[24]、Vicsek 模型[25]、Couzin 模型[26]、Cucker-Smale 模型[27]等,這為群體中的個體微觀運動提供了動力學基礎(chǔ).二是基于模型的算法知識,包括各類基于模型推導的路徑規(guī)劃算法[28],任務分配算法[29-30],基于一階[31-32]、二階[33-34]、高階[35-36]模型的一致性控制算法等,這類方法從解析的群體數(shù)學/物理模型出發(fā),基于解析求導的優(yōu)化理論以及Lyapunov 等穩(wěn)定性理論實現(xiàn)群體問題求解.三是規(guī)則經(jīng)驗知識,包括由人們對于集群基礎(chǔ)行為的認知構(gòu)建起的集群簡單行為規(guī)則,如各類基于模糊理論[37]、知識系統(tǒng)[38]構(gòu)建起的規(guī)則推理方法等.四是面向特定應用場景的領(lǐng)域知識,這是群體智能系統(tǒng)走向?qū)嵱没闹匾?例如在兵棋推演系統(tǒng)[39]中構(gòu)建的各類實體要素模型和裁決規(guī)則知識,這類知識為群體學習進化提出了新的約束條件,但同時也對問題求解空間進行了極大約簡.

以上基于機理模型、先驗知識或規(guī)則的知識驅(qū)動方法在確定、簡單、低維的單體或群體系統(tǒng)中表現(xiàn)出良好的性能,但現(xiàn)實中群體系統(tǒng)往往難以建模,且缺乏領(lǐng)域知識,同時當集群規(guī)模擴大,特別是集群表現(xiàn)出高維、復雜、強不確定性的行為特征時,已有的模型或規(guī)則經(jīng)驗知識難以覆蓋整個解空間,知識驅(qū)動方法的適用性、穩(wěn)定性、魯棒性將大大降低.

1.2 數(shù)據(jù)驅(qū)動概念界定及簡介

蟻群算法、粒子群優(yōu)化算法以及直接對無人集群系統(tǒng)行為具有重要借鑒意義的狼群算法、鴿群算法等生物啟發(fā)式進化計算方法在群體智能系統(tǒng)中具有廣泛的應用[13,40-41].囿于數(shù)據(jù)驅(qū)動方法廣泛的外延,本文所述 “數(shù)據(jù)驅(qū)動方法”側(cè)重于深度學習、強化學習等近些年廣泛興起的機器學習算法,但在某些方法分類中附帶包括上述進化計算方法.

深度學習具有高維數(shù)據(jù)的 “感知”能力,強化學習具有在與環(huán)境交互中的 “決策”能力,因此這兩種方法天然具有與大規(guī)模群體智能系統(tǒng)應用結(jié)合的優(yōu)勢,特別是兩種算法結(jié)合形成的深度強化學習(Deep reinforcement learning,DRL)方法.文獻[42]和文獻[43]分別對深度學習和強化學習進行了綜述,而DeepMind 團隊的系列成果則為深度強化學習的研究樹立起里程碑,代表性成果為三篇發(fā)表在Nature上的文章,分別介紹了在Atari 游戲[44]、圍棋程序AlphaGo[45]及其進階版AlphaGo Zero[46]上的應用.針對多智能體問題,文獻[4-5,47-48]系統(tǒng)介紹了強化學習在多智能體系統(tǒng)中的應用.針對非完全信息、大規(guī)模組合空間博弈問題,DeepMind 采用模仿學習、強化學習、多智能體學習等組合方法,訓練的AlphaStar[49]能戰(zhàn)勝99.8%的專業(yè)人類玩家,但其 “多智能體”屬性主要體現(xiàn)在由不同策略構(gòu)成策略池從而進行聯(lián)盟學習,具體到每個策略,仍是將所有操作算子看作一個整體進行單智能體學習.OpenAI團隊提出一種多智能體深度確定性策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)算法,通過集中評判-分散執(zhí)行方式使智能體具有自主決策能力,在動態(tài)環(huán)境中實現(xiàn)智能協(xié)同合作與對抗[50],但其端到端的學習架構(gòu)在復雜問題中面臨挑戰(zhàn).此外,OpenAI 針對DOTA 2 開展的多智能體研究也取得了不錯的成果,其開發(fā)的人工智能系統(tǒng)OpenAI Five 于2019 年4 月?lián)魯OTA 2 人類冠軍,核心技術(shù)特點是針對Open AI Five 這類具有上億參數(shù)量的大規(guī)模決策系統(tǒng),設(shè)計了一種新穎的 “手術(shù)” (Surgery)訓練機制,從而能夠在模型和環(huán)境不斷變化的情況下對智能體進行持續(xù)訓練,而無需從頭訓練獲取參數(shù),降低了新模型設(shè)計驗證的成本[51].

綜上所述,盡管DRL 等數(shù)據(jù)驅(qū)動方法在單智能體及多智能體系統(tǒng)中取得了一定的研究成果,但面對非完全信息、復雜物理約束等實際問題,如何結(jié)合先驗知識與算法模型,提高算法效率、降低算力要求,亟待進一步深入研究.

2 知識和數(shù)據(jù)的架構(gòu)級協(xié)同

從數(shù)據(jù)驅(qū)動的角度來看,當前一類主流的方法是端到端的機器學習算法,即輸入原始狀態(tài)信息,經(jīng)黑箱模型后直接輸出所需要的結(jié)果,如感知模型中物體識別的類別、決策模型中智能體的行為動作等.然而,對于復雜系統(tǒng)和復雜任務而言,特別是無人集群系統(tǒng)所面臨的復雜任務,端到端的學習模型難以奏效,此時一個合理的智能體任務體系架構(gòu)便顯得尤為重要.對群體智能系統(tǒng)體系架構(gòu)的研究,至少源于兩方面的需求,一是描述不同復雜任務中的通用機理和邏輯流程,有助于挖掘問題內(nèi)在的不變性機理并進行標準化建模;二是將復雜問題分解為若干較易解決的子問題,極大降低問題處理的復雜度.體系架構(gòu)為復雜大規(guī)模問題求解搭建起基本框架,在此基礎(chǔ)上,針對架構(gòu)中的不同邏輯模塊(子成員、子任務、子系統(tǒng)等),確定是采用知識驅(qū)動、數(shù)據(jù)驅(qū)動還是知識與數(shù)據(jù)協(xié)同驅(qū)動等具體算法.因此,體系架構(gòu)充當了算法容器的功能,使得不同驅(qū)動方式的算法形成有機協(xié)同,即實現(xiàn)架構(gòu)級協(xié)同.

體系架構(gòu)研究的內(nèi)涵十分廣泛,且存在截然不同的問題研究角度和方法路徑.針對本文所討論的群體智能系統(tǒng),大致可從兩方面剖析其體系架構(gòu)問題:一是個體的體系架構(gòu),研究個體如何自主決策;二是群體的體系架構(gòu),研究群體如何協(xié)同決策.

2.1 常見個體與群體體系架構(gòu)

若將每個個體看作一個智能體(Agent),則從Agent 建模角度來看,個體的體系架構(gòu)大致可分為3 類:反應式體系架構(gòu)、慎思式體系架構(gòu)和混合式體系架構(gòu)[52].反應式體系架構(gòu)模擬了動物反應式行為的特點,包含多個能獨立輸入輸出的模塊,每個模塊采用反應式的 “感知—動作”結(jié)構(gòu),對輸入信息進行反應式的動作,Brooks[53]提出的包容式體系結(jié)構(gòu)便是典型的反應式體系架構(gòu),而多智能體控制方法中基于行為的控制方法[54]也體現(xiàn)了這一特點.純反應式架構(gòu)的缺陷在于,Agent 僅基于局部信息做決策,在大規(guī)模系統(tǒng)中,這種相對 “近視”的決策機制可能難以獲得理想結(jié)果.慎思式體系架構(gòu)則將對輸入信息進行邏輯推理,典型的例子為著名的信念–意圖–期望 (Believe-desire-intension,BDI)模型[55],智能體基于所建立的信念庫、意圖庫、期望庫,按照一定的邏輯推理規(guī)則進行推理決策.慎思式架構(gòu)的缺陷在于,其推理過程往往較復雜,難以很好地適應實時性要求很高的環(huán)境.混合式體系架構(gòu)兼具了反應式架構(gòu)對環(huán)境的快速反應和慎思式架構(gòu)的邏輯推理特點,采用層次化體系結(jié)構(gòu),對于群體系統(tǒng)往往包含3 層,自上而下分別為合作層、推理層和反應層[52],合作層處理智能體間的合作任務,推理層完成智能體內(nèi)部的慎思式推理,反應層執(zhí)行環(huán)境刺激的反應式行為和上層下達的行為指令.混合式架構(gòu)對于群體智能系統(tǒng)這類復雜系統(tǒng)具有較好的適用性.此外,上述3 類體系架構(gòu)主要側(cè)重于應用導向的系統(tǒng)功能實現(xiàn),另一種體系架構(gòu)研究思路是從認知科學出發(fā),致力于刻畫自然或人工智能體認知、發(fā)育過程中的認知機理,并基于此實現(xiàn)人類認知水平的智能行為,著名的認知架構(gòu)模型包括 “狀態(tài)、算子與結(jié)果” (State,operator,and result,SOAR)模型、基于理性思維的自適應控制(Adaptive control of thought-rational,ACT-R)模型等[56].

群體體系架構(gòu)刻畫存在于各智能體中的通訊和控制模式,體現(xiàn)了集群中個體間的信息共享、存儲和協(xié)作方式,對群體系統(tǒng)的一致性、自主性、涌現(xiàn)性等特性具有直接影響[57].從群體中智能體的組織方式和通信、控制模式來看,群體架構(gòu)大致可分為網(wǎng)絡結(jié)構(gòu)、層次結(jié)構(gòu)、聯(lián)盟結(jié)構(gòu)三類[52].網(wǎng)絡結(jié)構(gòu)中,每個智能體的地位均等,符合條件的智能體間均能進行信息交互,最大限度體現(xiàn)了群體系統(tǒng)的自組織特性;層次結(jié)構(gòu)中,智能體分為不同層次,每層的決策和控制權(quán)來自于其上層的指令輸出,分層架構(gòu)體現(xiàn)了問題的逐級抽象特點,便于復雜任務的層次化分解;聯(lián)盟結(jié)構(gòu)中,智能體根據(jù)一定規(guī)則劃分為不同聯(lián)盟,聯(lián)盟內(nèi)和聯(lián)盟間分別采用不同的信息交互機制形成群體協(xié)同,這種結(jié)構(gòu)體現(xiàn)了一定的功能異構(gòu)性.

上述個體和群體結(jié)構(gòu)為復雜系統(tǒng)架構(gòu)建模提供了基本思想和模型要素,面向不同應用領(lǐng)域,則將基于上述基礎(chǔ)模型進行進一步設(shè)計.以無人集群系統(tǒng)最為典型的應用領(lǐng)域 ——軍事指揮控制領(lǐng)域為例,這是一個典型的多要素、巨復雜場景,其智能指揮控制過程難以采用單一的端到端模型加以刻畫,體系架構(gòu)設(shè)計便顯得尤為重要.面向多無人機任務規(guī)劃等任務,洛克希德 · 馬丁公司提出了多態(tài)認知智能體架構(gòu)(Polymorphic cognitive agent architecture,PCCA)[58],其核心是包含一個認知層,并進一步自上而下分解為宏觀(Macro)、微觀(Micro)、原子(Proto)三層認知架構(gòu),宏觀認知層采用基于SOAR 的知識推理模型,微觀認知層采用基于ACT-R 的專家推理模型,原子認知層采用基于群智分布式自組織方式實現(xiàn).面向無人機/車異構(gòu)集群城市作戰(zhàn)任務,美國國防部高級研究計劃局(DARPA)開展的OFFSET 項目[59],將復雜任務自上而下分解為集群任務層(Swarm mission)、集群戰(zhàn)術(shù)層(Swarm tactics)、集群原子操作層(Swarm primitives)、集群算法層(Swarm algorithm),任務層刻畫宏觀任務需求,戰(zhàn)術(shù)層描述完成任務所需的戰(zhàn)術(shù)序列,原子操作層表征完成某戰(zhàn)術(shù)所需具體執(zhí)行的行為,算法層則代表為實現(xiàn)具體行為所需的各項技能,每一層又進一步劃分為不同功能模塊,是一個典型的層次化體系架構(gòu).更一般地,觀察–判斷–決策–執(zhí)行(Observe-orient-decide-act,OODA)循環(huán)理論已被普遍接受為描述指揮決策過程的通用模型框架[60],其將作戰(zhàn)過程分解為由觀察、判斷、決策、執(zhí)行四個環(huán)節(jié)串聯(lián)形成的決策環(huán),并可作為一般性模型拓展到多智能體仿真[61]、應急響應[62]等應用領(lǐng)域中.

2.2 知識與數(shù)據(jù)架構(gòu)級協(xié)同概念模型

從知識和數(shù)據(jù)協(xié)同驅(qū)動的角度來說,上述一般性個體架構(gòu)模型、群體架構(gòu)模型以及作為示例的軍事指揮控制架構(gòu)模型從三方面體現(xiàn)了知識和數(shù)據(jù)協(xié)同的特點:一方面,這類組織架構(gòu)本身便體現(xiàn)了先驗知識的運用,是一類高度抽象的內(nèi)嵌知識;另一方面,將復雜問題分解為若干子問題,往往表現(xiàn)為不同問題求解子模塊,針對每個子模塊,可以進一步確定是采用數(shù)據(jù)驅(qū)動方法還是知識驅(qū)動方法加以求解,進而便于對各類基于知識或數(shù)據(jù)驅(qū)動的方法進行靈活集成;此外,從數(shù)據(jù)驅(qū)動來看,增強了數(shù)據(jù)驅(qū)動模型的可解釋性,并使數(shù)據(jù)驅(qū)動模型帶來的不確定性被限定在某個子模塊內(nèi).

以O(shè)ODA 循環(huán)為例,結(jié)合OFFSET 等采用的層次化、模塊化思想,我們可將復雜的群體決策問題描述為如圖3 所示的概念架構(gòu)模型.該模型將從原始狀態(tài)輸入到最終行為輸出間的決策控制過程分為觀察、判斷、決策、執(zhí)行四層,每一層根據(jù)需要進一步分解為不同顆粒度的子模塊,知識和數(shù)據(jù)協(xié)同驅(qū)動的思想則滲透到所有層次子模塊中,即可根據(jù)每個子模塊的功能特點、問題復雜度靈活選擇是采用知識驅(qū)動方法(淺灰色圓角矩形)還是數(shù)據(jù)驅(qū)動方法(深灰色矩形),并進一步研究具體采用哪一種知識驅(qū)動方法,如基于模型的解析算法(Algorithm)或啟發(fā)式的經(jīng)驗知識(Heuristic)等,或哪一種數(shù)據(jù)驅(qū)動方法,如深度學習中的卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN)模型、強化學習中的近端策略優(yōu)化(Proximal policy optimization,PPO)算法、多智能體強化學習中的MADDPG 算法等.特別地,涌現(xiàn)(Emergence)作為我們對群體系統(tǒng)重要的期待特征,當前存在大規(guī)模復雜系統(tǒng)涌現(xiàn)機理不清晰、復雜任務涌現(xiàn)規(guī)則難以設(shè)計等問題.為此,結(jié)合層次化分解思想,我們可將群智涌現(xiàn)行為局限在較低層次的執(zhí)行層,而非具有更高復雜度和問題抽象度的判斷、決策層,便于自組織、涌現(xiàn)方法在實際系統(tǒng)中的集成應用,這種思想與洛克希德 · 馬丁PCCA 模型中的原子層設(shè)計類似.

圖3 知識和數(shù)據(jù)架構(gòu)級協(xié)同概念模型Fig.3 Conceptual model for framework-level integration of knowledge-based and data-driven methods

3 知識和數(shù)據(jù)的算法級協(xié)同

前述個體或群體體系架構(gòu)主要針對復雜系統(tǒng)、綜合任務,如圖3 所示的概念架構(gòu)往往包含多種算法,并在不同層次、不同功能模塊間體現(xiàn)出知識與數(shù)據(jù)的協(xié)同.與此對應,許多算法本身便體現(xiàn)了知識與數(shù)據(jù)協(xié)同驅(qū)動的特點,由此形成 “算法級”的知識和數(shù)據(jù)協(xié)同路徑,在此就幾類代表性算法進行綜述,并根據(jù)算法的主要特點,進一步分為層次化協(xié)同算法、組件化協(xié)同算法兩類.層次化協(xié)同算法與架構(gòu)級協(xié)同思路類似,算法本身體現(xiàn)了一種分層思想,所不同的是,這種分層思想被包含在一個具體的算法內(nèi)部,可以直觀地理解為 “算法包含架構(gòu)”,而非架構(gòu)級協(xié)同那樣是 “架構(gòu)包含算法”;組件化協(xié)同則代表了其他一大類非層次化協(xié)同的方法,我們將探討更為 “精細”的知識與數(shù)據(jù)協(xié)同路徑,即協(xié)同不僅僅體現(xiàn)在分層這種單一思想上,而是將知識驅(qū)動或數(shù)據(jù)驅(qū)動部分看作另一方的某一個算法組件,二者緊密結(jié)合形成一個完整算法.

3.1 層次化協(xié)同算法

3.1.1 神經(jīng)網(wǎng)絡樹

神經(jīng)網(wǎng)絡樹是一種典型的知識與數(shù)據(jù)協(xié)同驅(qū)動模型,其中神經(jīng)網(wǎng)絡模型代表數(shù)據(jù)驅(qū)動,決策樹結(jié)構(gòu)則代表了知識驅(qū)動,其實質(zhì)是將若干神經(jīng)網(wǎng)絡模型以決策樹的結(jié)構(gòu)有效組織起來,使之兼具決策樹模型可解釋性強、易于集成專家知識以及神經(jīng)網(wǎng)絡模型自主學習的優(yōu)點.神經(jīng)網(wǎng)絡樹的研究已有數(shù)十年歷史,研究者很早便意識到將符號主義的決策樹模型與聯(lián)結(jié)主義的神經(jīng)網(wǎng)絡模型結(jié)合起來的優(yōu)勢[63],并提出了多種結(jié)合方式,如首先設(shè)計一個決策樹,再從中生成層次化神經(jīng)網(wǎng)絡模型[64],或反過來從已訓練好的神經(jīng)網(wǎng)絡中提取決策規(guī)則[65].

針對多機器人協(xié)同環(huán)境建模場景中的機器人異常行為檢測問題,文獻[66]提出采用Siamese 神經(jīng)網(wǎng)絡(Siamese neural network,SNN)[67]來計算兩個環(huán)境信息向量x1和x2間的距離,從而實現(xiàn)機器人異常行為的檢測,考慮到機器人群體采集到的環(huán)境信息維數(shù)十分龐大,作者進一步將由T個機器人采集到的環(huán)境信息分為T個子向量,并將原始的SNN設(shè)計為一個層次化網(wǎng)絡結(jié)構(gòu),由此簡化了SNN 網(wǎng)絡的訓練過程.機器人自主導航往往包含目標搜索、避碰避障等多種任務,各任務間的協(xié)調(diào)成為自主導航的關(guān)鍵,為此,文獻[68]針對自主導航中的多種子任務分別設(shè)計神經(jīng)網(wǎng)絡控制器,進一步設(shè)計一個基于神經(jīng)網(wǎng)絡的協(xié)調(diào)器來調(diào)整子任務控制器的輸出權(quán)重,子網(wǎng)絡及協(xié)調(diào)網(wǎng)絡間構(gòu)成一個層次化體系結(jié)構(gòu).近年來,隨著深度學習技術(shù)的興起,產(chǎn)生了基于各種深度神經(jīng)網(wǎng)絡(Deep neural network,DNN)的樹模型.文獻[69]提出一種具有增量學習特點的深度神經(jīng)網(wǎng)絡樹模型,對于已經(jīng)訓練好的DNN 模型,當新數(shù)據(jù)來臨后,模型能以一種樹狀結(jié)構(gòu)繼續(xù)層次化生長,以學習新數(shù)據(jù)中的模式,同時保留先前所學習到的知識,以避免網(wǎng)絡產(chǎn)生災難性遺忘問題.文獻[70]提出一種層次化卷積神經(jīng)網(wǎng)絡,用以提升分類問題結(jié)果準確率,其核心是確定一個合理的卷積神經(jīng)網(wǎng)絡層次化結(jié)構(gòu),為此作者采用層次化聚類方法構(gòu)建一個可視化的樹結(jié)構(gòu),并定義了一個層次化聚類有效性指數(shù)來指導樹結(jié)構(gòu)的自動學習.更多關(guān)于神經(jīng)網(wǎng)絡樹的最新研究可參考[71-73].

3.1.2 遺傳模糊樹

遺傳模糊樹(Genetic fuzzy tree,GFT)除了具有像神經(jīng)網(wǎng)絡樹這樣的樹結(jié)構(gòu)外,還代表了模糊推理這種典型知識驅(qū)動模型和遺傳算法這類數(shù)據(jù)驅(qū)動模型相結(jié)合的算法,其中模糊邏輯基于專家知識建立起推理框架,遺傳算法用以實現(xiàn)模糊推理中前后件規(guī)則參數(shù)的優(yōu)化,而樹結(jié)構(gòu)則進一步表征復雜問題中的層次化體系架構(gòu).推而廣之,這里的模糊系統(tǒng)可替換為專家系統(tǒng)等符號邏輯系統(tǒng),遺傳算法可替換為其他啟發(fā)式優(yōu)化算法或神經(jīng)網(wǎng)絡等數(shù)據(jù)驅(qū)動模型,因此GFT 具有較強代表性.

GFT 的典型應用主要體現(xiàn)在空戰(zhàn)博弈對抗系統(tǒng)上.針對復雜的空戰(zhàn)博弈過程,文獻[74]詳細闡述了GFT 構(gòu)建博弈智能體的優(yōu)勢.進一步,文獻[75]針對多無人戰(zhàn)斗機在復雜環(huán)境中的戰(zhàn)術(shù)協(xié)同和行為決策問題,利用GFT 方法進行戰(zhàn)術(shù)決策,并在著名的ALPHA 智能空戰(zhàn)系統(tǒng)中,實現(xiàn)了在高保真模擬環(huán)境中的無人作戰(zhàn)飛行器空戰(zhàn)任務.針對多兵種異構(gòu)作戰(zhàn)問題,文獻[76]設(shè)計了多個級聯(lián)模糊系統(tǒng)和遺傳算法進行戰(zhàn)術(shù)決策和優(yōu)化.這項研究中提出的GFT,創(chuàng)建了對不確定性因素具有恢復能力和自適應特性的控制器.最終無人戰(zhàn)斗機小組實現(xiàn)了在面對來自空中攔截器、地空導彈站點和電子戰(zhàn)站點等不確定性威脅的情況下,利用敵武器空隙穿越作戰(zhàn)空間并成功摧毀目標的任務.

然而,上述方法在構(gòu)建模糊規(guī)則時仍需大量專業(yè)知識,特別是當智能體數(shù)量增加時,輸入?yún)?shù)的增加將導致模糊規(guī)則數(shù)量指數(shù)增加.為此,文獻[77]提出一種基于單一輸入規(guī)則群(Single input rule modules,SIRMs)動態(tài)連接模糊推理模型和改進自適應遺傳算法的多無人戰(zhàn)斗機空戰(zhàn)博弈戰(zhàn)術(shù)決策方法.該方法改進了傳統(tǒng)的模糊推理方法,基于SIRM模型將所有輸入變量解耦,解耦后的各模糊推理模塊再通過動態(tài)權(quán)重將結(jié)果進行合并,得到推理決策動作,這種解耦方法解決了傳統(tǒng)模糊規(guī)則數(shù)量隨輸入變量數(shù)呈指數(shù)級增長的規(guī)則爆炸問題;同時遺傳算法的優(yōu)化作用使得只需建立粗略的規(guī)則框架,而無需精確的交戰(zhàn)規(guī)則,大大降低了規(guī)則設(shè)計的難度.

3.1.3 分層強化學習

深度強化學習成為引領(lǐng)當前人工智能特別是決策智能技術(shù)發(fā)展的核心要素.然而,在大規(guī)模復雜問題中,特別是在具有大量智能體的群體合作/對抗類問題中,狀態(tài)空間和動作空間指數(shù)增長帶來的維數(shù)災難問題仍然是當前強化學習面臨的一大重要挑戰(zhàn).分層強化學習(Hierarchical reinforcement learning,HRL)采用策略分層、分而治之的思想,為解決復雜大規(guī)模問題提供了有效手段,其本質(zhì)是針對馬爾科夫決策過程(Markov decision process,MDP)中假設(shè)每個動作都只在單個時間步內(nèi)完成的問題,采用不同的時間抽象方法將若干原子動作封裝為一個個擴展動作序列(Extended courses of action,ECA),每個ECA 可能包含多個時間步,從而把微觀的原子動作擴展為顆粒度更大的動作,這樣極大壓縮了動作空間[78],其理論依據(jù)則主要是半馬爾科夫決策過程(Semi-Markov decision process,SMDP)[79]的求解理論.MDP 與SMDP 的原理概念化對比如圖4 所示.

圖4 MDP 與SMDP 比較Fig.4 Comparison between MDP and SMDP

最早在強化學習中提出多層次任務劃分的代表性工作是Dayan等[80]提出的封建強化學習(Feudal reinforcement learning,FRL).正如其名所示,FRL 將復雜任務在時空上分層,當前層為Manager,其上層為Super-manager,下層為Sub-manager,當前層的學習目標是滿足上層的任務,并向下層下達指令,非相鄰層之間實行獎勵隱藏(Reward hiding)和信息隱藏(Information hiding),實現(xiàn)任務解耦.除此之外,經(jīng)典的分層強化學習還包括Sutton等[81]提出的基于選項(Option)的強化學習、Parr等[82]提出的基于分層抽象機(Hierarchies of abstract machine,HAM)的強化學習、Dietterich[83]提出的基于值函數(shù)分解的MaxQ (MaxQ value function decomposition)強化學習方法等.Option 方法定義了一系列由原子動作封裝而成的 “選項”,相對于原子動作,選項也可看作是一種 “宏觀動作”、“抽象動作”、“子控制器”,例如對于在多個房間內(nèi)游走的移動機器人,可以定義 “前”、“后”、“左”、“右”這樣的原子動作,也可定義 “移動到門口”這樣的選項,機器人將在原子動作和選項中進行動作選擇.HAM 方法將任務定義為一個隨機有限狀態(tài)機,采用MDP 對狀態(tài)機進行建模,實現(xiàn)智能體在某個狀態(tài)機內(nèi)部的學習以及狀態(tài)機間的切換調(diào)用.MaxQ 方法將一個MDP 過程M分解為子任務集{M0,M1,···,Mn},對應的策略π也分解為策略集{π0,π1,···,πn},所有子任務形成以M0為根節(jié)點的分層結(jié)構(gòu),每個子任務的動作選擇既可以是原子動作,也可以是其他子任務,最終解決了M0,即解決了完整任務.

近年來,將分層強化學習思想應用于多智能體強化學習,所產(chǎn)生的多智能體分層強化學習已成為研究熱點.DeepMind 提出了一種多智能體強化學習方法,核心是采用基于種群的訓練、單個智能體內(nèi)部獎勵優(yōu)化以及分層強化學習架構(gòu),其在 “雷神之錘”游戲中不僅學會了如何奪旗,還學到了一些不同于人類玩家的團隊協(xié)作策略[84].文獻[85]介紹了一種具有技能發(fā)現(xiàn)能力的雙層多智能體強化學習方法:在底層,智能體基于獨立的Q-learning 學得特定技能;在上層,基于外部團隊協(xié)作獎勵信號并采用集中式訓練方式實現(xiàn)多智能體間的協(xié)作.文獻[86]則使用多智能體分層強化學習來處理稀疏和延遲獎勵問題,作者同時研究了多種同步/異步HRL 方法,并提出了一種新的經(jīng)驗回放機制來處理多智能體學習中的非平穩(wěn)性等問題.此外,HRL 在多智能體路徑規(guī)劃[87]、多衛(wèi)星協(xié)同任務規(guī)劃[88]等應用問題中也展現(xiàn)了良好的求解能力.

顯然,分層強化學習引入了大量的先驗或領(lǐng)域知識,如Option 方法中如何將原子動作封裝為選項并確定選項的進入、退出條件,HAM 方法中如何設(shè)計隨機狀態(tài)機,MaxQ 方法中如何構(gòu)建子任務層次結(jié)構(gòu)等.盡管基于智能體自動任務抽象的端到端分層強化學習成為當前另一研究熱點,并出現(xiàn)了Option-Critic[89]、Manager-Worker[90]等端到端學習方法,但在大規(guī)模復雜問題中,特別是對系統(tǒng)可靠性、可解釋性有著苛刻要求的物理智能體領(lǐng)域,結(jié)合先驗和領(lǐng)域知識的分層強化學習方法仍是一個有效的選擇.

3.2 組件化協(xié)同算法

根據(jù)知識驅(qū)動、數(shù)據(jù)驅(qū)動方法各自所處的主次地位,我們可大致將組件化協(xié)同算法分為知識增強的數(shù)據(jù)驅(qū)動方法、數(shù)據(jù)調(diào)優(yōu)的知識驅(qū)動方法、知識和數(shù)據(jù)互補結(jié)合三類方法.其中,知識增強的數(shù)據(jù)驅(qū)動方法以數(shù)據(jù)驅(qū)動方法構(gòu)成算法的主體框架,算法的部分組件或某個操作步驟采用現(xiàn)有知識加以輔助或增強設(shè)計,目的是相較純數(shù)據(jù)驅(qū)動方法獲得性能提升;數(shù)據(jù)調(diào)優(yōu)的知識驅(qū)動方法則以知識驅(qū)動方法構(gòu)成算法主體框架,同樣算法的部分組件或某些操作步驟采用數(shù)據(jù)驅(qū)動方法、特別是數(shù)據(jù)驅(qū)動強大的尋優(yōu)能力來實現(xiàn)相對于純知識驅(qū)動方法的性能改善;在知識和數(shù)據(jù)互補結(jié)合方法中,知識驅(qū)動、數(shù)據(jù)驅(qū)動兩類方法的主次關(guān)系相對不明顯,二者將以互補方式構(gòu)成集成算法.

3.2.1 知識增強的數(shù)據(jù)驅(qū)動

如圖5 所示,在此主要介紹強化學習中的模仿學習、啟發(fā)式回報函數(shù)設(shè)計以及深度學習中的網(wǎng)絡化知識表示三種知識增強的數(shù)據(jù)驅(qū)動方法,每種方法的不同組件將基于先驗知識進行輔助增強設(shè)計,如直接模仿學習中的行為策略、逆強化學習及啟發(fā)式回報函數(shù)設(shè)計方法中的回報函數(shù),以及網(wǎng)絡化知識表示中的網(wǎng)絡結(jié)構(gòu)、參數(shù)和學習策略等.

圖5 知識增強的數(shù)據(jù)驅(qū)動方法Fig.5 Knowledge enhanced data-driven methods

1)模仿學習

多智能體強化學習中搜索狀態(tài)空間和策略空間巨大,且由于稀疏獎勵、延遲回報等問題,基于累積獎賞來學習多步之前的決策非常困難,而在現(xiàn)實任務中,我們往往能夠獲得一批專家的決策過程示例,由此可使強化學習模型直接模仿專家的示例軌跡來緩解前述困難,這一方法即為模仿學習.根據(jù)在強化學習框架下所 “模仿”的對象,可進一步將模仿學習劃分為直接模仿學習、逆強化學習兩類[20,91-93].

直接模仿學習中,首先獲取到專家的 “狀態(tài)–動作對”示例數(shù)據(jù),然后采用監(jiān)督學習方式來學得符合專家決策軌跡的策略模型.DeepMind 團隊的AlphaStar[49]首先針對人類玩家中排名前22%的玩家獲取到百萬規(guī)模的對戰(zhàn)數(shù)據(jù)集,采用監(jiān)督學習方式對策略網(wǎng)絡進行預訓練,此后再采用強化學習和聯(lián)盟學習方式進行策略提升和進化.文獻[94]采用層次化學習架構(gòu)來研究5V5 的多玩家在線對戰(zhàn)競技(Multiplayer online battle arena,MOBA)游戲,定義了 “對戰(zhàn)階段”、“注意力”兩層宏觀策略和 “行為執(zhí)行”一層微觀操作,并采用監(jiān)督學習方式分別學習宏觀策略和微觀操作.前述針對電競游戲的研究能較便捷地獲取到大規(guī)模先驗數(shù)據(jù)集,與此不同,實際物理環(huán)境下的無人集群應用場景往往缺乏人類經(jīng)驗或先驗數(shù)據(jù),但可能存在許多基于先驗模型或解析算法的知識類模型.為此,文獻[95]針對多智能體編隊和避碰問題,分別采用一致性編隊協(xié)議和最優(yōu)互補避碰(Optimal reciprocal collision avoidance,ORCA)算法設(shè)計知識驅(qū)動型編隊和避碰算法,并利用該算法產(chǎn)生示例數(shù)據(jù),進一步基于該示例數(shù)據(jù)采用模仿學習方式訓練初始值網(wǎng)絡,為后續(xù)強化學習提供初始網(wǎng)絡參數(shù),這種由 “模仿人類”改為 “模仿算法”的思想很有借鑒意義.

與直接模仿學習從示例數(shù)據(jù)中直接學習行為策略不同,逆強化學習[96]的思想是從專家示例中學習回報函數(shù),這在專家示例數(shù)據(jù)較少時表現(xiàn)出更好的問題抽象能力和泛化性能.文獻[97-98]對逆強化學習進行了綜述,根據(jù)是否人為指定回報函數(shù)的形式,將逆強化學習分為兩類:一類是人為指定回報函數(shù)形式的傳統(tǒng)方法,主要包括學徒學習方法、最大邊際規(guī)劃算法、結(jié)構(gòu)化分類方法以及基于最大熵、交叉熵等概率模型形式化表達方法;另一類方法為深度逆強化學習方法,即為了克服大規(guī)模問題中人為指定特征函數(shù)表現(xiàn)能力不足、只能覆蓋部分回報函數(shù)解空間等問題,采用深度神經(jīng)網(wǎng)絡來設(shè)計回報函數(shù)學習模型[99-100].與前述完全從專家正向示例樣本中學習不同,文獻[101]介紹了一種能同時學習正向樣本和負向樣本數(shù)據(jù)的機器人自主導航學習框架,正向樣本告訴機器人應該怎么做,而負向樣本教會機器人不應該怎么做,與單純采用正向樣本的方法相比,在機器人避碰成功率等方面得到了提升.在多智能體場景中,平衡解的非唯一性意味著同一個平衡策略可能對應多個逆模型,這為多智能體逆強化學習的研究帶來了挑戰(zhàn).文獻[102]將單智能體逆強化學習[96]拓展到多智能體領(lǐng)域,并將環(huán)境建模為一個一般和隨機博弈過程,以分布式方式來求取智能體各自的策略;文獻[103]則針對雙人零和博弈問題,采用貝葉斯方法來建模回報函數(shù),即首先為回報函數(shù)分配一個先驗分布,再基于觀察到的策略從后驗分布中生成回報函數(shù)的點估計.

2)啟發(fā)式回報函數(shù)設(shè)計

在強化學習中,許多問題存在獎勵稀疏或延遲等問題,恰當?shù)幕貓蠛瘮?shù)設(shè)計是算法優(yōu)異表現(xiàn)的關(guān)鍵.鑒于回報函數(shù)設(shè)計復雜,利用各種先驗知識來優(yōu)化獎勵信號的啟發(fā)式回報函數(shù)設(shè)計方法[104-105]成為一大類重要的知識與數(shù)據(jù)協(xié)同驅(qū)動方法.事實上,前述逆強化學習正是一種啟發(fā)式回報函數(shù)設(shè)計的特殊形式,其特別之處在于是從專家示例數(shù)據(jù)中去學得回報函數(shù),因此,本部分介紹除逆強化學習之外的啟發(fā)式回報函數(shù)設(shè)計方法.

啟發(fā)式回報函數(shù)設(shè)計的第1 種通用方法是直接利用經(jīng)驗或先驗知識來設(shè)計回報函數(shù).例如,文獻[106]針對多智能體協(xié)同區(qū)域覆蓋與網(wǎng)絡連通保持這一復合任務,在回報函數(shù)設(shè)計中充分運用了先驗知識:在區(qū)域覆蓋子任務中計算覆蓋率作為獎懲因素,在網(wǎng)絡連通保持子任務中計算代數(shù)連通度來作為連通性獎懲因素,最終實現(xiàn)了復雜任務的知識引導學習.文獻[107]針對無人車車道變換問題設(shè)計了基于深度Q 網(wǎng)絡(Deep Q-network,DQN)的自主決策模型,在回報函數(shù)中綜合考慮了車道變換的安全性和駕駛速度等因素.文獻[108]則基于控制論思想,采用被控量誤差絕對值的累加和作為回報函數(shù)來調(diào)節(jié)基于DRL 的控制器.

啟發(fā)式回報函數(shù)設(shè)計的第2 種方法是引入附加回報函數(shù).為表述清晰,在此對一個MDP 問題M進行五元組定義表示,即〈S,A,R,T,γ〉,五個變量分別表示環(huán)境狀態(tài)集合、動作集合、獎賞函數(shù)、狀態(tài)轉(zhuǎn)移函數(shù)和折扣因子.在附加回報函數(shù)設(shè)計中,為了對決策過程進行引導,在原MDP 問題M的回報函數(shù)R上疊加一個附加回報函數(shù)F,構(gòu)成新的MDP問題M′,其回報函數(shù)為R′=R+F.特別地,Ng等[109]證明可將附加回報函數(shù)設(shè)計為某個勢函數(shù)關(guān)于相鄰兩個狀態(tài)的差分形式而不是僅與當前狀態(tài)相關(guān),即

其中,s,s′∈S表示當前及下一時刻狀態(tài),?(·)為需要設(shè)計的勢函數(shù),從而有利于維持從M到M′的策略不變性.文獻[110]進一步從理論上證明了這一策略不變性結(jié)論.基于上述勢函數(shù),可將附加回報函數(shù)F的設(shè)計轉(zhuǎn)化為勢函數(shù)?(s)的設(shè)計,而勢函數(shù)則可基于先驗知識進行設(shè)計,例如選為狀態(tài)s與目標或者子目標之間廣義距離的相反數(shù),進而產(chǎn)生一個 “勢場”的吸引作用[111].進一步,文獻[112]將附加回報函數(shù)從單純依賴狀態(tài)空間拓展到依賴狀態(tài)-動作聯(lián)合空間,即

其中,a,a′∈A表示當前時刻及下一時刻選取的動作,這樣構(gòu)成基于勢函數(shù)的建議,即鼓勵智能體在某一狀態(tài)下采取某一特定動作;文獻[113]則將文獻[109]中的原始勢函數(shù)推廣為動態(tài)勢函數(shù),即在勢函數(shù)中顯式增加了時間變量,并證明仍然能保持策略的不變性.

結(jié)合上述基于勢函數(shù)的建議和動態(tài)勢函數(shù),文獻[114]證明可將任意獎勵函數(shù)轉(zhuǎn)化為基于勢函數(shù)的動態(tài)建議.

大部分強化學習的獎勵信號都是通過環(huán)境給定的外在獎勵,事實上學習的收益還有可能來源于內(nèi)在獎勵 (Intrinsic reward),例如智能體的好奇心以及對于內(nèi)部信息的反應[115].文獻[116]即給出了一個形象的例子說明,單純依賴外部獎勵可能會遺漏智能體內(nèi)部的重要信息,而增加內(nèi)部獎勵則可能提升智能體的性能表現(xiàn);在大量稀疏獎勵問題中,如何使智能體經(jīng)過有效探索以最快速度獲得外部獎勵,是強化學習研究的熱點問題,為此,文獻[117]提出了一種新的基于內(nèi)在獎勵的強化學習探索準則:BeBold,能夠使智能體在不知道具體環(huán)境語義的情況下以一種普適準則快速地適應各種環(huán)境,訓練出有效策略;更進一步,文獻[118]研究如何在完全沒有外部獎勵的環(huán)境下通過內(nèi)在獎勵實現(xiàn)智能體的訓練,并在54 個基準環(huán)境下進行測試,驗證了這一方法的有效性.在知識與數(shù)據(jù)協(xié)同驅(qū)動的框架內(nèi),上述內(nèi)在獎勵可以通過知識引導的方式設(shè)計,也可以通過數(shù)據(jù)驅(qū)動的方式來自動尋優(yōu)[116,119].

3)知識的網(wǎng)絡化表示

知識和數(shù)據(jù)協(xié)同驅(qū)動的另一種方法是將知識展開成數(shù)據(jù)化表示,特別是采用神經(jīng)網(wǎng)絡來進行表示,從而形成一種特殊形式的知識嵌套網(wǎng)絡,該網(wǎng)絡的結(jié)構(gòu)、參數(shù)等將體現(xiàn)領(lǐng)域或?qū)＜抑R的特點,進一步可將該網(wǎng)絡嵌入到更大的神經(jīng)網(wǎng)絡中進行統(tǒng)一訓練學習,概念模型如圖6 所示.例如,Xu等[19]提出一種將知識驅(qū)動和數(shù)據(jù)驅(qū)動相結(jié)合的框架,該框架首先根據(jù)問題物理機理、先驗知識等建立一個具有若干未知參數(shù)的模型族,然后基于數(shù)據(jù)驅(qū)動算法設(shè)計算法族,對模型族中的未知參數(shù)尋優(yōu),最后將整個模型展開為深度網(wǎng)絡以實施深度學習,該架構(gòu)對知識與數(shù)據(jù)的深度集成具有很好的啟發(fā)意義.事實上,這種將某一模型算法展開成神經(jīng)網(wǎng)絡進行統(tǒng)一訓練的思想很早便得到關(guān)注.例如,模糊神經(jīng)網(wǎng)絡[120-121]便是將模糊推理的隸屬度函數(shù)計算、模糊規(guī)則推理等過程展開成神經(jīng)網(wǎng)絡表示,隨后采用訓練的方式實現(xiàn)模糊推理前后件參數(shù)規(guī)則的尋優(yōu);又如,PID神經(jīng)網(wǎng)絡[122]將控制中應用最廣泛的PID 控制器展開成神經(jīng)網(wǎng)絡表示,隨后采用網(wǎng)絡訓練方式來尋優(yōu)控制參數(shù).除了將具體的模型或算法展開為神經(jīng)網(wǎng)絡表示外,還可以將某些數(shù)學方程展開為網(wǎng)絡表達,例如利用神經(jīng)網(wǎng)絡來表示非線性偏微分方程約束[123]或直接求解偏微分方程[124].

圖6 知識的網(wǎng)絡化展開概念模型Fig.6 Conceptual networking expansion of knowledge

除了將解析模型/算法或數(shù)學關(guān)系進行神經(jīng)網(wǎng)絡展開外,針對某些實際物理系統(tǒng),還可將物理約束進行網(wǎng)絡化展開.例如,針對真實機器人所受的動力學等物理約束,文獻[123]提出一種新穎的深度拉格朗日網(wǎng)絡(Deep Lagrangian networks,DeLaN),即將物理對象的拉格朗日動力學模型表示成神經(jīng)網(wǎng)絡形式,進一步采用深度網(wǎng)絡的訓練方式實現(xiàn)學習,從而在利用深度學習高效計算的同時保證物理約束.文獻[125]也提出采用神經(jīng)網(wǎng)絡來表示機器人機理模型,并驗證了該模型在表示7 自由度機械臂逆向動力學模型時,具有比傳統(tǒng)前饋神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡更好的表示精度和泛化性能.文獻[126]提出將復雜、動態(tài)系統(tǒng)采用圖神經(jīng)網(wǎng)絡來表示,例如機器人的身體和關(guān)節(jié)可分別用圖模型中的節(jié)點和邊來表示,從而采用一種統(tǒng)一的網(wǎng)絡方式實現(xiàn)模型的表征.而圖神經(jīng)網(wǎng)絡[127]在表征多智能體系統(tǒng)時具有更加直觀的意義,結(jié)合注意力機制,圖注意力網(wǎng)絡[128]可有效地提取智能體之間的隱藏時空特征關(guān)系,從而為多智能體協(xié)同決策提供特征輸入.

除了上述三種方法外,知識增強的數(shù)據(jù)驅(qū)動還有許多路徑選擇.例如,基于模型的強化學習便是一大類方法,其本質(zhì)是對MDP 模型M中狀態(tài)轉(zhuǎn)移函數(shù)T的處理和運用,通常是采用神經(jīng)網(wǎng)絡等模型對環(huán)境(即狀態(tài)轉(zhuǎn)移概率)進行建模,然后基于該模型來生成用于后期策略訓練的數(shù)據(jù),或是直接產(chǎn)生基于優(yōu)化的預測控制器.文獻[129]便采用這樣的思路,基于元學習來使得智能體能夠在線自適應地學到動態(tài)變化的環(huán)境模型,從而提升策略的魯棒性,在實際物理環(huán)境下的驗證表明,算法能使多足機器人在變化的地形條件、姿態(tài)估計存在偏差、負載變化、甚至是缺失一條腿的復雜情況下表現(xiàn)出良好的適應性.此外,若T已知,另一類通用方法是動態(tài)規(guī)劃[130-131],由于其內(nèi)涵過于廣泛,本文不做更進一步展開介紹.

3.2.2 數(shù)據(jù)調(diào)優(yōu)的知識驅(qū)動

數(shù)據(jù)調(diào)優(yōu)的知識驅(qū)動方法總體思想是利用數(shù)據(jù)驅(qū)動方法強大的尋優(yōu)能力來實現(xiàn)知識驅(qū)動方法中結(jié)構(gòu)或參數(shù)的優(yōu)化,這類方法在感知、決策、控制等領(lǐng)域已幾乎無處不在.例如,前述的遺傳模糊方法,即是采用進化計算這類數(shù)據(jù)驅(qū)動方法來優(yōu)化模糊推理這類知識驅(qū)動方法中的規(guī)則前后件;控制領(lǐng)域中的自適應控制、優(yōu)化控制等方法群也大量采用數(shù)據(jù)驅(qū)動方法來實現(xiàn)參數(shù)調(diào)優(yōu).又如,文獻[132]設(shè)計了模糊Q 學習控制器,采用強化學習方法對模糊控制器參數(shù)進行優(yōu)化.在集群編隊方面,文獻[133-134]以基于模型的一致性控制器為主控制器,采用徑向基神經(jīng)網(wǎng)絡方法估計集群編隊中的不確定性,設(shè)計了最小參數(shù)學習自適應控制算法.類似地,文獻[135]在考慮全狀態(tài)約束和指定性能的基礎(chǔ)上提出了一種事件觸發(fā)自適應控制算法,采用反步法構(gòu)建控制框架,采用徑向基神經(jīng)網(wǎng)絡處理多智能體模型中的非線性函數(shù).這類方法在基于模型的規(guī)劃、控制、決策等研究中已經(jīng)得到廣泛關(guān)注,故在此不做展開介紹.

3.2.3 知識與數(shù)據(jù)的互補結(jié)合

在這類方法中,知識驅(qū)動和數(shù)據(jù)驅(qū)動方法沒有明顯的主次關(guān)系,二者通過不同形式緊密集成.文獻[21]系統(tǒng)總結(jié)了基于模型的知識驅(qū)動方法和基于神經(jīng)網(wǎng)絡的數(shù)據(jù)驅(qū)動方法的不同結(jié)合形式,從架構(gòu)上主要分為二者并聯(lián)結(jié)合、串聯(lián)結(jié)合兩類:在并聯(lián)結(jié)合中,知識驅(qū)動和數(shù)據(jù)驅(qū)動模型采用相同的輸入,在輸出端將二者輸出結(jié)果進行并聯(lián);在串聯(lián)結(jié)合中,可將知識驅(qū)動模型的輸出作為數(shù)據(jù)驅(qū)動模型的輸入,或反過來將數(shù)據(jù)驅(qū)動模型的輸出作為知識驅(qū)動模型的輸入,文章還框架性地給出了這些結(jié)合形式在系統(tǒng)建模、預測、控制等不同問題中的應用.以控制系統(tǒng)設(shè)計為例,兩種結(jié)合方式衍生出3 種常見的系統(tǒng)框架,如圖7 所示[21].

圖7 知識驅(qū)動與神經(jīng)網(wǎng)絡互補結(jié)合控制框架Fig.7 Control diagrams of complementary knowledgedriven and neural network methods

在框架A 中,控制律u為

其中,K表示知識驅(qū)動控制器,輸出為uk,N表示神經(jīng)網(wǎng)絡,輸出為un,y=[ym,ysp],其中ysp為被控量設(shè)定值,ym為其測量值,D,M分別表示先驗知識中的狀態(tài)模型和輸出模型,p為先驗模型參數(shù),w為神經(jīng)網(wǎng)絡權(quán)重,其根據(jù)性能指標函數(shù)P調(diào)整;同時,知識驅(qū)動控制器中的參數(shù)p也可根據(jù)P調(diào)整.

類似地,框架B 中的控制律可表示為

框架C 中的控制律可表示為

其中,I為神經(jīng)網(wǎng)絡模型的相關(guān)輸入.這些不同的結(jié)合形式體現(xiàn)出不同的實際意義,例如,在框架A 中,往往采用數(shù)據(jù)驅(qū)動模型構(gòu)建不確定性補償模型,從而實現(xiàn)算法的優(yōu)化和魯棒增強[136];在框架B 中,可采用神經(jīng)網(wǎng)絡估計系統(tǒng)逆向動力學模型,然后采用知識驅(qū)動模型加以控制[137];在框架C 中,神經(jīng)網(wǎng)絡的作用則是估計知識驅(qū)動控制器中的參數(shù)p[134].

除了神經(jīng)網(wǎng)絡外,強化學習也被用于與知識驅(qū)動方法形成互補結(jié)合.例如,文獻[138]采用Q-learning構(gòu)成補償控制器,與基于模型的基準控制器一起工作,實現(xiàn)了四旋翼無人機的穩(wěn)定控制;類似地,文獻[108]采用二型模糊方法構(gòu)成基準控制器,采用基于深度確定性策略梯度(Deep deterministic policy gradient,DDPG)的強化學習方法構(gòu)成互補控制器,實現(xiàn)了電網(wǎng)調(diào)節(jié)頻率的控制.在串聯(lián)結(jié)合方式中,文獻[139]在策略學習框架中增加了一個盾牌(Shield),用來監(jiān)督所學習的動作是否安全合理,具體結(jié)合方式有兩種,一是智能體做決策時,直接從盾牌中獲取一個安全行為,二是監(jiān)督智能體的學習,一旦出現(xiàn)非安全行為時盾牌將加以動作修正;文獻[140]在MOBA 類游戲中也采取了類似的思想,采用一個動作掩碼(Mask)來對強化學習的探索過程進行剪枝,而掩碼的設(shè)計則繼承了有經(jīng)驗的人類玩家的先驗知識.當然,無論是盾牌法還是動作掩碼法,其知識驅(qū)動部分僅作為數(shù)據(jù)驅(qū)動部分的一個組件,仍體現(xiàn)出一定主次性,應歸為前述知識增強的數(shù)據(jù)驅(qū)動方法一類,在此介紹主要是體現(xiàn)其串聯(lián)結(jié)合的特性.

4 幾個重要的研究方向

無論從群體智能系統(tǒng)這一應用主體還是深度學習、強化學習這類方法主體來看,當前都已逐步走向應用問題具象化、多領(lǐng)域概念深度融合的發(fā)展階段,從理論進一步深化、應用進一步落地等角度來看,以下幾個方面將是未來重要的發(fā)展方向.

1)多學科融合視角下的群體智能機理研究.如前所述,當前,“群體智能”這一概念尚未形成統(tǒng)一認識,不同學者從不同的學科視角出發(fā)展開了豐富的研究.未來的重點方向之一勢必是打破這樣的學科壁壘,建立多學科融合的群體智能統(tǒng)一話語體系,汲取不同學科所包含的理論工具、研究路徑等知識內(nèi)核,形成更高層次和水平、具有更豐富路徑選擇的知識與數(shù)據(jù)協(xié)同體系.這方面已逐步引起關(guān)注,如[141-142]從博弈論和人工智能等不同角度探討了多智能體學習的問題,但仍未形成完善的理論方法體系.

2)知識與數(shù)據(jù)協(xié)同框架的理論分析.傳統(tǒng)基于數(shù)學/物理模型的知識驅(qū)動方法往往具有理論支撐較完備的特點,但當融合數(shù)據(jù)驅(qū)動模式后,如何開展整個協(xié)同框架的理論分析,是實現(xiàn)安全、可信任人工智能的關(guān)鍵.例如,在融入實際物理模型穩(wěn)定性、正定性等特性以及等式、不等式、動力學等約束后,如何設(shè)計能表征上述特性和約束的神經(jīng)網(wǎng)絡模型(網(wǎng)絡結(jié)構(gòu)、激活函數(shù)形式等)以及如何開展受限網(wǎng)絡的學習律設(shè)計和理論分析,是值得研究的重要理論方向.

3)群體系統(tǒng)智能決策的可解釋性研究.對于無人集群系統(tǒng)這樣的實際物理系統(tǒng),可解釋性顯得尤為重要.在機器學習領(lǐng)域,可解釋性描述一個算法模型輸出結(jié)果能為人們所理解的程度[143].傳統(tǒng)機器學習的可解釋性研究主要包括兩條路徑:一是建立本身易于解釋的模型;二是對建立好的數(shù)據(jù)驅(qū)動模型采用可解釋性方法進行解釋,即模型無關(guān)的可解釋性.但針對群體系統(tǒng),這里的可解釋性多了另一層含義,即群體由于自組織特性所產(chǎn)生的涌現(xiàn)行為可解釋性.因此,如何統(tǒng)籌考慮數(shù)據(jù)驅(qū)動模型的黑箱可解釋性和群智行為的涌現(xiàn)可解釋性,是群體智能系統(tǒng)走向?qū)嵱没年P(guān)鍵.

4)知識與數(shù)據(jù)的迭代進化.以知識來引導產(chǎn)生數(shù)據(jù)模型,從數(shù)據(jù)模型中歸納生成新的知識,形成知識與數(shù)據(jù)的交替迭代,是實現(xiàn)智能系統(tǒng)自主進化的重要路徑,也是實現(xiàn)能被人所理解卻又超越人類知識體系的人工智能系統(tǒng)的重要范式.從知識到數(shù)據(jù)的方法包括模仿學習以及各種啟發(fā)式的數(shù)據(jù)驅(qū)動方法,從數(shù)據(jù)到知識則包括各種規(guī)則學習、對手建模[144]等方法,但在決策智能這一當前最具挑戰(zhàn)性的問題下,尤其是針對群體智能系統(tǒng)的智能決策行為,如何結(jié)合實際應用背景形成知識與數(shù)據(jù)的迭代進化范式,是極具吸引力的研究方向.

5 結(jié)束語

群體智能理論和應用發(fā)展方興未艾,是新一代人工智能的一個熱點研究領(lǐng)域,但當前存在群智激發(fā)匯聚機理不清、對群體智能系統(tǒng)認知有限、高質(zhì)量訓練數(shù)據(jù)缺乏等問題,無論對知識驅(qū)動還是數(shù)據(jù)驅(qū)動方法都提出了嚴峻挑戰(zhàn),因此知識與數(shù)據(jù)協(xié)同驅(qū)動將是推進群體智能特別是群智決策研究的重要方法,也將為實現(xiàn)可引導、可信任、可學習、可進化的群體智能系統(tǒng)提供方法支撐.本文系統(tǒng)梳理了知識與數(shù)據(jù)協(xié)同驅(qū)動的多種方法路徑,并從架構(gòu)級協(xié)同、算法級協(xié)同等不同層面進行了方法歸類,最后從理論和應用等發(fā)展需求角度提出了幾個未來重點發(fā)展方向,以期為相關(guān)領(lǐng)域的研究提供必要借鑒.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放