任 娜,張 楠,崔 妍,張融雪,2,龐新富
(1.沈陽工程學(xué)院信息學(xué)院,沈陽 110136;2.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 610100)
(*通信作者電子郵箱kwp1ys@163.com)
電力巡檢是保證電網(wǎng)安全穩(wěn)定運(yùn)行的有效方式,隨著無人機(jī)(Unmanned Aerial Vehicle,UAV)自主導(dǎo)航系統(tǒng)及智能技術(shù)的迅速發(fā)展[1],它在輸電線路災(zāi)害分析、定位排查設(shè)施故障以及電力資源調(diào)配等方面發(fā)揮了顯著優(yōu)勢,大幅提高了輸電維護(hù)和檢修的效率。航跡的合理控制是影響無人機(jī)智能巡檢的重要因素[2],現(xiàn)階段針對電力巡檢的主要研究方法是通過航跡的規(guī)劃對定點(diǎn)位置和故障進(jìn)行監(jiān)視,較少從信息處理角度考慮高空復(fù)雜環(huán)境下的巡檢問題,對無人機(jī)巡檢的航跡定量分析和優(yōu)化設(shè)計(jì)還存在不足,而各類傳感器提供的態(tài)勢信息源由于外界不確定信息因素,直接影響無人機(jī)對電力巡檢的線路查排和設(shè)備缺陷診斷的精準(zhǔn)性,容易遺漏小樣本的異常事件檢測,導(dǎo)致財(cái)力損失和系統(tǒng)安全隱患,因此如何針對不確定態(tài)勢信息進(jìn)行融合并尋求合理的軌跡控制機(jī)制,以解決巡檢過程中迅速發(fā)現(xiàn)電力故障問題是目前亟待解決的問題。
對于高空復(fù)雜的電力巡檢任務(wù),智能無人機(jī)航跡行為的控制很大程度上取決于系統(tǒng)對指令用意和周邊環(huán)境的語義理解[3],語義建模[4-5]通過基于自然語言方法構(gòu)建領(lǐng)域概念結(jié)構(gòu)及關(guān)系并進(jìn)行定義推理,采用標(biāo)準(zhǔn)化規(guī)范化的語言格式實(shí)現(xiàn)對環(huán)境實(shí)體和不確定信息的模型構(gòu)建,進(jìn)而達(dá)到與環(huán)境的互通共識。文獻(xiàn)[6]中根據(jù)經(jīng)驗(yàn)?zāi)B(tài)分析方法從無人機(jī)歷史經(jīng)驗(yàn)態(tài)勢中提取與當(dāng)前態(tài)勢相似的特征進(jìn)行自組織聚類,從而解決航跡控制在時(shí)空屬性上的動(dòng)態(tài)連續(xù)態(tài)勢檢測問題;但該方法對于態(tài)勢信息的度量缺乏背景知識,回避了對不確定抽象信息實(shí)體的語義建模。文獻(xiàn)[7]中采用多層認(rèn)知框架的知識表示方法,描述無人機(jī)個(gè)體行為規(guī)劃和軌跡控制形成的過程,但無人機(jī)傳感器認(rèn)知的行為不僅取決于系統(tǒng)自身,還依賴于對環(huán)境的語義信息感知[8]。文獻(xiàn)[9]中借助層級式空間表達(dá)方式將地圖信息和環(huán)境實(shí)體抽取為概念圖,并用邏輯本體語言存儲(chǔ)相關(guān)領(lǐng)域知識推理環(huán)境實(shí)體,實(shí)現(xiàn)機(jī)器對環(huán)境的語義交互理解;但是考慮到無人機(jī)的局部觀測線和輸電線路上的空間布局,巡檢目標(biāo)區(qū)域覆蓋的范圍較難保證。
綜合考慮以上問題,以電力巡檢領(lǐng)域?yàn)橹R背景,從信息處理角度提出了一種語義實(shí)體構(gòu)建及航跡控制的方法:構(gòu)建基于語義知識背景的空間實(shí)體拓?fù)渚W(wǎng)絡(luò),生成關(guān)于位置節(jié)點(diǎn)的語義航跡序列網(wǎng)絡(luò)及其語義接口;根據(jù)空間拓?fù)浣Y(jié)構(gòu)相似性度量的結(jié)果集,提出安全許可機(jī)制和強(qiáng)化學(xué)習(xí)的航跡控制策略,實(shí)現(xiàn)電力巡檢無人機(jī)在統(tǒng)一的概念內(nèi)涵和位置結(jié)構(gòu)上的軌跡控制。
針對無人機(jī)在高空復(fù)雜巡檢環(huán)境下行為控制的背景約束和信息感知過程中數(shù)據(jù)的流向特征,將電力巡檢框架分為數(shù)據(jù)處理層、模型生成層和策略控制層。如圖1 所示,它是整個(gè)系統(tǒng)的底層架構(gòu)。
圖1 無人機(jī)電力巡檢框架Fig.1 Framework of UAV electric power inspection
1)數(shù)據(jù)處理層:主要用于將開源地理信息系統(tǒng)(Geographic Information System,GIS)數(shù)據(jù)庫PostGIS[10]的數(shù)據(jù)信息及無人機(jī)傳感器獲取的態(tài)勢信息、電力實(shí)體分布信息等進(jìn)行概念抽取和語義表征,形成具有圖結(jié)構(gòu)的空間實(shí)體拓?fù)渚W(wǎng)絡(luò),并賦予了相關(guān)語義概念、實(shí)例和關(guān)系,功能包括實(shí)體的時(shí)空分布、行為任務(wù)更新、實(shí)時(shí)維護(hù)等。
2)模型生成層:主要用于對當(dāng)前軌跡信息進(jìn)行語義建模,構(gòu)建與空間實(shí)體拓?fù)渚W(wǎng)絡(luò)映射的語義接口,用語義表征航跡序列的位置特征,作為學(xué)習(xí)模型網(wǎng)絡(luò)提供當(dāng)前初始化的語義環(huán)境。
無人機(jī)通過傳感器獲得的外部信息對當(dāng)前環(huán)境態(tài)勢進(jìn)行數(shù)據(jù)處理,并抽取為相應(yīng)的概念層次進(jìn)行語義表征,而歷史航跡數(shù)據(jù)和當(dāng)前航跡數(shù)據(jù)被劃分為航跡序列網(wǎng)絡(luò),同時(shí)通過語義表征和概念抽取得出一個(gè)空間實(shí)體拓?fù)渚W(wǎng)絡(luò)。在巡檢過程中,當(dāng)前巡檢任務(wù)環(huán)境的語義航跡網(wǎng)絡(luò)與空間實(shí)體拓?fù)渚W(wǎng)絡(luò)共同作為知識模型,為無人機(jī)提供統(tǒng)一的規(guī)范化數(shù)據(jù)支持??臻g拓?fù)湎嗨菩远攘坑|發(fā)無人機(jī)匹配歷史航跡和當(dāng)前航跡結(jié)構(gòu),并用強(qiáng)化學(xué)習(xí)的方法指導(dǎo)當(dāng)前軌跡在正確的控制策略中航行。
高空復(fù)雜環(huán)境下的任務(wù)場景受到無人機(jī)監(jiān)視器的局部觀測范圍和外界環(huán)境不確定因素等影響,將巡檢流程定義為在未知空間區(qū)域內(nèi),從預(yù)設(shè)巡檢作業(yè)點(diǎn)起飛,對位置空間上的實(shí)體進(jìn)行巡檢覆蓋所產(chǎn)生的航跡規(guī)劃,以尋求一個(gè)最優(yōu)的航跡作為對電力系統(tǒng)的一次巡檢任務(wù)。如圖2 所示,共分為桿塔上的巡檢和線路的巡檢[11]:桿塔上巡檢主要為針對設(shè)備缺陷和故障進(jìn)行的安全檢查,包括絕緣子、變壓器、閘閥、高壓螺栓、電流互感器等;線路上的巡檢主要為針對輸配電高壓線纜的故障巡檢。以上兩者的巡檢均需要觸發(fā)On_Entity 網(wǎng)絡(luò)中的概念進(jìn)行判斷和推理,將發(fā)現(xiàn)的故障和缺陷通過圖形圖像遠(yuǎn)程報(bào)告至地面控制服務(wù)器內(nèi),進(jìn)而達(dá)到巡檢的效果。
圖2 電力巡檢流程Fig.2 Flowchart of electric power inspection
空間實(shí)體的拓?fù)渚W(wǎng)絡(luò)建模是軌跡規(guī)劃的基礎(chǔ),能夠?yàn)檐壽E控制提供策略指導(dǎo),描述為無人機(jī)系統(tǒng)可理解的標(biāo)準(zhǔn)化統(tǒng)一數(shù)據(jù)。根據(jù)實(shí)體桿塔和線纜在空間上的布局,將每個(gè)實(shí)體進(jìn)行語義建模,初始化為一個(gè)具有語義特征的空拓?fù)渚W(wǎng)絡(luò):
其中:V為概念層次節(jié)點(diǎn);E為關(guān)系線段;I為實(shí)例;At為生成策略的動(dòng)作狀態(tài)輸出模型。如圖3 所示,On_Entity 的概念層次結(jié)構(gòu)分為行為狀態(tài)網(wǎng)絡(luò)、環(huán)境態(tài)勢網(wǎng)絡(luò)和歷史航跡網(wǎng)絡(luò),各層次概念與實(shí)例通過關(guān)系線段E連接為圖結(jié)構(gòu)。其中,行為狀態(tài)拓?fù)渚W(wǎng)描述了當(dāng)前無人機(jī)系統(tǒng)狀態(tài),包括引擎狀態(tài)、位置狀態(tài)、姿態(tài)調(diào)整、速度調(diào)整等,通過實(shí)例關(guān)系獲取動(dòng)力學(xué)模型中的平尾偏角、矢量舵偏角及俯仰角、中心角等參數(shù);環(huán)境態(tài)勢拓?fù)渚W(wǎng)為由PostGIS 抽取的地理信息概念、實(shí)例和關(guān)系,用于為無人機(jī)巡檢作位置導(dǎo)航,包括實(shí)體數(shù)據(jù)(如Telepole(桿塔)、TSwitch(刀閘)、transmission(電流互感器)等具體信息)以及從點(diǎn)(實(shí)體位置)、線(路網(wǎng))、面(區(qū)域)到復(fù)雜環(huán)境氣象數(shù)據(jù);歷史航跡網(wǎng)絡(luò)存儲(chǔ)了由行為狀態(tài)網(wǎng)絡(luò)和環(huán)境態(tài)勢網(wǎng)絡(luò)形成的策略軌跡,通過語義實(shí)例標(biāo)記的方法進(jìn)行記錄。所有數(shù)據(jù)在Protégé[11-12]平臺(tái)上構(gòu)建,由Apache Jena[11]封裝成支持SPARQL(Protocol and RDF Query Language)語言的OWL(Web Ontologoy Language)[12]模型,共600 個(gè)實(shí)體概念及5 500余個(gè)實(shí)例,由SWRL(Semantic Web Rule Language)[12]調(diào)試形成具有圖結(jié)構(gòu)的語義實(shí)體模型。
圖3 空間實(shí)體拓?fù)渚W(wǎng)絡(luò)建模Fig.3 Modeling of spatial entity topology network
On_Entity 是作為軌跡控制的初始策略,各實(shí)體在空間中初始化為靜態(tài)布局,但在無人機(jī)巡檢過程中基于任務(wù)的持續(xù)性和外界環(huán)境的不確定性,需要利用當(dāng)前的態(tài)勢數(shù)據(jù)進(jìn)行調(diào)整,從而達(dá)到航跡控制的效果。
由于On_Entity 中的態(tài)勢數(shù)據(jù)包含了大量的歷史航跡網(wǎng)絡(luò),按照無人機(jī)航跡劃分為多個(gè)時(shí)間和空間序列,形成一個(gè)歷史航跡序列的知識庫,而當(dāng)前新的航跡序列歷史數(shù)據(jù)在時(shí)空結(jié)構(gòu)和序列往往不一致,需要對數(shù)據(jù)進(jìn)行歸一化處理。本文利用語義軌跡的方法,將新的軌跡位置和片段加載語義標(biāo)簽,封裝成一個(gè)語義接口,即一條語義航跡[13-14]定義為:
其中:OID表示實(shí)體目標(biāo)的標(biāo)記,屬性包括位置信息記錄Listof(Pi(ti,xi,yi,zi))和敏感信息記錄Listof(SAttri);Segk為語義標(biāo)注后的第k個(gè)軌跡片段;為第k個(gè)軌跡片段開始時(shí)間,為終止時(shí)間,且滿足;Annok為語義標(biāo)簽信息。航跡序列使用前一時(shí)間點(diǎn)動(dòng)作-狀態(tài)作為輸入,下一時(shí)間點(diǎn)的狀態(tài)作為輸出,從路徑優(yōu)化的選擇上形成一個(gè)關(guān)于位置節(jié)點(diǎn)的航跡序列網(wǎng)絡(luò)GT。
借助ODIS-E工程師軟件可以無需在線連接大眾售后網(wǎng)絡(luò),即可實(shí)現(xiàn)方向機(jī)離線參數(shù)寫入等操作。也就是說,通過ODIS-E軟件,維修人員不必在線連接即可完成方向機(jī)更換和參數(shù)設(shè)置等操作。
如圖4 所示,航跡序列網(wǎng)絡(luò)節(jié)點(diǎn)上均加載一個(gè)語義接口,當(dāng)無人機(jī)巡檢過程中,航跡根據(jù)語義片段進(jìn)行自適應(yīng)的飛行,將一個(gè)垂直方向上的桿塔進(jìn)行了空間拓?fù)鋭澐植⒚枋隽塑壽E的位置節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)標(biāo)注了一個(gè)語義接口,該接口將On_Entity 中的感知特征和初始概率進(jìn)行編碼化,使無人機(jī)通過網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行航行。如:當(dāng)檢測區(qū)域Polygon 概念類中的區(qū)域Area1 與Area2 相連,根據(jù)空間實(shí)體拓?fù)潢P(guān)系網(wǎng),Area1 通過at 關(guān)系集連接實(shí)體對象Object1 和Object2,Area2 通過at 關(guān)系連接實(shí)體對象Object3、Object4、Object5 和Object6,這些對象的實(shí)例通過Nav_Object 函數(shù)擴(kuò)充概念的屬性,包括特征集Features(f1,f2,…,fn)和關(guān)系集Relations(r1,r2,…,rn),這些集合標(biāo)注了兩個(gè)實(shí)體之間連接的初始概率,提供了感應(yīng)設(shè)備對環(huán)境的語義解釋。
圖4 航跡的語義接口設(shè)計(jì)Fig.4 Design of semantic interfaces of trajectory
由于語義航跡難以滿足大量輸電線路實(shí)體數(shù)據(jù)處理需求,且存在大量的軌跡轉(zhuǎn)向、停留、飛行等隱性特征知識,軌跡結(jié)構(gòu)的相似性度量可以解決當(dāng)前航跡位置節(jié)點(diǎn)與On_Entity中歷史數(shù)據(jù)的空間相關(guān)性,挖掘歷史軌跡的隱性知識,以更好地為無人機(jī)航跡規(guī)劃提供精準(zhǔn)決策。無人機(jī)的航跡控制實(shí)質(zhì)上根據(jù)On_Entity 中的有向無環(huán)圖對拓?fù)浣Y(jié)構(gòu)的頂點(diǎn)進(jìn)行路徑選擇[15],并在每個(gè)位置節(jié)點(diǎn)上加載語義標(biāo)簽,以圖匹配為切入點(diǎn),度量當(dāng)前航跡位置節(jié)點(diǎn)和On_Entity 概念、實(shí)例、關(guān)系的相似性。拓?fù)浣Y(jié)構(gòu)匹配是為了最大化尋求兩個(gè)航跡之間的所有最大公共結(jié)構(gòu),設(shè)有當(dāng)前航跡序列網(wǎng)絡(luò)為GT,空間實(shí)體拓?fù)渚W(wǎng)絡(luò)On_Entity 為GO,節(jié)點(diǎn)數(shù)目為|GT|和|GO|。1)判斷兩個(gè)圖是否為圖同構(gòu)、子圖同構(gòu)、部分同構(gòu),計(jì)算GT和GO之間結(jié)構(gòu)匹配的最大節(jié)點(diǎn)數(shù)目n1以及對應(yīng)的匹配點(diǎn)對集合S1;2)由于GT和GO存在不對稱性,交換兩者的角色重復(fù)步驟1)計(jì)算得出匹配的最大節(jié)點(diǎn)數(shù)目n2以及匹配點(diǎn)對集合S2;3)當(dāng)結(jié)果為圖同構(gòu)時(shí),GT和GO兩者完全相同;當(dāng)結(jié)果為子圖同構(gòu)時(shí),GT為GO的部分結(jié)構(gòu),最大匹配節(jié)點(diǎn)數(shù)m為|GT|;4)當(dāng)部分同構(gòu)時(shí),則最大匹配節(jié)點(diǎn)數(shù)為m=Max(n1,n2),匹配點(diǎn)對集合為M=Max(GT,GO)。GT和GO的相似度計(jì)算如式(4)所示:
其中:stri為第i個(gè)匹配的結(jié)構(gòu);m為匹配節(jié)點(diǎn)數(shù);vi為第i個(gè)結(jié)構(gòu)匹配的內(nèi)節(jié)點(diǎn)數(shù)量;sum(stri)為第i個(gè)結(jié)構(gòu)匹配的歐氏距離,計(jì)算如式(5)所示:
經(jīng)空間拓?fù)浣Y(jié)構(gòu)相似度量后,獲取了與當(dāng)前軌跡序列網(wǎng)絡(luò)相似的結(jié)果集R,而在巡檢安全性方面為生成最優(yōu)控制策略須考慮安全約束條件,篩選R中導(dǎo)致智能體違背安全條件的巡檢軌跡序列,避免產(chǎn)生障礙碰撞和電磁干擾等問題,為此提出一種安全巡檢的許可機(jī)制。利用語義可達(dá)性描述安全巡檢機(jī)制,設(shè)RT的許可策略為安全許可,則應(yīng)滿足語義安全可達(dá)性描述為,即對于所有RT中位置節(jié)點(diǎn)P∈π的一個(gè)策略π從初始位置P0出發(fā)到達(dá)不安全狀態(tài)集合FU∈GO的概率小于閾值PU,則認(rèn)為該策略π為安全策略;而當(dāng)大于閾值PU時(shí),則表征在許可策略下從任意位置P到達(dá)不安全狀態(tài)集合FU的最大概率。
從初始位置P0節(jié)點(diǎn)出發(fā),任何一個(gè)策略未被安全性約束的最大概率不會(huì)超過閾值PU,對于每個(gè)位置節(jié)點(diǎn),許可策略至少會(huì)選擇一個(gè)行為策略輸出矩陣At,并設(shè)置不可達(dá)安全狀態(tài)的概率值為1。
為實(shí)現(xiàn)巡檢的目標(biāo)動(dòng)態(tài)實(shí)時(shí)監(jiān)測,不斷調(diào)整航跡控制狀態(tài)和語義信息,提出了基于強(qiáng)化學(xué)習(xí)[16]的航跡控制方法,分別設(shè)定航跡網(wǎng)絡(luò)集合R為模型學(xué)習(xí)網(wǎng)絡(luò)GR,空間實(shí)體拓?fù)渚W(wǎng)絡(luò)On_Entity為策略指導(dǎo)網(wǎng)絡(luò)GO,GR為當(dāng)前的航跡策略提供語義航跡特征,并從實(shí)際執(zhí)行的數(shù)據(jù)中學(xué)習(xí),提高模型的精準(zhǔn)性;GO為GR的航跡預(yù)測控制提供經(jīng)驗(yàn)策略和歷史軌跡,從實(shí)際執(zhí)行態(tài)勢數(shù)據(jù)中學(xué)習(xí)并優(yōu)化策略知識。
為了最大化滿足GR巡檢策略,定義結(jié)果集GR上狀態(tài)的期望累積回報(bào)量值,計(jì)算公式如下所示:
其中:Ri=[Ri(P0),Ri(P1),…,Ri(Pn)]為每個(gè)位置上的語義向量;為策略π下的行為狀態(tài)轉(zhuǎn)移概率。而對于每個(gè)安全許可機(jī)制下可控狀態(tài),得到折扣期望累積回報(bào)最大化策略集,從任意位置節(jié)點(diǎn)pi出發(fā)最大化滿足學(xué)習(xí)模型網(wǎng)絡(luò)R的策略。
如果不存在以概率1 滿足φU的策略,則從所有最優(yōu)策略集合π*中選擇從給定初始狀態(tài)出發(fā)得到滿意概率最大的策略進(jìn)行學(xué)習(xí)。對于模型學(xué)習(xí)網(wǎng)絡(luò)的每一個(gè)狀態(tài),根據(jù)與之間的GO交叉嫡定義一個(gè)策略回歸目標(biāo)函數(shù):
由此,更新航跡最優(yōu)策略和策略指導(dǎo)網(wǎng)絡(luò)算法步驟如下:
結(jié)合項(xiàng)目研究內(nèi)容,采用真實(shí)的電力系統(tǒng)數(shù)據(jù)背景進(jìn)行仿真。將全局環(huán)境區(qū)域限定為W×L=100 km×100 km,應(yīng)用1臺(tái)四旋翼無人機(jī)飛行速度為5 m/s,最大的偏角度為60°,最小有效觀測距離為2 m,仿真實(shí)驗(yàn)采用Gazebo 軟件平臺(tái)進(jìn)行,采樣周期為1 s,將OWL 文件通過Jena 導(dǎo)入至平臺(tái)中。與真實(shí)場景相比其區(qū)別在于該實(shí)驗(yàn)可以對場景進(jìn)行隨機(jī)布置,實(shí)驗(yàn)中由于網(wǎng)絡(luò)中傳感數(shù)據(jù)的不確定問題,應(yīng)對超出預(yù)測范圍的特征干擾,即空間實(shí)體拓?fù)渚W(wǎng)絡(luò)中沒有出現(xiàn)的實(shí)例,直接采用隨機(jī)方式會(huì)嚴(yán)重影響控制效果。為此,采用拉普拉斯平滑方法對檢測到的當(dāng)前事件數(shù)據(jù)進(jìn)行預(yù)處理。另外,為提高仿真實(shí)驗(yàn)的實(shí)用性和合理性,消除數(shù)據(jù)檢測隨機(jī)誤差的影響,對數(shù)據(jù)重復(fù)實(shí)驗(yàn)10次后取平均值作為最終結(jié)果。
無人機(jī)在電力巡檢中由策略指導(dǎo)網(wǎng)絡(luò)GO生成多條歷史軌跡數(shù)據(jù),并在各位置節(jié)點(diǎn)上標(biāo)注了語義接口信息,由圖5(a)可知,形成了在垂直平面上的歷史網(wǎng)絡(luò)軌跡圖。由圖5(b)可知,運(yùn)行本文方法后,無人機(jī)從初始狀態(tài)出發(fā),根據(jù)生成的策略確定在當(dāng)前狀態(tài)位置需要采取的行動(dòng)。然后根據(jù)策略指導(dǎo)網(wǎng)絡(luò)GO執(zhí)行下一個(gè)位置狀態(tài)的轉(zhuǎn)移,重復(fù)以上過程達(dá)到終止?fàn)顟B(tài),最終生成一個(gè)魯棒滿意[17]策略π*。
圖5 軌跡形成策略Fig.5 Trajectory generation strategy
為描述期望性能等級和魯棒性之間的權(quán)衡關(guān)系,設(shè)置不同期望性能等級rc對生成魯棒滿足策略π*的影響。定義策略π*的魯棒函數(shù)以確保給定策略能夠滿足期望性能等級rc,用于評價(jià)策略π*的影響。
其中:U(α,U′)為信息差不確定模型;R(π,u)為面向策略π*和不確定參數(shù)u的性能評價(jià)函數(shù)。由圖6 可知,對于rc從0~100,π*的魯棒性隨著rc的增加而降低,說明本文方法可以在不確定性信息中使無人機(jī)從偏離的軌跡控制中回歸,符合魯棒性滿意度原則。這是由于一方面,利用構(gòu)建了語義實(shí)體的概念,建立On_Entity 網(wǎng)絡(luò)模型,為航跡控制提供了語義接口服務(wù);另一方面,利用強(qiáng)化學(xué)習(xí)方法最大化滿足模型學(xué)習(xí)網(wǎng)絡(luò)的巡檢策略,并在每個(gè)位置狀態(tài)上生成一個(gè)期望累積回報(bào)向量,對策略指導(dǎo)網(wǎng)絡(luò)GO的結(jié)構(gòu)進(jìn)行學(xué)習(xí);使用GO輸出策略為一個(gè)穩(wěn)定的監(jiān)督訓(xùn)練信號,并調(diào)整偏離的航跡線路,將學(xué)習(xí)到的知識更新到策略指導(dǎo)網(wǎng)絡(luò)GO中。
圖6 策略魯棒性曲線Fig.6 Curve of strategy robustness
為進(jìn)一步說明本文方法在航跡控制的有效性,與現(xiàn)有的其他方法:啟發(fā)式方法[18]、粒子群優(yōu)化方法[19]和遺傳算法[20]進(jìn)行性能比較。性能比較平臺(tái)利用Matlab對相關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和編程,形成關(guān)于各方法的導(dǎo)入壓縮包,從目標(biāo)網(wǎng)絡(luò)適應(yīng)度和巡檢實(shí)體覆蓋率兩種指標(biāo)衡量不同方法下的航跡控制效果[21]。其中,目標(biāo)網(wǎng)絡(luò)適應(yīng)函數(shù)描述了在軌跡控制過程中無人機(jī)對區(qū)域目標(biāo)信息的不確定程度,表示為無人機(jī)對感知信息熵的代數(shù)平均值;巡檢實(shí)體覆蓋率描述了無人機(jī)在一定巡檢時(shí)間內(nèi)對空間實(shí)體覆蓋數(shù)量與整個(gè)區(qū)域內(nèi)實(shí)體數(shù)量的之比。如圖7 所示,不同方法下無人機(jī)軌跡控制的目標(biāo)網(wǎng)絡(luò)適應(yīng)度和巡檢實(shí)體覆蓋率隨迭代次數(shù)和時(shí)間變化的結(jié)果。
圖7 各航跡控制方法性能比較Fig.7 Performance comparison of different trajectory control methods
由圖7(a)可知:本文方法在每代最優(yōu)值會(huì)出現(xiàn)微小的波動(dòng),有利于算法跳出局部最優(yōu)解區(qū)域,并在第25 次迭代時(shí)收斂趨于穩(wěn)定適應(yīng)值1.2 附近,這種現(xiàn)象主要受益于強(qiáng)化學(xué)習(xí)的策略π*生成方法,使無人機(jī)根據(jù)當(dāng)前航跡網(wǎng)絡(luò)在策略回歸目標(biāo)函數(shù)的指導(dǎo)下向指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)優(yōu)化,同時(shí)空間拓?fù)浣Y(jié)構(gòu)相似度度量提高了對目標(biāo)實(shí)體感知的適應(yīng)值,保證了算法收斂穩(wěn)定;而啟發(fā)式方法在第30 代時(shí)逐步收斂穩(wěn)定,但收斂較慢且適應(yīng)值較高;粒子群優(yōu)化方法的適應(yīng)值與本文方法相近,可以實(shí)現(xiàn)全局的控制,但隨著迭代次數(shù)的增加陷入了不穩(wěn)定狀態(tài);遺傳算法同樣接近本文方法的適應(yīng)值,但振幅較大,難以滿足期望控制狀態(tài)。
由圖7(b)可知,隨著時(shí)間的變化,各種方法的覆蓋率逐步升高,在最終結(jié)果中啟發(fā)式方法的覆蓋率為83.5%,粒子優(yōu)化方法的覆蓋率為87.2%,遺傳算法的覆蓋率為88.4%,本文方法的覆蓋率為95.6%。本文方法在巡檢實(shí)體覆蓋效率高于其他方法且有上升的趨勢,這是由于本文方法在初始階段對巡檢區(qū)域內(nèi)每個(gè)實(shí)體進(jìn)行了語義建模,體現(xiàn)了空間拓?fù)渚W(wǎng)絡(luò)對航跡行為控制的優(yōu)勢,從而提高了覆蓋效率。
無人機(jī)航跡控制很大程度上取決于感知設(shè)備對周邊環(huán)境概念的理解,而實(shí)現(xiàn)這一點(diǎn)的基礎(chǔ)是構(gòu)建有效的實(shí)體網(wǎng)絡(luò),生成統(tǒng)一的概念內(nèi)涵并對位置結(jié)構(gòu)進(jìn)行合理的度量。本文在探索研究電力巡檢領(lǐng)域過程中,對電力系統(tǒng)的實(shí)體知識進(jìn)行領(lǐng)域建模,構(gòu)建關(guān)于時(shí)空屬性的內(nèi)涵概念,生成關(guān)于位置節(jié)點(diǎn)的語義航跡序列網(wǎng)絡(luò)及其語義接口,根據(jù)空間拓?fù)浣Y(jié)構(gòu)相似性度量的結(jié)果集,分析安全許可機(jī)制,在強(qiáng)化學(xué)習(xí)基礎(chǔ)上學(xué)習(xí)策略指導(dǎo)網(wǎng)絡(luò)的航跡控制,生成統(tǒng)一的概念內(nèi)涵和最優(yōu)航跡控制策略,能夠滿足最大化魯棒性能。實(shí)驗(yàn)結(jié)果從目標(biāo)網(wǎng)絡(luò)適應(yīng)度和巡檢實(shí)體覆蓋率兩方面驗(yàn)證了本文方法的有效性。然而,對于數(shù)據(jù)規(guī)模較大的問題,本文方法不能保證每次迭代都可以達(dá)到最優(yōu)策略解,容易陷入局部最優(yōu)的情況,這是由于現(xiàn)有實(shí)驗(yàn)涉及電力巡檢的訓(xùn)練數(shù)據(jù)在同一個(gè)區(qū)域內(nèi)完成,采集的數(shù)據(jù)量較少且情況單一,網(wǎng)絡(luò)的模型過于復(fù)雜容易過擬合。下一步將考慮用多無人機(jī)集群的方法解決對電力巡檢環(huán)境的感知問題,并在立體空間上進(jìn)行探索應(yīng)用,以提供更高效的語義巡檢服務(wù)。