張耀中, 姚康佳,郭 操
(1.西北工業(yè)大學(xué)電子信息學(xué)院,西安 710129; 2.沈陽(yáng)飛機(jī)設(shè)計(jì)研究所,沈陽(yáng) 110035)
隨著無(wú)人作戰(zhàn)平臺(tái)以及各類(lèi)機(jī)載傳感器載荷技術(shù)的快速發(fā)展,分布式無(wú)人平臺(tái)傳感器在戰(zhàn)場(chǎng)中發(fā)揮越來(lái)越重要的作用。但是,分布式多傳感器系統(tǒng)由于作戰(zhàn)環(huán)境的復(fù)雜性、地理位置的分散性以及戰(zhàn)場(chǎng)活動(dòng)的不確定性為任務(wù)系統(tǒng)的調(diào)度帶來(lái)了挑戰(zhàn)。通常戰(zhàn)場(chǎng)環(huán)境中的各種真實(shí)狀態(tài)都是隱藏的,其真實(shí)狀態(tài)只能通過(guò)各種分布式傳感器的觀測(cè)值推斷得來(lái)[1]。隱馬爾可夫模型(Hidden Markov Model,HMM)作為一種參數(shù)化表示的用于描述隨機(jī)過(guò)程統(tǒng)計(jì)特性的概率模型,是一個(gè)雙重隨機(jī)過(guò)程,由兩個(gè)部分組成:Markov鏈和一般隨機(jī)過(guò)程[2]。由于戰(zhàn)場(chǎng)環(huán)境中各種真實(shí)狀態(tài)的演化都是隱藏進(jìn)行的,可以將其看作是一個(gè)隱藏的隨機(jī)過(guò)程序列,完全可以從分布式傳感器的觀察序列中對(duì)相應(yīng)的真實(shí)狀態(tài)進(jìn)行概率推斷,從而尋求戰(zhàn)場(chǎng)環(huán)境中所隱藏的真實(shí)系統(tǒng)狀態(tài)。
本文針對(duì)多無(wú)人平臺(tái)搭載多傳感器進(jìn)行協(xié)同任務(wù)探測(cè)為研究目標(biāo),以HMM思想和信息熵理論為支撐,以戰(zhàn)場(chǎng)環(huán)境的不確定性和傳感器執(zhí)行任務(wù)的損耗模型為出發(fā)點(diǎn),以單位傳感器執(zhí)行給定任務(wù)的損耗所帶來(lái)的信息增益大小為目標(biāo)函數(shù)建立了基于單鏈HMM和多鏈HMM過(guò)程的動(dòng)態(tài)傳感器任務(wù)規(guī)劃模型[3]。同時(shí)針對(duì)一些特殊情況下的傳感器任務(wù)調(diào)度策略,通過(guò)引入風(fēng)險(xiǎn)成本的概念,在保障任務(wù)完成的同時(shí)能很好地降低使用無(wú)人機(jī)平臺(tái)搭載傳感器執(zhí)行任務(wù)的風(fēng)險(xiǎn),為戰(zhàn)場(chǎng)環(huán)境中不確定性建模和分析奠定了基礎(chǔ)。
若一個(gè)隨機(jī)過(guò)程演變的將來(lái)狀態(tài)僅依賴(lài)于現(xiàn)在時(shí)刻,而與過(guò)去時(shí)刻無(wú)關(guān),稱(chēng)該過(guò)程為隨機(jī)Markov過(guò)程[4]。在戰(zhàn)場(chǎng)態(tài)勢(shì)感知過(guò)程中,真實(shí)的戰(zhàn)場(chǎng)狀態(tài)通常是隱藏的,只能通過(guò)各種類(lèi)型傳感器的觀測(cè)值進(jìn)行推斷,對(duì)應(yīng)的Markov過(guò)程就是一個(gè)雙重隨機(jī)過(guò)程,即HMM過(guò)程:一個(gè)是隱含的狀態(tài)轉(zhuǎn)移序列,它對(duì)應(yīng)一個(gè)單純的Markov過(guò)程,另一個(gè)是與隱含狀態(tài)相對(duì)應(yīng)的觀測(cè)序列[5]。在戰(zhàn)場(chǎng)環(huán)境中需要探測(cè)的每個(gè)任務(wù)都可以看作是一個(gè)HMM過(guò)程。
假設(shè)任務(wù)探測(cè)時(shí)刻為k∈{1,2,…,K},系統(tǒng)中有N個(gè)離散的HMM過(guò)程,u(k)?{1,2,…,m}為k時(shí)刻可用傳感器集合,m為系統(tǒng)中傳感器的數(shù)量,設(shè)定一個(gè)傳感器觀測(cè)序列對(duì)應(yīng)一個(gè)HMM過(guò)程。定義k時(shí)刻系統(tǒng)的狀態(tài)轉(zhuǎn)移概率矩陣為A(k),觀察概率矩陣為B(k),若初始狀態(tài)的概率分布為φ,則HMM模型定義為[6]
Λ(k)=(A(k),B(k),φ)k=1,2,…,K
(1)
k時(shí)刻N(yùn)個(gè)HMM過(guò)程的狀態(tài)轉(zhuǎn)移概率集合可以表示為A(k)={A1(k),…,Ar(k),…,AN(k)},其中,Ar(k)表示第r個(gè)HMM過(guò)程的狀態(tài)轉(zhuǎn)移概率矩陣
Ar(k)=[arij(k)]={P(xr(k)=srj|xr(k-1)=sri)}
(2)
式中,xr(k)表示HMMr在k時(shí)刻的隱狀態(tài)[7],xr(k)∈{sri:i=1,2,…,nr},nr為HMMr的隱狀態(tài)數(shù)。
同理,k時(shí)刻N(yùn)個(gè)HMM過(guò)程中的觀察概率矩陣為
B(k)={B1(k),…,Br(k),…,BN(k)}。
(3)
設(shè)定yr(k)為k時(shí)刻通過(guò)傳感器探測(cè)獲取到的觀測(cè)值,yr(k)∈{Or1(k),…,OrL(q)(k)},由于不同類(lèi)型傳感器的功能特性不同,因此觀察值個(gè)數(shù)取決于所分配傳感器的種類(lèi)。若k時(shí)刻沒(méi)有傳感器分配給HMMr過(guò)程,那么觀察值的集合為Φ。定義brliq(k)為k時(shí)刻系統(tǒng)狀態(tài)xr(k)=sri時(shí),分配給HMMr的傳感器觀測(cè)到Orl(k)(l=1,2,…,L(q))出現(xiàn)的概率,則
Brq(k)=[brliq(k)]=
[P(yr(k)=Orl(k)|xr(k)=sri,μr(k)=q)]
(4)
(5)
(6)
若系統(tǒng)中只有一個(gè)探測(cè)任務(wù),則對(duì)應(yīng)只有一個(gè)HMM過(guò)程,此時(shí)N=1,相對(duì)應(yīng)的狀態(tài)轉(zhuǎn)移概率矩陣和觀察概率矩陣以及初始狀態(tài)分布概率也只有一個(gè),可視為多鏈HMM過(guò)程的一種特殊情況。
圖1 基于HMM的傳感器規(guī)劃問(wèn)題圖示Fig.1 HMM-based sensor planning
為了便于問(wèn)題的分析,引入系統(tǒng)信息狀態(tài)的概念以描述N個(gè)HMM過(guò)程中的隨機(jī)性,定義如下
(7)
(8)
在k時(shí)刻,HMMr中傳感器的使用總成本可以表示為
(9)
傳感器使用成本定義為
(10)
(11)
式中:(ar,br)和(aμr(k),bμr(k))分別表示HMMr所關(guān)聯(lián)的任務(wù)和傳感器μr(k)的位置坐標(biāo);v(μr(k))為傳感器μr(k)(或所搭載平臺(tái))的移動(dòng)速度。
為了解決戰(zhàn)場(chǎng)環(huán)境中分布式多平臺(tái)傳感器分配問(wèn)題的不確定性和隨機(jī)性因素,將信息熵引入傳感器動(dòng)態(tài)規(guī)劃模型中,以信息增益和傳感器執(zhí)行任務(wù)過(guò)程中的成本損耗為切入點(diǎn),定義多傳感器動(dòng)態(tài)分配過(guò)程的目標(biāo)函數(shù)。
假設(shè)在k時(shí)刻,所有可選的傳感器分配方案集合為ξ(k),規(guī)劃模型需要在ξ(k)中選擇最優(yōu)的分配方案δ*(k),以最大化每個(gè)傳感器損耗單位成本所獲取的信息增益,即最大化不確定性的減少量。本文中采用隨機(jī)變量πr(k|k-1)的信息熵H(πr(k|k-1))來(lái)指示其平均不確定性,也表示它所攜帶的平均信息量[2]。當(dāng)πr(k|k-1)的某個(gè)可能值概率為1時(shí),H(πr(k|k-1))=0,即隨機(jī)變量的取值是確定的;當(dāng)所有的可能值出現(xiàn)的概率相同時(shí),隨機(jī)變量πr(k|k-1)的平均不確定性最大。結(jié)合信息狀態(tài)概率式(7)得到信息狀態(tài)πr(k|k-1)的熵表達(dá)式為
(12)
同理,μr(k)=q的信息熵為
H(μr(k)=q)=
(13)
(14)
設(shè)隨機(jī)變量X和Y,條件熵H(X|Y)表示已知Y時(shí),X所具有的平均不確定性,表達(dá)式為
(15)
式中,P(x,y)為隨機(jī)變量X和Y的聯(lián)合概率,P(x,y)=P(y)P(x|y),則H(X|Y)可以進(jìn)一步表示為
(16)
式中,H(X,Y)為聯(lián)合熵,可以理解為熵的分解,即X和Y的聯(lián)合不確定性可以分解為X(Y)的不確定性加已知X(Y)時(shí)Y(X)的不確定性[8-9]。結(jié)合條件熵的定義式(15)和全概率公式,H(X|Y)可表示為當(dāng)Y取所有可能值時(shí)的全概率形式。
(17)
因此,由上式可得
(18)
(19)
將式(13)、式(14)和式(18)代入式(19),可以得到最終的信息增益表達(dá)式為
(20)
(21)
由于戰(zhàn)場(chǎng)中的真實(shí)狀態(tài)是隱藏的,其真值只能通過(guò)各種傳感器的觀測(cè)值推斷而來(lái),戰(zhàn)場(chǎng)環(huán)境無(wú)法實(shí)時(shí)準(zhǔn)確確定,因此選取合適的傳感器探測(cè)任務(wù)序列,能保證對(duì)戰(zhàn)場(chǎng)環(huán)境的全面感知。
已知δrq(k,i),獲取δrq(k+1,i)的遞推公式為
(22)
利用記憶變量Ψrq(k,i)記錄概率最大路徑上當(dāng)前狀態(tài)的前一個(gè)狀態(tài)。并且根據(jù)當(dāng)前狀態(tài)以及對(duì)下一狀態(tài)的預(yù)測(cè),通過(guò)目標(biāo)函數(shù)——單位成本下的信息增益,選擇合適的傳感器執(zhí)行目標(biāo)任務(wù),并且根據(jù)執(zhí)行任務(wù)的結(jié)果作為下一時(shí)間階段的決策依據(jù)。不斷進(jìn)行這一過(guò)程,可以得到在不同時(shí)刻下用于執(zhí)行任務(wù)的傳感器序列,即多傳感器的最佳探測(cè)任務(wù)序列。
分布式多傳感器動(dòng)態(tài)任務(wù)規(guī)劃過(guò)程如圖2所示。
圖2 基于HMM的多傳感器動(dòng)態(tài)規(guī)劃過(guò)程Fig.2 Multi-sensor dynamic programming based on HMM
首先,設(shè)定初始的模型參數(shù),所選擇的參數(shù)可以通過(guò)經(jīng)驗(yàn)值設(shè)定,也可以通過(guò)Baum-Welch算法進(jìn)行模型參數(shù)的重估。針對(duì)k時(shí)刻的HMMr過(guò)程,算法的執(zhí)行步驟如下所述。
(23)
2) 生成信息增益矩陣。分配給每個(gè)HMM過(guò)程的傳感器獲取的信息增益值不同,因此,利用式(20)分別計(jì)算每個(gè)傳感器-HMM過(guò)程的單位傳感器使用損耗帶來(lái)的信息增益量,得到m×N的信息增益矩陣為
(24)
3) 傳感器分配。通過(guò)式(21)得到滿(mǎn)足約束條件并且使目標(biāo)函數(shù)值最大的傳感器任務(wù)分配矩陣δ*(k)。
(25)
6) 算法迭代。如果k=K,算法結(jié)束,輸出最佳的狀態(tài)轉(zhuǎn)換序列,從而得到戰(zhàn)場(chǎng)態(tài)勢(shì)預(yù)測(cè)結(jié)果;否則更新k的值為k+1,轉(zhuǎn)至1)。
在使用無(wú)人機(jī)平臺(tái)搭載傳感器執(zhí)行任務(wù)時(shí),由于平臺(tái)和傳感器均存在發(fā)生意外的概率,導(dǎo)致無(wú)法順利完成規(guī)劃的任務(wù),敵方可能對(duì)執(zhí)行任務(wù)的無(wú)人機(jī)平臺(tái)進(jìn)行打擊。這些突發(fā)情況給任務(wù)的執(zhí)行帶來(lái)極大的不確定性,從而使傳感器任務(wù)調(diào)度更加復(fù)雜。
在無(wú)人機(jī)平臺(tái)執(zhí)行任務(wù)的過(guò)程中可能會(huì)發(fā)生意外,導(dǎo)致無(wú)人機(jī)平臺(tái)損失。無(wú)人機(jī)作為傳感器的搭載平臺(tái),一旦損失,對(duì)應(yīng)所搭載的傳感器同樣丟失,無(wú)法再次使用。
給定無(wú)人機(jī)由敵方擊毀和非敵方擊毀(技術(shù)原因墜毀或氣象環(huán)境原因墜毀)造成的無(wú)人機(jī)丟失的概率,設(shè)定a表示敵方擊毀無(wú)人機(jī)的概率,b表示非敵方擊毀造成無(wú)人機(jī)丟失的概率,可知a+b=1。把無(wú)人機(jī)丟失之前是否傳回目標(biāo)地點(diǎn)的信息分為兩種情況:一種是無(wú)人機(jī)傳回目標(biāo)區(qū)域的探測(cè)信息;另一種是無(wú)人機(jī)未傳回目標(biāo)區(qū)域的探測(cè)信息。兩種情況對(duì)應(yīng)不同的狀態(tài)概率分布,使用Sstate表示系統(tǒng)的綜合狀態(tài)更新。
無(wú)人機(jī)傳回目標(biāo)區(qū)域的探測(cè)信息為
Sstate=b*D+a*P
(26)
式中:D表示無(wú)人機(jī)的探測(cè)數(shù)據(jù),即無(wú)人機(jī)探測(cè)所得的目標(biāo)狀態(tài);P表示指揮官給出的無(wú)人機(jī)被擊毀情況下,待探測(cè)區(qū)域狀態(tài)的概率分布;a表示敵方擊毀無(wú)人機(jī)的概率;b表示非敵方擊毀造成的無(wú)人機(jī)丟失的概率。
無(wú)人機(jī)未傳回目標(biāo)區(qū)域的探測(cè)信息為
Sstate=b*G+a*P
(27)
式中,G表示系統(tǒng)的估計(jì)狀態(tài)概率分布值。式(26)、式(27)均用來(lái)計(jì)算狀態(tài)更新值。
具體處理過(guò)程如圖3所示。
圖3 平臺(tái)損失情況下的傳感器動(dòng)態(tài)規(guī)劃過(guò)程Fig.3 Dynamic planning process of sensorsunder loss of UAV platform
由于戰(zhàn)場(chǎng)環(huán)境不同,無(wú)人機(jī)執(zhí)行任務(wù)所面臨的風(fēng)險(xiǎn)大小也不相同。為了減少不必要的無(wú)人機(jī)資源損失,在實(shí)際使用過(guò)程中有必要將無(wú)人機(jī)平臺(tái)執(zhí)行任務(wù)時(shí)的風(fēng)險(xiǎn)成本引入到任務(wù)規(guī)劃中來(lái)。
將風(fēng)險(xiǎn)成本與多傳感器使用成本和移動(dòng)成本相結(jié)合,從而影響多平臺(tái)傳感器的任務(wù)規(guī)劃過(guò)程。將傳感器的使用成本與移動(dòng)成本稱(chēng)為常規(guī)成本,使用ucost表示;風(fēng)險(xiǎn)成本用rcost表示。得到傳感器使用總成本Tcost的表達(dá)式為
Tcost=ucost+kr*rcost
(28)
式中,參數(shù)kr可用于調(diào)節(jié)風(fēng)險(xiǎn)成本在任務(wù)決策中產(chǎn)生的影響,表示在進(jìn)行決策時(shí)決策者愿意承擔(dān)的風(fēng)險(xiǎn)大小,kr越大表明承擔(dān)的風(fēng)險(xiǎn)越小,即在進(jìn)行任務(wù)分配時(shí)風(fēng)險(xiǎn)成本占決策的比重較大;反之表明可接受的風(fēng)險(xiǎn)越大。
設(shè)定風(fēng)險(xiǎn)矩陣R=[Rij]為無(wú)人機(jī)平臺(tái)在不同狀態(tài)下的使用風(fēng)險(xiǎn),在本文中定義風(fēng)險(xiǎn)值為多架該類(lèi)無(wú)人機(jī)平臺(tái)在該戰(zhàn)場(chǎng)狀態(tài)下執(zhí)行任務(wù)被擊毀的無(wú)人機(jī)在所有無(wú)人機(jī)中所占的比例。Rij是指在狀態(tài)為Si、無(wú)人機(jī)平臺(tái)為無(wú)人機(jī)j時(shí)的風(fēng)險(xiǎn)值。風(fēng)險(xiǎn)矩陣可以是指揮官的經(jīng)驗(yàn)值所得,也可以是通過(guò)真實(shí)和模擬實(shí)驗(yàn)得到的風(fēng)險(xiǎn)值。定義綜合風(fēng)險(xiǎn)為當(dāng)前狀態(tài)概率分布下傳感器平臺(tái)的總風(fēng)險(xiǎn)值,用zfj(k)表示為
(29)
式中,φ(k)表示當(dāng)前時(shí)刻(k表示時(shí)刻)的狀態(tài)概率分布。
設(shè)定指揮官要實(shí)現(xiàn)對(duì)5個(gè)遠(yuǎn)海無(wú)人島礁的監(jiān)控,以防止敵方占據(jù)島礁對(duì)周?chē)S驑?gòu)成威脅,有多架無(wú)人機(jī)平臺(tái)可以調(diào)度,每架無(wú)人機(jī)平臺(tái)可以攜帶不同的傳感器載荷,假定同一時(shí)刻每個(gè)待監(jiān)控的島礁只能派出一架無(wú)人機(jī)平臺(tái)去執(zhí)行任務(wù)。采用HMM算法模型啟動(dòng)傳感器動(dòng)態(tài)任務(wù)規(guī)劃過(guò)程,設(shè)定平臺(tái)傳感器的使用損耗、位置和速度以及各個(gè)HMM過(guò)程所關(guān)聯(lián)的任務(wù)等初始屬性信息,為了便于算法求解,假定系統(tǒng)中的所有HMM過(guò)程均采用統(tǒng)一的狀態(tài)劃分,并且觀察值的數(shù)目相同。對(duì)不同目標(biāo)島礁的狀態(tài)劃分如表1所示。
表1 島礁觀測(cè)狀態(tài)
指揮官?zèng)Q定每周對(duì)5個(gè)島礁進(jìn)行一次任務(wù)探測(cè),并且依據(jù)歷史數(shù)據(jù)獲取得到島礁不同狀態(tài)之間的轉(zhuǎn)移概率。具體參數(shù)如下所示。
不同任務(wù)對(duì)應(yīng)的狀態(tài)轉(zhuǎn)移概率矩陣為:
相應(yīng)HMM過(guò)程的初始狀態(tài)概率分布如表2所示。
表2 不同HMM過(guò)程的初始狀態(tài)轉(zhuǎn)移概率
由以上仿真場(chǎng)景設(shè)定,可以計(jì)算出在不同時(shí)刻最佳的傳感器任務(wù)調(diào)度序列,其中6個(gè)周期的任務(wù)調(diào)度序列如表3所示。
表3 不同島礁不同時(shí)刻的平臺(tái)傳感器規(guī)劃結(jié)果
表3中針對(duì)每個(gè)平臺(tái)傳感器的不同性能和探測(cè)任務(wù)需求,給出了6個(gè)時(shí)間周期(k=1,2,…,6,k表示時(shí)間周期)的平臺(tái)傳感器調(diào)度使用方案,每個(gè)島礁對(duì)應(yīng)一個(gè)HMM過(guò)程,表3中的數(shù)字表示對(duì)應(yīng)時(shí)刻對(duì)每個(gè)HMM過(guò)程所調(diào)度無(wú)人機(jī)平臺(tái)的序號(hào)。
在考慮無(wú)人機(jī)執(zhí)行任務(wù)時(shí)的風(fēng)險(xiǎn)情況下,設(shè)定當(dāng)前有9個(gè)無(wú)人機(jī)平臺(tái)可供調(diào)度,分別標(biāo)號(hào)為無(wú)人機(jī)1,2,…,9,對(duì)上述設(shè)定的任務(wù)場(chǎng)景執(zhí)行探測(cè)任務(wù),給定9個(gè)無(wú)人機(jī)平臺(tái)傳感器的探測(cè)概率矩陣B為
給定系統(tǒng)中的平臺(tái)使用風(fēng)險(xiǎn)矩陣R為
設(shè)定風(fēng)險(xiǎn)成本調(diào)節(jié)參數(shù)kr=0.4,仿真得到時(shí)刻1到時(shí)刻6(k=1,2,…,6,k表示時(shí)間周期)的無(wú)人機(jī)任務(wù)調(diào)度序列(用無(wú)人機(jī)的編號(hào)標(biāo)示)。為了便于分析對(duì)比,將每個(gè)時(shí)刻前往所有目標(biāo)地點(diǎn)執(zhí)行任務(wù)的無(wú)人機(jī)平臺(tái)的綜合風(fēng)險(xiǎn)值之和稱(chēng)為本次調(diào)度的任務(wù)風(fēng)險(xiǎn),使用F(k)表示,算式為
(30)
仿真中針對(duì)是否考慮無(wú)人機(jī)平臺(tái)執(zhí)行任務(wù)時(shí)的風(fēng)險(xiǎn)成本進(jìn)行了對(duì)比分析,仿真結(jié)果如表4~表6所示。
表4 不考慮風(fēng)險(xiǎn)成本時(shí)的平臺(tái)傳感器規(guī)劃結(jié)果
表5 考慮風(fēng)險(xiǎn)成本時(shí)的平臺(tái)傳感器規(guī)劃結(jié)果
表6 不同時(shí)刻兩種決策方法的風(fēng)險(xiǎn)比較
仿真結(jié)果表明,引入無(wú)人機(jī)平臺(tái)的使用風(fēng)險(xiǎn)成本對(duì)任務(wù)執(zhí)行成本進(jìn)行擴(kuò)展,在很好地進(jìn)行傳感器調(diào)度的同時(shí)能減小無(wú)人機(jī)平臺(tái)的使用風(fēng)險(xiǎn),有利于提高無(wú)人機(jī)執(zhí)行任務(wù)時(shí)的生存力。
本文以多平臺(tái)傳感器最優(yōu)任務(wù)規(guī)劃為目標(biāo),結(jié)合隱馬爾可夫建模理論,建立了基于信息熵理論的傳感器調(diào)度決策模型,從而使針對(duì)特定任務(wù)的多平臺(tái)傳感器調(diào)度使用的成本最優(yōu)化。在此基礎(chǔ)上,研究了在一些特殊情況下的傳感器動(dòng)態(tài)調(diào)度策略,為減少無(wú)人機(jī)平臺(tái)的使用風(fēng)險(xiǎn),提出了包含風(fēng)險(xiǎn)成本在內(nèi)的擴(kuò)展任務(wù)成本的概念,并基于此進(jìn)行了無(wú)人機(jī)平臺(tái)傳感器的任務(wù)調(diào)度仿真。仿真結(jié)果表明,通過(guò)對(duì)傳感器平臺(tái)的優(yōu)化調(diào)度,可以在平臺(tái)使用風(fēng)險(xiǎn)最低的情況下達(dá)到多傳感器平臺(tái)的調(diào)度成本最優(yōu)化目標(biāo),從而為戰(zhàn)場(chǎng)環(huán)境中不確定性建模和分析奠定了基礎(chǔ)。