齊 振,程廣濤,張友奎,李琳玉,徐海信
(中國人民解放軍92330 部隊,山東 青島 266102)
自動目標識別技術(shù)作為實現(xiàn)武器裝備智能化的核心技術(shù)之一,具有重要的軍事意義。隨著信號特征提取手段和基于深度學習識別技術(shù)的不斷進步,水聲目標識別技術(shù)已經(jīng)從傳統(tǒng)的聲吶兵聽音判型進入到基于機器學習的自動目標識別時期,從數(shù)據(jù)中“學習”或“訓練”得到用于水聲目標識別的機器學習模型已經(jīng)具備了一定的識別能力[1]。自動目標識別評估是自動目標識別技術(shù)研究中非常重要的環(huán)節(jié),評估方法主要包括評估指標的定義與度量方法和綜合評估模型與方法等[2]。這些方法都應用于雷達、紅外、激光和多傳感器等自動目標識別技術(shù)背景中,但在水聲目標識別領(lǐng)域尚未得到成體系的應用。
評估指標的定義與度量方法,就是針對水聲目標識別模型,提出相應的度量指標。但是使用少量甚至單個評估指標(如識別率)對模型性能進行評估,僅能反映模型一個側(cè)面的特性,這就需要建立綜合評估模型與方法,運用多項指標并合理地確定各指標權(quán)重,對識別模型進行綜合評價?;谛畔㈧氐闹笜藱?quán)重確定方法已經(jīng)在財政狀況、土地利用、績效考核等綜合評價中進行了應用,但在水聲目標識別評估中尚無應用。本文針對上述問題,結(jié)合裝備使用實際需求,例舉了水聲目標識別模型性能指標,提出了基于信息熵的模型綜合評估方法。該方法基于各項指標在綜合評估中的實際取值對指標權(quán)重求解,實現(xiàn)了對水聲目標識別模型性能的綜合評價,對水聲目標識別模型的不斷優(yōu)化發(fā)展起到了促進作用。
“熵”是德國物理學家克勞修斯于1854 年提出的概念,是用來衡量體系混亂程度的度量,熵定律也被稱為熱力學定律。1948 年,香農(nóng)指出:“信息是用來消除隨機不確定性的東西”,并提出了“信息熵”的概念,來解決信息的度量問題。在信息論中,熵是對信息無序度的一種度量。對于任意一個隨機變量X,它的熵定義[3]:
其中,i=1,2,···,n,隨機變量X的取值為(x1,x2,···xn),p(xi) 為X取值為xi的概率。
熵值越大,信息的無序度越高,其信息的效用值越?。环粗?,熵值越小,信息的無序度越低,信息的效用值越大。在模式識別領(lǐng)域,大多數(shù)決策樹算法都選用了信息熵這一度量指標用來在節(jié)點處選擇測試或查詢的屬性,使后續(xù)節(jié)點數(shù)據(jù)盡可能的“純”,獲得簡單、緊湊、只有很少節(jié)點的決策樹[4]。
在模型評估中,可以通過直接觀察的指標數(shù)據(jù)所提供的信息來確定其在綜合評估中的權(quán)重,進而實現(xiàn)對模型整體性能的評價。指標的熵值越大,信息量越小,該指標在模型評估中的權(quán)重越??;熵值越小,信息量越大,權(quán)重越大。熵值法是基于差異驅(qū)動的賦值方法,其基本原理是各個指標通過互相對比后來確定指標權(quán)重,避免了主觀因素的摻雜,因此更加客觀也更加科學。指標熵值與綜合評價中權(quán)重的關(guān)系如表1所示。
表1 熵與指標權(quán)重的關(guān)系Tab.1 The relationship between entropy and index weight
通常,在模型訓練完成后,通過實驗測試的方法對其性能進行評估[5],需使用一個由新樣本組成的“測試集”來測試模型的泛化能力。對模型性能進行評估,需要有衡量模型能力的評價標準,也就是性能度量。每種評價指標代表模型的一種性能,對常見的識別模型往往采用精度、查全率、查準率等通用指標對模型的識別性能進行度量。對于水聲目標識別模型而言,除了需要能夠評估模型分類是否正確的指標外,在海上裝備的實際使用中,為了滿足軍事需求,模型的識別用時和CPU 使用率也是度量模型識別性能的重要指標?;谛畔㈧氐哪P驮u估方法不限于性能評價指標的選取數(shù)量,使用者可根據(jù)任務(wù)需求選擇合適的模型評價指標。
2.1.1 識別用時T
在實現(xiàn)目標識別功能時,給出識別結(jié)果最快的模型更受青睞,尤其是在軍事領(lǐng)域內(nèi),對模型的識別速度有著更高的要求。識別模型給出測試樣本信號識別結(jié)果所用的時間即為該測試樣本的識別用時,測試集中所有樣本信號識別用時的均值即為識別模型的識別用時。
2.1.2 CPU 使用率
在同等測試條件下,識別模型在執(zhí)行過程中的平均CPU 占用率,即模型所使用CPU 在60 s 內(nèi)的平均百分比。CPU 使用率主要考慮模型的硬件成本,使用率較低的模型占用更少的計算資源,對硬件配置需求更低。
2.1.3 精度acc(accuracy)
精度是指模型識別正確的樣本數(shù)占測試樣本總數(shù)的比例,這是分類任務(wù)中最常用的性能度量,也被稱作識別率或正確率,該指標既適用于二分類任務(wù),也適用于水聲目標識別這種多分類任務(wù)。
2.1.4 查準率、查全率與調(diào)和平均數(shù)(F1)
針對某些任務(wù)需求,例如聲吶員判情中,不僅需要知道模型識別的正確率,而是更關(guān)心被判別為軍艦的目標中有多少比例的確是軍艦,或所有的軍艦目標中有多少比例被模型識別出來。為此,引入查準率和查全率2 個指標。查準率是指在被模型判別為某一類別的分類結(jié)果中,識別正確的樣本所占的比重。查全率是指某一類別的樣本有多少被模型正確識別。查準率和查全率往往是一對矛盾的度量,為了綜合考慮2 個度量指標,設(shè)計了基于查準率和查全率的調(diào)和平均度量F1。針對水聲目標識別這一多分類問題,可以采用“微F1”[5]作為度量模型性能評估的指標之一。
2.1.5 ROC 和AUC
AUC(Area Under ROC Curve)[6]是基于ROC(Receiver Operating Characteristic)曲線理論分析,計算ROC 曲線下的面積,用面積大小作為評估分類器性能的標準。Hand 等[7]將ROC 曲線從二分類任務(wù)推廣到多分類任務(wù)。目前,已經(jīng)有眾多采用AUC 指標評估多分類問題的方法[8-10]。國內(nèi)學者也開展了這方面的研究,提出B-AUC[11]、BO-AUC[12]等多分類問題評估方法。水聲目標識別模型可利用現(xiàn)有的基于AUC 的多分類問題評估方法,將AUC 作為模型的評價指標。
在比對多個水聲目標識別模型的能力時,采用單個指標進行模型評估往往不能滿足實際需求。各類指標僅能反映模型一個側(cè)面的特性。例如,某模型識別用時較短,但識別精度較低或CPU 使用率較高;某模型單項評價指標最優(yōu),但其他指標表現(xiàn)一般。顯然,模型的“好壞”是相對的,在現(xiàn)實中需要選擇整體性能最優(yōu)的模型,這就需要通過建立合適的數(shù)學模型,將多個指標按照權(quán)重的不同進行融合,得到一個整體的綜合評價指標作為評判依據(jù),從而得到精確、可靠的評價結(jié)果。舉例說明如何利用熵值法確定各個指標的權(quán)重并組成綜合評價指標。
設(shè)有m個待評識別模型,5 項評價指標分別為識別用時、CPU 使用率、精度、微F1 和AUC,如表2所示。
表2 指標數(shù)據(jù)表Tab.2 Indicator data sheet
其中,xij(i=1,2,···,m;j=1,2,3,4,5)為第i個模型第j項指標的數(shù)值。
為消除因量綱不同對評價結(jié)果的影響,本文采用模糊隸屬度函數(shù)[13]對各指標進行標準化處理。同時,為保證xij不為零,需要進行數(shù)據(jù)平移,從而避免求熵值時對數(shù)計算無意義。
對于數(shù)值越小越好的指標,如識別用時T、CPU使用率等,標準化方法如下:
其中,j=1,2,為指標標準化值。對于數(shù)值越大越好的指標,如精度acc、微F1、AUC 等,標準化方法如下:
其中,j=3,4,5。
第j項指標的信息熵 Ej定義如下:
其中,j=1,2,3,4,5,,表示在第j項指標中,第i個模型對該指標的貢獻度。常數(shù)K=1/ln(m),用以保證0 ≤Ej≤1,Ej的最大值為1。
信息熵Ej可以度量第j項指標的信息的效用價值:當指標值的差距越小,熵值越大,信息的無序度越高,效用值越小,越不能夠通過該項指標對模型性能做出評估,其對模型評估的影響越小,在綜合評價中的權(quán)重越??;當指標值的差距越大,熵值越小,信息的無序度越小,效用值越大,該項指標對模型評估的影響越大,其在綜合評價中的權(quán)重越大。
根據(jù)式(4),如果某項指標在各模型中的數(shù)值全部相等,熵取最大值1,此時該指標在模型評估中不起作用,其權(quán)重為零。因此,某項指標的信息效用價值取決于該指標的信息熵Ej與1 的差值。為此,引入指標差異性系數(shù)Hj,用來度量第j項指標對模型綜合評價的影響:
其中,j=1,2,3,4,5。第j項指標在模型綜合評價中的權(quán)重Wj定義如下:
其中,j=1,2,3,4,5。
當各個被評價模型在指標j上的值完全相同時,熵值Ej達到最大值1,權(quán)重Wj為零,即該指標在評價體系中未提供任何有用信息,該指標可以考慮被取消;當各被評價模型在指標j上的值相差較大、熵值Ej較 小、權(quán)重Wj較大時,說明該指標向評估體系提供了較為有用的信息,應被著重考慮。
模型i的綜合評價指標Ai定義為:
其中,i=1,2,···,m。
根據(jù)綜合評價指標Ai的值,可以對各識別模型的性能進行綜合評價,若A1大 于A2,表示模型1 的整體性能優(yōu)于模型2。
水聲目標識別模型評估方法的研究對促進目標識別技術(shù)的發(fā)展具有十分重要的意義,相對于各類指標僅能反映模型一個側(cè)面特性的單項指標獨立評估方法,建立綜合評估體系實現(xiàn)模型整體性能評價是必須解決的重要問題。在水聲目標識別模型的綜合評價體系中,每項指標在與其他指標相比較,其地位、重要程度和反映的情況都不相同。采用熵值法可以客觀確定指標權(quán)重,該方法精度較高且客觀性更強,能夠更好解釋所得結(jié)果。當各被評價模型確定以后,根據(jù)得到的權(quán)重可以再對評價指標進行調(diào)整、增減,必要時也可以利用權(quán)重對某些指標評價值的精度進行調(diào)整,以利于做出更精確、可靠的評價。本文例舉了適用于度量水聲目標識別模型性能的評價指標,并提出將熵值法運用于解決評價指標權(quán)重的計算問題,從而建立了客觀的綜合評價體系,實現(xiàn)了對多個水聲目標識別模型整體性能的綜合評價。