施賽楠,姜 麗,李東宸,吳旭姿
(1.南京信息工程大學(xué)電子與信息工程學(xué)院,江蘇南京 210044;2.中國船舶工業(yè)系統(tǒng)工程研究院,北京 100094;3.江蘇開放大學(xué)信息工程學(xué)院,江蘇南京 210036)
目前,海面小目標(biāo)是海洋雷達(dá)探測的重點(diǎn)和難點(diǎn)對(duì)象,如小船、潛望鏡、浮冰、蛙人、飛機(jī)殘骸等[1-3]。這類小目標(biāo)的弱回波被淹沒在強(qiáng)雜波背景下,導(dǎo)致檢測時(shí)信雜比(Signal-to-Clutter Ratio,SCR)很低,大大降低了檢測概率。通常,需要采用長時(shí)累積技術(shù),提高目標(biāo)的信雜比。在秒級(jí)長時(shí)觀測下,海雜波呈現(xiàn)出非平穩(wěn)、非均勻的空時(shí)變性和重拖尾的強(qiáng)非高斯性,而小目標(biāo)的幅度和多普勒偏移都不再保持恒定[4-5]。因此,海雜波和目標(biāo)回波都難以建模為簡單的參數(shù)化模型,這意味著很難發(fā)展基于雜波模型的最優(yōu)或近最優(yōu)檢測方法。
在長時(shí)觀測下,一種公認(rèn)的有效途徑是基于多維特征的檢測方法,從不同域提取多個(gè)特征構(gòu)建特征向量,進(jìn)而將檢測問題轉(zhuǎn)換為分類問題。因此,該類方法的研究重點(diǎn)在于多域特征提取和特征空間中的分類器設(shè)計(jì)。在一維特征空間中,分類器簡化為門限,研究主要在特征提取方面。典型的方法有基于分形的檢測方法,提取Hurst 指數(shù)[6]、變換域的多尺度指數(shù)[7-8]、全維度特征[9]等。在三維特征空間中,發(fā)展了一系列以凸包學(xué)習(xí)算法為核心的單分類器,通過凸包的伸縮實(shí)現(xiàn)虛警控制。在文獻(xiàn)[10]中,從時(shí)域和頻域提取特征,構(gòu)成了基于三特征的檢測器,在高信雜比下性能顯著提升。為了更加精細(xì)化描述頻譜特性,文獻(xiàn)[11]提出了基于時(shí)頻三特征的檢測器,適用于目標(biāo)頻偏落在主雜波帶外。為了利用全極化維度信息,文獻(xiàn)[12]提出了基于極化三特征的檢測器,依賴于不同極化的信雜比高低。隨后,為了進(jìn)一步提升海面目標(biāo)探測性能,聯(lián)合更多的特征是必然趨勢。但是,隨著特征空間維數(shù)的增加,凸包學(xué)習(xí)算法的計(jì)算量極大甚至在高維中無法計(jì)算,亟需尋找新的高維分類器。
為此,有學(xué)者嘗試引入機(jī)器學(xué)習(xí)中的兩分類算法[13-16],但這些算法適用于兩類錯(cuò)誤率均衡的情況。因此,在高維特征空間中,分類器設(shè)計(jì)的主要難點(diǎn)是實(shí)現(xiàn)虛警控制。目前,大致可以分為兩類方法。第一類是通過搜索分類器的某個(gè)參數(shù),達(dá)到給定虛警率。Guo 等人[13]將K 近鄰(K Nearest Neighbors,KNN)算法引入到七維特征空間中,通過搜索鄰近數(shù)目參數(shù),實(shí)現(xiàn)虛警控制。Chen 等人[14]通過對(duì)一類支持向量機(jī)(One Class Support Vector Machine,OCSVM)中的超參數(shù)搜索,從而保證虛警率達(dá)到給定值。Shi 等人[15]提出基于隨機(jī)森林(Random Forest,RF)的檢測器,建立分裂因子與虛警率的函數(shù)關(guān)系,進(jìn)而對(duì)給定虛警率下的參數(shù)設(shè)置具有一定指導(dǎo)。第二類是從分類器內(nèi)部結(jié)構(gòu)出發(fā),打破原先兩類錯(cuò)誤率均衡的模式,達(dá)到虛警控制。Li等人[16]提出改進(jìn)支持向量機(jī)(Supported Vector Machine,SVM)的檢測器,通過改變目標(biāo)函數(shù)中的兩類懲罰參數(shù),不斷迭代更新獲得與虛警率匹配的參數(shù)。這是一種從結(jié)構(gòu)層面的思路,具有很好的借鑒意義。但是,上述分類器都需要不斷地搜索參數(shù),這意味著參數(shù)設(shè)置的精度與虛警率密切相關(guān),因而存在虛警率控不準(zhǔn)的問題。
針對(duì)高維特征空間中分類器虛警控制難的問題,本文提出一種基于雙重虛警控制極限梯度提升(XGBoost)的海面小目標(biāo)檢測方法。檢測方法的主要?jiǎng)?chuàng)新在于以下兩個(gè)方面。在特征提取方面,提取了時(shí)域、頻域、時(shí)頻域中的7 個(gè)特征,構(gòu)建高維特征空間。在分類器設(shè)計(jì)方面,提出改進(jìn)的XGBoost 兩分類器,實(shí)現(xiàn)對(duì)虛警率的精準(zhǔn)控制。從結(jié)構(gòu)層面,在原先XGBoost[17]中引入兩類錯(cuò)誤率的懲罰因子,實(shí)現(xiàn)第一重粗虛警控制。從參數(shù)層面,將分類概率值作為統(tǒng)計(jì)量,實(shí)現(xiàn)第二重精虛警控制。
假設(shè)雷達(dá)在檢測單元(Cell Under Test,CUT)中接收到N個(gè)連續(xù)脈沖,即觀測向量z=[z(1),z(2),…,z(N)]T。由于雷達(dá)目標(biāo)檢測就是判斷觀測向量是否有目標(biāo),則檢測問題描述為以下的二元假設(shè)檢驗(yàn)[9-12]:
式中,c表示海雜波向量,s表示含目標(biāo)回波向量,zp表示CUT 周圍第p個(gè)參考單元的回波向量,P表示參考單元的總數(shù)目。H0假設(shè)表示CUT 中純海雜波,H1假設(shè)表示CUT中含有目標(biāo)回波。
事實(shí)上,不同的特征反映了海雜波和含目標(biāo)回波在不同方面上的差異性,比如能量、物理散射方式、幾何形狀等方面。在時(shí)域中,提取Hurst 指數(shù)(Hurst Exponent,HE)[6]和相對(duì)平均幅度(Relative Average Amplitude,RAA)[10],分別反映了幅度的分形特性和能量特性,記為ξ1,ξ2。在頻域,提取相對(duì)多普勒峰高(Relative Doppler Peak Height,RDPH)和相對(duì)向量熵(Relative Vector Entropy,RVE)[10],記為ξ3,ξ4,前者衡量了海雜波和目標(biāo)帶寬大小的差異性,后者描述了兩者頻譜在頻域的混亂度。在時(shí)頻域,提取脊能量(Ridge Intensity,RI)、連通區(qū)域數(shù)目(Number of Regions,NR)、最大連通區(qū)域尺寸(Maximum Size,MS)[11],精細(xì)化描述了海雜波和目標(biāo)頻譜的幾何動(dòng)態(tài)特性,記為ξ5,ξ6,ξ7。
下面,使用IPIX 數(shù)據(jù)集的10 組數(shù)據(jù)[18]測試特征在不同探測環(huán)境下的檢測性能。實(shí)驗(yàn)中,觀測時(shí)間為0.512 s,虛警率為10-3。圖1 給出了7 個(gè)特征在HH 極化下的檢測結(jié)果??梢园l(fā)現(xiàn),2 個(gè)時(shí)域特征、2 個(gè)頻域特征和3 個(gè)時(shí)頻域特征在不同數(shù)據(jù)上的檢測概率明顯存在波動(dòng)性,沒有哪個(gè)特征具有最優(yōu)檢測特性。這表明這7 個(gè)特征在檢測能力方面具有互補(bǔ)性,聯(lián)合使用可以進(jìn)一步提升性能。
圖1 7個(gè)特征的互補(bǔ)性分析
為了精細(xì)化挖掘海雜波和含目標(biāo)回波的差異性,將時(shí)域、頻域、時(shí)頻域提取的7 個(gè)特征聯(lián)合,構(gòu)建高維特征空間。因此,CUT 的觀測向量被壓縮為一個(gè)七維(7D)特征向量:
至此,式中的檢測問題轉(zhuǎn)換為高維特征空間中的分類問題:
對(duì)于海洋雷達(dá),一旦開機(jī)后可以采集大量的海雜波數(shù)據(jù)。但是由于感興趣小目標(biāo)的空間稀疏性和種類多樣性,很難獲得大量的含目標(biāo)回波。因此,很多學(xué)者將式(3)變?yōu)楦呔S特征空間中的單分類問題[1,10-12],也稱為異常檢測。事實(shí)上,單分類器只用了海雜波的信息,缺少含目標(biāo)回波的信息,存在冗余性。因而,兩分類器將是提升性能的必然選擇。在兩分類器中,需要獲得兩類均衡的訓(xùn)練樣本,才能保證較好的分類性能。考慮到含目標(biāo)回波的數(shù)據(jù)稀缺性,一種可行的方法是仿真目標(biāo)回波,具體參照文獻(xiàn)[13,15]。
事實(shí)上,特征提取過程涉及較多非線性操作,因而無法對(duì)高維特征的統(tǒng)計(jì)特性進(jìn)行顯示函數(shù)表述。假設(shè)已知兩種假設(shè)下的樣本x∈R7條件概率密度函數(shù)(Probability Density Function,PDF),記為P(x|H0)和P(x|H1),根據(jù)奈曼-皮爾遜(Neyman-Pearson,NP)準(zhǔn)則,檢測器的設(shè)計(jì)等價(jià)于尋找H1假設(shè)下的判決區(qū)域Ω:
式中,Pd為檢測概率,Pfa為設(shè)定的虛警率。當(dāng)樣本落在判決區(qū)域Ω內(nèi),判決為H1假設(shè);否則,判決為H0假設(shè)。目標(biāo)函數(shù)以尋求高維特征空間中最優(yōu)判決區(qū)域?yàn)槟康?,除非P(x|H0)和P(x|H1)解析表達(dá)式非常簡單,否則式(4)很難獲得解析表達(dá)式。雖然目標(biāo)回波仿真可以獲得兩種假設(shè)下特征向量的大量樣本,但P(x|H0)和P(x|H1)的表達(dá)式是無法獲知的。因此,在高維特征空間中,如何從兩種假設(shè)樣本中訓(xùn)練獲得具有虛警可控的判決區(qū)域是兩分類器設(shè)計(jì)的難點(diǎn)和核心問題。
在特征提取過程中,不同的特征來自不同域,且反映了海雜波和含目標(biāo)回波在不同方面的差異性。所以,當(dāng)聯(lián)合多個(gè)特征時(shí),必須考慮特征尺度不同的問題,常規(guī)的方法是對(duì)每一維特征進(jìn)行歸一化預(yù)處理。在獲得H0假設(shè)下的M個(gè)觀測向量后,對(duì)每個(gè)觀測向量提取7個(gè)特征,構(gòu)成M個(gè)7D 的特征向量xi∈R7,i=1,2,…,M。然后,對(duì)式(2)中CUT特征向量進(jìn)行歸一化處理:
圖2 是基于雙重虛警控制XGBoost 檢測器的流程圖,包含檢測分支和訓(xùn)練分支,前者實(shí)現(xiàn)在線檢測而后者需要離線訓(xùn)練。在檢測分支中,首先,對(duì)CUT 觀測向量提取特征,將觀測向量凝聚為式中的一個(gè)特征向量;其次,按照式對(duì)特征向量進(jìn)行歸一化處理,最終獲得式中的歸一化特征向量;然后,雙重虛警控制XGBoost兩分類器對(duì)輸入的歸一化特征向量輸出概率預(yù)測值,作為最終的統(tǒng)計(jì)量。最后,判斷統(tǒng)計(jì)量是否超過判決門限,完成判決。訓(xùn)練分支作為檢測的輔助分支,主要為檢測分支提供了XGBoost 兩分類器的最優(yōu)模型參數(shù)和判決門限。為了實(shí)現(xiàn)兩分類器的正確分類,可按照文獻(xiàn)[15]中的方法產(chǎn)生兩類均衡的樣本數(shù)據(jù)。假設(shè)H0和H1假設(shè)的樣本各有M個(gè),分別記作標(biāo)簽0 和1。因此,兩類特征向量樣本訓(xùn)練集Θ為
圖2 基于雙重虛警控制XGBoost的檢測器流程圖
用于訓(xùn)練學(xué)習(xí)雙重虛警控制的XGBoost 模型的最優(yōu)參數(shù)。
在兩分類器中,通常存在兩種錯(cuò)誤率:H0假設(shè)誤判成H1假設(shè),H1假設(shè)誤判成H0假設(shè)。在現(xiàn)有的SVM、KNN、決策樹、隨機(jī)森林、XGBoost 等機(jī)器學(xué)習(xí)[13,15-16]算法中,損失函數(shù)是以兩類平均錯(cuò)誤率為準(zhǔn)則,與雷達(dá)目標(biāo)檢測中的NP 準(zhǔn)則是不一致的。因此,在引入這些算法時(shí),第一步必須解決虛警率控制的問題,這是雷達(dá)目標(biāo)檢測的基本要求和前提條件。
XGBoost 算法[17]將分類回歸樹(Classification And Regression Tree,CART)作為子模型,并級(jí)聯(lián)K個(gè)子模型進(jìn)行線性組合,最終達(dá)到準(zhǔn)確分類。表1給出了具有雙重虛警控制的XGBoost 兩分類器的具體實(shí)現(xiàn)流程。
表1 具有雙重虛警控制的XGBoost算法
在第一重中,通過不斷調(diào)整懲罰因子,主要實(shí)現(xiàn)結(jié)構(gòu)層面的粗虛警控制。首先,引入兩類錯(cuò)誤分類的懲罰和正確分類的懲罰,重新定義損失函數(shù)
式中,y,∈{0,1}分別為真實(shí)值和預(yù)測值,C(0|1)為真實(shí)值1判為0的懲罰,C(1|0)為真實(shí)值0判為1的懲罰,C(0|0)和C(1|1)為正確判斷的懲罰。令C(0|0)=C(1|1)=0,C(0|1)=c1,C(1|0)=c2,式(8)簡化為
式中,c1為出現(xiàn)漏檢的懲罰,c2為出現(xiàn)虛警的懲罰,與虛警率相關(guān)。在固定c1的條件下,當(dāng)增大c2時(shí),H0假設(shè)下的樣本一旦出現(xiàn)誤判,則損失函數(shù)值增大,兩分類器將朝著虛警率小的方向?qū)W習(xí)參數(shù)。當(dāng)c1=c2時(shí),分類器不再區(qū)別對(duì)待兩類錯(cuò)誤率,退化為原始的XGBoost兩分類器[17]。
為了防止過擬合,第k棵CART 樹的目標(biāo)函數(shù)定義為
式中,fk-1(xi) 為輸入樣本xi的第k-1棵樹的輸出,J為葉子節(jié)點(diǎn)的個(gè)數(shù),ωkj為第j個(gè)葉子節(jié)點(diǎn)的權(quán)重,α為復(fù)雜度懲罰項(xiàng),λ為懲罰正則項(xiàng)。為了提高分類精度,式(10)進(jìn)行泰勒二階展開:
式中,gi=分別為損失函數(shù)的一階、二階偏導(dǎo)。從葉子節(jié)點(diǎn)出發(fā),對(duì)所有葉子節(jié)點(diǎn)進(jìn)行累積,式(11)進(jìn)一步化簡為
式中,Gj=∑i∈Ijgi和Hj=∑i∈Ijhi分別表示映射為葉子節(jié)點(diǎn)j所有輸入樣本的一階、二階導(dǎo)和。由此,可計(jì)算第j個(gè)葉子節(jié)點(diǎn)區(qū)域的最佳擬合值
將式(13)代入式(12)中,得到最小目標(biāo)函數(shù)
這也稱為打分函數(shù),函數(shù)值越小,代表樹結(jié)構(gòu)越好。
接下來,如何選擇不同的特征值進(jìn)行分裂。假設(shè)每次左右子樹分裂時(shí),以最大程度減小目標(biāo)函數(shù)的損失為準(zhǔn)則。令GL,HL,GR,HR表示當(dāng)前節(jié)點(diǎn)左右子樹的一階、二階導(dǎo)數(shù)和,則定義分?jǐn)?shù)增益函數(shù)為
遍歷所有的分裂方式,最終選擇以最大分?jǐn)?shù)增益對(duì)應(yīng)的特征進(jìn)行分裂。
然后,更新預(yù)測值
式中,v∈[0,1]是學(xué)習(xí)率,用于控制過擬合度。
最后,更新迭代得到K個(gè)CART 樹,最終輸出值為
根據(jù)蒙特卡洛方法,將訓(xùn)練集Θ中屬于H0假設(shè)的M個(gè)樣本作為改進(jìn)XGBoost兩分類器的輸入,獲得最終的分類結(jié)果。那么,計(jì)算當(dāng)前虛警率為
通常,當(dāng)前虛警率PF和給定的虛警率Pfa是不一樣的。為了獲得給定的虛警率Pfa,在固定懲罰因子c1的條件下,不斷更新懲罰因子c2,直到PF接近Pfa,最終獲得XGBoost兩分類器的最優(yōu)參數(shù)。
由于第一重中需要對(duì)懲罰因子進(jìn)行搜索,勢必存在虛警率無法精準(zhǔn)控制的問題。因此,設(shè)計(jì)了第二重的虛警控制。在第二重中,主要實(shí)現(xiàn)參數(shù)層面的精虛警控制。
首先,將第一重中獲得的模型參數(shù)作為兩分類器的最優(yōu)模型參數(shù)。將訓(xùn)練集中屬于H0假設(shè)的M個(gè)訓(xùn)練樣本作為輸入,獲得M個(gè)預(yù)測為H1假設(shè)的概率值為
然后,對(duì)M個(gè)概率值按從大到小進(jìn)行排序,記為{β1,β2,…,βM},滿足β1≥β2≥… ≥βM。
最后,根據(jù)蒙特卡洛方法,特定虛警率Pfa下的判決門限為
式中,[]表示取整數(shù)。
圖3 演示了基于改進(jìn)的XGBoost 兩分類器的虛警控制過程,假設(shè)設(shè)定的虛警率Pfa為10-3,橫軸表示40 組數(shù)據(jù)的序號(hào)。在第一重中,只有5 組數(shù)據(jù)的虛警率被控制在10-3,其余數(shù)據(jù)的虛警率在設(shè)定值附近上下波動(dòng),存在0.000 1左右的誤差,這個(gè)誤差與設(shè)置的誤差值ε=0.000 1一致。當(dāng)采用雙重虛警控制時(shí),兩分類器的虛警率被精準(zhǔn)控制在10-3,滿足實(shí)際雷達(dá)的探測要求。
圖3 實(shí)測數(shù)據(jù)下雙重虛警控制演示
事實(shí)上,風(fēng)速、風(fēng)向和海況等海洋氣象參數(shù)會(huì)對(duì)海洋雷達(dá)的檢測性能產(chǎn)生影響。由于探測場景的改變,海雜波的統(tǒng)計(jì)特性會(huì)隨之發(fā)生變化。如若仍用原先數(shù)據(jù)訓(xùn)練的模型進(jìn)行檢測,則檢測性能存在一定的損失。因此,當(dāng)探測場景發(fā)生改變時(shí),必須動(dòng)態(tài)更新當(dāng)前環(huán)境下分類器的模型參數(shù)。首先,需要在線采集當(dāng)前環(huán)境下的海雜波數(shù)據(jù),獲取相應(yīng)的仿真回波數(shù)據(jù)。然后,使用新的兩類數(shù)據(jù)離線訓(xùn)練當(dāng)前環(huán)境下的模型參數(shù),為在線檢測提供虛警可控的檢測器。所以,本文提出的檢測器具有較好的魯棒性,自適應(yīng)于不同的探測場景,實(shí)現(xiàn)對(duì)海洋環(huán)境的恒虛警特性。
本文使用的實(shí)測數(shù)據(jù)來自IPIX 雷達(dá)公開的數(shù)據(jù)庫[18]。X波段雷達(dá)工作在駐留模式下,脈沖重復(fù)頻率為1 000 Hz,距離分辨率為30 m。實(shí)驗(yàn)?zāi)繕?biāo)是用鋁絲包裹直徑約1 m 的塑料小球,隨海面上下漂浮。實(shí)驗(yàn)中使用了1993 年的10 組數(shù)據(jù)和1998 年數(shù)據(jù)的1組,各組數(shù)據(jù)均含有同步收集的HH、HV、VH和VV極化通道的數(shù)據(jù)[11,13,18]。
事實(shí)上,XGBoost 兩分類器的參數(shù)大致分為學(xué)習(xí)參數(shù)和結(jié)構(gòu)參數(shù)兩大類。第一類為學(xué)習(xí)參數(shù),比如CART 樹的葉子節(jié)點(diǎn)權(quán)重、葉子節(jié)點(diǎn)個(gè)數(shù)等。這些參數(shù)高度依賴于訓(xùn)練數(shù)據(jù),當(dāng)探測環(huán)境發(fā)生變換時(shí),需要不斷地學(xué)習(xí)和更新。因此,在圖2中,訓(xùn)練分支就是用于訓(xùn)練獲取最優(yōu)學(xué)習(xí)參數(shù)。第二類為結(jié)構(gòu)參數(shù),比如CART 樹數(shù)目K、樹最大深度D,學(xué)習(xí)率v、懲罰項(xiàng)等。建議設(shè)置學(xué)習(xí)率v=0.15,復(fù)雜度懲罰項(xiàng)α=0,懲罰正則項(xiàng)λ=1。然而,K和D直接決定了模型的結(jié)構(gòu),主要是這兩個(gè)參數(shù)對(duì)檢測性能產(chǎn)生較大影響,需要根據(jù)數(shù)據(jù)提前設(shè)置。
在二維特征空間中,圖4 演示了參數(shù)K對(duì)XGBoost 分類器判決區(qū)域的影響。可觀察到,當(dāng)K不斷增大時(shí),分類器模型不斷地迭代更新,判決區(qū)域也隨之優(yōu)化,表明海雜波與含目標(biāo)回波樣本能更好地被分類。雖然聯(lián)合多個(gè)弱學(xué)習(xí)器能獲得性能提升,但這種性能優(yōu)勢不是無止境的。當(dāng)CART 樹達(dá)到一定數(shù)量時(shí),分類器性能提升不明顯。此時(shí),再增加CART 樹,只能帶來計(jì)算量的增加。因此,需要找到計(jì)算代價(jià)和性能之間的平衡點(diǎn)。
圖4 二維特征空間中XGBoost分類器性能
接下來,在優(yōu)先保證檢測概率一定的前提下,盡可能地減小計(jì)算代價(jià),從而找到合適的CART 樹數(shù)目K和樹最大深度D,如圖5 所示。在圖5(a)中,當(dāng)K<20 時(shí),檢測概率提升較為明顯;當(dāng)K>50時(shí),檢測概率趨于穩(wěn)定值。類似地,當(dāng)D>5 時(shí),檢測性能趨于穩(wěn)定。從理論上來說,增加弱分類器數(shù)目和增大樹深度,可以提升分類器的性能,但同時(shí)帶來了更為復(fù)雜的計(jì)算量。在實(shí)際雷達(dá)探測環(huán)境中,可根據(jù)不同的性能要求,設(shè)置合適的參數(shù)。在本文中,綜合考慮計(jì)算量和檢測性能,確定參數(shù)K=100,D=6。
圖5 兩個(gè)結(jié)構(gòu)參數(shù)對(duì)檢測性能的影響
下面,使用實(shí)測數(shù)據(jù)驗(yàn)證基于多重虛警控制XGBoost 檢測器的性能。設(shè)置脈沖累積數(shù)N=512(觀測時(shí)間0.512 s),參考單元P=9,虛警率Pfa=10-3,分類器參數(shù)按照3.1 節(jié)中設(shè)置。由于每組數(shù)據(jù)都含有HH、HV、VH、VV 四種極化,10 組實(shí)測數(shù)據(jù)有40 個(gè)檢測概率值。在圖6 中,交叉極化(HV/VH)的檢測性能優(yōu)于同極化(HH/VV)的檢測概率,這是因?yàn)椴煌瑯O化下數(shù)據(jù)的信雜比不同。對(duì)于兩個(gè)單特征檢測器,基于Hurst 指數(shù)檢測器[6]和基于全維度Hurst 指數(shù)檢測器[9]在40 組數(shù)據(jù)上的平均檢測概率分別為0.33 和0.55。雖然基于全維度Hurst指數(shù)檢測器[9]融合了實(shí)數(shù)、復(fù)數(shù)、相位三個(gè)維度的分形特性提升了性能,但其性能依然受限制于單個(gè)特征的瓶頸。相對(duì)于單特征檢測器,基于三特征檢測器[10]、基于時(shí)頻三特征檢測器[11]和基于極化三特征檢測器[12]的性能提升明顯,整體平均檢測概率分別為0.65,0.70,0.53,這來源于維度的增益和特征的有效性。鑒于3 個(gè)特征檢測器維度相同,因而性能的差異性在于特征的不同。觀察不同數(shù)據(jù)下的檢測概率,不同特征組合的性能有較大的起伏性,這意味著有必要聯(lián)合更多的特征。然而,本文提出的基于雙重虛警控制XGBoost 檢測器的平均檢測概率為0.83,在不同數(shù)據(jù)下、不同極化下都具有最優(yōu)的檢測性能。這種性能優(yōu)勢充分體現(xiàn)了7個(gè)特征互補(bǔ)特性,保證了檢測器在不同雜波環(huán)境、不同信雜比、不同極化下具有穩(wěn)健的性能優(yōu)勢。
圖6 不同數(shù)據(jù)下6種檢測器的性能對(duì)比(N=512,Pfa=10-3)
為了充分驗(yàn)證檢測器的通用性能,圖7 和圖8討論了6 種檢測器在1998 年數(shù)據(jù)#163113 下的檢測性能。圖7(a)是HH極化下在時(shí)間-距離上功率圖,總觀測時(shí)長為60 s,雜波功率起伏明顯。測試目標(biāo)位于第24 個(gè)距離單元,平均SCR 為-3.5 dB,因而從功率圖上幾乎看不到測試目標(biāo)。在圖7(b)的時(shí)頻圖中,小目標(biāo)的瞬時(shí)頻率曲線呈蛇形在零頻附近波動(dòng),這是由于測試目標(biāo)隨海浪上下起伏導(dǎo)致的。海雜波的主雜波帶位于(0 Hz,250 Hz)范圍內(nèi),在整個(gè)觀測時(shí)間內(nèi)呈現(xiàn)出明顯的非平穩(wěn)特性。在圖8(a)中,基于Hurst 指數(shù)檢測器[6]的檢測概率為0.11,在SCR低和秒級(jí)以內(nèi)觀測時(shí)間的條件下,性能損失嚴(yán)重。在圖8(b)中,基于全維度Hurst 指數(shù)檢測器[9]的檢測概率為0.34,多維度信息量增多,檢測性能有所提升。在圖8(c)~(e)中,基于三特征檢測器[10]、基于時(shí)頻三特征檢測器[11]、基于極化三特征檢測器[12]的檢測概率分別為0.59,0.62,0.68,性能進(jìn)一步提升。在圖8(f)中,基于雙重虛警控制XGBoost 檢測器的檢測概率為0.81,具有最佳的性能。在第24 個(gè)距離單元上,小目標(biāo)的運(yùn)動(dòng)軌跡較為清晰。
圖7 實(shí)測數(shù)據(jù)(#163113)的時(shí)域和時(shí)頻域特性
圖8 6種檢測器的檢測結(jié)果(N=512,Pfa=10-3)
最后,討論高維特征空間中兩分類器的性能差異性。為了對(duì)比的公平性,4 種檢測器都采用相同的七維特征,只有兩分類器不同,其他參數(shù)設(shè)置與上述實(shí)驗(yàn)條件一致。為了方便討論,將每組數(shù)據(jù)的4 種極化方式,獨(dú)立為一組數(shù)據(jù),因而共40 組數(shù)據(jù)。在圖9(a)中,KNN 分類器[13]、RF 分類器[15]、SVM 分類器[16]和改進(jìn)的XGBoost 分類器的平均檢測性能分別為0.71,0.75,0.77,0.80,性能明顯優(yōu)于低維特征檢測器。在4 種分類器中,改進(jìn)的XGBoost 分類器的性能最優(yōu),這主要得益于弱分類器集成的優(yōu)勢和結(jié)構(gòu)中兩類懲罰因子的引入。在圖9(b)中,4 種分類器的平均虛警率為0.001,都滿足虛警設(shè)定值。但是,在不同的數(shù)據(jù)上,KNN 分類器[13]、RF 分類器[15]和SVM 分類器[16]的虛警率明顯存在波動(dòng)性,只有少數(shù)的數(shù)據(jù)上能夠?qū)崿F(xiàn)精準(zhǔn)控制虛警率。主要原因在于3 個(gè)分類器都需要搜索與虛警率匹配的參數(shù),參數(shù)的精度勢必影響虛警率,存在一定的誤差。然而,采用雙重虛警控制的XGBoost 分類器,能夠精準(zhǔn)控制虛警率,滿足雷達(dá)檢測的需求。
圖9 高維特征空間中兩分類器的性能對(duì)比(N=512,Pfa=10-3)
相較于KNN、SVM 等分類器,本文提出的改進(jìn)XGBoost 分類器具有更多模型參數(shù),但是并不明顯需要更多訓(xùn)練樣本。在固定虛警率Pfa=0.1 下,圖10 給出了3 種分類器所需的訓(xùn)練樣本數(shù)情況。第一,隨著訓(xùn)練樣本數(shù)目的增加,3 種分類器的性能都有提升,但提升空間是有限的。當(dāng)樣本數(shù)目大于500時(shí),3種分類器的性能都趨于穩(wěn)定,這意味著分類器已完全學(xué)到兩類樣本的特性。第二,為了保證可控的虛警率,KNN、SVM、改進(jìn)XGBoost 分類器分別需要樣本數(shù)目達(dá)到1 000、500、800 以上。KNN 分類器雖然本身參數(shù)較少,但是必須不斷地調(diào)節(jié)參數(shù)k值以到達(dá)給定虛警率,這種全局搜索的方式勢必要求大量的訓(xùn)練樣本。不同于KNN 分類器,SVM 和改進(jìn)XGBoost分類器是通過內(nèi)部結(jié)構(gòu)進(jìn)行搜索參數(shù),這種局部搜索的方式需要的樣本數(shù)目明顯減少。此外,根據(jù)Monte-Carlo 試驗(yàn)要求,在虛警率Pfa=0.001下,至少需要訓(xùn)練樣本數(shù)目達(dá)到萬以上。實(shí)驗(yàn)中,每組數(shù)據(jù)的訓(xùn)練樣本數(shù)目為20 420個(gè),如此大的訓(xùn)練樣本完全可以保證3種分類器的性能達(dá)到穩(wěn)定狀態(tài)。因此,綜合考慮分類器性能和虛警控制特性,3 種分類器的訓(xùn)練樣本數(shù)目需求處于同一數(shù)量級(jí)。同時(shí),由于創(chuàng)新性地引入了兩個(gè)懲罰因子,不僅從結(jié)構(gòu)上控制了虛警率,而且加快了XGBoost可控虛警的參數(shù)搜索,從而縮短了訓(xùn)練時(shí)間且保證了檢測性能的提升。
圖10 檢測性能隨訓(xùn)練樣本數(shù)變化的情況對(duì)比
本文提出一種基于雙重虛警控制XGBoost 的海面小目標(biāo)檢測方法,解決高維特征空間中兩分類器的虛警控制問題,實(shí)現(xiàn)海面小目標(biāo)性能的提升。從分類器的結(jié)構(gòu)和參數(shù)兩個(gè)層面,實(shí)現(xiàn)兩分類器具有粗控和精控的雙重虛警控制。實(shí)測數(shù)據(jù)驗(yàn)證了所提檢測器的性能優(yōu)勢,主要得益于多個(gè)互補(bǔ)特征的聯(lián)合以及分類器中兩類錯(cuò)誤率非均衡的結(jié)構(gòu)。后續(xù)研究中可從結(jié)構(gòu)層面直接實(shí)現(xiàn)精準(zhǔn)的虛警控制,期望降低分類器的復(fù)雜度。