趙慶媛,葉春茂,魯耀兵
(北京無線電測量研究所,北京 100854)
現(xiàn)代戰(zhàn)爭中,準(zhǔn)確的空中態(tài)勢評估決定著戰(zhàn)爭的結(jié)果??罩心繕?biāo)機(jī)動快速,種類繁多,主要可分為噴氣式飛機(jī)、螺旋槳飛機(jī)和直升機(jī)等。通過對入侵目標(biāo)進(jìn)行分類識別,可以迅速確定其威脅程度,占據(jù)戰(zhàn)爭的先機(jī)。微動特征是氣動目標(biāo)分類的重要依據(jù)[1],因此對于微動特征提取及分類算法的研究意義重大。
目前,對于微動特征提取研究成果較多,微動特征主要有時域特征、調(diào)制譜特征[2-3]和時頻圖特征[4-8]。特征提取需要耗費(fèi)雷達(dá)寶貴的時間和計(jì)算資源。特征重要性評估能夠選擇穩(wěn)健的特征,減少待提取特征數(shù)量,同時還能夠提高分類算法泛化能力。而目前在雷達(dá)目標(biāo)分類識別方面,特征重要性評估的研究較少。
常用的特征重要性評估方法主要包括取值變化統(tǒng)計(jì)、線性模型擬合和正則化,以及隨機(jī)森林[9-10]。取值變化統(tǒng)計(jì)方法用特征取值的方差表征特征重要性,一般用于特征選擇的預(yù)處理,不適用于本文的特征重要性評估任務(wù);線性模型擬合和正則化方法多用于解決特征和標(biāo)簽均為連續(xù)變量的分類任務(wù)并進(jìn)行特征重要性評估,而某些微動特征值和標(biāo)簽為離散變量,因此線性模型擬合和正則化方法也不適用;隨機(jī)森林在許多領(lǐng)域的特征選擇中得到應(yīng)用,如基因選擇[11]、光譜特征選擇[12]等。隨機(jī)森林的突出優(yōu)點(diǎn)在于:①其特征重要性評估是在隨機(jī)森林訓(xùn)練過程中自動進(jìn)行的,計(jì)算復(fù)雜度低,易于實(shí)現(xiàn)。②隨機(jī)森林算法隨機(jī)選擇樣本和特征,具有兩維隨機(jī)性,因而其泛化能力較強(qiáng),特征重要性評估準(zhǔn)確性高。
本文首先介紹了基于隨機(jī)森林的微動特征重要性評估方法及工程實(shí)施流程,接著給出多維微動特征提取方法,然后基于實(shí)測數(shù)據(jù)利用所提算法進(jìn)行特征重要性評估,并分析了特征選擇對于3 種常用分類器的性能影響以及相參脈沖個數(shù)對于特征重要性評分影響,最后進(jìn)行了總結(jié)和展望。
原始數(shù)據(jù)集包括N個樣本,每個樣本中有M維特征。
其主要步驟如下:
(1)利用Bootstrap 思想從原始數(shù)據(jù)集進(jìn)行有放回地隨機(jī)抽樣,每次抽樣樣本量為2N/3;
(2)對所抽樣樣本,隨機(jī)抽取M1(M1<M)個特征作為訓(xùn)練決策樹的輸入,構(gòu)建決策樹;
(3)重復(fù)(1)~(2)步驟K次,生成K棵決策樹,構(gòu)成隨機(jī)森林;
(4)最后綜合K棵決策樹的分類結(jié)果,得到最終分類結(jié)果。
用隨機(jī)森林對特征重要性進(jìn)行評估,就是量化每個特征對構(gòu)建的K棵決策樹分類性能的貢獻(xiàn)度。貢獻(xiàn)度通常用袋外(out of bag,OOB)錯誤率作為評價指標(biāo)。這里將貢獻(xiàn)度用特征重要性評分(feature importance measures,F(xiàn)IM)來表示。
式中:K表示隨機(jī)森林中決策樹的個數(shù);σ表示的標(biāo)準(zhǔn)差。特征Fm的重要性評分表征Fm對分類正確率的貢獻(xiàn)度。特征重要性評分是由袋外錯誤率均值和標(biāo)準(zhǔn)差共同決定的。
值得注意的時,M1和K是影響特征重要性評估的重要超參數(shù)。參考文獻(xiàn)[13-14],本文中M1的取值為(lbM+1)向下取整,K的取值為100。
在工程應(yīng)用中,基于隨機(jī)森林的特征評估流程如圖1 所示。該流程分為3 個階段,分別為雷達(dá)實(shí)測數(shù)據(jù)獲取和特征提取、基于隨機(jī)森林的特征重要性評估和特征及最終分類算法選擇[15]。本流程是在離線情況下運(yùn)行的,不占用雷達(dá)在線資源。特征選定之后,在雷達(dá)實(shí)時工作中,只需要提取重要特征即可。分類器選定之后,將相應(yīng)特征提取方法和分類器參數(shù)固化在雷達(dá)實(shí)時處理流程中。
圖1 基于隨機(jī)森林的特征重要性評估流程Fig.1 Flow chart of feature importance assessment process based on random forest
本文所涉及的微動特征共18 維,包括1 個時域特征、13 個調(diào)制譜特征、3 個時頻圖特征和1 個粗測雷達(dá)橫截面(radar cross-section,RCS)特征(特征具體含義見第3.2 節(jié))。
從時域波形上看,氣動目標(biāo)的微動部件導(dǎo)致雷達(dá)回波的起伏特性大,而方差可以很好地表征回波序列的起伏特性,故提取回波序列的歸一化方差作為微動識別的特征之一。由于存在幅度敏感性,將幅度取模值然后進(jìn)行歸一化處理。
令雷達(dá)原始時域回波為s=(s1,s2,…,sN),則信號幅度譜歸一化方差定義為
(1)頻域波形熵
從頻域波形上看,不同氣動目標(biāo)的頻域能量分布不同,頻域波形熵可作為特征之一。x是雷達(dá)回波頻域譜。將頻域幅度值分為I個區(qū)間,頻域波形熵定義為
式中:pi表示落在第i個幅值區(qū)間的頻點(diǎn)占比,即落在第i個區(qū)間的頻點(diǎn)個數(shù)除以頻域譜所有頻點(diǎn)個數(shù)。
為了進(jìn)一步描述頻域的能量分布特征,可對x進(jìn)行冪變換,再計(jì)算波形熵。冪變換定義
因?yàn)閮缱儞Q的變換系數(shù)不同,得到的結(jié)果也有一定差異,這里取了 4 個變換系數(shù)v=0.1,0.3,0.5,0.8。
(2)峰值比
主體和微動部件對應(yīng)的頻域峰值比值定義為
(3)主副瓣比
主副瓣比是多普勒主瓣與第一副瓣寬度的比值。
(4)主瓣寬度
不同目標(biāo)頻譜的展寬程度是不同的,可以提取目標(biāo)調(diào)制譜的主瓣寬度作為特征。
(5)能量比
為表現(xiàn)出多普勒主峰的貢獻(xiàn)度,將去掉主峰前后的能量之比作為一個特征。
(6)中心矩
中心矩可反映調(diào)制譜的起伏特征。對于多普勒譜x=(x(1),x(2),…,x(N)),進(jìn)行歸一化:
本文中,時頻圖由短時傅里葉變換得到。短時傅里葉變換定義如下:
式中:w(·)表示窗函數(shù),本文采用高斯窗。
(1)圖像Shannon 熵[4]
圖像Shannon 熵表征時頻圖能量的散布程度。定義參考公式(4),pi表示落在第i個幅值區(qū)間的像素點(diǎn)占比,即落在第i個區(qū)間的像素個數(shù)除以圖像中所有像素個數(shù)。
(2)圖像熵[4]
圖像熵是時頻圖轉(zhuǎn)化為圖像后,包含的圖像信息,定義如下:
圖像熵H(f)反映了圖像的銳化及清晰程度。
(3)時頻圖對稱性
奇數(shù)與偶數(shù)片槳葉對回波調(diào)制特性的差異主要表現(xiàn)在時頻圖在頻域的對稱性上:當(dāng)槳葉為偶數(shù)時,回波時頻圖在頻域?qū)ΨQ;當(dāng)槳葉為奇數(shù)時,則不對稱。定義時頻對稱性這一特征量來反映回波時頻圖的對稱性:
式中:S(n,m)表示離散時頻圖;n表示時頻圖的時間切片,取值范圍為[1,N];m表示時頻圖的多普勒頻率切片,取值范圍為[-M,M]。
雷達(dá)相關(guān)參數(shù):脈沖重復(fù)周期為PRT=1 ms,相參積累脈沖個數(shù)為N=512,頻率分辨率為1.953 1 Hz,工作頻段為VHF。
本文采用的實(shí)測數(shù)據(jù)主要為直升機(jī)AS350、螺旋槳飛機(jī)Y5 和民航噴氣式飛機(jī)(JET),詳細(xì)參數(shù)如表1所示。L1為槳葉根部距槳葉軸的距離,L2為槳葉尖距槳葉軸的距離,wr為槳葉轉(zhuǎn)速,單位為轉(zhuǎn)每秒(r/s)。
表1 氣動目標(biāo)詳細(xì)參數(shù)Table 1 Detailed parameters of targets
3 類飛機(jī)的調(diào)制譜和時頻圖如圖2,3 所示。圖2 中AS350 調(diào)制譜中19.53 Hz 的譜線由主槳產(chǎn)生,68.36 Hz 的譜線由尾槳產(chǎn)生;Y5 的調(diào)制譜中主體兩側(cè)存在82.03 Hz 和-82.03 Hz 2 條譜線;噴氣式飛機(jī)中的調(diào)制譜中沒有明顯譜線。噴氣式飛機(jī)的調(diào)制譜觀測不到明顯的譜線,原因是在VHF 波段,調(diào)制譜間隔大于微多普勒擴(kuò)展。圖3 中AS350 的時頻圖上下部分存在不對稱性,這是由于AS350 的主槳葉為奇數(shù)個。AS350,Y5 和噴氣式飛機(jī)的時頻圖像素分布存在較大差異。
圖2 3 類目標(biāo)的調(diào)制譜Fig.2 Modulation spectrums of three targets
圖3 3 類目標(biāo)的時頻圖Fig.3 Time-frequency diagrams of three targets
經(jīng)過篩選,AS350,Y5 和JET 的樣本數(shù)目分別為950,1 000 和900 個。在特征重要性評估中,使用了所有的樣本。在分類器驗(yàn)證實(shí)驗(yàn)中,樣本的80%用于訓(xùn)練,20%用于測試。
根據(jù)微動特征提取方法從實(shí)測數(shù)據(jù)中提取18個特征,各特征含義和FIM 如表2 所示??梢钥吹教卣? 的重要性最高,對應(yīng)目標(biāo)主體峰值與微動對應(yīng)最大譜峰的間隔,又稱調(diào)制譜間隔。此特征與槳葉轉(zhuǎn)速與槳葉數(shù)正相關(guān),反映了目標(biāo)的物理特性,是核心特征。
表2 微動特征的特征重要性評估結(jié)果Table 2 Results of feature importance assessment of micro-motion features
用常用的FISHER、支持向量機(jī)(support vector machine,SVM)和決策樹進(jìn)行分類。SVM 采用高斯核。決策樹采用C4.5 算法,在決策樹生成過程中,用信息增益比來選擇特征、增加懲罰項(xiàng)。
在圖4 中,橫坐標(biāo)為特征重要性評估得分最高的多維特征個數(shù),如橫坐標(biāo)為4 時,表示重要性評分最高的4 個特征,即特征8,10,11,7 為分類器的輸入;準(zhǔn)確度表示測試準(zhǔn)確率。對于決策樹來說,只有最重要的特征8 在分類中起作用,分類準(zhǔn)確率穩(wěn)定在95.3%;對于FISHER 分類器來說,隨著特征個數(shù)的增加,分類準(zhǔn)確率有所增加,但在特征個數(shù)超過9 個后,分類準(zhǔn)確率變化不明顯;對于SVM 來說,隨著特征個數(shù)的增加,分類準(zhǔn)確率有所增加,在特征個數(shù)超過14 個后,分類準(zhǔn)確率不再增長。
圖4 特征選擇對分類器準(zhǔn)確度的影響Fig.4 Effect of feature selection on the accuracy of classifier
與其他2 個分類器相比,采用非線性高斯核的SVM,在多維特征分類方面性能更優(yōu)。對于決策樹來說,只有FIM 最高的特征8 在分類中起作用。
決策樹采用C4.5 算法,用信息增益率作為節(jié)點(diǎn)分裂評估標(biāo)準(zhǔn)。特征8 的信息增益率遠(yuǎn)大于其他特征,因此主要節(jié)點(diǎn)的分裂屬性均是特征8。為了防止過擬合,決策樹進(jìn)行了后剪枝操作,將其他信息增益率較小的特征構(gòu)成的分裂節(jié)點(diǎn)剪除,從而導(dǎo)致決策樹節(jié)點(diǎn)只由特征8 構(gòu)成。
相參脈沖個數(shù)與駐留時間成正比。表3 給出了脈沖重復(fù)周期不變的情況下,隨著相參脈沖的減少,多維微動特征FIM 的變化情況。隨著相參脈沖個數(shù)的減少,特征8 的FIM 逐步下降。脈沖個數(shù)為128 時,其重要性低于特征10;脈沖個數(shù)為32 和64時,其重要性更低。這是因?yàn)殡S著相參積累脈沖個數(shù)的減少,駐留時間減少,觀測到的微動周期不足會導(dǎo)致特征8 的提取不夠準(zhǔn)確。
表3 相參脈沖積累個數(shù)對特征重要性的影響Table 3 Effect of the number of coherent pulses on the importance of features
以二階中心矩為例的統(tǒng)計(jì)特征,不同脈沖參數(shù)下均可提取。受頻率分辨率以及噪聲的影響,統(tǒng)計(jì)特征在不同場景下對分類的貢獻(xiàn)率不一定一致,其重要性評分也不一定相同。
工程應(yīng)用中,雷達(dá)參數(shù)變化或工作環(huán)境變化時,特征重要性需要重新評估。
本文提出一種基于隨機(jī)森林的微動特征重要性評估算法,用袋外預(yù)測準(zhǔn)確率差值作為評價標(biāo)準(zhǔn)對18 維微動特征進(jìn)行評估,并根據(jù)其重要性進(jìn)行排序。利用VHF 實(shí)測數(shù)據(jù)驗(yàn)證了本算法的有效性,并分析了特征選擇對于FISHER,SVM 和決策樹3 類分類器的影響,以及相參脈沖個數(shù)對于微動特征重要性的影響。
隨機(jī)森林算法不僅能夠?qū)Φ皖l微動特征進(jìn)行重要性評估,也適用于高頻段雷達(dá)。但高頻雷達(dá)微動特征重要性排序未必與低頻雷達(dá)一致,需要結(jié)合實(shí)測數(shù)據(jù)進(jìn)行研究。
本算法可進(jìn)一步推廣到寬帶特征重要性評估以及寬窄帶特征重要性評估,在工程應(yīng)用中能夠避免提取不重要的特征,在不破壞特征物理特性的前提下對特征降維,從而降低雷達(dá)時間資源和計(jì)算資源。