王顯云,王志峰,黃 山
(中國(guó)電子科技集團(tuán)公司第三研究所,北京 100015)
近年來(lái),現(xiàn)代低空飛行目標(biāo)常可依托復(fù)雜地形進(jìn)行低空、超低空隱蔽接近和偵查,使得復(fù)雜地域?qū)Φ涂诊w行目標(biāo)進(jìn)行有效的探測(cè)和預(yù)警越來(lái)越引起各個(gè)國(guó)家的重視。
以往,雷達(dá)是監(jiān)視飛行器的主要常規(guī)手段。但對(duì)低空飛行的目標(biāo),受地球曲率和地形起伏以及地形多徑效應(yīng)影響,雷達(dá)的探測(cè)能力會(huì)降低,同時(shí),復(fù)雜多山地形也多存在遮擋,并不利于雷達(dá)探測(cè),效費(fèi)比也不高。
相對(duì)于雷達(dá),聲探測(cè)具有一些特有的特點(diǎn),如無(wú)需搜索、掃描即可實(shí)現(xiàn)全向探測(cè),不發(fā)射任何電磁波、聲波等,可全被動(dòng)探測(cè),體積小易于隱蔽,不易受通視條件(遮擋、夜間等)限制,功耗低,可以全天候無(wú)人值守等。這些特點(diǎn)使得聲探測(cè)技術(shù)可以彌補(bǔ)雷達(dá)探測(cè)手段的不足,在低空探測(cè)預(yù)警方面具有重要的軍事應(yīng)用價(jià)值。聲探測(cè)技術(shù)通常首先借助于陣列信號(hào)處理技術(shù)得到低空飛行目標(biāo)的方位和運(yùn)動(dòng)軌跡等信息[1],然后結(jié)合飛行目標(biāo)的一些固有聲學(xué)特性來(lái)判別飛行目標(biāo)的屬性(或類型)。
傳統(tǒng)的低空聲目標(biāo)識(shí)別技術(shù)主要側(cè)重于直接分析不同目標(biāo)聲信號(hào)特征的固有差異,以此來(lái)對(duì)不同目標(biāo)分類。常見(jiàn)的聲信號(hào)特征有短時(shí)平均能量、短時(shí)平均跨零率以及短時(shí)自相關(guān)系數(shù)等時(shí)域特征[2],短時(shí)功率譜、短時(shí)AR 譜等頻域特征[2],梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstrum Coefficients,MFCC)[3]和伽瑪通功率譜(Gammatone Filterbank spectra,GF)[4]等聽(tīng)覺(jué)感知類特征。傳統(tǒng)方法的識(shí)別往往需針對(duì)不同的飛行目標(biāo)的特征進(jìn)行精心的設(shè)計(jì)和選擇才能達(dá)到較為理想的效果,顯然,這將會(huì)耗費(fèi)較大的時(shí)間和精力,同時(shí),應(yīng)用場(chǎng)景的變化常會(huì)降低所提特征的魯棒性,直接影響識(shí)別效果。
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)被研究者們應(yīng)用到語(yǔ)音增強(qiáng)[5]、語(yǔ)音識(shí)別[6]等領(lǐng)域,并取得了較為顯著的效果。DNN 是基于以往淺層BP 網(wǎng)絡(luò)的思路發(fā)展而來(lái)。相比于BP 網(wǎng)絡(luò),DNN 的網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,層數(shù)更多且每層的神經(jīng)節(jié)點(diǎn)數(shù)也較多,能夠更好地?cái)M合各種復(fù)雜的非線性關(guān)系,使其能夠適應(yīng)更為復(fù)雜的任務(wù)。深度神經(jīng)網(wǎng)絡(luò)可將輸入信號(hào)的先驗(yàn)信息保存在神經(jīng)元之間的連接權(quán)值中,從而表現(xiàn)出較好的特征學(xué)習(xí)能力。
考慮到人耳對(duì)聲音信號(hào)不同頻率的不同感知力而表現(xiàn)出的對(duì)聲源出色的分辨力,本文將以聲信號(hào)的伽瑪通功率譜(GF)[4]、梅爾倒譜系數(shù)(MFCC)、GF 和MFCC 的動(dòng)態(tài)差分譜以及上述特征的諧波特征譜構(gòu)成的特征集合作為訓(xùn)練特征。對(duì)于網(wǎng)絡(luò)的訓(xùn)練來(lái)說(shuō),其目的是利用DNN 來(lái)學(xué)習(xí)不同類別目標(biāo)的特征譜與訓(xùn)練目標(biāo)之間的非線性關(guān)系。
本文的主要任務(wù)是利用DNN 網(wǎng)絡(luò)對(duì)低空飛行的聲目標(biāo)(無(wú)人機(jī)、直升機(jī)和戰(zhàn)斗機(jī))進(jìn)行識(shí)別。圖1 給出了三類低空飛行目標(biāo)的時(shí)頻圖譜,其顏色越深,能量越強(qiáng)[1]。
從圖1 可以看出,三種飛行目標(biāo)的圖譜具有一定差異,這為下一步的識(shí)別提供了可能性。
圖1 不同低空飛行目標(biāo)的時(shí)頻圖譜
圖2 為利用DNN 網(wǎng)絡(luò)進(jìn)行低空聲目標(biāo)分類的原理框圖。該方法的工作流程包含線下訓(xùn)練階段和線上測(cè)試階段兩個(gè)階段。在線下訓(xùn)練階段,首先提取不同類型飛行目標(biāo)聲信號(hào)的GF、MFCC、GF和MFCC 的動(dòng)態(tài)差分譜以及上述特征的諧波特征譜參數(shù),并將它們拼接為一個(gè)聯(lián)合向量作為DNN的輸入特征。將不同類型飛行目標(biāo)的最大后驗(yàn)概率構(gòu)成的稀疏向量作為DNN 網(wǎng)絡(luò)的訓(xùn)練目標(biāo),目的是利用DNN 來(lái)構(gòu)建輸入聲學(xué)特征數(shù)據(jù)與訓(xùn)練目標(biāo)之間的非線性關(guān)系。在線上測(cè)試階段,首先提取測(cè)試聲信號(hào)的聲學(xué)特征集,將其輸入到訓(xùn)練好的DNN 模型中,即可得到對(duì)應(yīng)聲目標(biāo)的識(shí)別標(biāo)志。
圖2 基于DNN 的低空飛行目標(biāo)識(shí)別
2.2.1 GF 譜的提取
為了利用耳蝸基底膜對(duì)聲音信號(hào)不同頻率的感知能力,研究人員設(shè)計(jì)出伽瑪通濾波器組來(lái)模擬耳蝸濾波器組的所有特性[7],其脈沖響應(yīng)可以表示為:
式中;t為采樣時(shí)刻,f為濾波器的中心頻率,b(f)為中心頻率為f的濾波器的帶寬,其與中心頻率之間的關(guān)系為b(f)=1.019×(24.7+0.108f),φ為相位。
伽瑪通濾波器組中各濾波器與中心頻率之間的關(guān)系如圖3 所示。從圖3 可以看出,兩者關(guān)系呈現(xiàn)出類似于對(duì)數(shù)的分布特性,這種特性與人耳基底膜對(duì)頻率的感知類似。
圖3 伽瑪通濾波器組的中心頻率分布
伽瑪通濾波器的頻率響應(yīng)如圖4 所示,可以明顯看出,該濾波器在低頻區(qū)域的帶寬較窄,使其在低頻區(qū)域會(huì)表現(xiàn)出較高的頻率分辨率,而高頻區(qū)域較寬的帶寬使該區(qū)域的頻率分辨率較低,這種現(xiàn)象與耳蝸對(duì)聲音頻率的感知機(jī)制一致。
圖4 伽瑪濾波器的頻響特性
伽瑪通功率譜的獲取步驟為:首先將聲音信號(hào)經(jīng)過(guò)伽瑪通濾波器組得到多個(gè)濾波通道的輸出信號(hào),其次對(duì)每個(gè)通道輸出信號(hào)進(jìn)行加窗分幀處理,產(chǎn)生一系列的時(shí)頻單元,最后將這些時(shí)頻單元在各子帶中求取能量即可得到伽瑪通功率譜。
2.2.2 MFCC 譜的提取
MFCC 是利用梅爾濾波器將輸入的信號(hào)頻譜特征集中在一些聽(tīng)感比較敏感的頻段。它的提取過(guò)程可以描述如下:為使頻譜變得平坦并提升音頻信號(hào)的高頻成分,首先需對(duì)音頻信號(hào)做預(yù)加重處理;其次計(jì)算音頻信號(hào)的短時(shí)能量譜,并將其通過(guò)梅爾濾波器;再次,計(jì)算濾波器輸出結(jié)果的對(duì)數(shù)能量;最后,對(duì)獲得的對(duì)數(shù)能量做離散余弦傅里葉變換,即得到MFCC。
由于GF 和MFCC 表征的是聲音信號(hào)的靜態(tài)特征,因此,計(jì)算GF 和MFCC 的差分譜,可用于表征聲音信號(hào)的動(dòng)態(tài)特性。
2.2.3 諧波保護(hù)特征的提取
在輸入特征的提取方面,除了直接從輸入的聲信號(hào)中提取上述輸入特征之外,還采取另外一種方式,即先將輸入聲信號(hào)變成具有諧波保護(hù)的人工信號(hào)[8],然后從人工信號(hào)中提取上述聽(tīng)覺(jué)特征,所提取的特征稱為諧波保護(hù)特征。無(wú)人機(jī)信號(hào)的原始信號(hào)和經(jīng)諧波處理后的人工信號(hào)如圖5 所示。
從圖5 可以明顯看出,經(jīng)諧波處理后的聲信號(hào)在高頻處的諧波得到了恢復(fù),這將有利于提升不同聲目標(biāo)特征的差異。當(dāng)已知原始的目標(biāo)聲信號(hào)后,其人工信號(hào)的頻譜系數(shù)可以表示如下:
圖5 無(wú)人機(jī)信號(hào)的時(shí)頻譜
式中:f為頻率索引,表示矩形方波在離散頻率Sa處的傅里葉變換系數(shù),F(xiàn)y(·)表示輸入聲信號(hào)的傅里葉變換。對(duì)式(2)求取傅里葉反變換可得到人工信號(hào)的時(shí)域信號(hào)。
當(dāng)輸入的聲音信號(hào)是一個(gè)周期信號(hào)時(shí),式(2)中的人工信號(hào)能夠產(chǎn)生諧波再生現(xiàn)象[8]。對(duì)于非周期信號(hào),由于其不具有周期特性,使得非周期信號(hào)的譜并不會(huì)受到諧波再生過(guò)程的影響。當(dāng)提取諧波處理后的聲信號(hào)的GF 和MFCC 特征后,將其與原始信號(hào)產(chǎn)生的特征相結(jié)合來(lái)作為DNN 模型的輸入特征。
從計(jì)算成本的角度考量,選取多層感知器MLP作為DNN 模型的訓(xùn)練機(jī)器。其網(wǎng)絡(luò)結(jié)構(gòu)選為3 個(gè)隱層網(wǎng)絡(luò),隱層之間的激活函數(shù)為Sigmoid 函數(shù),優(yōu)化算法選用具有動(dòng)量項(xiàng)的Adam 算法,其動(dòng)量因子隨訓(xùn)練周期從最小的0.5 變化到較大的0.9。Dropout 策略用來(lái)解決MLP 的過(guò)匹配問(wèn)題,以提高其泛化能力。交叉熵準(zhǔn)則作為MLP 模型的代價(jià)函數(shù)。
本節(jié)將檢驗(yàn)基于DNN 網(wǎng)絡(luò)的方法在低空目標(biāo)識(shí)別中的識(shí)別效果,選取的識(shí)別目標(biāo)類型包括無(wú)人機(jī)、直升機(jī)和戰(zhàn)斗機(jī)。本次實(shí)驗(yàn)所采用的數(shù)據(jù)來(lái)源于利用聲傳感器陣列在不同時(shí)間和不同地點(diǎn)實(shí)際采集到的無(wú)人機(jī)、直升機(jī)和戰(zhàn)斗機(jī)的聲數(shù)據(jù),且所有實(shí)驗(yàn)數(shù)據(jù)的采樣頻率被設(shè)置成一致。在實(shí)驗(yàn)中,實(shí)驗(yàn)數(shù)據(jù)被分為訓(xùn)練集和測(cè)試集兩部分,以考察識(shí)別算法的泛化能力。
基于深度學(xué)習(xí)的目標(biāo)識(shí)別方法的實(shí)驗(yàn)設(shè)置如下:在訓(xùn)練前期,約兩小時(shí)包含三種機(jī)型的數(shù)據(jù)集被選取,約20 min 不同于訓(xùn)練集的數(shù)據(jù)被用于測(cè)試。網(wǎng)絡(luò)結(jié)構(gòu)中,3 個(gè)隱層的節(jié)點(diǎn)數(shù)分別為1 024,1 024 和512,輸入層為拼接后的輸入特征數(shù)據(jù)。為了減少輸入數(shù)據(jù)的動(dòng)態(tài)范圍過(guò)大引起的網(wǎng)絡(luò)收斂難的問(wèn)題,所提取的輸入特征均進(jìn)行了零均值方差的歸一化處理。
在訓(xùn)練階段,將無(wú)人機(jī)、直升機(jī)和戰(zhàn)斗機(jī)的訓(xùn)練數(shù)據(jù)進(jìn)行合并,以得到所提取的輸入特征集合,同時(shí)利用設(shè)定的訓(xùn)練目標(biāo)進(jìn)行網(wǎng)絡(luò)訓(xùn)練。在測(cè)試階段,首先對(duì)測(cè)試數(shù)據(jù)進(jìn)行處理獲得特征參數(shù),然后將其輸入到訓(xùn)練好的模型中得到聲目標(biāo)識(shí)別標(biāo)簽。圖6 給出了本文方法和參考方法[1](定義為Ref)對(duì)3 種低空飛行目標(biāo)進(jìn)行處理獲得的識(shí)別結(jié)果。從圖6 可以看出,基于深度學(xué)習(xí)的方法對(duì)3 種飛行目標(biāo)的識(shí)別率均能超過(guò)參考方法,這在一定程度上反映出所提方法可以有效用于對(duì)低空飛行目標(biāo)的分類。
圖6 低空飛行目標(biāo)的識(shí)別率
本文研究了人工智能技術(shù)中的深度學(xué)習(xí)方法在低空聲目標(biāo)識(shí)別中的應(yīng)用。首先,提取出基于信號(hào)Mel 譜和GF 譜等聲音信號(hào)的靜態(tài)特征,并利用差分技術(shù)獲得上述靜態(tài)特征的動(dòng)態(tài)特征,其次利用諧波增強(qiáng)技術(shù)提取出具有諧波保護(hù)能力的上述靜態(tài)特征和動(dòng)態(tài)特征,并將其與非諧波保護(hù)的特征進(jìn)行合并;再次,將合并后的特征作為深度學(xué)習(xí)的輸入?yún)?shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練;最后,利用訓(xùn)練好的網(wǎng)絡(luò)模型在線對(duì)無(wú)人機(jī)、直升機(jī)以及戰(zhàn)斗機(jī)進(jìn)行識(shí)別。結(jié)果顯示,基于深度學(xué)習(xí)的方法能夠取得較好的識(shí)別結(jié)果,這將能夠?yàn)槿斯ぶ悄芗夹g(shù)在低空探測(cè)預(yù)警方面的軍事應(yīng)用提供重要的參考價(jià)值。