楊 博,楊立學,王志峰,周印龍
(中國電子科技集團公司第三研究所,北京100015)
被動聲探測技術在低空探測預警方面具有重要的軍事應用。它被動接收低空/超低空飛行器目標引擎發(fā)出的輻射噪聲信號,并利用陣列信號處理和模式識別等方法,得到低空/超低空目標的方位、屬性、運動狀態(tài)等信息[1]。其中,目標屬性(或類型)的正確識別至關重要,它有助于排除虛假目標,或可根據(jù)識別的目標類型進行威脅等級評估。
低空聲目標識別包括特征提取和分類器設計,其中前者是決定識別效果的關鍵因素。傳統(tǒng)的聲信號特征類型包括:時域特征,如短時能量、過零率、自相關系數(shù)等[2];頻域特征,如功率譜、AR 譜等[3];時頻特征,如小波包系數(shù)等[4];聽覺感知類特征,如梅爾(Mel)頻率倒譜系數(shù)[5-6]。對于特定的目標識別任務,需要對這些特征進行精心的設計和選擇才能達到理想的效果;然而,這一過程通常耗費較大的時間和精力,同時應用環(huán)境的改變也會導致所提取的特征不穩(wěn)健,因而識別效果也隨之下降。
近年來,特征學習技術(即從數(shù)據(jù)中自動學習特征的技術)為低空聲目標識別提供了新的思路,它在很多音頻識別任務中表現(xiàn)出較之傳統(tǒng)特征提取方法更優(yōu)的效果[7-9]。非負矩陣分級(Nonnegative Matrix Factorization, NMF)為一種經(jīng)典的特征學習方法,可將一個所有元素均為非負實數(shù)的特征矩陣(如聲信號時頻譜或Mel 頻率幅度譜)分解為一組模板矩陣和編碼矩陣的乘積,其中模板矩陣的列向量對應不同譜模式,而編碼矩陣的列向量則表示該時刻對不同譜模式的加權系數(shù)。理論上,不同類別的聲信號特征可學習得到不同的譜模板,如果將這些譜模板合并對目標信號特征進行分解,得到的編碼系數(shù)可作為特征進行目標分類。進一步對編碼系數(shù)施加稀疏性約束,即少數(shù)幾個模板(通常為同一目標類型的不同譜模式)對應的系數(shù)不為0,則可增強不同目標間的可分性[10]。
考慮到人耳在聽音辨物中出色的分辨力和穩(wěn)健性,以及非負矩陣分解方法在聲信號的時頻幅度譜(滿足非負特性)上進行特征提取的可行性,本文將以信號的Mel 頻率譜為特征矩陣,并基于稀疏NMF 方法對不同類別目標的Mel 譜進行特征學習,學習到的特征將與通過對Mel 譜進行離散余弦變換得到的梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficients,MFCC)特征進行對比,驗證這種特征學習方法在低空聲目標識別中的有效性,為實際應用奠定基礎。
本文的主要任務是低空聲目標識別,主要目標類別包括無人機、直升機和戰(zhàn)斗機。環(huán)境噪聲干擾將作為一組與目標同等地位的一個類別,考察對真實環(huán)境下虛警的抑制能力。
人耳在各種嘈雜環(huán)境中具有出眾的目標辨識能力,其中耳蝸起了關鍵作用。耳蝸實質上相當于一個濾波器組,耳蝸濾波作用是在對數(shù)頻率尺度上進行的,因而其低頻分辨率高,高頻分辨率低。由于一些低空目標(如直升機和無人機)的線譜主要集中在低頻,較高的低頻分辨率有助于目標特性的描述。根據(jù)人耳音調感知關系,可得到Mel 頻率尺度及對應的濾波器組。Mel 頻率尺度與普通頻率尺度的關系為[11]
Mel 濾波器組由一系列三角形濾波器構成,其頻率響應定義為
式中:k 為頻率;fL(m )、 fH(m )和 f (m )分別代表第m 個濾波器的上、下截止頻率及中心頻率。
本文所用的目標信號采樣頻率均為4 096 Hz,傳感器采集的聲信號通過模擬電路濾波,帶寬變?yōu)?0 Hz~1 kHz,依據(jù)通常的應用需求(1 s 輸出1 次識別結果),利用長度為1 s 的短時窗對信號進行分段,然后進行傅里葉變換獲得幅度譜,并通過Mel 濾波器組獲得不同頻帶的能量,最終得到Mel 頻率譜。
圖1 對比了三類低空目標和環(huán)境干擾的聲紋時頻圖,顏色越深,幅度越大。由圖1 可見,直升機信號在300 Hz 以下具有較強的線譜,無人機信號在200~600 Hz 的頻率范圍內有較強的線譜,戰(zhàn)斗機信號具有頻率較高的寬帶譜,而環(huán)境干擾(主要為道路噪聲)的能量則主要集中在低頻。依據(jù)所分析的目標特性差異,本文提取了3 個頻帶范圍的Mel 譜,中心頻率范圍分別為10~300 Hz、300~600 Hz 和10~600 Hz,分別對應于直升機、無人機和戰(zhàn)斗機的特征頻率范圍;對于不同目標采用不同的分析頻帶可有助于降低寬頻帶環(huán)境干擾的影響;每個頻帶范圍均包含40 個濾波器組,Mel 譜也相當于對原始的時頻譜進行初步降維。再對Mel 譜能量取對數(shù)后進行離散余弦變換,可獲得MFCC 特征。不同階的MFCC 系數(shù)能夠描述目標信號譜包絡的整體或精細的形狀特征,是一種聲紋識別的常見特征,這里保留較大的20 個系數(shù)作為特征與稀疏NMF 方法進行性能對比。
1.2.1 NMF 基本思想
NMF 的基本思想是:已知所有元素均為非負實數(shù)的矩陣X(此處為訓練樣本的Mel 頻率幅度譜特征矩陣),尋找一種分解方法,使其等于兩個非負矩陣D 和C 的乘積,即:
式中:X ,Λ∈?M×N;D∈ ?M×R,C ∈?R×N,D 和C 均為非負實數(shù)矩陣;M 代表特征維數(shù)(此處對應Mel頻帶數(shù)40),N 代表樣本數(shù)(此處對應以秒為單位的時間長度),R 表示譜模板數(shù);矩陣D 為模板矩陣(template matrix),其包含的列向量為基向量,矩陣X中的列向量即是由矩陣D 里面的基向量線性組合構成;矩陣C 稱之為編碼矩陣(code matrix),包含了由模板向量構建矩陣X 的組合方式。通常情況下,R 小于M 及N,用少量的模板向量表征大量的數(shù)據(jù)向量。
在矩陣分解中,完全精確的分解過程是難以實現(xiàn)的,因此一般通過定義目標函數(shù)來保證矩陣分解中的逼近效果。目標函數(shù)C 可使用KL 散度準則[12]:
圖1 三類目標與環(huán)境干擾的時頻圖比較Fig.1 Comparison between the spectrograms of four kinds of targets
通過構造輔助函數(shù),可推導得到乘法法則迭代公式為[13]:
式中:.?和./分別代表兩矩陣元素間的相乘和相除,I 是與X 同大小、元素全部為1 的矩陣。式(5)和(6)右側的乘法運算完畢后,將得到的值替代上一步的模板矩陣和編碼矩陣。
對目標函數(shù)收斂性的判斷一般可以通過計算目標函數(shù)的相對變化比值來完成,如果目標函數(shù)相對變化比值小于閾值ε,則可認為目標函數(shù)收斂[13]:
根據(jù)經(jīng)驗,取ε= 1 0?3。
1.2.2 稀疏NMF
如果對編碼系數(shù)施加稀疏約束,則某類目標的信號特征只由其學習到的模板向量加權和表示,而其他模板的編碼系數(shù)近似為0,這樣可增加編碼系數(shù)在不同目標類別間的可分性。在施加稀疏約束后,代價函數(shù)變?yōu)?/p>
而迭代公式變?yōu)?/p>
式(8)中,λ1= ,代表稀疏約束加權系數(shù)。將4 類目標分別進行稀疏NMF 分解獲得各自的模板矩陣,并將其按列合并;當未知目標信號到來時,利用合并后的模板矩陣依據(jù)式(11)進行分解,一定會在該信號所屬目標類別對應的模板上具有較大的編碼系數(shù),因而編碼系數(shù)可作為分類特征。
針對低空目標信號特點,本文采用如圖2 所示的分頻段特征提取和順序二類分類的方法。
首先,對輸入的1 s 長信號進行短時FFT 獲得幅度譜,并依次計算300~600 Hz Mel 頻帶能量(無人機在該頻帶特征顯著)、10~300 Hz Mel 頻帶能量(直升機在該頻帶特征顯著)和10~600 Hz Mel 頻帶能量(戰(zhàn)斗機在該頻帶范圍具有寬譜特性);然后,針對無人機和非無人機、直升機和非直升機、及戰(zhàn)斗機和非戰(zhàn)斗機任務分別利用稀疏NMF 算法獲得描述目標和非目標的模板矩陣,編碼系數(shù)可作為分類特征;最后,利用支持向量機(Support Vector Machine,簡記為SVM)模型依次進行無人機和非無人機、直升機和非直升機、以及戰(zhàn)斗機和非戰(zhàn)斗機的分類,得到最終的目標類型。
圖2 低空聲目標識別流程Fig.2 The procedure of low-altitude acoustic target recognition
本節(jié)將檢驗稀疏NMF 方法在低空目標識別中的識別效果,并與MFCC 特征進行效果比對。
本文所關注的低空目標類型包括無人機、直升機、戰(zhàn)斗機。此外,環(huán)境干擾信號作為與其他三類目標同等地位的一個類別,用于考察虛警抑制能力。近幾年,項目組針對四類目標在不同時間和不同地點進行了多次數(shù)據(jù)采集,每次的環(huán)境噪聲水平及干擾情況均不同,既包括較為安靜的田野,也包括車流量較大的街道旁,從而考察算法對于環(huán)境變化的穩(wěn)健性。
聲音采集設備如圖3 所示。該設備為32 通道三層立體陣,最下面一層為8 元圓陣,直徑為2.4 m;中間層為16 元十字陣,陣元間距為0.2 m;最上層為8 元十字陣,陣元間距為0.2 m;層與層之間間隔0.4 m。設備采樣頻率為4 096 Hz,傳感器采集的聲信號經(jīng)過模擬電路濾波后頻率范圍變?yōu)?0 Hz~1 kHz,數(shù)據(jù)可實現(xiàn)實時存儲。識別算法處理的數(shù)據(jù)來自設備所設置的專用傳感器通道。
圖3 聲音采集設備Fig.3 The sound acquisition equipment.
在每次目標數(shù)據(jù)采集實驗中,通過掌握的目標飛行信息,在其飛行路徑上選取開闊平整的地方進行設備布設,進行連續(xù)不間斷采集;每個批次的目標聲信號可持續(xù)幾十到幾百秒。通過多次試驗,收集到的無人機目標包括固定翼無人機和涵道式無人機,直升機包含3 種機型,戰(zhàn)斗機包含2 種機型。在數(shù)據(jù)集劃分時,使訓練集和測試集包含不同機型,以考察識別算法對未見過機型的適應性。環(huán)境干擾主要采集了道路噪聲,采集設備位于兩條道路的交叉處,一側為車流量較大的主干道,設備距其幾十米;另一側為車流量較少的小路,設備距其僅幾米;環(huán)境噪聲分兩個時段測量,一段用于訓練,另一段用于測試。表1 給出了訓練集和測試集不同類別目標的信號長度。
表1 訓練集和測試集不同類別目標的信號長度Table 1 The signal lengths of training and testing datasets for different kinds of targets
針對無人機和非無人機的判別,利用300~600 Hz 頻率范圍內獲得的Mel 譜進行稀疏NMF 分解,無人機數(shù)據(jù)學習得到32 個模板,直升機、戰(zhàn)斗機和環(huán)境干擾數(shù)據(jù)分別學習得到16 個模板,將它們合并得到80 個模板(40×80 矩陣),利用合并后的模板矩陣對所有訓練數(shù)據(jù)的聲特征進行分解,得到的編碼系數(shù)作為分類特征進行模型訓練。對于測試數(shù)據(jù),同樣利用合并后的模板矩陣對其特征進行分解,得到的編碼系數(shù)作為特征輸入到模型中得到目標類別標記。MFCC 特征在歸一化后直接輸入到模型進行訓練或測試。表2 給出了兩類特征的識別結果,其中對于無人機和非無人機的判別MFCC特征的識別率為94.02%,而經(jīng)稀疏NMF 分解得到的特征對應的識別率為95.77%。
表2 兩類特征識別正確率對比Table 2 Comparison between the recognition accuracies of two kinds of features
針對直升機和非直升機的判別,利用10~300 Hz 頻率范圍內獲得的Mel 譜進行稀疏NMF 分解,直升機數(shù)據(jù)學習得到32 個模板,戰(zhàn)斗機和環(huán)境干擾數(shù)據(jù)分別學習得到16 個模板,將它們合并得到64 個模板(40×64 矩陣),稀疏NMF 和MFCC特征訓練/測試過程與無人機和非無人機分類過程類似。表2 中對于直升機和非直升機的判別,MFCC特征的識別率為88.22%,而經(jīng)稀疏NMF 分解得到的特征對應的識別率為97.36%。
針對戰(zhàn)斗機和非戰(zhàn)斗機的判別,利用10~300 Hz 頻率范圍內獲得的Mel 譜進行稀疏NMF 分解,戰(zhàn)斗機數(shù)據(jù)學習得到32 個模板,環(huán)境干擾數(shù)據(jù)學習得到32 個模板,將它們合并得到64 個模板(40×64 矩陣)。表2 中對于戰(zhàn)斗機和非戰(zhàn)斗機的判別,MFCC 特征的識別率為96.94%,而經(jīng)稀疏NMF分解得到的特征對應的識別率為98.45%。
采用如圖2 所示的順序識別過程,獲得了兩類特征對于四類目標測試樣本的總體識別率,其中MFCC 特征的識別正確率為85.71%,而稀疏NMF特征的識別正確率為93.57%。綜上所述,稀疏NMF 無論是在單類目標識別還是在多類目標分類上,性能均優(yōu)于MFCC 特征,從而顯示出更高的目標分辨能力。
本文研究了稀疏非負矩陣分解技術在低空聲目標識別中的應用。首先,基于信號Mel 譜特征,利用稀疏NMF 方法學習得到各類目標的譜模板矩陣,并將其合并;然后,基于合并后的模板矩陣對每個樣本的信號特征進行分解,得到的編碼系數(shù)作為識別特征;最后,結合四類目標的特點,采用無人機和非無人機、直升機和非直升機以及戰(zhàn)斗機和非戰(zhàn)斗機的順序識別過程,并將稀疏NMF 方法與MFCC 特征的識別結果進行比較。結果顯示,無論是在單類目標識別還是多類目標分類中,稀疏NMF方法均取得了較好的識別結果。
對于實際應用,該算法雖然采用離線方式訓練,所需時間相對較長,但是,一旦特征模板矩陣和識別模型確定后,可針對未知信號特征進行在線分解和識別模型運算,能夠滿足實時處理要求。因此,該算法具備較好的實際應用前景。