王利恒,趙智浩
(武漢工程大學 電氣信息學院,武漢430205)
目前,海洋環(huán)境噪聲的檢測與識別已經(jīng)得到國內(nèi)外專家的廣泛研究。信號的時頻特征可以用其時頻圖像來體現(xiàn),分類學習器可以利用目標的特征參數(shù)對其進行分類檢測。然而由于在實際應用中,不可能反復測得不同深度、不同方位等參數(shù)組合下目標多次發(fā)出的聲波,導致觀測樣本數(shù)量小或者根本沒有樣本,致使一些常用的探測識別方法不再適用。因此結(jié)合實際工程研究海洋環(huán)境噪聲的探測與識別是非常必要的。
近年來,語音識別領域的通過提取Mel 倒譜系數(shù)MFCC(Mel frequency cepstrum coefficient)的方法,已被證實對水下聲信號進行特征參數(shù)提取和識別分類,是一種有效的方法[1]。目前,海洋軍工業(yè)、養(yǎng)殖業(yè)等產(chǎn)業(yè)都希望能夠準確地分辨出海水中是否存在發(fā)動機或螺旋漿發(fā)出的噪音,以此對生產(chǎn)決策做出判斷。故在此以其為研究目的,對水下艦艇與具代表性的海洋背景噪聲兩類水聲信號目標進行處理與分析,通過MFCC 提取其海洋聲信號的特征參數(shù),并建立混合特征庫作為樣本構(gòu)造訓練模型;用其對真實的水聲信號進行分類識別,以驗證該方法的有效性。
科技興則國家興,科技強則國家強。隨著國家對海洋資源的重視程度逐步增加,各種水下探測技術的研究也越來越受到重視。因此,結(jié)合實際工程需要研究海洋聲信號的探測與識別方法,對于海洋生態(tài)環(huán)境的保護、海洋養(yǎng)殖業(yè)的發(fā)展亦或是海洋軍工產(chǎn)業(yè)都非常必要。
在海洋中,聲音的構(gòu)造十分復雜。在被動聲納中,尤其要克服噪聲對性能的限制。一般情況下,噪聲主要來源于機械噪聲和海洋噪聲2 個方面。
機械噪聲一般是艦艇及其平臺在工作時由發(fā)動機、螺旋槳及其他輔助裝置所發(fā)出的噪聲。隨著科技的發(fā)展,艦艇平臺設計師力求其噪音最小化,但由于聲波在海洋中的良好傳播特性,使得噪聲仍會干擾探測系統(tǒng)的檢測與識別。而且,海洋中豐富的生態(tài)系統(tǒng)也會發(fā)出各式各樣的噪聲,如魚類、大型海洋生物、海洋無脊椎生物等。其中,比較有發(fā)聲代表性特征的有石首科魚類、蝦類、海豚、鯨類等。此外,周邊的海洋環(huán)境也會產(chǎn)生環(huán)境噪聲,海風、海浪、降雨、暗流等都會提升海洋噪聲級別。因此,如何準確地在低信噪比的情況下將目標信號從探測器接收到的聲信號中提取出來,是現(xiàn)在需要繼續(xù)攻克的問題。
為了能夠準確的解決上述問題,需要將采集到的經(jīng)過前置濾波的海洋聲信號進行特征參數(shù)的提取,以達到能夠在少量樣本中準確分析的目的。在此以MFCC 作為信號的特征參數(shù)。
MFCC 是將聲音信號(頻譜的包絡和細節(jié))進行編碼運算所得到的一組13 位特征向量值,是聲音信號的能量在不同頻率范圍內(nèi)的分布。MFCC 考慮了人類的聽覺特征,先將線性頻譜映射到基于聽覺感知的Mel 非線性頻譜中,再轉(zhuǎn)換到倒譜上[2]。Mel 倒譜系數(shù)在語音識別中比LPC(linear prediction coefficient)、ParCor(Partial Correlation)系數(shù),具有更強的魯棒性和可靠性,并且具有良好的識別能力和抗噪能力。
MFCC 對水下目標聲信號的識別過程如圖1 所示。其流程如下:信號的預處理(預加重、分幀和加窗),通過快速傅里葉變換獲得分布在時間軸上不同時間窗內(nèi)的頻譜,Mel 濾波,取對數(shù),做逆變換,倒譜分析。
圖1 MFCC 特征參數(shù)提取流程Fig.1 Flow chart of MFCC feature parameter extraction
預處理過程主要包括預加重、分幀和加窗等。
2.1.1 預加重
在一段聲信號的頻譜圖中,共振峰攜帶了聲音的辨識屬性,預加重就是對聲信號的包絡(Spectral Envelope)進行處理,將此信號加上高通濾波器,即H(Z)=1-μZ-1,其中μ 值為0.9~1.0,在此取μ=0.97。經(jīng)過預加重,可以使這條連接共振峰的曲線更加平滑,便于后期對聲信號進行頻譜分析和倒譜分析。
2.1.2 分幀
然而,得到了包絡還不足以判斷整個特征參數(shù)。人類的聽覺感知試驗表明,人類聽覺只聚焦于某些特定的區(qū)域,而不是整個包絡[3]。所以要將聲信號進行預先的分幀和加窗處理。分幀是在語音信號處理中的常用方法,由于海洋聲信號本質(zhì)上是一種非平穩(wěn)的過程,具有多域分布的多種特征,其信號特征在時間、頻率等多域分布而且相互關聯(lián)、十分復雜。因此,需要對信號進行分幀處理,提取每一幀的特征參數(shù),再將若干個幀的特征參數(shù)進行匯總,共同組成一個可以訓練識別的特征庫。在此,先將N=256 個采樣點集合成一幀,幀的長度為20 ms。為避免相鄰兩幀的變化移位過大,取幀移為10 ms,以此使2 個相鄰幀之間有一個包含M=128 個點的重疊區(qū)域。
2.1.3 加窗
將分幀后的每一幀乘以Hanmming 窗,用以增加前后幀的連續(xù)性。分幀后,聲信號為S(n),其中n=0,1,…,N-1;N為上文所述幀的大小。
經(jīng)過上述預處理后的信號才有具備代表性的特征參數(shù)。
1)快速傅里葉變換(FFT) 通過快速傅里葉變換將預處理后的時域信號變換為頻域信號,即
其中
計算出信號能量譜為
2)三角帶通濾波器濾波 將式(2)所求得的信號能量譜通過Mel 濾波器組進行Mel 濾波,即
式中:Hm為Mel 濾波器組系數(shù)。Mel 濾波器組如圖2所示。
圖2 Mel 濾波器組Fig.2 Mel filter group
3)取對數(shù) 對Mel 濾波器組輸出結(jié)果取對數(shù)運算,得到相當于同態(tài)變換的結(jié)果為
4)求倒譜 由于各個濾波器所輸出的能量與幅值之間具有很強程度的相關性,所以要通過離散余弦變換DCT(discrete cosine transform)來去除相關性,將信號映射到低維空間。在對數(shù)運算后對其進行傅里葉反變換得到倒譜,即可得到MFCC 參數(shù)。即
其中
式中:i為MFCC 濾波器階數(shù)。當n=0 時,c(0)反應頻譜能量,稱為第0 階MFCC。
通常情況下標準的MFCC 參數(shù)主要反映聲信號的靜態(tài)特征(每一幀的特征),但聲信號是連續(xù)變化的,每一聲信號幀都不是獨立存在的。將靜態(tài)特征信息與動態(tài)特征信息結(jié)合起來,能夠在很大程度上提高系統(tǒng)的識別性能,可將MFCC 的一階差分表示其動態(tài)特征[4],如圖3 所示。求得MFCC 動態(tài)特征為
圖3 MFCC 動態(tài)特征Fig.3 MFCC dynamic characteristics
將機器學習理論用于數(shù)據(jù)的分析與預測,多用于模式識別系統(tǒng)中。模式識別,通常采用監(jiān)督學習模型,首先根據(jù)給定的特征參數(shù)以及標簽訓練出一個模型,然后根據(jù)此模型對給定的試驗數(shù)據(jù)輸出其識別的標簽。由于海洋聲信號多數(shù)試驗目標樣本數(shù)量少且受多重因素制約,但試驗的充分性要求卻很高,因此需要一種樣本數(shù)量少卻擁有多樣性的仿真模型。在此選用了支持向量機的分類識別模型。
支持向量機SVM(support vector machine)的基本思想是將訓練樣本映射到高位特征空間,并在此空間構(gòu)建一個最優(yōu)分類超平面,將兩類樣本正確分開,且使兩類樣本間分類間隔最大[5];其使用鉸鏈損失函數(shù)來計算經(jīng)驗風險,并在求解系統(tǒng)中加入正則化項來優(yōu)化結(jié)構(gòu)風險,為一種穩(wěn)健的、具有稀疏性的分類器。支持向量機可以通過核函數(shù)進行分類,假設數(shù)據(jù)呈線性分布,目標就是尋找一個最優(yōu)的分離超平面。分離超平面與最優(yōu)分離超平面的對比如圖4 所示。
假設,一個給定的特征參數(shù)訓練數(shù)據(jù)集為T,即
其中
式中:ai為訓練集的第i個特征向量;bi為ai的類別標簽,bi∈{-1,1};(ai,bi)為樣本點。當其類別標簽bi為1 時ai為正類(positive class),當其類別標簽bi為-1 時ai為負類(negative class)。由圖4(b)可見,最優(yōu)超平面可表示為滿足WX-γ=0 的點X的集合,其中W 為分離超平面至最優(yōu)分離超平面的方向向量;γ 為分離超平面至最優(yōu)超平面的距離。
圖4 分離超平面與最優(yōu)分離超平面的對比Fig.4 Comparison of separation hyperplane and optimal separation hyperplane
在處理線性不可分問題時,如果使用硬邊距SVM 將會產(chǎn)生不可控的誤差。因此,使用鉸鏈損失函數(shù)的SVM,沿用硬邊界優(yōu)化處理問題形式,軟邊距SVM 為
式中:Li為鉸鏈損失函數(shù)。在使用松弛變量損失函數(shù)的分段取值后,簡化為
利用拉格朗日乘子法來求解上述分類決策函數(shù)的最優(yōu)解問題,則表達式可寫為
將局部最有條件設置在拉格朗日乘子滿足Karush-Kuhn-Tucker(KKT)條件,即
可知,對于任意的樣本點(ai,bi),總有也就是說,該樣本不會對決策邊界產(chǎn)生影響,其滿足
SVM 旨在求出n維空間的最優(yōu)超平面,以此將樣本的正負類分開。信號預處理后所獲取的MFCC特征參數(shù)之間存在一定程度上的連續(xù)性。故在此將經(jīng)過標記的MFCC 參數(shù)作為輸入向量,配合SVM求得最優(yōu)解,可以在樣本數(shù)量小的前提下,達到自主將水下機械噪音與海洋生物噪音或其他噪音區(qū)分出來。其流程如圖5 所示。
圖5 MFCC-SVM 預測分類流程Fig.5 Flow chart of MFCC-SVM predictive classification
對收集到的海洋聲信號樣本進行預處理,通過式(1)~式(6)進行MFCC 的特征參數(shù)提取。每幀數(shù)據(jù)可以獲取到特征向量Tn,其包含36 個特征參數(shù),即由12 個Mel 頻率倒譜系數(shù)、12 個一階差分Mel頻率倒譜系數(shù)、12 個二階差分Mel 頻率倒譜系數(shù)共同組成。然后,按照時間順序進行排序,即可獲得MFCC 樣本D 作為SVM 的輸入向量,D={a1,a2,…,an}。
基于MFCC 的海洋聲信號探測識別方法主要包含數(shù)據(jù)的預處理、特征參數(shù)提取、SVM 模型訓練、識別分類等幾個功能模塊。
通過目標信號的預處理后,可獲取信號的MFCC特征參數(shù),采用支持向量機的學習算法,構(gòu)造并求解出最優(yōu)化問題的最優(yōu)解ai,可以得到分類決策函數(shù)和分離超平面,最終得到的模型可以將未知的目標信號進行識別與分類。此外,該系統(tǒng)應用STM32系列單片機,搭載LINER 公司的LT1568 低噪聲有源RC濾波器,利用高精、高靈敏度水聽器進行噪聲信號采集,并用其對陌生水域的真實水聲信號進行分類識別,以此驗證該系統(tǒng)的有效性。
實際測得的噪聲信號截圖如圖6 所示,圖6(a)為平靜水面下的海洋背景噪聲信號,圖6(b)為經(jīng)過加入機械噪聲干擾后測得的混合噪聲信號。在對2種信號進行上文所述處理與分析后,可以構(gòu)造出分類與識別的模型。
圖6 示波器顯示海洋噪聲信號的截圖Fig.6 Screenshot of marine noise signal displayed by oscilloscope
然后,向模型中隨機輸入事先采集好的數(shù)據(jù)集,進行測試。系統(tǒng)運行結(jié)果的偏差曲線如圖7 所示。圖中2 條直線——1 為平靜海洋噪聲,2 為加入機械噪聲的海洋噪聲。如果原值與計算在1 或2 處重合即視為計算結(jié)果正確。
圖7 偏差曲線的截圖Fig.7 Screenshot of deviation curve
模型正確率的截圖如圖8 所示,由圖可見測試的正確率為0.809524。
圖8 模型正確率的截圖Fig.8 Screenshot of model accuracy
針對海洋環(huán)境噪聲的特性非常復雜,而水下噪聲監(jiān)測的樣本往往較少且不全面等問題,在此設計了海洋機械噪聲監(jiān)測系統(tǒng)。該系統(tǒng)可以在目標信號聲音樣本較少的情況下,通過MFCC 特征參數(shù)提取及支持向量機的分類算法,將機械聲信號靈敏的檢測出來。試驗結(jié)果表明,該系統(tǒng)可以較為精確地監(jiān)測到海洋背景噪聲中的機械聲信號。