(陸軍裝甲兵學(xué)院 兵器與控制系,北京 100072)
坦克炮控系統(tǒng)啟動時各部件會按照一定的順序上電工作,具有較為明顯的音頻特征。維修人員能夠根據(jù)炮控系統(tǒng)的啟動聲音來判斷各部組件是否正常上電工作,從而縮小可能的故障范圍,快速進(jìn)入更為具體的測試診斷工作[1]。將聲音識別技術(shù)引入可穿戴維修檢測設(shè)備中符合可穿戴設(shè)備的發(fā)展方向,即輔助增強用戶的感知、判斷和任務(wù)處理能力[2]。將聲音識別技術(shù)應(yīng)用與可穿戴維修檢測設(shè)備能夠增強維修人員的聽覺能力,在分析音頻信號的同時給出部件的狀態(tài)信息,為維修操作提供更加快速準(zhǔn)確的判斷[3-4]。
基于可穿戴設(shè)備的環(huán)境聲音識別技術(shù)是聲音事件識別(Acoustic Event Classification)和環(huán)境感知(Context Aware)技術(shù)在特定環(huán)境中的一種應(yīng)用[5-6]。目前,環(huán)境聲音識別的應(yīng)用大多以語音識別技術(shù)為基礎(chǔ),根據(jù)不同的應(yīng)用特點與實際需求再建立合適的識別模型。文獻(xiàn)[7]提出了一種基于Mel子帶參數(shù)化特征的聲音識別算法,采用高斯混合模型擬合的方法進(jìn)行聲音事件的自動分段,并利用SVM分類器實現(xiàn)了11種鳥鳴聲音的識別。文獻(xiàn)[8]結(jié)合工廠的實際噪聲環(huán)境實現(xiàn)了電機異常噪聲的檢測識別,在特征提取過程中利用漢寧卷積窗代替漢寧窗,有效抑制了頻譜泄露,提高了電機異常噪聲特征提取的準(zhǔn)確性。文獻(xiàn)[9]提出了一種基于小波包分析的非接觸式玻璃破碎聲音識別系統(tǒng),通過提取小波包系數(shù)與短時特征參數(shù),從時頻域兩個角度對玻璃破碎聲進(jìn)行了描述,提高了事件識別的準(zhǔn)確率。文獻(xiàn)[10]提出了一種基于特征分析的環(huán)境聲音識別算法,通過提取聲音事件的4種典型特征進(jìn)行簡單分類,該算法比模型訓(xùn)練匹配具有更好的實時性和環(huán)境適應(yīng)性,但在多類型復(fù)雜事件的分類中還存在特征區(qū)分度不佳、識別準(zhǔn)確率不足的問題。
針對某型坦克基層級維修中伴隨的強噪聲干擾問題,本文提出了一種以改進(jìn)譜減法降噪為基礎(chǔ)、以梅爾頻率倒譜系數(shù)(MFCC)為特征向量的聲音識別算法。該算法能夠在車輛啟動的強噪聲干擾下識別炮控系統(tǒng)中各主要部組件的啟動狀態(tài)。針對降噪性能不好以及識別準(zhǔn)確率不高的問題,進(jìn)一步對譜減參數(shù)與識別策略進(jìn)行了優(yōu)化。
根據(jù)炮控系統(tǒng)的實際啟動狀況,變流機、油泵電機、電磁離合器和電機擴(kuò)大機四個部組件的啟動過程的聲音特征較為明顯,是維修人員的主要判斷目標(biāo),具體安裝位置如圖1所示。
圖1 各部組件安裝位置示意圖
在基層級維修中,炮控系統(tǒng)一般有兩種啟動方式。一種是外接電源供電,這種方式不需要啟動車輛,環(huán)境噪聲較小,坦克乘員與維修人員可直接根據(jù)啟動聲音對各部件狀態(tài)進(jìn)行判斷;另一種是車輛發(fā)動供電,這種方式通常會帶來嚴(yán)重的噪聲干擾,難以對啟動部件聲音進(jìn)行準(zhǔn)確的判定。大多數(shù)基層級維修與現(xiàn)場搶修環(huán)境無法供給外接電源設(shè)備,炮控系統(tǒng)啟動聲音難以避免的會受到發(fā)動機噪聲的覆蓋。圖2和圖3分別為車輛啟動供電和外接電源供電下的聲音樣本。能夠看出在車輛啟動噪聲下,炮控系統(tǒng)啟動聲音的時頻特征受到覆蓋,而外接電源供電下的辨識度較高。為較好的展示炮控系統(tǒng)的啟動過程,在圖3中對炮控系統(tǒng)啟動的各個階段進(jìn)行了標(biāo)識,定義a為靜音段,b為變流機啟動段,c為油泵電機啟動段,d為電磁離合器閉合聲音,e為電機擴(kuò)大機啟動段。
圖2 車輛啟動供電聲音樣本
圖3 外接電源供電聲音樣本
聲音事件識別在很多領(lǐng)域中都已經(jīng)有了較為成熟的應(yīng)用方案。然而炮控系統(tǒng)啟動過程的聲音識別存在一定的特殊性,難以直接采用現(xiàn)有的聲音識別方案,主要原因有以下幾點:
1)炮控系統(tǒng)啟動聲音受到持續(xù)的強噪聲覆蓋,這種背景噪聲遠(yuǎn)大于常見的環(huán)境噪聲,有效信號的信噪比極低,信號特征難以提取。
2)即使通過預(yù)加重與濾波降噪等方式減少噪聲干擾,各電機啟動段也存在短時能量與過零率區(qū)分度不足的情況,閾值也難以把握,無法實現(xiàn)準(zhǔn)確的端點檢測。
3)部組件啟動狀態(tài)識別是一種事件級識別,即識別出各部件是否按照一定順序上電工作,這與常見的聲音檢測目的存在一定的區(qū)別。
4)各部組件聲音具有多樣性,一方面電磁離合器閉合聲音表現(xiàn)為極短時間內(nèi)的一個高頻信號,而其他部件為持續(xù)性信號,若采用單一分類標(biāo)準(zhǔn)容易存在虛警和漏檢現(xiàn)象;另一方面變流機、油泵電機與電機擴(kuò)大機存在一個1~2 s的趨穩(wěn)過程,隨后進(jìn)入穩(wěn)定運行狀態(tài),單一標(biāo)簽內(nèi)的特征狀態(tài)往往呈現(xiàn)出一定的變化性,難以準(zhǔn)確劃分各階段的分界點。
因此,聲音信號的抑噪性能和合理的聲音識別策略是準(zhǔn)確識別各部組件啟動過程的關(guān)鍵。
譜減法降噪最早由boll提出,具有算法簡單、計算量小、實時性好的特點,因此成為聲音識別中最為常用的去噪方法之一。該方法的基本假設(shè)是將噪聲視為不相關(guān)的加性噪聲。假設(shè)車輛啟動噪聲信號d(t)線性疊加到炮控系統(tǒng)聲音樣本s(t)中,見式(1):
x(t)=s(t)+d(t)
(1)
通過計算含躁聲音信號的短時功率譜,可以按照式對含躁聲音樣本中的炮控系統(tǒng)啟動部分進(jìn)行估計。
(2)
由于噪聲信號的變化性,估計噪聲與有效噪聲會存在一定差異。利用基本譜減法估計車輛啟動噪聲,能夠在一定程度上保留炮控系統(tǒng)啟動的時頻特征,但當(dāng)實際噪聲信號大于平均值的時候,容易在處理樣本中出現(xiàn)殘差噪聲。這種殘差噪聲在聲音波形上表現(xiàn)為隨機性的尖峰凸起,聽覺上類似于音樂的起伏,因而被稱為音樂噪聲(Music Noise)。
為解決音樂噪聲帶來的負(fù)面影響,提高去噪樣本的信噪比,Berouti提出了一種帶參數(shù)的改進(jìn)譜減法。這種算法能夠?qū)⒃肼暪β首V中的過估計部分減去,并將得到的頻譜限制在一個預(yù)定的水平值以下,具體計算方法見式。
(3)
其中:α為相減因子(α≥1),β為頻譜下限閾值參數(shù)(0<β?1)。相減因子的加入有利于增強去噪效果,減少殘留噪聲,但過大的相減因子也會增加聲音樣本的失真度,需要在提高信噪比與降低失真度中找到一個較為合理的設(shè)置參數(shù)。通過調(diào)整下限閾值參數(shù)實際上是留給了殘留噪聲一個幅值區(qū)域,將小于這個下限值的部分統(tǒng)一設(shè)置為固定值,以此減小殘留噪聲峰值與0之間的差值幅度,緩解音樂噪聲的影響。
聲音去噪效果的評價方法包括主觀評價方法和客觀評價方法,主觀評價方法常用于語音增強應(yīng)用中,利用用戶對降噪后語音的實際感受進(jìn)行評分。聲音事件識別是為了將有效信號的時頻特征突出出來,不需要將去噪聲音返還給用戶,因此采用客觀評價方法來判斷實際去噪效果。
信噪比是衡量聲音降噪性能的常規(guī)方法,但是炮控系統(tǒng)啟動過程變化幅度較大,經(jīng)典信噪比的整體評價方法并不準(zhǔn)確,因此采用分段式信噪比(Segmental SNR, SegSNR)計算方法,定義見式(4):
(4)
其中:N為幀長。利用對每一幀信噪比進(jìn)行計算再求取平均的方法,能夠更好地評價聲音樣本的去噪質(zhì)量,一般SegSNR值越大,說明含躁信息越小,聲音波形也越接近外接電源下的炮控系統(tǒng)啟動聲音。
失真度LSD用來描述去噪前后聲音樣本的保留程度,LSD值越小表示降噪后的聲音樣本與純凈聲音樣本越接近,降噪質(zhì)量越好。LSD值越大表示對有效聲音的破壞越大,降噪質(zhì)量越差,定義見式。
(5)
以44.1 kHz采樣率分別對車輛啟動和炮控系統(tǒng)啟動聲音進(jìn)行采樣,通過時域疊加的方式構(gòu)造車輛啟動狀態(tài)下的炮控系統(tǒng)啟動聲音樣本,計算方法見式。
y(n)=s(n)+ad(n)
(6)
y(n)為構(gòu)造出來的含躁聲音樣本,s(n)為外接電源下炮控系統(tǒng)啟動聲音樣本,d(n)為車輛啟動噪聲,a為噪聲混合系數(shù)。樣本由相同環(huán)境條件下的實際采樣獲得,對譜減參數(shù)α和頻譜下限閾值參數(shù)β取值,觀察SegSNR與LSD變化,從而確定改進(jìn)譜減法參數(shù)的最佳取值。經(jīng)過試驗求得α=10,β=0.05時能夠較好的平衡信噪比與失真度。將原始信號分幀加窗預(yù)加重后的信號經(jīng)過改進(jìn)譜減法降噪后的波形對比如圖4所示。雖然與純凈信號相比存在了較大的失真度,但基本能夠體現(xiàn)出各階段特征的差異性,為特征提取與分類識別部分打下了基礎(chǔ)。
圖4 改進(jìn)譜減法降噪前后波形對比
聲音信號的常見特征參數(shù)有短時能量、短時過零率、線性預(yù)測倒譜系數(shù)等,其中MFCC模擬了人耳的感知效果,在有低頻噪聲干擾時具有較好的辨識度,具體計算步驟為:
1)信號預(yù)處理:預(yù)加重,分幀,加窗;
2)短時傅里葉變換,得到頻譜與幅度譜;
3)讓幅度譜通過Mel刻度濾波器;
4)對濾波輸出做對數(shù)運算,并通過離散化求得MFCC系數(shù)
其中Mel刻度濾波器由一組N個三角形帶通濾波器組成(N一般在20~30范圍內(nèi)取值),每個三角窗濾波器所覆蓋的范圍都近似于人耳的一個臨界帶寬,從而模擬出人耳的掩蔽效應(yīng)。Mel頻率與實際頻率的具體關(guān)系見式,實際頻率在1 kHz以下時呈近似的線性分布,1 kHz以上時呈對數(shù)型增長。
(7)
圖5展示了提取譜減降噪后的音頻信號的低8維MFCC,各種顏色代表了不同維數(shù)的特征參數(shù),其中橫坐標(biāo)代表采樣幀序列,縱坐標(biāo)代表振幅的對數(shù)運算結(jié)果,單位為分貝。
圖5 低8維MFCC特征參數(shù)
通過實地采集聲音樣本的方式建立坦克炮控系統(tǒng)啟動的聲音數(shù)據(jù)庫,其中單一樣本以車輛啟動前1~2 s的靜默段為起始,以電機擴(kuò)大機穩(wěn)定運行3~5 s后結(jié)束。音頻文件以wav格式保存,采樣頻率為44100 Hz,32 bit量化,單通道。根據(jù)炮控系統(tǒng)啟動時間的不同,各音頻文件長度在8~25 s范圍之間。
本文針對炮控系統(tǒng)啟動中變流機、油泵電機、電磁離合器、電機擴(kuò)大機的4個啟動過程進(jìn)行識別,具體實驗條件:1)軟件平臺:Matlab2016a;2)錄音設(shè)備:飛利浦 vtr8800錄音筆。
基于MFCC特征分析結(jié)果可以看出各部組件啟動過程在一定范圍內(nèi)具有較為明顯的區(qū)分,但單幀特征變化幅度較大,因此加入滑動窗口解決識別結(jié)果跳變的現(xiàn)象,經(jīng)過多次嘗試,窗口深度在200時識別效果較好,滑窗相關(guān)代碼如下:
win = 200; %窗口大小
step = 1; %滑動步長
p = predictLabels';
res = ' ';
for i = 1:step:length(p)-win
w = p(1,i:i+win-1);
res1 = res;
res = judege( w );
if ~strcmp(res1,res)
disp(res);
end
end
滑動校正前后對比結(jié)果如圖6所示,左側(cè)為單幀識別結(jié)果,右側(cè)為窗口深度200時的識別結(jié)果,跳變現(xiàn)象得到了明顯的改善。
圖6 加窗校正前后對比
由于電磁離合器為短時間內(nèi)的高頻聲音信號,因此該狀態(tài)的識別不適用于滑窗法。根據(jù)上述識別結(jié)果可以看出,滑窗校正后“電磁離合器閉合”完全消失于識別結(jié)果中,因此將電磁離合器閉合聲音的識別作為獨立部分進(jìn)行處理。經(jīng)過實驗分析,對于預(yù)加重、譜減降噪后的聲音,電磁離合器閉合聲音的短時能量特征具有極為明顯的區(qū)分度。因此設(shè)計采取多類型過程的識別策略,將SVM分類與短時能量檢測同步進(jìn)行,在短時能量到達(dá)閾值時輸出“電磁離合器閉合”的狀態(tài)信息。由于電機擴(kuò)大機狀態(tài)識別在滑動窗口下具備一定的時間延遲,因此不會影響到與電磁離合器閉合狀態(tài)識別的先后關(guān)系。具體識別流程如圖7所示。
圖7 識別流程
下一步利用實驗驗證該聲音識別算法性能,對降噪后的聲音樣本進(jìn)行MFCC特征提取,生成一個n×m矩陣,n為幀數(shù),m為特征維度。將MFCC作為輸入值進(jìn)行訓(xùn)練,其中每個幀都提前設(shè)定好類別標(biāo)簽0,1,2,3,4,分別對應(yīng)著設(shè)備未啟動、變流機啟動、油泵電機啟動、電磁離合器閉合、電機擴(kuò)大機啟動五個識別狀態(tài)。在訓(xùn)練過程中,先將幀序列打亂,然后抽取80%的數(shù)據(jù)作為訓(xùn)練樣本,剩下20%數(shù)據(jù)作為測試樣本。訓(xùn)練完畢后,將測試數(shù)據(jù)的分類結(jié)果與真實標(biāo)簽作對比得到識別率,如圖8所示,SVM分類器的單幀識別準(zhǔn)確率達(dá)86.44%。
圖8 SVM分類準(zhǔn)確率
該應(yīng)用中聲音識別的最終目的在于準(zhǔn)確識別出各部組件的啟動狀態(tài),因此除了驗證分類算法本身性能,還需要對實際應(yīng)用情況進(jìn)行一個定量評估。具體方法為從聲音庫中提取50個聲音樣本,逐個從單一樣本中抽取固定標(biāo)簽數(shù)量的隨機幀信號特征進(jìn)行訓(xùn)練,并用訓(xùn)練模型對包括該樣本在內(nèi)所有50個聲音樣本進(jìn)行識別,從總計2500次識別結(jié)果中計算準(zhǔn)確率。由于條件限制,聲音庫中的樣本全部都是在炮控系統(tǒng)正常上電工作情況下錄制的,因此輸出結(jié)果依次為“設(shè)備未啟動”“變流機啟動”“油泵電機啟動”“電磁離合器閉合”“電機擴(kuò)大機啟動”時,視為準(zhǔn)確識別。多、漏、次序不對的識別結(jié)果都視為識別失敗。經(jīng)實驗驗證,炮控系統(tǒng)各部組件啟動狀態(tài)識別的準(zhǔn)確率達(dá)92.4%,其中電磁離合器閉合與設(shè)備未啟動能夠做到全部準(zhǔn)確識別,但油泵電機與電機擴(kuò)大機之間還存在一定的誤識別現(xiàn)象。
針對車輛啟動噪聲影響維修人員聽覺判斷的問題,本文提出了一種基于改進(jìn)譜減法降噪和多類型識別策略的聲音識別算法,實現(xiàn)了對炮控系統(tǒng)中各主要聲音部組件的啟動狀態(tài)識別。該算法具有硬件要求低,實時性好,識別準(zhǔn)確率較高的優(yōu)點,為后續(xù)可穿戴維修輔助技術(shù)的應(yīng)用提供了一種設(shè)計思路。但由于條件受限,實驗僅對于正常啟動狀態(tài)的聲音樣本進(jìn)行了識別,缺少異常啟動樣本的驗證,同時聲音樣本來源為單一型號裝備,缺少一定的通用性擴(kuò)展。下一步需要進(jìn)一步擴(kuò)展聲音樣本庫信息,并協(xié)同課題進(jìn)度將聲音識別技術(shù)應(yīng)用于實際裝備維修中。