何家雄
摘要:文章介紹了車輛音頻信號特征參數(shù)的提取和循環(huán)神經(jīng)網(wǎng)絡(luò)識別算法,該方法為了優(yōu)化傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在輸入層中加入特征層,對模型結(jié)構(gòu)進(jìn)行改進(jìn)。通過對四種車型的音頻數(shù)據(jù)進(jìn)行處理的結(jié)果表明,該模型可以有效地識別不同車型,識別準(zhǔn)確率超過80%,可以達(dá)到基本識別要求。
關(guān)鍵詞:車型識別;聲音信號識別;特征提取;循環(huán)神經(jīng)網(wǎng)絡(luò)
0 引言
車型的自動識別技術(shù)[1]是智能交通系統(tǒng)(IntelligentTransportationSystem,ITS)構(gòu)成的關(guān)鍵技術(shù)之一,是道路交通監(jiān)控系統(tǒng)的重要研究領(lǐng)域。目前,車輛自動識別主要運(yùn)用紅外線、超聲波、聲表面波以及視頻圖像監(jiān)測等技術(shù)[2]。由于施工和安裝過程復(fù)雜、維護(hù)困難、主要設(shè)備易損壞、價格昂貴等因素,車型自動識別技術(shù)在我國未普及。
聲音是一種由物體發(fā)出的信息,該信息通過傳播介質(zhì)的傳播,最終被人體的聽覺器官感知。聲音可以看作為一種模擬信號,該信號可通過波形表示。聲音因其信息量豐富的特點而成為現(xiàn)代化信息處理技術(shù)的重要研究手段之一。車輛聲音信號就是車輛運(yùn)動過程中產(chǎn)生的噪聲。由于車輛在行駛過程中底盤、車身、變速器、發(fā)動機(jī)、傳動軸或者輪胎等都會發(fā)出聲音,因此車輛的聲音信號是一種多聲源機(jī)械噪聲[3]。車輛機(jī)械構(gòu)造的不同也就造成了車輛聲音信號的差異,因此車型識別可以根據(jù)車輛行駛過程中產(chǎn)生的噪聲信號實現(xiàn)。該方法成本較低,信息冗余量小,受外界的干擾少,近年來已成為國內(nèi)外研究的熱點。
本文提出了一種基于車輛聲音信號的車型識別方法,基于Matlab軟件平臺,采用梅爾倒譜系數(shù)算法提取聲音信號的特征,并應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)對不同車型進(jìn)行分類。
1 循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種常見的深度神經(jīng)網(wǎng)絡(luò)模型,與以往的神經(jīng)網(wǎng)絡(luò)模型相比,其既有前饋通路,又有反饋通路。RNN的網(wǎng)絡(luò)結(jié)構(gòu)由輸入層(InputLayer)、隱含層(HiddenLayer)和輸出層(OutputLayer)三部分構(gòu)成。循環(huán)神經(jīng)網(wǎng)絡(luò)的大致訓(xùn)練過程如下:首先,輸入信號W(t)經(jīng)過隱含層處理,然后,在輸出層中產(chǎn)生待預(yù)測結(jié)果的概率分布[4]在隱含層中的狀態(tài)S(t)中包含信號的歷史信息。輸入W(t)和上一時刻隱含層的輸出S(t-1)構(gòu)成網(wǎng)絡(luò)的輸入,通過W(t)和S(t-1)可以計算得到當(dāng)前隱含層的狀態(tài)S(t),將時刻W(t-1)的歷史S(t)也加入到網(wǎng)絡(luò)的訓(xùn)練過程中。隱含層不斷地循環(huán)使歷史信息在預(yù)測過程得到了充分利用。但是在循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的訓(xùn)練過程中,實際輸出和期望輸出之間有一定誤差,該誤差信號向后傳播至隱含層,并隨著時間的延長不斷地減弱,伴隨出現(xiàn)了梯度消失的問題,由此網(wǎng)絡(luò)對無限長距離歷史信息的學(xué)習(xí)能力受到了限制。
鑒于網(wǎng)絡(luò)的局限性,受到長距離歷史信息學(xué)習(xí)的限制,本文采用了一種旨在增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)長距離歷史信息能力的改進(jìn)型循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)是在傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上加入一個特征層(FeatureLayer),該特征層與隱含層和輸出層都相連,如圖1所示,圖1(b)為其網(wǎng)絡(luò)結(jié)構(gòu)。特征層f(t)表示額外的輸入,其包含有對原始輸入的補(bǔ)充信息。
隱含層和輸出層的計算公式見式(1)和式(2):
2 聲音信號特征參數(shù)提取
由于車型種類較多,而現(xiàn)階段的研究水平有限,本文對大卡車、公交車、小型轎車、摩托車四種類型的車進(jìn)行識別的研究。在車流量相對較少,背景環(huán)境較為安靜的條件下分別對四種車型行駛時的車輛噪聲進(jìn)行錄制,聲音樣本各為500個,量化位數(shù)為16位,采樣率為8kHZ,保存為.wav格式,方便Matlab軟件處理。
由于在車輛行駛過程中,人耳可以準(zhǔn)確地分辨其車型,因此本文選用模擬人耳機(jī)理的梅爾倒譜系數(shù)(Mel-scaleFrequencyCepstralCoefficient,MFCC),且與一般特征相比,MFCC具有更好的魯棒性[5]。MFCC特征參數(shù)提取的一般過程如圖2所示。
2.1 預(yù)加重
預(yù)加重處理是對聲音的高頻信號進(jìn)行加重,以增加聲音的高頻分辨率,使得提取的音頻頻譜更加平緩,提高信噪比。預(yù)加重過程一般通過系統(tǒng)函數(shù)為H(z)=1-μZ-1的一階有限長沖激響應(yīng)數(shù)字濾波器來實現(xiàn),式中μ為預(yù)加重系數(shù),該系數(shù)的典型取值為0.9375。
2.2 分幀加窗
聲音信號為時變信號,但可以看作短時間內(nèi)的平穩(wěn)信號[6],因此分幀的目的就是得到短時聲音信號。在MFCC特征提取過程中,音頻片段長度一般為20~30ms,而幀移為10~15ms的相互重疊的語音幀,本文設(shè)置幀長為25ms,幀移為10ms。加窗處理是為了消除音頻噪聲對音頻幀的影響,因此加窗處理通常是必需的過程。本文選用漢明窗(Hamming)作為窗函數(shù),減小頻譜能量的泄露,獲得較為平滑的頻譜特性。
2.3 特征提取
在提取MFCC特征的過程中,本文通過快速傅里葉變換(FastFourierTransformation,F(xiàn)FT)將音頻信號由時域空間轉(zhuǎn)化到頻域空間,得到聲音頻譜。在Mel頻率上設(shè)置L個通道的Mel濾波器組,令信號的線性幅度譜通過Mel濾波器,得到濾波器輸出Y(l)=∑h(l)k=o(l)Wl(k)|Xn(k)|,l=1,2,…,L。其中,濾波器頻率特性為:
將上述得到的MFCC作為靜態(tài)特征,進(jìn)行一階差分與二階差分,可得到動態(tài)特征。研究表明,最前面若干維及最后面若干維的MFCC對聲音的區(qū)分性能較大,本文取前12維MFCC。
3 實驗與結(jié)果分析
為驗證本文聲音識別模型的性能,通過實驗進(jìn)行了驗證。在Matlab軟件平臺采用上文提到的方法提取FMCC特征進(jìn)行對比實驗,首先進(jìn)行隱馬爾科夫模型的實驗,然后采用本文提出的加入特征層的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,取摩托車、小型轎車、公交車、大卡車四種車型的行駛噪聲,每種噪聲樣本為500,其中測試數(shù)據(jù)為200個,訓(xùn)練數(shù)據(jù)為300個。從語音數(shù)據(jù)中提取MFCC特征值。在提取特征值之前,首先要進(jìn)行預(yù)加重和分幀加窗處理。實驗中幀長設(shè)置為25ms,幀長重復(fù)部分為10ms。加窗處理使用Hamming。提取MFCC為12階,并提取其一階差分系數(shù)及二階差分系數(shù),每個系數(shù)取能量譜。實驗中,循環(huán)神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元為100個,類別層為100個。以上過程在Matlab軟件中實現(xiàn)。實驗結(jié)果如表1所示。
通過表1的結(jié)果表明,本文基于循環(huán)神經(jīng)網(wǎng)絡(luò)對車輛聲音信號進(jìn)行識別,該法識別效果高于隱馬爾模型,車型識別率均超過80%,可以使用本方法對車輛進(jìn)行簡單的分類,該方法與其他車型識別方法相比,具有識別率高、操作簡單等特點。
4 結(jié)語
綜上所述,本文提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的車型識別方法,通過車輛行駛噪聲辨認(rèn)不同車型。實驗結(jié)果證明,該方法可以對摩托車、小型轎車、公交車、大卡車四種車型的車輛進(jìn)行識別,識別效果優(yōu)于傳統(tǒng)的識別模型且操作簡單,同時驗證了基于聲音信號對車輛識別算法的可行性。
參考文獻(xiàn):
[1]錢志偉.智能交通系統(tǒng)中車型識別的研究與應(yīng)用[D].西安:西安電子科技大學(xué),2011.
[2]劉 波.車輛音頻特征分析及車型識別研究[D].武漢:武漢理工大學(xué),2007.
[3]周勇麟,李樹珉.汽車噪聲原理,檢測與控制[M].北京:中國環(huán)境科學(xué)出版社,1992.
[4]張 劍,屈 丹,李 真.基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J].模式識別與人工智能,2015,28(4):299-305.
[5]WangJC,WangJF,WenYS.Chipdesignofmelfrequencycepstralcoefficientsforspeechrecognition[C].InIEEEInternationalConferenceon,Acoustics,Speech,andSignalProcessing,2000.
[6]王炳錫,屈 丹.實用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005.