亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)的交通聲音事件識別方法

2018-07-27 06:50:48張文濤瑩瑩黎恒

現(xiàn)代電子技術(shù) 2018年14期

張文濤瑩瑩黎恒

摘要：針對公路交通聲音事件識別中傳統(tǒng)語音算法識別效率低、魯棒性差的問題，提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的交通聲音事件識別方法。首先通過Gammatone濾波器對聲音數(shù)字信號進(jìn)行子帶濾波，得到音頻信號耳蝸譜圖，然后將其代入卷積神經(jīng)網(wǎng)絡(luò)模型對聲音事件類型進(jìn)行識別。利用上述方法對公路交通環(huán)境下的四種音頻事件做了檢測處理，并與經(jīng)典的隱馬爾科夫模型和目前廣泛使用的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行比較。實驗結(jié)果表明，使用卷積神經(jīng)網(wǎng)絡(luò)模型能夠更加準(zhǔn)確地對交通聲音事件進(jìn)行識別，且在噪聲環(huán)境下具有更好的魯棒性。

關(guān)鍵詞： Gammatone濾波器；卷積神經(jīng)網(wǎng)絡(luò)；音頻事件識別；公路交通環(huán)境；聲音數(shù)字信號；子帶濾波

中圖分類號： TN912.3?34 文獻(xiàn)標(biāo)識碼： A 文章編號： 1004?373X（2018）14?0070?04

Traffic sound event recognition method based on convolutional neural network

ZHANG Wentao1，2， HAN Yingying1，2，3， LI Heng3

（1. School of Electronic Engineering and Automation， Guilin University of Electronic Technology， Guilin 541004， China；

2. Key Laboratory of Optoelectronic Information Processing， Guilin 541004， China； 3. Guangxi Transportation Research Institute， Nanning 530000， China）

Abstract： In allusion to the problems of low recognition rate and poor robustness of the traditional acoustic algorithm in road traffic sound event recognition， a traffic sound event recognition method based on convolutional neural network is proposed. The sub?band filtering of sound digital signals is performed by using the Gammatone filter， so as to obtain the cochleogram of audio signals， which is then substituted into the convolutional neural network model for recognition of the sound event type. Four audio events in road traffic environment are detected by using the above method， and the results are compared with those of the classic hidden Markov model and deep neural network widely used at present. The experimental results show that the convolutional neural network model can recognize the traffic sound event more accurately， and has better robustness in noisy environment.

Keywords： Gammatone filter； convolutional neural network； audio event recognition； road traffic environment； sound digital signal； sub?band filtering

0 引言

隨著我國交通事業(yè)高速發(fā)展，對道路監(jiān)控和信息處理分析提出了更高的要求。目前，國內(nèi)外道路交通事件檢測技術(shù)主要以視頻為手段，依賴于視頻采集的質(zhì)量，技術(shù)難度大，生產(chǎn)成本高且受環(huán)境因素影響大。聲音是人類信息的重要來源，而且其方便采集，檢測范圍廣。聲音事件識別已應(yīng)用于環(huán)境安全監(jiān)控、場景分析、證據(jù)提取、聲源定位和突發(fā)事件檢測等領(lǐng)域，且發(fā)揮著重要作用。

目前，對于聲音事件識別一些學(xué)者已經(jīng)做出一些研究[1?3]。McLoughlin等提出基于聲譜圖的前端特征并結(jié)合支持向量機（Support Vector Machine，SVM）[1]和深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）對聲音事件進(jìn)行分類。Kucukbay等提出使用梅爾頻率倒譜系數(shù)（Mel?Frequency Cepstral Coefficients，MFCC）[2]和SVM分類器結(jié)合5?折交叉驗證方法識別辦公環(huán)境中的16種聲音。Diment等提出基于隱馬爾科夫模型（Hidden Markov Model，HMM）的聲音事件檢測系統(tǒng)[3]，對辦公環(huán)境下的聲學(xué)場景和事件進(jìn)行分類檢測。

以上研究在聲音事件識別中都取得了一定成效。但傳統(tǒng)的SVM算法在大規(guī)模訓(xùn)練樣本和多分類問題上難以實現(xiàn)。DNN模型又存在參數(shù)數(shù)量膨脹、學(xué)習(xí)時間過長等問題。且在真實的公路交通環(huán)境中存在復(fù)雜多變的噪聲，公路隧道中甚至出現(xiàn)聲音反射和回響，對聲音事件識別產(chǎn)生較大干擾。因此針對公路交通環(huán)境需要找出一種新的識別方法。Ossama等人首次將卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）應(yīng)用于語音識別中[4]，與DNN模型相比識別率取得明顯改善。本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于公路交通聲音事件識別。針對擁堵、事故等公路事件，利用卷積神經(jīng)網(wǎng)絡(luò)對車輛碰撞聲、汽車鳴笛、人員呼救和車門關(guān)閉四種聲音進(jìn)行分類，從而判斷發(fā)生的對應(yīng)事件。

1 基于Gammatone濾波器的耳蝸譜圖提取

人耳可以準(zhǔn)確地對公路交通環(huán)境聲音事件進(jìn)行判斷。在人類聽覺系統(tǒng)中，聲音信號經(jīng)過耳蝸基底膜的頻帶分解作用后，沿聽覺通路進(jìn)入大腦聽覺中樞神經(jīng)系統(tǒng)。耳蝸譜圖特征仿照人耳感知聲音的過程，是常用的時頻二維圖像特征表示方法。本文使用Gammatone濾波器組來模擬耳蝸模型，實現(xiàn)子帶濾波，最終得到耳蝸譜圖。Gammatone濾波器是一個標(biāo)準(zhǔn)的耳蝸聽覺濾波器，其時域脈沖響應(yīng)為[5]：

[g（f，t）=Atn-1e-2πbtcos（2πft+φ）U（t）， t≥0] （1）

式中：[A]為濾波器增益；[i]表示第[i]個濾波器；[f]為中心頻率；[φ]為相位，本文取[φi=0]；[n]為濾波器階數(shù)；[b]是衰減因子，該因子決定相應(yīng)的濾波器的帶寬[b=1.019ERB（f）]，[ERB（f）]是等效矩形帶寬，它與中心頻率[f]的關(guān)系為：

[ERB（f）=24.7（4.37f100+1）] （2）

本文采用一組64個4階Gammatone濾波器，其中心頻率在350～4 000 Hz之間。Gammatone濾波器會保留原有的采樣率，因此在時間維度上設(shè)置響應(yīng)頻率為 100 Hz，將產(chǎn)生10 ms的幀移，可用于短時聲音特征提取。當(dāng)聲音信號通過Gammatone濾波器時，輸出信號的響應(yīng)[Gm（i）]的表達(dá)式如下：

[Gm（i）= g（i，m）]12，i=0，1，2，…，N；m=0，1，2，…，M-1] （3）

式中：[N]為通道數(shù)；[M]為采樣后的幀數(shù)。

[Gm（i）]構(gòu)成代表輸入聲音信號頻域上分布變化的矩陣，本文采用耳蝸譜圖來描述信號頻域分布變化。與語譜圖相比，耳蝸譜圖的物理意義更明確，具有更高的低頻分辨率，因此在聲音識別領(lǐng)域更具應(yīng)用價值[6]。綜上所述，本文采用耳蝸譜作為樣本進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練與測試。

2 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)[7]最初由Yann LeCun等人提出，應(yīng)用于簡單的手寫字符識別，逐漸擴展到人臉檢測[8]、動作識別[9]和標(biāo)志識別[10]等領(lǐng)域。近幾年，卷積神經(jīng)網(wǎng)絡(luò)作為具有優(yōu)秀深度學(xué)習(xí)能力的深層網(wǎng)絡(luò)結(jié)構(gòu)，被應(yīng)用于聲音識別領(lǐng)域。

卷積神經(jīng)網(wǎng)絡(luò)是一種多層神經(jīng)網(wǎng)絡(luò)，數(shù)據(jù)以特征圖的形式輸入網(wǎng)絡(luò)，然后依次進(jìn)行卷積與池化處理，具體過程在相應(yīng)的卷積層與池化層完成，層與層之間采用局部連接和權(quán)值共享的方式。

在卷積層中，輸入的特征圖被一個可學(xué)習(xí)的卷積核進(jìn)行卷積。卷積操作公式如下：

[xlk=fi∈Wkxl-1i?Hli，k+blk] （4）

式中：[xlk]代表[l]層的第[k]個特征圖；[Wk]代表[l-1]層的第[k]個特征圖；[Hli，k]表示第[l]層第[i]個特征圖的第[k]個卷積核；[blk]為偏置項；[f]是激活函數(shù)；“[?]”代表卷積符號。激活函數(shù)一般采用 relu，tanh等飽和非線性函數(shù)。所有的輸入特征圖經(jīng)卷積操作后輸出一定數(shù)量的新特征圖。新特征圖的數(shù)量由卷積層中卷積濾波器數(shù)目決定。

經(jīng)卷積層后得到的新特征圖進(jìn)入池化層進(jìn)行池化操作。一方面使特征圖變小，簡化網(wǎng)絡(luò)計算復(fù)雜度；另一方面進(jìn)行特征壓縮，提取主要特征。池化層的一般形式如下：

[xlk=f（βlkdown（xl-1k）+blk）] （5）

式中：[down（·）]代表池化層；[xlk]代表[l]層的第[k]個特征圖；[βlk]與[blk]為偏置項。如果分割成若干個a×a的區(qū)域，那輸出圖片的尺寸在不同維度上都是輸入圖片的[1n]。

3 實驗與分析

3.1 實驗性能評價指標(biāo)

根據(jù)CLEAR 2007測評[11]，本文使用三個指標(biāo)評估所提出的方法：準(zhǔn)確率（Precision Rate，P）、召回率（Recall Rate，R）和F?值（F?Measure，F(xiàn)）。準(zhǔn)確率表明方法的查準(zhǔn)率，召回率表明方法的查全率，F(xiàn)?值為準(zhǔn)確率和召回率的調(diào)和平均值，計算公式分別為：

[P=te， R=tg， F=2PRP+R] （6）

式中：t表示正確檢測的聲音事件數(shù)；e表示輸出的聲音事件總數(shù)；g表示標(biāo)注的聲音事件總數(shù)。

3.2 實驗數(shù)據(jù)采集

本實驗在真實公路交通環(huán)境下，使用模擬聲級計配合麥克風(fēng)陣列，分別在20 dB，10 dB，0 dB三種信噪比下對音頻數(shù)據(jù)進(jìn)行采集，采樣頻率為8 kHz。表1中總結(jié)了每種事件類別的統(tǒng)計數(shù)據(jù)，共有86 400段，每種聲音片段長度為1～3 s。

按照第1節(jié)中提到的方法提取耳蝸譜。抽取每種聲音耳蝸譜中的[34]作為訓(xùn)練集，剩下的[14]為測試集。并對每種聲音的種類進(jìn)行標(biāo)注。本文將撞車聲、汽車鳴笛、人員呼救和車門關(guān)閉四種音頻信號作為目標(biāo)聲音事件，因為這些聲音事件的出現(xiàn)一般意味著發(fā)生交通事故或擁堵。其余兩種聲音事件作為干擾聲。

3.3 卷積神經(jīng)網(wǎng)絡(luò)模型建立

為了研究基于卷積神經(jīng)的交通聲音事件識別模型性能，首先需要建立卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)確定的過程包括建立模型、訓(xùn)練模型和測試模型三部分。實驗使用Matlab的Parallel Computing Toolbox工具箱和 Neural Network Toolbox工具箱創(chuàng)建和訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)?；赑ascal GP104核心的NVIDIA GTX1080搭建訓(xùn)練平臺，使用GPU陣列進(jìn)行計算。

圖1所示為基于卷積神經(jīng)網(wǎng)絡(luò)的聲音事件識別流程圖，包括訓(xùn)練過程與測試過程。訓(xùn)練過程中，利用隨機分布函數(shù)對卷積核和權(quán)重進(jìn)行隨機初始化，而對偏置進(jìn)行全0初始化。為了加快訓(xùn)練過程則使用標(biāo)準(zhǔn)的梯度下降算法調(diào)整權(quán)值與閾值。

通過網(wǎng)絡(luò)前向傳播和反向傳播反復(fù)交叉處理的方式來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，直到代價函數(shù)小于0.01為止。

3.4 基于CNN的交通聲音事件識別方法

本文針對公路交通環(huán)境下聲音信號的特殊性，選取網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示，包含2個卷積層、2個池化層、2個歸一化層和3個全連接層。

1）輸入層。本文將耳蝸譜圖作為特征圖輸入。輸入之前先對耳蝸譜圖進(jìn)行預(yù)處理，預(yù)處理過程包括平滑和裁剪，把耳蝸譜圖處理成32×32的圖像。

2）卷積層。卷積層為特征提取層。均使用3×3的卷積核對輸入圖像進(jìn)行卷積，C1卷積核個數(shù)為10，卷積移動步長為1，為保證充分提取耳蝸譜圖的特征，激活函數(shù)使用tanh函數(shù)。

3）池化層。卷積層后加入池化層可降低體征維數(shù)，避免過擬合。本文采用最大池化方式，池化域大小均為2×2。

4）歸一化層。在下一個卷積層前加入歸一化層，對局部做減和除歸一化，迫使相鄰特征進(jìn)行局部競爭。保證性能的穩(wěn)定性，并提取耳蝸譜的低階和高階統(tǒng)計特征。

5）輸出層。通過Softmax回歸算法將特征映射到目標(biāo)的四個分類。Softmax是Logistic回歸在多分類問題上的推廣。在Softmax回歸函數(shù)中[y=j]的概率為：

[p（y=jx；θ）=eθTjxl=1keθTjx] （7）

式中：[θ]表示全部的模型參數(shù)；[x]為輸入；[y]為輸出；[j]代表類別。

3.5 實驗結(jié)果對比與分析

將20 dB，10 dB，0 dB三種不同信噪比下的實驗樣本分別代入第3.4節(jié)確定CNN模型進(jìn)行訓(xùn)練與測試實驗，并與經(jīng)典HMM模型[12]和目前得到廣泛應(yīng)用的DNN模型進(jìn)行對比。實驗結(jié)果如表2～表4所示。

從3個表中可以看出，在3種不同信噪比情況下，對于車輛碰撞聲、汽車鳴笛、人員呼救和車門關(guān)閉四種聲音識別，CNN模型與DNN模型的指標(biāo)均明顯高于HMM模型，且CNN模型的識別率可達(dá)到99.3%，召回率可達(dá)100%。信噪比發(fā)生變化時，CNN模型的平均F?值相比其他兩種模型所受影響最小。在0 dB的情況下，識別率突破90%。由此可以得出，相比于其他兩種模型，卷積神經(jīng)網(wǎng)絡(luò)模型可以更加準(zhǔn)確地對公路交通環(huán)境下的聲音事件進(jìn)行識別且魯棒性更好。

4 結(jié) 論

本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到公路交通環(huán)境聲音識別中。先將聲音信號經(jīng)Gammatone濾波器轉(zhuǎn)化為耳蝸譜圖，后把耳蝸譜圖輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識別。并與經(jīng)典隱馬爾科夫模型和廣泛使用的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行了對比，基于卷積神經(jīng)網(wǎng)絡(luò)的方法在識別性與魯棒性上有明顯提高。在后續(xù)研究中，將繼續(xù)優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，進(jìn)一步對混合聲音事件進(jìn)行識別。

參考文獻(xiàn)

[1] MCLOUGHLIN I， ZHANG H， XIE Z， et al. Robust sound event classification using deep neural networks [J]. IEEE/ACM transactions on audio， speech， and language processing， 2015， 23（3）： 540?552.

[2] KUCUKBAY S E， SERT M. Audio?based event detection in office live environments using optimized MFCC?SVM approach [C]// Proceedings of IEEE International Conference on Semantic Computing. Anaheim： IEEE， 2015： 475?480.

[3] DIMENT A， HEITTOLA T， VIRTANEN T. Sound event detection for office live and office synthetic AASP challenge [J/OL]. [2013?12?01]. http：//citeseerx.ist.psu.edu/viewdoc/download？doi=10.1.1.706.807&rep;=rep1&type;=pdf.

[4] ABDEL?HAMID O， MOHAMED A， JIANG H， et al. Applying convolutional neural networks concepts to hybrid NN?HMM model for speech recognition [C]// Proceedings of IEEE International Conference on Acoustics， Speech and Signal Processing. Kyoto： IEEE， 2012： 4277?4280.

[5] LU B， DIBAZAR A， BERGER T W. Noise?robust acoustic signature recognition using nonlinear Hebbian learning [J]. Neural networks， 2010， 23（10）： 1252?1263.

[6] TJANDRA A， SAKTI S， NEUBIG G， et al. Combination of two?dimensional cochleogram and spectrogram features for deep learning?based ASR [C]// Proceedings of IEEE International Conference on Acoustics， Speech and Signal Processing. Brisbane： IEEE， 2015： 4525?4529.

[7] LECUN Y， BOSER B， DENKER J S， et al. Backpropagation applied to handwritten zip code recognition [J]. Neural computation， 1989， 1（4）： 541?551.

[8] 汪濟(jì)民，陸建峰.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉性別識別[J].現(xiàn)代電子技術(shù)，2015，38（7）：81?84.

WANG Jimin， LU Jianfeng. Face gender recognition based on convolutional neural network [J]. Modern electronics technique， 2015， 38（7）： 81?84.

[9] JI S， XU W， YANG M， et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis and machine intelligence， 2013， 35（1）： 221?231.

[10] 黃琳，張尤賽.應(yīng)用深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識別[J].現(xiàn)代電子技術(shù)，2015，38（13）：101?106.

HUANG Lin，ZHANG Yousai. Traffic signs recognition applying with deep?layer convolution neural network [J]. Modern electronics technique，2015， 38（13）： 101?106.

[11] TEMKO A， NADEU C， MACHO D， et al. Acoustic event detection and classification [M]// WAIBEL A， STIEFELHAGEN R. Computers in the human interaction loop. Berlin： Springer， 2009： 61?73.

[12] TEMKO A， MALKIN R， ZIEGER C， et al. CLEAR evaluation of acoustic event detection and classification systems [C]// Proceedings of the 1st international evaluation conference on classification of events， activities and relationships. Berlin： Springer， 2006： 311?322.