陰法明,王詩佳,趙力
DeepESC網(wǎng)絡(luò)的環(huán)境聲分類方法研究
陰法明1,王詩佳2,趙力2
(1. 南京信息職業(yè)技術(shù)學(xué)院通信學(xué)院,江蘇南京 210023;2. 東南大學(xué)信息科學(xué)與工程學(xué)院,江蘇南京 210096)
為進(jìn)一步提升環(huán)境聲分類的識(shí)別率,提出了一種仿深度隱藏身份特征 (Deep Hidden Identity Feature, DeepID)網(wǎng)絡(luò)連接方式的卷積神經(jīng)網(wǎng)絡(luò)——深度環(huán)境聲分類網(wǎng)絡(luò)(Deep Environment Sound Classification, DeepESC)。DeepESC網(wǎng)絡(luò)共有六層——三層卷積層、兩層全連層以及一層聚合層,為使網(wǎng)絡(luò)在自動(dòng)抽取高層次特征的同時(shí)能有效地兼顧低層次特征,網(wǎng)絡(luò)將三層卷積層的輸出聚合為一層,該層充分包含不同層次的特征,提升了卷積神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力。ESC-10和ESC-50數(shù)據(jù)集上的仿真結(jié)果表明:在相同的識(shí)別框架下,與隨機(jī)森林分類器相比,本文網(wǎng)絡(luò)識(shí)別率分別平均提升了7.6%和22.4%,與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比,識(shí)別率分別平均提升4%和2%,仿真實(shí)驗(yàn)驗(yàn)證了本文分類器的有效性。
卷積神經(jīng)網(wǎng)絡(luò);環(huán)境聲分類;DeepID網(wǎng)絡(luò)
由于鏡頭角度固定、光線偏弱等原因,傳統(tǒng)的人工視覺系統(tǒng)領(lǐng)域的監(jiān)控系統(tǒng)的性能受到較多限制,而基于環(huán)境聲的系統(tǒng)往往能夠穩(wěn)定工作,彌補(bǔ)視覺監(jiān)控系統(tǒng)的不足。在環(huán)境聲的系統(tǒng)中,環(huán)境聲識(shí)別是研究的重點(diǎn),開展針對(duì)環(huán)境聲識(shí)別的研究具有較強(qiáng)的實(shí)際意義。
在環(huán)境聲分類中,分類器的選擇在一定程度上決定了系統(tǒng)的性能,因此,國內(nèi)外學(xué)者針對(duì)該問題進(jìn)行了大量的研究。在以往的研究中,通常以隨機(jī)森林(Random Forest)[1]、支持向量機(jī)(Support Vector Machine, SVM)[2]和高斯混合模型(Gaussian Mixed Model, GMM)[2]作為主流分類器進(jìn)行識(shí)別。盡管這些傳統(tǒng)的分類器已經(jīng)取得了一定的效果,但離人們的期望仍有一定的差距。
在環(huán)境聲識(shí)別領(lǐng)域,一些研究者嘗試卷積神經(jīng)網(wǎng)絡(luò)算法(Convolutional Neural Networks, CNN)[3-5],并取得一定的成果。比如,具有獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)和特征提取算法的DeepID網(wǎng)絡(luò)[4],在人臉識(shí)別領(lǐng)域達(dá)到了99%的成功率。但環(huán)境聲分類問題不同于人臉識(shí)別,環(huán)境聲片段是一維的時(shí)間序列數(shù)據(jù),而人臉圖像則是具有特殊拓?fù)浣Y(jié)構(gòu)的二維數(shù)據(jù),因此,DeepID網(wǎng)絡(luò)并不能直接應(yīng)用于環(huán)境聲分類問題。基于此,本文首先將一維的環(huán)境聲數(shù)據(jù)轉(zhuǎn)換為二維的梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC)圖像,并使用卷積神經(jīng)網(wǎng)絡(luò)作為分類器,采用DeepID特有的網(wǎng)絡(luò)連接方式組織網(wǎng)絡(luò),從而構(gòu)建了可以直接用于環(huán)境聲分類的DeepESC網(wǎng)絡(luò)。此外,傳統(tǒng)的聲音事件特征以MFCC為主[6-7],為進(jìn)一步挖掘MFCC內(nèi)在特征,發(fā)揮圖像的多通道優(yōu)勢,本文在MFCC圖像的基礎(chǔ)上,提取出MFCC的1階至5階差分特征,再加上原MFCC圖像,總共形成6通道圖像特征,構(gòu)成最終的輸入特征。數(shù)據(jù)集ESC-10和ESC-50上的仿真實(shí)驗(yàn)驗(yàn)證了本文模型的有效性。
一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)由輸入層、若干卷積層和池化層、少量的全連層和最后一層輸出層(分類器)組成。卷積層和池化層一般交替出現(xiàn)。卷積層的作用是提取圖像的特征;池化層的作用是對(duì)特征圖進(jìn)行壓縮,降低計(jì)算復(fù)雜度,提高特征提取的魯棒性。卷積層和池化層一般交替出現(xiàn)在網(wǎng)絡(luò)中,全連接層負(fù)責(zé)把提取的特征圖連接起來,最后通過分類器得到最終的分類結(jié)果。一張?zhí)卣鲌D中的所有元素都是通過一個(gè)卷積核計(jì)算得出的,也即一張?zhí)卣鲌D共享了相同的權(quán)重和偏置項(xiàng)。這一結(jié)構(gòu)使得卷積神經(jīng)網(wǎng)絡(luò)能夠利用輸入數(shù)據(jù)的二維結(jié)構(gòu)。與其他深度學(xué)習(xí)結(jié)構(gòu)相比,卷積神經(jīng)網(wǎng)絡(luò)在圖像和語音識(shí)別方面能夠給出更好的結(jié)果。
卷積神經(jīng)網(wǎng)絡(luò)的低層卷積層所抽取的特征,往往是局部的,高層卷積層抽取的特征源于低層卷積層的輸出,層數(shù)越高學(xué)到的特征就越全局化。在實(shí)際應(yīng)用中,往往使用多層卷積,然后再使用全連接層進(jìn)行訓(xùn)練[7]。
DeepID網(wǎng)絡(luò)包括8層網(wǎng)絡(luò)結(jié)構(gòu):4個(gè)卷積層,3個(gè)池化層,1個(gè)全連接層。全連接得到的是160特征向量,最后根據(jù)160維向量進(jìn)行SVM或者Softmax分類。為了克服多層卷積導(dǎo)致的局部特征丟失的問題,DeepID網(wǎng)絡(luò)3個(gè)池化層的輸出與第4個(gè)卷積層的輸出連接后傳播至全連接層,使得網(wǎng)絡(luò)既能利用局部特征,又能利用全局特征。
環(huán)境聲片段的MFCC圖像與傳統(tǒng)圖像相比,僅有單通道,像素級(jí)的信息相對(duì)較少,并且局部相關(guān)性強(qiáng)。傳統(tǒng)CNN的各卷積層在逐層細(xì)化提取圖像特征的同時(shí),也在丟失粗粒度、低層次的特征,這使得原本像素信息相對(duì)較少的MFCC圖像在CNN網(wǎng)絡(luò)中最頂層的信息維度偏低。
通過把前三層卷積層所提取出的特征圖互相連接在一起,可以得到新的特征圖。但由于三層卷積層的特征圖具有不同的維度,因此按式(2)將特征圖展開為一維特征:
其中,,表示第層卷積核的尺寸,和分別表示像素索引,表示特征圖的通道數(shù)。
再將展平的各層特征圖連接,得到最終的融合特征圖:
從式(3)可知,所有卷積層提取所得的特征圖融合在一起獲得了,最終作為融合特征輸入DeepESC的全連層進(jìn)行分類識(shí)別。DeepESC的網(wǎng)絡(luò)結(jié)構(gòu)見圖1,各層參數(shù)如表1所示。
表1 DeepESC網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
由于本文所用數(shù)據(jù)量較小,且DeepESC網(wǎng)絡(luò)層數(shù)較多,在訓(xùn)練過程中產(chǎn)生了較強(qiáng)的過擬合現(xiàn)象。為對(duì)抗過擬合,本文采用Dropout算法[8],根據(jù)卷積層以及全連層的過擬合程度不同,分別對(duì)全連接層、DeepESC卷積層進(jìn)行比例為0.5和0.2的Dropout算法處理。
本文采用公開數(shù)據(jù)集ESC-10以及ESC-50[9]。ESC-50數(shù)據(jù)集是2 000個(gè)環(huán)境音頻樣本集合,每個(gè)樣本長度是5 s,共50類聲音,采樣率為44.1 kHz,適用于環(huán)境聲音分類算法測試。ESC-10數(shù)據(jù)集是ESC-50的子數(shù)據(jù)集,包含10個(gè)類別,每個(gè)類別40個(gè)樣本,共400個(gè)環(huán)境聲樣本,總時(shí)長為33 min。
神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)過擬合現(xiàn)象,因此需要更多的訓(xùn)練數(shù)據(jù)。本文采用了文獻(xiàn)[10]和文獻(xiàn)[11]中的方法,根據(jù)環(huán)境聲數(shù)據(jù)的類別,對(duì)樣本進(jìn)行不同程度的移調(diào)和時(shí)間伸縮,以此擴(kuò)充數(shù)據(jù)集。由此,ESC-10數(shù)據(jù)集被擴(kuò)大了10倍,ESC-50數(shù)據(jù)集被擴(kuò)大了4倍。進(jìn)行數(shù)據(jù)擴(kuò)充后的ESC-10和ESC-50數(shù)據(jù)集被用于提取梅爾頻譜特征,并進(jìn)行分段形成最終的樣本集合。ESC-10數(shù)據(jù)集最終共包含1500個(gè)樣本,ESC-50則含有7 200個(gè)樣本。
預(yù)處理及特征提取:為提高算法的有效性,首先通過端點(diǎn)檢測去除樣本語音的靜默片段。然后以22.050 kHz的頻率對(duì)樣本進(jìn)行重采樣,對(duì)樣本分幀并計(jì)算快速傅里葉變換(Fast Fourier Transform, FFT),其中,F(xiàn)FT點(diǎn)數(shù)為512,幀重疊率為50%。之后,使用60個(gè)子帶濾波器組成梅爾濾波器組,計(jì)算得到梅爾頻譜,并將其分為等長的若干段,段重疊率為50%,以段作為單元進(jìn)行識(shí)別。每段共41幀,時(shí)長約930 ms。在梅爾頻譜圖像基礎(chǔ)上,利用Librosa軟件包[12]提取其1階至5階的差分特征,最終構(gòu)成6通道的圖像輸入特征。
訓(xùn)練網(wǎng)絡(luò):本文采用目前流行的深度學(xué)習(xí)框架Caffe搭建訓(xùn)練網(wǎng)絡(luò)[13]。在深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)中超參數(shù)的選擇對(duì)網(wǎng)絡(luò)的訓(xùn)練乃至最后網(wǎng)絡(luò)的收斂狀態(tài)有著極大的影響[14]。目前,只能通過啟發(fā)式搜索來尋找一個(gè)較優(yōu)解[15]的方式選擇網(wǎng)絡(luò)的超參數(shù)。通過多次實(shí)驗(yàn)與比較,最終確定的網(wǎng)絡(luò)超參數(shù)見表2。
對(duì)比分類器及其參數(shù):(1) 隨機(jī)森林分類器,最大深度為6,最大估計(jì)量為100[9];(2) CNN,兩層卷積層,卷積核尺寸分別為(57, 6)和(1, 3),后接池化層的池化核尺寸均為(2, 2),最后為兩層具有5 000個(gè)神經(jīng)元的全連層[16];(3) DNN,共5層神經(jīng)元數(shù)目為384的全連層,Dropout比率為0.5[17]
評(píng)估標(biāo)準(zhǔn):環(huán)境聲識(shí)別中,以國際上通用的準(zhǔn)確率作為評(píng)估指標(biāo)。
表2 訓(xùn)練超參數(shù)表
本文模型最終的分類準(zhǔn)確率通過五折交叉驗(yàn)證得到,其中,每份驗(yàn)證集中均不包含擴(kuò)充數(shù)據(jù)集中的音頻片段,只包含原始的音頻片段,擴(kuò)充的環(huán)境聲片段只用于訓(xùn)練網(wǎng)絡(luò)。
為使模型評(píng)估更具對(duì)比度,在相同特征的基礎(chǔ)上(MFCC),將DeepESC網(wǎng)絡(luò)與隨機(jī)森林(Random Forests)分類器以及傳統(tǒng)CNN分類器[16],在相同數(shù)據(jù)集ESC-10和ESC-50上進(jìn)行了比較。此外,為了對(duì)比卷積層提取特征的作用,本文構(gòu)建了一個(gè)5層深層神經(jīng)網(wǎng)絡(luò),并在ESC數(shù)據(jù)集上訓(xùn)練測試。
表3給出了4種分類器在ESC-10數(shù)據(jù)集和ESC-50數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。與隨機(jī)森林分類器相比,在2個(gè)數(shù)據(jù)集上,DeepESC分別提升了7.6%,22.4%,卷積神經(jīng)網(wǎng)絡(luò)在環(huán)境聲分類問題上所表現(xiàn)出的性能優(yōu)于傳統(tǒng)分類器;與DNN相比,DeepESC網(wǎng)絡(luò)的識(shí)別率分別提升了17.5%,23.6%。由于具有卷積層,因此DeepESC網(wǎng)絡(luò)識(shí)別率屬于深層神經(jīng)網(wǎng)絡(luò)CNN,卷積神經(jīng)網(wǎng)絡(luò)由于具有局部區(qū)域連接、權(quán)值共享、降采樣的結(jié)構(gòu)特點(diǎn),使其在圖像處理和語音識(shí)別領(lǐng)域表現(xiàn)出色。與傳統(tǒng)CNN相比,DeepID網(wǎng)絡(luò)通過連接各個(gè)卷積層的輸出,融合了多個(gè)層次的特征,從而能更大程度上地保留特征信息[19]。而本文在DeepID網(wǎng)絡(luò)的基礎(chǔ)上增加兩層全連層構(gòu)成DeepESC網(wǎng)絡(luò),該結(jié)構(gòu)能保留不同維度的信息,并增加Softmax層,使得DeepESC能直接對(duì)環(huán)境聲進(jìn)行分類,改變了DeepID僅提取特征而不進(jìn)行分類的模式。因此,DeepESC較傳統(tǒng)CNN識(shí)別率分別提高了4%和2%。
表3 不同分類器的識(shí)別率對(duì)比
從整體的計(jì)算復(fù)雜度和空間復(fù)雜度來看,DNN的空間復(fù)雜度約為106的量級(jí),卷積網(wǎng)絡(luò)則為107,DeepESC也同樣為107。在同樣使用GPU計(jì)算的情況下,三種神經(jīng)網(wǎng)絡(luò)的前向推理所耗費(fèi)的時(shí)間基本相同,都為10 ms左右。可見,在犧牲了一定的存儲(chǔ)空間下,DeepESC通過增加網(wǎng)絡(luò)容量,提高了識(shí)別的精度。
本文嘗試?yán)镁矸e神經(jīng)網(wǎng)絡(luò)解決環(huán)境聲分類問題,并取得了優(yōu)于傳統(tǒng)模型的識(shí)別率,從而證明了卷積神經(jīng)網(wǎng)絡(luò)對(duì)環(huán)境聲分類的可行性。此外,在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過參考DeepID的特殊網(wǎng)絡(luò)連接方式,構(gòu)建適用于環(huán)境聲分類的DeepESC網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,DeepESC網(wǎng)絡(luò)以特殊的網(wǎng)絡(luò)連接方式獲取了更多層次的特征,并且由此達(dá)到比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)更高的分類識(shí)別率,在環(huán)境聲分類問題上有較好的應(yīng)用前景。
[1] PHAN H. Random regression forests for acoustic event detection and classification[J]. IEEEACM Transactions on Audio Speech & Language Processing, 2015, 23(1): 20-31.
[2] ZIEGER C, OMOLOGO M. Acoustic event classification using a distributed microphone network with a GMM/SVM combined algorithm[C]//INTERSPEECH 2008, Conference of the International Speech Communication Association, Brisbane, Australia, September. DBLP, 2008: 115-118.
[3] HAN Y, LEE K. Acoustic scene classification using convolutional neural network and multiple-width frequency-delta data augmentation[J]. ArXiv Preprint ArXiv, 2016: 1607.02383.
[4] ELIZALDE B, KUMAR A, SHAH A, et al. Experiments on the DCASE Challenge 2016: acoustic scene classification and sound event detection in real life recording[C]//Proceedings of the Detection and Classification of Acoustic Scenes and Events 2016 Workshop(DCASE2016). Budapest, Hungary, 2016: 20-24.
[5] Z?HRER M, PERNKOPF F. Gated recurrent networks applied to acoustic scene classification and acoustic event detection[C]// Presented at the Detection and Classification of Acoustic Scenes and Events 2016 (DCASE 2016), 2016: 115-119.
[6] VU, TOAN H., AND JIA-CHING WANG. Acoustic scene and event recognition using recurrent neural networks[C]//Detection and Classification of Acoustic Scenes and Events 2016, Budapest, Hungary, 2016.
[7] 陶銳, 孫彥景, 劉衛(wèi)東. 多重水印快速加密技術(shù)在圖像深度傳感器中的應(yīng)用[J]. 傳感技術(shù)學(xué)報(bào), 2018, 31(12): 159-164.
TAO Rui,SUN Yanjing,LIU Weidong. Application of multi watermark fast encryption technology in image depth transduce[J]. Chinese Journal of Sensors And Actuators, 2018, 31(12): 159-164.
[8] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[9] PICZAK K J. ESC: Dataset for environmental sound classification [C]//ACM International Conference on Multimedia, ACM, 2015:1015-1018.
[10] SUN Y, WANG X, TANG X. Deeply learned face representations are sparse, selective, and robust[C]//Computer Vision & Pattern Recognition. 2015: 2892–2900.
[11] Sylvia Frühwirth-Schnatter. Data augmentation and dynamic linear models[J]. Journal of Time Series Analysis, 1994, 15(2): 183-202.
[12] MCFEE B, RAFFEL C, LIANG D, et al. Librosa: Audio and music signal analysis in Python[C]//Proc. of the 14th Python in Science Conf. (SCIPY 2015), 2015: 18-24.
[13] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Acm International Conference on Multimedia, 2014: 675–678.
[14] POVEY D, ZHANG X , KHUDANPUR S . Parallel training of deep neural networks with natural gradient and parameter averaging[C]// Computing Research Repository(CoRR 2014), 2014: 1410-7455.
[15] BERGSTRA J, BENGIO Y. Random search for Hyper-Parameter optimization[J]. Journal of Machine Learning Research, 2012, 13(1): 281-305.
[16] PICZAK K J. Environmental sound classification with convolutional neural networks[C]//2015 IEEE 25th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2015: 1-6.
[17] HERTEL L, PHAN H, MERTINS A. Comparing time and frequency domain for audio event recognition using deep learning[C]//2016 International Joint Conference on Neural Networks (IJCNN). Vancouver, BC, 2016: 3407-3411.
[18] Diederik P. Kingma, Jimmy Ba. Adam: A method for stochastic optimization[J]. ArXiv Preprint ArXiv, 2014: 1412. 6980.
[19] 陶銳. 面向電子票據(jù)認(rèn)證的數(shù)字水印加密算法研究[D]. 中國礦業(yè)大學(xué), 2018.
TAO Rui. Research on digital watermarking encryption algorithm for electronic bill authentication[D]. China University of Mining and Technology, 2018.
Environmental sound classification using DeepESC convolutional neural networks
YIN Fa-ming1, WANG Shi-jia2, ZHAO Li2
(1.Nanjing College of Information Technology, Nanjing 210023, Jiangsu, China;2. School of Information Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China)
To improve the accuracy of environmental sound classification, a new convolutional neural network named DeepESC, which imitates the connection of DeepID network, is proposed. DeepESC is composed of three convolution layers, two fully connected layers and one concatenate layer. To extract both high-level features and low-level features effectively, a concatenate layer is designed to join all convolution layers’ output together, which comprises all features of different levels in the DeepESC network. Experimental results on ESC-10 and ESC-50 data sets show that, compared with random forest classification in same conditions, the accuracy of DeepESC is improved by 7.6% and 22.4% respectively, and by 4% and 2% respectively compared with the traditional convolutional neural network.
convolution networks; environmental sound classification; DeepID network
TB52+9
A
1000-3630(2019)-05-0590-04
10.16300/j.cnki.1000-3630.2019.05.018
2018-05-13;
2018-07-06
國家自然科學(xué)基金(61571106)
陰法明(1980-), 男, 山東肥城人, 碩士, 副教授, 研究方向?yàn)樾盘?hào)處理。
陰法明,E-mail: yinfm@njcit.cn