李林樺,王學(xué)淵,李小霞
(西南科技大學(xué) 信息工程學(xué)院 特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室,綿陽(yáng) 621010)
近些年來(lái),環(huán)境聲識(shí)別(Environmental Sound Recognition,ESR)展現(xiàn)出越來(lái)越廣泛的應(yīng)用前景,例如輔助醫(yī)療診斷、異常聲信號(hào)識(shí)別以及物種調(diào)查 等[1~3],因此如何提升環(huán)境聲識(shí)別的識(shí)別率也受到越來(lái)越多的研究者關(guān)注。不同于語(yǔ)音識(shí)別以及說(shuō)話人識(shí)別,環(huán)境聲來(lái)源廣泛且種類多樣,同時(shí)傳播途徑存在反射、混響以及其他噪聲源的干擾,導(dǎo)致聲源的聲紋特征在時(shí)頻域上是不斷演變的。而目前大多傳統(tǒng)的聲信號(hào)特征(如頻率的主成分分析、高階統(tǒng)計(jì)量和頻域的幅度等)難以表征聲信號(hào)在時(shí)頻域上的演變過(guò)程,從而導(dǎo)致大多環(huán)境聲識(shí)別方法(支持向量機(jī)、高斯混合模型和K最近鄰算法等)在ESR任務(wù)中的表現(xiàn)不佳[4~6]。
針對(duì)ESR任務(wù),國(guó)內(nèi)外學(xué)者開展了大量的研究?,F(xiàn)階段提升ESR性能的方式主要分為兩種。第一種方式主要是改變聲信號(hào)特征提取的方法以及融合不同類別的聲信號(hào)特征,Piczak等人[7]立了目前使用范圍最為廣泛的ESR數(shù)據(jù)集:ESC-10和ESC-50,并提出將對(duì)數(shù)梅爾特征應(yīng)用于ESR任務(wù)中,在這兩個(gè)數(shù)據(jù)集上取得了不錯(cuò)的識(shí)別效果。Tokozume等人[8]提出了一種名為EnvNet的聲信號(hào)識(shí)別模型,采用一維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)直接提取聲信號(hào)時(shí)域波形的特征用于分類識(shí)別,在ESC-50數(shù)據(jù)集上能夠達(dá)64%的識(shí)別率。Li等人[9]采用DS(Dempster-Shafer,DS)證據(jù)理論的方式融合上述兩種方法的識(shí)別信息,提出了一種DSCNN模型,這種方法結(jié)合了聲信號(hào)在時(shí)域以及時(shí)頻域的不同特征,實(shí)驗(yàn)結(jié)果表明,DS證據(jù)理論能夠有效地融合兩種不同特征的識(shí)別信息,達(dá)到結(jié)合不同類別的聲信號(hào)時(shí)頻特征優(yōu)點(diǎn)的目的,進(jìn)一步提升了ESR的準(zhǔn)確率。第二種方式主要是通過(guò)改進(jìn)模型結(jié)構(gòu)的方式來(lái)達(dá)到提升識(shí)別性能的目的,Boddapati等人[10]嘗試使用一些在圖像分類任務(wù)中取得不錯(cuò)效果的深度CNN來(lái)完成ESR任務(wù),如AlexNet和GoogleNet,提取了聲信號(hào)的時(shí)頻特征作為圖像輸入,這些深度CNN都能在常用的聲信號(hào)數(shù)據(jù)集上取得較好的識(shí)別效果。Zhang等人[11]使用空洞卷積來(lái)構(gòu)建ESR模型,由于空洞卷積能有效增加卷積核的感受野,以獲取更多的環(huán)境聲的特征信息,獲得了比傳統(tǒng)卷積更高的識(shí)別率。陰法明等[12]將一種仿深度隱藏身份特征網(wǎng)絡(luò)連接方式應(yīng)用于ESR任務(wù)中,在模型提取高層次聲信號(hào)特征的同時(shí)兼顧了對(duì)應(yīng)的低層次特征,并將不同層次的特征聚合在了一起,通過(guò)這種聚合方式提升了卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,構(gòu)建的模型在ESC-10與ESC-50數(shù)據(jù)集上分別取得了82.3%和65.7%的識(shí)別率。
以上研究表明對(duì)數(shù)梅爾特征圖能有效表征語(yǔ)音特征,并且提取豐富的聲信號(hào)特征更有利于提高網(wǎng)絡(luò)的識(shí)別率。因此,為了進(jìn)一步提升環(huán)境聲識(shí)別模型的性能,本文不局限于單一的時(shí)頻特征,而是提出一種融合聲信號(hào)多維時(shí)頻特征的環(huán)境聲識(shí)別模型(Environment Sound Recognition based on Fusion of Multi-dimensional Timefrequency Features,F(xiàn)MTF-ESR)。首先,提取聲信號(hào)的時(shí)頻特征(對(duì)數(shù)梅爾特征和耳蝸特征[13]),通過(guò)求取聲信號(hào)時(shí)頻特征在時(shí)域以及頻域上的一階差分,獲取聲信號(hào)在時(shí)頻域上的能量變化信息;其次,建立CNN獲取兩種多維特征的識(shí)別信息;最后,通過(guò)DS(Dempster-Shafer,DS)證據(jù)理論融合兩種聲信號(hào)特征得到最終識(shí)別結(jié)果。在ESC-10和ESC-50數(shù)據(jù)集上驗(yàn)證提出的FMTF-ESR模型的環(huán)境聲識(shí)別效果。
提取環(huán)境聲信號(hào)時(shí)頻特征的方法可借鑒人耳的選擇性聽覺(jué)原理,就可實(shí)現(xiàn)某些特定的頻率分量的辨識(shí)。因此,需要在頻率坐標(biāo)軸上低頻區(qū)域設(shè)置很多的濾波器,分布比較密集,但在高頻區(qū)域?yàn)V波器的數(shù)目設(shè)置較少,分布較為稀疏。通過(guò)這種模擬人耳選擇性聽覺(jué)原理的方式形成了對(duì)數(shù)梅爾特征與耳蝸特征。
不同類別的聲信號(hào)在時(shí)域以及頻域上具有不同時(shí)頻成分、能量分布以及能量變化的特點(diǎn),因此,可以利用這些環(huán)境聲信號(hào)的差異性來(lái)進(jìn)行分類識(shí)別。在通過(guò)時(shí)頻變換獲得聲信號(hào)的時(shí)頻成分以及能量分布的基礎(chǔ)上,進(jìn)一步求取時(shí)頻特征沿時(shí)域與頻域方向上的一階差分特征,從而得到聲信號(hào)的能量在時(shí)域以及頻域中的動(dòng)態(tài)變化特點(diǎn)。將聲信號(hào)的時(shí)頻特征及其各自的時(shí)域和頻域一階差分特征相結(jié)合,形成了一種融合聲信號(hào)時(shí)域、頻域、幅度以及梯度多維特征的環(huán)境聲表征方式。這種多維聲信號(hào)表征方式能夠更加有效地為ESR模型提供不同類別聲信號(hào)的差異信息,提升模型的識(shí)別率。聲信號(hào)的多維時(shí)頻特征提取過(guò)程如下。
首先,利用梅爾濾波器組與Gammatone濾波器組對(duì)聲信號(hào)進(jìn)行處理,獲取具有人耳選擇性聽覺(jué)特點(diǎn)的時(shí)頻特征,對(duì)數(shù)梅爾時(shí)頻特征圖求取過(guò)程如式(1)所示。
其中,x(t)i表示第i幀聲信號(hào),N為離散傅里葉變換點(diǎn)數(shù),E(x(t)i)為第i幀聲信號(hào)的能量譜,Hm(k)為第m階梅爾濾波器的傳遞函數(shù)。耳蝸圖的計(jì)算過(guò)程如式(2)和式(3)所示。
其中,Gi(x(t),fc)為經(jīng)Gammatone濾波器濾波后第i幀子帶信號(hào),g(t,fc)為中心頻率為fc的Gammatone濾波器的脈沖響應(yīng),U(t)為單位階躍函數(shù),L為幀長(zhǎng)。其次,分別求取兩種時(shí)頻特征沿時(shí)域和頻域的一階差分特征,計(jì)算公式如式(4)所示。
其中TFi為第i幀或第i頻段的時(shí)頻特征,R的取值一般為2。最后,在原有的兩種時(shí)頻特征基礎(chǔ)上,將其對(duì)應(yīng)的時(shí)域和頻域一階差分特征相結(jié)合,得到對(duì)數(shù)梅爾多維時(shí)頻特征(Log-Mel Multi-dimensional Time-frequency Features,LMMTF)與耳蝸多維時(shí)頻特征(Cochlear Multi-dimensional Time-frequency Features,CMTF)。
其中,Difft表示沿時(shí)域的一階差分,Difff表示沿頻域的一階差分。
圖1所示,是狗叫聲的LMMTF,可以看出狗叫聲屬于能量突變的聲信號(hào),聲信號(hào)的能量在時(shí)域中主要集中在較短的一段時(shí)間內(nèi),頻域中主要分布在低頻段。聲信號(hào)產(chǎn)生的前后能量變化十分明顯,并且在頻域的變化主要集中在低頻段。因此,多維度聲紋特征不僅為ESR提供了聲信號(hào)能量在時(shí)頻域內(nèi)的分布情況,還可以提供聲信號(hào)獨(dú)特的能量變化特點(diǎn)。聲信號(hào)的多維度時(shí)頻特征提取過(guò)程如圖2所示。
圖1 狗叫聲的LMMTF
圖2 多維時(shí)頻特征提取過(guò)程
針對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)算法,如支持向量機(jī)、高斯混合模型和K最近鄰算法在ESR任務(wù)中存在識(shí)別性能低的缺點(diǎn),采用CNN建立環(huán)境聲識(shí)別模型,ESR模型中的兩個(gè)CNN均包含六層卷積層、一層全連接層以及輸出識(shí)別信息的輸出層,CNN的總體結(jié)構(gòu)如表1所示。
表1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在模型訓(xùn)練的過(guò)程中,采用Dropout算法來(lái)防止過(guò)擬合現(xiàn)象的發(fā)生,對(duì)全連接層進(jìn)行比例為0.5的Dropout算法處理。除最后一層采用Softmax激活函數(shù)獲取識(shí)別信息外,其余層采用線性整流單元(Rectified Linear Unit,ReLU)[14]作為激活函數(shù)。選用Adam[15]優(yōu)化器來(lái)對(duì)CNN進(jìn)行優(yōu)化,初始學(xué)習(xí)率為0.001。批處理的大小為32,選用交叉熵作為模型訓(xùn)練的損失函數(shù)。
對(duì)數(shù)梅爾特征相對(duì)于傳統(tǒng)的低維度的聲信號(hào)時(shí)頻特征來(lái)說(shuō),其優(yōu)點(diǎn)是對(duì)于聲信號(hào)的能量在時(shí)頻域的分布以及聲信號(hào)的周期性變化刻畫得更為細(xì)致,更加利于識(shí)別環(huán)境聲。相對(duì)于對(duì)數(shù)梅爾特征,耳蝸特征能夠更好地表征一些能量突變的環(huán)境聲信號(hào)(如腳步聲和狗叫聲等)[16],因此融合耳蝸圖與對(duì)數(shù)梅爾特征圖能夠有效提高模型識(shí)別的準(zhǔn)確率。
DS證據(jù)理論基本的概念是建立在一個(gè)非空有限集合的識(shí)別框架Θ之上,表示可能發(fā)生的事件的集合,且識(shí)別框架中的每個(gè)事件都是相互獨(dú)立的。對(duì)于Θ中的任一事件A,其基本概率分布(Basic Probability Assignment,BPA)函數(shù)m滿足的條件如式(7)所示。
在ESR任務(wù)中,所使用的數(shù)據(jù)集中每一類聲音可以視為識(shí)別框架中的一個(gè)事件,且每個(gè)事件都是相互獨(dú)立的。與此同時(shí),本文所提出的聲識(shí)別模型中的卷積神經(jīng)網(wǎng)絡(luò)的輸出,則可看作在相同識(shí)別框架下的兩個(gè)BPA函數(shù)m1與m2,且m1與m2滿足式(7)的條件。采用DS證據(jù)理論中的Dempster組合規(guī)則來(lái)有效地融合模型的識(shí)別信息,對(duì)于,融合公式如下。
圖3 FMTF-ESR的總體結(jié)構(gòu)
實(shí)驗(yàn)中用以訓(xùn)練和測(cè)試的兩個(gè)公共聲信號(hào)數(shù)據(jù)集分別為:ESC-10和ESC-50。ESC-50數(shù)據(jù)集是目前使用最廣泛的聲信號(hào)分類數(shù)據(jù)集,其中包含50類不同的聲信號(hào),由2000個(gè)音頻文件組成,每個(gè)音頻文件的長(zhǎng)度為5秒,主要分為5個(gè)大類:動(dòng)物聲、自然環(huán)境聲、非語(yǔ)音的人聲信號(hào)、室內(nèi)聲以及室外聲。ESC-10為ESC-50的子集,其中包含400個(gè)音頻,可分為10類:狗叫聲、雨聲、海浪聲、嬰兒哭泣聲、時(shí)鐘滴答聲、噴嚏聲、直升機(jī)聲、電鋸聲、公雞叫聲以及火焰燃燒的爆裂聲。
本文中的所有數(shù)據(jù)集均采用5折交叉驗(yàn)證的方式來(lái)評(píng)估所建立的聲識(shí)別模型的性能,所有的音頻文件均轉(zhuǎn)換為單聲道的wav文件,采樣頻率為44.1kHz,輸入5s的聲信號(hào)數(shù)據(jù)用于特征提取,提取聲信號(hào)特征時(shí)采用的窗函數(shù)為漢寧窗,窗長(zhǎng)為1024,重疊部分為512,所設(shè)定的梅爾濾波器組個(gè)數(shù)與Gammatone濾波器組個(gè)數(shù)均為64。由于采用數(shù)據(jù)集的單類音頻數(shù)據(jù)量較少,神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練的過(guò)程中容易出現(xiàn)過(guò)擬合的現(xiàn)象,因此采用音調(diào)變換與時(shí)間伸縮的方式進(jìn)行數(shù)據(jù)增強(qiáng)[17]。
表2給出了在ESC-10與ESC-50數(shù)據(jù)集上,傳統(tǒng)的聲信號(hào)時(shí)頻特征、聲信號(hào)的多維時(shí)頻特征以及本文所提出的FMTF-ESR的識(shí)別結(jié)果。與傳統(tǒng)的對(duì)數(shù)梅爾特征圖以及耳蝸圖相比,以LMMTF與CMTF為輸入的卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別率在ECS-10上分別提升了5.1%與6.3%,在ESC-50上分別提升了4.3%與3.9%。相對(duì)于傳統(tǒng)的聲信號(hào)時(shí)頻特征,在增加了聲信號(hào)的時(shí)域和頻域一階差分特征后,為模型進(jìn)行聲信號(hào)識(shí)別提供了更多維度的信息,更加利于模型進(jìn)行識(shí)別。從結(jié)果中可以看出,多維度時(shí)頻特征更加適用于處理聲信號(hào)分類問(wèn)題。與此同時(shí),通過(guò)DS證據(jù)理論結(jié)合兩種不同特征的優(yōu)點(diǎn),能夠進(jìn)一步提升模型的識(shí)別效果。
表2 不同特征的識(shí)別結(jié)果
圖4為在ESC-10數(shù)據(jù)集上,F(xiàn)MTF-ESR識(shí)別結(jié)果的混淆矩陣。從圖中可以看出,本文所提出的FMTF-ESR除海浪聲和直升機(jī)聲以外,在其他類別聲信號(hào)的識(shí)別率均在90%以上,一些時(shí)頻特征在時(shí)域以及頻域變化極為顯著的聲信號(hào),其識(shí)別率可達(dá)100%。造成海浪聲識(shí)別率較低的原因是海浪聲、直升機(jī)聲以及雨聲均為平穩(wěn)的聲信號(hào),時(shí)頻特征在時(shí)域以及頻域上的變化極為相似,從而導(dǎo)致三類聲信號(hào)難以進(jìn)行區(qū)分。
圖4 ESC-10識(shí)別結(jié)果的混淆矩陣
表3展示了本文提出的模型與其他的聲信號(hào)識(shí)別模型,在兩個(gè)數(shù)據(jù)集上的結(jié)果比較。本文所提出的模型在ESC-10和ESC-50數(shù)據(jù)集上分別達(dá)到了96.4%和85.3%的識(shí)別率。相對(duì)于識(shí)別性能較好的DS-CNN[9]模型,本文所提出的FMTF-ESR模型識(shí)別率在兩個(gè)數(shù)據(jù)集上分別提升了3.8%和2.2%。FMTF-ESR模型的識(shí)別性能基本與人耳持平,在兩個(gè)數(shù)據(jù)集上分別提升了0.7%和4%,由此也證明了本文所提出的環(huán)境聲識(shí)別模型性能更好。
表3 不同ESR模型的識(shí)別結(jié)果
本文提出的FMTF-ESR模型,從ESR任務(wù)中的特征提取角度,深入研究了傳統(tǒng)的聲信號(hào)時(shí)頻特征在時(shí)域和頻域上的能量變化關(guān)系,形成一種多維的聲信號(hào)時(shí)頻表征方式,更好地為ESR模型提供聲信號(hào)在時(shí)頻域上的演變信息。利用耳蝸圖與對(duì)數(shù)梅爾特征圖在識(shí)別效果上的互補(bǔ)特性,通過(guò)DS證據(jù)理論融合了兩種不同特征的識(shí)別信息,從而達(dá)到提升環(huán)境聲模型識(shí)別效果的目的。實(shí)驗(yàn)結(jié)果表明,本文所提出的FMTF-ESR模型相較于之前的一些ESR模型取得了更好的識(shí)別效果。