摘" 要:根據(jù)卷積神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)能力強(qiáng)、可移植性高的優(yōu)點(diǎn),結(jié)合數(shù)據(jù)增強(qiáng)可提升模型泛化能力的特點(diǎn),提出了一種基于數(shù)據(jù)增強(qiáng)的深度學(xué)習(xí)聲學(xué)場(chǎng)景分類方法,其次構(gòu)建基于VGG16和Mixup的聲學(xué)場(chǎng)景分類模型,最后在ESC-50數(shù)據(jù)集上對(duì)實(shí)驗(yàn)?zāi)P瓦M(jìn)行廣泛的測(cè)試。實(shí)驗(yàn)結(jié)果表明,使用Mixup數(shù)據(jù)增強(qiáng)方法能夠提升6.44%的模型準(zhǔn)確率,且模型在該數(shù)據(jù)集上獲得了81.56%的分類準(zhǔn)確率,優(yōu)于基線系統(tǒng)37.26%的準(zhǔn)確率,驗(yàn)證了該方法的可靠性和有效性,且能夠有效提高模型的分類效果。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);聲學(xué)場(chǎng)景分類;數(shù)據(jù)增強(qiáng)
中圖分類號(hào):TN912.16;TP183" " 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)23-0076-06
Deep Learning Acoustic Scene Classification Algorithm Based on Data Enhancement
WU Guxin1, HU Yiding1, YANG Dong2
(1.School of Electronics and Information Engineering, Wuyi University, Jiangmen" 529020, China;
2.Earthquake Engineering Research and Test Center, Guangzhou University, Guangzhou" 510006, China)
Abstract: Based on the advantages of Convolutional Neural Networks, such as strong learning ability and high portability, and combined with the characteristic that data enhancement can improve the model's generalization ability, a Deep Learning acoustic scene classification method based on data enhancement is proposed. Then, this paper constructs an acoustic scene classification model based on VGG16 and Mixup. Finally, extensive tests are conducted on the experimental model using the ESC-50 dataset. The experimental results indicate that the use of the Mixup data enhancement method can improve the model's accuracy by 6.44%, and the model achieves a classification accuracy of 81.56% on this dataset, which is higher than the accuracy of the baseline system by 37.26%. This confirms the reliability and effectiveness of this method and can effectively improve the model's classification performance.
Keywords: Convolutional Neural Networks; Deep Learning; acoustic scene classification; data enhancement
0" 引" 言
聲音承載著關(guān)于人們生活環(huán)境的大量信息,聲學(xué)場(chǎng)景分類旨在對(duì)自然聲學(xué)環(huán)境感知和分析,把這些具有背景信息的聲音劃分成不同的場(chǎng)景類型,其在環(huán)境監(jiān)測(cè)、智慧城市、AR/VR等方面都有廣泛的應(yīng)用。在聲學(xué)場(chǎng)景分類算法中,支持向量機(jī)、決策樹等機(jī)器學(xué)習(xí)技術(shù)已經(jīng)逐步取代了傳統(tǒng)的分類模型[1]。與此同時(shí),如隨機(jī)森林、分布式梯度等機(jī)器學(xué)習(xí)算法,使得聲場(chǎng)景分類的效率得到了提高。文獻(xiàn)[2]提出了一種多流卷積網(wǎng)絡(luò)模型,以及一種多維混合數(shù)據(jù)增強(qiáng)方法,在Urbansound8K、ESC-50和ESC-10數(shù)據(jù)集上獲得模型準(zhǔn)確率分別有88.29%,77.75%和96.25%;文獻(xiàn)[3]使用一種雙路徑深度卷積網(wǎng)絡(luò),對(duì)Mel譜圖及其一階、二階差分譜圖進(jìn)行融合,并在TUT數(shù)據(jù)集上獲得了79.2%的分類準(zhǔn)確率;文獻(xiàn)[4]使用線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstral Coefficients, LPCC)和譜質(zhì)心幅度倒譜系數(shù)(Spectral Centroid Magnitude Cepstral Coefficients, SCMC)特征以及Log-Mel能帶能量來(lái)表示聲場(chǎng)景,并基于深度神經(jīng)網(wǎng)絡(luò)在DCASE2017數(shù)據(jù)集上的分類準(zhǔn)確率達(dá)到了82.1%;文獻(xiàn)[5]提出一種SoundNet網(wǎng)絡(luò)模型,通過(guò)預(yù)訓(xùn)練的視頻對(duì)象和場(chǎng)景,遷徙的標(biāo)簽訓(xùn)練模型,在ESC-50和ESC-10數(shù)據(jù)集上取得了74.2%和92.2%得到準(zhǔn)確率;文獻(xiàn)[6]使用非負(fù)矩陣分解,并在TUT2017數(shù)據(jù)集上較之前提升了3.9%的準(zhǔn)確率;文獻(xiàn)[7]提出了一種深度環(huán)境聲分類網(wǎng)絡(luò),在ESC-10和ESC-50數(shù)據(jù)集上取得了82.3%和65.7%的準(zhǔn)確率。
綜上所述,從早期傳統(tǒng)的機(jī)器學(xué)習(xí)到現(xiàn)今流行的深度學(xué)習(xí)方法,聲學(xué)場(chǎng)景分類技術(shù)在不斷進(jìn)步,誕生了一些優(yōu)秀的分類模型和分類方法,但是在分類結(jié)果的準(zhǔn)確率及算法的泛化能力等問(wèn)題上,仍然存在改進(jìn)和提高的空間。本文提出一種基于Mixup數(shù)據(jù)增強(qiáng)與深度神經(jīng)網(wǎng)絡(luò)VGG16的聲學(xué)場(chǎng)景分類算法,并且針對(duì)ESC-50數(shù)據(jù)集進(jìn)行分類的實(shí)驗(yàn),以提高分類的準(zhǔn)確率。
1" 基于數(shù)據(jù)增強(qiáng)的聲學(xué)場(chǎng)景分類方法
1.1" 算法框架
聲學(xué)場(chǎng)景分類任務(wù)是將一段未知音頻用模型分類后獲得其所屬的場(chǎng)景類別的標(biāo)簽。這種分類方式屬于有監(jiān)督的分類,即在分類前所訓(xùn)練好的分類模型及訓(xùn)練樣本都經(jīng)過(guò)了標(biāo)簽。
圖1為提出的聲學(xué)場(chǎng)景的分類框架,框架分為訓(xùn)練和測(cè)試兩個(gè)階段。在訓(xùn)練階段中,將從輸入音頻中提取的對(duì)數(shù)梅爾譜特征作為訓(xùn)練器的特征輸入已建立好的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行模型訓(xùn)練,最后獲得分類模型。在測(cè)試階段,對(duì)待測(cè)試音頻提取對(duì)數(shù)梅爾譜特征,送入分類模型中得到預(yù)測(cè)標(biāo)簽。輸出的標(biāo)簽即為測(cè)試音頻對(duì)應(yīng)的類別。
具體步驟如下:
1)提取訓(xùn)練集音頻的對(duì)數(shù)梅爾譜特征。
2)使用Mixup對(duì)特征進(jìn)行數(shù)據(jù)增強(qiáng),并輸入已構(gòu)建的VGG16模型中。
3)設(shè)置訓(xùn)練參數(shù),使用五折交叉驗(yàn)證方式訓(xùn)練模型,并保存最佳模型。
4)提取測(cè)試集音頻的對(duì)數(shù)梅爾譜特征。
5)獲取預(yù)測(cè)值,以最大預(yù)測(cè)概率值的對(duì)應(yīng)標(biāo)簽作為分類結(jié)果。
1.2" 對(duì)數(shù)梅爾譜特征
音頻信號(hào)的頻域更能表達(dá)其聲學(xué)特征,根據(jù)人類聽覺的特性,采用對(duì)數(shù)梅爾譜特征作為模型的輸入特征。
對(duì)數(shù)梅爾譜特征提取流程如圖2所示,主要分為四步進(jìn)行,首先對(duì)輸入的ESC-50數(shù)據(jù)集進(jìn)行分幀、加窗;接著對(duì)每幀音頻信號(hào)進(jìn)行快速傅里葉變換,并取模后平方求得功率譜;然后使用梅爾濾波器組對(duì)功率譜進(jìn)行濾波,使其從頻率轉(zhuǎn)換為梅爾頻率;最后對(duì)梅爾頻率取對(duì)數(shù),獲得對(duì)數(shù)梅爾譜特征。
1.3" Mixup數(shù)據(jù)增強(qiáng)
Mixup屬于混類增強(qiáng)手段,原理是將兩個(gè)特征圖片按一定比例混合,產(chǎn)生一張新的特征圖。首先需要設(shè)置混合比例的超參數(shù),接著對(duì)同一個(gè)批次獲得的兩個(gè)圖像的每個(gè)像素相加,以獲得混合特征矩陣,最后將混合特征傳遞給VGG16模型得到輸出特征,分別計(jì)算兩幅特征圖的標(biāo)簽的損失函數(shù),按照比例對(duì)損失函數(shù)進(jìn)行加權(quán)求和[8-9]。取兩張圖像,記為xi與xj,其類別標(biāo)簽分別為yi與yj,則Mixup的圖像混合可用式(1)表示:
(1)
其中,λ為從beta分布中隨機(jī)采樣生成的權(quán)重參數(shù),代表圖像混合比例,范圍[0,1]。
1.4" VGG16分類模型
分類模型采用VGG16的卷積塊作為網(wǎng)絡(luò)架構(gòu),完全連接層使用全局平均池化,在經(jīng)過(guò)兩個(gè)Dense層后使用Softmax函數(shù)輸出50個(gè)分類。表1為采用的VGG16模型結(jié)構(gòu)。其中,輸入層尺寸為(64,251,1)。
2" 算法實(shí)施條件與參數(shù)設(shè)置
2.1" 數(shù)據(jù)集選取
模型輸入使用ESC-50[10]數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)。該數(shù)據(jù)集出自freesound.org公開項(xiàng)目,其中包括5大類別:動(dòng)物叫聲、自然環(huán)境聲、水聲、人類聲音(非語(yǔ)音)以及室內(nèi)/室外聲音,各類別下包括10個(gè)子類別,共計(jì)50種小類的音頻,每個(gè)小類含有40個(gè)樣本,每個(gè)樣本時(shí)長(zhǎng)為均5秒。共計(jì)2 000個(gè)樣本數(shù)據(jù)。目標(biāo)是對(duì)50種環(huán)境聲進(jìn)行分類。這50個(gè)聲音類別如表2所示。
2.2" 聲學(xué)特征
使用對(duì)數(shù)梅爾譜圖作為模型輸入特征。設(shè)置ESC-50數(shù)據(jù)集中的音頻的采樣頻率為44 100 Hz,每段音頻時(shí)長(zhǎng)為5 s,共220 500個(gè)采樣點(diǎn)。以1 764個(gè)采樣點(diǎn)進(jìn)行分幀,每幀的時(shí)間長(zhǎng)度為40 ms。步長(zhǎng)設(shè)置為882,對(duì)分幀后的音頻計(jì)算1 764點(diǎn)的傅里葉變換,通過(guò)梅爾濾波器組后進(jìn)行對(duì)數(shù)運(yùn)算,最后得到對(duì)數(shù)梅爾頻譜圖,每張對(duì)數(shù)梅爾譜圖的尺寸為(64,251)。利用LibROSA庫(kù)函數(shù)求對(duì)數(shù)梅爾譜圖,輸入音頻被轉(zhuǎn)換成如圖4所示的對(duì)數(shù)梅爾頻譜圖,其中圖4(a)和圖4(b)分別為“呼吸”和“咳嗽”的對(duì)數(shù)梅爾譜圖。
2.3" 實(shí)驗(yàn)配置
基于Keras深度學(xué)習(xí)框架構(gòu)建模型。使用Intel UHD Graphics 620顯卡在Window 10操作系統(tǒng)上對(duì)模型進(jìn)行訓(xùn)練。軟件環(huán)境為Python 3.7、TensorFlow 1.13.1、Keras 2.3.1。使用五折交叉驗(yàn)證方式劃分?jǐn)?shù)據(jù)集,選取分類交叉熵(Categorical cross-entropy)作為聲學(xué)場(chǎng)景分類任務(wù)的損失函數(shù),采用Adam優(yōu)化算法對(duì)這兩個(gè)損失函數(shù)的加權(quán)之和進(jìn)行優(yōu)化。一次訓(xùn)練所取的樣本數(shù)設(shè)定為32,迭代次數(shù)設(shè)置為300次,每50次迭代的準(zhǔn)確率不再增加時(shí)減小學(xué)習(xí)率。
3" 實(shí)驗(yàn)結(jié)果與分析
3.1" 梅爾濾波器組數(shù)量對(duì)模型的影響
通過(guò)對(duì)比在個(gè)數(shù)為40、64、128的梅爾濾波器下模型準(zhǔn)確率,選擇最優(yōu)的濾波器數(shù)量作為模型的對(duì)數(shù)梅爾譜特征輸入。
由圖5可知,梅爾濾波器的個(gè)數(shù)關(guān)系到對(duì)數(shù)梅爾譜圖的分辨率。梅爾濾波器數(shù)量越少,圖片越模糊,體現(xiàn)的特征就越少,反之梅爾濾波器數(shù)量越多,圖片越清晰,體現(xiàn)的特征就越多。梅爾濾波器過(guò)少使得音頻的特征信息無(wú)法完全體現(xiàn)到對(duì)數(shù)梅爾頻譜圖中,因?yàn)槟P蛯W(xué)習(xí)到的特征就變少。
但根據(jù)表3不同梅爾濾波器個(gè)數(shù)的準(zhǔn)確率對(duì)比可知,模型準(zhǔn)確率與梅爾濾波器數(shù)量不成正比,這是由于過(guò)多的梅爾濾波器使得圖片的細(xì)節(jié)特征增加,這些細(xì)節(jié)特征同時(shí)包含了噪聲等冗余信息,導(dǎo)致參數(shù)量變大,使得模型訓(xùn)練速度變慢,同時(shí)由于放大了噪聲信息使得模型更容易出現(xiàn)過(guò)擬合。因此,選擇最優(yōu)的64個(gè)梅爾濾波器來(lái)提取聲學(xué)特征。
3.2" Mixup對(duì)模型的影響
為說(shuō)明不同的Mixup超參數(shù)α對(duì)模型的影響,設(shè)置在相同網(wǎng)絡(luò)模型、梅爾濾波器數(shù)量均為64、α分別為0.2、0.3、0.4的情況下準(zhǔn)確率的對(duì)比實(shí)驗(yàn)。
如表4所示,在超參數(shù)α為0.2時(shí),準(zhǔn)確率為78.52%,0.3時(shí)準(zhǔn)確率為81.56%,0.4時(shí)準(zhǔn)確率為79.24%。可知,在網(wǎng)絡(luò)模型相同的情況下,不同的超參數(shù)影響模型的準(zhǔn)確率,同時(shí)超參數(shù)為0.3時(shí)模型的分類準(zhǔn)確率最高,因此Mixup選擇0.3作為超參數(shù)α。
為評(píng)估Mixup對(duì)模型擬合的效果,分別對(duì)未使用Mixup和使用超參數(shù)α為0.3的Mixup的模型做對(duì)比實(shí)驗(yàn)。如表5所示,在沒有經(jīng)過(guò)Mixup數(shù)據(jù)增強(qiáng)的情況下,準(zhǔn)確率為75.12%;經(jīng)過(guò)Mixup數(shù)據(jù)增強(qiáng)的情況下準(zhǔn)確率為81.56%。結(jié)果表明,使用Mixup數(shù)據(jù)增強(qiáng)可以將準(zhǔn)確度提高6.44%。
如圖6所示,在使用了Mixup數(shù)據(jù)增強(qiáng)后,可以看到模型準(zhǔn)確率曲線斜率比未使用Mixup大,說(shuō)明Mixup數(shù)據(jù)增強(qiáng)能夠加快模型的收斂速度。從圖7可知,未使用Mixup的損失交叉熵為1.051,使用Mixup的損失交叉熵為0.79。損失交叉熵越小代表模型魯棒性越好,精度也越高,可見Mixup能夠減少模型預(yù)測(cè)值和真實(shí)值之間的差距,緩解模型的過(guò)擬合現(xiàn)象。
3.3" 模型分析
為了驗(yàn)證基于VGG16和Mixup數(shù)據(jù)增強(qiáng)的聲學(xué)場(chǎng)景分類方法的有效性,在ESC-50數(shù)據(jù)集開展了聲學(xué)場(chǎng)景分類實(shí)驗(yàn),并與已有聲學(xué)場(chǎng)景分類模型進(jìn)行比較。如表6所示,為在ESC-50數(shù)據(jù)集下不同模型的準(zhǔn)確率對(duì)比??梢杂^察到,基于VGG16和Mixup數(shù)據(jù)增強(qiáng)的聲學(xué)場(chǎng)景分類模型取得了最高的分類準(zhǔn)確率,且相較于文獻(xiàn)[10]中的基線系統(tǒng)、文獻(xiàn)[5]中的SoundNet模型、文獻(xiàn)[2]中的多流卷積與多維數(shù)據(jù)增強(qiáng)模型、文獻(xiàn)[11]中的ANNamp;KNN模型、文獻(xiàn)[7]中的DeepESC模型、文獻(xiàn)[8]中的D-CNN模型的準(zhǔn)確率分別提高了37.26%、7.36%、3.81%、31.36%、15.86%和13.46%。
圖8為ESC-50數(shù)據(jù)集的模型混淆矩陣??梢杂^察到,如洗衣機(jī)、吸塵器等生活類噪音識(shí)別率較低,容易發(fā)生混淆;而其余類別的音頻識(shí)別率較高,如貓、海浪、雷雨等明確環(huán)境聲的識(shí)別率為100%。
由于驗(yàn)證集只有400條音頻,每個(gè)類別預(yù)測(cè)的樣本有限,因此上述的混淆矩陣識(shí)別率值并不能充分表達(dá)模型對(duì)該類別所預(yù)測(cè)的概率。模型是由model.predict函數(shù)返回每個(gè)測(cè)試集50種類別的概率,并輸出概率最大的標(biāo)簽作為結(jié)果,因此可以從模型對(duì)每個(gè)音頻所預(yù)測(cè)的精度分析模型對(duì)各個(gè)類別預(yù)測(cè)的效果。
表7為模型對(duì)ESC-50各個(gè)別類的預(yù)測(cè)精度,其中,烏鴉、敲門、警笛、手鋸等13個(gè)類別的預(yù)測(cè)精度在90%以上,說(shuō)明模型對(duì)此類音頻的特征學(xué)習(xí)充分;但同時(shí)可以發(fā)現(xiàn),牛、飲水、木門吱吱聲和洗衣機(jī)這5個(gè)類別的預(yù)測(cè)精度低于70%,說(shuō)明模型對(duì)這5個(gè)類別的音頻特征學(xué)習(xí)不夠充分,需要進(jìn)一步地提高分類器性能。
4" 結(jié)" 論
本文從一般卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)出發(fā),對(duì)卷積的方式、卷積的層數(shù),以及過(guò)渡層上進(jìn)行了改變,最終構(gòu)建的VGG16卷積模塊在堆疊層數(shù)為5的時(shí)候結(jié)合全局最大池化以及Mixup數(shù)據(jù)增強(qiáng)的聲學(xué)場(chǎng)景分類模型在ESC-50數(shù)據(jù)集上取得了81.56%的準(zhǔn)確率,驗(yàn)證了在使用該方法分類聲學(xué)場(chǎng)景時(shí)能夠提高準(zhǔn)確率與泛化能力。下一步工作可以繼續(xù)研究卷積網(wǎng)絡(luò)結(jié)構(gòu)以提升模型分類準(zhǔn)確率,以及盡可能減少模型參數(shù)量和模型大小,提高模型訓(xùn)練效率,并將其應(yīng)用到實(shí)際場(chǎng)景中。
參考文獻(xiàn):
[1] BARCHIESI D,GIANNOULIS D,STOWELL D,et al. Acoustic Scene Classification: Classifying Environments from the Sounds They Produce [J].IEEE Signal Processing Magazine,2015,32(3):16-34.
[2] 曹毅,費(fèi)鴻博,李平,等.基于多流卷積和數(shù)據(jù)增強(qiáng)的聲場(chǎng)景分類方法 [J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2022,50(4):40-46.
[3] 王麗,龔君,黃裕磊.一種基于雙路徑深度卷積網(wǎng)絡(luò)的聲場(chǎng)景分類方法研究 [J].電子器件,2021,44(2):417-422.
[4] PASEDDULA C,GANGASHETTY S V. Late Fusion Framework for Acoustic Scene Classification Using LPCC,SCMC,and Log-Mel Band Energies with Deep Neural Networks [J/OL].Applied Acoustics,2021,172:107568[2024-09-05].https://doi.org/10.1016/j.apacoust.2020.107568.
[5] AYTAR Y,VONDRICK C,TORRALBA A. SoundNet: Learning Sound Representations from Unlabeled Video [C]//NIPS'16: Proceedings of the 30th International Conference on Neural Information Processing Systems.Barcelona:Curran Associates Inc,2016:892-900.
[6] 韋娟,楊皇衛(wèi),寧方立.基于NMF與CNN聯(lián)合優(yōu)化的聲學(xué)場(chǎng)景分類 [J].系統(tǒng)工程與電子技術(shù),2022,44(5):1433-1438.
[7] 陰法明,王詩(shī)佳,趙力.Deep ESC網(wǎng)絡(luò)的環(huán)境聲分類方法研究 [J].聲學(xué)技術(shù),2019,38(5):590-593.
[8] ZHANG X H,ZOU Y X,WEI S. Dilated Convolution Neural Network with LeakyReLU for Environmental Sound Classification [C]//2017 22nd International Conference on Digital Signal Processing (DSP).London:IEEE,2017:1-5.
[9] PARK S Y,CARAGEA C. A Data Cartography based MixUp for Pre-trained Language Models [J/OL].arXiv:2205.03403 [cs.CL].[2024-09-20].https://doi.org/10.48550/arXiv.2205.03403.
[10] PICZAK K J. ESC: Dataset for Environmental Sound Classification [C]//MM'15: Proceedings of the 23rd ACM international conference on Multimedia.Brisbane:Association for Computing Machinery,2015:1015-1018.
[11] SILVA B D,HAPPI A W,BREAKEN A,et al. Evaluation of Classical Machine Learning Techniques towards Urban Sound Recognition on Embedded Systems [J/OL].Applied Sciences,2019,9(18):3885[2024-09-23].https://doi.org/10.3390/app9183885.
作者簡(jiǎn)介:伍谷馨(1999—),女,漢族,廣東廣州人,碩士生在讀,研究方向:信號(hào)處理;通信作者:胡異?。?974—),男,漢族,湖北武漢人,副教授,博士,研究方向:信號(hào)處理;楊棟(1982—),男,漢族,湖南長(zhǎng)沙人,副教授,博士,研究方向:工程信號(hào)處理。