亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于雙路徑深度卷積網(wǎng)絡(luò)的聲場景分類方法研究*

2021-05-21 01:20:00麗龔君黃裕磊

電子器件 2021年2期

王麗龔君黃裕磊

(1.正德職業(yè)技術(shù)學(xué)院機(jī)電工程系，江蘇南京 211106；2.東南大學(xué)信息科學(xué)與工程學(xué)院；江蘇南京 210096)

聲場景分類，就是訓(xùn)練計算機(jī)通過聲音中所包含的信息將聲音正確的劃分到其所屬的場景中，例如室內(nèi)環(huán)境(家中)或室外環(huán)境(公園)等。聲場景分類技術(shù)有著廣泛的應(yīng)用。在處理不同的聲音信號前，將聲音場景進(jìn)行分類，然后針對不同場景的聲音，采用不同的信號處理方式或者采用不同的參數(shù)來處理，可以帶來效率的巨大提升[1]，比如帶有聲場景分類功能的助聽器，能夠自動的識別出佩戴者所處的場景，并相應(yīng)的調(diào)整降噪、增強(qiáng)算法，實(shí)現(xiàn)智能的模式調(diào)整，無需佩戴者進(jìn)行人工調(diào)整[2]。聲場景分類算法也能應(yīng)用于環(huán)境感知設(shè)備[3]，如根據(jù)當(dāng)前聲場景自動調(diào)節(jié)模式的智能手機(jī)[4]。當(dāng)用戶進(jìn)入自習(xí)室等比較安靜的環(huán)境時，手機(jī)能夠自動設(shè)置為靜音模式，當(dāng)用戶處于街道、商場等較為嘈雜的環(huán)境中，手機(jī)自動將音量設(shè)置為匹配這種場景的大小，使得用戶不錯過重要信息[5]。隨著智能駕駛汽車的逐漸普及，聲場景分類技術(shù)也將發(fā)揮很大的作用。雖然近年來基于計算機(jī)視覺的自動駕駛技術(shù)[6-10]發(fā)展迅速，但是其存在一些明顯的不足:夜間檢測困難、視覺上存在死角、運(yùn)算量巨大等?；诼晫W(xué)場景分類的自動駕駛可以彌補(bǔ)視覺算法的不足，并且兩者可以起到互補(bǔ)作用。比如在夜間，自動駕駛的汽車在行駛過程中，通過收集車外的聲音進(jìn)行聲場景分類，然后根據(jù)分類的場景進(jìn)行駕駛模式的切換。總而言之，聲場景分類技術(shù)在多個領(lǐng)域都有著重大的作用，對聲場景分類進(jìn)行深入的研究具有十分重要的意義。

聲場景分類最開始屬于模式識別的一個子領(lǐng)域。上世紀(jì)九十年代，Sawhney 和Maes 首次提出了聲場景分類的概念[11]。他們錄制了一份包含人行道、地鐵、餐廳、公園、街道5 類聲場景的數(shù)據(jù)集，Sawhney 從錄制的音頻中提取了功率譜密度、相對光譜、濾波器組的頻帶3 類特征，之后采用k 最鄰近和循環(huán)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行分類，取得了68%的準(zhǔn)確率。20 世紀(jì)初期，機(jī)器學(xué)習(xí)領(lǐng)域快速發(fā)展，越來越多的學(xué)者嘗試使用機(jī)器學(xué)習(xí)的方法來進(jìn)行聲音場景的劃分。支持向量機(jī)、決策樹等機(jī)器學(xué)習(xí)算法逐漸替代傳統(tǒng)的HMM 模型，被廣泛的應(yīng)用在了聲場景分類和聲事件檢測任務(wù)中。同時，一些集成學(xué)習(xí)的方法如隨機(jī)森林、XGBoost 進(jìn)一步提升了聲場景分類的效果。2015 年，Phan 等人[12]將聲場景分類問題轉(zhuǎn)化為回歸問題，搭建了基于隨機(jī)森林回歸的模型，并在ITC-Irst 和UPC-TALP 2 個數(shù)據(jù)庫上分別將檢測錯誤率降低了6% 和10%。2012 年，在ImageNet 圖像分類競賽中，Krizhevsky[13]提出了AlexNet 模型并一舉獲得了冠軍。AlexNet 的巨大的成功，引發(fā)了深度學(xué)習(xí)的熱潮，研究者也逐漸開始將深度學(xué)習(xí)的方法引入到聲場景分類任務(wù)中。在近年來的聲學(xué)場景和事件檢測分類挑戰(zhàn)(Detection and Classification of Acoustic Scenes and Events，DCASE)競賽中，很多參賽者使用了卷積神經(jīng)網(wǎng)絡(luò)[14]、循環(huán)神經(jīng)網(wǎng)絡(luò)[15]、深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks，DNN)[16]并將這些模型與傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行集成，取得了很優(yōu)異的成果。比賽結(jié)果表明，對于聲場景分類任務(wù)，使用語譜圖作為輸入特征的CNN 模型可以達(dá)到比較好的效果。在DCASE2018 Task1A 聲場景分類競賽中，Sakashita 等人[17]提取了雙聲道音頻的mel 譜圖、諧波-沖擊分離(Harmonic-Percussive Source Separation，HPSS)音頻的mel 譜圖，并采取不同的圖像處理方式對譜圖進(jìn)行切分，然后利用改進(jìn)的視覺幾何群網(wǎng)絡(luò)(Visual Geometry Group Network，VGG16)網(wǎng)絡(luò)進(jìn)行分類，最終TUT Urban Acoustic Scenes 2018 數(shù)據(jù)集上達(dá)到了76.9%的準(zhǔn)確率并獲得了第一名[18]。

用于聲場景分類的音頻信號通常包含很多聲音事件，這些聲音事件往往是相互重疊的。提取音頻的頻譜圖然后利用CNN 模型進(jìn)行分類時容易發(fā)生過擬合現(xiàn)象，這是因為CNN 模型可能會將重疊的聲音事件認(rèn)定為聲學(xué)場景的代表模式，當(dāng)僅出現(xiàn)一種聲音事件時可能無法正確識別其場景。因此，提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法，首先利用中值濾波器將對數(shù)Mel 譜圖分層為2 個譜圖分量，每個譜圖分量包含特定類型的時頻模式。然后使用雙路徑的深度卷積神經(jīng)網(wǎng)絡(luò)對譜圖分量分別建模，在模型輸出前將雙路徑的特征圖進(jìn)行拼接，最后利用Softmax 層進(jìn)行分類。

1 聲場景分類理論基礎(chǔ)

如圖1 所示，聲場景分類系統(tǒng)主要由以下幾個模塊所組成:預(yù)處理模塊、特征提取模塊、分類器訓(xùn)練模塊和測試模塊。

圖1 聲場景分類系統(tǒng)結(jié)構(gòu)圖

預(yù)處理模塊是對輸入的音頻進(jìn)行預(yù)加重、分幀和加窗等處理，為后續(xù)的聲學(xué)特征提取模塊打下基礎(chǔ)。

特征提取模塊是整個聲場景分類系統(tǒng)構(gòu)建的核心，對系統(tǒng)的最終效果有著直接影響。特征決定了整個系統(tǒng)所能達(dá)到的最優(yōu)效果，聲學(xué)特征的提取對整個系統(tǒng)性能起著至關(guān)重要的作用。聲學(xué)特征可以分為時域特征和頻域特征2 大類，時域特征有短時能量、短時平均幅度、短時過零率、短時自相關(guān)等，頻率特征有傅里葉系數(shù)、功率譜、梅爾頻率倒譜系數(shù)等。針對深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)，還可以提取語音的語譜圖，然后按照構(gòu)建圖像分類器的方法來設(shè)計聲場景分類系統(tǒng)。

分類器訓(xùn)練模塊是整個系統(tǒng)最重要的一環(huán)。訓(xùn)練的大體過程如下:首先將從訓(xùn)練樣本中提取好的特征輸入分類器，分類器進(jìn)行運(yùn)算并預(yù)測樣本的標(biāo)簽，計算預(yù)測標(biāo)簽與真實(shí)類別之間的差距，求出損失函數(shù)，求出損失函數(shù)關(guān)于分類器可訓(xùn)練參數(shù)的導(dǎo)數(shù)，利用參數(shù)更新規(guī)則對模型參數(shù)進(jìn)行調(diào)整，反復(fù)進(jìn)行迭代直到模型的損失不再下降或者達(dá)到指定的訓(xùn)練迭代次數(shù)。對于聲場景分類任務(wù)，可以選擇的分類器有很多，如傳統(tǒng)的機(jī)器學(xué)習(xí)模型HMM、SVM 等，還可以使用深度學(xué)習(xí)模型如CNN，RNN 等。

測試模塊的主要任務(wù)是對訓(xùn)練所得到的分類器模型進(jìn)行測試。將類別已知的測試樣本依次輸入到分類器中，得出分類結(jié)果，統(tǒng)計分類正確率。

2 特征譜圖提取

2.1 對數(shù)Mel 譜圖提取

頻譜圖是對音頻信號進(jìn)行短時傅里葉變換(Short-Time Fourier transform，STFT)得到的一種二維譜圖，它的橫坐標(biāo)是時間軸，縱坐標(biāo)是頻率軸，譜圖中每個像素點(diǎn)的值表示相應(yīng)時刻、相應(yīng)頻率的能量密度。這種二維譜圖可以很好的反映出音頻中不同時刻、不同頻率的能量值強(qiáng)度，在聲場景分類中有著重要的應(yīng)用價值[19]。但是通過傅里葉變換求出的頻譜是線性的，與人類的聽覺感受不符，將其進(jìn)一步轉(zhuǎn)換為非線性的梅爾(Mel)頻率，可以更加符合人耳的聽覺特性。Mel 頻率的定義如下:

式中:f是頻率，單位為Hz。Mel 特征譜圖的求取過程如圖2 所示。

圖2 對數(shù)Mel 譜圖求取過程

具體過程如下:

(1)對輸入音頻進(jìn)行預(yù)處理，主要包括:預(yù)加重、分幀、加窗；

(2)對分幀后的信號進(jìn)行短時傅里葉變換，得到信號的頻譜；

(3)將信號的頻譜通過具有Mel 刻度的Mel 濾波器組，并對濾波器組的輸出取對數(shù)，得到對數(shù)Mel譜圖。

對數(shù)Mel 譜圖可以很好的反映出音頻的靜態(tài)特性，但是無法體現(xiàn)音頻動態(tài)特征。將Mel 譜圖求取差分可以得到一階差分Mel 譜圖，其能很好的體現(xiàn)出音頻的動態(tài)特征。而且可以進(jìn)一步對一階差分Mel 譜圖再次求取差分，得到二階差分Mel 譜圖，進(jìn)一步獲取更多的動態(tài)特征。將標(biāo)準(zhǔn)的對數(shù)Mel 譜圖和一階二階差分對數(shù)Mel 譜圖進(jìn)行拼接，形成3 通道融合譜圖作為系統(tǒng)的輸入。

2.2 譜特征分層算法

在圖像處理中，中值濾波器被廣泛用于抑制圖像中的脈沖噪聲。將中值濾波器應(yīng)用于提取到的對數(shù)Mel 譜圖，并沿著時間軸滑動，當(dāng)聲音事件的持續(xù)時長小于濾波器窗口一半時，該聲事件將被濾除。因此，提出了基于中值濾波器的特征譜圖分層方法，原理如下:

表1 基于中值濾波器的特征譜圖分層方法

通過上述譜圖分層方法，可以將原始的譜特征分層為2 個譜特征分量，每個分量中包含有不同持續(xù)時長的聲音事件，即代表這不同的時頻特性。

3 雙路徑深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

利用基于中值濾波器的特征譜圖分層方法將輸入音頻的對數(shù)Mel 譜圖劃分為2 個譜圖分量，每個分量包含特定的時頻模式。接下來針對每個分量利用卷積神經(jīng)網(wǎng)絡(luò)單獨(dú)的進(jìn)行建模，以更好地利用分層時頻特征。深度卷積神經(jīng)網(wǎng)絡(luò)有2 條平行的路徑，每個路徑對一個譜圖分量建模，如圖3 所示。在求取音頻的對數(shù)Mel 譜圖時，采用的Mel 濾波器的個數(shù)為128 個，因此輸入網(wǎng)絡(luò)的融合特征譜圖在頻率軸上的大小也是128。采用包含17 個卷積層的殘差網(wǎng)絡(luò)進(jìn)行處理，這些卷積層的卷積核大小均為3×3。經(jīng)過殘差網(wǎng)絡(luò)之后，將2 個路徑的特征圖在通道維度上進(jìn)行拼接，形成最終的特征圖。最后，依次通過批歸一化層(Batch Normalization，BN)、1×1的卷積層、全連接層、Softmax 層進(jìn)行分類。

圖3 雙路徑深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

4 實(shí)驗驗證

4.1 實(shí)驗參數(shù)設(shè)置

為了驗證所提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法的有效性，在TUT 數(shù)據(jù)集上進(jìn)行了多組實(shí)驗進(jìn)行對比驗證。TUT 數(shù)據(jù)集包含機(jī)場、公共汽車、地鐵、地鐵站、公園、廣場、購物商場、步行街道、交通街道、電車軌道10 類聲場景，共14 400 條音頻數(shù)據(jù)。該數(shù)據(jù)集在12 個大型歐洲城市阿姆斯特丹、巴塞羅那、赫爾辛基、里斯本、倫敦、里昂、馬德里、米蘭、布拉格、巴黎、斯德哥爾摩和維也納錄制。

TUT 數(shù)據(jù)集中音頻樣本的采樣率為48 kHz，每段音頻長10 s。首先對音頻進(jìn)行分幀，幀長為2 048個采樣點(diǎn)(約為43 ms)，幀重疊率為50%，因此每段音頻可分為469 幀。對分幀后的音頻計算2 048 點(diǎn)的FFT，之后再通過包含128 個濾波器的Mel 濾波器組并取對數(shù)，得到最終的對數(shù)Mel 譜圖，每張Mel譜圖的大小為(469，128)。再對進(jìn)一步對對數(shù)Mel譜圖求取差分，得到一階和二階差分Mel 譜圖。實(shí)驗中，利用LibROSA 庫函數(shù)實(shí)現(xiàn)了原始音頻、沖擊源、諧波源的對數(shù)Mel 譜圖的求取，最后的融合譜圖大小為(469，128，9)。

提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法的訓(xùn)練設(shè)備為 Nvidia GTX1080Ti 顯卡(顯存為11GB)。雙路徑深度卷積神經(jīng)網(wǎng)絡(luò)使用帶動量的隨機(jī)梯度下降算法進(jìn)行優(yōu)化，動量大小為0.9，batchsize 為32。模型使用學(xué)習(xí)率熱重啟機(jī)制訓(xùn)練了270個epoch，在訓(xùn)練2、6、14、30、126 和254 個epoch 后將學(xué)習(xí)速率重置為其最大值的0.1，然后余弦衰減至1×10-5。

4.2 實(shí)驗結(jié)果與分析

為了對比所提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法和傳統(tǒng)機(jī)器學(xué)習(xí)方法的分類效果，測試了高斯混合模型(GMM)、隱馬爾可夫模型(HMM)、支撐向量機(jī)(SVM)、隨機(jī)森林(RF)在TUT 數(shù)據(jù)集上的分類效果。首先，通過開源軟件openSMILE 從每段音頻信號中提取988 維的特征向量，其中包括26類聲學(xué)特征，主要有音頻的強(qiáng)度、響度、12 階的MFCC、過零率、基音頻率等，以及每種特征的均值、最值、標(biāo)準(zhǔn)差、方差等統(tǒng)計量。然后將988 維的特征向量作為上述4 種機(jī)器學(xué)習(xí)模型的輸入特征，最終通過網(wǎng)格搜索法獲得4 類模型的最佳參數(shù)。

對于GMM、HMM、SVM、RF 分類模型，采用第4節(jié)介紹的988 維特征向量作為輸入特征。通過網(wǎng)格搜索法獲得GMM 模型的最佳參數(shù)為:高斯混合模型的個數(shù)為12 個；采用‘full’模式，即每個高斯分布具有不同的標(biāo)準(zhǔn)協(xié)方差矩陣；采用K-Means 的方式對模型的參數(shù)進(jìn)行初始化。對于SVM 模型，搜索懲罰系數(shù)、核函數(shù)、決策方式這3 個重要參數(shù)的最佳取值。最優(yōu)SVM 模型的懲罰系數(shù)為1.8，采用高斯核函數(shù)，分類方式為OVO。RF 模型的最優(yōu)參數(shù)為:森林中包含的決策樹個數(shù)為200，決策數(shù)在進(jìn)行節(jié)點(diǎn)分裂時采用基尼指數(shù)作為最優(yōu)特征選擇標(biāo)準(zhǔn)，決策樹內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)為10，每棵決策樹葉子節(jié)點(diǎn)最少樣本數(shù)為25。上述4 種模型和所提出的方法在TUT 測試集上各類別的準(zhǔn)確率如表2所示。

表2 5 類聲場景分類方法分類結(jié)果

提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法在TUT 測試集上的分類混淆矩陣如圖4 所示。

圖4 基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法分類混淆矩陣

通過上述實(shí)驗結(jié)果可知，GMM 模型在TUT 測試數(shù)據(jù)上的平均類別準(zhǔn)確率為59.8%。機(jī)場場景的分類準(zhǔn)確率最高為76.9%，步行街道場景的準(zhǔn)確率最低，僅為44.5%。HMM 模型的平均類別準(zhǔn)確率為58.1%。機(jī)場場景的分類準(zhǔn)確率最高為66.4%，步行街道場景的準(zhǔn)確率最低為53.2%，且每個類別的準(zhǔn)確率較為接近相差不大。SVM 模型的各類別準(zhǔn)確率較為接近，平均類別準(zhǔn)確率為62.2%。公交場景的分類準(zhǔn)確率最高為68.1%，公共廣場場景的準(zhǔn)確率最低為59.3%。RF 模型在TUT 測試數(shù)據(jù)上的平均類別準(zhǔn)確率為61.3%。公共廣場場景的分類準(zhǔn)確率最高為68.2%，電車軌道場景的準(zhǔn)確率最低為52.7%?；诰矸e神經(jīng)網(wǎng)絡(luò)的聲場景分類方法的平均類別準(zhǔn)確率為79.2%，明顯高于其他4 類機(jī)器學(xué)習(xí)方法，并且在除公共廣場外的9 類聲場景中，分類效果都有顯著提升。

5 結(jié)論

基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法被提出。首先提取音頻的對數(shù)Mel 譜圖及其一階二階差分譜圖并在通道維度上進(jìn)行拼接，隨后利用中值濾波器對融合譜圖進(jìn)行分層，得到2 個融合譜圖分量。然后搭建了雙路徑深度卷積神經(jīng)網(wǎng)絡(luò)，分別對每個譜圖分量進(jìn)行建模，并在系統(tǒng)輸出前將2 個路徑獲得的特征圖進(jìn)行融合，最后通過全連接層進(jìn)行分類。為了證明所提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法有效性，在TUT 數(shù)據(jù)集上設(shè)計了實(shí)驗進(jìn)行驗證。分別利用GMM、HMM、SVM、RF 4 類傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法對TUT 數(shù)據(jù)集進(jìn)行建模，通過在測試集上的分類結(jié)果可知，基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法的分類準(zhǔn)確率明顯高于其他4 種機(jī)器學(xué)習(xí)方法。