亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于雙路徑深度卷積網(wǎng)絡(luò)的聲場景分類方法研究*

        2021-05-21 01:20:00麗龔君黃裕磊
        電子器件 2021年2期
        關(guān)鍵詞:對數(shù)音頻濾波器

        王 麗龔 君黃裕磊

        (1.正德職業(yè)技術(shù)學(xué)院機(jī)電工程系,江蘇南京 211106;2.東南大學(xué)信息科學(xué)與工程學(xué)院;江蘇南京 210096)

        聲場景分類,就是訓(xùn)練計算機(jī)通過聲音中所包含的信息將聲音正確的劃分到其所屬的場景中,例如室內(nèi)環(huán)境(家中)或室外環(huán)境(公園)等。聲場景分類技術(shù)有著廣泛的應(yīng)用。在處理不同的聲音信號前,將聲音場景進(jìn)行分類,然后針對不同場景的聲音,采用不同的信號處理方式或者采用不同的參數(shù)來處理,可以帶來效率的巨大提升[1],比如帶有聲場景分類功能的助聽器,能夠自動的識別出佩戴者所處的場景,并相應(yīng)的調(diào)整降噪、增強(qiáng)算法,實(shí)現(xiàn)智能的模式調(diào)整,無需佩戴者進(jìn)行人工調(diào)整[2]。聲場景分類算法也能應(yīng)用于環(huán)境感知設(shè)備[3],如根據(jù)當(dāng)前聲場景自動調(diào)節(jié)模式的智能手機(jī)[4]。當(dāng)用戶進(jìn)入自習(xí)室等比較安靜的環(huán)境時,手機(jī)能夠自動設(shè)置為靜音模式,當(dāng)用戶處于街道、商場等較為嘈雜的環(huán)境中,手機(jī)自動將音量設(shè)置為匹配這種場景的大小,使得用戶不錯過重要信息[5]。隨著智能駕駛汽車的逐漸普及,聲場景分類技術(shù)也將發(fā)揮很大的作用。雖然近年來基于計算機(jī)視覺的自動駕駛技術(shù)[6-10]發(fā)展迅速,但是其存在一些明顯的不足:夜間檢測困難、視覺上存在死角、運(yùn)算量巨大等?;诼晫W(xué)場景分類的自動駕駛可以彌補(bǔ)視覺算法的不足,并且兩者可以起到互補(bǔ)作用。比如在夜間,自動駕駛的汽車在行駛過程中,通過收集車外的聲音進(jìn)行聲場景分類,然后根據(jù)分類的場景進(jìn)行駕駛模式的切換。總而言之,聲場景分類技術(shù)在多個領(lǐng)域都有著重大的作用,對聲場景分類進(jìn)行深入的研究具有十分重要的意義。

        聲場景分類最開始屬于模式識別的一個子領(lǐng)域。上世紀(jì)九十年代,Sawhney 和Maes 首次提出了聲場景分類的概念[11]。他們錄制了一份包含人行道、地鐵、餐廳、公園、街道5 類聲場景的數(shù)據(jù)集,Sawhney 從錄制的音頻中提取了功率譜密度、相對光譜、濾波器組的頻帶3 類特征,之后采用k 最鄰近和循環(huán)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行分類,取得了68%的準(zhǔn)確率。20 世紀(jì)初期,機(jī)器學(xué)習(xí)領(lǐng)域快速發(fā)展,越來越多的學(xué)者嘗試使用機(jī)器學(xué)習(xí)的方法來進(jìn)行聲音場景的劃分。支持向量機(jī)、決策樹等機(jī)器學(xué)習(xí)算法逐漸替代傳統(tǒng)的HMM 模型,被廣泛的應(yīng)用在了聲場景分類和聲事件檢測任務(wù)中。同時,一些集成學(xué)習(xí)的方法如隨機(jī)森林、XGBoost 進(jìn)一步提升了聲場景分類的效果。2015 年,Phan 等人[12]將聲場景分類問題轉(zhuǎn)化為回歸問題,搭建了基于隨機(jī)森林回歸的模型,并在ITC-Irst 和UPC-TALP 2 個數(shù)據(jù)庫上分別將檢測錯誤率降低了6% 和10%。2012 年,在ImageNet 圖像分類競賽中,Krizhevsky[13]提出了AlexNet 模型并一舉獲得了冠軍。AlexNet 的巨大的成功,引發(fā)了深度學(xué)習(xí)的熱潮,研究者也逐漸開始將深度學(xué)習(xí)的方法引入到聲場景分類任務(wù)中。在近年來的聲學(xué)場景和事件檢測分類挑戰(zhàn)(Detection and Classification of Acoustic Scenes and Events,DCASE)競賽中,很多參賽者使用了卷積神經(jīng)網(wǎng)絡(luò)[14]、循環(huán)神經(jīng)網(wǎng)絡(luò)[15]、深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)[16]并將這些模型與傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行集成,取得了很優(yōu)異的成果。比賽結(jié)果表明,對于聲場景分類任務(wù),使用語譜圖作為輸入特征的CNN 模型可以達(dá)到比較好的效果。在DCASE2018 Task1A 聲場景分類競賽中,Sakashita 等人[17]提取了雙聲道音頻的mel 譜圖、諧波-沖擊分離(Harmonic-Percussive Source Separation,HPSS)音頻的mel 譜圖,并采取不同的圖像處理方式對譜圖進(jìn)行切分,然后利用改進(jìn)的視覺幾何群網(wǎng)絡(luò)(Visual Geometry Group Network,VGG16)網(wǎng)絡(luò)進(jìn)行分類,最終TUT Urban Acoustic Scenes 2018 數(shù)據(jù)集上達(dá)到了76.9%的準(zhǔn)確率并獲得了第一名[18]。

        用于聲場景分類的音頻信號通常包含很多聲音事件,這些聲音事件往往是相互重疊的。提取音頻的頻譜圖然后利用CNN 模型進(jìn)行分類時容易發(fā)生過擬合現(xiàn)象,這是因為CNN 模型可能會將重疊的聲音事件認(rèn)定為聲學(xué)場景的代表模式,當(dāng)僅出現(xiàn)一種聲音事件時可能無法正確識別其場景。因此,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法,首先利用中值濾波器將對數(shù)Mel 譜圖分層為2 個譜圖分量,每個譜圖分量包含特定類型的時頻模式。然后使用雙路徑的深度卷積神經(jīng)網(wǎng)絡(luò)對譜圖分量分別建模,在模型輸出前將雙路徑的特征圖進(jìn)行拼接,最后利用Softmax 層進(jìn)行分類。

        1 聲場景分類理論基礎(chǔ)

        如圖1 所示,聲場景分類系統(tǒng)主要由以下幾個模塊所組成:預(yù)處理模塊、特征提取模塊、分類器訓(xùn)練模塊和測試模塊。

        圖1 聲場景分類系統(tǒng)結(jié)構(gòu)圖

        預(yù)處理模塊是對輸入的音頻進(jìn)行預(yù)加重、分幀和加窗等處理,為后續(xù)的聲學(xué)特征提取模塊打下基礎(chǔ)。

        特征提取模塊是整個聲場景分類系統(tǒng)構(gòu)建的核心,對系統(tǒng)的最終效果有著直接影響。特征決定了整個系統(tǒng)所能達(dá)到的最優(yōu)效果,聲學(xué)特征的提取對整個系統(tǒng)性能起著至關(guān)重要的作用。聲學(xué)特征可以分為時域特征和頻域特征2 大類,時域特征有短時能量、短時平均幅度、短時過零率、短時自相關(guān)等,頻率特征有傅里葉系數(shù)、功率譜、梅爾頻率倒譜系數(shù)等。針對深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò),還可以提取語音的語譜圖,然后按照構(gòu)建圖像分類器的方法來設(shè)計聲場景分類系統(tǒng)。

        分類器訓(xùn)練模塊是整個系統(tǒng)最重要的一環(huán)。訓(xùn)練的大體過程如下:首先將從訓(xùn)練樣本中提取好的特征輸入分類器,分類器進(jìn)行運(yùn)算并預(yù)測樣本的標(biāo)簽,計算預(yù)測標(biāo)簽與真實(shí)類別之間的差距,求出損失函數(shù),求出損失函數(shù)關(guān)于分類器可訓(xùn)練參數(shù)的導(dǎo)數(shù),利用參數(shù)更新規(guī)則對模型參數(shù)進(jìn)行調(diào)整,反復(fù)進(jìn)行迭代直到模型的損失不再下降或者達(dá)到指定的訓(xùn)練迭代次數(shù)。對于聲場景分類任務(wù),可以選擇的分類器有很多,如傳統(tǒng)的機(jī)器學(xué)習(xí)模型HMM、SVM 等,還可以使用深度學(xué)習(xí)模型如CNN,RNN 等。

        測試模塊的主要任務(wù)是對訓(xùn)練所得到的分類器模型進(jìn)行測試。將類別已知的測試樣本依次輸入到分類器中,得出分類結(jié)果,統(tǒng)計分類正確率。

        2 特征譜圖提取

        2.1 對數(shù)Mel 譜圖提取

        頻譜圖是對音頻信號進(jìn)行短時傅里葉變換(Short-Time Fourier transform,STFT)得到的一種二維譜圖,它的橫坐標(biāo)是時間軸,縱坐標(biāo)是頻率軸,譜圖中每個像素點(diǎn)的值表示相應(yīng)時刻、相應(yīng)頻率的能量密度。這種二維譜圖可以很好的反映出音頻中不同時刻、不同頻率的能量值強(qiáng)度,在聲場景分類中有著重要的應(yīng)用價值[19]。但是通過傅里葉變換求出的頻譜是線性的,與人類的聽覺感受不符,將其進(jìn)一步轉(zhuǎn)換為非線性的梅爾(Mel)頻率,可以更加符合人耳的聽覺特性。Mel 頻率的定義如下:

        式中:f是頻率,單位為Hz。Mel 特征譜圖的求取過程如圖2 所示。

        圖2 對數(shù)Mel 譜圖求取過程

        具體過程如下:

        (1)對輸入音頻進(jìn)行預(yù)處理,主要包括:預(yù)加重、分幀、加窗;

        (2)對分幀后的信號進(jìn)行短時傅里葉變換,得到信號的頻譜;

        (3)將信號的頻譜通過具有Mel 刻度的Mel 濾波器組,并對濾波器組的輸出取對數(shù),得到對數(shù)Mel譜圖。

        對數(shù)Mel 譜圖可以很好的反映出音頻的靜態(tài)特性,但是無法體現(xiàn)音頻動態(tài)特征。將Mel 譜圖求取差分可以得到一階差分Mel 譜圖,其能很好的體現(xiàn)出音頻的動態(tài)特征。而且可以進(jìn)一步對一階差分Mel 譜圖再次求取差分,得到二階差分Mel 譜圖,進(jìn)一步獲取更多的動態(tài)特征。將標(biāo)準(zhǔn)的對數(shù)Mel 譜圖和一階二階差分對數(shù)Mel 譜圖進(jìn)行拼接,形成3 通道融合譜圖作為系統(tǒng)的輸入。

        2.2 譜特征分層算法

        在圖像處理中,中值濾波器被廣泛用于抑制圖像中的脈沖噪聲。將中值濾波器應(yīng)用于提取到的對數(shù)Mel 譜圖,并沿著時間軸滑動,當(dāng)聲音事件的持續(xù)時長小于濾波器窗口一半時,該聲事件將被濾除。因此,提出了基于中值濾波器的特征譜圖分層方法,原理如下:

        表1 基于中值濾波器的特征譜圖分層方法

        通過上述譜圖分層方法,可以將原始的譜特征分層為2 個譜特征分量,每個分量中包含有不同持續(xù)時長的聲音事件,即代表這不同的時頻特性。

        3 雙路徑深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        利用基于中值濾波器的特征譜圖分層方法將輸入音頻的對數(shù)Mel 譜圖劃分為2 個譜圖分量,每個分量包含特定的時頻模式。接下來針對每個分量利用卷積神經(jīng)網(wǎng)絡(luò)單獨(dú)的進(jìn)行建模,以更好地利用分層時頻特征。深度卷積神經(jīng)網(wǎng)絡(luò)有2 條平行的路徑,每個路徑對一個譜圖分量建模,如圖3 所示。在求取音頻的對數(shù)Mel 譜圖時,采用的Mel 濾波器的個數(shù)為128 個,因此輸入網(wǎng)絡(luò)的融合特征譜圖在頻率軸上的大小也是128。采用包含17 個卷積層的殘差網(wǎng)絡(luò)進(jìn)行處理,這些卷積層的卷積核大小均為3×3。經(jīng)過殘差網(wǎng)絡(luò)之后,將2 個路徑的特征圖在通道維度上進(jìn)行拼接,形成最終的特征圖。最后,依次通過批歸一化層(Batch Normalization,BN)、1×1的卷積層、全連接層、Softmax 層進(jìn)行分類。

        圖3 雙路徑深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

        4 實(shí)驗驗證

        4.1 實(shí)驗參數(shù)設(shè)置

        為了驗證所提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法的有效性,在TUT 數(shù)據(jù)集上進(jìn)行了多組實(shí)驗進(jìn)行對比驗證。TUT 數(shù)據(jù)集包含機(jī)場、公共汽車、地鐵、地鐵站、公園、廣場、購物商場、步行街道、交通街道、電車軌道10 類聲場景,共14 400 條音頻數(shù)據(jù)。該數(shù)據(jù)集在12 個大型歐洲城市阿姆斯特丹、巴塞羅那、赫爾辛基、里斯本、倫敦、里昂、馬德里、米蘭、布拉格、巴黎、斯德哥爾摩和維也納錄制。

        TUT 數(shù)據(jù)集中音頻樣本的采樣率為48 kHz,每段音頻長10 s。首先對音頻進(jìn)行分幀,幀長為2 048個采樣點(diǎn)(約為43 ms),幀重疊率為50%,因此每段音頻可分為469 幀。對分幀后的音頻計算2 048 點(diǎn)的FFT,之后再通過包含128 個濾波器的Mel 濾波器組并取對數(shù),得到最終的對數(shù)Mel 譜圖,每張Mel譜圖的大小為(469,128)。再對進(jìn)一步對對數(shù)Mel譜圖求取差分,得到一階和二階差分Mel 譜圖。實(shí)驗中,利用LibROSA 庫函數(shù)實(shí)現(xiàn)了原始音頻、沖擊源、諧波源的對數(shù)Mel 譜圖的求取,最后的融合譜圖大小為(469,128,9)。

        提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法的訓(xùn)練設(shè)備為 Nvidia GTX1080Ti 顯卡(顯存為11GB)。雙路徑深度卷積神經(jīng)網(wǎng)絡(luò)使用帶動量的隨機(jī)梯度下降算法進(jìn)行優(yōu)化,動量大小為0.9,batchsize 為32。模型使用學(xué)習(xí)率熱重啟機(jī)制訓(xùn)練了270個epoch,在訓(xùn)練2、6、14、30、126 和254 個epoch 后將學(xué)習(xí)速率重置為其最大值的0.1,然后余弦衰減至1×10-5。

        4.2 實(shí)驗結(jié)果與分析

        為了對比所提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法和傳統(tǒng)機(jī)器學(xué)習(xí)方法的分類效果,測試了高斯混合模型(GMM)、隱馬爾可夫模型(HMM)、支撐向量機(jī)(SVM)、隨機(jī)森林(RF)在TUT 數(shù)據(jù)集上的分類效果。首先,通過開源軟件openSMILE 從每段音頻信號中提取988 維的特征向量,其中包括26類聲學(xué)特征,主要有音頻的強(qiáng)度、響度、12 階的MFCC、過零率、基音頻率等,以及每種特征的均值、最值、標(biāo)準(zhǔn)差、方差等統(tǒng)計量。然后將988 維的特征向量作為上述4 種機(jī)器學(xué)習(xí)模型的輸入特征,最終通過網(wǎng)格搜索法獲得4 類模型的最佳參數(shù)。

        對于GMM、HMM、SVM、RF 分類模型,采用第4節(jié)介紹的988 維特征向量作為輸入特征。通過網(wǎng)格搜索法獲得GMM 模型的最佳參數(shù)為:高斯混合模型的個數(shù)為12 個;采用‘full’模式,即每個高斯分布具有不同的標(biāo)準(zhǔn)協(xié)方差矩陣;采用K-Means 的方式對模型的參數(shù)進(jìn)行初始化。對于SVM 模型,搜索懲罰系數(shù)、核函數(shù)、決策方式這3 個重要參數(shù)的最佳取值。最優(yōu)SVM 模型的懲罰系數(shù)為1.8,采用高斯核函數(shù),分類方式為OVO。RF 模型的最優(yōu)參數(shù)為:森林中包含的決策樹個數(shù)為200,決策數(shù)在進(jìn)行節(jié)點(diǎn)分裂時采用基尼指數(shù)作為最優(yōu)特征選擇標(biāo)準(zhǔn),決策樹內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)為10,每棵決策樹葉子節(jié)點(diǎn)最少樣本數(shù)為25。上述4 種模型和所提出的方法在TUT 測試集上各類別的準(zhǔn)確率如表2所示。

        表2 5 類聲場景分類方法分類結(jié)果

        提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法在TUT 測試集上的分類混淆矩陣如圖4 所示。

        圖4 基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法分類混淆矩陣

        通過上述實(shí)驗結(jié)果可知,GMM 模型在TUT 測試數(shù)據(jù)上的平均類別準(zhǔn)確率為59.8%。機(jī)場場景的分類準(zhǔn)確率最高為76.9%,步行街道場景的準(zhǔn)確率最低,僅為44.5%。HMM 模型的平均類別準(zhǔn)確率為58.1%。機(jī)場場景的分類準(zhǔn)確率最高為66.4%,步行街道場景的準(zhǔn)確率最低為53.2%,且每個類別的準(zhǔn)確率較為接近相差不大。SVM 模型的各類別準(zhǔn)確率較為接近,平均類別準(zhǔn)確率為62.2%。公交場景的分類準(zhǔn)確率最高為68.1%,公共廣場場景的準(zhǔn)確率最低為59.3%。RF 模型在TUT 測試數(shù)據(jù)上的平均類別準(zhǔn)確率為61.3%。公共廣場場景的分類準(zhǔn)確率最高為68.2%,電車軌道場景的準(zhǔn)確率最低為52.7%?;诰矸e神經(jīng)網(wǎng)絡(luò)的聲場景分類方法的平均類別準(zhǔn)確率為79.2%,明顯高于其他4 類機(jī)器學(xué)習(xí)方法,并且在除公共廣場外的9 類聲場景中,分類效果都有顯著提升。

        5 結(jié)論

        基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法被提出。首先提取音頻的對數(shù)Mel 譜圖及其一階二階差分譜圖并在通道維度上進(jìn)行拼接,隨后利用中值濾波器對融合譜圖進(jìn)行分層,得到2 個融合譜圖分量。然后搭建了雙路徑深度卷積神經(jīng)網(wǎng)絡(luò),分別對每個譜圖分量進(jìn)行建模,并在系統(tǒng)輸出前將2 個路徑獲得的特征圖進(jìn)行融合,最后通過全連接層進(jìn)行分類。為了證明所提出的基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法有效性,在TUT 數(shù)據(jù)集上設(shè)計了實(shí)驗進(jìn)行驗證。分別利用GMM、HMM、SVM、RF 4 類傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法對TUT 數(shù)據(jù)集進(jìn)行建模,通過在測試集上的分類結(jié)果可知,基于卷積神經(jīng)網(wǎng)絡(luò)的聲場景分類方法的分類準(zhǔn)確率明顯高于其他4 種機(jī)器學(xué)習(xí)方法。

        猜你喜歡
        對數(shù)音頻濾波器
        基于無擾濾波器和AED-ADT的無擾切換控制
        含有對數(shù)非線性項Kirchhoff方程多解的存在性
        指數(shù)與對數(shù)
        指數(shù)與對數(shù)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        對數(shù)簡史
        開關(guān)電源EMI濾波器的應(yīng)用方法探討
        電子制作(2018年16期)2018-09-26 03:26:50
        音頻分析儀中低失真音頻信號的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        亚洲狠狠网站色噜噜| 国产三级a三级三级| 性xxxx18免费观看视频| 秋霞午夜无码鲁丝片午夜精品| а的天堂网最新版在线| 亚洲精品中文字幕91| 又色又爽又黄的视频软件app| 吃奶摸下的激烈视频| 国产va在线播放| 国产女人精品一区二区三区 | 国产亚洲精品90在线视频| 欧美亚洲国产一区二区三区| 麻豆国产人妻欲求不满| 蜜桃av观看亚洲一区二区| 日本高清视频在线观看一区二区 | 国产乱子伦精品免费女| 亚洲人妻精品一区二区三区| 日本第一区二区三区视频| 日本免费看片一区二区三区| 妺妺窝人体色www聚色窝仙踪| 久久久久无码国产精品不卡| 国产经典免费视频在线观看| 国产饥渴的富婆一凶二区| 被黑人猛烈30分钟视频| 亞洲綜合一區二區三區無碼| 99久久精品国产一区色| 无码精品一区二区三区在线| 亚洲国产av导航第一福利网| 免费无遮挡毛片中文字幕| 区一区二区三区四视频在线观看| 亚洲成a人片在线观看无码3d| 青青视频一区| 中文天堂一区二区三区| 欧美乱妇高清无乱码免费| 久久伊人色av天堂九九| 日韩激情网| 美女视频在线观看网址大全| 亚洲精品无码国产| 亚洲午夜成人片| 国产伦理一区二区久久精品| 日本真人做爰免费视频120秒|