亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        DenseNet結(jié)合空間通道注意力機制的環(huán)境聲音分類

        2023-12-12 04:26:12董紹江
        重慶理工大學學報(自然科學) 2023年11期
        關(guān)鍵詞:注意力準確率卷積

        董紹江,劉 偉

        (重慶交通大學 機電與車輛工程學院, 重慶 400074)

        0 引言

        人類周圍的聲音大致可以分為3類:環(huán)境聲音[1]、音樂、語音,因此智能聲音識別(ISR)包括環(huán)境聲音分類(ESC)、音樂信息識別(MIR)和自動語音識別(ASR)。其中,ESC在生活中應(yīng)用十分廣闊,常應(yīng)用于電力設(shè)備[2]、醫(yī)院和地鐵站的異常監(jiān)測等場景。但是,環(huán)境聲音具有復(fù)雜變化的時頻特性,因此ESC比MIR和ASR更難。

        針對上述問題,許多學者對ESC進行了大量的研究??傮w而言,ESC主要由特征提取和分類網(wǎng)絡(luò)兩部分組成,通過計算獲得過零率(ZCR)[3]和梅爾頻率倒譜系數(shù)(MFCC)[4]等特征表示,然后通過矩陣分解、支持向量機等機器學習模型進行特征提取,但是通常這類方法比較耗時且缺乏創(chuàng)新性。

        注意力機制在很多領(lǐng)域都有應(yīng)用,如目標檢測、數(shù)據(jù)挖掘等。在環(huán)境聲音識別領(lǐng)域,Tripathi等[5]將神經(jīng)網(wǎng)絡(luò)與注意力機制結(jié)合,在ESC數(shù)據(jù)集中取得了相當好的結(jié)果。SE[6]模塊是通道注意力機制,而CBAM[7]模塊是空間通道注意力機制,它們都屬于典型的注意力機制。其中,通道注意力機制首先會計算不同特征通道的重要程度,然后分配相應(yīng)的權(quán)重以適配通道的重要性,但是SE注意力機制模塊會將二維特征圖壓縮為一維,這會導(dǎo)致某些空間位置信息丟失??臻g通道注意力機制除了利用不同通道特征外,還利用不同空間位置信息,一定程度上是優(yōu)于通道注意力機制的。

        為了充分利用從環(huán)境聲中提取的Log-Mel譜圖的空間與通道相關(guān)性,提出了一種基于密集連接卷積網(wǎng)絡(luò)(DenseNet)的空間通道注意力機制,可以使網(wǎng)絡(luò)模型更加關(guān)注語義相關(guān)和突出的特征,從而提高ESC算法分類準確率。此外,為了解決聲音數(shù)據(jù)不足引起的模型過擬合現(xiàn)象,將混合在線數(shù)據(jù)增強方法應(yīng)用于Log-Mel譜圖,并在2個公開數(shù)據(jù)集ESC-50和ESC-10上測試驗證了所提方法的適用性。結(jié)果表明,提出的空間通道注意力機制模型能夠使神經(jīng)網(wǎng)絡(luò)更加關(guān)注顯著特征。

        1 方法

        1.1 頻譜特征提取

        在給定環(huán)境聲音信號的場景下,采用Librosa庫[8]提取LogMel譜圖。窗口長度設(shè)置為2 048,步長設(shè)置為512,梅爾濾波器的數(shù)量設(shè)置為128,最后將像素值限制在0~255。經(jīng)過上述步驟后,將ESC-10和ESC-50數(shù)據(jù)集的Log-Mel譜圖大小設(shè)置為128*431*1(對應(yīng)頻率*時間*通道數(shù)),然后將特征譜圖作為網(wǎng)絡(luò)的輸入。ESC-50數(shù)據(jù)集的Log-Mel譜圖示例如圖1所示。

        圖1 ESC-50數(shù)據(jù)集的Log-Mel譜圖示例

        1.2 網(wǎng)絡(luò)結(jié)構(gòu)

        因為密集連接卷積網(wǎng)絡(luò)[9](DenseNet)在圖像識別領(lǐng)域有成功應(yīng)用的先例,所以提出了基于DenseNet的網(wǎng)絡(luò)結(jié)構(gòu)。DenseNet的本質(zhì)是增加后續(xù)層輸入的變量,并通過連接不同層學習的特征圖來提高效率。圖2為DenseNet的主要結(jié)構(gòu)。

        圖2 DenseNet的主要結(jié)構(gòu)

        具體來說,第N層將先前層F0、…、FN-1處理后的特征圖作為輸入:

        FN=HN[concat(F0,F1,…,FN-1)]

        (1)

        式中:concat是沿通道進行的拼接操作;HN被定義為3種連續(xù)操作的復(fù)合函數(shù),即批量歸一化(BN)、線性整流函數(shù)(ReLU)和卷積核大小為(3,3)的卷積操作。對densnet網(wǎng)絡(luò)不同層的描述如表1所示。

        表1 對densnet網(wǎng)絡(luò)不同層的描述

        表1中的每個“conv”層表示順序操作BN-ReLU-Conv,其中網(wǎng)絡(luò)的輸出層包含的節(jié)點等于不同數(shù)據(jù)集中種類數(shù)。圖3為所提出的網(wǎng)絡(luò)模型框架。

        圖3 網(wǎng)絡(luò)模型框架

        1.3 注意力模型

        1.3.1空間注意力模型

        當環(huán)境聲音受到無聲片段影響時,意味著應(yīng)該為相應(yīng)的幀級特征分配不同的權(quán)重。為了解決ESC中普遍存在的問題,引入了空間注意力模塊來關(guān)注特征圖的空間位置信息,從而提高ESC中網(wǎng)絡(luò)的性能??臻g注意力模型如圖4所示。

        圖4 空間注意力模型

        獲得空間注意力特征圖的主要步驟如下:

        將一個大小為(H*W*C)的特征圖M輸入網(wǎng)絡(luò),通過卷積核(H*1)和(1*W)分別沿橫軸和縱軸對每個通道進行編碼,因此第c通道在頻率h,時間w處的輸出可表示為:

        (2)

        (3)

        將式(2)和式(3)得到的特征圖進行拼接,最后進行卷積運算,如式(4)所示。

        (4)

        式中:ReLU為激活函數(shù);conv為一種卷積運算,卷積核大小為(1,1);BN為批量歸一化;f∈R(H+W)C/r是融合特征圖,涵蓋2個方向上的空間信息,即水平和垂直方向;r為沿通道維度的壓縮比,設(shè)置為8;f是沿空間維度被分割成的2個獨立張量,即fh∈RH×C/r和fh∈RW×C/r,后面是2個卷積運算convh和convw,包含的卷積核總數(shù)等于輸入特征圖M的通道數(shù),卷積核大小為(1,1)。

        zh=σ(convh(fh))

        (5)

        zw=σ(convw(fw))

        (6)

        將式(4)的結(jié)果分別代入式(5)和式(6),得到zh和zw,分別為包含沿水平方向和垂直方向信息的張量,其中σ是sigmoid激活函數(shù)。最后,將式(5)和式(6)的結(jié)果代入式(7),得到最終的注意力特征圖S。

        (7)

        從式(7)可以看出,最后的注意力特征圖Sc(i,j)的每個位置的值是通過原始特征圖Mc(i,j) 乘以包含水平方向信息和垂直方向信息的張量加權(quán)而得來的,這樣可以精確定位特征圖的突出區(qū)域。

        1.3.2通道注意力模型

        要使網(wǎng)絡(luò)更加關(guān)注顯著特征的通道,應(yīng)用通道注意力機制將十分有效。在眾多通道注意力機制中,SE注意力機制[10]是典型的通道注意力機制,圖5為SE通道注意力機制模型。通常SE分為2個步驟操作:壓縮和激勵。壓縮是一種獲得全局特征向量的方式,具體操作是全局平均池化特征圖的空間維度。而激勵操作是將壓縮后的特征向量輸入兩層全鏈接層,獲得注意力權(quán)重矩陣,之后再與原始特征圖的對應(yīng)通道相乘,得到增強后的特征圖。

        圖5 SE通道注意力機制模型

        輸入的特征圖xc(i,j)首先要全局平均池化,池化公式如下:

        (8)

        然后通過激勵操作獲得每個特征通道對應(yīng)的權(quán)重,可由式(9)定義。

        wc=σ[conv2(ReLU(conv1(gc)))]

        (9)

        式中:wc代表第c個通道對應(yīng)的注意力權(quán)重;σ代表sigmoid激活函數(shù);conv1代表含有C/r個卷積核,卷積核大小為(1,1);conv2為含有C個卷積核的卷積運算,卷積核大小也為(1,1),卷積核中會進行卷積運算;r是特征通道維數(shù)壓縮比,設(shè)置為8。

        經(jīng)過增強后的特征圖可由式(10)得到。

        zc=wc⊙fc

        (10)

        式中:zc表示經(jīng)過增強的第c個特征圖;⊙為對應(yīng)通道相乘;fc∈RH×W表示第c個原始特征圖。

        1.3.3空間通道注意力模型

        由于卷積運算獲得的跨通道信息與空間信息之間的關(guān)系錯綜復(fù)雜,因此增加對二者的注意力機制,突出關(guān)鍵特征至關(guān)重要。具體來說,通道注意力機制更加關(guān)注顯著特征的通道,空間注意力機制有助于突出特征圖中特定的空間位置信息,因此可以將通道和空間2種注意力機制結(jié)合,從而得到更好的處理結(jié)果。圖6為提出的空間通道注意力機制模型。

        由式(10)可得到經(jīng)過空間通道注意力模型增強后的特征圖。

        Rc(i,j)=zc⊙Sc(i,j)

        (11)

        式中:⊙代表對應(yīng)通道相乘;zc和Sc(i,j)代表由通道注意力模型和空間注意力模型得到的增強后的特征圖。

        圖6 空間通道注意力機制模型

        1.4 數(shù)據(jù)增強

        為了解決數(shù)據(jù)不足導(dǎo)致的過擬合問題,采用混合[11]數(shù)據(jù)增強方法對離散樣本空間進行線性插值,以提高鄰域的平滑度?;旌纤惴ǘx如下。

        (12)

        (13)

        式中:xi和xj是來自訓練數(shù)據(jù)集中的2個樣本特征,為隨機選取且具有泛化性;yi和yj是相應(yīng)的one-hot標簽;λ是服從參數(shù)為α和β的Beta分布,即λ~Beta(α,β),其中α和β都為0.2。圖7為幾個ESC-10數(shù)據(jù)集中的Log-Mel譜圖混合增強的例子,用紅色框圈出來的數(shù)值表示的是2種不同類型的Log-Mel譜圖的混合比例,兩者混合比例之和為1??梢詫?種不同類別的Log-Mel譜圖以隨機比例混合形成新的特征圖,以實現(xiàn)數(shù)據(jù)的混合增強。

        2 實驗結(jié)果

        2.1 數(shù)據(jù)集

        在2個公開的聲音識別數(shù)據(jù)集上(ESC-10、ESC-50[12])對所提方法的優(yōu)劣進行了驗證實驗。這2個數(shù)據(jù)集是通過Freesound項目公開獲得的錄音中的聲音片段構(gòu)建的,聲音樣本以44.1 kHz,單通道,192 kbit/s的Ogg-Voorbis格式進行壓縮,數(shù)據(jù)集的格式為wav。對2個數(shù)據(jù)集的描述如下。

        ESC-50數(shù)據(jù)集:該數(shù)據(jù)集的音頻總時長為2.8 h,它是擁有2 000個環(huán)境聲音音頻的集合,其中的每個音頻的時長有5 s。整個集合共有50個語義類(其中每類都有40個樣本例子),可粗略的分為5大類聲音:自然環(huán)境音、動物叫聲、流水聲、人類非交流聲以及室內(nèi)室外聲。數(shù)據(jù)集預(yù)先劃分為5個部分,以便于后續(xù)的交叉驗證。

        ESC-10數(shù)據(jù)集:該數(shù)據(jù)集可以看成是ESC-50數(shù)據(jù)集的一個子集,類別總數(shù)為10類(海浪聲、狗吠聲、雨聲、嬰兒啼哭聲、時鐘滴答聲、打鼾聲、直升機飛行聲、公雞打鳴聲、電鋸聲、火焰燃燒聲)。每個類別也包含40條音頻。

        2.2 實驗環(huán)境

        實驗是在Window 10操作系統(tǒng),顯存8 GB,內(nèi)存32 GB,顯卡為英偉達RTX2080的硬件環(huán)境下完成的。深度學習框架為Python-Tensorflow-2.5.0版本,采用Python語言編程。

        在訓練階段,采用的損失函數(shù)為交叉熵函數(shù),迭代次數(shù)設(shè)置為300,初始學習率為0.000 02,然后每迭代50次后將學習率縮小10倍,batchsize設(shè)置為32。樣本在訓練前是亂序的,網(wǎng)絡(luò)權(quán)重是隨機初始化的,Adam優(yōu)化器用于優(yōu)化損失函數(shù)。在測試階段,網(wǎng)絡(luò)的最終準確率為交叉驗證后的平均準確率。訓練和測試階段涉及的Log-Mel譜圖均采用訓練集的全局平均值和標準差進行歸一化操作。

        2.3 實驗結(jié)果

        表2為所提出的網(wǎng)絡(luò)與現(xiàn)有最好的環(huán)境聲音分類方法的最佳準確率,模型的最終準確率為交叉驗證后的平均準確率。

        由表2可以看出,所提網(wǎng)絡(luò)模型在2個數(shù)據(jù)集上的識別準確率分別為94.3%和79.3%,與大部分現(xiàn)有網(wǎng)絡(luò)相比,準確率有明顯提升。與MCTA-CNN相比,所提模型在2個數(shù)據(jù)集上的識別準確率下降了0.2%和7.8%,這是由于MCTA-CNN是通過多通道時間注意力機制和離線數(shù)據(jù)增強的方法(ESC-10為1 600個樣本,ESC-50為8 000 個樣本)來訓練的,使用Log-Mel譜圖、一階變量和二階變量的特征圖沿通道維度進行堆疊作為輸入,整個過程十分繁雜耗時。所提的方法實施起來是比較簡單的,但代價是準確率略有下降,但已能夠滿足生活中大部分聲音識別的場景。

        表2 所提網(wǎng)絡(luò)和現(xiàn)有網(wǎng)絡(luò)的識別準確率 %

        2.3.1模型在ESC-10上的分類效果

        圖8為所提網(wǎng)絡(luò)模型在ESC-10數(shù)據(jù)集的混淆矩陣,模型的平均準確率為94.3%。

        圖8 在ESC-10數(shù)據(jù)集上的混淆矩陣

        從圖8可以看出,電鋸(Chainsaw)、直升機(Helicopter)和打鼾(Sneezing)的聲音都獲得了100%的識別率。大多數(shù)聲音識別的準確率都高于90%(36/40)。其中嬰兒啼哭聲(Crying baby)識別準確率最低,為85.0%(34/40),分別有10%(4/40)、2.5%(1/40)和2.5%(1/40)的樣本被誤分類為時鐘滴答聲(Clock tick)、犬吠聲(Dog)和火焰燃燒聲(Crackling fire),因為上述這些環(huán)境聲音特征非常相似,所以可能導(dǎo)致分類錯誤。

        如圖9所示,為了便于體現(xiàn)所提出的模型的有效性,從2個角度(即二維視圖(2D)和三維視圖(3D))使用t-SNE算法,分別對ESC-10的原始數(shù)據(jù)集和訓練后得到的特征分布通過Softmax層進行可視化表示。需要注意在圖9中的同一聲音類別的樣本點顏色相同。

        由圖9可以發(fā)現(xiàn),ESC-10的原始數(shù)據(jù)集的潛在特征分布是混亂無序的,不同類別之間相互交錯,可分性差。通過網(wǎng)絡(luò)模型訓練后,潛在特征分布變得更加緊湊,同一類別的大多數(shù)樣本會匯聚在一起,并且可分離性較強。

        圖9 模型訓練前后ESC-10數(shù)據(jù)集潛在特征分布

        2.3.2模型在ESC-50上的分類效果

        圖10為所提模型在ESC-50數(shù)據(jù)集上的混淆矩陣,模型的平均識別準確率為79.3%。從圖10可以看出,雨聲(Rain)的識別準確率為20%(8/40),是所有聲音類型中識別率最低的,大多數(shù)的雨聲被錯誤地識別為犬吠聲(Dog)(6/40)、貓叫聲(Cat)(5/40)、水滴聲(Water drops)(4/40)和海浪聲(Sea waves)(4/40),這主要是雨的頻率響應(yīng)范圍很寬造成的。此外,響雷聲(Thunderstorm)、煙花爆竹聲(Fireworks)、腳步聲(Footsteps)和玻璃破碎聲(Glass breaking)有97.5%(39/40)的識別準確率,是所有聲音類型中識別率最高的。

        圖10 在ESC-50數(shù)據(jù)集上的混淆矩陣

        2.4 實際場景測試

        除了在公共數(shù)據(jù)集上驗證網(wǎng)絡(luò)模型性能外,還收集了現(xiàn)實世界中的一些環(huán)境聲音片段,并用訓練好的網(wǎng)絡(luò)模型識別其聲音類別,如圖11所示。

        圖11 環(huán)境聲音采集場景

        以上每個場景都收集了3段5 s的聲音片段,所以總共有12段環(huán)境聲音片段進行實際場景測試。經(jīng)過預(yù)處理后,上述場景聲音的Log-Mel譜圖示例如圖12所示。

        圖12 實際聲音場景的Log-Mel譜圖

        隨后,將采集的音頻輸入訓練好的模型進行分類,檢驗其識別準確率,測試結(jié)果的混淆矩陣如圖13所示。

        圖13 采集的環(huán)境聲音片段的混淆矩陣

        從圖13可以看出,網(wǎng)絡(luò)模型對于采集的環(huán)境聲音片段的分類準確率約為91.67%,沒有準確識別所有音頻的原因可能是分類有誤的兩類聲音時頻域特征比較相似。還需要注意的是上述環(huán)境聲音片段是利用手機麥克風進行采集的,并沒有使用專業(yè)的錄音設(shè)備。

        3 結(jié)論

        1) 空間和通道結(jié)合的注意力機制模型相比于單一的通道注意力機制或空間注意力機制模型更有優(yōu)勢,用來訓練網(wǎng)絡(luò)效果更佳。

        2) 采用混合增強保證數(shù)據(jù)的多樣性,可以提高模型的泛化能力以及識別的準確率。

        未來將嘗試利用計算機視覺領(lǐng)域的方法,找出更簡單、更可行、更有效的方法來解決環(huán)境聲音分類的關(guān)鍵問題。

        猜你喜歡
        注意力準確率卷積
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        高速公路車牌識別標識站準確率驗證法
        基于傅里葉域卷積表示的目標跟蹤算法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        东北少妇不戴套对白第一次| 最新福利姬在线视频国产观看| 久久婷婷夜色精品国产| 国产流白浆视频在线观看| 国产综合久久久久久鬼色| 男人边吻奶边挵进去视频| 丝袜美腿网站一区二区| 在线观看国产精品一区二区不卡 | 18禁黄网站禁片免费观看| 国产一区二区三区小说| 国产成人精品一区二区日出白浆| 成人影院视频在线免费观看 | 夜夜嗨av一区二区三区| 国产三级黄色在线观看| 国产日本精品一区二区免费| 亚洲av无码专区国产不卡顿| 久久久亚洲色| 狠狠色噜噜狠狠狠狠97俺也去| 国产精品日韩亚洲一区二区 | 一区二区三区放荡人妻| 少妇久久一区二区三区| 粉嫩小泬无遮挡久久久久久| 国产午夜视频在线观看| 国产毛片A啊久久久久| 中文字幕人妻互换av| 热久久国产欧美一区二区精品| 亚洲精品老司机在线观看| 亚洲精品中文字幕二区| 亚洲男人综合久久综合天堂| 日韩人妻无码精品久久| 亚洲成年网站在线777| 日韩女同一区二区三区久久| 欧美牲交a欧美牲交aⅴ免费下载| 久久人人玩人妻潮喷内射人人| 91亚洲欧洲日产国码精品 | 国产高清丝袜美腿视频在线观看| 精品久久久少妇一区二区| 色妞ww精品视频7777| 无码av免费永久免费永久专区| 一二三四在线观看韩国视频| 亚洲高清乱码午夜电影网|