亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)注意力機(jī)制的聲音事件定位與檢測(cè)算法

        2024-06-27 12:21:26楊雄雷幫軍徐文發(fā)
        信息系統(tǒng)工程 2024年6期
        關(guān)鍵詞:深度學(xué)習(xí)

        楊雄 雷幫軍 徐文發(fā)

        摘要:在三維聲音事件檢測(cè)任務(wù)中,不同的聲音事件相互影響,難以從復(fù)雜聲音信號(hào)中提取出全局特征?;谧⒁饬C(jī)制的聲音事件定位與檢測(cè)算法,能夠?qū)⑻卣魈崛〖訌?qiáng)模塊進(jìn)行降采樣操作和卷積操作,捕獲聲音特征,利用卷積注意力模塊對(duì)序列數(shù)據(jù)中所有特征建模,利用全連接層輸出聲音事件的位置信息。方法結(jié)果預(yù)測(cè)值為0.616,相較L3DAS22 Challenge Task2中第二名預(yù)測(cè)值提升1.6%。

        關(guān)鍵詞:深度學(xué)習(xí);聲音事件檢測(cè);注意力機(jī)制

        一、前言

        智能語音處理廣泛應(yīng)用于聲音事件定位與檢測(cè),其主要目的在于檢測(cè)到聲音事件的類型以及所在的空間位置。隨著智能語音處理的發(fā)展,聲音事件定位與檢測(cè)應(yīng)用更加廣泛。聲音作為人們獲取信息的重要途徑之一,常常應(yīng)用于工業(yè)生產(chǎn)以及平常的生活中。但是,聲音事件的定位與檢測(cè)(Sound Event Localization and Detection,SELD)在機(jī)器學(xué)習(xí)中越來越受人們關(guān)注,用于檢測(cè)和定位產(chǎn)生的異常聲音,不僅在于對(duì)其他傳感器檢測(cè)的補(bǔ)充,而且在檢測(cè)精度上有所提升。SELD常常在多媒體、游戲開發(fā)及設(shè)備故障檢測(cè)等領(lǐng)域有所應(yīng)用和發(fā)展。

        SELD由兩個(gè)子任務(wù)組成,分別是聲音事件檢測(cè)(Sound Event Detection,SED)和聲源定位(Sound Source Localization,SSL)。SED能夠在不同環(huán)境下的音頻序列中識(shí)別出各個(gè)聲音事件的開始和結(jié)束時(shí)間。文獻(xiàn)[1-2]中的算法只能檢測(cè)出部分音頻序列中置信度最高的一種事件,無法在真實(shí)聲音環(huán)境下同時(shí)反映出可能出現(xiàn)的多個(gè)聲音事件。當(dāng)前較為主流的SED是基于深度學(xué)習(xí)的方法,針對(duì)卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)不能捕捉音頻段中的長時(shí)依賴性的問題,文獻(xiàn)[3-4]將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)捕獲時(shí)序信息以及分析語義信息的能力和CNN特征提取相結(jié)合的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolution Recurrent Neural Network,CRNN)可以有效提取時(shí)序數(shù)據(jù)的特征,從而實(shí)現(xiàn)多聲音時(shí)間檢測(cè)。文獻(xiàn)[ 5]利用多尺度卷積網(wǎng)絡(luò)引入了特征融合模塊,針對(duì)特征圖信息弱和目標(biāo)漏檢率大的問題,多尺度卷積神經(jīng)網(wǎng)絡(luò)通過特征金字塔組件在CRNN中提高SED的精度。

        常見SSL算法在波束的基礎(chǔ)上生成定位算法、在高分辨譜的基礎(chǔ)上估計(jì)定位算法,以及基于到達(dá)時(shí)延差(Time Difference of Arrival,TDOA)。例如:端到端TDOA估計(jì),基于深度學(xué)習(xí)高分辨譜估計(jì)算法。本文基于深度學(xué)習(xí)高分辨譜估計(jì)算法。傳統(tǒng)循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的聲音事件定位與檢測(cè)方法對(duì)于長時(shí)間序列數(shù)據(jù)特征提取能力有限,導(dǎo)致定位和檢測(cè)精度較低。本文利用改進(jìn)注意力機(jī)制來提取時(shí)間序列模型的局部特征和全局特征,改進(jìn)網(wǎng)絡(luò)中結(jié)構(gòu)從而減少數(shù)據(jù)冗余。

        二、算法原理及網(wǎng)絡(luò)結(jié)構(gòu)

        (一)注意力機(jī)制的聲音事件與定位算法架構(gòu)

        將Log-Mel譜圖作為SED任務(wù)的輸入和Log-Mel四通道信號(hào)的短時(shí)間傅里葉變換譜圖,計(jì)算Log-Mel譜圖。通過運(yùn)算作為DOA估計(jì)的輸入特征,再將兩種類型的特征用于集成模型,如圖1(a)模塊所示。

        圖1是本實(shí)驗(yàn)聲音事件與定位算法的架構(gòu)示意圖,它主要包含深層特征提取模塊、時(shí)序特征提取模塊和輸出模塊。其中,深層特征提取模塊由雙重卷積模塊組成。

        (二)雙重卷積深度特征提取模塊

        系統(tǒng)將得到的兩種特征分別送入Conv-Conformer網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,提取的特征IIV輸入四個(gè)雙重卷積塊中再和降采樣塊進(jìn)行拼接,最終得到深層特征FC,如圖1(b)模塊所示,其過程可以表示為:

        Fc=Conv23x3(Conv23x3(Conv23x3(Conv23x3(IIV)))+

        Fdown1(IIV))+Fdown2(IIV) (1)

        其中,Conv23x3(·)表示大小為3×3的雙重卷積核,F(xiàn)down1(·)為第i個(gè)降采樣塊,如圖2所示。

        圖2是雙重卷積深度特征提取模塊示意圖,包含卷積層、歸一化和激活函數(shù)三個(gè)模塊。

        其中,降采樣塊結(jié)構(gòu)平均池化大小為1×2、步長為1×2,表示為:

        Fdown2=Conv(Avg1*2 (Conv(Avg(Conv(Conv(Avg(IVI))))))) (2)

        (三)坐標(biāo)注意力

        在圖1(c)模塊中Conformer時(shí)序特征提取網(wǎng)絡(luò)包含F(xiàn)eed Forward模塊、卷積模塊、自注意力模塊和第二個(gè)Feed Forward模塊等四個(gè)模塊,如圖3所示。

        圖3是Conformer時(shí)序特征提取模塊示意圖,包含F(xiàn)eed Forward、多頭自注意力機(jī)制模塊、卷積層和層歸一化四個(gè)模塊。

        在Feed Forward模塊中,通過層歸一化維度為512的輸入特征,再經(jīng)過線性層,引入Activation Balancer和激活函數(shù)Doubleswish,其中Activation Balancer在特征提取的前向計(jì)算過程中,統(tǒng)計(jì)特征激活值的范圍包括其中正數(shù)比例以及絕對(duì)值大小。在反向求梯度的過程中,根據(jù)前向統(tǒng)計(jì)結(jié)果,對(duì)應(yīng)地放縮梯度大小,從而降低激活函數(shù)Doubleswish中產(chǎn)生的激活值異常,降低參數(shù)的浪費(fèi),如圖4所示。

        在卷積模塊中,首先,通過一個(gè)點(diǎn)向卷積,點(diǎn)卷積的膨脹系數(shù)為2,再經(jīng)過一個(gè)門控線性單元(GLU)維度為1,接下來是一個(gè)一維深度卷積層,卷積核大小為31。Batchnorm層在卷積層之后幫助訓(xùn)練深度模型,在得到FC深層特征后輸入時(shí)序,將輸出深層時(shí)序特征輸入全連接層分別得到DOA位置坐標(biāo)向量和SED結(jié)果,最后通過線性層將SED特征寬度減小到14,將DOA特征寬度減小到3,再分別將SED和DOA時(shí)序特征進(jìn)行拼接輸出,得到輸出結(jié)果。

        三、實(shí)驗(yàn)與結(jié)果分析

        (一)實(shí)驗(yàn)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

        本文采用L3DAS22 Challenge Task2官方提供的數(shù)據(jù)集。羅馬薩皮恩扎大學(xué)負(fù)責(zé)匯總數(shù)據(jù)集,采樣的頻率為16kHz。其中,600個(gè)長為一分鐘的錄音文件也包含在內(nèi),從FSD50K中選擇了1440個(gè)噪音文件。數(shù)據(jù)集包含了大約98小時(shí)的MSMP b格式音頻錄音。在一個(gè)近似尺寸為6米(長度)、5米(寬)和3米(高度)的真實(shí)辦公樓的聲場(chǎng)進(jìn)行了采樣,房間里有典型的辦公家具、木制拼花地板、油漆過的混凝土墻壁和天花板。數(shù)據(jù)集分為一個(gè)訓(xùn)練集和一個(gè)測(cè)試集,訓(xùn)練集有5個(gè)小時(shí)的音頻,測(cè)試集有2.5個(gè)小時(shí)的音頻。OV1、OV2和OV3分別表示為最大重疊聲音事件為1個(gè)、2個(gè)和3個(gè)。本文對(duì)聲音事件類別進(jìn)行識(shí)別時(shí)運(yùn)用兩種數(shù)據(jù),第一是標(biāo)準(zhǔn)度量F分?jǐn)?shù)(F-Score),第二是精度(Precision),使用召回率(Recall)來評(píng)估聲源位置信息作為本文算法的評(píng)價(jià)指標(biāo)。

        (二)實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

        實(shí)驗(yàn)過程中,運(yùn)行環(huán)境方面運(yùn)用的硬件設(shè)施包含CPU主頻為3.6GHz、顯卡型號(hào)為NVIDIA RTX 3060、內(nèi)存大小為16G。操作系統(tǒng)為Windows10的軟件環(huán)境,深度學(xué)習(xí)框架為 PyTorch=1.8.0,編程語言采用Python3.7。SED、DOA估計(jì)的損失權(quán)重分別設(shè)置為λ=0.3和γ=0.7,訓(xùn)練數(shù)據(jù)集過程中運(yùn)用Adamw算法,進(jìn)一步完善模型收斂速度。實(shí)驗(yàn)的學(xué)習(xí)率具體數(shù)值設(shè)置為3×10?3,訓(xùn)練的總和數(shù)量為 200個(gè)epoch。

        (三)實(shí)驗(yàn)結(jié)果分析

        一般來說,聲音事件不一樣,持續(xù)時(shí)間也不一樣。所以,訓(xùn)練環(huán)節(jié)中使用時(shí)間的長短對(duì)模型的性能會(huì)產(chǎn)生一定的影響。 L3DAS22 一般來說,Challenge Task2 數(shù)據(jù)集上的聲音事件時(shí)間保持在0.2到40.0秒,中位數(shù)的數(shù)值為3.2秒,平均數(shù)的數(shù)值為8.3秒。本文在4秒、8秒、12秒、16秒輸入時(shí)間長度不一樣的情況下對(duì)注意力機(jī)制模型進(jìn)行訓(xùn)練,得出的模塊數(shù)據(jù)見表1。

        為了驗(yàn)證本文提出的算法的有效性,進(jìn)行不同模塊的消融實(shí)驗(yàn)。由表1可知在相同baseline下,相較于其他模塊,本文所采用的模型在Percision分別提高了0.11、0.02、0.01,在Recall上分別提高了0.06、0.05, 在F-sore上提升了0.13、0.05、0.18。因此,本文提出的算法在結(jié)合不同模塊上具有更好的效果。

        為對(duì)本文提到的算法有效性進(jìn)行驗(yàn)證,對(duì)比本文算法和其他先進(jìn)的網(wǎng)絡(luò)模型,對(duì)兩種算法展開對(duì)比實(shí)驗(yàn)工作,最終確定 CRNNNet、CNN-Conformer、SELD-RCnet作為網(wǎng)絡(luò)模型。從表2能夠觀察到,本文算法比其他模型 Precision以及F-score有所增強(qiáng),Recall只略低于SELD-RCnet模型 0.03%,優(yōu)于其他模型。

        四、結(jié)語

        關(guān)于 SELD 定位面臨難題且效果不好等問題,本文采用的基線模型為CNN-Conformer,與殘差以及改進(jìn)Conformer注意力機(jī)制設(shè)計(jì)模型相結(jié)合。這種網(wǎng)絡(luò)模型具備一定的優(yōu)勢(shì),將高效注意力和降采樣融入其中,進(jìn)而能夠?qū)μ卣鲌D以及時(shí)間序列上的信息進(jìn)行匯總,使得SELD 的指標(biāo)性能得到顯著提升。

        參考文獻(xiàn)

        [1]A. J. Eronen et al., Audio-based context recognition[/OL], in IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 1, pp. 321-329, Jan. 2006.

        [2]HEITTOLA T,MESAROS A,VIRTANEN T,et al. Sound event detection in multisource environments using source separation[C]// First International Workshop on Machine Listening in Multisource Environments ( CHiME 2011 ) .Florence: CHiME,2011: 36-40.

        [3]Turpault N , Serizel R , Salamon J , et al. Sound Event Detection in Domestic Environments with Weakly Labeled Data and Soundscape Synthesis [C]// 4th Workshop on Detection and Classification of Acoustic Scenes and Events (DCASE 2019). 2019.

        [4]RSANet: Towards Real-Time Object Detection with Residual Semantic-Guided Attention Feature Pyramid Network[J]. Mobile Networks and Applications, 2021, 26(01):77-87.

        [5]Iqbal T, Xu Y, Kong Q, et al. Capsule routing for sound event detection[C].2018 26th European Signal Processing Conference (EUSIPCO). Rome, Italy, 2018: 2255-2259.

        作者單位:楊雄、雷幫軍,三峽大學(xué)計(jì)算機(jī)與信息學(xué)院、水電工程智能視覺監(jiān)測(cè)湖北省重點(diǎn)實(shí)驗(yàn)室;徐文發(fā),武昌首義學(xué)院信息科學(xué)與工程學(xué)院

        ■ 責(zé)任編輯:張津平、尚丹

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
        基于自動(dòng)智能分類器的圖書館亂架圖書檢測(cè)
        搭建深度學(xué)習(xí)的三級(jí)階梯
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        欧美日韩精品久久久免费观看| 丰满多毛少妇做爰视频| 破了亲妺妺的处免费视频国产| 国产桃色在线成免费视频| 亚洲av乱码国产精品观看麻豆| 免费亚洲一区二区三区av| 国产精品 人妻互换| 五月天欧美精品在线观看| 日本视频一区二区二区| 大陆成人精品自拍视频在线观看| 亚洲一区二区岛国高清| 伊人久久综合无码成人网| 国产精品老熟女露脸视频 | 欧美人与物videos另类xxxxx| 美日韩毛片| 熟女丝袜美腿亚洲一区二区三区 | 国产乱人伦偷精品视频| 亚洲午夜精品a区| 国产一区二区三区免费小视频| 蜜桃一区二区在线视频| 熟女精品视频一区二区三区| 久久精品中文字幕极品| 国产又色又爽的视频在线观看91| 亚洲综合天堂av网站在线观看| 欧美日韩一区二区三区自拍| 日本不卡在线一区二区三区视频| 手机在线免费观看的av| 精品久久久久久久无码人妻热| 无遮挡亲胸捏胸免费视频| 成人综合亚洲国产成人| 久久国产香蕉一区精品天美| 人妻少妇粉嫩av专区一| 欧美性猛交aaaa片黑人| 国产精品成人免费视频网站京东| 国产成人亚洲精品2020| 久久一区二区三区老熟女| 亚洲精品乱码8久久久久久日本| 欧美视频第一页| 国产精品美女一区二区av| 亚洲av综合av一区| 93精91精品国产综合久久香蕉|