亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)注意力機(jī)制的聲音事件定位與檢測(cè)算法

2024-06-27 12:21:26楊雄雷幫軍徐文發(fā)

信息系統(tǒng)工程 2024年6期

楊雄雷幫軍徐文發(fā)

摘要：在三維聲音事件檢測(cè)任務(wù)中，不同的聲音事件相互影響，難以從復(fù)雜聲音信號(hào)中提取出全局特征?；谧⒁饬C(jī)制的聲音事件定位與檢測(cè)算法，能夠?qū)⑻卣魈崛〖訌?qiáng)模塊進(jìn)行降采樣操作和卷積操作，捕獲聲音特征，利用卷積注意力模塊對(duì)序列數(shù)據(jù)中所有特征建模，利用全連接層輸出聲音事件的位置信息。方法結(jié)果預(yù)測(cè)值為0.616，相較L3DAS22 Challenge Task2中第二名預(yù)測(cè)值提升1.6%。

關(guān)鍵詞：深度學(xué)習(xí)；聲音事件檢測(cè)；注意力機(jī)制

一、前言

智能語音處理廣泛應(yīng)用于聲音事件定位與檢測(cè)，其主要目的在于檢測(cè)到聲音事件的類型以及所在的空間位置。隨著智能語音處理的發(fā)展，聲音事件定位與檢測(cè)應(yīng)用更加廣泛。聲音作為人們獲取信息的重要途徑之一，常常應(yīng)用于工業(yè)生產(chǎn)以及平常的生活中。但是，聲音事件的定位與檢測(cè)（Sound Event Localization and Detection，SELD）在機(jī)器學(xué)習(xí)中越來越受人們關(guān)注，用于檢測(cè)和定位產(chǎn)生的異常聲音，不僅在于對(duì)其他傳感器檢測(cè)的補(bǔ)充，而且在檢測(cè)精度上有所提升。SELD常常在多媒體、游戲開發(fā)及設(shè)備故障檢測(cè)等領(lǐng)域有所應(yīng)用和發(fā)展。

SELD由兩個(gè)子任務(wù)組成，分別是聲音事件檢測(cè)（Sound Event Detection，SED）和聲源定位（Sound Source Localization，SSL）。SED能夠在不同環(huán)境下的音頻序列中識(shí)別出各個(gè)聲音事件的開始和結(jié)束時(shí)間。文獻(xiàn)[1-2]中的算法只能檢測(cè)出部分音頻序列中置信度最高的一種事件，無法在真實(shí)聲音環(huán)境下同時(shí)反映出可能出現(xiàn)的多個(gè)聲音事件。當(dāng)前較為主流的SED是基于深度學(xué)習(xí)的方法，針對(duì)卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Networks，CNN）不能捕捉音頻段中的長時(shí)依賴性的問題，文獻(xiàn)[3-4]將循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）捕獲時(shí)序信息以及分析語義信息的能力和CNN特征提取相結(jié)合的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)（Convolution Recurrent Neural Network，CRNN）可以有效提取時(shí)序數(shù)據(jù)的特征，從而實(shí)現(xiàn)多聲音時(shí)間檢測(cè)。文獻(xiàn)[ 5]利用多尺度卷積網(wǎng)絡(luò)引入了特征融合模塊，針對(duì)特征圖信息弱和目標(biāo)漏檢率大的問題，多尺度卷積神經(jīng)網(wǎng)絡(luò)通過特征金字塔組件在CRNN中提高SED的精度。

常見SSL算法在波束的基礎(chǔ)上生成定位算法、在高分辨譜的基礎(chǔ)上估計(jì)定位算法，以及基于到達(dá)時(shí)延差（Time Difference of Arrival，TDOA）。例如：端到端TDOA估計(jì)，基于深度學(xué)習(xí)高分辨譜估計(jì)算法。本文基于深度學(xué)習(xí)高分辨譜估計(jì)算法。傳統(tǒng)循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的聲音事件定位與檢測(cè)方法對(duì)于長時(shí)間序列數(shù)據(jù)特征提取能力有限，導(dǎo)致定位和檢測(cè)精度較低。本文利用改進(jìn)注意力機(jī)制來提取時(shí)間序列模型的局部特征和全局特征，改進(jìn)網(wǎng)絡(luò)中結(jié)構(gòu)從而減少數(shù)據(jù)冗余。

二、算法原理及網(wǎng)絡(luò)結(jié)構(gòu)

（一）注意力機(jī)制的聲音事件與定位算法架構(gòu)

將Log-Mel譜圖作為SED任務(wù)的輸入和Log-Mel四通道信號(hào)的短時(shí)間傅里葉變換譜圖，計(jì)算Log-Mel譜圖。通過運(yùn)算作為DOA估計(jì)的輸入特征，再將兩種類型的特征用于集成模型，如圖1（a）模塊所示。

圖1是本實(shí)驗(yàn)聲音事件與定位算法的架構(gòu)示意圖，它主要包含深層特征提取模塊、時(shí)序特征提取模塊和輸出模塊。其中，深層特征提取模塊由雙重卷積模塊組成。

（二）雙重卷積深度特征提取模塊

系統(tǒng)將得到的兩種特征分別送入Conv-Conformer網(wǎng)絡(luò)中進(jìn)行訓(xùn)練，提取的特征IIV輸入四個(gè)雙重卷積塊中再和降采樣塊進(jìn)行拼接，最終得到深層特征FC，如圖1（b）模塊所示，其過程可以表示為：

Fc=Conv23x3（Conv23x3（Conv23x3（Conv23x3（IIV）））+

Fdown1（IIV））+Fdown2（IIV）（1）

其中，Conv23x3（·）表示大小為3×3的雙重卷積核，F(xiàn)down1（·）為第i個(gè)降采樣塊，如圖2所示。

圖2是雙重卷積深度特征提取模塊示意圖，包含卷積層、歸一化和激活函數(shù)三個(gè)模塊。

其中，降采樣塊結(jié)構(gòu)平均池化大小為1×2、步長為1×2，表示為：

Fdown2=Conv（Avg1*2 （Conv（Avg（Conv（Conv（Avg（IVI）））））））（2）

（三）坐標(biāo)注意力

在圖1（c）模塊中Conformer時(shí)序特征提取網(wǎng)絡(luò)包含F(xiàn)eed Forward模塊、卷積模塊、自注意力模塊和第二個(gè)Feed Forward模塊等四個(gè)模塊，如圖3所示。

圖3是Conformer時(shí)序特征提取模塊示意圖，包含F(xiàn)eed Forward、多頭自注意力機(jī)制模塊、卷積層和層歸一化四個(gè)模塊。

在Feed Forward模塊中，通過層歸一化維度為512的輸入特征，再經(jīng)過線性層，引入Activation Balancer和激活函數(shù)Doubleswish，其中Activation Balancer在特征提取的前向計(jì)算過程中，統(tǒng)計(jì)特征激活值的范圍包括其中正數(shù)比例以及絕對(duì)值大小。在反向求梯度的過程中，根據(jù)前向統(tǒng)計(jì)結(jié)果，對(duì)應(yīng)地放縮梯度大小，從而降低激活函數(shù)Doubleswish中產(chǎn)生的激活值異常，降低參數(shù)的浪費(fèi)，如圖4所示。

在卷積模塊中，首先，通過一個(gè)點(diǎn)向卷積，點(diǎn)卷積的膨脹系數(shù)為2，再經(jīng)過一個(gè)門控線性單元（GLU）維度為1，接下來是一個(gè)一維深度卷積層，卷積核大小為31。Batchnorm層在卷積層之后幫助訓(xùn)練深度模型，在得到FC深層特征后輸入時(shí)序，將輸出深層時(shí)序特征輸入全連接層分別得到DOA位置坐標(biāo)向量和SED結(jié)果，最后通過線性層將SED特征寬度減小到14，將DOA特征寬度減小到3，再分別將SED和DOA時(shí)序特征進(jìn)行拼接輸出，得到輸出結(jié)果。

三、實(shí)驗(yàn)與結(jié)果分析

（一）實(shí)驗(yàn)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

本文采用L3DAS22 Challenge Task2官方提供的數(shù)據(jù)集。羅馬薩皮恩扎大學(xué)負(fù)責(zé)匯總數(shù)據(jù)集，采樣的頻率為16kHz。其中，600個(gè)長為一分鐘的錄音文件也包含在內(nèi)，從FSD50K中選擇了1440個(gè)噪音文件。數(shù)據(jù)集包含了大約98小時(shí)的MSMP b格式音頻錄音。在一個(gè)近似尺寸為6米（長度）、5米（寬）和3米（高度）的真實(shí)辦公樓的聲場(chǎng)進(jìn)行了采樣，房間里有典型的辦公家具、木制拼花地板、油漆過的混凝土墻壁和天花板。數(shù)據(jù)集分為一個(gè)訓(xùn)練集和一個(gè)測(cè)試集，訓(xùn)練集有5個(gè)小時(shí)的音頻，測(cè)試集有2.5個(gè)小時(shí)的音頻。OV1、OV2和OV3分別表示為最大重疊聲音事件為1個(gè)、2個(gè)和3個(gè)。本文對(duì)聲音事件類別進(jìn)行識(shí)別時(shí)運(yùn)用兩種數(shù)據(jù)，第一是標(biāo)準(zhǔn)度量F分?jǐn)?shù)（F-Score），第二是精度（Precision），使用召回率（Recall）來評(píng)估聲源位置信息作為本文算法的評(píng)價(jià)指標(biāo)。

（二）實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

實(shí)驗(yàn)過程中，運(yùn)行環(huán)境方面運(yùn)用的硬件設(shè)施包含CPU主頻為3.6GHz、顯卡型號(hào)為NVIDIA RTX 3060、內(nèi)存大小為16G。操作系統(tǒng)為Windows10的軟件環(huán)境，深度學(xué)習(xí)框架為 PyTorch=1.8.0，編程語言采用Python3.7。SED、DOA估計(jì)的損失權(quán)重分別設(shè)置為λ=0.3和γ=0.7，訓(xùn)練數(shù)據(jù)集過程中運(yùn)用Adamw算法，進(jìn)一步完善模型收斂速度。實(shí)驗(yàn)的學(xué)習(xí)率具體數(shù)值設(shè)置為3×10?3，訓(xùn)練的總和數(shù)量為 200個(gè)epoch。

（三）實(shí)驗(yàn)結(jié)果分析

一般來說，聲音事件不一樣，持續(xù)時(shí)間也不一樣。所以，訓(xùn)練環(huán)節(jié)中使用時(shí)間的長短對(duì)模型的性能會(huì)產(chǎn)生一定的影響。 L3DAS22 一般來說，Challenge Task2 數(shù)據(jù)集上的聲音事件時(shí)間保持在0.2到40.0秒，中位數(shù)的數(shù)值為3.2秒，平均數(shù)的數(shù)值為8.3秒。本文在4秒、8秒、12秒、16秒輸入時(shí)間長度不一樣的情況下對(duì)注意力機(jī)制模型進(jìn)行訓(xùn)練，得出的模塊數(shù)據(jù)見表1。

為了驗(yàn)證本文提出的算法的有效性，進(jìn)行不同模塊的消融實(shí)驗(yàn)。由表1可知在相同baseline下，相較于其他模塊，本文所采用的模型在Percision分別提高了0.11、0.02、0.01，在Recall上分別提高了0.06、0.05，在F-sore上提升了0.13、0.05、0.18。因此，本文提出的算法在結(jié)合不同模塊上具有更好的效果。

為對(duì)本文提到的算法有效性進(jìn)行驗(yàn)證，對(duì)比本文算法和其他先進(jìn)的網(wǎng)絡(luò)模型，對(duì)兩種算法展開對(duì)比實(shí)驗(yàn)工作，最終確定 CRNNNet、CNN-Conformer、SELD-RCnet作為網(wǎng)絡(luò)模型。從表2能夠觀察到，本文算法比其他模型 Precision以及F-score有所增強(qiáng)，Recall只略低于SELD-RCnet模型 0.03%，優(yōu)于其他模型。

四、結(jié)語

關(guān)于 SELD 定位面臨難題且效果不好等問題，本文采用的基線模型為CNN-Conformer，與殘差以及改進(jìn)Conformer注意力機(jī)制設(shè)計(jì)模型相結(jié)合。這種網(wǎng)絡(luò)模型具備一定的優(yōu)勢(shì)，將高效注意力和降采樣融入其中，進(jìn)而能夠?qū)μ卣鲌D以及時(shí)間序列上的信息進(jìn)行匯總，使得SELD 的指標(biāo)性能得到顯著提升。

參考文獻(xiàn)

[1]A. J. Eronen et al.， Audio-based context recognition[/OL]， in IEEE Transactions on Audio， Speech， and Language Processing， vol. 14， no. 1， pp. 321-329， Jan. 2006.

[2]HEITTOLA T，MESAROS A，VIRTANEN T，et al． Sound event detection in multisource environments using source separation[C]// First International Workshop on Machine Listening in Multisource Environments （ CHiME 2011 ）．Florence： CHiME，2011： 36-40．

[3]Turpault N ， Serizel R ， Salamon J ， et al. Sound Event Detection in Domestic Environments with Weakly Labeled Data and Soundscape Synthesis [C]// 4th Workshop on Detection and Classification of Acoustic Scenes and Events （DCASE 2019）. 2019.

[4]RSANet： Towards Real-Time Object Detection with Residual Semantic-Guided Attention Feature Pyramid Network[J]. Mobile Networks and Applications， 2021， 26（01）：77-87.

[5]Iqbal T， Xu Y， Kong Q， et al. Capsule routing for sound event detection[C].2018 26th European Signal Processing Conference （EUSIPCO）. Rome， Italy， 2018： 2255-2259.

作者單位：楊雄、雷幫軍，三峽大學(xué)計(jì)算機(jī)與信息學(xué)院、水電工程智能視覺監(jiān)測(cè)湖北省重點(diǎn)實(shí)驗(yàn)室；徐文發(fā)，武昌首義學(xué)院信息科學(xué)與工程學(xué)院

■ 責(zé)任編輯：張津平、尚丹