許春冬,劉 昊,閔 源,甄雅迪
江西理工大學(xué) 信息工程學(xué)院,江西 贛州 341000
隨著數(shù)字聲音分析技術(shù)的發(fā)展,聲音事件定位與檢測(cè)(sound event localization and detection,SELD)技術(shù)逐漸得到廣泛應(yīng)用,主要應(yīng)用于智能家居[1]、安全監(jiān)控[2]、野生生物檢測(cè)[3-4]以及異常聲音事件檢測(cè)[5]等相關(guān)領(lǐng)域。SELD是指在識(shí)別單個(gè)或多個(gè)重疊聲音事件的過程中,對(duì)聲音事件的活動(dòng)時(shí)間進(jìn)行識(shí)別,同時(shí)估計(jì)其相對(duì)于麥克風(fēng)的方向。SELD 可分為兩個(gè)獨(dú)立的任務(wù)主體:聲音事件檢測(cè)(sound event localization,SED)和聲源定位。其中,SED 是一個(gè)多標(biāo)簽分類問題,目的是在時(shí)間上檢測(cè)聲音事件的開始和偏移,并進(jìn)一步將文本標(biāo)簽與檢測(cè)到的聲音事件相關(guān)聯(lián)。而聲源定位的任務(wù)是對(duì)聲源相對(duì)于麥克風(fēng)的方向進(jìn)行檢測(cè),只用于估計(jì)聲音事件所在的方向,即聲音事件的到達(dá)方向(direction of arrival,DOA)估計(jì)。
模板匹配法是SED早期主要使用的方法之一,不僅可以將高斯混合模型[6](Gaussian mixture model,GMM)、隱馬爾可夫模型[7](hidden Markov model,HMM)作為獨(dú)立的模型使用,也可以將以上模型結(jié)合后使用。然而,這些模型在使用過程中無法處理聲音事件中存在的混疊問題。因此,基于非負(fù)矩陣分解[8]原理(non-negative matrix factorization,NMF)的方法被提出,它能以逐幀方式處理混疊的聲音事件,一定程度上改善了模型匹配法在使用過程中的缺陷,卻忽略了聲音事件在時(shí)域的相關(guān)性。為進(jìn)一步優(yōu)化聲音事件處理過程,出現(xiàn)了支持向量機(jī)[9]對(duì)聲音事件進(jìn)行分類的方法。傳統(tǒng)的聲源定位方法大致可以分為基于最大輸出功率的可控波束形成技術(shù)[10]、基于高分辨率空間譜估計(jì)定位方法[11]以及基于時(shí)延估計(jì)的定位方法[12]。在噪聲環(huán)境下,傳統(tǒng)聲源定位方法存在特征顯化能力弱、定位精度低、誤差大的缺陷。深度學(xué)習(xí)克服傳統(tǒng)方法中提取特征效率低且不能準(zhǔn)確地表達(dá)聲音特性的缺點(diǎn),保留了聲音特征信號(hào)的有效信息,極大地提升了定位精度和降低了定位誤差。因此,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[13-14]、遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[15-16]或卷積遞歸神經(jīng)網(wǎng)絡(luò)(convolution recurrent neural network,CRNN)[17-18]已開始用于SED 和DOA 估計(jì)任務(wù)。2021 年,文獻(xiàn)[19]提出CNN-Conformer 模型,在CNN后引入Conformer模塊,以便更好地利用時(shí)間上下文信息來處理SELD 任務(wù)。2021 年,文獻(xiàn)[20]提出的CMA-SELD模型,使用了參數(shù)共享的方法,將CNN層的中間特征映射為SED 和DOA,通過在Transformer 解碼器中使用交叉模態(tài)注意(cross-modality attention,CMA)學(xué)習(xí)融合信息,進(jìn)一步提升了SED和DOA的性能。
近年來,注意力機(jī)制[21-22]在深度學(xué)習(xí)各領(lǐng)域得到進(jìn)一步發(fā)展,無論是在圖像處理,自然語言處理還是語音識(shí)別分類等任務(wù)中,都有優(yōu)異的表現(xiàn)。注意力機(jī)制是從人類視覺的選擇性注意力機(jī)制借鑒得來的,視覺注意力是人類大腦處理信號(hào)的特有機(jī)制。當(dāng)人類快速查看一張圖片時(shí),大腦會(huì)選擇性地關(guān)注一些具有區(qū)分性的區(qū)域,獲取這一區(qū)域更多的細(xì)節(jié)信息,同時(shí)忽略其他無用區(qū)域的信息,將這種獨(dú)特的信號(hào)處理機(jī)制,引入到深度學(xué)習(xí)的模型中,進(jìn)一步提高了模型的效果。
在神經(jīng)網(wǎng)絡(luò)中,由于特征圖的提取過程存在多次卷積和采樣,致使網(wǎng)絡(luò)對(duì)于空間信息和通道信息的保留較少,很難捕獲空間信息和通道信息。為解決以上問題,本文選擇ⅠCASSP 2022文獻(xiàn)[23]提出的SALSANet作為基線,通過在卷積層中加入注意力機(jī)制來抑制特征圖中的非顯著性特征,首先在殘差模塊中引入CA(coordinate attention)模塊以促進(jìn)對(duì)空間信息的提取能力的提升,然后使用ECA(efficient channel attention)模塊在特征圖上高效地捕獲位置和通道的關(guān)系。
聲學(xué)特征的提取效果在很大程度上決定了模型預(yù)測(cè)不同聲音事件的能力,并將影響最終的分類結(jié)果。注意力機(jī)制可使模型更加關(guān)注重要特征的區(qū)域,提高模型區(qū)分能力。坐標(biāo)注意力機(jī)制簡(jiǎn)單靈活且高效,通過2D全局池化來計(jì)算通道注意力,在只增加了較低的計(jì)算成本下提供了顯著的性能提升。本文將坐標(biāo)注意力(CANet)加入殘差模塊中,讓網(wǎng)絡(luò)更加專注于有效特征的提取。并結(jié)合了輕量型高效通道注意力(ECANet),最終捕獲了空間信息和通道信息的依賴關(guān)系,提高了網(wǎng)絡(luò)對(duì)特征信息的敏感性。
SALSANet是Nguyen等人[23]提出來的,是一種用麥克風(fēng)陣列輸入的快速有效的復(fù)調(diào)SELD 網(wǎng)絡(luò)模型。SALSANet 由CNN 和RNN 兩部分構(gòu)成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。CNN部分由兩個(gè)卷積塊(convolution module)、一層2×2 的平均池化層和四個(gè)殘差模塊組成。每個(gè)卷積塊由一層核大小為3×3 的卷積、一層批歸一化(batch normalization,BN)處理和一層ReLU 非線性函數(shù)組成。殘差模塊如圖2 所示,每個(gè)殘差塊由兩層核大小為3×3的卷積層,一層BN 處理和ReLU 函數(shù)組成。RNN 部分采用了2 個(gè)雙向門控循環(huán)單元(bidirectional gated recurrent units,Bi-GRU),它的特點(diǎn)是在處理帶有時(shí)間刻度的信息時(shí),能結(jié)合過去和將來的信息進(jìn)行預(yù)測(cè)。SALSANet網(wǎng)絡(luò)模型結(jié)合了CNN和RNN的優(yōu)點(diǎn)。網(wǎng)絡(luò)模型輸入是多通道對(duì)數(shù)線性頻譜圖和歸一化通道間相位差特征圖。
圖1 SALSANet網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 SALSANet network structure
圖2 殘差模塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Residual block network structure
由于SALSANet網(wǎng)絡(luò)多次池化采樣,會(huì)造成位置信息和通道信息的丟失。因此,本文提出了CECANet 網(wǎng)絡(luò),其結(jié)構(gòu)如圖3所示。CECANet在每一個(gè)殘差模塊中加入CANet模塊,幫助模型更精準(zhǔn)地獲得位置信息和聲音事件類別信息,建立位置與局部特征之間的長(zhǎng)依賴關(guān)系,增強(qiáng)聲學(xué)特征的表達(dá)能力。在殘差塊后加入ECANet模塊,調(diào)整深層網(wǎng)絡(luò)下的特征圖權(quán)重,進(jìn)一步加強(qiáng)對(duì)通道信息的保留,在突出關(guān)鍵特征信息的同時(shí),有效的抑制了背景噪聲對(duì)特征圖生成的干擾。
圖3 CECANet網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 CECA network structure
SENet(squeeze-and-excitation network)由Hu等人[24]提出。SE模塊主要是通過建模,學(xué)習(xí)通道中的相關(guān)性,從而捕獲通道信息,只增加了較少參數(shù)量和計(jì)算量,就取得了較好的性能提升。SE模塊結(jié)構(gòu)如圖4所示。
圖4 SENet模塊結(jié)構(gòu)Fig.4 SENet module structure
SENet 模塊包含擠壓(squeeze)和激發(fā)(excitation)兩部分,squeeze模塊包含全局平均池化層(global average poolilng,GAP),將通道[H,W,C]壓縮成[1,1,C],其中C是通道,H和W是圖的高度和寬度。Excitation模塊包含全連接層(W1)、ReLU層(δ)、全連接層(W2)和Sigmoid(σ)。給定輸入為X,其特征通道數(shù)為C,r是控制模塊大小的縮減率,則經(jīng)過squeeze 模塊計(jì)算公式為(1)所示:
其中Zc是經(jīng)過GAP 層的輸出。接下來就是excitation操作,如公式(2)所示:
SE 模塊具有提升模型性能的效果,但其計(jì)算量較大,且只考慮內(nèi)部通道信息而忽略了位置信息,而計(jì)算量的大小和視覺中目標(biāo)的空間信息都很重要。因此,本文引用的ECANet 模塊減少了SENet 模塊的參數(shù)量,CANet模塊獲取了SENet模塊所忽略的位置信息,極大地提升了模型的預(yù)測(cè)準(zhǔn)確度。
為了解決SE全局平均池化層造成的位置信息丟失這一問題,CANet 模塊[25]將SENet 的全局平均池化層編碼進(jìn)行分解,形成兩個(gè)并行的“X平均池化層”和“Y平均池化層”,分別代指一維水平全局池化層和一維垂直全局池化層,以有效地將空間坐標(biāo)信息映射到通道注意中。CANet模塊結(jié)構(gòu)如圖5所示。
圖5 CANet模塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 CANet module network structure
具體來說,其方法是將全局平均池化層中的公式(1)變成一維編碼操作,讓每個(gè)注意映射獲得的特征圖沿一個(gè)空間方向的遠(yuǎn)距離依賴關(guān)系。給定輸入X,其特征通道數(shù)為C,使用兩個(gè)空間范圍的池化核(H,1)和(1,W)分別沿水平坐標(biāo)和垂直坐標(biāo)對(duì)每個(gè)通道進(jìn)行編碼。因此,第C通道在高度h的輸出可以公式化為:
同理,寬度為w的第C個(gè)通道的輸出可以寫為:
上述兩種變換分別沿兩個(gè)空間方向聚合特征,生成一對(duì)方向感知特征映射。這與產(chǎn)生單一特征向量的SE模塊squeeze操作不同。這兩種變換還允許注意力沿著一個(gè)空間方向捕獲長(zhǎng)距離依賴關(guān)系,并沿另一個(gè)空間方向保留精確的位置信息,有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的對(duì)象。
接下來就是坐標(biāo)注意力生成,將公式(3)和公式(4)生成的特征映射進(jìn)行拼接,經(jīng)過1×1卷積變換F1得到:
其中,[zh,zw]表示沿空間維度的拼接操作,δ是非線性激活函數(shù),f∈?C/r×(H+W)是水平和垂直方向?qū)臻g信息編碼的特征映射。然后將f沿著水平和垂直方向拆分為f h∈?C/r×H和f h∈?C/r×H,分別經(jīng)過1×1 卷積變換Fh、Fw和激活函數(shù)σ,得到:
得到的gh和gw用于注意力權(quán)重。最后,坐標(biāo)注意力模塊的輸出為:
因此,與通道注意力不同的是,坐標(biāo)注意力在考慮通道的同時(shí),也關(guān)注了空間位置信息,完成了水平方向和垂直方向的特征進(jìn)一步提取,將原始輸入與CANet模塊的輸出相加,形成殘差學(xué)習(xí)方式,防止梯度消失,同時(shí)增強(qiáng)網(wǎng)絡(luò)模型的學(xué)習(xí)能力。
ECANet模塊[26]是一種極輕量級(jí)的高效通道注意力模塊,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 ECANet模塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 ECANet module network structure
SE模塊中全連接層通過降維來降低網(wǎng)絡(luò)模型的復(fù)雜度,但降維對(duì)模型帶來了副作用,過量的通道之間所捕獲的關(guān)系是低效且不必要的。因此,ECANet 模塊移除了全連接層操作,避免降低通道維度對(duì)通道之間信息交互帶來的副作用,從而減小了模型復(fù)雜性,通過卷積核大小為k的1D卷積來實(shí)現(xiàn)捕獲適當(dāng)?shù)目缤ǖ澜换バ畔ⅰ?/p>
在全局平均池化操作后,ECANet 模塊通過考慮每個(gè)通道及其k個(gè)鄰居來捕獲局部跨通道交互信息,保證了模型的輕量性和計(jì)算效率。接下來通過大小為k的快速1D卷積,公式如下:
其中,C1Dk代表卷積核大小為k的一維卷積。k代表了局部跨信道交互的覆蓋率。卷積核大小k與通道的個(gè)數(shù)(C)成正比,即k和C之間存在線性映射關(guān)系,但是線性函數(shù)對(duì)相關(guān)特征具有局限性。因此,可以將線性映射關(guān)系改成非線性映射關(guān)系,公式如下:
已知通道數(shù)是C,卷積核的大小k可以根據(jù)公式(11)得到:
其中,|x|odd表示最接近x的奇數(shù),本文采用的γ=2,b=1。
與含有SE模塊的網(wǎng)絡(luò)模型相比,帶有ECANet模塊的網(wǎng)絡(luò)模型引入了很少的額外計(jì)算和幾乎可以忽略的參數(shù)量,同時(shí)帶來了性能提升。
本文聲音事件檢測(cè)任務(wù)中使用L1損失函數(shù)優(yōu)化網(wǎng)絡(luò)模型,L1 損失函數(shù)的梯度為常量,有著穩(wěn)定的梯度,相對(duì)于原基線中用的MSE 損失函數(shù)不會(huì)產(chǎn)生梯度爆炸,對(duì)聲音事件檢測(cè)誤差的懲罰力度更小,公式如下:
其中,f(xi)和yi分別表示第i個(gè)聲音事件檢測(cè)的預(yù)測(cè)值及相應(yīng)的真實(shí)值,n為聲音事件的個(gè)數(shù)。
本文采用的數(shù)據(jù)集是TAU-NⅠGENS Spatial Sound Events 2021 數(shù)據(jù)集[27]。該數(shù)據(jù)集由坦佩雷理工大學(xué)收集,采樣頻率為24 kHz,包含600 個(gè)長(zhǎng)為一分鐘的錄音文件,其中包括整合到各種聲學(xué)空間中的12 種不同類別的聲音事件,聲音事件類別分別是警報(bào)聲、嬰兒哭泣聲、碰撞聲、狗叫、女性尖叫、女性演講、腳步聲、敲門聲、男性尖叫、男性演講、電話鈴聲、鋼琴聲。這些錄音是從特定室內(nèi)位置收集的空間房間脈沖響應(yīng),每個(gè)錄音文件在時(shí)間和空間上最多可能發(fā)生3個(gè)重疊的聲音事件,并且來自多個(gè)源方向和距離。此外,不屬于任何這些類別的不同聲音的錄音也以相同的方式空間化以用作噪聲干擾。數(shù)據(jù)集分為6個(gè)交叉驗(yàn)證部分,每部分有100個(gè)。其中400個(gè)用來訓(xùn)練,100個(gè)用來驗(yàn)證,100個(gè)用來測(cè)試。
本文使用標(biāo)準(zhǔn)度量F1分?jǐn)?shù)(F1-score,F(xiàn)1)和錯(cuò)誤率(error rate,ER)來評(píng)估聲音事件類別的識(shí)別,使用標(biāo)準(zhǔn)度量幀召回率(localization recall,LR)和定位錯(cuò)誤率(localization error,LE)來評(píng)估聲源位置信息。其中評(píng)價(jià)指標(biāo)F1的計(jì)算公式如下:
其中,F(xiàn)N(false negatives)是聲音事件類假陰性,TP(true positives)是聲音事件類真陽(yáng)性,F(xiàn)P(false positives)是聲音事件類假陽(yáng)性,定義如表1所示。
表1 評(píng)價(jià)指標(biāo)Table 1 Evaluation indicators
評(píng)價(jià)指標(biāo)ER計(jì)算公式如下:
N(k)是參考中活動(dòng)聲音事件類別的總數(shù)。S(k)是檢測(cè)到的聲音事件數(shù)量但預(yù)測(cè)錯(cuò)誤,是假陰性和假陽(yáng)性中較小者。剩余的假陽(yáng)性和假陰性(如果有的話)分別計(jì)為插入I(k)和刪除D(k),定義公式如下:
如果預(yù)測(cè)類和參考類相同,且小于20°,則認(rèn)為預(yù)測(cè)是正確的。使用F1和ER度量標(biāo)準(zhǔn)共同評(píng)估SED任務(wù),F(xiàn)1越大,ER越小,模型性能越好。只有當(dāng)聲音事件的類別預(yù)測(cè)正確,且其預(yù)測(cè)的DOA與DOA真實(shí)值角度小于D時(shí),才會(huì)將其視為正確的檢測(cè),一般D取20°。
評(píng)價(jià)指標(biāo)LR和LE的計(jì)算公式分別如下:
其中,uref和upre分別表示為參考聲音事件和預(yù)測(cè)聲音事件的單位笛卡爾位置向量。
本文實(shí)驗(yàn)運(yùn)行環(huán)境的硬件設(shè)施為:CPU 主頻為3.6 GHz,顯卡為NVⅠDⅠA RTX 2080Ti,內(nèi)存為32 GB;軟件環(huán)境為:操作系統(tǒng)為Windows10,深度學(xué)習(xí)框架為PyTorch=1.7.0,編程語言為Python3.7。SED 和DOA 估計(jì)的損失權(quán)重分別設(shè)置為λ=0.3 和γ=0.7,數(shù)據(jù)集訓(xùn)練時(shí)均采用Adam 算法對(duì)模型收斂速度進(jìn)行優(yōu)化。實(shí)驗(yàn)的初始學(xué)習(xí)率設(shè)定為3×10-4,在15 個(gè)epoch后下降到10-4,共訓(xùn)練50個(gè)epoch。
不同的聲音事件通常有不同的持續(xù)時(shí)間。因此,在訓(xùn)練過程中使用的時(shí)間長(zhǎng)度會(huì)影響模型的性能。TAUNⅠGENS Spatial Sound Events 2021 數(shù)據(jù)集上的聲音事件時(shí)長(zhǎng)通常在0.2~40.0 s,中位數(shù)為3.2 s,平均數(shù)8.3 s。本文分別在4 s、8 s、12 s、16 s四種不同輸入時(shí)間長(zhǎng)度下訓(xùn)練CECANet模型,其結(jié)果如表2所示。
表2 不同輸入時(shí)間長(zhǎng)度下訓(xùn)練CECANet模型的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of training CECANet models with different input time lengths
實(shí)驗(yàn)證明,用8 s 的輸入時(shí)間長(zhǎng)度訓(xùn)練評(píng)價(jià)指標(biāo)明顯優(yōu)于4 s,相比于12 s和16 s的時(shí)間長(zhǎng)度,CECANet模型性能并沒有進(jìn)一步提升。因此,本文選取8 s 的輸入時(shí)間長(zhǎng)度。
為了驗(yàn)證本文提出的CECANet的有效性,將CECANet與其他先進(jìn)的個(gè)人提出的網(wǎng)絡(luò)模型進(jìn)行了對(duì)比實(shí)驗(yàn)。選擇作為對(duì)比的網(wǎng)絡(luò)模型模型分別是SALSANet、CRNNNet、CNN-Conformer 和CMA-SELD。表3 展示了各網(wǎng)絡(luò)模型在TAU-NⅠGENS Spatial Sound Events 2021數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。
表3 不同模型在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different models on dataset
由表3 可知,CECANet 相較于其他模型F1 均有較大程度的提升,ER和LE有較大程度的下降,LR只略低于CMA-SELD模型0.5個(gè)百分點(diǎn),優(yōu)于其他模型。實(shí)驗(yàn)證明,CECANet對(duì)SELD的定位和檢測(cè)更準(zhǔn)確,效果更好。
圖7~12是TAU-NⅠGENS Spatial Sound Events 2021數(shù)據(jù)集中的fold6_room2_mix041 文件的可視化輸出對(duì)比,橫軸代表時(shí)間,SED 參考和預(yù)測(cè)圖的縱軸代表獨(dú)特的聲音事件類別標(biāo)識(shí)符,對(duì)于方位角參考和預(yù)測(cè)圖,它表示沿笛卡爾軸的距離。其中圖7 和圖8 是CRNNNet模型的預(yù)測(cè)結(jié)果,圖9和圖10是SALSANet模型的預(yù)測(cè)結(jié)果,圖11 和圖12 是CECANet 模型的預(yù)測(cè)結(jié)果,圖中的不同顏色代表不同聲音事件類別,藍(lán)色代表警報(bào)聲、紅色代表嬰兒哭泣聲、綠色代表碰撞聲、黑色代表女性尖叫聲、藍(lán)綠色代表女性演講聲、紅紫色代表腳步聲。由圖7、圖9、圖11可知,CECANet模型預(yù)測(cè)聲音事件的軌跡是最為精確的,并密切遵循基本事實(shí)。CECANet模型能夠在不同數(shù)量的重疊聲源(最多3 個(gè)重疊聲源)之間正確檢測(cè)聲音類別并估計(jì)DOA。在第4 s和第12 s之間,未知干擾被錯(cuò)誤分類為其他聲音類別。由于使用類輸出格式來訓(xùn)練模型,當(dāng)22 s和24 s之間有兩個(gè)重疊的聲音事件時(shí),模型只預(yù)測(cè)了一個(gè)聲音事件。
圖7 CRNNNet SED參考和預(yù)測(cè)Fig.7 CRNNNet SED reference and prediction
圖8 CRNNNet方位角參考和預(yù)測(cè)Fig.8 CRNNNet azimuth reference and prediction
圖9 SALSANet SED參考和預(yù)測(cè)Fig.9 SALSANet SED reference and prediction
圖10 SALSANet方位角參考和預(yù)測(cè)Fig.10 SALSANet azimuth reference and prediction
圖11 CECANet SED參考和預(yù)測(cè)Fig.11 CECANet SED reference and prediction
為了驗(yàn)證CECANet 模型中每一步改進(jìn)的有效性,在SALSANet分別加入CANet和ECANet模塊,在TAUNⅠGENS Spatial Sound Events 2021 數(shù)據(jù)集上進(jìn)行了測(cè)試,并計(jì)算其參數(shù)量。實(shí)驗(yàn)結(jié)果如表4 所示,CANet模型是在SALSANet 模型基礎(chǔ)上加入CANet 模塊的實(shí)驗(yàn)結(jié)果,ECANet模型是在SALSANet基礎(chǔ)上加入ECANet模塊的實(shí)驗(yàn)結(jié)果,CECANet模型是在SALSANet基礎(chǔ)上加入CANet 和ECANet 模塊的實(shí)驗(yàn)結(jié)果。由表4 可知,僅加入CANet模塊,使網(wǎng)絡(luò)模型的ER下降了1.2個(gè)百分點(diǎn),F(xiàn)1提升了1個(gè)百分點(diǎn),LE下降了0.7°,LR提升了0.3個(gè)百分點(diǎn)。加入ECANet 模塊時(shí),ER 下降了0.6 個(gè)百分點(diǎn),F(xiàn)1提升了0.8個(gè)百分點(diǎn),LE下降了0.11°。最終實(shí)驗(yàn)表明,同時(shí)加入CANet 和ECANet 模塊,ER 下降了1.6個(gè)百分點(diǎn),F(xiàn)1 提升了1.3 個(gè)百分點(diǎn),LE 下降了0.63°,LR提升了1.2個(gè)百分點(diǎn),進(jìn)一步提高了SELD定位和檢測(cè)的準(zhǔn)確度和效果。
表4 各改進(jìn)步驟的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of each improvement step
針對(duì)SELD定位難、效果差等問題,本文以SALSANet為基線模型,結(jié)合坐標(biāo)和高效通道注意力設(shè)計(jì)出CECANet 模型。該網(wǎng)絡(luò)模型優(yōu)勢(shì)在于,通過加入坐標(biāo)注意力和高效通道注意力,可以更好地捕獲特征圖在空間和通道上的信息,進(jìn)一步提高了SELD 的指標(biāo)性能。并在TAU-NⅠGENS Spatial Sound Events 2021 數(shù)據(jù)集上實(shí)驗(yàn)證明,本文提出的CECANet 相對(duì)于SALSANet在F1 和LR 均有較大程度的提升,ER 和LE 均有下降,相較于其他模型對(duì)SELD 的檢測(cè)和定位也具有一定優(yōu)勢(shì)。在以后的研究工作中,還可以從聲音事件特征提取方向著手,研究出更加輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提高聲音事件定位與檢測(cè)的速度和準(zhǔn)確性。