亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積神經(jīng)網(wǎng)絡(luò)和Transformer網(wǎng)絡(luò)的鳥聲識別

2023-11-13 03:34:18王基豪周曉彥李大鵬韓智超王麗麗

聲學(xué)技術(shù) 2023年5期

王基豪，周曉彥，李大鵬，韓智超，王麗麗

(南京信息工程大學(xué)電子與信息工程學(xué)院，江蘇南京 210044)

0 引言

鳥類作為生態(tài)系統(tǒng)中的重要組成部分，分布廣泛且對環(huán)境變化敏感，多數(shù)學(xué)者將鳥類作為監(jiān)測環(huán)境變化的指示物種[1-2]，因此對鳥類物種的監(jiān)測、識別及分類具有重要意義。目前識別鳥類物種的主要方式有兩種，分別是對鳥類物種外形特征的識別以及對鳥鳴聲的識別，在實(shí)際監(jiān)測中，由于鳥類形態(tài)監(jiān)測存在成本高、范圍限制大、效率低等問題[3]，使得鳥鳴聲監(jiān)測成為當(dāng)前的主流監(jiān)測方向。隨著信號處理和聲音識別技術(shù)的逐漸成熟，1996年Anderson等[4]利用模板匹配的方法首次實(shí)現(xiàn)了對靛藍(lán)彩鹀和斑胸草雀兩種鳥鳴聲的識別。之后國內(nèi)外學(xué)者圍繞基于鳥鳴聲的鳥類識別問題，通過手工提取特征、機(jī)器學(xué)習(xí)等方法展開了大量的研究，但對識別效果的提升一直比較有限。

隨著深度學(xué)習(xí)的發(fā)展，國內(nèi)外部分研究表明深度神經(jīng)網(wǎng)絡(luò)如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[5]、卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network, CRNN)[6]、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[7]等在鳥聲識別中能提取更有價(jià)值、更豐富的特征信息。邱志斌等[8]將梅爾語譜圖輸入到24層的自搭建CNN模型中，利用微調(diào)網(wǎng)絡(luò)參數(shù)在包含40類鳥鳴聲的數(shù)據(jù)集中能達(dá)到96.1%的識別準(zhǔn)確率。Takahashi等[9]在原有VGGNet卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)用于鳥聲識別，結(jié)合數(shù)據(jù)增強(qiáng)算法解決了過擬合問題，對Freesound數(shù)據(jù)庫中的鳥類進(jìn)行識別實(shí)驗(yàn)，識別準(zhǔn)確率較改進(jìn)前提高了16個(gè)百分點(diǎn)。Adavanne等[10]在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的基礎(chǔ)上提出了卷積循環(huán)神經(jīng)網(wǎng)絡(luò)，該方法提取了主頻和對數(shù)梅爾頻帶能量聲學(xué)特征，在三個(gè)獨(dú)立數(shù)據(jù)集上測試獲得了95.5%的識別準(zhǔn)確率。馮郁茜[11]提出了雙模態(tài)特征融合鳥類物種識別方法，通過卷積神經(jīng)網(wǎng)絡(luò)與長短時(shí)記憶網(wǎng)絡(luò)的級聯(lián)結(jié)構(gòu)，融合鳥聲的時(shí)頻域特征，完成對鳥聲識別算法的優(yōu)化，在6種鳥類識別中獲得了93.9%的平均識別準(zhǔn)確率。但文獻(xiàn)[8-10]只使用了單一特征，并且對于某些關(guān)聯(lián)性不強(qiáng)的數(shù)據(jù)不能獲取更為全面的特征，存在一定的局限性。

本文重點(diǎn)關(guān)注鳥鳴聲信號特征的多樣性，通過短時(shí)傅里葉變換(Short Time Fourier Transform,STFT)獲取包含時(shí)頻域特征信息的鳥聲語譜圖，以及通過對原始音頻信號計(jì)算得到梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)靜態(tài)分量、MFCC一階差分和二階差分組成的混合特征向量。本文受文獻(xiàn)[11]啟發(fā)，提取了不同鳥聲音頻特征后利用雙通道網(wǎng)絡(luò)級聯(lián)特征，其中一條通道利用卷積神經(jīng)網(wǎng)絡(luò)具有的平移不變性，對三維語譜圖局部特征信息進(jìn)行提取交互，得到局部細(xì)粒度頻譜特征，同時(shí)另外一條通道利用Transformer網(wǎng)絡(luò)結(jié)構(gòu)的多頭注意力機(jī)制，完成對MFCC混合特征向量的提取，得到兼顧上下文的全局序列特征，最后將兩條通道的特征融合到一起，增加每一個(gè)特征的信息量以提高鳥聲識別的準(zhǔn)確率。

1 鳥聲特征提取網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的鳥聲識別算法網(wǎng)絡(luò)整體由兩個(gè)分支組成，兩個(gè)分支為并行關(guān)系，各自同時(shí)進(jìn)行計(jì)算處理。上部分支首先對輸入的原始音頻信號進(jìn)行預(yù)加重、分幀加窗等預(yù)處理操作后得到STFT三維語譜圖；然后輸入到卷積神經(jīng)網(wǎng)絡(luò)(CNN)中提取局部頻域特征；最后通過線性層得到大小為Ncls×C1的二維矩陣特征集，其中Ncls為識別鳥類物種數(shù)目，C1為上部分支輸出特征向量維度大小。下部分支首先對輸入的原始音頻信號進(jìn)行預(yù)加重、分幀加窗等預(yù)處理操作后計(jì)算得到MFCC以及對應(yīng)的一階差分、二階差分特征，將其拼接得到F×C2維的梅爾特征集，隨后對特征集嵌入位置編碼，以時(shí)序排列的方式輸入Transformer編碼器網(wǎng)絡(luò)中，通過多頭注意力(Multi-Head Attention, MHA)模塊并行處理多組特征向量，得到兼顧上下文的全局序列特征，再通過多層感知機(jī)(Multi-Layer Perceptron, MLP)完成對輸出結(jié)果的優(yōu)化，最后通過線性層得到Ncls×C2維的二維特征集矩陣，其中F為梅爾特征向量維度大小，C2為下部分支輸出特征向量維度大小，在這里表現(xiàn)為原始音頻信號的輸入幀數(shù)。將兩條分支的特征集進(jìn)行拼接融合得到更豐富的特征信息后，通過Softmax函數(shù)得到最終的預(yù)測結(jié)果。鳥聲識別整體網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。

圖1 鳥聲識別整體網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Schematic diagram of the general network structure of bird sound recognition

1.1 特征提取

1.1.1 STFT語譜圖

對于獲取的原始鳥聲音頻信號來說，每一幀內(nèi)的鳥聲頻譜可以看作是不變的，但是這種看作不變的短時(shí)頻譜只能用于反映鳥聲鳴叫時(shí)的靜態(tài)特性。為了能反映出鳥聲信號的動態(tài)頻率特性，實(shí)現(xiàn)對非平穩(wěn)時(shí)變信號的分析，采用短時(shí)傅里葉變換生成STFT語譜圖[12]。對于一個(gè)連續(xù)時(shí)間信號x(t)，其連續(xù)時(shí)間內(nèi)的STFT表達(dá)式為

式中：S(ω，τ)是關(guān)于ω和τ的二維函數(shù)，w(t-τ)是時(shí)移長度為τ的窗函數(shù)。從本質(zhì)上來看，STFT是對傅里葉變換(Fourier Transorm, FT)進(jìn)行加窗操作，對每一次窗函數(shù)中的信號分幀進(jìn)行單獨(dú)處理。但實(shí)際中由于計(jì)算機(jī)只能處理離散信號，所以還需要對連續(xù)時(shí)間信號的STFT中每一幀信號的傅里葉變換用離散傅里葉變換(Discrete Fourier Transorm, DFT)代替。對于輸入的離散信號x(n)，其對應(yīng)的離散STFT表達(dá)式為

式中：X(l，k)是一個(gè)關(guān)于l和k的二維函數(shù)，l表示幀平移量，k表示當(dāng)前譜線數(shù)，N和n分別表示總采樣點(diǎn)數(shù)以及當(dāng)前第n幀。利用幅度變化關(guān)于時(shí)間與頻率的關(guān)系以及能量大小關(guān)于時(shí)間與頻率的關(guān)系，還可以推導(dǎo)出：

式中：S(l，k)為功率譜，是能量關(guān)于時(shí)間與頻率的二維函數(shù)，根據(jù)式(3)中關(guān)于X(l，k)的二維函數(shù)關(guān)系，可以繪制對應(yīng)的STFT語譜圖，利用圖像來獲取所需的三維信息，橫軸為時(shí)間，縱軸為頻率，顏色的深淺表示能量的大小。STFT語譜圖可以清楚了解到鳥聲音頻隨時(shí)間變化所能展現(xiàn)的頻率以及能量的變化。

通過上述操作對原始鳥聲音頻信號進(jìn)行處理獲取STFT語譜圖，窗函數(shù)采用漢寧窗，其中幀移為l=11 ms，總采樣點(diǎn)數(shù)為N=44 100?？紤]到不同種類鳥聲的能量差異較大會導(dǎo)致生成語譜圖顏色差異影響后續(xù)網(wǎng)絡(luò)訓(xùn)練，為此挑選出能量最大的鳥聲語譜圖作為上限基準(zhǔn)點(diǎn)，對所有語譜圖按照式(4)標(biāo)準(zhǔn)化縮放：

為節(jié)省存儲空間，將縮放后生成的語譜圖壓縮為256×256×3的三通道RGB圖像，并以jpg格式存儲?；已泺B聲信號生成的STFT語譜圖如圖2所示。

1.1.2 MFCC混合特征向量

MFCC特征參數(shù)是一種在語音識別中廣泛應(yīng)用的特征，其更接近人耳聽覺機(jī)制，可以降低原始鳥聲音頻中環(huán)境噪聲的干擾[13]。為了獲取MFCC靜態(tài)特征、一階差分和二階差分特征組成的混合特征向量，對原始音頻信號進(jìn)行如下操作：

(1) 通過一階高通濾波器進(jìn)行預(yù)加重，濾波器計(jì)算公式為

其中：α取值區(qū)間為(0.9, 1)，本文取0.935。

(2) 對信號進(jìn)行分幀加窗操作，窗函數(shù)選擇為漢明窗，幀長為23 ms，幀移為11 ms。

(3) 對每一幀預(yù)處理后的信號進(jìn)行快速傅里葉變換(Fast Fourier Transform, FFT)獲取對應(yīng)的頻譜，再通過式(3)獲得功率譜。

(4) 將功率譜輸入到梅爾濾波器組中計(jì)算獲得梅爾能量，其中梅爾濾波器組選用一組非均勻等高三角帶通濾波器對頻譜進(jìn)行平滑處理，消除諧波帶來的干擾[14]。設(shè)劃分的三角帶通濾波器為Hm(k)，則對于每一幀音頻信號均存在一個(gè)對數(shù)梅爾能量函數(shù)Emel(m)，將功率譜與梅爾濾波器組計(jì)算得到的對數(shù)梅爾能量表達(dá)式為

式中：M為每組濾波器個(gè)數(shù)，本文M=40。

(5) 對經(jīng)過梅爾濾波后的對數(shù)梅爾能量進(jìn)行離散余弦變換(Discrete Cosine Transform, DCT)，具體求解表達(dá)式為

式中：Emfcc(n)函數(shù)中n表示當(dāng)前第n幀，m取值滿足式(6)中每組濾波器個(gè)數(shù)限制。創(chuàng)建好對應(yīng)的數(shù)組標(biāo)簽后，可以得到MFCC靜態(tài)特征。這里考慮到第0維為表征平均值，沒有參考價(jià)值，且大部分能量集中在低頻區(qū)，所以最后選擇第1～13維共12組數(shù)據(jù)[15]。

(6) 最后為了更好體現(xiàn)提取鳥鳴聲時(shí)域特征的上下文連續(xù)性，增加提取特征的豐富度，對MFCC靜態(tài)特征計(jì)算一階差分zid和二階差分[16]：

式中：v=2，對獲得的一階差分和二階差分同樣取第1～13維，拼接得到二維的MFCC混合特征向量X∈RN×F，這里N表示總幀數(shù)，F(xiàn)=36表示提取的特征個(gè)數(shù)。

1.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)

對于從原始鳥聲信號中生成的STFT語譜圖來說，CNN直接采用原始圖像作為輸入，可以從大量圖像數(shù)據(jù)中學(xué)習(xí)得到有效特征，再通過對圖像的局部像素點(diǎn)進(jìn)行感知之后在高層對信息進(jìn)行共享合并，從而使網(wǎng)絡(luò)的每一層通過共享參數(shù)來獲得圖像的表征信息，在加強(qiáng)了對語譜圖局部特征提取能力的同時(shí)，又能保證網(wǎng)絡(luò)結(jié)構(gòu)本身的高度不變性。一般的CNN由輸入層、卷積層、池化層、全連接層和輸出層組成，本文使用ResNet50作為網(wǎng)絡(luò)主干，考慮到輸出參數(shù)量較少的同時(shí)加入了殘差模塊，減少了網(wǎng)絡(luò)深度加深之后梯度消失問題的影響[17]。網(wǎng)絡(luò)設(shè)置的輸入尺寸大小為256×256，和上文中提取的語譜圖大小一致；第一層卷積層之后輸出大小為128×128；然后通過四組殘差模塊，最后通過全連接層得到大小為Ncls×2 048的二維數(shù)組，Ncls為設(shè)定的鳥聲識別種類；卷積核大小設(shè)定均為3×3，池化層大小設(shè)定均為2×2×2。

1.3 Transformer網(wǎng)絡(luò)模型

在鳥聲識別中，不僅需要對每幀音頻信號進(jìn)行關(guān)注提取，還需要考慮每一幀信號在對應(yīng)位置的重要程度。為此對于上文中通過梅爾對數(shù)轉(zhuǎn)換提取獲得的MFCC混合特征向量，本文加入了Transformer網(wǎng)絡(luò)模型[18]，通過該模型所帶有的多頭注意力(MHA)機(jī)制，尋找定位顯著性的鳥聲音頻表征特征。之前很多時(shí)間序列處理任務(wù)中都有加入注意力機(jī)制[19]，但卻只能在每一步中只關(guān)注一個(gè)區(qū)域的特征信息，而Transformer網(wǎng)絡(luò)模型通過多個(gè)注意力模塊并行處理特征參數(shù)，既能利用注意力機(jī)制提取信息，還能加快網(wǎng)絡(luò)的訓(xùn)練速度，得到兼顧上下文的全局序列特征。

Transformer網(wǎng)絡(luò)主要由編碼器和解碼器兩部分組成。本文主要利用Transformer網(wǎng)絡(luò)中的的編碼器部分完成對MFCC混合特征向量的提取。Transformer網(wǎng)絡(luò)編碼器部分結(jié)構(gòu)如圖3所示，主要由MHA和多層感知機(jī)(MLP)組成，中間加入了殘差連接、層標(biāo)準(zhǔn)化(Layer Norm, LN)和Dropout層。

圖3 Transformer編碼器網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The structure of Transformer encoder network

對于輸入的MFCC混合特征向量X∈RN×F，首先需要進(jìn)行位置編碼來保證音頻幀按照時(shí)序順序正常輸入。本文采用正余弦位置編碼，計(jì)算公式為

式中：p表示每一幀在整段信號中的絕對位置，q表示維度，d表示可輸入特征向量的最大維數(shù)，目的是保證位置向量長度和輸入特征向量大小一致，這里d=512，2q和2q+1用于表示位置奇偶性，對生成的位置編碼與原二維特征向量進(jìn)行相加操作得到新的輸入向量X'∈RN×()F+1。將加入位置標(biāo)記的特征向量導(dǎo)入到后續(xù)的MHA模塊中，本文的MHA使用了注意力機(jī)制：

其中：Att(Q，K，V)函數(shù)可以看作將一個(gè)查詢(query)和一系列鍵值(keys-values)對映射為一個(gè)輸出的過程：X'×(WQ，WK，WV)→(Q，K，V)，將新的輸入向量X'與權(quán)重矩陣WQ，WK，WV進(jìn)行乘積映射為一個(gè)query向量和一組keys-values向量。通過計(jì)算query向量和所有keys向量的點(diǎn)乘，之后將結(jié)果除以則是對每個(gè)輸入的音頻之間相關(guān)性得分進(jìn)行歸一化處理，使訓(xùn)練時(shí)梯度保持穩(wěn)定，其中dk為keys向量的維度。最后通過softmax函數(shù)將權(quán)重得分轉(zhuǎn)化為0到1之間的概率分布矩陣，乘上values向量后得到最終的輸出矩陣。

但是單一的注意力機(jī)制只是局限于自身內(nèi)部的特征聯(lián)系，交互能力有限。而對于MHA來說，通過將上述的一組權(quán)重矩陣，擴(kuò)充為并行輸入使用多組權(quán)重，這樣可以使得模型在不同的時(shí)頻位置獲取信息，并通過上下文信息的交互獲取更豐富的音頻特征，進(jìn)一步增強(qiáng)了注意力機(jī)制中對突出部分特征信息的利用。這里的處理公式為

其中：對于hi=Att(QWiQ，KWiK，VWiV)，映射的權(quán)重矩陣WiQ∈Rd×dk，WiK∈Rd×dk，WiV∈Rd×dv。本文中設(shè)定注意力頭個(gè)數(shù)i=8，每個(gè)注意力頭滿足dv=di=64；通過WO作為拼接后的參數(shù)矩陣保證最后拼接得到的輸出矩陣與單一注意力機(jī)制計(jì)算得到的大小基本一致。

通過MHA得到的輸出矩陣后續(xù)送入前饋網(wǎng)絡(luò)(Feed Forward Network, FFN)，這里采用MLP模型作為前饋網(wǎng)絡(luò)的主干為，表達(dá)式為

其中：W1、W2為權(quán)重矩陣，b1、b2為偏置向量，MLP模型整體由兩個(gè)線性層和一個(gè)ReLU激活函數(shù)嵌套組成，輸出與前置LN層通過殘差連接輸入到最后一個(gè)全連接層，最終得到處理后大小為Ncls×C2的二維數(shù)組，其中Ncls為設(shè)定的鳥聲識別種類，C2為總幀數(shù)，本文中C2=173。

2 實(shí)驗(yàn)設(shè)置與分析

2.1 鳥聲數(shù)據(jù)集

為了驗(yàn)證所提出模型的有效性，本文選用Birdsdata[20]鳥鳴聲數(shù)據(jù)集和xeno-canto[21]鳥鳴聲數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。Birdsdata是2020年由北京百鳥數(shù)據(jù)科技公司最新發(fā)布的手工標(biāo)注自然聲音標(biāo)準(zhǔn)數(shù)據(jù)集，在國外期刊文獻(xiàn)中已被用于鳥聲的識別檢測。該數(shù)據(jù)集公開收集了共20類國內(nèi)常見的鳥類鳴叫聲，共計(jì)14 311份wav音頻文件，且所提供的音頻數(shù)據(jù)均已經(jīng)過2 s標(biāo)準(zhǔn)化分割以及降噪處理。xenocanto鳥聲數(shù)據(jù)集作為BirdCLEF鳥聲識別競賽的官方數(shù)據(jù)集，其數(shù)據(jù)來源于全球性野外鳥聲數(shù)據(jù)庫網(wǎng)站，具有一定的權(quán)威性。該數(shù)據(jù)集包含了44種歐亞地區(qū)且均為自然環(huán)境下錄制的常見鳥類音頻，時(shí)長在30 s～5 min不等且自帶有環(huán)境噪聲。本文需要將音頻文件手動分割為2 s，并對原音頻中的空白部分進(jìn)行刪減，最后得到共計(jì)34 703份處理好的音頻文件。以上數(shù)據(jù)集采樣率均為44.1 kHz，各數(shù)據(jù)集包含的鳥鳴聲種類和數(shù)量如表1和2所示。

表1 Birdsdata數(shù)據(jù)集信息Table 1 The information of Birdsdata dataset

表2 xeno-canto數(shù)據(jù)集部分信息Table 2 The partial information of xeno-canto dataset

2.2 實(shí)驗(yàn)設(shè)置及評價(jià)標(biāo)準(zhǔn)

本文中實(shí)驗(yàn)部分硬件操作系統(tǒng)為Ubuntu 20.04，GPU型號為GTX 2080Ti，CUDA版本為10.1，網(wǎng)絡(luò)模型的搭建全部采用Pytorch 1.8.0深度學(xué)習(xí)框架。在整體訓(xùn)練過程中，迭代次數(shù)(epoch)設(shè)置為100，對輸入數(shù)據(jù)的單次訓(xùn)練步長(batch_size)設(shè)置為32，優(yōu)化器采用Adam算法更新權(quán)重參數(shù)，學(xué)習(xí)率(learning_rate)采用階梯衰減方式，初始學(xué)習(xí)率設(shè)置為10-4，之后經(jīng)過總迭代數(shù)的56%和78%時(shí)，均衰減為前一級學(xué)習(xí)率的0.1倍，Dropout層設(shè)置為0.2。

本文將準(zhǔn)確率(Accuracy)和F1-score作為評估自身模型性能和對比其他模型的評價(jià)指標(biāo)。F1-score得分由精確率(Precision)和召回率(Recall)兩項(xiàng)指標(biāo)加權(quán)得到，評估公式為

其中：NTP表示正樣本中分類正確樣本數(shù)，NFP和NFN分別表示正、負(fù)樣本中分類錯(cuò)誤樣本數(shù)。具體實(shí)驗(yàn)中將整體數(shù)據(jù)集按照8∶2的比例劃分為訓(xùn)練集和測試集，然后采用五折交叉驗(yàn)證的方式分別進(jìn)行五次實(shí)驗(yàn)，并記錄每一次訓(xùn)練完后的測試結(jié)果以及最后的平均結(jié)果。

2.3 實(shí)驗(yàn)結(jié)果與分析

首先對本文所提方法進(jìn)行實(shí)驗(yàn)，將數(shù)據(jù)集分為A、B、C、D、E五等份，采用五折交叉驗(yàn)證的方式取其中四份作為訓(xùn)練集，一份作為測試集(例如將A、B、C、D作為訓(xùn)練集，E作為測試集，以此類推)，共五組實(shí)驗(yàn)。在Birdsdata數(shù)據(jù)上的識別準(zhǔn)確率評估結(jié)果如表3中所示。同時(shí)為避免實(shí)驗(yàn)結(jié)果存在偶然性，每組實(shí)驗(yàn)均在打亂訓(xùn)練集內(nèi)部順序的條件下重復(fù)五次，求出每組實(shí)驗(yàn)識別準(zhǔn)確率的均值及標(biāo)準(zhǔn)差。

表3 在Birdsdata數(shù)據(jù)集上識別準(zhǔn)確率評估結(jié)果Table 3 The evaluation results of recognition accuracy on Birdsdata dataset

對于Birdsdata數(shù)據(jù)集來說，當(dāng)鳥聲數(shù)據(jù)量較夸大、種類不是很復(fù)雜的情況下，各組樣本的五次實(shí)驗(yàn)準(zhǔn)確率波動不大。本文所提出的網(wǎng)絡(luò)最高準(zhǔn)確率為99.1%，但是在以A,B,C,E作為訓(xùn)練集，D作為測試集訓(xùn)練時(shí)整體準(zhǔn)確率只有95.5%，說明本文考慮的對每組實(shí)驗(yàn)樣本經(jīng)過五次實(shí)驗(yàn)求均值和標(biāo)準(zhǔn)差之后再求整體均值的方法是有效的，能在一定程度上減小偶然對識別結(jié)果性的影響，在最后得到的識別結(jié)果中Birdsdata數(shù)據(jù)集平均準(zhǔn)確率可以達(dá)到97.81%。

表4為在xeno-canto數(shù)據(jù)集中識別準(zhǔn)確率的評估結(jié)果。對于xeno-canto數(shù)據(jù)集，由于鳥聲數(shù)據(jù)量分布較為不均勻且種類繁多，并且音頻數(shù)據(jù)中帶有噪聲干擾，所以本文所提出的網(wǎng)絡(luò)整體準(zhǔn)確率比Birdsdata數(shù)據(jù)集有所下降，且各組樣本準(zhǔn)確率波動相比于表3中結(jié)果也較為明顯，例如其中最高準(zhǔn)確率為93.25%，最低準(zhǔn)確率為83.18%，但最后得到的識別結(jié)果中xeno-canto數(shù)據(jù)集的平均準(zhǔn)確率也能達(dá)到89.47%。

表4 在xeno-canto數(shù)據(jù)集中識別準(zhǔn)確率評估結(jié)果Table 4 The evaluation results of recognition accuracy on xeno-canto dataset

為了體現(xiàn)本文所提出網(wǎng)絡(luò)的整體收斂效果以及損失優(yōu)化情況，從Birdsdata和xeno-canto兩個(gè)數(shù)據(jù)集評估結(jié)果各隨機(jī)抽取的一組實(shí)驗(yàn)過程中100次迭代后準(zhǔn)確率以及損失函數(shù)變化的曲線圖，如圖4所示。由圖4可以看出當(dāng)學(xué)習(xí)率為10-4時(shí)，網(wǎng)絡(luò)在大約40次迭代后就可以初步收斂；在通過階梯學(xué)習(xí)率第一次衰減收縮之后(約55次迭代)，網(wǎng)絡(luò)本身的識別準(zhǔn)確率還能有約5個(gè)百分點(diǎn)的提升；而在學(xué)習(xí)率第二次衰減收縮之后(約80次迭代)，網(wǎng)絡(luò)的準(zhǔn)確率沒有明顯提升，也就說明網(wǎng)絡(luò)整體已經(jīng)達(dá)到全局收斂。

圖4 兩個(gè)鳥聲數(shù)據(jù)集上訓(xùn)練過程中識別準(zhǔn)確率和損失函數(shù)變化曲線Fig.4 Variation curves of the recognition accuracy and loss function in training process on the two bird sound datasets

此外，為了驗(yàn)證本文所提方法的有效性，將本文方法與其他方法進(jìn)行了對比實(shí)驗(yàn)。

(1) VGGNet方法[9]：提取鳥聲信號并通過STFT轉(zhuǎn)化為語譜圖，利用數(shù)據(jù)增強(qiáng)得到擴(kuò)充后的數(shù)據(jù)集，輸入到改進(jìn)后的VGGNet中進(jìn)行訓(xùn)練，最后通過全連接層得到鳥聲分類的結(jié)果。

(2) CRNN方法[10]：對音頻提取一維靜態(tài)對數(shù)梅爾(log-mel)頻譜值，升維處理后通過由CNN和GRU[22]組成的融合網(wǎng)絡(luò)得到鳥聲識別結(jié)果。

(3) CNN-LSTM方法[11]：通過音頻得到log-Mel頻譜值轉(zhuǎn)化為MFCC靜態(tài)分量和Mel語譜圖，對MFCC靜態(tài)分量進(jìn)行升維操作后與語譜圖數(shù)組拼接輸入到CNN和LSTM級聯(lián)的網(wǎng)絡(luò)，自適應(yīng)完成鳥聲識別。

(4) BiLSTM-DenseNet方法[20]：將音頻中提取的對數(shù)梅爾(log-Mel)頻譜值轉(zhuǎn)換為梅爾語譜圖，輸入到由雙向LSTM和DesenNet并行拼接組成的神經(jīng)網(wǎng)絡(luò)中完成鳥聲識別。

本文方法與上述方法進(jìn)行對比，在兩個(gè)數(shù)據(jù)集中不同方法下的鳥聲識別準(zhǔn)確率和F1-score得分如表5所示。

表5 在鳥聲數(shù)據(jù)集上不同方法的鳥聲識別結(jié)果Table 5 Bird sound recognition results of different methods on two bird sound datasets

由表5可知，本文提出的CNN+Transformer網(wǎng)絡(luò)與上述方法相比，在兩個(gè)鳥聲數(shù)據(jù)集中識別準(zhǔn)確率均有了相應(yīng)的提升。在Birdsdata數(shù)據(jù)集上，CNN+Transformer網(wǎng)絡(luò)的識別準(zhǔn)確率可達(dá)到97.81%，F(xiàn)1-score得分能達(dá)到97.69%，與VGGNet、CRNN、CNN-LSTM、BiLSTM-DenseNet等方法相比準(zhǔn)確率分別提升了4.57、3.05、2.23、5.61個(gè)百分點(diǎn)。在xeno-canto數(shù)據(jù)集上CNN+Transformer網(wǎng)絡(luò)的準(zhǔn)確率可達(dá)89.47%，F(xiàn)1-score得分可達(dá)到87.32%，與VGGNet、CRNN、CNN-LSTM、BiLSTM-DenseNet等方法相比準(zhǔn)確率分別提升了12.16、3.52、1.28、10.25個(gè)百分點(diǎn)。

此外，為了證明本文中上下兩條分支各自對特征利用的有效性，實(shí)驗(yàn)中對CNN(ResNet50)以STFT語譜圖作為輸入、對Transformer網(wǎng)絡(luò)以MFCC混合特征向量作為輸入分別進(jìn)行實(shí)驗(yàn)。由實(shí)驗(yàn)結(jié)果可知，CNN(ResNet50)在Birdsdata和xenocanto數(shù)據(jù)集上的準(zhǔn)確率分別為95.57%和83.01%，而Transformer網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別為95.91%和88.45%，均能達(dá)到和文獻(xiàn)[11]中方法接近或更優(yōu)的識別效果，可見CNN利用對局部特征的抓取能力以及Transformer網(wǎng)絡(luò)中所用到的多頭注意力機(jī)制，通過加強(qiáng)對重要位置的關(guān)注能在一定程度上提高識別的準(zhǔn)確率。因此，將兩種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行并聯(lián)得到的CNN+Transformer網(wǎng)絡(luò)最終能得到判別能力更強(qiáng)的融合特征，使得最終通過softmax分類器得到的識別效果更好。此外，可以看到在兩個(gè)風(fēng)格不同的數(shù)據(jù)集上，本文所提出的方法均取得了較好的識別效果，說明了CNN+Transformer網(wǎng)絡(luò)具有較強(qiáng)的魯棒性。

表6為各文獻(xiàn)方法和本文方法的參數(shù)量對比，以及在Birdsdata數(shù)據(jù)集上訓(xùn)練時(shí)間(每一個(gè)epoch)的比較。

表6 不同方法網(wǎng)絡(luò)參數(shù)量以及在Birdsdata數(shù)據(jù)集上訓(xùn)練時(shí)間對比Table 6 Comparison of the network parameters and training times of different methods on Birdsdata dataset

由表6可知，本文所提方法網(wǎng)絡(luò)參數(shù)量略大于文獻(xiàn)[10-11]的網(wǎng)絡(luò)，但是準(zhǔn)確率相比之下提高了2～3個(gè)百分點(diǎn)。此外，本文網(wǎng)絡(luò)的訓(xùn)練速度僅略微小于文獻(xiàn)[20]的方法，準(zhǔn)確率卻遠(yuǎn)高于該方法。綜合兩者來看，本文所提方法能基本做到在不增加較大計(jì)算量的基礎(chǔ)上，高效利用所提取的鳥聲特征，從而顯著提高網(wǎng)絡(luò)的識別準(zhǔn)確率。

3 結(jié) 論

目前對于基于深度學(xué)習(xí)的鳥聲識別研究來說，如何有效利用從音頻信號中提取的各種時(shí)頻域特征信息是一個(gè)值得深入研究的問題。本文提出的CNN+Transformer網(wǎng)絡(luò)，通過對STFT語譜圖以及MFCC混合特征向量的提取，利用語譜圖包含的局部特征信息以及MFCC特征所具有的時(shí)頻域相關(guān)信息，結(jié)合網(wǎng)絡(luò)中CNN對局部細(xì)粒度頻譜特征的關(guān)注以及Transformer解碼器中多頭注意力機(jī)制對全局上下文時(shí)域信息的加權(quán)計(jì)算，最后篩選出具有較強(qiáng)判別性的鳥聲輸出特征。在Birdsdata數(shù)據(jù)集和xeno-canto數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn)，平均識別準(zhǔn)確率均高于已有方法的平均識別準(zhǔn)確率，證明了本文所提出網(wǎng)絡(luò)模型的有效性。