薛珊,衛(wèi)立煒,顧宸瑜,呂瓊瑩
(1.長春理工大學(xué)機(jī)電工程學(xué)院,130022,長春; 2.長春理工大學(xué)重慶研究院,401135,重慶;3.西安交通大學(xué)信息與通信工程學(xué)院,710049,西安)
近年來,民用無人機(jī)黑飛的數(shù)量大大增加,給人們帶來了極大威脅,如何應(yīng)對(duì)無人機(jī)威脅并對(duì)其進(jìn)行反制就成為了亟待解決的問題。在此背景下,對(duì)無人機(jī)進(jìn)行反制的反無人機(jī)系統(tǒng)成為了研究熱點(diǎn)。反無人機(jī)系統(tǒng)的關(guān)鍵之一,也是它的首要解決問題是對(duì)無人機(jī)進(jìn)行探測識(shí)別。目前對(duì)無人機(jī)進(jìn)行探測識(shí)別有多種方法,包括圖像識(shí)別、無線電識(shí)別等,它們有各自的優(yōu)缺點(diǎn)和適用范圍,先進(jìn)的趨勢(shì)是采用多種識(shí)別方法結(jié)合的方式[1-4]。在此情況下,經(jīng)濟(jì)便捷的聲學(xué)識(shí)別方法得到了廣泛關(guān)注,它不會(huì)對(duì)其他方法形成干擾,可以成為一種很好的輔助手段,如何運(yùn)用聲音識(shí)別無人機(jī)成為了研究的熱點(diǎn)。
針對(duì)無人機(jī)聲音識(shí)別問題,學(xué)者們已經(jīng)對(duì)其進(jìn)行了一系列的研究,目前大多采用卷積神經(jīng)網(wǎng)絡(luò)的方法識(shí)別。Seo等使用具有聲學(xué)短時(shí)傅里葉變換特征的卷積神經(jīng)網(wǎng)絡(luò)來對(duì)無人機(jī)進(jìn)行探測[5];Casabianca等提取無人機(jī)的梅爾譜圖特征,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)對(duì)無人機(jī)進(jìn)行識(shí)別[6]。研究過程中使用的無人機(jī)以及特征等各不相同,并沒有統(tǒng)一的標(biāo)準(zhǔn),所以目前并沒有統(tǒng)一且成熟的無人機(jī)公共聲音數(shù)據(jù)集?,F(xiàn)實(shí)中無人機(jī)音頻樣本數(shù)量較少,在運(yùn)用大模型對(duì)其進(jìn)行識(shí)別時(shí),容易引起過擬合,導(dǎo)致識(shí)別準(zhǔn)確率不高;除此之外,不同種類間的無人機(jī)聲音音頻特征相似,不易區(qū)別,這也影響了模型的識(shí)別準(zhǔn)確率。如何運(yùn)用深度學(xué)習(xí)中的先進(jìn)方法提高對(duì)無人機(jī)聲音的識(shí)別準(zhǔn)確率,成為了人們研究的難點(diǎn)。
本文針對(duì)大模型識(shí)別無人機(jī)時(shí)準(zhǔn)確率不高的問題,采用分組卷積[7]的思想來減少網(wǎng)絡(luò)參數(shù),降低模型復(fù)雜度,設(shè)計(jì)小型網(wǎng)絡(luò)通道混洗的多尺度分組卷積網(wǎng)絡(luò)(multi-scale group convolution networks with channel shuffle,MSSGNet)來提高模型的識(shí)別準(zhǔn)確率;針對(duì)特征相似不易區(qū)分而導(dǎo)致的準(zhǔn)確率不高的問題,本文選擇在網(wǎng)絡(luò)中加入注意力,為此設(shè)計(jì)通道空間混合域注意力機(jī)制模塊 (efficient channel and spatial attention,ECSA),讓模型重點(diǎn)關(guān)注有用信號(hào)而忽略無關(guān)噪聲信號(hào),增強(qiáng)信號(hào)特征區(qū)域的表征,使得模型的識(shí)別準(zhǔn)確率獲得進(jìn)一步提高。
采集城市公園、廣場和大型游樂場等公共環(huán)境中的民用無人機(jī)聲音數(shù)據(jù),采樣頻率為44.1 kHz,其中包含著較高信噪比的背景噪聲。實(shí)驗(yàn)采用的無人機(jī)包括DJI 曉spark、DJI Phantom 4、DJI Mavicmini、DJI Mavic Air、DJI Mavic Air 2、DJI Mavic 2和DJI Mavic Pro等7類無人機(jī),作為已知無人機(jī);將大疆悟1等一些小眾無人機(jī)當(dāng)作未知無人機(jī),作為第8類,記作unknown類;將發(fā)動(dòng)機(jī)、空調(diào)外機(jī)、鉆孔、廣場環(huán)境聲、交通環(huán)境聲、公園環(huán)境聲等非無人機(jī)聲音作為第9類,記作non-drone類。對(duì)獲得的聲音信號(hào)進(jìn)行濾波、預(yù)加重、分幀和加窗等預(yù)處理,將長音頻片段分割成1 s的短片段。建立的無人機(jī)聲音數(shù)據(jù)集的詳細(xì)描述如表1所示,在數(shù)據(jù)集中隨機(jī)選取9類音頻各一幀信號(hào)的聲譜圖如圖1所示。
表1 自制無人機(jī)數(shù)據(jù)集的詳細(xì)描述
(a)Mavic 2 (b)Mavic Air (c)Mavic Air2
音頻數(shù)據(jù)在輸入神經(jīng)網(wǎng)絡(luò)之前,需要提取合適的特征參數(shù)來表征信號(hào)。常用的音頻特征包括對(duì)數(shù)梅爾譜圖(log Mel-spectrogram,log-Mel)[8-9]、MFCC[10-11]等。本文采用log-Mel特征及其動(dòng)態(tài)差分特征來表征無人機(jī)音頻信號(hào)。
圖2展示了特征生成的過程。采用25 ms窗口長度的短時(shí)傅里葉變換(STFT)和34個(gè)Mel濾波器來提取log-Mel特征及其動(dòng)態(tài)差分特征,其中DJI Mavic 2無人機(jī)的特征表示如圖3所示。
圖2 特征提取流程示意圖Fig.2 Schematic diagram of the feature extraction process
(a)log-Mel (b)Delta (c)Delta-Delta圖3 DJI Mavic 2的log-Mel及差分特征譜圖Fig.3 Log-Mel and differential feature spectrum of DJI Mavic 2
由于民用無人機(jī)聲音數(shù)據(jù)集樣本數(shù)量較少,當(dāng)采用的分類網(wǎng)絡(luò)較大時(shí),其參數(shù)量過多,會(huì)產(chǎn)生過擬合現(xiàn)象,導(dǎo)致模型精度不高。所以,設(shè)計(jì)一種小型網(wǎng)絡(luò)模型來減輕這種過擬合現(xiàn)象就顯得很重要?;诖?基于分組卷積和通道混洗[12]的思想,結(jié)合殘差結(jié)構(gòu)[13],設(shè)計(jì)了小型網(wǎng)絡(luò)MSSGNet。
首先設(shè)計(jì)通道混洗的多尺度分組卷積模塊(multi-scale group convolution module with channel shuffle,MSSG),步長(stride)為1時(shí)的結(jié)構(gòu)示意圖如圖4所示,步長為2時(shí)結(jié)構(gòu)相同,只是輸出特征圖的寬和高相應(yīng)減半。采用分組卷積來減少模型參數(shù),借鑒多尺度特征提取思想,分組后并行經(jīng)過核大小為3×3的深度卷積[14]以及1×1的卷積,再對(duì)兩者結(jié)果進(jìn)行拼接,其中選用小核的目的是為了在獲得好的性能的同時(shí)能具有更少的參數(shù);采用通道混洗來保證分組卷積(包括深度卷積)過程中不同組之間信息的交互;之后運(yùn)用1×1的卷積對(duì)通道進(jìn)行降維;結(jié)果通過捷徑連接與輸入特征圖逐元素相加融合輸出。其中卷積層、批歸一化層(batch normalization,BN)以及整流線性單元(rectified linear unit,ReLU)同時(shí)使用。MSSG模塊的結(jié)構(gòu)示意圖如圖4所示,圖中C、H、W為特征圖的通道數(shù)、高度、寬度,?表示矩陣相加。
圖4 MSSG模塊的結(jié)構(gòu)示意圖Fig.4 Schematic diagram of structure of the MSSG block
為了充分提取特征,MSSGNet網(wǎng)絡(luò)首先經(jīng)過核大小為7×7、步長為1的卷積核,并經(jīng)過核大小為2×2、步長為2的最大池化操作進(jìn)行降維,將它們記作CONV1;之后經(jīng)過順序堆疊的若干MSSG-X模塊,其中MSSG-X模塊代表X個(gè)MSSG模塊的順序堆疊,其結(jié)構(gòu)如圖5所示;最后以全局平均池化層(GAP)和具有Softmax的全連接層(FC)結(jié)束。MSSGNet網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖6表示,圖中每個(gè)特征圖下方的標(biāo)注均表示特征圖的尺寸,即通道數(shù)C×高度H×寬度W。
圖5 MSSG-X模塊的結(jié)構(gòu)示意圖Fig.5 Schematic diagram of structure of the MSSG-X
圖6 MSSGNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.6 Structure diagram of the MSSGNet
近年來,深度學(xué)習(xí)中的注意力機(jī)制在自然語言處理、圖像識(shí)別和語音識(shí)別等各種任務(wù)中都獲得了廣泛應(yīng)用,它可以增強(qiáng)表現(xiàn)力,對(duì)重要信息進(jìn)行關(guān)注,弱化其他無關(guān)信息[15-19]。為提高模型精度,選擇加入注意力機(jī)制來增加模型對(duì)特征的提取能力。
2.2.1 通道注意力模塊設(shè)計(jì)
為了讓模型更多地關(guān)注那些能夠提取無人機(jī)聲音信號(hào)特征的通道,忽略提取背景噪聲特征的通道,設(shè)計(jì)通道注意力模塊(channel attention module,CAM)。
首先,對(duì)輸入特征圖X在空間維度進(jìn)行壓縮,其中X∈C×H×W,為了豐富特征,借鑒于CBAM[20],除了運(yùn)用平均池化來聚合輸入特征圖X的空間信息外,還運(yùn)用最大池化壓縮空間,把兩者聚合后獲取的特征描述符先逐元素相加融合進(jìn)行編碼,再把編碼后的結(jié)果通過多層感知器來學(xué)習(xí)一維通道注意力矩陣,其中加入了值為16的衰減率來減少參數(shù);之后通過h-sigmoid[21]函數(shù)進(jìn)行歸一化;最后與輸入特征圖X逐元素相乘獲取加權(quán)后的輸出特征圖X′∈C×H×W,其結(jié)構(gòu)示意圖如圖7所示,圖中FC表示全連接層,?表示矩陣乘法。對(duì)特征圖X提取通道注意力矩陣A(X)可表示為
A(X)=f(M(Avgpool(X)+Maxpool(X)))
(1)
X′=XA(X)
(2)
式中:f(·)為h-sigmoid激活函數(shù);Avgpool(·)、Maxpool(·)分別為全局平均池化函數(shù)、最大池化函數(shù);M(·)表示經(jīng)過中間處理模塊處理后的矩陣。
圖7 通道注意力模塊CAM模塊結(jié)構(gòu)示意圖Fig.7 Schematic diagram of structure of the CAM
2.2.2 空間注意力模塊設(shè)計(jì)
通道注意力忽略了空間信息,通過空間注意力來彌補(bǔ)。輸入網(wǎng)絡(luò)的聲音信號(hào)特征譜圖,其水平方向是每幀信號(hào)特征所在的維度,代表幀信號(hào)的特征,而垂直方向是時(shí)間所在維度,表示時(shí)序信號(hào)在時(shí)間上幀與幀信號(hào)之間的聯(lián)系,它們?cè)诟髯跃S度上都占據(jù)著不同的比重。為了突出兩個(gè)維度空間的信息,設(shè)計(jì)了兩條支路來分別對(duì)特征和時(shí)間兩個(gè)維度提取注意力向量,讓模型更多地關(guān)注信號(hào)的重要特征及時(shí)間區(qū)域,稱其為空間注意力模塊 (spatial attention module,SAM)。
首先采用1×1卷積在通道維度對(duì)輸入特征圖X∈C×H×W進(jìn)行壓縮;之后分出兩條支路,分別運(yùn)用一維平均池化聚合特征圖的水平和垂直方向上的信息,再通過7×1、1×7卷積分別獲取一維垂直及水平注意力向量,并運(yùn)用sigmoid函數(shù)進(jìn)行歸一化,其中選用7×1核大小的原因在于:在對(duì)不同卷積核大小的比較中,發(fā)現(xiàn)采用更大的核會(huì)產(chǎn)生更好的精度,這也意味著需要一個(gè)大的感興趣區(qū)域來決定空間上重要的區(qū)域;最后把獲得的兩個(gè)一維向量與輸入特征圖逐元素相乘獲取加權(quán)后的輸出特征圖Y∈C×H×W。其結(jié)構(gòu)示意圖如圖8所示,其中θ、φ和λ分別表示大小為3×3、7×1和1×7的卷積核;σ表示sigmoid激活函數(shù),表達(dá)式為
AH(X)=σ(Avgpool(WθX)Wφ)
(3)
AW(X)=σ(Avgpool(WθX)Wλ)
(4)
Y=XAW(X)AH(X)
(5)
式中:σ(·)為sigmoid激活函數(shù);Wθ、Wφ、Wλ為不同卷積核權(quán)重參數(shù);AH(X)為對(duì)特征圖X提取一維垂直注意力向量;AW(X)為對(duì)特征圖X提取一維水平注意力向量。
圖8 空間注意力模塊SAM模塊的結(jié)構(gòu)示意圖Fig.8 Schematic diagram of structure of the SAM
2.2.3 通道空間混合域注意力機(jī)制模塊設(shè)計(jì)
類似CBAM,通道空間順序連接:輸入特征圖X∈C×H×W,先經(jīng)過CAM模塊獲取一維通道注意力圖FC∈C×1×1,與X逐元素相乘得到中間特征圖X′∈C×H×W;之后通過SAM模塊獲取一維垂直注意力圖FH∈1×H×1和一維水平注意力圖FW∈1×1×W,兩者一同與X′逐元素相乘,獲得最終輸出特征圖Y∈C×H×W,稱為通道空間混合域注意力機(jī)制模塊(efficient channel and spatial attention,ECSA)。其結(jié)構(gòu)示意圖如圖9所示,其值可表示為
X′=FC(X)?X
(6)
Y=X′?FH(X′)?FW(X′)
(7)
式中:?表示逐元素相乘;FC、FH、FW表示對(duì)特征圖提取相應(yīng)注意力矩陣。
圖9 ECSA模塊結(jié)構(gòu)示意圖Fig.9 Schematic diagram of structure of the ECSA
為了進(jìn)一步提高網(wǎng)絡(luò)模型對(duì)無人機(jī)的識(shí)別準(zhǔn)確率,在MSSGNet網(wǎng)絡(luò)的MSSG模塊中插入了混合域注意力機(jī)制模塊ECSA模塊,位置處于MSSG模塊中的通道降維后,合稱為ECSAM模塊,其結(jié)構(gòu)示意圖如圖10所示。同樣,將X個(gè)ECSAM模塊的順序堆疊表示成ECSAM_X模塊,其結(jié)構(gòu)圖如圖11所示。其余結(jié)構(gòu)保持不變,將MSSGNet網(wǎng)絡(luò)中的MSSG模塊替換為ECSAM模塊后的網(wǎng)絡(luò)稱為通道空間混合域注意力機(jī)制的多尺度分組卷積網(wǎng)絡(luò)(Multiscale group convolution network with attention mechanism in mixed domain of channel space,ECSANet),其網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖12所示。
圖10 ECSAM模塊的結(jié)構(gòu)示意圖Fig.10 Schematic diagram of structure of the ECSAM block
圖11 ECSAM_X模塊的結(jié)構(gòu)示意圖Fig.11 Schematic diagram of structure of the ECSAM_X
圖12 ECSANet網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.12 Schematic diagram of structure of the ECSANet
所有實(shí)驗(yàn)在Python 3.7.6環(huán)境、Windows10平臺(tái)上完成。運(yùn)行設(shè)備CPU型號(hào)為i7-9750H,顯卡為GTX1660 Ti。在GPU環(huán)境下完成對(duì)網(wǎng)絡(luò)模型的學(xué)習(xí)訓(xùn)練。
該部分實(shí)驗(yàn)在自制無人機(jī)聲音數(shù)據(jù)集上進(jìn)行,其中訓(xùn)練集和測試集的比例為3∶1。網(wǎng)絡(luò)訓(xùn)練時(shí)采用帶動(dòng)量的SGD優(yōu)化器,動(dòng)量的值為0.9,初始學(xué)習(xí)率為0.01,每經(jīng)過30輪學(xué)習(xí)率下降為原來的0.1倍,共訓(xùn)練90輪;采用交叉熵?fù)p失函數(shù);批次大小設(shè)置為128。
3.1.1 MSSGNet網(wǎng)絡(luò)與其他基準(zhǔn)網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)
該實(shí)驗(yàn)是為了對(duì)所設(shè)計(jì)的MSSGNet網(wǎng)絡(luò)進(jìn)行評(píng)估。選擇在自制無人機(jī)聲音數(shù)據(jù)集上與其他基準(zhǔn)網(wǎng)絡(luò)之間進(jìn)行比較,其中基準(zhǔn)網(wǎng)絡(luò)有ResNet18、ResNet34、ResNeXt18[22]和MobileNetV2[23]。運(yùn)用準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。其實(shí)驗(yàn)結(jié)果如表2和圖13所示。網(wǎng)絡(luò)的參數(shù)量可以體現(xiàn)模型的空間復(fù)雜度,網(wǎng)絡(luò)參數(shù)量越大,訓(xùn)練網(wǎng)絡(luò)時(shí)所需的數(shù)據(jù)量就越大。而當(dāng)數(shù)據(jù)集樣本數(shù)量太小時(shí),模型的訓(xùn)練更容易引起過擬合問題。
表2 MSSGNet與其他基準(zhǔn)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果比較
(a)準(zhǔn)確率對(duì)比曲線
從表2可以看出,MSSGNet網(wǎng)絡(luò)的參數(shù)量最少,且識(shí)別準(zhǔn)確率最高,可以達(dá)到95.1%。當(dāng)運(yùn)用其對(duì)無人機(jī)聲音數(shù)據(jù)集進(jìn)行識(shí)別時(shí),可以緩解過擬合現(xiàn)象。由圖13可知,與其他基準(zhǔn)網(wǎng)絡(luò)相比,MSSGNet網(wǎng)絡(luò)性能最好,MSSGNet網(wǎng)絡(luò)可以很好地應(yīng)對(duì)無人機(jī)小樣本識(shí)別任務(wù),且性能較好。
3.1.2 通道空間注意力機(jī)制模塊ECSA模塊的消融實(shí)驗(yàn)
該實(shí)驗(yàn)是混合注意力ECSA模塊的消融實(shí)驗(yàn),選擇ResNet34作為基準(zhǔn)網(wǎng)絡(luò),實(shí)驗(yàn)時(shí)分別加入通道注意力CAM模塊、空間注意力SAM模塊以及混合注意力ECSA模塊,研究它們對(duì)模型識(shí)別準(zhǔn)確率的影響。將提取的特征參數(shù)分別傳入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,運(yùn)用準(zhǔn)確率作為模型的評(píng)價(jià)指標(biāo),最終實(shí)驗(yàn)結(jié)果如表3和圖14所示。
表3 ResNet34加入3種注意力模塊后網(wǎng)絡(luò)模型的相關(guān)實(shí)驗(yàn)結(jié)果對(duì)比表
(a)準(zhǔn)確率對(duì)比曲線
從表3和圖14可以看出,基準(zhǔn)網(wǎng)絡(luò)ResNet34在加入3種注意力模塊后,其識(shí)別準(zhǔn)確率均獲得了提高,在其中加入混合注意力ECSA模塊后網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率最高,相比于ResNet34提高了4.9%,相比于單純的通道、空間注意力分別提高了2.5%、3.2%,并且網(wǎng)絡(luò)模型增加的參數(shù)量基本上可以忽略不計(jì)。實(shí)驗(yàn)結(jié)果證明了混合注意力ECSA模塊相比于單純的通道和空間注意力,可以使模型的識(shí)別準(zhǔn)確率變得更高;并且也表明了混合域注意力ECSA模塊是輕量的,在插入神經(jīng)網(wǎng)絡(luò)模型后帶來的參數(shù)可以忽略不計(jì)。實(shí)驗(yàn)結(jié)果證明了設(shè)計(jì)的混合注意力ECSA模塊的有效性。
3.1.3 ECSA模塊與其他注意力機(jī)制模塊的對(duì)比實(shí)驗(yàn)
該實(shí)驗(yàn)是對(duì)混合域注意力模塊ECSA的可行性驗(yàn)證以及與其他諸如SE (squeeze & excitation block)[24]、CBAM (convolutional block attention module)等常用注意力機(jī)制模塊的優(yōu)越性對(duì)比。選擇ResNeXt18、ResNet18、ResNet34和ResNet50等網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò),將提取的特征參數(shù)分別傳入各種網(wǎng)絡(luò)進(jìn)行訓(xùn)練。運(yùn)用準(zhǔn)確率作為模型的評(píng)價(jià)指標(biāo),最終各個(gè)模型的準(zhǔn)確率對(duì)比曲線如圖15所示。
(a)ResNeXt18 (b)ResNet18
從圖15中可以看出,相比于各種基準(zhǔn)網(wǎng)絡(luò),加入注意力后,基準(zhǔn)網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率均獲得了提高,且加入設(shè)計(jì)的混合注意力ECSA模塊后的基準(zhǔn)網(wǎng)絡(luò)模型識(shí)別準(zhǔn)確率最高。實(shí)驗(yàn)結(jié)果證明了設(shè)計(jì)的混合注意力模塊ECSA模塊的可行性和優(yōu)越性,表明了ECSA模塊可以插入各種神經(jīng)網(wǎng)絡(luò)中來提高模型的識(shí)別準(zhǔn)確率。研究表明,針對(duì)無人機(jī)聲音識(shí)別問題,設(shè)計(jì)的混合域注意力ECSA模塊可以使得網(wǎng)絡(luò)模型更準(zhǔn)地識(shí)別無人機(jī)。
3.1.4 ECSANet網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)
該實(shí)驗(yàn)是對(duì)ECSANet網(wǎng)絡(luò)進(jìn)行的可行性驗(yàn)證實(shí)驗(yàn)。選擇MSSGNet網(wǎng)絡(luò)為基準(zhǔn)網(wǎng)絡(luò),把特征參數(shù)分別傳入MSSGNet、ECSANet網(wǎng)絡(luò),最終模型的準(zhǔn)確率對(duì)比曲線如圖16所示,兩者的混淆矩陣如圖17所示。
圖16 MSSGNet網(wǎng)絡(luò)與ECSANet網(wǎng)絡(luò)模型的準(zhǔn)確率對(duì)比曲線Fig.16 Accuracy comparison curve between MSSGNet and ECSANet models
(a)MSSGNet網(wǎng)絡(luò)
從圖16可以看出,與MSSGNet網(wǎng)絡(luò)相比,ECSANet網(wǎng)絡(luò)識(shí)別準(zhǔn)確率獲得了提高,由95.1%提高到了95.9%。從圖17可以看出,相比于MSSGNet網(wǎng)絡(luò),ECSANet網(wǎng)絡(luò)對(duì)于DJI Mavic mini和DJI曉spark這兩類無人機(jī)的預(yù)測能力得到了增強(qiáng),說明MSSGNet網(wǎng)絡(luò)加入混合域注意力機(jī)制模塊ECSA模塊后,其對(duì)于信號(hào)的特征提取能力得到增強(qiáng),從而使得網(wǎng)絡(luò)模型對(duì)于復(fù)雜類別間的區(qū)分度得到增強(qiáng),進(jìn)而使得網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率得到提高。實(shí)驗(yàn)證明了設(shè)計(jì)的網(wǎng)絡(luò)ECSANet網(wǎng)絡(luò)的有效性,它可以更準(zhǔn)確地對(duì)無人機(jī)進(jìn)行識(shí)別。
公共環(huán)境聲音數(shù)據(jù)集Urbansound8K[25]是由8 732個(gè)帶標(biāo)簽的聲音片段組成的數(shù)據(jù)集,每個(gè)聲音片段具有最大4 s的持續(xù)時(shí)間。8 732段錄音來自10個(gè)聲音類別,即汽車?yán)?、狗吠、發(fā)動(dòng)機(jī)空轉(zhuǎn)、風(fēng)鉆、空調(diào)、街頭音樂、兒童玩耍、鉆探、槍聲和警笛。數(shù)據(jù)集由Urbansound8K的一部分構(gòu)成,分別包括空調(diào)、兒童游戲、鉆孔、發(fā)動(dòng)機(jī)怠速以及手提鉆共5類,每類包含730個(gè)片段。這部分實(shí)驗(yàn)主要是對(duì)MSSGNet網(wǎng)絡(luò)以及ECSANet網(wǎng)絡(luò)模型進(jìn)行可行性驗(yàn)證。
同樣,采用log-Mel及其動(dòng)態(tài)差分特征作為表征音頻信號(hào)的特征參數(shù)。實(shí)驗(yàn)時(shí)訓(xùn)練集和驗(yàn)證集的比例為3∶1,網(wǎng)絡(luò)訓(xùn)練時(shí)采用帶動(dòng)量的SGD優(yōu)化器,動(dòng)量取值0.9,初始學(xué)習(xí)率為0.01,每經(jīng)過30個(gè)epoch學(xué)習(xí)率下降為原來的0.1倍,共訓(xùn)練90個(gè)epoch;損失函數(shù)采用的是交叉熵?fù)p失函數(shù);每次傳入網(wǎng)絡(luò)數(shù)據(jù)的批次大小設(shè)置為128。運(yùn)用準(zhǔn)確率作為模型的評(píng)價(jià)指標(biāo)。
3.2.1 MSSGNet網(wǎng)絡(luò)的驗(yàn)證實(shí)驗(yàn)
該實(shí)驗(yàn)是為了為驗(yàn)證所設(shè)計(jì)網(wǎng)絡(luò)MSSGNet的可行性與優(yōu)越性。采用ResNet18、ResNeXt18和MobileNetV2作為基準(zhǔn)網(wǎng)絡(luò),提取特征參數(shù)輸入幾種網(wǎng)絡(luò),觀察實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如圖18所示。相比于其他基準(zhǔn)網(wǎng)絡(luò)模型,MSSGNet網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率最高。實(shí)驗(yàn)結(jié)果證明了設(shè)計(jì)的MSSGNet網(wǎng)絡(luò)的可行性和有效性,且它具有一定的優(yōu)越性。
(a)準(zhǔn)確率對(duì)比曲線
3.2.2 ECSANet網(wǎng)絡(luò)的驗(yàn)證實(shí)驗(yàn)
該實(shí)驗(yàn)是對(duì)ECSANet網(wǎng)絡(luò)進(jìn)行的可行性驗(yàn)證實(shí)驗(yàn)。將MSSGNet網(wǎng)絡(luò)作為基準(zhǔn)網(wǎng)絡(luò),把特征參數(shù)分別傳入MSSGNet、ECSANet網(wǎng)絡(luò),最終模型的準(zhǔn)確率對(duì)比如表4所示??芍啾扔贛SSGNet網(wǎng)絡(luò),ECSANet網(wǎng)絡(luò)識(shí)別準(zhǔn)確率有了進(jìn)一步提高。實(shí)驗(yàn)證明了ECSANet網(wǎng)絡(luò)的可行性和有效性。
表4 MSSGNet、ECSANet網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果對(duì)比
(1)為了提高反無人機(jī)系統(tǒng)聲音識(shí)別小樣本無人機(jī)的準(zhǔn)確率,提出了一種融合通道空間混合域注意力的ECSANet網(wǎng)絡(luò)?;诜纸M卷積、通道混洗和殘差結(jié)構(gòu)設(shè)計(jì)了MSSGNet網(wǎng)絡(luò),設(shè)計(jì)了通道空間混合域注意力模塊ECSA模塊,將ECSA模塊插入MSSGNet網(wǎng)絡(luò)構(gòu)成基于通道空間混合域注意力的改進(jìn)網(wǎng)絡(luò)ECSANet網(wǎng)絡(luò),它參數(shù)量少,對(duì)無人機(jī)聲音信號(hào)特征具有很好的提取能力。
(2)在自制無人機(jī)數(shù)據(jù)集和環(huán)境聲音數(shù)據(jù)集Urbansound8K上進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,與其他基準(zhǔn)網(wǎng)絡(luò)相比,MSSGNet網(wǎng)絡(luò)參數(shù)更少,識(shí)別準(zhǔn)確率更高,在無人機(jī)等小樣本識(shí)別任務(wù)上具有不錯(cuò)的性能;ECSA模塊可以插入多種網(wǎng)絡(luò),可以在不增加太多參數(shù)的情況下令網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率獲得提升,在無人機(jī)等聲音分類任務(wù)上具有很好的效果;與MSSGNet網(wǎng)絡(luò)相比,ECSANet網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率更高,表明了設(shè)計(jì)的網(wǎng)絡(luò)在識(shí)別小樣本無人機(jī)方面的優(yōu)越性和可行性。