韓自強(qiáng),岳明凱,張 驄,高 棋
基于孿生網(wǎng)絡(luò)的無(wú)人機(jī)目標(biāo)多模態(tài)融合檢測(cè)
韓自強(qiáng),岳明凱,張 驄,高 棋
(沈陽(yáng)理工大學(xué) 裝備工程學(xué)院,遼寧 沈陽(yáng) 110159)
為解決小型無(wú)人機(jī)“黑飛”對(duì)公共領(lǐng)域的威脅問(wèn)題?;跓o(wú)人機(jī)目標(biāo)多模態(tài)圖像信息,文中提出一種輕量化多模態(tài)自適應(yīng)融合孿生網(wǎng)絡(luò)(Multimodal adaptive fusion Siamese network,MAFS)。設(shè)計(jì)一種全新的自適應(yīng)融合策略,該模塊通過(guò)定義兩個(gè)模型訓(xùn)練參數(shù)賦予不同模態(tài)權(quán)重以實(shí)現(xiàn)自適應(yīng)融合;本文在Ghost PAN基礎(chǔ)上進(jìn)行結(jié)構(gòu)重建,構(gòu)建一種更適合無(wú)人機(jī)目標(biāo)檢測(cè)的金字塔融合結(jié)構(gòu)。消融實(shí)驗(yàn)結(jié)果表明本文算法各個(gè)模塊對(duì)無(wú)人機(jī)目標(biāo)檢測(cè)精度均有提升,多算法對(duì)比實(shí)驗(yàn)結(jié)果表明本文算法魯棒性更強(qiáng),與Nanodet Plus-m相比檢測(cè)時(shí)間基本不變的情況下mAP提升9%。
無(wú)人機(jī);輕量化;孿生網(wǎng)絡(luò);自適應(yīng)融合策略;多模態(tài)圖像
無(wú)人機(jī)因其具有造價(jià)低、安全風(fēng)險(xiǎn)系數(shù)小和機(jī)動(dòng)性強(qiáng)等優(yōu)點(diǎn)在軍民領(lǐng)域有著廣泛的應(yīng)用[1-3]。然而無(wú)人機(jī)的“黑飛”、“濫飛”現(xiàn)象日益增多對(duì)社會(huì)公共安全構(gòu)成嚴(yán)重威脅。無(wú)人機(jī)目標(biāo)具有飛行高度低、速度慢等特點(diǎn),這使得通過(guò)傳統(tǒng)雷達(dá)和無(wú)線(xiàn)電檢測(cè)方法變得困難且成本高;基于聲音檢測(cè)無(wú)人機(jī)受噪聲干擾較大且檢測(cè)不明顯。除上述方法外,基于二維圖像數(shù)據(jù)的數(shù)據(jù)驅(qū)動(dòng)方法也逐漸應(yīng)用于無(wú)人機(jī)檢測(cè)中并取得了較好的效果。
基于數(shù)據(jù)驅(qū)動(dòng)的目標(biāo)檢測(cè)方法主要以可見(jiàn)光圖像作為輸入源,但隨著檢測(cè)場(chǎng)景的復(fù)雜化和多元化僅靠單一的可見(jiàn)光圖像作為輸入無(wú)法有效獲取圖像中目標(biāo)信息[4-5]。由于紅外成像設(shè)備主要利用目標(biāo)輻射或反射的能量成像,與可見(jiàn)光圖像相比它不受光照影響,但存在圖像紋理特征缺失嚴(yán)重、對(duì)比度與分辨率低等情況。因此需要設(shè)計(jì)一種多模態(tài)目標(biāo)檢測(cè)算法充分利用可見(jiàn)光圖像提供的紋理信息和紅外圖像提供的熱輻射信息,進(jìn)而提升無(wú)人機(jī)目標(biāo)檢測(cè)準(zhǔn)確度。
孿生網(wǎng)絡(luò)是一類(lèi)包含2個(gè)或多個(gè)分支的神經(jīng)網(wǎng)絡(luò)架構(gòu),各個(gè)分支共享網(wǎng)絡(luò)參數(shù)。孿生網(wǎng)絡(luò)通常以多個(gè)樣本作為輸入,利用輸出結(jié)果實(shí)現(xiàn)多樣本輸入特征融合。孿生網(wǎng)絡(luò)多用于計(jì)算機(jī)視覺(jué)領(lǐng)域。在目標(biāo)檢測(cè)領(lǐng)域有學(xué)者提出一種基于YOLOv2的輕量級(jí)目標(biāo)檢測(cè)模型[6],首先通過(guò)共享權(quán)重的特征提取網(wǎng)絡(luò)提取多分支輸入圖像特征,之后利用注意力模塊實(shí)現(xiàn)多特征融合。在目標(biāo)跟蹤領(lǐng)域中,基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法如Siamese FC[7],只使用離線(xiàn)訓(xùn)練的模型對(duì)目標(biāo)區(qū)域和模板區(qū)域進(jìn)行相似度匹配,不需要在跟蹤過(guò)程中對(duì)模型進(jìn)行實(shí)時(shí)更新。利用孿生網(wǎng)絡(luò)架構(gòu)可以極大地提升算法推理效率,實(shí)現(xiàn)實(shí)時(shí)性目標(biāo)檢測(cè)或目標(biāo)跟蹤。同時(shí)利用多分支輸入特征,可以提高算法在目標(biāo)檢測(cè)領(lǐng)域中的檢測(cè)精度。
根據(jù)融合階段的不同可以將檢測(cè)融合算法分為3類(lèi),分別為像素級(jí)融合檢測(cè)、特征級(jí)融合檢測(cè)和決策級(jí)融合檢測(cè)[8]。像素級(jí)融合檢測(cè)就是先將紅外與可見(jiàn)光圖像進(jìn)行融合,再對(duì)融合后的圖像進(jìn)行檢測(cè)。這種方法好處是檢測(cè)與融合完全分開(kāi)可以使用已有的融合算法處理圖像,但往往也會(huì)產(chǎn)生大量的數(shù)據(jù)冗余增加了檢測(cè)時(shí)間和后續(xù)檢測(cè)的難度。白玉、寧大海等[9-11]使用決策級(jí)融合檢測(cè),首先采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)可見(jiàn)光與紅外圖像分別進(jìn)行目標(biāo)檢測(cè),再根據(jù)提出的融合策略對(duì)檢測(cè)結(jié)果進(jìn)行融合,但該方法只是對(duì)檢測(cè)結(jié)果的融合,缺乏對(duì)目標(biāo)特征信息的互補(bǔ)。馬野、解宇敏等[12-14]將可見(jiàn)光與紅外圖像同時(shí)輸入神經(jīng)網(wǎng)絡(luò)后分別進(jìn)行特征提取,然后進(jìn)行目標(biāo)檢測(cè)后輸出結(jié)果?,F(xiàn)有方法雖然在不同階段對(duì)紅外與可見(jiàn)光信息進(jìn)行融合,但網(wǎng)絡(luò)結(jié)構(gòu)的局限性導(dǎo)致檢測(cè)速度過(guò)慢且難以部署到檢測(cè)設(shè)備。
本文利用孿生網(wǎng)絡(luò)架構(gòu)提出一種多模態(tài)自適應(yīng)融合無(wú)人機(jī)目標(biāo)檢測(cè)算法(MAFSnet)。該算法首先通過(guò)共享卷積權(quán)重的輕量化孿生網(wǎng)絡(luò)分別提取紅外與可見(jiàn)光圖像的特征信息,接著將提取的特征按照指定的融合策略進(jìn)行自適應(yīng)融合。將融合后的特征信息通過(guò)改進(jìn)的Ghost PAN結(jié)構(gòu)實(shí)現(xiàn)多尺度信息交互,最后通過(guò)簡(jiǎn)易檢測(cè)頭輸出最終的預(yù)測(cè)結(jié)果。
圖1展示了本文所提出的孿生網(wǎng)絡(luò)檢測(cè)模型架構(gòu)。首先將RGB image和IR image作為輸入流輸入到兩個(gè)編碼器中,分別用于提取彩色圖像和深度圖像之間的特征。其中兩個(gè)編碼器結(jié)構(gòu)共享權(quán)重以減少算法訓(xùn)練參數(shù)數(shù)量,并且僅在訓(xùn)練階段使用RGB Image流。接著將兩種模態(tài)的多層次編碼輸出進(jìn)行特征融合輸出3種不同尺度大小的編碼圖。將融合輸出的結(jié)果進(jìn)行1×1卷積計(jì)算使通道數(shù)量減少到96。接著本文在Nanodet Plus-m[15]算法的基礎(chǔ)上對(duì)Ghost PAN進(jìn)行改進(jìn),設(shè)計(jì)適合多模態(tài)融合的金字塔式結(jié)構(gòu)用于多尺度融合,將不同層次的融合結(jié)果進(jìn)行維度拼接及元素求和后輸出4種不同尺寸大小的顯著性預(yù)測(cè)圖。本文將在下文給出各個(gè)網(wǎng)絡(luò)模塊的詳細(xì)信息。
圖1 MAFS網(wǎng)絡(luò)模型
輕量化網(wǎng)絡(luò)模型通過(guò)減小網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度來(lái)降低訓(xùn)練后模型的大小,在幾乎對(duì)精度不造成影響的前提下以適應(yīng)更多的應(yīng)用場(chǎng)景。本文選擇Shufflenet-V2輕量化網(wǎng)絡(luò)作為Baseline。該網(wǎng)絡(luò)由Ma[16]等人在2018年設(shè)計(jì)并提出,其中Shufflenet-V1引入大量的分組卷積以降低模型參數(shù)量。接著在Shufflenet-V2中引入channel split和channel shuffle減少分組卷積帶來(lái)的負(fù)面影響并增加不同分支之間的信息交互。本文所使用網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 編碼器組成結(jié)構(gòu)
在表1中,該編碼結(jié)構(gòu)對(duì)輸入多模態(tài)圖像分別進(jìn)行下采樣,本文選擇后三層下采樣輸出。其中Stage(=2,3,4)與Shuffenet-V2具有相同的結(jié)構(gòu)。
在多模態(tài)自適應(yīng)融合算法中,本文對(duì)3種不同融合策略進(jìn)行嘗試,如圖2所示。
圖2 多模態(tài)融合策略
在圖2(a)(b)(c)中將提取之后的特征向量分別進(jìn)行元素相加運(yùn)算、點(diǎn)積運(yùn)算和通道級(jí)聯(lián)操作。對(duì)于圖2(a)本文考慮雙模態(tài)權(quán)重可能會(huì)對(duì)最終檢測(cè)結(jié)果產(chǎn)生影響,然后分別對(duì)兩種不同模態(tài)進(jìn)行加權(quán)。初始化兩個(gè)值為1的可訓(xùn)練參數(shù)和,然后分別與編碼圖進(jìn)行矩陣數(shù)乘運(yùn)算輸出結(jié)果,最后將數(shù)乘結(jié)果執(zhí)行矩陣數(shù)加計(jì)算,其輸出結(jié)果Fusionadd∈×W×H可以表示為:
IR=ir[,:,:]∈[0,) (1)
RGB=rgb[,:,:]∈[0,) (2)
Fusionadd=×IR+×RGB (3)
式中:和分別為紅外特征圖和彩色特征圖權(quán)值系數(shù),取正數(shù);表示通道維度;IR和RGB分別表示兩種不同模態(tài)的特征張量。
在圖2(b)將提取之后的特征圖進(jìn)行點(diǎn)積運(yùn)算,其輸出結(jié)果Fusionmul∈×W×可以表示為:
Fusionmul=IR×RGB (4)
在圖2(c)中首先進(jìn)行通道級(jí)聯(lián)后使用1×1的卷積進(jìn)行降維,其輸出結(jié)果Fusionconcat∈×W×可以表示為:
Fusionconcat=1×1(IR, RGB) (5)
式中:表示concatenation操作;表示1×1卷積計(jì)算。
在MAFSnet中添加多尺度融合結(jié)構(gòu)為了提高模型的特征提取能力和檢測(cè)精度。針對(duì)無(wú)人機(jī)目標(biāo)較小的特點(diǎn),進(jìn)一步優(yōu)化特征融合層以及多尺度檢測(cè)層的特征尺度,使得訓(xùn)練出來(lái)的檢測(cè)模型能夠更好地適應(yīng)無(wú)人機(jī)目標(biāo)檢測(cè),同時(shí)提高模型的檢測(cè)速度。
如圖3所示,本文在Nanodet Plus-m算法的基礎(chǔ)上對(duì)Ghost PAN進(jìn)行改進(jìn)。向多尺度融合模塊輸入3種不同分辨率大小和通道數(shù)的特征圖。首先經(jīng)過(guò)一個(gè)卷積核大小為1×1的卷積層把通道數(shù)降到96,接著將輸出的結(jié)果分別進(jìn)行上采樣和下采樣操作,并將采樣輸出進(jìn)行拼接。最后將拼接的結(jié)果與1×1卷積層輸出進(jìn)行下采樣后相加。使用多尺度融合方法提高不同采樣輸出之間的信息交互能力。
由于無(wú)人機(jī)目標(biāo)信噪比低造成訓(xùn)練正樣本和負(fù)樣本數(shù)量嚴(yán)重不匹配,當(dāng)目標(biāo)被嚴(yán)重遮擋時(shí)容易導(dǎo)致漏檢情況發(fā)生,因此需要更加復(fù)雜的分布對(duì)邊界框進(jìn)行建模。
為解決樣本不匹配問(wèn)題本文使用Generalized Focal Loss和GIOU Loss[17]對(duì)網(wǎng)絡(luò)進(jìn)行損失計(jì)算,并針對(duì)不同損失函數(shù)設(shè)定不同的權(quán)重系數(shù),整體損失計(jì)算公式如下:
Loss=FLoss+FLoss+GIOULoss (6)
式中:、和表示權(quán)重系數(shù),在文中實(shí)驗(yàn)部分分別設(shè)置為1.0、0.25和2.0。
本次實(shí)驗(yàn)使用Anti-UAV數(shù)據(jù)集的訓(xùn)練集[18]和Anti-UAV競(jìng)賽[19]的測(cè)試-開(kāi)發(fā)數(shù)據(jù)集來(lái)訓(xùn)練MAFSnet模型,使用采集的無(wú)人機(jī)紅外數(shù)據(jù)集進(jìn)行驗(yàn)證。其中訓(xùn)練集的紅外圖像分辨率為640×512,RGB圖像分辨率為1960×1080。由于訓(xùn)練數(shù)據(jù)集是視頻的連續(xù)幀,相鄰圖片差別不大,因此需要進(jìn)行一定程度地?cái)?shù)據(jù)調(diào)整。首先對(duì)于訓(xùn)練集每10幀取一張圖片,并去掉其中不包含無(wú)人機(jī)的圖片。最后得到總共6830張用于訓(xùn)練的圖片,其中4681是白天拍攝,2149張拍攝于夜晚。測(cè)試集采集于沈陽(yáng)理工大學(xué)龍翔體育場(chǎng)如圖4所示,針對(duì)紅外視頻序列每20幀抽取一張圖像并使用LabelImg工具進(jìn)行標(biāo)注,制取測(cè)試集數(shù)目共687張。其中采集測(cè)試集與訓(xùn)練集的圖片不存在重疊。
圖3 改進(jìn)的Ghost PAN
圖4 部分測(cè)試集數(shù)據(jù)
本實(shí)驗(yàn)使用Pytorch框架,在ubuntu20.04上運(yùn)行,具體配置如表2所示。
表2 實(shí)驗(yàn)配置
本實(shí)驗(yàn)采用MAFSnet模型進(jìn)行訓(xùn)練,訓(xùn)練批次batch szie設(shè)置為32,訓(xùn)練權(quán)重采用Shufflenet-V2.pth,共迭代100輪次,具體配置如表3所示。
表3 算法實(shí)現(xiàn)的具體參數(shù)配置
本文使用COCO評(píng)估指標(biāo)來(lái)評(píng)估目標(biāo)檢測(cè)部分的性能。由于無(wú)人機(jī)目標(biāo)的尺寸小,當(dāng)存在幾個(gè)像素的偏差時(shí)可能會(huì)引起較大的IoU波動(dòng)。預(yù)測(cè)的邊界框和ground truth標(biāo)簽之間的IoU為50%表示預(yù)測(cè)足夠合理,因此AP50可能是一個(gè)更有用和更公平的度量邊界框。另外本文還使用平均準(zhǔn)確率(mean average precision,mAP)對(duì)MAFSnet算法進(jìn)行性能評(píng)價(jià)以判別模型正確分類(lèi)的能力。利用Latency、Flops和Params來(lái)檢驗(yàn)算法的檢測(cè)效率以及參數(shù)數(shù)量和模型復(fù)雜度。
本文在該部分將逐步介紹如何從Nanodet Plus-m改進(jìn)到MAFSnet。
首先對(duì)1.2中不同融合策略進(jìn)行實(shí)驗(yàn)設(shè)計(jì),在本文中提出了3種不同的策略來(lái)融合紅外圖像和彩色圖像的編碼特征。為了比較它們的有效性和差異,文中在同一基線(xiàn)中執(zhí)行不同的策略,并分別展示AP50和mAP的實(shí)驗(yàn)結(jié)果。如表4所示,求和運(yùn)算策略在所有指標(biāo)上都取得了更好的性能。本文認(rèn)為求和操作更適合多模態(tài)特征融合,而乘積和concatenation結(jié)果較差。因此本文使用求和運(yùn)算策略執(zhí)行其余的消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)。由于本文只在訓(xùn)練階段進(jìn)行多模態(tài)特征融合,且不同的融合策略不會(huì)對(duì)推理階段產(chǎn)生影響,因此不會(huì)影響到模型的計(jì)算量和模型參數(shù)。
表4 多模態(tài)融合策略
如表5顯示,針對(duì)不同模態(tài)設(shè)置不同權(quán)重對(duì)mAP和AP50的影響很大。未加入權(quán)重參數(shù)時(shí)AP50為80.60%,設(shè)置不同的權(quán)重參數(shù)后AP50可以達(dá)到83.00%,提升了3.0%。其中1:1的權(quán)重比例效果最差,因此本文認(rèn)為針對(duì)不同模態(tài)設(shè)置不同權(quán)重比例是很有必要的。由于在算法驗(yàn)證階段采用的是紅外圖像,所以會(huì)導(dǎo)致1:的AP50(81.69%)要優(yōu)于:1(80.71%),提升了1.2%。不同的權(quán)重系數(shù)會(huì)產(chǎn)生不同的檢測(cè)結(jié)果。在實(shí)驗(yàn)部分,本文將和初始化為1并將它們作為可訓(xùn)練參數(shù),它們是一種通過(guò)數(shù)據(jù)迭代進(jìn)行自動(dòng)學(xué)習(xí)的變量。利用隨機(jī)梯度下降的方法(即優(yōu)化器SGD)不斷調(diào)整自身數(shù)值使模型的損失(預(yù)測(cè)值和真實(shí)值之間的誤差)最小,從而獲得更好的檢測(cè)結(jié)果。以自主學(xué)習(xí)的方式加權(quán)融合紅外和可見(jiàn)光特征,可以保證網(wǎng)絡(luò)在引入豐富特征信息的同時(shí),盡可能降低噪聲干擾。
如表6所示,本文分別控制添加損失函數(shù),用于評(píng)估損失函數(shù)對(duì)檢測(cè)精度的影響。加入GFLoss后MAFSnet的mAP為37.24%,當(dāng)替換GIoULoss后mAP下降了0.37%。本文認(rèn)為GFLoss更適合小目標(biāo)檢測(cè)任務(wù),當(dāng)檢測(cè)目標(biāo)較小時(shí)會(huì)導(dǎo)致正負(fù)樣本嚴(yán)重不匹配,從而預(yù)測(cè)一個(gè)不可信且質(zhì)量極高的分?jǐn)?shù)。而多損失函數(shù)可以提高模型性能,因此本文同時(shí)使用兩種損失函數(shù)訓(xùn)練MAFSnet,提高算法魯棒性。其中多損失函數(shù)的損失權(quán)重與NanoDet-Plus[15]一致。
表5 多模態(tài)融合的權(quán)重因子
表6 損失函數(shù)
如表7所示,本文首先嘗試將MAFSnet與Ghost PAN相結(jié)合,在保證模型參數(shù)和推理時(shí)間不變的情況下mAP提升了3.2%,添加前后的mAP分別為35.14%和36.26%。本文認(rèn)為采用多模態(tài)融合對(duì)無(wú)人機(jī)檢測(cè)精度的提升是有效的。接著本文對(duì)Ghost PAN進(jìn)行改進(jìn),對(duì)于該模塊本文首先進(jìn)行結(jié)構(gòu)重建形成新的PAN結(jié)構(gòu),在推理時(shí)間基本不變的前提下mAP提升4.2%,其中模型改進(jìn)前后的mAP分別為36.26%和37.79%。如圖3中conv1×1模塊,本文采用共享卷積權(quán)重和非共享卷積權(quán)重兩種方法進(jìn)行實(shí)驗(yàn),在表7中“*”代表非共享卷積權(quán)重。由表可知使用非共享卷積權(quán)重的mAP為38.26%,使用共享卷積權(quán)重的mAP為37.79%,提升了1.2%。實(shí)驗(yàn)數(shù)據(jù)表明在模型復(fù)雜度基本不變的前提下,本文所設(shè)計(jì)的模塊實(shí)現(xiàn)了無(wú)人機(jī)目標(biāo)檢測(cè)精度的提高。
表7 改進(jìn)Ghost PAN的消融實(shí)驗(yàn)結(jié)果
圖5展示了IR和RGB image分別經(jīng)過(guò)特征提取之后(下采樣倍率為8、16、32)的可視化輸出,其中多模態(tài)輸入圖像未配準(zhǔn)對(duì)齊。本文引入平行黃色虛線(xiàn)表示不同模態(tài)特征之間的差異。由第二列可知,當(dāng)本文以無(wú)人機(jī)目標(biāo)紅外圖像為基準(zhǔn)時(shí),彩色圖像目標(biāo)位置會(huì)出現(xiàn)偏移,從而產(chǎn)生融合誤差如白色矩形框所示。由于無(wú)人機(jī)目標(biāo)在圖像中像素面積占比小,使用融合的方法可以增加無(wú)人機(jī)目標(biāo)更多特征,本文認(rèn)為這種偏移對(duì)無(wú)人機(jī)目標(biāo)檢測(cè)是有利的。因此可以利用多模態(tài)融合方法增強(qiáng)無(wú)人機(jī)目標(biāo)在卷積神經(jīng)網(wǎng)絡(luò)中的特征表示,從而增強(qiáng)無(wú)人機(jī)目標(biāo)檢測(cè)精確度。
圖5 多模態(tài)特征融合偏差
為了更正確地驗(yàn)證結(jié)果,本文微調(diào)YOLOv6-n[20]、YOLOX-tiny[21]、YOLOv8-n[22]和Nanodet Plus-m四種輕量化檢測(cè)算法,維持模型超參數(shù)不變且訓(xùn)練配置如表2所示。表8表明MAFSnet獲得了最佳的檢測(cè)結(jié)果38.26%mAP。與剛剛發(fā)布的YOLOv8-n算法相比,在推理時(shí)間相差不大的情況下mAP提升了0.74%。MAFSnet與改進(jìn)前的Nanodet Plus-m相比,在推理時(shí)間僅降低0.0008s的前提下mAP提升了9%。因此本文認(rèn)為MAFSnet可以實(shí)現(xiàn)輕量化、實(shí)時(shí)性檢測(cè)無(wú)人機(jī)目標(biāo)。
本文選擇4張紅外圖像進(jìn)行可視化實(shí)驗(yàn)驗(yàn)證。首先從沈陽(yáng)理工大學(xué)龍翔體育場(chǎng)采集的數(shù)據(jù)集中選取兩張紅外圖像(a)和(b),它們分別包含草木和白云。接著在3rd-Anti-UAV數(shù)據(jù)集和NUDT-SIRST[23]數(shù)據(jù)集中分別選擇一張包含建筑背景的紅外圖像(c)和(d),其中d包含兩個(gè)無(wú)人機(jī)目標(biāo)。如圖6所示,與其他目標(biāo)檢測(cè)算法相比本文算法魯棒性更強(qiáng),在多種復(fù)雜背景下都能更好地實(shí)現(xiàn)無(wú)人機(jī)目標(biāo)檢測(cè)。在目標(biāo)局部對(duì)比度不高(a)的情形下Nanodet Plus、YOLOv8和YOLOX皆不能很好地檢測(cè)到無(wú)人機(jī)目標(biāo)。在冗余信號(hào)過(guò)多的情況下(c)只有本文算法和YOLOX準(zhǔn)確獲得無(wú)人機(jī)目標(biāo)的位置信息。由于本文算法存在多模態(tài)特征融合優(yōu)勢(shì),更能適應(yīng)復(fù)雜背景下的無(wú)人機(jī)目標(biāo)檢測(cè)。
表8 不同算法結(jié)果對(duì)比
圖6 不同算法檢測(cè)結(jié)果
為解決無(wú)人機(jī)濫用對(duì)社會(huì)構(gòu)成的威脅,本文基于無(wú)人機(jī)圖像提出一種多模態(tài)自適應(yīng)融合孿生網(wǎng)絡(luò)。首先使用輕量級(jí)孿生網(wǎng)絡(luò)ShuffleNetV2降低結(jié)構(gòu)復(fù)雜度和模型參數(shù),加快檢測(cè)速度。設(shè)計(jì)一種自適應(yīng)融合策略實(shí)現(xiàn)多模態(tài)融合,有效結(jié)合多模態(tài)輸入圖像優(yōu)勢(shì)提高圖像信息利用率。將融合后的特征圖通過(guò)改進(jìn)的Ghost PAN增強(qiáng)淺層特征的使用和提取以加強(qiáng)對(duì)無(wú)人機(jī)目標(biāo)的檢測(cè),提高模型的準(zhǔn)確性。最后進(jìn)行消融實(shí)驗(yàn)和多算法對(duì)比實(shí)驗(yàn)設(shè)計(jì),消融實(shí)驗(yàn)結(jié)果表明MAFSnet可以充分利用多模態(tài)無(wú)人機(jī)目標(biāo)信息來(lái)提升無(wú)人機(jī)目標(biāo)檢測(cè)準(zhǔn)確度,同時(shí)本文所提出融合策略可以有效提升無(wú)人機(jī)目標(biāo)檢測(cè)精度。多算法對(duì)比實(shí)驗(yàn)結(jié)果表明本文算法在復(fù)雜環(huán)境背景下無(wú)人機(jī)目標(biāo)檢測(cè)精度要優(yōu)于其它檢測(cè)算法,具有更強(qiáng)的魯棒性。同時(shí)與改進(jìn)前的方法相比在檢測(cè)速度基本不變的情況下獲得9%的提升。
然而本文算法仍有一些問(wèn)題值得進(jìn)一步研究,比如如何利用更高效的上下文信息、探討注意力模塊對(duì)不同模態(tài)的影響等。在未來(lái)的工作中,將繼續(xù)探索多模態(tài)融合和融合策略在無(wú)人機(jī)目標(biāo)檢測(cè)中的應(yīng)用。
[1] 張辰, 趙紅穎, 錢(qián)旭. 面向無(wú)人機(jī)影像的目標(biāo)特征跟蹤方法研究[J]. 紅外技術(shù), 2015, 37(3): 224-228, 239.
ZHANG Chen, ZHAO Hongying, QIAN Xu. Research on Target Feature Tracking Method for UAV Images[J]., 2015, 37(3): 224-228, 239.
[2] 王寧, 李哲, 梁曉龍, 等. 無(wú)人機(jī)單載荷目標(biāo)檢測(cè)及定位聯(lián)合實(shí)現(xiàn)方法[J]. 電光與控制, 2021, 28(11): 94-100.
WANG Ning, LI Zhe, LIANG Xiaolong, et al. Joint realization method of single payload target detection and positioning of UAV[J]., 2021, 28(11): 94-100.
[3] 楊欣, 王剛, 李椋, 等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的小型民用無(wú)人機(jī)檢測(cè)研究進(jìn)展[J]. 紅外技術(shù), 2022, 44(11): 1119-1131.
YANG Xin, WANG Gang, LI Liang, et al. Research progress in detection of small civilian UAVs based on deep convolutional neural networks [J]., 2022, 44(11): 1119-1131.
[4] 粟宇路, 蘇俊波, 范益紅, 等. 紅外中長(zhǎng)波圖像彩色融合方法研究[J]. 紅外技術(shù), 2019, 41(4): 335-340.
SU Yulu, SU Junbo, FAN Yihong, et al. Research on color fusion method of infrared medium and long wave images [J]., 2019, 41(4): 335-340.
[5] 陳旭, 彭冬亮, 谷雨. 基于改進(jìn)YOLOv5s的無(wú)人機(jī)圖像實(shí)時(shí)目標(biāo)檢測(cè)[J]. 光電工程, 2022, 49(3): 69-81.
CHEN Xu, PENG Dongliang, GU Yu. Real-time target detection of UAV images based on improved YOLOv5s [J]., 2022, 49(3): 69-81.
[6] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]//2017(), 2017: 6517-6525.
[7] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[J/OL]. C, 2016. https://arxiv.org/abs/1606.09549
[8] 閆號(hào), 戴佳佳, 龔小溪, 等. 基于多源圖像融合的光伏面板缺陷檢測(cè)[J]. 紅外技術(shù), 2023, 45(5): 488-497.
YAN Hao, DAI Jiajia, GONG Xiaoxi, et al. Photovoltaic panel defect detection based on multi-source image fusion [J]., 2023, 45(5): 488-497.
[9] MA Jiayi, MA Yong, LI Chang. Infrared and visible image fusion methods and applications: A survey[J]., 2019, 45: 153-178.
[10] 白玉, 侯志強(qiáng), 劉曉義, 等. 基于可見(jiàn)光圖像和紅外圖像決策級(jí)融合的目標(biāo)檢測(cè)算法[J]. 空軍工程大學(xué)學(xué)報(bào): 自然科學(xué)版, 2020, 21(6): 53-59, 100.
BAI Yu, HOU Zhiqiang, LIU Xiaoyi, et al. Target detection algorithm based on decision-level fusion of visible light images and infrared images [J]., 2020, 21(6): 53-59, 100.
[11] 寧大海, 鄭晟. 可見(jiàn)光和紅外圖像決策級(jí)融合目標(biāo)檢測(cè)算法[J]. 紅外技術(shù), 2023, 45(3): 282-291.
NING Dahai, ZHENG Sheng. Decision-level Fusion Object Detection Algorithm for Visible and Infrared Images[J]., 2023, 45(3): 282-291.
[12] 馬野, 吳振宇, 姜徐. 基于紅外圖像與可見(jiàn)光圖像特征融合的目標(biāo)檢測(cè)算法[J]. 導(dǎo)彈與航天運(yùn)載技術(shù), 2022(5): 83-87.
MA Ye, WU Zhenyu, JIANG Xu. Target detection algorithm based on feature fusion of infrared image and visible light image [J]., 2022(5): 83-87.
[13] 劉建華, 尹國(guó)富, 黃道杰. 基于特征融合的可見(jiàn)光與紅外圖像目標(biāo)檢測(cè)[J]. 激光與紅外, 2023, 53(3): 394-401.
LIU Jianhua, YIN Guofu, HUANG Daojie. Object detection in visible and infrared images based on feature fusion [J]., 2023, 53(3): 394-401.
[14] 解宇敏, 張浪文, 余孝源, 等. 可見(jiàn)光-紅外特征交互與融合的YOLOv5目標(biāo)檢測(cè)算法[J/OL]. 控制理論與應(yīng)用, http://kns.cnki.net/kcms/detail/44.1240.TP.20230511.1643.024.html.
XIE Yumin, ZHANG Langwen, YU Xiaoyuan, etc. YOLOv5 target detection algorithm based on interaction and fusion of visible light-infrared features [J/OL]., http://kns.cnki.net/kcms/detail /44.1240.TP.20230511.1643.024.html.
[15] RangiLyu. NanoDet-Plus: Super fast and high accuracy lightweight anchor-free object detection model[EB/OL]. https://github.com/ RangiLyu/nanodet , 2021.
[16] MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//(ECCV). 2018: 116-131.
[17] LI X, WANG W, WU L, et al. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection[J]., 2020, 33: 21002-21012.
[18] JIANG Nan,WANG Kuiran, PENG Xiaoke. Anti-UAV: A Large-Scale Benchmark for Vision-Based UAV Tracking[J]., 2023, 25: 486-500, DOI: 10.1109/TMM.2021.3128047.
[19] ZHAO J, WANG G, LI J, et al. The 2nd Anti-UAV workshop & challenge: Methods and results[J/OL]. arXiv preprint arXiv:2108.09909, 2021.
[20] LI C, LI L, JIANG H, et al. YOLOv6: A single-stage object detection framework for industrial applications[J/OL]. arXiv preprint arXiv:2209.02976, 2022.
[21] GE Z, LIU S, WANG F, et al. Yolox: Exceeding yolo series in 2021[J/OL]. arXiv preprint arXiv:2107.08430, 2021.
[22] Github. Yolov5[EB/OL]. https://github.com/ultralytics/yolov5, 2021.
[23] LI B, XIAO C, WANG L, et al. Dense nested attention network for infrared small target detection[J]., 2022, 32: 1745-1758.
Multimodal Fusion Detection of UAV Target Based on Siamese Network
HAN Ziqiang,YUE Mingkai,ZHANG Cong,GAO Qi
(Shenyang Ligong University, College of equipment Engineering, Shenyang 110159, China)
To address the threat of small drones "black flying" to the public domain. Based on the multimodal image information of an unmanned aerial vehicle (UAV) target, a lightweight multimodal adaptive fusion Siamese network is proposed in this paper. To design a new adaptive fusion strategy, this module assigns different modal weights by defining two model training parameters to achieve adaptive fusion. The structure is reconstructed on the basis of a Ghost PAN, and a pyramid fusion structure more suitable for UAV target detection is constructed. The results of ablation experiments show that each module of the algorithm in this study can improve the detection accuracy of the UAV targets. Multi-algorithm comparison experiments demonstrated the robustness of the algorithm. The mAP increased by 9% when the detection time was basically unchanged.
UAV, lightweight, Siamese network, adaptive fusion strategy, multimodal image
TN219
A
1001-8891(2023)07-0739-07
2023-06-01;
2023-06-21.
韓自強(qiáng)(1999-),男,碩士研究生,主要從事探測(cè)、控制與信息對(duì)抗技術(shù)。E-mail:hanzq@sylu.edu.cn。
岳明凱(1971-),男,教授,博士,研究方向:武器系統(tǒng)安全控制,探測(cè)、控制與毀傷技術(shù)。E-mail:13032486996@163.com。
遼寧省教育廳基本科研面上項(xiàng)目(LJKMZ20220605)。