吳長柯 陳虎 潘濤 黃菊 劉洪 張萍 吳志紅 蘇強
摘 要: 針對無人機檢測中存在的目標較小、受背景環(huán)境影響大、以及多光譜特征難以深度融合等問題,本文提出了針對無人機小目標檢測的多尺度多光譜交互注意力融合目標檢測模型. 首先,將骨干網(wǎng)絡設計為雙流網(wǎng)絡,分別提取不同尺度紅外和可見光特征,并增加小目標檢測層和BiFPN 級聯(lián)操作,提升對無人機小目標特征的提取能力. 其次,創(chuàng)新性的設計了多光譜交互注意力融合模塊,在該融合模塊的指導下,網(wǎng)絡可以在不同尺度融合紅外和可見光模態(tài)的信息,使紅外和可見光的特征進行深度聚合,發(fā)揮各自模態(tài)的優(yōu)勢,指導開展無人機小目標檢測. 實驗結果表明,與最先進的多光譜目標檢測模型相比,本文提出的模型在FLIR、LLVIP 兩個公開的多光譜目標檢測數(shù)據(jù)集上都達到了優(yōu)越的性能,在構建的多光譜無人機數(shù)據(jù)集上,本文提出的模型有效提升了無人機的檢測精度和魯棒性.
關鍵詞: 無人機檢測; 小目標檢測; 多光譜交互注意力融合; 多尺度
中圖分類號: TP391 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 032005
1 引言
近年來,隨著無人機技術的發(fā)展,無人機在軍用和民用領域發(fā)揮著越來越重要的作用,帶來便利的同時,如何監(jiān)管無人機也成為了一個巨大的挑戰(zhàn). 一方面,在民用領域,無人機的“黑飛”、“濫飛”問題日益突出,不僅對公民隱私和財產安全造成了危害,更是對社會治安和人民生命安全帶來了十分巨大的威脅[1]. 另一方面,在軍用領域,無人機成為了現(xiàn)代戰(zhàn)爭的新型武器,在當前爆發(fā)的俄烏沖突中,俄烏雙方大量使用無人機進行偵察和打擊,對自殺式無人機的運用更是屢見不鮮,對無人機的檢測是軍事領域反制無人機的重要手段.
然而無人機檢測領域仍存在許多問題,制約著無人機檢測技術的發(fā)展. 首先是無人機具有體積較小、雷達截面小、低速的特點,利用傳統(tǒng)的雷達設備很難探測和識別出無人機[2]. 隨著機器學習算法的發(fā)展和應用,無人機識別有了新的手段,即通過可見光相機拍攝到無人機視頻或者照片,利用目標檢測算法檢測出無人機目標. 但是在夜晚、霧天等光照條件較差或遮擋嚴重的環(huán)境下會受到很大的影響,容易造成無人機的漏檢問題.
可見光和熱紅外圖像的交叉光譜融合已經(jīng)成為目標檢測的研究熱點[3-10],因為多模態(tài)信息直觀地被認為是互補的[11]. 可見光圖像具有豐富的紋理細節(jié),而紅外圖像具有較強的穿透力,兩種圖像互補通常能夠提升目標檢測的精度和魯棒性. 考慮到運行的無人機目標具有紅外熱輻射特性,將可見光與紅外探測兩種手段相結合開展無人機檢測具有現(xiàn)實意義. 然而無人機目標較小,特征較為單一,且兩個模態(tài)之間的特征差別較大,要深入融合無人機可見光和紅外圖像特征比較困難. 使用傳統(tǒng)特征相加或級聯(lián)等方式融合可見光與紅外特征,往往會出現(xiàn)較強特征覆蓋較弱特征的情況,容易造成無人機的多檢錯檢問題. 研究如何開展可見光和紅外特征的深度融合,對指導提高無人機小目標檢測性能和多光譜融合相關領域研究具有積極意義.
目前為止,無人機的檢測方法主要集中在圖像識別、音頻信號分析、頻譜探測以及雷達數(shù)據(jù)分析等方面. 最早的研究采用雷達信號分析來探測無人機,再利用支持向量機進行訓練與分類識別[12]. 機器學習和目標檢測算法的發(fā)展讓無人機檢測有了新的手段,文獻[13]提出了一種基于隨機森林的無人機檢測方法,通過采集可見光下的圖像序列,使用混合高斯模型和聚類檢測算法檢測圖像中的運動小目標,再使用隨機森林算法融合目標的多種特征得到檢測目標. 文獻[14]提出了一種基于多隱含層深度神經(jīng)網(wǎng)絡的弱小無人機目標檢測模型. 文獻[15,16]采用了改進的YOLOv3模型,提高了無人機目標檢測精度,但其采用的數(shù)據(jù)集都是基于可見光的,未考慮復雜環(huán)境的影響. 文獻[17]提出了使用可見光和紅外圖像融合開展無人機目標檢測的方法,但其在融合方式上只是使用簡單的平均融合和級聯(lián)融合,未加入注意力機制,無法做到可見光和紅外模態(tài)特征的深度融合. 在多光譜融合目標檢測領域,網(wǎng)絡性能的好壞通常取決于融合策略的設計. 文獻[18]提出了一種新的循環(huán)融合和細化模塊,以改進多光譜特征融合,同時考慮到特征的互補性和一致性平衡. 文獻[19]提出了引導注意力特征融合來指導紅外和可見光的融合過程. 文獻[20]使用Transformer 自注意力機制融合紅外和可見光圖像,能夠突出模態(tài)內部的重要特征,但無法很好區(qū)分紅外和可見光的特征,難以學習模態(tài)之間的優(yōu)勢.
本文研究的主要內容是以深度學習為基礎,通過改進常見的目標檢測算法YOLOv5,探索融合紅外和可見光兩個模態(tài)進行檢測的可行性. 同時通過對交互注意力機制進行研究,提出新穎高效的紅外和可見光融合模塊以及相應的目標檢測網(wǎng)絡.