摘 要:""""" 隨著人工智能的飛速發(fā)展, 可見光目標檢測作為計算機視覺技術(shù)的重要組成部分, 已經(jīng)被廣泛應用于無人機偵察領域。 利用深度學習技術(shù)深入挖掘復雜戰(zhàn)場環(huán)境和低質(zhì)量圖像中的目標特征, 可以有效解決無人機偵察場景中可見光目標檢測遇到的困難挑戰(zhàn), 進一步提高可見光目標檢測的準確性。 因此, 對基于深度學習的無人機可見光目標檢測方法進行了全面綜述。 首先, 介紹了無人機可見光目標檢測面臨的目標小尺度、 任意方向、 高度偽裝以及運動模糊等諸多挑戰(zhàn)。 其次, 描述了用于可見光目標檢測和圖像恢復的主要公開數(shù)據(jù)集。 然后, 結(jié)合無人機可見光目標檢測面臨的諸多挑戰(zhàn)總結(jié)了深度學習方法在無人機可見光目標檢測中的應用以及優(yōu)缺點。 最后, 展望了無人機可見光目標檢測未來可能的研究方向。
關鍵詞:"""" 無人機; 復雜戰(zhàn)場環(huán)境; 低質(zhì)量圖像; 深度學習; 可見光目標檢測
中圖分類號:"""""" TJ760; V279
文獻標識碼:""" A
文章編號:"""" 1673-5048(2024)06-0023-13
DOI: 10.12132/ISSN.1673-5048.2024.0148
0 引" 言
現(xiàn)代戰(zhàn)場局勢復雜, 戰(zhàn)爭模式越來越向無人化與智能化轉(zhuǎn)變, “發(fā)現(xiàn)即摧毀”已成為很多軍事強國的作戰(zhàn)理念[1-4]。 傳統(tǒng)的方法主要依靠衛(wèi)星和有人駕駛的飛機掛載探測設備來發(fā)現(xiàn)目標, 近年來, 由于無人機具有體積小、 靈活、 易于控制等優(yōu)點, 在軍事偵察領域中越來越受歡迎。 無人機作為現(xiàn)代航空偵察的核心力量之一, 可以通過對地面目標的高效檢測來幫助推斷對手軍事意圖, 制定作戰(zhàn)決策, 實現(xiàn)先發(fā)制人的打擊效果[5-7]。
無人機掛載探測設備對地偵察時, 主要獲得三種圖像: 可見光圖像、 紅外圖像和SAR(合成孔徑雷達)圖像。 現(xiàn)有公開的紅外和SAR數(shù)據(jù)集相對較少, 基本上都是基于特定場景來收集圖像數(shù)據(jù), 數(shù)據(jù)集的制作難度相對可見光大得多。 紅外圖像缺少色彩信息, 當目標由于天氣溫度或躲避偵察打擊而不產(chǎn)生熱源時, 紅外探測設備的成像效果很差, 另外紅外探測設備的成本相對較高。 SAR圖像同樣缺少色彩信息, 當無人機飛行高度較高時, 目標在圖像中所占據(jù)的像素特別少, 很難將目標像素與噪聲點區(qū)別開來, 導致目標檢測的漏檢率與虛警率較高。 因此, 可見光目標檢測是無人機對地偵察的核心任務和研究熱點。
傳統(tǒng)的可見光目標檢測大多采用基于統(tǒng)計的方法[8], 難以解決目標檢測過程中出現(xiàn)的計算復雜度高、 特征表示能力弱、 優(yōu)化困難等問題。 隨著深度學習技術(shù)的發(fā)展, 深度卷積神經(jīng)網(wǎng)絡通過多個卷積層提取圖像的高級特征, 逐漸成為可見光目標檢測的主體框架[9-11]。 基于深度卷積神經(jīng)網(wǎng)絡的可見光目標檢測方法分為兩類: 兩階段方法和單階段方法。 兩階段方法, 例如Faster RCNN[12], Cascade RCNN[13], Mask RCNN[14]等, 首先生成區(qū)域建議, 然后對區(qū)域建議中的目標進行分類和定位, 適用于具有較高檢測精度要求的應用。 單階段方法, 例如SSD[15], RetinaNet[16], YOLO[17]系列等, 直接生成目標的類別概率和檢測框位置, 在具有較高檢測速度要求的應用中有很大優(yōu)勢。 另外, 伴隨著深度學習技術(shù)的發(fā)展進步, Transformer架構(gòu)由于其良好的并行化和全局注意機制, 被越來越多地應用于可見光目標檢測, 例如Deformable DETR[18], TransMIN[19], QETR[20]等, 作為一種編碼器來提取目標的全局上下文特征。
除此之外, 可見光圖像由于模糊、 噪聲、 雨霧等因素的影響經(jīng)常遭受不同程度的退化[21-22]。 將退化的圖像恢復為高質(zhì)量的圖像是非常重要的, 特別是對于后續(xù)的目標檢測任務, 退化的圖像嚴重降低了目標檢測的精度。
在模糊圖像恢復方面, 模糊圖像恢復的方法逐漸從基于圖像先驗的方法發(fā)展到基于深度學習的方法。 基于圖像先驗的方法[23-27]使用自然圖像先驗來估計模糊核, 對模糊圖像進行反卷積操作, 將其恢復為清晰圖像。 基于深度學習的方法[28-32]使用模糊和清晰圖像對來訓練模糊恢復模型, 隱式學習模糊和清晰圖像之間的關系, 不需要估計模糊核, 實現(xiàn)了良好的模糊圖像恢復性能。
然而, 與通用可見光目標檢測相比, 無人機可見光目標檢測還存在著許多挑戰(zhàn), 如復雜的戰(zhàn)場環(huán)境和低質(zhì)量的偵察圖像等問題。 因此, 對基于深度學習的無人機可見光目標檢測方法進行了全面綜述。 首先, 分析了無人機可見光目標檢測與通用可見光目標檢測的主要區(qū)別, 以及當前無人機可見光目標檢測面臨的主要挑戰(zhàn)。 其次, 描述了用于可見光目標檢測和圖像恢復的主要公開數(shù)據(jù)集。 然后, 結(jié)合當前無人機可見光目標檢測面臨的主要挑戰(zhàn)介紹了深度學習方法在無人機可見光目標檢測中的應用以及優(yōu)缺點。 最后, 展望了無人機可見光目標檢測未來可能的研究方向。
1 無人機可見光目標檢測分析
1.1 無人機可見光目標檢測與通用可見光目標檢測的區(qū)別
在普通視圖中, 通用可見光目標檢測的數(shù)據(jù)集大多是由手持攝像機或固定位置拍攝的, 所以大多數(shù)圖像都是側(cè)視圖。 然而, 無人機航空圖像不同于普通視圖圖像, 它們是通過自上而下的視角拍攝的, 這意味著普通視圖中的目標檢測方法不能直接應用于無人機鳥瞰視圖。
首先, 無人機鳥瞰視圖中的目標尺寸很小且形狀多變[33-41]。 例如, 行人和汽車在普通視圖中可能占據(jù)多個像素, 而在無人機鳥瞰視圖中可能只占據(jù)幾個像素, 并且它們形狀不規(guī)則, 導致呈現(xiàn)任意的方向, 這增加了無人機可見光目標檢測的難度。 其次, 無人機鳥瞰視圖中的偽裝不同于普通視圖[42-44]。 在普通視圖中, 目標由于偽裝可能會被其他背景遮擋, 比如躲藏在叢林里的坦克。 然而, 在無人機鳥瞰視圖中, 目標借助偽裝可能與地面環(huán)境高度相似, 比如穿純白衣服趴在雪地里的士兵。 最后, 無人機航空圖像的質(zhì)量受到多種因素的影響, 如設備的不穩(wěn)定性導致的模糊、 低分辨率、 圖像失真等[45-48]。 這些問題需要對圖像或視頻進行預處理, 以提高無人機可見光目標檢測方法的檢測效果。
因此, 不可能將在普通視圖數(shù)據(jù)集上訓練的目標檢測方法直接應用于無人機航空圖像, 需要根據(jù)無人機航空圖像的特有特征, 設計能夠滿足不同任務的無人機可見光目標檢測方法。
1.2 無人機可見光目標檢測的挑戰(zhàn)
無人機可見光目標檢測通常面臨著目標小尺度、 任意方向、 高度偽裝以及運動模糊等諸多挑戰(zhàn)。 對不同挑戰(zhàn)的詳細解釋如下:
目標小尺度問題。 無人機對目標進行偵察時, 為躲避對手防空火力的襲擾, 通常需要高空飛行, 由于無人機的飛行高度較高, 偵察收容面積較大, 使得圖像中的目標呈現(xiàn)小尺度的特點。
目標任意方向問題。 無人機對目標進行偵察時, 為深入了解對手防御縱深、 要點, 通常需要俯視或斜視拍攝圖像, 由于無人機的飛行航跡與目標的運動方向不一致, 使得圖像中的目標呈現(xiàn)任意方向的特點。
目標高度偽裝問題。 無人機對目標進行偵察時, 為躲避偵察打擊, 目標通常會借助各種復雜背景偽裝自己, 目標與復雜背景之間具有高度的紋理相似性, 使得圖像中的目標呈現(xiàn)高度偽裝的特點。
目標運動模糊問題。 無人機對目標進行偵察時, 為縮減在任務區(qū)內(nèi)的滯留時間、 降低對手防空系統(tǒng)的反應幾率, 通常需要高速飛行。 由于無人機相機的高速運動, 獲得的航空圖像往往是缺乏高頻信息的模糊圖像, 使得圖像中的目標呈現(xiàn)運動模糊的特點。
2 相關公開數(shù)據(jù)集
2.1 可見光目標檢測的公開數(shù)據(jù)集
近年來, 基于數(shù)據(jù)驅(qū)動的深度學習方法迅速發(fā)展, 為可見光目標檢測提供了強大的支持。 為了促進可見光目標檢測的研究, 研究人員提出了許多經(jīng)典的可見光目標檢測數(shù)據(jù)集, 這些數(shù)據(jù)集具有較大的數(shù)據(jù)規(guī)模和良好的泛化能力。
(1) 針對無人機圖像的可見光目標檢測數(shù)據(jù)集
UAV123數(shù)據(jù)集[49]包含從低空無人機捕獲的123個視頻序列, 總計超過11萬幀圖像。 這些視頻序列涵蓋了不同的場景, 如城市、 公園、 海灘、 學校等, 以及不同類型的目標, 如行人、 自行車、 汽車、 船只等。 每個視頻序列都有一個相應的注釋文件, 記錄目標在每幀中的位置和大小。 此外, 每個視頻序列都有一個屬性文件來描述該序列的特征。
UAVDT數(shù)據(jù)集[50]由50個視頻組成, 總共有40 376張圖像, 其中24 778張圖像用于訓練, 15 598張圖像用于測試。 這些圖像涵蓋了各種常見場景, 如道路收費站、 高速公路交叉口和T形路口等。 該數(shù)據(jù)集主要關注車輛目標(汽車、 卡車、 公共汽車), 圖像的分辨率為1 024×540像素。
Visdrone數(shù)據(jù)集[51]包含無人機在不同角度和不同高度獲取的圖像, 其中6 471張圖像用于訓練, 3 190張圖像用于測試。 該數(shù)據(jù)集有卡車、 巴士等10個目標類別, 圖像的分辨率在960×540到1 920×1 080像素范圍內(nèi)。
DroneVehicle數(shù)據(jù)集[52]主要針對無人機航空圖像中的車輛目標檢測和計數(shù), 包含31 064張圖像和441 642個實例, 其中一半是RGB圖像。 這些圖像涵蓋了從白天到晚上的各種場景, 具有真實的環(huán)境遮擋和不同的尺度變化。 該數(shù)據(jù)集有貨車、 汽車等5個目標類別。
(2) 針對無人機圖像的偽裝目標檢測數(shù)據(jù)集
MHCD數(shù)據(jù)集[53]是一個軍事高級偽裝目標檢測數(shù)據(jù)集, 包含3 000張圖像, 其中2 400張圖像用于訓練, 600張圖像用于測試。 每張圖像的每個目標都被仔細地標注了類別和位置, 5個目標類別為人、 飛機、 軍用車輛、 軍艦和坦克, 其中的偽裝涉及各種現(xiàn)實場景, 如叢林、 沙漠、 雪地、 城鎮(zhèn)和海洋等。
2.2 可見光圖像恢復的公開數(shù)據(jù)集
為了克服可見光圖像由于模糊、 噪聲、 雨霧等因素造成的不同程度的退化, 研究人員提出了許多經(jīng)典的圖像恢復數(shù)據(jù)集。
GoPro數(shù)據(jù)集[29]使用GoPro Hero 4相機捕捉240幀/秒的視頻序列, 通過平均連續(xù)的短曝光生成模糊圖像。 該數(shù)據(jù)集是圖像運動模糊的一個常見基準數(shù)據(jù)集, 包含3 214個模糊和清晰圖像對, 其中2 103對用于訓練, 1 111對用于評估。
RSBlur數(shù)據(jù)集[54]提供了各種戶外場景的真實模糊圖像, 每個圖像都與9個清晰的圖像序列配對, 能夠分析真實模糊與合成模糊之間的差異。 該數(shù)據(jù)集包含來自639個場景的12 238張真實模糊圖像, 其中來自465個場景的8 878張真實模糊圖像用于訓練, 來自174個場景的3 360張真實模糊圖像用于評估。
3 基于深度學習的無人機可見光目標檢測方法
隨著無人機技術(shù)的發(fā)展, 配備攝像機和嵌入式系統(tǒng)的無人機已廣泛應用于軍事偵察領域。 無人機對地偵察通常要求無人機具有感知環(huán)境、 理解場景和作出及時反應的能力, 其中最基本的是自動、 高效的目標檢測。 基于深度學習的目標檢測方法通過深度卷積神經(jīng)網(wǎng)絡或Transformer架構(gòu)自動提取圖像特征, 大大提高了目標檢測的性能和偵察情報判讀的準確性[55-58]。
因此, 對目前基于深度學習的無人機可見光目標檢測的論文進行了重點研究。 首先, 介紹了目標檢測方法的發(fā)展過程。 然后, 介紹了圖像恢復方法的發(fā)展過程。 最后, 針對無人機可見光目標檢測的不同挑戰(zhàn), 分別介紹了不同的基于深度學習的無人機可見光目標檢測方法。
3.1 目標檢測方法的發(fā)展過程
目標檢測方法的發(fā)展過程如圖1所示, 可以分為兩個階段: 傳統(tǒng)的目標檢測方法和基于深度學習的目標檢測方法。 基于深度學習的目標檢測方法進一步分為兩種技術(shù)路線: 基于深度卷積神經(jīng)網(wǎng)絡的目標檢測方法和基于Transformer架構(gòu)的目標檢測方法。 基于深度卷積神經(jīng)網(wǎng)絡的目標檢測方法按照目標檢測的任務階段又分為單階段方法和兩階段方法。
傳統(tǒng)的目標檢測方法主要基于滑動窗口和人工特征提取, 一般包括區(qū)域建議、 特征提取和分類回歸三個步驟。 首先, 通過區(qū)域建議獲取目標可能所在的感興趣區(qū)域。 然后, 利用人工特征提取方法將感興趣區(qū)域中的目標轉(zhuǎn)換為特征向量。 最后, 分類回歸器根據(jù)提取的特征向量對目標進行分類和回歸。 傳統(tǒng)的目標檢測方法具有計算復雜度高、 特征表示能力弱、 優(yōu)化困難等缺點, 代表性方法主要有VJ Det[59]和HOG Det[60]等。
基于深度卷積神經(jīng)網(wǎng)絡的目標檢測方法采用深度卷積神經(jīng)網(wǎng)絡, 從輸入圖像中自動提取高級特征并對目標進行分類和回歸, 具有速度快、 精度高、 魯棒性強等優(yōu)點。 兩階段目標檢測方法在第一階段生成區(qū)域建議, 并在第二階段對區(qū)域建議內(nèi)的目標進行分類和回歸。 兩階段目標檢測方法生成了目標的區(qū)域建議, 檢測精度通常較高, 但由于額外的階段處理, 檢測速度通常較慢, 代表性方法主要有Faster RCNN[12], Cascade RCNN[13], Mask RCNN[14]等。 單階段目標檢測方法沒有生成區(qū)域建議, 直接從圖像中生成目標的位置和類別, 具有較快的檢測速度。 然而, 單階段目標檢測方法的分類和回歸分支通常是簡單的, 難以捕獲目標的詳細特征, 導致檢測精度較低, 代表性方法主要有SSD[15], RetinaNet[16], YOLO[17]系列等。
基于Transformer架構(gòu)的目標檢測方法作為一種編碼器來提取目標的全局上下文特征, 具有良好的并行化和全局注意機制, 能夠以端到端的方式直接預測目標的邊界框和類別標簽。 然而, 基于Transformer架構(gòu)的目標檢測方法更多地關注目標檢測的準確性, 忽略了模型的大小和目標檢測的時效性, 阻礙了其在資源有限的環(huán)境中的部署, 代表性方法主要有Deformable DETR[18], TransMIN[19], QETR[20]等。
3.2 圖像恢復方法的發(fā)展過程
圖像恢復是從退化圖像中獲得高質(zhì)量圖像, 退化的典型例子包括模糊、 噪聲、 雨霧等[21-22]。 接下來, 主要從模糊圖像恢復方面介紹圖像恢復方法的發(fā)展過程, 如圖2所示。
模糊圖像恢復的方法逐漸從基于圖像先驗的方法發(fā)展到基于深度學習的方法。 基于圖像先驗的方法使用自然圖像先驗來估計模糊核, 對模糊圖像進行反卷積操作, 將其恢復為清晰圖像, 代表性方法主要有極端通道先驗[24]、 局部最大梯度先驗[26]、 局部最大差分先驗[27]等。 然而, 基于圖像先驗的方法的建模依賴于先驗約束, 許多先驗僅針對特定的模糊場景設計," 不能推廣到真實的模糊圖像。 相反, 基于深度學習的方法使用模糊和清晰圖像對來訓練模糊恢復模型, 隱式學習模糊和清晰圖像之間的關系, 而不估計模糊核, 代表性方法主要有MPRNet[21], AMD-GAN[61], MGSTNet[62]等。 然而, 基于深度學習的方法依賴于成對的訓練數(shù)據(jù), 當訓練數(shù)據(jù)有限時, 模糊圖像的恢復效果將會下降。
3.3 解決目標小尺度問題的可見光目標檢測方法
在無人機航空圖像中, 由于無人機飛行高度高、 拍攝角度寬等原因, 通常目標特征信息較少、 分辨率較低。 此外, 由于深度神經(jīng)網(wǎng)絡中的降采樣和池化操作, 目標保留的特征信息會更少, 可能只有10個像素左右, 這將嚴重影響目標檢測效果。 為解決無人機航空圖像中的目標小尺度問題, 提出了許多先進的小目標檢測方法。
3.3.1 基于多尺度特征的小目標檢測
Lin等[63]提出一種特征金字塔網(wǎng)絡(FPN), 通過融合深層特征和淺層特征獲得多層特征圖。 Ghaisi等[64]提出神經(jīng)結(jié)構(gòu)搜索-特征金字塔網(wǎng)絡(NAS-FPN), 采用神經(jīng)結(jié)構(gòu)搜索, 通過自上而下和自下而上連接的組合來融合跨尺度的特征信息。 Liu等[65]提出一種路徑聚合特征金字塔網(wǎng)絡(PAFPN), 通過自下而上的路徑增強來增強小目標特征, 縮短了特征信息的傳輸路徑。 Xu等[19]提出一種Transformer引導的多交互網(wǎng)絡(TransMIN), 通過FPN中的Transformer實現(xiàn)跨層特征交互, 以捕獲小目標特征與FPN特征之間的相關性。 Sun等[66]提出一種實時小目標檢測方法(RSOD), 引入多尺度特征融合模塊和自適應錨框生成模塊, 以提高小目標的特征表達和定位能力。 Li等[67]提出一種尺度感知的三分支網(wǎng)絡(TridentNet), 引入不同接受域的多分支檢測頭, 用于多尺度預測。 Liu等[68]提出一種高分辨率目標檢測網(wǎng)絡, 使用多分辨率圖像作為輸入, 依次從高分辨率到低分辨率提取目標特征。
3.3.2 基于上下文信息的小目標檢測
MCFPN[69]提出了交叉上下文聚合模塊, 采用多分支交互融合方法對相鄰維度的上下文進行整合, 以充分提取小目標的上下文信息。 PADN[70]在提取上下文信息的基礎上增加了注意力模塊, 從空間和通道兩個維度對小目標的上下文信息進行自適應選擇。 SCA[71]將上下文特征進行反卷積, 并對每一層特征進行批歸一化和級聯(lián), 實現(xiàn)了小目標不同層次的上下文特征融合。 ION[72]采用空間遞歸神經(jīng)網(wǎng)絡來傳遞上下文信息, 通過跳躍池化提取小目標不同尺度的特征。 AC-CNN[73]通過堆疊長短時記憶網(wǎng)絡來探索全局上下文信息, 旨在完善小目標特征信息的表達。
3.3.3 基于超分辨率特征的小目標檢測
小目標像素較少, 可利用的有效信息有限, 可以采用超分辨率技術(shù)將其擴展為高分辨率、 高質(zhì)量的特征表示, 以增強小目標的細節(jié)信息。 MTGAN[74]提出基于端到端多任務生成對抗網(wǎng)絡的小目標檢測方法, 對小目標進行圖像級別的超分辨率重建。 PGAN[75]提出將小目標特征作為殘差網(wǎng)絡的輸入, 利用生成對抗網(wǎng)絡學習小目標與大目標特征之間的偏差, 直接生成高分辨率的特征表示。 BFFB[76]構(gòu)建超分辨率特征提取網(wǎng)絡, 超分辨率特征提取網(wǎng)絡與骨干網(wǎng)絡共享網(wǎng)絡參數(shù), 通過擴展卷積操作和池化操作匹配小目標的感受野, 提高小目標的檢測精度。
3.3.4 小目標檢測方法的定量與定性分析
表1和圖3顯示了上述小目標檢測方法在Visdrone數(shù)據(jù)集上的定量與定性比較結(jié)果。
表1中, mAP表示全類平均精度(mean Average Precision, mAP), FPS表示每秒處理的圖像數(shù)量(Frame Per Second, FPS)。
圖3(a)中, 單階段目標檢測方法YOLOv3在13個小型車輛(紫色邊界框)中只檢測到了3個, 檢測精度相對較低。 圖3(b)中, 兩階段目標檢測方法Faster RCNN在13個小型車輛(紫色邊界框)中檢測到了10個, 檢測精度相比單階段目標檢測方法有了很大提升。 圖3(c)~(d)中, 基于多尺度特征的目標檢測方法TransMIN和TridentNet都成功檢測到了所有的小型車輛(紫色邊界框), 檢測精度得到進一步提升, 但都存在將圖片右上角的石墩和左下角的路燈陰影錯誤檢測成小型車輛的問題。 圖3(e)中, 基于上下文信息的目標檢測方法ION成功檢測到了所有的小型車輛(紫色邊界框), 并且圖片左邊的大型公交車(橙色邊界框)也被成功地檢測到, 但存在將圖片右上角的石墩和左下角的路燈陰影錯誤檢測成小型車輛的問題。 圖3(f)中, 基于超分辨率特征的目標檢測方法PGAN成功檢測到了所有的小型車輛(紫色邊界框)和圖片左邊的大型公交車(橙色邊界框), 但存在將圖片右上角的石墩和右下角的路燈錯誤檢測成小型車輛的問題。
通過比較結(jié)果可以發(fā)現(xiàn), 當前為解決目標小尺度問題而提出的目標檢測方法雖然取得了良好的檢測效果, 但仍然存在一定的小目標誤檢漏檢情況, 這些問題需要在未來進一步解決, 總結(jié)如下:
(1) TransMIN和TridentNet等方法將多尺度特征進行融合, 可以同時考慮細節(jié)輪廓和高層語義信息, 豐富了小目標特征的表達。 然而, 不同尺度特征的分辨率不同, 對輸出特征的貢獻不一, 按位相加或者直接級聯(lián)缺乏對各個特征之間的重要性建模, 小目標特征容易被淹沒, 并且特征圖中的背景噪聲可能隨著特征融合不斷累積。
(2) MCFPN和ION等方法通過提取小目標的上下文信息來完善小目標特征信息的表達, 提升了小目標的檢測效果。 然而, 上下文語義建模無法建立像素與像素之間的直接聯(lián)系, 不相鄰的像素之間缺乏長距離依賴關系建模, 全局信息可以彌補小目標特征信息少的不足, 增強小目標的特征表達, 但只有疊加深層的網(wǎng)絡結(jié)構(gòu)才能捕獲長距離特征關系, 網(wǎng)絡優(yōu)化訓練的時間較長。
(3) MTGAN和PGAN等方法采用超分辨率技術(shù)來增強小目標的細節(jié)信息。 然而, 超分辨率技術(shù)在圖像尺寸較大時會帶來較高的計算復雜度, 而且容易導致訓練困難, 如何加速計算是超分辨率技術(shù)廣泛應用的前提。
3.4 解決目標任意方向問題的可見光目標檢測方法
無人機航空圖像中的目標具有任意方向, 當采用通用目標檢測方法進行目標檢測時, 由于使用水平錨框來檢測目標, 生成的目標檢測框不可避免地會引入背景噪聲或無關的前景特征[77]。 為解決無人機航空圖像中的目標任意方向問題, 研究人員提出了許多先進的定向目標檢測方法。
3.4.1 基于特征增強的定向目標檢測
AARN[33]利用密集排列的親和力來檢測定向目標, 親和力圖構(gòu)造模塊選擇與參考框高度相似的檢測框, 動態(tài)增強模塊利用注意力機制學習鄰域信息, 動態(tài)地確定特征增強的權(quán)重。 Oriented R-CNN[78]引入定向區(qū)域建議網(wǎng)絡來直接預測水平錨框的定向建議。 RoI-Transformer[79]將水平目標區(qū)域轉(zhuǎn)換為旋轉(zhuǎn)目標區(qū)域, 提取旋轉(zhuǎn)不變特征進行定向目標的分類和回歸。 ADT-Det[80]提出特征金字塔Transformer, 通過特征交互機制來增強定向目標檢測框架的特征提取功能。 S2A-Net[81]通過錨框細化生成高質(zhì)量的定向錨框, 自適應地將卷積特征與錨框?qū)R。 R3Det[82]提出特征細化模塊并構(gòu)建對齊的特征映射, 以適應定向檢測框的定位偏移。 SCRDet[83]提出引入像素級語義信息的細粒度特征融合分支, 以充分提取定向目標的特征信息。
3.4.2 基于樣本分配的定向目標檢測
良好的樣本分配可以減輕分類與回歸任務之間的不一致。 DCFL[35]以動態(tài)的方式對先驗、 樣本分配和目標表示進行建模, 利用粗糙的先驗匹配和精細的后驗約束來動態(tài)地分配樣本, 為不同的目標提供適當?shù)暮拖鄬ζ胶獾谋O(jiān)督。 Rotated-RetinaNet[16]基于固定的Max-IoU策略分配樣本, 采用區(qū)域建議和地面真實值之間的交并比(IoU)作為選擇度量。 DAL[84]根據(jù)輸入先驗IoU與輸出預測IoU之間的不一致性定義了一個預測感知匹配度, 然后利用它來重新確定錨框的權(quán)重, 實現(xiàn)了動態(tài)樣本學習。 SASM[85]根據(jù)目標的形狀信息和特征分布動態(tài)分配樣本。 Oriented RepPoints[86]提出Max-Convex-IoU樣本分配方案用于自適應點學習, 不僅從分類和回歸中選擇點樣本, 而且從方向和點特征相關中選擇點樣本。
3.4.3 基于回歸損失優(yōu)化的定向目標檢測
Gliding Vertex[87]通過在水平邊界上滑動頂點來學習檢測框四個角的偏移量, 進而預測定向檢測框。 CSL[88]通過將定向目標回歸轉(zhuǎn)化為分類任務來處理超出范圍的旋轉(zhuǎn)角度。 PIoU[89]通過累積內(nèi)部重疊像素的貢獻來計算回歸損失。 GWD[90]和KLD[91]將定向目標框和地面真實框分別建模為高斯分布, 然后通過高斯瓦瑟斯坦距離和庫勒散度構(gòu)造一個新的損失函數(shù)來衡量分布之間的差異, 以此作為回歸損失。 Attention-Points[34]設計了由引導注意損失(GALoss)和盒點損失(BPLoss)組成的注意力網(wǎng)絡, GALoss使用一個實例分割掩模作為地面真實圖像來學習目標的注意特征, BPLoss利用目標的注意特征來預測定向目標檢測框的位置。 KRRD[92]提出了R-DIoU損失, 將地面真實邊界框與預測邊界框之間的中心點距離納入定向目標檢測的回歸過程中, 以加速網(wǎng)絡的收斂速度。
3.4.4 定向目標檢測方法的定量與定性分析
表2和圖4顯示了上述定向目標檢測方法在UAV123數(shù)據(jù)集上的定量與定性比較結(jié)果。
圖4(a)~(b)中, 基于特征增強的目標檢測方法AARN在33個船只(紫色邊界框)中只檢測到了3個, S2A-Net在33個船只(紫色邊界框)中只檢測到了5個, 檢測精度相對較低。 圖4(c)~(d)中, 基于樣本分配的目標檢測方法SASM在33個船只(紫色邊界框)中檢測到了6個, DCFL在33個船只(紫色邊界框)中檢測到了11個, 檢測精度雖有提升, 但仍然較低。 圖4(e)~(f)中, 基于回歸損失優(yōu)化的目標檢測方法Attention-Points和KRRD在33個船只(紫色邊界框)中檢測到了12個, 檢測精度進一步提升, 并且其生成的目標邊界框更加貼近船只的真實形狀。
通過比較結(jié)果可以發(fā)現(xiàn), 當前為解決目標任意方向問題而提出的目標檢測方法雖然取得了一定的檢測效果, 但仍然存在大量的定向目標漏檢情況, 這些問題需要在未來進一步解決, 總結(jié)如下:
(1) AARN和RoI-Transformer等特征增強方法由于精心設計的特征增強模塊, 使得網(wǎng)絡變得沉重且復雜, 參數(shù)數(shù)量明顯增加。 另外, 這些方法在每個位置上設置了不同角度、 比例和高寬比的錨框, 密集旋轉(zhuǎn)的錨框?qū)е铝藱z測效率明顯降低并存在大量的計算開銷和內(nèi)存占用。
(2) SASM和DCFL等樣本分配方法都設置了一些超參數(shù), 如SASM的動態(tài)IoU閾值和DCFL的目標尺度范圍, 超參數(shù)的不同設置將會產(chǎn)生非常不同的檢測結(jié)果, 甚至出現(xiàn)目標的漏檢情況。
(3) Attention-Points和KRRD等回歸損失優(yōu)化方法不能根據(jù)定向目標的高度和寬度動態(tài)調(diào)整梯度, 例如具有大高寬比的船只目標對位置的偏移很敏感, 輕微的角度誤差就會導致檢測精度的嚴重下降甚至出現(xiàn)目標的漏檢情況。
3.5 解決目標高度偽裝問題的可見光目標檢測方法
偽裝目標為躲避偵察打擊通常位于復雜的背景中, 如戰(zhàn)場、 叢林和城鎮(zhèn), 并且與復雜的背景具有高度的紋理相似性。 當采用通用目標檢測方法進行目標檢測時, 由于復雜的戰(zhàn)場環(huán)境以及前景和背景之間高度的紋理相似性, 這些方法往往不能檢測到偽裝的目標, 導致出現(xiàn)遺漏檢測, 嚴重影響無人機偵察打擊等軍事任務的效果。 為解決無人機航空圖像中的目標高度偽裝問題, 研究人員提出了許多先進的偽裝目標檢測方法。
3.5.1 基于手工設計特征的偽裝目標檢測
基于手工設計特征的偽裝目標檢測方法通過手工設計的特征來計算對比度, 使偽裝目標與背景分離。 基于手工設計特征的偽裝目標檢測方法可以分為基于強度對比的方法[93]、 基于顏色對比的方法[94]、 基于紋理對比的方法[95]、 基于光流對比的方法[96]和基于特征融合對比的方法[97]。 然而, 這些方法缺乏豐富的語義表達能力, 不能處理復雜的背景和有噪聲干擾的實際場景。
3.5.2 基于語義分割的偽裝目標檢測
隨著CAMO[98]和COD10K[99]等偽裝數(shù)據(jù)集的發(fā)布, 許多基于語義分割的偽裝目標檢測方法被提出, 并取得很大進展。 這些方法大致可以分為四種類型:" 一是設計先進的網(wǎng)絡結(jié)構(gòu)來探索偽裝目標的鑒別性特征, 如C2FNet[100], TANet[101], DTCNet[102], UGTR[103], FSANet[104]和CRI-Net[105];" 二是將輔助任務與目標檢測任務相結(jié)合以提高偽裝目標檢測的性能, 如邊界探索[106]、 顯著目標檢測[107]和偽裝目標排名[108]等;" 三是采用受自然界捕食者行為啟發(fā)的仿生機制來執(zhí)行偽裝目標檢測, 如SINet[109]和MirrorNet[110]; 四是提出紅外和可見光圖像融合方法來輔助偽裝目標檢測, 如SeAFusion[111]和SuperFusion[112]。
3.5.3 基于錨框的偽裝目標檢測
由于公共數(shù)據(jù)集的嚴重限制, 基于錨框的偽裝目標檢測方法的研究相對較少。 MHNet[53]提出一種端到端的感知和識別框架來檢測軍事偽裝目標, 在整個檢測過程中包含了生物視覺機制的全局先驗、 關系挖掘和視覺恢復。 TCPM[113]提出一種基于三元級聯(lián)感知的方法來檢測偽裝目標, 提取了偽裝目標的空間信息與關鍵點的位置信息之間的關系。 CPDN[114]提出一種基于錨框的偽裝人員檢測方法, 在卷積神經(jīng)網(wǎng)絡中增加了有效的通道注意和改進的接受域塊, 以關注偽裝人員的更多特征。
3.5.4 偽裝目標檢測方法的定量與定性分析
表3和圖5顯示了上述偽裝目標檢測方法在MHCD數(shù)據(jù)集上的定量與定性比較結(jié)果。
圖5(a)~(b)中, 基于語義分割的目標檢測方法C2FNet和FSANet通過設計網(wǎng)絡結(jié)構(gòu)來探索偽裝目標的鑒別性特征, 對于偽裝的狙擊手(紫色邊界框)的檢測精度只有30%左右, 并且生成的目標邊界框偏離了狙擊手的輪廓形狀。 圖5(c)中, 基于語義分割的目標檢測方法SINet采用受自然界捕食者行為啟發(fā)的仿生機制來執(zhí)行偽裝目標檢測, 對于偽裝的狙擊手(紫色邊界框)的檢測精度達到了63%, 但生成的目標邊界框未能緊密匹配狙擊手的輪廓形狀。 圖5(d)~(e)中, 基于錨框的目標檢測方法TCPM和MHNet對于偽裝的狙擊手(紫色邊界框)的檢測精度達到了98%~99%, 并且生成的目標邊界框能夠緊密匹配狙擊手的輪廓形狀。
通過比較結(jié)果可以發(fā)現(xiàn), 當前為解決目標高度偽裝問題而提出的目標檢測方法雖然取得了良好的檢測效果, 但仍然存在一定的目標邊界框不準確情況, 這一問題需要在未來進一步解決, 總結(jié)如下:
(1) C2FNet, FSANet和SINet等語義分割方法由于偽裝目標與背景之間高度的紋理相似性, 提取的偽裝目標特征較為有限, 不能很好地區(qū)分偽裝目標與背景的模糊邊界。
(2) TCPM和MHNet等基于錨框的方法能夠獲得偽裝目標更高的檢測精度, 并且生成的目標邊界框能夠緊密匹配偽裝目標的輪廓形狀。 然而, 當前主流方法側(cè)重于偽裝目標的語義分割, 對偽裝目標的檢測關注較少, 目前幾乎沒有專門為偽裝目標檢測而設計的數(shù)據(jù)集。
3.6 解決目標運動模糊問題的模糊圖像恢復方法
無人機航空圖像已被廣泛應用于偵察情報判讀和重點區(qū)域監(jiān)測。 然而, 當無人機相機快速移動并且有多個運動目標時, 無人機航拍圖像將變得高度模糊。 因此, 恢復模糊的圖像是非常重要的, 特別是對于后續(xù)的目標檢測任務, 模糊的圖像嚴重降低了目標檢測的精度。 為解決無人機航空圖像中的目標運動模糊問題, 研究人員提出了許多先進的模糊圖像恢復方法。
3.6.1 基于圖像先驗的模糊圖像恢復
基于圖像先驗的模糊圖像恢復方法主要利用不同的圖像先驗從模糊圖像中恢復清晰圖像。 例如, Ren等[23]采用結(jié)合低秩先驗和梯度圖的最小化加權(quán)核范數(shù)方法, 以提高圖像去模糊的有效性。 Yan等[24]將暗通道和亮通道相結(jié)合, 設計了一種圖像去模糊的極端通道先驗方法。 同時, 基于局部先驗信息的圖像去模糊方法也取得了重大成果, 如基于局部最大梯度先驗[26]的方法和基于局部最大差分先驗[27]的方法。
3.6.2 基于深度學習的模糊圖像恢復
隨著深度學習的快速發(fā)展, 設計不同的網(wǎng)絡結(jié)構(gòu), 學習從模糊圖像到清晰圖像的非線性映射, 無需對不同的模糊場景進行復雜的參數(shù)調(diào)整, 已經(jīng)取得了重大進展。 基于深度學習的模糊圖像恢復方法主要通過大量成對的訓練數(shù)據(jù), 以端到端的方式訓練去模糊模型。 例如, MIMO-UNet[28]提出一種用于圖像去模糊的多輸入多輸出U-Net網(wǎng)絡。 DeepDeblur[29]提出一種從粗到細的去模糊網(wǎng)絡, 通過堆疊多個子網(wǎng)絡實現(xiàn)了良好的去模糊性能。 MAXIM[30]提出一種基于多軸多層感知機的架構(gòu), 其中每個模塊都有一個全局和局部感知域, 提高了去模糊模型的學習能力。 DeblurGAN[31]提出一種基于生成對抗網(wǎng)絡(GAN)的去模糊方法, 可以在去模糊圖像中生成更真實的細節(jié)。 DSADN[115]提出一種具有并行融合流的去模糊網(wǎng)絡來生成清晰的圖像, 融合了底層紋理特征和高層語義特征來擴展圖像的接受域。 Ref-MFFDN[116]提出一種基于參考的多層特征融合網(wǎng)絡進行圖像去模糊, 從同一位置不同時刻的清晰參考圖像中提取紋理, 以幫助恢復模糊圖像。 IdemDeblur[117]在去模糊框架中引入了冪等約束, 提出一種深度冪等網(wǎng)絡, 在穩(wěn)定的再去模糊條件下實現(xiàn)更好的非均勻圖像去模糊。 SDD-GAN[118]提出一種用于圖像去模糊的端到端GAN, 引入特征對齊模塊和特征重要性選擇模塊來恢復模糊圖像的紋理和細節(jié)。 AMD-GAN[61]提出一種用于圖像去模糊的自適應多尺度融合GAN, 采用圖像模糊度自適應地引導網(wǎng)絡進行特征圖的多尺度融合。 MGSTNet[62]設計了一種多尺度廣義收縮閾值網(wǎng)絡, 能夠自適應地學習深度幾何先驗信息的重要性, 以增強模糊圖像恢復的效果。
3.6.3 模糊圖像恢復方法的定量與定性分析
表4和圖6顯示了上述模糊圖像恢復方法在GoPro數(shù)據(jù)集上的定量與定性比較結(jié)果。
圖6的第1列中, 部分方法不能準確地恢復由高度移動的行人造成的模糊邊緣。 圖6的第2列中, 部分方法不能準確地處理高度模糊的場景, 特別是圖像右下角的標志牌和崗亭。 圖6的第3列中, 部分方法不能準確地恢復紅框中窗戶的結(jié)構(gòu)。
另外, 利用上述模糊圖像恢復方法對DroneVehicle數(shù)據(jù)集中的真實模糊圖像進行圖像恢復, 運用常見的目標檢測方法RetinaNet對上述模糊圖像恢復方法恢復后的圖像進行目標檢測, 定性比較結(jié)果如圖7所示。 圖7(a)中, DeblurGAN方法恢復的圖像對于道路上的直行和掉頭箭頭依然模糊不清, 同時對于車輛的檢測精度只達到了67.0%。 圖7(b)~(e)中, DeepDeblur, AMD-GAN, NAFNet和IdemDeblur這四種方法恢復的圖像對于道路上的直行和掉頭箭頭的清晰度逐漸增加, 同時對于車輛的檢測精度分別達到了79.6%, 83.0%, 83.7%和84.8%, 但由于車輛模糊邊緣的影響, 生成的目標邊界框未能緊密匹配車輛的輪廓形狀。 圖7(f)中, MGSTNet方法恢復的圖像對于車輛的檢測精度達到了最高的86.7%, 并且生成的目標邊界框緊密匹配了車輛的輪廓形狀。
通過比較結(jié)果可以發(fā)現(xiàn), 當前為解決目標運動模糊問題而提出的模糊圖像恢復方法雖然取得了良好的效果, 但是對模糊邊緣恢復等一些細節(jié)的處理并不令人滿意, 仍然存在一些問題需要在未來進一步解決, 總結(jié)如下:
(1) 極端通道先驗、 局部最大梯度先驗和局部最大差分先驗等基于圖像先驗的方法的建模依賴于先驗約束, 許多先驗僅針對特定的模糊場景而設計。 此外, 基于圖像先驗的方法往往很耗時, 需要仔細調(diào)整針對不同數(shù)據(jù)集的參數(shù)。
(2) NAFNet, IdemDeblur和MGSTNet等基于深度學習的方法恢復的模糊圖像在多層和多尺度特征的聚合和對齊過程中, 由于不斷的雙線性降采樣和轉(zhuǎn)置卷積操作, 可能會丟失高頻細節(jié)信息。 此外, 基于深度學習的方法依賴于成對的訓練數(shù)據(jù), 當訓練數(shù)據(jù)有限時, 模糊圖像的恢復效果將會下降。
4 未來研究方向
近幾年來, 研究人員對基于深度學習的無人機可見光目標檢測的研究越來越感興趣, 現(xiàn)有的方法已經(jīng)取得了一些階段性研究成果, 但無人機可見光目標檢測作為無人機偵察領域和人工智能應用的核心任務, 仍存在許多問題與難點亟待解決。 對基于深度學習的無人機可見光目標檢測的未來研究方向進行了以下討論:
(1) 無監(jiān)督或半監(jiān)督訓練。 現(xiàn)有的無人機目標檢測數(shù)據(jù)集標注成本較高, 無監(jiān)督或半監(jiān)督訓練方法可以從未標注或少量標注數(shù)據(jù)中學習有用的特征和知識, 實現(xiàn)高效的目標檢測。 此外, 還可以使用來自其他領域或任務的預訓練模型, 如自然場景普通視圖中的目標檢測模型, 對無人機可見光目標檢測模型進行初始化或微調(diào), 利用來自其他領域或任務的知識來提高目標檢測性能。
(2) 數(shù)據(jù)預處理。 目標檢測的效果很大程度上取決于輸入數(shù)據(jù)的質(zhì)量, 由于無人機飛行高度和飛行姿態(tài)的限制, 目標重疊、 覆蓋、 位移等問題是不可避免的。 基于深度學習的無人機可見光目標檢測方法可以通過數(shù)據(jù)預處理來減少冗余特征, 提高目標檢測的效率。
(3) 多模態(tài)數(shù)據(jù)。 多模態(tài)數(shù)據(jù)是指從紅外等傳感器或雷達中獲得的數(shù)據(jù)。 多模態(tài)數(shù)據(jù)可以提供更豐富、 更完整的信息, 有助于克服單模態(tài)數(shù)據(jù)的局限性和不足。 多模態(tài)數(shù)據(jù)融合的應用非常廣泛, 然而在數(shù)據(jù)融合過程中存在著一些挑戰(zhàn), 例如數(shù)據(jù)質(zhì)量問題、" 噪聲問題等。 為了解決這些問題, 有必要將多模態(tài)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式和分辨率, 促進多模態(tài)數(shù)據(jù)的融合與處理。
參考文獻:
[1] 符成山, 吳惟誠, 雷東. 美軍無人機裝備現(xiàn)狀及發(fā)展趨勢[J]. 飛航導彈, 2019(9): 46-52.
Fu Chengshan, Wu Weicheng, Lei Dong. Current Situation and Development Trend of US UAV Equipment[J]. Aerodynamic Missile Journal, 2019(9): 46-52.(in Chinese)
[2] 魯亞飛, 陳清陽, 吳岸平. 中空長航時察打一體無人機運用特點分析[J]. 飛航導彈, 2020(9): 75-79.
Lu Yafei, Chen Qingyang, Wu Anping. Analysis on the Application Characteristics of Unmanned Aerial Vehicle with Hollow Long Endurance Inspection and Strike[J]. Aerodynamic Missile Journal, 2020(9): 75-79.(in Chinese)
[3] 胡勁松, 黃文濤. 無人化裝備給偵察情報帶來的新變化[J]. 軍事文摘, 2020(19): 27-30.
Hu Jinsong, Huang Wentao. New Changes Brought by Unmanned Equipment to Reconnaissance Intelligence[J]. Military Digest, 2020(19): 27-30.(in Chinese)
[4] 王耀南, 安果維, 王傳成, 等. 智能無人系統(tǒng)技術(shù)應用與發(fā)展趨勢[J]. 中國艦船研究, 2022, 17(5): 9-26.
Wang Yaonan, An Guowei, Wang Chuancheng, et al. Technology Application and Development Trend of Intelligent Unmanned System[J]. Chinese Journal of Ship Research, 2022, 17(5): 9-26.(in Chinese)
[5] Zhao Q, Liu B H, Lyu S C, et al. TPH-YOLOv5++: Boosting Object Detection on Drone-Captured Scenarios with Cross-Layer Asymmetric Transformer[J]. Remote Sensing, 2023, 15(6): 1687.
[6] Deng S T, Li S, Xie K, et al. A Global-Local Self-Adaptive Network for Drone-View Object Detection[J]. IEEE Transactions on Image Processing, 2021, 30: 1556-1569.
[7] Huang Y C, Chen J X, Huang D. UFPMP-Det: Toward Accurate and Efficient Object Detection on Drone Imagery[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(1): 1026-1033.
[8] 邱荷茜. 視覺目標檢測關鍵技術(shù)研究[D]. 成都: 電子科技大學, 2022.
Qiu Heqian. Research on Key Technologies of Visual Object Detection[D]. Chengdu: University of Electronic Science and Technology of China, 2022. (in Chinese)
[9] 馮彥卿. 基于深度學習的視覺目標檢測與跟蹤技術(shù)研究[D]. 長沙: 國防科技大學, 2020.
Feng Yanqing. Research on Visual Object Detection and Tracking Technology Based on Deep Learning[D]. Changsha: National University of Defense Technology, 2020. (in Chinese)
[10] 丁鵬欣. 基于深度學習的圖像目標檢測關鍵技術(shù)研究[D]. 成都: 四川大學, 2021.
Ding Pengxin. Research on Key Technologies of Image Object Detection Based on Deep Learning[D]. Chengdu: Sichuan University, 2021. (in Chinese)
[11] 曹家樂, 李亞利, 孫漢卿, 等. 基于深度學習的視覺目標檢測技術(shù)綜述[J]. 中國圖象圖形學報, 2022, 27(6): 1697-1722.
Cao Jiale, Li Yali, Sun Hanqing, et al. A Survey on Deep Learning Based Visual Object Detection[J]. Journal of Image and Graphics, 2022, 27(6): 1697-1722.(in Chinese)
[12] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[13] Cai Z W, Vasconcelos N. Cascade R-CNN: High Quality Object Detection and Instance Segmentation[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[14] He K M, Gkioxari G, Dollar P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 386-397.
[15] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]∥ European Conference on Computer Vision, 2016: 2325-2341.
[16] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]∥ IEEE International Conference on Computer Vision, 2017.
[17] Redmon J, Farhadi A. YOLOv3: An Incremental Improvement[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.
[18] Zhu X Z, Su W J, Lu L W, et al. Deformable DETR: Deformable Transformers for End-to-End Object Detection[C]∥ International Conference on Learning Representations, 2021.
[19] Xu G M, Song T C, Sun X, et al. TransMIN: Transformer-Guided Multi-Interaction Network for Remote Sensing Object Detection[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 3230973.
[20] Ma X Y, Lv P Y, Zhong Y F. QETR: A Query-Enhanced Transformer for Remote Sensing Image Object Detection[J]. IEEE Geoscience and Remote Sensing Letters, 2024, 21: 6005905.
[21] Zamir S W, Arora A, Khan S, et al. Multi-Stage Progressive Image Restoration[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021.
[22] Chen L Y, Chu X J, Zhang X Y, et al. Simple Baselines for Image Restoration[C]∥ European Conference on Computer Vision, 2022: 4676-4696.
[23] Ren W Q, Cao X C, Pan J S, et al. Image Deblurring via Enhanced Low-Rank Prior[J]. IEEE Transactions on Image Processing, 2016, 25(7): 3426-3437.
[24] Yan Y Y, Ren W Q, Guo Y F, et al. Image Deblurring via Extreme Channels Prior[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[25] Ge X Y, Tan J Q, Zhang L. Blind Image Deblurring Using a Non-Linear Channel Prior Based on Dark and Bright Channels[J]. IEEE Transactions on Image Processing, 2021, 30: 6970-6984.
[26] Chen L, Fang F M, Wang T T, et al. Blind Image Deblurring with Local Maximum Gradient Prior[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[27] Liu J, Tan J Q, He L, et al. Blind Image Deblurring via Local Maximum Difference Prior[J]. IEEE Access, 2020, 8: 219295-219307.
[28] Cho S J, Ji S W, Hong J P, et al. Rethinking Coarse-to-Fine Approach in Single Image Deblurring[C]∥ IEEE/CVF International Conference on Computer Vision, 2021.
[29] Nah S, Kim T H, Lee K M. Deep Multi-Scale Convolutional Neural Network for Dynamic Scene Deblurring[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[30] Tu Z Z, Talebi H, Zhang H, et al. MAXIM: Multi-Axis MLP for Image Processing[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022.
[31] Kupyn O, Budzan V, Mykhailych M, et al. DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.
[32] Kupyn O, Martyniuk T, Wu J R, et al. DeblurGAN-V2: Deblurring (Orders-of-Magnitude) Faster and Better[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[33] Fang T T, Liu B, Zhao Z W, et al. Affinity-Aware Relation Network for Oriented Object Detection in Aerial Images[C]∥Asian Conference on Computer Vision, 2022: 3343-3360.
[34] Doloriel C T C, Cajote R D. Improving the Detection of Small Oriented Objects in Aerial Images[C]∥IEEE/CVF Winter Conference on Applications of Computer Vision Workshops, 2023.
[35] Xu C, Ding J, Wang J W, et al. Dynamic Coarse-to-Fine Learning for Oriented Tiny Object Detection[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023.
[36] 楊建秀. 無人機視角下車輛目標檢測的算法研究[D]. 西安: 西安電子科技大學, 2021.
Yang Jianxiu. Research on Vehicle Detection Algorithms from UAV Imagery[D]. Xi’an: Xidian University, 2021. (in Chinese)
[37] 韓偉. 基于深度神經(jīng)網(wǎng)絡的高分辨率遙感影像弱小目標檢測[D]. 武漢: 中國地質(zhì)大學, 2021.
Han Wei. Small Weak Object Detection in High-Resolution Remote Sensing Images Based on Deep Neural Network[D]. Wuhan: China University of Geosciences, 2021. (in Chinese)
[38] 李雪森, 譚北海, 余榮, 等. 基于YOLOv5的輕量化無人機航拍小目標檢測算法[J]. 廣東工業(yè)大學學報, 2024, 41(3): 71-80.
Li Xuesen, Tan Beihai, Yu Rong, et al. Small Target Detection Algorithm for Lightweight UAV Aerial Photography Based on YOLOv5[J]. Journal of Guangdong University of Technology, 2024, 41(3): 71-80.(in Chinese)
[39] 王乾勝, 展勇忠, 鄒宇. 基于改進Yolov5n的無人機對地面軍事目標識別算法[J]. 計算機測量與控制, 2024, 32(6): 189-197.
Wang Qiansheng, Zhan Yongzhong, Zou Yu. Recognition Algorithm for UAV Ground Military Targets Based on Improved Yolov5n[J]. Computer Measurement amp; Control, 2024, 32(6): 189-197.(in Chinese)
[40] 牛為華, 魏雅麗. 基于改進YOLOv 7的航拍小目標檢測算法[J]. 電光與控制, 2024, 31(1): 117-122.
Niu Weihua, Wei Yali. Small Target Detection in Aerial Photography Images Based on Improved YOLOv7 Algorithm[J]. Electro-nics Optics amp; Control, 2024, 31(1): 117-122.(in Chinese)
[41] 沈?qū)W利, 王靈超. 基于YOLOv8n的無人機航拍目標檢測[J]. 計算機系統(tǒng)應用, 2024, 33(7): 139-148.
Shen Xueli, Wang Lingchao. UAV Aerial Photography Target Detection Based on YOLOv8n[J]. Computer Systems and Applications, 2024, 33(7): 139-148.(in Chinese)
[42] Liang Y H, Qin G H, Sun M H, et al. A Systematic Review of Image-Level Camouflaged Object Detection with Deep Learning[J]. Neurocomputing, 2024, 566: 127050.
[43] 孫備, 黨昭洋, 吳鵬, 等. 多尺度互交叉注意力改進的單無人機對地偽裝目標檢測定位方法[J]. 儀器儀表學報, 2023, 44(6): 54-65.
Sun Bei, Dang Zhaoyang, Wu Peng, et al. Multi Scale Cross Attention Improved Method of Single Unmanned Aerial Vehicle for Ground Camouflage Target Detection and Localization[J]. Chinese Journal of Scientific Instrument, 2023, 44(6): 54-65.(in Chinese)
[44] 賴杰, 彭銳暉, 孫殿星, 等. 融合注意力機制與多檢測層結(jié)構(gòu)的偽裝目標檢測[J]. 中國圖象圖形學報, 2024, 29(1): 134-146.
Lai Jie, Peng Ruihui, Sun Dianxing, et al. Detection of Camouflage Targets Based on Attention Mechanism and Multi-Detection Layer Structure[J]. Journal of Image and Graphics, 2024, 29(1): 134-146.(in Chinese)
[45] Zhang K H, Ren W Q, Luo W H, et al. Deep Image Deblurring: A Survey[J]. International Journal of Computer Vision, 2022, 130(9): 2103-2130.
[46] 蔡鍔, 鄧春華. 基于深度信念沙漏網(wǎng)絡的無人機運動模糊圖像的恢復[J]. 計算機應用與軟件, 2022, 39(5): 260-266.
Cai E, Deng Chunhua. Restoration of Motion-Blurred UAV Images Based on Deep Belief Hourglass Networkor[J]. Computer Applications and Software, 2022, 39(5): 260-266.(in Chinese)
[47] 王馨. 基于三維重建應用場景下的無人機圖像去模糊算法的研究[D]. 天津: 天津理工大學, 2023.
Wang Xin. Research on Image Deblurring Algorithm of UAV Based on 3d Reconstruction Application Scenario[D]. Tianjin: Tianjin University of Technology, 2023. (in Chinese)
[48] 張文政, 吳長悅, 趙文, 等. 融合對抗網(wǎng)絡和維納濾波的無人機圖像去模糊方法研究[J]. 無線電工程, 2024, 54(3): 607-614.
Zhang Wenzheng, Wu Changyue, Zhao Wen, et al. Research on UAV Image Deblurring Method Based on Adversarial Network and Wiener Filter[J]. Radio Engineering, 2024, 54(3): 607-614.(in Chinese)
[49] Mueller M, Smith N, Ghanem B. A Benchmark and Simulator for UAV Tracking[C]∥ European Conference on Computer Vision, 2016: 445-461.
[50] Du D W, Qi Y K, Yu H Y, et al. The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking[C]∥European Conference on Computer Vision," 2018: 375-391.
[51] Zhu P F, Wen L Y, Du D W, et al. Detection and Tracking Meet Drones Challenge[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(11): 7380-7399.
[52] Sun Y M, Cao B, Zhu P F, et al. Drone-Based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(10): 6700-6713.
[53] Liu M Z, Di X G. Extraordinary MHNet: Military High-Level Camouflage Object Detection Network and Dataset[J]. Neurocomputing, 2023, 549: 126466.
[54] Rim J, Kim G, Kim J, et al. Realistic Blur Synthesis for Learning Image Deblurring[C]∥European Conference on Computer Vision, 2022: 487-503.
[55] Tan M X, Pang R M, Le Q V. EfficientDet: Scalable and Efficient Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020.
[56] 呂璐, 程虎, 朱鴻泰, 等. 基于深度學習的目標檢測研究與應用綜述[J]. 電子與封裝, 2022, 22(1): 72-80.
Lü Lu, Cheng Hu, Zhu Hongtai, et al. Progress of Research and Application of Object Detection Based on Deep Learning[J]. Electronics amp; Packaging, 2022, 22(1): 72-80.(in Chinese)
[57] 謝富, 朱定局. 深度學習目標檢測方法綜述[J]. 計算機系統(tǒng)應用, 2022, 31(2): 1-12.
Xie Fu, Zhu Dingju. Survey on Deep Learning Object Detection[J]. Computer Systems and Applications, 2022, 31(2): 1-12.(in Chinese)
[58] 那振宇, 程留洋, 孫鴻晨, 等. 基于深度學習的無人機檢測和識別研究綜述[J]. 信號處理, 2024, 40(4): 609-624.
Na Zhenyu, Cheng Liuyang, Sun Hongchen, et al. Survey on UAV Detection and Identification Based on Deep Learning[J]. Journal of Signal Processing, 2024, 40(4): 609-624.(in Chinese)
[59] Viola P, Jones M. Rapid Object Detection Using a Boosted Cascade of Simple Features[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001.
[60] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition ," 2005.
[61] Zhu B Y, Lv Q B, Tan Z. Adaptive Multi-Scale Fusion Blind Deblurred Generative Adversarial Network Method for Sharpening Image Data[J]. Drones, 2023, 7(2): 96-119.
[62] Feng Y J, Yang Y, Fan X H, et al. A Multiscale Generalized Shrinkage Threshold Network for Image Blind Deblurring in Remote Sensing[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 3368760.
[63] Lin T Y, Dollar P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition , 2017.
[64] Ghiasi G, Lin T Y, Le Q V. NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2019.
[65] Liu S, Qi L, Qin H F, et al. Path Aggregation Network for Instance Segmentation[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.
[66] Sun W, Dai L, Zhang X R, et al. RSOD: Real-Time Small Object Detection Algorithm in UAV-Based Traffic Monitoring[J]. Applied Intelligence, 2022, 52(8): 8448-8463.
[67] Li Y H, Chen Y T, Wang N Y, et al. Scale-Aware Trident Networks for Object Detection[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[68] Liu Z M, Gao G Y, Sun L, et al. HRDNet: High-Resolution Detection Network for Small Objects[C]∥IEEE International Conference on Multimedia and Expo, 2021.
[69] Wang B Y, Ji R Y, Zhang L B, et al. Bridging Multi-Scale Context-Aware Representation for Object Detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(5): 2317-2329.
[70] Zhao Y, Zhao L J, Li C Y, et al. Pyramid Attention Dilated Network for Aircraft Detection in SAR Images[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(4): 662-666.
[71] Lim J S, Astrid M, Yoon H J, et al. Small Object Detection Using Context and Attention[C]∥International Conference on Artificial Intelligence in Information and Communication, 2021.
[72] Bell S, Zitnick C L, Bala K, et al. Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks[C]∥ IEEE Conference on Computer Vision and Pattern Recognition , 2016.
[73] Li J N, Wei Y C, Liang X D, et al. Attentive Contexts for Object Detection[J]. IEEE Transactions on Multimedia, 2017, 19(5): 944-954.
[74] Bai Y C, Zhang Y Q, Ding M L, et al. SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network[C]∥European Conference on Computer Vision, 2018: 210-226.
[75] Li J N, Liang X D, Wei Y C, et al. Perceptual Generative Adversarial Networks for Small Object Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition , 2017.
[76] Noh J, Bae W, Lee W, et al. Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution for Small Object Detection[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[77] 曹連雨. 基于深度卷積神經(jīng)網(wǎng)絡的遙感影像目標檢測技術(shù)研究及應用[D]. 北京: 北京科技大學, 2021.
Cao Lianyu. Research and Application on Object Detection of Remote Sensing Images Based on Deep Convolution Neural Network[D]. Beijing: University of Science and Technology Beijing, 2021. (in Chinese)
[78] Xie X X, Cheng G, Wang J B, et al. Oriented R-CNN for Object Detection[C]∥IEEE/CVF International Conference on Computer Vision, 2021.
[79] Ding J, Xue N, Long Y, et al. Learning RoI Transformer for Oriented Object Detection in Aerial Images[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019.
[80] Zheng Y B, Sun P, Zhou Z T, et al. ADT-Det: Adaptive Dynamic Refined Single-Stage Transformer Detector for Arbitrary-Oriented Object Detection in Satellite Optical Imagery[J]. Remote Sensing, 2021, 13(13): 2623.
[81] Han J M, Ding J, Li J, et al. Align Deep Features for Oriented Object Detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5602511.
[82] Yang X, Yan J C, Feng Z M, et al. R3Det: Refined Single-Stage Detector with Feature Refinement for Rotating Object[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(4): 3163-3171.
[83] Yang X, Yang J R, Yan J C, et al. SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects[C]∥IEEE/CVF International Conference on Computer Vision, 2019.
[84] Ming Q, Zhou Z Q, Miao L J, et al. Dynamic Anchor Learning for Arbitrary-Oriented Object Detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(3): 2355-2363.
[85] Hou L P, Lu K, Xue J, et al. Shape-Adaptive Selection and Measurement for Oriented Object Detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(1): 923-932.
[86] Li W T, Chen Y J, Hu K X, et al. Oriented RepPoints for Aerial Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2022.
[87] Xu Y C, Fu M T, Wang Q M, et al. Gliding Vertex on the Horizontal Bounding Box for Multi-Oriented Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(4): 1452-1459.
[88] Yang X, Yan J C. Arbitrary-Oriented Object Detection with Circular Smooth Label[C]∥European Conference on Computer Vision, 2020: 677-694.
[89]" Chen Z M, Chen K A, Lin W Y, et al. PIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments[C]∥European Conference on Computer Vision, 2020: 195-211.
[90] Yang X, Yan J C, Ming Q, et al. Rethinking Rotated Object Detection with Gaussian Wasserstein Distance Loss[C]∥ International Conference on Machine Learning, 2021: 11830-11841.
[91] Yang X, Yang X J, Yang J R, et al. Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence[J]. Advances in Neural Information Processing Systems, 2021, 34: 1-16.
[92] Zhu H F, Huang Y H, Xu Y, et al. Unmanned Aerial Vehicle (UAV) Object Detection Algorithm Based on Keypoints Representation and Rotated Distance-IoU Loss[J]. Journal of Real-Time Image Processing, 2024, 21(2): 58.
[93] Tankus A, Yeshurun Y. Convexity-Based Visual Camouflage Breaking[J]. Computer Vision and Image Understanding, 2001, 82(3): 208-237.
[94] Boot W R, Neider M B, Kramer A F. Training and Transfer of Training in the Search for Camouflaged Targets[J]. Attention, Perception amp; Psychophysics, 2009, 71(4): 950-963.
[95] Neider M B, Zelinsky G J. Searching for Camouflaged Targets: Effects of Target-Background Similarity on Visual Search[J]. Vision Research, 2006, 46(14): 2217-2235.
[96] Beiderman Y, Teicher M, Garcia J, et al. Optical Technique for Classification, Recognition and Identification of Obscured Objects[J]. Optics Communications, 2010, 283(21): 4274-4282.
[97] Liu Z, Huang K Q, Tan T N. Foreground Object Detection Using Top-Down Information Based on EM Framework[J]. IEEE Transactions on Image Processing, 2012, 21(9): 4204-4217.
[98] Le T N, Nguyen T V, Nie Z L, et al. Anabranch Network for Camouflaged Object Segmentation[J]. Computer Vision and Image Understanding, 2019, 184: 45-56.
[99] Fan D P, Ji G P, Sun G L, et al. Camouflaged Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2020.
[100] Sun Y J, Chen G, Zhou T, et al. Context-Aware Cross-Level Fusion Network for Camouflaged Object Detection[C]∥Thirtieth International Joint Conference on Artificial Intelligence, 2021: 1025-1031.
[101] Ren J J, Hu X W, Zhu L, et al. Deep Texture-Aware Features for Camouflaged Object Detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(3): 1157-1167.
[102] Zhai W, Cao Y, Xie H Y, et al. Deep Texton-Coherence Network for Camouflaged Object Detection[J]. IEEE Transactions on Multimedia, 2023, 25: 5155-5165.
[103] Yang F, Zhai Q, Li X, et al. Uncertainty-Guided Transformer Reasoning for Camouflaged Object Detection[C]∥ IEEE/CVF International Conference on Computer Vision, 2021.
[104] Zhang Z J, Wang T, Wang J, et al. Features Split and Aggregation Network for Camouflaged Object Detection[J]. Journal of Imaging, 2024, 10(1): 1-16.
[105] Ge Y L, Ren J C, Zhang Q, et al. Camouflaged Object Detection via Cross-Level Refinement and Interaction Network[J]. Image and Vision Computing, 2024, 144: 104973.
[106] Zhang Q, Sun X X, Chen Y R, et al. Attention-Induced Semantic and Boundary Interaction Network for Camouflaged Object Detection[J]. Computer Vision and Image Understanding, 2023, 233: 103719.
[107] Li A X, Zhang J, Lv Y Q, et al. Uncertainty-Aware Joint Salient Object and Camouflaged Object Detection[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2021.
[108] Lü Y Q, Zhang J, Dai Y C, et al. Simultaneously Localize, Segment and Rank the Camouflaged Objects[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition , 2021.
[109] Fan D P, Ji G P, Cheng M M, et al. Concealed Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(10): 6024-6042.
[110] Yan J N, Le T N, Nguyen K D, et al. MirrorNet: Bio-Inspired Camouflaged Object Segmentation[J]. IEEE Access, 2021, 9: 43290-43300.
[111] Tang L F, Yuan J T, Ma J Y. Image Fusion in the Loop of High-Level Vision Tasks: A Semantic-Aware Real-Time Infrared and Visible Image Fusion Network[J]. Information Fusion, 2022, 82: 28-42.
[112] Dong H, Gu W H, Zhang X J, et al. SuperFusion: Multilevel LiDAR-Camera Fusion for Long-Range HD Map Generation[C]∥IEEE International Conference on Robotics and Automation , 2024.
[113] Jiang X H, Cai W, Ding Y, et al. Camouflaged Object Detection Based on Ternary Cascade Perception[J]. Remote Sensing, 2023, 15(5): 1188.
[114] Xu B, Wang C Q, Liu Y, et al. An Anchor-Based Convolutional Network for the Near-Surface Camouflaged Personnel Detection of UAVs[J]. The Visual Computer, 2024, 40(3): 1659-1671.
[115] Song Z B, Zhang Z Y, Fang F Y, et al. Deep Semantic-Aware Remote Sensing Image Deblurring[J]. Signal Processing, 2023, 211: 109108.
[116] Li Z Y, Guo J Y, Zhang Y T, et al. Reference-Based Multi-Level Features Fusion Deblurring Network for Optical Remote Sensing Images[J]. Remote Sensing, 2022, 14(11): 2520.
[117] Mao Y X, Wan Z X, Dai Y C, et al. Deep Idempotent Network for Efficient Single Image Blind Deblurring[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(1): 172-185.
[118] Zhu B Y, Lv Q B, Yang Y B, et al. Blind Deblurring of Remote-Sensing Single Images Based on Feature Alignment[J]. Sensors, 2022, 22(20): 7894.
A Survey of UAV Visible-Light Object Detection
Based on Deep Learning
Liu Keshun, Zuo Xiaotong, Zhang Yuhua, Wang Changlong, Yang Sen*
(Shijiazhuang Campus of Army Engineering University of PLA, Shijiazhuang 050003, China)
Abstract: With the rapid development of artificial intelligence, visible-light object detection, as an important part of computer vision technology, has been widely used in the unmanned aerial vehicle (UAV) reconnaissance field. Using deep learning technology to deeply explore object features in complex battlefield environments and low-quality images can effectively solve the difficulties and challenges of visible-light object detection in UAV reconnaissance scenario, and further improve the accuracy of visible-light object detection. Therefore, a comprehensive survey is conducted on UAV visible-light object detection methods based on deep learning. First, various challenges of UAV visible-light object detection are introduced, such as small scale, arbitrary orientation, high camouflage, and motion blur. Second, main public datasets for visible-light object detection and image restoration are described. Then, combined with various challenges faced by UAV visible-light object detection, the application, advantages and disadvantages of deep learning methods in UAV visible-light object detection are summarized. Finally, the future possible research direction for UAV visible light object detection is discussed.
Key words:" UAV; complex battlefield environment; low-quality image; deep learning; visible-light object detection