石爭(zhēng)浩,仵晨偉,李成建,尤珍臻,王泉,馬城城
1.西安理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,西安 710048;2.西安翔騰微電子科技有限公司集成電路與微系統(tǒng)設(shè)計(jì)航空科技重點(diǎn)實(shí)驗(yàn)室,西安 710068
航空遙感圖像目標(biāo)檢測(cè)旨在給出航空遙感圖像中感興趣目標(biāo)的類別及位置,為進(jìn)一步的信息解譯推理提供證據(jù),是航空遙感圖像解譯的關(guān)鍵技術(shù),在情報(bào)偵察、目標(biāo)監(jiān)視和災(zāi)害救援等方面具有重要應(yīng)用(Amit 和Mohan,2021;江晗 等,2021;Olson和Anderson,2021;Zhang 等,2020b;Zhang 等,2020d)。
早期的遙感圖像目標(biāo)檢測(cè)任務(wù)主要依靠人工判讀完成,判讀結(jié)果受判讀員的經(jīng)驗(yàn)、精力等主觀因素影響較大,時(shí)效性低。隨著機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步和發(fā)展,相繼提出了各種各樣基于機(jī)器學(xué)習(xí)的遙感圖像目標(biāo)檢測(cè)技術(shù)(Boroughani 等,2020;Cooner 等,2016;Ghasemian 和Akhoondzadeh,2018)。傳統(tǒng)基于機(jī)器學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)一般是在生成滑動(dòng)窗口后,采用人工設(shè)計(jì)的模型如HOG(histogram of oriented gradient)(Dalal 和 Triggs,2005)、DPM(deformable parts model)(Felzenszwalb 等,2010)、LBP(local binary pattern)(Ojala 等,2002)、Haar(Viola 和Jones,2001)等提取遙感圖像的地物光譜、灰度值、紋理和形狀等特征信息,然后將提取的特征信息送入支持向量機(jī)(support vector machine,SVM)(Cortes 和Vapnik,1995)、AdaBoost(adaptive boosting)(Rodríguez和Maudes,2008)等分類器中實(shí)現(xiàn)對(duì)遙感圖像的目標(biāo)檢測(cè)(Inglada,2007;Zhou 等,2015),如圖1 所示。這類方法通常針對(duì)特定的目標(biāo)設(shè)計(jì)對(duì)應(yīng)的特征提取模型,可解釋性較強(qiáng),但特征表達(dá)能力弱,泛化性差,且計(jì)算耗時(shí)、精度低,較難滿足復(fù)雜多變應(yīng)用場(chǎng)景下準(zhǔn)確高效目標(biāo)檢測(cè)任務(wù)需求(Hussain 等,2013;Liu 等,2014)。
圖1 基于機(jī)器學(xué)習(xí)目標(biāo)檢測(cè)方法的基本流程Fig.1 Basic flow based on machine learning object detection methods
隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)等深度學(xué)習(xí)技術(shù)在自然圖像目標(biāo)檢測(cè)、分類和識(shí)別等領(lǐng)域的廣泛應(yīng)用,特別是在大規(guī)模自然場(chǎng)景圖像目標(biāo)檢測(cè)任務(wù)中的優(yōu)異表現(xiàn),深度學(xué)習(xí)在遙感圖像處理方面的應(yīng)用研究也受到人們的高度關(guān)注,成為近年來這一領(lǐng)域的研究熱點(diǎn)(Han 等,2022;Liu 等,2022e;Yi 等,2021;趙文清 等,2021)。Han 等人(2022)提出了S2ANet(single-shot alignment network)模型,模型主要包括特征對(duì)齊模塊(feature alignment module,F(xiàn)AM)和旋轉(zhuǎn)檢測(cè)模塊(oriented detection module,ODM),F(xiàn)AM 可以使用錨框優(yōu)化網(wǎng)絡(luò)生成高質(zhì)量的錨框,并根據(jù)新的對(duì)齊卷積自適應(yīng)地對(duì)齊卷積特征,而ODM 首先采用主動(dòng)旋轉(zhuǎn)濾波器對(duì)方向信息進(jìn)行編碼,然后產(chǎn)生方向敏感和方向不變的特征,以緩解分類分?jǐn)?shù)和定位精度之間的不一致性,多種模塊共同協(xié)作使得S2ANet模型在具有高檢測(cè)精度的同時(shí)又具有非常好的實(shí)時(shí)性。Liu 等人(2022e)提出了CATNet(context aggregation network)模型,分別在特征域、空間域和實(shí)例域聚合全局視覺上下文信息,以減輕背景的干擾,提升目標(biāo)檢測(cè)能力。而在無錨框模型方面,Yi 等人(2021)提出了框邊界感知向量概念,即模型首先會(huì)檢測(cè)目標(biāo)的中心關(guān)鍵點(diǎn),然后在此基礎(chǔ)上回歸框邊界感知向量以捕獲旋轉(zhuǎn)的目標(biāo)邊界框,實(shí)現(xiàn)對(duì)遙感目標(biāo)的精確檢測(cè),促進(jìn)了無錨框檢測(cè)模型在該領(lǐng)域的發(fā)展。也有很多學(xué)者從不同角度針對(duì)遙感圖像深度學(xué)習(xí)目標(biāo)檢測(cè)技術(shù)的研究進(jìn)展進(jìn)行了梳理和總結(jié),如Song等人(2021)針對(duì)海上單一種類艦船目標(biāo)的檢測(cè)方法進(jìn)行了總結(jié)分析;聶光濤和黃華(2021)和Li 等人(2020a)梳理了航空遙感圖像目標(biāo)檢測(cè)所要解決的問題,并介紹了一些較為典型的研究方法。廖育榮等人(2022)則針對(duì)航空遙感圖像中4 類常見特定場(chǎng)景的目標(biāo)檢測(cè)問題和研究方法進(jìn)行了綜述。付涵等人(2022)主要針對(duì)航空遙感圖像下的典型單目標(biāo)檢測(cè)和復(fù)雜目標(biāo)檢測(cè)應(yīng)用的研究進(jìn)展進(jìn)行了初步總結(jié)。Ghaffarian 等人(2021)梳理并探討了注意力機(jī)制對(duì)于基于深度學(xué)習(xí)的遙感圖像處理的影響。Kattenborn 等人(2021)探討了航空遙感圖像的目標(biāo)檢測(cè)技術(shù)對(duì)于植被格局的發(fā)展和影響。Shafique 等人(2022)則梳理和總結(jié)了基于深度學(xué)習(xí)的航空遙感圖像變化檢測(cè)方法,主要針對(duì)不同的變化檢測(cè)數(shù)據(jù)集的方案進(jìn)行了詳細(xì)的對(duì)比分析。
由上述文獻(xiàn)分析可見,目前針對(duì)遙感圖像深度學(xué)習(xí)目標(biāo)檢測(cè)技術(shù)整體研究現(xiàn)狀,特別是針對(duì)2020—2022 年研究進(jìn)展,進(jìn)行總結(jié)的綜述性文獻(xiàn)非常少。為了便于廣大學(xué)者全面了解和掌握基于深度學(xué)習(xí)的航空遙感圖像目標(biāo)檢測(cè)研究的最新進(jìn)展,在充分研讀最新綜述以及相關(guān)研究工作的基礎(chǔ)上,本文對(duì)航空遙感圖像深度學(xué)習(xí)目標(biāo)檢測(cè)算法,特別是近三年國(guó)內(nèi)外的研究方法,進(jìn)行了系統(tǒng)梳理和總結(jié)分析,以期為航空遙感圖像目標(biāo)檢測(cè)研究提供更好的參考。首先梳理了基于深度學(xué)習(xí)目標(biāo)檢測(cè)方法的研究發(fā)展演化歷程,然后對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)和基于Transformer 目標(biāo)檢測(cè)方法中的代表性算法進(jìn)行分析總結(jié),再后針對(duì)不同應(yīng)用場(chǎng)景的改進(jìn)思路進(jìn)行歸納,分析了典型方法的思路和特點(diǎn),介紹了公開的航空遙感圖像目標(biāo)檢測(cè)數(shù)據(jù)集,并對(duì)典型方法的性能通過實(shí)驗(yàn)進(jìn)行了比較;最后給出現(xiàn)階段航空遙感圖像目標(biāo)檢測(cè)研究中所存在的問題,并對(duì)未來的研究以及發(fā)展的趨勢(shì)進(jìn)行了展望。
深度學(xué)習(xí)因其強(qiáng)大的特征學(xué)習(xí)能力和泛化能力,已廣泛應(yīng)用于遙感圖像目標(biāo)檢測(cè)領(lǐng)域。圖2按時(shí)間順序給出了近年來基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法的研究發(fā)展演化歷程。根據(jù)所采用檢測(cè)策略的不同,現(xiàn)有遙感圖像深度學(xué)習(xí)目標(biāo)檢測(cè)方法大致可以分為基于卷積神經(jīng)網(wǎng)絡(luò)和基于Transformer 的目標(biāo)檢測(cè)方法。而在基于卷積神經(jīng)網(wǎng)絡(luò)的方法中,又可細(xì)分為基于回歸分析的單階段目標(biāo)檢測(cè)方法(Li等,2018c;Yu和Ji,2022)和基于候選區(qū)域的雙階段目標(biāo)檢測(cè)方法(Cheng等,2022;Zhang等,2020c)。由于自注意力機(jī)制在捕獲目標(biāo)特征的長(zhǎng)距離信息和全局建模方面的優(yōu)越性能,近兩年來基于Transformer(Vaswani 等,2017)的目標(biāo)檢測(cè)方法也蓬勃發(fā)展起來(Li,2022b;Zhu等,2021b)。
圖2 基于深度學(xué)習(xí)目標(biāo)檢測(cè)方法的研究發(fā)展演化歷程Fig.2 Evolution of research on object detection based on deep learning
1.1.1 基于回歸分析的單階段目標(biāo)檢測(cè)方法
基于回歸分析的單階段目標(biāo)檢測(cè)方法是一種端到端的目標(biāo)檢測(cè)算法,其直接采用一個(gè)網(wǎng)絡(luò)將目標(biāo)檢測(cè)問題轉(zhuǎn)化為回歸問題處理,如圖3 所示。比較典型的算法模型有YOLO(you only look once)和SSD(single shot multibox detector)。
圖3 基于回歸分析的單階段目標(biāo)檢測(cè)方法基本流程圖Fig.3 Basic flow of single-stage object detection method based on regression analysis
Redmon 等人(2016)首次提出的YOLOv1 算法將目標(biāo)檢測(cè)作為回歸問題處理,將圖像區(qū)域劃分為眾多網(wǎng)格,在這些小區(qū)域上直接對(duì)目標(biāo)的類別和邊界框進(jìn)行回歸,因?yàn)椴恍韬蜻x區(qū)域的生成,所以YOLO 算法檢測(cè)速度很快,但對(duì)于密集或小目標(biāo)檢測(cè)精度不盡理想。為此,Redmon 和Farhadi(2017)又提出改進(jìn)的YOLOv2,用卷積層替換YOLOv1中的全連接層,并借鑒Faster R-CNN 的錨框機(jī)制,在訓(xùn)練過程中引入多尺度的訓(xùn)練機(jī)制,提高了YOLO 算法對(duì)小目標(biāo)的檢測(cè)能力。為進(jìn)一步提高不同尺度目標(biāo)以及小目標(biāo)檢測(cè)性能,Redmon 和Farhadi(2018)對(duì)YOLOv2 進(jìn)行改進(jìn),提出了YOLOv3,通過多尺度特征融合和殘差結(jié)構(gòu)來提升目標(biāo)的檢測(cè)性能。Bochkovskiy 等人(2020)在YOLOv3 基礎(chǔ)上,引入空間注意力和Mish激活函數(shù),提出了YOLOv4。與YOLOv3相 比,YOLOv4 的mAP(mean average precision)和FPS(frames per second)在MS COCO(Microsoft common objects in context)數(shù)據(jù)集上分別提高了10%和12%。在YOLOv4 發(fā)布的一個(gè)月內(nèi),Jocher Glenn(2020)發(fā)布了YOLOv5 模型,實(shí)現(xiàn)了最先進(jìn)的性能和最快的FPS。YOLOv5 首次提出YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x 不同等級(jí)的模型,這一系列目標(biāo)檢測(cè)架構(gòu)和模型均是在COCO 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的,代表了Ultralytics 對(duì)未來視覺 AI(artificial intelligence)方法的開源研究。
2021 年,Chen 等人(2021)提出了YOLOF(you only look one-level feature)模型,YOLOF 對(duì)特征金字塔結(jié)構(gòu)(feature pyramid network,F(xiàn)PN)重新思考,不采用復(fù)雜的特征金字塔,僅使用一級(jí)特征進(jìn)行檢測(cè),在實(shí)現(xiàn)提升速度的同時(shí)保持較高的精度。Wang 等人(2021a)提出了YOLOR(you only learn one representation)模型,模型使用統(tǒng)一網(wǎng)絡(luò)生成統(tǒng)一的表示,即結(jié)合顯性知識(shí)和隱性知識(shí)并同時(shí)為各種任務(wù)提供服務(wù)。Fang 等人(2021)提出了YOLOS(you only look at one sequence)模型,模型通過Transformer 以最少的空間結(jié)構(gòu)從純粹的序列到序列的角度進(jìn)行目標(biāo)檢測(cè)。Ge等人(2021)提出YOLOX模型,YOLOX完全放棄了框錨的構(gòu)造,并且將檢測(cè)頭解耦為單獨(dú)的特征通道,即將框坐標(biāo)回歸與類別的分類分開單獨(dú)解耦,最終實(shí)現(xiàn)模型的收斂速度和精度大幅度提高。
2022 年,Xu 等人(2022b)提出PP-YOLOE 模型,采用了新的CSP-RepVGG(cross stage partial-reparameterization Visual Geometry Group)形式的變種殘差神經(jīng)網(wǎng)絡(luò),解耦頭使用Anchor Free 形式,標(biāo)簽分配策略采用了TAL(task alignment learning)分配標(biāo)簽的做法,大幅度提高訓(xùn)練的速度和精度。Li 等人(2022a)于同年6 月推出了YOLOv6 框架,主要致力于工業(yè)應(yīng)用;YOLOv6 基 于RepVGG(Ding 等,2021)設(shè)計(jì)了可重參數(shù)化、更高效的骨干網(wǎng)絡(luò)EfficientRep Backbone 和Rep-PAN Neck,優(yōu)化并設(shè)計(jì)了更簡(jiǎn)潔有效的efficient decoupled head,在維持精度的同時(shí),進(jìn)一步降低了一般解耦頭帶來的額外延時(shí)開銷,在訓(xùn)練策略上,采用Anchor-Free 無錨范式,同時(shí)輔以SimOTA(simplified optimal transport assignment)(Ge 等,2021)標(biāo)簽分配策略以及SIoU
(SCYLLA-intersection over union)(Gevorgyan,2022)邊界框回歸損失來進(jìn)一步提高檢測(cè)精度。同年9 月再次發(fā)布了新版本YOLOv6,對(duì)輕量級(jí)網(wǎng)絡(luò)進(jìn)行全面升級(jí),YOLOv6-S達(dá)到了869 幀/s,同時(shí)還推出綜合性能優(yōu)異的中大型網(wǎng)絡(luò)(YOLOv6-M/L),極大地豐富了YOLOv6 網(wǎng)絡(luò)系列。同年7 月,Wang 等人(2022a)推出YOLOv7,在YOLOv7 中對(duì)模型結(jié)構(gòu)重參數(shù)化,用梯度傳播路徑的概念分析了適用于不同網(wǎng)絡(luò)中各層結(jié)構(gòu)重參數(shù)化策略,提出規(guī)劃的模型結(jié)構(gòu)重參數(shù)化;同時(shí)提出一種新的coarse-to-fine 引導(dǎo)標(biāo)簽分配策略,為不同分支更好地輸出分配動(dòng)態(tài)目標(biāo),提升了精度與速度。
Liu 等人(2016)則基于全卷積網(wǎng)絡(luò),在YOLO 方法的基礎(chǔ)上,去掉了全連接層,增加了多層不同尺寸大小的特征圖,從新增加的特征圖上進(jìn)行多尺度目標(biāo)檢測(cè),同時(shí)引入Anchor 機(jī)制進(jìn)行目標(biāo)檢測(cè),提出SSD 檢測(cè)器。該方法的創(chuàng)新之處在于對(duì)小目標(biāo)在大尺度特征圖進(jìn)行檢測(cè),對(duì)于大目標(biāo)則使用小尺度特征圖來檢測(cè)。SSD 取得了比Faster R-CNN 更快的檢測(cè)速度,比YOLO 更優(yōu)的檢測(cè)精度。但是SSD 單獨(dú)對(duì)多層特征圖分別做檢測(cè),忽略了特征圖之間的關(guān)聯(lián),也未考慮正負(fù)樣本篩選不均衡問題。為此,Lin等人(2017)對(duì)SSD進(jìn)行改進(jìn),提出RetinaNet,采用跨層連接的方式將多層特征圖連接,增強(qiáng)了特征圖的表達(dá)能力,通過focal loss 損失函數(shù)對(duì)易分類負(fù)樣本梯度進(jìn)行抑制,保證模型訓(xùn)練過程中更多關(guān)注目標(biāo)預(yù)測(cè)的損失。Zhou 等人(2019)則提出CenterNet 模型,通過預(yù)測(cè)檢測(cè)框的中心點(diǎn)、寬和高實(shí)現(xiàn)目標(biāo)檢測(cè)。
基于回歸分析的目標(biāo)檢測(cè)方法的優(yōu)點(diǎn)是不需要計(jì)算候選框區(qū)域,直接對(duì)輸入圖像回歸,檢測(cè)目標(biāo)的類別概率和位置坐標(biāo),大幅度提升了目標(biāo)檢測(cè)的速度,但缺點(diǎn)是犧牲了目標(biāo)定位檢測(cè)的精度。
1.1.2 基于候選區(qū)域提取的雙階段目標(biāo)檢測(cè)方法
基于候選區(qū)域提取的目標(biāo)檢測(cè)方法將問題的求解劃分為兩個(gè)階段(如圖4 所示):首先對(duì)樣本圖像處理,產(chǎn)生候選區(qū)域,然后使用卷積神經(jīng)網(wǎng)絡(luò)在候選區(qū)域中提取特征,最后對(duì)這些候選區(qū)域的目標(biāo)進(jìn)行分類。基于區(qū)域提取的目標(biāo)檢測(cè)方法的代表性算法為Girshick 等人(2014)提出的R-CNN(regionconvolutional neural network),其主要思路如下:首先通過選擇性搜索算法生成若干個(gè)包含興趣目標(biāo)的候選區(qū)域,然后對(duì)每個(gè)候選區(qū)域進(jìn)行尺度歸一化并利用卷積神經(jīng)網(wǎng)絡(luò)提取特征向量,最后基于所提取訓(xùn)練支持向量機(jī)進(jìn)行分類(Hou 等,2020)。R-CNN 首次將卷積神經(jīng)網(wǎng)絡(luò)引入到目標(biāo)檢測(cè)識(shí)別領(lǐng)域,提升了目標(biāo)檢測(cè)識(shí)別的效果,為目標(biāo)檢測(cè)識(shí)別領(lǐng)域開辟了新道路,是基于候選區(qū)域的目標(biāo)檢測(cè)算法系列的開山之作。但是R-CNN 的整個(gè)檢測(cè)過程仍然是一個(gè)多步驟、多階段的過程,在訓(xùn)練過程中需要不斷保存裁剪后的候選目標(biāo)區(qū)域切片。針對(duì)上述問題,Girshick(2015)提出Fast R-CNN,在R-CNN 中,引入目標(biāo)區(qū)域池化層(RoI(region of interest)pooling),并且將R-CNN 中的SVM 分類器替換為softmax 層,同時(shí)對(duì)目標(biāo)的分類與包圍框回歸的過程進(jìn)行訓(xùn)練,通過卷積共享,為每一個(gè)候選目標(biāo)區(qū)域分別輸入深度卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征,不僅節(jié)省了存儲(chǔ)空間,也大幅度加快了檢測(cè)速度。但是由于候選區(qū)域的提取采用的是選擇性搜索,建議候選區(qū)域依然存在較多信息冗余,F(xiàn)ast R-CNN 的檢測(cè)速度仍然不夠快。為了進(jìn)一步提高檢測(cè)速度和精度,Ren 等人(2015)采用自適應(yīng)學(xué)習(xí)的機(jī)制來提取候選區(qū)域,設(shè)計(jì)了區(qū)域預(yù)測(cè)網(wǎng)絡(luò)(region proposal network,RPN),提出Faster R-CNN。Faster R-CNN 的提出奠定了雙階段目標(biāo)檢測(cè)方法的基礎(chǔ),但是需要對(duì)每一個(gè)候選目標(biāo)區(qū)域提取全連接特征并進(jìn)行分類和位置回歸,這樣不僅重復(fù)計(jì)算,限制了檢測(cè)速度,而且全連接特征破壞了目標(biāo)的空間位置信息,不利于目標(biāo)的分類和回歸。針對(duì)上述不足,He 等人(2017)在目標(biāo)檢測(cè)的基礎(chǔ)上將不同的實(shí)體進(jìn)行分割,提出Mask R-CNN模型。區(qū)別于Faster R-CNN,Mask R-CNN 模型用RoI Align(region of interest align)替換RoI Pooling,實(shí)現(xiàn)了更精確的檢測(cè)分割結(jié)果。Cai 和Vasconcelos(2018)提出Cascade RCNN 模型,模型提出級(jí)聯(lián)多個(gè)檢測(cè)頭,每個(gè)檢測(cè)頭的交并比(intersection over union,IoU)閾值呈現(xiàn)遞增的情況。低級(jí)檢測(cè)頭采用低閾值提高召回率,避免目標(biāo)丟失;后續(xù)的檢測(cè)頭在前一階段的基礎(chǔ)上提高閾值來提高檢測(cè)精度。
圖4 基于候選區(qū)域提取的雙階段目標(biāo)檢測(cè)方法基本流程圖Fig.4 Basic flow of two-stage object detection method based on candidate region extraction
目前,基于Transformer 的目標(biāo)檢測(cè)方法的主流做法是將檢測(cè)任務(wù)作為集合預(yù)測(cè)任務(wù),是一種端到端的檢測(cè)算法,如圖5 所示。DETR(detection Transformer)(Carion 等,2020)開創(chuàng)性地將Transformer 引入目標(biāo)檢測(cè)領(lǐng)域,實(shí)現(xiàn)了CNN 與Transformer 的有機(jī)結(jié)合并且不需要任何的后處理階段。具體來說,DETR 通過CNN 模塊從圖像中提取特征并使用Transformer 的encoder-decoder 模塊直接產(chǎn)生一系列的預(yù)測(cè)目標(biāo)框,接著使用二分圖匹配來消除冗余框和后續(xù)操作,實(shí)現(xiàn)目標(biāo)的最優(yōu)匹配。作為vision Transformer在目標(biāo)檢測(cè)領(lǐng)域的奠基之作,DETR在模型的收斂速度、訓(xùn)練階段的資源消耗方面仍存在短板,并且在小目標(biāo)性能表現(xiàn)欠佳。為此,Zhu 等人(2021b)根據(jù)deformable convolution(Dai 等,2017)的思想,提出可變形的注意力模塊并將其與DETR 中的多頭注意力模塊進(jìn)行替換,使得注意力模塊只注意到參考點(diǎn)周圍的少量樣本點(diǎn),大大減少計(jì)算量并提升收斂速度;并且進(jìn)一步將模型擴(kuò)展到多尺度特征檢測(cè),提升了模型在不同尺度目標(biāo)上的檢測(cè)性能。為了減少DETR 中自注意力模塊的計(jì)算量,研究人員做了大量的努力,如efficient DETR(Yao 等,2021)通過賦予Object query 和參考點(diǎn)更好的初始化權(quán)值,在精度變化可接受的情況下使得解碼器的層數(shù)大幅降低,大大減少了計(jì)算量;PnP DETR(Wang 等,2021c)提出了poll-and-pool 采樣模塊,實(shí)現(xiàn)了對(duì)目標(biāo)特征的細(xì)粒度采樣以及粗粒度背景信息的聚合,在此模塊的輸出特征集合上進(jìn)行注意力計(jì)算,大大減少了特征圖的空間冗余信息和計(jì)算量;而sparse DETR(Roh 等,2022)則提出了稀疏化編碼器Token和DAM(decoder cross-attention map)模塊,即在DAM的監(jiān)督下從CNN 模塊出來的特征圖中選擇顯著性特征,進(jìn)而只計(jì)算被選擇的特征之間的自注意力,從而減少計(jì)算量。此外,Zheng 等人(2021a)發(fā)現(xiàn)空間上接近并且語(yǔ)義結(jié)構(gòu)上相似的位置具有相似的注意力特征,因此使用局部敏感哈希自適應(yīng)地對(duì)查詢特征進(jìn)行聚類,在計(jì)算成本和準(zhǔn)確率之間實(shí)現(xiàn)良好的平衡。Dai 等人(2021)將無監(jiān)督策略引入Transformer,設(shè)計(jì)無監(jiān)督預(yù)訓(xùn)練模型UP-DETR(unsupervised pre-training DETR),幫助監(jiān)督訓(xùn)練快速收斂并實(shí)現(xiàn)更高的精度。
圖5 基于Transformer目標(biāo)檢測(cè)方法流程圖(Carion等,2020)Fig.5 Flow chart of Transformer based object detection method(Carion et al.,2020)
2022 年,針對(duì)匈牙利算法匹配的離散性和模型訓(xùn)練的隨機(jī)性,Li等人(2022b)首次提出全新的去噪訓(xùn)練來解決DETR 中解碼器部分二分圖匹配不穩(wěn)定的問題,加快了模型收斂并顯著提升檢測(cè)性能。Zhang 等人(2022a)設(shè)計(jì)改進(jìn)的去噪訓(xùn)練模型DINO(DETR with improved denoising anchor boxes),通過引入擾動(dòng)組的對(duì)比損失,使模型避免相同目標(biāo)重復(fù)輸出;進(jìn)一步引入混合查詢初始化和前饋二次方案,實(shí)現(xiàn)COCO數(shù)據(jù)集的SOTA(state of the art)性能。
總體而言,在基于卷積神經(jīng)網(wǎng)絡(luò)的方法中,基于候選區(qū)域的方法有較高的檢測(cè)精度和較低的漏檢率,但是需要進(jìn)行多重檢測(cè)和分類,檢測(cè)速度較慢;基于回歸的方法可以直接得到檢測(cè)框,檢測(cè)速度快,可以實(shí)現(xiàn)實(shí)時(shí)檢測(cè),但檢測(cè)精度低,漏檢率較高。而基于Transformer 的方法具有優(yōu)異的檢測(cè)精度,但是消耗資源較大,且收斂速度欠佳。
因此,現(xiàn)階段幾乎所有的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法都是基于上述典型方法模型進(jìn)行改進(jìn)和擴(kuò)展而來,這些模型的發(fā)展變化也反映出當(dāng)下目標(biāo)檢測(cè)整體的發(fā)展趨勢(shì)。盡管這些典型方法在自然圖像上取得了不錯(cuò)的效果,卻無法直接應(yīng)用在遙感領(lǐng)域。遙感圖像和常規(guī)自然圖像相比有其獨(dú)有的特點(diǎn),需要針對(duì)性進(jìn)行算法的改進(jìn),下文將具體闡述針對(duì)遙感領(lǐng)域的目標(biāo)檢測(cè)算法改進(jìn)。
目前航空遙感圖像目標(biāo)檢測(cè)面臨問題主要有遙感圖像尺寸大、分辨率高、背景復(fù)雜、圖像中目標(biāo)密集、目標(biāo)方向多樣、目標(biāo)尺度差異大以及圖像中存在眾多小目標(biāo)等。針對(duì)上述問題,本節(jié)系統(tǒng)梳理了深度學(xué)習(xí)方法在這些典型遙感圖像場(chǎng)景目標(biāo)檢測(cè)中的應(yīng)用研究進(jìn)展。
表1 給出了不同針對(duì)大尺寸航空遙感圖像目標(biāo)檢測(cè)的深度學(xué)習(xí)方法。由于遙感圖像中的目標(biāo)尺寸差別較大,尤其僅幾十或幾百像素的小目標(biāo)很難被學(xué)習(xí)到豐富的特征表達(dá)。為了確保較小目標(biāo)細(xì)節(jié)信息的完整性,針對(duì)大尺寸遙感圖像目標(biāo)檢測(cè),目前最常用的方法是在進(jìn)行數(shù)據(jù)預(yù)處理的時(shí)候?qū)D像進(jìn)行分塊分割處理(He 等,2018;Li 等,2019;Song 等,2021;Yan 等,2018),即將超大圖像分割成常規(guī)圖像尺寸后依次送入目標(biāo)檢測(cè)深度神經(jīng)網(wǎng)絡(luò)算法進(jìn)行檢測(cè)識(shí)別,最后在后續(xù)處理過程中將所有的檢測(cè)結(jié)果進(jìn)行拼接復(fù)位,以此完成全圖的檢測(cè)。
表1 針對(duì)大尺寸航空遙感圖像目標(biāo)檢測(cè)方法Table 1 Object detection method for large-scale aerial remote sensing images
雖然圖像分割分塊的方法很大程度上緩解了目標(biāo)檢測(cè)過程中所帶來的計(jì)算量過大以及內(nèi)存空間壓力的問題,然而該方法在切割圖像的過程中會(huì)將一些待檢測(cè)目標(biāo)從中截?cái)?,使得待檢測(cè)目標(biāo)的完整性被破壞,影響目標(biāo)的檢測(cè)效果。為此,Wang 等人(2019)使用一定的重疊區(qū)域?qū)υ嫉暮娇者b感圖像進(jìn)行切割。該方法緩解了將目標(biāo)截?cái)嗟母怕?,提升了目?biāo)的檢測(cè)精度,但也導(dǎo)致切割圖像數(shù)量上升,使得檢測(cè)時(shí)間大幅度增加。Xia 等人(2018)探討了航空遙感圖像的不同的切割重疊區(qū)域?qū)z測(cè)精度的影響。以YOLOv2 為基礎(chǔ),Van Etten(2018)提出YOLT(you only look twice)模型,該模型是在對(duì)大尺度航空遙感圖像進(jìn)行裁剪至常規(guī)尺寸大小的基礎(chǔ)上修改了YOLOv2 網(wǎng)絡(luò)結(jié)構(gòu),使得從輸入圖像到最后特征的下采樣率變?yōu)檎DP偷?/2,因此提升了目標(biāo)檢測(cè)精度。
大場(chǎng)景航空遙感圖像中往往包含多種地物,目標(biāo)易受各種相似地物顏色、紋理和形狀等特征的干擾。而上下文信息通常被理解為圖像中可察覺并影響目標(biāo)檢測(cè)結(jié)果的有效信息,因此通過提取圖像中目標(biāo)的上下文信息,解讀圖像局部與全局的視覺信息,可以從大量圖像信息中為當(dāng)前目標(biāo)檢測(cè)任務(wù)選擇較為相關(guān)的關(guān)鍵信息,增強(qiáng)模型對(duì)目標(biāo)的識(shí)別能力。目前提取圖像中上下文信息最簡(jiǎn)單的方法就是增大卷積核的感受野,大的感受野能夠?qū)Ω蠓秶哪繕?biāo)及其上下文進(jìn)行特征描述(Ding等,2022),進(jìn)而提升檢測(cè)性能。Zheng 等人(2020)開發(fā)了多感受野卷積分組表征聚合模塊,以擴(kuò)大感受野來充分捕獲目標(biāo)的自身特征以及與周圍環(huán)境的語(yǔ)義關(guān)系,提升對(duì)單一目標(biāo)海上艦船的檢測(cè)性能。針對(duì)沒有固定的形狀和大小的復(fù)合目標(biāo),Sun 等人(2021)提出了PBNet(part-based convolutional neural network)模型,專門用于遙感圖像中的機(jī)場(chǎng)等復(fù)合目標(biāo)檢測(cè)。PBNet 將復(fù)合目標(biāo)視為一組部件,通過聚合局部上下文信息和全局上下文信息,生成更具區(qū)分性的特征,增強(qiáng)了部件信息的學(xué)習(xí),提高整體復(fù)合目標(biāo)特征表示的能力。為了提取有助于區(qū)分物體的關(guān)鍵上下文信息,Zhang 等人(2020a)提出了上下文雙向增強(qiáng)(contextual bidirectional enhancement,CBD-E)方法,CBD-E在兩個(gè)方向上依次集成了不同背景區(qū)域的特征,其中的門函數(shù)提供了一種在背景中選擇有意義信息的方法,而基于空間組的視覺注意機(jī)制增強(qiáng)了門函數(shù)的信息控制能力,二者相輔相成來刪除意外的背景信息并增強(qiáng)對(duì)象的特征。針對(duì)上下文信息特征的細(xì)化工作,Wang 等人(2022d)設(shè)計(jì)了一個(gè)上下文信息細(xì)化模塊來提取鑒別上下文特征,模塊使用擴(kuò)展卷積和密集連接以不同的感受野捕獲豐富的上下文信息,然后使用二進(jìn)制映射作為監(jiān)督標(biāo)簽來細(xì)化上下文信息,提升了目標(biāo)特征的魯棒性。針對(duì)上下文信息利用率低的問題,Zhang 等人(2022b)提出一種分層上下文嵌入網(wǎng)絡(luò),模型構(gòu)建了一個(gè)語(yǔ)義特征金字塔,其中的語(yǔ)義上下文聚合模塊通過新的特征融合機(jī)制將相鄰特征層中包含的語(yǔ)義上下文信息集成在一起,場(chǎng)景級(jí)上下文嵌入模塊則通過簡(jiǎn)單的設(shè)計(jì)提取整體圖像的場(chǎng)景上下文用于指導(dǎo)特征分類,大大提高了信息利用效率。此外,Dong 等人(2022)設(shè)計(jì)了一種新型的多尺度可變形注意模塊,用于聚合FPN的多級(jí)輸出和整個(gè)圖像的全局上下文信息,使網(wǎng)絡(luò)在突出目標(biāo)特征的同時(shí)抑制背景特征。Zhang等人(2022c)在Transformer檢測(cè)器上添加卷積分支網(wǎng)絡(luò)增強(qiáng)并聚集區(qū)域范圍的特征信息,同時(shí)結(jié)合生成對(duì)抗網(wǎng)絡(luò)擴(kuò)展主干之前的輸入航空?qǐng)D像,實(shí)現(xiàn)對(duì)目標(biāo)原始特征擴(kuò)充,增強(qiáng)了對(duì)目標(biāo)特征的提取能力。
人眼在觀察圖像時(shí),可以快速獲得目標(biāo)區(qū)域,聚焦于該區(qū)域以獲取更多有效細(xì)節(jié),同時(shí)忽略其他無用信息。借鑒這種視覺注意機(jī)制,近年來很多研究在卷積神經(jīng)網(wǎng)絡(luò)中引入注意力模塊,對(duì)圖像中的目標(biāo)進(jìn)行特征建模。在常規(guī)自然圖像中,經(jīng)典的注意力機(jī)制主要有以下幾種:空間注意力(Jaderberg 等,2015)、通道注意力(Hu 等,2018)、通道與空間的混合域注意力(Woo 等,2018)以及位置像素注意力(Wang 等,2018),還有諸多基于經(jīng)典注意力進(jìn)行改進(jìn)的注意力機(jī)制(Fu 等,2019;Liu 等,2022c;Qin 等,2021)。在航空遙感圖像處理過程中,Hua 等人(2020)引入了一個(gè)自我注意模塊來提取注意特征圖,通過結(jié)合卷積的長(zhǎng)期和短期記憶網(wǎng)絡(luò)來優(yōu)化注意特征圖,進(jìn)而引導(dǎo)場(chǎng)景中目標(biāo)潛在子區(qū)域的獲取并增強(qiáng)網(wǎng)絡(luò)提取特征的能力,提升了復(fù)雜背景下目標(biāo)的識(shí)別能力。針對(duì)空間注意力的應(yīng)用效率,Li 等人(2020c)提出RADet(rotation detector)模型,RADet中設(shè)計(jì)了一個(gè)多層注意力網(wǎng)絡(luò),通過建模全局像素之間的空間位置相關(guān)性并突出對(duì)象特征,使其能夠從復(fù)雜的背景中準(zhǔn)確地檢測(cè)出感興趣的實(shí)體目標(biāo),極大提升了檢測(cè)精度。針對(duì)通道注意力的改進(jìn)工作,Ran 等人(2021)提出了多尺度上下文和增強(qiáng)通道注意(multiscale context and enhanced channel attention,MSCCA)模型,MSCCA 增強(qiáng)了特征圖像通道的關(guān)注度,以提高卷積神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜背景下目標(biāo)特征的表征能力。此外,Liu 等人(2022b)提出了中心邊界雙注意網(wǎng)絡(luò)(center-boundary dual attention network,CBDANet),在模型中,中心邊界雙注意模塊利用雙重注意機(jī)制來提取物體中心和邊界區(qū)域的注意特征,可以學(xué)習(xí)旋轉(zhuǎn)物體的更多基本特征,并減少?gòu)?fù)雜背景的干擾,有效地提高旋轉(zhuǎn)目標(biāo)的檢測(cè)精度。
由以上所述可見,對(duì)超大尺寸、高分辨率的航空遙感圖像進(jìn)行目標(biāo)檢測(cè)時(shí),對(duì)圖像進(jìn)行分塊處理并對(duì)重點(diǎn)信息提取的方式已成為現(xiàn)階段的常規(guī)流程,這種方式極大地降低了待測(cè)目標(biāo)的漏檢率并提高了檢測(cè)的精度。同時(shí),針對(duì)大尺度圖像下的復(fù)雜背景干擾問題,利用圖像中的上下文信息以及注意力機(jī)制也得到極大的改善。但針對(duì)大尺度航空遙感圖像下的檢測(cè)速度問題還有很大的改進(jìn)空間,以及對(duì)霧霾、夜間低光照等復(fù)雜背景噪聲的干擾處理仍然是目前的主要挑戰(zhàn)。
航空遙感圖像均為俯視圖像,因此圖像中的待檢測(cè)目標(biāo)會(huì)呈現(xiàn)多方向性。與此同時(shí),待檢測(cè)目標(biāo)的長(zhǎng)寬比范圍比自然圖像中的目標(biāo)更具有多樣性,并且目標(biāo)之間的干擾會(huì)更加嚴(yán)重,影響最終目標(biāo)的定位與分類的準(zhǔn)確性。表2 給出了不同針對(duì)多方向多目標(biāo)復(fù)雜場(chǎng)景遙感圖像目標(biāo)檢測(cè)的深度學(xué)習(xí)方法,其方法思路主要有3 種:進(jìn)行旋轉(zhuǎn)增強(qiáng)、設(shè)計(jì)旋轉(zhuǎn)不變性模塊以及設(shè)計(jì)精確位置回歸方法。
表2 針對(duì)多方向多目標(biāo)復(fù)雜遙感圖像目標(biāo)檢測(cè)方法Table 2 Object detection methods for complex remote sensing images in multiple directions and multiple targets
針對(duì)旋轉(zhuǎn)增強(qiáng)的處理,其中最簡(jiǎn)單的方式是對(duì)原始的圖像數(shù)據(jù)進(jìn)行任意角度的旋轉(zhuǎn)擴(kuò)充,使得所設(shè)計(jì)的模型能夠在對(duì)大量數(shù)據(jù)的學(xué)習(xí)過程中,提高對(duì)待檢測(cè)目標(biāo)方向多樣性的適應(yīng)能力。He 等人(2018)、Li 等人(2018a)、Van Etten(2018)和Yang 等人(2018)均在實(shí)現(xiàn)目標(biāo)檢測(cè)算法過程中默認(rèn)使用了圖像旋轉(zhuǎn)增強(qiáng)操作。對(duì)圖像進(jìn)行旋轉(zhuǎn)增強(qiáng)雖然在一定程度上對(duì)神經(jīng)網(wǎng)絡(luò)識(shí)別多方向目標(biāo)有一定的作用,但是并不能從根本上解決網(wǎng)絡(luò)的旋轉(zhuǎn)敏感性以及泛化性能差的問題。因此,設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)中的旋轉(zhuǎn)不變性模塊被研究人員提上日程。在自然圖像中,Dai 等人(2017)和Zhu 等人(2019)提出的DCN(deformable convolutional network)系列卷積明確建模了網(wǎng)絡(luò)內(nèi)的旋轉(zhuǎn)特性,為提取方向不變性特征做出巨大貢獻(xiàn)。在航空遙感圖像中,Han 等人(2021)提出ReDet(rotation-equivariant detector)模型,ReDet對(duì)旋轉(zhuǎn)等變性和旋轉(zhuǎn)不變性進(jìn)行了顯式編碼,同時(shí)提出了旋轉(zhuǎn)不變RoI對(duì)齊,即可以根據(jù)RoI的方向自適應(yīng)地從等變特征中提取旋轉(zhuǎn)不變特征,因此大幅度提高了航空遙感圖像多方向目標(biāo)的檢測(cè)精度。
而針對(duì)目標(biāo)呈現(xiàn)密集分布的狀態(tài)特別是多方向目標(biāo)緊密排列的情形下,如果使用水平檢測(cè)框來識(shí)別待檢測(cè)目標(biāo),就會(huì)導(dǎo)致在識(shí)別到待測(cè)目標(biāo)時(shí)的整個(gè)目標(biāo)區(qū)域存在大量背景或其他待測(cè)目標(biāo)的干擾,最后導(dǎo)致檢測(cè)框回歸位置不準(zhǔn)確;并且在后續(xù)的處理過程中,也會(huì)存在水平檢測(cè)框重疊區(qū)域過高導(dǎo)致部分檢測(cè)框被刪除的可能性,最后導(dǎo)致待檢測(cè)目標(biāo)的漏檢以及錯(cuò)檢?;谏鲜鲈?,航空遙感圖像信息解譯領(lǐng)域開始研究設(shè)計(jì)更精確位置回歸的方法。其中一個(gè)研究方向是研究旋轉(zhuǎn)檢測(cè)框(Cheng 等,2016;Ding 等,2019;Liu 等,2017a;Yang 等,2019b),以此來更好地滿足旋轉(zhuǎn)目標(biāo)緊密排列情形下的目標(biāo)精確定位任務(wù)。為了得到符合目標(biāo)尺度的錨框,Dong 等人(2020)通過統(tǒng)計(jì)數(shù)據(jù)集中待檢測(cè)目標(biāo)的尺度,得到合適的檢測(cè)尺度,然后直接在特征圖上鋪設(shè)符合相應(yīng)尺度的旋轉(zhuǎn)錨框來加快收斂,進(jìn)而提高檢測(cè)精度。為了在高精度檢測(cè)的同時(shí)兼顧效率,Xie等人(2021)提出了雙階段的Oriented R-CNN 網(wǎng)絡(luò),模型在Oriented RPN 階段配合水平錨框以低計(jì)算成本生成高質(zhì)量的旋轉(zhuǎn)框,大幅度節(jié)省了檢測(cè)時(shí)間,提升了效率。更進(jìn)一步,Yang 等人(2021b)提出了R3Det(refined rotation RetinaNet)模型,該模型是一種端到端的細(xì)化單階段的旋轉(zhuǎn)檢測(cè)器,通過使用從粗粒度到細(xì)粒度的逐步回歸方法來快速準(zhǔn)確地檢測(cè)目標(biāo)。除了旋轉(zhuǎn)檢測(cè)框之外,另一個(gè)研究方向則是完全拋棄錨框,使用基于可學(xué)習(xí)的任意錨點(diǎn)形式來精確目標(biāo)的定位(Yi 等,2021)。Zhang 等人(2020c)基于CenterNet 檢測(cè)器(Zhang 等,2019)的輸出部分執(zhí)行調(diào)用優(yōu)先級(jí)分支函數(shù),以精確預(yù)測(cè)邊界框的中心點(diǎn),最后基于優(yōu)先級(jí)的選擇來確定最后的目標(biāo)框。Dai等人(2022b)提出了一種新穎有效的模型來檢測(cè)任意方向的目標(biāo),借助于動(dòng)態(tài)收集的輪廓信息,通過角點(diǎn)演化生成包圍待檢測(cè)目標(biāo)的旋轉(zhuǎn)四邊形檢測(cè)框。Cheng 等人(2022)提出的無錨框旋轉(zhuǎn)提議生成器,專注于在雙階段檢測(cè)器的RPN 階段生成旋轉(zhuǎn)檢測(cè)包圍框,即放棄了網(wǎng)絡(luò)架構(gòu)中與先驗(yàn)水平錨框相關(guān)的操作,具體流程為首先通過粗定位模塊以無錨框的方式生成粗定位框,然后將其細(xì)化為高質(zhì)量的旋轉(zhuǎn)方案。Li 等人(2022e)通過改進(jìn)關(guān)鍵點(diǎn)檢測(cè)器RepPoints(Yang 等,2019c)將其應(yīng)用到航空遙感領(lǐng)域,提出了旋轉(zhuǎn)轉(zhuǎn)換函數(shù)來精確目標(biāo)的分類與定位,而提出的質(zhì)量評(píng)估和樣本分配方案,則可以選擇最具有代表性的樣本并從相鄰對(duì)象或背景噪聲中捕獲旋轉(zhuǎn)的特征,極大地提升了多方向緊密排列目標(biāo)的檢測(cè)精度。Li 等人(2022c)提出了一種新無錨框的雙階段旋轉(zhuǎn)目標(biāo)檢測(cè)器,在沒有大量預(yù)定義錨框的情況下生成高質(zhì)量的旋轉(zhuǎn)包圍框,并且還提出了一種基于極坐標(biāo)系的旋轉(zhuǎn)包圍框的新表示法,大幅度提升了檢測(cè)精度。
除上述方法外,Zheng 等人(2021b)將特征金字塔Transformer 引入RetinaNet 檢測(cè)框架,通過特征交互機(jī)制來增強(qiáng)旋轉(zhuǎn)目標(biāo)檢測(cè)框架的特征提取能力,并生成語(yǔ)義上有意義的特征,增強(qiáng)了旋轉(zhuǎn)目標(biāo)的檢測(cè)能力。Ma 等人(2021)提出O2DETR(oriented object DETR)模型,首次將DETR 用于旋轉(zhuǎn)目標(biāo)檢測(cè),其中使用深度可分離卷積代替注意力機(jī)制來設(shè)計(jì)高效的編碼器,大幅降低在原始Transformer 中使用多尺度特征的內(nèi)存和計(jì)算成本。Dai等人(2022c)提出了高精度旋轉(zhuǎn)目標(biāo)檢測(cè)模型RODFormer(rotating object detection Transformer)。RODFormer 使 用Transformer 架構(gòu)來收集不同分辨率的特征信息,以提高特征信息的收集范圍,同時(shí)將深度可分離卷積的局部特性與多層感知機(jī)的全局信道特性相結(jié)合,以解決模型在局部空間建模中的不足。Dai等人(2022a)設(shè)計(jì)AO2-DETR(arbitrary-oriented object DETR)模型,提出了一種旋轉(zhuǎn)建議生成機(jī)制來提供更好的位置先驗(yàn);同時(shí)引入旋轉(zhuǎn)自適應(yīng)細(xì)化模塊來提取旋轉(zhuǎn)不變的區(qū)域特征,進(jìn)而消除區(qū)域特征與目標(biāo)之間的錯(cuò)位;并使用旋轉(zhuǎn)集匹配損失來確保直接集預(yù)測(cè)的一對(duì)一匹配,提高了旋轉(zhuǎn)目標(biāo)的檢測(cè)性能。
上述各種針對(duì)方向多樣性以及目標(biāo)密集的檢測(cè)方法,有效提高了該應(yīng)用場(chǎng)景檢測(cè)的性能上限,但是如何提高方法泛化性仍然是目前要面對(duì)的主要問題。
航空遙感圖像中的目標(biāo)尺度變化劇烈,因此需要所設(shè)計(jì)的模型具有良好的尺度不變性,即模型在多類目標(biāo)的多種尺度劇烈變化下仍然具有較高的識(shí)別能力,其中多尺度特征融合可以很好地緩解目標(biāo)尺度變化大的難題。表3 給出了不同針對(duì)目標(biāo)尺度變化劇烈的遙感圖像目標(biāo)檢測(cè)方法。
表3 針對(duì)目標(biāo)尺度變化劇烈的遙感圖像目標(biāo)檢測(cè)深度學(xué)習(xí)方法Table 3 Object detection methods for remote sensing images with drastic changes in target scale
多尺度特征融合最典型的模塊就是特征金字塔,該模塊將深層的語(yǔ)義信息與淺層的輪廓、位置信息相融合,并利用不同的特征圖將待測(cè)目標(biāo)進(jìn)行多種尺度的統(tǒng)一定位,進(jìn)而實(shí)現(xiàn)對(duì)目標(biāo)的精確檢測(cè)(Li 等,2018b;Zhang 等,2019)。Yan 等人(2021)提出的AF-EMS(anchor-free enhance multi-scale)檢測(cè)器可以獲得更有效的多尺度特征表達(dá),其中主要模塊為注意力特征金字塔,能夠根據(jù)不同大小目標(biāo)的特征自動(dòng)生成特征金字塔;此外還包括尺度感知檢測(cè)頭,擁有接收特征融合模塊和基于尺寸的特征補(bǔ)償模塊,極大地豐富了多尺度目標(biāo)的特征。Fu 等人(2021)提出一個(gè)無錨框的特征平衡和細(xì)化網(wǎng)絡(luò),該網(wǎng)絡(luò)主要使用注意力對(duì)平衡金字塔在不同層次上的特征進(jìn)行引導(dǎo),旨在對(duì)多個(gè)特征進(jìn)行語(yǔ)義平衡,接著使用一個(gè)特征細(xì)化模塊對(duì)目標(biāo)特征進(jìn)行細(xì)化并進(jìn)行語(yǔ)義增強(qiáng),多種措施共同作用有效緩解了目標(biāo)尺度劇烈變化對(duì)檢測(cè)性能的影響。CATNet 模型(Liu 等,2022e)則提出密集特征金字塔網(wǎng)絡(luò)與空間上下文金字塔來改進(jìn)多尺度目標(biāo)特征提取過程,進(jìn)而提升目標(biāo)檢測(cè)精度。針對(duì)遙感圖像中云區(qū)域檢測(cè)問題,Luo等人(2022)提出了輕量級(jí)編解碼器云檢測(cè)網(wǎng)絡(luò),在編碼器部分提出了一種輕量級(jí)特征金字塔模塊來捕獲高層次的多尺度目標(biāo)上下文信息,在解碼器部分使用輕量級(jí)特征融合模塊補(bǔ)償從編碼器到高級(jí)特征映射過程中丟失的空間和細(xì)節(jié)信息;整體提升了多尺度目標(biāo)的特征表征能力。Liu等人(2022d)提出了混合網(wǎng)絡(luò)TransConvNet,模型更加注重全局和局部信息的聚合,提升不同分辨率特征圖的信息表示能力,同時(shí)設(shè)計(jì)了自適應(yīng)特征融合網(wǎng)絡(luò)來緩解目標(biāo)尺度劇烈變化的問題。Li 等人(2022d)在Transformer上的多個(gè)尺度聚合全局空間位置的特征,并對(duì)成對(duì)實(shí)例之間的交互進(jìn)行建模,提升了不同尺度目標(biāo)的檢測(cè)性能。
除了多尺度特征融合外,Yang 等人(2021d)提出一種基于KL 散度(Kullback-Leibler divergence,KLD)的度量方式,具有尺度不變性,能夠很好地定位待檢測(cè)目標(biāo)。Mirhajianmoghadam 和Haghighi(2022)將Shearlet 濾波器引入YOLOv3 進(jìn)行遙感圖像下的機(jī)場(chǎng)跑道檢測(cè),主要采用了不同方向和比例的ShearLet 濾波器,即采用三尺度六方向的濾波器來形成3個(gè)卷積層的初始權(quán)值,以此保持目標(biāo)的幾何結(jié)構(gòu)并提高機(jī)場(chǎng)檢測(cè)精度。而Zhu等人(2021a)提出TPH-YOLOv5(Transformer prediction head YOLOv5)模型,將原本YOLOv5 中的一些卷積和CSP(cross stage partial)結(jié)構(gòu)分別替換為Transformer 編碼器和Transformer 預(yù)測(cè)頭,進(jìn)而緩解目標(biāo)的尺度變化劇烈問 題。Xu 等 人(2021a)提 出AdaZoom(adaptive zoom)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以自由縮放具有靈活長(zhǎng)寬比和尺度的目標(biāo)聚焦區(qū)域,用于多尺度目標(biāo)檢測(cè),接著使用協(xié)同訓(xùn)練促進(jìn)AdaZoom和目標(biāo)檢測(cè)器之間的協(xié)調(diào)性,進(jìn)一步提升檢測(cè)性能。Liu 等人(2022a)提出了一種擴(kuò)展卷積的多感受野特征提取模塊,用于聚集不同感受野的上下文信息,實(shí)現(xiàn)了強(qiáng)大的特征表示能力,可以有效地適應(yīng)待檢測(cè)目標(biāo)的比例變化,并同時(shí)構(gòu)造了關(guān)系關(guān)聯(lián)注意模塊來自動(dòng)選擇和細(xì)化特征,有效提高檢測(cè)器的魯棒性,這兩個(gè)模塊聯(lián)合作用提高了多尺度目標(biāo)的檢測(cè)結(jié)果。Chalavadi 等人(2022)提出了分層擴(kuò)展卷積的多尺度目標(biāo)檢測(cè)網(wǎng)絡(luò)mSODANet(multi-scale object detection network),模型使用并行擴(kuò)展卷積在多尺度和多視場(chǎng)下學(xué)習(xí)不同類型目標(biāo)的上下文信息,有效地增強(qiáng)了檢測(cè)不同尺度目標(biāo)的能力。Yang 等人(2021a)則提出用于角度分類的密集編碼標(biāo)簽(densely coded labels,DCL)以及用于損失函數(shù)的角度距離和縱橫比敏感權(quán)重(angle distance and aspect ratio sensitive weighting,ADARSW),整體通過使用DCL 和對(duì)損失函數(shù)進(jìn)行ADARSW 加權(quán)的方案增強(qiáng)檢測(cè)器對(duì)目標(biāo)尺度變化的敏感性,因此大幅度提高了檢測(cè)速度與精度。
針對(duì)遙感圖像下目標(biāo)尺度變化劇烈問題,上述改進(jìn)方案已經(jīng)取得了極大的進(jìn)步。但是在多尺度特征融合過程中,為了獲取更高層次的語(yǔ)義信息,特征圖經(jīng)過多重降采樣以至于導(dǎo)致小目標(biāo)特征消失,對(duì)小目標(biāo)非常不友好;并且特征融合過程中的各種噪聲也會(huì)同步得到增強(qiáng),如何處理這種情況是目前亟待解決的問題。
針對(duì)航空遙感圖像中的小目標(biāo)檢測(cè),當(dāng)前主要是從特征增強(qiáng)、多級(jí)特征圖檢測(cè)以及設(shè)計(jì)精確定位策略對(duì)算法進(jìn)行改進(jìn)。表4 給出了不同針對(duì)遙感圖像小目標(biāo)檢測(cè)的深度學(xué)習(xí)方法。
表4 針對(duì)遙感圖像小目標(biāo)檢測(cè)的深度學(xué)習(xí)方法Table 4 Small object detection methods for remote sensing images
基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法往往采用經(jīng)過若干次池化操作的特征圖進(jìn)行目標(biāo)檢測(cè),這些特征圖分辨率較低,不利于小尺寸目標(biāo)的檢測(cè)。為此,Wang 等人(2020a)提出FMSSD(featuremerged single-shot detection)模型,可以將上下文信息融合到多尺度特征中來進(jìn)行小目標(biāo)特征的增強(qiáng),并同時(shí)提出一種新的面積加權(quán)損失函數(shù),通過提升小目標(biāo)的損失權(quán)重進(jìn)而使得模型對(duì)所有的目標(biāo)一視同仁。Yang 等人(2023)提出了SCRDet++(detector for small,cluttered and rotated objects)模型,首次將去噪的思想引入到目標(biāo)檢測(cè)中,即在特征圖上進(jìn)行實(shí)例級(jí)去噪,以增強(qiáng)對(duì)航空遙感圖像小目標(biāo)的檢測(cè)。在設(shè)計(jì)精確定位策略方面,Wang 等人(2021b)對(duì)CenterNet(Zhou等,2019)進(jìn)行改進(jìn)并提出M-CenterNet模型,使其適用于航空遙感領(lǐng)域。網(wǎng)絡(luò)主要將原先的定位單個(gè)中心點(diǎn)變?yōu)槎ㄎ欢鄠€(gè)中心點(diǎn),再對(duì)多個(gè)對(duì)應(yīng)的目標(biāo)進(jìn)行偏置和尺度的估計(jì),大大提升了小目標(biāo)檢測(cè)的性能。Xu 等人(2021a)提出了一種新的適用于航空遙感圖像中極小目標(biāo)檢測(cè)的損失函數(shù)DotD(dot distance),DotD 定義為歸一化的兩個(gè)邊界框中心點(diǎn)的歐氏距離,將其應(yīng)用到正負(fù)樣本匹配和定位過程中,可以獲得更好的小目標(biāo)檢測(cè)性能。Wang 等人(2022b)提出了一種新的度量方式NWD(normalized Wasserstein distance)來代替IoU,將NWD 應(yīng)用到標(biāo)簽分配過程、NMS(non maximum suppression)和損失函數(shù)中,能夠很大程度上解決IoU中對(duì)位置偏移的敏感問題,這種度量方式極大提升了極小目標(biāo)檢測(cè)性能。Yang 等人(2021c)提出一種GWD(Gaussian Wasserstein distance)的回歸損失函數(shù),能夠很好地解決檢測(cè)框回歸過程中存在的邊界不連續(xù)問題,并且也能度量?jī)蓚€(gè)完全分離檢測(cè)框之間的距離,對(duì)精確定位目標(biāo)很有優(yōu)勢(shì)。
針對(duì)航空?qǐng)D像中的小目標(biāo)分布不均勻問題,Li 等人(2020b)和Yang 等人(2019a)做出了大量貢獻(xiàn),但在檢測(cè)速度方面仍然有所不足。因此Wang等人(2020b)提出CRENet(cluster region estimation network)模型,模型會(huì)搜索含有大量小目標(biāo)的區(qū)域,并將搜索出來的區(qū)域按照聚類難度數(shù)值排序,進(jìn)而將計(jì)算資源分配給頭部數(shù)值大的區(qū)域進(jìn)行充分的信息挖掘,提升小目標(biāo)的檢測(cè)效率。Deng 等人(2021)提出一種端到端的全局到局部自適應(yīng)網(wǎng)絡(luò),首先通過使用全局輪廓信息和局部細(xì)節(jié)信息來估計(jì)原始下采樣圖像和裁剪圖像的邊界框,接著提出自適應(yīng)區(qū)域選擇算法提取擁有大量小目標(biāo)的區(qū)域,減少處理模型需要處理圖像的資源,進(jìn)而提升檢測(cè)速率。Duan等人(2021)提出CDMNet(coarse-grained density map network)模型,模型首先使用輕量化的網(wǎng)絡(luò)生成粗粒度密度圖,進(jìn)而使用分割分支對(duì)密度圖進(jìn)行解耦并定位目標(biāo),此外還采用改進(jìn)的mosaic 數(shù)據(jù)增強(qiáng)方法提升難檢測(cè)樣本和稀少目標(biāo)的比例,對(duì)類別不平衡的問題進(jìn)行一定程度上的緩解,因此在提升速度的同時(shí)也提升了小目標(biāo)的檢測(cè)精度。Liao 等人(2021)提出了UCGNet(unsupervised cluster guided network)模型,模型中使用一個(gè)局部定位模塊LLM(local location module)預(yù)測(cè)目標(biāo)的分布,然后用無監(jiān)督的聚類模塊生成目標(biāo)密集區(qū)域并進(jìn)行檢測(cè),這種方式對(duì)小目標(biāo)的檢測(cè)節(jié)省了大量時(shí)間。為了減少小型或密集分布對(duì)象的丟失,Wu等人(2022)提出了發(fā)散激活模塊和相似性模塊來進(jìn)行相應(yīng)的處理。發(fā)散激活模塊用于提高淺層特征圖中低響應(yīng)區(qū)域的響應(yīng)強(qiáng)度,而相似性模塊用于改善淺層特征圖的特征分布和抑制背景噪聲,兩者共同作用提升了小目標(biāo)的檢測(cè)能力。Singh 和Munjal(2022)提出了新的改進(jìn)YOLOv5 算法,即yolov5imprv。算法通過在YOLOv5 的特征金字塔部分添加新的特征融合層,此特征融合層具有較小的感受野,可以在特征圖中捕獲小細(xì)節(jié);與此同時(shí),該層還添加了來自網(wǎng)絡(luò)淺層部分的橫向連接,以保持特征圖的分辨率并防止網(wǎng)絡(luò)更深部分的特征信息丟失;多種措施共同提高了對(duì)小目標(biāo)的檢測(cè)性能。Xu 等人(2021b)設(shè)計(jì)了一個(gè)局部感知Swin Transformer 主干,結(jié)合Transformer 和卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),增強(qiáng)了網(wǎng)絡(luò)的局部感知能力,從而獲得更好的小目標(biāo)檢測(cè)性能。
總體來說,針對(duì)航空遙感圖像的小目標(biāo)檢測(cè)精度和效率有了很大程度的突破,但是在相較于實(shí)際應(yīng)用方面還有較大的差距。比如在小目標(biāo)檢測(cè)中的細(xì)粒度識(shí)別方面和實(shí)時(shí)性檢測(cè)速度方面仍然有很大的進(jìn)步空間,這是未來亟需改進(jìn)的方面。
公共數(shù)據(jù)集是支撐領(lǐng)域發(fā)展一個(gè)很重要的基石。為了使算法更具可比性,在近十幾年中,人們構(gòu)建了很多光學(xué)遙感圖像目標(biāo)檢測(cè)數(shù)據(jù)集。表5 對(duì)較為常見的12 個(gè)公開的遙感圖像目標(biāo)檢測(cè)數(shù)據(jù)集進(jìn)行了歸納總結(jié),包括數(shù)據(jù)集規(guī)模、檢測(cè)的目標(biāo)類別數(shù)目及標(biāo)注方式等。
表5 航空遙感圖像目標(biāo)檢測(cè)數(shù)據(jù)集介紹Table 5 Introduction to the object detection datasets of aerial remote sensing images
1)DLR3K(deutsches zentrum für luft-und raumfahrt 3K)數(shù)據(jù)集(Liu 和Mattyus,2015)。由German Aerospace Center 在2015 年發(fā)布,是小型車輛檢測(cè)文獻(xiàn)中常用的數(shù)據(jù)集,包含20幅超大圖像。10幅訓(xùn)練圖像包含有3 500 輛汽車和70 輛卡車,10 幅測(cè)試圖像包含有5 800輛汽車和90輛卡車。
2)HRSC2016(high resolution ship collections 2016)數(shù)據(jù)集(Liu 等,2017b)。由西北工業(yè)大學(xué)2016 年發(fā)布,是目前具有代表性的公開艦船目標(biāo)檢測(cè)數(shù)據(jù)集,包含1 061 幅RGB 彩色圖像,共2 976 個(gè)艦船目標(biāo),圖像分辨率為0.4~2 m,圖像尺寸范圍從300 × 300像素到1 500×900像素,大多數(shù)為1 000 像素。該數(shù)據(jù)集采用船、船的類別、船的型號(hào)三級(jí)標(biāo)注體系對(duì)目標(biāo)通過旋轉(zhuǎn)框進(jìn)行標(biāo)注。
3)UAVDT(unmanned aerial vehicle benchmark object detection and tracking)數(shù)據(jù)集(Du 等,2018)。該數(shù)據(jù)集在2018 年公布,是基于無人機(jī)攝制的車輛交通內(nèi)容的數(shù)據(jù)集,約含80 000 幅圖像。數(shù)據(jù)集中總體可以分為3 個(gè)高度,在低高度拍攝時(shí),會(huì)捕捉到物體的更多細(xì)節(jié),而在更高的高度拍攝,大量的車輛均不夠清晰。數(shù)據(jù)集包含超過840 000個(gè)實(shí)例對(duì)象,其中76 215個(gè)是極小目標(biāo),281 532個(gè)屬于小目標(biāo)。
4)DOTA(a large-scale dataset for object detection in aerial images)數(shù)據(jù)集(Xia 等,2018)。DOTA 是用于航空?qǐng)D像中目標(biāo)檢測(cè)的大規(guī)模數(shù)據(jù)集,包括2 086幅圖像、188 282 個(gè)實(shí)例和15 個(gè)常見類別,如飛機(jī)、船舶、儲(chǔ)罐、港口、橋梁、棒球場(chǎng)、網(wǎng)球場(chǎng)、籃球場(chǎng)、地面田徑場(chǎng)、小型車輛、大型車輛、直升機(jī)、環(huán)島、籃球場(chǎng)和足球場(chǎng)。每個(gè)圖像尺寸約為4 000 × 4 000 像素,包含不同形狀、方向和比例的目標(biāo)。該版本為DOTAv1.0,后續(xù)又陸續(xù)發(fā)布了DOTAv1.5(2019 年發(fā)布,16 種類,增添了集裝箱起重機(jī))和DOTAv2.0版本(2021 年發(fā)布,18 種類,又添加了機(jī)場(chǎng)與停機(jī)坪)。
5)VisDrone(vision meet drones)數(shù)據(jù)集(Du 等,2019)。該數(shù)據(jù)集共10 209 幅圖像,其中3 190 幅用于測(cè)試,6 471 幅用于訓(xùn)練,548 幅用于驗(yàn)證。這3 個(gè)子集的圖像在不同的位置拍攝,但共享相似的環(huán)境和屬性。該數(shù)據(jù)集主要關(guān)注日常生活中的車輛和人,并定義了10 個(gè)感興趣的對(duì)象類,包括汽車、卡車、公共汽車、面包車、汽車、自行車、雨篷三輪車、三輪車、行人和人。
6)AI-TOD(tiny object detection in aerial images)數(shù)據(jù)集(Wang 等,2021b)。AI-TOD 是一種用于推進(jìn)航空?qǐng)D像中微小目標(biāo)檢測(cè)的新數(shù)據(jù)集。它帶有700 621 個(gè)對(duì)象實(shí)例,用于28 036 個(gè)航空?qǐng)D像的8 個(gè)類別,尺寸為800 × 800 像素。與航空?qǐng)D像中現(xiàn)有的目標(biāo)檢測(cè)數(shù)據(jù)集相比,AI-TOD 中的目標(biāo)平均大小約為12.8像素。
7)DIOR(object detection in optical remote sensing images)數(shù)據(jù)集(Li 等,2020a)。該數(shù)據(jù)集是一個(gè)大型公開數(shù)據(jù)集,用于評(píng)估遙感領(lǐng)域的目標(biāo)探測(cè)器。它包括23 463 幅圖像和190 288 個(gè)物體,涵蓋20 個(gè)物體類別:籃球場(chǎng)、棒球場(chǎng)、飛機(jī)、風(fēng)車、地面田徑場(chǎng)、高速公路收費(fèi)站、儲(chǔ)罐、火車站、高速公路服務(wù)區(qū)、立交橋、大壩、港口、高爾夫球場(chǎng)、橋梁、煙囪、船舶、體育場(chǎng)、網(wǎng)球場(chǎng)、機(jī)場(chǎng)和車輛。數(shù)據(jù)集中的每個(gè)實(shí)例均使用水平邊界框進(jìn)行標(biāo)記,圖像大小為800 × 800像素。
8)SDD(small object detection based on DOTAv1.5 and DIOR)數(shù)據(jù)集(Li 等,2021)。該數(shù)據(jù)集來自DOTAv1.5 數(shù)據(jù)集和DIOR 數(shù)據(jù)集,包括5 個(gè)類、12 628個(gè)航空?qǐng)D像和343 961個(gè)標(biāo)記示例。此數(shù)據(jù)集中的圖像尺寸為800 × 800像素到1 024 × 1 024像素。該數(shù)據(jù)集的5 個(gè)類別是車輛、飛機(jī)、船舶、風(fēng)車和游泳池。
9)SDOTA(small object detection based on DOTAv1.5)數(shù)據(jù)集(Li 等,2021)。此數(shù)據(jù)集用于基于DOTAv1.5的小對(duì)象檢測(cè)。圖像尺寸從800 × 800像素到4 000 × 4 000 像素,包括227 656 個(gè)實(shí)例,涵蓋4 類,其中大多數(shù)是小于50 像素的小對(duì)象和一些大對(duì)象。數(shù)據(jù)集的4 個(gè)類別是小型車輛、儲(chǔ)罐、船舶和大型車輛。此外,小型車輛類包含大量小于10 像素的小對(duì)象。
10)FAIR1M(1 million instances for finegrained object recognition in high-resolution remote sensing imagery)數(shù)據(jù)集(Sun 等,2022)。為了滿足實(shí)際應(yīng)用的需要,該數(shù)據(jù)集的圖像是從不同的傳感器和平臺(tái)收集的,空間分辨率范圍為0.3~0.8 m,包含有超過100 萬個(gè)實(shí)例和超過15 000 幅圖像。數(shù)據(jù)集中的所有對(duì)象均通過定向邊界框針對(duì)5個(gè)類別和37個(gè)子類別進(jìn)行注釋。圖像尺寸在1 000 × 1 000 像素到10 000 × 10 000 像素范圍內(nèi),并包含有各種比例、方向和形狀的目標(biāo)。
11)RSSOD(remote sensing super-resolution object detection)數(shù)據(jù)集(Wang 等,2022c)。RSSOD數(shù)據(jù)集由1 759幅圖像組成,其中均為超高分辨率圖像,空間分辨率約為0.05 m。共有5個(gè)類別,每個(gè)類別的標(biāo)簽數(shù)量不同,共包含22 091個(gè)實(shí)例,平均圖像尺寸為1 000 × 1 000像素。
12)DIOR-R 數(shù)據(jù)集(Cheng 等,2022)。與DIOR數(shù)據(jù)集基本一致,主要改變是水平標(biāo)注框變?yōu)樾D(zhuǎn)標(biāo)注框,使得數(shù)據(jù)集能夠更準(zhǔn)確地表達(dá)目標(biāo)物體的位置狀態(tài)。
當(dāng)前航空遙感圖像目標(biāo)檢測(cè)中的評(píng)價(jià)指標(biāo)主要為準(zhǔn)確率(precision)、召回率(recall)、平均精度(average precision,AP)、平均精度均值(mean AP,mAP)以及幀率(frame per second,F(xiàn)PS),與賈可心等人(2022)和戴坤等人(2022)評(píng)價(jià)指標(biāo)一致。
準(zhǔn)確率指的是被檢測(cè)出來的目標(biāo)中真實(shí)目標(biāo)的占比;召回率指的是真實(shí)目標(biāo)中被檢測(cè)出來的占比。若以準(zhǔn)確率為縱坐標(biāo),召回率為橫坐標(biāo)進(jìn)行繪圖,就可以得到準(zhǔn)確率—召回率曲線(precision-recall curve,PR)。平均精度AP 采用PR 曲線下的面積來計(jì)算,AP 值越高,反映檢測(cè)結(jié)果越好。多個(gè)類別AP的平均值定義為平均精度均值mAP,用來衡量算法在數(shù)據(jù)集上的整體性能。mAP(07)是由PASCAL VOC(pattern analysis,statistical modeling and computational learning visual object classes)2007年提出,將IoU 閾值設(shè)置為0.5,在PR 曲線上選取等分11 個(gè)點(diǎn)來計(jì)算AP;mAP(12)是Pascal VOC 在2010 年以后將11 個(gè)點(diǎn)改為全部的點(diǎn)來計(jì)算。幀率指的是算法每秒鐘處理的圖像數(shù)量,用以評(píng)估算法的檢測(cè)速度。
為了方便研究人員更好地理解基于深度學(xué)習(xí)的航空遙感圖像目標(biāo)檢測(cè)技術(shù)的研究發(fā)展現(xiàn)狀,在HRSC2016(Liu 等,2017b)、DOTA(Xia 等,2018)、UAVDT(Du等,2018)等幾個(gè)常用的航空遙感圖像數(shù)據(jù)集上,對(duì)AOPG(anchor-free oriented proposal generator)(Cheng 等,2022)、ReDet(Han 等,2021)、Ada-Zoom(Xu 等,2021a)和yolov5imprv(Singh 和Munjal,2022)等典型算法的性能進(jìn)行了定量比較,結(jié)果如表6—表11 所示,表中的發(fā)布年份均按照論文的正式發(fā)表年份統(tǒng)計(jì)。
表6 HRSC2016數(shù)據(jù)集上性能簡(jiǎn)單評(píng)估Table 6 Simple performance evaluation on the HRSC2016 dataset
表6 給出了不同典型算法在HRSC2016 數(shù)據(jù)集(Liu 等,2017b)上的檢測(cè)結(jié)果。由表6 可見,在所有的比較算法中,ACE(anchor-free corner evolution)(Dai 等,2022b)和ReDet(Han 等,2021)分別取得mAP(07)與mAP(12)的最佳值,分別為90.50%和97.63%。ACE(Dai 等,2022b)歸功于它自身動(dòng)態(tài)收集的輪廓信息的功能,而ReDet(Han 等,2021)的成功則取決于它對(duì)旋轉(zhuǎn)等變性和旋轉(zhuǎn)不變性進(jìn)行了顯式編碼,可以根據(jù)RoI 的方向自適應(yīng)地從等變特征中提取旋轉(zhuǎn)不變特征,為待測(cè)目標(biāo)提取出魯棒的特征。兩者使用較淺層的網(wǎng)絡(luò)實(shí)現(xiàn)了優(yōu)異的性能,體現(xiàn)了邊框信息和旋轉(zhuǎn)不變性特征在旋轉(zhuǎn)目標(biāo)檢測(cè)中的巨大作用,為后續(xù)模型的設(shè)計(jì)提供了思路。
表7 給出了較為先進(jìn)的改進(jìn)算法在UAVDT 數(shù)據(jù)集(Du 等,2018)上的檢測(cè)結(jié)果。其中AP50、AP75分別表示IoU 閾值設(shè)為0.5、0.75 時(shí)的平均精度,APs、APm、APl 分別表示小尺寸目標(biāo)、中等尺寸目標(biāo)以及大尺寸目標(biāo)的平均精度。在這些比較算法中,AdaZoom(Xu 等,2021a)以22.4%的mAP 取得最佳值,主要取決于它可以自由縮放具有靈活長(zhǎng)寬比和尺度的目標(biāo)聚焦區(qū)域,進(jìn)而用于多尺度目標(biāo)檢測(cè)的特征,實(shí)現(xiàn)了對(duì)小目標(biāo)精確檢測(cè)和良好的實(shí)時(shí)性能。
表7 UAVDT數(shù)據(jù)集上性能簡(jiǎn)單評(píng)估Table 7 Simple performance evaluation on the UAVDT dataset
表8 給出了較為先進(jìn)的改進(jìn)算法在DOTA(v1.0)數(shù)據(jù)集(Xia等,2018)上的檢測(cè)結(jié)果。在這些比較的算法中,AOPG(Cheng 等,2022)取得了最好的檢測(cè)效果,在數(shù)據(jù)集上實(shí)現(xiàn)了80.66%的準(zhǔn)確率,其中與其本身放棄鋪設(shè)先驗(yàn)錨框,而專注于在雙階段檢測(cè)器的RPN 階段通過粗定位模塊直接生成粗旋轉(zhuǎn)框,然后將其細(xì)化為高質(zhì)量的旋轉(zhuǎn)包圍框的思想密不可分。因此后續(xù)設(shè)計(jì)模型時(shí)可以多考慮將Anchor Free 范式和級(jí)聯(lián)的思想結(jié)合起來,實(shí)現(xiàn)高精度與模型泛化性能的雙重突破。
表8 DOTA(v1.0)數(shù)據(jù)集上性能簡(jiǎn)單評(píng)估Table 8 Simple performance evaluation on the DOTA(v1.0)dataset
表9 給出了較為先進(jìn)的改進(jìn)算法在VisDrone 數(shù)據(jù)集上的檢測(cè)結(jié)果。在這些比較的算法中,yolov5imprv(Singh 和 Munjal,2022)在VisDrone 數(shù)據(jù)集(Du 等,2019)上實(shí)現(xiàn)了45.20% 的精確值。yolov5-imprv算法通過在YOLOv5的特征金字塔部分添加新的特征融合層,此特征融合層具有較小的感受野,可以在特征圖中捕獲小細(xì)節(jié),因此提高了對(duì)小目標(biāo)的檢測(cè)性能。
表9 VisDrone數(shù)據(jù)集上性能簡(jiǎn)單評(píng)估Table 9 Simple performance evaluation on the VisDrone dataset/%
表10 給出了較為先進(jìn)的改進(jìn)算法在AI-TOD 數(shù)據(jù)集(Wang 等,2021b)上的檢測(cè)結(jié)果。在這些比較的算法中,DetectoRS(Wang 等,2022b)檢測(cè)器以20.8%的mAP取得最佳值,DetectoRS 通過度量方式NWD代替IoU度量,并且將NWD應(yīng)用到標(biāo)簽分配過程、NMS 過程和損失函數(shù)計(jì)算中,極大地解決了IoU中位置偏移問題,因此對(duì)極小目標(biāo)檢測(cè)的性能提升巨大。
表10 AI-TOD數(shù)據(jù)集上性能簡(jiǎn)單評(píng)估Table 10 Simple performance evaluation on the AI-TOD dataset/%
表11 展示了各算法在DOTAv1.0 數(shù)據(jù)集(Xia等,2018)上的檢測(cè)結(jié)果,并且對(duì)各種算法的運(yùn)算速度進(jìn)行了比較。這些相比較的算法中,在使用半精度推理時(shí),Oriented R-CNN*(Xie 等,2021)達(dá)到了21.2 幀/s 的推理速度以及75.63%的準(zhǔn)確率,實(shí)現(xiàn)了精度與速度較好權(quán)衡;在使用全精度推理時(shí),Oriented RepPoints(Li 等,2022a)達(dá)到了16.1 幀/s 的推理速度以及75.99%的準(zhǔn)確率,突出了Anchor Free模型的優(yōu)勢(shì),同時(shí)也實(shí)現(xiàn)了較高的準(zhǔn)確率。
表11 DOTA(v1.0)數(shù)據(jù)集上推理速度簡(jiǎn)單評(píng)估Table 11 Simple performance evaluation on the DOTA(v1.0)dataset
目前,基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法已經(jīng)廣泛應(yīng)用于多種遙感圖像目標(biāo)檢測(cè)任務(wù),并取得較為豐富的研究成果,但遙感場(chǎng)景通常具有一定的特殊性與復(fù)雜性,現(xiàn)有方法在實(shí)際應(yīng)用中仍然面臨很多挑戰(zhàn),具體如下:
1)高效準(zhǔn)確解譯大尺寸航空遙感圖像。與自然近景圖像不同,航空遙感圖像均是由無人機(jī)、航天飛機(jī)和遙感衛(wèi)星在超高空對(duì)地面進(jìn)行攝影所獲取到的,所有圖像都是超大尺寸并且包含有廣闊的地表覆蓋面積,圖像邊緣的像素可達(dá)數(shù)萬數(shù)量級(jí)。因此,當(dāng)圖像中的大量冗余背景信息與目標(biāo)的顏色、形狀接近,且受到噪聲等其他因素影響時(shí),容易出現(xiàn)背景與待檢測(cè)目標(biāo)難以區(qū)分,甚至背景信息更加突出的情況,進(jìn)而導(dǎo)致對(duì)待檢測(cè)目標(biāo)定位和識(shí)別不準(zhǔn)確的問題。針對(duì)該問題,后續(xù)研究中擬從兩方面對(duì)方法性能進(jìn)行提升和改進(jìn)。一是引入航空遙感領(lǐng)域的先驗(yàn)知識(shí),結(jié)合起來設(shè)計(jì)更魯棒的特征提取網(wǎng)絡(luò),實(shí)現(xiàn)更好的特征提取與表達(dá)能力;二是在特征提取與多尺度信息融合模塊中,研究消除其中的語(yǔ)義間隔和噪聲干擾問題,提取更豐富和更精準(zhǔn)的目標(biāo)特征信息進(jìn)行解譯。
2)有效建模尺度差異較大的航空遙感圖像目標(biāo)。相對(duì)于自然圖像來說,航空遙感圖像中的目標(biāo)尺度具有較大的變化范圍,不僅體現(xiàn)在不同高度(分辨率)下同一個(gè)目標(biāo)的巨大尺度變化,還體現(xiàn)在同一高度(分辨率)下的不同種類目標(biāo)的尺度差異。此外,航空遙感圖像中目標(biāo)形狀差異也巨大,特別是大量長(zhǎng)寬比異常的狹長(zhǎng)目標(biāo),脫離了常規(guī)目標(biāo)檢測(cè)算法所給定的錨框形狀的檢測(cè)范圍。因此,如何對(duì)航空遙感圖像中尺度差異較大的目標(biāo)進(jìn)行更好的語(yǔ)義建模,是航空遙感圖像目標(biāo)檢測(cè)未來一個(gè)重要的研究方向。
3)細(xì)粒度目標(biāo)檢測(cè)。細(xì)粒度目標(biāo)檢測(cè)旨在準(zhǔn)確識(shí)別同一大類目標(biāo)中的不同子類。然而由于目標(biāo)子類間的相似性(如籃球場(chǎng)、羽毛球場(chǎng))以及子類內(nèi)的差異性(如光照、背景帶來的差異)等因素的影響,現(xiàn)階段遙感圖像中細(xì)粒度目標(biāo)檢測(cè)性能仍是一個(gè)極具挑戰(zhàn)的難題。因此,如何有效提升遙感領(lǐng)域細(xì)粒度目標(biāo)的檢測(cè)性能,同時(shí)實(shí)現(xiàn)低成本下的檢測(cè)是未來一個(gè)重要的研究方向。
4)基于Transformer 的遙感圖像目標(biāo)檢測(cè)。Transformer 在自然圖像目標(biāo)檢測(cè)中雖然取得了較好的結(jié)果。但由于航空遙感圖像的特殊性,如目標(biāo)尺度小且類別多,因此Transformer 在遙感圖像目標(biāo)檢測(cè)方面的優(yōu)越性并沒有凸顯出來。現(xiàn)階段主流Transformer 目標(biāo)檢測(cè)方法主要是通過結(jié)合CNN 特性來聚合局部信息,進(jìn)而提升方法的整體性能。因此,如何有效結(jié)合CNN 更加高效地聚集局部信息,或只采用Transformer 自身特性來提升對(duì)遙感圖像的檢測(cè)能力,是未來值得探索的一個(gè)方向。