楊治佩,丁勝,張莉,張新宇
無錨點的遙感圖像任意角度密集目標(biāo)檢測方法
楊治佩1,2,3,丁勝1,2,張莉3*,張新宇1,2
(1.武漢科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,武漢 430065; 2.智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室(武漢科技大學(xué)),武漢 430065; 3.武漢晴川學(xué)院 計算機學(xué)院,武漢 430204)(*通信作者電子郵箱zhangly02@qq.com)
針對基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測方法密集目標(biāo)漏檢率高、分類不準(zhǔn)確的問題,建立了一種基于深度學(xué)習(xí)的無錨點的遙感圖像任意角度的密集目標(biāo)檢測方法。首先采用CenterNet作為基線模型,經(jīng)過主干網(wǎng)絡(luò)提取特征,并改造原有檢測器結(jié)構(gòu),即加入角度回歸分支進行目標(biāo)角度回歸;然后提出一種基于非對稱卷積的特征增強模塊,并將主干網(wǎng)絡(luò)提取到的特征圖輸入特征增強模塊,從而增強目標(biāo)的旋轉(zhuǎn)不變性特征,消除由于目標(biāo)的旋轉(zhuǎn)、翻轉(zhuǎn)帶來的影響,進一步提升目標(biāo)中心點、尺寸信息的回歸精度。采用HourGlass-101作為主干網(wǎng)絡(luò)時,該方法在DOTA數(shù)據(jù)集上的平均精度均值(mAP)比旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(RRPN)提升了7.80個百分點,每秒處理幀數(shù)(FPS)提升了7.5;在自建數(shù)據(jù)集Ship3上,該方法的mAP比RRPN提升了8.68個百分點,F(xiàn)PS提升了6.5。結(jié)果表明,所提方法能獲得檢測精度和速度的平衡。
深度學(xué)習(xí);遙感圖像;目標(biāo)檢測;非對稱卷積;無錨點目標(biāo)檢測
遙感圖像檢測問題是計算機視覺[1]和模式識別[2]領(lǐng)域的熱門話題,在軍用與民用領(lǐng)域都有著廣泛的應(yīng)用前景。近年來,基于深度學(xué)習(xí)的目標(biāo)檢測[3-4]方法愈加廣泛地應(yīng)用于該領(lǐng)域,為國防、海事、自然資源管理等領(lǐng)域提供了新的解決方案,能提升資源利用率,加強國防預(yù)警能力。
目標(biāo)檢測方法按照預(yù)測框生成的方式可以分為基于錨點的目標(biāo)檢測方法[3]和無錨點(anchor-free)的目標(biāo)檢測[4]方法。
基于錨點的目標(biāo)檢測方法以許多不同大小比例的錨框(Anchor Box)作為物體定位的參考點,在此基礎(chǔ)上生成候選框,檢測精度一定程度上取決于錨框設(shè)計的好壞程度?;阱^點的方法根據(jù)分類回歸方法可以分為單階段檢測方法[5]和兩階段檢測方法[6]:兩階段檢測方法首先通過區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network, RPN)[7]生成區(qū)域候選框,然后對其進行進一步的分類和回歸操作,典型的方法有Fast R-CNN(Fast Region-based Convolutional Neural Network)[8]、Faster R-CNN(RPN+Fast R-CNN)[9]以及加入分割任務(wù)的Mask R-CNN(FCN+Faster R-CNN)[10];單階段檢測方法則跳過區(qū)域建議階段,通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)生成特征圖一次性得到最終的定位和分類預(yù)測,典型的方法有單階多層檢測器(Single Shot multibox Detector, SSD)[11]和YOLO(You Only Look Once)系列[12-14]方法。
通常認(rèn)為兩階段方法相當(dāng)于對目標(biāo)做了兩次位置預(yù)測,具有更高的精度但速度較慢,而單階段方法速度較快但精度略顯遜色。
無錨點的檢測方法可以分為錨點預(yù)測算法[15]和關(guān)鍵點預(yù)測算法[3]:錨點預(yù)測算法是通過預(yù)測目標(biāo)的中心點位置及邊框與中心點的距離或目標(biāo)尺寸(寬和高)來得到預(yù)測框;而關(guān)鍵點預(yù)測算法則是通過檢測目標(biāo)的關(guān)鍵點(如角點),再由這些關(guān)鍵點組合成目標(biāo)的邊界框。由于舍棄了手動設(shè)計的錨框,無錨點的檢測方法具有更快的速度,可以更好地檢測具有較大寬高比的目標(biāo)。
文獻[16]中提出了基于角點檢測的CornerNet,舍棄了傳統(tǒng)的錨框思路,將目標(biāo)建模為目標(biāo)邊界框的左上角和右下角的一對頂點,即使用單一卷積模型生成熱圖和連接矢量:所有目標(biāo)的左上角和所有目標(biāo)的右下角熱圖,每個頂點的連接矢量。自CornerNet誕生以來,無錨點的方法開始出現(xiàn)井噴式增長,目標(biāo)檢測方法步入了無錨點時代。
在文獻[16]的工作基礎(chǔ)上,文獻[15]中進一步將檢測建模為對目標(biāo)的中心點進行檢測,并在此基礎(chǔ)上回歸出物體的尺寸信息的方法,其檢測精度和速度相較于主流的基于錨點的檢測方法均有提升。也因其簡單的結(jié)構(gòu)和可以用于人體姿態(tài)估計和3D目標(biāo)檢測的強大功能,該方法迅速在目標(biāo)檢測領(lǐng)域引起廣泛討論。
文獻[17]在文獻[9]的基礎(chǔ)上提出了旋轉(zhuǎn)區(qū)域候選網(wǎng)絡(luò)(Rotation Region Proposal Network, RRPN),它在RPN中加入旋轉(zhuǎn)的錨框生成帶有方向參數(shù)的候選區(qū)域(Rotation Region of Interest, RRoI),并提出RRoI池化層,將具有角度的候選區(qū)域映射到特征圖上,實現(xiàn)了一個能夠輸出旋轉(zhuǎn)候選框的目標(biāo)邊界框架。
文獻[18]中提出了旋轉(zhuǎn)區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Rotational Region CNN, R2CNN),在RRPN的基礎(chǔ)上修改了角度參數(shù)的表示方法,舍去旋轉(zhuǎn)錨框以精簡網(wǎng)絡(luò),并在池化層根據(jù)待檢測目標(biāo)橫縱比較大的特性,額外添加了3×11和11×3兩種池化尺寸,最后在全連接層中保留水平邊界框的預(yù)測支路,進一步提升了網(wǎng)絡(luò)性能。
文獻[5-7]中的方法在自然視角的目標(biāo)檢測任務(wù)中取得了良好的效果,但在更具挑戰(zhàn)性的遙感圖像目標(biāo)檢測任務(wù)中,這些常規(guī)檢測器往往不具有良好的泛化性。原因在于傳統(tǒng)的目標(biāo)檢測任務(wù)中的目標(biāo)通常因重力而有著向上的朝向,而在遙感圖像檢測任務(wù)中,目標(biāo)通常因為拍攝平臺的運行方向及相機角度等因素而展現(xiàn)出方向任意性;而且遙感圖像中存在大量密集分布的目標(biāo),使用水平方向的檢測器對具有方向任意性的目標(biāo)進行邊界框回歸時,會同時將大量的背景信息包含在邊界框中,這些額外的背景信息可能會影響分類器的精度;并且當(dāng)邊界框之間的重疊部分較大時,在密集分布的目標(biāo)檢測任務(wù)中,水平方向的檢測器無法很好地將不同的目標(biāo)分離開來。
文獻[17-18]中的方法可以減少邊界框中包圍的具有方向任意性的目標(biāo)和背景之間的重疊部分,更加緊密地包圍目標(biāo),從而更好地對旋轉(zhuǎn)和密集分布的目標(biāo)進行檢測和分類。但由于基于錨點的兩階段旋轉(zhuǎn)邊界框檢測網(wǎng)絡(luò)自身的參數(shù)量巨大,并且為了使網(wǎng)絡(luò)適應(yīng)旋轉(zhuǎn)目標(biāo)的檢測再次引入了大量的參數(shù),使網(wǎng)絡(luò)結(jié)構(gòu)更加臃腫,在檢測速度上始終無法得到較大提升。
為解決上述問題,本文提出了一種基于CenterNet改進的遙感圖像密集目標(biāo)檢測方法,在原有的模型結(jié)構(gòu)上加入角度預(yù)測支線和一個基于非對稱卷積的特征增強模塊,增強目標(biāo)的旋轉(zhuǎn)不變形特征,消除由于目標(biāo)旋轉(zhuǎn)和翻轉(zhuǎn)帶來的噪聲,從而提升目標(biāo)檢測模型的分類和回歸精度,更好地回歸目標(biāo)的位置和尺寸信息。實驗表明,本文設(shè)計的模型能夠克服密集目標(biāo)檢測精度低的缺點,有效提升模型精度和速度。
本文提出的基于CenterNet改進的目標(biāo)檢測模型整體可以分為特征提取網(wǎng)絡(luò)、特征增強網(wǎng)絡(luò)和檢測頭三部分。特征提取網(wǎng)絡(luò)主要有殘差網(wǎng)絡(luò)(Residual network)、深度聚合網(wǎng)絡(luò)(Deep Layer Aggregation network, DLA)[19]和沙漏網(wǎng)絡(luò)(HourGlass network, HG)[20]等。其中HG可以獲得最高的精度但預(yù)測速度較慢,而DLA可以取得速度和精度的平衡。
模型總體結(jié)構(gòu)如圖1所示。本文利用DLA和HG作為主干網(wǎng)絡(luò)。為了保證密集目標(biāo)的檢測正確率,將輸入模型的圖片通過主干網(wǎng)絡(luò)降采樣4倍,得到128×128的特征圖,在此基礎(chǔ)上進行目標(biāo)的定位和分類,最終模型輸出為128×128×(+5)的熱圖,其中代表目標(biāo)總類別個數(shù),剩余5個通道分別代表中心點偏移(2通道)、目標(biāo)尺寸(2通道)和目標(biāo)角度(1通道)。
為了提取目標(biāo)的角度信息,在檢測器中加入了一個角度預(yù)測分支。輸入經(jīng)過主干網(wǎng)絡(luò)后,將得到的特征圖輸入角度分支得到角度熱圖,而為節(jié)省計算資源,所有類別的目標(biāo)共用同一個角度熱圖通道。
原有的中心點熱圖、偏移熱圖和尺寸熱圖則經(jīng)過本文提出的特征增強模塊,增強旋轉(zhuǎn)不變性特征,消除由于目標(biāo)的旋轉(zhuǎn)翻轉(zhuǎn)帶來的影響,最終輸入檢測器相應(yīng)分支得到檢測結(jié)果。
圖1 本文模型總體結(jié)構(gòu)
根據(jù)角度信息定義旋轉(zhuǎn)矩陣為:
根據(jù)上述信息,可以得到帶角度的邊界框的頂點定義:
其中:lt、rt、lb、rb分別表示目標(biāo)邊界框的左上角、右上角、左下角及右下角坐標(biāo)。
圖2 邊界框角度定義
Fig. 2 Definition of bounding box’s angle
本文參照CenterNet的處理方法,將標(biāo)簽信息映射到與模型輸出熱圖相同尺寸和維度的矩陣中。
2.3.1 關(guān)鍵點損失與中心偏移損失
中心點和偏移損失采用CenterNet的處理方式,分別為改進的焦點損失(Focal Loss)[21]和最小化絕對誤差損失(L1 Loss)[22]:
2.3.2 尺寸損失
2.3.3 角度損失
2.3.4 總體損失
模型的總體損失函數(shù)定義為:
文獻[23]中證明了可以將傳統(tǒng)的方形2D卷積核(×)轉(zhuǎn)換為并行的三個互相兼容的2D卷積核(1×,×1,×),可以增強方形2D卷積核骨架位置上的特征信息和對旋轉(zhuǎn)翻轉(zhuǎn)畸變的魯棒性。
本文提出一種基于非對稱卷積的特征增強模塊(Feature Enhancement Module, FEM)以增強目標(biāo)的旋轉(zhuǎn)不變性特征,消除目標(biāo)的旋轉(zhuǎn)和翻轉(zhuǎn)所帶來的分類和尺寸回歸精度問題,進一步提升網(wǎng)絡(luò)精度。特征增強模塊是一個可拓展的模塊,可以很容易拓展到任意分支個數(shù)和任意卷積核大小,本文以3個分支為例。
特征增強模塊位于主干網(wǎng)絡(luò)和檢測頭之間,為了準(zhǔn)確預(yù)測目標(biāo)角度信息,直接將主干網(wǎng)絡(luò)的輸出特征圖輸入到角度回歸分支;其他分支則輸入特征增強網(wǎng)絡(luò),對目標(biāo)的旋轉(zhuǎn)不變性特征進行增強,得到的特征圖再輸入檢測頭進行目標(biāo)的分類、定位以及尺寸信息的回歸。
模塊主要由三個分支構(gòu)成,分別是兩個非對稱卷積分支和一個方形卷積分支。將兩個非對稱卷積分支得到的特征圖與常規(guī)方形卷積分支得到的特征圖進行融合可以增強方形卷積核骨架位置的特征,增強目標(biāo)的旋轉(zhuǎn)不變性特征,從而消除目標(biāo)由于旋轉(zhuǎn)和翻轉(zhuǎn)帶來的回歸和分類精度問題。特征增強模塊的每一個卷積層后都緊接一個非線性激活函數(shù)——線性整流函數(shù)(Rectified Linear Unit,ReLU)和一個批標(biāo)準(zhǔn)化(Batch Normalization, BN)層。
圖3 特征增強模塊結(jié)構(gòu)
圖4為輸入經(jīng)過主干網(wǎng)絡(luò)和特征增強模塊后的特征進行可視化疊加到原圖的效果。
從圖4中可以觀察到,主干網(wǎng)絡(luò)特征圖經(jīng)過特征增強模塊后,目標(biāo)主體的旋轉(zhuǎn)不變性特征更加突出,消除了由于旋轉(zhuǎn)和翻轉(zhuǎn)帶來的噪聲,這有助于提升目標(biāo)的定位和分類精度。
圖4 特征增強模塊效果
實驗設(shè)備為搭載Ubuntu 18.04 LTS操作系統(tǒng)的GPU服務(wù)器,CPU型號為Intel Xeon E5-2683 v3,GPU型號為Nvidia GeForce RTX2080Ti,顯存11 GB,系統(tǒng)內(nèi)存64 GB;環(huán)境配置為Cuda10.2,Cudnn 7.6.5;深度學(xué)習(xí)框架為Pytorch 1.3.1,Python 3.7.9。
DOTA數(shù)據(jù)集中的圖像為太空衛(wèi)星拍攝的遙感圖像,分辨率范圍為從800×800到4 000×4 000,包含2 806張圖片,15個分類,主要用于具有旋轉(zhuǎn)角度標(biāo)簽的遙感圖像目標(biāo)檢測任務(wù),其中包含的目標(biāo)具有大量不同的寬高比和角度,如圖5所示。在訓(xùn)練時將所有圖片用滑窗的方式以256像素的重疊切割為512×512的切片,不使用數(shù)據(jù)增強。處理后的訓(xùn)練集包含176 235張圖片,驗證集包含44 936張圖片,測試集包含91 007張圖片。
圖5 目標(biāo)角度和寬高比分布
為了驗證模型在其他遙感圖像目標(biāo)檢測任務(wù)中的泛化性能,本文對BDCI數(shù)據(jù)集中的包含船只的圖片進行重新標(biāo)記,生成新的數(shù)據(jù)集Ship3,其視角為低空拍攝,包含游艇、郵輪和貨船三個主要分類,目標(biāo)寬高比均值為3.0,分辨率為1 024×1 024,經(jīng)過處理后數(shù)據(jù)集包含8 965張圖片,按照8∶1∶1的比例劃分訓(xùn)練集驗證集和測試集,數(shù)據(jù)集保持和DOTA數(shù)據(jù)集一樣的標(biāo)簽格式。數(shù)據(jù)預(yù)處理時保持和DOTA數(shù)據(jù)集相同的方式,區(qū)別是不對圖片進行切片或縮放,直接使用1 024×1 024的原分辨率輸入網(wǎng)絡(luò)進行訓(xùn)練。
本文采用平均精度均值(mean Average Precision, mAP)作為評價指標(biāo),對模型進行精度的定量評價,mAP值的大小與網(wǎng)絡(luò)性能的好壞呈正相關(guān)關(guān)系。mAP由所有類別的準(zhǔn)確率平均精度(Average Precision, AP)求均值得到,計算公式為:
其中:表示總類別數(shù),AP表示第個類別的AP值。
如圖6所示:在DOTA數(shù)據(jù)集上,當(dāng)訓(xùn)練輪數(shù)達到44 epochs時,模型平均損失穩(wěn)定在0.1附近,之后平均損失函數(shù)值基本無降低,表明訓(xùn)練過程收斂;在Ship3數(shù)據(jù)集上,當(dāng)訓(xùn)練輪數(shù)達到35 epochs時,模型平均損失在0.1附近,訓(xùn)練收斂。
圖6 訓(xùn)練損失圖
圖7、8分別是在DOTA數(shù)據(jù)集和Ship3數(shù)據(jù)集上的PR(Precision-Recall)曲線,其中橫坐標(biāo)為召回率,縱坐標(biāo)為準(zhǔn)確率。
圖7 DOTA數(shù)據(jù)集上的PR曲線
圖8 Ship3數(shù)據(jù)集上的PR曲線
通過Ship3數(shù)據(jù)集的PR曲線可以看到,模型在目標(biāo)稀疏且寬高比較大的低空遙感圖像檢測任務(wù)中同樣可以達到較好的效果。
為驗證本文方法的效果,與其他常用的基于深度學(xué)習(xí)的檢測方法進行橫向?qū)Ρ龋谙嗤瑢嶒灄l件下,約定交并比大于0.5即表示檢測正確,以mAP和每秒處理幀數(shù)(Frames Per Second, FPS)作為評價指標(biāo)。
表1、2分別展示了本文方法和一些主流方法在DOTA數(shù)據(jù)集和Ship3數(shù)據(jù)集上的檢測結(jié)果,加粗表示最優(yōu)結(jié)果,加下劃線表示次優(yōu)結(jié)果。
從表1可以看出,在DOTA數(shù)據(jù)集上,相較于兩階段模型RRPN,本文方法采用HourGlass-101(HG-101)作為主干網(wǎng)絡(luò)時的mAP提升了7.8個百分點,F(xiàn)PS提升了7.5;采用DLA-34作為主干網(wǎng)絡(luò)時的mAP提升了5.13個百分點,F(xiàn)PS提升了23.5。相較于單階段模型YOLO V4,本文方法采用DLA-34作為主干網(wǎng)絡(luò)時的FPS降低3,但精度提升了6.83個百分點。
表1 DOTA數(shù)據(jù)集上不同檢測方法性能對比
從表2可以看出,在Ship3數(shù)據(jù)集上,相較于兩階段模型RRPN,本文方法采用HG-101作為主干網(wǎng)絡(luò)時的mAP提升了8.68個百分點,F(xiàn)PS提升了6.5;采用DLA-34作為主干網(wǎng)絡(luò)時的mAP提升了7.94個百分點,F(xiàn)PS提升了21。相較于單階段模型YOLO V4,本文方法采用DLA-34作為主干網(wǎng)絡(luò)時的FPS降低2.5,但精度提升8.87個百分點
表2 Ship3數(shù)據(jù)集上不同檢測方法性能對比
上述實驗表明,在DOTA數(shù)據(jù)集上加入角度回歸分支的CenterNet(HG101)相較于基于錨點的兩階段模型RRPN,F(xiàn)PS提升明顯,約17.5,mAP提升約0.3個百分點;加入特征增強模塊后,模型的mAP得到了較大提升,相較于沒有加入特征增強模塊的CenterNet(HG-101)提升約4.83,F(xiàn)PS下降約10,但相較于RRPN仍具有較大優(yōu)勢。在推理速度要求較高的場景下,可以使用CenterNet(DLA-34)加入角度回歸分支和特征增強模塊的版本,該版本在保證mAP相較于RRPN提升約5.13個百分點的同時FPS達到了約27,接近YOLO V4的推理速度。
特征增強模塊在推理階段造成了一定的速度損失,使FPS相較于僅添加了角度回歸的基線版本有所下降,這是因為在特征增強模塊中具有3個不同的卷積分支,造成了一定的計算量增加,但也使模型的mAP有了較大提升,且加入特征增強模塊的模型相較于傳統(tǒng)方法仍具有較大速度優(yōu)勢。綜上所述,相較于RRPN,本文方法做到了速度與檢測精度的平衡。
為了驗證本文提出的特征增強模塊的有效性,實驗并記錄了使用不同的基線網(wǎng)絡(luò)(DLA-34和HG-101)的情況下在DOTA數(shù)據(jù)集上進行消融實驗。
本文對所有模型進行相同的訓(xùn)練輪數(shù)(50輪),每3輪在驗證集上進行一次評估,使用評估損失最低的模型權(quán)重在測試集上進行消融實驗數(shù)據(jù)的記錄。由表3可知,在加入特征增強模塊后,網(wǎng)絡(luò)預(yù)測mAP在不同的主干網(wǎng)絡(luò)下均提升約7個百分點。
表3 DOTA數(shù)據(jù)集上消融實驗結(jié)果
在DOTA數(shù)據(jù)集和Ship3數(shù)據(jù)集上的檢測效果示例如圖9所示,矩形框標(biāo)注了兩種方法的檢測差異。可以看到,本文方法在不同視角數(shù)據(jù)集上相較于RRPN可以更好地檢測出密集分布和大寬高比的目標(biāo),具有良好的魯棒性。
圖9 實驗效果示例
本文提出了一個基于CenterNet改進的無錨點的遙感圖像任意角度目標(biāo)檢測方法,并加入一個基于非對稱卷積的特征增強模塊,以增強目標(biāo)的旋轉(zhuǎn)不變性特征,進一步提升模型精度,最后通過實驗驗證了本文方法的有效性。模型結(jié)構(gòu)簡潔,便于部署;但由于對角度信息的回歸僅采用數(shù)值回歸的方法,預(yù)測框未與真實邊界框建立強聯(lián)系,今后可在本文模型基礎(chǔ)上加入帶旋轉(zhuǎn)的交并比損失作為網(wǎng)絡(luò)總體損失的一部分,進一步提高目標(biāo)檢測精度;另外,隨著無錨點目標(biāo)檢測算法的升級,將繼續(xù)深入研究相應(yīng)方法在遙感圖像中具有任意角度的目標(biāo)檢測的應(yīng)用問題。
)
[1] XU S Y, WANG J, SHOU W C, et al. Computer vision techniques in construction: a critical review[J]. Archives of Computational Methods in Engineering, 2021, 28(5): 3383-3397.
[2] LINDBERG A. Developing theory through integrating human and machine pattern recognition[J]. Journal of the Association for Information Systems, 2020, 21(1): No.7.
[3] TIAN Z, SHEN C H, CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]/ /Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 9626-9635.
[4] ZHU C C, HE Y H, SAVVIDES M. Feature selective anchor-free module for single-shot object detection[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 840-849.
[5] CHEN Y T, HAN C X,WANG N Y, et al. Revisiting feature alignment for one-stage object detection[EB/OL]. (2019-08-05)[2021-05-01].https://arxiv.org/pdf/1908.01570.pdf.
[6] LI Z M, PENG C, YU G, et al. Light-head R-CNN: in defense of two-stage object detector[EB/OL]. (2017-11-23)[2021-05-01].https://arxiv.org/pdf/1711.07264.pdf.
[7] LI B, YAN J J, WU W, et al. High performance visual tracking with Siamese region proposal network[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8971-8980.
[8] GIRSHICK R. Fast R-CNN[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1440-1448.
[9] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149.
[10] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2980-2988.
[11] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.
[12] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 779-788.
[13] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08)[2021-05-01].https://arxiv.org/pdf/1804.02767.pdf.
[14] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23)[2021-05-01].https://arxiv.org/pdf/2004.10934.pdf.
[15] ZHOU X Y, WANG D Q, KR?HENBüHL P. Objects as points[EB/OL]. (2019-04-25)[2021-05-01].https://arxiv.org/pdf/1904.07850.pdf.
[16] LAW H, DENG J. CornerNet: detecting objects as paired keypoints[C]// Proceedings of the 2018 European Conference on Computer Vision, LNIP 11218. Cham: Springer, 2018: 765-781
[17] MA J Q, SHAO W Y, YE H, et al. Arbitrary-oriented scene text detection via rotation proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11):3111-3122.
[18] JIANG Y Y, ZHU X Y, WANG X B, et al. R2CNN: rotational region CNN for orientation robust scene text detection[EB/OL]. (2017-06-30)[2021-05-01].https://arxiv.org/pdf/1706.09579.pdf.
[19] YU F, WANG D Q, SHELHAMER E, et al. Deep layer aggregation[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2403-2412.
[20] NEWELL A, YANG K Y, DENG J. Stacked hourglass networks for human pose estimation[C]// Proceedings of the 2016 European Conference on Computer Vision, LNIP 9912. Cham: Springer, 2016: 483-499.
[21] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2999-3007.
[22] PESME S, FLAMMARION N. Online robust regression via SGD on thelloss[C/OL]// Proceedings of the 34h Conference on Neural Information Processing Systems. [2021-05-01].https://proceedings.neurips.cc/paper/2020/file/1ae6464c6b5d51b363d7d96f97132c75-Paper.pdf.
[23] YANG X, SUN H, FU K, et al. Automatic ship detection in remote sensing images from Google Earth of complex scenes based on multiscale rotation dense feature pyramid networks[J]. Remote Sensing, 2018, 10(1): No.132.
[24] ZHANG S F, WEN L Y, BIAN X, et al. Single-shot refinement neural network for object detection[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 4203-4212.
Anchor-free remote sensing image detection method for dense objects with rotation
YANG Zhipei1,2,3, DING Sheng1,2, ZHANG Li3*, ZHANG Xinyu1,2
(1,,430065,;2-(),430065,;3,,,430204,)
Aiming at the problems of high missed rate and inaccurate classification of dense objects in remote sensing image detection methods based on deep learning, an anchor-free deep learning-based detection method for dense objects with rotation was established. Firstly, CenterNet was used as the baseline network, features were extracted through the backbone network, and the original detector structure was improved, which means an angle regression branch was added to perform object angle regression. Then, a feature enhancement module based on asymmetric convolution was proposed, and the feature map extracted by the backbone network was put into the feature enhancement module to enhance the rotation invariant feature of the object, reduce the influence caused by the rotation and turnover of the object, and improve the regression precision of the center point and size information of the object. When using HourGlass-101 as the backbone network, compared with Rotation Region Proposal Network (RRPN), the proposed method achieved a 7.80 percentage point improvement in Mean Average Precision (mAP) and 7.50 improvement in Frames Per Second (FPS) on DOTA dataset. On the self-built dataset Ship3, the proposed method achieved a 8.68 percentage point improvement in mAP and 6.5 improvement vin FPS. The results show that the proposed method can obtain a balance between detection precision and speed.
deep learning; remote sensing image; object detection; asymmetric convolution; anchor-free object detection
This work is partially supported by Natural Science Foundation of Hubei Province (2018CFB195).
YANG Zhipei, born in 1996, M. S. candidate, His research interests include computer vision, deep learning.
DING Sheng, born in 1975, Ph. D., associate professor. His research interests include computer vision.
ZHANG Li, born in 1978, M. S., associate professor. Her research interests include computer simulation, computer vision.
ZHANG Xinyu, born in 1996, M. S. candidate. His research interests include computer vision, deep learning.
TP751.1
A
1001-9081(2022)06-1965-07
10.11772/j.issn.1001-9081.2021060890
2021?06?01;
2021?08?12;
2021?08?18。
湖北省自然科學(xué)基金資助項目(2018CFB195)。
楊治佩(1996—),男,甘肅慶陽人,碩士研究生,主要研究方向:計算機視覺、深度學(xué)習(xí);丁勝(1975—),男,湖北武漢人,副教授,博士,主要研究方向:計算機視覺;張莉(1978—),女,湖北武漢人,副教授,碩士,主要研究方向:計算機仿真、計算機視覺;張新宇(1996—),男,河南焦作人,碩士研究生,主要研究方向:計算機視覺、深度學(xué)習(xí)。