中圖分類號:TP391 文獻標志碼:A 文章編號:1671-8755(2025)02-0094-11
Abstract: To address the challnges of high complexity and annotation costs in general rotated object detection for remote sensing images, this paper proposed a weakly supervised rotated object detection model based on geometric representation learning.The proposed method utilized only horizontal bounding box annotations for training and employed a dual-branch architecture with shared backbone and neck networks.The weakly supervised branch learned the position,aspect ratio,and scale consistency of rotated bounding boxes from horizontalannotations,while theself-supervised branch enhanced rotation consistency.To improve feature representation and contextual interaction,the model introduced a shalow feature enhancement module and proposed a geometric vector representation for rotated bounding boxes, thereby improving the accuracy of rotation consistency learning. For bounding box regression,a distance loss based on vertex coordinates (FPD Loss)was introduced to reduce the sensitivity of size regression to angle precision. Experimental results on the public remote sensing datasets DOTA and DIOR -R demonstrate that the proposed model achieves accuracies of 79.33% and 58.50% ,respectively,outperforming the H2RBox algorithm by 4.8 and 1.5 percentage points. The proposed method improves accuracy while reducing computational cost and complexity under the condition of horizontal bounding box annotations, providing a novel solution for rotated object detection in remote sensing images.
Keywords: Remote sensing image;Weakly supervised learning;Rotated object detection; Vector representation;Feature enhancement
隨著遙感圖像及相關(guān)技術(shù)的快速發(fā)展,目標檢測已作為遙感應(yīng)用中的核心技術(shù)之一,廣泛應(yīng)用于環(huán)境監(jiān)測[1]、城市規(guī)劃[2]、災(zāi)害響應(yīng)[3]等領(lǐng)域。然而,傳統(tǒng)的目標檢測方法在處理旋轉(zhuǎn)目標時面臨較大挑戰(zhàn)。通用目標檢測器使用水平標注框監(jiān)督的方法,忽視了檢測造成的背景冗余,目標定位容易出現(xiàn)偏差,對于檢測精度要求較高的場景檢測效果不能令人滿意。旋轉(zhuǎn)目標檢測器可精準檢測任意方向的目標,從而實現(xiàn)更精確的目標定位與背景分離。
當前旋轉(zhuǎn)目標檢測器大多基于旋轉(zhuǎn)框標注,旨在改進通用水平框標注的不足,通過增加旋轉(zhuǎn)角度的標注以適配旋轉(zhuǎn)目標檢測任務(wù)。Ma等[4]首次引入文本區(qū)域提案機制用于解決旋轉(zhuǎn)目標檢測任務(wù),并取得了良好的檢測效果。Lin等5通過優(yōu)化標準交叉熵損失以應(yīng)對背景類不平衡問題,降低了對良好分類樣本的損失權(quán)重,從而提升檢測性能。Ding等[通過引入一個旋轉(zhuǎn)區(qū)域?qū)R模塊,將傳統(tǒng)的水平邊界框轉(zhuǎn)換為旋轉(zhuǎn)邊界框,從而實現(xiàn)對旋轉(zhuǎn)目標的檢測。Yang等7通過限制目標范圍內(nèi)的采樣點,替代傳統(tǒng)邊界框選取目標特征,為目標檢測任務(wù)提供了新的解決思路。Han等8創(chuàng)新性地引人旋轉(zhuǎn)等變網(wǎng)絡(luò),根據(jù)候選區(qū)域方向自適應(yīng)地從等變特征中提取旋轉(zhuǎn)不變特征,有效解決了角度回歸中的不連續(xù)性問題。然而,這些方法對高長寬比目標的特征捕獲能力不足,且過度依賴角度預(yù)測,導(dǎo)致檢測精度較低。
在角度表征方面,現(xiàn)有方法主要基于旋轉(zhuǎn)框、四邊形和頂點偏移3種方式進行表示。最早的旋轉(zhuǎn)框表征方法由RRPN提出,使用五參數(shù)旋轉(zhuǎn)邊界框表征,但由于角度參數(shù)設(shè)置的限制,其直接角度回歸難以涵蓋任意朝向。Yang等[提出了改進的平滑L1損失解決旋轉(zhuǎn)邊界框回歸中角度不連續(xù)問題。Yang等[\"]通過高斯分布Wasserstein距離實現(xiàn)幾何間接角度表征,并采用無邊界角度編碼克服角度周期性帶來的損失不連續(xù)性及回歸不一致問題。Hou等[]設(shè)計了自適應(yīng)點集方法,用于對象表示的語義信息捕獲,從而緩解角度回歸的敏感性。然而,上述基于回歸角度的方法盡管在一定程度上提升了檢測性能,但未能完全解決角度表征局限性導(dǎo)致的旋轉(zhuǎn)邊界框回歸突變問題。
由于旋轉(zhuǎn)檢測方法通常依賴高質(zhì)量的旋轉(zhuǎn)框標注數(shù)據(jù),而數(shù)據(jù)標注的成本較為昂貴,研究者逐步探索基于弱監(jiān)督學習的旋轉(zhuǎn)目標檢測方法。不同于全監(jiān)督方法,弱監(jiān)督方法僅需少量標注信息即可學習旋轉(zhuǎn)目標檢測。Khoreva等[12利用弱監(jiān)督語義標簽進行迭代訓(xùn)練,實現(xiàn)了接近于全監(jiān)督學習的分割任務(wù)效果。Hsu等[13]將多示例學習與實例分割相結(jié)合,實現(xiàn)端到端實例分割。Tian等[14提出基于無候選區(qū)域的實例分割方法,使用顏色成對親和性與邊界框約束取得了顯著的分割性能。Li等[15]在損失函數(shù)中引入了能量函數(shù)預(yù)測實例分割掩碼,通過分割掩碼生成旋轉(zhuǎn)邊界框,然而,在目標密集排列或復(fù)雜背景的場景中,分割掩碼效果不佳,影響了旋轉(zhuǎn)框預(yù)測的精度。Yang等[1提出H2RBox方法,通過繞過掩碼的中間形態(tài),利用兩種視角構(gòu)建幾何約束,通過水平邊界框直接學習旋轉(zhuǎn)框角度信息,在檢測精度方面顯著優(yōu)于基于分割的檢測模型?;贖2RBox, Yu 等[1進一步提出H2RBox-v2,通過引入軸對稱的旋轉(zhuǎn)一致性,進一步優(yōu)化了旋轉(zhuǎn)檢測器。上述方法采用弱監(jiān)督旋轉(zhuǎn)目標檢測,降低了對高質(zhì)量標注數(shù)據(jù)的依賴,推動了旋轉(zhuǎn)目標檢測技術(shù)的發(fā)展與應(yīng)用。但在角度表征和邊界框回歸方面,由于忽略了邊界框位置、縱橫比和比例等因素對角度預(yù)測的潛在影響,限制了其性能的進一步提升。
為應(yīng)對遙感場景中旋轉(zhuǎn)目標檢測算法中存在的計算復(fù)雜、成本高昂以及大長寬比目標角度回歸困難等挑戰(zhàn),本文在H2RBox的基礎(chǔ)上提出基于幾何表征學習弱監(jiān)督旋轉(zhuǎn)目標檢測器,旨在通過高質(zhì)量的角度表征提高弱監(jiān)督旋轉(zhuǎn)目標檢測精度。該模型采用弱監(jiān)督加自監(jiān)督雙分支結(jié)構(gòu),共享主十和頸部網(wǎng)絡(luò)。其中,弱監(jiān)督分支用于從水平框標簽中預(yù)測旋轉(zhuǎn)框的中心位置、縱橫比和尺度一致性,而自監(jiān)督分支,通過旋轉(zhuǎn)角度的向量表征提升旋轉(zhuǎn)一致性學習。為區(qū)分局部背景和加強目標特征表達,設(shè)計增強淺層特征模塊和上下文交互模塊,在高層特征中加強淺層特征表達,通過空洞深度卷積對非局部空間信息交互,擴大感受野,加強前后背景區(qū)別。解耦檢測頭模塊設(shè)計并行分支來解耦分類和回歸任務(wù),并在損失函數(shù)中引入基于邊界框頂點坐標的距離損失(FourPointsDistanceLoss,F(xiàn)PDLoss),用于緩解目標尺寸變化對角度精確度的依賴。
1弱監(jiān)督旋轉(zhuǎn)目標檢測模型
1.1 整體網(wǎng)絡(luò)結(jié)構(gòu)
本文提出幾何表征弱監(jiān)督旋轉(zhuǎn)目標檢測網(wǎng)絡(luò)WS-GRDet的總體框架如圖1所示,采用多分支的預(yù)測任務(wù),整體網(wǎng)絡(luò)分為弱監(jiān)督分支(WeaklySuper-vision,WS)和自監(jiān)督分支(SelfSupervision,SS)。自監(jiān)督分支進行原始輸人圖像旋轉(zhuǎn)增強的自監(jiān)督學習,其目的為獲得兩個視圖之間一致的預(yù)測旋轉(zhuǎn)框角度。弱監(jiān)督分支則是基于水平框標注,預(yù)測目標水平框的中心位置和長寬尺度以及類別,再與自監(jiān)督分支預(yù)測的角度特征重構(gòu)生成預(yù)測旋轉(zhuǎn)框回歸檢測結(jié)果。
特征提取部分采用雙分支共享主干和頸部網(wǎng)絡(luò),其結(jié)構(gòu)分為特征提取骨干、特征融合模塊以及解耦檢測頭3個部分。首先,采用 Swin Transformer[18]作為主干檢測網(wǎng)絡(luò),從原始圖像中提取不同尺度特征。為區(qū)分局部背景和加強目標特征表達,在特征融合部分設(shè)計了淺層特征增強模塊(ShallowFeatureEnhancementModule,SFEM)和上下文交互模塊(ContextualInteractionModule,CIM);在特征層橫向連接之前,對主干提取的淺層特征進行增強,并在高層特征中加強淺層特征表達;在上下文交互部分,通過空洞深度卷積對非局部空間信息交互,擴大感受野,加強前后背景區(qū)別。然后,將自監(jiān)督特征與弱監(jiān)督特征進行重構(gòu)組合。最后,通過包含分類子網(wǎng)絡(luò)和回歸子網(wǎng)絡(luò)的解耦檢測頭模塊實現(xiàn)目標的分類和回歸任務(wù)。
如圖2所示,主干網(wǎng)絡(luò)使用SwinTransformer作為骨干網(wǎng)絡(luò)。首先通過塊劃分過程,將原始 H×W×3 的輸入分割為一系列非重疊的同等規(guī)格的 N×P2×3 個圖像塊,網(wǎng)絡(luò)中 P 設(shè)置為4,每個圖像塊被視為一個單獨的圖像塊標記。因此,圖片經(jīng)過圖像塊分割操作后形成了一個 (N×P2×3=H/4×W/4×48) 維的扁平化2D圖像塊序列。此序列接著通過一個全連接層轉(zhuǎn)化成維度為( H/4×W/4)×C 的線性嵌入表示,該線性嵌入作為后續(xù)多個SwinTransformer模塊的輸入?;A(chǔ)構(gòu)成單元滑動窗口塊(SwinTrans-formerBlock)由前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成的多層感知機(MultilayerPerceptron,MLP)以及窗口分割多頭自注力W-MSA模塊組合而成。MLP由兩個全連接層構(gòu)成,并在它們之間插入了使用GELU激活函數(shù)的非線性變換層。在每個MSA模塊和MLP前進行輸入特征的歸一化處理。位窗口劃分方法引入了先前層非重疊相鄰窗口間的聯(lián)系,增強了特征的表達能力,通過多個滑動窗口塊移位分割可得到4個不同尺度的特征。
1.2 特征融合增強
相較于自然場景圖像,遙感場景圖像因其目標存在任意方向排列,且復(fù)雜背景中小目標的特征提取難度較大,使得自標檢測面臨更大的挑戰(zhàn),整體檢測性能亟需提升。特征金字塔網(wǎng)絡(luò) FPN[19] 可用于解決自然圖像中的尺度變化問題,通過自上而下的路徑融合高層特征和淺層特征,從而學習多尺度特征。一些方法采用新穎的結(jié)構(gòu)來提取并豐富目標的特征,例如:FRPNet[20]通過將更高層級的特征映射與相鄰的低層級特征映射相融合,進一步豐富了目標的細節(jié)信息; ABNet[21] 通過選擇性地細化不同特征圖以應(yīng)對多尺度和密集目標檢測;祝嚴剛等[22設(shè)計了一種非局部均值模塊,通過計算特征圖全局相似度捕獲長距離依賴關(guān)系,從而提升特征表示。然而,這些方法主要聚焦于增強上下層特征的表達能力,忽略了底層位置信息及細粒度上下文交互的提取,在遙感場景中的應(yīng)用效果不能令人滿意。
針對上述問題,本文對特征金字塔網(wǎng)絡(luò)進行改進,其結(jié)構(gòu)如圖3所示。本模型主要由淺層特征增強模塊SFEM和上下文交互模塊CIM構(gòu)成,旨在增強網(wǎng)絡(luò)對淺層特征的表達能力及上下文信息的交互效率,有效緩解復(fù)雜背景遮擋和淺層特征模糊等問題,從而提升遙感場景圖像的檢測性能。
具體而言,首先在頸部網(wǎng)絡(luò)中將主干網(wǎng)絡(luò)中的多個特征輸出層 Fi 作為輸人,經(jīng)過淺層特征增強模塊SFEM(結(jié)構(gòu)如圖4所示),利用骨干網(wǎng)絡(luò)獲得的多尺度特征 {F1,F(xiàn)2,F(xiàn)3,F(xiàn)4} 構(gòu)建特征金字塔。
考慮 F1 層特征中存在著大量淺層目標位置信息,在特征融合橫向連接之前,采用顯著性池化將主干提取的淺層特征 F1 通過自適應(yīng)平均池化層提取顯著性信息,用于不同尺度 {F2,F(xiàn)3,F(xiàn)4} 特征下的淺層特征傳遞,具體如式(1)所示:
而位置性池化通過在不同尺度的特征圖上選擇相同位置的特征進行聚合,如式(2)所示,采用自適應(yīng)最大池化操作聚合特征,從而在多尺度特征融合時保持位置信息的一致性。
式中: ? 為逐元素乘積; 為自適應(yīng)權(quán)重。具體來說,輸入特征經(jīng)過平均池化以及最大池化來獲取不同類型的池化特征,并通過全連接層壓縮通道維度,再經(jīng)過Sigmoid激活函數(shù)得到通道注意力權(quán)重
最后,通過卷積將兩部分特征融合得到增強的淺層特征 Fi' ,并傳遞至其他高層特征,有效解決了特征尺度變化時的淺層特征的位置細節(jié)丟失。
為增強特征空間、通道之間交互,提出了一種結(jié)合深度卷積與空洞深度卷積的上下文交互模塊,其結(jié)構(gòu)如圖5所示。模塊通過深度卷積 ConvDW 在通道內(nèi)實現(xiàn)局部空間信息的交互,同時空洞卷積ConvDC 解決非局部空間交互,從而顯著擴大了感受野。
為了封裝每個通道的全局信息和關(guān)鍵特征,設(shè)計了通道交互塊CIBlock,其結(jié)構(gòu)如圖6所示。通道交互塊采用了全均池化(Global AveragePooling,GAP)和全局最大池化(GlobalMaxPooling,GMP)。
通過全連接層來共享權(quán)值,將兩類池化特征連接,并通過另一個全連接層和Sigmoid激活函數(shù)傳遞,動態(tài)調(diào)整通道權(quán)重與輸入特征圖尺度。為緩解梯度消失或梯度爆炸問題,借鑒了 ResNet[23] 的設(shè)計思想。通過殘差連接得到最后的輸出,這樣的結(jié)構(gòu)不僅增強了加權(quán)效果,又有效保留了原始信息
Ai(x)=Wx+x
(4)式中: ?:Ai 為通道交互塊CIM; W 為通道交互塊的通道權(quán)重; x 為輸人通道; ConvDW 為深度卷積; ConvDC 為空洞卷積。
在特征提取的后續(xù)階段,在原有特征金字塔的基礎(chǔ)上對第四、第五階段的特征進行 3×3 卷積的上采樣后,最終得到5個尺度的特征。
1.3 解耦檢測頭
傳統(tǒng)目標檢測頭在遙感圖像中的應(yīng)用常出現(xiàn)檢測框選取不精確、部分目標框重疊等問題,在后處理階段易導(dǎo)致部分檢測框被過濾,從而引發(fā)目標漏檢現(xiàn)象。本文使用基于 FCOS[24] 檢測頭并改進,增加一條角度回歸支路,通過結(jié)合原有的水平框回歸支路生成旋轉(zhuǎn)框,其結(jié)構(gòu)如圖7所示。改進的檢測頭采用解耦設(shè)計,由分類和回歸兩部分組成。
首先將特征金字塔 P1-P5 和旋轉(zhuǎn)候選框作為輸入,分類子網(wǎng)絡(luò)中預(yù)測每個特征點的目標類別概率及中心性分數(shù),中心性分數(shù)通過度量特征點位置與目標框中心點之間的歸一化距離可有效削弱距離目標中心較遠的候選框置信度。回歸子網(wǎng)絡(luò)則包括角度向量回歸和邊界框回歸,后者預(yù)測每個特征點相對于該位置邊界框中心的偏移量與寬高距離。通過解碼后在特征圖的每個采樣位置都會得到候選框的角度、分類得分以及位置信息。
1.4幾何旋轉(zhuǎn)表征學習
旋轉(zhuǎn)矩形框是旋轉(zhuǎn)目標檢測的主要表征方式,通常采用5參數(shù)表示法,該方法通過直接或間接回歸5個參數(shù) (x,y,w,h,θ) ,分別對應(yīng)旋轉(zhuǎn)框的中心坐標、長寬尺寸以及目標朝向角度。角度的定義方式包括OpenCV表示法和長邊表示法。與 x 軸順時針方向的旋轉(zhuǎn)角度,在OpenCV表示法中,旋轉(zhuǎn)角度的范圍為 [0,-π/2] ,而長邊表示法中,角度為旋轉(zhuǎn)框長邊與 x 軸的夾角,范圍為 [-π/4,3π/4] 。當目標角度接近0或 ±π/2 時,角度回歸值出現(xiàn)突變,導(dǎo)致邊界框尺度發(fā)生劇烈變化,從而降低旋轉(zhuǎn)目標檢測的整體性能。
角度回歸可以通過角度編碼來實現(xiàn)更加穩(wěn)定的預(yù)測,常見的編碼方式包括密集編碼和稀疏編碼。密集編碼將旋轉(zhuǎn)角度 θ 轉(zhuǎn)換為 N 類表示,而稀疏編碼則是通過one -hot[25] 方式編碼,將角度離散化為特定的有限值區(qū)間。然而密集和稀疏編碼方式對角度的表示范圍有限,難以應(yīng)對連續(xù)角度的精確描述。余弦-正弦編碼通過將角度轉(zhuǎn)換成其對應(yīng)的余弦和正弦值表示,解決了角度的周期性問題,并且避免了單角度表示法中的邊界問題。高斯距離分布編碼則進一步將旋轉(zhuǎn)邊界框的角度表示轉(zhuǎn)化為基于二維高斯距離分布的連續(xù)值表示,通過無邊界編碼方式克服了角度周期性帶來的損失不連續(xù)性以及回歸不一致性問題。此外,Yang等[26]提出利用角度分類代替回歸方法,較好地解決了預(yù)測框邊的不連續(xù)性和角度周期導(dǎo)致的檢測精度下降問題。然而,角度編碼對大長寬比目標檢測較為敏感,限制了此類編碼方法在復(fù)雜場景中的適用性。
為提高角度表征精度,本文在自監(jiān)督分支中引入幾何向量表征,替代傳統(tǒng)的5參數(shù)角度回歸。通過長邊定義法預(yù)測旋轉(zhuǎn)框參數(shù) (x,y,w,h,θ) ,在笛卡爾坐標系,以候選框中心位置為原點,利用 x 軸作為參考向量,構(gòu)造了一組基于旋轉(zhuǎn)角度 θ 的正交向量組 {V1,V2} ,重構(gòu)的旋轉(zhuǎn)框表征為 (x,y,w,h,V1 ,V2 ),其表征過程如圖8所示。
具體而言,首先通過向量將旋轉(zhuǎn)框的長寬尺度和方向表征為基于旋轉(zhuǎn)方向的正交向量組,將該向量正交順時針旋轉(zhuǎn) 90° 得到另一個基向量。兩個正交基向量的大小表示旋轉(zhuǎn)框的寬度 w 和高度 h ,具體計算形式如式(5)所示:
式中 R(θ?θ) 為旋轉(zhuǎn)矩陣。預(yù)測候選框角度可由表征向量表示:
式中 |?| 為向量范數(shù)。模型在角度回歸后,通過公式(6)將角度表征轉(zhuǎn)換為對應(yīng)角度值。
1.5 損失函數(shù)
在自監(jiān)督分支中,為比較旋轉(zhuǎn)候選框和GT水平框的不同,使用向量集之間的相關(guān)性相似度(Vec-torSimilarity,VS)約束作為角度回歸的損失函數(shù),其計算過程如式(7)所示:
式中: Vip,Vig 分別表示預(yù)測框和GT框的向量集; N
為向量集的數(shù)量。
使用分類回歸子網(wǎng)絡(luò)預(yù)測水平邊界框,弱監(jiān)督分支損失函數(shù) Lws 主要由中心位置、類別以及邊界框3部分損失構(gòu)成,如式(8)所示:
Lws=μ1Lcls+μ2Lcn+
式中:分類損失 Lcls 使用焦點損失[5];交叉熵損失作為中心性損失 Lcn;μ1,μ2,μ3 分別表示 Lcls,Lcn,Lreg 的權(quán)重,通過驗證集實驗均設(shè)置為 l:cnpos 為正樣本預(yù)測中心; 1{ci,y}gt;0 為正負樣本判別器。
在邊界框回歸中提出四點歐式距離FPDIoU損失代替?zhèn)鹘y(tǒng)的RotatedIoU作為弱監(jiān)督的回歸損失Lreg ,其具體計算過程如式(9)所示:
式中: ;A,B 分別表示預(yù)測候選框和GT框; 為交并比; di2 為預(yù)測框與GT框角點的歐式距離的平方。引人
作為尺度偏移的懲罰項,用以約束由角度偏差導(dǎo)致的預(yù)測框邊界回歸差異,圖9展示了FPDIoU具體表示過程。
網(wǎng)絡(luò)的總損失采用弱監(jiān)督損失與自監(jiān)督角度表征損失的總和:
Ltotal=Lws+μssLvs
式中 μss 為自監(jiān)督分支的權(quán)重,在實驗中設(shè)置為1。
2 實驗結(jié)果與分析
2.1 數(shù)據(jù)集
本文使用遙感影像目標檢測中常用的DOTA[27]和 DIOR-R[28] 數(shù)據(jù)集。DOTA是最大的航空圖像檢測基準之一,包含了188282個實例,分布在2806張尺度不一的影像中,并覆蓋了15個常見類別,分別為飛機(PL)、輪船(SH)、儲罐(ST)、棒球場(BD)、網(wǎng)球場(TC)、籃球場(BC)、地面跑道(GTF)港口(HA)、橋梁(BR)大型車輛(LV)、小型車輛(SV)、直升機(HC)、環(huán)形交叉路口(RA)、足球場(SBF)游泳池(SP)。其中圖像尺寸變化幅度大,包含從 800×800 到 4000×4000 像素,涵蓋了不同尺度、朝向和幾何形狀的目標。DIOR-R是另一個常用的遙感檢測數(shù)據(jù)集,包含23463張高分辨率遙感圖像及190288個旋轉(zhuǎn)邊界框標注實例,覆蓋船舶、車輛、機場等20類典型地物目標。
2.2實驗環(huán)境與評價指標
2.2.1 實驗環(huán)境
整個模型構(gòu)建使用開源的有向目標檢測工具MMRotate實現(xiàn)并訓(xùn)練模型,所有實驗均在單個GPU的NVIDIAGeForceRTX3080TI上進行,其顯存容量為16GB,采用的深度學習框架為Pytorch2.0.1。構(gòu)建模型的主干網(wǎng)絡(luò)SwinTransformer,設(shè)定隨機深度率為0.2,窗口尺寸為 7×7 像素。在每個階段,多頭注意力的頭部數(shù)量按照2,6,12,24的順序分配。在訓(xùn)練階段,采用 log0 格式表示旋轉(zhuǎn)預(yù)測框,使用AdamW作為優(yōu)化算法,初始學習率設(shè)置為0.0001。在訓(xùn)練和測試時將圖像切分為 1024× 1024像素的子圖,子圖之間設(shè)置了500像素的重疊區(qū)域,訓(xùn)練最小周期設(shè)置為12輪。
2.2.2 評價指標
本文采用廣泛使用的目標檢測評估指標平均精度(MeanAveragePrecision,mAP)綜合評估算法的整體性能。計算所有類別的AP值的平均值,用于衡量目標檢測算法在多個類別上的總體表現(xiàn)。其中準確率、平均精度的定義分別如式(11)式(12)所示:
mAP50代表檢測結(jié)果與真實標注框的IOU重疊度為0.5時的平均精度值。本文主要采用mAP50作為評價指標,用于模型在數(shù)據(jù)集上的檢測表現(xiàn)。
2.3 結(jié)果分析
2.3.1 對比實驗
為驗證算法的先進性,將本文提出算法與部分主流旋轉(zhuǎn)目標檢測算法在遙感圖像DOTA數(shù)據(jù)集上進行對比。包括全監(jiān)督算法RetinaNet[5],(20 R3Det[29] ,RoI Transformer[6],Rotated FCOS[24] 以及弱監(jiān)督旋轉(zhuǎn)目標檢測算法BoxInst[14],BoxLevel-Set[15] ,H2RBox[16],在Dotav1.0數(shù)據(jù)集上比較實驗性能,其中相關(guān)方法均采用 ResNet50+FPN 作為主干和頸部網(wǎng)絡(luò)進行模型訓(xùn)練。對比實驗中各方法的檢測結(jié)果如表1所示,其中訓(xùn)練策略 1x,3x,ms 分別表示12輪、36輪、多尺度操作。
%
從表1可以看出,本文方法( ΔWS-GRDet 在所有方法中得到最高的 mAP 值,達到了 79.33% ,同時在小型車輛(SV)、大型車輛(LV)、輪船(SH)、儲罐(SP)等目標中的AP表現(xiàn)優(yōu)于其他先進的弱監(jiān)督旋轉(zhuǎn)目標檢測器。此外,相較于弱監(jiān)督旋轉(zhuǎn)目標檢測器H2Rbox在 1x,3x,3x+ms 訓(xùn)練配置下, mAP 分別提升了7.26,6.79,4.80個百分點。與R-FCOS相比,在某些類別的檢測性能仍有一定差距,但WS-GRDet的整體性能已接近全監(jiān)督檢測器的水平。
此外,本文還在DIOR-R數(shù)據(jù)集上實驗驗證了模型的性能,通過和其他方法在DIOR-R數(shù)據(jù)集上表現(xiàn)的對比,能夠看出WS-GRDet模型有良好的檢測性能。具體結(jié)果如表2所示。
2.3.2 消融實驗
為驗證模型不同分支對模型的貢獻,在DOTA數(shù)據(jù)集上分別驗證了弱監(jiān)督分支(WS)和自監(jiān)督分支(SS)對模型精度的影響。從表3可以看出,網(wǎng)絡(luò)移除弱監(jiān)督分支后,mAP下降9.79個百分點,表明WS分支通過水平框約束顯著提升了位置和尺度回歸的穩(wěn)定性。僅使用WS分支時,模型仍能達到72.82% 的mAP50,證明弱監(jiān)督分支有一定的檢測能力。而僅使用弱監(jiān)督分支對模型精度影響較大的原因是缺失自監(jiān)督分支的目標角度信息。
為進一步驗證算法的有效性,以WS-GRDet(Swin Transformer + FPN)方法為基準方法,在遙感場景DOTA數(shù)據(jù)集上分別對特征融合部分的淺層特征增強模塊SFEM和上下文交互模塊CIM、自監(jiān)督分支向量表征的角度回歸損失 Lvs 以及弱監(jiān)督邊界框回歸損失FPDIoU進行可行性實驗驗證分析。
特征融合模塊實驗結(jié)果如表4所示。分別嵌入SFEM和CIM模塊,mAP分別達到77. 53% ,78.94% ,相較于基線方法,嵌入SFEM模塊后,mAP取得了2.45個百分點的提升,而嵌人CIM模塊提升了3.86個百分點,充分體現(xiàn)了特征融合模塊對網(wǎng)絡(luò)模型性能提升的顯著效果。經(jīng)過分析,SFEM有效增強了高層特征中的淺層特征表達能力,解決了特征尺度變化導(dǎo)致的位置細節(jié)丟失問題。而CIM模塊強化模型在空間和通道的交互,擴大了特征融合部分的感受野,強化感興趣目標的特征,更容易準確地捕捉到目標位置信息,從而有效減少了漏檢和誤檢。
在損失函數(shù)消融部分,基準方法中自監(jiān)督的角度回歸采用平滑L1損失[5],而弱監(jiān)督分支采用旋轉(zhuǎn)IoU損失。實驗結(jié)果如表5所示,向量表征損失相較于平滑L1損失方法提升1.74個百分點,有效提升了角度回歸的精確性。
在回歸損失方面,弱監(jiān)督分支PFDIoU相比于基準RotatedIoU提升了3.86個百分點,改進的損失函數(shù)在弱監(jiān)督場景下具有明顯優(yōu)勢。改進的FPDIoU主要優(yōu)勢體現(xiàn)在預(yù)測長寬尺度較大的目標時利用尺度偏移的懲罰有效降低了預(yù)測候選框的尺度變化對回歸角度的依賴,而 Lvs 和FPDIoU相結(jié)合訓(xùn)練,邊界框在幾何回歸中的精度有所提升,進而提升了模型的訓(xùn)練精度。
3結(jié)論
本文基于H2Rbox范式,提出了一種基于幾何旋轉(zhuǎn)表征的弱監(jiān)督旋轉(zhuǎn)目標檢測模型WS-GRDet。在特征融合部分,通過SFEM和CIM模塊增強淺層特征表達和提高上下文細粒度,極大提升了特征提取的質(zhì)量;在自監(jiān)督回歸中,引入向量表征用于旋轉(zhuǎn)角度回歸學習,有效提高了角度準確性;在弱監(jiān)督回歸中,引入基于邊界框頂點坐標的距離損失,通過在旋轉(zhuǎn)交并比損失增加尺度變化的懲罰項,懲罰由于角度變化引起的邊界框回歸誤差。在公開遙感數(shù)據(jù)集DOTA和DIOR-R上進行了測試,相較于基準模型,本文方法平均精度分別提升了4.80個百分點和1.50個百分點,分別達到 79.33% 和 58.50% 。在基于水平框標注數(shù)據(jù)的條件下,提升準確率的同時顯著降低了計算量和復(fù)雜度。
參考文獻
[1]聶光濤,黃華.光學遙感圖像目標檢測算法綜述[J]. 自動化學報,2021,47(8):1749-1768.
[2]SHAFIQUE A, CAO G, KHAN Z, et al. Deep learningbased change detection in remote sensing images:a review[J].Remote Sensing,2022,14(4):871.
[3]CAO D, ZHU X Y,HUANG X Y,et al. Domain balancing:face recognition on long-tailed domains[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2020:5670-5678.
[4]MAJQ,SHAO WY,YEH,et al.Arbitrary-oriented scene text detection via rotation proposals[J]. IEEE Transactions on Multimedia,2018,20(11): 3111 -3122.
[5]LIN T Y,GOYAL P,GIRSHICK R, et al. Focal loss for dense object detection[C]//2O17 IEEE International Conference on Computer Vision(ICCV). IEEE,2017: 2999 -3007.
[6] DING J,XUE N,LONG Y,et al. Learning RoI transformer for oriented object detection in aerial images[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). IEEE,2019:2844-2853.
[7] YANG Z,LIU SH,HU H,et al.RepPoints:point set representation for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE,2019:9656-9665.
[8]HAN JM,DING J,XUE N,et al. ReDet:A rotationequivariant detector for aerial object detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2021: 2786-2795.
[9] YANG X,YANGJR,YANJC,et al.SCRDet:towards more robust detection for small,cluttered and rotated objects[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE,2019: 8231 -8240.
[10]YANG X,YAN J,MING Q,et al. Rethinking rotated object detection with gaussian wasserstein distance loss[C]// Proceedings of the International Conference on Machine Learning.PMLR,2021,139:11830-11841.
[11] HOU L P,LU K, YANG X,et al. G-rep: Gaussian representation for arbitrary-oriented object detection[J].Remote Sensing,2023,15(3) : 757.
[12]KHOREVA A,BENENSON R,HOSANG J,et al. Simple does it:Weakly supervised instance and semantic segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE,2017: 1665-1674.
[13]HSU C C,HSU K J,TSAI C C,et al. Weakly supervised instance segmentation using the bounding box tightness prior[C]// Advances in Neural Information Processing Systems 32(NeurIPS 2019),2019:32.
[14]TIANZ, SHEN CH,WANGXL,et al.BoxInst:high-performance instance segmentation with box annotations[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2021: 5439-5448.
[15]LI W T,LIU WY, ZHU J K,et al. Box - supervised instance segmentation with level set evolution[C]// Computer Vision- ECCV 2022. Cham:Springer Nature Switzerland,2022:1-18.
[16]YANG X,ZHANG G,LIW,et al. H2Rbox:Horizontal box annotation is all you need for oriented object detection [EB/OL]//(2022.12.13). https://doi.org/10. 48550/arXiv.2210.06742.
[17]YU Y, YANG X,LI Q Y,et al. H2RBox -v2 : Incorporating symmetry for boosting horizontal box supervised oriented object detection[C]//Proceedings of the Advances in Neural Information Processing Systems 36 (NeurIPS 2023)Conference,2023,59137-59150.
[18]LIU Z, LIN Y T, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE,2021:9992-10002.
[19]LIN T Y,DOLLAR P, GIRSHICK R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2017:936-944.
[20]WANG JY,WANG Y Z,WU Y L,et al. FRPNet:a feature-reflowing pyramid network for object detection of remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters,2020,19:8004405.
[21]LIU YF,LIQ,YUAN Y,et al.ABNet:adaptive balanced network for multiscale object detection in remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing,2021, 60: 5614914.
[22]祝嚴剛,張桂梅.一種改進的非局部均值圖像去噪算 法[J].計算機工程與應(yīng)用,2017,53(18):192-198.
[23]HEKM,ZHANGXY,RENSQ,et al.Deep residual learning for image recognition[C]//2016 IEEE Conferenceon Computer Vision and Pattern Recognition (CVPR). IEEE,2016:770-778.
[24]TIAN Z, SHEN CH,CHEN H, et al. FCOS: fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). IEEE,2019:9626-9635.
[25]YANG X,HOULP,ZHOUY,et al.Dense label encoding forboundary discontinuity free rotation detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2021:15814-15824.
[26]YANGX,YANJC.Onthearbitrary-orientedobject detection:classification based approaches revisited[J].InternationalJournalofComputerVision,2022, 130(5):1340-1365.
[27]XIA G S,BAI X,DINGJ,et al. DOTA:a large-scale dataset for object detectionin aerial images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:3974-3983.
[28]LI K,WANG,CHENG G,et al.Object detection in op tical remote sensing images:a survey and a new benchmark[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2020,159:296-307.
[29]YANGX,YANJC,F(xiàn)ENGZM,etal.R3Det:refined single-stage detectorwith feature refinement for rotating object[C]//Proceedings of the AAAI Conference on ArtificialIntelligence,2021,35(4):3163-3171.