亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于幾何適應(yīng)與全局感知的遙感圖像目標(biāo)檢測算法

        2023-03-24 13:25:40顧勇翔藍(lán)鑫伏博毅秦小林
        計(jì)算機(jī)應(yīng)用 2023年3期
        關(guān)鍵詞:特征檢測

        顧勇翔,藍(lán)鑫,伏博毅,秦小林*

        (1.中國科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所,成都 610041;2.中國科學(xué)院大學(xué),北京 100049)

        0 引言

        近年來,隨著航天遙感技術(shù)的不斷發(fā)展,遙感圖像數(shù)據(jù)不斷豐富,而且遙感數(shù)據(jù)中含有飛機(jī)、車輛、橋梁等敏感目標(biāo),因此對遙感圖像進(jìn)行目標(biāo)檢測在國防安全、災(zāi)害預(yù)測、智慧城市建設(shè)等領(lǐng)域具有重要意義。

        自2012年AlexNet[1]被提出,卷積神 經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)已經(jīng)從根本上改變了計(jì)算機(jī)視覺任務(wù)的處理方式。借助CNN 強(qiáng)大的特征表達(dá)能力,圖像分類[2]、目標(biāo)檢測[3]及語義分割[4]等任務(wù)的性能取得了巨大提升。在COCO(Common Objects in COntext)[5]目標(biāo)檢測任務(wù)中,測試集的平均精度均值(mean Average Precision,mAP)已經(jīng)提升到63.1%[6],表現(xiàn)出不俗的性能?;谏窠?jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法主要分為以R-CNN(Region-based Convolution Neural Network)[7]為代表的兩階段檢測器和以YOLO(You Only Look Once)[8]系列為代表的單階段檢測器。它們最主要的區(qū)別在于:單階段檢測器直接在特征圖上生成候選框,而兩階段檢測器通過額外的區(qū)域建議網(wǎng)絡(luò)生成候選框。Faster R-CNN(Faster R-CNN)[9]是經(jīng)典的兩階段檢測器,它將特征提取、區(qū)域建議、邊界回歸和分類集成到一個(gè)框架中,顯著提高了檢測性能;然而,額外的區(qū)域建議網(wǎng)絡(luò)需要大量的計(jì)算資源,限制了處理速度。而經(jīng)典的單階段檢測器YOLO 結(jié)合前沿技術(shù)迭代更新,具有良好的實(shí)時(shí)性。

        遙感圖像目標(biāo)檢測算法大多由通用目標(biāo)檢測算法改進(jìn)而來。雖然這些算法能夠在自然場景的數(shù)據(jù)集上表現(xiàn)出良好的檢測性能,但是遙感圖像存在背景復(fù)雜、目標(biāo)方向任意和目標(biāo)尺寸小等問題,傳統(tǒng)的CNN 難以有效提取遙感圖像目標(biāo)的幾何特征和全局信息,檢測效果不佳。

        為提高遙感圖像目標(biāo)檢測的精度,本文基于YOLOv5[10]提出一種基于幾何適應(yīng)與全局感知的遙感圖像目標(biāo)檢測算法。本文的主要工作有:1)針對遙感圖像目標(biāo)尺寸小、目標(biāo)方向任意的問題,將可變形卷積和自適應(yīng)空間注意力模塊通過密集連接串聯(lián)堆疊,然后構(gòu)建密集上下文感知模塊(Dense Context-Aware Module,DenseCAM),進(jìn)一步學(xué)習(xí)對遙感目標(biāo)幾何形變具有穩(wěn)健性的深度特征,以解決普通卷積對局部幾何特征提取不足的問題;2)針對遙感圖像背景復(fù)雜的問題,在骨干網(wǎng)絡(luò)末端引入Transformer,以較小的開銷增強(qiáng)全局特征的提取能力,通過挖掘遙感圖像全局背景信息進(jìn)一步增強(qiáng)模型的分類能力;3)聯(lián)合使用局部上下文和全局信息,形成特征互補(bǔ),進(jìn)一步提高遙感圖像目標(biāo)檢測精度。

        1 相關(guān)工作

        1.1 YOLO算法基本原理

        YOLOv1[8]將目標(biāo)檢測視為單一的回歸問題,通過CNN直接在一張完整的圖像上預(yù)測目標(biāo)類別概率并進(jìn)行邊界框回歸。首先將輸入圖像劃分為一定大小的網(wǎng)格,每個(gè)網(wǎng)格負(fù)責(zé)檢測中心上的目標(biāo);然后根據(jù)CNN 提取的特征一次性預(yù)測目標(biāo)的邊界框位置、大小、定位置信度以及所有類別概率向量;最后通過非極大值抑制算法進(jìn)行后處理。

        YOLO 算法經(jīng)歷數(shù)次更新迭代,在目標(biāo)檢測領(lǐng)域表現(xiàn)突出。YOLOv5 是最新版本,融合了許多高效的技術(shù)。在骨干網(wǎng)絡(luò)中,使用跨階段局部(Cross Stage Partial,CSP)[11]網(wǎng)絡(luò),降低計(jì)算開銷并優(yōu)化梯度更新過程,使用空間金字塔池化(Spatial Pyramid Pooling,SPP)[12]模塊融合不同感受野特征;在特征融合網(wǎng)絡(luò)中,使用PANe(tPath Aggregation Network)[13]增強(qiáng)信息流動并聚合特征;使用廣義交并比(Generalized Intersection over Union,GIoU)[14]增強(qiáng)對實(shí)例尺度的感知;使用K-means 聚類算法生成適應(yīng)數(shù)據(jù)集實(shí)例分布的錨點(diǎn)框;使用Mixup[15]和Mosic[16]進(jìn)行數(shù) 據(jù)增強(qiáng);使 用SiLU(Sigmoidweighted Linear Units)[17]增強(qiáng)網(wǎng)絡(luò)的非線性映射能力。

        1.2 面向遙感場景的目標(biāo)檢測優(yōu)化算法

        CNN 已被應(yīng)用于遙感目標(biāo)檢測領(lǐng)域,但遙感圖像是俯瞰拍攝,與自然場景圖像存在較大差異,它的特點(diǎn)為目標(biāo)尺寸小、目標(biāo)方向任意和背景復(fù)雜,因此遙感目標(biāo)檢測是一個(gè)亟待解決的任務(wù)。為解決遙感圖像密集區(qū)域中目標(biāo)形變的問題,高鑫等[18]在CNN 中引入可變形卷積和可變形感興趣區(qū)域(Region of Interest,RoI)池化模塊[19]增強(qiáng)網(wǎng)絡(luò)對幾何變換的建模能力,提高了密集區(qū)域車輛目標(biāo)的檢測性能,但未關(guān)注遙感圖像復(fù)雜背景的問題。為解決遙感目標(biāo)易受背景相似物干擾的問題,胡滔[20]在分類檢測頭中引入雙路徑通道注意力模塊,減弱噪聲區(qū)域通道的特征響應(yīng)并增強(qiáng)分類特征。針對遙感目標(biāo)尺度多樣的問題,田婷婷等[21]在特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[22]中,使用空洞卷積代替普通卷積并增加跳躍連接操作以實(shí)現(xiàn)遙感場景下的多尺度特征融合。此外,遙感圖像往往包含更多的背景噪聲,從而導(dǎo)致目標(biāo)的邊界信息模糊,難以有效提取目標(biāo)的幾何信息。Xu等[23]將淺層特征和采樣后的深層特征以相同尺度融合來解決特征提取不充分的問題。汪亞妮等[24]在SSD(Single Shot multibox Detector)模型中引入注意力分支,與檢測分支融合得到了更加豐富的語義信息。

        從目標(biāo)檢測流程來看,骨干網(wǎng)絡(luò)提取的特征是后續(xù)特征融合的基礎(chǔ),具有重要意義。但是目前許多遙感目標(biāo)檢測工作并沒有關(guān)注骨干網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)?;仡欉b感圖像的成像過程與待檢測目標(biāo)特點(diǎn),本文在骨干網(wǎng)絡(luò)的設(shè)計(jì)上獲得如下啟發(fā):1)遙感圖像呈現(xiàn)的視角為俯視圖,目標(biāo)尺寸小且方向任意,通過增強(qiáng)局部幾何特征建模,有利于增強(qiáng)定位能力。2)遙感圖像俯瞰拍攝,包含更多的空間信息,背景復(fù)雜,通過綜合全局信息挖掘同類共性特征,有利于增強(qiáng)分類能力。

        2 改進(jìn)的YOLOv5目標(biāo)檢測算法

        2.1 網(wǎng)絡(luò)結(jié)構(gòu)

        本文基于YOLOv5 提出一種基于幾何適應(yīng)與全局感知的遙感圖像目標(biāo)檢測算法,由骨干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)、檢測頭三部分組成,如圖1 所示。其中:Ci是輸入圖像進(jìn)行2i倍降采樣后生成的特征圖;骨干網(wǎng)絡(luò)輸出對應(yīng)整張輸入圖像的特征圖;特征融合網(wǎng)絡(luò)使用PANet 融合C3~C6的多層次特征圖以獲取多尺度信息;檢測頭則基于候選框進(jìn)行分類與位置回歸;P3~P6為融合C3~C6后生成的新的特征圖。改進(jìn)算法保留了骨干網(wǎng)絡(luò)淺層的跨階段局部網(wǎng)絡(luò)設(shè)計(jì),將SPP 模塊替換為DenseCAM,增強(qiáng)對局部幾何特征的建模能力;在骨干網(wǎng)絡(luò)末端引入 Transformer,使用 C3TR(Cross stage partial bottleneck with 3 convolutions and TRansformer)模塊代替原始全卷積操作,增強(qiáng)模型的全局信息感知能力。

        圖1 改進(jìn)YOLOv5s6的框架Fig.1 Framework of improved YOLOv5s6

        2.2 密集上下文感知模塊DenseCAM

        在遙感目標(biāo)檢測任務(wù)中,局部上下文信息對提高定位能力至關(guān)重要,因?yàn)樗梢蕴峁╊~外的定位相關(guān)信息。所提DenseCAM 模塊如圖2 所示,由包含通道壓縮函數(shù)fC、可變形卷積v2(Deformable Convolution Network v2,DCNv2)[25]和自適應(yīng)空間注意力模塊(Adaptive Spatial Attention Module,ASAM)的基本結(jié)構(gòu)使用密集連接串聯(lián)堆疊兩次構(gòu)成。

        圖2 DenseCAM模塊結(jié)構(gòu)Fig.2 Module structure of DenseCAM

        為學(xué)習(xí)變換不變性特征并提取豐富的多尺度上下文信息,首先引入可變形卷積。在卷積運(yùn)算的位置上引入偏移量,可變形卷積可以有效提取幾何語義信息,但同時(shí)也會丟失部分位置信息。DCNv2 引入擴(kuò)展變形建模范圍的調(diào)制機(jī)制后該問題會更嚴(yán)重。

        為緩解DCNv2 造成的定位信息丟失,引入ASAM 細(xì)化特征,整體結(jié)構(gòu)如圖3 所示。受CBAM(Convolutional Block Attention Module)[26]中空間注意力的啟發(fā),除了在每個(gè)位置的所有通道上進(jìn)行最大池化與平均池化操作,還引入1× 1卷積作為可學(xué)習(xí)池化層,自適應(yīng)地計(jì)算每個(gè)位置與任務(wù)相關(guān)的統(tǒng)計(jì)信息,然后將3 張統(tǒng)計(jì)信息圖拼接后使用7× 7 卷積生成注意力系數(shù)圖。ASAM 的計(jì)算過程如下:

        圖3 ASAM模塊結(jié)構(gòu)Fig.3 Module structure of ASAM

        其中:F為輸入特征圖;C為特征圖F的通道 數(shù);f1×1(·)、f7×7(·)分別表示核大小為1× 1 與7× 7 的卷積運(yùn)算;S為Sigmoid 激活函數(shù);?為逐元素相乘運(yùn)算;[C→1 ]代表通道 數(shù)變?yōu)?。

        密集連接拼接所有層的輸入,然后傳遞給之后的所有層,以加強(qiáng)特征傳遞并優(yōu)化梯度更新??紤]到運(yùn)算效率,在DenseCAM 中使用通道壓縮函數(shù)fC在通道維度拼接輸入的各尺度特征圖,然后將通道數(shù)壓縮為輸入特征圖F的1/4。

        與SPP 模塊提取固定感受野的多尺度特征不同,DenseCAM 模塊通過DCNv2 根據(jù)上下文內(nèi)容動態(tài)調(diào)節(jié)局部感受野范圍;通過ASAM 進(jìn)行特征選擇,抑制與任務(wù)無關(guān)的信息;通過密集連接實(shí)現(xiàn)多尺度特征的深度融合。在構(gòu)建DenseCAM 模塊時(shí),ASAM 模塊不改變特征圖通道數(shù),兩個(gè)DCNv2 模塊的初始膨脹系數(shù)d分別設(shè)為1、2。

        2.3 Transformer

        遙感目標(biāo)(飛機(jī)、汽車等)往往與全局背景存在密切關(guān)聯(lián),即飛機(jī)常出現(xiàn)在停機(jī)坪,而汽車常出現(xiàn)在停車場及公路。傳統(tǒng)堆疊卷積層的操作雖然能在一定程度上增加感受野范圍,但文獻(xiàn)[19]指出普通卷積的有效感受野增長與網(wǎng)絡(luò)堆疊深度呈平方根關(guān)系,表明該操作低效且開銷大。另一方面,僅一層Transformer[27]即可實(shí)現(xiàn)全局依賴,對解決高分辨率遙感圖像全局信息提取效率低的問題具有一定的優(yōu)越性。

        Transformer 是一個(gè)完全基于自注意力機(jī)制的模型,它利用自注意力機(jī)制從全局自適應(yīng)地聚合相似特征,增強(qiáng)模型的特征表達(dá)能力。對于遙感目標(biāo)檢測,使用Transformer 進(jìn)行全局特征建模能夠挖掘同類別實(shí)例間的全局共性特征,有利于增強(qiáng)模型的分類能力。自注意力機(jī)制的計(jì)算過程如下所示:

        其中:X為輸入特征圖;fQ(·)、fK(·)、fV(·)為線性映射函數(shù);n為X的通道數(shù);Q、K、V一般稱為查詢、鍵和值。

        通過相似度權(quán)值的計(jì)算,Transformer 過濾低匹配的噪聲信號,增強(qiáng)高匹配的特征加權(quán)。Transformer 的計(jì)算復(fù)雜度和空間復(fù)雜度與輸入特征圖的空間尺寸平方呈正比,將它置于骨干網(wǎng)絡(luò)末端能以較低的開銷增強(qiáng)模型的全局感知能力。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集

        為驗(yàn)證本文改進(jìn)YOLOv5 算法的有效性,在UCASAOD[28]與RSOD[29]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。其中:UCAS-AOD 數(shù)據(jù)集采集于Google Earth,圖像大小為1 280×659~1 372×940,包含1 000 張飛機(jī)圖像、510 張汽車圖像和900 張負(fù)樣本圖像,共標(biāo)注14 596 個(gè)目標(biāo)。RSOD 數(shù)據(jù)集來源于Google Earth和天地圖,圖像大小為512×512~1 083×923,包含446 張飛機(jī)圖像、165 張油箱圖像、176 張立交橋圖像和189 張操場圖像,共標(biāo)注6 950 個(gè)目標(biāo)。將RSOD 數(shù)據(jù)集中存在的40 張未標(biāo)注操場圖像直接剔除,因此實(shí)驗(yàn)時(shí)RSOD 數(shù)據(jù)集中操場圖像數(shù)量為149。實(shí)驗(yàn)時(shí)首先將數(shù)據(jù)集中的原標(biāo)簽轉(zhuǎn)換為適合YOLO 訓(xùn)練的格式,然后按照文獻(xiàn)[30]的數(shù)據(jù)劃分方式,將每類圖像按8∶1∶1 隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測試集。

        3.2 評估指標(biāo)

        采用mAP@0.5 和mAP@0.5∶0.95 進(jìn)行性能評估,它的大小與網(wǎng)絡(luò)性能的好壞呈正相關(guān)關(guān)系。其中:平均精確度(Average Precision,AP)為P-R曲線下 的面積;精確率P(Precision)表示預(yù)測為正例中真正例的比例;召回率R(Recall)表示所有正樣本中被正確預(yù)測出來的比例。各指標(biāo)計(jì)算公式如下:

        其中:NTP為被正確分類的正例樣本數(shù);NFP為被錯分為正例的負(fù)例樣本數(shù);NFN為被錯分為負(fù)例的正例樣本數(shù);NC為類別數(shù)。mAP@0.5 表示交并比(Intersection over Union,IoU)為0.5 時(shí)AP 的均值,記為AP50;mAP@0.5∶0.95 表示IoU 從0.5取到0.95,間隔為0.05 時(shí)AP 的均值,記為mAP。P、R均在IoU=0.5 時(shí)統(tǒng)計(jì)。

        3.3 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

        實(shí)驗(yàn)基于YOLOv5 官方開源項(xiàng)目實(shí)現(xiàn),使用YOLOv5s6作為基本配置,所有實(shí)驗(yàn)均在1 塊NVIDIA RTX3090(24 GB顯存)上進(jìn)行,Pytorch 版本為1.9.0。實(shí)驗(yàn)前首先利用COCO數(shù)據(jù)集對各模型的骨干網(wǎng)絡(luò)及特征融合網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。

        與YOLOv5 默認(rèn)參數(shù)一致,實(shí)驗(yàn)時(shí)輸入圖像尺寸設(shè)為1 280×1 280,初始學(xué)習(xí)率設(shè)為0.01,動量設(shè)為0.937,衰減系數(shù)設(shè)為0.000 5,Batch size 設(shè)為16,使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器。訓(xùn)練Epochs 設(shè)為200,訓(xùn)練過程中,前3 個(gè)Epoch 使用Warmup 算法進(jìn)行預(yù)熱;輸出預(yù)測結(jié)果后,使用非極大值抑制算法進(jìn)行后處理。

        3.4 結(jié)果分析

        為驗(yàn)證改進(jìn)的YOLOv5 算法對遙感圖像目標(biāo)檢測的有效性,在測試集上進(jìn)行性能驗(yàn)證,除精度指標(biāo)外,還統(tǒng)計(jì)了參數(shù)量與浮點(diǎn)數(shù)運(yùn)算量,并與工業(yè)中廣泛使用的YOLOv3-SPP(Spatial Pyramid Pooling)算法進(jìn)行對比,結(jié)果如表1 所示。

        表1 不同算法在UCAS-AOD與RSOD數(shù)據(jù)集上的檢測結(jié)果對比Tab.1 Comparison of detection results of different algorithms on the UCAS-AOD and RSOD datasets

        在UCAS-AOD 數(shù)據(jù)集上,本文算法對全部類別的AP50、mAP 分別為96.7%、65.8%,相較于YOLOv3-SPP 分別提高了0.6、1.1 個(gè)百分點(diǎn),相較于YOLOv5s6 分別提高了1.2、1.8 個(gè)百分點(diǎn)。本文算法對汽車、飛機(jī)兩類典型遙感小目標(biāo)的AP50、mAP 具有明顯優(yōu)勢,具備良好的小目標(biāo)檢測性能,能從弱語義的目標(biāo)中提取更強(qiáng)的特征。

        在RSOD 數(shù)據(jù)集上,本文算法的AP50相較于YOLOv3-SPP、YOLOv5s6 分別下降了2.8、0.1 個(gè)百分點(diǎn),表明本文算法具有一定的局限性。從各類別目標(biāo)檢測精度來看,本文算法對油罐類別目標(biāo)的檢測效果不佳,這可能是因?yàn)橛凸揞伾皫缀涡螤顔我?,且分布密集,傳統(tǒng)卷積在正方形感受野下就能獲得較好的特征表示,而DenseCAM 模塊在計(jì)算位置偏移時(shí)易受相鄰實(shí)例和陰影輪廓影響,對背景相似物給出了較低置信度的誤判,該問題在實(shí)際工程上可以通過設(shè)置高置信度閾值緩解。對于飛機(jī)類目標(biāo),本文算法的AP50為94.4%,取得了該類別的最高值,表明針對小目標(biāo)檢測具備一定優(yōu)勢。而本文算法在更苛刻的mAP 指標(biāo)上相較于YOLOv3-SPP、YOLOv5s6 分別提高了1.4、1.5 個(gè)百分點(diǎn),表明本文算法能夠更精確地定位目標(biāo)示例,具備良好的邊界特征提取能力。YOLOv3-SPP 雖然在AP50上取得了最佳性能表現(xiàn),但mAP 表現(xiàn)不佳,表明它更適合低精度檢測任務(wù),對背景相似物表現(xiàn)出良好的魯棒性,但同時(shí)對邊界信息提取不足。

        本文算法在兩個(gè)數(shù)據(jù)集上的mAP 均優(yōu)于YOLOv3-SPP和YOLOv5s6,說明通過嵌入DenseCAM 與Transformer 可以提高遙感目標(biāo)檢測精度。從模型效率上來看,本文算法顯著優(yōu)于YOLOv3-SPP 算法,在取得相同量級性能的情況下,參數(shù)量、運(yùn)算量為YOLOv3-SPP 算法的21.9%、10.9%。相較于YOLOv5s6,本文算法雖然在參數(shù)量上增加了10.5%,但在運(yùn)算量上僅增加了1.2%,檢測效率較高。

        在測試集上對YOLOv5s6 與本文算法進(jìn)行可視化對比,檢測結(jié)果如圖4、5 所示。可以看出,無論是飛機(jī)、車輛等小目標(biāo),還是立交橋、操場等大目標(biāo),本文算法均能取得較為理想的檢測結(jié)果。得益于DenseCAM 模塊對局部幾何特征的有效提取與Transformer 的全局感知能力,本文算法提高了遙感目標(biāo)檢測精度。

        對于圖4 的汽車目標(biāo),本文算法能夠檢出UCAS-AOD 數(shù)據(jù)集中漏標(biāo)且被YOLOv5s6 漏檢的汽車實(shí)例,表明本文算法具備良好的魯棒性。

        對于圖5 的飛機(jī)目標(biāo),本文算法能夠檢出被YOLOv5s6漏檢的飛機(jī)實(shí)例;對于立交橋目標(biāo),立交橋的YOLO 格式[8]真實(shí)坐 標(biāo)標(biāo)簽 為(0.472 093,0.534 670,0.642 791,0.388 950),YOLOv5s6 預(yù)測為(0.392 093,0.558 505,0.447 442,0.399 783),與真值的IoU 為63.0%;本文算法預(yù)測為(0.466 977,0.537 378,0.699 535,0.411 701),與真值的IoU 為86.8%,相較于YOLOv5s6 提高了23.8 個(gè)百分點(diǎn),表明本文算法能夠更精確地定位立交橋位置,提取更強(qiáng)的邊界特征。

        圖5 在RSOD數(shù)據(jù)集上的檢測示例Fig.5 Detection examples on RSOD dataset

        為探究YOLOv5s6 與本文算法在骨干網(wǎng)絡(luò)上對特征的學(xué)習(xí)差異,在UCAS-AOD 測試集上通過熱力圖可視化骨干網(wǎng)絡(luò)不同階段特征圖的前4 個(gè)通道,結(jié)果如圖6 所示。可以看到,在具有相同網(wǎng)絡(luò)結(jié)構(gòu)(第3~5 階段)的特征圖上兩者差異較小,而在修改部分(第6 階段)的特征圖上則差異較大,表明不同網(wǎng)絡(luò)結(jié)構(gòu)能夠引導(dǎo)不同類型特征的學(xué)習(xí)。

        圖6 在UCAS-AOD數(shù)據(jù)集上的骨干網(wǎng)絡(luò)特征圖可視化Fig.6 Visualization of feature maps of backbone network on UCAS-AOD dataset

        3.5 消融實(shí)驗(yàn)

        為驗(yàn)證各模塊的有效性,在樣本量更大的UCAS-AOD 數(shù)據(jù)集上開展消融實(shí)驗(yàn):將Transformer、CAM 與DenseCAM 依次嵌入YOLOv5s6 模型,結(jié)果如表2 所示。其中:CAM 舍棄了DenseCAM 中的密集連接,在未使用通道壓縮函數(shù)的情況下將DCNv2 和ASAM 串聯(lián)堆疊兩次。可以看出,在嵌入各單個(gè)模塊后,均能獲得比YOLOv5s6 更好的性能。嵌入CAM 模塊后,AP50與mAP 分別提升了1.0 與1.0 個(gè)百分點(diǎn)。在進(jìn)一步結(jié)合密集連接后,DenseCAM 模塊在AP50與mAP 上分別帶來了1.0 與1.1 個(gè)百分點(diǎn)的性能提升。由于DenseCAM 在密集連接時(shí)使用通道壓縮函數(shù)降低中間特征圖的通道維度,在取得與CAM 相近性能的情況下參數(shù)量與浮點(diǎn)數(shù)運(yùn)算量分別減少了18.0%與2.8%,降低了模型復(fù)雜度。通過挖掘局部上下文信息并融合豐富的多尺度信息,DenseCAM 模塊能夠有效建模目標(biāo)實(shí)例的輪廓特征,高效地提高定位精度。在嵌入Transformer 后,AP50與mAP 分別提升了0.3 與0.6 個(gè)百分點(diǎn),由于網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)時(shí)考慮了Transformer 復(fù)雜度,在骨干網(wǎng)絡(luò)末端將其引入,因此改進(jìn)算法在幾乎不增加參數(shù)量的情況下,浮點(diǎn)數(shù)運(yùn)算量甚至比原始YOLOv5 算法更少。在結(jié)合Transformer 與DenseCAM 模塊后,AP50與mAP 均獲得了最佳性能。Transformer 與DenseCAM 模塊在mAP 上分別帶來0.6與1.1 個(gè)百分點(diǎn)的性能提升,而結(jié)合兩個(gè)模塊后mAP 提高了1.8 個(gè)百分點(diǎn),表明局部上下文信息和全局信息相輔相成,形成了特征互補(bǔ),能夠有效提高遙感圖像目標(biāo)檢測精度。

        表2 UCAS-AOD數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.2 Results of ablation study on UCAS-AOD dataset

        4 結(jié)語

        遙感圖像目標(biāo)檢測具有重要研究意義,本文在YOLOv5基礎(chǔ)上提出了一種基于幾何適應(yīng)與全局感知的遙感圖像目標(biāo)檢測算法。針對遙感圖像目標(biāo)尺寸小、目標(biāo)方向任意的問題,將SPP 模塊替換為密集上下文感知模塊DenseCAM,以增強(qiáng)模型對目標(biāo)實(shí)例局部幾何特征的提取能力。針對遙感圖像背景復(fù)雜的問題,在骨干網(wǎng)絡(luò)末端引入Transformer,以較低的開銷增強(qiáng)模型全局感知能力。實(shí)驗(yàn)結(jié)果表明:與基線模型相比,借助局部上下文特征和全局特征提供的額外定位與分類信息,本文算法能夠有效提高遙感圖像目標(biāo)檢測精度。雖然本文算法能夠帶來一定的性能改善,可以更精確地定位目標(biāo)實(shí)例,但在某些場景下仍易受背景相似物干擾。后續(xù)工作將繼續(xù)根據(jù)遙感場景特性進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),著眼于實(shí)際場景需求,構(gòu)建魯棒性更強(qiáng)的高精度遙感目標(biāo)檢測算法。

        猜你喜歡
        特征檢測
        抓住特征巧觀察
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        “幾何圖形”檢測題
        “角”檢測題
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        吃下面吃胸在线看无码| 日本按摩偷拍在线观看| 国产免费三级av在线| 人人爽久久涩噜噜噜丁香| 亚洲羞羞视频| 亚洲一区二区av偷偷| 美女视频一区二区三区在线| 99久久超碰中文字幕伊人| 免费无码av片在线观看网址| 日韩在线视频不卡一区二区三区| 亚洲国产最新免费av| 免费无码不卡视频在线观看| 国产欧美精品区一区二区三区 | 极品少妇被后入内射视| av日韩高清一区二区| 夜夜添夜夜添夜夜摸夜夜摸| 亚洲人成7777影视在线观看| 亚洲av粉色一区二区三区| 国产一区亚洲二区三区极品| 久久无码专区国产精品| 福利一区视频| 亚洲精品一区二区三区蜜臀| 久久综网色亚洲美女亚洲av| 亚洲情综合五月天| 成人做爰高潮尖叫声免费观看| 亚洲国产精品综合久久20| 国产精品久久久黄色片| 精品国产一区二区三区av性色| 99久久综合精品五月天| 国产AV无码专区亚洲AV桃花庵| 亚洲自偷自拍另类第一页| 国产精品久久久久久久久电影网| 无码国产69精品久久久孕妇| 亚洲无AV码一区二区三区| 日韩女优一区二区在线观看| 人人妻人人澡人人爽欧美一区双| 免费人成再在线观看网站| 精品福利一区| 少妇人妻字幕一区二区| 加勒比色老久久爱综合网| 最近中文字幕mv在线资源|