亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多尺度特征跨層融合遙感目標(biāo)檢測方法

2023-04-29 00:00:00黃佳銘

現(xiàn)代信息科技 2023年21期

收稿日期：2023-04-25

基金項目：重慶科技學(xué)院碩士研究生創(chuàng)新計劃（YKJCX2120823）

DOI：10.19850/j.cnki.2096-4706.2023.21.023

摘" 要：最近引起廣泛關(guān)注的基于遙感圖像的目標(biāo)檢測是一項基本但具有挑戰(zhàn)性的任務(wù)。文章提出了一種基于YOLOv5改進(jìn)的多尺度特征跨層融合遙感目標(biāo)檢測器。首先，引入Explicit Visual Center（EVC）模塊解決目標(biāo)密集分布任務(wù)中的漏檢問題。其次，在YOLOv5的基礎(chǔ)上提出了多尺度特征跨層融合結(jié)構(gòu)（S-160），該結(jié)構(gòu)提高了對各個尺度目標(biāo)的檢測精度，并針對小目標(biāo)檢測引出了新的大尺度特征，以解決遙感圖像中超小目標(biāo)無法識別的問題。最后，在公共遙感數(shù)據(jù)集DOTA上進(jìn)行了實驗，此數(shù)據(jù)集上的平均精度（mAP）達(dá)到了76.50%。

關(guān)鍵詞：遙感圖像；目標(biāo)識別；特征跨層融合

中圖分類號：TP75" 文獻(xiàn)標(biāo)識碼：A" 文章編號：2096-4706（2023）21-0099-04

Multi-scale Feature Cross-layer Fusion Remote Sensing Object Detection Method

HUANG Jiaming

（School of Intelligent Technology and Engineering， Chongqing University of Science and Technology， Chongqing" 401331， China）

Abstract： Recently， object detection based on remote sensing images， which has attracted widespread attention， is a fundamental but challenging task. This paper proposes an improved multi-scale feature cross-layer fusion remote sensing target detector based on YOLOv5. Firstly， the Explicit Visual Center （EVC） module is introduced to address the issue of missed detections in target dense distributed tasks. Secondly， based on YOLOv5， a multi-scale feature cross-layer fusion structure （S-160） is proposed， which improves the detection accuracy of various scale targets and introduces new large-scale features for small target detection to solve the problem of unrecognizable ultra small targets in remote sensing images. Finally， it conducts experiments on the public remote sensing dataset DOTA， and the average accuracy （mAP） on this dataset reaches 76.50%.

Keywords： remote sensing image; target recognition; feature cross-layer fusion

0" 引" 言

近年來，隨著深度學(xué)習(xí)和遙感技術(shù)的快速發(fā)展，基于遙感圖像的目標(biāo)檢測在農(nóng)業(yè)、交通、商業(yè)、軍事和地質(zhì)等行業(yè)取得了可觀的成就。不同于常規(guī)圖像，遙感圖像中的目標(biāo)往往具有占比小、分布密集的特點，這給一般的檢測網(wǎng)絡(luò)帶來了很大的挑戰(zhàn)。

目前流行的一階段目標(biāo)檢測器作為一種直接方法，通過掃描圖像上的網(wǎng)格，將默認(rèn)錨點回歸到檢測邊界框，最具代表性的型號是你只看一次（YOLO）系列[1-4]、單發(fā)多盒探測器（SSD）[5]、RetinaNet[6]。盡管一階段目標(biāo)檢測器取得了不俗的檢測成就，但仍難以處理多尺度目標(biāo)實例，特別是因為在較淺的層中差異信息較弱，所以對小目標(biāo)的檢測效果并不優(yōu)秀[7]。為解決此問題，我們提出了基于一階段目標(biāo)檢測器YOLOv5改進(jìn)的多尺度特征跨層融合遙感目標(biāo)檢測器。

針對上述問題，本文提出基于YOLOv5改進(jìn)的多尺度特征跨層融合遙感目標(biāo)檢測器，本文的主要貢獻(xiàn)可歸納如下：

在網(wǎng)絡(luò)的Neck部分引入Explicit visual center（EVC）模塊[8]，解決因被忽略的局部角區(qū)域而導(dǎo)致的目標(biāo)密集分布任務(wù)中的漏檢問題。在YOLOv5的基礎(chǔ)上提出了多尺度特征跨層融合結(jié)構(gòu)（S-160），該結(jié)構(gòu)通過融合淺層和深層的特征信息，提高了對各個尺度目標(biāo)的檢測精度，并針對小目標(biāo)檢測引出了新的大尺度特征，以解決遙感圖像中超小目標(biāo)無法識別的問題。

1" 方法介紹

首先，YOLOv5由Glenn Jocher在GitHub上發(fā)布，在運行速度、數(shù)據(jù)增強、錨定幀等方面改進(jìn)。隨著結(jié)構(gòu)深度和通道寬度的增加，YOLOv5系列網(wǎng)絡(luò)包括YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5s與其他檢測算法相比，提供了更高的靈活性和檢測效率，所以本文選擇YOLOv5s作為基本網(wǎng)絡(luò)框架。

YOLOv5s的架構(gòu)可分為骨干、頸部和頭部三部分。YOLOv5s的骨干是CSPDarknet53，它從基于Darknet53的跨階段部分網(wǎng)絡(luò) （CSPNet）中獲得啟示。CSPDarknet53由CBL模塊、CSP模塊和空間金字塔池模塊（SPPF）組成。CBL模塊由一個卷積層（Conv），一個批歸一化層（BN）和一個Leaky-Relu激活函數(shù)組成。特征圖輸入CSP模塊后分別進(jìn)入兩條路徑，第一條路徑經(jīng)過CBL模塊、n×瓶頸和卷積運算；第二條路徑直接進(jìn)行卷積運算，然后通過Concat層將它們縫合在一起。該模塊不僅減少了計算量，而且提高了學(xué)習(xí)能力。SPPF模塊是SPP的優(yōu)化版本，可以在不犧牲精度的情況下提高速度。其原理為將三個最大池化的卷積核k = {5×5，9×9，13×13}，修改為k = {5×5，5×5}。頸部包括特征金字塔網(wǎng)絡(luò)（FPN）和路徑聚合網(wǎng)絡(luò)（PAN），它們執(zhí)行上采樣操作以增強語義信息，而PAN通過下采樣將特征傳輸?shù)巾攲樱瑥亩岣吡司W(wǎng)絡(luò)特征聚合的能力。

其次，給出本文改進(jìn)的YOLOv5-S-160整體結(jié)構(gòu)圖，如圖1所示。我們將在接下來的小節(jié)中詳細(xì)講解其中的改進(jìn)點。

1.1" Explicit Visual Center（EVC）解釋

Explicit visual center（EVC）主要由輕量級MLP和可學(xué)習(xí)的視覺中心機(jī)制兩個并行連接塊組成。其中輕量級MLP用于捕獲頂級特征Y的全局遠(yuǎn)程依賴關(guān)系（即全局信息）；可學(xué)習(xí)的視覺中心機(jī)制則是為了保留本地角落區(qū)域（即本地信息），以匯總層內(nèi)局部區(qū)域特征。這兩個塊的結(jié)果特征圖沿著通道維度串聯(lián)在一起，作為EVC模塊的輸出，用于下游識別。將ECV模塊嵌入到我們網(wǎng)絡(luò)模型的Neck頂部，局部角區(qū)域特征得到了增強，目標(biāo)密集分布區(qū)域識別效果得到了明顯的提升。

X = cat （MLP（Xin）；LVC（Xin））

其中X是EVC的輸出。cat（）表示沿通道維度的特征映射級聯(lián)。MLP（Xin）和LVC（Xin）分別表示所使用的輕量級MLP和可學(xué)習(xí)的視覺中心機(jī)制的輸出特征。Xin是莖塊的輸出，由：

Xin = σ （BN （Conv7×7（Y ）））

其中Conv7×7（）表示步幅為1的7×7卷積，在我們的工作中，通道大小設(shè)置為256。BN（）表示批歸一化層，σ（）表示ReLU激活函數(shù)。

1.2" 多尺度特征跨層融合網(wǎng)絡(luò)（S-160）

隨著網(wǎng)絡(luò)層數(shù)的加深，網(wǎng)絡(luò)的感受野逐漸變大，語義表達(dá)能力也隨之增強，但是這也使得圖像的分辨率降低，很多細(xì)節(jié)特征經(jīng)過多層網(wǎng)絡(luò)的卷積操作后變得越來越模糊。淺層神經(jīng)網(wǎng)絡(luò)的感受野小，細(xì)節(jié)特征的表達(dá)能力強，但是提取的特征語義性較弱。不同深度的網(wǎng)絡(luò)層有不同的學(xué)習(xí)功能[9]，如果可以將這些不同的功能整合起來并重新學(xué)習(xí)，那么這個網(wǎng)絡(luò)的學(xué)習(xí)效果也大概率是有提升的。因此，我們建議從CSPDarknet53結(jié)構(gòu)中提取淺層特征和深層特征進(jìn)行跨層融合，并獲得新的160×160、80×80、40×40、20×20的特征尺度作為輸出。

如圖1中的Backbone部分所示，我們提出將CSPDarknet53結(jié)構(gòu)改進(jìn)為S-160結(jié)構(gòu)。首先，我們通過上采用和卷積等操作加深網(wǎng)絡(luò)深度，增強網(wǎng)絡(luò)層的語義表達(dá)能力。然后將淺層特征P2、P3、P4、P5與后面的深層特征通過concat操作融合，形成新的P2′、P3′、P4′、P5′層，最終的Backbone部分有160×160、80×80、40×40和20×20四個輸出尺度特征圖。不同尺寸特征圖的作用不同，原結(jié)構(gòu)中將80×80的特征尺度用于檢測小目標(biāo)，但是對于遙感圖像中占比過小的目標(biāo)仍存在大量漏檢現(xiàn)象。因此，我們通過跨層融合引入了新的160×160的特征尺寸用于超小目標(biāo)檢測。

YOLOv5s有三個預(yù)測頭，分別是32×、16×和8×下采樣特征圖，分別對應(yīng)大、中、小目標(biāo)檢測。其中設(shè)計的8×下采樣特征圖，因為具有高分辨率和詳細(xì)的圖像信息，適用于檢測常規(guī)圖像中的小目標(biāo)。但是，如果目標(biāo)占比太小，例如遙感圖像中的小目標(biāo)尺寸為20×20，則目標(biāo)的占比面積大約為原始圖像的0.03%（640×640），其尺寸將變?yōu)槟Ｐ碗y以檢測的3×3。對于這種超小目標(biāo)的情況，8×下采樣特征圖的下采樣率相對較大，下采樣過程中丟失的圖像細(xì)節(jié)導(dǎo)致無法檢測出超小目標(biāo)。因此，原始YOLOv5s的性能將受到限制，導(dǎo)致大量超小目標(biāo)漏檢現(xiàn)象的發(fā)生。

考慮到上述問題，我們必須解決超小目標(biāo)的弱檢測性能。在實現(xiàn)性能目標(biāo)之前，我們需要平衡檢測速度和準(zhǔn)確性。如圖1中的Neck和Head部分所示，原始結(jié)構(gòu)中的檢測頭特征尺寸80×80、40×40和20×20被替換為160×160、80×80、40×40，仍然保持3個檢測頭數(shù)量。被替換的8×下采樣融合特征圖上采樣2倍后與Backbone中的P2′特征層concat形成新的4×下采樣融合特征圖。新的4×下采樣融合特征圖用于檢測遙感圖像中的超小目標(biāo)。

2" 實驗結(jié)果

為了評估我們提出的方法，我們使用DOTA這個最廣泛使用的面向目標(biāo)檢測數(shù)據(jù)集進(jìn)行了實驗。

2.1" 數(shù)據(jù)集介紹

DOTA[10]是面向目標(biāo)檢測的大規(guī)模數(shù)據(jù)集，我們分別在DOTA-v1.0這個版本上進(jìn)行了實驗。DOTA-v1.0包含2 806圖像，包含18 8282個實例，共15個類別。

2.2" 實驗環(huán)境

我們在公共深度學(xué)習(xí)框架PyTorch上實現(xiàn)我們的網(wǎng)絡(luò)，并且建立在著名的開源網(wǎng)絡(luò)YOLOv5上。期間我們使用了許多訓(xùn)練技巧，包括訓(xùn)練熱身、余弦退火學(xué)習(xí)率、自動錨定、標(biāo)簽平滑和語義增強。所有實驗都是在一個A6000 GPU和參數(shù)epoch=300、batchsize=16的相同條件下進(jìn)行的。

2.3" 對比實驗

DOTA數(shù)據(jù)集實驗結(jié)果：我們對DOTA-v1.0數(shù)據(jù)集的OBB任務(wù)進(jìn)行實驗。我們將圖像裁剪為一系列1 024×1 024的補丁，并使用640×640的尺寸饋送至網(wǎng)絡(luò)模型當(dāng)中。我們的方法與其他方法進(jìn)行了比較，結(jié)果如表1所示。

我們的模型是通過單比例設(shè)置進(jìn)行訓(xùn)練和測試的，當(dāng)我們的模型僅使用訓(xùn)練集進(jìn)行訓(xùn)練時，我們的方法的性能明顯優(yōu)于其他方法，如果還使用驗證集進(jìn)行訓(xùn)練，則可以獲得更好的性能，可視化檢測結(jié)果如圖2所示，損失函數(shù)曲線如圖3所示。

遙感圖像中目標(biāo)具有占比小、分布密集的特點，但我們提出的方法可以很好解決這些具有挑戰(zhàn)性的問題，例如在橋梁、足球場和大、小型車輛這些具有挑戰(zhàn)性的類別中也取得了不錯的效果。

3" 結(jié)" 論

本文提出了一種基于YOLOv5改進(jìn)的多尺度特征跨層融合遙感目標(biāo)檢測器。引入Explicit visual center（EVC）模塊解決目標(biāo)密集分布任務(wù)中的漏檢問題。最后，在YOLOv5的基礎(chǔ)上提出了多尺度特征跨層融合結(jié)構(gòu)（S-160），其通過融合淺層和深層的特征信息，提高了對各個尺度目標(biāo)的檢測精度，并針對小目標(biāo)檢測引出了新的大尺度特征，用以解決遙感圖像中超小目標(biāo)無法識別的問題。在公共遙感數(shù)據(jù)集DOTA上取得了可觀的檢測性能。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)比原始網(wǎng)絡(luò)結(jié)構(gòu)具有更好的魯棒性和更高的精度。

將來，我們計劃提高樣本數(shù)量很少的類別的精度，這表明我們的方向權(quán)重需要一定數(shù)量的訓(xùn)練樣本，考慮使用不同的學(xué)習(xí)方法解決少樣本問題，以進(jìn)一步提高模型的魯棒性和泛化性。

參考文獻(xiàn)：

[1] BOCHKOVSKIY A，WANG C Y，LIAO H Y M. Yolov4： Optimal speed and accuracy of object detection [J/OL].arXiv：2004.

10934 [cs.CV].（2020-04-23）.https：//arxiv.org/abs/2004.10934.

[2] REDMON J，DIVVALA S，GIRSHICK R，et al. You Only Look Once：Unified，Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Las Vegas：IEEE，2016：779-788.

[3] REDMON J，F(xiàn)ARHADI A. YOLO9000：better，faster，stronger [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Honolulu：IEEE，2017：6517-6525.

[4] REDMON J，F(xiàn)ARHADI A. Yolov3： An incremental improvement [J/OL].arXiv：1804.02767 [cs.CV].（2018-04-08）.https：//arxiv.org/abs/1804.02767.

[5] LIU W，ANGUELOV D，ERHAN D，et al. Ssd：Single shot multibox detector [C]//proceedings of the Computer Vision–ECCV 2016：14th European Conference.Amsterdam：Springer，2016：21-37.

[6] LIN T，GOYAL P，GIRSHICK R，et al. Focal loss for dense object detection [C]//2017 IEEE International Conference on Computer Vision （ICCV）. Venice：IEEE，2017：2999-3007.

[7] 陳科圻，朱志亮，鄧小明，等.多尺度目標(biāo)檢測的深度學(xué)習(xí)研究綜述 [J].軟件學(xué)報，2021，32（4）：1201-1227.

[8] QUAN Y，ZHANG D，ZHANG L，et al. Centralized Feature Pyramid for Object Detection [J/OL].arXiv：2210.02093 [cs.CV].（2022-10-05）.https：//arxiv.org/abs/2210.02093.

[9] 呂建成，葉慶，田煜鑫，等.類腦超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)系統(tǒng) [J].軟件學(xué)報，2022，33（4）：1412-1429.

[10] XIA G S，BAI X，DING J，et al. DOTA：A large-scale dataset for object detection in aerial images [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City：IEEE，2018：3974-3983.

作者簡介：黃佳銘（1996—），男，漢族，浙江嘉興人，碩士研究生在讀，研究方向：圖像處理。

現(xiàn)代信息科技2023年21期

現(xiàn)代信息科技的其它文章: 基于核稀疏保持投影的SAR目標(biāo)特征提取方法研究; 基于雙重預(yù)防機(jī)制的智能工廠安全管理探究; 數(shù)學(xué)物理方程中定解問題案例教學(xué)研究; 一種用于食鹽中鉛和鎘含量測定方法的研究; Spearman秩相關(guān)系數(shù)的Python程序設(shè)計及應(yīng)用; 基于TimesNet的大類資產(chǎn)指數(shù)長期預(yù)測