亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)YOLOv3的遙感影像小目標(biāo)檢測方法

        2022-07-13 01:57:12牛浩青饒姍姍馬萬民
        關(guān)鍵詞:注意力卷積機(jī)制

        牛浩青,歐 鷗,饒姍姍,馬萬民

        成都理工大學(xué) 信息科學(xué)與技術(shù)學(xué)院(網(wǎng)絡(luò)安全學(xué)院),成都 610051

        目標(biāo)檢測是計(jì)算機(jī)視覺領(lǐng)域中的核心問題之一,它的主要任務(wù)是對圖像中感興趣的目標(biāo)進(jìn)行識(shí)別和定位[1]。隨著深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)CNN的快速發(fā)展,傳統(tǒng)的目標(biāo)檢測方法正在逐漸被基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法所替代。目前流行的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法主要分為兩種類別:第一類是單階段(one-stage)檢測方法,例如:YOLO[2~4]和SSD[5]等;第二類是兩階段(two-stage)檢測方法,例如:Fast-RCNN[6]和Faster-RCNN[7]等。大部分基于深度學(xué)習(xí)的目標(biāo)檢測算法雖然在通用目標(biāo)檢測中有較高的精度和泛化能力,但在小目標(biāo)檢測任務(wù)中仍存在測精度低、漏檢率高的問題。小目標(biāo)的定義有兩種:一種是目標(biāo)尺寸是原始圖片尺寸的十分之一,即可認(rèn)定是小目標(biāo);另一種是小于32×32 像素的目標(biāo),即可認(rèn)定為小目標(biāo)[8]。小目標(biāo)由于具有分辨率低、特征信息少、背景干擾噪聲多以及定位精度要求高等特點(diǎn),給目標(biāo)檢測任務(wù)帶來了很多的困難和挑戰(zhàn)[9]。因此,對于小目標(biāo)檢測的研究是當(dāng)下目標(biāo)檢測任務(wù)中最關(guān)鍵的問題之一。

        目前已經(jīng)有很多學(xué)者對小目標(biāo)檢測問題進(jìn)行了研究,侯濤等人[10]提出了基于改進(jìn)YOLOv4的遙感飛機(jī)目標(biāo)檢測算法,該算法通過在YOLOv4主干提取網(wǎng)絡(luò)中引入DenseNet(密集連接網(wǎng)絡(luò))以加強(qiáng)對飛機(jī)小目標(biāo)的特征提取能力,并只保留高分辨率特征層以減少語義丟失,既降低了模型復(fù)雜度,也提高了網(wǎng)絡(luò)對飛機(jī)小目標(biāo)的語義表達(dá)能力,但由于去除了包含目標(biāo)對象和周圍環(huán)境關(guān)系特征的低分辨率特征層,使網(wǎng)絡(luò)在進(jìn)行背景噪音較大的圖像預(yù)測時(shí),對檢測目標(biāo)上下文環(huán)境特征提取不夠充分。李成豪等人[11]提出了一種基于多尺度感受野融合的小目標(biāo)檢測算法S-RetinaNet,該算法利用特征遞歸金字塔網(wǎng)絡(luò)對不同特征層進(jìn)行兩階段特征融合以避免單階段特征融合不充分的問題,使用多尺度感受野融合模塊進(jìn)行不同尺度的感受野擴(kuò)大,使檢測目標(biāo)的上下文信息有效的被提取出來,提升了對小目標(biāo)的檢測效果。趙鵬飛等人[12]提出了一種融合注意力機(jī)制的深層次小目標(biāo)檢測算法,該算法將原DarkNet-53中的殘差連接結(jié)構(gòu)替換成新的分組殘差連接結(jié)構(gòu),通過匯合不同通道的特征信息提高輸出的感受野大小,在多尺度檢測階段采用特征增強(qiáng)模塊和通道注意力機(jī)制對不同特征層進(jìn)行融合,從而解決淺層特征語義信息不足的問題。

        本文從上述文獻(xiàn)中得到啟發(fā),提出了一種基于改進(jìn)YOLOv3[4]的小目標(biāo)檢測算法。針對多尺度特征融合過程中,低分辨率卷積特征圖上采樣對小目標(biāo)的特征恢復(fù)能力較弱的問題,設(shè)計(jì)了一種自適應(yīng)上采樣模塊替代傳統(tǒng)的插值操作,使網(wǎng)絡(luò)能夠自主選擇適合目標(biāo)訓(xùn)練集任務(wù)的插值方法以增強(qiáng)不同尺度特征融合的效果;針對小目標(biāo)包含特征信息少以及定位精度高的問題,提出了一種門控通道注意力機(jī)制(EGCA),實(shí)現(xiàn)特征層通道之間的相互交互,通過對每個(gè)通道的特征進(jìn)行權(quán)重分配來學(xué)習(xí)不同通道特征層信息的相關(guān)性和重要性[11]。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法比原算法有更高的檢測精度,并且對小目標(biāo)的檢測能力也有較大的提升。

        1 相關(guān)工作

        1.1 YOLOv3介紹

        YOLOv3是一種在YOLOv1[2]和YOLOv2[3]基礎(chǔ)上進(jìn)行改進(jìn)的單階段目標(biāo)檢測算法,它不像R-CNN 系列將目標(biāo)檢測任務(wù)分為生成候選框和識(shí)別框內(nèi)物體兩個(gè)步驟,而是把整個(gè)流程合并在一起直接生成預(yù)測結(jié)果。因此,基于單階段目標(biāo)檢測算法相對基于雙階段目標(biāo)檢測算法具有檢測速度快但精度低的特點(diǎn),YOLOv3通過采用殘差連接的DarkNet-53作為主干特征提取網(wǎng)絡(luò),并借鑒文獻(xiàn)[13]中的特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)結(jié)構(gòu),使用3個(gè)不同尺度的特征圖進(jìn)行多尺度特征融合之后輸出預(yù)測結(jié)果等創(chuàng)新工作,使其在目標(biāo)檢測任務(wù)中達(dá)到了速度和精度上的平衡。YOLOv3的整體架構(gòu)如圖1所示,對于416×416的輸入圖像,首先通過DarkNet-53(去除全連接層)主干特征提取網(wǎng)絡(luò)進(jìn)行基礎(chǔ)特征提取,網(wǎng)絡(luò)中共包含1個(gè)DBL模塊和5個(gè)殘差模塊。然后將主干網(wǎng)絡(luò)中最后3 個(gè)殘差模塊的輸出作為3 種不同尺度的特征輸入到特征金字塔結(jié)構(gòu)進(jìn)行特征融合。最后在3 個(gè)通道中分別對融合后的特征層進(jìn)行卷積操作以輸出13×13、26×26和52×52共3種尺度的預(yù)測結(jié)果。

        圖1 YOLOv3結(jié)構(gòu)圖Fig.1 YOLOv3 structure diagram

        1.2 預(yù)測目標(biāo)框

        YOLOv3 算法將待檢測圖像分割成P(P=3)種不同尺度的S×S網(wǎng)格單元(例如:13×13、26×26 和52×52),它們分別對應(yīng)于圖1 右側(cè)3 個(gè)并行網(wǎng)絡(luò)分支的輸出,如果目標(biāo)對象中心落入某個(gè)網(wǎng)格單元,那么該網(wǎng)格單元需要對這一目標(biāo)對象進(jìn)行預(yù)測,圖2展示了輸入圖像和S×S特征層之間的關(guān)系。對于上述任一網(wǎng)格單元均需要預(yù)測3個(gè)高寬比不同的先驗(yàn)框,每一個(gè)先驗(yàn)框包含當(dāng)前網(wǎng)格的置信度Conf、類別B和位置信息Cls。

        圖2 輸入圖像與S×S 特征層映射關(guān)系圖Fig.2 Mapping relationship between input image and S×S feature layer

        置信度表示當(dāng)前網(wǎng)格單元包含對象的可能性,如公式(1)所示:

        預(yù)測值在單元網(wǎng)格中的位置關(guān)系如圖3 所示,Pw和Ph為先驗(yàn)框的寬度和高度,bw和bh為轉(zhuǎn)換后預(yù)測的實(shí)際寬度和高度,bx和by為轉(zhuǎn)換后預(yù)測的實(shí)際中心坐標(biāo),cx和cy為單元格左上角相對整張圖片的坐標(biāo)。

        圖3 預(yù)測值在單元網(wǎng)格中位置關(guān)系圖Fig.3 Position relationship diagram of predicted value in cell grid

        YOLOv3 采用非最大值抑制算法(non-maximum suppression,NMS)對預(yù)測框進(jìn)行篩選過濾,對于待檢測圖像上的某一目標(biāo),首先選擇得分最高的檢測框C,再將剩余框與C分別計(jì)算IOU值,當(dāng)IOU值超過所設(shè)定的閾值時(shí),即對超過閾值的框進(jìn)行抑制;然后在剩余檢測框中選擇得分最高的檢測框重復(fù)上述過程,直到最后保證每個(gè)目標(biāo)只存在一個(gè)檢測框。

        2 改進(jìn)YOLOv3算法

        本文基于YOLOv3 算法提出了一種結(jié)合EGCA(門控通道注意力機(jī)制)和自適應(yīng)上采樣模塊的改進(jìn)YOLOv3算法。該算法將原網(wǎng)絡(luò)結(jié)構(gòu)(如圖1)中的上采樣模塊替換為自適應(yīng)上采樣模塊,并在3個(gè)尺度預(yù)測結(jié)果y1、y2、y3輸出之前加入EGCA 注意力機(jī)制。較原網(wǎng)絡(luò)主要有以下兩方面改進(jìn):

        引入一種EGCA(門控通道注意力機(jī)制)實(shí)現(xiàn)特征層通道之間的交互,通過對每個(gè)通道的特征進(jìn)行權(quán)重分配來學(xué)習(xí)不同通道特征層信息的相關(guān)性和重要性。除此之外,該注意力機(jī)制還學(xué)習(xí)了過濾通道信息前后兩個(gè)特征層之間的重要性關(guān)系,有效地提高了網(wǎng)絡(luò)對小目標(biāo)的特征提取能力,減輕了因遙感圖像背景復(fù)雜而引起的誤檢和漏檢情況。

        引入了一種自適應(yīng)上采樣模塊代替原有的上采樣操作,該方法可以通過自主學(xué)習(xí)權(quán)重參數(shù)以找到最適合訓(xùn)練任務(wù)的上采樣方法,有效地減少了低分辨率特征層上采樣時(shí)語義損失,增強(qiáng)了不同尺度卷積的融合效果。

        2.1 門控通道注意力機(jī)制(EGCA)

        注意力機(jī)制起源于對人類思維方式的研究,人類在處理大量具有不同程度重要性的信息時(shí),總是會(huì)選擇性地關(guān)注所有信息中的一部分即重要的信息,同時(shí)忽略剩余信息。由于人類處理信息資源能力是有限的,因此為了合理分配這些資源,就需要選擇信息中最重要的部分,然后關(guān)注它,同樣,深度學(xué)習(xí)中的注意力機(jī)制就是選取輸入信息中最重要的部分并給予更大的權(quán)值,以使網(wǎng)絡(luò)能夠關(guān)注此信息。

        注意力機(jī)制最早被廣泛應(yīng)用于自然語言處理問題中,取得了不錯(cuò)的效果。因此,有學(xué)者開始探索通過使用注意力機(jī)制提升計(jì)算機(jī)視覺工作中卷積神經(jīng)網(wǎng)絡(luò)性能的方法,目前計(jì)算機(jī)視覺中常用的注意力機(jī)制主要有兩種:通道注意力機(jī)制和空間注意力機(jī)制。通道注意力機(jī)制認(rèn)為卷積層中每個(gè)通道的重要程度是不同的,通過調(diào)整每個(gè)通道的權(quán)重以增強(qiáng)網(wǎng)絡(luò)特征提取能力[14];空間注意力機(jī)制借鑒通道注意力機(jī)制思想,認(rèn)為不同通道上的各個(gè)像素的重要程度是不同的,通過調(diào)整不同通道上所有像素點(diǎn)的權(quán)重以增強(qiáng)網(wǎng)絡(luò)特征提取能力[15]。

        ECA(efficient channel-attention)[16]是一種經(jīng)典的通道注意力機(jī)制結(jié)構(gòu),如圖4所示,對于一個(gè)H×W×C的輸入卷積層,首先通過全局平均池化操作從空間維度對特征進(jìn)行壓縮,從而得到一個(gè)具有全局感受野且和輸入通道數(shù)相匹配的1×1×C的卷積層;然后通過一個(gè)1×1的卷積確保在不降維的情況下實(shí)現(xiàn)跨通道信息交互[17];最后,通過Sigmod函數(shù)將權(quán)重值壓縮到0~1之間后和輸入卷積層逐通道相乘以完成通道重要性權(quán)重分配。

        圖4 ECA結(jié)構(gòu)圖Fig.4 ECA structure diagram

        EGCA 是在ECA 的基礎(chǔ)上進(jìn)行改進(jìn)的一種門控通道注意力機(jī)制,標(biāo)準(zhǔn)的ECA 結(jié)構(gòu)是直接使用通道重要性權(quán)重對輸入卷積過濾之后的特征層進(jìn)行后續(xù)操作,然而原始輸入特征層中仍可能存在一些被過濾的重要信息,因此EGCA學(xué)習(xí)了另一組權(quán)重決定是否要保留原始輸入特征層的某些通道。

        EGCA 的結(jié)構(gòu)如圖5 所示,上層通路學(xué)習(xí)輸入特征的通道重要性權(quán)重y1,下層通路學(xué)習(xí)篩選原始特征輸入層和過濾后的通道層重要性權(quán)重y2,計(jì)算過程如下:

        圖5 EGCA結(jié)構(gòu)圖Fig.5 EGCA structure diagram

        其中x表示一個(gè)長度、寬度和通道數(shù)分別為W、H、C的原始特征輸入,Conv(x) 表示對特征層進(jìn)行1×1 的卷積。

        最后將學(xué)習(xí)到的兩個(gè)權(quán)重參數(shù)和特征輸入進(jìn)行整合,如公式(7)所示,得到最終的輸出特征層y:

        2.2 自適應(yīng)上采樣模塊

        上采樣是指將采用擴(kuò)大圖像尺寸,實(shí)現(xiàn)低分辨率圖像到高分辨率圖像的映射操作,由于低分辨率圖像中所包含像素較少,所以對其進(jìn)行上采樣時(shí)必然會(huì)丟失很多細(xì)節(jié)特征。因此,盡可能減少細(xì)節(jié)特征的丟失以及提高低分辨率圖像的特征恢復(fù)能力是目前上采樣最核心的關(guān)鍵問題之一。

        傳統(tǒng)的上采樣方法包括線性插值和反池化等,其中線性插值是利用幾何關(guān)系通過已知像素點(diǎn)對新增像素點(diǎn)進(jìn)行估計(jì)。以最近鄰插值為例,當(dāng)圖片放大時(shí),新增的像素直接使用與之最近原有像素顏色生成;而反池化是對圖像做一些簡單的補(bǔ)零和擴(kuò)充操作,首先記錄池化操作過程中最大值的位置信息,然后在反池化擴(kuò)大圖像尺寸時(shí),只恢復(fù)最大值的位置,其他值直接設(shè)置為0。傳統(tǒng)上采樣方法雖然計(jì)算簡單快捷,但會(huì)產(chǎn)生明顯的鋸齒,導(dǎo)致原有圖像的細(xì)節(jié)特征丟失嚴(yán)重。

        基于深度學(xué)習(xí)的新型上采樣方法有轉(zhuǎn)置卷積等,轉(zhuǎn)置卷積是一種特殊的卷積操作。與普通卷積實(shí)現(xiàn)下采樣相反,轉(zhuǎn)置卷積可以通過學(xué)習(xí)權(quán)重參數(shù)使低分辨率尺寸圖像還原到高分辨尺寸圖像,所以這是一種自適應(yīng)的上采樣方法,利用權(quán)重參數(shù)的擬合盡可能的實(shí)現(xiàn)上采樣圖片和原始圖片細(xì)節(jié)特征保持一致。

        傳統(tǒng)上采樣方法雖然計(jì)算量低且實(shí)現(xiàn)相對簡單,但由于低分辨率圖像包含像素有限,所以必然會(huì)導(dǎo)致原始細(xì)節(jié)特征丟失;而轉(zhuǎn)置卷積因?yàn)榭梢詫W(xué)習(xí)權(quán)重參數(shù)以更好的擬合原始圖片,因此能夠確保盡可能地還原低分辨率圖像的細(xì)節(jié)特征,但是它的實(shí)現(xiàn)較為復(fù)雜且計(jì)算量大。綜上所述,本文提出了一種自適應(yīng)上采樣模塊,如圖6 所示,該模塊由一個(gè)1×1 卷積加一個(gè)轉(zhuǎn)置卷積組成。使用1×1 卷積可以在保持輸入特征層寬度和高度不變的同時(shí)降低通道維度以減少網(wǎng)絡(luò)參數(shù),降低計(jì)算量,并且1×1卷積可以實(shí)現(xiàn)不同通道之間的信息整合和交互以增加網(wǎng)絡(luò)的非線性特性,提升網(wǎng)絡(luò)的特征表達(dá)能力;在設(shè)計(jì)轉(zhuǎn)置卷積時(shí),由于轉(zhuǎn)置卷積運(yùn)算過程中的不均勻重疊會(huì)造成圖像中某個(gè)部位顏色比其他顏色更深的棋盤效應(yīng)[18],而當(dāng)轉(zhuǎn)置卷積的卷積核大小能被步長整除時(shí)會(huì)緩解這一效應(yīng),所以模塊采用卷積核大小為4,步長為2,padding為1的轉(zhuǎn)置卷積進(jìn)行上采樣操作。

        圖6 自適應(yīng)上采樣模塊Fig.6 Adaptive upsampling module

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)平臺(tái)和數(shù)據(jù)集

        本文實(shí)驗(yàn)平臺(tái)硬件配置為六核Intel Xeon E5-2678 v3處理器,62 GB內(nèi)存,NVIDIA GeForce RTX 2080 Ti顯卡,11 GB 顯存。軟件環(huán)境為Ubuntu 18.04 操作系統(tǒng)、Python3.8、CUDA11.0、CuDNN8.0以及Pytorch1.7.1。為驗(yàn)證改進(jìn)YOLOv3算法的可行性,實(shí)驗(yàn)將RSOD數(shù)據(jù)集[19]中包含飛機(jī)目標(biāo)的遙感圖片通過隨機(jī)裁剪、旋轉(zhuǎn)和色彩增強(qiáng)等方法進(jìn)行數(shù)據(jù)擴(kuò)張后,以8∶2的比例隨機(jī)采樣分開作為網(wǎng)絡(luò)的訓(xùn)練集和測試集,如表1 所示,訓(xùn)練集共有870 張圖片,9 957 架目標(biāo)飛機(jī);測試集共有110張圖片,1 602架目標(biāo)飛機(jī)。

        表1 測試集與訓(xùn)練集信息Table 1 Testing set and training set information

        RSOD 數(shù)據(jù)集是武漢大學(xué)在2015 年發(fā)布用于遙感圖像目標(biāo)檢測的標(biāo)準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)集以PASCAL VOC規(guī)范存儲(chǔ)了包括飛機(jī)、油箱、體育場和立交橋共四類遙感圖片及對應(yīng)的標(biāo)注文件。由于遙感圖片均是在不同高度條件下俯視地面進(jìn)行拍攝,所以此類圖片具有目標(biāo)對象所占像素較小、尺度變化大以及背景復(fù)雜等特點(diǎn)[19],因此對遙感圖片進(jìn)行目標(biāo)檢測較常規(guī)圖片會(huì)更加復(fù)雜和困難。

        3.2 評價(jià)標(biāo)準(zhǔn)

        本文所有定量分析實(shí)驗(yàn)均采用標(biāo)準(zhǔn)COCO 評價(jià)指標(biāo)中的AP、AP50、AP75、APS、APM以及APL共6 項(xiàng)指標(biāo)衡量網(wǎng)絡(luò)對測試圖片的檢測性能。為了解釋上述指標(biāo)的含義,引入精確率(Precision)和召回率(Recall)的概念,精確率和召回率的公式如公式(8)和(9)所示:

        其中,TP為真正例,F(xiàn)P為假正例,F(xiàn)N為假負(fù)例,TN為真負(fù)例。精確率示模型檢測出的正確目標(biāo)數(shù)量(當(dāng)檢測框和真實(shí)框的交并比IOU 大于某個(gè)閾值時(shí)視為檢測正確)占所有檢測到的目標(biāo)數(shù)量的比重;召回率表示模型檢測出的目標(biāo)數(shù)量占真實(shí)目標(biāo)數(shù)量的比重。正常情況下,由于精確率和召回率是互斥的,即召回率高時(shí)精確度較低,召回率低時(shí)精確度較高,所以使用這兩個(gè)指標(biāo)不能直觀的比較不同網(wǎng)絡(luò)的性能。因此本文使用不同條件下的AP 值以定量分析網(wǎng)絡(luò)性能,如公式10 所示,式中Psmooth(r)表示做平滑處理后的PR 曲線,而PR曲線是在0~1區(qū)間內(nèi)以召回率為橫坐標(biāo),準(zhǔn)確率為縱坐標(biāo)繪制而成的曲線。

        標(biāo)準(zhǔn)COCO 評價(jià)指標(biāo)中的AP 指IOU 閾值從0.5 至0.95,每隔0.05計(jì)算一次相應(yīng)閾值的AP值,取平均得到的最終AP 值(下文無IOU 閾值條件下的AP 值均指此AP 值);AP50指IOU 閾值為0.5 時(shí)的AP 值;AP75指IOU閾值為0.75時(shí)的AP值;APS指計(jì)算小于32×32像素的小目標(biāo)AP值;APL指計(jì)算大于96×96像素的大目標(biāo)AP值;APM指計(jì)算像素大小位于大目標(biāo)和小目標(biāo)之間的中目標(biāo)AP值。

        3.3 訓(xùn)練細(xì)節(jié)

        本文在原始網(wǎng)絡(luò)、改進(jìn)網(wǎng)絡(luò)以及所有對照網(wǎng)絡(luò)訓(xùn)練階段均采用相同的訓(xùn)練策略。首先凍結(jié)主干提取網(wǎng)絡(luò)訓(xùn)練45 個(gè)epoch,初始學(xué)習(xí)率設(shè)置為0.001,每訓(xùn)練一個(gè)epoch,學(xué)習(xí)率衰減95%;然后解凍所有層繼續(xù)訓(xùn)練25個(gè)epoch,學(xué)習(xí)率調(diào)整為0.000 1,之后每訓(xùn)練一個(gè)epoch,學(xué)習(xí)率衰減98%,最后選取最優(yōu)權(quán)重參數(shù)作為訓(xùn)練結(jié)果。

        3.4 消融實(shí)驗(yàn)

        3.4.1 定量分析

        為了定量分析上述改進(jìn)方法的檢測性能,本文對原始網(wǎng)絡(luò)(使用傳統(tǒng)上采樣方法)、原始網(wǎng)絡(luò)加自適應(yīng)上采樣模塊、原始網(wǎng)絡(luò)加ECA 通道注意力、原始網(wǎng)絡(luò)加EGCA通道注意力以及改進(jìn)YOLOv3網(wǎng)絡(luò)共5種網(wǎng)絡(luò)選用相同的測試集做消融實(shí)驗(yàn)對比。圖像在訓(xùn)練前調(diào)整為640×640,實(shí)驗(yàn)結(jié)果如表2所示。

        表2 消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experimental results

        從實(shí)驗(yàn)結(jié)果可以看出,自適應(yīng)上采樣模塊較傳統(tǒng)上采樣方法在各項(xiàng)評價(jià)指標(biāo)中均有不同程度提升,其中AP值提高了3.3個(gè)百分點(diǎn);同樣EGCA通道注意力機(jī)制較ECA通道注意力機(jī)制相比在各項(xiàng)評價(jià)指標(biāo)中也均有不同程度提升,其中AP 值提高了4.5 個(gè)百分點(diǎn)。改進(jìn)YOLOv3算法的小尺寸目標(biāo)AP值為33.6%,較原算法提高了8.2 個(gè)百分點(diǎn),提升效果最為顯著;中尺寸目標(biāo)AP值達(dá)到60.3%,較原算法提高了8個(gè)百分點(diǎn);大尺寸目標(biāo)AP 值達(dá)到73.4%,較原算法提高了5.2 個(gè)百分點(diǎn);AP 值達(dá)到56.3%,較原算法提高了7.9個(gè)百分點(diǎn),即改進(jìn)算法針對各種尺寸目標(biāo)特別是小尺寸目標(biāo)的檢測性能及最終AP值均要優(yōu)于原算法。

        3.4.2 定性分析

        本文選取了一張具有代表性的測試圖片對ECA和EGCA兩種注意力機(jī)制的檢測效果進(jìn)行定性分析,如圖7所示,其中圖7(b)和圖7(c)是分別使用ECA注意力機(jī)制和EGCA 注意力機(jī)制對圖7(a)進(jìn)行目標(biāo)檢測的結(jié)果。從圖7(b)可以看出由于紅色箭頭指向的飛機(jī)翅膀顏色和其它飛機(jī)不一樣,導(dǎo)致該顏色特征通道在權(quán)重分配時(shí)占比較少而造成漏檢現(xiàn)象;由于EGCA注意力機(jī)制對不同通道進(jìn)行重要性權(quán)重分配時(shí),還有一定幾率保持原通道特征,從而提高網(wǎng)絡(luò)的泛化能力,因此圖7(c)檢測到了圖片上的所有飛機(jī)目標(biāo)。

        圖7 注意力機(jī)制檢測結(jié)果對比圖Fig.7 Comparison of detection results of attention mechanism

        為了可視化自適應(yīng)上采樣模塊和傳統(tǒng)上采樣方法的效果對比。首先將測試圖片輸入到相同權(quán)重的檢測網(wǎng)絡(luò)中,并抽取最大尺度檢測通道上采樣前的卷積結(jié)果作為低分辨率特征圖,分別使用自適應(yīng)上采樣模塊和雙線性插值方法對其做上采樣處理,然后將上述3個(gè)特征圖第4個(gè)通道的參數(shù)權(quán)重值進(jìn)行可視化。如圖8所示,傳統(tǒng)上采樣方法只是簡單的將低分辨率特征圖像素進(jìn)行擴(kuò)張,而自適應(yīng)上采樣模塊在擴(kuò)張像素的同時(shí),還增強(qiáng)了目標(biāo)對象的權(quán)重值,使網(wǎng)絡(luò)能夠更好地抽取目標(biāo)對象特征。

        圖8 可視化上采樣結(jié)果Fig.8 Results of visual upsampling

        3.5 與其他目標(biāo)檢測算法比較

        3.5.1 定量分析

        為了定量分析改進(jìn)YOLOv3算法的檢測性能,本文選取Faster-RCNN、YOLOv3 和YOLOv4 這3 種經(jīng)典目標(biāo)檢測網(wǎng)絡(luò)與改進(jìn)YOLOv3 算法選用相同的測試集做實(shí)驗(yàn)對比。圖像在訓(xùn)練前調(diào)整為640×640,實(shí)驗(yàn)結(jié)果如表3所示。

        表3 不同目標(biāo)檢測算法實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different object detection algorithms

        從表中可以看出,改進(jìn)YOLOv3算法無論是對大目標(biāo)、中目標(biāo)還是小目標(biāo)的檢測性能均要優(yōu)于YOLOv3,且AP 值比YOLOv3 提高了7.9 個(gè)百分點(diǎn);Faster-RCNN對大物體的檢測性能較改進(jìn)YOLOv3 算法略高,但對小物體的檢測性能及其它評價(jià)指標(biāo)卻遠(yuǎn)遠(yuǎn)低于改進(jìn)YOLOv3算法,表明了改進(jìn)YOLOv3算法檢測變化尺度大的小目標(biāo)時(shí)具有更強(qiáng)的魯棒性;改進(jìn)YOLOv3算法雖然在IOU 閾值為0.5 時(shí)的AP 值略低于YOLOv4,但其它各項(xiàng)評價(jià)指標(biāo)均高于YOLOv4,且最終AP 值比YOLOv4 提高了2.7 個(gè)百分點(diǎn),這表明改進(jìn)YOLOv3 算法能夠更準(zhǔn)確地定位遙感圖像小目標(biāo)。

        3.5.2 定性分析

        本文選取了兩張具有代表性的測試圖片對YOLOv3、Faster-RCNN、YOLOv4 和改進(jìn)YOLOv3 算法進(jìn)行定性分析,測試結(jié)果如圖9所示。圖中第一列右上角存在幾架尺寸較小,且分布集中的飛機(jī)目標(biāo)對象,測試圖片經(jīng)過主干特征提取網(wǎng)絡(luò)多次下采樣之后輸出的最后幾層卷積特征層對小目標(biāo)的語義表達(dá)損失較為嚴(yán)重,而傳統(tǒng)目標(biāo)檢測算法不能較好地恢復(fù)小目標(biāo)對象在深層特征的語義表達(dá)信息導(dǎo)致網(wǎng)絡(luò)漏檢。改進(jìn)YOLOv3 算法由于加入了自適應(yīng)上采樣模塊,所以改進(jìn)YOLOv3算法在上采樣操作時(shí)可以通過學(xué)習(xí)權(quán)重參數(shù)以更有效的恢復(fù)小目標(biāo)對象在深層特征的語義表達(dá)信息,為目標(biāo)檢測提供更準(zhǔn)確的語義特征,最終,成功檢測出圖片中的所有飛機(jī)目標(biāo)對象;圖中第二列左下角位置存在3個(gè)同飛機(jī)具有相似外形特征的風(fēng)車,圖片整體環(huán)境較復(fù)雜,干擾因素很多。在沒有引入注意力機(jī)制之前的傳統(tǒng)目標(biāo)檢測算法因?qū)ζ渖舷挛男畔⑻崛〔粔虺浞謱?dǎo)致誤檢,而改進(jìn)后的YOLOv3 算法由于引入了EGCA 通道注意力機(jī)制,所以無論是對目標(biāo)對象的特征提取能力還是定位能力較傳統(tǒng)目標(biāo)檢測算法均有提高,從圖中可以看中,改進(jìn)YOLOv3 算法正確避免了風(fēng)車干擾,并檢測出圖片中剩余的所有飛機(jī)目標(biāo)對象。綜上所述,從實(shí)驗(yàn)結(jié)果主觀評價(jià),改進(jìn)YOLOv3 算法的漏檢和誤檢現(xiàn)象相較傳統(tǒng)目標(biāo)檢測算法均有所下降。因此,改進(jìn)YOLOv3算法針對遙感影像小目標(biāo)檢測任務(wù)確實(shí)具備更好的檢測能力。

        4 結(jié)束語

        為解決遙感影像中因飛機(jī)目標(biāo)尺寸變化大、所占像素小以及背景復(fù)雜等原因而導(dǎo)致網(wǎng)絡(luò)漏檢率高、定位難的問題,本文在YOLOv3 的基礎(chǔ)下,以DarkNet-53 為主干提取網(wǎng)絡(luò),通過引入可以學(xué)習(xí)權(quán)重參數(shù)的自適應(yīng)上采樣模塊以及EGCA 通道注意力機(jī)制對原始算法進(jìn)行改進(jìn),最后將改進(jìn)后的網(wǎng)絡(luò)在RSOD 數(shù)據(jù)集上進(jìn)行測試。實(shí)驗(yàn)結(jié)果表明,無論是在背景干擾較大影響目標(biāo)對象檢測的情況,還是在小飛機(jī)密集排列影響目標(biāo)對象定位的情況,改進(jìn)YOLOv3 算法都有更好的預(yù)測結(jié)果,而且從客觀評價(jià)指標(biāo)分析,改進(jìn)YOLOv3 算法的AP 值較原算法及其他傳統(tǒng)目標(biāo)檢測算法均有所提高。因此可以看出改進(jìn)YOLOv3 算法具有良好的魯棒性且抗環(huán)境干擾能力強(qiáng),有效地提高了原算法的目標(biāo)檢測能力。但是,改進(jìn)YOLOv3 算法對某些極端情況仍存在錯(cuò)檢和漏檢現(xiàn)象,后續(xù)工作將繼續(xù)優(yōu)化網(wǎng)絡(luò)對極端情況的檢測效果。

        猜你喜歡
        注意力卷積機(jī)制
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        破除舊機(jī)制要分步推進(jìn)
        注重機(jī)制的相互配合
        打基礎(chǔ) 抓機(jī)制 顯成效
        中國火炬(2014年4期)2014-07-24 14:22:19
        青青草视频在线视频播放| 吃奶摸下激烈床震视频试看| 在教室伦流澡到高潮h麻豆| 精品一区二区三区久久久| 日韩女优在线一区二区| 天天综合天天爱天天做| 国产精品_国产精品_k频道w| 四虎成人在线| 国产一区二区三区涩涩涩| 国产三a级三级日产三级野外| 又大又粗又爽18禁免费看| 国产精品精品| 91青青草免费在线视频| 国内精品少妇高潮视频| 久久久国产精品免费a片3d| 国产成人啪精品| 中文字幕人妻少妇精品| 久久精品国产亚洲超碰av| 男女性高爱潮免费网站| 成人无码视频在线观看网站| 国产一区精品二区三区四区| 国产色视频一区二区三区qq号| 国产老熟女狂叫对白| 伊人狠狠色j香婷婷综合| 杨幂一区二区系列在线| 中文字幕在线日亚洲9| 亚洲综合一区二区三区四区五区| 成人免费视频自偷自拍| 美女在线一区二区三区视频| 一本一道av无码中文字幕﹣百度 | 91精品啪在线观看国产18| 中文字幕一区二区三区亚洲| 伊人久久大香线蕉av波多野结衣 | 日韩成人免费一级毛片| 成年女人午夜特黄特色毛片免| 真人做爰试看120秒| 日韩内射美女人妻一区二区三区 | 欧美性猛交xxxx黑人| 日本一区二区三区资源视频| 亚洲综合精品亚洲国产成人 | 狠狠躁夜夜躁人人爽超碰97香蕉|