亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)的RetinaNet 目標(biāo)檢測(cè)算法

        2022-08-12 02:30:14司念文
        計(jì)算機(jī)工程 2022年8期
        關(guān)鍵詞:特征融合檢測(cè)

        于 敏,屈 丹,司念文

        (1.鄭州大學(xué) 軟件學(xué)院,鄭州 450000;2.戰(zhàn)略支援部隊(duì)信息工程大學(xué) 信息系統(tǒng)工程學(xué)院,鄭州 450000)

        0 概述

        目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為一階段目標(biāo)檢測(cè)算法和兩階段目標(biāo)檢測(cè)算法兩大類(lèi)。一階段目標(biāo)檢測(cè)算法是基于回歸的目標(biāo)檢測(cè)方法,能同時(shí)對(duì)圖像進(jìn)行分類(lèi)和候選框參數(shù)的回歸,摒棄了多次回歸的步驟;兩階段目標(biāo)檢測(cè)算法是基于候選區(qū)域的目標(biāo)檢測(cè)方法,該算法使用先選取候選區(qū)域,后對(duì)候選區(qū)域進(jìn)行分類(lèi)和回歸的策略。相比于兩階段目標(biāo)檢測(cè)算法,一階段目標(biāo)檢測(cè)算法無(wú)需候選區(qū)域分類(lèi)回歸步驟即可直接對(duì)目標(biāo)進(jìn)行分類(lèi)預(yù)測(cè)。因此,一階段目標(biāo)檢測(cè)算法不僅降低了計(jì)算復(fù)雜性,提高了時(shí)間效率,而且對(duì)實(shí)時(shí)目標(biāo)檢測(cè)具有更大的適用性,應(yīng)用范圍更加廣泛。

        在一階段目標(biāo)檢測(cè)算法中,RetinaNet[1]是一種基于Focal損失函數(shù)的經(jīng)典網(wǎng)絡(luò),其繼承了之前一階段目標(biāo)檢測(cè)算法檢測(cè)速度快的特點(diǎn)[2],且基本克服了訓(xùn)練過(guò)程中類(lèi)別不平衡問(wèn)題。到目前為止,RetinaNet 仍被作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn)[3-4],或者作為主流基線(xiàn)網(wǎng)絡(luò)與目前最新方法進(jìn)行比較[5],被廣泛用于計(jì)算機(jī)視覺(jué)領(lǐng)域[6-7]。然而,RetinaNet僅關(guān)注分類(lèi)損失函數(shù)來(lái)解決類(lèi)別不平衡問(wèn)題,忽略了網(wǎng)絡(luò)本身和邊界框回歸也是訓(xùn)練過(guò)程優(yōu)化的重點(diǎn),依舊存在難以充分提取與融合不同階段特征,以及邊界框回歸不夠準(zhǔn)確的問(wèn)題。傳統(tǒng)的RetinaNet 算法通過(guò)深度卷積網(wǎng)絡(luò)后會(huì)輸出不同階段尺度大小不一致的特征圖,深層特征對(duì)應(yīng)的下采樣率通常比較大,容易造成小目標(biāo)在特征圖上的有效信息較少,不利于小目標(biāo)的檢測(cè)。而淺層特征分辨率較高,往往學(xué)習(xí)到的是細(xì)節(jié)特征,不利于大目標(biāo)的檢測(cè)。同時(shí),RetinaNet 算法中的特征金字塔(Feature Pyramid Networks,F(xiàn)PN)[8]雖然試圖通過(guò)橫向連接進(jìn)行特征集成,但FPN 中的順序方式使集成特征更多地關(guān)注相鄰層特征,而較少關(guān)注其他層特征。上述問(wèn)題均可歸結(jié)為不能充分提取與融合不同階段特征的問(wèn)題。此外,在邊界框回歸過(guò)程中,RetinaNet 算法中的邊界框回歸損失函數(shù)無(wú)法判斷預(yù)測(cè)框和目標(biāo)框是如何相交的,如果預(yù)測(cè)框和目標(biāo)框沒(méi)有重疊,那么損失函數(shù)將不起作用。上述問(wèn)題歸結(jié)為邊界框回歸不夠準(zhǔn)確的問(wèn)題。

        本文提出一種改進(jìn)型RetinaNet算法,在特征提取模塊的深度殘差網(wǎng)絡(luò)[9]中引入多光譜通道注意力(Multispectral Channel Attention,MCA)模塊[10],該模塊在ImageNet 數(shù)據(jù)集[11]上可達(dá)到最佳水平,能夠提取不同階段特征的豐富信息。此外,在特征提取模塊后添加多尺度特征融合(Multi-scale Feature Fusion,MFF)模塊,該模塊包括1 個(gè)具有自底向上路徑的路徑聚合模塊[12]和1 個(gè)特征融合操作[13],通過(guò)使用不同深度集成的特征來(lái)增強(qiáng)多層特征融合。將RetinaNet 算法中的邊界框回歸損失函數(shù)替換為完全交并比(Complete Intersection over Union,CIoU)損失函數(shù)[14],提高邊界框在回歸過(guò)程中的收斂速度。最后,在MS COCO 數(shù)據(jù) 集[15]和PASCAL VOC 數(shù)據(jù)集[16]上驗(yàn)證 改進(jìn)型RetinaNet 算法的檢測(cè)性能。

        1 改進(jìn)型RetinaNet 算法

        改進(jìn)型RetinaNet 算法的整體架構(gòu)如圖1 所示,首先輸入一張圖片,在加入MCA 模塊的ResNet-FPN 特征提取模塊中提取圖像特征,通過(guò)MFF 模塊來(lái)融合多階段特征,輸出5 層多尺度特征圖,并在每層特征上設(shè)置錨框,其對(duì)應(yīng)輸入圖像按固定長(zhǎng)度進(jìn)行平移。然后,生成的全部錨框覆蓋了相對(duì)于輸入圖像的尺度范圍,并設(shè)置交并比(Intersection over Union,IoU)閾值對(duì)錨框進(jìn)行篩選。最后將其送入分類(lèi)與邊界框回歸模塊,分類(lèi)分支和回歸分支都是全卷積網(wǎng)絡(luò),分類(lèi)分支預(yù)測(cè)了每個(gè)錨框上K個(gè)類(lèi)別的概率,回歸分支預(yù)測(cè)了錨框和目標(biāo)框之間的相對(duì)偏移。

        圖1 改進(jìn)型RetinaNet 算法的整體架構(gòu)Fig.1 Overall architecture of improved RetinaNet algorithm

        1.1 基于多光譜通道注意力的特征提取模塊

        如圖1 的左側(cè)部分所示是基于多光譜通道注意力的ResNet-FPN 特征提取模塊。ResNet-FPN 作為RetinaNet 算法的特征提取模塊,使用ResNet 每個(gè)殘差階段中的最后一個(gè)殘差塊輸出的特征圖,即C2、C3、C4和C5這4 層特征構(gòu)成自底向上路徑。而P2、P3、P4和P5這4 層特征是經(jīng)過(guò)橫向連接和2 倍上采樣得到的。為了減少計(jì)算量,不使用高分辨率特征圖P2。P7、P6是經(jīng)過(guò)步幅為2 的3×3 卷積得到的,最后P7、P6、P5、P4和P3這5 層特征構(gòu)成了自頂向下路徑。由于ResNet-FPN 特征提取模塊存在不能充分提取圖片特征信息的問(wèn)題,因此,本文算法加入了多光譜通道注意力(Multi-spectral Channel Attention,MCA)模塊[10]來(lái)幫助有效地提取豐富的特征信息。

        本文將MCA 模塊插入在深度殘差網(wǎng)絡(luò)的多個(gè)殘差塊中,以ResNet-50 網(wǎng)絡(luò)為例,該網(wǎng)絡(luò)主要有5 個(gè)階段,第1 個(gè)階段包括7×7 卷積和3×3 最大池化層,后4 個(gè)階段分別包括3、4、6、3 個(gè)殘差塊,每個(gè)殘差塊又包括1×1、3×3 和1×1 共3 個(gè)卷積層,ResNet-50 網(wǎng)絡(luò)結(jié)構(gòu)如表1 所示,其中64、256、128、512、1 024、2 048 等數(shù)字代表通道數(shù)。

        表1 ResNet-50 網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of ResNet-50

        以ResNet-50 網(wǎng)絡(luò)為例,在該網(wǎng)絡(luò)的每個(gè)殘差塊中均插入一個(gè)注意力模塊,具體操作如圖2 所示,總共插入了16 個(gè)注意力模塊。

        圖2 插入多光譜通道注意力模塊的殘差塊Fig.2 Residual block inserted in the multi-spectral channel attention module

        多光譜通道注意力模塊是基于離散余弦變換(Discrete Cosine Transform,DCT)[17]提出的,二 維DCT 可定義為:

        因此,二維離散余弦逆變換可定義為式(2)所示:

        為簡(jiǎn)單起見(jiàn),使用B表示頻率分量,即二維DCT的權(quán)重分量,B的元素定義如式(3)所示:

        根據(jù)式(3),可以將二維DCT 的逆變換重寫(xiě)為式(4):

        由式(4)可知,圖像特征可表示為不同頻率分量的組合。為了使用頻譜表征所有特征信息,引入了MCA 模塊。

        多光譜通道注意力模塊的整體流程如圖3 所示。

        圖3 多光譜通道注意力模塊的整體流程Fig.3 Overall procedure of multi-spectral channel attention module

        從圖3 可以看出,將輸入X沿著通道維度劃分為n部 分,用[X0,X1,…,Xn-1]表 示n個(gè)部分,其 中:,n必須能被通道數(shù)C整除。對(duì)于每個(gè)部分,分配相應(yīng)的二維DCT 頻率分量,其結(jié)果可作為通道注意力的預(yù)處理結(jié)果,即:

        其中:Freqi?是預(yù)處理后的C′維向量;[u,v]是對(duì)應(yīng)于Xi的頻率分量指數(shù)。實(shí)驗(yàn)中,選定Top-k個(gè)性能最佳的頻率分量后,通過(guò)u=rH/7可得出u的值,r為選定頻率分量中的一個(gè)值,計(jì)算v值同理。

        最后,將各部分的預(yù)處理向量合并起來(lái):

        其中:cat 表示向量級(jí)聯(lián);Freq?RC是獲得的多光譜向量。

        整個(gè)MCA 模塊可以定義為:

        對(duì)于尺寸為H×W的特征,利用2 維DCT 將其分解為H×W個(gè)頻率分量,得到總的頻率分量為C×H×W。由于測(cè)試所有組合的計(jì)算成本很高,因此通過(guò)2 步準(zhǔn)則來(lái)選擇MCA 模塊中的頻率分量。其主要思想是先逐個(gè)計(jì)算每個(gè)頻率分量的結(jié)果,然后再根據(jù)所得結(jié)果篩選出Top-k個(gè)性能最佳的頻率分量。

        由于MCA 模塊可以將包含不同信息的頻率分量合并到注意力處理中,從而提取出更多的特征信息,因此有效緩解了RetinaNet 算法中存在的難以充分提取不同階段特征的問(wèn)題。

        1.2 多尺度特征融合模塊

        MFF 模塊是受路徑聚合網(wǎng)絡(luò)[12]和平衡特征金字塔[13]的啟發(fā)而構(gòu)建的,其包含1 個(gè)具有自底向上路徑的路徑聚合模塊和1 個(gè)特征融合操作。

        1.2.1 路徑聚合模塊

        圖4 為多尺度特征融合模塊的結(jié)構(gòu)。如圖4 路徑聚合模塊所示,在ResNet-FPN 特征提取模塊的后面連接具有自底向上路徑的路徑聚合模塊。P3、P6、P7層特征圖不經(jīng)過(guò)任何操作,直接作為N3、N6、N7層特征圖。以P4層的特征圖為例,P4與經(jīng)過(guò)2 倍下采樣的N3特征圖根據(jù)元素相加,得到的特征圖再經(jīng)過(guò)3×3 卷積后生成特征圖N4,以此類(lèi)推,生成特征圖N5,最后生成5 層通道數(shù)均為256 的特征。N3、N4、N5、N6和N7則構(gòu)成了具有自底向上路徑的路徑聚合模塊。該模塊通過(guò)擴(kuò)充自底向上路徑,在較低特征層上用精確的定位信號(hào)增強(qiáng)了整個(gè)特征金字塔的信息流。

        圖4 多尺度特征融合模塊的結(jié)構(gòu)Fig.4 Structure of multi-scale feature fusion module

        1.2.2 特征融合操作

        特征融合操作主要分為縮放整合、優(yōu)化、加強(qiáng)特征這3個(gè)步驟,如圖4特征融合模塊所示。具體操作如下:

        步驟1調(diào)整特征圖尺寸并平均融合后的特征。現(xiàn)有{N3,N4,N5,N6,N7}5 層特征,由于低層特征分辨率高,一般只能學(xué)習(xí)到細(xì)節(jié)特征,高層特征分辨率低,學(xué)習(xí)到的是語(yǔ)義特征。因此,要先把這5 層特征的尺寸調(diào)整到中間層次N4特征圖的尺寸,并進(jìn)行融合。采取的操作是,將N3特征圖下采樣,將N5、N6、N7特征圖進(jìn)行上采樣,對(duì)N4特征圖不進(jìn)行其他操作,最后再做簡(jiǎn)單的相加取平均操作,如式(8)所示:

        其中:L表示特征層的層數(shù);Nl表示第l層特征。

        步驟2將平均后的特征圖進(jìn)一步優(yōu)化,使特征圖具有更強(qiáng)的辨別力,使用embedded Gaussian nonlocal 模塊[18]進(jìn)行優(yōu)化操作,該操作的定義如下:

        其中:M和N是尺寸相同的特征圖;i是特征圖的一個(gè)像素位置;j是所有可能位置的索引;g是一元輸入函數(shù),一般采用1×1 卷積,目的是進(jìn)行信息變換;f是配對(duì)計(jì)算函數(shù),計(jì)算第i個(gè)位置和其他所有位置的相關(guān)性;θ和?都是1×1 卷積操作,T設(shè)置為1;C(N)是歸一化函數(shù),能夠保證變換前后整體信息不變。

        步驟3將優(yōu)化后的特征分散成多層特征{M3,M4,M5,M6,M7},并與N3~N7特征相加融合,其中:M3特征是通過(guò)將優(yōu)化后的特征進(jìn)行上采樣得到的;M4特征是直接輸出得到的;M5、M6和M7特征是通過(guò)將優(yōu)化后的特征進(jìn)行下采樣得到的。

        上述過(guò)程是特征融合的3 個(gè)步驟。通過(guò)添加路徑聚合模塊和特征融合操作,有效緩解了RetinaNet算法難以充分融合不同階段特征的問(wèn)題。

        1.3 邊界框回歸和分類(lèi)模塊

        本文算法的邊界框回歸網(wǎng)絡(luò)與分類(lèi)網(wǎng)絡(luò)使用的是RetinaNet 算法的回歸與分類(lèi)網(wǎng)絡(luò)。其中,邊界框回歸網(wǎng)絡(luò)是附加在輸出特征每一層的全卷積網(wǎng)絡(luò)[19]。該網(wǎng)絡(luò)使用4 層通道數(shù)為256 的3×3 卷積,每層卷積接一個(gè)ReLU 激活層,然后接1 個(gè)通道數(shù)為36的3×3 卷積層,最后的輸出預(yù)測(cè)了錨框和目標(biāo)框之間的相對(duì)偏移。

        得到預(yù)測(cè)值和目標(biāo)值后,便可以計(jì)算邊界框回歸損失,但RetinaNet 算法的邊界框回歸損失函數(shù)存在2 個(gè)問(wèn)題:

        1)如果目標(biāo)框和預(yù)測(cè)框沒(méi)有重疊,那么損失函數(shù)將不起作用;

        2)如果兩對(duì)預(yù)測(cè)框和目標(biāo)框的大小均相同,而且這2 對(duì)框的相交值也相同,那就不能確定這2 對(duì)框是如何相交的。

        針對(duì)上述問(wèn)題,本文算法使用CIoU 損失函數(shù)[14]替換了RetinaNet 算法的邊界框回歸損失函數(shù)。CIoU 損失函數(shù)根據(jù)邊界框回歸中的重疊面積、中心點(diǎn)距離和長(zhǎng)寬比這3 個(gè)因素,直接最小化預(yù)測(cè)框和目標(biāo)框之間的歸一化距離,以達(dá)到更快的收斂速度。同時(shí),當(dāng)預(yù)測(cè)框與目標(biāo)框沒(méi)有重疊,或者預(yù)測(cè)框與目標(biāo)框有重疊甚至有包含關(guān)系時(shí),該損失函數(shù)能使邊界框回歸更加準(zhǔn)確。

        交并比(Intersection over Union,IoU)的定義如式(11)所示:

        其中:Bgt=(xgt,ygt,wgt,hgt)是目標(biāo)框;B=(x,y,w,h)是預(yù)測(cè)框;x、y、w、h分別是框的中心點(diǎn)坐標(biāo)和寬高;|B∩Bgt|表示目標(biāo)框與預(yù)測(cè)框重疊部分的面積;|B∪Bgt|表示目標(biāo)框與預(yù)測(cè)框2 個(gè)框包圍的總面積,如圖5 所示。

        圖5 IoU 的定義Fig.5 Definition of IOU

        因此,CIoU 損失函數(shù)的定義如下:

        其中:b和bgt分別表示預(yù)測(cè)框B和目標(biāo)框Bgt的中心點(diǎn);ρ(?)是2 個(gè)中心點(diǎn)的歐幾里得距離;c是同時(shí)包含預(yù)測(cè)框和目標(biāo)框的最小封閉框?qū)蔷€(xiàn)長(zhǎng)度;α、ν是影響因子,α是用來(lái)平衡長(zhǎng)寬比的系數(shù),ν是用來(lái)衡量預(yù)測(cè)框和目標(biāo)框之間的長(zhǎng)寬比一致性。α和ν的定義如下:

        參數(shù)c和d的示意圖如圖6 所示。

        圖6 參數(shù)c 和d 的示意圖Fig.6 Schematic diagram of parameters c and d

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        選用MS COCO[15]和PASCAL VOC[16]兩大公共數(shù)據(jù)集。其中MS COCO 數(shù)據(jù)集包含80 個(gè)類(lèi)別,其中用于訓(xùn)練的圖片有118 287張,用于驗(yàn)證的圖片有5 000張,用于測(cè)試的圖片有20 000 張。令本文算法在test-dev 2017 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與最新的目標(biāo)檢測(cè)算法相比較,然后使用val 2017 數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果使用平均精度(Average Precision,AP)指標(biāo)進(jìn)行表征,AP 表示IoU 從0.5 開(kāi)始,每隔0.05 作為閾值,直到取到0.95 得到的平均精度再進(jìn)行平均的結(jié)果。例如AP50表示IoU 閾值為0.5 時(shí)的平均精度,AP75表示IoU 閾值為0.75 時(shí)的平均精度,其它同理。APS、APM、APL分別表示小、中、大目標(biāo)的平均精度。PASCAL VOC 數(shù)據(jù)集包含20 個(gè)類(lèi)別,其中訓(xùn)練圖片來(lái)自trainval 2007 數(shù)據(jù)集和trainval 2012 數(shù)據(jù)集,共22 136 張;測(cè)試圖片來(lái)自test 2007 數(shù)據(jù)集,共4 952 張,實(shí)驗(yàn)結(jié)果遵循VOC 數(shù)據(jù)集的最終評(píng)價(jià)指標(biāo),即平均精度均值(mean Average Precision,mAP),其中類(lèi)別精度表示該類(lèi)別在IoU 閾值為0.5 時(shí)的平均精度。

        2.2 實(shí)驗(yàn)參數(shù)設(shè)置

        在COCO 數(shù)據(jù)集中,先將輸入圖像的短邊調(diào)整為800 像素,然后使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化所有算法,權(quán)重衰減為1×10?4,batch size為4(2個(gè)GPU,每個(gè)GPU 每訓(xùn)練一次選取2 張圖像)。學(xué)習(xí)率被初始化為0.002 5,共訓(xùn)練12 個(gè)epoch,并分別在第8 和第11 個(gè)epoch 時(shí)將學(xué)習(xí)率降低10 倍。在VOC 數(shù)據(jù)集中,將輸入圖像的短邊調(diào)整為600 像素,在第9 個(gè)epoch 時(shí)將學(xué)習(xí)率降低10倍,其他設(shè)置與COCO 數(shù)據(jù)集相同。

        本文實(shí)驗(yàn)在PyTorch 1.7 深度學(xué)習(xí)框架[20]下進(jìn)行,操作系統(tǒng)為Ubuntu 18.04,使用2 個(gè)NVIDIA GeForce RTX GPU 訓(xùn)練,顯卡內(nèi)存為11 GB。本文的基線(xiàn)算法Baseline 即為RetinaNet 算法,在超參數(shù)(如權(quán)重衰減、batch size、學(xué)習(xí)率、epoch 等)設(shè)置均相同的情況下,對(duì)RetinaNet 算法進(jìn)行了重新實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果優(yōu)于提出該算法的原始論文中的結(jié)果,本文的RetinaNet 算法的實(shí)驗(yàn)結(jié)果與原始論文結(jié)果相比提高了超過(guò)1 個(gè)百分點(diǎn)。

        2.3 結(jié)果分析

        2.3.1 對(duì)比實(shí)驗(yàn)與結(jié)果可視化

        本文在COCO test-dev 2017 數(shù)據(jù)集和PASCAL VOC 測(cè)試集上評(píng)估了本文所提改進(jìn)型RetinaNet 算法的性能。在COCO test-dev 2017數(shù)據(jù)集上,實(shí)驗(yàn)主要分為2個(gè)部分,將主干網(wǎng)絡(luò)為ResNet-50和ResNet-101的改進(jìn)型RetinaNet 算法分別與其他主干網(wǎng)絡(luò)為ResNet-50 或ResNet-101 的最新一階段、兩階段目標(biāo)檢測(cè)算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2 所示。由表2 可知,主干網(wǎng)絡(luò)為ResNet-101 的改進(jìn)型RetinaNet 算法的AP 值為40.9%,與RetinaNet 算法相比性能得到顯著提高。在主干網(wǎng)絡(luò)相同的條件下,改進(jìn)型RetinaNet 算法與表2 中的其他目標(biāo)檢測(cè)算法相比均達(dá)到了最佳結(jié)果。

        表2 不同目標(biāo)檢測(cè)算法在COCO test-dev 2017 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Tabel 2 Comparison of experimental results of different object detection algorithms on COCO test-dev 2017 data set %

        在PASCAL VOC 測(cè)試集上,將改進(jìn)型RetinaNet算法(主干網(wǎng)絡(luò)為ResNet-50)的各個(gè)類(lèi)別的精度與RetinaNet算法進(jìn)行對(duì)比,結(jié)果如圖7所示。由圖7可知,RetinaNet 算法的mPA 為78.3%,改進(jìn)型RetinaNet 算法的mPA 為79.4%,且改進(jìn)型RetinaNet 算法在大多數(shù)類(lèi)別上的精度高于RetinaNet算法,只在少部分類(lèi)別如bird、boat、bus、sofa 上的類(lèi)別精度較低于RetinaNet算法。其原因在于VOC 訓(xùn)練集圖片數(shù)量較少,隨著網(wǎng)絡(luò)層數(shù)的加深及參數(shù)量的增加,算法的訓(xùn)練效果稍低,且測(cè)試集中含有的小目標(biāo)或重疊目標(biāo)的圖片不易被檢測(cè)。

        圖7 不同算法在PASCAL VOC test 2007 數(shù)據(jù)集上的結(jié)果對(duì)比Fig.7 Comparison of results of different algorithms on PASCAL VOC test 2007 data set

        從MS COCO 數(shù)據(jù)集中隨機(jī)選取一些圖片進(jìn)行可視化,本文選取2 對(duì)具有代表性的檢測(cè)結(jié)果進(jìn)行對(duì)比,結(jié)果如圖8 所示。圖8(a)為RetinaNet 算法的可視化結(jié)果,圖8(b)為改進(jìn)型RetinaNet 算法(主干網(wǎng)絡(luò)為ResNet-50)的可視化結(jié)果,由圖8 可知,改進(jìn)型RetinaNet 算法的檢測(cè)結(jié)果具有更高的準(zhǔn)確率,檢測(cè)的邊框更加準(zhǔn)確。

        圖8 改進(jìn)前后的RetinaNet 算法在COCO 數(shù)據(jù)集上的可視化結(jié)果對(duì)比Fig.8 Comparison of visualization results of RetinaNet algorithm before and after improvement on the COCO data set

        2.3.2 消融實(shí)驗(yàn)

        本文所有消融實(shí)驗(yàn)均在COCO val 2017 數(shù)據(jù)集上進(jìn)行。實(shí)驗(yàn)結(jié)果均與基線(xiàn)算法Baseline 進(jìn)行對(duì)比,Baseline 是主干網(wǎng)絡(luò)為ResNet-50 的RetinaNet 算法。

        1)MCA 模塊中頻率分量數(shù)量的性能分析

        分析不同數(shù)量的頻率分量對(duì)RetinaNet 算法的影響,也就是說(shuō)在Baseline 算法上加入具有不同頻率分量的MCA 模塊。本文選擇了性能最高的前k個(gè)頻率分量,k分別為4、8、16、32。

        由表3 可知,具有多光譜通道注意力的RetinaNet算法與基線(xiàn)算法相比,實(shí)驗(yàn)結(jié)果均存在明顯差距,這驗(yàn)證了在通道注意力中使用多個(gè)頻率分量的正確性。此外,由表3 還可以發(fā)現(xiàn)當(dāng)頻率分量的數(shù)量為8 時(shí),RetinaNet 算法的AP 值最大。

        表3 不同數(shù)量的頻率分量對(duì)RetinaNet 算法的影響Table 3 Influence of different number of frequency components on RetinaNet algorithm

        2)MFF 模塊中組成部分的性能分析

        表4 是在RetinaNet 算法上加入特征融合模塊各個(gè)部分的對(duì)比結(jié)果,由表4 可知,路徑聚合模塊及特征融合操作分別驗(yàn)證了較低層特征的信息有用性、融合多層特征的有效性,將路徑聚合模塊與特征融合操作相結(jié)合可獲得最佳性能。

        表4 在RetinaNet 算法上加入特征融合模塊各個(gè)部分的對(duì)比結(jié)果Table 4 The comparison results of each part of the feature fusion module added to the RetinaNet algorithm

        3)CIoU 損失函數(shù)不同損失權(quán)重的性能分析

        在Baseline上加入具有不同損失權(quán)重值的CIoU 損失函數(shù),分析不同的損失權(quán)重對(duì)RetinaNet算法的影響。損失權(quán)重值分別設(shè)置為1、2、3,實(shí)驗(yàn)結(jié)果如表5 所示。由表5 可知,CIoU 損失函數(shù)有效改善了RetinaNet算法中存在的邊界框回歸問(wèn)題。當(dāng)CIoU 的損失權(quán)重值設(shè)置為2 時(shí),網(wǎng)絡(luò)可獲得最佳性能。

        表5 不同損失權(quán)重值對(duì)RetinaNet 算法的影響Table 5 Influence of different loss weight values on RetinaNet algorithm

        4)3 個(gè)改進(jìn)部分不同組合方式的比較

        對(duì)MCA 模 塊、MFF 模塊、CIoU 損失函 數(shù)3 個(gè) 改進(jìn)部分以不同的方式進(jìn)行組合,結(jié)果如表6 所示,其中“?”代表不添加,“√”表示添加。由表6 可知,在基線(xiàn)算法上單獨(dú)加入1 個(gè)模塊,或者加入其中2 個(gè)模塊都不能達(dá)到最佳性能效果,因?yàn)槊總€(gè)模塊的作用各不相同。對(duì)于目標(biāo)檢測(cè)算法整體而言,特征提取、特征融合和邊界框回歸都是很重要的部分,因此在改進(jìn)目標(biāo)檢測(cè)算法時(shí),不能只著眼于部分網(wǎng)絡(luò),而要分析整體網(wǎng)絡(luò)所存在的問(wèn)題,再針對(duì)這些問(wèn)題進(jìn)行解決和改進(jìn)。因此,這3 個(gè)改進(jìn)部分的結(jié)合不僅改善了難以充分提取和融合多層特征的缺陷,而且緩解了邊界框回歸不準(zhǔn)確問(wèn)題,驗(yàn)證了該改進(jìn)算法的有效性。如表6 所示,改進(jìn)型RetinaNet 算法在COCO val 2017 數(shù)據(jù)集上的AP 值比RetinaNet 算法高出了2.4 個(gè)百分點(diǎn),性能得到顯著提高。

        表6 3 個(gè)改進(jìn)部分不同組合方式的對(duì)比實(shí)驗(yàn)結(jié)果Table 6 Comparative experimental results of different combinations of three improved parts %

        3 結(jié)束語(yǔ)

        本文針對(duì)RetinaNet 算法難以充分提取及融合不同階段特征、邊界框回歸不準(zhǔn)確等問(wèn)題,提出一種改進(jìn)型RetinaNet 算法。在特征提取模塊中引入多光譜通道注意力模塊,將路徑聚合模塊與特征融合操作相結(jié)合以構(gòu)成多尺度特征融合模塊,并在邊界框回歸過(guò)程中引入CIoU 損失函數(shù)。在MS COCO 和PASCAL VOC 兩大公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與RetinaNet 算法相比,改進(jìn)型RetinaNet 算法的檢測(cè)性能得到了顯著提高。但目前所提算法尚未應(yīng)用到兩階段目標(biāo)檢測(cè)中,下一步將通過(guò)調(diào)整該算法的網(wǎng)絡(luò)結(jié)構(gòu)或具體參數(shù),將本文算法應(yīng)用到兩階段目標(biāo)檢測(cè)中的特征提取與融合部分、邊界框回歸部分,使兩階段目標(biāo)檢測(cè)算法在提高檢測(cè)精度的同時(shí)保持檢測(cè)速度,提高本文算法的適用性。

        猜你喜歡
        特征融合檢測(cè)
        村企黨建聯(lián)建融合共贏
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        在线看片无码永久免费aⅴ| 精品久久中文字幕一区| 国产精品精品国产色婷婷| 成人国成人国产suv| 亚洲精品久久久久久久久av无码| 97人妻碰免费视频| 精品国产亚洲人成在线观看| 国产一区二区三区在线观看第八页| 人禽交 欧美 网站| 久久99精品久久久久久| 国语精品视频在线观看不卡| 综合激情五月三开心五月| 无码熟妇人妻av在线影片最多| 日日碰狠狠丁香久燥| 人妻少妇人人丰满视频网站| 久久精品国产亚洲av四区| 色综合久久久无码中文字幕| 色妞色综合久久夜夜| 中文字幕亚洲综合久久| 日本一区二区免费高清| av鲁丝一区鲁丝二区鲁丝三区 | 久久精品国产亚洲av精东| 最近中文字幕视频完整版在线看 | 日韩av一区二区三区四区av| 蜜桃视频永久免费在线观看 | 亚洲AV秘 无码一区二p区三区| av男人操美女一区二区三区| 亚洲人成在久久综合网站| 粉嫩虎白女毛片人体| 国产精品18久久久久网站| 亚洲免费福利视频网站| 亚洲中文字幕久久精品蜜桃| 亚洲欧美精品aaaaaa片| 国产传媒剧情久久久av| 精品一区二区在线观看免费视频| 蜜桃久久精品成人无码av| av一区无码不卡毛片| 精品国模人妻视频网站| 国产色系视频在线观看| 韩国三级中文字幕hd久久精品| 国产精品一区二区三密桃|