亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多尺度感受野融合的小目標(biāo)檢測算法

        2022-06-23 06:24:46李成豪肖賢鵬
        計算機工程與應(yīng)用 2022年12期
        關(guān)鍵詞:尺度卷積特征

        李成豪,張 靜,2,胡 莉,肖賢鵬,張 華

        1.西南科技大學(xué) 信息工程學(xué)院,四川 綿陽 621010

        2.中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,合肥 230026

        目標(biāo)檢測是圖像分割、圖像標(biāo)注和圖像理解等高級計算機視覺問題的一項基本任務(wù)。與圖像分類不同,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[1-2]的目標(biāo)檢測算法需要用一個網(wǎng)絡(luò)完成目標(biāo)分類和目標(biāo)定位兩個任務(wù)。目前基于CNN的目標(biāo)檢測算法主要分為兩類,第一類是兩級(two-stage)檢測算法,例如R-CNN[3]、Fast R-CNN[4]、Faster R-CNN[5]等;第二類是單級(one-stage)檢測算法,例如YOLO[6]、SSD[7]、RetinaNet[8]等。隨著現(xiàn)代生活中計算機視覺系統(tǒng)的逐漸復(fù)雜化和智能化,如無人駕駛中對遠(yuǎn)處車輛、行人和交通標(biāo)志的識別[9],醫(yī)學(xué)成像中一些早期疾病的檢測,自動化工業(yè)中的工件檢測等,都需要考慮到目標(biāo)太小、像素低,不便于提取特征的問題,因此研究小目標(biāo)檢測以適應(yīng)這些特定場景的檢測任務(wù)很有必要。

        雖然目前通用的目標(biāo)檢測算法已經(jīng)大大提高了檢測精度和效率,但是因為CNN重復(fù)使用卷積層、池化層提取高級語義信息,使小目標(biāo)的像素在這個過程中被過濾掉了,導(dǎo)致小目標(biāo)的檢測性能很差。為解決這個問題,SSD算法采用一種特征分級結(jié)構(gòu)的思想,即在每一個尺度提取的特征圖上都進(jìn)行檢測,相比單一尺度特征的檢測算法有了很好的提升。可是由于SSD淺層特征語義信息不豐富,加之小目標(biāo)對應(yīng)的Anchor較少,SSD在實際應(yīng)用中的小目標(biāo)檢測效果不理想。DSSD[10]算法針對SSD中小目標(biāo)對應(yīng)Anchor較少導(dǎo)致的訓(xùn)練不充分問題做出改進(jìn),改善了對小目標(biāo)的檢測能力。但DSSD依然沒有獲得足夠的小目標(biāo)語義信息,并且引入反卷積后,計算開銷大,使得DSSD的預(yù)測速度不如SSD。文獻(xiàn)[11]通過建立由深層特征到淺層特征的恒等映射的方式,直接利用深層特征的高級語義信息對淺層特征進(jìn)行增強,改善了SSD在小目標(biāo)檢測上的缺陷。但是這種方法得益于SSD框架,也局限于SSD框架,對小目標(biāo)檢測的提升空間不大。特征金字塔網(wǎng)絡(luò)FPN[12]是第一種通過融合不同層級特征來增強特征的方法,采用Top-Down的特征融合結(jié)構(gòu),很好地解決了淺層特征語義信息不豐富的問題。盡管FPN提高了小目標(biāo)的檢測精度,但FPN只對相鄰特征進(jìn)行了融合,忽略了頂層和底層的特征融合,同時沒有很好地解決感受野與目標(biāo)尺度匹配的問題,無法充分發(fā)揮出小目標(biāo)的檢測性能。

        針對FPN的兩個問題,以RetinaNet作為基礎(chǔ)框架,提出一種基于多尺度感受野融合的小目標(biāo)檢測算法S-RetinaNet,采用具有反饋結(jié)構(gòu)的遞歸特征金字塔網(wǎng)絡(luò)RFPN[13]對特征進(jìn)行充分融合,并增加三個多尺度感受野融合模塊MRFF分別處理RFPN的不同大小輸出,使感受野與目標(biāo)尺度相匹配。通過在PASCAL VOC和MS COCO數(shù)據(jù)集上的對比實驗和消融實驗表明,相比RetinaNet,S-RetinaNet對小目標(biāo)檢測有較大改善。

        1 小目標(biāo)檢測算法S-RetinaNet

        1.1 遞歸特征金字塔網(wǎng)絡(luò)RFPN

        人類通過視覺識別目標(biāo)時會通過把高級語義信息回傳到反饋連接中,來選擇性地增強和抑制神經(jīng)的輸出。遞歸特征金字塔網(wǎng)絡(luò)RFPN引入這個思想,在普通特征金字塔的基礎(chǔ)上增加了一個反饋結(jié)構(gòu),通過這種反饋連接能夠直接獲取來自分類和回歸預(yù)測的梯度信號,使得目標(biāo)檢測的錯誤回傳信息能夠更直接地調(diào)整主干網(wǎng)絡(luò)參數(shù),從而加快訓(xùn)練速度并提高檢測性能。另外RFPN的特征融合操作采用兩階段結(jié)構(gòu),能夠避免單階段融合造成的特征融合不充分的問題。如圖1所示,第一階段的融合同F(xiàn)PN,設(shè)bi(i=3、4、5)為主干網(wǎng)絡(luò)的第i級操作,Bi為自下而上的主干網(wǎng)絡(luò)的第i級輸出。fi為自上而下的特征金字塔的第i級操作,F(xiàn)i為特征金字塔的第i級輸數(shù)。輸入和輸出的關(guān)系可以表示為:

        圖1 RFPN結(jié)構(gòu)圖Fig.1 RFPN structure

        第二階段的融合通過反饋連接將第一階段的輸出Fi與第二階段的輸入Bi(Bi')聯(lián)系起來。設(shè)Ri為將Fi和Bi(Bi')結(jié)合的操作,因此輸入和輸出的關(guān)系可以表示為:

        其中當(dāng)i=3時,此時Bi=B3為bi(R(F3,B3))。

        1.2 多尺度感受野融合模塊MRFF

        盡管較小的感受野有利于檢測小目標(biāo),但是相對于目標(biāo)尺度而言的,小于或接近小目標(biāo)尺度的感受野不能發(fā)揮出對小目標(biāo)檢測的最佳效果[14]。需要適當(dāng)增大感受野,借助被檢測目標(biāo)周圍的有效上下文信息,以提升對小目標(biāo)的檢測效果。

        多尺度感受野融合模塊MRFF通過多個共享卷積進(jìn)行不同尺度的感受野擴(kuò)大,并進(jìn)行融合,其設(shè)計思路來源于Inception module[15],Inception module將1×1、3×3、5×5卷積和3×3 pooling堆疊在一起,一方面增加了網(wǎng)絡(luò)的寬度,另一方面增加了網(wǎng)絡(luò)對多尺度的適應(yīng)性。相比Inception module,MRFF不同之處在于使用了3×3、5×5、7×7、9×9卷積進(jìn)行堆疊,其中5×5、7×7、9×9卷積分別使用兩個3×3、三個3×3和四個3×3卷積等效,并且多個等效3×3卷積可作為共享卷積,這樣在引入上下文信息的同時,不但減輕了因為多次卷積導(dǎo)致目標(biāo)分辨率下降的問題,而且大大簡化了網(wǎng)絡(luò)結(jié)構(gòu),使MRFF易嵌入到RetinaNet網(wǎng)絡(luò)框架中。

        MRFF的結(jié)構(gòu)如圖2所示。首先通過1×1卷積調(diào)整通道數(shù)為原來的1/4,并對輸入的特征分別進(jìn)行3×3、5×5、7×7、9×9卷積操作,卷積過程中通過控制stride、padding和卷積核數(shù)量的變化保持輸出特征圖大小和通道數(shù)不變。然后對獲得的不同尺度感受野的特征進(jìn)行融合輸出,融合操作采用concatenate,即將四次卷積后的輸出進(jìn)行堆疊,使其和調(diào)整前的通道數(shù)256保持一致。最后通過輸出的特征進(jìn)行目標(biāo)分類和邊框回歸。為減少網(wǎng)絡(luò)的參數(shù)量,提高訓(xùn)練和檢測效率,MRFF使用兩個3×3卷積代替一個5×5卷積,三個3×3卷積代替一個7×7卷積,以及四個3×3卷積代替9×9卷積,其中第二、三、四個3×3卷積為共享卷積。相比二階段目標(biāo)檢測算法Faster R-CNN基于區(qū)域提議擴(kuò)大感受野的方法,MRFF使用的參數(shù)更少。針對單獨使用3×3、5×5、7×7或9×9卷積增大感受野,造成感受野與目標(biāo)尺度不匹配的問題,MRFF模塊對感受野進(jìn)行四種不同尺度的擴(kuò)大,并進(jìn)行融合,能夠有效地解決這個問題,提升小目標(biāo)的檢測精度。

        圖2 MRFF結(jié)構(gòu)圖Fig.2 MRFF structure

        1.3 網(wǎng)絡(luò)結(jié)構(gòu)

        S-RetinaNet目標(biāo)檢測算法以RetinaNet框架為基礎(chǔ),網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,包括四個部分。第一部分是主干網(wǎng)絡(luò),采用ResNet50,輸出為B5、B4、B3三個有效特征層。第二部分是遞歸特征金字塔網(wǎng)絡(luò)RFPN,對B5、B4、B3三個特征層進(jìn)行特征融合。針對第一階段融合,首先分別通過1×1,步長為1的卷積調(diào)整B5、B4、B3的通道數(shù)為256,然后對B5進(jìn)行第一層金字塔操作得到F5,并對F5上采樣產(chǎn)生與B4相同大小的特征圖,最后與B4相加,并通過金字塔第二層操作得到F4,同樣的以F4為基準(zhǔn)與B3進(jìn)行特征融合可以得到F3。針對第二階段融合,首先通過輸出的Fi(i=3、4、5)調(diào)整通道數(shù)為Bi大小,并與Bi相加得到Bi'(當(dāng)i>3時,Bi'為Fi+B'i-1),然后繼續(xù)第一次融合的操作,最后可以得到RFPN的最終輸出F5'、F4'、F3'。第三部分是MRFF,分別處理RFPN的三個輸出,對不同尺度的特征層進(jìn)行四種不同尺度感受野的擴(kuò)大,并進(jìn)行融合。最后一部分是目標(biāo)分類和框的回歸,輸入為經(jīng)過三個MRFF處理的結(jié)果,輸出是目標(biāo)的位置和類別。

        圖3 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Net structure

        網(wǎng)絡(luò)的改進(jìn)主要有三點:一是引入了RFPN,通過在FPN中增加反饋連接,彌補FPN特征融合不充分的問題;二是在遞歸特征金字塔的多尺度輸出后加入MRFF模塊增大感受野,使感受野與目標(biāo)尺度相匹配,以獲取更多有效上下文信息;三是增加MobileNetV1[16]主干網(wǎng)絡(luò),構(gòu)建了輕量化版的S-RetinaNet目標(biāo)檢測算法,使得S-RetinaNet能夠更好地部署在硬件資源有限的平臺上。

        2 實驗結(jié)果及分析

        2.1 實驗準(zhǔn)備

        2.1.1 數(shù)據(jù)集

        本實驗在PASCAL VOC和MS COCO數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)訓(xùn)練和測試。針對VOC數(shù)據(jù)集,訓(xùn)練集采用VOC2007(train+val)+VOC2012(train+val),測試集采用VOC2007 test;針對COCO數(shù)據(jù)集,訓(xùn)練集采用COCO2017 train,測試集為COCO2017 val。

        2.1.2 評估標(biāo)準(zhǔn)

        S-RetinaNet算法采用mAP(mean average precision)來評估檢測性能,其公式如下:

        這里Recall(R)是召回率,Precision(P)是精確度,TP為正樣本被分為正樣本的數(shù)量,F(xiàn)N為正樣本被錯誤的分為負(fù)樣本的數(shù)量,F(xiàn)P為負(fù)樣本被錯誤的分為正樣本的數(shù)量,TP+FN為全部正樣本數(shù)量,TP+FP為全部被分為正樣本的數(shù)量。

        TP和FP根據(jù)IOU(intersection over union)閾值來判斷,IOU計算公式如下:

        其中,A表示真實框(Ground Truth Box),B表示基于Anchor并通過檢測模型預(yù)測出來的框。

        2.1.3 訓(xùn)練細(xì)節(jié)

        訓(xùn)練過程中為加快收斂速度,backbone采用ImageNet分類任務(wù)的預(yù)訓(xùn)練權(quán)重;另外在前半段epoch凍結(jié)backbone訓(xùn)練,后半段epoch解凍backbone進(jìn)行訓(xùn)練,提高資源利用率,并進(jìn)一步加快收斂速度。

        2.2 在PASCAL VOC上的對比實驗

        實驗采用SGD作為優(yōu)化器,其中momentum為0.9,weight decay為5E-4。在一塊NVIDIA Titan Xp GPU上進(jìn)行訓(xùn)練,訓(xùn)練的batch size設(shè)為8,迭代次數(shù)設(shè)置為100個epoch,初始學(xué)習(xí)率為0.01,在70和90個epoch后分別降低10%,每張圖像的尺寸被調(diào)整到500×500,并利用圖像旋轉(zhuǎn)、顏色變化、平移等方法進(jìn)行數(shù)據(jù)增強。

        表1顯示,在不同主干網(wǎng)絡(luò)下,增加MRFF和RFPN后的S-RetinaNet均比改進(jìn)前RetinaNet的mAP高,其中MobileNetV1提高了2.1個百分點,ResNet-50提高了2.3個百分點。同時相比Fast R-CNN、Faster R-CNN、SSD、YOLO、DSSD五種目標(biāo)檢測算法的mAP,基于ResNet-50的S-RetinaNet算法分別高出11.5、8.3、5.3、16.1、4.9個百分點。另外基于MobileNetV1的輕量化S-RetinaNet算法,精度接近Faster R-CNN,檢測速度比Faster R-CNN快了10倍。

        表1 VOC2007 test對比Table 1 VOC2007 test comparision

        圖4是S-RetinaNet算法與其他算法的可視化對比,直觀地反映出了各個算法的檢測精度和速度。

        圖4 VOC2007 test對比可視化Fig.4 VOC2007 test comparision contrast visualization

        表2列出了RetinaNet和S-RetinaNet在不同Backbone下每一類的AP值的對比結(jié)果。從表中可以看出,通過對RetinaNet增加MRFF模塊和RFPN,Bird、Bottle、Plant等小目標(biāo)的AP值提升明顯,如選擇ResNet-50作為主干網(wǎng)絡(luò),分別提高了4.8、4.6、2.1個百分點。

        表2 每個類別的mAP對比Table 2 mAP for each category %

        2.3 在PASCAL VOC上的消融實驗

        本實驗采用與2.2節(jié)相同的設(shè)置進(jìn)行,其中主干網(wǎng)絡(luò)采用ResNet50。從表3可以看出,通過單獨加入MRFF模塊和RFPN,mAP分別達(dá)到了78.7%、78.4%,相比未加入之前,分別提高了1.5、1.2個百分點。證明了MRFF模塊和RFPN都對提升檢測精度帶來了幫助。在同時加入MRFF模塊和RFPN后,mAP達(dá)到了最高79.5%,進(jìn)一步證明了MRFF模塊和RFPN對提升RetinaNet檢測精度的有效性。

        表3 VOC2007 test對比Table 3 VOC2007 test comparision

        2.4 在MS COCO上的對比實驗

        不同于PASCAL VOC數(shù)據(jù)集上的優(yōu)化器選擇,在MS COCO數(shù)據(jù)集上的實驗采用Adam作為優(yōu)化器。在一塊NVIDIA Titan Xp GPU上進(jìn)行訓(xùn)練,訓(xùn)練的batch size設(shè)為8,迭代次數(shù)設(shè)置為50個epoch,初始學(xué)習(xí)率為0.01,在30和40個epoch后分別降低10%,每張圖像的尺寸被調(diào)整到500×500,并利用圖像旋轉(zhuǎn)、顏色變化、平移等方法進(jìn)行數(shù)據(jù)增強。

        表4顯示在主干網(wǎng)絡(luò)MobileNetV1下的S-RetinaNet比RetinaNet的AP值高出1.2個百分點,在主干網(wǎng)絡(luò)ResNet-50下高出1.6個百分點,其中針對小目標(biāo)精度APs的提升更為顯著,分別提高了2.1、2.7個百分點。

        表4 COCO2017 val對比Table 4 COCO2017 val comparision %

        圖5是RetinaNet和S-RetinaNet的可視化檢測結(jié)果對比。共五組,其中上面是RetinaNet的檢測結(jié)果,下面是S-RetinaNet的檢測結(jié)果。通過對比可以發(fā)現(xiàn),S-RetinaNet能夠檢測出更多的小目標(biāo),如(1)組中的broccoli,(2)組中的toothbrush、cellphone。同時針對已經(jīng)檢測出的小目標(biāo),檢測精度也得到了提高,如(3)組中主角后方的person、chair,(4)組中較小的dog,(5)中較小的sheep。

        圖5 兩種算法的可視化對比Fig.5 Visual comparison of two algorithm

        3 結(jié)束語

        為提高RetinaNet算法的小目標(biāo)檢測性能,提出一種小目標(biāo)檢測算法S-RetinaNet,引入多尺度感受野融合模塊MRFF和遞歸特征金塔網(wǎng)絡(luò)RFPN,使用MRFF分別處理RFPN的三個輸出,對不同尺度的特征層分別進(jìn)行四種尺度的感受野擴(kuò)大,并進(jìn)行多尺度感受野融合,有效解決了感受野與目標(biāo)尺度不匹配的問題,為小目標(biāo)提供了更多的上下文信息。實驗表明,S-RetinaNet在PASCAL VOC和MS COCO數(shù)據(jù)集上的平均精度較RetinaNet分別提高了2.3和1.6個百分點,其中小目標(biāo)檢測精度APS提升更為顯著,驗證了MRFF模塊和RFPN的有效性。由于在現(xiàn)有公共數(shù)據(jù)集中的圖片所含小目標(biāo)太少,使得網(wǎng)絡(luò)對小目標(biāo)的訓(xùn)練不充分,因此后續(xù)將建立小目標(biāo)數(shù)據(jù)集并開展相關(guān)研究工作。

        猜你喜歡
        尺度卷積特征
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        財產(chǎn)的五大尺度和五重應(yīng)對
        如何表達(dá)“特征”
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠的四個特征
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        抓住特征巧觀察
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        日本视频一区二区三区三州| 国产办公室沙发系列高清| 国产女人高潮视频在线观看 | 免费视频无打码一区二区三区| 久久婷婷五月综合色丁香| 4399理论片午午伦夜理片| 天天爱天天做天天爽| 免费观看视频在线播放| 人妻少妇被猛烈进入中文| 白嫩人妻少妇偷人精品| 久久久国产乱子伦精品作者| 少妇内射高潮福利炮| 亚洲AV无码乱码精品国产草莓| 精品久久人妻一区二区| 国产精品黑丝美女啪啪啪| 亚洲人成色7777在线观看不卡| 欧美日韩不卡视频合集| 日韩中文字幕无码av| 国产精品毛片一区二区三区| 男人天堂网2017| 男人激烈吮乳吃奶视频免费| 久久半精品国产99精品国产| 午夜一区二区三区av| 亚洲av综合色一区二区| 国产精品久久久久9999| 成人一区二区免费视频| 中文字幕亚洲无线码a| 超碰青青草手机在线免费观看| 欧美高清精品一区二区| 精品亚洲一区二区三区在线观看 | 久久久亚洲成年中文字幕| 伊人久久综合无码成人网| 丰满人妻被黑人猛烈进入| 日韩久久久久中文字幕人妻| 国产av精品一区二区三区不卡| 一个色综合中文字幕人妻激情视频| 国产麻传媒精品国产av| 亚洲tv精品一区二区三区| 日本一区二区高清视频| 又黄又刺激的网站久久| 国产成人精品123区免费视频|