亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于候選框多步迭代優(yōu)化的多階段目標(biāo)檢測模型

        2021-09-08 01:51:59趙釗龔霽程
        中國新通信 2021年14期
        關(guān)鍵詞:目標(biāo)檢測

        趙釗 龔霽程

        【摘要】? ? 在解決目標(biāo)檢測任務(wù)的模型中,基于多階段檢測框架的模型相對單階段和兩階段檢測框架的模型具有明顯的精度優(yōu)勢。該研究的主要目的是通過使用基于長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)的多次迭代回歸模塊來改進(jìn)廣泛使用的兩階段回歸框架。在該研究中,基于LSTM的候選框迭代優(yōu)化模塊被設(shè)計(jì)用來不斷優(yōu)化候選框生成網(wǎng)絡(luò)(Region Proposal Network,RPN)所提出的候選框。該模塊不僅能夠靈活的與各種框架進(jìn)行集成,同時(shí)還可以根據(jù)訓(xùn)練和測試階段對檢測速度需求的不同而任意的配置迭代次數(shù)。為了驗(yàn)證該方法的有效性,該研究采用基于ResNet-50和ResNet-101為主干網(wǎng)絡(luò)的多個(gè)檢測框架,并在兩個(gè)公開數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)。結(jié)果表明,該方法得到的所有類平均精度(mean Average Procession,mAP)明顯高于基準(zhǔn)模型R-FCN和FPN。同時(shí),其效果優(yōu)于目前最先進(jìn)的級(jí)聯(lián)(Cascade)R-CNN算法。

        【關(guān)鍵詞】? ? 目標(biāo)檢測? ? 長短時(shí)記憶網(wǎng)絡(luò)? ? 迭代回歸? ? 多階段檢測? ? 候選框網(wǎng)絡(luò)

        引言:

        隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展[1, 2],目標(biāo)檢測的性能[3, 4]有了顯著提高。通常,目標(biāo)檢測模型將任務(wù)分解為目標(biāo)定位與目標(biāo)分類兩個(gè)子任務(wù)。定位模塊首先需要通過向給定圖像分配和回歸相應(yīng)的邊框來框選圖像中的所有目標(biāo)。然后,分類模塊對每個(gè)邊框中的目標(biāo)類別進(jìn)行分類預(yù)測。在目前主流的多階段檢測模型中,這兩個(gè)模塊通常作為兩個(gè)子模塊整合在主干網(wǎng)絡(luò)上同時(shí)進(jìn)行訓(xùn)練優(yōu)化。因此,這兩個(gè)子模塊存在一定的相關(guān)性,同時(shí)也對檢測模型的整體性能起著至關(guān)重要的作用。

        學(xué)界常見的目標(biāo)檢測方法可以分為:(1)兩階段框架[5-12];(2)單階段框架[13-17]。兩階段方法遵循由文獻(xiàn)[13]提出的Faster-RCNN框架。此方法在第一階段中生成了一組候選框,同時(shí)為每個(gè)框的內(nèi)容給出了前景目標(biāo)的置信度。然后,在第二階段中對第一階段篩選過后的候選框執(zhí)行進(jìn)一步的位置回歸和類別細(xì)分類。相比之下,單階段方法,例如YOLO[16, 18]或SSD[15],通過對多尺度特征圖進(jìn)行密集采樣,直接進(jìn)行錨定框的回歸和分類。

        一般而言,單階段檢測模型在速度上優(yōu)于兩階段模型,但在檢測精度上卻不如后者[16]。該研究認(rèn)為,兩階段模型能夠產(chǎn)生更準(zhǔn)確結(jié)果的原因主要在于(1)在第一階段,候選框生成模塊提供了正負(fù)樣本均衡的候選框集。這有利于后續(xù)二階段回歸和分類模塊的訓(xùn)練。(2)每個(gè)輸出框?qū)?yīng)的原始錨定框都經(jīng)過了兩階段回歸和分類,這進(jìn)一步優(yōu)化了輸出包圍框的精度。

        除了單階段和兩階段框架外,許多文獻(xiàn)還提出了多階段方法[5, 19, 20],這些方法通常比大多數(shù)兩階段方法進(jìn)行更多的邊框回歸和分類,并且獲得了更好的效果。因此,該研究提出了一種新的多階段邊框回歸模塊,該模塊可靈活地執(zhí)行回歸操作。該研究的主要貢獻(xiàn)可以概括為以下幾點(diǎn):

        1.通過使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)[21]的多步迭代模塊對候選進(jìn)行不斷的細(xì)化回歸,該研究中使用的是LSTM。

        2. 迭代步數(shù)可以作為超參數(shù)進(jìn)行任意設(shè)置,并且在訓(xùn)練和測試時(shí)可以有所不同?;貧w步驟越多,檢測精度越高;反之,更高的檢測速度可以通過設(shè)置更少的迭代步數(shù)來實(shí)現(xiàn)。

        3. 該研究提出的模塊可以自然的地?cái)U(kuò)展應(yīng)用于各種兩階段檢測框架中,通常只需替換其原始的檢測回歸模塊即可。

        基于R-FCN[6]和FPN[22]兩大框架,該研究使用基于ResNet-50和ResNet-101的主干網(wǎng)絡(luò)在PASCAL VOC[23]和MS COCO[24]數(shù)據(jù)集上進(jìn)行了詳細(xì)的實(shí)驗(yàn)評(píng)估。實(shí)驗(yàn)結(jié)果表明,該研究的模型大大優(yōu)于原始的R-FCN和FPN,同時(shí)也優(yōu)于現(xiàn)有的最先進(jìn)的Cascade R-CNN方法。

        一、相關(guān)文獻(xiàn)

        1.1 單階段和兩階段目標(biāo)檢測模型

        Faster-RCNN[12]在提高目標(biāo)檢測的速度和精度方面都取得了長足進(jìn)步。該模型創(chuàng)新的提出了一個(gè)完整的可進(jìn)行端到端學(xué)習(xí)的目標(biāo)檢測框架。該框架將候選框生成網(wǎng)絡(luò)(RPN)和候選框分類模塊整合到整個(gè)網(wǎng)絡(luò)模型中。受Faster-RCNN的啟發(fā),學(xué)者們提出了許多其他方法來提高檢測精度或計(jì)算速度,其中包括R-FCN[6]和FPN[22]。前者提出使用位置敏感型的卷積層代替全連接層來提高檢測效率;后者將多尺度特征圖層的檢測結(jié)果進(jìn)行串聯(lián),從而進(jìn)一步提高精度。另一方面,SSD[15]等單階段方法可以看作是一個(gè)獨(dú)立的候選框生成網(wǎng)絡(luò),并利用相同的特征直接進(jìn)行分類預(yù)測,并在不同的特征圖層次上進(jìn)行邊框回歸。RetinaNet[25]利用Focal Loss來平衡前景和背景類比例,取得了較好的效果。

        1.2 多階段目標(biāo)檢測模型

        通常,由于兩階段框架比單階段框架具有更高的檢測精度,因此許多文獻(xiàn)提出采用多階段目標(biāo)檢測框架以達(dá)到更高的檢測精度。在文獻(xiàn)[26]中,作者將上一步的輸出作為輸入又迭代輸入給回歸模塊,取得了較好的mAP。文獻(xiàn)[17]在原有的SSD框架中增加了一個(gè)錨點(diǎn)優(yōu)化模塊,該方法比普通的單階段法多出了一個(gè)邊框細(xì)化步驟。AttractionNet[19]提出了一個(gè)目標(biāo)位置細(xì)化模塊,該模塊可迭代地優(yōu)化候選框的位置。Cascade R-CNN[5]對一些兩階段檢測框架的回歸模塊進(jìn)行多次級(jí)聯(lián),并獲得了最優(yōu)的結(jié)果。在文獻(xiàn)[27]中提出了一種迭代細(xì)化方法,該方法首先通過合并重疊區(qū)域來確定搜索區(qū)域,然后在搜索區(qū)域內(nèi)采用分治搜索。此外,為了細(xì)化多級(jí)邊框檢測過程,R-FCN-3000[20]提出了一種解耦的多階段檢測與分類框架。該方法對每個(gè)目標(biāo)進(jìn)行兩步分類(超類分類和子類分類),結(jié)果表明檢測精度也得到了提高。

        1.3 基于RNN的目標(biāo)檢測模型

        卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用于大多數(shù)目標(biāo)檢測框架中?;诰矸e層構(gòu)建的網(wǎng)絡(luò)既可以用于特征提取[1],也可以用于回歸和分類[6, 28]。另一方面,遞歸神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域[29, 30]取得了巨大的成功。并且,許多研究表明,RNN也適用于目標(biāo)檢測任務(wù)。例如,CTPN[31]使用LSTM[32]對連續(xù)的上下文信息進(jìn)行編碼,表明它可以減少錯(cuò)誤檢測并恢復(fù)丟失的文本。文獻(xiàn)[33]的作者提出了一種高效的視頻目標(biāo)檢測框架,該框架將ConvLSTM與SSD框架整合在一起。然后,LSTM模塊可以在每次迭代對時(shí)空上下文進(jìn)行編碼,從而細(xì)化輸入。文獻(xiàn)[34]使用對應(yīng)圖像裁剪的特征表示作為輸入,然后夠通過ConvLSTM層預(yù)測目標(biāo)形狀。

        二、基于LSTM的候選框優(yōu)化網(wǎng)絡(luò)

        在本節(jié)中,該研究將介紹基于LSTM的候選框優(yōu)化網(wǎng)絡(luò)模塊的結(jié)構(gòu)。圖1顯示了整個(gè)網(wǎng)絡(luò)的主要結(jié)構(gòu),實(shí)線框表示根據(jù)候選框生成網(wǎng)絡(luò)(RPN)計(jì)算得出的初始候選框。根據(jù)候選框?qū)?yīng)的空間位置,從CNN特征圖中裁剪對應(yīng)的3D特征向量。興趣區(qū)域(Region of Interest RoI)池化層將每個(gè)向量調(diào)整為相同的形狀。隨后,該方法將3D特征展開為1D特征,并將其作為LSTM層的輸入。解碼后,模型輸出對應(yīng)圖中虛線框的細(xì)化候選框。在下一次迭代中,虛線框?qū)⒈蛔鳛橄乱徊降妮斎牒蜻x框,進(jìn)行進(jìn)一步的細(xì)化回歸。這樣的過程將重復(fù)t次,直到t滿足預(yù)定義的迭代次數(shù)。

        2.1 候選框選擇

        多次對候選框進(jìn)行優(yōu)化和迭代的計(jì)算量是比較大的。因此,該方法選擇只細(xì)化具有較高的前景物體置信度的邊框,以加快迭代過程。同時(shí),該研究保留圖像中所有不同目標(biāo)的候選框,以保證位置的均勻分布。

        該研究沒有像文獻(xiàn)[19]那樣手動(dòng)設(shè)定錨定候選框,而是使用候選框生成網(wǎng)絡(luò)(RPN)[12]來選擇候選框以進(jìn)行進(jìn)一步的細(xì)化。RPN為每個(gè)候選框提供前景置信度和四個(gè)坐標(biāo){x1,y1,x2,y2}。同時(shí),該研究使用非極大值抑制(Non Maximum Suppression,NMS)以剔除高度重疊的邊框。之后,該方法選擇最高置信度最高的K個(gè)候選框作為下一步的輸入,以進(jìn)行進(jìn)一步的優(yōu)化迭代。

        2.2 迭代邊框回歸

        迭代回歸任務(wù)可以看作是一個(gè)重復(fù)的重新采樣過程,其目的是尋找最佳的假設(shè)分布。Cascade R-CNN模型[5]將兩個(gè)檢測模塊與基礎(chǔ)檢測框架進(jìn)行級(jí)聯(lián)。此外,它在訓(xùn)練過程中提高了每個(gè)回歸步驟的IoU閾值,使候選框的質(zhì)量可以在每個(gè)階段迭代步驟中改進(jìn)。但是,此方法在訓(xùn)練和測試時(shí)都需要遵循固定的回歸步驟,而這可能會(huì)導(dǎo)致模型的過度擬合。不僅如此,該模型也無法以端到端的方式反向傳播整個(gè)候選框的損失函數(shù)值。因此,其候選框生成是通過多個(gè)單獨(dú)的檢測模塊而不是單個(gè)模塊來進(jìn)行的。AttractionNet[19]使用單個(gè)CNN回歸模塊在所有訓(xùn)練步驟中以相同的IoU閾值迭代地優(yōu)化候選框。但是,由于邊框分布在每個(gè)回歸步驟[5]上都發(fā)生了顯著變化。因此,當(dāng)使用固定的IoU閾值對其進(jìn)行訓(xùn)練時(shí),此單個(gè)回歸模塊可能會(huì)產(chǎn)生次優(yōu)結(jié)果。

        與以上方法不同的是,該研究將整個(gè)候選框迭代優(yōu)化看作是一個(gè)連續(xù)的過程。在這個(gè)過程中,前一步迭代的結(jié)果會(huì)影響下一步迭代的優(yōu)化。此外,候選框優(yōu)化器需要適應(yīng)每次迭代,并且能夠通過這個(gè)序列化的過程反向傳播損失函數(shù)值以進(jìn)行整體模型的優(yōu)化。因此,該研究使用遞歸神經(jīng)網(wǎng)絡(luò),更具體地說是使用LSTM作為迭代優(yōu)化模塊的主要構(gòu)建組件。

        對于給定的邊框B,該研究使用RoI池化層從給定的特征圖中裁剪出固定形狀的3D特征。經(jīng)過池化的每個(gè)圖像具有高度(H)×寬度(W)×通道(C)的形狀特征。然后,該方法將三維特征展開成一維向量,再輸入至LSTM層。LSTM層包含M(= 128)個(gè)隱藏單元,以及一個(gè)全連接的層。LSTM的關(guān)鍵模塊如公式1所示。其中,xt表示裁剪的特征向量,而ht表示隱藏狀態(tài)。U代表輸入狀態(tài)參數(shù),W代表隱藏狀態(tài)參數(shù),i,f,o和Ct分別代表輸入門、遺忘門、輸出門和單元狀態(tài)?!驯硎局鹪叵喑?。然后,兩個(gè)全連接層將前面LSTM層的輸出與兩個(gè)預(yù)測模塊連接起來,其中一個(gè)用于預(yù)測邊框偏移量? = { δ x ,δ y ,δ w ,δ h },另一個(gè)用于預(yù)測前景目標(biāo)置信度。

        在每次迭代過程中,LSTM隱藏狀態(tài)和候選框都會(huì)被更新。每個(gè)細(xì)化的候選框都將用于裁剪新的特征圖,以便在下一次迭代中優(yōu)化。整個(gè)過程一直持續(xù)到迭代次數(shù)達(dá)到預(yù)定閾值T。同時(shí),邊框偏移量和前景置信度等中間結(jié)果被保存起來,以便后續(xù)的損失函數(shù)計(jì)算。另外,在將細(xì)化的邊框輸入到分類器之前,該方法使用非極大值抑制來剔除高度重疊的候選框。

        整體細(xì)化過程如算法1所示,其中F表示特征圖,B0 表示RPN中的候選框。該研究從零狀態(tài)初始化LSTM隱藏狀態(tài),并在每次迭代時(shí)對其進(jìn)行更新。符號(hào)表示LSTM層

        2.3 分類

        除了檢測模塊,還需要應(yīng)用分類模塊來完成整個(gè)目標(biāo)檢測。該研究以R-FCN為框架,通過位置敏感的得分圖與位置敏感RoI池化進(jìn)行分類;此外,該研究同樣參考FPN的設(shè)計(jì)方式,使用多尺度的特征圖進(jìn)行后續(xù)分類。同時(shí),該方法選用全連接層作為最終分類器。為了獲得更好的分類結(jié)果,并與原始的 R-FCN和FPN結(jié)果進(jìn)行公平的比較,該研究在訓(xùn)練分類模塊時(shí)使用了在線困難樣本挖掘算法(Online Hard Example Mining OHEM)[35]。在超參數(shù)配置上,模型選擇前K個(gè)分類損失函數(shù)值最大的候選框進(jìn)行損失函數(shù)的反向傳播。

        2.4 損失函數(shù)

        多步迭代的邊框位置回歸和目標(biāo)分類的整體損失函數(shù)定義如公式2描述。其中,T表示總迭代次數(shù),而t表示第t次迭代。x表示特征向量的集合,表示第t次迭代中的第i個(gè)候選框,而表示在第t次迭代中對應(yīng)的候選框的特征向量。g表示真值框的集合,表示候選框數(shù)量,h表示分類器,f表示回歸器。除了訓(xùn)練迭代候選邊框的損失,該研究還聯(lián)合訓(xùn)練了作為RPN的錨定框位置的回歸和前景背景分類的損失,以及位置敏感分類器[6]的損失。

        三、實(shí)驗(yàn)設(shè)計(jì)

        3.1 數(shù)據(jù)集

        該研究在Pascal VOC和MS-COCO 2017數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。對于Pascal VOC,該研究在一個(gè)由VOC2007和VOC2012的訓(xùn)練和交叉驗(yàn)證組合數(shù)據(jù)集上訓(xùn)練模型,該組合集包含約16K張的圖片。訓(xùn)練好的模型在VOC2007測試集上進(jìn)行評(píng)估,該測試集包含約5k張圖像。類似地,該研究使用MS-COCO 的2017?118K訓(xùn)練集來訓(xùn)練模型,并在5k張測試集上評(píng)估模型。該研究使用與文獻(xiàn)[21]相同的評(píng)估標(biāo)準(zhǔn),類平均精度(mAP),來評(píng)估在不同的IoU下模型在兩個(gè)數(shù)據(jù)集上的性能。IoU的取值范圍為[0.5,0.95] ,間隔步長為0.05。

        3.2 實(shí)現(xiàn)細(xì)節(jié)

        該研究使用ResNet-50和ResNet-101作為模型的主干網(wǎng)絡(luò)。對于圖片數(shù)據(jù)的預(yù)處理,在PascalVOC數(shù)據(jù)集上,圖片尺寸被調(diào)整為較短邊具有600個(gè)像素;在COCO數(shù)據(jù)集上,圖片尺寸被調(diào)整為較短邊具有800個(gè)像素。在訓(xùn)練中,唯一使用的數(shù)據(jù)增廣技術(shù)是左右翻轉(zhuǎn),沒有任何其他的方法被調(diào)用。該研究使用5個(gè)尺度 以及3個(gè)寬高比{1:2, 1:1, 2:1}的預(yù)設(shè)錨定框尺寸。超出圖像大小的錨點(diǎn)將被剪切。

        RPN后的非極大值抑制的IoU閾值設(shè)置為0.7。同時(shí),該研究選擇置信度最高的前800個(gè)候選框進(jìn)行進(jìn)一步細(xì)化。在一些極端情況下,在非極大值抑制后候選框的數(shù)量可能少于 800個(gè)。此時(shí),該方法會(huì)用零進(jìn)行填充補(bǔ)位,以滿足批處理時(shí)固定大小的要求。為了剔除高度重疊的邊框,從而保證模型的有效訓(xùn)練,基于LSTM的迭代優(yōu)化模塊輸出后的非極大值抑制的IoU閾值設(shè)置為0.8。

        圖2顯示,預(yù)測框的平均IoU在每次迭代時(shí)都會(huì)增加。因此,在每步迭代后,該算法都會(huì)提高前景候選框篩選閾值u。如果預(yù)測框與真值框的IoU大于或等于u,則預(yù)測框?yàn)檎龢颖?。在?shí)驗(yàn)中,訓(xùn)練時(shí)最大迭代次數(shù)T被設(shè)置為3,因此該方法設(shè)定u ={ 0.5,0.6,0.7}。圖2顯示IoU分布隨著迭代逐漸趨近于0.9,這意味著較高的邊框回歸質(zhì)量。

        該研究使用動(dòng)量值為0.9的動(dòng)量離散梯度下降法(Momentum-Stochastic Gradient Descent-SGD)優(yōu)化器。初始學(xué)習(xí)率設(shè)置為0.001,在VOC和COCO上分別進(jìn)行了120K和530K次輪訓(xùn)練迭代后切換到0.0001。該研究選取置信度最高的前800個(gè)候選框進(jìn)行迭代細(xì)化,并以1:1的正負(fù)采樣比進(jìn)行候選框采樣和訓(xùn)練。

        該研究的算法通過TensorFlow[36, 37]實(shí)現(xiàn)。該研究未能找到一個(gè)與R-FCN論文[6]的性能匹配的TensorFlow版本實(shí)現(xiàn)的R-FCN。因此,該研究從精度較低的R-FCN基線開始。但是,通過整合該研究提出的模塊,最終的方法達(dá)到了與其他方法相當(dāng)或更好的性能,這進(jìn)一步證明了該研究提出的模型的有效性。

        四、 實(shí)驗(yàn)

        4.1 多階段迭代次數(shù)的評(píng)估

        如圖2所示,該研究根據(jù)實(shí)驗(yàn)結(jié)果繪制了不同迭代階段的預(yù)測框與真值框之間的IoU直方圖。實(shí)驗(yàn)中的模型架構(gòu)為整合了該方法提出的多步迭代回歸模塊的FPN框架,主干網(wǎng)絡(luò)使用了ResNet-50。該模型在VOC2007+2012訓(xùn)練集上進(jìn)行訓(xùn)練,并在VOC2007測試集上進(jìn)行測試。在進(jìn)行非極大值抑制之前,所有的候選框均用于計(jì)算IoU。從這些圖中,可以看到候選框在每個(gè)階段都朝著更高的IoU逐漸細(xì)化,這意味著候選框變得更接近于真值。在第一次和第二次迭代時(shí),候選框精度可以迅速提高,并在第四次迭代時(shí)后逐漸趨于收斂。

        該研究用APs@0.5表示IoU閾值為0.5時(shí)的AP。表1顯示了基于ResNet-50主干網(wǎng)絡(luò)的模型的APs@0.5-0.95,APs@0.5,APs@0.75,以及不同迭代次數(shù)時(shí)的測試精度和速度。從表1可以看出,結(jié)果與圖2中的實(shí)驗(yàn)結(jié)果保持一致,即AP在第三、四次迭代時(shí)開始逐漸收斂穩(wěn)定,然后小幅下降。另外,該研究在使用ResNet-101作為主干網(wǎng)絡(luò)時(shí)也觀察到了同樣的現(xiàn)象。因此,后續(xù)實(shí)驗(yàn)的所有后續(xù)結(jié)果均使用三次迭代進(jìn)行測試。同時(shí),該研究發(fā)現(xiàn)模型在測試期間的時(shí)間成本與測試時(shí)細(xì)化迭代的次數(shù)成正比。該研究的模型需要117ms完成基于三次迭代的一幀圖像檢測。同樣,更高的檢測速度可以用輕量化的主干網(wǎng)絡(luò)或更少的迭代次數(shù)來實(shí)現(xiàn)。

        4.2 在Pascal VOC上的評(píng)估

        在本節(jié)中,實(shí)驗(yàn)?zāi)P蛯⒃摲椒ㄌ岢龅亩嗖降貧w模塊整合在R-FCN網(wǎng)絡(luò)上,主干網(wǎng)絡(luò)為ResNet-50和ResNet-101[1]。實(shí)驗(yàn)將原始的R-FCN網(wǎng)絡(luò)和最先進(jìn)的Cascade R-CNN網(wǎng)絡(luò)與改進(jìn)過的多步迭代的R-FCN(表中簡稱為LSTM-R-FCN)進(jìn)行比較。該研究同樣使用相同業(yè)界通用指標(biāo)在Pascal VOC數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)和評(píng)估。

        從表2的結(jié)果可以看出,基于這兩種主干網(wǎng)絡(luò),該研究的方法在AP@0.5-0.95 和AP@0.75的表現(xiàn)都遠(yuǎn)遠(yuǎn)優(yōu)于基準(zhǔn)的R-FCN。同時(shí),在AP@0.5-0.95下,該研究的模型的mAP比對應(yīng)同樣使用兩個(gè)主干網(wǎng)絡(luò)的Cascade R-CNN的mAP均高出1.8%。此外,該研究在AP@0.75下使用ResNet-101進(jìn)行對比時(shí),其mAP值比Cascade R-CNN的mAP值高2.2%。綜上所述,與其他方法相比,該研究的模型具有更好的檢測精度和更高的檢測質(zhì)量。這進(jìn)一步證明了該研究提出的多步迭代檢測模塊的有效性。

        4.3 在MS COCO上的評(píng)估

        該研究也在MS COCO 2017數(shù)據(jù)集上評(píng)估所提出的方法,并將該研究提出的模塊整合到R-FCN[6]和FPN[22]中。作為對比,該研究使用原始的R-FCN[6]、FPN[22]和Cascade R-CNN同時(shí)進(jìn)行實(shí)驗(yàn)。表3的頂部顯示了使用R-FCN作為基本框架時(shí)的結(jié)果。實(shí)驗(yàn)結(jié)果顯示,當(dāng)使用ResNet-50和ResNet-101時(shí),該研究的模型分別比R-FCN的AP高出4.7%和3.5%。與Cascade R-CNN相比,該研究的方法在AP@0.5-0.95和AP@0.75下獲得了更好的表現(xiàn),這與Pascal VOC上的結(jié)果一致。表3中,用”*”表示的模型采用了FPN多尺度特征圖的設(shè)計(jì)思路。與使用R-FCN的結(jié)果相比,所有指標(biāo)下所有方法的表現(xiàn)均有更顯著的提高。這表明更先進(jìn)的基礎(chǔ)框架讓該研究提出的方法更加有效,因此在幾乎所有不同的指標(biāo)上都優(yōu)于FPN和Cascade R-CNN。值得注意的是,該研究的模型在檢測中小型目標(biāo)時(shí),即更難的任務(wù)方面,在所有情況下都比其他方法具有更高的AP。

        4.4 進(jìn)一步分析

        為了進(jìn)一步驗(yàn)證該研究的方法的確能夠提高檢測質(zhì)量,該實(shí)驗(yàn)使用ResNet-101為主干網(wǎng)絡(luò)以及R-FCN為主要框架,在Pascal VOC上對所有模型進(jìn)行訓(xùn)練和測試。根據(jù)實(shí)驗(yàn)結(jié)果,圖3中繪制了每個(gè)IoU閾值下所有模型的mAP。從這張圖中,該研究發(fā)現(xiàn)所有模型在IoU為0.5、0.55和0.6時(shí)的mAP比較接近。然而,當(dāng)IoU閾值大于0.6時(shí),原始R-FCN的mAP開始迅速下降。當(dāng)IoU閾值超過0.7時(shí),該研究的方法開始優(yōu)于Cascade R-CNN,并且IoU越高,改進(jìn)幅度更大。特別值得注意的是,當(dāng)IoU等于0.95時(shí),該研究的方法得到的mAP比Cascade R-CNN的高2.5倍。這進(jìn)一步說明該方法對模型生成高精度檢測框有顯著的性能提升,符合該研究的目的。

        4.5 詳細(xì)實(shí)驗(yàn)分析

        為了進(jìn)一步證實(shí)基于LSTM的回歸模塊的優(yōu)點(diǎn),該研究使用基于MLP的回歸模塊來替換原始模塊并在Pascal VOC上進(jìn)行對比實(shí)驗(yàn),結(jié)果如表4所示?;贛LP的模塊隱藏層維度與原始的LSTM的模塊相同。MLP模塊的第一層將形狀為H*W*C的特征圖編碼成128維的向量,然后其輸出層進(jìn)行邊框回歸和前景-背景分類的置信度預(yù)測。表4的結(jié)果表明,基于LSTM的模塊與基于MLP的模塊相比具有明顯的優(yōu)勢,特別是在AP@0.5-0.95下,基于LSTM模塊的R-FCN與基于MLP模塊的R-FCN 相比,其mAP提高了5.2% 。這顯示了多步驟迭代回歸模塊引入LSTM層的優(yōu)勢:LSTM層通過單元內(nèi)存和隱藏狀態(tài)儲(chǔ)存先前步驟的回歸信息,這使其比MLP層更適用于前后步驟相關(guān)的迭代和回歸。

        五、 結(jié)束語

        該研究提出了一個(gè)新的候選框迭代優(yōu)化模塊。在該模塊中,RPN產(chǎn)生的候選框通過基于LSTM層的多步迭代優(yōu)化模型進(jìn)行不斷細(xì)化和改進(jìn),直至收斂。實(shí)驗(yàn)表明,該模塊可以自然而優(yōu)雅的整合進(jìn)類似于R-FCN和FPN的常見目標(biāo)檢測模型中,而無需進(jìn)行過多的調(diào)整或結(jié)構(gòu)修改,并且可以取代大多數(shù)兩階段框架的回歸模塊。實(shí)驗(yàn)結(jié)果表明,基準(zhǔn)模型R-FCN和FPN通過引入該研究提出的細(xì)化模塊,在Pascal VOC和MS-COCO基準(zhǔn)數(shù)據(jù)集上的mAP均優(yōu)于其對應(yīng)的原始模型。不僅如此,優(yōu)化后的模型也高于目前最先進(jìn)的Cascade R-CNN目標(biāo)檢測模型。

        參? 考? 文? 獻(xiàn)

        [1]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Proc of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE Computer Society, 2016:770-778.

        [2]HE K, ZHANG X, REN S, et al. Identity Mappings in Deep Residual Networks [C]//European conference on computer vision. Cham: Springer, 2016: 630-645.

        [3]SZEGEDY C, TOSHEV A, ERHAN D. Deep neural networks for object detection [C]//Proc of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc, 2013: 2553–2561.

        [4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv preprint arXiv:14091556, 2014.

        [5]CAI Z, VASCONCELOS N. Cascade r-cnn: Delving into high quality object detection [C]//Proc of the IEEE conference on computer vision and pattern recognition. Salt Lake City: IEEE Computer Society, 2018: 6154-6162.

        [6]DAI J, LI Y, HE K, et al. R-FCN: object detection via region-based fully convolutional networks [C]//Proc of the 30th International Conference on Neural Information Processing Systems. Barcelona: Curran Associates Inc, 2016.

        [7]GIRSHICK R. Fast r-cnn [C]//Proc of the IEEE international conference on computer vision. Santiago: IEEE Computer Society, 2015: 1440-1448.

        [8]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proc of the IEEE conference on computer vision and pattern recognition. Columbus: IEEE Computer Society, 2014: 580-587.

        [9]JIANG B, LUO R, MAO J, et al. Acquisition of Localization Confidence for Accurate Object Detection [C]//Proc of the European Conference on Computer Vision. Cham: Springer International Publishing, 2018: 784-799.

        [10]HE K, GKIOXARI G, DOLL?R P, et al. Mask r-cnn [C]//Proc of the IEEE international conference on computer vision. Venice: IEEE, 2017: 2961-2969.

        [11]ZAGORUYKO S, LERER A, LIN T-Y, et al. A multipath network for object detection [J]. arXiv preprint arXiv:160402135, 2016.

        [12]REN S, HE K, GIRSHICK R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks [J]. arXiv preprint arXiv:150601497, 2015.

        [13]FU C-Y, LIU W, RANGA A, et al. Dssd: Deconvolutional single shot detector [J]. arXiv preprint arXiv:170106659, 2017.

        [14]KONG T, SUN F, YAO A, et al. Ron: Reverse connection with objectness prior networks for object detection [C]//Proc of the IEEE conference on computer vision and pattern recognition. Honolulu: IEEE Computer Society, 2017: 5936-5944.

        [15]LIU W, ANGUELOV D, ERHAN D, et al. Ssd: Single shot multibox detector [C]//Proc of the European conference on computer vision. Amsterdam: Springer, 2016: 21-37.

        [16]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection [C]//Proc of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE Computer Society, 2016: 779-788.

        [17]ZHANG S, WEN L, BIAN X, et al. Single-shot refinement neural network for object detection [C]// Proc of the IEEE conference on computer vision and pattern recognition. Salt Lake City: IEEE Computer Society, 2018: 4203-4212.

        [18]REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]//Proc of the IEEE conference on computer vision and pattern recognition. Honolulu: IEEE Computer Society, 2017: 7263-7271.

        [19]GIDARIS S, KOMODAKIS N. Attend refine repeat: Active box proposal generation via in-out localization [C]//Proc of the British Machine Vision Conference. York, 2016.

        [20]SINGH B, LI H, SHARMA A, et al. R-fcn-3000 at 30fps: Decoupling detection and classification [C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE Computer Society, 2018: 1081-1090.

        [21]WILLIAMS R J, ZIPSER D. A learning algorithm for continually running fully recurrent neural networks [J]. Neural computation, 1989, 1(2): 270-280.

        [22]LIN T-Y, DOLL?R P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]//Proc of the IEEE conference on computer vision and pattern recognition. Honolulu: IEEE Computer Society, 2017: 2117-2125.

        [23]EVERINGHAM M, VAN GOOL L, WILLIAMS C K, et al. The pascal visual object classes (voc) challenge [J]. International journal of computer vision, 2010, 88(2): 303-338.

        [24]LIN T-Y, MAIRE M, BELONGIE S, et al. Microsoft coco: Common objects in context [C]//Proc of the European conference on computer vision. Zurich:? Springer, 2014: 740-755.

        [25]LIN T-Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]//Proc of the IEEE international conference on computer vision, Venice: IEEE, 2017: 2980-2988.

        [26]LI J, LIANG X, LI J, et al. Multistage object detection with group recursive learning [J]. IEEE Transactions on Multimedia, 2017, 20(7): 1645-1655.

        [27]CHENG K-W, CHEN Y-T, FANG W-H. Improved object detection with iterative localization refinement in convolutional neural networks [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 28(9): 2261-2275.

        [28]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks [C]//Proc of the IEEE international conference on computer vision, Venice: IEEE, 2017: 764-773.

        [29]GRAVES A, JAITLY N, MOHAMED A. Hybrid speech recognition with Deep Bidirectional LSTM [C]//Proc of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc: IEEE Signal Processing Society, 2013: 273-278.

        [30]SUNDERMEYER M, SCHL?TER R, NEY H. LSTM neural networks for language modeling [C]// Proc of the 13th annual conference of the international speech communication association, F, 2012.

        [31]TIAN Z, HUANG W, HE T, et al. Detecting text in natural image with connectionist text proposal network [C]//Proc of the European conference on computer vision. Portland: Springer, 2016: 56-72.

        [32]HOCHREITER S, SCHMIDHUBER J. Long short-term memory [J]. Neural computation, 1997, 9(8): 1735-1780.

        [33]LIU M, ZHU M. Mobile video object detection with temporally-aware feature maps [C]//Proc of the IEEE conference on computer vision and pattern recognition. Salt Lake City: IEEE Computer Society, 2018: 5686-5695.

        [34]CASTREJ?N L, KUNDU K, URTASUN R, et al. Annotating Object Instances with a Polygon-RNN [C]//Proc of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE Computer Society, 2017: 5230-5238.

        [35]SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining [C]//Proc of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE Computer Society, 2016: 761-769.

        [36]ABADI M, BARHAM P, CHEN J, et al. TensorFlow: a system for large-scale machine learning [C]//Proc of the 12th USENIX conference on Operating Systems Design and Implementation. Savannah: USENIX Association,? 2016: 265–283.

        [37]CHEN X, GUPTA A. An implementation of faster rcnn with study for region sampling [C]//Proc of the IEEE conference on computer vision and pattern recognition. Honolulu: IEEE Computer Society, 2017.

        猜你喜歡
        目標(biāo)檢測
        多視角目標(biāo)檢測與跟蹤技術(shù)的研究與實(shí)現(xiàn)
        視頻中目標(biāo)檢測算法研究
        軟件(2016年4期)2017-01-20 09:38:03
        行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測方法
        移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
        基于視頻監(jiān)控的運(yùn)動(dòng)圖像檢測算法研究
        基于背景建模法的運(yùn)動(dòng)目標(biāo)檢測
        基于P3電位的目標(biāo)檢測研究
        科技視界(2016年4期)2016-02-22 13:09:19
        智能視頻技術(shù)在電力系統(tǒng)領(lǐng)域的應(yīng)用
        相關(guān)K分布雜波中擴(kuò)展目標(biāo)積累檢測性能分析
        基于連通域標(biāo)記的目標(biāo)檢測算法設(shè)計(jì)與實(shí)現(xiàn)
        中文字幕色视频在线播放| 国产久色在线拍揄自揄拍| 国产日本精品一二三四区| 丰满少妇被粗大的猛烈进出视频 | 亚洲香蕉成人AV网站在线观看 | 亚洲国产中文在线二区三区免 | 久久久亚洲欧洲日产国码是AV| 日本中文字幕一区二区在线观看 | 亚洲一区二区三区日本久久九| 中文字幕亚洲欧美在线不卡| 久久久久久人妻毛片a片| 99热这里只有精品国产66| 亚洲天堂av在线一区| 亚洲日韩成人无码| 老色鬼永久精品网站| 国产成人精品三上悠亚久久| 亚洲精品国产成人久久av盗摄| 亚洲综合激情另类小说区| 最近中文字幕完整版| 国产丰满乱子伦无码专| 日韩精品视频中文字幕播放| 国产在线无码一区二区三区视频| 亚洲日本在线电影| 精品人伦一区二区三区蜜桃麻豆| 水蜜桃在线观看一区二区国产| 99久久精品免费看国产| 亚洲综合久久成人a片| 久久精品国产亚洲AV高清wy| 亚洲黄色一级在线观看| 国产亚洲美女精品久久久2020| 亚洲av无码一区二区三区在线| 成人免费丝袜美腿视频| 国产亚洲精品久久情侣| 琪琪的色原网站| 美女污污网站| 日本亚洲视频免费在线看| 国内熟女啪啪自拍| 中文字幕精品亚洲人成| 视频在线播放观看免费| 国产精品无码素人福利| 久久亚洲sm情趣捆绑调教|