亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        目標(biāo)檢測(cè)尺度不平衡問(wèn)題綜述

        2021-01-15 11:33:48
        關(guān)鍵詞:金字塔尺度卷積

        張 偉

        (北京信息科技大學(xué) 自動(dòng)化學(xué)院,北京 100192)

        0 引言

        目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域重要任務(wù)之一,在無(wú)人駕駛、視頻監(jiān)控等方面有著廣泛的應(yīng)用。目標(biāo)檢測(cè)包括目標(biāo)分類(lèi)和目標(biāo)定位。早期由于視覺(jué)技術(shù)和計(jì)算機(jī)硬件設(shè)備等因素的限制,傳統(tǒng)目標(biāo)檢測(cè)算法要依據(jù)人工標(biāo)注特征,對(duì)特定的檢測(cè)目標(biāo)要設(shè)計(jì)和訓(xùn)練分類(lèi)器,如DPM(deformable parts model)和Adaboost。近些年,隨著深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用不斷發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法不斷涌現(xiàn),在目標(biāo)檢測(cè)領(lǐng)域取得了巨大的成功?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法分為兩類(lèi):一類(lèi)是以RCNN[1-3]系列為代表的兩階段方法,另一類(lèi)是以SSD[4-6]系列和YOLO[7-10]系列為代表的一階段方法。

        基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法的檢測(cè)速度在不斷加快,其準(zhǔn)確率也在不斷提高,但是在算法實(shí)現(xiàn)的過(guò)程中會(huì)出現(xiàn)不平衡問(wèn)題,導(dǎo)致檢測(cè)模型的性能降低。不平衡問(wèn)題的出現(xiàn)引起廣大研究者的關(guān)注。最典型的不平衡問(wèn)題是前景類(lèi)別(正類(lèi))和背景類(lèi)別(負(fù)類(lèi))的不平衡。它主要表現(xiàn)在給定圖像數(shù)據(jù)集中會(huì)有數(shù)量較少的正樣本和數(shù)量較多的負(fù)樣本,正負(fù)樣本之間會(huì)呈現(xiàn)出極度不平衡狀態(tài)。數(shù)據(jù)集中不平衡的樣本使模型在訓(xùn)練過(guò)程中側(cè)重樣本數(shù)目較多的類(lèi)別,而“輕視”樣本數(shù)目較少類(lèi)別,導(dǎo)致模型在測(cè)試數(shù)據(jù)上的泛化能力和準(zhǔn)確性方面受到嚴(yán)重影響。

        目標(biāo)檢測(cè)不平衡問(wèn)題可以分為4類(lèi):類(lèi)別不平衡問(wèn)題、尺度不平衡問(wèn)題、空間不平衡問(wèn)題、優(yōu)化目標(biāo)不平衡問(wèn)題。本文對(duì)近年來(lái)目標(biāo)檢測(cè)尺度不平衡問(wèn)題進(jìn)行了總結(jié),從尺度不平衡問(wèn)題出現(xiàn)的原因和解決方法的角度出發(fā),對(duì)尺度不平衡問(wèn)題領(lǐng)域中一些有啟發(fā)性的研究成果進(jìn)行整理、歸納和分析,并對(duì)主要方法的性能指標(biāo)進(jìn)行了比較分析,以便于相關(guān)研究者參考和借鑒。

        1 尺度不平衡問(wèn)題描述

        數(shù)據(jù)集中由于目標(biāo)對(duì)象尺度分布不均勻,小尺度的目標(biāo)對(duì)象可能會(huì)多一些,大尺度的目標(biāo)對(duì)象可能會(huì)少一些,有些數(shù)據(jù)集中二者會(huì)相反。數(shù)據(jù)集中目標(biāo)對(duì)象尺度不平衡,會(huì)引起檢測(cè)模型尺度不平衡問(wèn)題發(fā)生,在測(cè)試模型時(shí)就會(huì)出現(xiàn)目標(biāo)定位不準(zhǔn)和小尺度目標(biāo)對(duì)象漏檢的現(xiàn)象,因此強(qiáng)化檢測(cè)模型的檢測(cè)能力就顯得至關(guān)重要。

        通過(guò)對(duì)目標(biāo)檢測(cè)算法實(shí)現(xiàn)過(guò)程仔細(xì)分析,發(fā)現(xiàn)引起尺度不平衡問(wèn)題主要體現(xiàn)在兩個(gè)方面:一方面是目標(biāo)對(duì)象及包圍框存在尺度不平衡,另一方面是在神經(jīng)網(wǎng)絡(luò)中不同特征層對(duì)整個(gè)檢測(cè)模型貢獻(xiàn)程度存在不平衡。

        2 目標(biāo)對(duì)象及包圍框不平衡

        目前多數(shù)的目標(biāo)檢測(cè)方法是基于深度卷積神經(jīng)網(wǎng)絡(luò)的,其中骨干神經(jīng)網(wǎng)絡(luò)部分是在圖像分類(lèi)的基礎(chǔ)上預(yù)訓(xùn)練得到,使用遷移學(xué)習(xí)方法應(yīng)用到深度卷積神經(jīng)網(wǎng)絡(luò)中。預(yù)訓(xùn)練骨干神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)數(shù)據(jù)集與目標(biāo)檢測(cè)數(shù)據(jù)集存在某些差異。當(dāng)目標(biāo)檢測(cè)數(shù)據(jù)集中的目標(biāo)對(duì)象及包圍框過(guò)度表示,就會(huì)對(duì)檢測(cè)器的感興趣區(qū)域(region of interest,RoI)產(chǎn)生嚴(yán)重影響,使檢測(cè)器發(fā)生尺度不平衡問(wèn)題,整體檢測(cè)性能就會(huì)變差。

        針對(duì)目標(biāo)對(duì)象及包圍框引起的尺度不平衡問(wèn)題,解決思路是使用不同的特征層進(jìn)行不同尺度的預(yù)測(cè)或結(jié)合多尺度特征層進(jìn)行預(yù)測(cè)[11],解決方法是對(duì)深度卷積網(wǎng)絡(luò)中特征空間的特征層進(jìn)行調(diào)整,其中圖像金字塔法和特征金字塔法最為典型。

        2.1 圖像金字塔法

        圖像金字塔法的結(jié)構(gòu)如圖1所示。其早期需要通過(guò)人工標(biāo)注特征,在圖像處理任務(wù)中廣泛使用。在深度卷積神經(jīng)網(wǎng)絡(luò)中,由于圖像金字塔法計(jì)算量較大與內(nèi)存資源需求因素的限制,沒(méi)有大量推薦使用。

        Singh等[12]通過(guò)對(duì)尺度不平衡問(wèn)題的分析,在圖像金字塔的基礎(chǔ)上提出了圖像金字塔尺度歸一化方法(scale normalization for image pyramids,SNIP)。該方法選擇多尺度圖像訓(xùn)練模型,目標(biāo)尺度在特定范圍的圖像作為訓(xùn)練對(duì)象。在反向傳播時(shí),選擇性地忽略一些過(guò)大和過(guò)小的目標(biāo),可以使訓(xùn)練時(shí)的尺度與原始圖像的尺度相似,從而提高準(zhǔn)確率并減少領(lǐng)域偏移(domain-shift)。

        SNIP可以緩解圖像金字塔法在內(nèi)存方面的要求,也可以使檢測(cè)模型在檢測(cè)小目標(biāo)對(duì)象的性能得到提升,但訓(xùn)練過(guò)程耗時(shí)較長(zhǎng)。

        Singh等[13]提出的SNIPER(scale normalization for image pyramids with efficient resampling)是在SNIP的基礎(chǔ)上進(jìn)行改進(jìn)的多尺度訓(xùn)練方法,其通過(guò)圖像裁剪的方式得到一定大小的片(chips),再將chips縮放到固定的尺度,最后選擇固定尺度的chips作為神經(jīng)網(wǎng)絡(luò)的輸入。與SNIP相比較,SNIPER不僅使檢測(cè)模型在檢測(cè)小目標(biāo)對(duì)象的性能得到提升,還使訓(xùn)練速度得到明顯的提升。

        2.2 特征金字塔法

        特征金字塔法是在圖像金字塔法的基礎(chǔ)之上創(chuàng)建而來(lái)。深度卷積神經(jīng)網(wǎng)絡(luò)的特征層對(duì)應(yīng)著不同的信息,淺層網(wǎng)絡(luò)分辨率較高,可以學(xué)習(xí)到目標(biāo)的紋理、形態(tài)等細(xì)節(jié)信息;深層網(wǎng)絡(luò)分辨率較低,可以學(xué)習(xí)到目標(biāo)的語(yǔ)義信息。讓淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)的信息互補(bǔ),使深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征信息的表達(dá)能力加強(qiáng)。

        Lin等[14]提出的特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)方法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。將神經(jīng)網(wǎng)絡(luò)深層豐富的語(yǔ)義信息和淺層的細(xì)節(jié)信息相互融合起來(lái),形成一種橫向連接(lateral connection)的自上而下(top-down)的結(jié)構(gòu)。由于淺層和深層的信息能夠互補(bǔ),得到了多尺度的特征圖并包含了上下文的信息。

        圖2左側(cè)自下而上(bottom-up)的特征卷積路徑是網(wǎng)絡(luò)的前向過(guò)程,伴隨網(wǎng)絡(luò)層數(shù)的加深,特征圖將從大到小遞減,其通道數(shù)會(huì)不斷增加,則可以保證特征的平移不變性。右側(cè)自上而下(top-down)的路徑通常采用反卷積或上采樣方式連接,而橫向連接是將反卷積或上采樣的特征圖和(C2,C3,C4,C5)與1×1卷積核生成的具有高度、寬度和通道數(shù)大小相同的特征圖進(jìn)行融合,使淺層的細(xì)節(jié)信息和深層的語(yǔ)義信息相互融合形成多尺度特征圖(P2,P3,P4,P5),并且采用3×3卷積核對(duì)融合特征圖進(jìn)行卷積操作,目的是消除上采樣引起的重疊效應(yīng)。

        FPN方法的出現(xiàn),使檢測(cè)模型的性能得到明顯的提升,尤其是小目標(biāo)對(duì)象的漏檢問(wèn)題得到顯著的改善,使得由數(shù)據(jù)集中目標(biāo)對(duì)象及包圍框的過(guò)度表示引起的尺度不平衡問(wèn)題得到一定程度的緩解。

        3 特征層貢獻(xiàn)程度不平衡

        FPN中淺層的特征和深層的特征要融合,而骨干神經(jīng)網(wǎng)絡(luò)每個(gè)階段的特征層也要進(jìn)行特征融合,此過(guò)程中長(zhǎng)路徑融合會(huì)造成特征間發(fā)生相關(guān)性的損失[15],使特征層的貢獻(xiàn)程度不平衡,稱(chēng)之為特征不平衡,它屬于尺度不平衡的子問(wèn)題。解決思路是改善檢測(cè)模型的結(jié)構(gòu),目前的解決方式是圍繞FPN結(jié)構(gòu)進(jìn)行改進(jìn)。

        3.1 改進(jìn)特征金字塔

        由于FPN中并沒(méi)有充分利用好淺層網(wǎng)絡(luò)的細(xì)節(jié)信息與深層網(wǎng)絡(luò)的語(yǔ)義信息的融合。Liu等[16]提出了PANet(path aggregation network)方法,其結(jié)構(gòu)如圖3所示。其在FPN結(jié)構(gòu)上再添加一個(gè)自下而上(N2,N3,N4,N5)的路徑,目的是進(jìn)一步聚合淺層和深層的特征信息,增強(qiáng)整個(gè)神經(jīng)網(wǎng)絡(luò)特征層的結(jié)構(gòu)。

        圖3中新添加的自下而上的增強(qiáng)路徑(bottom-up path augmentation),還有短連接(低層箭頭)使信息路徑縮短,方便淺層的細(xì)節(jié)信息得到更充分的利用,使PANet的定位性能得到明顯的提升。

        在FPN中,根據(jù)RoI的大小將其分配到不同的特征層上,這種方式雖然取得了有效的成果,但仍不能令人滿(mǎn)意。Liu等通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)特征的重要性與所屬的特征層沒(méi)有直接的關(guān)系,不論是淺層特征還是深層特征都非常有用,因此提出通過(guò)RoI Align(region of interest pooling)池化的方式選取每層的特征,然后再做逐像素求和(sum)或相加(add)的特征融合操作。整個(gè)過(guò)程稱(chēng)之為自適應(yīng)特征池化(adaptive feature pooling),使得特征不平衡的問(wèn)題得到一定程度的緩解,也使PANet檢測(cè)小目標(biāo)對(duì)象的性能得到提升。

        3.2 改進(jìn)骨干網(wǎng)絡(luò)

        目標(biāo)檢測(cè)任務(wù)中檢測(cè)模型的性能高度依賴(lài)于骨干神經(jīng)網(wǎng)絡(luò)提取的特征。骨干網(wǎng)絡(luò)的改進(jìn)主要是使用文獻(xiàn)[17]提出的ResNet(residual networks)和文獻(xiàn)[18]提出的 DenseNet(dense convolutional network)加強(qiáng)特征的傳遞,進(jìn)而可以更有效地利用特征信息,減少特征間相關(guān)性的損失。其與FPN結(jié)構(gòu)最大區(qū)別是取消了自上而下的路徑,形成獨(dú)特結(jié)構(gòu)。

        Kim等[19]提出的PFPNet(parallel feature pyramid network)是在骨干網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行改進(jìn),其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。使用文獻(xiàn)[20]提出的SPP(spatial pyramid pooling)思維來(lái)構(gòu)造特征金字塔得到不同尺度的特征圖,其中SPP模塊擴(kuò)展了網(wǎng)絡(luò)的寬度,讓輸入任意大小的圖像和不同尺度的目標(biāo)對(duì)象,均能輸出固定的特征。MSCA(multi scale context aggregation)模塊為特征融合操作,可以聚合不同規(guī)模的上下文信息形成最終的特征圖用于預(yù)測(cè)。

        3.3 改進(jìn)神經(jīng)結(jié)構(gòu)搜索技術(shù)

        神經(jīng)結(jié)構(gòu)搜索(neural architecture search,NAS)已經(jīng)在圖像分類(lèi)任務(wù)上取得巨大的成功,但是在目標(biāo)檢測(cè)任務(wù)上的應(yīng)用非常少。而前文提到的檢測(cè)方法,均是人工設(shè)計(jì)的特征金字塔結(jié)構(gòu),能解決特征不平衡問(wèn)題,但仍不是最優(yōu)的FPN結(jié)構(gòu)。為了更靈活地獲得最優(yōu)的FPN結(jié)構(gòu),研究人員創(chuàng)新性地提出采用NAS技術(shù)來(lái)構(gòu)建FPN結(jié)構(gòu)。

        Ghiasi等[21]提出的NAS-FPN首次用NAS技術(shù)在搜索空間中發(fā)現(xiàn)最優(yōu)的FPN結(jié)構(gòu)。NSA-FPN網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,使用Lin等[22]提出的RetinaNet為主框架,其搜索空間被設(shè)計(jì)成模塊化以便于管理。模塊化的搜索空間涵蓋所有可能出現(xiàn)的跨尺度連接的FPN,并且一個(gè)FPN是由多個(gè)merging cells 組成。搜索過(guò)程使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練一個(gè)控制器??刂破魇褂米幽P驮谒阉骺臻g中的準(zhǔn)確性作為激勵(lì)信號(hào)來(lái)更新其參數(shù)。通過(guò)多次反復(fù)試驗(yàn),控制器學(xué)會(huì)尋找最優(yōu)的FPN結(jié)構(gòu),將發(fā)現(xiàn)的新的FPN結(jié)構(gòu)稱(chēng)之為NAS-FPN結(jié)構(gòu)。

        Chen等[23]首創(chuàng)性提出DetNAS方法,同樣使用NAS技術(shù),以Ma等[24]提出的ShuffleNetv2為基礎(chǔ)的搜索空間去發(fā)現(xiàn)最優(yōu)的骨干網(wǎng)絡(luò)結(jié)構(gòu)。搜索空間被設(shè)計(jì)為兩個(gè)大小不同的空間,大搜索空間用于主要結(jié)果,小搜索空間用于消融研究。搜索過(guò)程受One-Shot NAS(one-shot neural architecture search)等方法的啟發(fā),先在ImageNet上預(yù)訓(xùn)練One-shot SuperNet網(wǎng)絡(luò),然后使用測(cè)試數(shù)據(jù)集對(duì)One-shot SuperNet網(wǎng)絡(luò)進(jìn)行微調(diào),最后使用進(jìn)化搜索算法來(lái)滿(mǎn)足約束條件。這種方式尋找的骨干網(wǎng)絡(luò)結(jié)構(gòu)在性能方面可以超過(guò)人工設(shè)計(jì)的骨干網(wǎng)絡(luò)結(jié)構(gòu)。DetNAS對(duì)中小目標(biāo)對(duì)象的檢測(cè)性能也優(yōu)于人工設(shè)計(jì)的檢測(cè)模型。

        改進(jìn)特征金字塔和改進(jìn)骨干網(wǎng)絡(luò)均促使特征信息融合,使深層和淺層的特征信息得到充分利用,讓特征層之間保持平衡。改進(jìn)神經(jīng)結(jié)構(gòu)搜索技術(shù)可以充分利用硬件設(shè)備的計(jì)算能力發(fā)現(xiàn)最優(yōu)結(jié)構(gòu),排除人為因素的影響,因此神經(jīng)結(jié)構(gòu)搜索技術(shù)必將成為一個(gè)熱門(mén)研究方向。上述的改進(jìn)方法均使特征層貢獻(xiàn)程度不平衡引起的尺度不平衡問(wèn)題得到一定程度的緩解。

        4 算法性能對(duì)比

        為比較上述目標(biāo)檢測(cè)方法的檢測(cè)性能,將這些檢測(cè)算法在常用的COCO[25]目標(biāo)檢測(cè)數(shù)據(jù)集上的檢測(cè)結(jié)果進(jìn)行對(duì)比。其中COCO數(shù)據(jù)集包含20萬(wàn)個(gè)圖像,檢測(cè)類(lèi)別有80類(lèi)。各算法的檢測(cè)精度如表1所示,表中數(shù)據(jù)分別取自文獻(xiàn)[2-4,8-9,12-13,16-20]。

        算法性能對(duì)比過(guò)程中選擇AP(average precision)值作為評(píng)價(jià)指標(biāo),并依據(jù)IoU(intersection over union)取值將AP進(jìn)行劃分。IoU值從0.5~0.95的AP值記為Ap50~95并作為整個(gè)檢測(cè)算法的評(píng)價(jià)指標(biāo),IoU值為0.5和0.75對(duì)應(yīng)的AP值記為Ap50和Ap75。另外還依據(jù)COCO數(shù)據(jù)集中目標(biāo)對(duì)象的尺度進(jìn)行劃分,將目標(biāo)對(duì)象分為小目標(biāo),中目標(biāo),大目標(biāo),它們對(duì)應(yīng)的AP值分別記為ApS、ApM和ApL并作為參考指標(biāo)。

        從表1中可以看出,檢測(cè)算法的Ap50~90值可以從最低值21.3提升到最高值47.4,使用改進(jìn)特征金字塔法的PANet的精度最高,其次是使用圖像金字塔的SNIPER和SNIP。小目標(biāo)對(duì)象的ApS值從5.0提升到30.1,它的增長(zhǎng)體現(xiàn)出檢測(cè)算法對(duì)小目標(biāo)對(duì)象越來(lái)越敏感,讓整個(gè)檢測(cè)算法的性能得到顯著的提升。

        通過(guò)對(duì)比改進(jìn)神經(jīng)結(jié)構(gòu)搜索技術(shù)的DetNAS與人工設(shè)計(jì)的PFPNet,從表1中發(fā)現(xiàn)Ap50~90值和APS值均有提升,說(shuō)明改進(jìn)神經(jīng)結(jié)構(gòu)搜索技術(shù)發(fā)現(xiàn)最優(yōu)結(jié)構(gòu)在特征平衡方面確實(shí)有較好的表現(xiàn)。

        表1 基于COCO數(shù)據(jù)集的檢測(cè)精度 %

        5 結(jié)束語(yǔ)

        本文介紹了目標(biāo)檢測(cè)尺度不平衡問(wèn)題,針對(duì)目標(biāo)檢測(cè)尺度不平衡問(wèn)題進(jìn)行全面的分析與歸納,總結(jié)了引起尺度不平衡的原因,針對(duì)每種原因總結(jié)了解決方法。

        盡管基于深度卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)算法被不斷提出,算法的性能也在不斷提升,但目標(biāo)檢測(cè)尺度不平衡問(wèn)題也一直相伴隨,并越來(lái)越受到重視。相信隨著計(jì)算能力的加強(qiáng)和數(shù)據(jù)規(guī)模的擴(kuò)大,未來(lái)對(duì)目標(biāo)檢測(cè)尺度不平衡問(wèn)題的研究會(huì)有新的突破。

        猜你喜歡
        金字塔尺度卷積
        “金字塔”
        A Study of the Pit-Aided Construction of Egyptian Pyramids
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        海上有座“金字塔”
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        神秘金字塔
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        免费a级毛片18禁网站免费| 欧亚精品无码永久免费视频| 性色av手机在线观看| 一区二区三区午夜视频在线 | 国产高潮国产高潮久久久| 久久精品免视看国产盗摄| 五月激情在线观看视频| 国产av无码专区亚洲av麻豆| 国产97在线 | 亚洲| 国产精品毛片无码久久| 国产一区二区三区蜜桃av| 中文字幕av永久免费在线| 中文字幕日本人妻久久久免费| 伊人久久综合精品无码av专区| 亚洲xx视频| 亚洲国产日韩综合天堂| 肉色丝袜足j视频国产| 亚洲视频一区| 中文精品久久久久中文| 久久久精品少妇—二区| 亚洲av中文无码乱人伦在线视色 | 亚洲av午夜成人片精品电影| 日韩精品无码视频一区二区蜜桃 | 国产黑色丝袜在线看片| 精品国产一二三产品区别在哪 | 啪啪视频免费看一区二区| 日本视频一区二区三区在线观看| 日日天干夜夜狠狠爱| 亚洲国产综合人成综合网站| 亚洲综合色婷婷七月丁香| 人妻夜夜爽天天爽三区麻豆av| 人妻少妇中文字幕乱码| 久久中文字幕乱码免费| 啪啪视频免费看一区二区| 国产毛片视频一区二区| 久久精品麻豆日日躁夜夜躁| 国产日韩久久久精品影院首页| 亚洲天堂一区二区三区视频| 狠狠色狠狠色综合网| 爱情岛永久地址www成人| 国产乱子伦视频一区二区三区|