亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Efficient高效網(wǎng)絡(luò)的目標(biāo)檢測(cè)和識(shí)別

        2020-05-14 03:24:50張艷迪
        關(guān)鍵詞:候選框網(wǎng)絡(luò)結(jié)構(gòu)主干

        劉 軍,張艷迪

        (沈陽(yáng)理工大學(xué) 自動(dòng)化與電氣工程學(xué)院,沈陽(yáng) 110159)

        ResNet等深層網(wǎng)絡(luò)的出現(xiàn)使圖像檢測(cè)的精度和速度大幅度提升,深層的網(wǎng)絡(luò)結(jié)構(gòu)更容易學(xué)習(xí)到目標(biāo)的抽象語(yǔ)義特征。He K等[1]提出的殘差結(jié)構(gòu),解決了深層神經(jīng)網(wǎng)絡(luò)出現(xiàn)的網(wǎng)絡(luò)退化和梯度消失問(wèn)題。隨著網(wǎng)絡(luò)層數(shù)加深,卷積層得到的目標(biāo)特征變少,需要同時(shí)增加網(wǎng)絡(luò)的通道數(shù)和分辨率讓深層的網(wǎng)絡(luò)獲得更多的目標(biāo)特征信息。但對(duì)網(wǎng)絡(luò)深度、通道數(shù)和分辨率的改變,會(huì)帶來(lái)大量的參數(shù)運(yùn)算,增加了計(jì)算成本。Tan M等[2]提出一個(gè)復(fù)合系數(shù)φ,同時(shí)對(duì)網(wǎng)絡(luò)深度、通道數(shù)和分辨率進(jìn)行縮放,在有限的計(jì)算資源下,網(wǎng)絡(luò)運(yùn)算效率更高。本文將Efficient-B0網(wǎng)絡(luò)[2]和YOLOv3中的檢測(cè)網(wǎng)絡(luò)[3]相結(jié)合,改進(jìn)的輕量級(jí)網(wǎng)絡(luò)可以應(yīng)用到移動(dòng)端設(shè)備;實(shí)驗(yàn)結(jié)果表明,提出的基于輕量級(jí)特征提取網(wǎng)絡(luò)Efficient-B0與FPN多尺度融合的目標(biāo)檢測(cè)和識(shí)別算法,與基于Darknet53主干網(wǎng)絡(luò)的YOLOv3相比,參數(shù)量少4倍,檢測(cè)精度僅下降了0.2%,檢測(cè)速度更快,并且擁有更好的魯棒性。

        1 目標(biāo)特征提取

        1.1 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)是由多個(gè)卷積和多個(gè)全連接層疊加組成,中間包含激活函數(shù)和池化層等操作。圖1是單通道灰度圖片的卷積過(guò)程,圖片以矩陣的形式輸入,卷積核的通道數(shù)與輸入圖片的通道數(shù)一致。彩色圖片的通道數(shù)為3,卷積后的輸出是把3個(gè)通道拼接在一起作為一個(gè)特征向量。卷積層通常用來(lái)提取特征,全連接層是把高維的特征向量轉(zhuǎn)換為一維的向量作為輸出,池化層用來(lái)降低維度去除冗余的信息。為更好的擬合數(shù)據(jù),每層之間的輸出都要經(jīng)過(guò)激活函數(shù)的非線性轉(zhuǎn)換,這樣可增強(qiáng)神經(jīng)網(wǎng)絡(luò)的魯棒性。

        圖1 單通道卷積過(guò)程

        1.2 主干網(wǎng)絡(luò)

        目標(biāo)檢測(cè)和識(shí)別分為兩個(gè)部分,一部分用來(lái)做特征提取的主干網(wǎng)絡(luò),另一部分是目標(biāo)的定位和分類。VGG-16[4]、ResNet、Darknet53等網(wǎng)絡(luò)結(jié)構(gòu)常被用來(lái)做目標(biāo)檢測(cè)的特征提取器,其共同特點(diǎn)是網(wǎng)絡(luò)層數(shù)都很深,ResNet網(wǎng)絡(luò)甚至可以搭建到一千多層。神經(jīng)網(wǎng)絡(luò)被認(rèn)為每一層能提取不同的目標(biāo)特征,網(wǎng)絡(luò)越深提取的特征越多,不同層次間組合信息也越多。深層的網(wǎng)絡(luò)有更強(qiáng)的擬合和表達(dá)能力,目標(biāo)檢測(cè)的精度也越高。One-stage系列的目標(biāo)檢測(cè)算法YOLOv3的特征提取網(wǎng)絡(luò)是Darknet53,在Darknet53網(wǎng)絡(luò)中借鑒VGG-16和ResNet網(wǎng)絡(luò)中的優(yōu)點(diǎn),用殘差塊和小型卷積搭建了53層的全卷積網(wǎng)絡(luò),Darknet53的網(wǎng)絡(luò)結(jié)構(gòu)組成如圖2所示。

        圖2 Darknet53網(wǎng)絡(luò)結(jié)構(gòu)

        在Darknet53網(wǎng)絡(luò)中用卷積層代替了池化層減少了參數(shù)量,殘差塊通過(guò)短接結(jié)構(gòu)解決了深層的神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中網(wǎng)絡(luò)退化和梯度消失的問(wèn)題。BatchNormal(BN)層可以加快網(wǎng)絡(luò)訓(xùn)練的收斂速度,對(duì)每一層輸入的數(shù)據(jù)做均值為0、標(biāo)準(zhǔn)差為1的批量歸一化處理,降低網(wǎng)絡(luò)訓(xùn)練的復(fù)雜度和過(guò)擬合風(fēng)險(xiǎn)。

        1.3 Efficient-B0

        目標(biāo)檢測(cè)算法在追求檢測(cè)精度和定位準(zhǔn)確的同時(shí)也要考慮計(jì)算成本。在計(jì)算資源充足的條件下,復(fù)雜的大型網(wǎng)絡(luò)檢測(cè)速度和精度會(huì)有大幅度提升。深層的神經(jīng)網(wǎng)絡(luò)能提取到更多的特征信息,同樣,提高輸入圖片的分辨率和增加卷積神經(jīng)網(wǎng)絡(luò)的通道數(shù)可以捕捉目標(biāo)的細(xì)粒度。任意調(diào)節(jié)網(wǎng)絡(luò)的深度、通道數(shù)和分辨率的參數(shù),是非常繁瑣的過(guò)程,還會(huì)帶來(lái)大量的參數(shù)和卷積運(yùn)算,增加了計(jì)算成本。Tan M等[2]提出對(duì)網(wǎng)絡(luò)的深度、寬度和分辨率通過(guò)一個(gè)復(fù)合參數(shù)φ均勻的對(duì)網(wǎng)絡(luò)模型進(jìn)行縮放,公式為

        深度:d=αφ

        (1)

        寬度:w=βφ

        (2)

        分辨率:r=γφ

        (3)

        s.t.α·β2·γ2≈2(α≥1,β≥1,γ≥1)

        式中:d、w、r分別代表網(wǎng)絡(luò)的深度、寬度和分辨率,常量α、β、γ是對(duì)應(yīng)d、w、r的調(diào)節(jié)參數(shù)。計(jì)算機(jī)運(yùn)算中FLOPS(每秒浮點(diǎn)運(yùn)算次數(shù))與d、w2、r2成正比,將復(fù)合參數(shù)φ固定為1,在計(jì)算資源是現(xiàn)有網(wǎng)絡(luò)所占用資源兩倍的情況下,令α·β2·γ2≈2,得到網(wǎng)絡(luò)結(jié)構(gòu)Efficient-B0。Efficient-B0的網(wǎng)絡(luò)結(jié)構(gòu)組成如表1所示,由移動(dòng)翻轉(zhuǎn)瓶頸卷積模塊(Mobile Inverted Bottleneck Convolution,MBConv)、卷積層、全局平均池化層和全連接層構(gòu)成,MBConv6代表擴(kuò)張比例為6的逐點(diǎn)卷積,k3×3/2代表卷積核的大小為3×3,步長(zhǎng)為2。Efficient-B0在參數(shù)量上比常見(jiàn)的特征提取主干網(wǎng)絡(luò)減少2~5倍,網(wǎng)絡(luò)計(jì)算的效率得到提升。本文采用Efficient-B0網(wǎng)絡(luò)代替Darknet 53主干網(wǎng)絡(luò)作為特征提取器,在目標(biāo)檢測(cè)精度相差無(wú)幾的情況下,改進(jìn)的目標(biāo)檢測(cè)算法需要的計(jì)算資源更小。

        表1 Efficient-B0的網(wǎng)絡(luò)結(jié)構(gòu)

        2 目標(biāo)預(yù)測(cè)

        2.1 多尺度特征融合

        小目標(biāo)特征數(shù)量比較少,隨著神經(jīng)網(wǎng)絡(luò)的加深,小目標(biāo)的特征會(huì)丟失,出現(xiàn)檢測(cè)精度低和漏檢的問(wèn)題。淺層的神經(jīng)網(wǎng)絡(luò)能學(xué)習(xí)到小目標(biāo)的更多特征,用特征金字塔(Feature Pyramid Network,F(xiàn)PN)模型[5]把淺層的特征通過(guò)通道的變換加到深層的網(wǎng)絡(luò),將不同尺度下的特征圖拼接在一起,提高對(duì)小目標(biāo)檢測(cè)的準(zhǔn)確性。

        本文采用Efficient-B0作為主干網(wǎng)絡(luò),去掉了網(wǎng)絡(luò)結(jié)構(gòu)中的池化層和全連接層;用YOLOv3檢測(cè)網(wǎng)絡(luò)中的三個(gè)尺度(13×13,26×26,52×52),對(duì)目標(biāo)進(jìn)行預(yù)測(cè)和分類;檢測(cè)網(wǎng)絡(luò)中13×13的尺度用來(lái)預(yù)測(cè)大目標(biāo),26×26的尺度用來(lái)預(yù)測(cè)中等目標(biāo),52×52的尺度用來(lái)預(yù)測(cè)小目標(biāo)。特征融合過(guò)程如圖3所示。多尺度特征融合的步驟如下。

        (1)把Efficient-B0主干網(wǎng)絡(luò)中階段9輸出13×13特征圖放到13×13的尺度上進(jìn)行目標(biāo)分類預(yù)測(cè);

        (2)把Efficient-B0主干網(wǎng)絡(luò)中階段6輸出26×26特征圖,與13×13特征圖通過(guò)線性插值方法2倍上采樣得到的特征圖拼接,在26×26的尺度上進(jìn)行目標(biāo)分類預(yù)測(cè);

        (3)把Efficient-B0主干網(wǎng)絡(luò)中階段4輸出52×52特征圖,與26×26特征圖通過(guò)2倍上采樣得到的特征圖拼接,在52×52的尺度上進(jìn)行目標(biāo)分類預(yù)測(cè)。

        圖3 FPN特征融合的過(guò)程

        2.2 目標(biāo)邊界框預(yù)測(cè)

        為提高目標(biāo)檢測(cè)的速度和準(zhǔn)確性,需要先在預(yù)測(cè)階段生成候選框,然后對(duì)候選框做回歸和非極大值抑制計(jì)算,篩選與真實(shí)框重合度最高的候選框。在Faster R-CNN中,VGG-16骨架網(wǎng)絡(luò)輸出h×w大小的特征圖,對(duì)特征圖上每個(gè)點(diǎn)設(shè)置3個(gè)尺寸和3種縱橫比共9個(gè)候選框,特征圖上每個(gè)點(diǎn)映射到原圖中是一塊區(qū)域[6],如圖4所示。

        圖4 特征圖與輸入圖片的對(duì)應(yīng)關(guān)系

        Faster R-CNN是對(duì)候選框中心坐標(biāo)(x,y)和長(zhǎng)寬(h,w)四個(gè)位置坐標(biāo)相對(duì)于真實(shí)標(biāo)記框位置的偏移量進(jìn)行預(yù)測(cè),這比直接預(yù)測(cè)框的位置坐標(biāo)學(xué)習(xí)起來(lái)更容易。事實(shí)上,神經(jīng)網(wǎng)絡(luò)可以自己學(xué)習(xí)調(diào)節(jié)候選框的大小,假設(shè)輸入圖片中的目標(biāo)個(gè)數(shù)比較少,人為設(shè)定每個(gè)特征圖對(duì)應(yīng)的點(diǎn)要生成9個(gè)候選框,候選框的篩選會(huì)增加網(wǎng)絡(luò)運(yùn)算的時(shí)間。

        本文用K-means聚類方式通過(guò)VOC2007訓(xùn)練集上真實(shí)標(biāo)記框的數(shù)據(jù)自動(dòng)生成候選框。首先對(duì)訓(xùn)練集中的真實(shí)標(biāo)記框的長(zhǎng)和寬做歸一化處理,隨機(jī)選取K個(gè)真實(shí)標(biāo)記框的長(zhǎng)和寬作為聚類的初始值,多次迭代計(jì)算,直到候選框與真實(shí)框之間的交并比(Intersection Over Union,IOU)值改變量很小,本文中K的取值為9。在VOC數(shù)據(jù)集中人和車(chē)占的比例較高,自動(dòng)生成候選框的形狀多數(shù)為瘦高型;實(shí)驗(yàn)得到候選框尺寸為(8×20)、(16×54)、(33×23)、(30×130)、(65×45)、(59×181)、(114×60)、(160×205)、(380×310)。K-means聚類生成的候選框在定義位置時(shí),與Faster R-CNN中的候選框不同,不采用相對(duì)于真實(shí)框偏移量的方式,因?yàn)榇朔椒▽?duì)偏移量的程度沒(méi)有約束,候選框可以移動(dòng)到圖片上的任意一點(diǎn)。本文將輸入的圖片劃分為S×S個(gè)網(wǎng)格[7],基于每個(gè)網(wǎng)格的偏移量定位候選框的位置[8],為防止候選框在圖片上隨意移動(dòng),通過(guò)Sigmoid函數(shù)約束候選框的移動(dòng)范圍,公式為

        bx=σ(tx)+cx

        (4)

        by=σ(ty)+cy

        (5)

        bw=pwetw

        (6)

        bh=pheth

        (7)

        式中:cx和cy是候選框的中心坐標(biāo);pw和ph分別代表候選框的寬和高;預(yù)測(cè)值tx和ty通過(guò)約束函數(shù)與候選框中心坐標(biāo)相加,得到目標(biāo)邊界框的中心坐標(biāo)bx和by;目標(biāo)邊界框的寬度bw和高度bh是pw和ph與ex相乘得到的。

        圖5中虛線代表的是候選框,定義候選框是從每個(gè)網(wǎng)格的左上角移動(dòng),實(shí)線框是候選框通過(guò)位置回歸得到的最終的目標(biāo)邊界框。

        圖5 候選框的位置回歸

        3 實(shí)驗(yàn)結(jié)果

        3.1 多尺度訓(xùn)練

        為增強(qiáng)網(wǎng)絡(luò)對(duì)任意尺寸圖片檢測(cè)的魯棒性,對(duì)訓(xùn)練集中的圖片通過(guò)數(shù)據(jù)增強(qiáng)的方式進(jìn)行旋轉(zhuǎn)和縮放。實(shí)驗(yàn)在VOC2007和VOC2012數(shù)據(jù)集上聯(lián)合訓(xùn)練,兩個(gè)數(shù)據(jù)集中共選取15000張圖片,包含20類,人和車(chē)的圖片數(shù)量占比最高。訓(xùn)練過(guò)程中,每10個(gè)批次隨機(jī)換一次輸入圖片的尺寸,下采樣總步長(zhǎng)為32;輸入圖片的分辨率為32的倍數(shù),最大的輸入分辨率為480×480,最小的輸入分辨率為224×224。多尺度訓(xùn)練過(guò)程中只改變輸入圖片的尺寸;Efficient-B0主干網(wǎng)絡(luò)各層輸出的特征圖維度相同。

        3.2 實(shí)驗(yàn)結(jié)果分析

        采用兩種不同的主干網(wǎng)絡(luò)Darknet 53及Efficient-B0進(jìn)行目標(biāo)檢測(cè)識(shí)別實(shí)驗(yàn),其中測(cè)試集分別來(lái)自于4952張VOC2007測(cè)試集和手機(jī)相機(jī)采集的1000張自制測(cè)試集;兩個(gè)測(cè)試集中目標(biāo)的類別都為20類,人的圖片占總數(shù)量的總測(cè)試集的40%,其他種類都比較平均。

        為提高小目標(biāo)的檢測(cè)精度,采用Efficient-B0作為特征提取網(wǎng)絡(luò),再利用FPN結(jié)構(gòu)進(jìn)行特征融合;預(yù)測(cè)階段使用YOLOv3的基于候選框回歸方法。實(shí)驗(yàn)結(jié)果如表2所示。通過(guò)表2對(duì)比發(fā)現(xiàn),兩個(gè)不同主干網(wǎng)絡(luò)的目標(biāo)檢測(cè)精度(AP-50)相差僅為0.2%,但改進(jìn)網(wǎng)絡(luò)Efficient-B0比Darknet53網(wǎng)絡(luò)的參數(shù)量要小4倍,運(yùn)行速度也有所提高。Darknet53網(wǎng)絡(luò)的計(jì)算量是Efficient-B0網(wǎng)絡(luò)的8倍。

        表2 不同主干網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果對(duì)比

        圖6是采用兩種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行目標(biāo)檢測(cè)的結(jié)果對(duì)比圖,圖6a和圖6c是Darknet53為主干網(wǎng)絡(luò)的檢測(cè)結(jié)果;圖6b和圖6d是Efficient-B0結(jié)合FPN模塊的檢測(cè)結(jié)果;由圖6可以看出,對(duì)于密集目標(biāo)和小目標(biāo)的檢測(cè),Efficient-B0的效果更好。

        圖6 目標(biāo)檢測(cè)和識(shí)別的實(shí)驗(yàn)結(jié)果

        4 結(jié)論

        通過(guò)將輕量級(jí)的移動(dòng)網(wǎng)絡(luò)Efficient-B0和YOLOv3目標(biāo)檢測(cè)算法結(jié)合,在有限的計(jì)算資源條件下,不僅降低了網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量,提高了運(yùn)行效率,而且還充分發(fā)揮了YOLOv3的實(shí)時(shí)檢測(cè)的技術(shù)優(yōu)勢(shì)。在對(duì)小目標(biāo)進(jìn)行檢測(cè)識(shí)別時(shí),Efficient-B0與多尺度融合模塊FPN結(jié)構(gòu)相結(jié)合,顯著降低了目標(biāo)的漏檢率。本文改進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)需要的計(jì)算資源和計(jì)算機(jī)算力更少,適合應(yīng)用于移動(dòng)端的設(shè)備。

        猜你喜歡
        候選框網(wǎng)絡(luò)結(jié)構(gòu)主干
        全球首條1.2T超高速下一代互聯(lián)網(wǎng)主干通路
        軍事文摘(2024年2期)2024-01-10 01:58:34
        重定位非極大值抑制算法
        抓主干,簡(jiǎn)化簡(jiǎn)單句
        面向自然場(chǎng)景文本檢測(cè)的改進(jìn)NMS算法
        基于Soft-NMS的候選框去冗余加速器設(shè)計(jì)*
        二代支架時(shí)代數(shù)據(jù)中糖尿病對(duì)無(wú)保護(hù)左主干患者不同血運(yùn)重建術(shù)預(yù)后的影響
        高齡無(wú)保護(hù)左主干病變患者血運(yùn)重建術(shù)的長(zhǎng)期預(yù)后
        一種針對(duì)特定目標(biāo)的提議算法
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績(jī)效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
        国产在线不卡视频| 色欲网天天无码av| 边啃奶头边躁狠狠躁| 另类专区欧美在线亚洲免费| 五月天亚洲av优女天堂| 国产精品成人一区二区不卡| 成人免费xxxxx在线观看| 久久国产成人精品国产成人亚洲| 女人被躁到高潮嗷嗷叫| 午夜精品久久99蜜桃| 亚洲一区自拍高清亚洲精品| 久久成人麻豆午夜电影| 国产美女自拍国语对白| 偷拍视频网址一区二区| 成人精品视频一区二区三区尤物| 国产jizzjizz视频免费看| 中文乱码字幕在线中文乱码| 日韩亚洲无吗av一区二区| 天天躁日日躁狠狠久久| 亚洲最新版无码AV| av是男人的天堂免费| 三级全黄裸体| 成人小说亚洲一区二区三区| 1234.com麻豆性爰爱影| 日本午夜剧场日本东京热| 亚洲精品乱码8久久久久久日本 | 欧美最猛性xxxx| 最近最好的中文字幕2019免费 | 亚洲国产人在线播放首页| 2021最新久久久视精品爱| 精品人妻久久一日二个| 久久久久无码精品国产app| 久久精品国产99精品国偷| 亚洲女同高清精品一区二区99 | 亚洲情a成黄在线观看动漫尤物| 无码午夜剧场| 国产女主播一区二区三区在线观看| 亚洲国产精品成人久久av| 人妻久久一区二区三区| 国产精品美女久久久久久| 8av国产精品爽爽ⅴa在线观看|