亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的YOLOv3安檢包裹中危險品檢測算法

        2021-01-15 08:22:28盧官有顧正弘
        計算機應用與軟件 2021年1期
        關(guān)鍵詞:尺度邊界預測

        盧官有 顧正弘

        (揚州大學信息工程學院 江蘇 揚州 225127)

        0 引 言

        近年來,隨著經(jīng)濟和電商行業(yè)的迅速崛起,物流貨物流通量急劇增長,同時也加大了物流貨物安檢工作量?,F(xiàn)有的X射線安檢機只能檢測出物質(zhì)的類別,包裹中是否攜帶危險品還需安檢工作人員進行肉眼觀察識別,這種安檢方式檢測效率低,而且人工成本高,適應不了當前的安檢需求。因此,利用計算機視覺及圖像識別技術(shù)來輔助安檢人員完成安檢工作是未來的發(fā)展趨勢[1]。

        隨著深度學習和計算機視覺技術(shù)的不斷發(fā)展,越來越多的目標檢測算法被提出。目前基于深度神經(jīng)網(wǎng)絡且應用比較廣泛的目標檢測算法可以分為兩類:第一類是基于區(qū)域建議框的深度學習目標檢測算法,如R-CNN[2]算法、Faster R-CNN[3]算法、Mask R-CNN[4]算法等。這些算法將目標檢測任務分為兩階段:第一階段是用區(qū)域候選網(wǎng)絡來提取候選目標信息,第二階段是利用檢測網(wǎng)絡完成對候選目標的位置和類別的預測和識別。第二類是基于回歸的深度學習目標檢測算法,如SSD[5]算法、YOLO[6]算法、YOLOv2[7]算法、YOLOv3[8]算法等。這些算法不需要使用區(qū)域候選網(wǎng)絡來提取候選目標,即給定一幅輸入圖像,直接在圖像中的多個位置進行回歸運算,預測出這些位置附近可能存在的目標位置和類別,是一種端到端的目標檢測算法,具有更快的檢測速度。其中YOLOv3兼顧了速度和平均精度均值(mAP),是目前比較優(yōu)秀的目標檢測算法。

        為了實現(xiàn)物流貨物中危險品的實時檢測,本文以YOLOv3網(wǎng)絡模型為基礎進行研究和改進,利用阿里天池數(shù)據(jù)競賽平臺的“津南數(shù)字制造算法挑戰(zhàn)賽——賽場二:物流貨物限制品監(jiān)測”的數(shù)據(jù)集進行訓練模型。通過改進YOLOv3的預測邊界框(bounding box)來提升檢測速度。為彌補數(shù)據(jù)集樣本量較少的問題,采用了數(shù)據(jù)增強的方法。本文訓練時采用了多尺度輸入的策略,增強了模型檢測不同尺度圖像時的魯棒性,此外嘗試研究和改進YOLOv3算法,用于檢測安檢過程中的包裹是否包含有危險品及其大致位置。本文實現(xiàn)了自動化和智能化地輔助安檢工作人員完成安檢工作,同時也實現(xiàn)了低漏檢率和安檢工作的高效率。本文是一次未來物流及安防行業(yè)的有益嘗試,對行業(yè)未來發(fā)展有著重要的價值。

        1 YOLOv3算法

        YOLOv3網(wǎng)絡是從YOLO和YOLOv2網(wǎng)絡發(fā)展而來的。與Faster R-CNN網(wǎng)絡相比,YOLO網(wǎng)絡將檢測問題轉(zhuǎn)化為回歸問題,不需要提議區(qū)域,直接通過回歸生成每個類的邊界框坐標和概率,大大提高了檢測速度。由于其內(nèi)部網(wǎng)絡結(jié)構(gòu),YOLOv3算法在小目標識別問題上具有突出的優(yōu)勢。本節(jié)重點介紹YOLOv3算法設計思想及其預測邊界框的原理和YOLOv3網(wǎng)絡結(jié)構(gòu)。

        1.1 設計思想

        YOLOv3的核心思想是將整幅圖片經(jīng)過神經(jīng)網(wǎng)絡直接輸出邊界框位置信息和類別信息[9]。首先特征提取網(wǎng)絡從輸入圖像中提取特征以獲得特定大小的特征圖(feature map),然后將輸入圖像分成S×S個網(wǎng)格(grid cell),如果某真實主體中心落在某個格子中,那么這個格子就負責檢測這個主體。然后這個格子一般會預測N個邊界框,每個邊界框除了包括位置信息,還有一個置信度(Confidence)。這個格子利用Pr(Object)×IOU表達了有沒有主體和邊界框準確率兩種信息,其中Pr(Object)為1時表示有物體,Pr(Object)為0表示沒有物體,IOU為預測的邊界框與真實的標注框之間的IOU值,當然只有IOU最大的邊界框才是用來預測該Object。對于每個類別做logister操作,假如有K個主體類別,那么YOLOv3的輸出就是S×S×(N×(4+1+K)),其中:S×S為特征提取網(wǎng)絡輸出的特征圖的尺寸;N為每個網(wǎng)格(grid cell)預測邊界框的個數(shù);K為類別數(shù);4表示坐標信息(x,y,w,h);1表示置信度。YOLOv3網(wǎng)絡的輸出格式如圖1所示。

        圖1 YOLOv3網(wǎng)絡的輸出格式

        假設輸入圖像分辨率為608×608,由于YOLOv3有三個尺度的檢測層,三個檢測層的特征圖尺度分別是19×19、38×38、76×76,邊界框個數(shù)為3,類別為5,那么YOLOv3最終輸出三個不同大小的特征圖,其中在小尺度檢測層的輸出為19×19×(3×(4+1+5)),中等尺度檢測層的輸出為38×38×(3×(4+1+5)),大尺度檢測層的輸出為76×76×(3×(4+1+5))。圖1中的22 743是由(19×19+38×38+76×76)×3得來,也就是一幅圖像最終要預測候選邊界框的個數(shù)為22 743。

        1.2 預測邊界框

        YOLOv1是直接通過模型預測邊界框坐標位置的值(x,y,w,h),其損失值的計算是根據(jù)坐標位置的值直接做運算的,這就導致預測出的坐標波動較大,預測的坐標定位精度要低于其他優(yōu)秀的目標檢測算法。改進后的YOLOv3應用先驗框?qū)︻A測邊界框施加約束,先驗框是通過K-means算法對本文數(shù)據(jù)集聚類得到的。其坐標計算公式為:

        (1)

        式中:tx、ty為預測的坐標偏移值;σ()表示sigmoid運算,將tx、ty壓縮至0到1之間,可以有效的確保目標中心位于網(wǎng)格單元中,通過sigmoid約束可以增強邊界框定位的預測的穩(wěn)定性;tw、th是預測的尺度大小;to為置信度的值;cx、cy是特征圖中網(wǎng)格左上角坐標,每個網(wǎng)格的高和寬在特征圖中都為1;pc表示將置信度的值縮放到0到1之間。如圖2所示,邊界框的中心落在第二行第二列的網(wǎng)格中,它的左上角坐標為(1,1),其中pw和ph是先驗框映射到特征圖中的寬和高。網(wǎng)絡訓練過程中實際上的學習目標是tx、ty、tw、th這4個offset,通過式(1)可以得到的預測邊界框的坐標值為bx、by、bw、bh;然后通過設定置信度閾值,過濾掉分數(shù)低的預測邊界框;最后通過非極大值抑制(NMS)方法處理得到預測邊界框。

        圖2 YOLOv3的bounding box坐標轉(zhuǎn)換公式

        1.3 網(wǎng)絡結(jié)構(gòu)

        YOLOv3模型通常可以分為特征提取層(Darknet53)和YOLO檢測層。特征提取層是Darknet53[10],是通過對Darknet19和ResNet101網(wǎng)絡的改進。Darknet-53網(wǎng)絡由1×1和3×3的卷積層還有殘差單元構(gòu)成,其中每個卷積層都會使用一次批量歸一化(Batch Normalization)和一個LeakyReLU激活函數(shù)。批量歸一化解決了深層網(wǎng)絡訓練過程中出現(xiàn)的梯度消失和梯度爆炸的問題,因為數(shù)據(jù)通過卷積計算后導致數(shù)據(jù)分布發(fā)生了變化,使得網(wǎng)絡學習能力下降,批量歸一化可以對數(shù)據(jù)做歸一化處理后傳到下一層網(wǎng)絡,這樣可以更好地提取數(shù)據(jù)特征。Darknet53作為基礎網(wǎng)絡,其性能直接影響到目標檢測算法的性能和精度,實踐應用表明其性能優(yōu)于其他特征提取網(wǎng)絡。

        YOLO檢測層借鑒了FPN網(wǎng)絡結(jié)構(gòu),采用了多尺度檢測方法。假設輸入圖像分辨率為608×608,類別為5。在訓練過程中對于每幅輸入圖像,首先通過Darknet53網(wǎng)絡對輸入圖像進行特征提取,然后YOLOv3會預測三個不同大小的三維張量,對應著三個不同的尺度(scale)的特征圖。設計這三個尺度的目的就是為了能夠檢測出不同尺度的物體。網(wǎng)絡結(jié)構(gòu)如圖3所示。

        圖3 Darknet53網(wǎng)絡結(jié)構(gòu)

        其中,小尺度檢測層在YOLOv3模型第82層輸出,輸出特征圖尺度為19×19×30,這一尺度的檢測層有利于檢測較大的物體,19×19表示輸入圖像尺度608×608經(jīng)過5次下采樣后得到的特征圖尺度,30是由3×(4+1+5)得來,表示的是類別和位置信息。特征圖的計算公式如下:

        tensor=N×N×[(boundingbox)×

        (offset+object+class)]

        (2)

        式中:boundingbox表示每個grid cell要預測邊界框的個數(shù),設置為3;offset表示位置信息,offset=4;object表示是否有物體,也叫置信度,object=1;class表示要預測的類別數(shù),我們的數(shù)據(jù)集總共有5類,class=5。

        通過上采樣和特征融合操作,在第94層上輸出中尺度檢測層,輸出的feature map尺寸為38×38×30,這一尺度的檢測層適合檢測中尺度的物體;在第106層中輸出大尺度檢測層,輸出feature map尺寸是76×76×30,這一尺度的檢測層有利于檢測小物體。

        同時,YOLOv3模型可以分為106層(從0層開始計算),其中:有75層是卷積層;有23層是Residual層;有4層是路由(route)層;有3層是YOLO層;有2層是上采樣層。在卷積層中,主要使用1×1和3×3濾波器。3×3濾波器和strides進行特征下采樣,減小特征圖的寬度和高度;1×1卷積用于實現(xiàn)各通道信息的交互和整合,同時減少模型的參數(shù)量和模型的計算量,降低模型的復雜度。Residual類似于ResNet網(wǎng)絡結(jié)構(gòu),ResNet采用跳躍式結(jié)構(gòu)作為網(wǎng)絡的基本結(jié)構(gòu),這樣可以大大減少訓練難度,同時能夠精準控制梯度傳播,有效地防止梯度消失或梯度爆炸。路由層實現(xiàn)跨層連接,促進了多個不同特征的融合。YOLO層用于最終輸出預測對象的坐標和類別,上采樣層將大分辨率特征圖與小分辨率特征圖連接,以增強對小目標的識別。

        2 對YOLOv3的改進

        2.1 先驗框(anchors)的改進

        YOLOv3算法借鑒了Faster R-CNN中使用先驗框的思想,但是沒有采用手動設置先驗框,而是利用K-means聚類方法對數(shù)據(jù)集中的標注框進行訓練,然后計算出合適的先驗框,這樣可以使網(wǎng)絡更容易學習,從而將獲得更好的檢測效果。

        傳統(tǒng)的K-means[11]聚類方法一般使用歐氏距離為相似性指標,這意味著較大的標注框比較小的標注框?qū)a(chǎn)生更多的錯誤,并且使用傳統(tǒng)K-means聚類方法的結(jié)果可能導致偏差,因為對于先驗框來說獲取的是標注框的尺寸,所以常用的距離公式并不適用。為了使網(wǎng)絡作出更合理的預測,采用的距離函數(shù)如下:

        d(box,centroid)=1-IOU(box,centroid)

        (3)

        式中:box表示標注框;centroid表示聚類中心的矩形框;IOU(box,centroid)表示標注框與聚類中心的交并比。標注框到聚類中心的距離越小越好,但IOU值是越大越好,所以使用1-IOU,這樣就保證距離越小,IOU值越大。該方法使用IOU分數(shù)作為最終評估標準,并且可以自動找到更合適的邊界框。通過聚類方法,基于平均IOU選擇9個先驗框來預測邊界框。圖4為根據(jù)數(shù)據(jù)集聚類的結(jié)果,可以看出目標物體的尺度較小。

        圖4 K-means聚類

        根據(jù)數(shù)據(jù)集通過K-means聚類計算得到的先驗框可以更好地適應目標物體的尺度。由邊界框預測原理可知,預測邊界框是根據(jù)先驗框的位置和大小作為基準去訓練學習的,坐標損失和置信度損失是由標注框和與之匹配的先驗框去計算的,然后通過平移和尺度縮放進行微調(diào),一步一步減小損失。所以說如果先驗框的尺度和標注框尺度比較相近的話,有利于加快損失的收斂速度,同時也可以提升精度(AP)。

        一般的目標檢測算法通常使用人工選擇anchors,但人工選擇會導致精度降低。為了使網(wǎng)絡更好并作出更合理的預測,選擇用K-means聚類方法基于數(shù)據(jù)集進行聚類分析,最終得到9組anchors,分別為:(20,31)、(39,27)、(41,58)、(48,14)、(70,45)、(75,101)、(87,26)、(129,91)、(155,54),替換了原來基于COCO數(shù)據(jù)集得到的9組anchors(10,13)、(16,30)、(33,23)、(30,61)、(62,45)、(59,119)、(116,90)、(156,198)、(373,326)。將基于自己數(shù)據(jù)集得到的9組anchors按面積大小排序,大尺度的特征圖使用更小的anchor,分別是(20,31)、(39,27)、(41,58)。中等尺度的特征圖使用中等大小的anchor,分別是(48,14)、(70,45)、(75,101)。小尺度的特征圖使用更大的anchor,分別是(87,26)、(129,91)、(155,54)。實驗證明,平均準確率均值提升了約1.13%。

        2.2 預測邊界框的改進

        為了提升檢測速度,本文改進了預測邊界框,由原先每個網(wǎng)格預測3個邊界框減少到2個,利用K-means聚類算法根據(jù)自己數(shù)據(jù)計算得到6組anchors,分別是(48,16)、(25,31)、(80,34)、(50,56)、(152,59)、(103,100),將以上anchor按面積大小排序,然后均分到3個不同尺度的特征圖上,每個尺度特征圖分兩組anchors。其中:尺度小的特征圖(feature map)使用更大的anchors,分別是(152,59)、(103,100);中等尺度的特征圖(feature map)使用中等大小的anchors,分別是(80,34)、(50,56);尺度大的特征圖使用更小的anchor,分別是(48,16)、(25,31)。

        假設有一幅待檢測圖像分辨率為608×608,YOLOv3有三個尺度的檢測層,三個檢測層的特征圖尺度分別是19×19、38×38、76×76,邊界框個數(shù)為3,類別為5,那么YOLOv3的最終的輸出是三個三維張量分別是19×19×(3×(4+1+5))、38×38×(3×(4+1+5))、76×76×(3×(4+1+5)),就是說一幅圖像要預測22 743個候選邊界框,而一幅圖像中通常情況下有5到6個物體,預測邊界框明顯存在冗余的情況。針對這一問題,改進預測邊界框的個數(shù),由原來的每個網(wǎng)格預測3個邊界框變?yōu)轭A測2個邊界框。改進后,YOLOv3最終輸出是三個三維張量分別是19×19×(2×(4+1+5))、38×38×(2×(4+1+5))、76×76×(2×(4+1+5)),就是說一幅圖像要預測15 162個候選邊界框,相比改進前,網(wǎng)絡的運算量明顯減少,實驗證明,檢測速度提升了約6%。

        2.3 多尺度訓練

        在YOLO算法中網(wǎng)絡使用固定的512×512尺度的圖片作為輸入,現(xiàn)在YOLOv3網(wǎng)絡在YOLO網(wǎng)絡基礎上做了一些改進,將YOLO的全連接層改為全卷積層,不僅能夠減少參數(shù)個數(shù),降低網(wǎng)絡運算量,而且還能提升網(wǎng)絡性能。目前的網(wǎng)絡只用到了卷積層,那么就可以在訓練過程中隨機改變輸入圖像的尺度。這樣可以讓網(wǎng)絡充分地學習不同分辨率下圖像的特征,可以提高YOLOv3算法的性能。

        本文將采用多尺度訓練方法[12]來訓練自己的數(shù)據(jù)集,由于YOLOv3網(wǎng)絡總共有5個下采樣過程,因此網(wǎng)絡的下采樣倍率為32,然后將圖像輸入尺度設置成32的倍數(shù)。本文將從{320,352,384,416,448,480,512,544,576,608}隨機選擇一個尺度作為圖像輸入尺寸,讓網(wǎng)絡充分地學習不同尺度下圖像的特征,這樣可以更好地預測不同尺寸的圖片,讓網(wǎng)絡完成不同分辨率下的檢測任務,增強模型在不同尺度下的魯棒性。實驗表明,采用多尺度訓練方法的模型比采用單一尺度訓練的模型mAP提升了約1.22%。

        3 實驗與分析

        本文對X射線圖像數(shù)據(jù)集進行了實驗,總共用2 024幅圖片,其中隨機選擇20%為測試集,其余的為訓練集。

        實驗條件是操作系統(tǒng)為Ubuntu 18.0.4,CPU為i7- 8700k,內(nèi)存為64 GB,GPU為NVIDIA GeForce GTX 2080Ti。

        3.1 數(shù)據(jù)集

        3.1.1數(shù)據(jù)集介紹

        本文數(shù)據(jù)集來自天池數(shù)據(jù)競賽平臺,由天津津南區(qū)發(fā)布的“津南數(shù)字制造算法挑戰(zhàn)賽——物流貨物限制品監(jiān)測”中提供的數(shù)據(jù)集,下載地址為https://tianchi.aliyun.com/competition/entrance/231703/information。數(shù)據(jù)集包含了帶有限制品的日常包裹X射線圖像及對應限制品的位置標注信息,總共包括5類,分別包括如下:鐵殼打火機(Iron_llighter)、黑釘打火機(Black_llighter)、刀具(Knife)、電池電容(battery)以及剪刀(scissors),類別id依次從1到5。

        3.1.2數(shù)據(jù)預處理

        在進行實驗前,對數(shù)據(jù)做了一些簡單分析。首先統(tǒng)計了標注框的大小信息,利用標注框的寬和高得到每個標注框的面積,進而得到每個標注框的大小,統(tǒng)計得出要檢測的物體尺度較小。然后統(tǒng)計了類別分布信息,其中鐵殼打火機有1 069個標注框、黑釘打火機有4 361個標注框、刀具有1 898標注框、電池電容有5 258個標注框以及剪刀有1 830個標注框。由圖5可知,數(shù)據(jù)類別較不均衡。最后對數(shù)據(jù)集進行劃分訓練集和測試集,其中隨機選取20%作為測試集,其余的作為訓練集。

        圖5 標注框中的類別分布

        3.1.3數(shù)據(jù)增強

        在計算機視覺領(lǐng)域,想要把模型訓練成具有高精度和強泛化能力就離不開大量的訓練樣本,然而多數(shù)情況下樣本量是有限的,通常需要通過數(shù)據(jù)增強方法來彌補數(shù)據(jù)不足的問題。數(shù)據(jù)增強[13]是指基于現(xiàn)有的數(shù)據(jù)集樣本,通過對原始樣本施加一些小的改變從而得到新的數(shù)據(jù)樣本的方法。數(shù)據(jù)增強的方法包括旋轉(zhuǎn)、縮放、裁剪、飽和度調(diào)整和亮度值調(diào)整等,下面詳細介紹幾種常用的方法。

        (1) 旋轉(zhuǎn)變化是指將圖像上的所有像素點以某一固定點旋轉(zhuǎn)一定的角度從而改變圖像的朝向,旋轉(zhuǎn)后的圖像尺寸一般不會改變。將圖像順時針旋轉(zhuǎn)θ,其對應的矩陣變化為:

        (4)

        (2) 平移變換是指將圖像中的所有像素點進行水平方向或者垂直方向的位移。設水平方向和垂直方向上的位移量分別為Δx和Δy,則該平移操作的矩陣形式為:

        (5)

        (3) 尺度變換是指對原圖像在x和y方向上分別進行比例因子為αx和αy的縮放操作,其對應的矩陣變換為:

        (6)

        以上這三種數(shù)據(jù)增強方法是基于幾何變換的,幾何變換是將圖像中的像素點通過幾何操作映射到新的位置,修改了像素的空間關(guān)系,這些數(shù)據(jù)增強方法可以減少網(wǎng)絡訓練時對空間位置的敏感性。不同類型的數(shù)據(jù)增強方法可以進行疊加,從而增加樣本圖像的復雜性和多樣性。圖像增強已經(jīng)成為一種常見的隱式正則化技術(shù),用于防止深度卷積神經(jīng)網(wǎng)絡中的過度擬合,并且能夠提高網(wǎng)絡性能,有效地解決了數(shù)據(jù)集樣本量過少、樣本不均衡等問題。數(shù)據(jù)增強已經(jīng)成為深度學習、計算機視覺等領(lǐng)域的研究熱點。

        本文實驗所采用的數(shù)據(jù)集較少,僅有2 024幅標注圖片。針對這些問題,本文應用數(shù)據(jù)增強方法來增加數(shù)據(jù)集樣本量和增加數(shù)據(jù)的復雜性和多樣性,圖6展示了通過各種數(shù)據(jù)增強技術(shù)后的效果圖。通過數(shù)據(jù)增強方法有效地避免了訓練模型過擬合問題,增強模型的泛化能力,有效地彌補了因為數(shù)據(jù)集樣本量過少,訓練不充分的問題,mAP提升了約7.8%。

        (a) 原始圖像 (b) 圖像翻轉(zhuǎn)

        3.2 網(wǎng)絡訓練

        本文使用TensorFlow來實現(xiàn)YOLOv3,首先準備好數(shù)據(jù)集,把數(shù)據(jù)集的標注文件轉(zhuǎn)換成txt文件,并劃分好訓練集和測試集,接著準備數(shù)據(jù)集的類別名,并保存為jinnan.names,再準備先驗框,并保存為yolo_anchor.txt,然后設定模型訓練參數(shù),最后就可以開始訓練模型了。部分實驗參數(shù)具體如表1所示。

        表1 網(wǎng)絡訓練參數(shù)表

        圖7為網(wǎng)絡訓練過程中損失值的收斂曲線??梢钥闯鰮p失值隨迭代步數(shù)降低,迭代步數(shù)為35 000左右時,損失值趨于穩(wěn)定,損失值穩(wěn)定在5左右,從這個參數(shù)收斂情況看,網(wǎng)絡訓練效果還是比較理想的。

        圖7 損失值函數(shù)曲線

        3.3 目標檢測評價指標

        在目標檢測中,常用的評價標準有:準確率(Precision)、召回率(Recall)、平均精度(AP)、平均精度均值、每秒內(nèi)能夠處理的圖片數(shù)量FPS和衡量模型復雜度的評價指標FLOPs。模型的FLOPs越小,每秒能夠處理的圖片越多,檢測速度也就越快。

        P代表Precision,也就是預測樣本中實際正樣本個數(shù)占所有正樣本個數(shù)的比值,在本文中Precision代表的是模型正確預測某一類危險品的個數(shù)占模型預測為該類危險品的個數(shù)的比值。

        (7)

        R代表Recall,也就是預測中實際正樣本個數(shù)占預測樣本數(shù)的比值,在本文中Recall代表模型正確預測某一類危險品個數(shù)占測試集中該類危險總數(shù)的比值。

        (8)

        AP是用來衡量檢測器的性能。有多種方式可以計算AP,首先繪制出PR曲線圖,然后對于每個R值,選取大于等于該R值的最大的Precision,求平均值作為AP。

        mAP即表示對每一類的平均精度求均值:

        (9)

        3.4 模型的評估

        實驗一分別利用YOLOv3算法模型和Noaug_YOLOv3算法模型進行對比實驗,其中YOLOv3算法模型表示利用了圖像旋轉(zhuǎn)、裁剪、平移等數(shù)據(jù)增強技術(shù)擴充的數(shù)據(jù)集進行實驗,Noaug_YOLOv3算法模型表示沒有用數(shù)據(jù)增強方法進行實驗。分別計算各類目標的平均準確率并計算5類目標的平均準確率均值。實驗測試結(jié)果如表2所示,通過數(shù)據(jù)增強技術(shù)將目標檢測的mAP由62.35%提升到70.19%。

        表2 數(shù)據(jù)增強方法前后平均精度對比表 %

        本文還對比了Crop算法模型和Noaug_YOLOv3模型,其中Crop算法模型是對圖像進行隨機裁剪來擴充數(shù)據(jù)集,Noaug_YOLOv3算法模型表示沒有用數(shù)據(jù)增強方法擴充數(shù)據(jù)集。圖像裁剪可以使感興趣的物體出現(xiàn)在不同位置,從而減輕模型對物體出現(xiàn)位置的依賴性,測試結(jié)果如表3所示,通過數(shù)據(jù)增強圖像裁剪,mAP提升了約3.55%。

        表3 圖像隨機裁剪方法前后平均精度對比表 %

        實驗二分別用K_YOLOv3算法模型和COCO_YOLOv3算法模型進行對比實驗。其中K_YOLOv3算法模型是利用K-means對自己的數(shù)據(jù)集進行聚類生成9個先驗框,替換原始的先驗框;COCO_YOLOv3算法模型是使用COCO數(shù)據(jù)集聚類得到的先驗框。測試結(jié)果如表4所示,根據(jù)自己數(shù)據(jù)集生成的anchors可以加快訓練時的收斂速度,同時mAP從70.19%提高到了71.32%。

        表4 先驗框改進前后平均精度對比表 %

        實驗三本實驗對比了采用多尺度輸入進行訓練和采用單一尺度輸入進行訓練,其中512_YOLOv3算法模型訓練時,圖片輸入分辨率設置為512×512,M_YOLOv3算法模型把輸入圖片分辨率設置為隨機從{320,352,384,416,448,480,512,544,576,608}抽取一個尺度。由表5可知,多尺度訓練模型的mAP比單一尺度訓練的模型提升了約1.22%,而且其模型能夠更好地檢測不同尺度的圖像,多尺度訓練模型的魯棒性更好。

        表5 單一尺度和多尺度訓練網(wǎng)絡性能對比表 %

        實驗四本實驗分別對比了YOLOv3算法模型和New_YOLOv3算法模型,其中New_YOLOv3算法模型每個網(wǎng)格預測2個邊界框,YOLOv3算法模型每個網(wǎng)格預測3個邊界框。本次實驗檢測了測試集中的404幅圖片,為了驗證不同尺度的輸入對檢測速度的影響,本次實驗分別用416×416、512×512、576×576、608×608、640×640五種分辨率作為模型輸入的尺度,實驗記錄了模型讀取每幅圖片的時間和模型預測出邊界框的時間,預測邊界框的時間減去模型讀入圖片的時間為每幅圖片的檢測時間。實驗中把檢測404幅圖像所需時間求平均,然后再計算FPS。實驗結(jié)果如表6和表7所示,檢測速度除了與硬件條件有關(guān),待檢測圖像或視頻的分辨率對檢測速度影響也很大,分辨率越高,檢測速度越慢,輸入圖像的分辨率為576×576時,改進后的模型檢測速度比之前提升了6%。從表7可以看出,改進后的模型參數(shù)量和FLOPs都有所降低,說明模型復雜度也有所降低。

        表6 改進預測邊界框前后檢測速度(FPS)對比表

        表7 模型參數(shù)量對比表

        4 結(jié) 語

        本文提出一種YOLOv3改進方法,并將其方法應用在安檢貨物中危險品檢測。首先,對數(shù)據(jù)集進行K-means聚類,得到anchors,替換原來通過COCO數(shù)據(jù)集聚集得到的anchors,加快了訓練時的收斂速度,mAP比之前提升了約1.13%。然后,針對數(shù)據(jù)集樣本量較少的問題,本文采用了數(shù)據(jù)增強的方法擴充數(shù)據(jù)集,通過數(shù)據(jù)增強方法后mAP比之前提升了約7.84%。最后,采用了多尺度輸入訓練方法,實驗表明,此方法比單一尺度輸入mAP提升了約1.22%。為了提升檢測速度,本文改進了預測邊界框,由原來每個網(wǎng)格預測3個邊界框變成預測2個邊界框,檢測速度提升了6%。

        猜你喜歡
        尺度邊界預測
        無可預測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預測卷(A卷)
        選修2-2期中考試預測卷(B卷)
        拓展閱讀的邊界
        財產(chǎn)的五大尺度和五重應對
        論中立的幫助行為之可罰邊界
        不必預測未來,只需把握現(xiàn)在
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        “偽翻譯”:“翻譯”之邊界行走者
        外語學刊(2014年6期)2014-04-18 09:11:49
        色欲综合一区二区三区| 蜜桃av噜噜一区二区三区免费 | 又粗又黄又猛又爽大片app| 亚洲日本va午夜在线电影| 国产精品美女黄色av| 亚洲熟妇20| 亚洲一级无码AV毛片久久| 免费在线国产不卡视频| 国产又大又硬又粗| 亚洲精品久久久无码av片软件| 中出高潮了中文字幕| 亚洲长腿丝袜中文字幕| 色偷偷888欧美精品久久久| 中文字幕乱码人妻一区二区三区 | 任你躁国产自任一区二区三区| 久久99精品免费一区二区| 在线精品亚洲一区二区三区 | 香蕉久久夜色精品国产| 美女脱了内裤洗澡视频| 中文字幕aⅴ人妻一区二区| 久久中文字幕乱码免费| 日韩国产有码精品一区二在线| 丝袜美腿在线观看一区| 欧美人和黑人牲交网站上线| 久久无码高潮喷水免费看| 极品少妇一区二区三区| 成人欧美一区二区三区在线观看| 男女18禁啪啪无遮挡| 亚洲精品一区二区三区播放| 熟女一区二区中文字幕| 中文字幕在线精品视频入口一区| 96精品在线| 自拍情爱视频在线观看| 全黄性性激高免费视频| 欧美黑人又粗又大久久久| 自拍视频在线观看成人| 亚洲最全av一区二区| 久久老子午夜精品无码怎么打 | 国产成人高清亚洲一区二区| 国产精品白丝久久av网站| 无码精品黑人一区二区三区|