亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于一階段模式的目標檢測模型的設計與調(diào)優(yōu)

        2020-11-12 10:38:56王俊彥
        計算機應用與軟件 2020年11期
        關鍵詞:特征檢測模型

        王俊彥 張 昱

        (中國科學技術大學計算機科學與技術學院 安徽 合肥 230027)

        0 引 言

        智能監(jiān)控、無人駕駛和智能機器人等正逐步滲透到日常生活中,它們均需要通過目標檢測技術來對關鍵目標進行識別與定位。實際的生產(chǎn)生活要求智能應用兼具實用性和安全性,從技術上講便是要求高度的實時性和準確性。目標檢測作為智能應用的重要部分之一,保證實時性、提升準確性至關重要。

        2013年,Girshick等[1]首先提出利用卷積神經(jīng)網(wǎng)絡(CNN)來進行目標的特征提取。神經(jīng)網(wǎng)絡能從大量的訓練樣本中自主學習各類目標的關鍵特征,使得一個模型能適應多種不同場景。此外,大量數(shù)據(jù)的支撐使得它提取到的特征更加全面,催生出更好的檢測效果。起初的神經(jīng)網(wǎng)絡目標檢測模型[1-2]包含兩個階段:推測出所有可能的候選框,確定有效框及目標類別,耗時較長。之后Redmon等[3-4]提出YOLO模型,采用聯(lián)合學習的方式,將兩階段揉合為一階段,消除了遍歷候選框的過程,提升了檢測速度。

        很多神經(jīng)網(wǎng)絡模型在檢測小物體上稍顯無力,為了優(yōu)化該問題,前人已經(jīng)做了各個方面的優(yōu)化工作。 SSD[5]利用一層淺層特征與最后的特征金字塔來共同預測。DES[6]通過引入深層和淺層的語義特征來克服SSD沒有使用語義特征的缺陷。SNIP[7]改進訓練方式,采用新的梯度回傳方式以緩解數(shù)據(jù)集中大小物體數(shù)量不平衡的問題。最新的FSAF[8]則從基準框anchor box的選擇著手,通過為大小各異的目標分配對應尺寸的基準框來提高不同物體的檢測效果。

        上述模型盡管著眼點不同,但均利用了淺層特征來輔助預測,不過也只采用特定的幾層淺層特征輔助預測。本文基于所有淺層特征均能發(fā)揮一定作用的推測,以YOLOv2[4]為基礎框架,采用密集連接[9]的形式重構其特征提取網(wǎng)絡,其特殊的連接形式與現(xiàn)有的小物體優(yōu)化方式相結合時,所有的淺層特征均直接參與最終的預測。該網(wǎng)絡每層輸出的特征數(shù)量較少,大幅減少單層的計算量,所以雖然本文的網(wǎng)絡較深,但其計算量并不明顯增加,保證其檢測的實時性。

        另一方面,本文對YOLOv2的小物體優(yōu)化方式進行改進。YOLOv2通過重定形操作,將部分尺寸較大的淺層特征變換為較小尺寸的特征,然后與最終特征連接起來作為預測的依據(jù),取得一定效果。不過該方法的重定形過程較為耗時,所以只采用了一個淺層,并且存在割裂相鄰圖塊語意聯(lián)系的缺陷。針對該問題,本文采用基本的池化操作來代替原本的重定形操作,簡化該過程并減弱語意缺陷,使得模型更加快速有效。

        綜上所述,本文貢獻如下:

        1) 采用密集連接結構重新設計YOLOv2模型的特征提取網(wǎng)絡,首次利用全部淺層特征來輔助對小物體的檢測,并保證其能滿足實時性要求。

        2) 改進YOLOv2的淺層特征融合方式,通過多種尺寸的池化操作來簡化YOLOv2的重組過程,使得融合操作更為高效和準確,提高對小物體的檢測能力。

        1 YOLO檢測模型

        1.1 模型框架

        YOLO模型是最早的一階段目標檢測模型,該模型有多種不同版本[3-4],各版本均遵循圖1的框架。

        圖1 YOLO模型結構圖

        預處理步驟進行數(shù)據(jù)增強并輸出RGB格式的圖片數(shù)據(jù)作為后續(xù)神經(jīng)網(wǎng)絡的輸入,該輸入為W×H×3的三維數(shù)組,W、H為圖片寬和高,3為通道數(shù)(下文記為C)。特征提取卷積層對輸入圖片進行逐層抽象,將其映射為具有高層語意的特征,其輸出同樣是W×H×C的三維數(shù)組,W、H表示一幅特征圖的寬和高,C刻畫特征圖的數(shù)目。YOLO將原圖均分為S×S塊,目標映射將高層特征映射為目標數(shù)值,輸出為S×S×(25×N)數(shù)組。S×S對應原圖片的S2個不同圖塊,對每個圖塊預測N個包圍框,每個包圍框由長為25的向量進行描述,向量第1個元素表示其包含目標物體的概率p0,后續(xù)20個元素保存著其屬于各個類別的概率,記為p1-p20,最后4個刻畫包圍框的位置,記為tx、ty、tw、th,下標分別代表包圍框中心坐標及寬高。

        1.2 淺層特征輔助預測

        淺層特征利用方式如圖2所示。

        圖2 一種淺層特征利用方式示意圖

        圖2中每個小矩形代表一層卷積,靠在一起的卷積層表示其輸出的特征圖的尺寸是一致的,箭頭下方數(shù)字代表輸出特征圖的大小,圖中略去了非卷積層。

        由圖2可得,該方式可將第3、6、9層淺層特征(即輸出尺寸發(fā)生變化的前一層,下文也稱關鍵淺層)旁路到最后一層來輔助預測,YOLOv2便單獨利用了第9層,除此以外的其他層特征都被認為是無用的。

        1.3 重組方式的弊端

        YOLOv2將第9層特征旁路到最后一層之前,需要將27×27大小的特征圖重組為13×13大小,即以2為步幅,分別從左上角的2×2個像素開始進行采樣,得到4幅13×13的特征圖。該方式將局部區(qū)域的相鄰像素割裂開來,沒能保持其局部區(qū)域空間上的聯(lián)系,而原本小物體占據(jù)的像素點就非常少,這種割裂導致的空間語意的混亂更為嚴重。如圖3所示,顯然新的特征圖各個部分互相錯亂了。

        圖3 YOLOv2重定形效果

        2 模型設計

        本文通過密集連接結構,將所有淺層卷積的輸出旁路到與其輸出尺寸一致的最后一層卷積上,再結合1.2節(jié)的淺層特征輔助預測法,實現(xiàn)對所有淺層卷積的全部利用,最后改進YOLOv2的重組方式,并進行相關實驗驗證。

        2.1 全部淺層特征的引入

        圖4為密集連接的結構,其中L為連接操作,W×H×C1與W×H×C2的數(shù)組連接的結果為W×H×(C1+C2)的數(shù)組。箭頭越粗代表特征的通道數(shù)越多。圖2中靠在一起的卷積層(簡稱卷積塊)使用了這種結構。

        圖4 密集連接結構

        假設最終的網(wǎng)絡包含B個卷積塊,每個塊包含D層卷積,記f為卷積操作,⊕為連接操作,O為卷積的最終輸出(即下一層卷積的輸入),根據(jù)密集連接結構,塊內(nèi)卷積層的輸出可表達為:

        Ok=fk⊕Ok-1O1=f1
        k∈[2,B×D]∩k≠D×i+1,i∈N

        (1)

        記目標映射函數(shù)為g,則網(wǎng)絡輸出pre為:

        pre=g(OD×1⊕…⊕OD×B)

        (2)

        綜合式(1)、式(2),可得式(3),即所有前置卷積層輸出的特征均直接參與最終的預測。

        pre=g(f1⊕…⊕fB×D)

        (3)

        計算量說明:

        模型的浮點乘法運算次數(shù)可以估計模型的總計算量,每個卷積層的浮點乘法運算次數(shù)為:

        Ops=K×K×Cin×Wout×Hout×Cout

        (4)

        式中:K為卷積核大小,通常為3;Wout、Hout為輸出特征的寬和高;Cin、Cout為輸入、輸出通道數(shù)。

        在密集連接結構中,每個卷積層的Cout是一個固定的小值(在本文實驗中為32),YOLOv2(32~1 024不等)相比,只要保證Cin相仿,則其每層卷積的計算量便小得多。

        本文采用一個124層的網(wǎng)絡結構,雖然其層數(shù)約是YOLOv2的6倍,但是由于單層計算量的減少,其總計算量跟YOLOv2是相當?shù)?,這保證了它的實時性。

        2.2 淺層特征重組方式優(yōu)化

        另外,由于重定形方式較為耗時,YOLOv2只采用一層淺層輔助預測,例如在深度學習框架PyTorch中,需要4次改變視圖的操作和3次轉(zhuǎn)置操作才能完成該重定形。相較于該方式的復雜操作,池化只是非?;镜囊粋€操作,速度較快,因此可以使用更多的淺層輔助預測。然而,不同淺層的特征尺寸也不相同,它們均需要重組并連接到最后一層特征來輔助預測,為此需要將它們變換到統(tǒng)一尺寸。借鑒感興趣區(qū)域池化[10]的思想,本文對不同淺層特征使用不同大小的池化核強制性地對輸出特征尺寸進行限定。假設淺層特征尺寸為W1、H1,最后一層特征尺寸為W2、H2,則該淺層的池化核尺寸為(W1/W2,H1/H2),本文稱該融合方法為感興趣區(qū)域池化融合(Region-of-interest Merge,RM)。

        2.3 回歸部分的損失函數(shù)微調(diào)

        包圍框回歸即對包圍框的中心點坐標和寬高共4個值作出預測。最簡單的做法是讓網(wǎng)絡直接輸出這4個值,但是這種做法輸出的值域不受限,會使得模型出現(xiàn)訓練不穩(wěn)定的情況。這里仿照文獻[4]將圖片劃分為S×S的網(wǎng)格,針對每個網(wǎng)格預測N個包圍框,使用基址+偏移的方法來預測中心坐標值。其中:網(wǎng)格長寬為單位長度1;偏移范圍為(0,1),神經(jīng)網(wǎng)絡通過預測偏移來預測中心坐標。使用Sigmoid進行網(wǎng)絡輸出到偏移的映射,因為其值域剛好為(0,1)。這里會事先選定N個粗糙的預測框,稱為anchor,在此基礎上進行調(diào)整來得到最終的包圍框,如圖5所示。

        圖5 回歸計算

        Lloc=L2(bx,lx)+L2(by,ly)+

        SmoothL1(bw-lw)+SmoothL1(bh-lh)

        (5)

        式中:L2為均方誤差,L2=(b-l)2。

        SmoothL1[2]為:

        (6)

        對中心坐標值域的限制,可以使預測值與真實值較為接近,L2損失不會出現(xiàn)異常大的值,從而有效地避免梯度爆炸現(xiàn)象;而由于沒對寬和高進行限制,故使用SmoothL1作為該部分的損失函數(shù)能有效避免預測值偏離過大時導致的梯度爆炸,使得模型更為穩(wěn)定。

        2.4 其他組成部分

        在預處理階段,為了使有限的訓練數(shù)據(jù)能較好地反映目標類別所有個體的特征,本文對圖片進行數(shù)據(jù)增強。這里使用了以下增強操作:

        1) 隨機裁剪:可使訓練數(shù)據(jù)更為多樣化。

        2) 縮放:神經(jīng)網(wǎng)絡要求同一批次的輸入擁有同樣的尺寸,該操作將不同大小的輸入縮放至同等大小。

        3) 對比度增強:可使數(shù)據(jù)中的不同物體間的區(qū)分度更高。這里對飽和度和亮度進行了歸一化。

        4) 水平翻轉(zhuǎn):保證物體方向的多樣性。

        最后進行數(shù)據(jù)歸一化來使訓練過程更加穩(wěn)定。

        目標映射部分采用簡單的一層1×1卷積進行映射,分類則采用熱門的Softmax交叉熵損失函數(shù)[11]。最終的模型圖如圖6所示。

        圖6 密集連接檢測器模型圖

        3 實 驗

        3.1 實驗平臺和模型配置

        為了檢驗模型的準確率和檢測速度,本文使用PASCAL VOC2007+2012目標檢測數(shù)據(jù)集[12]和PyTorch 0.3.1深度學習框架,在搭載著CentOS 7.4系統(tǒng)和5塊Tesla V100 GPU卡的Xeon E5-2695 v4服務器上進行訓練和測試。

        首先將圖 6最后4層卷積層替換為一對全局平均池化層和全連接層得到分類模型,使用ImageNet 1000分類任務[13]對該模型進行預訓練,然后使用預訓練好的模型對原始模型進行初始化,再在PASCAL VOC數(shù)據(jù)集上進行一次全局(所有層均參與訓練)的微調(diào),得到最終的模型。

        另外,在訓練中采用原始的批量梯度下降訓練方法,并在微調(diào)時采取熱身策略,即采用一個較小的學習率矯正梯度下降方向,再增大學習率。本實驗的熱身過程學習率設置如表1所示,實驗共進行了300次完整迭代,每次迭代包含259個批次。

        表1 學習率的設置

        3.2 引入全部淺層效果驗證

        在使用YOLOv2原有的淺層特征重組的前提下,將其特征提取網(wǎng)絡替換為密集連接型網(wǎng)絡(記為DCOD模型),以驗證引入全部淺層特征后模型的表現(xiàn)。在PASCAL VOC2007 測試集上的結果見表2的Fast RCNN行至DCOD行。其中RCNN和SSD0系列的數(shù)據(jù)采用自源論文,而YOLOv2作為本文著重比較的對象,這里采用作者提供的訓練好的模型進行實測。PASCAL VOC數(shù)據(jù)集包含20類目標,這里除了給出所有類別的平均準確率之外,還給出了各個類別的準確率。

        表2 PASCAL 2007/test上的檢測精度與速度

        從mAP指標欄可以看出,DCOD相對于YOLOv2,整體提升了0.2 %,初步說明全部淺層特征的引入對檢測結果產(chǎn)生正面作用,與其他的知名模型Fast RCNN、Faster RCNN、SSD 300等相比,也表現(xiàn)得更為出色。從細節(jié)看,對于數(shù)據(jù)集中存在較多小物體的類別:bird和bottle,DCOD相比于YOLOv2在mAP上均有明顯提升,不過可能由于過多淺層特征的引入對部分原本表現(xiàn)較好的大物體檢測造成干擾,綜合起來總的mAP提升不是非常明顯。

        檢測速度方面,DCOD、SSD300、YOLOv2均達到了實時性要求的30幀/s。事實上,雖然DCOD的深度是YOLOv2的6倍,但其特征提取層需要的浮點運算次數(shù)約為22.5×107次,與YOLOv2的22.2×107次是相當?shù)?,即DCOD沒有隨著深度的增大而成比例的增加所需運算次數(shù),沒有大幅增加檢測時長。

        3.3 重組優(yōu)化效果

        為檢測重組優(yōu)化的有效性,本文將DCOD中的淺層特征重組方式替換為RM,得到DCOD+,并與DCOD進行對比見表2的最后兩行。

        從整體的平均準確率mAP來看,DCOD+比DCOD準確率提升0.3%;從細節(jié)上看,對于bird和bottle兩類小物體,DCOD+也各自有0.5%和0.7%的提升。上述兩方面觀察共同說明本文的改進是合理的。

        檢測速度方面,進行小物體檢測優(yōu)化的DCOD+比DCOD快了2.3幀/s,這是在旁路重組了4層關鍵淺層特征的情況下達成的,相比于DCOD只旁路1層關鍵淺層特征,本文的優(yōu)化在計算效率上占據(jù)著明顯的優(yōu)勢。

        圖7為本文的模型跟其他模型的對比情況。可以看到,DCOD+在保證實時性的前提下,最大地提高模型的檢測準確率。

        圖7 各個模型的整體比較

        4 結 語

        針對小物體優(yōu)化問題,本文首先采用密集連接結構重構YOLOv2模型的特征提取網(wǎng)絡,首次利用全部淺層特征來輔助對小物體的檢測,并保證其能滿足實時性要求。其次,改進YOLOv2的淺層特征融合方式,通過多種尺寸的池化操作來簡化YOLOv2的重組過程,使得融合操作更為高效和準確。最后通過實驗驗證兩種優(yōu)化方式的有效性。

        本文對小物體的優(yōu)化對其他物體的檢測造成了些微的不良影響,仍然存在提升空間。除此之外,形狀變化多端的物體也難以檢測,有待進一步研究。

        猜你喜歡
        特征檢測模型
        一半模型
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        无遮挡网站| 国产成人av乱码在线观看| 欧美精品v国产精品v日韩精品| 毛片网站视频| 午夜精品一区二区久久做老熟女| 手机久草视频福利在线观看| 国产一区二区三区在线电影| 国产精品-区区久久久狼| 无码熟妇人妻av在线c0930| av免费资源在线观看| 宅男66lu国产在线观看| 国产偷国产偷亚洲清高| 国产成人AV乱码免费观看| 亚洲乱码一区二区av高潮偷拍的| 潮喷大喷水系列无码久久精品| 韩国19禁主播深夜福利视频| 亚洲女同同性少妇熟女| 成人自拍一二在线观看| 亚洲娇小与黑人巨大交| 91av手机在线观看| av永远在线免费观看| 中文字幕一区二区三区的| 老熟妇仑乱视频一区二区 | 综合色区亚洲熟妇另类| 国产精品一区二区暴白浆| 亚洲中文字幕有综合久久| 久久精品人搡人妻人少妇 | 这里有精品可以观看| 亚洲一区二区免费日韩| 亚洲av色图一区二区三区| 四虎国产精品永久在线国在线| 午夜tv视频免费国产区4| 久久久一本精品久久久一本| 男人吃奶摸下挵进去啪啪软件| 性色av无码一区二区三区人妻| av无码一区二区三| 成年网站在线91九色| 中国女人内谢69xxxx免费视频| 亚洲婷婷丁香激情| 久久精品伊人久久精品伊人| 男人和女人做爽爽视频|