亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進SSD的行人檢測方法

        2018-11-20 06:09:16邢浩強杜志岐
        計算機工程 2018年11期
        關鍵詞:行人卷積特征

        邢浩強,杜志岐,蘇 波

        (中國北方車輛研究所,北京 100072)

        0 概述

        行人檢測作為計算機視覺領域的研究熱點,在車輛高級駕駛輔助系統(tǒng)、視頻監(jiān)控、安全檢查以及反恐防暴等方面有著重要應用。 在過去的幾十年里,研究人員針對行人檢測問題做了大量探索與研究并取得一系列成果。目前行人檢測主要分為基于人工設計特征和基于神經(jīng)網(wǎng)絡特征的2種檢測方法。

        文獻[1]建立了根模型和部件模型來表示物體,并將2種方法的匹配結果作為最終的行人檢測結果。文獻[2]使用包含歸一化梯度幅值、梯度方向直方圖特征等10個聚合通道特征,訓練了由2 048個決策樹狀組成的強分類器以減少模型分類時間。文獻[3]提出了基于感興趣區(qū)域梯度直方圖的行人檢測方法,分別在頭部及四肢等重點區(qū)域計算梯度方向直方圖,減少了向量維數(shù)。文獻[4]將人臉檢測中級聯(lián)檢測框架引入到行人檢測中,采用Gentle AdaBoost方法進行分類器訓練,提高了檢測效率。 以上基于人工設計特征的行人檢測方法在諸多行人檢測問題中都取得了良好的檢測效果,但也有明顯的不足。 這類方法的特征依賴對行人檢測問題的理解與設計經(jīng)驗。 此外這些人工設計的特征也僅僅側重于某類或某幾類特點,很難全面兼顧多種工況下的檢測任務。

        深度學習是近年來興起的技術,計算機視覺領域也在不斷地探索將其應用于圖像處理、目標檢測與識別等問題中。文獻[5]將支持向量機(Support Vector Machine,SVM)方法與LeNet神經(jīng)網(wǎng)絡融合,通過SVM提取特征并通過卷積神經(jīng)網(wǎng)絡(Convdutional Neura Network,CNN)剔除誤檢窗口,實現(xiàn)了較高的召回率和準確率。文獻[6]提出了一種包含大量人體部件檢測器的檢測框架,能夠通過較少量的監(jiān)督數(shù)據(jù)來進行訓練,對于遮擋情況下的行人檢測問題有較好的檢測效果。文獻[7]提出一種基于CNN的隱式訓練模型,通過結合多部件檢測模塊降低計算復雜度,在INRIA數(shù)據(jù)集上獲得98%的檢測準確率。 然而上述基于深度學習的方法在通過神經(jīng)網(wǎng)絡逐層提取行人特征時,認為該特征僅與前一層有關,忽略了其余特征層的作用。此外,該類方法在對行人目標進行預測時往往將特征層孤立開來,影響了檢測結果的魯棒性與準確性。

        為解決上述問題,本文提出一種基于改進SSD(Single Shot Multibox Detector)的行人檢測方法。該方法的網(wǎng)絡結構以文獻[8]中通用目標檢測模型SSD為基礎,結合行人檢測任務特點進行優(yōu)化與改進。

        1 原始SSD方法及其存在的問題

        1.1 原始SSD方法模型結構

        原始SSD模型主要由4部分組成:基礎網(wǎng)絡部分,附加特征提取層部分,原始包圍框生成部分和卷積預測部分。其工作原理如下:首先將不同尺寸的圖片變換為300×300像素的尺寸輸入模型; 輸入圖像經(jīng)過基礎網(wǎng)絡與附加特征提取部分后得到原始圖像的大量卷積特征;選擇部分特征層作為目標預測的依據(jù),分別經(jīng)過原始包圍框生成部分和卷積預測部分得到大量多尺度原始包圍框和各卷積層在每個位置處的包圍框修正值與預測概率;根據(jù)原始包圍框、預測結果與圖片真值數(shù)據(jù)通過loss層計算損失函數(shù),通過訓練實現(xiàn)模型權值的更新。

        1.1.1 基礎網(wǎng)絡部分

        基礎網(wǎng)絡部分用于對輸入圖像進行淺層特征提取,得到的淺層特征一方面可直接用于目標檢測與包圍框回歸,另一方面可用于提取目標的深層特征。 原始SSD模型直接將VGG-16[9]模型的卷積部分用作基礎網(wǎng)絡部分。這部分包含13個不同的卷積層,可對一張輸入尺寸為300×300像素的三通道圖像進行大量卷積運算,最終得到512張尺寸為19×19的特征圖,作為附加特征提取層繼續(xù)進行卷積運算的輸入。

        1.1.2 附加特征提取層部分

        附加特征提取層部分仿照基礎網(wǎng)絡部分的結構,新增10層卷積層,對基礎網(wǎng)絡提取的特征進行進一步卷積運算。 VGG-16卷積層后為2個全連接層,在特征提取階段宜采用計算量更小的卷積運算。文獻[10]提出通過下采樣和atrous方法將原VGG-16模型中的前2個全連接層修改為附加卷積層的前2層,即Fc6-Conv層和Fc7-Conv層,其余8層為普通創(chuàng)建的卷積層。

        1.1.3 原始包圍框生成部分

        原始SSD模型選取部分卷積層來實現(xiàn)目標預測與包圍框修正。為實現(xiàn)增量式包圍框回歸,需要在被選特征層的每個特征值位置上生成若干寬高比的原始包圍框,并在此基礎上回歸修正值以獲得最終包圍框結果。

        網(wǎng)絡中不同層次的特征圖具有不同的感受野(receptive field),即不同層次特征圖上的特征值對應于原始圖像不同尺寸的圖像塊。通過設計不同層的縮放因子來調(diào)整不同層內(nèi)原始包圍框的尺寸以適應不同大小的目標。假設共選m個特征層,則原始SSD方法對于第k層的縮放因子如下所示。

        其中,smin=0.2,smax=0.9。設輸入圖像的高和寬分別為Hinput和Winput,則該層對應與寬高比為r的原始包圍框?qū)捄透呷缦滤尽?/p>

        1.1.4 卷積預測部分

        每個被選擇的特征層輸出的特征經(jīng)過與之對應的卷積預測部分運算,輸出結果分別為預測的目標包圍框修正值與該包圍框內(nèi)物體是目標或背景的概率。每個包圍框修正值包含4維數(shù)據(jù):中心點橫坐標修正值,中心點縱坐標修正值,包圍框?qū)挾刃拚岛桶鼑蚋叨刃拚怠?/p>

        1.2 原始SSD方法存在的問題

        1.2.1 基礎網(wǎng)絡部分

        原始SSD方法直接采用VGG-16網(wǎng)絡的卷積層作為基礎網(wǎng)絡部分,用來提取目標的淺層特征。每層的卷積運算輸入僅為與之相連的上一卷積層,并未考慮之前的卷積層,喪失了大量卷積運算得到的特征信息。此外,這種串聯(lián)的卷積運算模式下,如果某層權值在更新過程中出現(xiàn)了較大偏差,則會導致該層后面的所有層都受到影響。

        1.2.2 被選特征層結構

        輸入圖像經(jīng)過基礎網(wǎng)絡部分與附加特征提取部分運算,得到大量卷積特征圖,選擇部分特征圖作為原始包圍框與卷積預測的基礎。原始SSD方法沒有將淺層特征與深層特征融合起來綜合考慮,而是孤立的選擇若干卷積層作為被選特征層,在此基礎上進行檢測結果的預測。

        1.2.3 被選特征層縮放因子

        考慮到不同層次的特征圖具有不同的感受野,需要為不同特征層設計縮放因子。目標的尺寸分布具有如下規(guī)律:目標尺寸很大與很小的可能性相對較小,而尺寸適中的可能性相對較大。原始SSD方法忽略了這一規(guī)律,認為目標尺寸大小概率相同,采用線性均分的方法為各個特征層分配縮放因子。

        2 改進的SSD方法

        改進的SSD方法用密集連接的卷積層[11]替換串聯(lián)結構的基礎網(wǎng)絡部分,在得到大量目標特征圖后通過特征融合部分將不同層次的特征圖組合,得到融合特征圖用作預測的依據(jù),并修改了不同特征層的縮放因子,使得各特征層的原始包圍框尺寸更好地滿足待檢目標的尺寸分布規(guī)律。改進SSD方法的模型整體結構如圖1所示。

        圖1 改進SSD方法的模型整體結構

        2.1 密集連接基礎網(wǎng)絡部分

        密集連接的基礎網(wǎng)絡部為15個卷積層,平均分為5組,每組的3個卷積層構成一個Block。每個Block采用密集連接的方式進行卷積運算,每個卷積層都與當前Block內(nèi)該層之前的所有卷積層連接(見圖2)。第一卷積層的輸入為前Block的輸出,第二卷積層的輸入為該Block的第一卷積層輸出,第一、第二卷積層的輸出組合后作為第三卷積層的輸入,第一~第三卷積層的輸出組合后作為該Block的卷積運算結果。

        Block內(nèi)卷積層進行組合后經(jīng)過Batch Normalization[12]運算以平滑不同特征圖之間的偏差,經(jīng)過Scale運算歸一化。每個Block內(nèi)3個卷積層組合后的特征圖通道數(shù)是任意卷積層的3倍,通過1×1的卷積核進行變通道操作,將Block的輸出通道數(shù)變換至與Block內(nèi)任意卷積層相同,結果作為Block輸出。基礎網(wǎng)絡部分5個Block的結構參數(shù)如表1所示。

        圖2 密集連接Block結構示意圖

        表1 基礎網(wǎng)絡部分結構參數(shù)

        2.2 作為被選特征層的融合特征層

        模型將淺層特征與深層特征融合形成融合特征,用作包圍框回歸與目標概率預測的原始特征圖。淺層特征通過下采樣以減小維度,深層特征通過上采樣以增加維度。上采樣方法為直接填充,即用原特征圖上某點的值填充上采樣后該點對應區(qū)域的所有值。隨后將2種來源不同的特征圖融合起來形成融合特征用于行人目標檢測。 融合特征層的通道數(shù)中一半來自淺層特征圖,另一半來自深層特征圖,當通道數(shù)不符時可通過1×1的卷積核來改變通道數(shù)。為了避免相鄰特征圖相關性較大影響檢測效果,本文中的特征融合均采用隔層融合。

        以Combined_4融合層為例進行說明。該層維度為512×38×38。Block3的輸出特征圖維度為256×75×75,下采樣得到變換后的Block3(Block3mod),其維度為256×38×38;Block5輸出特征圖維度為512×19×19,經(jīng)過上采樣和1×1卷積核的變換通道操作后得到變換后的Block5(Block5mod),其維度為256×38×38。Block3mod和Block5mod拼接為Combined_4融合層,其維度為512×38×38。特征融合后經(jīng)過Batch Normalization和Scale運算處理,其余融合層的融合規(guī)則如表2所示。

        表2 特征融合部分融合規(guī)則

        2.3 適應目標尺寸分布的卷積層縮放因子

        通過設計不同層的縮放因子來調(diào)整不同層內(nèi)原始包圍框的尺寸以適應不同大小的目標。假設共選m層特征層,考慮到目標的尺寸較大或較小的可能性較低,故縮放因子較小或較大時的分布應稀疏,而縮放因子位于中間值時分布應相對密集。 第k層包圍框縮放系數(shù)計算方法可在線性分配的基礎上加以修正,如下式所示。

        其中,smin=0.2,smax=0.9,φ(k)是不同層修正系數(shù)函數(shù)。本文共選擇6個融合特征層作為包圍框修正值與目標概率預測的原始特征圖,取φ(1)=φ(6)=0.8,φ(2)=φ(5)=1,φ(3)=φ(4)=1.2。

        3 實驗與結果分析

        為了驗證改進SSD方法的有效性,通過Caltech Pedestrian數(shù)據(jù)集進行測試,并將測試結果與其他方法的結果進行對比與分析。

        3.1 Caltech Pedestrian數(shù)據(jù)集

        Caltech Pedestrian為加州理工大學構建的數(shù)據(jù)集,常用于行人檢測算法的設計與測試。該數(shù)據(jù)集為時長約10 h的城市道路環(huán)境拍攝視頻,共約106幀,圖像原始分辨率為640×480像素。視頻集分為Set00-Set10共11段,選擇Set00-Set05作為訓練集,Set06-Set10為測試集。其中“person”類代表圖像中標記出的獨立行人目標,“people”類代表圖像中標記出的行人群,“person?”類代表圖像中的目標無法清晰分辨是否為行人。本文僅考慮標記為“person”類的目標,忽略“people”類與“person?”類。

        Caltech Pedestrian數(shù)據(jù)集按照視頻中行人目標的尺寸與被遮擋情況,將測試集分為不同級別。本文選擇All與Reasonable測試集測試算法的一般泛化能力,選擇Far與Occ.heavy測試集測試算法的難例泛化能力。4個測試集的屬性如表3所示。

        表3 所選測試集屬性

        3.2 模型訓練

        訓練數(shù)據(jù)經(jīng)過左右翻轉和隨機采樣實現(xiàn)數(shù)據(jù)增強,隨機采樣的最小jaccard overlap[13]值為0.5,訓練數(shù)據(jù)與測試數(shù)據(jù)均等比例縮放至300×300。權值訓練方法為隨機梯度下降(Stochastic Gradient Descent,SGD),mini-batch尺寸為32,訓練平臺為英偉達TitanX GPU。

        由于模型網(wǎng)絡結構相對復雜權值參數(shù)較多,因此從頭訓練速度較慢,本文使用原SSD模型中與改進SSD模型相同的層來初始化改進SSD模型中的部分層,其余層采用文獻[14]中的方法初始化。初始學習率為0.001,25 000次循環(huán)后學習率調(diào)整為0.000 1,40 000次循環(huán)后學習率調(diào)整為0.000 01,50 000次循環(huán)后終止訓練。參數(shù)衰減值(weight decay)為0.000 5,動量因子(momentum)為0.9。

        3.3 測試結果

        3.3.1 檢測準確性

        模型訓練結束后通過測試集測試模型的檢測結果,根據(jù)文獻[15]中的評價方法計算測試結果的準確率與漏檢率,繪制漏檢率-每圖誤檢數(shù)(FPPI)曲線,并將測試結果與其他頂尖方法進行對比。圖3~圖6分別為All、Reasonable、Far與Occ.heavy測試集下改進SSD方法與其他方法的測試對比,圖中左下角邊框內(nèi)為各方法的對數(shù)平均漏檢率(log-average miss rate)[15],該值越低,則對應方法的檢測效果越好。 從測試結果來看,相比其他方法,改進SSD方法針對Caltech行人數(shù)據(jù)集具有更好的檢測效果。圖7為Caltech數(shù)據(jù)集部分檢測結果。

        圖3 All測試集下不同方法測試結果對比

        圖4 Reasonable測試集下不同方法測試結果對比

        圖5 Far測試集下不同方法測試結果對比

        圖6 Occ.heavy測試集下不同方法測試結果對比

        圖7 Caltech數(shù)據(jù)集部分檢測結果

        3.3.2 檢測速度

        為測試改進SSD方法的檢測速度,本文選取目前檢測精度較高的4種方法:SA Fast RCNN[16],MS-CNN[17],RPN+BF[18]與CompACT-Deep[19],用來做對比實驗。考慮到不同方法使用的GPU計算能力不同,本文計算各方法在單位tflops(每秒萬億次單精度浮點計算)計算能力下的檢測速度,結果如表4所示。由表4可知,改進SSD方法的檢測速度可達20 frame/s,明顯快于其他方法,滿足行人檢測的實時性要求。

        表4 不同檢測方法的檢測速度 (frame·s-1)

        3.4 測試結果分析

        3.4.1 檢測準確性結果分析

        測試結果表明,相比于原始SSD等其他方法,改進SSD方法對Caltech Pedestrian數(shù)據(jù)集具有更低的平均漏檢率。密集連接的基礎網(wǎng)絡能夠綜合考慮大量淺層行人特征,提高模型的一般泛化能力,改進SSD方法在All與Reasonable測試集上的平均漏檢率較其他方法有3%~5%的提升。融合特征能夠兼顧行人的淺層特征和深層特征,提高目標預測階段的穩(wěn)定性與魯棒性,使得改進SSD方法對于小尺寸目標與嚴重遮擋目標具有更好的檢測效果。改進SSD在Far與Occ.heavy測試集上的平均漏檢率較其他方法有10%~20%的提升,這對于解決行人檢測中低照度、模糊目標、遮擋目標等痛點問題具有重要意義。

        3.4.2 檢測速度結果分析

        改進SSD方法的速度高于SA Fast RCNN、MS-CNN、RPN+BF與CompACT-Deep等方法的原因主要有2點。1)改進SSD方法的目標包圍框是被動生成的,即在特征圖的每個位置產(chǎn)生若干固定寬高比的默認包圍框,默認包圍框產(chǎn)生階段不需考慮圖片的具體像素值。而SA Fast RCNN與MS-CNN等方法的默認包圍框需要根據(jù)不同圖片的像素值主動生成,這一階段需要消耗大量時間。2)改進SSD方法可以實現(xiàn)端到端的訓練與檢測,模型的輸入為待檢圖片,輸出即為檢測結果,訓練與檢測流程在同一CNN內(nèi)進行。而RPN+BF與CompACT-Deep等方法的訓練與檢測均需要分段進行,特征的提取與基于特征的與檢測通過不同的神經(jīng)網(wǎng)絡或傳統(tǒng)機器學習模型實現(xiàn),其中數(shù)據(jù)的轉移和處理消耗了額外時間。

        4 結束語

        為提高行人檢測的準確性與穩(wěn)定性,本文提出一種基于改進SSD的行人檢測方法。該方法以SSD為基礎網(wǎng)絡結構,結合行人檢測任務特點進行優(yōu)化與改進。 將串聯(lián)式的基礎網(wǎng)絡部分修改為密集連接式結構,目標預測階段選擇融合特征作為預測依據(jù),并根據(jù)目標尺寸分布規(guī)律優(yōu)化各特征層的縮放因子。模型在Caltech Pedestrian數(shù)據(jù)集上訓練與測試,獲得了較低的平均漏檢率,驗證了本文方法的有效性。對于行人目標尺寸較小與嚴重遮擋等難點問題,相比于原始SSD、VJ-1、HOG等方法,本文方法的檢測結果具有明顯提升。此外本文方法的檢測速度也較有明顯優(yōu)勢。

        雖然基于高計算能力GPU的改進SSD方法針對行人檢測具有較快的速度,但這類方法在計算能力稍差的嵌入式系統(tǒng)中的檢測速度仍然很慢。下一步將精簡和壓縮模型結構,在不明顯影響檢測精度的基礎上提升模型前向傳播速度,增強其嵌入式系統(tǒng)部署能力。

        猜你喜歡
        行人卷積特征
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        如何表達“特征”
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        路不為尋找者而設
        揚子江(2019年1期)2019-03-08 02:52:34
        基于傅里葉域卷積表示的目標跟蹤算法
        抓住特征巧觀察
        我是行人
        一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
        電視技術(2014年19期)2014-03-11 15:38:20
        亚洲高清国产一区二区| 免费观看久久精品日本视频| 国产日韩午夜视频在线观看| 暴露的熟女好爽好爽好爽| 新婚人妻不戴套国产精品| 欧美操逼视频| 一本一本久久久久a久久综合激情| 蜜桃精品国产一区二区三区 | 狠狠色噜噜狠狠狠97影音先锋| 性色av成人精品久久| 国产亚洲91精品色在线| 女的扒开尿口让男人桶30分钟 | 天天爽夜夜爱| 欧美一区波多野结衣第一页| 亚洲精品在线观看一区二区| 极品粉嫩小仙女高潮喷水网站| 正在播放东北夫妻内射| 国产爆乳无码一区二区在线| av在线不卡一区二区三区| 免费毛儿一区二区十八岁| av无码久久久久不卡网站下载| 日本特黄a级高清免费大片| 偷拍视频这里只有精品| 国产欧美va欧美va香蕉在| 俺来也俺去啦久久综合网| 久久亚洲中文字幕精品一区四| 最新国产女主播在线观看| 亚欧美日韩香蕉在线播放视频| 国产2021精品视频免费播放| 亚洲一区久久久狠婷婷| 无码熟妇人妻av在线网站 | 青青草在线成人免费视频| 国产无套内射又大又猛又粗又爽 | 国产白丝在线| 日本在线一区二区在线| 妺妺窝人体色www婷婷| 久久久久亚洲av无码专区| 黑丝美女被内射在线观看| 国产视频一区二区三区在线免费| 在线亚洲+欧美+日本专区| 国产成人无精品久久久|