亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于YOLOv2的行人檢測方法研究

2018-04-11 01:44:39劉建國王帥帥

數(shù)字制造科學 2018年1期

劉建國，羅　杰，王帥帥，關　挺

(1.武漢理工大學現(xiàn)代汽車零部件技術湖北省重點實驗室，湖北武漢 430070；2.武漢理工大學汽車零部件技術湖北省協(xié)同創(chuàng)新中心，湖北武漢 430070)

行人檢測就是判斷場輸入的圖形或視頻中是否有行人并快速準確地判斷出行人的位置。行人檢測一直是目標檢測領域的一項重要內(nèi)容，其研究具有較大的理論意義和實際應用價值，相關研究成果可以運用于智能駕駛系統(tǒng)、智能機器人、行人分析等領域。行人檢測不同于普通目標檢測，復雜的背景、不同的光照條件、不同的相機拍攝視角等因素都會對檢測結果造成一定影響，加之行人的衣著多樣化，人與人之間的遮擋以及行走姿勢個性化，使得行人檢測非常具有挑戰(zhàn)性，同時也亟待解決。

目前行人檢測方法可以分為基于背景建模的方法和基于統(tǒng)計學習的方法[1]，基于統(tǒng)計學習的方法又可以分為傳統(tǒng)的行人檢測方法和基于神經(jīng)網(wǎng)絡的行人檢測方法。傳統(tǒng)的方法主要基于人工設計特征提取器，通過提取HOG(histogram of oriented gradient)，Haar，LBP(local binary patterns)等特征，訓練分類器進行行人檢測，并取得了令人矚目的成果。其中，具有代表性的是Dalal于2005年提出的梯度方向直方圖HOG[2]特征，它結合線性支持向量機作為分類器，取得了不錯的效果，后續(xù)大多數(shù)算法都是在此基礎上進行了延伸。2009年Wang等[3]結合HOG特征和LBP特征處理行人遮擋，提高了檢測精度。但人工設計的行人特征很難適應行人的大幅度變化，且高運算復雜度限制了實際應用。為了克服傳統(tǒng)方法手工設計特征泛化性差的缺點，相關學者將深度模型應用于行人檢測。Ouyang等[4]根據(jù)人體不同部位之間的相互約束，運用深度模型學習行人身體不同部位特征來解決行人遮擋問題，完成行人檢測。近些年，深度學習在目標檢測領域取得了重大突破。2012年，Hinton及他的學生Krizhevsky[5]將深度學習應用于圖像處理，并在當年的國際大規(guī)模視覺識別大賽上取得了第一名的成績，其Top-5錯誤率為15.3%，遠超過高達26.2%的第二名。2015年，谷歌的Loffe等[6]和微軟的何凱明等[7]研究人員都分別將圖片分類任務Top-5錯誤率降低到5%以內(nèi)，超過了人類極限。目標檢測領域?qū)W者從中受到啟發(fā)，提出了一系列基于深度學習的目標檢測框架。從RCNN(region convolutional neural network)[8],Fast-RCNN[9],Faster-RCNN[10]到YOLO(you only look once)[11],SSD(single shot multibox detector)[12],YOLOv2[13]，目標檢測的速度和準確率一直在不斷攀升。其中YOLOv2是目前速度和準確率綜合表現(xiàn)最好的網(wǎng)絡。本文借鑒目標檢測中最先進的成果，提出基于YOLOv2的行人檢測方法，在YOLOv2網(wǎng)絡第一層卷積層前添加底層特征提取層，對圖片中行人進行選擇性預處理，突出行人特征，區(qū)分背景干擾，然后根據(jù)行人呈現(xiàn)高寬比固定的特點，聚類分析得到初始候選框anchor的個數(shù)及維度，提升檢測效果。將本文的方法在INRIA數(shù)據(jù)集上進行測試，檢測效果有明顯提升。

1　YOLO算法原理

華盛頓大學Joseph Redmon等人針對區(qū)域提名(region proposal)目標檢測方法的不足，先后提出了YOLOv1和改進版YOLOv2。不同于其他目標檢測網(wǎng)絡，YOLOv1網(wǎng)絡先將圖像劃分成S×S的網(wǎng)格，對于每個網(wǎng)格預測B個邊界框(bounding boxes)。每個邊界框包含5個待預測值：x,y,w,h和置信度。(x,y)是目標窗口的中心坐標，w和h是目標窗口的寬度和高度。置信度Confidence指Pr(Object)×IOUtruthpred，其中IOUtruthpred指真實框和預測框IOU，IOU指兩個區(qū)域交集和并集的比值，Pr(Object)指目標出現(xiàn)的概率。除了預測邊界框，每個網(wǎng)格還要預測C個分類的概率Pr(Classi|Object)，它表示檢測到的物體屬于某一類的概率。YOLOv1沒有使用區(qū)域提名步驟，直接回歸完成了位置和類別的判定，使得其檢測速度得到了質(zhì)的飛躍，實現(xiàn)了端到端的回歸方法。檢測步驟如圖1所示。

圖1　檢測示意圖

預測的窗口屬于某個分類的得分公式為：

Pr(Classi|Object)×Pr(Object)×IOUtruthpred=

Pr(Classi)×IOUtruthpred

(1)

作者設計的損失函數(shù)如下：

(2)

根據(jù)候選框和分類概率Pr(Classi|Object)在網(wǎng)絡預測數(shù)據(jù)中的維度和重要程度不同，作者給予候選框較高的損失權重λcoord，同時給予分類概率Pr(Classi|Object)較低的損失權重λnoobj，并用候選框的平方根來減小候選框位置的準確性對預測結果的影響。上面函數(shù)中，前2項預測候選框，后3項依次預測的是含目標的置信度，不含目標的置信度和目標類別。

YOLOv2參照SSD和YOLOv1網(wǎng)絡結構設計了新的基礎網(wǎng)絡結構Darknet-19，其網(wǎng)絡結構包含19層卷積層和5層最大池化層，在保持原有的檢測速度下，大大提高了檢測準確率。YOLOv2在YOLOv1的基礎上使用了很多技巧，其中包括去掉全連接層，模型只剩下卷積層和池化層，因此可以隨時改變輸入圖片的尺寸，增強模型的泛化能力。YOLOv2借鑒Fast RCNN 的anchor機制預測候選框，采用K-means[14]聚類方法來選擇anchor boxs個數(shù)和寬高維度，由anchor直接預測目標的類別和位置等一系列技巧。

2　基于YOLOv2的行人檢測模型

雖然YOLOv2在目標檢測領域取得了最佳檢測效果，但并不完全適用于行人檢測。筆者針對具體應用，在YOLOv2的基礎上作出相應改進，使其適用于行人檢測，主要改進如下：

(1)在第一個卷積層之前加入底層特征提取層。YOLOv2網(wǎng)絡會對輸入的整幅圖片進行無差別特征提取，但行人檢測過程中，圖片中的行人僅僅是圖片極少的一部分。因此，在YOLOv2網(wǎng)絡之前增加底層特征提取層，對輸入圖像進行預處理，突出行人特征，減小計算量和分析難度。

(2)對數(shù)據(jù)集目標框進行聚類分析，選擇最優(yōu)anchor個數(shù)和寬高維度。YOLOv2的anchor參數(shù)是由VOC2007和VOC2012數(shù)據(jù)集聚類確定的，其數(shù)據(jù)集中類別豐富，得到的anchor參數(shù)具有普適性，但卻不適用于行人檢測。在行人檢測時，無論行人處于什么樣背景，行人姿態(tài)怎么變化，行人在圖片中的長寬比始終是一個相對固定的比值，呈現(xiàn)瘦高的框，因此需要對行人數(shù)據(jù)集進行聚類分析，重新確定anchor個數(shù)和寬高維度。

2.1　底層特征提取層

YOLOv2應用于行人檢測過程中，卷積層會對圖像進行無差別特征提取，這將導致計算的浪費，同時，行人圖像多以車輛，道路為背景，加上行人的非剛性特征，往往導致YOLOv2網(wǎng)絡在特征提取過程中學習到錯誤的特征，干擾最終的檢測結果。為了減少背景和行人的非剛性特征對檢測結果的影響，筆者對行人圖像進行圖像預處理，突出行人結構特征。根據(jù)傳統(tǒng)的行人檢測方法，選擇紋理特征作為圖像預處理計算，實驗結果表明，與不進行紋理特征預處理相比，改進的方法能夠有效提高檢測精度。LBP紋理特征用來描述圖像局部紋理特征的算子，它反映了圖像每個像素與周圍像素之間的關系，描述了圖像的表面性質(zhì)[15]。但由于紋理只是一種物體表面的特性，并不能完全反映出物體的本質(zhì)屬性，因此僅僅利用紋理特征是無法獲得高層次圖像內(nèi)容的。與顏色特征不同，紋理特征不是基于像素點的特征，它需要在包含多個像素點的區(qū)域中進行統(tǒng)計計算。作為一種統(tǒng)計特征，紋理特征常具有旋轉(zhuǎn)不變性，灰度不變性，且對光照變化不敏感，同時對于噪聲有較強的抵抗能力。原始的LBP算子定義在3×3的窗口內(nèi)，以窗口中心像素為基準，將周圍的8個像素的灰度值與其進行相減，若周圍像素值與中心像素值差值大于零，則該像素點的位置記為1，否則記為0。這樣，3×3鄰域內(nèi)的8個點經(jīng)比較可產(chǎn)生8位二進制數(shù)，即LBP碼，得到該窗口中心像素點的特征值，并用這個值來反映該區(qū)域的紋理信息。LBP特征值計算公式為：

(3)

式中：(x,y)代表3×3鄰域中心，其像素值為gc；gp表示鄰域其他像素點的值；S(x)為符號函數(shù)，其定義如下：

(4)

LBP特征值計算過程如圖2所示。

圖2　LBP計算過程示意圖

選擇LBP紋理預處理作為底層特征提取層運算，從圖3(a)與圖3(b)對比可以看出，行人背景的區(qū)別轉(zhuǎn)化成了紋理差異，突出了行人的特征。實驗表明，對圖片進行LBP紋理特征預處理后，降低了模型的漏檢率。

圖3　預處理效果圖

2.2　目標框聚類分析

YOLOv2借鑒Faster-RCNN的方法，引入了anchor，anchor是一組尺寸固定的初始候選框。Faster-RCNN的anchor是人工設定的，其設定的好壞將極大的影響目標檢測的精度和速度。在訓練網(wǎng)絡時，隨著迭代次數(shù)的增加，候選框的參數(shù)也在不斷調(diào)整以接近真實框。因此，Joseph Redmon提出了維度聚類的方法，通過K-means方法對目標框作聚類分析，網(wǎng)絡根據(jù)數(shù)據(jù)集目標框的特點，學習行人特征，找到統(tǒng)計規(guī)律，最終以K為anchor的個數(shù)，以K個聚類中心box的維度為anchor的維度。YOLOv2對VOC數(shù)據(jù)集的聚類結果為5，因此其anchor的個數(shù)為5。筆者同樣采用K-means聚類方法，對INRIA[16]數(shù)據(jù)集進行聚類分析，得到anchor的個數(shù)和寬高維度。傳統(tǒng)的K-means聚類方法使用的是歐式距離函數(shù)，這就意味著較大框會比較小框產(chǎn)生更多的錯誤，因此YOLOv2的作者采用IOU(候選框與真實框的交集除以并集)，這樣就與候選框的尺寸無關了。最終的距離函數(shù)為：

d(box,centroid)=1-IOU(box,centroid)

(5)

本文的聚類目標函數(shù)為：

(6)

式中：box為候選框，truth為目標真實框，K為anchor的個數(shù)。

筆者采用遞增的方法來選擇K值。隨著K值的增大，目標函數(shù)變化越來越緩慢，變化線的拐點可以認為是最佳的anchor個數(shù)。目標函數(shù)變化曲線如圖4所示，當K值大于4時，曲線變得平緩，因此選擇K值為4，即anchor的個數(shù)為4。

圖4　目標函數(shù)變化趨勢圖

3　實驗與分析

3.1　訓練與測試樣本數(shù)據(jù)集

目前，關于行人檢測的數(shù)據(jù)集有很多，INRIA行人數(shù)據(jù)集是最常用的靜態(tài)行人數(shù)據(jù)集，分為訓練集和測試集兩部分，訓練集包含614張正樣本圖像和1 218張負樣本圖像，正樣本中含有2 416人。測試集包含288張正樣本圖像和453張負樣本圖像，正樣本中有1 126人。INRIA數(shù)據(jù)集拍攝條件多樣，存在光照條件變化，行人互相遮擋，背景較復雜等情況，是具有代表性的行人數(shù)據(jù)集。

3.2　實驗平臺

本文實驗硬件配置如表1所示。

表1　軟硬件配置

3.3　分類網(wǎng)絡預訓練

分類網(wǎng)絡預訓練是行人檢測的重要環(huán)節(jié)，為減少訓練時間，采用Daimler[17]數(shù)據(jù)集對Darknet-19進行預訓練，每訓練10輪讓網(wǎng)絡調(diào)整每一層的權重，使網(wǎng)絡從分類算法切換為檢測算法的過程中能更好地適應行人檢測的任務。

3.4　實驗結果對比

3.4.1聚類分析

采用對數(shù)據(jù)集目標框進行聚類分析的方法得到了適合數(shù)據(jù)集的anchor個數(shù)和寬高維度。筆者提出的方法與目前最具代表性的目標檢測框架之一Faster-RCNN以及YOLOv2生成候選框的方法對比，聚類分析得到的候選框數(shù)量較少，減小了計算的浪費，加快了檢測速度，同時能保證更高的平均重疊率，對比結果如表2所示。

表2　候選框?qū)Ρ缺?/p>

3.4.2底層特征提取層

在行人檢測中，漏檢和誤檢是共同的問題。為判斷行人檢測方法的優(yōu)劣，筆者選擇LAMR[18](log-average miss rate)指標來作為評判的標準。LAMR指標表示的是FPPI(平均每張圖片誤檢數(shù))在[10-2102]上與漏檢率之間的關系。以INRIA數(shù)據(jù)集作為實驗數(shù)據(jù)，在FPPI一定(一般為10-1)[19]時，比較本文的方法與Faster-RCNN、YOLOv2以及傳統(tǒng)HOG+SVM的檢測效果，實驗結果如表3所示。

表3　實驗結果對比表

從表3可以看出，在誤檢率一定時，本文方法的漏檢率遠低于傳統(tǒng)的HOG+SVM方法，同時相比于直接將YOLOv2運用于行人檢測，加入底層特征提取層的方法將漏檢率降低了1.94%，表3所列的方法中，本文的方法達到了最佳檢測效果。將訓練好的模型用來檢測行人，檢測示例如圖5所示。圖5中顯示了直接應用YOLOv2和本文方法檢測效果對比，圖5(a)為直接應用YOLOv2的檢測效果，圖5(b)為是本文方法的檢測效果，從圖5對比可以看出，本文的方法降低了漏檢率。

圖5　檢測效果對比圖

4　結論

以YOLOv2為基礎，通過加入低層特征提取層，維度聚類分析等方法成功將目標檢測算法移植到行人檢測。以INRIA數(shù)據(jù)集為實驗數(shù)據(jù)，根據(jù)行人在圖像中呈現(xiàn)高寬比相對固定的規(guī)律，聚類分析選擇較少的anchor個數(shù)，并保證了更高的平均重疊率，同時增加了底層特征提取層，選擇紋理特征算子對圖像進行預處理，將行人背景差異轉(zhuǎn)化成了紋理差異，突出了行人輪廓，降低了行人的漏檢率，驗證了該方法優(yōu)越性。本文還存在訓練樣本較少，模型泛化能力不夠等情況。結合其他輔助信息，提高行人特征表達能力，進一步提升檢測模型的魯棒性和實時性，這是行人檢測的研究方向，也是下一步工作的研究重點。

參考文獻：

[1]Paul viola, Michael J Jones, Daniel snow. Detecting Pedestrians Using Patterns of Motion and Appearance[J]. International Journal of Computer Vision,2005,63(2):734-740.

[2]Dalai N,Triggs B.Histograms of Oriented Gradients for Human Detection[C]∥ Conference on Computer Vision and Pattern Recognition. Sandiego:[s.n.], 2005:886-893.

[3]Wang X,Han T X,Yan S. An HOG-LBP Human Detector with Partial Occlusion Handling[C]∥ Proc. 2009 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE Press,2009:32-39.

[4]Ouyang W,Wang X.Joint Deep Learning for Pedestrian Detection[C]∥IEEE International Conference on Computer Vision(ICCV).[S.l.]:IEEE,2013:2056-2063.

[5]Krizhevsky A,Sutskever I,Hinton G E.Imagenet Classification with Deep Convolutional Neural Networks[C]∥Advances in Neural Information Processing Systems.[S.l.]:[s.n.],2012:1097-1105.

[6]Loffe S,Szegedy C.Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift[C]∥Internation Conference on Machine Learning. [S.l.]:[s.n.],2015：448-456.

[7]He K M,Zhang X,Ren S,et al.Delving Deep into Rectifiers:Surpassing Human-level Performance on Imagenet Classification[C]∥2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015：1026-1034.

[8]Girshick R,Donahue J,Darrell T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. Computer Science, 2013(10):580-587.

[9]Girshick R.Fast R-CNN[C]∥IEEE International Conference on Computer Vision. [S.l.]:IEEE,2015:1440 -1448.

[10]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015(1):1-6.

[11]Redmon J,Divvala S,Girshick R,et al. You Only Look Once:Unified,Real-time Object Detection[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:[s.n.],2016:779-788.

[12]Wei L,Dragomir A. SSD:Single Shot Multi Box Detector[C]∥ European Conference on Computer Vision. [S.l.]:[s.n.],2016:21-37.

[13]Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]∥Proceeding of IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]:[s.n.],2017:135-142.

[14]張素潔,趙懷慈.最優(yōu)聚類個數(shù)和初始聚類中心點選取算法研究[J]. 計算機應用研究，2017,34(6):1-6.

[15]Ojala T,Harwood I.A Comparative Study of Texture Measures with Classification Based on Feature Distributions[J].Pattern Recognition,1996,29(1):51-59.

[16]INRIA. Person Dataset [DB/OL].[2017-12-8].http:∥pascal.inrialpes.fr/data∥human/.

[17]Daimler. Daimler Pedestrian Detection Benchmark Dataset[DB/OL].[2017-12-8].http:∥www Gavrila.net Reserk_d/Daimler_Mono_Ped_Detection_Be/daimler_mono_ped_detection_be.html.

[18]Wojek C,Dolla P,Schiele B,et al.Pedestrian Detection:An Evaluation of State of the Art[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(4):743-761.

[19]李海龍,吳震東,章堅武.基于卷積神經(jīng)網(wǎng)絡的行人檢測[J].通信技術,2017(8):662-667.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于YOLOv2的行人檢測方法研究

1 YOLO算法原理

2 基于YOLOv2的行人檢測模型

2.1 底層特征提取層

2.2 目標框聚類分析

3 實驗與分析

3.1 訓練與測試樣本數(shù)據(jù)集

3.2 實驗平臺

3.3 分類網(wǎng)絡預訓練

3.4 實驗結果對比

4 結論