亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于多層RBM網(wǎng)絡(luò)和SVM的行人檢測方法研究

        2018-04-27 06:31:25王立德北京交通大學(xué)電氣工程學(xué)院北京100044
        鐵道學(xué)報 2018年3期
        關(guān)鍵詞:隱層權(quán)值行人

        王 銀, 王立德, 邱 霽, 申 萍, 杜 欣(北京交通大學(xué) 電氣工程學(xué)院, 北京 100044)

        行人檢測技術(shù)由于應(yīng)用的廣泛性使其在計算機視覺領(lǐng)域成為一個重要分支,其在視頻監(jiān)控、機器人視覺、汽車自動駕駛、虛擬現(xiàn)實技術(shù)以及基于內(nèi)容的視頻檢索等多個領(lǐng)域中具有重要的作用,因此一直是國內(nèi)外研究熱點;同時由于現(xiàn)實生活中行人在衣著、形態(tài)變化、所處背景的多樣性以及光照強弱、行人之間的相互遮擋問題也使得行人檢測成為計算機視覺領(lǐng)域內(nèi)的難點問題[1],鐵路車站環(huán)境下正是存在著這樣的行人檢測難點問題。而在多突發(fā)事件的列車車站環(huán)境下人工事后排查監(jiān)控視頻效率極低,因此基于視頻檢索技術(shù)的研究對改變目前的調(diào)查取證方式有著非常大的意義,行人檢測正是針對監(jiān)控視頻檢索技術(shù)的核心技術(shù),也是保證檢索準(zhǔn)確度的首要條件。

        目前行人檢測技術(shù)按照特征提取模式可以分為兩類:基于人工特征的行人檢測和基于深度學(xué)習(xí)的行人檢測?;谌斯ぬ卣鞯男腥藱z測在近幾十年的發(fā)展當(dāng)中無論在檢測精度上還是檢測速度上都取得了長足的進步。2001年Viola等提出了“AdaBoost+Haar”行人檢測算法[2],算法通過AdaBoost方法從大量簡單的Haar特征中選取判別能力強的特征進而進行分類,取得良好的效果;2005年Dalal等提出梯度方向直方圖HOG(Histograms of Oriented Gradients )特征結(jié)合簡單的線性支持向量機,取得了非常好的效果[3],之后Zhu等采用積分直方圖技術(shù)快速計算HOG特征提高了行人檢測的速度[4]。在之后的研究中研究人員將HOG特征和多種特征相融合也取得了一定的效果,但是仍不可避免的是采用了基于人工定義的特征,其對于復(fù)雜背景及遮擋問題檢測效果尚差人意。隨著2006年Hinton等提出深度學(xué)習(xí)框架[5]采用“逐層初始化”的方式來克服訓(xùn)練上的難度、采用多隱層結(jié)構(gòu)來提高特征學(xué)習(xí)能力獲得特征的非線性表達,其強大的特征提取能力和泛化能力顯示了深度學(xué)習(xí)在機器視覺領(lǐng)域的優(yōu)點。繼而各種深度學(xué)習(xí)架構(gòu)在短短十余年中相繼提出,近幾年開始出現(xiàn)將深度學(xué)習(xí)引入到行人檢測領(lǐng)域的研究,2013年,香港中文大學(xué)歐陽萬里提出JointDeep方法[6],利用CNN網(wǎng)絡(luò)提取行人特征進行行人檢測,文章結(jié)合行人遮擋模型和形變模型取得了不錯的效果。同年P(guān)ierrie Sermonettes根據(jù)卷積稀疏編碼提出非監(jiān)督方法ConvNet-U[7]進行行人檢測也取得了一定的效果。Moez等[8]利用3D卷積神經(jīng)網(wǎng)絡(luò)3D CNN(3D Convolutional Neural Networks)進行人體行為的識別, Martinson等[9]將Alex Net卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用到移動機器人的視覺系統(tǒng)中來進行行人的檢測,而Youngwook Kim[10]在2016年1月提出將深度卷積神經(jīng)網(wǎng)絡(luò)DCNNs(Deep Convolutional Neural Networks)應(yīng)用到多普勒雷達采集到的信息進行行人的檢測以及分類上,檢測準(zhǔn)確率達到了97.6%,分類準(zhǔn)確率達到了90.9%。

        本文提出了將玻爾茲曼機級聯(lián)SVM分類器應(yīng)用到視頻圖像中進行行人的檢測及特征提取,所建立的訓(xùn)練網(wǎng)絡(luò)中包含多層玻爾茲曼機無監(jiān)督網(wǎng)絡(luò)進行特征提取及最后一層SVM分類器進行特征的分類,本文同時對比了不同層數(shù)訓(xùn)練網(wǎng)絡(luò)對于行人特征提取能力的影響,最后結(jié)果顯示多層RBM網(wǎng)絡(luò)的非線性深層次網(wǎng)絡(luò)結(jié)構(gòu)模型能夠很好地表征行人特征,在復(fù)雜環(huán)境下較之于傳統(tǒng)基于人工特征的行人檢測方法具有很大的優(yōu)勢。

        1 行人特征提取及分類

        1.1 行人訓(xùn)練數(shù)據(jù)庫的擴建

        到目前為止,在行人檢測領(lǐng)域各研究機構(gòu)開放了多個行人數(shù)據(jù)庫,其中比較常見的有MIT數(shù)據(jù)庫(包括924張行人圖片,寬高為64×128像素)、INRIA數(shù)據(jù)庫(902張圖片,包括3 542個行人,行人未分割)、Daimler行人數(shù)據(jù)庫(兩種大小的行人圖片各15 560張)、Caltech行人數(shù)據(jù)庫(視頻數(shù)據(jù),視頻中對行人進行了標(biāo)注)等,這些數(shù)據(jù)庫多數(shù)是在基于傳統(tǒng)人工行人特征的訓(xùn)練環(huán)境下建立的,數(shù)據(jù)量較小且各數(shù)據(jù)庫之間由于數(shù)據(jù)格式不兼容,無法滿足深度學(xué)習(xí)對于高質(zhì)量大數(shù)據(jù)量訓(xùn)練數(shù)據(jù)的要求,因此本文在對現(xiàn)有行人數(shù)據(jù)庫兼容、整合的基礎(chǔ)上人工提取了大量監(jiān)控視頻的行人圖片及負樣本圖片并進行了標(biāo)注,所有圖片大小定義為64×128像素,其中擴充完成的行人數(shù)據(jù)庫部分行人樣本見圖1。

        1.2 行人多層玻爾茲曼機訓(xùn)練模型結(jié)構(gòu)

        為對比不同深度的網(wǎng)絡(luò)模型對于特征提取能力的影響,分別建立多層網(wǎng)絡(luò)結(jié)構(gòu),每個網(wǎng)絡(luò)均包含多層RBM網(wǎng)絡(luò)[11]及最后一層SVM分類器,多層RBM網(wǎng)絡(luò)中每層由顯層(Visible Layer)及隱層(Hidden Layer)構(gòu)成,顯層由顯元組成,相應(yīng)的隱層由隱元組成,顯層和隱層內(nèi)部神經(jīng)元之間沒有互聯(lián),相鄰層之間神經(jīng)元全連接,通過自下而上的學(xué)習(xí)形成特征多層的抽象表示,多層深度網(wǎng)絡(luò)結(jié)構(gòu)見圖2。

        圖2第一層RBM網(wǎng)絡(luò)的顯層為輸入的行人數(shù)據(jù),由行人數(shù)據(jù)集特征可計算輸入向量維數(shù)為8 192,層間連接權(quán)值為ω,后面每個RBM網(wǎng)絡(luò)的輸入層均為上一層的輸出層,由于顯層和隱層內(nèi)部神經(jīng)元之間沒有互連,在給定顯元的值的情況下,每個隱元之間的值互不相關(guān),同理在給定隱元值的情況下所有顯元的值也互不相關(guān),因此可得

        ( 1 )

        ( 2 )

        ( 3 )

        p(hj=0|v)=1-p(hj=1)

        ( 4 )

        式中:aj為偏置量;ωj為第j個隱元與輸入層之間的連接權(quán)值,其連接見圖3。

        隱層中每個神經(jīng)元分配兩個狀態(tài):開啟為1,或關(guān)閉為0,為了獲取具體每個神經(jīng)元的實際狀態(tài)需要從1個(0,1)均勻分布中抽取1個隨機值u∈U(0,1),進行如下計算

        ( 5 )

        根據(jù)初始化隨機值ω及a結(jié)合式( 3 )~式( 5 )可以算出由行人圖像的輸入向量得到對應(yīng)的隱含層二值化向量,在訓(xùn)練權(quán)值更新階段引入聯(lián)合組態(tài)能量函數(shù)來進行權(quán)值及偏置的更新,隱層與顯層之間的聯(lián)合組態(tài)能量函數(shù)為

        ( 6 )

        式中:aj、bi為隱層和顯層(輸入層)的偏置量;vi、hj為顯層和隱層的二進制狀態(tài);ωij為兩者間的連接權(quán)值,θ={ω,a,b}。訓(xùn)練時不斷改變權(quán)值和偏置大小來將能量函數(shù)值降到最低。所建的網(wǎng)絡(luò)模型通過能量函數(shù)給每對可見和隱藏向量分配1個概率

        ( 7 )

        式中

        ( 8 )

        因此,網(wǎng)絡(luò)分配給可見向量的概率為

        ( 9 )

        對式( 9 )針對ωij進行對數(shù)求導(dǎo)可得

        (10)

        式中:〈vihj〉data為數(shù)據(jù)的期望,〈vihj〉model為模型的期望,該式即為可見向量對權(quán)值的對數(shù)梯度,可以設(shè)定權(quán)值每次更新變化量為學(xué)習(xí)率ε與數(shù)據(jù)、模型期望差值的乘積為

        Δωij=ε(〈vihj〉data-〈vihj〉model)

        (11)

        以ω+Δω更新權(quán)值矩陣直到E(v,h;θ)收斂,訓(xùn)練每一層玻爾茲曼機確定整個網(wǎng)絡(luò)參數(shù)。

        訓(xùn)練算法如下:

        Step1模型初始化:網(wǎng)絡(luò)層數(shù)p;權(quán)值矩陣ω;各隱層偏置a,b;各層神經(jīng)元數(shù)量。

        Step2構(gòu)建sigmoid層,定義代價函數(shù)。

        Step3輸入訓(xùn)練行人樣本集X={(x1,l1),(x2,l2),…,(xN,lN)},N為行人訓(xùn)練樣本數(shù)量。

        Step4利用式( 3 )~式( 5 )計算隱層神經(jīng)元的狀態(tài)。

        Step5生成函數(shù)列表,在給定層計算一步梯度下降,設(shè)定學(xué)習(xí)率ε。

        Step6權(quán)值更新,ω←ω+Δω。

        1.3 結(jié)合SVM分類器的有監(jiān)督學(xué)習(xí)

        行人檢測有別于圖像識別或數(shù)字識別,其可以看做是1個二分類問題,只需判斷在圖片中截取的窗口是否為行人,SVM正是一種二類分類模型,因此本文將SVM分類器級聯(lián)到多層玻爾茲曼機的最后層來進行特征的分類。

        0≤αi≤Ci=1,2,…,N

        (12)

        式中:α為拉格朗日乘子,為待求參數(shù);C為懲罰參數(shù),可根據(jù)實際情況調(diào)節(jié),由于提取到的行人高層特征并不一定滿足線性可分這一基本條件,因此引入核函數(shù)將行人特征映射到更高維度的空間,這里選擇高斯核作為核函數(shù)

        (13)

        綜合式(12)、式(13)及輸入的行人特征向量得到非線性支持向量機的訓(xùn)練方程

        0≤αi≤Ci=1,2,…,N

        (14)

        lj(ω*·xj+b*)-1=0

        利用核技巧將線性支持向量機擴展到非線性支持向量機只需要將內(nèi)積換為核函數(shù),則可得

        (15)

        最終分類決策函數(shù)為

        (16)

        在整個網(wǎng)絡(luò)參數(shù)訓(xùn)練完成確定各層RBM網(wǎng)絡(luò)權(quán)值、偏置及SVM中α、b*、σ后,輸入測試樣本x=(x1,x2,x3,…,xn)T(n為輸入特征的維度,其值為1或-1),經(jīng)過多層RBM后轉(zhuǎn)換為特征向量x(p-1)=(h1(p-1),h2(p-1),…,hd(p-1))T(p為整個網(wǎng)絡(luò)的層數(shù),h表示神經(jīng)元所處的狀態(tài):0或1,d表示第p-1層神經(jīng)元數(shù)量即特征維度),在網(wǎng)絡(luò)的最后一層將該向量作為SVM向量機的輸入向量,最終由分類決策函數(shù)得出二分類值,f(x)=1則表明建立的行人檢測模型對于輸入的圖片判斷為行人,f(x)=-1表明判斷為非行人。

        SVM訓(xùn)練算法如下:

        Step1SVM模型參數(shù)初始化;

        Step2構(gòu)造式(14)所示的約束最優(yōu)化問題的目標(biāo)函數(shù);

        Step4構(gòu)造并計算分類決策函數(shù)f(x)。

        2 實驗結(jié)果及分析

        2.1 實驗環(huán)境

        本文的實驗是在linux環(huán)境下基于Theano深度學(xué)習(xí)框架下搭建的,計算機配置如下:Inter Core i5 4590 CPU 3.3 GHz,內(nèi)存8 G,顯卡為NVIDIA GeForce GTX 950,訓(xùn)練樣本集合了MIT行人數(shù)據(jù)庫、INRIA數(shù)據(jù)庫和Daimler行人數(shù)據(jù)庫并將數(shù)據(jù)庫進行了擴充,行人圖片大小統(tǒng)一為64×128像素。

        2.2 不同網(wǎng)絡(luò)深度測試對比

        本文設(shè)定了不同層次網(wǎng)絡(luò)進行測試,測試樣本采用了兩個數(shù)據(jù)庫中的行人圖片:(1)MIT行人數(shù)據(jù)庫,該數(shù)據(jù)庫中包含924張已經(jīng)分割的行人照片;(2)INRIA數(shù)據(jù)庫,該數(shù)據(jù)庫包含測試圖片741張,其中正樣本圖片288張,負樣本圖片453張。為了便于評價及分析實驗結(jié)果,這里引入了檢測率及虛警率指標(biāo)來對實驗的檢測效果進行分析和評估,其計算式為

        (17)

        (18)

        式中:tp為被正確分類的正樣本數(shù)量;fp為被錯誤分類的正樣本數(shù)量;fn為被錯誤分類的負樣本數(shù)量。

        實驗中通過改變多層RBM網(wǎng)絡(luò)的層數(shù)及隱含層神經(jīng)元數(shù)量來獲得最優(yōu)判別模型,測試結(jié)果見表1。

        表1 MIT行人數(shù)據(jù)庫測試結(jié)果

        以上數(shù)據(jù)為針對MIT行人數(shù)據(jù)庫所做的測試,該數(shù)據(jù)庫中行人為單個個體,無負樣本數(shù)據(jù),因此沒有虛警率指標(biāo),在網(wǎng)絡(luò)層數(shù)為5或6層時檢測正確率較高,網(wǎng)絡(luò)層數(shù)變?yōu)?后檢測正確率反而下降,這說明過高的網(wǎng)絡(luò)層數(shù)可能導(dǎo)致過擬合情況的發(fā)生。

        表2 INRIA測試集實驗結(jié)果

        以上數(shù)據(jù)為針對INRIA數(shù)據(jù)庫的實驗結(jié)果,該數(shù)據(jù)庫中正樣本測試圖片為包含多個行人的復(fù)雜場景圖片,負樣本不含行人,測試中采用滑動窗口法等比例的截取圖片,截取高寬比例為2.7∶1,檢測窗口移動步長設(shè)為(8,8)。實驗結(jié)果顯示建立6層RBM網(wǎng)絡(luò)能夠有效的檢測行人并將虛警率降至最低,而過深的網(wǎng)絡(luò)層次反而降低檢測效率。

        2.3 復(fù)雜場景下行人檢測測試

        本測試采用傳統(tǒng)基于人工HOG特征結(jié)合SVM分類器在復(fù)雜場景下的行人提取實驗作為對照,驗證基于深度學(xué)習(xí)的行人特征提取的有效性及相比傳統(tǒng)方式的優(yōu)勢。基于HOG特征的SVM分類器采用INRIA的正負樣本進行訓(xùn)練,該測試在Windows下OpenCV環(huán)境中進行,硬件環(huán)境與本文提出方法一致,測試圖片均來源于互聯(lián)網(wǎng),訓(xùn)練完成后與本文所提出的方法進行對比測試,測試結(jié)果見表3,并選擇其中部分有代表性的圖,見圖4。

        圖4為眾多測試結(jié)果中選取的比較有代表性的圖,其檢測結(jié)果基本能夠代表基于HOG特征的行人檢測在復(fù)雜場景下的平均檢測效果,測試結(jié)果顯示在人群復(fù)雜遮擋嚴(yán)重情況下采用基于人工定義特征進行行人檢測將會大大降低行人提取的有效性,存在誤檢及大量漏檢情況,與簡單場景無行人遮擋情況下相比提取效果相去甚遠。

        圖5為采用本文提出的方法進行的對比實驗,圖中可以看出未出現(xiàn)誤檢情況,對于行人的定位也更加準(zhǔn)確,漏檢率基于HOG特征的方式低了很多,其檢測效果基本能夠反映如表3所示的測試結(jié)果。

        綜合測試結(jié)果顯示,傳統(tǒng)人工定義行人特征的方式在復(fù)雜場景下的檢測效果遠遠不如其對于單個行人的判斷能力,存在諸多誤檢及漏檢的情況,而本文提出的采用深度學(xué)習(xí)方式提取行人特征并結(jié)合SVM分類器進行行人的檢測則顯著改善復(fù)雜場景下漏檢及誤檢情況。

        3 結(jié)束語

        本文提出了采用深度學(xué)習(xí)框架搭建多層RBM網(wǎng)絡(luò)級聯(lián)SVM分類器來進行行人檢測的方法,從理論上分析了多層玻爾茲曼機的工作原理以及SVM分類器的非線性特征分類算法,對比了不同結(jié)構(gòu)的RBM網(wǎng)絡(luò)對實驗結(jié)果產(chǎn)生的影響確定了最終的網(wǎng)絡(luò)層數(shù),實驗結(jié)果證明該方法能夠有效的提取行人的深層次特征,降低基于傳統(tǒng)人工特征的行人檢測方法在復(fù)雜場景下的漏檢及誤檢概率。但該方法在實時性的表現(xiàn)上還有所欠缺,針對多個行人互相嚴(yán)重遮擋仍然存在較多誤檢或漏檢的情況,未來將重點研究提高行人檢測實時性以及采用其他深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)來進行特征的提取提高檢測性能。

        參考文獻:

        [1] 蘇松志, 李紹滋, 陳淑媛,等. 行人檢測技術(shù)綜述[J]. 電子學(xué)報, 2012, 40(4):814-820.

        SU Songzhi.LI Shaozi,CHEN Shuyuan,et al. A Survey on Pedestrian Detection[J].Acta Electronica Sinica,2012,40(4):814-820.

        [2] VIOLA P, JONES M J, SNOW D. Detecting Pedestrians Using Patterns of Motion and Appearance[J]. International Journal of Computer Vision, 2005, 63(2):734-741.

        [3] DALAL N, TRIGGS B. Histograms of Oriented Gradients for Human Detection[J]. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005, 1(12):886-893.

        [4] ZHU Q, YEH M C, CHENG K T, et al. Fast Human Detection Using a Cascade of Histograms of Oriented Gradients[C]// Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York:IEEE, 2006:1491-1498.

        [5] HINTON G E, SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786):504-507.

        [6] OUYANG W, WANG X. Joint Deep Learning for Pedestrian Detection[C]//Proceedings of IEEE International Conference on Computer Vision. New York: IEEE, 2013:2056-2063.

        [7] SERMANET P, KAVUKCUOGLU K S C,et al. Pedestrian Detection with Unsupervised Multi-stage Feature Learning[C]//Proceedings of IEEE Internatinal Conference on Computer Vision and Pattern Recognition. New York: IEEE,2013:3626-3633.

        [8] BACCOUCHE M, MAMALET F, WOLF C, et al. Sequential Deep Learning for Human Action Recognition[C]// Proceedings of ACM International Conference on Human Behavior Unterstanding.New York:Springer-Verlag, 2011:29-39.

        [9] MARTINSON E, YALLA G. Augmenting Deep Convolutional Neural Networks with Depth-based Layered Detection for Human Detection[C]// Proceedings of IEEE International Conference on Intelligent Robots and Systems. New York:IEEE,2016:1073-1078.

        [10] KIM Y, MOON T. Human Detection and Activity Classification Based on Micro-doppler Signatures Using Deep Convolutional Neural Networks[J]. IEEE Geoscience & Remote Sensing Letters, 2016, 13(1):8-12.

        [11] TAYLOR G W, HINTON G E. Factored Conditional Restricted Boltzmann Machines for Modeling Motion Style[C]// Proceedings of International Conference on Machine Learning( ICML2009). Montreal:DBLP, 2009:1025-1032.

        [12] PLATT J C. Fast Training of Support Vector Machines Using Sequential Minimal Optimization[M]. Massachusetts:MIT Press, 1999.

        猜你喜歡
        隱層權(quán)值行人
        一種融合時間權(quán)值和用戶行為序列的電影推薦模型
        毒舌出沒,行人避讓
        意林(2021年5期)2021-04-18 12:21:17
        CONTENTS
        基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測模型及應(yīng)用
        人民珠江(2019年4期)2019-04-20 02:32:00
        路不為尋找者而設(shè)
        揚子江(2019年1期)2019-03-08 02:52:34
        我是行人
        基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
        基于近似結(jié)構(gòu)風(fēng)險的ELM隱層節(jié)點數(shù)優(yōu)化
        計算機工程(2014年9期)2014-06-06 10:46:47
        最優(yōu)隱層BP神經(jīng)網(wǎng)絡(luò)的滾動軸承故障診斷
        BP神經(jīng)網(wǎng)絡(luò)隱層單元數(shù)確定方法
        美女被搞在线观看一区二区三区| 亚洲中文字幕无码永久在线 | 在线视频精品少白免费观看| 国产av激情舒服刺激| 69一区二三区好的精华| 欧美亚州乳在线观看| 国产人成在线成免费视频| 久久精品亚洲熟女av麻豆| 国产免费艾彩sm调教视频| 激情亚洲一区国产精品| 国产亚洲欧美另类第一页| 亚洲最大av在线精品国产| 欧美又粗又长又爽做受| 国产一区二区不卡老阿姨| 久久国产香蕉一区精品天美| 粉嫩人妻91精品视色在线看| 免费无码av一区二区| 激情内射亚洲一区二区三区爱妻| 最新国产精品精品视频| 国语对白免费观看123| 欧美黑人性暴力猛交喷水| 一本大道东京热无码中字| 亚洲av成人久久精品| 欧美成人精品第一区| 国产在线观看www污污污| 精品一区二区三区在线视频观看 | 日本乱码一区二区三区在线观看 | 最近中文字幕视频高清| 亚洲AV无码一区二区一二区色戒| 国产成人精品久久二区二区91| 国产婷婷色一区二区三区在线 | 国产一区二区中文字幕在线观看| 天天碰免费上传视频| 久久亚洲Av无码专区| 一区二区三区少妇熟女高潮 | 国产诱惑人的视频在线观看| 肉色欧美久久久久久久免费看| 国产精品久久国产精麻豆99网站| 亚洲一区二区三区偷拍自拍 | 伊人网综合在线视频| 久久无人码人妻一区二区三区|