邱 東,劉德雨
(長春工業(yè)大學(xué) 電子與電氣工程學(xué)院,吉林 長春 130000)
隨著機器視覺技術(shù)和人工智能的迅速發(fā)展,行人檢測逐步成為軍事、社會公共安全、交通和互聯(lián)網(wǎng)發(fā)展等社會領(lǐng)域里的熱門研究課題之一。但是行人檢測問題涉及到模式識別、圖像處理、計算機視覺和機器學(xué)習(xí)等多學(xué)科,同時受到行人穿著、光照、身體姿態(tài)、尺度、視角和復(fù)雜背景等因素的影響,至今也未能(也不可能)設(shè)計出一種通用的、實時的、魯棒的檢測算法。
2006年,Hinton教授在《Science》上提出了一種面向復(fù)雜通用學(xué)習(xí)任務(wù)的深度神經(jīng)網(wǎng)絡(luò),指出具有大量隱藏層的神經(jīng)網(wǎng)絡(luò)具有非常好的特征學(xué)習(xí)能力,而且網(wǎng)絡(luò)的訓(xùn)練可以采用“逐層初始化”和“反向微調(diào)”技術(shù)解決,從此開啟了對人工智能領(lǐng)域的研究熱潮,深度學(xué)習(xí)的概念開始被提出。深入學(xué)習(xí)領(lǐng)域的大多數(shù)研究人員專注于深度網(wǎng)絡(luò)設(shè)計和相應(yīng)的快速學(xué)習(xí)算法,一些研究工作試圖改進深度學(xué)習(xí)技術(shù)模型表示。孫勁光等[1]提出數(shù)值屬性的DBN,并在UCI的多個數(shù)據(jù)集上進行對比驗證,證明了其有效性。N. Wang等[2]在2014年提出了具有高斯線性單位的高斯限制玻爾茲曼機器(GRBM)來學(xué)習(xí)來自實值數(shù)據(jù)的表示,通過用高斯函數(shù)替換二進制值可見單元來改進RBM。許慶勇等[3]在2015年提出了一種基于多特征融合的深度置信網(wǎng)絡(luò)圖像分類算法,通過提取樣本圖像中的顏色、紋理和形狀特征,構(gòu)成多特征融合的權(quán)重矩陣,并對特征矩陣進行歸一化處理,利用構(gòu)建的4層DBN分類器進行訓(xùn)練和分類。
文中將傳統(tǒng)深度置信網(wǎng)絡(luò)同模糊集理論相結(jié)合,提出一種基于多特征的模糊深度置信網(wǎng)絡(luò)的行人檢測方法。該方法在傳統(tǒng)的深度學(xué)習(xí)模型深度置信網(wǎng)絡(luò)的基礎(chǔ)上引入模糊集的理論思想,一方面把深度學(xué)習(xí)的典型結(jié)構(gòu)之一深度置信網(wǎng)絡(luò)與模糊算法相結(jié)合,構(gòu)建用于圖像分類和識別的模型;另一方面,利用模糊受限玻爾茲曼機構(gòu)建深度網(wǎng)絡(luò),同時改進訓(xùn)練過程,用于圖像識別,以進一步提高行人檢測的正確率。
對稱三角模糊數(shù)如圖1所示。
圖1 對稱三角模糊數(shù)
(1)
受限玻爾茲曼機(RBM)[4]是由Hinton和Sejnowski于1986年提出的,由一個可見層和一個隱藏層構(gòu)成,可見層與隱藏層的神經(jīng)元之間為雙向全連接,是一種可通過輸入數(shù)據(jù)集學(xué)習(xí)概率分布的隨機生成神經(jīng)網(wǎng)絡(luò)。標(biāo)準(zhǔn)的受限玻爾茲曼機是由二值(布爾/伯努利)隱層和可見層單元組成,該模型是用參數(shù)θ表示跨層節(jié)點之間的權(quán)值和偏置的連接的。權(quán)重矩陣W=(wij)中的每一個元素指定了隱藏層單元hj和可見單元xi之間的權(quán)重度置信網(wǎng)絡(luò)。受限玻爾茲曼機是基于能量的概率模型,定義概率分布如下:
(2)
(3)
受限玻爾茲曼機的能量函數(shù)定義為:
E(x,h,θ)=-bTx-cTh-hTWx
(4)
其中,bj和ci為偏移量;Wij為連接第jth可視節(jié)點和第ith隱藏節(jié)點的權(quán)重;θ={b,c,W}為系統(tǒng)參數(shù)。
傳統(tǒng)受限玻爾茲曼機中代表可視節(jié)點和隱藏節(jié)點之間的參數(shù)被限制為常量,這會引發(fā)很多其他的問題。首先,它將限制表示能力,因為變量經(jīng)常以某種不確定的方式相互作用。其次,它訓(xùn)練帶有噪聲的采樣數(shù)據(jù)的魯棒性也不高。2015年,C. L. Philip Chen等[5]提出的模糊受限玻爾茲曼機[2]可以很好地解決這些問題,同時通過跨層單元關(guān)系的線性化來減少誤差和失真。
隨著一些快速學(xué)習(xí)算法和典型深度學(xué)習(xí)算法的提出,如深度自編碼器[6]、深度置信網(wǎng)絡(luò)[4]和深度受限玻爾茲曼機[7]等,受限玻爾茲曼機受到了越來越多的關(guān)注,之后受限玻爾茲曼機及其相關(guān)的深度學(xué)習(xí)結(jié)構(gòu)也在降維[8-10]、分類[11-14]、特征提取[15-16]等方面得到了廣泛的應(yīng)用。受限玻爾茲曼機通過非監(jiān)督學(xué)習(xí)方式,用一定的數(shù)據(jù)集來訓(xùn)練網(wǎng)絡(luò),設(shè)置可視神經(jīng)元的值匹配數(shù)據(jù)集中的數(shù)據(jù)點的值,當(dāng)網(wǎng)絡(luò)訓(xùn)練完成以后,就可以用來對未知數(shù)據(jù)進行計算,從而進行分類。
深度置信網(wǎng)絡(luò)是一個概率生成模型,和傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡(luò)相對,生成模型建立一個觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布。深度置信網(wǎng)絡(luò)是由多個受限玻爾茲曼機層組成,模糊能量函數(shù)定義為:
(5)
通過邊緣化隱藏單元和化簡式5得到模糊自由能量函數(shù):
(6)
(7)
同時,去模糊化的概率可以表示為:
(8)
因此,在模糊受限玻爾茲曼機模型中,目標(biāo)函數(shù)是負對數(shù)似然,表示為:
(9)
其中,D表示訓(xùn)練數(shù)據(jù)集。
深度置信網(wǎng)絡(luò)是一種結(jié)合無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)方法的機器學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)的優(yōu)點在于,學(xué)習(xí)使用的數(shù)據(jù)來源簡單,不需要進行大量的手工標(biāo)注,缺點在于難以得到準(zhǔn)確的結(jié)果。而有監(jiān)督學(xué)習(xí)的優(yōu)缺點正好與之相對,需要有手工標(biāo)注的數(shù)據(jù)進行監(jiān)督訓(xùn)練,能得到更加準(zhǔn)確的學(xué)習(xí)結(jié)果。針對傳統(tǒng)的深度置信網(wǎng)絡(luò)中求解最優(yōu)參數(shù)計算量大及魯棒性不高的缺點,提出一種基于模糊深度置信網(wǎng)絡(luò)的行人檢測方法。如圖2所示,包括以下兩個部分:
(1)借助模糊深度置信網(wǎng)絡(luò)提取行人特征,從圖像像素開始,建立圖像的深度學(xué)習(xí)網(wǎng)絡(luò),通過逐層學(xué)習(xí)得到圖像的表達;
(2)采用監(jiān)督學(xué)習(xí)提高FDBN分類的性能。FDBN不僅繼承了DBN的強大抽象能力,而且展示了處理行人數(shù)據(jù)的誘人的模糊分類。
圖2 深度置信網(wǎng)絡(luò)
FDBN通過引入模糊集理論,獲得嵌入類先驗知識與深度框架的能力。利用一個新的深度框架集成限制玻爾茲曼機(RBM)的抽象能力和模糊集的分類能力。RBM可以快速降維,模糊集可以基于每個類的成員函數(shù)提高深度框架的分類精度。FDBN通過逐層貪心的非監(jiān)督學(xué)習(xí)構(gòu)建,參數(shù)空間通過梯度下降監(jiān)督學(xué)習(xí)微調(diào)。特征提取和分類步驟使用相同的深度框架,在充足的非標(biāo)記數(shù)據(jù)的幫助下提高了概括能力,避免了顯式的特征提取過程,通過隱式地從訓(xùn)練數(shù)據(jù)中進行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí)。同時,局部的權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。FDBN可以通過反向傳播策略使用一個指數(shù)損失函數(shù)直接優(yōu)化構(gòu)建的深度框架。框架模型結(jié)構(gòu)具體如圖3所示。
圖3 模糊深度置信網(wǎng)絡(luò)模型
模糊深度置信網(wǎng)絡(luò)訓(xùn)練過程主要有兩個步驟:
(1)根據(jù)輸入的HOG特征自底向上地訓(xùn)練模糊受限玻爾茲曼機;
(2)根據(jù)步驟1的訓(xùn)練結(jié)果,采用BP算法對整個DBN結(jié)構(gòu)進行微調(diào),使其更有利于分類。
由于圖像特征的特性,采用二值型模糊受限玻爾茲曼機進行特征學(xué)習(xí)將會丟失特征的屬性,因此在整個模糊深度置信網(wǎng)絡(luò)中的第一層模糊受限玻爾茲曼機的可視層采用的是服從高斯分布的模糊受限玻爾茲曼機,其余仍為二值的。
為了優(yōu)化分類結(jié)果,進一步完善模糊深度置信網(wǎng)絡(luò)結(jié)構(gòu),需要將網(wǎng)絡(luò)的輸出結(jié)果與真實的結(jié)果進行對比,利用對比結(jié)果對模糊深度置信網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進行微調(diào),以實現(xiàn)進一步優(yōu)化分類器的目的。文中使用BP網(wǎng)絡(luò)對輸出值進行反向監(jiān)督,利用BP網(wǎng)絡(luò)良好的反向傳播能力,將分類結(jié)果誤差反向傳入模糊深度置信網(wǎng)絡(luò),實現(xiàn)整個網(wǎng)絡(luò)模型的微調(diào)。
文中算法在Win10系統(tǒng),4 GB內(nèi)存,Nvidia GTX960顯卡的計算機上進行實驗,實驗數(shù)據(jù)來源于INRIA行人數(shù)據(jù)庫(大小為64×128),其中訓(xùn)練集包含2 000張正樣本單個行人圖片和2 000張負樣本圖片,測試集為300張多行人圖片。實驗對文中提出的模糊深度置信網(wǎng)絡(luò)行人檢測方法的性能進行評估和分析,在同一檢測環(huán)境下與其他幾種經(jīng)典的行人檢測方法的性能進行比較。為了評估各方法的分類以及檢測性能,采用最能直觀反映檢測性能的檢測率、虛警率和檢測速度等指標(biāo)來衡量和分析整個系統(tǒng)的檢測性能。性能指標(biāo)的計算方法如下:
(10)
(11)
其中,TP表示正確分類的正樣本數(shù);FP為被錯分類的正樣本數(shù);FN表示被誤分類為正樣本的負樣本數(shù)。
首先對模糊深度置信網(wǎng)絡(luò)自身結(jié)構(gòu)的搭建對檢測結(jié)果的影響進行檢測和分析,分別搭建3、4、5、6層模糊置信網(wǎng)絡(luò)結(jié)構(gòu),隱藏層的神經(jīng)節(jié)點數(shù)分別設(shè)為80,100,120,150,120,100,80,迭代次數(shù)設(shè)為1 500。結(jié)果如表1所示。
表1 不同結(jié)構(gòu)的模糊深度置信網(wǎng)絡(luò)的檢測性能對比
從表1中的數(shù)據(jù)可以看出,不同結(jié)構(gòu)的模糊深度置信網(wǎng)絡(luò)的檢測性能并不相同,4層深度網(wǎng)絡(luò)的檢測率最高,并且虛警率也沒有任何結(jié)構(gòu)比它低,并不是隱層的層數(shù)越多識別性能就越好;相反,隨著整體結(jié)構(gòu)越來越復(fù)雜,可能會出現(xiàn)過擬合的現(xiàn)象,從而導(dǎo)致識別性能的降低。綜合考慮隱層數(shù)和隱層單元的識別性能,文中采用的是4層模糊深度置信網(wǎng)絡(luò),其中3層隱含層的神經(jīng)節(jié)點數(shù)為80、100、150的模糊深度置信網(wǎng)絡(luò),設(shè)定迭代次數(shù)為1 500。
將提出的模糊深度置信網(wǎng)絡(luò)和文獻[14-16]提出的性能較優(yōu)的分類算法在相同的檢測平臺上進行對比,具體檢測結(jié)果如表2所示。
表2 不同的深度學(xué)習(xí)網(wǎng)絡(luò)的測試結(jié)果對比
從表2的數(shù)據(jù)可以看出,在相同的條件下,文中提出的模糊深度置信網(wǎng)絡(luò)分類檢測的檢測率和虛警率都優(yōu)于其他方法,雖然檢測速度比CS-SVM-AdaBoost要慢一些,但是基本可以實現(xiàn)實時檢測,滿足實時性的要求。
針對復(fù)雜背景下行人檢測性能不穩(wěn)定的問題,引入深度學(xué)習(xí)的方法進行特征提取實現(xiàn)對行人的識別和檢測,并在此基礎(chǔ)上將傳統(tǒng)的深度置信網(wǎng)絡(luò)同模糊集思想相結(jié)合,提出一種模糊深度置信網(wǎng)絡(luò)的行人檢測方法。使用模糊深度置信網(wǎng)絡(luò)可以提取更加有效的特征,進一步提高算法的檢測精度。實驗結(jié)果表明,該算法在檢測率、漏檢率、實時性等方面都比傳統(tǒng)的深度置信網(wǎng)絡(luò)有所提升,可以較快地從大多數(shù)的復(fù)雜背景下檢測和識別出行人目標(biāo)。因為圖像的質(zhì)量直接影響最終的檢測效果,使用提出的方法在分辨率較低的圖像中難以將行人從復(fù)雜的背景中區(qū)分出來,這也是接下來需要重點解決的問題。