岳 頎,馬彩文
(1.中國科學(xué)院 西安光學(xué)精密機械研究所, 西安 710119; 2.中國科學(xué)院大學(xué), 北京 100039; 3.西安郵電大學(xué), 西安 710121)
指數(shù)彈性動量卷積神經(jīng)網(wǎng)絡(luò)及其在行人檢測中的應(yīng)用
岳 頎1,2,3,馬彩文1
(1.中國科學(xué)院 西安光學(xué)精密機械研究所, 西安 710119; 2.中國科學(xué)院大學(xué), 北京 100039; 3.西安郵電大學(xué), 西安 710121)
針對深度卷積神經(jīng)網(wǎng)絡(luò)存在規(guī)則化參數(shù)多、未利用淺層先驗知識、參數(shù)隨機初始化后易導(dǎo)致權(quán)值更新梯度彌散及訓(xùn)練早熟等問題,采用PCA非監(jiān)督學(xué)習(xí)方式獲取導(dǎo)向性初始化參數(shù)數(shù)值方法,并基于對網(wǎng)絡(luò)誤差的傳播分析,提出指數(shù)自適應(yīng)彈性動量參數(shù)學(xué)習(xí)方法. 以復(fù)雜場景下行人目標(biāo)為例進行目標(biāo)檢測試驗,實驗表明: 與人工特征檢測識別方案及傳統(tǒng)深度卷積模型相比,該模型可有效提升目標(biāo)檢測精度,檢測速度提升20%以上;與其他動量同源更新機制相比,該算法收斂速度更快,收斂曲線更平滑,泛化能力強,可在不同深度模型均可取得較好檢測效果,準(zhǔn)確率分別平均提高1.6%,1.8%和6.19%.
深度神經(jīng)網(wǎng)絡(luò);彈性動量;目標(biāo)檢測;模型優(yōu)化
隨著科技的不斷進步,目標(biāo)智能檢測算法作為視頻監(jiān)控、交通管理、醫(yī)藥檢驗以及工農(nóng)業(yè)產(chǎn)品監(jiān)管等高層應(yīng)用系統(tǒng)的技術(shù)基礎(chǔ),應(yīng)用范圍日益廣泛,其相關(guān)算法研究受到了國內(nèi)外學(xué)者的廣泛關(guān)注. 目前,圖像檢測算法通?;谌斯ぴO(shè)計特征進行模式識別. 該類特征提取方法場景適應(yīng)能力弱,且需以深厚的理論知識和特征設(shè)計經(jīng)驗為基礎(chǔ)進行設(shè)計,實現(xiàn)起來費時費力[1]. 深度學(xué)習(xí)算法具有自主學(xué)習(xí)抽象特征和概念的能力,可以根據(jù)數(shù)據(jù)信息提取底層特征和多層次、抽象化的高級特征[2-3],因而成為當(dāng)前模式識別領(lǐng)域研究熱點. 深度卷積神經(jīng)網(wǎng)絡(luò)提取特征具有旋轉(zhuǎn)、縮放和平移不變性,較深度信念網(wǎng)絡(luò)架構(gòu)和深度自編碼器等深度模型來說,更適宜進行圖像檢測和識別.
近年來,國內(nèi)外學(xué)者開展了大量基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)識別算法研究,并已取得很多研究成果. 歐陽萬里等[4]提出UDN算法,該算法基于深度模型框架,聯(lián)合處理目標(biāo)特征提取、形變遮擋和分類問題;Ross 等[5]提出基于興趣區(qū)域的CNN特征提取算法,該算法通過視覺顯著性提取興趣區(qū)域,提升CNN提取特征的辨識能力;羅萍等[6]提出分類特征提取算法,該算法在傳統(tǒng)的CNN結(jié)構(gòu)中引入可切換的RBM層,并將目標(biāo)分為整體和部件兩類進行分布特征提?。粡垖幍萚7]提出部件-CNN深度模型,該模型將部件算法和CNN特征提取算法進行融合,并采用分塊圖片訓(xùn)練方法提升CNN特征提取泛化能力;張陽等[8]提出融合深度模型,該模型將受限波茲曼機和BP神經(jīng)網(wǎng)絡(luò)結(jié)合起來組建深度學(xué)習(xí)網(wǎng)絡(luò);曾敏等[9]提出變結(jié)構(gòu)深度模型,該模型將遮擋層和變形層引入深度架構(gòu),降低遮擋行人誤檢率. 上述研究成果多以深度模型結(jié)構(gòu)為關(guān)注要點,忽視了輸入數(shù)據(jù)對網(wǎng)絡(luò)結(jié)果的影響及網(wǎng)絡(luò)訓(xùn)練算法對模型特征提取時間及提取特征辨識力的影響,且忽略了深度模型梯度彌散及早熟問題的研究.
就以上問題,本文構(gòu)建基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測框架,并在深入分析深度卷積神經(jīng)網(wǎng)絡(luò)誤差傳播過程的基礎(chǔ)上,提出指數(shù)自適應(yīng)彈性動量參數(shù)學(xué)習(xí)方法. 仿真實驗結(jié)果表明:與人工特征檢測方法相比,本文方法可有效提升目標(biāo)檢測精度;與其他動量同源更新機制相比,本文方法收斂速度快、振蕩小,且能顯著改善檢測準(zhǔn)確率.
深度卷積神經(jīng)網(wǎng)絡(luò)由單層卷積神經(jīng)網(wǎng)絡(luò)堆疊產(chǎn)生. 卷積核尺寸選取、閾值參數(shù)設(shè)置、網(wǎng)絡(luò)深度設(shè)計和輸出層特征維數(shù)選取是深度卷積神經(jīng)網(wǎng)絡(luò)特征提取算法的4個重要問題. 卷積核表述“視覺感受野”大小,卷積核過大,則提取特征超出卷積核可表達的特征范圍;卷積核過小,則無法提取有效局部特征. 閾值參數(shù)用于控制網(wǎng)絡(luò)模型對特征子模式的反應(yīng)程度. 網(wǎng)絡(luò)深度表述模型對復(fù)雜問題的非線性表達能力. 網(wǎng)絡(luò)層數(shù)越多,特征表達能力越強,但網(wǎng)絡(luò)層數(shù)過多易導(dǎo)致過擬合及實時性差等問題. 輸出層特征維數(shù)決定了網(wǎng)絡(luò)收斂的速度,當(dāng)樣本集有限時,輸出層維度過低則無法保證特征的有效性,輸出層維度過高會產(chǎn)生特征冗余.
除此之外,由于深度網(wǎng)絡(luò)架構(gòu)是根據(jù)輸入圖像自主進行特征提取的,因此深度模型的輸入數(shù)據(jù)對最終特征提取的影響也是至關(guān)重要的[10]. 傳統(tǒng)深度卷積神經(jīng)網(wǎng)絡(luò)模型直接將原始圖像作為輸入數(shù)據(jù). 這樣的方式雖然可使深度模型獲得全面的數(shù)據(jù)信息,但是會大幅降低網(wǎng)絡(luò)收斂速度,并在一定程度上影響深度模型特征提取能力. 因此,對輸入圖像進行預(yù)處理,用以提高特定模式分類問題收斂速度及分類精度是有必要的.
基于以上分析,本文針對行人檢測識別問題,設(shè)計深度卷積神經(jīng)網(wǎng)絡(luò)模型,具體模型架構(gòu)如圖1所示.
圖1 深度卷積神經(jīng)網(wǎng)絡(luò)模型
基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測深度模型共分為七層. 輸入圖像在進行歸一化、光照增強預(yù)處理后,計算其顏色特征及顯著Centrist特征. 以原始數(shù)據(jù)、顏色特征及顯著Centrist特征三幅圖像作為輸入圖像. 網(wǎng)絡(luò)中,第一層C1、第三層C3和第五層C5為卷積層,實現(xiàn)從低級到高級的特征提?。坏诙覵2、第四層S4和第六層S6是下采樣層,用于特征降維;第七層F7為輸出層,通過全連接方式提取最終抽象特征. 該模型利用線性SVM對特征進行模式分類. 為了提取具有更佳區(qū)分性能的特征,卷積層濾波器大小分別設(shè)為9×9、5×5和3×3,下采樣層均采用形變最大下采樣方法進行采樣,激發(fā)函數(shù)采用LRel函數(shù),輸出層為全連接層.
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)通常采用隨機初始化、非監(jiān)督訓(xùn)練初始化等方法初始化模型參數(shù). 隨機初始化方法易導(dǎo)致模型收斂時間增加、權(quán)值更新梯度消失、非最小值收斂等問題. 非監(jiān)督訓(xùn)練初始化方法多采用非監(jiān)督深度網(wǎng)絡(luò)預(yù)訓(xùn)練方式獲取,該方法復(fù)雜度高、訓(xùn)練時間長. 為克服以上問題,本文提出采用主成分分析法(PCA)初始化深度模型參數(shù)方法. PCA算法與受限自編碼神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方式具有高度的相似性[11-12],因此可通過對原始數(shù)據(jù)進行主成分分析獲得的特征向量來近似代替受限自編碼器訓(xùn)練結(jié)果,用其作為深度卷積神經(jīng)網(wǎng)絡(luò)的初始化參數(shù). 并且,為了避免主成分分析算法降低深度模型泛化能力,初始化時的輸入數(shù)據(jù)集均為經(jīng)過圖像特征檢索擴充法和數(shù)據(jù)增強算法處理后的樣本集.
本文方法屬于非監(jiān)督算法,可簡單快速地獲取較好的初始化參數(shù),具體算法流程如下.
Step 2 獲取濾波器取片樣本集矩陣.
1)在Ii中按k1×k2無重疊分塊,獲得(m-k1+1)(n-k2+1)個取片圖像.
2)柵格化取片圖像為向量形式{xi},xi∈Rk1k2×1.
3)獲得取片樣本集矩陣,并去平均后,得
Step 3 求解矩陣X的主成分特征向量.
3.1 網(wǎng)絡(luò)誤差傳遞
誤差傳遞通過前向傳播和反向梯度下降兩步生成和調(diào)整權(quán)值. 梯度下降法更新權(quán)值方法如式(1)所示,偏置更新方法如式(2)所示[13]:
(1)
(2)
由式(1)、(2)可知,要想實現(xiàn)權(quán)值和偏置尋優(yōu),首先必須獲得誤差對權(quán)值的梯度及誤差對偏置的梯度.
1)卷積層誤差傳播. 對卷積層來說,其輸出如式(3)所示為
(3)
根據(jù)敏感度函數(shù)求導(dǎo)公式可知,卷積層敏感度可由式(4)表示為
).
(4)
由式(4)可推導(dǎo)獲得卷積層誤差對偏置的梯度如式(5)所示為
(5)
式中(u,v)為靈敏度矩陣的元素位置.
卷積層誤差對權(quán)值的梯度,如式(6)所示為
(6)
2)采樣層誤差傳播. 采樣層神經(jīng)網(wǎng)絡(luò)的輸出可由式(7)表示為
(7)
根據(jù)梯度下降敏感度公式,可知采樣層敏感度如式(8)所示為
).
(8)
由此可得采樣層偏置更新公式,如式(9)所示為
(9)
將式(9)帶入式(2)即可獲得偏置值更新數(shù)值.
3.2 指數(shù)自適應(yīng)彈性動量優(yōu)化
上述權(quán)值更新方法只是單一的層間傳遞梯度誤差,沒有考慮到上一時刻的梯度變化方向,即以前神經(jīng)網(wǎng)絡(luò)權(quán)值修正的經(jīng)驗. 因此,在訓(xùn)練過程中常會出現(xiàn)過調(diào)和振蕩現(xiàn)象,導(dǎo)致網(wǎng)絡(luò)收斂緩慢. 文獻[14]提出采用動量方法可以加快收斂,文獻[15]提出自適應(yīng)動量梯度下降(traingdx). 但上述方法均未考慮上一時刻的梯度變化方向、動量方向以及當(dāng)前誤差對權(quán)值梯度方向的一致性. 且動量因子沒有促進收斂,提升學(xué)習(xí)性能能力.
本文采用誤差對權(quán)值梯度的指數(shù)函數(shù)調(diào)整動量因子步伐,使其在誤差平坦區(qū)時,動量因子增大,加快網(wǎng)絡(luò)收斂速度;誤差陡峭區(qū)時,減小動量因子,避免網(wǎng)絡(luò)收斂過快,錯過極小點出現(xiàn)的不穩(wěn)定. 并且,基于符號函數(shù)判別方法,促使動量因子在前后兩次梯度方向相同時比例增大,在前后兩次梯度方向相反時比例減小. 動量因子更新公式如式(10)、式(11)所示為
(10)
Ak=-λ1‖Dk‖-λ2.
(11)
由式(10)可以看出,‖Dk‖增大,則a減??;‖Dk‖減小,則a增大. 即誤差曲面陡峭,動量因子減??;誤差曲面平坦,動量因子增大.
為了提升行人檢測的實時性及準(zhǔn)確度,受R-CNN目標(biāo)檢測算法思想的啟發(fā),根據(jù)模式識別分類框架設(shè)計粗細(xì)二級行人檢測框架,如圖2所示. 為提升深度卷積神經(jīng)網(wǎng)絡(luò)提取特征分類能力,采用圖像特征檢索擴充法和數(shù)據(jù)增強算法對樣本集進行擴充. 為了快速檢測行人目標(biāo)區(qū)域,采用二值梯度規(guī)范法和選擇搜索法級聯(lián)選取行人預(yù)選區(qū)域,并根據(jù)行人寬高比和頭部梯度范圍進一步縮小特征提取窗口數(shù)量. 對需提取特征的窗口進行大小、亮度均衡預(yù)處理,輸入深度模型提取特征. 最后,通過線性SVM分類器進行分類,獲得行人最終檢測結(jié)果.
圖2 基于CNN的行人檢測算法架構(gòu)
5.1 樣本集選取
行人檢測主流數(shù)據(jù)集有Caltech數(shù)據(jù)庫、INRIA 數(shù)據(jù)庫等. Caltech數(shù)據(jù)庫分辨率多樣,具有多種遠近行人樣本;INRIA數(shù)據(jù)庫背景復(fù)雜,具有光照變換和遮擋等情況. 為使網(wǎng)絡(luò)具有更強的適應(yīng)能力,以Caltech數(shù)據(jù)集、INRIA 數(shù)據(jù)集和現(xiàn)實場景數(shù)據(jù)集為基礎(chǔ),根據(jù)圖像特征相似度檢索擴充法以及數(shù)據(jù)增強法對訓(xùn)練集進行擴充,最終選擇正樣本12 316個,負(fù)樣本162 000個作為樣本集. 將樣本隨機分為6組,正負(fù)樣本均衡化后,前五組作為訓(xùn)練集,后一組作為測試集.
5.2 網(wǎng)絡(luò)閾值選取
準(zhǔn)確率、召回率和F值是行人檢測算法的主流評價指標(biāo). 由于準(zhǔn)確率與查全率之間有互逆性與相關(guān)性,因此,查全率低則準(zhǔn)確率高,反之會低. 為了使兩者達到平衡,閾值選取至關(guān)重要. 以行人作為研究對象,使用歐式距離作為度量方法,來觀測各區(qū)間的曲線變化,通過實驗確定閾值取值范圍. 圖3為取不同閾值時,行人檢測算法F值、查重率以及準(zhǔn)確率之間的變化趨勢圖. 由圖3可以看出,在閾值<0.3時,查全率相對較低,準(zhǔn)確率相對較好,但與之相對應(yīng)的F值卻相對較低,而當(dāng)閾值>0.5時,查重率相對較高,而準(zhǔn)確率卻有所下降,所以在閾值為[0.3,0.5]之間,得到的F值較優(yōu).
圖3 行人查重率、準(zhǔn)確率與閾值之間的關(guān)系
Fig.3 Relationship between the rate of recall rate, the accuracy rate and the threshold value
5.3 網(wǎng)絡(luò)訓(xùn)練與測試
為檢測文中設(shè)計深度模型的有效性,將本文算法與經(jīng)典行人檢測算法HOG+SVM、HOF+CCS以及傳統(tǒng)CNN檢測方法進行比較,獲得如圖4和表1所示實驗結(jié)果. 由圖4和表1結(jié)果可知,本文算法相對人工設(shè)計特征算法和傳統(tǒng)深度卷積模型算法來說,漏檢率、誤檢率更低,檢測準(zhǔn)確率更高. 與傳統(tǒng)深度卷積模型相比,算法檢測速度提升20%以上.
圖4 檢測算法結(jié)果比較
表1 檢測速率對比表
Tab.1 Comparison of detection speed
方法平均時間/msHOG+CSS+SVM59.32HOG+SVM42.49傳統(tǒng)CNN32.15OURS25.84
5.4 真實場景行人檢測
對手機拍攝校園內(nèi)圖書館和教學(xué)樓前行人自然真實場景進行檢測,效果如圖5所示. 由圖5可見,本文算法可在行人尺寸適中,光照具有一定差異,存在垂直梯度干擾的情況下取得較好的檢測效果. 能檢測出遮擋小于40%的行人,標(biāo)示窗口與行人尺寸基本相符.
圖5 實際場景行人檢測結(jié)果
5.5 動量算法比較
為評估本文所提指數(shù)彈性動量網(wǎng)絡(luò)訓(xùn)練算法的有效性,將本文算法與標(biāo)準(zhǔn)動量(taingdm)、自適應(yīng)動量(traingdx)及彈性動量機制(traingdfm)算法比較,以收斂速度、收斂震蕩性能、檢測準(zhǔn)確率作為評價指標(biāo),在上文所述數(shù)據(jù)集上獲得結(jié)果如圖6和表2所示.
圖6 動量算法收斂均方誤差曲線對比
Fig.6 Convergence mean square error curve of momentum algorithm
表2 算法準(zhǔn)確率對比表
圖6為收斂均分誤差曲線對比圖,圖中橫坐標(biāo)為訓(xùn)練輪數(shù),縱坐標(biāo)為均方誤差. 由圖6可見,本文算法與標(biāo)準(zhǔn)動量( taingdm)、自適應(yīng)動量(traingdx)算法及彈性動量機制(traingdfm)相比收斂速度更快,收斂曲線更平滑. 表2為算法準(zhǔn)確率對比表. 由表2可知,指數(shù)彈性動量算法在不同深度模型均可取得較好檢測效果,準(zhǔn)確率均有不同程度提高. 提高幅度平均值分別為1.6%,1.8%和6.19%.
本文基于深度卷積網(wǎng)絡(luò)構(gòu)建目標(biāo)檢測識別框架,在分析深度架構(gòu)誤差傳播基礎(chǔ)上,提出指數(shù)自適應(yīng)彈性動量的參數(shù)學(xué)習(xí)方法. 仿真實驗表明,本文方與同人工特征檢測算法相比,檢測精度高,漏檢率低,與同源誤差優(yōu)化算法相比,收斂速度更快,收斂曲線更平滑.
[1] 劉操,鄭宏,黎曦,余典. 基于多通道融合HOG特征的全天候運動車輛檢測方法[J]. 武漢大學(xué)學(xué)報(信息科學(xué)版),2015,40(8):1048-1053.
LIU Cao, ZHENG Hong, LI Xi, et al. A method of moving vehicle detection in all-weather based on melted multi-channel HOG feature[J]. Journal of Wuhan University (Information Science Edition), 2015,40(8):1048-1053.
[2] KULKARNI P, ZEPEDA J, JURIE F, et al. Hybrid multi-layer deep CNN/aggregator feature for image classification[C]// IEEE International Conference on Acoustics, Speech and Signal Processing.Brisbane: IEEE, 2015.
[3] SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks the Official Journal of the International Neural Network Society, 2015, 61:85-117.
[4] OUYANG Wanli, WANG Xiao. Joint deep learning for pedestrian detection[C]// IEEE International Conference on Computer Vision.Sydney: IEEE Computer Society, 2013:2056-2063.
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision & Pattern Recognition. Columbus: IEEE, 2014:580-587.
[6] LUO P, TIAN Y, WANG X, et al. Switchable deep network for pedestrian detection[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Columbus: IEEE Computer Society, 2014:899-906.
[7] ZHANG N, PALURI M, RANZATO M, et al. PANDA: Pose aligned networks for deep attribute modeling [C]//IEEE Conference on Computer Vision & Pattern Recognition. Columbus: IEEE, 2014:1637-1644.
[8] 張陽. 結(jié)合紋理特征和深度學(xué)習(xí)的行人檢測算法[J]. 遼寧工程技術(shù)大學(xué)學(xué)報(自然科學(xué)版),2016(2):206-210.
ZHANG Yang. Pedestrian detection method of texture feature and deep learning[J]. Journal of Liaoning Technical University (Natural Science), 2016(2):206-210.
[9] 曾敏, 周益龍. 基于深度學(xué)習(xí)模型的行人檢測研究與仿真[J]. 南京郵電大學(xué)學(xué)報(自然科學(xué)版),2015,35(6):111-116.
ZEN Min, ZHOU Yilong. Simulation of pedestrian detection based on deep learning model [J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science),2015, 35(6):111-116.
[10]DONG C, CHEN C L, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(2):295-307.
[11]BALDI P, HORNIK K. Neural networks and principal component analysis: learning from examples without local minima [J]. Neural Networks, 1989, 2(1):53-58.
[12]CHAN Tsunghan, JIA Kui, GAO Shenghua, et al. PCANet: a simple deep learning baseline for image classification[OL]. http://arxiv.org/abs/1404.3606, 2014.
[13]BHM Sadeghi. A BP-neural network predictor model for plastic injection molding[J]. Journal of Materials Processing Technology, 2000, 103(3):411-416.
[14] MITCHELL T M,曾華軍,張銀奎.機器學(xué)習(xí)[M]. 北京: 機械工業(yè)出版社,2003.
MITCHELL T M, ZENG Huajun, ZHANG Yinkui. Machine learning [M]. Beijing: Machinery Industry Press, 2003.
[15]AGRAWAL S S, YADAVA V. Modeling and prediction of material removal rate and surface roughness in surface-electrical discharge diamond grinding process[J]. Materials and Manufacturing Processes, 2013, 28( 4) : 381-389.
(編輯 王小唯 苗秀芝)
A deep convolution neural network for object detection based
YUE Qi1,2,3, MA Caiwen1
(1. Xi’an Institute of Optics and Precision Mechanics, Chinese Academy of Sciences, Xi’an 710119, China; 2. University of Chinese Academy of Sciences, Beijing 100039, China; 3.Xi’an University of Posts and Telecomunications, Xi’an 710121, China)
Deep convolutional neural network(CNN) has too many parameters to initialize, and the usual random initialization method is easy to disappear of modified gradient and the problem of premature. The unsupervised PCA learning method is used to obtain oriented initialization parameters. And the gradient descendent method with exponential flexible momentum for updating free parameters of the network is proposed on the basis of analyzing the error propagation of the network. Image detection experiments are respectively carried out on pedestrian detection, and the results show that, compared with other artificial feature detection algorithms, this method can effectively improve target detection accuracy and the detection speed of this method is 20% faster than that of classical CNN; compared with homologous updating mechanism of other momentum, our method has faster convergence and smaller oscillation, and can improve the detection accuracy by 1.6%, 1.8% and 6.19% respectively in different depth models.
deep neural network; elastic momentum; target detection; model optimization
10.11918/j.issn.0367-6234.201603145
2016-03-24
國家高技術(shù)研究發(fā)展計劃(2010AA7080302)
岳 頎(1981—),女,博士研究生; 馬彩文(1965—),男,教授,博士生導(dǎo)師
岳 頎,yueqi6@163.com
TP391.41
A
0367-6234(2017)05-0159-06