張丹丹,李 雷
(南京郵電大學(xué) 非機(jī)構(gòu)化數(shù)據(jù)計(jì)算理論與應(yīng)用研究中心,江蘇 南京 210046)
基于PCANet-RF的人臉檢測系統(tǒng)
張丹丹,李 雷
(南京郵電大學(xué) 非機(jī)構(gòu)化數(shù)據(jù)計(jì)算理論與應(yīng)用研究中心,江蘇 南京 210046)
文中提出一種基于簡化卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法的人臉檢測算法。圖像的特征提取較為復(fù)雜,需要大量的預(yù)處理。深度學(xué)習(xí)減少了特征提取的工作量,卷積神經(jīng)網(wǎng)絡(luò)就是這方面應(yīng)用的典型例子。但是,卷積神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練時(shí)間過長,調(diào)參主要依靠實(shí)驗(yàn)人員的調(diào)參技巧,這大大降低了卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用的初衷。此外,卷積神經(jīng)網(wǎng)絡(luò)的分類能力較弱,分類效果并不好。綜合以上兩點(diǎn),文中應(yīng)用一種簡化的深度學(xué)習(xí)方法PCANet(主成分分析網(wǎng)絡(luò))提取圖像特征,降低對調(diào)參的要求,同時(shí)用RF(隨機(jī)森林)對其進(jìn)行后期分類,提高人臉識別分類效果。實(shí)驗(yàn)結(jié)果表明,提出的方法對人臉識別率可以達(dá)到99%,進(jìn)一步證明了PCANet在特征提取方面的優(yōu)越性。
人臉檢測;卷積神經(jīng)網(wǎng)絡(luò);隨機(jī)森林;特征提?。恢鞒煞址治鼍W(wǎng)絡(luò)
以人體視覺為基礎(chǔ)的圖像分類一直是科研的重點(diǎn)。因?yàn)殡S著光線的變化、非視角的變化、誤差等都會(huì)對分類結(jié)果產(chǎn)生巨大的影響。人臉檢測一直是圖像分類中的研究熱點(diǎn)。人臉檢測是指在輸入圖像中分辨圖像中的內(nèi)容是否為人臉。它在圖像檢索、視覺監(jiān)視和新一代人機(jī)界面等領(lǐng)域都有著巨大的應(yīng)用價(jià)值,一直是模式識別和人工智能等領(lǐng)域的重要研究課題。
常用的人臉檢測方法分為三類:
(1)基于幾何特征的方法。即結(jié)構(gòu)匹配算法,利用人類面部器官在幾何上體現(xiàn)的特征在圖像中定位人臉。但由于此方法對強(qiáng)烈變化的表情和姿態(tài)具有較差的魯棒性,因此該方法在實(shí)際中并不單一應(yīng)用;
(2)基于彈性圖匹配的方法。此方法使用動(dòng)態(tài)鏈接結(jié)構(gòu)的彈性匹配定位人臉,然后與已有的人臉庫進(jìn)行匹配。此方法識別率較高,但是計(jì)算量大且識別速度慢;
(3)基于統(tǒng)計(jì)理論的人臉檢測方法。此方法的基本思想是對大量的人臉與非人臉進(jìn)行統(tǒng)計(jì)并建立庫,用庫對分類器進(jìn)行訓(xùn)練進(jìn)行識別。此方法在人臉檢測領(lǐng)域有著不可替代的地位。
卷積神經(jīng)網(wǎng)絡(luò)因其可以減少圖片預(yù)處理工作而引起了廣泛關(guān)注。LeCun等[1-2]證明了卷積神經(jīng)網(wǎng)絡(luò)在手寫體識別上實(shí)現(xiàn)特定任務(wù)的能力。卷積神經(jīng)網(wǎng)絡(luò)對于目標(biāo)背景、姿勢等變化表現(xiàn)出了良好的不變性[3-4]。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)的上述優(yōu)點(diǎn),關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的模型也在更大的范圍得到了進(jìn)一步發(fā)展[5-6]。Brian[7]將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于Avater CAP-TCHA數(shù)據(jù)中,并取得了99%的正確率。F.F.C Tivive等[8]提出了一種基于分流抑制的卷積神經(jīng)網(wǎng)絡(luò)并應(yīng)用于人臉檢測。Jawad等[9]將卷積網(wǎng)絡(luò)作為預(yù)處理的過程與支持向量機(jī)相結(jié)合,提出了一種卷積神經(jīng)網(wǎng)絡(luò)-支持向量機(jī)模型并成功應(yīng)用于機(jī)器人系統(tǒng)。
卷積神經(jīng)網(wǎng)絡(luò)可以較好地解決預(yù)處理復(fù)雜的問題,針對其調(diào)參時(shí)間長、要求高的問題,文中應(yīng)用一種簡化的卷積神經(jīng)網(wǎng),PCA卷積神經(jīng)網(wǎng)絡(luò)。隨機(jī)森林算法被證明對分類有良好的效果。Mosta.K等[10]用兩種方法證明了隨機(jī)森林對人臉識別分類有效。因此文中采用隨機(jī)森林對卷積神經(jīng)網(wǎng)絡(luò)提取的特征進(jìn)行分類。
1.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)作為一種高效的識別算法,近些年引起了廣泛的關(guān)注。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型主要由兩部分組成:卷積層、下采樣層。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的重要特性的表現(xiàn),充分利用卷積的特點(diǎn),增強(qiáng)特征信號,是提取圖像特征保持其不變性的具體體現(xiàn)。卷積層后是一個(gè)下采樣層,用來減少計(jì)算時(shí)間以及保持空間和結(jié)構(gòu)上的不變性。
1.1.1 卷積層
卷積層,是指用一個(gè)可學(xué)習(xí)的卷積核與上一層輸出的特征圖進(jìn)行卷積運(yùn)算,并通過激活函數(shù)輸出。卷積運(yùn)算的一個(gè)優(yōu)點(diǎn)是可以增強(qiáng)原信號的特征,同時(shí)降低噪音。卷積層的形式如式(1):
(1)
其中,l代表層數(shù);k是卷積核;Mj代表輸入特征圖的一個(gè)選擇。每個(gè)輸出圖有一個(gè)偏置b。
1.1.2 下采樣層
下采樣層是利用圖像的局部相關(guān)性原理,對對象進(jìn)行采樣,在減少數(shù)據(jù)處理量的同時(shí)保留有用的信息。假設(shè)有N個(gè)特征圖,特征圖中的每個(gè)2×2鄰域相加再乘以一個(gè)可訓(xùn)練的參數(shù),最后加上一個(gè)偏執(zhí)參數(shù),通過輸出函數(shù)計(jì)算就得到此下采樣層的一個(gè)輸出單元。
(2)
其中,down(·)表示次抽樣函數(shù)。次抽樣函數(shù)一般是對該層輸入圖像的一個(gè)n×n大小的區(qū)域求和,因此,輸出圖像的大小是輸入圖像大小的1/n。每一個(gè)輸出的特征圖有自己的β和b。
1.2 PCANet
主成分分析網(wǎng)絡(luò)(PCANet)是由Tsung_Han Chan等[11]提出的一種簡化的卷積神經(jīng)網(wǎng)絡(luò)體征提取方法。該網(wǎng)絡(luò)的計(jì)算過程包括三個(gè)階段:第一、二階段為主成分分析階段,第三階段是哈希和直方圖處理階段。
1.2.1 主成分分析(第一階段)
首先,將圖像按像素分塊:
xi,1,xi,2,…,xi,mn∈Rk1k2
其中,xi.j表示第Ii張圖像的第j個(gè)分塊矩陣。
將每個(gè)分塊矩陣按列優(yōu)先化為列向量,每一列減去列平均值得到的向量為:
(3)
對所有輸入圖像進(jìn)行分塊處理,并且合并得到的向量為:
(4)
假設(shè)第i層的濾波器是Li,通過PCA求濾波器,例如式(5):
(5)
其中,IL1為L1×L1單位矩陣的大小。因?yàn)長1是XXT的主特征向量,因此PCA濾波結(jié)果可以表示為:
(6)
第一階段的主要任務(wù)是提出濾波器,并且對圖片進(jìn)行第一次卷積濾波,如圖1所示。
圖1 第一階段過程圖
1.2.2 主成分分析(第二階段)
本階段與第一階段幾乎相同,第一階段的第i個(gè)濾波器的輸出表示為:
(7)
(8)
(9)
合并所有的濾波輸出,結(jié)果為:
Y=[Y1,Y2,…,YL1]∈RK1K2×L1Nmn
(10)
第二階段的PCA濾波表示為:
(11)
(12)
第二階段的輸出有L1L2個(gè)。如果采用更深度的結(jié)構(gòu)可以取得更好的結(jié)果,那么可以簡單重復(fù)以上的PCA步驟。
1.2.3 哈希和直方圖處理(第三階段)
(13)
(14)
根據(jù)實(shí)際應(yīng)用,這些塊的分割可以重疊,也可以不重疊。不重疊的塊適用于面部圖像,重疊的塊適用于手寫體識別、文本識別以及實(shí)物圖像。
第三階段處理示意圖如圖2所示。
圖2 第三階段過程圖
1.3 隨機(jī)森林算法
1.3.1 隨機(jī)森林
隨機(jī)森林(Random Forest),算法是通過訓(xùn)練N個(gè)決策樹進(jìn)而生成模型,然后充分利用多個(gè)決策樹進(jìn)行分類的一種算法。算法可以用來進(jìn)行分類、聚類、回歸和生存分析等運(yùn)算。優(yōu)點(diǎn)是無需交叉驗(yàn)證來評價(jià)算法分類的準(zhǔn)確性,其算法自帶OOB(OutOfBag)評估。
1.3.2Bootstrsap采樣
設(shè)集合S中含有n個(gè)不同的樣本{x1,x2,…,xn},每次有放回的從集合S中抽取一個(gè)樣本,一共抽取n次,可以形成新的集合S*。
1.3.3 隨機(jī)森林采樣的算法流程
(1)利用Bootstrsap方法重采樣,隨機(jī)產(chǎn)生T個(gè)訓(xùn)練集S1,S2,…,ST。
(2)利用每個(gè)訓(xùn)練集,生成對應(yīng)的決策樹C1,C2,…,CT。在每個(gè)非葉子節(jié)點(diǎn)上選擇屬性前,從M個(gè)屬性中隨機(jī)抽取m個(gè)屬性作為當(dāng)前節(jié)點(diǎn)的分裂屬性集,并以這m個(gè)屬性中最好的分裂方式對該節(jié)點(diǎn)進(jìn)行分裂。
(3)每棵樹都完整生長,而不進(jìn)行剪枝。
(4)對于測試集樣本X,用每個(gè)決策樹進(jìn)行測試,得到對應(yīng)的類別C1(X),C2(X),…,CT(X)。
(5)采用投票的方式,將T個(gè)決策樹中輸出最多的類別作為測試集樣本X所屬的類別。
1.4 PCANet-RF算法
卷積神經(jīng)網(wǎng)絡(luò)可以有效地提取圖像特征,但是計(jì)算量大且對調(diào)參技巧要求較高。因此文中應(yīng)用一種簡化的卷積神經(jīng)網(wǎng)絡(luò)PCANet,高效地提取圖像特征。
文中主要研究一種混合的分類系統(tǒng),基于PCANet的隨機(jī)森林人臉識別系統(tǒng)。該系統(tǒng)主要包括兩個(gè)部分:PCANet提取圖像特征、隨機(jī)森林分類,如圖3所示。
圖3 PCA-RF人臉識別系統(tǒng)
2.1 實(shí)驗(yàn)準(zhǔn)備
文中使用Intel Corei3 2.26 GHz處理器和512 MB內(nèi)存的計(jì)算機(jī)系統(tǒng)。表1給出了文中方法的檢測結(jié)果,并和一些比較常用的檢測結(jié)果進(jìn)行比較。
根據(jù)文獻(xiàn)[4]的實(shí)驗(yàn)結(jié)果,濾波器的數(shù)量、分塊的大小、訓(xùn)練子集的大小都對網(wǎng)絡(luò)的分類效果有很大影響。文中實(shí)驗(yàn)的網(wǎng)絡(luò)濾波器的大小為k1=k2=5,無重疊的分塊大小為8×6,濾波器的數(shù)量為L1×L2。
表1 訓(xùn)練集對分辨率的影響
2.2 訓(xùn)練子集大小對實(shí)驗(yàn)結(jié)果的影響
表1顯示了參數(shù)設(shè)置為2.1中默認(rèn)設(shè)置時(shí),訓(xùn)練子集大小與識別率的關(guān)系。從表中可以看到,隨著訓(xùn)練子集的增加,訓(xùn)練樣本與測試樣本的正確率都隨之增加?;赑CA網(wǎng)絡(luò)的隨機(jī)森林方法的人臉檢測系統(tǒng),其優(yōu)點(diǎn)是運(yùn)行時(shí)間快,100個(gè)測試集需要120.73 s,但是測試集的數(shù)量不宜過大,否則容易超出內(nèi)存空間,對硬件的要求較高。
2.3 實(shí)驗(yàn)結(jié)果對比分析
可用于人臉檢測的數(shù)據(jù)庫類型有很多,文中選用CMU人臉數(shù)據(jù)庫[12]進(jìn)行檢測率測試。選用了4 000張大小為32×32的圖片訓(xùn)練神經(jīng)網(wǎng)絡(luò)。人臉與非人臉的目標(biāo)值分別被標(biāo)成1和-1。
檢測結(jié)果對比見表2。
表2 檢測結(jié)果對比
實(shí)驗(yàn)結(jié)果表明,文中所提出的人臉識別算法,對人臉的識別率可達(dá)99%,與其他常用的人臉識別算法相比識別率明顯有所提高。
PCANet神經(jīng)網(wǎng)絡(luò)已被成功應(yīng)用于人臉識別、手寫體識別等方面。文中初步探討了PCANet網(wǎng)絡(luò)與隨機(jī)森林方法相結(jié)合在人臉檢測方面的應(yīng)用,提出了基于PCANet-RF的人臉檢測方法的工作原理,并進(jìn)行了仿真實(shí)驗(yàn),取得了令人滿意的效果,部分檢測圖像如圖4所示。所提方法在人臉檢測的應(yīng)用中有著廣闊的前景。接下來的工作是進(jìn)一步對所提方法進(jìn)行改進(jìn),希望可以進(jìn)一步提高其性能。
圖4 CMU數(shù)據(jù)庫人臉檢測部分結(jié)果
[1]LeCunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-2324.
[2]LeCunY,BengioY.Convolutionalnetworksforimages,speech,andtime-series[M]//Thehandbookofbraintheoryandneuralnetworks.[s.l.]:MITPress,1995.
[3]LeCunY,HuangJF,BottouL.Learningmethodsforgenericobjectrecognitionwithinvariancetoposeandlighting[C]//ProceedingsofCVPR.[s.l.]:IEEEPress,2004.
[4]CheungB,SableC.Hybridevolutionofconvolutionalnetworks[C]//Procof10thinternationalconferenceonmachinelearningandapplications.[s.l.]:IEEE,2011:293-297.
[5]LeeH,PhamP,NgAY.Unsupervisedfeaturelearningforaudioclassificationusingconvolutionaldeepbeliefnetworks[C]//ProcofNIPS.[s.l.]:[s.n.],2009:1-9.
[6]MirowskiP,LeCunY,MadhavanD,etal.ComparingSVMandconvolutionalnetworksforepilepticseizurepredictionfromintracranialEEG(R)[C]//Procofmachinelearningandsignalprocessing.[s.l.]:IEEE,2008.
[7]CheungB.Convolutionalneuralnetworksappliedtohumanfaceclassification[C]//Procof11thinternationalconferenceonmachinelearningandapplications.[s.l.]:IEEE,2012:580-583.
[8]TiviveFFC,BouzerdoumA.Afacedetectionsystemusingshuntinginhibitoryconvolutionalneuralnetworks[C]//ProcofIEEEinternationaljointconferenceonneuralnetworks.[s.l.]:IEEE,2004:2571-2575.
[9]NagiJ,CaroGAD.ConvolutionalneuralsupportvectormacInes:hybridvisualpatternclassifiersformulti-robotsystems[C]//Procof11thinternationalconferenceonmachinelearningandapplications.[s.l.]:IEEE,2012:27-32.
[10]MeguidMKAE,LevineMD.Fullyautomatedrecognitionofspontaneousfacialexpressionsinvideosusingrandomforestclassifiers[J].IEEETransactionsonAffectiveComputing,2014,5(2):141-154.
[11]ChanTsung-Han,JiaK.PCANet:asimpledeeplearningbaselineforimageclassification?[EB/OL].2014.http://arxiv.org/abs/1404.3606.
[12]TheCMUPIEdatabase[EB/OL].2012.http://vasc.ri.cmu.edu/idb/html/face/.
[13]RowleyH,BalujaS,KanadeT.Neuralnetwork-basedfacedetection[J].IEEETransonPatternAnalysisandMachineIntelligence,1998,20(1):23-38.
[14]ViolaP,JonesM.Rapidobjectdetectionusingaboostedcascadeofsimplefeatures[C]//Procofacceptedconferenceoncomputervisionandpatternrecognition.[s.l.]:IEEE,2001:511-518.
[15]CarciaC,DelakisM.Convolutionalfacefinder:aneuralarchitectureforfastandrobustfacedetection[J].IEEETransonPatternsAnalysisandMachineIntelligence,2004,26(11):1408-1423.
Face Detection System Based on PCANet-RF
ZHANG Dan-dan,LI Lei
(Unstructured Data Calculation Theory and Application Research Center,Nanjing University of Posts and Telecommunications,Nanjing 210046,China)
A face detection system was presented based on a simple convolutional neural network.Feature extraction of image is usually complicated which needs much pretreatment.Deep learning reduces pretreatment,such as convolutional neural network,but it needs more time of training and requires certain ability to adjust the parameters,which contrary to the original intention.What is more,classification capability and result of convolutional neural network is not well.Combination of above,the PCANet for feature extraction is applied to lower the ability to adjust the parameters and Random Forest for image classification is used to improve the recognition rate.This method has got a recognition rate as 99%.Experiments has confirmed that PCANet-RF can be successfully used in image classification.
face detection;convolutional neural network;random forest;feature extraction;PCANet
2015-05-15
2015-08-20
時(shí)間:2016-01-26
國家自然科學(xué)基金資助項(xiàng)目(61070234,61071167,61373137);江蘇省普通高校專業(yè)學(xué)位研究生科研實(shí)踐計(jì)劃省立(SJLX_0376)
張丹丹(1990-),女,碩士研究生,研究方向?yàn)閳D像處理;李 雷,博士,教授,碩士生導(dǎo)師,研究方向?yàn)槟J阶R別與智能系統(tǒng)、智能信息處理。
http://www.cnki.net/kcms/detail/61.1450.TP.20160126.1520.044.html
TP391
A
1673-629X(2016)02-0031-04
10.3969/j.issn.1673-629X.2016.02.007