胡 月,沈永良
(黑龍江大學(xué) 電子工程學(xué)院,哈爾濱 150080)
?
深度學(xué)習(xí)模型與成對(duì)分類相結(jié)合的人臉識(shí)別新算法
胡月,沈永良*
(黑龍江大學(xué) 電子工程學(xué)院,哈爾濱 150080)
針對(duì)深度學(xué)習(xí)人臉識(shí)別系統(tǒng)樣本數(shù)據(jù)中存在干擾時(shí)會(huì)腐化分類邊界,導(dǎo)致識(shí)別率下降,提出了一種改進(jìn)的深度學(xué)習(xí)模型,將成對(duì)分類概念引入到深度學(xué)習(xí)中,提升人臉識(shí)別系統(tǒng)對(duì)于噪聲、腐化、變化的魯棒性。采用深度信念網(wǎng)絡(luò)模型,將人臉圖像送入深度學(xué)習(xí)模型中逐層訓(xùn)練網(wǎng)絡(luò),在參數(shù)微調(diào)階段采用改進(jìn)的成對(duì)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)優(yōu)化,在輸出層與前一隱含層之間采用成對(duì)連接。在ORL、Extended Yale-B的實(shí)驗(yàn)結(jié)果表明,所提算法與傳統(tǒng)的深度學(xué)習(xí)算法相比,構(gòu)造的系統(tǒng)更穩(wěn)定,算法識(shí)別率更高,系統(tǒng)在存在干擾的人臉圖像中魯棒性更強(qiáng)。
人臉識(shí)別;深度學(xué)習(xí);深度信念網(wǎng)絡(luò);成對(duì)BP神經(jīng)網(wǎng)絡(luò)
近年來,隨著大數(shù)據(jù)的興起,基于深度學(xué)習(xí)的人臉識(shí)別系統(tǒng)由于其強(qiáng)大的訓(xùn)練能力得到了廣大學(xué)者的青睞,并且取得了優(yōu)異的效果。2006年Hinton首次提出深度學(xué)習(xí)[1-2](Deep learning)的概念,深度信念網(wǎng)絡(luò)作為一種深度學(xué)習(xí)的方法,可從低層到高層逐層學(xué)習(xí)不同層次的抽象特征,最終獲得特征的結(jié)構(gòu)性描述,該過程中提取的特征是通過自動(dòng)學(xué)習(xí)得到的,不依賴于人工選擇[3]。但在大樣本人臉庫中,每一類含有大量圖片或者含有大量的類,當(dāng)人臉圖像含有噪聲、腐化和變化等干擾時(shí),類與類之間的邊界變得更為復(fù)雜,使識(shí)別變得更加困難[4-6]。對(duì)于深度學(xué)習(xí),傳統(tǒng)的改進(jìn)方法不外乎增加隱含層層數(shù)或增加隱含層神經(jīng)元個(gè)數(shù)來提升人臉識(shí)別的準(zhǔn)確率。但增加模型的復(fù)雜度,使訓(xùn)練時(shí)間過長;并且增加系統(tǒng)的隱含層層數(shù)和神經(jīng)元個(gè)數(shù),需要增加人臉樣本來避免過擬合現(xiàn)象的發(fā)生。如此就會(huì)造成一個(gè)死循環(huán)[7]。
為了克服這一問題,文獻(xiàn)[8]提出成對(duì)分類系統(tǒng)。成對(duì)分類系統(tǒng)是將多元分類問題轉(zhuǎn)換成二元分類問題,其分類邊界比多元系統(tǒng)簡(jiǎn)單。除此之外,成對(duì)分類器的訓(xùn)練樣本精度要低于多元系統(tǒng),使訓(xùn)練任務(wù)變得更簡(jiǎn)單[9]。成對(duì)分類器的輸出,可作為類成員的概率,組成最終類的后驗(yàn)概率。該方法是利用每一次輸入來近似所需的后驗(yàn)概率,盡管這個(gè)近似需要額外的計(jì)算。另一種方法是將成對(duì)分類器的結(jié)果作為類成員值(而不是類成員概率),然后使用“贏者通吃”的方式直接作出最后的決定。這種決策方法對(duì)于競(jìng)爭(zhēng)層神經(jīng)網(wǎng)絡(luò)模型有很好的效果[10]。
然而,上述成對(duì)分類方法的效果尚未在深度學(xué)習(xí)模型中充分應(yīng)用。因此本文研究成對(duì)分類系統(tǒng)對(duì)于提升深度學(xué)習(xí)人臉識(shí)別系統(tǒng)魯棒性的能力。在實(shí)踐中對(duì)于研究人臉識(shí)別系統(tǒng)性能的提升非常重要,這是本論文的創(chuàng)新點(diǎn)。試驗(yàn)中,改進(jìn)的人臉識(shí)別系統(tǒng)的識(shí)別精度要優(yōu)于對(duì)比試驗(yàn)中的人臉識(shí)別算法。
圖1 分離函數(shù),將以下每?jī)深惙指糸_:C1與C2,C1與C3,C2與C3Fig.1 Splitting functions,and dividing the following pairs of classes: C1 versus C2, C1 versus C3 and C2 versus C3
成對(duì)分類的思想是使用兩類神經(jīng)網(wǎng)絡(luò)模型對(duì)樣本中所有類進(jìn)行分類。因此,對(duì)于有n類的分類系統(tǒng),應(yīng)該包括n(n-1)/2個(gè)成對(duì)分類器來解決n類分類問題。比如n=3,圖1表示了類C1,C2和C3,可設(shè)置3×(3-1)/2個(gè)二元分類器。線fi/j是分離函數(shù),用來從類j中分離類i。
這里假定fi/j對(duì)屬于類i的輸出為正值,對(duì)類j為負(fù)值。將分離函數(shù)f1/2,f1/3和f2/3結(jié)合起來,構(gòu)造新的分離函數(shù)g1,g2和g3。
(1)
圖2 n=3類的成對(duì)神經(jīng)網(wǎng)絡(luò)系統(tǒng)Fig.2 Example of pairwise neural-network system for n=3classes
這里函數(shù)g1使用1.0的權(quán)重,因?yàn)閒1/2和f1/3為類C1的數(shù)據(jù)提供了正的輸出值。同理,分離函數(shù)g2和g3公式如下:
(2)
(3)
在實(shí)踐中,將每一分離函數(shù)g1,g2,…,gC用隱含層全連接到輸入節(jié)點(diǎn)的2層BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。n=3類的成對(duì)神經(jīng)網(wǎng)絡(luò)系統(tǒng)見圖2,成對(duì)分類系統(tǒng)包含3層神經(jīng)網(wǎng)絡(luò),先訓(xùn)練得到近似分離函數(shù)f1/2,f1/3和f2/3。3個(gè)輸出神經(jīng)元g1,g2和g3與隱含層神經(jīng)元全連接,權(quán)重分別為(+1,+1),(-1,+1)和(-1,-1)。
一般來說,成對(duì)神經(jīng)網(wǎng)絡(luò)分類系統(tǒng)由n(n-1)/2個(gè)隱含層神經(jīng)元f1/2,…,fi/j,…,f(n-1)/n組成,n個(gè)輸出神經(jīng)元g1,g2,…,gn,其中i 深度信念網(wǎng)絡(luò)(DBNs)是深度學(xué)習(xí)中最為廣泛應(yīng)用的一個(gè)模型,它由多個(gè)受限玻爾茲曼機(jī)(RBM)組成的深層網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)中,每一層都是單獨(dú)訓(xùn)練。RBM是一個(gè)兩層無向圖模型,其同一層結(jié)點(diǎn)之間無連接[11-13]。 RBM是一個(gè)基于能量的網(wǎng)絡(luò),對(duì)于一個(gè)RBM模型來說,給定可視層,那么隱含層可服從任意分布,反之亦然;一般都假定可視層和隱含層是只能取0或1的二值變量。 假設(shè)一個(gè)RBM模型,其可視層和隱含層的結(jié)點(diǎn)數(shù)分別是n和m,可視層結(jié)點(diǎn)用向量v表示,隱含層結(jié)點(diǎn)用向量h表示,即v={v1,v2,…,vn},h=(h1,h2,…,hm),并且用vi表示可視層中第i個(gè)結(jié)點(diǎn)狀態(tài),用hj表示隱含層中第j個(gè)結(jié)點(diǎn)狀態(tài)。則這個(gè)RBM系統(tǒng)的能量是: (4) 式中θ={Wij,ai,bj};Wij表示RBM網(wǎng)絡(luò)中上一層結(jié)點(diǎn)i和本層結(jié)點(diǎn)j的連接權(quán)重;ai表示可視層結(jié)點(diǎn)i的偏置;bj表示隱含層結(jié)點(diǎn)j的偏置。訓(xùn)練網(wǎng)絡(luò)的目的就是學(xué)習(xí)到參數(shù)θ,參數(shù)的確定就代表網(wǎng)絡(luò)已經(jīng)成型。由RBM的能量函數(shù)可求出系統(tǒng)的聯(lián)合分布: (5) (6) 其中Z(θ)是歸一化因子。進(jìn)而求出聯(lián)合分布的邊緣分布: (7) 該函數(shù)就是可視層v在RBM模型中的概率函數(shù)。經(jīng)過多次迭代可求出網(wǎng)絡(luò)中各層的參數(shù)Wij,ai,bj,而RBM是同層結(jié)點(diǎn)無連接的網(wǎng)絡(luò),也即:如果可視層狀態(tài)給定,可求出每個(gè)條件獨(dú)立的隱含層結(jié)點(diǎn),反之隱含層狀態(tài)給定,也可求出每個(gè)可視層結(jié)點(diǎn)。因此在給定可視層狀態(tài)下,隱含層的激活條件為: (8) 其中σ(x)是激活函數(shù),x<0時(shí)σ(x)值為0,x>0時(shí)σ(x)值為1,表示為: (9) RBM是一種對(duì)稱結(jié)構(gòu),因此在隱含層狀態(tài)給定情況下,可視層條件獨(dú)立,激活條件為: (10) DBNs的訓(xùn)練過程分兩步:①在非監(jiān)督數(shù)據(jù)上建立多層神經(jīng)網(wǎng)絡(luò),并且逐層訓(xùn)練,每層這個(gè)過程和RBM的訓(xùn)練完全一樣,參數(shù)也是獨(dú)立調(diào)整,上層的訓(xùn)練結(jié)果作為下層RBM的輸入,直到每一層都訓(xùn)練完成,這個(gè)過程稱為預(yù)訓(xùn)練;②有監(jiān)督的參數(shù)調(diào)優(yōu)過程,這時(shí)DBNs網(wǎng)絡(luò)就是一個(gè)普通的多層BP網(wǎng)絡(luò),只是各層的參數(shù)是上一步訓(xùn)練好的,只需要少量的迭代,就可獲得很好的效果。 本文在使用BP網(wǎng)絡(luò)進(jìn)行參數(shù)微調(diào)階段,引入了成對(duì)分類模型,使人臉圖像在存在噪聲、腐化、變化的情況下可更好地分離類邊界,提高識(shí)別系統(tǒng)的魯棒性,達(dá)到提高人臉識(shí)別準(zhǔn)確率的目的。 將深度學(xué)習(xí)與成對(duì)分類相結(jié)合,將人臉圖像作為DBN可見層輸入,逐層訓(xùn)練網(wǎng)絡(luò)參數(shù),得到初步的網(wǎng)絡(luò)后,再成對(duì)使用BP算法進(jìn)行全局的微調(diào),優(yōu)化模型參數(shù),并成對(duì)進(jìn)行分類??梢越档蜕疃葘W(xué)習(xí)系統(tǒng)模型的復(fù)雜度,對(duì)系統(tǒng)的魯棒性、過擬合問題有一定的效果。 實(shí)驗(yàn)的DBNs模型,采用雙層DBNs結(jié)構(gòu),其系統(tǒng)最終模型結(jié)構(gòu)為m-100-100-n×(n-1)/2-n,其中m為輸入圖像的維度,n為輸出層結(jié)點(diǎn)數(shù)即分類數(shù),n×(n-1)/2為成對(duì)分離層結(jié)點(diǎn)個(gè)數(shù)。在DBNs與訓(xùn)練階段,每一層RBN的訓(xùn)練迭代次數(shù)都設(shè)置為100,兩層學(xué)習(xí)率均設(shè)為0.2。在RBM進(jìn)行訓(xùn)練時(shí)使用對(duì)比散度算法,它一般只需一次布吉斯采樣就可以獲得對(duì)模型的估計(jì)。兩層RBM訓(xùn)練完成后,將學(xué)習(xí)到的權(quán)重傳入到系統(tǒng)模型中,利用反向傳播算法(BP)進(jìn)行參數(shù)微調(diào),對(duì)于微調(diào)階段的系統(tǒng)模型,設(shè)置它的迭代次數(shù)為100,學(xué)習(xí)率為0.01[11],使用的激活函數(shù)為“tansig”函數(shù)。算法模型見圖3。 圖3 算法實(shí)驗(yàn)?zāi)P?Fig.3 Experimental model of algorithm 本文算法的檢驗(yàn)均在ORL和Extended Yale-B人臉數(shù)據(jù)庫上進(jìn)行。ORL, Extended Yale-B的圖像像素大小分別為112×92, 32×32。這些人臉圖像集的人數(shù)和每人的樣本數(shù)分別為40和10,38和60。在很多情況下,數(shù)據(jù)的主要信息都集中在主成分上,因此PCA算法不僅能降低特征向量維度,還能消除信息的冗余,因此本實(shí)驗(yàn)采用PCA算法將人臉圖像進(jìn)行降維,不僅對(duì)人臉圖像歸一化維度為100,有效降低計(jì)算的復(fù)雜度,且仍能保證較高的識(shí)別率。采用5折交叉驗(yàn)證法進(jìn)行系統(tǒng)的訓(xùn)練、微調(diào)和測(cè)試,樣本分配比例為6∶2∶2。 在進(jìn)行對(duì)照試驗(yàn)時(shí),使用BP神經(jīng)網(wǎng)絡(luò)。為驗(yàn)證本文算法的有效性,實(shí)驗(yàn)1設(shè)計(jì)了4組對(duì)比試驗(yàn)。其具體步驟如下: 第一組實(shí)驗(yàn)將人臉特征向量送入隱含層神經(jīng)元數(shù)為50的BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并設(shè)置它的迭代次數(shù)為100,學(xué)習(xí)率為0.01;將測(cè)試樣本送入訓(xùn)練好的模型中,統(tǒng)計(jì)識(shí)別結(jié)果。 第二組實(shí)驗(yàn)將人臉特征向量送入和第一組設(shè)置相同的BP神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,并使用成對(duì)分類法進(jìn)行識(shí)別,將測(cè)試樣本送入訓(xùn)練好的模型中,統(tǒng)計(jì)識(shí)別結(jié)果。 第三組實(shí)驗(yàn)將人臉特征向量作為DBNs的可視層輸入,對(duì)深度信念網(wǎng)絡(luò)進(jìn)行逐層訓(xùn)練,學(xué)習(xí)到模型參數(shù),將測(cè)試樣本送入訓(xùn)練好的模型中,統(tǒng)計(jì)識(shí)別結(jié)果。 第四組實(shí)驗(yàn)也是將人臉特征向量送入DBNs模型進(jìn)行訓(xùn)練,在參數(shù)微調(diào)階段使用成對(duì)BP神經(jīng)網(wǎng)絡(luò)法進(jìn)行參數(shù)微調(diào)與分類,統(tǒng)計(jì)識(shí)別結(jié)果。 實(shí)驗(yàn)2將人臉圖像進(jìn)行一定的變化,并分別送入傳統(tǒng)的深度學(xué)習(xí)識(shí)別算法和本文提出的改進(jìn)人臉識(shí)別算法進(jìn)行訓(xùn)練,比較識(shí)別率。 實(shí)驗(yàn)1不同的人臉識(shí)別方法得到的正確識(shí)別率見表1。 表1 人臉識(shí)別在不同算法上的識(shí)別率 其中PW為本文提出的成對(duì)(Pairwise)分類方法,由于系統(tǒng)驗(yàn)證是使用5折交叉驗(yàn)證法,識(shí)別的結(jié)果用(均值±標(biāo)準(zhǔn)差)的形式表示。由表1可見,深度學(xué)習(xí)算法在大樣本圖像集(Extended Yale-B)中的識(shí)別率要略高于小樣本圖像集(ORL);深度學(xué)習(xí)算法的識(shí)別率無論是對(duì)于大樣本圖像集還是小樣本圖像集都高于只含一層隱含層的神經(jīng)網(wǎng)絡(luò)模型;本文提出的改進(jìn)算法在BP神經(jīng)網(wǎng)絡(luò)模型上識(shí)別率有明顯提高,在DBNs深度學(xué)習(xí)模型中也略有提升,本文提出的算法的識(shí)別率標(biāo)準(zhǔn)差明顯降低,這說明訓(xùn)練出的模型趨于全局最優(yōu),并且更加穩(wěn)定。 實(shí)驗(yàn)2人臉圖像中存在的干擾會(huì)嚴(yán)重腐化類邊界,識(shí)別困難。筆者在圖像數(shù)據(jù)中引入3種干擾變量來檢測(cè)人臉識(shí)別系統(tǒng)的魯棒性。實(shí)驗(yàn)中分別采用噪聲密度為0.005的椒鹽噪聲、3×3模板均值濾波、位移6像素角度10度的運(yùn)動(dòng)模糊,其中均值濾波干擾帶來的效果是降低圖像的分辨率,圖像效果見圖4。 圖4 存在干擾的人臉圖像Fig.4 Face images with interference 實(shí)驗(yàn)2將人臉圖像分別送入傳統(tǒng)的DBNs模型和本文提出改進(jìn)的DBNs模型中進(jìn)行學(xué)習(xí),最終的識(shí)別結(jié)果見表2、表3。 表2 ORL干擾圖像識(shí)別率 表3 Yale-B干擾圖像識(shí)別率 本實(shí)驗(yàn)對(duì)原始人臉圖像加入了不同類型的干擾,通過實(shí)驗(yàn)發(fā)現(xiàn),改進(jìn)的DBNs算法識(shí)別率的均值要略高于傳統(tǒng)的DBNs算法,標(biāo)準(zhǔn)差要明顯低于傳統(tǒng)算法,說明本文提出的改進(jìn)算法對(duì)于人臉識(shí)別的效果較傳統(tǒng)的DBNs算法更好,魯棒性更強(qiáng),識(shí)別率更高,系統(tǒng)更穩(wěn)定。 本文提出了一種改進(jìn)的深度信念網(wǎng)絡(luò)進(jìn)行人臉識(shí)別的方法,在DBNs的參數(shù)微調(diào)階段,將成對(duì)分類系統(tǒng)引入BP神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)微調(diào),通過算法驗(yàn)證:無論是在小樣本的ORL人臉庫還是大樣本的Extended Yale-B人臉庫中,改進(jìn)算法都有更好的識(shí)別率,并且通過此算法得到的模型參數(shù)更穩(wěn)定,系統(tǒng)在圖像存在各類干擾時(shí)的魯棒性更強(qiáng)。 [1]Ngiam J, Coates A, Lahiri A, et al. On optimization methods for deep learning[C]//Proceedings of the 28thInternational Conference on Machine Learning (ICML-11), 2011:265-272. [2]Lee H,Pham P T, Largman Y, et al. Unsupervised feature learning for audio classification using convolutional deep belief networks[C]// NIPS, 2009:1096-1104. [3]張?chǎng)?王文偉.基于局部二值模式和深度學(xué)習(xí)的人臉識(shí)別[J].計(jì)算機(jī)應(yīng)用,2015,5(5): 1474-1478. [4]Kung S Y, Mak M W,Lin S H.Biometric Authentication: A Machine Learning Approach[M].Beijing: Pearson Education, 2005:45-72. [5]Liu C,Wechsler H.Robust coding schemes for indexing and retrieval from large face databases[J].IEEE Transactions on Image Processing, 2000,9(1):132-137. [6]Tolba A S, El-Baz A H, El-Harby A A.Face recognition: a literature review[J].International Journal of Signal Processing, 2005,2(2):88-103. [7]Taigmany Y,Yang M,Ranzato M A, et al. Deepface: closing the gap to human-level performance in face verification [C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2014:1701-1708. [8]Hastie T,Tibshirani R. Classification by pairwise coupling[J].Conference on Advances in Neural Information Processing Systems,1998(10):507-513. [9]Uglov J, Jakaite L, Schetinin V,et al. Comparing robustness of pairwise and multiclass neural-network systems for face recognition[J]. Hindawi Publishing Corporation EURASIP Journal on Advances in Signal Processing,2008(7):1-7. [10] Schetinin V, Schult J, Scheidt B,et al. Learning multiclass neural-network models from electroencephalograms[J]. Knowledge-Based Intelligent Information and Engineering Systems, 2003,2773: 155-162. [11] 李衛(wèi).深度學(xué)習(xí)在圖像識(shí)別中的研究及應(yīng)用[D].武漢:武漢理工大學(xué),2014:4-20. [12] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2012(8):2804-2811. [13] 馬超,徐謹(jǐn)輝,侯慶誠,等.UGES反向傳導(dǎo)算法:一種新的小樣本深度機(jī)器學(xué)習(xí)模型[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào),2015,32(16):831-840. Modified deep learning algorithm to promote the recognition rate and robustness of face recognition system HU Yue,SHEN Yong-Liang* (SchoolofElectronicEngineering,HeilongjiangUniversity,Harbin150080,China) An improved model based on deep learning is proposed aiming at corrupting classification boundary and reducing the recognition rate because of interference in the sample data of deep learning face recognition system. The concept of pairwise classification is introduced into the deep learning, to improve the robustness of noise corruptions and variation in face recognition system. The model of deep belief networks is used and face images are sent into deep learning model and trained layer-by-layer. In the parameters fine-tuning phase, pairwise BP neural networks which is connected by pairs between the output layer and front hidden layer is used to optimize parameters. The experiments are applied on ORL, Extended Yale-B datasets show that the proposed algorithm is more stable in terms of structure of the system, has higher recognition rate, and has stronger robustness in the face images with interference, face recognition; deep learning; deep belief networks; pairwise BP neural networks 10.13524/j.2095-008x.2016.03.044 2016-06-24; 2016-07-01 國家自然科學(xué)基金青年科學(xué)基金資助項(xiàng)目(61503127) 胡月(1991-),女,黑龍江齊齊哈爾人,碩士研究生,研究方向:智能檢測(cè)與圖像處理,E-mail:huyue18945098651@163.com;*通訊作者:沈永良(1964-),男,黑龍江雙鴨山人,教授,研究方向: 智能檢測(cè)與自動(dòng)化儀器,E-mail:shen-yl@163.com。 TP391.41 A 2095-008X(2016)03-0068-062 深度信念網(wǎng)絡(luò)模型
3 改進(jìn)的深度信念網(wǎng)絡(luò)模型
4 實(shí)驗(yàn)結(jié)果與分析
5 結(jié) 論