孔英會,尹紫薇,車轔轔
(華北電力大學(xué) 電子與通信工程系,河北 保定 071003)
人臉識別作為身份識別的重要技術(shù)之一,已成為模式識別和計(jì)算機(jī)視覺領(lǐng)域研究的熱點(diǎn)[1]。傳統(tǒng)人臉識別算法在受約束簡單環(huán)境下可得到非常好的識別效果,但在無約束復(fù)雜環(huán)境下的識別性能急劇下降。人臉識別包含人臉檢測、預(yù)處理、關(guān)鍵特征提取及識別分類,其中特征提取是識別技術(shù)中的重要環(huán)節(jié)[2],提取在各影響因素下都具魯棒性和代表性且易于分類識別的特征是人臉識別需要解決的關(guān)鍵問題。
由神經(jīng)系統(tǒng)的研究可知,人類的視覺感知系統(tǒng)在執(zhí)行視覺任務(wù)時(shí)僅有小部分的神經(jīng)元細(xì)胞進(jìn)入到工作激活狀態(tài)。文獻(xiàn)[3]提出稀疏編碼方法對生物視覺系統(tǒng)進(jìn)行模擬。類似于Gabor[4]濾波器,利用稀疏編碼方法[5]得到的特征提取濾波器也是多尺度多方向的,但該濾波器不是人為設(shè)定參數(shù),而是通過訓(xùn)練集圖像學(xué)習(xí)得到的,并可自適應(yīng)調(diào)整,提取人臉圖像的空間結(jié)構(gòu)信息,捕獲圖像中的高階相關(guān)結(jié)構(gòu)。同時(shí)由于稀疏編碼自身的特點(diǎn),可以克服傳統(tǒng)人臉識別在不利環(huán)境(如表情變化、半遮擋、圖像加噪等)中的影響,提取到的特征能更好地用于識別。局部二值模式(Local Binary Pattern,LBP)[6]提取人臉局部細(xì)節(jié)紋理特征,對較小姿態(tài)及光照改變具有較強(qiáng)的魯棒性,因此,將稀疏編碼提取到的特征融合后再進(jìn)行LBP濾波可突出圖像的紋理特性。
人臉圖像的不同區(qū)域含有不同的信息量,在人臉識別中也具有不同的重要性。人眼在復(fù)雜環(huán)境下能快速捕獲關(guān)鍵信息,這是依靠視覺選擇注意機(jī)制[7]。文獻(xiàn)[8]提出了顯著圖的概念,區(qū)別對待圖像的不同區(qū)域,增強(qiáng)重要區(qū)域的作用,同時(shí)弱化其他區(qū)域的作用[9]。
本文模擬視覺選擇機(jī)制,對經(jīng)過LBP濾波的融合特征進(jìn)一步構(gòu)造顯著圖,突出重要特征對于人臉識別的貢獻(xiàn),從而在保留稀疏編碼特征的圖像空間變化表征能力基礎(chǔ)上,增強(qiáng)其全局特征表征能力。
本文方法的整體流程如圖1所示,包括預(yù)處理、特征提取及融合、濾波、構(gòu)造顯著圖與分類等部分,主要工作包括:1)依據(jù)多分辨率理論對輸入人臉樣本進(jìn)行預(yù)處理;2)稀疏編碼算法構(gòu)造濾波器提取人臉特征;3)圖像的LBP濾波;4)顯著圖的構(gòu)造;5)分類識別。
圖1 本文方法整體流程
多分辨率理論與多分辨率下的信號表示和分析有關(guān),圖像金字塔是以多分辨率理論來解釋圖像的一種結(jié)構(gòu),在一種分辨率下不易被提取的特征在其他分辨率下可能較容易被提取[10]。本文將每張圖片處理成多尺度來構(gòu)造圖像金字塔。首先將輸入圖片灰度化,大小統(tǒng)一處理成80×80像素,然后以1/21/2為系數(shù)對圖片進(jìn)行縮放構(gòu)造多尺度圖像金字塔。多尺度處理會直接使圖片的數(shù)量加倍運(yùn)算復(fù)雜度增大,因此,選擇合適的尺度數(shù)也尤其重要。實(shí)驗(yàn)分析得到,在該尺寸下,將圖像處理成5個(gè)尺度時(shí)識別率較高且實(shí)時(shí)性較好。
2.2.1 稀疏編碼
X=DA
(1)
自然圖像X已確定,其字典D可通過求解以下最優(yōu)化問題解決:
(2)
其中,λ是平衡稀疏度的參數(shù)。
采用K-SVD[12]方法求解式(2),具體過程如下:
1)初始化標(biāo)準(zhǔn)化D。
2)固定D,更新A。采用正交匹配追蹤[13]算法求解優(yōu)化問題,獲得每個(gè)樣本信號xi的稀疏表示向量ai。
(3)
3)固定A,更新D。在更新字典同時(shí)更新每個(gè)基向量。設(shè)定移除第k個(gè)基向量后的誤差矩陣為Ik:
(4)
4)在步驟2)~步驟3)間不斷計(jì)算直到共同收斂得到圖像稀疏表示A和字典D。
2.2.2 特征提取及融合
稀疏編碼算法提取人臉特征的具體過程是首先對訓(xùn)練集人臉圖像標(biāo)準(zhǔn)化并切割成大小一致的圖像塊,將圖像塊利用字典學(xué)習(xí)算法得到過完備字典D和稀疏表示A。在測試階段利用訓(xùn)練出的字典D和稀疏編碼算法得到測試集的稀疏表示A′(即稀疏編碼特征)。訓(xùn)練原始圖片對應(yīng)生成的過完備字典如圖2所示。
圖2 原圖片對應(yīng)生成的過完備字典
過完備字典D可看作由多組基函數(shù)組成的特征提取濾波器。通過人臉圖像學(xué)習(xí)得到的基函數(shù)既描述了人臉共有的空間結(jié)構(gòu)又對空間頻率具有選擇性,但直接訓(xùn)練得到的數(shù)量非常龐大,若全用于特征提取運(yùn)算復(fù)雜度會急劇增大。由于部分邊緣結(jié)構(gòu)信息就能表示人臉的整體類別特性,且光照改變對圖片低頻部分影響較大,因此舍棄具備低通特性選擇具備帶通特性的基函數(shù)。保留重構(gòu)能量Ei最大的前K個(gè)基函數(shù)構(gòu)造提取特征的濾波器D′。重構(gòu)能量Ei的表達(dá)式為:
(5)
圖3 不同基函數(shù)數(shù)量對應(yīng)的識別率
由圖3可以看出,在基函數(shù)數(shù)量為10時(shí)識別率達(dá)到最大,之后基本保持不變。但時(shí)間開銷會隨著基函數(shù)個(gè)數(shù)增多而增加。因此,本文選定基函數(shù)數(shù)量K=10,此時(shí)濾波器性能最優(yōu)且時(shí)間開銷小。本文方法得到的特征提取濾波器時(shí)頻圖如圖4所示。
圖4 濾波器時(shí)頻圖
(6)
稀疏學(xué)習(xí)得到特征及融合后的特征如圖6所示。
圖5 5尺度10方向圖像特征
圖6 融合后的特征
2.2.3 LBP濾波
(7)
LBP濾波結(jié)果如圖7所示??梢钥闯?圖像經(jīng)過LBP濾波后的細(xì)節(jié)紋理特征更加突出。
圖7 LBP濾波結(jié)果
人的視覺感知系統(tǒng)存在2種注意機(jī)制:自頂向下和自底向上的注意選擇。自頂向下的注意選擇與人腦高級功能相關(guān),而自底向上的注意選擇直接依據(jù)接收到的數(shù)據(jù)信號。目前主要集中于自底向上的注意選擇研究。顯著圖的構(gòu)造有多種不同的方法,其中影響最大的為1998年Itti等人提出的視覺注意計(jì)算模型。但該模型只保留了最終由注意機(jī)制選出的部分顯著區(qū)域,舍棄了相對不顯著的人臉區(qū)域,因此,不能描述整體的人臉結(jié)構(gòu)。而人臉的全局信息在人臉識別過程中是非常重要的,因此,該模型在人臉識別中是不適用的。本文方法構(gòu)造的顯著圖只是對顯著區(qū)域進(jìn)行加強(qiáng),對不顯著區(qū)域特征進(jìn)行減弱,沒有丟棄任何區(qū)域,保留了人臉結(jié)構(gòu)的整體性。
直方圖統(tǒng)計(jì)可以很好地描述圖像的整體特征,得到圖像的聯(lián)合分布,從而反映特征的重要程度。但是直接對整張圖片進(jìn)行直方圖統(tǒng)計(jì)會使許多細(xì)節(jié)結(jié)構(gòu)信息丟失,因此,將得到的融合圖像進(jìn)一步劃分為多個(gè)大小一致且互不重疊的矩形子塊分別進(jìn)行直方圖統(tǒng)計(jì)。劃分的小塊直方圖更好地包括了周圍的區(qū)域信息,不僅能體現(xiàn)細(xì)微的局部變化,還能保留整體的改變。實(shí)驗(yàn)證明,將每個(gè)融合圖像劃分為8×8時(shí)效果最好。具體公式為:
i=0,1,…,p-1;j=0,1,…,q-1
(8)
其中,Hi,j為每塊的直方圖統(tǒng)計(jì)結(jié)果,p=256,q=64。連接計(jì)算得到的圖像小塊直方圖,反映了這一局部區(qū)域內(nèi)整體灰度變化。由直方圖統(tǒng)計(jì)結(jié)果得到圖像每個(gè)尺度上所有特征的聯(lián)合概率PL(x,y),進(jìn)而得到香農(nóng)自信息量QL(x,y)。
QL(x,y)=-lb(PL(x,y)),L=1,2,…,5
(9)
香農(nóng)自信息量不僅反映圖像信息量的分布,還反映圖像的注意顯著性分布。以此信息量得到的最終顯著圖與Itti顯著圖的比較如圖8所示。其中:第1列為原圖;第2列為Itti顯著圖;第3列位本文方法得到的顯著圖。Itti顯著圖中顏色越亮表示顯著性越強(qiáng),本文顯著圖中顏色越深表示該區(qū)域信息量越大。可以看出,Itti顯著圖是由顏色、亮度、方向等的對比度生成的,得到的顯著區(qū)域可能會有較大偏差,對后續(xù)的識別結(jié)果造成影響。本文方法生成的顯著圖在人的眉毛、眼睛、鼻子、嘴巴以及臉頰輪廓處的顏色較深,表明這些區(qū)域?qū)τ谌四樧R別的貢獻(xiàn)較大,與人自身感知一致,因此,本文方法生成的的顯著圖更有利于人臉識別。
圖8 不同狀態(tài)下生成的顯著圖比較
將最終得到的特征歸一化處理得到人臉不變特征向量,再經(jīng)過PCA降維處理送入分類器進(jìn)行分類識別。
實(shí)驗(yàn)采用YALE、LFW標(biāo)準(zhǔn)人臉庫。同時(shí),為進(jìn)一步驗(yàn)證本文方法適用于實(shí)際場景中,從視頻中截取部分幀圖像構(gòu)成數(shù)據(jù)庫來進(jìn)行實(shí)驗(yàn)。
YALE人臉庫有15個(gè)人,每人11幅圖像。每人11幅圖像。包含6種表情,3種不同程度的光照,并有是否佩戴眼鏡的區(qū)別。YALE庫中某一人的圖像樣本如圖9(a)所示。將該數(shù)據(jù)庫劃分為不同情況下的子集進(jìn)行實(shí)驗(yàn),其中標(biāo)準(zhǔn)集作為訓(xùn)練集,光照集、表情集、遮擋集作為測試集,并任選每人3張圖像構(gòu)成訓(xùn)練集,其余每人8張用來測試構(gòu)成綜合集。
FERET人臉庫包含1 199個(gè)人的14 051幅圖像。對于同一人其圖像主要包含光照、姿態(tài)、表情變化等,FERET庫中某人的圖像樣本如圖9(b)所示。隨機(jī)抽出庫中200個(gè)人的7張圖片,將其分成標(biāo)準(zhǔn)集、光照集、表情集、姿態(tài)集和綜合集來進(jìn)行實(shí)驗(yàn)。
用6種不同方法對2個(gè)標(biāo)準(zhǔn)庫進(jìn)行實(shí)驗(yàn),結(jié)果如表1和表2所示。可以看出,本文方法在各因素影響下較其他方法識別率都有較大提高,加入顯著圖后優(yōu)勢明顯,且在YALE庫中的識別率可達(dá)到100%,在FERET庫中的識別率也達(dá)到99.2%。
表1 YALE庫圖片識別率比較 %
表2 FERET庫圖片識別率比較 %
LFW庫中的圖片比較接近于實(shí)際情況,包含5 749個(gè)人的13 233幅圖片。LFW一般用于復(fù)雜環(huán)境下的人臉識別,該庫可以表現(xiàn)實(shí)際環(huán)境中人臉圖像的改變,如光照、表情、性別、姿態(tài)、遮擋、性別、背景等變化。圖10為LFW庫的人臉圖片示例。
圖10 LFW 庫的人臉圖片示例
將LFW庫分別用6種方法進(jìn)行實(shí)驗(yàn),結(jié)果如表3所示??梢钥闯?加入顯著圖的方法下LFW庫識別率可達(dá)到95.8%,相較其他5種方法(由上向下)識別率分別提高12.0%、5.5%、10.5%、10.8%及2.4%。
表3 LFW庫識別率比較 %
視頻人臉識別是目前研究的熱點(diǎn)及難點(diǎn),視頻的限制因素較多,如目標(biāo)距離遠(yuǎn)分辨率低等,且視頻中人的表情姿態(tài)改變更加復(fù)雜。本實(shí)驗(yàn)圖片包含10個(gè)人,給每人錄制一段視頻,并截取每人任意15幀圖像構(gòu)成無約束圖像庫進(jìn)行人臉識別,部分圖像樣本如圖11所示。
圖11 視頻幀部分圖片及對應(yīng)處理后的圖像
該庫也使用上述6種方法進(jìn)行實(shí)驗(yàn),結(jié)果如表4所示。
表4 自制視頻幀人臉庫識別率 %
自制圖片庫由于拍攝手機(jī)像素較低且與人距離較遠(yuǎn)、姿態(tài)表情改變嚴(yán)重等因素,識別率較標(biāo)準(zhǔn)庫有一定差距。從表4可以看出,本文方法在該庫中也取得了很好效果,識別率達(dá)到85.0%。使用深度信念網(wǎng)絡(luò)方法的識別率雖達(dá)到84.7%,但其消耗的總時(shí)間為1 811 s,而本文方法僅為33 s,時(shí)間開銷更小。綜合以上實(shí)驗(yàn)可得出,本文方法提取的特征在復(fù)雜環(huán)境下有著更好的魯棒性、不變性和代表性,優(yōu)于傳統(tǒng)特征提取方法。
本文提出一種基于稀疏編碼學(xué)習(xí)與顯著性的人臉識別方法。首先利用稀疏編碼學(xué)習(xí)得到的基函數(shù)構(gòu)造濾波器,提取多尺度多方向人臉特征,該特征包含人臉的外觀輪廓結(jié)構(gòu)信息。然后利用LBP算子進(jìn)行濾波保留圖像的局部細(xì)節(jié)紋理特征。最后根據(jù)顯著性理論對該特征構(gòu)造顯著圖,增強(qiáng)其全局特征表征能力,突出重要區(qū)域?qū)τ谌四樧R別的貢獻(xiàn)。實(shí)驗(yàn)結(jié)果表明,本文方法對于光照、遮擋、表情變化及姿態(tài)改變等影響因素都有較強(qiáng)的魯棒性,適用于復(fù)雜環(huán)境下的人臉識別。
[1] 魏明俊,許道云,徐夢珂.基于均方差度量分塊的自動加權(quán)稀疏表示算法[J].計(jì)算機(jī)工程,2017,43(5):174-178,184.
[2] LOWE D G.Distinctive Image Features from Scale-invariant Keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[3] OLSHAUSEN B A,FIELD D J.Emergence of Simple-cell Receptive Field Properties by Learning a Sparse Code for Natural Images[J].Nature,1996,381(6853):607-609.
[4] 林克正.基于Gabor特征的全局加權(quán)稀疏表示[J].哈爾濱理工大學(xué)學(xué)報(bào),2016,21(1):40-44.
[5] 杜 興,龔衛(wèi)國,張 睿.一種仿生的人臉不變特征提取方法[J].儀器儀表學(xué)報(bào),2011,32(4):813-818.
[6] 孫 玉,劉貴全.基于HoG與LBP特征的人臉識別方法[J].計(jì)算機(jī)工程,2015,41(9):205-208.
[7] 孫曉帥,姚鴻勛.視覺注意與顯著性計(jì)算綜述[J].智能計(jì)算機(jī)與應(yīng)用,2014(5):14-18.
[8] KOCH C,ULLMAN S.Shifts in Selective Visual Attention:Towards the Underlying Neural Circuitry[J].Human Neurobiology,1985,4(4):219-245.
[9] 張 焱,張志龍,沈振康,等.基于動態(tài)顯著性特征的粒子濾波多目標(biāo)跟蹤算法[J].電子學(xué)報(bào),2008,36(12):2306-2311.
[10] 趙仲秋,季海峰,高 雋.基于稀疏編碼多尺度空間潛在語義分析的圖像分類[J].計(jì)算機(jī)學(xué)報(bào),2014,37(6):1251-1260.
[11] GUHA T,WARD R K.Learning Spare Representations for Human Action Recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(8):1576-1588.
[12] RAJA H.Cloud K-SVD:A Collaborative Dictionary Learning Algorithm for Big,Distributed Data[J].IEEE Transactions on Signal Processing,2016,64(1):173-188.
[13] DETERME J F,LOUVEAUX J,JACQUES L,et al.Improving the Correlation Lower Bound for Simultaneous Orthogonal Matching Pursuit[J].IEEE Signal Processing Letters,2016,23(11):1642-1646.
[14] LIOR W,TAL H,YANIV T.Effective Unconstrained Face Recognition by Combining Multiple Descriptors and Learned Background Statistics[J].IEEE Pattern Analysis and Machine Intelligence,2011,33(10):1978-1990.
[15] 梁淑芬,劉銀華,李立琛.基于LBP和深度學(xué)習(xí)的非限制條件下人臉識別算法[J].通信學(xué)報(bào),2014,35(6):154-160.