馬園園,張登銀
(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
隨著社會的發(fā)展,生活各個方面對自動身份認證的需求愈來愈迫切。因為生物特征是人類的內(nèi)在特質(zhì),具備很好的自身穩(wěn)定性和明顯的個體間差異,所以生物識別是身份認證的良好基礎(chǔ)。其中,使用面部特征進行認證是最自然和直接的手段[1],可以在用戶自然舒適的狀態(tài)下完成身份識別而且不會讓用戶產(chǎn)生被侵犯的感覺,這是其他識別方式所不具備的優(yōu)點。
在人臉識別中,兩個關(guān)鍵問題是如何做到提取好的識別特征和設(shè)計相應(yīng)的分類器。文獻[2]充分討論了人臉識別的現(xiàn)有技術(shù)成果。奇異值分解(Singular Value Decomposition,SVD)是一種提取圖像特征的好方法,對轉(zhuǎn)置、平移、旋轉(zhuǎn)和鏡像變換都有很好的穩(wěn)定性[3],而且對于噪聲變化和光強度變換具有很好的魯棒性。因為具備這些優(yōu)良的特性,大量人員開始研究如何把奇異值分解很好地應(yīng)用在人臉識別領(lǐng)域,以發(fā)揮其優(yōu)勢。HONG[4]使用人臉圖像奇異值作為識別特征,但其算法的準確識別率只有57.33%,尚未達到合格水平,他認為是小樣本[5]問題導(dǎo)致識別率低。TIAN等[6]認為原因是人臉的大部分信息包含在奇異值分解之后得到的左右奇異向量組成的正交矩陣中,奇異值本身具備的人臉有效信息較少。張慈祥等[7]提出一種人臉圖像部分與整體奇異值融合的識別方法,識別率得到了一定提高,不過左右正交矩陣包含的信息仍然沒有被有效利用。程永清等[8]提出了矩陣相似度的概念,并將之用于圖像特征提取,取得了良好的效果。
在上述基礎(chǔ)上,文中提出一種基于SVD的兩步人臉識別方法,將矩陣相似度概念融入到奇異值分解中,并提出基于奇異值分解的矩陣相似度判別函數(shù)。該方法首先將圖像劃分成塊,使用分塊圖像的奇異值向量與整體奇異值向量的組合作為識別依據(jù),獲得待測人臉的候選人臉集;然后使用矩陣相似度判別函數(shù)得到待測人臉和候選人臉整體正交矩陣的相似度,以此作為區(qū)分特征進一步識別得到?jīng)Q策人臉。并在ORL人臉庫上對該方法進行了實驗驗證。
SVD對于圖像內(nèi)容分析來說是一種非常有效的處理工具,它善于捕捉圖像結(jié)構(gòu)信息,可以將任何種類的陣列分解為較低維度的矩陣。使用奇異值分解來處理圖像獲取有效信息時,通常將圖像看作一個矩陣。下面引入奇異值及奇異值分解的概念:
定理1(奇異值分解):如果矩陣A∈Rm×n,那么存在正交矩陣U=[u1,u2,…,um]∈Rm×m,V=[v1,v2,…,vn]∈Rn×n,使
UTAV=diag[σ1,σ2,…,σp]=W,P=
min(m,n)
(1)
A=UWVT
(2)
由矩陣的奇異值按照從大到小的順序排列獲得的向量(σ1,σ2,…,σP)就是矩陣A的奇異值向量[9]。文獻[10]中孫靜靜證明了大量的圖像信息體現(xiàn)在奇異值分解后最大的前K個奇異值和相應(yīng)的左右奇異向量中,其中K應(yīng)該滿足K≤10%*P,所以取(σ1,σ2,…,σK)作為圖像的奇異值向量。
為了獲得更多的圖像細節(jié)信息,采用整體與部分結(jié)合的提取方式。首先進行圖像分塊(見圖1),求得圖像整體和局部分塊的奇異值向量,把局部的奇異值向量按照從左到右,從上到下的順序依次排在整體奇異值向量的后面,得到結(jié)合后的奇異值向量。分塊的數(shù)目依實際情況調(diào)整,分塊數(shù)量越多,得到的局部細節(jié)特征就越具體,越有利于區(qū)別不同人臉。在有多幅圖像作為訓練樣本的情況下,還需要求得奇異值向量的均值得到模板奇異值向量。文獻[6]中,TIAN提出奇異值向量只包含圖像的少量信息,文獻[11]中高全學等提出不同的人臉圖像可能具有相同的奇異值,所以文中首先使用模板奇異值向量進行初步識別,找出潛在的人臉候選集,識別采用的方法是最近鄰決策分類[12],即計算待測樣本的奇異值向量與每個人臉分類的模板奇異值向量之間的歐氏距離,歐氏距離越小表明兩者之間關(guān)系越近。綜合識別精度與識別效率的要求,將歐氏距離最小的前1/3的模板奇異值向量對應(yīng)的人臉訓練樣本選出作為待測人臉的候選人臉,若前1/3的模板奇異值向量的數(shù)目不是整數(shù),則將其加1后取整。
圖1 圖像分塊
奇異值分解得到的左右兩個正交矩陣中含有人臉的大量信息,為了更有效地利用這些信息,可以根據(jù)待測人臉與候選人臉正交矩陣的相似程度進一步識別人臉。相似程度越高,代表兩幅圖像共有的特征越多,關(guān)系越近,越有可能屬于同一個人。下面介紹矩陣相似度[13-14]的概念:
設(shè)Cm×n表示m×n的全體矩陣,若A,B∈Cm×n,則把矩陣內(nèi)積定義為
〈A,B〉=tr(BTA)
(3)
其中,tr(·)表示矩陣主對角線元素之和。
由式(3)可導(dǎo)出范數(shù)‖·‖為
‖A‖=〈A,A〉1/2
(4)
定義矩陣的相似度α為:
(5)
類比于向量夾角,θ定義為兩個矩陣之間的夾角,則α的取值范圍為[-1,1],當θ=90°時,α=0,表示兩個矩陣毫不相似;當θ=0°時,α=1,表示兩個矩陣的相似度最高。
由式(2)可知,圖像奇異值分解后產(chǎn)生兩個正交矩陣U和V。基于矩陣相似度的概念,提出兩幅圖像奇異值分解之后正交矩陣相似度的判別函數(shù)為:
(6)
其中,β為正交矩陣相似度的判別標志,實際上它也可作為圖像之間的相似度判別標志。β值越小,說明圖像之間越不相似;β值越大,越接近于2,表示圖像間的相似度越大。
基于SVD的兩步人臉識別方法,目標是充分利用圖像奇異值分解所獲得的奇異值向量特征以及正交矩陣特征,提高人臉識別率,得到最佳決策臉。要獲得最佳決策臉的原因是一個人的多幅訓練樣本在表情、姿勢、光照等因素上都不相同,但總有一幅訓練樣本與待測人臉最相近,找到與待測人臉最相近的一幅訓練樣本,可以提高識別精度,減少識別誤差。下面假設(shè)人臉數(shù)據(jù)庫中有S個人的人臉,同一個人有N幅圖像作為訓練樣本,M幅圖像作為待測樣本,這N+M幅圖像屬于一個人臉類別,同時假設(shè)整體奇異值向量取的維數(shù)是局部奇異值向量取的維數(shù)的2倍,即若局部奇異值向量維數(shù)取K,則整體奇異值向量維數(shù)取2K。文中方法的步驟如下:
第一步:求候選人臉集。
(1)把每幅訓練樣本劃分成塊,分塊數(shù)目為L,對每個分塊的圖像做奇異值分解,取最大的前K個奇異值組成該分塊的奇異值向量;
(2)對每幅訓練樣本做整體奇異值分解,獲得整體的奇異值以及左右正交矩陣U和V,取最大的前2K個奇異值組成的向量作為圖像的整體奇異值向量,U和V作為模板正交矩陣UB和VB;
(3)將每幅訓練樣本分塊的奇異值向量按照從左到右,從上到下的順序依次排在整體奇異值向量的后面,這樣即獲得一幅圖像整合后的奇異值向量,把它稱為圖像奇異值向量。它包含的奇異值個數(shù)為(L+2)*K;
(4)將一類人臉的每幅訓練樣本獲得的圖像奇異值向量求平均值,即獲得該類人臉的模板奇異值向量;
(5)隨機取一個人的一幅待測樣本,采取步驟1~3,獲得圖像奇異值向量和用于檢測矩陣相似度的待測正交矩陣UC和VC;
(6)將該待測樣本的圖像奇異值向量與每一類人臉的模板奇異值向量使用最近鄰決策分類的方法,求兩個向量的歐氏距離,取歐氏距離最小的前1/3個模板奇異值向量對應(yīng)的訓練樣本作為候選人臉集。若前1/3的模板奇異值向量數(shù)目不是整數(shù),則將其加1后取整。
第二步:精確識別。
將該待測樣本在步驟5中求得的UC和VC與候選人臉集中的每幅訓練樣本在步驟2中求得的UB和VB按照式(6)求相似性判別標志β,β的取值越接近2,表明兩幅圖像越相似。取β最大的訓練樣本作為最佳決策臉。算法流程如圖2所示。
圖2 文中算法流程
使用ORL人臉庫對算法進行效果分析。該庫中有400幅人臉圖像,覆蓋40人,每個人都有10幅圖像,這些圖像是在不同角度、不同面部表情、不同光照強度下拍攝得到的,包含情況很齊全,每幅圖片的像素是92*112,如圖3所示。
為了驗證文中方法的有效性,進行了兩組識別率分析對比實驗,并比較了文中方法與文獻[7]方法在訓練樣本數(shù)變化時的識別消耗時間。
實驗一:該實驗是為分析分塊數(shù)目L與奇異值向量維數(shù)K對識別率的影響。以每個人的任意4幅圖像作為訓練樣本,其余圖像作為待測樣本,將每個訓練樣本分別分為4塊,8塊和16塊(即L=4,8,16),查看分塊圖像的奇異值向量維數(shù)K取1,2,…,20時識別率的變化情況。當分塊數(shù)是4時,對應(yīng)的模板奇異值向量維數(shù)分別是6,12,18,…,120;當分塊數(shù)是8時,對應(yīng)的模板奇異值向量維數(shù)是10,20,30,…,200;當分塊數(shù)是16時,對應(yīng)的模板奇異值向量是18,36,54,…,360。為了減少實驗誤差帶來的影響,進行了600次實驗,每種分塊數(shù)下做200次,再細分到該分塊數(shù)下的某一向量維數(shù)則做10次實驗,將每次得到的結(jié)果取均值,并與文獻[7]中方法繼續(xù)比較,結(jié)果如圖4所示。
圖3 ORL人臉庫中某個人的人臉
圖4 人臉識別率與分塊數(shù)和奇異值向量維數(shù)之間的關(guān)系
如圖4所示,圖像的識別率隨著塊數(shù)L的增加而增加,當L取16,維數(shù)K取6時,正確識別率已經(jīng)達到97%。這是因為分塊的數(shù)目越多,細節(jié)描述越具體,識別精度越高;在維數(shù)K增加的初始階段,可以看到文中方法識別率有非常明顯的提高,不過隨著K繼續(xù)增大,識別率增長明顯放緩,并且趨于穩(wěn)定。這是因為前K個較大的奇異值組成的向量及其對應(yīng)的左右正交矩陣包含了圖像的主要特征。從圖上可以看出,在相同分塊數(shù)時,文中方法的識別率明顯高于文獻[7]提出的方法,且文中方法分4塊時的識別率依然高于文獻[7]方法分16塊時的識別率,可見該方法比文獻[7]的方法在識別率上有了大幅改進。
實驗二:為了進一步驗證文中方法的有效性,又進行了另一組對比實驗。本組實驗旨在分析識別率與訓練樣本數(shù)目之間的關(guān)系,并且與文獻[7]方法進行對比。分別取人臉庫中每個人的1,2,…,8幅圖像作為訓練樣本,其他圖像作為待測樣本,每幅圖像分8塊,維數(shù)K取10,則模板奇異值向量的維數(shù)為100。為了減少實驗中表情變化、光照強度變化等因素給識別率帶來的誤差影響,實驗共進行了720次,每一種訓練樣本數(shù)目下都進行90次,把每次實驗的識別率取均值作為該訓練樣本數(shù)下的最終識別率,結(jié)果如圖5所示。又因為文中方法和文獻[7]方法在識別方式上有很大不同,為了比較兩種方法識別階段的耗時,記錄每次實驗識別階段消耗的時間,并且取均值,將識別率與時間消耗信息進行統(tǒng)計,見表1。
圖5 訓練樣本數(shù)與識別率關(guān)系分析對比
訓練樣本數(shù)識別率/%識別時間消耗/ms文中方法文獻[7]方法文中方法文獻[7]方法178.065.21311285.072.52520390.581.03729495.183.44841597.086.06053697.586.57266798.587.18578899.087.59689
由實驗結(jié)果可知,文中方法在只有一個訓練樣本時識別率為78%,當訓練樣本數(shù)為5時,識別率增長到97%,已經(jīng)達到比較理想的效果,可見增加訓練樣本數(shù)是文中方法提高識別精度的一個有效途徑。相比文獻[7]中的方法,文中方法識別率大大提高;在時間復(fù)雜度上,因為文中識別分為兩步,第一步中需要計算歐氏距離,第二步中需要計算矩陣相似度,而文獻[7]使用稀疏表示[15]的方法進行識別,時間復(fù)雜度相對較低,耗時比文中方法稍短。為了減少文中方法的耗時,可以考慮使用更加優(yōu)化的奇異值分解算法。
傳統(tǒng)使用奇異值向量作為區(qū)分特征的人臉識別算法,包含的人臉有效信息較少,識別率較低?;诖耍岢隽艘环N基于SVD的兩步人臉識別方法。首先將圖像劃分成塊,把整體與局部奇異值向量組合成模板奇異值向量作為識別特征進行人臉的初步識別,獲得候選人臉集;然后求待測樣本圖像與候選人臉整體正交矩陣的相似程度,以此作為識別特征進行二次識別,得到最佳決策臉。實驗結(jié)果表明,該方法在識別率上明顯優(yōu)于常規(guī)方法,具有很大的現(xiàn)實意義。
[1] CAO D, YANG B. An improved face recognition algorithm based on SVD[C]//International conference on computer & automation engineering.[s.l.]:[s.n.],2010:109-112.
[2] TOLBA A S,EL-BAZ A H,EL-HARY A A.Face recognition:a literature review[J].International Journal of Signal Processing,2005,2(1):88-103.
[3] 陳良瑜,朱振福,劉忠領(lǐng),等.圖像奇異值特征矢量縮放不變性分析及應(yīng)用[J].紅外與激光工程,2003,32(5):498-501.
[4] HONG Z Q.Algebraic feature extraction of image for recognition[J].Pattern Recognition,1991,24(3):211-219.
[5] HE Yunhui. An efficient method to solve small sample size problem of nonlinear discriminant vectors in feature space for face recognition[C]//International conference on computational & information sciences.[s.l.]:[s.n.],201:117-120.
[6] TIAN Y,TAN T,WANG Y,et al.Do singular values contain adequate information for face recognition?[J].Pattern Recognition,2003,36(3):649-655.
[7] 張慈祥,劉 輝,強振平.基于稀疏表示和奇異值分解的人臉識別[J].計算機應(yīng)用,2013,33(S1):233-235.
[8] 程永清,莊永明,楊靜宇.基于矩陣相似度的圖象特征抽取和識別[J].計算機研究與發(fā)展,1992,29(11):42-48.
[9] 吳俊政.一種基于奇異值分解的圖像壓縮方法[J].計算機與數(shù)字工程,2009,37(5):136-138.
[10] 孫靜靜,張宏飛,孫 昌.一種基于奇異值分解的人臉識別新方法[J].科學技術(shù)與工程,2010,10(25):6204-6208.
[11] 高全學,梁 彥,潘 泉,等.SVD用于人臉識別存在的問題及解決方法[J].中國圖象圖形學報,2006,11(12):1784-1791.
[12] LALIBERTE A,KOPPA J,FREDRICKSON E,et al.Comparison of nearest neighbor and rule-based decision tree classification in an object-oriented environment[C]//International symposium on geoscience and remote sensing.[s.l.]:IEEE,2006:3923-3926.
[13] 王孝青,黨亞民,成英燕,等.基于矩陣相似度的InSAR圖像配準方法研究[J].測繪科學,2008,33(6):44-46.
[14] BAI L,VELICHKO A,DRINKWATER B.Ultrasonic characterization of crack-like defects using scattering matrix similarity metrics[J].IEEE Transactions on Ultrasonics,Ferroelectrics,and Frequency Control,2015,62(3):545-559.
[15] LIU Yu,CHEN Xun,WARD R K,et al.Image fusion with convolutional sparse representation[J].IEEE Signal Processing Letters,2016,23(12):1882-1886.