王正友
(上海出版印刷高等??茖W(xué)校,上海 200093)
責(zé)任編輯:任健男
人臉識(shí)別技術(shù)起始于20世紀(jì)60年代后期,經(jīng)過40多年的飛速發(fā)展,人臉識(shí)別技術(shù)在安全驗(yàn)證系統(tǒng)、醫(yī)學(xué)、檔案管理系統(tǒng)、人機(jī)交互系統(tǒng)、公安工作、視頻會(huì)議和圖像檢索等領(lǐng)域廣泛應(yīng)用,已經(jīng)成為計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的一個(gè)研究熱點(diǎn)[1]。
人臉識(shí)別的關(guān)鍵是特征提取[2],特征提取的結(jié)果被用于識(shí)別人臉,例如主成分分析(PCA)[3]。PCA的主要思想是降維,使得圖像的維數(shù)等于或小于使用訓(xùn)練集的數(shù)量,根據(jù)圖像子空間上的最佳效果來尋求特征向量,這些向量特征就是眾所周知的“特征臉”。當(dāng)轉(zhuǎn)化成不同的子空間時(shí),PCA所產(chǎn)生的位置和形狀數(shù)據(jù)都會(huì)發(fā)生改變。線性判別分析(LDA)[4]是一種特征提取方法,通過它可以獲得某類的數(shù)據(jù)集及其數(shù)據(jù)集中的各個(gè)類間距,LDA不改變數(shù)據(jù)集本身,而是提供一個(gè)單獨(dú)的類。然而,PCA和LDA都有缺點(diǎn),得到的提取結(jié)果只是一個(gè)全局結(jié)構(gòu),事實(shí)上,局部結(jié)構(gòu)對(duì)描述一個(gè)物體,例如局部保持投影(LPP)[5]和正交拉普拉斯臉(OLF)[6]方法也很重要。
基于上述分析,本文提出了一種新方法來選擇和融合提取出的特征,即全局與局部特征融合方法,首先將這些特征按降序排列,然后從最占主導(dǎo)地位到最不占主導(dǎo)地位的特征進(jìn)行融合,既包含了全局結(jié)構(gòu),又包含了局部結(jié)構(gòu),在一定程度上提高了人臉識(shí)別率。
GLFS方法分為兩個(gè)過程,一個(gè)是訓(xùn)練過程,一個(gè)是測(cè)試過程。在訓(xùn)練過程中,訓(xùn)練集被PCA,LDA和局部保持投影(LPP)方法提取。特征提取的結(jié)果被用來預(yù)計(jì)和選擇[7]。然而測(cè)試過程中,測(cè)試集被投影在每個(gè)訓(xùn)練集的投影結(jié)果上,并在訓(xùn)練集選擇中,根據(jù)結(jié)果的數(shù)量來進(jìn)行選擇。同樣地,測(cè)試集的特征可以通過特征選擇的再融合來實(shí)現(xiàn)[8]。
卡洛[9]是一種把高維數(shù)據(jù)投射到低維的線性技術(shù),稱為主成分分析(PCA)。如果圖像維數(shù)用n(圖像矩陣的行數(shù)乘以列數(shù))表示,所使用訓(xùn)練集數(shù)用m表示,當(dāng)m?n這種情況時(shí),那么它可表示為
所有的訓(xùn)練集的平均值可以寫成
基于面部圖像平均值矩陣協(xié)方差,可表示為
方程(3)的特征值和特征向量表示為
式(4)的結(jié)果有m維,其中m?n,得到最小降維的數(shù)目是(n-m)個(gè)。
線性判別分析(LDA)是PCA過程的改進(jìn),LDA被用來最大化類間差異率和最小化類內(nèi)比,從而得到最大的類間比和最小的類內(nèi)比,特征提取更好。LDA比率的差異可表示為
LDA的特征值和特征向量可表示為
PCA和LDA旨在保持全局結(jié)構(gòu)。然而,在實(shí)際應(yīng)用中,局部結(jié)構(gòu)更加重要。局部保持投影(LPP)對(duì)于局部結(jié)構(gòu)學(xué)習(xí)來說是一種新的方法,局部結(jié)構(gòu)特征比全局結(jié)構(gòu)特征更加重要。LPP[10]旨在保持?jǐn)?shù)據(jù)的內(nèi)在幾何和局部結(jié)構(gòu)。LPP的目標(biāo)函數(shù)可以表示為
式中:W是相似矩陣,可表示為
式中:aTXDXTa=1。可通過使用下面的公式配制最小化目標(biāo)函數(shù)的特征值和特征向量
特征提取結(jié)果的融合通常在外表全局結(jié)構(gòu)上進(jìn)行,事實(shí)上,局部結(jié)構(gòu)對(duì)描述一個(gè)對(duì)象非常重要。本文提出了一個(gè)基于面部的特征選擇與融合全局和局部結(jié)構(gòu)的方法,具有全局結(jié)構(gòu)的外表特征提取是由PCA和LDA來完成的,然而局部結(jié)構(gòu)的提取是由LPP來完成的。對(duì)于PCA,LDA和LPP,特征提取的結(jié)果分別可用下面的等式表示
如圖1所示,如果為每個(gè)特征提取方法提取特征的數(shù)目是m,而特征選擇的的數(shù)目是S,并且S≤m,那么PCA+LDA+LPP特征融合的數(shù)目可以用3S表示。特征融合的結(jié)果可寫成下面的矩陣
圖1 特征融合過程
為了簡化計(jì)算,式(16)可被寫作如下的行向量
式(17)是PCA,LDA作為全局結(jié)構(gòu)和LPP作為局部結(jié)構(gòu)的融合特征。
要確定分類結(jié)果,基于特征融合的相似度測(cè)量是必要的,它可以寫成
識(shí)別百分率結(jié)果可以用真正的識(shí)別結(jié)果數(shù)除以測(cè)試集數(shù)目計(jì)算出來,可寫成
整個(gè)算法過程如圖2所示。
圖2 算法過程
ORL人臉庫共有40個(gè)人的400張圖片,每人10張,其中有些圖像拍攝于不同時(shí)期,人的臉部表情和臉部細(xì)節(jié)有著不同程度的變化,比如笑或者不笑、眼睛或睜或閉、戴或不戴眼鏡,人臉姿態(tài)也有相當(dāng)程度的變化,深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達(dá)20°,人臉尺度也有多達(dá)10%的變化,圖3所示為ORL人臉庫中某人的10張人臉圖像。
圖3 ORL人臉庫中某人的10張人臉圖像
為了比較實(shí)驗(yàn)結(jié)果,執(zhí)行3套方案:第1套方案,使用的訓(xùn)練集的數(shù)量由每個(gè)人的5組姿勢(shì)構(gòu)成,其余5組姿勢(shì)構(gòu)成測(cè)試集;第2套方案,訓(xùn)練集的數(shù)目由每個(gè)人的6組姿勢(shì)構(gòu)成,其余4組姿勢(shì)構(gòu)成測(cè)試集;第3套方案,訓(xùn)練集的數(shù)目由每個(gè)人的7組姿勢(shì)構(gòu)成,其余3組姿勢(shì)構(gòu)成測(cè)試集,PCA能量選取95%。每種方案的最高識(shí)別率如表1所示。
表1 各個(gè)方案在ORL上最優(yōu)識(shí)別率比較
從表1中可以看到,隨著訓(xùn)練樣本數(shù)的增加,識(shí)別率呈上升的趨勢(shì)。
Yale人臉庫包含了15個(gè)人的165張人臉,每人11張,包括了不同光照條件(燈光往左照射、往右照射、往中間照射),不同的面部表情(正常的、開心的、沮喪的、睡著的、驚訝的以及眨眼的),不同場(chǎng)景的(戴眼鏡的和不戴眼鏡的),如圖4所示為Yale人臉庫中一個(gè)人的11幅具有不同特征的人臉圖像。
圖4 Yale人臉庫中某人的11張人臉圖像
與ORL上的實(shí)驗(yàn)相同,為了比較實(shí)驗(yàn)結(jié)果,同樣執(zhí)行3套方案:第1套方案,使用的訓(xùn)練集的數(shù)量由每個(gè)人的6組姿勢(shì)構(gòu)成,其余5組姿勢(shì)構(gòu)成測(cè)試集;第2套方案,訓(xùn)練集的數(shù)目由每個(gè)人的7組姿勢(shì)構(gòu)成,其余4組姿勢(shì)構(gòu)成測(cè)試集;第3套方案,訓(xùn)練集的數(shù)目由每個(gè)人的8組姿勢(shì)構(gòu)成,其余3組姿勢(shì)構(gòu)成測(cè)試集,PCA能量選取95%。每種方案的最高識(shí)別率如表2所示。
表2 各個(gè)方案在Yale上最優(yōu)識(shí)別率比較
從表2中同樣可以看出,隨著訓(xùn)練樣本數(shù)的增加,識(shí)別率呈上升的趨勢(shì)。
將本文方法與PCA[3],LDA[4],LPP[5],OLF[6],GCFF[7],MKLF[8]方法相同情況下在 ORL 及 Yale 上的最優(yōu)識(shí)別率進(jìn)行了比較,其中,GCFF,MKLF是最近學(xué)者們提出的兩種比較新穎的特征融合方法。比較結(jié)果如表3、表4所示。
表3 各方法在ORL上的最優(yōu)識(shí)別率比較
表4 各方法在Yale上的最優(yōu)識(shí)別率比較
通過表3、表4可以看出,本文方法的在ORL及Yale上的識(shí)別率明顯比其他方法高,因?yàn)楸疚姆椒紤]了全局結(jié)構(gòu),又考慮了局部結(jié)構(gòu),由此再次驗(yàn)證了不管是全局結(jié)構(gòu),還是局部結(jié)構(gòu),在特征提取過程中都是很重要的。結(jié)合表1、表2還可以看出,識(shí)別率百分比在高維有穩(wěn)定的趨勢(shì),而在低維有上升的趨勢(shì)。由于大量的主導(dǎo)特征沒有作為相似性的測(cè)量,一些錯(cuò)誤會(huì)發(fā)生在使用少量的特征??梢宰C明,當(dāng)用來衡量相似性的特征增加時(shí),識(shí)別率百分比也增加了。
本文對(duì)基于圖像的特征提取問題進(jìn)行了研究,采用全局與局部特征融合的方法,將PCA和LDA的提取結(jié)果融合到LPP中,在ORL及其FERET兩大人臉數(shù)據(jù)庫上進(jìn)行了實(shí)驗(yàn),證明了本文所提方法的優(yōu)越性。特征融合方法的引用,提高了單樣本的識(shí)別率,但在訓(xùn)練階段需要一次運(yùn)行多種不同的方法,必然會(huì)帶來額外的計(jì)算開銷,所以,在提高識(shí)別率的同時(shí),提高識(shí)別效率,并且找到一個(gè)更好的融合方案,將是進(jìn)一步研究的重點(diǎn)。
[1]KIM T,KITTLER J.Locally linear discriminant analysis for multi modally distributed classes for face recognition with a single model image[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(3):318-327.
[2]WANG X,TANG X.Random sampling for subspace face recognition[J].International Journal of Computer Vision,2006,70(1):91-104.
[3]YAN S,LIU J,TANG X,et al.A parameter-free framework for general supervised subspace learning[J].IEEE Transactions on Information Forensics and Security,2007,2(1):69-76.
[4]LI B,HUANG D S,WANG C,et al.Feature extraction using constrained maximum variance mapping[J].Pattern Recognition,2008,41(11):3287-3294.
[5]XIE Z,LIU G,F(xiàn)ANG Z.Face recognition based on combination of human perception and local binary pattern[J].Lecture Notes in Computer Science,2012,72(2):365-373.
[6]WANG R,SHAN S,CHEN X,et al.Manifold-manifold distance and its application to face recognition with image sets[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,21(10):4466-4479.
[7]OU Fan,HAN Zhaocui,LIU Chong,et al.Face verification with feature fusion of Gabor based and curvelet based representations[J].Multimedia Tools and Applications,2012,57(3):549-563.
[8]YEH Y,LIN T,CHUNG Y,et al.A novel multiple kernel learning framework for heterogeneous feature fusion and variable selection[J].IEEE Transactions on Multimedia,2012,14(3):563-574.
[9]張愛華,尉宇.基于混沌粒子群的決策樹SVM的調(diào)制模式識(shí)別[J].電視技術(shù),2012,36(23):126-129.
[10]劉翠響,肖伶俐.基于連續(xù)均值量化變換的人臉檢測(cè)算法[J].電視技術(shù),2013,37(1):154-156.