梁傳君, 卜宇, 王紅梅(新疆工程學(xué)院 計(jì)算機(jī)工程系,烏魯木齊 830011)
加權(quán)估計(jì)紋理分析結(jié)合高斯黎曼流形的人臉識(shí)別方法
梁傳君, 卜宇, 王紅梅
(新疆工程學(xué)院 計(jì)算機(jī)工程系,烏魯木齊 830011)
針對(duì)圖像集人臉識(shí)別中的子空間模型限制問(wèn)題,提出了加權(quán)估計(jì)紋理分析結(jié)合高斯黎曼流形的人臉識(shí)別方法(WETA -GRMD)。使用樣本圖像和從樣本獲得的仿射包模型聯(lián)合表示一幅圖像。加權(quán)估計(jì)紋理分析進(jìn)行人臉匹配,并解決權(quán)值最優(yōu)化問(wèn)題。利用高斯黎曼流形計(jì)算高斯分量具有識(shí)別能力的信息,并通過(guò)尋找最大判別分量識(shí)別人臉。在兩個(gè)具有一定挑戰(zhàn)性的數(shù)據(jù)集YouTube Celebrities(YTC)和YouTube Face(YTF)上的實(shí)驗(yàn)驗(yàn)證了提出方法的有效性,結(jié)果表明,相比其他幾種較新的方法,提出的方法具有更高的識(shí)別率。
人臉識(shí)別; 高斯黎曼流形; 加權(quán)估計(jì); 紋理分析; 仿射包模型; 特征提取
與傳統(tǒng)基于單幅圖像的人臉識(shí)別相比,基于圖像集的人臉識(shí)別[1]具有明顯的不同,每個(gè)圖像集包含很多屬于某個(gè)人或某些人的表情圖像或視頻,即更多表情、不同視角或不同光照的目標(biāo)人臉信息[2]。圖像集為人臉識(shí)別提供了更多機(jī)會(huì),但也為人臉識(shí)別帶來(lái)了新的挑戰(zhàn),即利用他們的內(nèi)部語(yǔ)義關(guān)系建模圖像集,而小樣本情況下的分類模型不能利用這些語(yǔ)義關(guān)系[3,4]。
圖像集人臉識(shí)別可分為3類:基于線性或仿射子空間的方法[5-6]、基于非線性流形的方法[7-8]和基于統(tǒng)計(jì)模型的方法[9-11]。
格拉斯曼判別分析(Grassmann Discriminant Analysis, GDA)[5-6]在格拉斯曼流形上將圖像集看作點(diǎn)(子空間),且使用基于特征角的格拉斯曼核完成流形上的差異性學(xué)習(xí)。因?yàn)閳D像集常常擁有大量圖像且包含不同視角、光照和表情的變化信息,因此,基于線性或仿射子空間的方法很難獲得令人滿意的非線性人臉外觀。
為了解決子空間模型的限制,文獻(xiàn)[7-8]提出了流形-流形距離(Manifold-Manifold Distance, MMD)方法,利用一種更加復(fù)雜的非線性流形建模圖像集,假設(shè)每種圖像集符合非線性流形特征,即非線性能分割成許多局部線性模型,且流形間的相似性能轉(zhuǎn)換為組合子空間之間距離的集合,但局部模型匹配精度有待進(jìn)一步提高。
由于統(tǒng)計(jì)模型更加靈活,許多方法運(yùn)用統(tǒng)計(jì)模型對(duì)圖像集建模。例如,文獻(xiàn)[9]使用單高斯函數(shù)和流形密度方法(Manifold Density Method, MDM)獲得混合高斯模型(Gaussian Mixture Model,GMM),使用經(jīng)典KL散度測(cè)量不同分布之間的距離。由于這兩種方法是無(wú)監(jiān)督學(xué)習(xí)方法,當(dāng)數(shù)據(jù)集間存在較弱統(tǒng)計(jì)相關(guān)性時(shí),該方法的識(shí)別性能波動(dòng)較大。文獻(xiàn)[11]提出一種協(xié)方差學(xué)習(xí)(Covariance Discriminative Learning,CDL)方法,通過(guò)二階統(tǒng)計(jì)量建模圖像集,即協(xié)方差矩陣,然后黎曼核函數(shù)在黎曼空間使用非奇異協(xié)方差矩陣學(xué)習(xí)差異模型,然而,文獻(xiàn)[11]僅使用協(xié)方差信息,而協(xié)方差信息僅在表示數(shù)據(jù)相關(guān)性方面具有一定優(yōu)勢(shì)。
為了表示圖像集中不同的圖像,使用GMM描述這種變化,但GMM分布的差異還不足以完成分類任務(wù)。因此,提出了一種基于加權(quán)估計(jì)紋理分析結(jié)合高斯黎曼流形判別分析(WETA-GRMD)的方法。該方法通過(guò)不同高斯分布的距離差異,獲取相應(yīng)的正定概率核,該概率核能編碼黎曼流形。
使用樣本圖像和從樣本獲得的仿射包模型聯(lián)合表示一幅圖像,因?yàn)橥瑫r(shí)包括樣本和結(jié)構(gòu)信息,所以該聯(lián)合表示更具魯棒性。令Xc=[x1,x2,…xnc]表示第c個(gè)圖像集,其中,xi是第i幅圖像的特征向量,類的仿射包估計(jì)為式(1)。
(1)
也可使用其他參數(shù)形式表示為式(2)。
(2)
2.1 人臉匹配
設(shè)人臉庫(kù)中有許多兩眼清晰且具有相同坐標(biāo)的人臉圖像,使用Sir表示第i個(gè)人的第r張人臉圖像,將圖像劃分為B塊大小相等互不重疊的圖像小塊。
通過(guò)計(jì)算直方圖距離判斷2張圖像是否為同一個(gè)人,如式(3)。
(3)
式(3)中,wb表示權(quán)值。
常見(jiàn)的相關(guān)反饋機(jī)制是基于對(duì)一組圖像Q?χ的用戶反饋處理[12],Q中的元素為處于前一步迭代中產(chǎn)生的排序?yàn)榍皐的元素,那些計(jì)算得到最高概率P(relevant|x)的元素作為與用戶查詢相關(guān)的元素。該過(guò)程導(dǎo)致了嚴(yán)重的有偏估計(jì),并且獲得的分值可靠性在整個(gè)特征空間上顯著不同。
假設(shè)有一個(gè)新的隨機(jī)變量reliable,可以在集合{true,false}上取值,這取決于x以及表達(dá)相關(guān)的后驗(yàn)概率P(relevant|x)。
如果reliable為真,則在給定點(diǎn)x的對(duì)應(yīng)的相關(guān)估計(jì)認(rèn)為是可信的。但是,如果reliable為假,則有關(guān)相關(guān)性的唯一信息則由P(相關(guān))給定,而與x無(wú)關(guān)。如果可以得到可靠性信息,并且假設(shè)為獨(dú)立的,則獲得x相關(guān)性的正確概率為式(4)。
P′(relevant|x)=P(reliable|x)·P(relevant|x)+
(1-P(reliable|x))·P(relevant|x)
(4)
采用P(reliable|x)就可以同時(shí)解決人臉匹配引起的小樣本規(guī)格和標(biāo)記樣本局域性問(wèn)題了。這樣一個(gè)概率函數(shù)的定義是限定在一定的范圍內(nèi)的,但是無(wú)疑在評(píng)估點(diǎn)x附近的樣本密度時(shí)與其相關(guān)的。
2.2 權(quán)值估計(jì)
Dirjt=dirjtwT
(5)
假設(shè)2種圖像對(duì)的協(xié)方差矩陣相等,則利用Fisher準(zhǔn)則尋找最優(yōu)權(quán)值為式(6)。
(6)
然而,式(6)并不符合從左到右的面部對(duì)稱,若令bw=b+B/2w,權(quán)值則具有對(duì)稱性,故將式(6)改寫為式(7)。
(7)
因此,權(quán)值問(wèn)題得到了解決。
C={(C1,y1),(C2,y2),…(Cn,yn)}
(8)
式(8)中,yi∈{1,2,…m}表示類的標(biāo)簽,m為類總數(shù),矩陣Ci與l之間的相似性可定義為式(9)。
(9)
式(9)中,δ(·)是離散狄拉克函數(shù),且Nl為式(10)。
(10)
式中,nl為訓(xùn)練的矩陣總數(shù)。
在流形上建立表示黎曼點(diǎn)的一組參考點(diǎn)Ci,i∈{1,2,…n},使用式(11)計(jì)算Ci,i∈{1,2,…n}與所有類之間的相似性,用相似模式表示每一個(gè)黎曼點(diǎn)Ci為式(11)。
(11)
訓(xùn)練數(shù)據(jù)的相似向量表示為式(12)。
P={(p1,y1),(p2,y2),…(pn,yn)}
(12)
利用FLDA提取特征,得到映射W*為式(13)。
(13)
式(13)中,SB和SW分別表示類間散射矩陣和類內(nèi)散射矩陣為式(14)、(15)。
(14)
(15)
將pq映射到特征空間為式(16)。
xq=W*Tpq
(16)
最后,利用最近鄰分類為xq分配類標(biāo)簽,完成分類。
測(cè)試階段,給定通過(guò)GMM建模的測(cè)試圖像,首先計(jì)算高斯分量具有識(shí)別能力的信息。然后通過(guò)尋找所有可能判別高斯分量之間的最大分量識(shí)別人臉。算法1總結(jié)了本文判別分析(Discriminant Analysis,DA)算法的訓(xùn)練和測(cè)試過(guò)程。
算法1判別分析算法的訓(xùn)練和測(cè)試過(guò)程輸入:GMM和訓(xùn)練圖像集n幅圖像的標(biāo)簽:G1,l1{},…,Gn,ln{}。Nk表示第k幅圖像的高斯函數(shù)數(shù)量,g1,…,gn表示所有訓(xùn)練GMM的高斯函數(shù),其中N=∑nk=1Nk;圖像集Gte的GMM用于測(cè)試,使用gte1,…,gteM表示高斯分量。輸出:測(cè)試圖像集的標(biāo)簽lte。1:根據(jù)式(12)計(jì)算ktri=kgi,g1(),…,kgi,gN()[]T和ktej=kgtej,g1(),…,kgtej,gN()[]T,i∈1,N[],j∈1,M[];2:最大化式(16)計(jì)算變換矩陣;3:計(jì)算屬于第k個(gè)圖像集的Nk個(gè)高斯函數(shù)的映射zk1,…,zkNk,k∈1,n[];4:計(jì)算屬于測(cè)試集的M個(gè)高斯函數(shù)的映射zte1,…,zteM;5:計(jì)算ztei和zkj之間的余弦相似性cosztei,zkj();6:計(jì)算^k=argmaxkcosztei,zkj(),對(duì)所有i∈1,M[],j∈1,Nk[];7:返回lte=l^k;
實(shí)驗(yàn)在配置為英特爾雙核i3 CPU、2.98 GHz主頻、4.0 GB內(nèi)存的PC機(jī)上實(shí)現(xiàn),編程環(huán)境為MATLAB 2011b。
4.1 數(shù)據(jù)庫(kù)描述
實(shí)驗(yàn)使用兩個(gè)具有一定挑戰(zhàn)性的大型數(shù)據(jù)庫(kù):YouTube Celebrities(YTC)[14]和YouTube Face DB(YTF)[15]。為YTC和YTF的樣本圖像,如圖1所示。
對(duì)這兩個(gè)數(shù)據(jù)庫(kù),使用級(jí)聯(lián)人臉檢測(cè)器檢測(cè)視頻幀中人臉,然后歸一化YTC人臉為20×20,YTF人臉為24×40。為了緩解光照的影響,對(duì)以上兩種數(shù)據(jù)庫(kù)獲取的灰度人臉圖像進(jìn)行直方圖歸一化。
(a) YTC
(b) YTF圖1 人臉庫(kù)樣本圖像示例
4.2 不同數(shù)量高斯分量下算法性能比較
YTC上不同數(shù)量高斯分量時(shí),本文方法的流形距離(manifold distance,MD)與識(shí)別率的曲線關(guān)系圖,如圖2所示。
圖2 不同高斯分量數(shù)量情況下,本文方法在YTC上的識(shí)別率
從圖2中可以看出,對(duì)每個(gè)數(shù)據(jù)集,高斯分量的數(shù)量不同。高斯分量的平均數(shù)量沒(méi)有必要是整數(shù)。實(shí)驗(yàn)結(jié)果顯示,在合理數(shù)量高斯分量范圍內(nèi),算法性能比較穩(wěn)定。當(dāng)高斯分量的平均數(shù)量約為7時(shí),本文方法所獲取的性能最佳。
4.3 實(shí)驗(yàn)結(jié)果和分析
比較的方法如下:
(1) 基于線性或仿射子空間的方法:GDA;
(2) 基于非線性流形的方法:MMD;
(3) 基于統(tǒng)計(jì)模型的方法:MDM、CDL[11]、CHISD[12]和SANP[13]。
除GDA和MDM外,原作者均提供了算法的源代碼。為公平起見(jiàn),根據(jù)原參考文獻(xiàn)調(diào)整每種算法的主要參數(shù)。對(duì)所有這些算法,首先使用PCA降維,保留95%的數(shù)據(jù)能量。
YTC數(shù)據(jù)集:YTC包含47個(gè)個(gè)體的1 910個(gè)視頻,使用10折交叉驗(yàn)證實(shí)驗(yàn)且從十折的每一折中隨機(jī)選擇三組訓(xùn)練數(shù)據(jù)和六組測(cè)試數(shù)據(jù)。本文數(shù)據(jù)庫(kù)中總共有1 910組。由于數(shù)據(jù)集包括由3個(gè)不同像機(jī)拍攝的視頻,因此,對(duì)每種視頻分別采用十折交叉驗(yàn)證。
YTF數(shù)據(jù)集:YTF包含1 595個(gè)個(gè)體的3 425個(gè)視頻,數(shù)據(jù)集設(shè)置與文獻(xiàn)[15]相同。隨機(jī)選擇5 000個(gè)視頻對(duì),且這些視頻中的一半來(lái)自于同一個(gè)體,另一半為不同個(gè)體。然后,將這些數(shù)據(jù)集分為10組且每組包含250個(gè)“相同”對(duì)和250個(gè)“不同”對(duì)。
在不同的實(shí)驗(yàn)設(shè)置下,通過(guò)減少集大小將本文方法與現(xiàn)有的先進(jìn)方法進(jìn)行比較,為查詢和圖庫(kù)集大小設(shè)置上界m,當(dāng)視頻包含的幀超過(guò)m時(shí),僅使用前m個(gè)進(jìn)行訓(xùn)練和測(cè)試,如果視頻包含的幀少于m,則使用全部幀。YTC和YTF上的錯(cuò)誤率,如表1、表2所示。
表1 YTC上的分類錯(cuò)誤率
表2 YTF上的分類錯(cuò)誤率
從表1、表2中可以看出,當(dāng)使用更多樣本時(shí),通常性能會(huì)更好,本文方法和SANP在完整視頻序列上實(shí)現(xiàn)了完美分類,但是當(dāng)減少集樣本時(shí),本文方法實(shí)現(xiàn)了最佳性能。CDL和CHISD的性能低于文獻(xiàn)[11]和文獻(xiàn)[12]給出的結(jié)果,因?yàn)檎{(diào)整圖像集大小為20×20,而非40×40。
GDA、MDM和MMD在整長(zhǎng)視頻上優(yōu)于CDL和CHISD,但是當(dāng)集大小減小時(shí)他們的性能急劇下降。CDL和CHISD不能像前三種方法那樣在大集上執(zhí)行,但他們的性能不會(huì)急劇下降。SANP在整長(zhǎng)視頻上獲得了完美分類,但不能像本文方法那樣在較小集上執(zhí)行。
幾種方法在兩個(gè)數(shù)據(jù)庫(kù)上5倍實(shí)驗(yàn)時(shí)的平均錯(cuò)誤率和相關(guān)的標(biāo)準(zhǔn)差,本文方法優(yōu)于其他所有方法。如表3所示。
從表3可以看出,所有方法的性能在這個(gè)數(shù)據(jù)集上都相對(duì)較低,因?yàn)樗藨B(tài)、光照和表情方面的大外觀變化,且由于低質(zhì)量視頻中的跟蹤誤差,無(wú)法精確裁剪人臉。
表3 平均分類錯(cuò)誤率和標(biāo)準(zhǔn)差
4.3 分析
上述兩個(gè)實(shí)驗(yàn)的CMC曲線(累積匹配特征),如圖3所示。
(a) YTC
(c) YTF圖3 錯(cuò)誤率的CMC曲線(10倍結(jié)果)
本文方法在YTF數(shù)據(jù)上從rank 1到10、在YTC數(shù)據(jù)上從rank 1到4獲得了最佳性能。本文方法在不同特征類型上能持續(xù)獲得最佳性能,相對(duì)其他性能隨特征類型波動(dòng)的方法來(lái)說(shuō)這是一個(gè)優(yōu)點(diǎn)。
兩個(gè)數(shù)據(jù)集上比較了所有方法的等差率(Equal Error Rate,EER),如表4所示。
在YTC和YTF數(shù)據(jù)集的情況下,分別給出了5倍實(shí)驗(yàn)時(shí)的平均EER和標(biāo)準(zhǔn)差,本文方法獲得了最佳整體性能。
表4 YTC和YTF上的等差率
本文提出一種用于圖像集人臉識(shí)別的高斯黎曼流形判別分析方法,與傳統(tǒng)在歐氏空間學(xué)習(xí)判別分析的方法不同,該方法在黎曼流形空間學(xué)習(xí)高斯分布。使用樣本圖像和從樣本獲得的仿射包模型聯(lián)合表示一幅圖像,使用加權(quán)估計(jì)紋理分析方法進(jìn)行人臉匹配,利用高斯黎曼流形完成人臉?lè)诸?。YTC和YTF上的識(shí)別結(jié)果表明,提出的方法識(shí)別率高于其他幾種優(yōu)秀方法。
未來(lái)將研究更多高斯分布的概率核函數(shù)和更加通用的用于高斯分布黎曼流形學(xué)習(xí)的方法。
[1] 顧偉, 劉文杰, 朱忠浩,等. 一種基于膚色模型和模板匹配的人臉檢測(cè)算法[J]. 微型電腦應(yīng)用, 2014, 30(7): 13-16.
[2] Yang A Y, Zhou Z, Balasubramanian A G, et al. Fast -Minimization Algorithms for Robust Face Recognition[J]. Image Processing IEEE Transactions on, 2013, 22(8): 3234-3246.
[3] 李雅倩, 李穎杰, 李海濱, 等. 融合全局與局部多樣性特征的人臉表情識(shí)別[J]. 光學(xué)學(xué)報(bào), 2014, 34(5): 515-520.
[4] Lu J, Tan Y P. Locality repulsion projections for image-to-set face recognition[C]// IEEE International Conference on Multimedia amp; Expo IEEE Computer Society, 2011: 1-6.
[5] Huang L, Lu J, Tan Y P. Co-Learned Multi-View Spectral Clustering for Face Recognition Based on Image Sets[J]. Signal Processing Letters IEEE, 2014, 21(7): 875-879.
[6] Alashkar T, Amor B B, Daoudi M, et al. A Grassmannian Framework for Face Recognition of 3D Dynamic Sequences with Challenging Conditions[M]// Computer Vision-ECCV 2014 Workshops Springer International Publishing, 2014: 326-340.
[7] Huang L, Lu J, Tan Y P, et al. Collaborative reconstruction-based manifold-manifold distance for face recognition with image sets[C]// Multimedia and Expo (ICME), 2013 IEEE International Conference on IEEE, 2013: 1-6.
[8] 于謙, 高陽(yáng), 霍靜,等. 視頻人臉識(shí)別中判別性聯(lián)合多流形分析[J]. 軟件學(xué)報(bào), 2015, 32(11): 2897-2911.
[9] Arandjelovic O, Shakhnarovich G, Fisher J, et al. Face Recognition with Image Sets Using Manifold Density Divergence[J]. IEEE, 2005, 27(1): 581-588.
[10] 馬龍. 基于多流形判別分析的單樣本人臉識(shí)別研究[D]. 南京:南京理工大學(xué), 2014.
[11] Arandjelovic O, Shakhnarovich G, Fisher J, et al. Face recognition with image sets using manifold density divergence[C]// Computer Vision and Pattern Recognition(CVPR), 2005: 581-588.
[12] Z. Cui, S. Shan, H. Zhang, S. Lao, and X. Chen. Image sets alignment for video-based face recognition[C]// IEEE Computer Society on Computer Vision and Pattern Recognition (CVPR), 2012: 1678-1684.
[13] Hu Y, Mian A S, Owens R. Face Recognition Using Sparse Approximated Nearest Points between Image Sets[J]. IEEE Transactions on Pattern Analysis amp; Machine Intelligence, 2012, 34(10): 1992-2004.
[14] 曾青松. 黎曼流形上的保局投影在圖像集匹配中的應(yīng)用[J]. 中國(guó)圖象圖形學(xué)報(bào), 2014, 19(1): 414-420.
[15] L. Wolf, T. Hassner, and I. Maoz. Face recognition in unconstrained videos with matched background similarity[C]// In IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2011: 1369-1374.
AFaceRecognitionMethodBasedonFusionofWETAandGaussianRiemannianManifold
Liang Chuanjun, Bu Yu, Wang Hongmei
(Department of Computer Engineering, Xinjiang Institute of Engineering, Urumqi, Xinjiang Uygur Autonomous Region, 830011, China)
In allusion to the subspace model limitation problem in the image set based face identification, the face identification method based on weighted estimation for texture analysis-Gaussian Riemann manifold (WETA-GRMD) is proposed in this article. Firstly, the sample image and the affine hull model obtained from the sample are combined to represent an image; then, weighted estimation for texture analysis (WETA) is adopted to execute the face matching operation and solve the weight optimization problem; finally, Gaussian Riemann manifold (GRMD) is adopted to calculate the information with identification capability in Gaussian component in order to find the maximum discriminant component for face identification. Meanwhile, the effectiveness of the proposed method is verified by the experiment in two challenging data sets YouTube Celebrities (YTC) and YouTube Face (YTF), and the result shows that compared with several other new methods, the proposed method has higher identification rate.
Face identification; Gaussian Riemann manifold; Weighted estimation for texture analysis; Affine hull model; Feature extraction
新疆維吾爾自治區(qū)高??蒲杏?jì)劃青年教師科研啟動(dòng)基金項(xiàng)目(XJEDU2016S085);新疆工程學(xué)院科研基金項(xiàng)目(2015xgy101712)。
梁傳君(1980-),女,碩士,講師,研究方向:圖形圖像處理、模式識(shí)別等。
卜宇(1981-),女,講師,碩士,研究方向:圖像處理、模式識(shí)別等。
王紅梅(1982-),女,副教授,碩士,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)及模式識(shí)別等。
1007-757X(2017)11-0015-05
TP391.4
A
2016.11.30)