吳育鋒,徐向藝
(1.麗水學(xué)院工學(xué)院,浙江麗水323000;2.平頂山學(xué)院軟件學(xué)院,河南平頂山467002)
視頻人臉自動識別已廣泛應(yīng)用于許多新興領(lǐng)域,如情感計算和智能人機交互(Human Computer Interaction,HCI)等[1]。由于二維相機的普及,大多數(shù)現(xiàn)有的人臉識別是使用2D靜態(tài)圖像或視頻完成的[2]。然而,2D面部數(shù)據(jù)存在一些固有的問題,如光照條件變化和姿態(tài)變化等,三維數(shù)據(jù)形態(tài)可以有效地解決2D數(shù)據(jù)面臨的問題[3]。文獻[4]和文獻[5]針對近期3D 人臉識別(Facial Expression Recognition,F(xiàn)ER)給出了全面的研究,研究結(jié)果表明,如今幾乎所有的3D人臉識別工作是基于靜態(tài)3D圖像的,通常認為3D視頻可以就人臉的動態(tài)特征提供更多的信息,這對于人臉識別至關(guān)重要。
為了解決視頻人臉識別問題,學(xué)者們提出了許多相關(guān)方法。例如,文獻[6]提出了一種基于流形到流形之間距離的方法,一定程度上解決了視頻人臉識別問題,提高了識別率。通常,非線性流形方法表示圖像集為一個局部線性子空間的組合[7]?;趫D像集的表示法,集之間的距離可以定義為這2個圖像集中的2個“范例”(即樣本平均)之間的距離。文獻[8]通過橫跨圖像集樣本的仿射或凸包特征化每個圖像集,選擇2個距離最近的點(1個包上1個點)作為“范例”。非參數(shù)化方法的另一類集間距離是通過比較非參數(shù)化模型的結(jié)構(gòu)得到的,例如,廣泛應(yīng)用于文獻[9]的典型相關(guān)分析,分析了線性子空間之間的主角度和正則關(guān)系。文獻[10]通過一種包含4個狀態(tài)的模型(中立-發(fā)生-極限-偏移)對面部表情序列進行建模。文獻[11]提出一個圖像集人臉識別方法:稀疏近似最近點(SANP),該方法將每個圖像集建模成1個仿射包,選擇2個距離最近的點(每個圖像集中1個點)作為稀疏近似最近點(SANP),其中要求SANPs是由原始樣本稀疏表示的,最終集之間的距離就是SANPs之間的距離乘以仿射包的維度。SANP相比于以前的算法,能得到更先進的性能[12]?;诿娌克角€的3D 視頻表情識別方法,文獻[13]通過使用Chamfer距離比較跨幀的曲線從而提取出時空特征,同時使用了一種基于HMM的決定邊界焦點算法進行分類。然而,現(xiàn)有3D人臉識別方法往往偏向于從3D視頻中提取特征,但這些方法無法用在正式的視頻人臉識別系統(tǒng)中[14]。
基于上述分析,為了解決傳統(tǒng)的3D人臉識別方法中存在的問題,提出了一種基于視頻分塊聚類的格拉斯曼流形[15]自動識別系統(tǒng),能夠從3D視頻中識別出6種不連續(xù)的面部表情、姿態(tài)及光照變化,實驗結(jié)果表明了本文方法的有效性及可靠性。
聚類可以概況為:給定一組點{x1,x2,…,xn}并給出每對點的相似度比較,將所有點劃分成群組,這樣同一組中的點是相似的,而不同組內(nèi)的點不相似。
根據(jù)定義,流形是一種拓撲空間,其局部與歐式空間相似。格拉斯曼流形是in的所有線性子空間的空間。目前格拉斯曼流形上的聚類技術(shù)在聚類算法(例如K-means)每次迭代時都需要計算流形上點的距離和平均。格拉斯曼流形上計算平均和聚類的方法可以大致分為內(nèi)在的和外在的。內(nèi)在的方法完全局限于流形本身,而外在方法可將流形上的點嵌入歐式空間并使用歐式度量進行計算。無論是使用內(nèi)在或外在的方法進行迭代過程計算(例如K-means)都十分耗時,且計算量很大。
使用譜聚類可避免格拉斯曼上的迭代計算,聚類的問題可以簡化為圖拉普拉斯矩陣的特征向量分解。針對格拉斯曼的一組點{U1,U2,U3,…,Un}的完整的譜聚類算法如算法1。首先,計算出圖拉普拉斯矩陣L∈in×n,該矩陣信息豐富,攜帶了流形上所有點對的相似性得分。如前文所述,格拉斯曼上的點是in的d維子空間,計算中,這些點保存在高瘦的正交化矩陣in×d中,可使用典型相關(guān)分析計算格拉斯曼流形上每對點的相似度。一種計算兩點U1和U2的典型相關(guān)的有效方法是對U2=Q12ΛQ21進行奇異值分解,典型相關(guān)是對角矩陣Λ的奇異值。譜聚類的理論表明規(guī)范化的圖拉普拉斯矩陣更合適,聚類的效果更佳。對于矩陣L,其規(guī)范化的圖拉普拉斯為Lnorm=,其中D是對角度矩陣,其第i個對角元素等于L中第i行所有元素的總和。計算Lnorm之后,按照算法1所示的步驟繼續(xù)完成聚類過程。與現(xiàn)有的聚類算法不同(其每一次迭代都需要計算格拉斯曼流形上的均值和距離),提出的譜聚類算法將該問題縮減到一個低維的歐式空間中,所以聚類過程更加快速、有效。與最近發(fā)表的一種在格拉斯曼上聚類的方法相比,所提譜聚類算法在運行速度上比它快大約10~15倍。
算法1:在格拉斯曼上的譜聚類。
輸入:流形上的點:{U1,U2,U3,…,Un}。
1)計算圖拉普拉斯矩陣L∈in×n;
3)計算Lnorm的首個m特征向量;
4)令V∈in×n包含Lnorm的m特征向量;
輸出:聚類:{C1,C2,…,Ck},其中Ci={j|yj∈Ci}。
通過完全自動化的面部規(guī)范化過程使得視頻中所有網(wǎng)格的大小和分辨率都一致,圖1所示為3D面部規(guī)范化過程的框圖,細節(jié)過程在下文給出。以點云矩陣Pm×3表示3D面部,其中m是點的總數(shù),P的每一行對應(yīng)于一個點(頂點)的x,y,z坐標(biāo)。3D面部圖像包含孤立點,如圖1a中圈出的區(qū)域所示,找出所有點深度zi的均值μ=和標(biāo)準(zhǔn)偏差可以去除孤立點,任何深度超出μ±3σ極限的點可視作為孤立點被過濾掉,成功探測出鼻尖之后,以鼻尖為中心半徑范圍r(r=85 mm)裁剪面部,圖1d展示了裁剪出的3D面部,采用與文獻[7]中相似的技術(shù)進行姿勢糾正,計算出點云矩陣P的均值向量和協(xié)方差矩陣C=對協(xié)方差矩陣的主元分析(PCA)得到特征向量矩陣V,用來使點云矩陣P沿它的主軸對齊,其中P′=V(P-μ)。姿勢糾正點云再次重新采樣成統(tǒng)一的方形網(wǎng)格160×160,分辨率為1 mm。
圖1 3D面部圖形規(guī)范化
所提的基于3D視頻的面部識別系統(tǒng)的完整流程如圖2所示,線下訓(xùn)練階段,系統(tǒng)從訓(xùn)練視頻的不同位置提取視頻片段,分別學(xué)習(xí)6類的表示;線上測試階段,通過類代表獲得提取的檢索視頻片段的相似度,同時使用一種基于表決的策略來決定檢索臉部的類別。視頻的總體模式包含這些片段:中立,緊接著是發(fā)生、極限和偏移。肉眼觀察數(shù)據(jù)庫中的視頻時,注意到“中立-發(fā)生-極限-偏移”的次序并不一定適用于每個視頻。例如,一些視頻開始于表情的發(fā)生階段,跳過了中立階段,或者在一些視頻中,執(zhí)行者可能不回到表情的偏移階段。因此,將完整視頻序列作為一個整體進行建模可能導(dǎo)致性能降低,需要在視頻的不同位置提取不同長度的局部視頻片段。
圖2 基于3D視頻的面部識別系統(tǒng)框圖
針對給出的包含n幀的規(guī)范化視頻序列V=[f1,f2,f3,…,fn],使用一個可變長度的滑動窗口沿著序列提取視頻片段。使用不同長度的滑動窗口的動機來自于觀察,如果某人在特定的幀數(shù)量期間內(nèi)執(zhí)行一種表情活動,另一個人可能在不同的幀數(shù)量期間內(nèi)執(zhí)行相同的表情活動。
每個提取出的視頻片段被表示成一個矩陣X=[f1,f2,f3,…,fm]∈ i25600×m,該矩陣的列對應(yīng)于視頻片段的 m幀的柵格掃描深度值。將X減去均值可以丟棄身份信息,僅保留所需的X的變形信息。通過X′=USVT可得到結(jié)果矩陣X′=X-μ的奇異值分解(SVD)。U的列形成正交單位向量組,可視作為基向量。這些基向量按重要性降序排列,攜帶了視頻片段中包含的重要的表情變形信息。圖3顯示了頂層4個基向量,分別對應(yīng)于從高興、悲傷和驚訝這3種表情中提取的視頻片段的頂層4個奇異值。
圖3 從高興、悲傷和驚訝3種表情中提取的視頻片段的頂層4個基向量
這些基向量的集合(包含了U中頂層基向量的高瘦的標(biāo)準(zhǔn)正交矩陣)可視作為格拉斯曼流形上的點。因為本文方法僅考慮頂層的4個基向量,所以點位于G25600,4,很明顯,G25600,4的維度很大,需占用大量內(nèi)存。用局部二值模式(Local Binary Pattern,LBP)[3]的直方圖替換視頻片段矩陣X的深度值就可以克服這個問題。將X中的每一幀劃分成4×4的非重疊塊,針對每個塊計算的直方圖i59。所有塊的直方圖是級聯(lián)的,幀由i944的特征向量所表示,導(dǎo)致點位于 G944,4而不是 G25600,4。
通過如上過程可獲得視頻的流形上的點,針對從一類表情的訓(xùn)練視頻中提取的所有視頻片段都執(zhí)行相同的過程,計算出格拉斯曼上的點。接著對這些點進行聚類,相似度圖拉普拉斯矩陣L顯示出一些點與其他點大不相同,這些點來自于視頻中表情表現(xiàn)為不正確或不一致的部分。因此,對于每一類表情僅考慮最相似的200個點,并將它們組成10個集群,計算出每個集群的均值。最后,將10個集群的中心視為類表示,并將其使用在分類步驟中。
按照相似的過程,可計算出所有6類表情的類表示,給定查詢視頻,對其歸一化和提取視頻片段之后,將視頻片段視作G944,4上的點。使用基于決策的策略決定查詢視頻的類別。使用典型相關(guān),可計算出類表示中查詢視頻的所有點的相似度。每個點只能對與其最相似的類表示投票。最后,得到投票數(shù)最多的類就視為查詢視頻的類別。
所有實驗均在4 Gbyte內(nèi)存Intel Core 2.93 GHz Windows XP計算機上完成,編程環(huán)境為MATLAB 7.0。
使用3個基準(zhǔn)圖像集數(shù)據(jù)庫包括Honda/UCSD[7]、CMU Mobo[12]和 YouTube 數(shù)據(jù)庫[15]評估本文方法,使用Viola和Jone的人臉探測器檢測3個數(shù)據(jù)集的所有人臉圖像,對于Honda/UCSD和YouTube數(shù)據(jù)集,直方圖均衡化之后人臉圖像大小分別裁剪為20×20和30×30,直接使用每個圖像的原始像素值作為數(shù)據(jù)矩陣中的特征。對于CMU Mobo數(shù)據(jù)集,提取LBP特征直方圖作為臉部特征。每個數(shù)據(jù)集,分別以幀數(shù)目為50、100和200執(zhí)行3次實驗,需要注意分類使用的所有圖像是否集中的幀數(shù)目少于給定的幀數(shù)目。
將本文方法與幾個先進的有代表性的圖像集分類方法做了比較,其中判別典型相關(guān)分析(DCC)[9]和互空間方法(MSM)[2]是線性子空間方法,流形到流形距離(MMD)[6]和流形判別分析(MDA)[7]是非線性流形方法,基于圖像集距離的 仿 射 包 (AHISD)[8]、基 于 圖 像 集 距 離 的 凸 包(CHISD)[8]和稀疏近似最近點(SANP)[11]都是仿射子空間方法。所有這些方法都使用各自作者提供的源代碼實現(xiàn),根據(jù)原文出處建議的參數(shù)調(diào)整得到最佳結(jié)果,對于AHISD、CHISA和SANP,本文使用它們的線性版本,因為本文沒有考慮本文方法的核版本。在Honda/UCSD和CMU Mobo數(shù)據(jù)集,每個類有一個單個訓(xùn)練圖像集,為DCC將每個單一訓(xùn)練圖像集劃分成兩個子集去構(gòu)建類內(nèi)集。
3.2.1 Honda/UCSD數(shù)據(jù)集
Honda/UCSD數(shù)據(jù)集包含20個不同對象的59個視頻序列,對于每個對象,不同序列中會有不同的姿態(tài)和表情,如圖1中的人臉圖像,使用20個序列進行訓(xùn)練,剩余的序列用于測試。
不同訓(xùn)練幀得到的識別結(jié)果見表1,可以清楚地看到,本文方法在所有情況下都能得到最佳性能,尤其是當(dāng)幀數(shù)目為200時,可以正確識別所有測試集,線性本文方法輸出結(jié)果優(yōu)于SANP,甚至與SANP的核版本有相同的性能。當(dāng)每個圖像集有足夠多圖像樣本時,所有方法都能得到良好的性能,除了MSM,通常得到的結(jié)果較差,當(dāng)圖像樣本數(shù)目不高時(如50),非線性流形方法(如MMD)不能得到高識別率,然而,基于仿射子空間的方法的性能一直保持良好。
表1 在Honda/UCSD數(shù)據(jù)庫上的識別率
3.2.2 CMU Mobo數(shù)據(jù)集
CMU Mobo數(shù)據(jù)集包含24個對象在跑步機上行走的96個序列,對于每個對象,有4個分別包含4種行走模式的視頻序列(有明顯的姿態(tài)變化)。采用的樣本特征為均勻LBP直方圖,使用圓形(8,1)鄰域從8×8方形灰度圖像中提取得到,隨機選擇每個對象的一幅圖像用作訓(xùn)練數(shù)據(jù),剩余圖像集作為測試數(shù)據(jù)。
執(zhí)行了10個實驗,平均識別率和標(biāo)準(zhǔn)差列于表2,所有情況下,本文方法都能得到最高的識別率,盡管SANP和CHISD與本文方法的識別精度接近,但在3.3節(jié)的運行時間比較中可以看到,本文方法的運行時間遠少于SANP和CHISD。當(dāng)只有50幀時,DCC、MSM和MDA的識別率低于90%,這可能是由于判別信息提取和流形分析依賴于每個圖像集有足夠多圖像樣本的事實導(dǎo)致的,相比于AHISD,本文方法的優(yōu)點是顯著的。
表2 在CMU Mobo數(shù)據(jù)庫上的識別率
3.2.3 YouTube數(shù)據(jù)集
YouTube數(shù)據(jù)集是一個大規(guī)模的視頻數(shù)據(jù)集,這個數(shù)據(jù)集比前兩個數(shù)據(jù)集更具挑戰(zhàn)性,因為數(shù)據(jù)集中的圖像大部分分辨率低,且有大的姿態(tài)、表情變化或運動模糊等,如圖4所示。在這部分,使用視頻序列的前29個明星做實驗,對于每個對象,隨機選擇3個視頻序列用作訓(xùn)練數(shù)據(jù),從剩余序列中再隨機選擇3個序列用作測試數(shù)據(jù)。利用重復(fù)隨機選擇的測試數(shù)據(jù),執(zhí)行了5個實驗。
圖4 YouTube數(shù)據(jù)集上的圖像示例
實驗結(jié)果,包括識別率和標(biāo)準(zhǔn)差均列于表3。得到的結(jié)論與前兩個數(shù)據(jù)集相似,本文方法比其他方法的性能更好,相比于第二好的方法SANP,當(dāng)幀數(shù)目為50和100時,得到超過1%的性能提高。在這個具有挑戰(zhàn)性的數(shù)據(jù)集上,MSM的結(jié)果最差,平均識別率低于70%,有趣的是,AHISD的識別率會隨著幀數(shù)目的增加而波動,同前兩個數(shù)據(jù)集中得到的結(jié)果類似。
表3 在YouTube數(shù)據(jù)庫上的識別率
本文方法能得到比其他方法更高的識別率,包括最近開發(fā)出的SANP,接下來比較它們的運行時間,這是實際應(yīng)用中最重要的內(nèi)容。
在CMU Mobo數(shù)據(jù)集上進行人臉識別,實驗設(shè)置同3.2節(jié),編程環(huán)境是MATLAB 2001a版本,平臺使用i7的2.8 GHz CPU,4 Gbyte RAM,為了使運行時間比較更為公平,本文也列出了一些方法的離線訓(xùn)練時間,除了這些判別方法(即DCC、MDA)需要一個訓(xùn)練階段,MMD構(gòu)建局部線性子空間,SANP訓(xùn)練集SVD,本文方法中學(xué)習(xí)訓(xùn)練集的投影矩陣都視為離線訓(xùn)練。
分類圖像集,幀數(shù)為100的離線訓(xùn)練時間和在線測試時間都列于表4,本文方法離線訓(xùn)練時間很短,因為僅需要進行幾個矩陣的求逆計算,在線測試時間對分類器來說更重要。
表4 各算法在CMU Mobo數(shù)據(jù)庫上對100幀圖像的訓(xùn)練時間
從表4可以看出,本文方法的運行時間(即分類測試圖像集時間)遠小于其他幾種方法,相比于SANP,本文方法是其速度的20倍,本文方法比第二快的方法MDA還要快5倍,且識別精度遠高于MDA。
為了更全面地評估運行時間,表5所示為各算法在各種幀數(shù)目時的測試時間。
表5 各算法在CMU Mobo數(shù)據(jù)庫上對應(yīng)各個幀數(shù)的測試時間
從表5可以看出,除了一些特殊情況(如DCC和MDA當(dāng)幀數(shù)為200時),所有算法的測試時間都隨著幀數(shù)增加而增加,AHISD算法增加最為明顯,無論幀數(shù)取何值,本文方法所耗測試時間總是最少,體現(xiàn)了本文方法的高效性。
針對傳統(tǒng)的3D人臉識別方法僅考慮特征提取而不能很好地運用于實際視頻人臉識別系統(tǒng)的問題,提出了一種從3D視頻中自動識別面部變化的系統(tǒng)。在規(guī)范化原始3D視頻后,該系統(tǒng)從視頻的不同位置提取出局部視頻片段,并將它們表示在格拉斯曼流形上。利用譜聚類的優(yōu)勢和有效性,采用了對格拉斯曼流形上的點進行有效的聚類。分類中使用了一種簡單的基于表決的策略。在大型通用視頻數(shù)據(jù)庫上測試了所提系統(tǒng)的性能,實驗結(jié)果表明,與幾種較為先進的方法相比,本文方法取得了更高的分類精度。此外,該系統(tǒng)無需任何用戶協(xié)作或人工標(biāo)記面部標(biāo)注。
未來會考慮結(jié)合其他先進的方法,改變初始參數(shù)的設(shè)置,進行大量的實驗,進一步改進本文方法的識別性能,從而更好地運用于3D實時視頻識別系統(tǒng)。
[1] 王巍,王志良,鄭思儀,等.人機交互中的個性化情感模型[J].智能系統(tǒng)學(xué)報,2010,5(1):10-16.
[2] 許江濤.多姿態(tài)人臉識別研究[D].南京:東南大學(xué),2006.
[3] 李曉莉,達飛鵬.基于排除算法的快速三維人臉識別方法[J].自動化學(xué)報,2010,36(1):153-158.
[4] 薛雨麗,毛峽,郭葉,等.人機交互中的人臉表情識別研究進展[J].中國圖象圖形學(xué)報,2009,14(5):764-772.
[5] 劉帥師,田彥濤,萬川.基于Gabor多方向特征融合與分塊直方圖的人臉表情識別方法[J].自動化學(xué)報,2011,37(12):1455-1463.
[6] 劉忠寶,潘廣貞,趙文娟.流形判別分析[J].電子與信息學(xué)報,2013,35(9):2047-2053.
[7] WANG R,SHAN S,CHEN X,et al.Manifold-manifold distance with application to face recognition based on image set[C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition,2008.[S.l.]:IEEE Press,2008:1-8.
[8] WANG R,GUO H,DAVIS L S,et al.Covariance discriminative learning:a natural and efficient approach to image set classification[C]//Proc.IEEE Conference on Computer Vision and Pattern Recognition,2012.[S.l.]:IEEE Press,2012:2496-2503.
[9] 侯書東.基于相關(guān)投影分析的特征提取研究及在圖像識別中的應(yīng)用[D].南京:南京理工大學(xué),2012.
[10] SANDBACH G,ZAFEIRIOU S,PANTIC M,et al.Recognition of 3D facial expression dynamics[J].Image and Vision Computing,2012,30(10):762-773.
[11] HU Y Q,MIAN A S,OWENS R.Face recognition using sparse approximated nearest points between image sets[J].IEEE PAMI,2012,34(10):1992-2004.
[12] 葛微.自動人臉識別的關(guān)鍵問題研究[D].長春:中國科學(xué)院長春光學(xué)精密機械與物理研究所,2010.
[13] SANDBACH G,ZAFEIRIOU S,PANTIC M,et al.Static and dynamic 3D facial expression recognition:a comprehensive survey[EB/OL].[2013-10-15].http://dl.acm.org/citation.cfm?id=2380025.
[14] 張鑫.基于SIFT算法的ATM視頻人臉識別系統(tǒng)研究[D].哈爾濱:哈爾濱工程大學(xué),2012.
[15] TURAGA P,VEERARAGHAVAN A,SRIVASTAVA A,et al.Statistical computations on grassmann and stiefel manifolds for image and videobased recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11):2273-2286.