趙 勇 軍
(阿壩師范高等專科學校 網(wǎng)絡管理中心, 四川 汶川 623002 )
?
一種新的三維面部數(shù)據(jù)局部匹配方法
趙 勇 軍*
(阿壩師范高等??茖W校 網(wǎng)絡管理中心, 四川 汶川 623002 )
傳統(tǒng)人臉識別在非正常光照和姿勢的情況下魯棒性較低,針對該非正常角度下人臉數(shù)據(jù)的局部缺失導致識別率降低的問題,提出了一種解決局部匹配問題的方法.該方法通過引入基于曲率和徑向距離的3D標志指示器進行3D人臉標志檢測,采用注釋人臉模型進行初始配準,以擴展可變模型框架即利用在擬合過程中人臉對稱性的優(yōu)點,使得局部匹配問題可以將缺失數(shù)據(jù)完整化,從而真正地實現(xiàn)姿態(tài)的不變性.論文在通用的3D人臉數(shù)據(jù)庫FRGC v2及來自圣母大學的人耳數(shù)據(jù)庫的集合F、G上進行了實驗,驗證了所提方法的有效性.
人臉識別; 局部匹配; 標志指示器; 注釋人臉模型; 可變模型框架; 有限元方法
近年來,三維(Three-dimensional, 3D)人臉識別受到了很多學者的關注,但光照、姿勢變化卻正在困擾著3D人臉識別方法[1-2].目前大多數(shù)3D人臉識別方法都主張姿勢不變性,這些方法主要假設頭部可以根據(jù)感應器來旋轉(zhuǎn),整張臉是可見的.但是,這僅適用于正面掃描圖像,側面掃描圖像通常會有大面積的數(shù)據(jù)缺失.而這些圖像在現(xiàn)實生活中是很常見的,如不匹配的個體和不可控制的環(huán)境[3-4].因此,如果能夠很好地利用3D人臉識別的全姿態(tài)不變特性,局部匹配問題也就迎刃而解.
在人臉識別領域,學者們已經(jīng)進行了大量的工作,文獻[5]介紹了一種采用曲率分析的結合2D和3D特征提取來決定眼窩位置的方法,即確定鼻尖為沿著眼窩法線方向的極端頂點,該方法用在自動3D人臉認證系統(tǒng)上,但只測試了21個人的不同姿勢和表情的人臉圖像.在文獻[6]的局部3D人臉匹配工作中,假設數(shù)據(jù)缺失區(qū)域可以排除掉,將人臉圖像拆分成諸多區(qū)域,只有部分區(qū)域用來注冊和匹配.采用擁有61個人的數(shù)據(jù)庫,他們表示采用人臉圖像的部分相對于全部圖像有更高的識別率.他們同時表示,當鼻子區(qū)域周圍有小孔時,該方法會出現(xiàn)問題.文獻[7]主要集中在3D人臉標志檢測方法上,介紹了一種人臉和臉部特征檢測方法,該方法結合帶有用來檢測臉部特征(如眼角和鼻尖)表面曲率的信息深度圖像的2D人臉圖像分段的方法,在FRGC2.0人臉數(shù)據(jù)庫上進行了測試,實現(xiàn)了超過99.7%的正確檢測率.但是,當人臉有一個顯著姿勢變化時(y軸和z軸間的夾角大于15°),鼻子和眼角的檢測會出現(xiàn)問題.文獻[8]介紹了一種鼻尖定位方法來決定臉部姿勢,該方法基于曲面法線差異算法和形狀索引估計,在姿態(tài)系統(tǒng)中用它來作為預處理步驟來決定人臉的姿勢,但該方法沒有提到姿態(tài)的不變性[5-8].
為了更好地解決光照、姿勢變化問題,本文拓展了前人的工作,引入了一種基于曲率和徑向距離的新奇3D標志指示器,采用注釋人臉模型(Annotation Facial Model, AFM)進行初始配準,擴展可變模型框架即利用在擬合過程中人臉的對稱性的優(yōu)點,使得局部匹配問題可以將缺失數(shù)據(jù)完整化,從而真正地實現(xiàn)了姿態(tài)的不變性.最后,在最大聯(lián)合可用數(shù)據(jù)庫上進行了實驗,驗證了所提方法的有效性.
1.1預處理
預處理的主要目的是消除特殊傳感器問題.總之,現(xiàn)代3D傳感器輸出的是距離圖像或3D多邊形數(shù)據(jù),而本文的實驗僅采用由激光掃描儀產(chǎn)生的距離圖像,因此某些預處理算法(中位切割法、空洞填充、平滑和二次抽樣)在多邊形數(shù)據(jù)[9]轉(zhuǎn)換前可以對距離圖像直接操作.
1.23D標志檢測
3D標志檢測和姿勢估計采用的方法是利用3D信息來提取候選興趣點,他們是通過人臉標志模型(Facial Label Model, FLM)[10]而標識和確定為結構性標志.當分解標志定好位時,計算相應的剛體轉(zhuǎn)換以在人臉數(shù)據(jù)集上進行配準.
本文采用了一系列8個分解標志(圖1):(1)右外眼角;(2)右內(nèi)眼角;(3)左內(nèi)眼角;(4)左外眼角;(5)鼻尖;(6)右嘴角;(7)左嘴角;(8)下巴尖.
圖1 標志模型Fig.1 Mark models
需要注意的是在側面掃描圖像中只有5個標志是可見的(右側圖像包含1、2、5、6、8標志,左側圖像包含3、4、5、7、8),這些標志組成人臉標志模型(FLM).接下來,將擁有完整8個標志的模型稱為FLM8,將擁有5個標志(左側和右側圖像)的模型分別稱為FLM5L和FLM5R.生成FLM的具體步驟如下:
步驟1: 每個標志集(FLM8、FLM5L、FLM5R)的統(tǒng)計均值形狀由人工注釋訓練集(擁有150張平常表情的正面人臉圖像)采用普魯克分析估算而來.
步驟2: 每個人臉標志模型的變量由主成分分析法(PCA)計算而來.
對于每個人臉數(shù)據(jù)集,標志檢測的步驟如下:
步驟1: 從形狀指數(shù)映射和擠壓映射中提取候選標志.
步驟2: 根據(jù)相應的FLM計算剛體轉(zhuǎn)換中的8個或5個候選標志的最優(yōu)排列組合.
步驟3: 刪除候選標志集中與FLM不一致的組合.
步驟4: 選擇最好的候選標志組合(基于最小普魯克距離)和配準中的相應剛體轉(zhuǎn)換.
注:該圖縱橫坐標僅表示數(shù)字,并沒有具體單位圖2 標志均值形狀估值Fig.2 Shape valuation of mark mean
(1)
公式的值表示形狀的局部曲率(Cup=0.0,Rut=0.25,Saddle=0.5,Ridge=0.75,Cap=0.1)的類型.
在3D人臉數(shù)據(jù)集上計算完形狀指數(shù)值,為了形成一個形狀指數(shù)映射(圖2(d)),一個到2D空間的映射生成了(采用人臉圖像的本地UV參數(shù)化技術).局部極大值和極小值在形狀指數(shù)映射中定義.局部極大值(Cup=0.1)是鼻尖和下巴尖的候選標志,局部極小值(Cup=0.0)是眼角和嘴角的候選標志.形狀指數(shù)的局部極大值和極小值根據(jù)他們相應的形狀指數(shù)值按照降序排列,將每個組(Cup和Cap)點的最顯著子集保存.
1.3注釋人臉模型(AFM)
注釋人臉模型(AFM)是人臉的人體測量正確的3D模型[12].它只構造一次并用到排列、擬合和元數(shù)據(jù)的生成中.AFM定義了分部曲面的控制點,它注釋到不同的區(qū)域(如:嘴巴、鼻子、眼睛).采用AFM的全局UV參數(shù)化,可以將模型的多邊表示轉(zhuǎn)化為相等的幾何圖像表示.
圖3 從左至右,一張正面人臉掃描圖像: 原始數(shù)據(jù)擬合提取的幾何圖像計算的普通圖像Fig.3 From left to right, a positive face scanning image: Initial Fitting Extracted Geometrical Calculated Ordinary Image
一張幾何圖像是所有3D物體(x,y,z坐標)的最高點到2D網(wǎng)格表示(u,v坐標)[10]的映射結果.因此,根據(jù)x,y,z相對應的每個u,v像素點,一個幾何圖像是一個3D模型的常規(guī)連續(xù)抽樣表示為2D圖像.2D幾何圖像含有最少3個分配到每組u,v坐標上的渠道對幾何信息編碼(x,y,z坐標或/和法線).
本文利用文獻[8]提出的配準算法,該方法采用應用到深度圖像的全局優(yōu)化技術,將下面的目標函數(shù)最小化:
(2)
本文假設初始姿勢是大致正確的,這樣可以限制模擬退火的轉(zhuǎn)換盒旋轉(zhuǎn)的極限.因此這一步僅可以微調(diào)配準過程,它不能減少由完全錯誤的標志檢測產(chǎn)生的錯誤.同樣,對于側面圖像,只有模型的z緩存用到了目標函數(shù),另一半由于可能已經(jīng)在存在數(shù)據(jù)缺失的區(qū)域內(nèi)配準.
1.4可變模型擬合
將模型擬合到數(shù)據(jù)的目的是捕捉期望物體的幾何信息.為了將AFM擬合到原始數(shù)據(jù)上,需要利用一個可變模型框架.主要思路是AFM的變形由內(nèi)外力控制.內(nèi)力相當于模型曲面(如:應變能和材料挺度)的靈活的特征,它可以抵抗這個變形.外力使模型變形,這樣它逐漸捕獲到原始數(shù)據(jù)的形狀.采用迭代有限元估計方法來解決分析方程.
圖4 人臉正面幾何圖像的小波分析. 出于視覺化的目的,系數(shù)量級映射為灰度強度Fig.4 Face positive geometry image wavelet analysis. For visual purposes, the coefficient of scale map to gray intensity
本文通過合并對稱擬合概念來擴展這項技術以解決局部數(shù)據(jù)問題.在數(shù)據(jù)缺失區(qū)域中,計算的外部力量會扭曲變形.因此,在這種情況下,可以使用來自模型對稱區(qū)域的鏡像作為外力.為了保證擬合曲面的連續(xù)性,內(nèi)力不會受到影響,同時未被修改.在本文的實現(xiàn)中,由標志檢測器得到的分類為正面的臉部圖像不適用任何對稱擬合.分類為左側臉部圖像為全部右側采用對稱擬合,反之亦然.
解析公式:可變模型框架的基本方程如下:
(3)
(4)
其中,kfo,kso,ksp是個體權值.
當變形結束后,注釋的模型需要原始數(shù)據(jù)的形狀.因為該變形沒有違反原始模型的特點,所以可變模型可以轉(zhuǎn)化為一張幾何圖像,同樣可以計算普通圖像(等于幾何數(shù)據(jù)的一階導數(shù)).該過程在圖4的正面圖像中描述了.
2.1人臉數(shù)據(jù)庫
為了評估本文方法的性能,本人采用最大公共3D人臉和人耳數(shù)據(jù)庫.對于正面人臉圖像適用FRGC v2數(shù)據(jù)庫[11],它包含一共4 007張距離圖像,在2003年~2004年采集的.用來采集這些距離數(shù)據(jù)的硬件是分辨率為640Minolta Vivid 900激光測距儀.這些數(shù)據(jù)是從466個人中獲取的,且含有各異的臉部表情(如:高興、驚訝).對于側面圖像,本文采用的是來自圣母大學(UND)[11]的人耳數(shù)據(jù)庫的集合F和G.該數(shù)據(jù)庫(出于人耳識別的目的建設)包含不同垂直旋轉(zhuǎn)角度為45°、60°、90°的側面圖像.在90°側面圖像中,人臉兩側都被感應器遮擋住,因此它們并不包含對人臉識別有用的信息.本文僅采用45°側面圖像(119個人,119張左側和119張右側)和60°側面圖像(88個人,88張左側和88張右側).需要注意的是雖然該數(shù)據(jù)庫的創(chuàng)造者將這些側面圖像標記為45°和60°,但是測量的平均旋轉(zhuǎn)角度分別是65°和80°,本文使用這些圖像時采用數(shù)據(jù)表示法(45°和60°).
不幸的是,并不是所有人都在兩種數(shù)據(jù)庫中.人臉正面圖像和45°側面圖像相同人的個數(shù)是39,和60°側面圖像相同人的個數(shù)是33.本文實驗定義了如下測試數(shù)據(jù)庫:
DB45LR:來自119人的45°側面圖像.對于每個主題,將左側圖像定義為原型集合,將右側圖像定義為測試集合.
DB60LR:來自119人的60°側面圖像.對于每個主題,將左側圖像定義為原型集合,將右側圖像定義為測試集合.
BOTH: 來自119人同時包含45°和60°側面圖像.對于每個主題,將左側圖像定義為原型集合,將右側圖像定義為測試集合.
DB45F:原始集合包含466人的正面圖像.測試集合含有39個主題的兩張45°側面圖像(左側和右側).
DB60F:原始集合包含466人的正面圖像.測試集合含有39個主題的兩張60°側面圖像(左側和右側).
每種情況對于每人只有一個原始集合.同樣,測試集合中的所有主題在原始集合中也存在(相反情況下往往不對).
2.2性能評估
為了分別評估標志檢測方法和人臉檢索(識別)方法的性能,本文手動標注了所有圖像.盡管手動注釋可能存在不準確的地方,但是出于這些實驗的目的,可以考慮它為地面實像.從平均值看,手動的放置標志促進人臉識別大約在10%,值得注意的是10%是自動標志檢測器所有失敗的近似率,表示缺乏魯棒性甚于缺乏準確度.以上所有實驗都使用了累積匹配特征曲線(CMC)圖像.
設計第一個實驗的目的是評估當左側圖像必須和右側圖像匹配時的性能.CMC圖像在圖5中給出DB60LR中采用自動和手動定位標志的排列第一的識別率分別是64%和69%.同預期一樣,60°側面圖像由于相對于45°側面圖像更具挑戰(zhàn)性而產(chǎn)生了更低的結果.
注:該圖縱橫坐標僅表示數(shù)字,并沒有具體單位圖5 采用DB45LR和DB60LR對左側掃描圖像 (原始)與右側掃描圖像(測試)進行匹配的CMC圖像Fig.5 Using DB45LR and DB60LR, CMC which was matched the original images with the test images
設計第2個實驗的目的是評估當左側圖像必須和正面圖像匹配時的性能.當原始采集是在可控制環(huán)境下完成而測試采集是在不可控時,這種情況很常見.CMC圖像在圖6和圖7中給出,DB45F中采用自動和手動定位標志的排列第一的識別率分別是64%和69%,DB60F中采用自動和手動定位標志的排列第一識別率分別是44%和41%.需要注意的是對于DB60F,采用手動放置標志雖然減小了排列第一的識別率,但是其它所有排列的識別率都得到了提高.
注:該圖縱橫坐標僅表示數(shù)字,并沒有具體單位圖6 采用DB45F對正面掃描圖像(原始)與左側 和右側掃描圖像(測試)進行匹配的CMC圖像Fig.6 Using DB45F, CMC which was matched the original images with the test images
注:該圖縱橫坐標僅表示數(shù)字,并沒有具體單位圖7 采用DB60F對正面掃描圖像(原始)與左側 和右側掃描圖像(測試)進行匹配的CMC圖像Fig.7 Using DB60F, CMC which was matched the original images with the test images
有趣的是,在所有實驗匹配中采用左側圖像會比右側表現(xiàn)得要好.由于沒有一個客觀的理由來解釋為何這樣,因此猜想本文基于配準算法的實現(xiàn)有輕微的偏差.同樣的理由可以用來解釋為何60°左側相對60°右側匹配比60°左/右相對正面匹配表現(xiàn)得好,這也否定了正面圖像通常有更高的質(zhì)量且更簡單的理論.
2.3性能對比
該實驗主要用文獻[7]的方法與本文方法在FRGC v2數(shù)據(jù)庫和(UND)[11]的人耳數(shù)據(jù)庫進行檢測正確率方面的對比,具體對比結果如表1所示.
表1 檢測正確率對比結果Tab.1 Comparison results of detection accuracy %
由于3D標志指示器利用3D信息來提取候選興趣點,而AFM模型能夠保證所獲人臉3D信息的正確性,同時,可變模型框架能夠?qū)FM擬合到原始數(shù)據(jù)上,這就保證了本文方法在數(shù)據(jù)匹配過程中具有較好的有效性.從表1可以看出,在同樣配置環(huán)境條件下,本文方法在檢測正確率方面還是有一定優(yōu)勢的.
本文展示一種可以解決數(shù)據(jù)缺失和提供姿勢改變的3D人臉識別(檢索)方法,該方法介紹了一種新的3D標志檢測器,應用了一種支持對稱擬合的可變模型框架,并且在包含相對于縱軸高達80°姿勢改變的最有挑戰(zhàn)的可用數(shù)據(jù)庫上進行了測試.該方法所有重要的步驟(標志檢測、配準、擬合)在一半數(shù)據(jù)缺失的情況下仍可工作.另外,所有的圖像采用統(tǒng)一的方式表示,允許局部匹配和插入檢索.未來的工作主要集中在如何增強標志檢測器的魯棒性及準確度,同時,將會改進配準算法以實現(xiàn)正面和側面人臉圖像的無偏配準.
[1] Zhong L W, Kwok J T. Efficient sparse modeling with automatic feature grouping [J]. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(9): 1436-1447.
[2] 蔡 亮, 達飛鵬. 結合形狀濾波和幾何圖像的 3D 人臉識別算法[J]. 中國圖象圖形學報, 2011, 16(7): 1303-1309.
[3] 蔡 亮, 達飛鵬. 基于幾何圖像濾波的3D人臉識別算法[J].東南大學學報:自然科學版, 2012, 42(5): 859-863.
[4] Guan N, Tao D, Luo Z. Online nonnegative matrix factorization with robust stochastic approximation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2013, 23(7): 1087-1099.
[5] Dibeklioglu H. Part-based 3D face recognition under pose and expression variations[D]. Istanbul: Bogazici University, 2008.
[6] Nair P, Cavallaro A. Matching 3D faces with partial data [J]. Proc British Machine Vision Conference, UK: Leeds, 2008: 1-4.
[7] Zhang Z, Wang J, Zha H. Adaptive manifold learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(1): 131-137.
[8] Segundo M P, Queirolo C, Bellon O R P. Silva, automatic 3D facial segmentation and landmark detection[C]//Proc of 14th International Conference on Image Analysis and Processing, Italy: Modena, 2007: 431-436.
[9] Theoharis T, Passalis G, Toderici G. Unified 3D face and ear recognition using wavelets on geometry images[J]. Pattern Recognition, 2008, 41(3): 796-804.
[10] Wei X, Longo P, Yin L. Automatic facial pose determination of 3D range data for face model and expression identification[C]//Proc of 14th International Conference on Image Analysis and Processing, Italy: Modena, 2007: 458-469.
[11] Hafiz F, Shafie A A, Mustafah Y M. Face recognition from single sample per person by learning of generic discriminant vectors[J]. Procedia Engineering, 2012, 45(3): 465-472.
[12] Xie Z, Liu G, Fang Z. Face Recognition based on combination of human perception and local binary pattern[J]. Lecture Notes in Computer Science, 2012, 72(02): 365-373.
New partial matching method of three-dimensional facial data
ZHAO Yongjun
(Network Management Center, Aba Teachers College, Wenchuan, Sichuan 623002)
Traditional face recognition has low robustness under the unnormal illustration and pose condition, for the issue that partial losing of face data causes low recognition accuracy in the unnormal situation, a union approach to addressing partial matching problem is proposed in this paper, it uses 3D label indicator based on curvature and the radial distance to detect 3D face label. Adoption of Annotation Facial Model (AFM) on initial registration and expanding the variable model framework namely using the advantages of facial symmetry in fitting process makes data losing can be completed by partial matching so that the invariance of gesture can be implemented truly. Finally, the efficiency of proposed method is verified on popular 3D face database FRGC v2 and sets F and G of the human ear database from University of Notre Dame.
face recognition; partial matching; label indicator; annotation facial model; variable model framework; finite element method
2014-05-20.
1000-1190(2014)04-0492-06
TP391.41
A
*通訊聯(lián)系人. E-mail: zhaoyongjun0821@163.com.