傅澤華 龔 勛 李天瑞
(西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,成都,611756)
二維及三維多模人臉數(shù)據(jù)庫(kù)構(gòu)建
傅澤華 龔 勛 李天瑞
(西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,成都,611756)
基于圖像的二維人臉識(shí)別技術(shù)日趨成熟,但仍受光照、姿態(tài)和表情等變化的影響。利用三維人臉模型提高人臉識(shí)別性能并將其應(yīng)用于實(shí)際成為近幾年學(xué)術(shù)界的研究趨勢(shì)。本文提出了SWJTU-MF多模人臉數(shù)據(jù)庫(kù)(SWJTU multimodal face database, SWJTU-MF Database),包含200個(gè)中性表情中國(guó)人的4種人臉樣本數(shù)據(jù),包括可見(jiàn)光圖像、二維視頻序列、三維人臉(高精度)和立體視頻序列。本文首先分類介紹現(xiàn)有的三維人臉識(shí)別算法,然后概述相關(guān)的多模人臉數(shù)據(jù)庫(kù),接著提出SWJTU-MF多模人臉數(shù)據(jù)庫(kù),并說(shuō)明數(shù)據(jù)庫(kù)的采集裝置、采集環(huán)境、采集過(guò)程及數(shù)據(jù)內(nèi)容,隨后簡(jiǎn)要展示數(shù)據(jù)標(biāo)準(zhǔn)化過(guò)程。最后討論本數(shù)據(jù)庫(kù)面向的應(yīng)用研究,并給出SWJTU-MF建議的評(píng)測(cè)協(xié)議。
三維人臉;人臉識(shí)別;人臉重建;視頻序列;立體視頻序列
圖1 3D人臉識(shí)別研究現(xiàn)狀Fig.1 Research status of 3D face recognition
隨著消費(fèi)型三維人臉設(shè)備的逐步發(fā)展,設(shè)備的采集精度不斷提升,這使得基于三維模型的人臉識(shí)別成為可能。三維信息是自動(dòng)人臉識(shí)別中克服姿態(tài)、光照等因素的關(guān)鍵技術(shù),是人臉識(shí)別發(fā)展的一個(gè)趨勢(shì),也是解決人臉識(shí)別根本難題的一個(gè)手段。根據(jù)測(cè)試集(Probe)的不同,三維人臉識(shí)別方案大概可以分成兩類,如圖1所示。(1) 測(cè)試集為二維圖像?;谶@種方案,可以利用原型集中的三維人臉合成不同姿態(tài)的二維人臉,與測(cè)試集中的人臉圖像進(jìn)行匹配[1]。還可以利用當(dāng)前獲取的一張或多張二維圖像重建三維人臉,并與原型集中的人臉進(jìn)行匹配[2-4]。另一種思路是學(xué)習(xí)三維人臉與二維人臉之間的對(duì)應(yīng)關(guān)系,直接進(jìn)行匹配。比如用局部主成分分析(Partial principal component analysis,PPCA)進(jìn)行匹配[5],或者用典型關(guān)聯(lián)分析(Canonical correlation analysis,CCA)匹配[6-9]。(2) 測(cè)試集為三維人臉?;谶@種方案,可以考慮先將原型集與測(cè)試集三維人臉對(duì)齊,再進(jìn)行匹配。對(duì)齊方法可以將三維人臉?lè)謩e對(duì)齊參照模型(Morphable model)[10],也可以用迭代最近點(diǎn)(Iterative closest point algorithm)等算法進(jìn)行直接匹配[11-12]。另一種策略是從三維人臉中提取特征向量再進(jìn)行匹配,如文獻(xiàn)[13]利用尺度不變特征變換(Scale invariant feature transform,SIFT)算法提取三維人臉特征,文獻(xiàn)[14]結(jié)合三維人臉的紋理信息與三維點(diǎn)云信息,采用基于曲波的方法得到特征向量。第1個(gè)多模人臉數(shù)據(jù)庫(kù)BT-David[15]發(fā)布于1997年,包含了35個(gè)人分別在5個(gè)非約束光照的不同場(chǎng)景下的演講錄像以及對(duì)應(yīng)音頻,該數(shù)據(jù)庫(kù)主要用于自動(dòng)語(yǔ)音識(shí)別和人臉識(shí)別。隨后一個(gè)類似規(guī)模的數(shù)據(jù)庫(kù)M2VTS數(shù)據(jù)庫(kù)發(fā)布了[16],旨在用于多模態(tài)人臉識(shí)別研究。鑒于前兩個(gè)數(shù)據(jù)庫(kù)皆存在規(guī)模過(guò)小,采用的數(shù)據(jù)存儲(chǔ)技術(shù)太老且數(shù)據(jù)質(zhì)量較差等缺點(diǎn),Kieron Messer的研究小組在1999年建立了XM2VTS數(shù)據(jù)庫(kù)[17],該數(shù)據(jù)庫(kù)包含了395個(gè)人在不同姿態(tài)下的高分辨率人臉圖像、高精度演講錄像及其對(duì)應(yīng)的音頻,其中393個(gè)人還包含1個(gè)三維模型。該數(shù)據(jù)庫(kù)數(shù)據(jù)規(guī)模大、人臉數(shù)據(jù)類型較多,但是需要收費(fèi)且價(jià)格昂貴,令不少研究人員望而卻步。美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)局(National institute of standard and technology,NIST)在2005年組織了FRGC2005評(píng)測(cè)活動(dòng),并建立了FRGC數(shù)據(jù)庫(kù)[18](目前已發(fā)布第2個(gè)版本),該數(shù)據(jù)庫(kù)被設(shè)計(jì)用來(lái)研究人臉識(shí)別中如何利用多模人臉數(shù)據(jù)提高識(shí)別效率,數(shù)據(jù)規(guī)模極大,包含466人的50 000個(gè)數(shù)據(jù),包括主動(dòng)、被動(dòng)采集的二維靜態(tài)人臉圖像以及三維人臉圖像,但沒(méi)有采集視頻序列且人臉的姿態(tài)較少。而同年發(fā)布的IV2多模生物數(shù)據(jù)庫(kù)[19]主要用于多模態(tài)生物識(shí)別,在人臉數(shù)據(jù)方面較FRGC數(shù)據(jù)庫(kù)多了低分辨率的二維靜態(tài)人臉以及視頻序列。文獻(xiàn)[20]為研究不同類型人臉生物特征之間的關(guān)系,首次提出異質(zhì)人臉生物特征識(shí)別(Heterogeneous face biometrics),并建立了異質(zhì)人臉生物特征識(shí)別數(shù)據(jù)庫(kù)[21](HFB face database),該數(shù)據(jù)庫(kù)包括了100個(gè)人的二維人臉圖像、近紅外圖像和三維人臉數(shù)據(jù),其不足之處在于庫(kù)中的人臉數(shù)據(jù)都是靜態(tài)采集的,沒(méi)有包含動(dòng)態(tài)人臉數(shù)據(jù)。類似數(shù)據(jù)庫(kù)還有PolyU-NIRFD[22]。另外還有一些多模人臉數(shù)據(jù)庫(kù)在紅外圖像、二維可見(jiàn)光圖像的基礎(chǔ)上,加入采集距離的變化,如NFRAD[23],SWIR[24]和LDHF database[25]。表1將常用的多模人臉數(shù)據(jù)庫(kù)進(jìn)行了對(duì)比,可以發(fā)現(xiàn)現(xiàn)有的多模人臉數(shù)據(jù)庫(kù)皆包含了三維人臉(高精度)與二維可見(jiàn)光圖像。面對(duì)當(dāng)前的研究趨勢(shì),缺少1個(gè)既包含三維高、低精度人臉數(shù)據(jù),又包含二維高、低精度人臉數(shù)據(jù)的人臉數(shù)據(jù)庫(kù),而本文提出的SWJTU多模人臉數(shù)據(jù)庫(kù)(SWJTU multimodal face database, SWJTU-MFDB)正好填補(bǔ)了這個(gè)空缺。表1中n/m表示數(shù)據(jù)庫(kù)設(shè)計(jì)有m人,目前發(fā)布版本包括n個(gè)人?!?D高”指二維高精度圖像?!?D低”指低精度的監(jiān)控?cái)z像機(jī)拍攝的二維視頻/圖像?!?D高”指用高精度3D采集設(shè)備采集的3D人臉模型?!癛GB-D”指用快速、低精度采集設(shè)備采集的序列幀(包括低質(zhì)量圖像與對(duì)應(yīng)的深度圖)。表1中的“√”指當(dāng)前數(shù)據(jù)集包含該類數(shù)據(jù),“—”表示不包含;“是否免費(fèi)”項(xiàng)中“Y”(Yes)表示當(dāng)前數(shù)據(jù)集可免費(fèi)獲取用以學(xué)術(shù)研究,“N”(No)則反之。
表1 多模人臉數(shù)據(jù)庫(kù)對(duì)比
本文提出并建立一個(gè)多模人臉數(shù)據(jù)庫(kù)SWJTU-MFDB用于人臉研究。該數(shù)據(jù)庫(kù)主要包含了二維高精度人臉圖像、二維人臉視頻序列、三維高精度人臉模型和立體人臉視頻序列(Kinect采集的低精度RGB-D序列),主要用于研究各種實(shí)際場(chǎng)景中遇到的人臉識(shí)別與建模問(wèn)題。本數(shù)據(jù)庫(kù)主要包括了200個(gè)中性表情的中國(guó)人的多模人臉樣本數(shù)據(jù)。對(duì)于每個(gè)采集對(duì)象,采集了3張二維高精度人臉圖像,11張二維人臉視頻序列幀,1~2個(gè)三維高精度人臉模型以及5~11個(gè)立體人臉視頻序列幀。相較于XM2VTSDB,IV2 DB等目前較為全面的多模人臉數(shù)據(jù)庫(kù),本文提出的SWJTU-MFDB只多了一項(xiàng)立體人臉視頻序列數(shù)據(jù),但在此基礎(chǔ)上可進(jìn)行的研究更為廣泛。直觀地來(lái)看,這一項(xiàng)數(shù)據(jù)的增加可以增加以下3種不同的人臉識(shí)別策略研究:(1) 二維高精度人臉圖像對(duì)立體人臉視頻序列的識(shí)別研究;(2) 二維人臉視頻序列對(duì)立體人臉視頻的序列識(shí)別;(3) 三維高精度人臉對(duì)立體人臉視頻序列的識(shí)別研究。這些研究將推動(dòng)實(shí)用性三維人臉識(shí)別的發(fā)展。眾所周知,利用傳統(tǒng)的硬件設(shè)備(如激光掃描儀、結(jié)構(gòu)光等)雖然具有較高的精度,但設(shè)備造價(jià)高、不靈活且采集速度慢,因此將三維高精度人臉模型作為測(cè)試集顯然不現(xiàn)實(shí)。而類Kinect的設(shè)備正處于蓬勃發(fā)展階段,這類設(shè)備采集不需要用戶配合、采集速度快(Kinect可以達(dá)到30幀/s)且采集精度越來(lái)越高,這正是將三維人臉識(shí)別推向?qū)嶋H應(yīng)用的核心需求。
由于三維采集設(shè)備對(duì)頭發(fā)等深色部位的掃描效果比較差,且本數(shù)據(jù)庫(kù)所面向的人臉研究?jī)H對(duì)人的面部區(qū)域感興趣,因此在數(shù)據(jù)采集前,統(tǒng)一要求采集對(duì)象(不論男女)整理儀容、將遮蓋面部的頭發(fā)挽起。此外,還要求采集對(duì)象不能化妝、不戴任何飾物(眼鏡除外)。
1.1 數(shù)據(jù)獲取
(1) 二維高精度人臉
采集二維高精度人臉數(shù)據(jù)時(shí)使用了型號(hào)為NEX-F3的索尼數(shù)碼相機(jī)。相機(jī)被固定在可調(diào)節(jié)高度的三腳架上且采集背景為白色,如圖2所示。采集使用了3 568×3 568的高分辨率,這是為了保證人臉區(qū)域大于600×800 DPI。采集時(shí),要求采集對(duì)象坐在相機(jī)正前方。為了保證采集的人臉區(qū)域在圖像中央,會(huì)手動(dòng)調(diào)整三腳架的高度。對(duì)于每一個(gè)被采集者,采集3張不同姿態(tài)的二維靜態(tài)人臉圖像,如圖3所示。姿態(tài)分別為正面(0°)、向左側(cè)30°和向右側(cè)30°。
圖2 采集設(shè)備與場(chǎng)景示意圖Fig.2 Acquisition device and environment
圖3 二維高精度人臉數(shù)據(jù)Fig.3 2D high resolution face data
(2) 二維人臉視頻序列
二維人臉視頻序列通過(guò)Axis 215攝像頭獲取。為了模擬真實(shí)的監(jiān)控場(chǎng)景,攝像頭被安置在距地面2.5 m的墻上,采集場(chǎng)景如圖2(b)所示,轉(zhuǎn)椅被放置在攝像頭的正前方,距墻3 m。采集過(guò)程中,采集對(duì)象被要求坐在正對(duì)攝像頭的轉(zhuǎn)椅上,并錄制一段監(jiān)控視頻。錄制時(shí),采集對(duì)象需直視正前方,從左到右勻速轉(zhuǎn)動(dòng)180°。為了模擬真實(shí)監(jiān)控錄像中人臉的旋轉(zhuǎn)角度變化,從監(jiān)控錄像中手動(dòng)篩出若干不同角度的監(jiān)控幀。對(duì)于每個(gè)采集對(duì)象的監(jiān)控錄像,首先從旋轉(zhuǎn)角度(Yaw Rotation)-90°~90°之間,每隔20°取一張,篩選出10張圖像,再篩出一張正常姿態(tài)(Yaw Rotation為0°)下的人臉圖像1張,共11張圖像。采集的數(shù)據(jù)如圖4所示。
(3) 三維高精度模型
高精度三維人臉數(shù)據(jù)通過(guò)基于結(jié)構(gòu)光的Wisesoft三維人臉數(shù)據(jù)測(cè)量?jī)x獲取。采集背景采用一塊黑色的幕布,以避免其他物體信息對(duì)拍攝造成干擾,如圖2(c)所示。采集時(shí),采集對(duì)象需坐在測(cè)量?jī)x器正前方,鼻尖距離測(cè)量?jī)x器前面板約90~110 cm。如圖2(c)所示,采集用的座椅可升降,以保證采集時(shí)采集者的頭部在儀器的中部。采集過(guò)程約2~3 s,在這期間,采集對(duì)象需靜止不動(dòng)并維持中性表情,眼睛直視前方。一次采集完成即可獲取被采集者頭部的幾何信息和彩色紋理信息。大多數(shù)采集對(duì)象采集了1張三維人臉。而對(duì)于戴眼鏡者,則需要采集兩張,分別在戴眼鏡與不戴眼鏡狀態(tài)下采集, 采集圖像如圖5所示。
圖4 二維人臉視頻序列數(shù)據(jù)Fig.4 2D face data from video sequences
(4) 立體人臉視頻序列
立體人臉視頻序列數(shù)據(jù)主要通過(guò)Microsoft Kinect v2采集,如圖2(d)所示,Kinect被水平固定在一個(gè)三腳架上。采集過(guò)程中,采集者被要求站在Kinect正前方2.5 m處,在5 s內(nèi)盡可能慢地、勻速地面向Kinect徑直走1.5 m,隨后站定以便于采集另一組Kinect數(shù)據(jù)。與采集二維高精度人臉圖像時(shí)一樣,為了使有效區(qū)域(臉部)盡可能地在Kinect鏡頭范圍內(nèi),根據(jù)采集對(duì)象的不同身高會(huì)手動(dòng)調(diào)整三腳架的高度。另外,為便于進(jìn)行Kinect數(shù)據(jù)采集,基于Open-NI2[29]Library開(kāi)發(fā)了一個(gè)Kinect人臉采集系統(tǒng)。該系統(tǒng)按預(yù)先定義好的數(shù)據(jù)結(jié)構(gòu)自動(dòng)捕獲、處理并存儲(chǔ)人臉幀數(shù)據(jù)。對(duì)于每一個(gè)被采集者,采集5~10幀連續(xù)立體人臉圖像,另包含一張參考幀,采集圖像如圖6所示。與采集三維高精度人臉一樣,對(duì)于戴眼鏡的采集對(duì)象,會(huì)在戴眼鏡與不戴眼鏡狀態(tài)下分別采集。采集完成后,手動(dòng)剔除行走中產(chǎn)生的模糊幀。
圖5 三維高精度靜態(tài)人臉數(shù)據(jù) 圖6 立體人臉視頻序列數(shù)據(jù) Fig.5 High resolution 3D face data Fig.6 3D face data from estereo video sequences
1.2 數(shù)據(jù)內(nèi)容
SWJTU-MF DB包含以下內(nèi)容:(1) 原始數(shù)據(jù),如表2所示。包括二維高精度人臉圖像、二維人臉視頻序列、三維高精度人臉和立體人臉視頻序列。(2) 所有人臉數(shù)據(jù)都提供手動(dòng)標(biāo)定的二維特征點(diǎn)坐標(biāo),特征點(diǎn)描述如圖7所示。其中三維人臉模型的特征點(diǎn)坐標(biāo)可從對(duì)應(yīng)的二維紋理圖映射得到。(3) 歸一化后的二維高精度人臉圖像和二維人臉視頻序列。(4) 裁剪后的三維高精度人臉。
表2 原始數(shù)據(jù)內(nèi)容說(shuō)明
圖7 特征點(diǎn)示意圖Fig.7 Description of feature points
(1) 人臉數(shù)據(jù)預(yù)處理。本數(shù)據(jù)庫(kù)人臉數(shù)據(jù)的預(yù)處理主要包括標(biāo)點(diǎn)和人臉裁剪。對(duì)于數(shù)據(jù)庫(kù)中所有二維人臉圖片,手動(dòng)標(biāo)出如圖7所示的5個(gè)特征點(diǎn)。隨后再由對(duì)應(yīng)的二維紋理圖映射得到三維人臉模型的特征點(diǎn)坐標(biāo)。在二維人臉視頻序列圖像中,當(dāng)人臉旋轉(zhuǎn)角度過(guò)大時(shí),會(huì)遮擋住一部分特征點(diǎn),只對(duì)旋轉(zhuǎn)角度在-50°~+50°之間的人臉圖像標(biāo)定特征點(diǎn)。如圖5,6所示,三維點(diǎn)云模型包含了大量除頭部以外的其他數(shù)據(jù)。在使用之前,需要對(duì)其進(jìn)行人臉裁剪。對(duì)于高精度三維人臉模型,以鼻尖為圓心,用適當(dāng)半徑的圓球?qū)ζ溥M(jìn)行裁剪。對(duì)于立體人臉視頻序列中的低精度三維人臉模型,為了方便后續(xù)的標(biāo)準(zhǔn)化處理,采用主動(dòng)形狀模型[30](Active shape model,ASM)在二維紋理圖上定位人臉的76個(gè)特征點(diǎn),再根據(jù)人臉輪廓的特征點(diǎn)信息進(jìn)行人臉區(qū)域裁剪。
(2) 二維高精度人臉。歸一化時(shí),以兩瞳孔的距離和方向軸作為基準(zhǔn)進(jìn)行水平旋轉(zhuǎn)與橫向尺度縮放,并將人臉區(qū)域裁剪到相同大小。
(3) 二維人臉視頻序列。由于旋轉(zhuǎn)角度大于+50°或者小于-50°的人臉圖片特征點(diǎn)不全,因此只歸一化旋轉(zhuǎn)角度在-50°~+50°之間的人臉圖像,歸一化方法同1.2節(jié)。
(4) 三維高精度人臉。對(duì)于高精度三維人臉,采用基于平面模板的稠密對(duì)應(yīng)方法[31]對(duì)其進(jìn)行標(biāo)準(zhǔn)化。
(5) 立體人臉視頻序列。由于人臉的個(gè)性差異,直接由Kinect獲取的三維人臉數(shù)據(jù)存在很大差別[32],低精度三維人臉的頂點(diǎn)數(shù)不同,且不能一一對(duì)應(yīng)。為了建立一個(gè)操作性強(qiáng)的Kinect低精度人臉庫(kù),要對(duì)配合姿態(tài)下的Kinect人臉數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,實(shí)現(xiàn)低精度三維人臉的稠密對(duì)應(yīng)。鑒于本文提出的數(shù)據(jù)庫(kù)同時(shí)具有相對(duì)應(yīng)的高三維人臉數(shù)據(jù)與低精度三維人臉數(shù)據(jù)(立體視頻序列幀),采用文獻(xiàn)[33]中提出的針對(duì)Kinect數(shù)據(jù)的基于可變模板的三維人臉標(biāo)準(zhǔn)化方法。如圖8所示,首先根據(jù)低精度三維人臉的頂點(diǎn)數(shù),確定二維模板大??;然后采用高精度三維人臉數(shù)據(jù)庫(kù)生成二維平均模板,生成過(guò)程中用Delaunay算法對(duì)高精度三維人臉柱面展開(kāi)圖的平均圖進(jìn)行特征區(qū)域劃分,從而得到二維平均模板。最后用基于高精度數(shù)據(jù)生成的模板重采樣算法,自動(dòng)實(shí)現(xiàn)低精度三維人臉頂點(diǎn)的一一對(duì)應(yīng)。其中q為模板的縮放倍數(shù),qw,qh指w,h縮放q倍后的大小。
圖8 二維可變模板生成流程圖Fig.8 Flow chart of 2D dynamic template acquisition
3.1 應(yīng)用研究
本數(shù)據(jù)庫(kù)主要可應(yīng)用于多模態(tài)/混合人臉識(shí)別、三維人臉重建分析、姿態(tài)分析和人臉特征點(diǎn)定位等。其中可著重解決以下兩個(gè)問(wèn)題:(1) 隨著三維人臉技術(shù)的發(fā)展,采用三維人臉模型來(lái)解決人臉識(shí)別中的光照、姿態(tài)和表情問(wèn)題已經(jīng)成為趨勢(shì)。然而業(yè)界就三維高精度人臉識(shí)別較傳統(tǒng)的二維高精度人臉識(shí)別是否真的性能更好這個(gè)問(wèn)題一直爭(zhēng)論不斷[18]。本數(shù)據(jù)庫(kù)同時(shí)包含了三維高精度人臉模型與二維高精度人臉圖像,可以解決上述問(wèn)題。(2) 三維高精度設(shè)備價(jià)格昂貴、采集時(shí)需要固定姿態(tài)且采集速度慢,在現(xiàn)實(shí)應(yīng)用中實(shí)用性較低。而目前逐漸流行的類Kinect的RGB-D采集設(shè)備雖然廉價(jià),但采集數(shù)據(jù)的精度較差。因此,通過(guò)低精度三維人臉重建高精度三維人臉有重要意義。當(dāng)前已有一些基于低精度重建高精度人臉的算法[28,34],但重建效果只能靠主觀判斷,并沒(méi)有統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)。而本數(shù)據(jù)庫(kù)同時(shí)包含了三維高精度人臉模型和Kinect采集的低精度三維人臉模型,通過(guò)本數(shù)據(jù)庫(kù)可以建立統(tǒng)一的三維重建評(píng)價(jià)體系,并探索和解決通過(guò)廉價(jià)設(shè)備采集的低精度三維人臉是否能夠重建出高精度三維人臉。
3.2 測(cè)試協(xié)議
3.2.1 2-3維識(shí)別
基于SWJTU-MFDB可以進(jìn)行二維對(duì)三維的人臉識(shí)別。這里設(shè)計(jì)2種方案進(jìn)行識(shí)別。
(1) 純?nèi)S對(duì)比。即通過(guò)一張或多張照片重建三維人臉,再按一定的匹配策略與已知三維人臉庫(kù)中的模型進(jìn)行比較識(shí)別。
(2) 根據(jù)獲取的人臉二維圖像,計(jì)算出人臉的姿態(tài)偏轉(zhuǎn)角度,然后把已知三維人臉庫(kù)中的模型按同樣姿態(tài)偏轉(zhuǎn)角度投影到二維平面上,并將得到的二維圖像與待檢測(cè)二維人臉圖像按一定的匹配策略進(jìn)行二維特征的比較識(shí)別。根據(jù)兩種不同方案的特點(diǎn),將數(shù)據(jù)集劃分成3個(gè)集合,分別為訓(xùn)練集合(Trainingset)、原型圖像集合(Gallery)和測(cè)試集合(Probesets),集合劃分結(jié)果如表3所示。
3.2.2 建模精度評(píng)價(jià)
在三維人臉重建完成后,通常需要對(duì)建模精度進(jìn)行評(píng)價(jià),建議兩種方法,(1)對(duì)重建后的人臉模型進(jìn)行識(shí)別,識(shí)別率越高則建模精度越高,實(shí)驗(yàn)數(shù)據(jù)集劃分參見(jiàn)表3的方案1。(2) 原始三維人臉與重建后人臉中,頂點(diǎn)數(shù)較多的向頂點(diǎn)數(shù)較少的對(duì)齊,然后進(jìn)行精度分析,實(shí)驗(yàn)時(shí)采用交叉驗(yàn)證[26]的方法。
表3 2D-3D識(shí)別數(shù)據(jù)集合劃分
Tab.3 Set partitioning of 2D-3D recognition data
方案1方案2Gallery三維高精度人臉,每人1幅,共200幅。三維高精度人臉,每人1幅,共200幅。Trainingsets從人臉庫(kù)中隨機(jī)選取60人的可見(jiàn)光人臉圖像,每人選取1幅正面圖像,1~2幅側(cè)面圖像。從人臉庫(kù)中隨機(jī)選取60人的二維監(jiān)控人臉圖像,每人11幅(姿態(tài)變化)。Probesets除去訓(xùn)練集以外余下的140人的可見(jiàn)光人臉圖像,每人選取1幅正面圖像,1~2幅側(cè)面圖像。除去訓(xùn)練集以外余下140人的二維監(jiān)控人臉圖像,每人11幅(姿態(tài)變化)。
本文介紹了多模人臉數(shù)據(jù)庫(kù)SWJTU-MFDB,首先總結(jié)了當(dāng)前的三維人臉識(shí)別現(xiàn)狀,具體分析了現(xiàn)有的人臉數(shù)據(jù)庫(kù),接著介紹了數(shù)據(jù)采集的環(huán)境與所使用的設(shè)備,然后羅列了SWJTU多模人臉數(shù)據(jù)庫(kù)的具體內(nèi)容,最后著重介紹了Kinect采集的低精度三維人臉數(shù)據(jù)的預(yù)處理過(guò)程。與現(xiàn)有的人臉數(shù)據(jù)庫(kù)相比,本數(shù)據(jù)庫(kù)具有以下特點(diǎn):(1) 同時(shí)包含二維與三維人臉數(shù)據(jù),便于研究如何解決不同姿態(tài)、不同光照條件下的人臉識(shí)別問(wèn)題以及三維重建問(wèn)題。(2) 不但采集了高精度人臉數(shù)據(jù),還采集了對(duì)應(yīng)的低精度人臉數(shù)據(jù)。(3) 包括了不同姿態(tài)下的二維人臉數(shù)據(jù)與不同距離下(疏密、精度不同)采集的三維人臉數(shù)據(jù),便于研究各種實(shí)際場(chǎng)景中遇到的人臉識(shí)別、建模問(wèn)題。該數(shù)據(jù)庫(kù)提供的多模人臉數(shù)據(jù),豐富了現(xiàn)有的人臉數(shù)據(jù)庫(kù),為人臉識(shí)別與重建領(lǐng)域的進(jìn)一步研究提供了一套標(biāo)準(zhǔn)的測(cè)試數(shù)據(jù)集。
致謝 在此,我們向?qū)Ρ疚牡墓ぷ鹘o予支持和建議的西南交通大學(xué)四川省云計(jì)算與智能技術(shù)高校重點(diǎn)實(shí)驗(yàn)室的老師和同學(xué)表示感謝。
[1] Lu X, Colbry D, Jain A K. Three-dimensional model based face recognition[C]∥Pattern Recognition, International Conference on IEEE Computer Society.[S.l.]:IEEE, 2004:362-366.
[2] Blanz V, Vetter T. Face recognition based on fitting a 3d morphable model[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2003, 25(9):1063-1074.
[3] Hu Y, Jiang D, Yan S, et al. Automatic 3D reconstruction for face recognition[C]∥Sixth IEEE International Conference on Automatic Face and Gesture Recognition.[S.l.]: IEEE, 2004: 843-848.
[4] Moeini A, Moeini H, Faez K. Expression-invariant face recognition via 3D face reconstruction using gabor filter bank from a 2D single image[C]∥22nd International Conference on Pattern Recognition (ICPR)IEEE Computer Society.[S.l.]:IEEE,2014:4708-4713.
[5] Rama A, Tarres F, Onofrio D, et al. Mixed 2D-3D information for pose estimation and face recognition[C]∥Acoustics, 2006 IEEE International Conference on Speech and Signal Processing.[S.l]:IEEE,2006:2.
[6] Huang D, Ardabilian M, Wang Y, et al. Asymmetric 3D/2D face recognition based on LBP facial representation and canonical correlation analysis[C]∥16th IEEE International Conference on Image Processing (ICIP).[S.l]:IEEE, 2009: 3325-3328.
[7] Huang D, Ardabilian M, Wang Y, et al. Automatic asymmetric 3D-2D face recognition[C]∥ 20th International Conference on Pattern Recognition (ICPR).[S.l]:IEEE,2010:1225-1228.
[8] Huang D, Ardabilian M, Wang Y, et al. Oriented gradient maps based automatic asymmetric 3D-2D face recognition[C]∥5th IAPR International Conference on Biometrics (ICB).[S.l]:IEEE,2012:125-131.
[9] Yang W, Yi D, Lei Z, et al. 2D-3D face matching using CCA[C]∥ 8th IEEE International Conference on Automatic Face & Gesture Recognition.[S.l]:IEEE, 2008: 1-6.
[10]Ansari A, Abdel-Mottaleb M. 3D face modeling using two views and a generic face model with application to 3D face recognition[C]∥IEEE Conference on Advanced Video and Signal Based Surveillance.[S.l]:IEEE,2003:37-44.
[11]Cook J, Chandran V, Sridharan S, et al. Face recognition from 3d data using iterative closest point algorithm and Gaussian mixture models[C]∥2nd International Symposium on 3D Data Processing, Visualization and Transmission.[S.l]:IEEE, 2004:502-509.
[12]Mohammadzade H, Hatzinakos D. Iterative closest normal point for 3D face recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(2):381-397.
[13]Quy N H, Quoc N H, Anh N T L, et al. 3D human face recognition using Sift descriptors of face′s feature regions[M].Switzerland: Springer International Publishing, 2015:117-126.
[14]Elaiwat S, Bennamoun M, Boussaid F, et al. A curvelet-based approach for textured 3D face recognition[J]. Pattern Recognition,2015,48(4):1235-1246.
[15]Chibelushi C C, Gandon S, Mason J S, et al. Design issues for a digital integrated audio-visual database[C]∥IEE Colloquium on Integrated Audio-Visual Processing for Recognition, Synthesis and Communication. [S.l]:IET, 1996:7.
[16]Pigeon S, Vandendorpe L. The M2VTS multimodal face database (release 1.00)[C]∥Audio-and Video-Based Biometric Person Authentication. Berlin,Heidelberg:Springer,1997:403-409.
[17]Messer K, Matas J, Kittler J, et al. XM2VTSDB:The extended M2VTS database[C]∥2nd International Conference on Audio and Video-based Biometric Person Authentication.Washington D C,USA:[s.n.],1999:965-966.
[18]Phillips P J, Flynn P J, Scruggs T, et al. Overview of the face recognition grand challenge[C]∥2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2005).Arlington,VA,VSA:2005:947-954.
[19]Petrovska-Delacrétaz D, Lelandais S, Colineau J, et al. The IV 2 multimodal biometric database (including Iris, 2D, 3D, stereoscopic, and talking face data), and the IV 2-2007 evaluation campaign[C]∥ 2nd IEEE International Conference on Biometrics:Theory, Applications and Systems.Arlington,VA,USA:IEEE,2008:1-7.
[20]Li S Z. Heterogeneous face biometrics[M].US:Springer,2009:700-702.
[21]Li S Z, Lei Z, Ao M. The HFB face database for heterogeneous face biometrics research[C]∥2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPR Workshops 2009).[S.l]:IEEE,2009:1-8.
[22]Zhang B, Zhang L, Zhang D, et al. Directional binary code with application to PolyU near-infrared face database[J]. Pattern Recognition Letters,2010,31(14):2337-2344.
[23]Maeng H, Choi H C, Park U, et al. NFRAD:Near-infrared face recognition at a distance[C]∥2011 International Joint Conference on Biometrics (IJCB).[S.l]:IEEE,2011:1-7.
[24]Bourlai T, Cukic B. Multi-spectral face recognition:Identification of people in difficult environments[C]∥2012 IEEE International Conference on Intelligence and Security Informatics (ISI).[S.l]:IEEE,2012:196-201.
[25]Kang D, Han H, Jain A K, et al. Nighttime face recognition at large standoff:Cross-distance and cross-spectral matching[J]. Pattern Recognition,2014,47(12):3750-3766.
[26]Toderici G, Evangelopoulos G, Fang T, et al. UHDB11 database for 3D-2D face recognition[C]∥Pacific-Rim Symposium on Image and Video Technology 2013. Berlin, Heidelberg: Springer, 2013: 73-86.
[27]Bagdanov A D, Del B A, et al. Florence faces: A dataset supporting 2d/3d face recognition[C]∥2012 5th International Symposium on Communications Control and Signal Processing (ISCCSP). Rome, Italy:IEEE, 2012:1-6.
[28]Berretti S, Del Bimbo A, Pala P. Superfaces:A super-resolution model for 3D faces[C]∥Computer Vision-ECCV 2012. Workshops and Demonstrations. Berlin, Heidelberg:Springer,2012:73-82.
[29]Apple.InC. OpenGL[EB/OL]. https:∥www.opengl.org/. 2015-05-20.
[30]Cootes T F, Taylor C J, Cooper D H, et al. Active shape models-their training and application[J]. Computer Vision and Image Understanding,1995,61(1):38-59.
[31]龔勛, 王國(guó)胤. 基于特征點(diǎn)的三維人臉形變模型[J]. 軟件學(xué)報(bào),2009,20(3):724-733.
Gong Xun, Wang Guoying. 3D face deformable model based on feature points[J]. Journal of Software,2009,20(3):724-733.
[32]胡永利, 尹寶才, 程世銓, 等. 創(chuàng)建中國(guó)人三維人臉庫(kù)關(guān)鍵技術(shù)研究[J]. 計(jì)算機(jī)研究與發(fā)展,2005,42(4):622-628.
Hu Yongli, Yin Baocai, Cheng Shiquan, et al. Research on key technology in construction of a Chinese 3D face database[J]. Journal of Computer Research and Development,2005,42(4):622-628.
[33]傅澤華, 龔勛. 基于可變模板的Kinect三維人臉標(biāo)準(zhǔn)化[J]. 機(jī)械, 2014,41(S):343-348.
Fu Zehua, Gong Xun. Kinect 3D face standardization based on resizable templates[J]. Machinery,2014,41(S):343-348.
[34]Hernandez M, Choi J, Medioni G. Laser scan quality 3-d face modeling using a low-cost depth camera[C]∥Proceedings of the 20th European Signal Processing Conference (EUSIPCO).[S.l]:IEEE,2012:1995-1999.
Although 2D-based face recognition technology becomes more and more mature, recognition results are still affected by light, posture, facial expressions and other changes. It is a trend to improve the performance of face recognition by 3D face model as well as to apply 3D face recognition in practice. To tackle these problems, SWJTU multimodal face database which contains face data from 200 Chinese people with neutral expression is proposed. The database includes visible light images, video sequences, 3D face models (high resolution) and stereo video sequences. Here, we describe the apparatuses, environments and procedure of the data collection and present the normalization procedure of the database. Finally, database applications are discussed and then several evaluation protocols for SWJTU multimodal face database are presented to measure face recognition and reconstruction performance.
3D face; face recognition; face reconstruction; video sequences; stereo video sequences
國(guó)家自然科學(xué)基金(61202191)資助項(xiàng)目;計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金(CQ-LCI-2013-06)資助項(xiàng)目。
2015-06-05;
2016-06-30
TP391.41
A
傅澤華(1990-),女,碩士研究生,研究方向:三維人臉重建,機(jī)器視覺(jué),E-mail:mata_fu@163.com。
龔勛(1980-),男,副教授,研究方向:圖像處理,模式識(shí)別,人工智能。
李天瑞(1969-),男,教授,研究方向:數(shù)據(jù)挖掘、粗糙集、粒計(jì)算和云計(jì)算。
2D & 3D Multi-modal Face Database
Fu Zehua, Gong Xun, Li Tianrui
(School of Information Science and Technology, Southwest Jiaotong University, Chengdu, 611756, China)