陳智+董洪偉+曹攀
摘要:針對(duì)目前三維人臉模型的語(yǔ)義標(biāo)記和分割研究較少的問(wèn)題,提出一種基于正方形切平面描述符的三維人臉模型區(qū)域標(biāo)記算法。這種新的描述符由三維人臉模型頂點(diǎn)的正方形切平面區(qū)域內(nèi)的幾何信息編碼而成。隨后通過(guò)隨機(jī)森林算法對(duì)其進(jìn)行學(xué)習(xí),對(duì)模型上的所有頂點(diǎn)進(jìn)行分類,從而實(shí)現(xiàn)對(duì)三維人臉模型上眉毛、眼睛、鼻子、嘴巴等區(qū)域的識(shí)別和標(biāo)記。在定位仿真實(shí)驗(yàn)中,分類準(zhǔn)確率可達(dá)94.46%。該描述符具有旋轉(zhuǎn)、頭部姿勢(shì)與三維模型分辨率不變性,對(duì)模型噪聲具有魯棒性。實(shí)驗(yàn)結(jié)果表明,該方法能有效標(biāo)記三維人臉模型區(qū)域。
關(guān)鍵詞:語(yǔ)義標(biāo)記;三維人臉;網(wǎng)格標(biāo)記;隨機(jī)森林;正方形切平面描述符
DOIDOI:10.11907/rjdk.171139
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2017)006-0189-05
0 引言
在計(jì)算機(jī)視覺(jué)與圖像領(lǐng)域,對(duì)于二維圖像人臉的研究(包括人臉識(shí)別、人臉檢測(cè)、人臉特征點(diǎn)標(biāo)記等)非常多,并且取得了很大進(jìn)展。特別是近幾年,隨著深度學(xué)習(xí)算法的應(yīng)用,對(duì)于二維人臉的研究有了極大突破[1]。然而,相對(duì)于二維人臉,人們對(duì)三維人臉研究較少。三維人臉的研究是以人臉的三維數(shù)據(jù)為基礎(chǔ),結(jié)合計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形學(xué),充分利用三維人臉的深度信息和其它幾何信息,解決和克服現(xiàn)有二維人臉研究中面臨的光照、姿態(tài)、表情等問(wèn)題[3]。三維人臉模型標(biāo)記與分割是將三維人臉網(wǎng)格模型上的頂點(diǎn)進(jìn)行分類,將人臉劃分為幾個(gè)區(qū)域,例如眉毛、眼睛、鼻子、嘴等。對(duì)這些區(qū)域的標(biāo)記與分割對(duì)三維人臉重建、特征點(diǎn)定位和表情動(dòng)畫等方面的研究都起著重要作用。三維人臉的研究是模式識(shí)別和圖形學(xué)領(lǐng)域活躍且極具潛力的研究方向之一,在影視、游戲動(dòng)畫、人臉識(shí)別、虛擬現(xiàn)實(shí)、人機(jī)交互等方面都有著廣泛應(yīng)用[2-3]。
目前,許多對(duì)三維人臉?lè)矫娴难芯?,包括三維人臉重建、識(shí)別與跟蹤、姿態(tài)估計(jì)及特征點(diǎn)標(biāo)記等,都是基于深度圖的方法[4-7]。Fanelli等[6-8]提出一種方法,將從深度數(shù)據(jù)估算人臉姿態(tài)表達(dá)為一個(gè)回歸問(wèn)題(Regression Problem),然后利用隨機(jī)森林算法解決該問(wèn)題,完成一個(gè)簡(jiǎn)單深度特征映射到三維人臉特征點(diǎn)坐標(biāo)、人臉旋轉(zhuǎn)角度等實(shí)值參數(shù)的學(xué)習(xí)。通過(guò)訓(xùn)練數(shù)據(jù)集建立隨機(jī)森林,該數(shù)據(jù)集包括通過(guò)渲染隨機(jī)生成姿態(tài)的三維形變模型得到的5萬(wàn)張640*480深度圖像。在實(shí)驗(yàn)部分,對(duì)Fanelli等提出的從深度圖中提取特征的方法與本文的特征提取方法進(jìn)行了對(duì)比。與文獻(xiàn)[6]中的方法相比,Papazov[9]提出了一個(gè)更為復(fù)雜的三角形表面patch特征,該特征是從深度圖重建成的三維點(diǎn)云中計(jì)算獲得的,主要包括兩部分:線下測(cè)試和線上測(cè)試。將三角形表面patch(TSP)描述符利用快速最近鄰算法(FLANN)從訓(xùn)練數(shù)據(jù)中尋找最相似的表面patches。
在計(jì)算機(jī)圖形學(xué)領(lǐng)域,網(wǎng)格理解在建立和處理三維模型中起著重要作用。為了有效地理解一個(gè)網(wǎng)格,網(wǎng)格標(biāo)記是關(guān)鍵步驟,它用于鑒定網(wǎng)格上的每個(gè)三角形屬于哪個(gè)部分,這在網(wǎng)格編輯、建模和變形方面都有著重要應(yīng)用。Shapira等[10]利用形狀直徑函數(shù)作為分割三維模型的一個(gè)信號(hào),通過(guò)對(duì)該信號(hào)的計(jì)算,定義一個(gè)上下文感知的距離測(cè)量,并且發(fā)現(xiàn)眾多目標(biāo)之間的部分相似性;隨后,Sidi等[11]提出一個(gè)半監(jiān)督的聯(lián)合分割方法,利用一個(gè)預(yù)定義的特征集實(shí)現(xiàn)對(duì)目標(biāo)的預(yù)先分割,然后將預(yù)先做好的分割嵌入到一個(gè)普通空間,通過(guò)使用擴(kuò)散映射獲得最終的對(duì)網(wǎng)格集的聯(lián)合分割。網(wǎng)格標(biāo)記的一個(gè)關(guān)鍵問(wèn)題是建立強(qiáng)大的特征,從而提高各類網(wǎng)格模型標(biāo)記結(jié)果的準(zhǔn)確性,增加泛化能力。為了解決該問(wèn)題,Kalogerakis等[12]提出采用一種基于條件隨機(jī)場(chǎng)算法的方法來(lái)標(biāo)記網(wǎng)格。通過(guò)對(duì)已標(biāo)記的網(wǎng)格進(jìn)行訓(xùn)練,成功地學(xué)習(xí)了不同類型的分割任務(wù);Xie等[13]提出一種三維圖形快速分割與標(biāo)記的方法,用一系列特征描述法和極端學(xué)習(xí)器來(lái)訓(xùn)練一個(gè)網(wǎng)格標(biāo)記分類的神經(jīng)網(wǎng)絡(luò);Guo等[14]提出用深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)從一個(gè)大的聯(lián)合幾何特征中學(xué)習(xí)網(wǎng)格表示方式。這個(gè)大的聯(lián)合幾何特征首先被提取出來(lái)表示每個(gè)網(wǎng)格三角形,利用卷積神經(jīng)網(wǎng)絡(luò)的卷積特征,將這些特征描述符重新組織成二維特征矩陣,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練與學(xué)習(xí)。
本文提出一種新的幾何特征描述符(正方形切平面描述符)來(lái)表示人臉模型上的頂點(diǎn)特征,利用隨機(jī)森林算法對(duì)三維人臉模型頂點(diǎn)進(jìn)行訓(xùn)練,實(shí)現(xiàn)對(duì)人臉模型上頂點(diǎn)的分類(屬于鼻子或是眼睛區(qū)域等),從而實(shí)現(xiàn)三維人臉模型的區(qū)域標(biāo)記。這種新描述符并非從深度圖提取的簡(jiǎn)單矩形區(qū)域特征,而是直接從三維人臉模型計(jì)算獲得,在人臉的姿勢(shì)、尺寸、分辨率的改變上具有一定魯棒性。因此,訓(xùn)練過(guò)程是在三維人臉模型上執(zhí)行的,這種數(shù)據(jù)相對(duì)于真實(shí)的深度圖數(shù)據(jù)更容易獲?。ɡ缭谖墨I(xiàn)[6]中使用的訓(xùn)練數(shù)據(jù))。
1 特征描述符與三維人臉區(qū)域分割
1.1 正方形切平面描述符
從一個(gè)三維人臉模型M的所有頂點(diǎn)上隨機(jī)選取一個(gè)種子點(diǎn)P,根據(jù)三維人臉模型的幾何結(jié)構(gòu),計(jì)算該種子點(diǎn)的法向量,此時(shí)根據(jù)一點(diǎn)和法向量即可確定一個(gè)切平面。確定正方形的邊長(zhǎng)L和正方形的方向。正方形的方向(正方形局部坐標(biāo)系)是根據(jù)全局坐標(biāo)系下建立的正方形,通過(guò)法向量轉(zhuǎn)換而成。建立正方形局部坐標(biāo)系,以便于計(jì)算三維人臉上的點(diǎn)到正方形的投影距離,減少程序運(yùn)行時(shí)間,從而可以確定一個(gè)正方形切平面塊S。在這種情況下,根據(jù)正方形切平面塊S,可以計(jì)算出一個(gè)簡(jiǎn)單且具有魯棒性的幾何描述符V。將正方形邊長(zhǎng)分成K等份,正方形則細(xì)分為K2個(gè)小正方形,如圖1(a)所示。模型M上的所有點(diǎn)向正方形切平面塊上投影,如果投影點(diǎn)在正方形內(nèi),此點(diǎn)則肯定在K2個(gè)小正方形中的某一個(gè)正方形內(nèi),稱該點(diǎn)屬于該小正方形或者稱小正方形包含該點(diǎn)。每個(gè)小正方形的描述符是其包含所有點(diǎn)投影距離的平均值??紤]到人臉模型的幾何特征,有些人臉部分存在于正方形上面,有些部分則存在于正方形下面,因此每個(gè)點(diǎn)的投影距離有正負(fù)之分。整個(gè)正方形切平面塊的描述符V是所有小正方形描述符的簡(jiǎn)單串聯(lián)。在實(shí)驗(yàn)部分,本文將對(duì)邊長(zhǎng)L和劃分的小正方形個(gè)數(shù)K2對(duì)分類的準(zhǔn)確率進(jìn)行對(duì)比研究。
使用每個(gè)小正方形包含所有點(diǎn)的平均投影距離作為描述符,使得該描述符對(duì)噪聲、數(shù)據(jù)分解和分辨率上的變化具有魯棒性,這在實(shí)驗(yàn)部分有所體現(xiàn)。許多三維幾何特征已經(jīng)在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。這些描述法都根據(jù)局部坐標(biāo)系定義并且依賴于大量的平面法向量,使噪聲數(shù)據(jù)對(duì)結(jié)果產(chǎn)生一定影響。和以上描述法相比,本文描述符取平均投影距離,并且正方形取的足夠大,使描述法更加簡(jiǎn)單、有效且具有魯棒性。除三維幾何特征外,許多文章也對(duì)三維模型投影生成的深度圖進(jìn)行了特征選取和處理。例如,F(xiàn)anelli等[6-8]在深度圖中選取patch,然后在patch中隨機(jī)選取兩個(gè)矩形框F1、F2,如圖2所示。以像素點(diǎn)的深度值和幾何法向量的X、Y、Z值作為隨機(jī)森林的4個(gè)特征通道,F(xiàn)1和F2中所有像素點(diǎn)某個(gè)特征通道平均值的差值作為隨機(jī)森林每棵樹節(jié)點(diǎn)的二元測(cè)試。二元測(cè)試定義為:
本文在實(shí)驗(yàn)部分對(duì)上述特征選取方式與本文提出的正方形描述符在三維人臉區(qū)域標(biāo)記上的結(jié)果進(jìn)行了比較。
1.2 數(shù)據(jù)庫(kù)與人臉區(qū)域分割
訓(xùn)練階段的正方形切平面描述符均取自于高分辨率的人臉網(wǎng)格模型,這些訓(xùn)練模型由Basel Face Model (BFM)[20]生成。BFM是一個(gè)公開、可獲得的基于PCA的三維形變模型,由200個(gè)人臉對(duì)象的高分辨率三維掃描創(chuàng)建而成。通過(guò)從一個(gè)正態(tài)分布取樣的PCA系數(shù),BFM能被用來(lái)生成任意數(shù)量的隨機(jī)網(wǎng)格人臉。此外,在所有生成的人臉網(wǎng)格模型上,對(duì)應(yīng)頂點(diǎn)的索引都是一樣的。例如,在所有訓(xùn)練模型上,在鼻尖的頂點(diǎn)有相同的索引數(shù)字,這將帶來(lái)諸多便利。對(duì)于訓(xùn)練模型,只需在任意一個(gè)BFM人臉模型上進(jìn)行一次人臉區(qū)域的手動(dòng)標(biāo)記,即可知道每個(gè)訓(xùn)練模型要分割的區(qū)域上各點(diǎn)的索引,如每個(gè)模型鼻子區(qū)域的所有頂點(diǎn)索引都是一樣的。
對(duì)訓(xùn)練模型進(jìn)行手動(dòng)分割標(biāo)記(只需分割標(biāo)記一次),將一個(gè)三維人臉模型分割為10個(gè)區(qū)域:左眉毛、右眉毛、左眼睛、右眼睛、左臉頰、右臉頰、鼻子、上嘴唇、下嘴唇、下巴,剩下部分屬于其它區(qū)域。如圖3所示,對(duì)三維人臉模型進(jìn)行區(qū)域分割,不同的分割區(qū)域用不同顏色進(jìn)行標(biāo)記,每個(gè)區(qū)域包含很多三維人臉模型頂點(diǎn)。由于很多三維人臉模型額頭部分包含的頂點(diǎn)相對(duì)較少,特征信息也相對(duì)較少,所以將額頭區(qū)域劃分至其它區(qū)域。人臉模型的每個(gè)區(qū)域包含的所有頂點(diǎn)屬于同一類,根據(jù)上述BFM數(shù)據(jù)庫(kù)特點(diǎn)可知,數(shù)據(jù)庫(kù)中任何一個(gè)人臉模型每個(gè)區(qū)域包含的所有頂點(diǎn)索引都是一致的。
2 隨機(jī)森林算法分類標(biāo)記人臉區(qū)域
2.1 隨機(jī)森林算法
分類回歸樹[21]是一個(gè)強(qiáng)大的工具,能夠映射復(fù)雜的輸入空間到離散或者分段連續(xù)的輸出空間。一棵樹通過(guò)分裂原始問(wèn)題到更簡(jiǎn)單、可解決的預(yù)測(cè)以實(shí)現(xiàn)高度非線性映射。樹上的每一個(gè)節(jié)點(diǎn)包含一個(gè)測(cè)試,測(cè)試的結(jié)果指導(dǎo)數(shù)據(jù)樣本將分到左子樹或是右子樹。在訓(xùn)練期間,這些測(cè)試被選擇用來(lái)將訓(xùn)練數(shù)據(jù)分組,這些分組對(duì)應(yīng)著實(shí)現(xiàn)很好預(yù)測(cè)的簡(jiǎn)單模型。這些模型是由訓(xùn)練時(shí)到達(dá)葉子節(jié)點(diǎn)的被標(biāo)記的數(shù)據(jù)計(jì)算而來(lái),并且存儲(chǔ)于葉子節(jié)點(diǎn)。Breiman[22]指出雖然標(biāo)準(zhǔn)的決策樹單獨(dú)使用會(huì)產(chǎn)生過(guò)擬合,但許多隨機(jī)被訓(xùn)練的樹有很強(qiáng)的泛化能力。隨機(jī)被訓(xùn)練樹的隨機(jī)性包括兩方面,一是用來(lái)訓(xùn)練每棵樹的訓(xùn)練樣本是隨機(jī)選取的,二是每棵樹上的二元測(cè)試是從使每個(gè)節(jié)點(diǎn)最優(yōu)的測(cè)試集中隨機(jī)選取的。這些樹的總和稱為隨機(jī)森林。本文將三維人臉模型區(qū)域的標(biāo)記與分割描述為一個(gè)分類問(wèn)題,并利用隨機(jī)森林算法來(lái)有效地解決它。
2.2 訓(xùn)練
訓(xùn)練數(shù)據(jù)集是由BFM生成的50個(gè)三維人臉模型。從每個(gè)模型上隨機(jī)取n=10 000個(gè)頂點(diǎn)樣本,每個(gè)頂點(diǎn)對(duì)應(yīng)一個(gè)正方形切平面塊。本文實(shí)驗(yàn)中森林由100棵樹建立而成,森林里每個(gè)樹由隨機(jī)選取的一系列塊(patch){Pi=Vfi,θi}構(gòu)建而成。Vfi是從每個(gè)樣本提取的特征,即正方形切平面描述符,f是特征通道的個(gè)數(shù),正方形劃分為K2個(gè)小正方形,f=K2。實(shí)值θi是這個(gè)樣本所屬的類別,例如鼻子區(qū)域類別設(shè)為數(shù)字1,那么鼻子區(qū)域內(nèi)的頂點(diǎn)樣本所對(duì)應(yīng)的θ=1。建立決策樹時(shí),在每個(gè)非葉子節(jié)點(diǎn)上隨機(jī)生成一系列可能的二元測(cè)試,該二元測(cè)試定義為:
這里的Pi∈{L,R}是到達(dá)左子樹或右子樹節(jié)點(diǎn)上的樣本集合,wi是到左子樹或右子樹節(jié)點(diǎn)的樣本數(shù)目和到父節(jié)點(diǎn)樣本數(shù)目的比例,例如:wi=|Pi||P|。
2.3 測(cè)試
通過(guò)BFM生成55個(gè)三維人臉模型,其中50個(gè)人臉模型作為訓(xùn)練數(shù)據(jù),剩下5個(gè)人臉模型作為測(cè)試數(shù)據(jù)。測(cè)試數(shù)據(jù)依然取10 000個(gè)樣本點(diǎn),并且知道每個(gè)樣本點(diǎn)屬于哪一個(gè)區(qū)域,通過(guò)測(cè)試數(shù)據(jù)計(jì)算三維人臉模型網(wǎng)格點(diǎn)分類的準(zhǔn)確率。為了測(cè)試提出方法的有效性,研究過(guò)程中從網(wǎng)上下載獲取了其它三維人臉模型,對(duì)人臉模型上的所有網(wǎng)格點(diǎn)通過(guò)之前訓(xùn)練好的隨機(jī)森林模型進(jìn)行分類。因?yàn)槠渌四樐P团cBFM生成人臉模型的尺寸、坐標(biāo)單位等不一致,所以本研究對(duì)這些測(cè)試模型進(jìn)行了后期處理,對(duì)正方形的邊長(zhǎng)按照模型尺寸的比例進(jìn)行選取。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境
本文三維人臉標(biāo)記與分割所用的訓(xùn)練和測(cè)試三維人臉模型由BFM生成,50個(gè)模型作為訓(xùn)練數(shù)據(jù),5個(gè)模型作為測(cè)試數(shù)據(jù)。每個(gè)模型包含53 490個(gè)頂點(diǎn)和106 466個(gè)三角形網(wǎng)格,每個(gè)訓(xùn)練模型選取10 000個(gè)頂點(diǎn)樣本。用C++和OpenGL、OpenCV等庫(kù)對(duì)三維人臉模型數(shù)據(jù)進(jìn)行采樣,得到每個(gè)樣本的正方形切平面描述符。在Matlab平臺(tái)下用隨機(jī)森林算法對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行可視化。
3.2 實(shí)驗(yàn)結(jié)果
利用已訓(xùn)練好的模型對(duì)測(cè)試數(shù)據(jù)集上三維人臉模型的所有頂點(diǎn)進(jìn)行分類,計(jì)算頂點(diǎn)分類的準(zhǔn)確率。準(zhǔn)確率(Accuracy Rate)計(jì)算公式為:
準(zhǔn)確率=預(yù)測(cè)正確的頂點(diǎn)個(gè)數(shù)(m)人臉模型上所有頂點(diǎn)個(gè)數(shù)(N)
根據(jù)文獻(xiàn)[10]提出的類似描述符參數(shù)選取以及參數(shù)優(yōu)化策略,經(jīng)過(guò)多次實(shí)驗(yàn),研究發(fā)現(xiàn)正方形邊長(zhǎng)L和正方形劃分的小正方形數(shù)目K2兩個(gè)參數(shù)的選取對(duì)頂點(diǎn)分類準(zhǔn)確率有著一定影響。實(shí)驗(yàn)中選取參數(shù)L∈{60,80,100}、參數(shù)K2∈{9,16,25,36}進(jìn)行對(duì)比,具體對(duì)比結(jié)果如表1、表2所示(其中表1中K2為16,表2中L為80mm)。
根據(jù)上面兩個(gè)表格,可以明顯得出,L=80mm,K2=25時(shí)頂點(diǎn)分類準(zhǔn)確率最高。接下來(lái)對(duì)L=80mm,K2=25情況下的三維人臉模型區(qū)域進(jìn)行標(biāo)記,可視化結(jié)果如圖4所示,上邊是原始三維模型數(shù)據(jù),下邊是標(biāo)記后的結(jié)果。(a)、(b)模型標(biāo)記圖是由BFM生成的三維人臉模型區(qū)域標(biāo)記的結(jié)果,模型有53 490個(gè)頂點(diǎn)。為了驗(yàn)證本文方法的一般性和對(duì)分辨率具有不變性,(c)~(e)模型標(biāo)記圖是非BFM生成的其它三維人臉模型的標(biāo)記結(jié)果,模型約有5 000個(gè)頂點(diǎn)。以上所有圖都是對(duì)三維人臉模型所有頂點(diǎn)進(jìn)行標(biāo)記的結(jié)果。
文獻(xiàn)[6]~[8]中提到的基于深度圖的特征提取方法(見圖1),同樣利用隨機(jī)森林算法進(jìn)行了實(shí)驗(yàn),并與本文的正方形特征描述符的實(shí)驗(yàn)結(jié)果進(jìn)行了比較,如表3所示。將深度圖投影到96*96大小,深度圖patch所取邊長(zhǎng)與深度圖大小的比例和正方形所取邊長(zhǎng)與模型大小的比例相等。
由表3可得,對(duì)三維人臉模型頂點(diǎn)級(jí)分類和區(qū)域標(biāo)記問(wèn)題,本文提出的特征描述符的標(biāo)記結(jié)果優(yōu)于深度圖patch特征選取方法。此外,由于深度圖的一些局限性,直接對(duì)三維模型處理要比對(duì)深度圖處理更有優(yōu)勢(shì)。
3.3 結(jié)果討論與分析
圖4中5個(gè)模型頂點(diǎn)數(shù)目、三角形面數(shù)目和頭部姿勢(shì)都不一樣,驗(yàn)證了本文所提方法對(duì)于姿勢(shì)、模型尺寸和模型分辨率具有較好的魯棒性。并且其對(duì)不同的眉毛、眼睛、臉頰區(qū)域也能進(jìn)行很好的區(qū)分,將左右眉毛、左右眼睛和左右臉頰用同一顏色、不同符號(hào)進(jìn)行顯示。本文提出的描述符和直接對(duì)三維模型處理的方法,與在深度圖上選取特征方法相比具有一定優(yōu)勢(shì)。由于手動(dòng)分割人臉區(qū)域時(shí),很難避免分割粗糙,區(qū)域交界處有的部分頂點(diǎn)沒(méi)有包含進(jìn)去,因此在區(qū)域交界處頂點(diǎn)的分類誤差會(huì)相對(duì)略大,特別是嘴唇之間的部分。另外,三維人臉模型中額頭和下巴的頂點(diǎn)和特征相對(duì)較少,所以相較于其它區(qū)域,這兩個(gè)區(qū)域的頂點(diǎn)分類誤差也會(huì)略大。
4 結(jié)語(yǔ)
本文提出一種基于正方形切平面描述符的三維人臉區(qū)域標(biāo)記方法。將這種幾何特征描述符作為選取樣本的特征,通過(guò)隨機(jī)森林算法,對(duì)三維人臉模型進(jìn)行區(qū)域分類和標(biāo)記。該方法可有效識(shí)別出三維人臉模型的眉毛、眼睛、鼻子、嘴巴和臉頰等區(qū)域,這對(duì)三維人臉特征點(diǎn)的定位及其它三維人臉?lè)矫娴难芯慷季哂兄匾饬x。本文提出的方法對(duì)三維人臉模型頭部姿態(tài)、模型尺寸、模型分辨率具有較好的魯棒性。和基于深度圖的方法相比,本文提出的方法具有更好的泛化能力,是一種行之有效的特征提取方法。
然而,手動(dòng)分割人臉區(qū)域的做法在一定程度上略顯粗糙,特征選取速度亦仍需優(yōu)化。同時(shí),本文僅對(duì)三維模型上所有頂點(diǎn)所屬區(qū)域進(jìn)行標(biāo)記,沒(méi)有將標(biāo)記后的結(jié)果結(jié)合三維分割算法進(jìn)行區(qū)域分割優(yōu)化。如何對(duì)相關(guān)算法加以改進(jìn),將是下一步需要解決的問(wèn)題。
參考文獻(xiàn):
[1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.
[2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.
[3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.
[4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.
[5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE Conf.Comput.Vis.Pattern Recognit, 2008:1-8.
[6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.
[7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.
[8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.
[9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.
[10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.
[11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.
[12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.
[13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.
[14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.
[15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.
[16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.
[17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.
[18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.
[19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.
[20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.
[21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.
[22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.
(責(zé)任編輯:黃 ?。?/p>
英文摘要Abstract:Aiming at the shortcomings of current research on semantic marking and segmentation of 3D face models, a 3D region labeling algorithm based on square tangent plane descriptors was proposed. This new descriptor was obtained by encoding the geometric information in the square area on the surface of 3D face mesh model. Then it was learnt by the random forest algorithm to realize the classification of the vertex on 3D face model, so as to identify and mark the eyebrows, eyes, nose, mouth and other regions. Simulation result can achieve a classification accuracy of 94.46%. The proposed descriptor has rotation, head pose, 3D model resolution invariance and is robust to noise. Experimental results show that the proposed method can effectively mark the 3D face model region.
英文關(guān)鍵詞Key Words: Semantic Marking; 3D Face; Random Forest; Square Tangent Plane Descriptor; Mesh Labeling