趙 慧,景麗萍,2+,于 劍,2
1.北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044
2.交通數(shù)據(jù)分析與挖掘重點(diǎn)實(shí)驗(yàn)室(北京交通大學(xué)),北京 100044
人臉對(duì)齊也即人臉關(guān)鍵點(diǎn)定位,目標(biāo)是自動(dòng)定位面部關(guān)鍵點(diǎn),目前被應(yīng)用在許多主流的人臉?lè)治鋈蝿?wù)中:表情識(shí)別[1]、人臉驗(yàn)證與識(shí)別[2]、人臉動(dòng)作捕捉[3]以及人臉屬性分析[4]等。盡管人臉對(duì)齊已經(jīng)研究了多年,但仍然是一個(gè)艱巨的任務(wù),因?yàn)閷?shí)際場(chǎng)景中,攝像機(jī)拍攝到的人臉會(huì)出現(xiàn)各種光照、姿態(tài)、視角,當(dāng)人臉圖片的差異很大時(shí),會(huì)給人臉對(duì)齊算法帶來(lái)難度。
近年來(lái),大量人臉對(duì)齊方法涌現(xiàn)。在眾多方法中,級(jí)聯(lián)回歸[5-9]方法實(shí)現(xiàn)了很好的人臉對(duì)齊結(jié)果。級(jí)聯(lián)回歸的方法是通過(guò)回歸關(guān)鍵點(diǎn)位置處提取的特征逐步逼近真實(shí)關(guān)鍵點(diǎn)位置。監(jiān)督下降方法(supervised descent method,SDM[9])是眾多級(jí)聯(lián)回歸方法中最有效的方法之一。SDM 基于關(guān)鍵點(diǎn)位置索引特征[7],使用級(jí)聯(lián)線性回歸來(lái)輸出關(guān)鍵點(diǎn)位置,省去了復(fù)雜的Jacobian 和Hessian 矩陣的計(jì)算,模型簡(jiǎn)單高效且易于理解。位置索引特征是在每個(gè)關(guān)鍵點(diǎn)周?chē)崛〉模@些特征提取的好壞直接影響了定位的效果。如果在每個(gè)階段都使用固定大小的特征提取框提取特征,會(huì)得到不利于關(guān)鍵點(diǎn)檢測(cè)的無(wú)用特征,不利于關(guān)鍵點(diǎn)準(zhǔn)確定位。盡管SDM 是一種有效的人臉對(duì)齊算法,但是當(dāng)選取的初始關(guān)鍵點(diǎn)位置遠(yuǎn)離真實(shí)位置時(shí),回歸的結(jié)果會(huì)很差[10]。
Fig.1 Pose-robust face alignment model圖1 姿態(tài)魯棒的人臉對(duì)齊模型
為此,提出一種自適應(yīng)SDM 模型的姿態(tài)魯棒人臉對(duì)齊方法,主要結(jié)構(gòu)如圖1 所示??紤]到人臉圖片存在較大的姿態(tài)差異,訓(xùn)練一個(gè)統(tǒng)一的模型不能很好地解決姿態(tài)差異帶來(lái)的影響。因此使用分治的策略將一個(gè)困難的問(wèn)題劃分成多個(gè)比較容易的子問(wèn)題。對(duì)人臉姿態(tài)進(jìn)行劃分,首先利用仿射變換將所有圖片做一個(gè)姿態(tài)矯正,矯正后的人臉姿態(tài)僅存在正臉、左側(cè)臉、右側(cè)臉三種姿態(tài),然后使用K-means 聚類(lèi)算法將人臉?lè)殖扇?lèi)。在每一個(gè)類(lèi)別中,圖片姿態(tài)相似,更容易實(shí)現(xiàn)準(zhǔn)確的關(guān)鍵點(diǎn)定位。人臉對(duì)齊是一個(gè)由粗到細(xì)的回歸過(guò)程,關(guān)鍵點(diǎn)的位置會(huì)越來(lái)越接近真實(shí)位置。為了提取更具判別性的特征,特征提取框的大小應(yīng)隨著迭代次數(shù)增加而減小。在每個(gè)類(lèi)別下,采用自適應(yīng)SDM 模型,即使用自適應(yīng)的特征提取框代替之前固定的特征框來(lái)提取判別性特征。
人臉對(duì)齊的結(jié)果依賴于初始位置x0的選取,當(dāng)x0遠(yuǎn)離真實(shí)位置時(shí),回歸過(guò)程就會(huì)變復(fù)雜。通常情況下,x0是訓(xùn)練集中所有人臉關(guān)鍵點(diǎn)位置的平均值。文獻(xiàn)[6]提出使用不同的初始位置運(yùn)行多次并將所有結(jié)果的平均值作為最終的結(jié)果。本文則是針對(duì)每一個(gè)姿態(tài)類(lèi)別采用不同的x0,如圖2 所示。在LFPW、HELEN 和300W 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該方法能很好地對(duì)復(fù)雜姿態(tài)的圖片進(jìn)行關(guān)鍵點(diǎn)定位。
本文的主要貢獻(xiàn)如下:
(1)提出了一種姿態(tài)魯棒的人臉關(guān)鍵點(diǎn)定位方法,能夠?qū)?fù)雜姿態(tài)的人臉圖片進(jìn)行更加準(zhǔn)確的關(guān)鍵點(diǎn)定位。
Fig.2 Initial shape in each cluster圖2 每個(gè)類(lèi)別下的初始關(guān)鍵點(diǎn)位置
(2)遵循由粗到細(xì)的準(zhǔn)則,采用自適應(yīng)特征提取框代替固定大小的特征提取框,獲得更具判別性的特征。
(3)針對(duì)不同的姿態(tài)類(lèi)別采用不同的初始位置,使得初始位置更接近于真實(shí)位置,簡(jiǎn)化回歸過(guò)程。
(4)在LFPW、HELEN 和300W 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了本文模型的有效性。
人臉對(duì)齊方法可以被分成三類(lèi),包括參數(shù)化方法、級(jí)聯(lián)回歸方法以及深度學(xué)習(xí)方法。參數(shù)化的方法起源于主動(dòng)形狀模型(active shape model,ASM)[11-13]。該方法是典型的人臉輪廓特征提取方法,從標(biāo)注好的人臉訓(xùn)練數(shù)據(jù)中,通過(guò)主分量分析(principal components analysis,PCA)得到位置模型,但只保留了對(duì)應(yīng)較大特征值的特征向量,因此在應(yīng)用到新樣本上時(shí)會(huì)產(chǎn)生一些偏差。之后的主動(dòng)外觀模型(active appearance model,AAM)[14-16]在ASM 的基礎(chǔ)上加入了全局紋理模型,提高了人臉對(duì)齊的準(zhǔn)確度,但這種參數(shù)化方法需要優(yōu)化大量的參數(shù)。
基于深度學(xué)習(xí)模型的人臉對(duì)齊取得了顯著的成功,源于深度網(wǎng)絡(luò)較強(qiáng)的非線性映射和特征提取的能力。文獻(xiàn)[17]提出自編碼深度網(wǎng)絡(luò)(coarse-to-fine auto-encoder networks,CFAN)來(lái)進(jìn)行關(guān)鍵點(diǎn)定位,多級(jí)自編碼網(wǎng)絡(luò)采用由低到高的分辨率進(jìn)行由粗到細(xì)的定位。文獻(xiàn)[18]提出一種循環(huán)神經(jīng)網(wǎng)絡(luò)(mnemonic descent method,MDM),將特征提取與回歸過(guò)程融合在一起進(jìn)行端到端的訓(xùn)練,增加了記憶機(jī)制,允許在相鄰迭代之間傳遞信息。
級(jí)聯(lián)回歸[5-9]方法廣泛應(yīng)用。級(jí)聯(lián)回歸方法好的原因在于利用位置索引特征能夠加強(qiáng)關(guān)鍵點(diǎn)之間的位置約束,能從訓(xùn)練數(shù)據(jù)中獲得強(qiáng)的學(xué)習(xí)能力。這種方法并不是顯式地建立全局紋理和位置模型,相反是直接學(xué)習(xí)從特征到關(guān)鍵點(diǎn)位置的映射函數(shù)。由于人臉剛性與非剛性的變化,通常僅通過(guò)一個(gè)階段不能獲得準(zhǔn)確的位置。因此這種方法基于給定的初始位置x0,經(jīng)過(guò)多個(gè)階段,每個(gè)階段產(chǎn)生一個(gè)位置增量Δx,不斷逼近真實(shí)位置。每個(gè)階段的位置由xk+1=xk+Rk(Φ(I,xk))決定。其中,xk是k階段關(guān)鍵點(diǎn)的位置,Rk是回歸函數(shù),該函數(shù)基于圖片I在xk處提取的特征Φ產(chǎn)生位置增量Δx。兩種代表性的方法是顯式形狀回歸(explicit shape regression,ESR[6])和SDM。ESR 采用兩層提升回歸結(jié)構(gòu),利用位置索引特征以及相關(guān)性特征的選取,學(xué)習(xí)多個(gè)弱回歸器,多個(gè)弱回歸器級(jí)聯(lián)成一個(gè)強(qiáng)回歸器,再將多個(gè)強(qiáng)回歸器級(jí)聯(lián)來(lái)預(yù)測(cè)關(guān)鍵點(diǎn)。SDM 則是通過(guò)線性回歸直接得到每個(gè)階段產(chǎn)生的位置增量。魯棒的級(jí)聯(lián)回歸方法(robust cascaded pose regression,RCPR)[5]通過(guò)檢測(cè)遮擋以及更加魯棒的索引特征的提出,減小了遮擋對(duì)人臉對(duì)齊的影響。但是文獻(xiàn)[5-9]都將所有樣本放到一個(gè)統(tǒng)一的訓(xùn)練模型中訓(xùn)練,沒(méi)有考慮樣本之間存在的姿態(tài)等差異,對(duì)于一些復(fù)雜姿態(tài)的樣本定位效果不好。
自然界中的圖片由于復(fù)雜的姿態(tài)問(wèn)題對(duì)關(guān)鍵點(diǎn)定位帶來(lái)巨大的挑戰(zhàn)。為此,對(duì)人臉圖片進(jìn)行姿態(tài)聚類(lèi),然后將不同類(lèi)別的圖片單獨(dú)訓(xùn)練。對(duì)于一張圖片I,人臉對(duì)齊的目標(biāo)就是學(xué)習(xí)一個(gè)從特征到關(guān)鍵點(diǎn)位置的非線性映射函數(shù)D。由于姿態(tài)的差異性較大,D的學(xué)習(xí)過(guò)程復(fù)雜,因此依據(jù)人臉姿態(tài)將D分成幾個(gè)簡(jiǎn)單的子任務(wù){(diào)D1,D2,…,Dn}。這樣,在每個(gè)子任務(wù)Dk中,人臉具有相似的姿態(tài),簡(jiǎn)化了D的學(xué)習(xí)。
由于姿態(tài)多樣,在進(jìn)行聚類(lèi)之前先利用仿射變換對(duì)人臉姿態(tài)進(jìn)行調(diào)整。仿射變換矩陣M如式(1)。仿射變換只需要利用兩組三點(diǎn)坐標(biāo)就可以求得矩陣M。三點(diǎn)坐標(biāo)分別是兩眼坐標(biāo)以及嘴巴中間位置的坐標(biāo)。對(duì)于每張圖片,一個(gè)是源坐標(biāo)系下的坐標(biāo)(x,y,1)T,一個(gè)是目標(biāo)坐標(biāo)系下的坐標(biāo)(u,v,1)T。注意,目標(biāo)坐標(biāo)系下的兩眼的位置在同一條水平線上。得到變換矩陣M之后,就可以利用M將整張圖片進(jìn)行仿射變換。結(jié)果如圖3 所示,第一行是仿射變換前,第二行是變換后。矯正后的人臉姿態(tài)僅存在正臉、左側(cè)臉、右側(cè)臉三類(lèi)姿態(tài)。
Fig.3 Face pose before and after affine transformation圖3 仿射變換前后的人臉姿態(tài)
考慮到數(shù)據(jù)集中沒(méi)有提供關(guān)于姿態(tài)的真實(shí)標(biāo)簽,采用K-means 無(wú)監(jiān)督的聚類(lèi)算法實(shí)現(xiàn)姿態(tài)聚類(lèi)。聚類(lèi)后每個(gè)類(lèi)別的平均臉如圖4 所示。為每個(gè)類(lèi)中的所有樣本提供一個(gè)更加接近真實(shí)位置的更好的初始位置,如圖2,利用自適應(yīng)SDM 模型提取判別性特征,每個(gè)類(lèi)別單獨(dú)訓(xùn)練,得到三個(gè)不同的訓(xùn)練模型。由于利用仿射變換對(duì)關(guān)鍵點(diǎn)位置進(jìn)行了矯正,最終輸出的關(guān)鍵點(diǎn)位置需要做一個(gè)逆變換轉(zhuǎn)換到源坐標(biāo)系下,如式(2)所示,是仿射變換后的坐標(biāo)系下的位置坐標(biāo),xt是源坐標(biāo)系下關(guān)鍵點(diǎn)位置的坐標(biāo)。
Fig.4 Average face in each cluster after pose clustering圖4 姿態(tài)聚類(lèi)后每個(gè)類(lèi)下的平均臉
人臉對(duì)齊通過(guò)學(xué)習(xí)一個(gè)回歸函數(shù)來(lái)預(yù)測(cè)當(dāng)前位置與真實(shí)位置之間的位置增量??紤]到回歸函數(shù)是一個(gè)復(fù)雜的非線性映射函數(shù),SDM 使用了一種線性回歸的方式代替復(fù)雜的非線性回歸來(lái)預(yù)測(cè)位置。目標(biāo)函數(shù)如式(3):
對(duì)于一幅m個(gè)像素的圖片d∈Rm×1,d(x)∈Rp×1為圖片上p個(gè)關(guān)鍵點(diǎn),x0∈Rp×2代表初始位置,h是一個(gè)非線性的特征提取函數(shù),本文實(shí)驗(yàn)中使用的是HOG特征。Φ*=h(d(x*))代表了基于真實(shí)位置提取的特征。對(duì)于每個(gè)樣本,有一個(gè)初始位置x0,根據(jù)牛頓梯度下降準(zhǔn)則,只需反復(fù)對(duì)式(1)進(jìn)行迭代,得到一個(gè)Δx的序列{Δx1,Δx2,…,Δxk},并且在每次迭代后,修正xk=xk-1+Δxk,經(jīng)過(guò)若干次迭代,xk就會(huì)收斂于最優(yōu)位置x*。
將式(3)進(jìn)行Taylor 展開(kāi)并對(duì)Δx求導(dǎo),且令導(dǎo)數(shù)為0,可以得到式(4):
R0被看作是下降的方向。一系列的下降方向Rk以及bk需要計(jì)算,表示為式(6)。每個(gè)階段提取的特征構(gòu)成一個(gè)集合Φ={Φ1,Φ2,…,Φk}。
自適應(yīng)的特征提取體現(xiàn)在Φk上。如圖5 所示:這里以5 個(gè)關(guān)鍵點(diǎn)為例,其中紅點(diǎn)代表每個(gè)階段得到的位置,綠點(diǎn)代表真實(shí)位置,紅色圓圈代表了特征提取框半徑r的大小。圖5(a)為SDM 模型的半徑r的變換趨勢(shì),可以看出r的大小是不變的。這樣會(huì)提取到影響關(guān)鍵點(diǎn)定位的無(wú)用特征。
Fig.5 Trend of feature extraction block size with the number of stage圖5 特征提取框大小隨迭代次數(shù)的改變
人臉對(duì)齊是一個(gè)由粗到細(xì)的過(guò)程,特征提取框半徑r的大小與每個(gè)階段產(chǎn)生的位置增量Δx有關(guān)。當(dāng)訓(xùn)練樣本中Δx分布廣泛時(shí),更偏向于使用大的r提取特征。遵循由粗到細(xì)的準(zhǔn)則,采用自適應(yīng)地改變r(jià)的大小來(lái)獲取判別性特征。如圖5(b)所示,在初始階段,得到的位置xk遠(yuǎn)離真實(shí)位置x*,Δx分布廣泛,在關(guān)鍵點(diǎn)附近采用大的特征框來(lái)提取更有用的信息,這有利于處理較大的人臉形狀差異并且保證魯棒性。隨著階段增加,xk與x*的距離越來(lái)越小,采用逐漸減小的特征提取框可以有效地獲得判別性的特征。尤其是在后面的階段,小的特征提取框能減少噪音的產(chǎn)生,確保準(zhǔn)確性。式(7)表達(dá)了自適應(yīng)特征提取框半徑rk的獲取過(guò)程,表示k階段第i個(gè)樣本的第j個(gè)關(guān)鍵點(diǎn)的位置。
在文獻(xiàn)[19]中,rk雖然也是逐漸減小,但策略強(qiáng)硬,沒(méi)有考慮到訓(xùn)練樣本每個(gè)階段產(chǎn)生的位置增量Δx的分布。在本文的實(shí)驗(yàn)中,依據(jù)每個(gè)階段產(chǎn)生的Δx自適應(yīng)地獲取特征提取框的半徑rk。在每個(gè)階段,每個(gè)樣本都會(huì)產(chǎn)生一個(gè)Δx,維度是p×2,計(jì)算每個(gè)關(guān)鍵點(diǎn)的當(dāng)前位置與真實(shí)位置的距離,得到p個(gè)距離。N個(gè)樣本會(huì)產(chǎn)生N×p個(gè)距離。在N×p個(gè)距離中選取最大距離當(dāng)作是該階段所有樣本每個(gè)關(guān)鍵點(diǎn)的特征提取框r的大小。選取最大的原因是為了提取到真實(shí)關(guān)鍵點(diǎn)周?chē)挠杏锰卣?。這樣,每個(gè)階段選取的特征提取框的大小充分考慮了樣本現(xiàn)階段位置與真實(shí)位置的分布,隨著階段增加會(huì)逐漸減小,提取的特征能極大限度地在真實(shí)位置處提取,同時(shí)也減少了冗余特征的干擾。
通過(guò)自適應(yīng)特征提取框半徑r的獲得,得到了判別性特征Φ={Φ1,Φ2,…,Φk},Rk和bk的值可以通過(guò)最小化當(dāng)前位置增量與真實(shí)位置增量的差值計(jì)算得到。如式(8)所示。
式(8)是典型的線性最小二乘法問(wèn)題,可以求得解析解。然后根據(jù)式(6),可以得到第k個(gè)階段的位置增量Δxk,進(jìn)而求得第k個(gè)階段的關(guān)鍵點(diǎn)位置xk。在迭代完成后,將每個(gè)階段得到的Rk和bk保存下來(lái)。
對(duì)于一張測(cè)試樣本,首先確定該人臉圖片所屬的姿態(tài),給予相應(yīng)的初始位置x0,利用訓(xùn)練階段得到的一系列Rk和bk,預(yù)測(cè)關(guān)鍵點(diǎn)位置。
在三個(gè)數(shù)據(jù)集LFPW、HELEN 和300W 上評(píng)估本文的模型。
LFPW[20](49 點(diǎn)):該數(shù)據(jù)集原本有1 100 個(gè)訓(xùn)練樣本和300 個(gè)測(cè)試樣本,由于無(wú)效的網(wǎng)址,僅僅獲得811 個(gè)訓(xùn)練樣本和224 個(gè)測(cè)試樣本。
HELEN[21](194 點(diǎn)):該數(shù)據(jù)集包含2 300 張高分辨率的圖片。其中,2 000 張作為訓(xùn)練集,剩下的300張作為測(cè)試集。高分辨率有利于精準(zhǔn)定位關(guān)鍵點(diǎn)。
300W[22](68 點(diǎn)):該數(shù)據(jù)集是一個(gè)合成的人臉對(duì)齊數(shù)據(jù)集,含AFW[13]、LFPW[20]、HELEN[21]和XM2VTS[15]數(shù)據(jù)集。這些數(shù)據(jù)集都被統(tǒng)一標(biāo)為68 個(gè)關(guān)鍵點(diǎn)。此外,還包含135 張更具挑戰(zhàn)性(challenge)的IBUG 數(shù)據(jù)集。為了與其他方法比較,300W 訓(xùn)練集包含LFPW 和HELEN 數(shù)據(jù)集的訓(xùn)練集部分以及AFW 整個(gè)數(shù)據(jù)集(共3 148 個(gè)訓(xùn)練樣本)。測(cè)試集分為三部分:LFPW 和HELEN 數(shù)據(jù)集的測(cè)試集構(gòu)成300W 數(shù)據(jù)集的普通(common)測(cè)試集;135 張IBUG 數(shù)據(jù)集作為300W 的具有挑戰(zhàn)性(challenge)的測(cè)試集;該部分測(cè)試集樣本姿態(tài)表情復(fù)雜,兩部分結(jié)合在一起就是整個(gè)(full)測(cè)試集(共689 個(gè)測(cè)試樣本)。上述3 個(gè)數(shù)據(jù)集的訓(xùn)練樣本主要存在姿態(tài)差異,這也是進(jìn)行姿態(tài)劃分的原因。
考慮到LFPW 數(shù)據(jù)集比較小,通過(guò)擾動(dòng)產(chǎn)生10個(gè)人臉邊界框,再將初始位置對(duì)齊到10 個(gè)邊界框上產(chǎn)生10 個(gè)初始值來(lái)提高模型的泛化性。HELEN 和300W 數(shù)據(jù)集不進(jìn)行擾動(dòng)處理。所有的圖片依據(jù)人臉邊界框裁剪并歸一化到400×400 的大小。人臉邊界框由OpenCV 人臉檢測(cè)器得到。通過(guò)手動(dòng)獲取人臉的三點(diǎn)坐標(biāo),對(duì)所有樣本進(jìn)行仿射變換,再基于相似姿態(tài)的人臉具有相似的特征,使用K-means 聚類(lèi)算法實(shí)現(xiàn)姿態(tài)聚類(lèi)。在300W 數(shù)據(jù)集上每個(gè)類(lèi)的平均臉如圖4 所示,不同類(lèi)別下的圖片有著不同的姿態(tài),但同一類(lèi)別下的人臉圖片姿態(tài)相似,這樣每個(gè)類(lèi)別下的樣本依據(jù)每個(gè)階段位置增量的分布,使用自適應(yīng)的SDM 模型獲得特征提取框的大小,來(lái)提取判別性特征,迭代5 次即可收斂。使用與文獻(xiàn)[20]相同的歸一化的均方根誤差(normalized mean error,NME)來(lái)評(píng)價(jià)關(guān)鍵點(diǎn)定位的好壞。如式(9):dipd是兩眼間的距離;xt是輸出的關(guān)鍵點(diǎn)位置;x*是真實(shí)關(guān)鍵點(diǎn)位置;p是關(guān)鍵點(diǎn)個(gè)數(shù)。由于采用兩眼間的距離來(lái)歸一化,為了清晰可見(jiàn),所有實(shí)驗(yàn)結(jié)果都省略了%。
在LFPW 和300W 數(shù)據(jù)集上分析姿態(tài)劃分以及自適應(yīng)特征提取對(duì)關(guān)鍵點(diǎn)定位準(zhǔn)確度提升的有效性。
圖6 展示了姿態(tài)劃分以及自適應(yīng)策略與SDM 模型在LFPW 數(shù)據(jù)集上平均誤差隨迭代次數(shù)的變換。可以看出,模型5 步達(dá)到收斂。姿態(tài)劃分與自適應(yīng)判別性特征的提取對(duì)于關(guān)鍵點(diǎn)定位平均誤差的減小有顯著作用。姿態(tài)聚類(lèi)較自適應(yīng)特征提取更能提升關(guān)鍵點(diǎn)定位準(zhǔn)確度。原因是聚類(lèi)后每個(gè)類(lèi)別下圖片的姿態(tài)緊致,差異變小,對(duì)應(yīng)關(guān)鍵點(diǎn)周?chē)崛〉奶卣鞲哂邢嗨菩?,?huì)簡(jiǎn)化訓(xùn)練過(guò)程,姿態(tài)聚類(lèi)在一定程度上輔助了判別性特征的提取。
Fig.6 Mean error with the number of iterations on LFPW圖6 LFPW 上平均誤差隨迭代次數(shù)的變化圖
表1 展示了兩種策略在LFPW 和300W 數(shù)據(jù)集上的平均誤差。自適應(yīng)特征提取策略在LFPW 和300W full 數(shù)據(jù)集上定位準(zhǔn)確度分別提升5.4%、3.6%。相比而言,姿態(tài)劃分策略在LFPW 和300W full 數(shù)據(jù)集上準(zhǔn)確度分別提升7.1%、4.3%。同時(shí)考慮姿態(tài)聚類(lèi)以及判別性特征的提取,本文模型相比SDM 模型,在LFPW 數(shù)據(jù)集上準(zhǔn)確度提升10.5%,在300W challenge 數(shù)據(jù)集上提升14.1%,common 數(shù)據(jù)集上提升10.0%,full 數(shù)據(jù)集上提升13.2%,說(shuō)明本文模型對(duì)準(zhǔn)確度提升有重要作用,特別是在challenge 數(shù)據(jù)集上。同時(shí)可以看出,在LFPW 數(shù)據(jù)集上的準(zhǔn)確度大于300W 數(shù)據(jù)集,原因是LFPW 僅包含49 個(gè)內(nèi)部關(guān)鍵點(diǎn),不包含較難定位的輪廓點(diǎn)。
Table 1 Comparison of mean error on LFPW and 300W datasets表1 LFPW 和300W 數(shù)據(jù)集上平均誤差的比較
為了評(píng)估本文模型,在HELEN 和300W 數(shù)據(jù)集上與現(xiàn)有的5 種方法進(jìn)行了比較。其中包含參數(shù)化方法基于擴(kuò)展ASM 的關(guān)鍵點(diǎn)定位算法(locating facial features with an extended active shape model,STASM[11]);級(jí)聯(lián)回歸方法RCPR[5]、ESR[6];深度學(xué)習(xí)的方法CFAN[17]、MDM[18]。使用與文獻(xiàn)[20]相同的歸一化的均方根誤差作為評(píng)價(jià)指標(biāo)。
從表2 可以看出,本文模型在兩個(gè)數(shù)據(jù)集上的結(jié)果要好于其他模型。各種模型在HELEN 數(shù)據(jù)集上的平均誤差要高于300W common 數(shù)據(jù)集,原因在于HELEN 數(shù)據(jù)集有194 個(gè)關(guān)鍵點(diǎn),相對(duì)68 個(gè)關(guān)鍵點(diǎn),定位難度大。STASM 平均誤差最高,效果最差,特別是在300W challenge 數(shù)據(jù)集上。因?yàn)樵撃P褪腔贏SM 這種參數(shù)化的方法,該方法基于PCA 線性模型,特征空間的表達(dá)能力受限,對(duì)于訓(xùn)練集沒(méi)出現(xiàn)過(guò)的圖片或者差異較大的圖片不能表現(xiàn)出令人滿意的結(jié)果。深度的方法MDM 要優(yōu)于ESR[6]、CFAN[17]等方法,在HELEN 和300W common 數(shù)據(jù)集上,平均誤差低于本文模型,原因在于MDM 增加了記憶機(jī)制,可以在相鄰的級(jí)聯(lián)回歸迭代之間傳遞信息以及受益于深度網(wǎng)絡(luò)較強(qiáng)的非線性映射能力。以上的方法都是將樣本送入統(tǒng)一的框架,沒(méi)有考慮姿態(tài)差異對(duì)模型訓(xùn)練帶來(lái)的困難,本文模型考慮了姿態(tài)差異對(duì)人臉對(duì)齊的影響,將不同姿態(tài)的人臉?biāo)腿氩煌哪P拖逻M(jìn)行訓(xùn)練,效果好于其他模型,尤其在300W challenge數(shù)據(jù)集上,準(zhǔn)確度相比STASM 提升47.3%,比MDM提升3.21%。
Table 2 Mean error of face alignment models on HELEN and 300W datasets表2 HELEN 和300W 數(shù)據(jù)集上人臉對(duì)齊模型平均誤差比較
圖7 展示了MDM 模型與本文模型在300W 數(shù)據(jù)集上關(guān)鍵點(diǎn)定位的效果圖,綠點(diǎn)代表MDM 模型結(jié)果,紅點(diǎn)代表本文的結(jié)果??梢钥闯觯疚哪P拖啾扔贛DM 模型,能更加準(zhǔn)確地定位關(guān)鍵點(diǎn),尤其是姿態(tài)復(fù)雜的人臉圖片。
Fig.7 300W results of MDM and proposed model圖7 MDM 與本文模型在300W 上的結(jié)果圖
本文提出了一種基于自適應(yīng)SDM 模型的姿態(tài)魯棒的人臉對(duì)齊算法。為了解決復(fù)雜姿態(tài)對(duì)人臉關(guān)鍵點(diǎn)定位帶來(lái)的困難,先利用仿射變換矯正人臉姿態(tài),再通過(guò)聚類(lèi)算法實(shí)現(xiàn)姿態(tài)的劃分。遵循由粗到細(xì)的級(jí)聯(lián)回歸的準(zhǔn)則,采用自適應(yīng)特征提取框來(lái)提取判別性特征。在每一種姿態(tài)下,給予更貼近真實(shí)關(guān)鍵點(diǎn)位置的初始位置,采用自適應(yīng)特征提取的SDM 模型進(jìn)行訓(xùn)練。在LFPW、HELEN 和300W 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型優(yōu)于SDM 模型以及其他人臉對(duì)齊模型,尤其在復(fù)雜姿態(tài)的人臉圖片上。