傅由甲
(重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 400054)
基于圖像的人臉姿態(tài)估計(jì)是指在輸入圖像中確定人臉在三維空間中偏轉(zhuǎn)角度的過程,通過姿態(tài)估計(jì)得到頭部轉(zhuǎn)動(dòng)方向和眼睛注視位置,是多視角環(huán)境下的人機(jī)交互、視覺監(jiān)視的基礎(chǔ)。
人臉姿態(tài)估計(jì)的途徑多種多樣,如激光雷達(dá)、立體相機(jī)、陣列相機(jī)或深度傳感器等,雖然從這些途徑中獲取的人臉姿態(tài)角精度很高,但在實(shí)際應(yīng)用中由于受限于環(huán)境條件往往不能得到,因此僅從單幅圖像中估計(jì)人臉姿態(tài)的方法變得非常實(shí)用。
單幅圖像由于可利用的信息量少,使得人臉姿態(tài)估計(jì)成為一個(gè)十分復(fù)雜的模式識(shí)別問題?;谏疃葘W(xué)習(xí)的方法因其訓(xùn)練過程依賴大量的標(biāo)注樣本和硬件設(shè)施,訓(xùn)練時(shí)間長(zhǎng),因而在一定程度上限制了其應(yīng)用的范圍。本文針對(duì)以上問題,提出一種基于面部特征點(diǎn)定位的頭部姿態(tài)估計(jì)方法。
基于圖像的人臉姿態(tài)估計(jì)方法主要有基于深度學(xué)習(xí)的方法、基于子空間分析的方法和基于模型的方法3 類。
基于深度學(xué)習(xí)的姿態(tài)估計(jì)方法是目前使用較多的方法。文獻(xiàn)[1]使用基于臉部關(guān)鍵點(diǎn)的熱力圖神經(jīng)網(wǎng)絡(luò)回歸器(heatmap-CNN)預(yù)測(cè)人臉姿態(tài)。文獻(xiàn)[2]使用在300W-LP 上訓(xùn)練的基于多均方誤差損失的卷積神經(jīng)網(wǎng)絡(luò)直接從圖像中預(yù)測(cè)人臉姿態(tài)。文獻(xiàn)[3]利用單獨(dú)的CNN 融合DCNN 的中間層,并運(yùn)用多任務(wù)學(xué)習(xí)算法處理融合特征,通過任務(wù)之間的協(xié)同作用提高各自任務(wù)的性能。文獻(xiàn)[4]使用細(xì)分空間結(jié)構(gòu)獲得更精細(xì)的偏轉(zhuǎn)角度預(yù)測(cè)。文獻(xiàn)[5]采用由粗到細(xì)的策略,在粗分階段中人臉姿態(tài)被分為4 類,然后送入到細(xì)分階段被進(jìn)一步求精,以此增加對(duì)光照、遮擋和模糊的魯棒性。
基于子空間分析方法假設(shè)人臉姿態(tài)和人臉圖像的某些特征間存在某種關(guān)系,通過統(tǒng)計(jì)學(xué)習(xí)建立這種關(guān)系實(shí)現(xiàn)姿態(tài)鑒別。文獻(xiàn)[6]提出一種將線性回歸與部分潛在輸出混合的方法,該方法結(jié)合了無監(jiān)督流形學(xué)習(xí)技術(shù)和回歸混合的優(yōu)點(diǎn),可以在遮擋情況下預(yù)測(cè)頭部姿勢(shì)角度。文獻(xiàn)[7]提出一種多層次結(jié)構(gòu)混合森林(MSHF)方法,從隨機(jī)選擇的圖像塊(頭部區(qū)域或背景)中提取多結(jié)構(gòu)特征,使用MSHF回歸得到頭部輪廓,再選擇相應(yīng)圖像塊的子區(qū)域輸入到MSHF 進(jìn)一步得到頭部姿態(tài)。文獻(xiàn)[8]在連續(xù)局部回歸方法中將HoG 特征和廣義判別性公共向量相結(jié)合,以減小頭部姿勢(shì)估計(jì)中的誤差。
基于模型的方法利用人臉幾何模型表示形狀,建立模型和圖像之間的對(duì)應(yīng)關(guān)系,然后通過某種方法實(shí)現(xiàn)姿態(tài)估計(jì)。文獻(xiàn)[9]提出一個(gè)統(tǒng)一框架來同時(shí)處理人臉特征點(diǎn)定位、姿態(tài)估計(jì)和面部變形,該框架使用基于模型的頭部姿態(tài)估計(jì)進(jìn)行級(jí)聯(lián)增強(qiáng),實(shí)現(xiàn)迭代更新。文獻(xiàn)[10]利用人眼、鼻孔的位置實(shí)現(xiàn)頭部姿態(tài)的分類估計(jì)。文獻(xiàn)[11]在鼻下點(diǎn)、雙眼眼角和嘴角點(diǎn)的基礎(chǔ)上通過牛頓迭代法估計(jì)人臉在雙眼可見狀態(tài)下繞3 個(gè)坐標(biāo)軸的偏轉(zhuǎn)值。文獻(xiàn)[12]提出基于四叉樹描述子的姿態(tài)估計(jì)方法,該方法基于臉部標(biāo)記點(diǎn)來逐層細(xì)分人臉區(qū)域,通過測(cè)量描述子與參考模型間的距離來估計(jì)人臉的姿態(tài)方向。與深度學(xué)習(xí)方法相比,雖然基于模型的單張圖像人臉姿態(tài)估計(jì)方法的精度受到標(biāo)記點(diǎn)精度的影響,但其具有計(jì)算簡(jiǎn)單、占用內(nèi)存小、利于部署在移動(dòng)設(shè)備上的優(yōu)點(diǎn)。
本文提出一種建立關(guān)聯(lián)特定人臉標(biāo)記點(diǎn)定位器的稀疏通用3D 人臉模型方法,通過關(guān)聯(lián)Adrian Bulat 人臉特征點(diǎn)定位器[13],使其能適應(yīng)平面內(nèi)任意旋轉(zhuǎn)的且具有自遮擋的大姿態(tài)角度的人臉姿態(tài)估計(jì)。通過3 個(gè)公共數(shù)據(jù)庫上的測(cè)試,驗(yàn)證了算法適用于俯仰角在[-50°,50°]、偏航角在[-90°,90°]和桶滾角在[0°,360°]的大范圍人臉姿態(tài)的估計(jì),具有較高的平均姿態(tài)估計(jì)精度。
基于模型的人臉姿態(tài)估計(jì)方法受到人臉標(biāo)記點(diǎn)的影響,而不同的人臉標(biāo)記點(diǎn)定位器定位的人臉標(biāo)記點(diǎn)偏好有所不同,在從人臉檢測(cè)到姿態(tài)估計(jì)的自動(dòng)化過程中,用于人臉姿態(tài)估計(jì)的3D 通用模型要與相應(yīng)的人臉標(biāo)記點(diǎn)定位器相匹配才能獲得較好的姿態(tài)預(yù)測(cè)精度。
本文使用Adrian Bulat 人臉標(biāo)記點(diǎn)定位器,定位出CMU Multi-PIE 數(shù)據(jù)庫[14]中337 個(gè)正面人臉的標(biāo)記點(diǎn)輪廓,并運(yùn)用ASM 人臉規(guī)格化方法[15]對(duì)標(biāo)記點(diǎn)輪廓集進(jìn)行歸一化,形成如圖1(a)所示的平均人臉。將圖1(b)所示的Candide-3 模型[16]中用于姿態(tài)估計(jì)的五官特征點(diǎn)正面對(duì)齊到圖1(a)的平均人臉上,保留對(duì)齊后的五官特征點(diǎn)的z坐標(biāo),而其x、y坐標(biāo)則使用圖1(a)的平均人臉相應(yīng)點(diǎn)的x、y坐標(biāo)替換,形成與Adrian Bulat 人臉標(biāo)記點(diǎn)定位器相匹配的稀疏通用3D 模型。
圖1 歸一化平均人臉與Candide-3 人臉Fig.1 Normalization mean face and Candide-3 face
人臉偏轉(zhuǎn)坐標(biāo)軸如圖2 所示,其中,繞X軸的偏轉(zhuǎn)稱為俯仰(pitch),繞Y軸的偏轉(zhuǎn)稱為偏航(yaw),繞Z軸的偏轉(zhuǎn)稱為桶滾(roll)。
圖2 人臉姿態(tài)及其坐標(biāo)軸Fig.2 Facial pose and its coordinate axes
本文使用Adrian Bulat 人臉特征點(diǎn)定位器完成人臉五官特征點(diǎn)(雙眼眼角、嘴角、鼻尖和鼻下點(diǎn))的定位,如圖3(a)所示。該定位器適應(yīng)于平面內(nèi)旋轉(zhuǎn)人臉的特征點(diǎn)定位,而且除了可見的特征點(diǎn)外,還能定位出那些被遮擋或者不可見的人臉特征點(diǎn)。在人臉五官特征點(diǎn)基礎(chǔ)上,本文采用圖3(b)所示的INewton_PY+R 算法估計(jì)人臉姿態(tài)。該算法為了減小損失函數(shù)中的估計(jì)參數(shù),將同時(shí)估計(jì)人臉繞3 個(gè)軸的旋轉(zhuǎn)過程轉(zhuǎn)換為搜索稀疏模型繞Z軸一定旋轉(zhuǎn)范圍內(nèi)的繞X、Y軸的最佳旋轉(zhuǎn)角的過程,消除損失函數(shù)中的roll角參數(shù)。通過將3D模型上的鼻下點(diǎn)與圖像上的鼻下點(diǎn)對(duì)準(zhǔn),約束模型只能以鼻下點(diǎn)為中心旋轉(zhuǎn)來消除損失函數(shù)中的平移參數(shù),使得損失函數(shù)僅保留縮放因子、pitch 角和yaw 角3 個(gè)參數(shù)。
圖3 本文人臉姿態(tài)估計(jì)方法流程Fig.3 Procedure of proposed facial pose estimation method
設(shè)s為3D 模型全局尺寸參數(shù),tx和ty分別為3D模型向XY平面平行投影后的X及Y方向平移參數(shù)。若已知人臉roll 角度γ,采用如下方法估計(jì)人臉深度方向偏轉(zhuǎn)角度α和β:將3D 模型的鼻下點(diǎn)與圖像上人臉的鼻下點(diǎn)重合并固定,然后調(diào)整s、α、β,使圖像上的其他特征點(diǎn)與經(jīng)二維投影后的3D 模型上的相應(yīng)點(diǎn)對(duì)齊(滿足最小距離平方和)。
最小距離平方和公式如下:
將式(2)代入式(1),并由限制條件式(3)使用內(nèi)點(diǎn)罰函數(shù)方法構(gòu)造增廣目標(biāo)函數(shù)(損失函數(shù)):
其中,rk>0 為障礙因子。
使用修正牛頓法[17]計(jì)算滿足式(4)的圖像人臉在指定γ角度情況下的pitch 和yaw 的偏轉(zhuǎn)參數(shù)α和β,以及3D 人臉模型的縮放系數(shù)s。
將人臉平面內(nèi)旋轉(zhuǎn)角度的估計(jì)與平面外偏轉(zhuǎn)角度估計(jì)相結(jié)合,以雙眼中心連線傾斜角θ為基礎(chǔ),通過搜尋θ±90°范圍內(nèi)最佳偏轉(zhuǎn)角α、β來獲得人臉繞各坐標(biāo)軸偏轉(zhuǎn)的最終估計(jì)角度。具體算法如下:
算法1迭代求解α,β,γ
本文使用了3 個(gè)公共人臉庫來對(duì)本文方法進(jìn)行驗(yàn)證。第1 個(gè)是CMU Multi-PIE 人臉數(shù)據(jù)庫,該數(shù)據(jù)庫包含337 個(gè)人,每個(gè)人的多視角圖像由15 個(gè)圍繞在該對(duì)象周圍的攝像機(jī)同時(shí)拍攝完成,如圖4 所示。該數(shù)據(jù)庫一共包含750 000 張不同表情、光照和視角的人臉圖像。
圖4 CMU Multi-PIE 多視角人臉及其攝像機(jī)分布Fig.4 CMU Multi-PIE multi-view pose and its distribution of cameras
第2 個(gè)是BIWIi Kinect Head Pose 人臉數(shù)據(jù)庫[18]。該數(shù)據(jù)庫包含20 個(gè)人(6 個(gè)女性和14 個(gè)男性),超過15 000 張RGB 圖像。每個(gè)對(duì)象坐在離攝像機(jī)前面1 m 左右的位置轉(zhuǎn)動(dòng)頭部,由深度攝像機(jī)和視頻攝像機(jī)記錄下相應(yīng)的動(dòng)作,給出每個(gè)人臉頭部的精確位置和姿態(tài)矩陣標(biāo)簽,如圖5 所示。本文將其中能被人臉特征點(diǎn)定位器捕捉到的pitch 角為[-50°,50°]的共14 813 個(gè)樣本作為測(cè)試樣本。
圖5 BIWI Kinect Head Pose 人臉庫中的人臉樣本Fig.5 Face samples from BIWI Kinect Head Pose face library
第3 個(gè)是Annotated Facial Landmark in the Wild(AFLW)數(shù)據(jù)庫[19]。該數(shù)據(jù)庫包含來自網(wǎng)絡(luò)相冊(cè)的大約25 000 個(gè)沒有經(jīng)過裁剪和調(diào)整大小的樣本,大多數(shù)是RGB 圖像,涵蓋不同姿態(tài)、年齡、表情、種族以及成像條件。由于成像于非約束環(huán)境,數(shù)據(jù)庫使用POSIT 算法[20]給出了這些樣本中人臉的估計(jì)姿態(tài)。本文隨機(jī)抽取其中5%的樣本作為測(cè)試樣本。
本文在公共人臉庫上進(jìn)行了2組實(shí)驗(yàn)測(cè)試。第1組測(cè)試本文算法在3 個(gè)人臉庫上的精度,第2 組則是對(duì)比本文算法與當(dāng)前主要算法在精度上的差異。
第1 組實(shí)驗(yàn)包括在人臉庫上進(jìn)行精度測(cè)試的3 個(gè)實(shí)驗(yàn)。圖6 是本文算法分別在3 個(gè)人臉庫上的累計(jì)誤差分布。以標(biāo)簽姿態(tài)的±15°為容許誤差[4],由圖6(a)可知,在Multi-PIE 上pitch 角滿足容許誤差的樣本占比為97.0%,yaw 角占比為99.7%,roll 角占比為100%。同樣,由圖6(b)可知,在BIWI 上pitch 角滿足容許誤差的樣本占比為97.7%,yaw 角占比為95.0%,roll 角占比為99.9%。由圖6(c)可知,算法對(duì)AFLW 數(shù)據(jù)集pitch 角滿足容許誤差的樣本占比為88.3%,yaw 角占比為85.8%,roll 角占比為96.8%。圖7 展示了該算法在3 個(gè)人臉集上的測(cè)試樣例及人臉方向線,其中,N為法向量,U為垂直切向量,T為水平切向量,第1 行為Multi-PIE 數(shù)據(jù)集,第2 行為BIWI 數(shù)據(jù)集,第3 行為AFLW 數(shù)據(jù)集。
圖6 本文算法在3 個(gè)數(shù)據(jù)集上的位姿估計(jì)累計(jì)誤差分布Fig.6 Pose estimation cumulative error distribution of the proposed algorithm on the three datasets
圖7 裁剪后的部分測(cè)試結(jié)果Fig.7 Partial test results after tailoring
為對(duì)精度進(jìn)一步評(píng)估,表1 為本文算法在3 個(gè)公共人臉測(cè)試集上的平均誤差統(tǒng)計(jì)結(jié)果,包括平均絕對(duì)誤差(MAE)、標(biāo)準(zhǔn)差(STD)和均方根誤差(RMSE)。
表1 本文算法在公共人臉數(shù)據(jù)集上的誤差Table 1 Error of proposed algorithm on the public face datasets(°)
從表1 可以看出,在Multi-PIE 上的實(shí)驗(yàn)效果好于BIWI,除Multi-PIE 數(shù)據(jù)庫中的人臉質(zhì)量明顯好于BIWI 的外,另一個(gè)原因在于BIWI 中人臉的位置偏移帶來的誤差。
人臉的空間狀態(tài)由頭部姿態(tài)和位置組成。當(dāng)人臉不在攝像機(jī)光軸中心時(shí),透視投影會(huì)使人臉相對(duì)于攝像機(jī)產(chǎn)生偏轉(zhuǎn)效應(yīng),如圖8 所示,攝像機(jī)位于坐標(biāo)系∠x′o′z′的原點(diǎn),同一姿態(tài)的人臉在a、b、c3 個(gè)位置產(chǎn)生的圖像ac、bc、cc并不相同。因此,圖像上人臉呈現(xiàn)的姿態(tài)是由人臉實(shí)際姿態(tài)和由位置產(chǎn)生的偏轉(zhuǎn)姿態(tài)兩部分構(gòu)成,這也是本文算法所測(cè)的人臉相對(duì)于攝像機(jī)的姿態(tài)。從圖4 可知Multi-PIE 數(shù)據(jù)庫中所有人臉位于攝像機(jī)光軸中心,而如圖5 所示,BIWI數(shù)據(jù)庫中人臉由于自身運(yùn)動(dòng)使一些樣本偏離攝像機(jī)光軸較大,造成實(shí)際姿態(tài)與相對(duì)姿態(tài)間產(chǎn)生差異。本文使用文獻(xiàn)[21]中的方法計(jì)算了BIWI 中人臉相對(duì)攝像機(jī)的姿態(tài),表2 展示了使用該姿態(tài)作為標(biāo)簽姿態(tài)的統(tǒng)計(jì)結(jié)果,相比于實(shí)際姿態(tài)作為標(biāo)簽,算法的誤差明顯減小。
圖8 透視投影下不同位置人臉產(chǎn)生的偏轉(zhuǎn)Fig.8 Offset of rotation produced by different face positions under perspective projection
表2 本文方法在BIWI 人臉數(shù)據(jù)集上的誤差Table 2 Error of proposed method on the BIWI face dataset(°)
另一方面,不同于BIWI 中的精確人臉姿態(tài),AFLW 數(shù)據(jù)庫中的人臉姿態(tài)是由算法生成的粗略姿態(tài)。為對(duì)比本文算法估計(jì)姿態(tài)和AFLW 中由POSIT算法生成的標(biāo)簽姿態(tài)的準(zhǔn)確度,本文分析了所有誤差超過容許誤差(±15°)的測(cè)試樣本,根據(jù)估計(jì)姿態(tài)和標(biāo)簽姿態(tài)的對(duì)比結(jié)果將它們分為3 組,其中,“估計(jì)姿態(tài)好于標(biāo)簽姿態(tài)”組包含了通過觀察估計(jì)姿態(tài)明顯好于標(biāo)簽姿態(tài)的樣本,“標(biāo)簽姿態(tài)好于估計(jì)姿態(tài)”組包含了標(biāo)簽姿態(tài)好于估計(jì)姿態(tài)的樣本,“不確定”組包含了僅憑觀察無法確定兩者哪個(gè)更準(zhǔn)確的樣本。表3 列出了各組樣本占測(cè)試樣本的比率。圖9 顯示部分估計(jì)姿態(tài)好于標(biāo)簽姿態(tài)的樣本以及兩者的人臉方向線。
表3 AFLW 中估計(jì)姿態(tài)誤差較大的測(cè)試樣本中各組樣本比率Table 3 Sample ratio of each group in the test sample with large estimated attitude error in AFLW %
圖9 估計(jì)姿態(tài)與標(biāo)簽姿態(tài)的比較Fig.9 Comparison of estimated pose and label pose
由表3 可知,在所有估計(jì)姿態(tài)超過容許誤差的樣本中,10.03%的樣本的估計(jì)姿態(tài)明顯比標(biāo)簽姿態(tài)更合理,而僅有5.15%的標(biāo)簽姿態(tài)好于估計(jì)姿態(tài)。而且隨著估計(jì)姿態(tài)與標(biāo)簽姿態(tài)差異的增加(error >25°),估計(jì)姿態(tài)好于標(biāo)簽姿態(tài)的樣本個(gè)數(shù)增加明顯,這意味著本文算法的精度非常接近POSIT 在AFLW 上的結(jié)果,甚至可能更接近真實(shí)的人臉姿態(tài)。表4 顯示了從估計(jì)誤差超過容許誤差的樣本中剔除估計(jì)姿態(tài)好于標(biāo)簽姿態(tài)的樣本后的本文算法的誤差統(tǒng)計(jì)結(jié)果。
表4 剔除估計(jì)姿態(tài)好于標(biāo)簽姿態(tài)樣本后的精度Table 4 Pose errors of the proposed algorithm after removing the samples with measured poses better than label(°)
第二組實(shí)驗(yàn)是本文算法與當(dāng)前主要人臉姿態(tài)估計(jì)算法在MAE 上的比較,包括與基于深度學(xué)習(xí)的算法和非深度學(xué)習(xí)算法的比較。表5 是不同算法在BIWI 數(shù)據(jù)庫上的比較,其中,文獻(xiàn)[4]實(shí)現(xiàn)平臺(tái)為Nvidia GTX 1080 Titan GPU,文獻(xiàn)[5]實(shí)現(xiàn)平臺(tái)為Nvidia GeForce GTX 1080 GPU,文獻(xiàn)[12]實(shí)現(xiàn)平臺(tái)為i5 quad core CPU+Intel Iris 540 GPU,*為姿態(tài)參數(shù)估計(jì)時(shí)間。表6 是不同算法在AFLW 數(shù)據(jù)庫上的比較,其中,文獻(xiàn)[1,3]實(shí)現(xiàn)平臺(tái)為Nvidia GTX Titan-X GPU,文獻(xiàn)[12]實(shí)現(xiàn)平臺(tái)為i5 quad core CPU+Intel Iris 540 GPU,*是表4 的統(tǒng)計(jì)結(jié)果。為對(duì)比本文算法與同類算法的性能,表中包含了一些當(dāng)前效果最好的非深度學(xué)習(xí)算法。從表5、表6可以看出,本文算法平均精度超過了所有非深度學(xué)習(xí)算法,在BIWI 上比文獻(xiàn)[12]的結(jié)果高1.32°。雖然在AFLW 上本文算法僅比文獻(xiàn)[12]高0.7°,但本文算法的測(cè)試樣本涵蓋所有pitch在[-50°,50°]的姿態(tài),而文獻(xiàn)[12]則限定姿態(tài)范圍pitch 在±30°,yaw 在±45°之間。在與基于深度學(xué)習(xí)的方法對(duì)比中,本文算法在BIWI 上比最好的文獻(xiàn)[4]算法平均誤差高0.77°,在AFLW 上比最好的文獻(xiàn)[3]算法平均誤差高0.87°,比其他的當(dāng)前深度學(xué)習(xí)算法的結(jié)果,如文獻(xiàn)[2,5]在BIWI 上的結(jié)果以及文獻(xiàn)[1]在AFLW 上的結(jié)果要好。如果考慮到AFLW上的一些樣本有著比標(biāo)簽姿態(tài)更準(zhǔn)確的估計(jì)姿態(tài)的事實(shí),則本文算法的MAE 指標(biāo)將降至6.04°,與文獻(xiàn)[3]的5.89°非常接近??紤]到本文算法沒有利用樣本學(xué)習(xí),因此與主流深度學(xué)習(xí)算法性能接近。
表5 BIWI 數(shù)據(jù)集上不同算法的MAE 對(duì)比Table 5 MAE comparison of different algorithm on BIWI dataset
表6 AFLW 數(shù)據(jù)集上不同算法的MAE 對(duì)比Table 6 MAE comparison of different algorithm on AFLW dataset
本文算法實(shí)驗(yàn)環(huán)境為Intel?CoreTMi7-3632QM 2.2 GB 單CPU,Windows 筆記本電腦,姿態(tài)參數(shù)估計(jì)在C++平臺(tái)上運(yùn)行時(shí)間小于2 ms,遠(yuǎn)低于同類方法的時(shí)間。雖然高于深度學(xué)習(xí)型方法[4-5],但本文運(yùn)行平臺(tái)為筆記本上的普通CPU,如果使用文獻(xiàn)[12]所用的實(shí)時(shí)人臉特征點(diǎn)檢測(cè)器[22],則有望超過文獻(xiàn)[1-3]的運(yùn)行時(shí)間,達(dá)到實(shí)時(shí)估計(jì)的效果。
本文提出一種使用稀疏通用模型估計(jì)單幅圖像中人臉姿態(tài)的方法。該方法通過容易定位的人臉特征角點(diǎn)完成人臉的pitch、yaw 和roll 3 個(gè)角度的大范圍姿態(tài)估計(jì),在Multi-PIE、BIWI 和AFLW 3 個(gè)人臉庫上表現(xiàn)良好。在BIWI 和AFLW 上的平均誤差測(cè)試結(jié)果表明,姿態(tài)估計(jì)準(zhǔn)確度高于目前主流的非學(xué)習(xí)類型的方法,與主流的學(xué)習(xí)型方法具有可比性。本文INewton_PY+R 方法不依賴于訓(xùn)練樣本,不受限于硬件設(shè)備,通過關(guān)聯(lián)特定人臉標(biāo)記點(diǎn)定位器的稀疏通用三維人臉建模方法完成與不同的人臉特征點(diǎn)定位器搭配,可以實(shí)現(xiàn)人臉大姿態(tài)角度估計(jì)或者實(shí)時(shí)姿態(tài)估計(jì)的任務(wù)。下一步將引入稀疏可變模型及考慮透視投影下的人臉姿態(tài)估計(jì),以提高算法的精確度。