陳國軍,楊 靜,程 琰,尹 鵬
基于RGBD的實時頭部姿態(tài)估計
陳國軍,楊 靜,程 琰,尹 鵬
(中國石油大學(xué)(華東)計算機與通信工程學(xué)院,山東 青島 266580)
實時的頭部姿態(tài)估計在人機交互和人臉分析應(yīng)用中起著至關(guān)重要的作用,但準確的頭部姿態(tài)估計方法依然具有一定的挑戰(zhàn)性。為了提高頭部姿態(tài)估計的準確性和魯棒性,將基于幾何的方法與基于學(xué)習(xí)的方法相結(jié)合進行頭部姿態(tài)估計。在人臉檢測和人臉對齊的基礎(chǔ)上,提取彩色圖像幾何特征和深度圖像的局部區(qū)域深度特征,再結(jié)合深度塊的法線和曲率特征,構(gòu)成特征向量組;然后使用隨機森林的方法進行訓(xùn)練;最后,所有決策樹進行投票,對得到的頭部姿態(tài)高斯分布估計進行閾值過濾,進一步提高模型預(yù)測的準確度。實驗結(jié)果表明,該方法與現(xiàn)有的頭部姿態(tài)估計方法相比,具有更高的準確度及魯棒性。
頭部姿態(tài)估計;隨機森林;RGBD數(shù)據(jù);幾何特征;深度特征
頭部姿態(tài)估計簡單的說,是通過圖像推斷出人的頭部轉(zhuǎn)動角度。準確的頭部姿態(tài)估計可用于視線方向估計[1],駕駛員后視鏡查看行為檢測[2],預(yù)測駕駛員疲勞狀態(tài)[3]或幫助殘疾人控制輪椅方向等等,因此精確、快速的頭部姿態(tài)估計已成為計算機視覺近年來的研究熱點。從數(shù)據(jù)源角度分析,頭部姿態(tài)估計的方法分為:基于二維彩色圖像、基于深度圖像和基于RGBD圖像3種。
基于二維彩色圖像的方法是最早應(yīng)用到頭部姿態(tài)估計的一種傳統(tǒng)方法。LI等[4]采用基于模板匹配的方法對序列圖像進行頭部姿態(tài)估計,該方法簡單,但準確度不高且計算量較大;郭知智等[5]使用基于幾何的方法將眼角點和鼻尖作為特征點,利用自適應(yīng)線性回歸估計頭部姿態(tài),該方法對特殊點的依賴性較大;MA等[6]采用面部特征點的方法進行頭部姿態(tài)估計,其需要手動提取面部區(qū)域,圖像處理的時間較長;閔秋莎等[7]同樣提出一種基于面部特征點定位的頭部姿態(tài)估計方法,但該方法只能估計出頭部的粗略方向。文獻[8]提出面部行為分析工具OpenFace,使用面部68個特征點的相對位置估計頭部姿態(tài),其在頭部轉(zhuǎn)動較大的情況下特征點定位不夠準確,頭部姿態(tài)估計效果較差。
由于二維彩色圖像受光照變化和部分遮擋的影響比較大,導(dǎo)致準確度低;基于深度圖像的方法可以有效降低光照和遮擋的影響,提高了頭部姿態(tài)的魯棒性。文獻[9]首次利用深度信息的隨機回歸森林方法進行頭部姿態(tài)估計,且規(guī)定圖像中只能有頭部信息;劉袁緣等[10]引入樹結(jié)構(gòu)分層隨機森林(random forest,RF)的方法進行頭部姿態(tài)估計,提高了非約束環(huán)境下多類頭部姿態(tài)估計的準確率和效率,但是結(jié)構(gòu)復(fù)雜、計算量大;文獻[11]提出一種基于特征點識別的計算框架,將頭部姿態(tài)問題轉(zhuǎn)換為空間鼻尖特征點和朝向特征點的問題,該方法對鼻子的遮擋變得極其敏感,穩(wěn)定性不夠。李成龍等[12]提出了一種基于卡爾曼濾波和隨機回歸森林的頭部姿態(tài)估計方法,其使用卡爾曼濾波和隨機回歸森林相結(jié)合的方法進行頭部姿態(tài)估計。該方法降低了深度圖像的噪聲影響,與單獨的RF方法相比,其魯棒性和準確性得到了提高。
由于深度圖像存在噪聲且解像度低,只使用深度信息進行頭部姿態(tài)估計精確度較差,因此基于RGBD圖像的方法受到越來越多人的關(guān)注。LI等[13]使用彩色圖像檢測特征點,并結(jié)合深度圖像獲得特征點的三維信息,使用Levenberg-Marquardt方法迭代優(yōu)化姿態(tài)參數(shù),最后使用卡爾曼濾波平滑參數(shù)。文獻[14]使用基于AAM模型計算當前圖像的頭部姿態(tài),然后使用估計的頭部姿態(tài)值將圖片轉(zhuǎn)換為初始視圖,最后計算初始視圖和當前的圖像特征點投影坐標之間的距離,用于估計頭部姿態(tài)跟蹤的誤差值;文獻[15]利用3D點云的圖像集合,將當前視圖轉(zhuǎn)換為基于外觀的集群;文獻[16]提出了CLM-Z模型,在CLM的基礎(chǔ)上增加了深度信息,進一步提高了頭部姿態(tài)估計的準確度。彩色圖像和深度圖像相結(jié)合的方法改進了彩色圖像對光照、陰影較敏感的缺點,通常具有很高的魯棒性和準確性,但是由于一般要求使用的彩色圖像分辨率較高,導(dǎo)致算法的計算速率低,很難保證實時性。
為了保證算法的效率,滿足實時性的應(yīng)用需求,本文提出一種基于RGBD的頭部姿態(tài)估計方法,提取彩色圖像中關(guān)鍵點幾何位置特征、深度圖像的局部深度特征以及法線和曲率特征,并使用RF的方法進行訓(xùn)練和預(yù)測。該方法有效地解決了復(fù)雜環(huán)境下的頭部姿態(tài)估計問題,并且降低了現(xiàn)有方法對彩色圖像高分辨率的要求,擴展了頭部姿態(tài)估計的應(yīng)用范圍,很好的避免了不同環(huán)境下光照變化、陰影等問題。
本文的研究目的是使用低成本傳感器獲得的彩色圖像和低質(zhì)量深度圖像估計頭部姿態(tài)。首先對圖像進行人臉檢測,提取頭部位置的圖像;然后進一步進行人臉對齊,定位面部特征點。為保證人臉檢測算法的準確性及魯棒性,本文采用了seetaFace進行人臉檢測和對齊。
人臉檢測模塊基于一種經(jīng)典級聯(lián)結(jié)構(gòu)和多層神經(jīng)網(wǎng)絡(luò)相結(jié)合的人臉檢測方法[17]實現(xiàn),其所采用的漏斗型級聯(lián)結(jié)構(gòu)(funnel-structured cascade,F(xiàn)uSt)專門針對多姿態(tài)人臉檢測而設(shè)計,其中引入了由粗到精的設(shè)計理念,兼顧了速度和精度的平衡。
人臉對齊模塊采用一種由粗到精的自編碼器網(wǎng)絡(luò)(coarse-to-fine auto-encoder networks,CFAN[18])來求解從人臉表觀到人臉形狀的復(fù)雜非線性映射過程。CFAN級聯(lián)了多級棧式自編碼器網(wǎng)絡(luò),其中的每一級均刻畫從人臉表觀到人臉形狀的部分非線性映射。
為降低光照和陰影對圖像的影響,采用了彩色圖像的幾何特征和深度圖像特征相結(jié)合的方法進行頭部姿態(tài)估計。幾何特征和深度特征均是在人臉對齊定位特征點之后獲取。
當頭部發(fā)生轉(zhuǎn)動時,由于頭部與圖像平面間的夾角發(fā)生改變,圖像平面上關(guān)鍵點間的相對距離也會發(fā)生變化。所以文獻[5-8]直接利用面部特征點的相對位置進行頭部姿態(tài)估計。為了提高準確率,在提取面部特征點相對位置的基礎(chǔ)上,進一步提取特征點組成三角形的面積信息,豐富了圖形特征,并使用RF進行訓(xùn)練。
在RGB圖像中定位人臉關(guān)鍵點以后(圖1),需為5個特征點編號,1為左眼,2為右眼,3為鼻尖,4為左嘴角,5為右嘴角。按照一定順序,計算任意2點間的距離,以及任意不共線3點組成三角形的面積(當3點共線時,標記三角形面積為0)。提取每張彩色圖片特征點之間的距離和三角形的面積作為輸入特征,訓(xùn)練模型。
圖1 人臉檢測和人臉對齊
除了彩色圖像幾何特征之外,還提取了深度圖像特征,即5個特征點附近的局部深度特征(圖2)。為了得到更加準確的頭部姿態(tài)估計,在局部深度特征的基礎(chǔ)上,進一步將深度數(shù)據(jù)轉(zhuǎn)換成點云數(shù)據(jù),提取法線特征(圖3)以及曲率特征。
圖2 深度圖中提取對應(yīng)特征點的局部深度信息
圖3 點云法向量
表面法線是幾何體一個很重要的特征,可以描述面部局部區(qū)域的凹凸情況,有效區(qū)分鼻尖點、嘴角點、眼角點等特殊點,常常被用于點云渲染、重建和注冊等計算機視覺應(yīng)用中。將深度圖像轉(zhuǎn)換為點云后,表面法線的問題可以近似轉(zhuǎn)化為切面的問題,進而變成最小二乘法擬合平面的問題。因此表面法線的計算問題就變?yōu)榉治鼋忺c組成的協(xié)方差矩陣的特征矢量和特征值問題,對于每一個點P,對應(yīng)的協(xié)方差矩陣,即
采用基于Voronoi區(qū)域面積的方法計算離散曲率,先生成Delaunay三角網(wǎng),再利用Voronoi圖計算局部塊的高斯曲率和平均曲率[19]。將高斯曲率和平均曲率的公式離散化,平均曲率向量為
其中,1()={|x與x之間有一條邊};為x所在的Voronoi區(qū)域的面積之和(圖4(b));α和β為邊xx對應(yīng)的2個角度(圖4(d))。當x所在的某個三角形是鈍角三角形時,需對作修正[20]。高斯曲率為
其中,為是x所在三角形的數(shù)目;角θ如圖(4(e))所示。
(a) 離散點(b) Delaunay三角網(wǎng)格 (c) Voronoi圖(d) 平均曲率
因此每組訓(xùn)練圖像的參數(shù)為={P=(X,L)},其中,X為一幅圖像得到的圖像特征,即X= (A,D,N,C),A為5個特征點組成的線段距離和任意3個點組成三角形的面積特征,D為特征點區(qū)域局部深度塊的深度特征;N為近鄰的法線特征;C為局部深度塊的高斯曲率和平均曲率特征;L為標注真實值的標簽數(shù)據(jù)。圖像特征提取完成以后,使用隨機回歸森林進行訓(xùn)練和測試。
RF是一種由決策樹組成的著名機器學(xué)習(xí)算法。該方法已經(jīng)被應(yīng)用到解決計算機視覺的很多問題,如分類、回歸和概率密度估計[21]。RF中的每棵決策樹均由整個數(shù)據(jù)集中選取的隨機樣本獨立生成。
隨機回歸森林算法隨著決策樹的數(shù)量變大,泛化誤差收斂于一個極限[22],同時具有快速學(xué)習(xí)等優(yōu)點。此外,其還適用于處理缺失的數(shù)據(jù)問題,并容易實現(xiàn)并行處理,對于實時的性能提供了條件。
圖5 使用隨機回歸森林進行頭部姿態(tài)估計的過程
RF算法由訓(xùn)練和測試2個步驟組成。訓(xùn)練步驟主要是構(gòu)建多樹型分類器,包括數(shù)據(jù)歸納、樹型結(jié)構(gòu)的構(gòu)造和參數(shù)的優(yōu)化。在測試步驟中,由樹生成的中間結(jié)果集成為最終的結(jié)果。為了提高準確度,將所有決策樹的投票結(jié)果進行閾值過濾,從而去除掉一些異常點。
用于訓(xùn)練和測試的數(shù)據(jù)來自于Biwi數(shù)據(jù)集[9],其中90% (大約13 500張圖片)用于訓(xùn)練,10% (大約1 500張圖片)用于測試準確度和誤差值。
Biwi Kinect head pose database含有由微軟Kinect捕捉到的彩色圖像和低分辨率、存在噪聲的深度數(shù)據(jù),該數(shù)據(jù)集帶有真實頭部轉(zhuǎn)動的標簽,且在頭部轉(zhuǎn)動角度和面部外觀方面有很大的差異,如眼鏡和帽子、面部表情和發(fā)型引起的部分遮擋。該數(shù)據(jù)庫有超過15 K張圖片,數(shù)據(jù)在距離傳感器1 m遠的地方采集,人臉平均大小為90×110像素。所有采集對象均需轉(zhuǎn)動其頭部,并試圖涵蓋所有可能的旋轉(zhuǎn)角和俯仰角,即左右轉(zhuǎn)動角度為–75°~+75°,上下點頭角度為–60°~60°以及左右偏頭的角度為–20°~20°。
利用RF進行分類是將頭部姿態(tài)估計問題建模為一個回歸問題,并將彩色圖像和深度圖像提取的特征使用決策樹映射到一組頭部姿態(tài)的標簽中。經(jīng)驗證,RF比文獻[23]中的單個分類器顯示了更好的性能,且不易出現(xiàn)過擬合現(xiàn)象。
RF從根節(jié)點遞歸地構(gòu)建決策樹的過程如下:
(1) 隨機選擇訓(xùn)練子集。在訓(xùn)練集中,利用不放回抽樣方法選擇一組訓(xùn)練當前樹的訓(xùn)練子集S,并由第1節(jié)提取的圖像特征和帶注釋的頭部標簽組成,參數(shù)化由1.2節(jié)的={P=(X,L)}表示。
(2) 隨機選擇特征集。假設(shè)總特征數(shù)為(即第1節(jié)提取的特征),則在每一輪生成決策樹的過程中,由個特征中隨機選取(<)個特征組成一個新的特征集,并使用新的特征集生成決策樹。
(3) 選取最優(yōu)特征。選擇不同特征順序,可產(chǎn)生不同決策樹,選擇信息增益率大的特征可使各子集下標簽更純凈。度量分類后,提高數(shù)據(jù)集純度的方式為計算個特征的信息增益率,并選擇最優(yōu)特征,信息增益率越大,表明特征分類能力越強。信息增益率的計算方法為
其中,(,)為信息增益,使用劃分前幾何特征和深度特征熵的值與劃分后熵的差值來衡量當前特征對于樣本集合劃分效果的好壞,計算式為
對于待劃分的數(shù)據(jù)集S,其劃分前的熵()是確定的,但是劃分之后數(shù)據(jù)子集的熵(|)是不確定的,(|)越小說明使用此特征劃分得到的子集的不確定性越小(即純度越高),因此需選擇使得信息增益最大的特征來劃分當前數(shù)據(jù)集。
待劃分數(shù)據(jù)集劃分前的熵()為
其中,為待劃分的訓(xùn)練數(shù)據(jù)集;為子節(jié)點的數(shù)量;P為類別樣本數(shù)量占所有樣本的比例。
對待劃分數(shù)據(jù)集,選擇特征作為決策樹判斷節(jié)點時,在特征作用后的信息熵為(|),即
()為數(shù)據(jù)集以特征作為隨機變量熵的倒數(shù),表示分裂子節(jié)點數(shù)據(jù)量的信息增益,即
其中,為子節(jié)點的數(shù)量;n為被分到第個子節(jié)點的數(shù)據(jù)量;為父節(jié)點數(shù)據(jù)量。(,)被稱為是的“固定值”,用于描述屬性的純度。如果只含有少量的取值,其純度就比較高,否則的取值越多,純度就越低,(,)的值也就越大,所得到的信息增益率就越低。
(4) 根據(jù)二進制測試的結(jié)果,每個分割節(jié)點將樣本集分成2個子集。如果樹的深度達到預(yù)定值或該節(jié)點的數(shù)據(jù)量到達一個指定的數(shù)值,則當前結(jié)點為葉子結(jié)點,不再進行遞歸。否則轉(zhuǎn)到第(3)步。
給定一個新的彩色圖像和對應(yīng)深度圖像,通過人臉檢測和人臉對齊獲取圖像特征并作為輸入,使用訓(xùn)練生成的模型進行頭部姿態(tài)角度預(yù)測。每棵樹中給定樣本,從根目錄開始由存儲在結(jié)點的二進制測試進行引導(dǎo)。在樹的每一個非葉節(jié)點上,由存儲的二進制測試對輸入圖像進行評估、判斷,并發(fā)送至左結(jié)點或右結(jié)點,下個結(jié)點依次遞歸,直到葉子結(jié)點得到一個角度預(yù)測值。然后,對所有決策樹結(jié)果進行整合得到最終的角度預(yù)測值。
為了測試非約束環(huán)境下的估計結(jié)果,本文在Biwi數(shù)據(jù)集上進行測試。首先,對3種改進方案進行了評價,并對其關(guān)鍵參數(shù)的影響進行檢驗;此外,在不同環(huán)境下,將RF估計值與真實值進行了對比;最后,在Biwi數(shù)據(jù)集上對RF的整體性能進行了驗證,并與其他方法進行了比較。
所有的實驗都是在Intel i7-6700 (3.4 GHz CPU)的PC平臺上完成的。實驗使用的參數(shù)值為:葉節(jié)點的最小樣本數(shù)量為10,RF訓(xùn)練圖像數(shù)量為13 500,測試數(shù)量為1 500。
RF由決策樹組成,因此,不同數(shù)量的決策樹訓(xùn)練的模型準確度不同。如圖6所示,在使用不同圖像特征進行訓(xùn)練時,當決策樹數(shù)量由10增加到100,頭部姿態(tài)的準確率曲線均在不斷提升,但50以后,誤差減小的幅度變小,準確率提升也變得緩慢,該結(jié)果符合RF的規(guī)模達到一定程度時,森林可解釋性減弱的特征[24]。并且,隨著決策樹的數(shù)量增大,RF的構(gòu)建時間也會隨之增加。為了平衡速度與精度,最終決策樹的數(shù)量定為50,在此基礎(chǔ)上進行其他實驗。
圖6 決策樹數(shù)量和平均準確率的關(guān)系
圖7顯示了不同圖像特征對識別精度的影響。由圖7可知,在幾何特征的基礎(chǔ)上,增加面部的局部深度信息,在一定程度上可減小頭部姿態(tài)的平均角度誤差,同時增加法線和曲率等特征也可提高了姿態(tài)角的估計精度。
表1為使用不同閾值過濾各個決策樹的預(yù)測結(jié)果,即最終預(yù)測值與真實值的誤差的關(guān)系,決策樹數(shù)量為50,圖像特征為幾何特征和局部深度特征以及深度塊的曲率和法線特征。
圖7 決策樹數(shù)量與平均角度誤差的關(guān)系
表1 閾值大小與平均誤差的關(guān)系
由表1可以看出,設(shè)置閾值過濾決策樹提高了RF的精確度。從理論上講,閾值設(shè)置的越小,精確度越高,但是,當一些決策樹預(yù)測結(jié)果整體偏高或偏低時,小的閾值設(shè)置對于精確度的提高并不明顯,因此本文閾值選擇3。
為了驗證方法有效性,圖8和圖9考慮了光照條件、相機位置、眼鏡遮擋的變化對實驗結(jié)果的影響。
(a) 光照條件1(b) 光照條件2 (c) 眼鏡遮擋+角度1(d) 眼鏡遮擋+角度2
(a) 實際應(yīng)用1(b) 實際應(yīng)用2
圖8(a)與8(b)表示不同光照條件下的實驗效果。圖8(c)與8(d)表示了不同角度與遮擋情況下的實驗效果。圖9為實際應(yīng)用中的測試實例。通過實驗表明,該方法在光照、不同角度和遮擋情況下表現(xiàn)較好,具有一定的魯棒性,且速度較快,可以進行實時的頭部姿態(tài)估計。
圖10(a)~(d)分別表示眼睛、鼻子、嘴部特征點檢測不準確時,頭部姿態(tài)估計值與真實值的對比。從圖中可以看出,鼻尖位置偏移較其他特征點的偏移,對頭部姿態(tài)估計值的影響稍大,最大差值為3°左右,因此,對于個別特征點的少量偏移具有很好的魯棒性。
(a) 情況1(b) 情況2 (c) 情況3(d) 情況4
本文方法不單獨依賴于面部某一特征點,因此,當出現(xiàn)遮擋或者個別特征點檢測不準確時,對結(jié)果的影響小于依賴特定特征點的方法。
為了更好地說明算法的精確度,圖11將本文方法與其他使用加權(quán)RF進行頭部姿態(tài)估計的實驗結(jié)果進行對比,即線性加權(quán)法[25]和交叉加權(quán)方法[26]以及文獻[27]中的動態(tài)加權(quán)法的實驗結(jié)果。其顯示了不同的角度閾值與實驗準確率的關(guān)系。
圖11 與加權(quán)RF方法對比
表2為在相同數(shù)據(jù)集Biwi下,與文獻[28]、文獻[29]、文獻[16]、文獻[30]及文獻[8]方法在不同方向的誤差及平均誤差。文獻[16]及[28]-[29]均使用RGBD圖像特征,因此更適合作為對比方法。結(jié)果顯示,本文方法在數(shù)據(jù)集上展示了較優(yōu)的性能。
表2 各個方向的角度誤差及平均誤差
從圖11明顯看出,本文方法的準確率遠遠高于使用加權(quán)RF的方法。從表2可以看出,本文方法在不同角度的誤差值均小于其他方法。因此,其具有更高的準確性。
當最小人臉設(shè)置為80×80時,各過程耗時見表3??倳r間在30 ms左右,因此可以達到實時的性能要求。
表3 頭部姿態(tài)估計耗時表
本文提出一種基于RGBD進行實時頭部姿態(tài)估計的方法,提取了彩色圖像的幾何特征和深度圖像的深度特征以及法線和曲率特征,使用RF的方法進行訓(xùn)練,并在模型預(yù)測時使用閾值過濾。實驗結(jié)果表明,該方法與使用整個頭部的深度特征相比具有更高的準確性,并且受光照和部分遮擋的影響較小,具有更高的魯棒性。
[1] ROSSI S, LEONE E, STAFFA M. Using random forests for the estimation of multiple users’ visual focus of attention from head pose [M]//AI*IA 2016 Advances in Artificial Intelligence. Heidelberg: Springer, 2016: 89-102.
[2] 黃波, 鐘銘恩, 吳平東, 等. 基于車載視覺的駕駛員后視鏡查看行為檢測[J]. 圖學(xué)學(xué)報, 2018, 39(3): 477-484.
[3] WONGPHANNGAM J, PUMRIN S. Fatigue warning system for driver nodding off using depth image from Kinect [C]//2016 13th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON). New York: IEEE Press, 2016: 1-6.
[4] LI X H, CHEN H Y, CHEN Q L. A head pose detection algorithm based on template match [C]//2012 IEEE Fifth International Conference on Advanced Computational Intelligence (ICACI)). New York: IEEE Press, 2012: 673-677.
[5] 郭知智, 周前祥, 柳忠起. 基于自適應(yīng)線性回歸的頭部姿態(tài)計算[J]. 計算機應(yīng)用研究, 2016, 33(10): 3181-3184.
[6] MA B P, CHAI X J, WANG T J. A novel feature descriptor based on biologically inspired feature for head pose estimation [J]. Neurocomputing, 2013, 115: 1-10.
[7] 閔秋莎, 劉能, 陳雅婷, 等. 基于面部特征點定位的頭部姿態(tài)估計[J]. 計算機工程, 2018, 44(6): 263-269.
[8] BALTRUSAITIS T, ROBINSON P, MORENCY L P. OpenFace: An open source facial behavior analysis toolkit [C]//2016 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2016: 1-10.
[9] FANELLI G, GALL J, VAN GOOL L. Real time head pose estimation with random regression forests [C]// 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2011:617-624.
[10] 劉袁緣, 陳靚影, 俞侃, 等. 基于樹結(jié)構(gòu)分層隨機森林在非約束環(huán)境下的頭部姿態(tài)估計[J]. 電子與信息學(xué)報, 2015, 37(3): 543-551.
[11] 喬體洲, 戴樹嶺. 基于特征點識別的頭部姿態(tài)計算[J]. 北京航空航天大學(xué)學(xué)報, 2014, 40(8): 1038-1043.
[12] 李成龍, 鐘凡, 馬昕, 等. 基于卡爾曼濾波和隨機回歸森林的實時頭部姿態(tài)估計[J]. 計算機輔助設(shè)計與圖形學(xué)學(xué)報, 2017, 29(12): 2309-2316.
[13] LI C L, ZHONG F, ZHANG Q, et al. Accurate and fast 3D head pose estimation with noisy RGBD images [J]. Multimedia Tools and Applications, 2018, 77(12): 14605-14624.
[14] STRUPCZEWSKI A, CZUPRY?SKI B, SKARBEK W, et al. Head pose tracking from RGBD sensor based on direct motion estimation [M]//Lecture Notes in Computer Science. Heidelberg: Springer, 2015: 202-212.
[15] KIM D, PARK J, KAK A C. Estimating head pose with an RGBD sensor: A comparison of appearance-based and pose-based local subspace methods [C]//2013 IEEE International Conference on Image Processing. New York: IEEE Press, 2013: 3637-3641.
[16] BALTRU?AITIS T P, ROBINSON P, MORENCY L P. 3D constrained local model for rigid and non-rigid facial tracking [C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 2610-2617.
[17] WU S Z, KAN M N, HE Z L, et al. Funnel-structured cascade for multi-view face detection with alignment-awareness [J]. Neurocomputing, 2017, 221: 138-145.
[18] ZHANG J, SHAN S G, KAN M N, et al. Coarse-to-fine auto-encoder networks (CFAN) for real-time face alignment [M]//Computer Vision – ECCV 2014. Cham: Springer International Publishing, 2014: 1-16.
[19] MEYER M, DESBRUN M, SCHR?DER P, et al. Discrete differential-geometry operators for triangulated 2-manifolds [M]//Mathematics and Visualization. Heidelberg: Springer, 2003: 35-57.
[20] LEVIN D. Mesh-independent surface interpolation [M]// Geometric Modeling for Scientific Visualization. Heidelberg: Springer, 2004: 37-49.
[21] CRIMINISI A, SHOTTON J, KONUKOGLU E. Decision forests for classification, regression, density estimation, manifold learning and semi-supervised learning [J]. Microsoft Research Technical Technical Rreport, 2011, 114(46): 224-236.
[22] BREIMAN L. Random forests [J]. Machine Learning, 2001, 45(1): 5-32.
[23] FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis [J]. International Journal of Computer Vision, 2013, 101(3): 437-458.
[24] BREIMAN L. Random forests [J]. MachineLearning, 2001, 45(1): 5-32.
[25] OKADA R. Discriminative generalized hough transform for object dectection [C]//2009 IEEE 12th International Conference on Computer Vision. New York: IEEE Press, 2009: 2000-2005.
[26] GALL J, YAO A, RAZAVI N, et al. Hough forests for object detection, tracking, and action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(11): 2188-2202.
[27] SARAGIH J M, LUCEY S, COHN J F. Deformable model fitting by regularized landmark mean-shift [J]. International Journal of Computer Vision, 2011, 91(2): 200-215.
[28] REKIK A, BEN-HAMADOU A, MAHDI W. 3D face pose tracking using low quality depth cameras [C]//The 8th International Conference on Computer Vision Theory and Applications, VISAPP 2013. Heidelberg: Springer, 2013: 223-228.
[29] SAEED A, AL-HAMADI A. Boosted human head pose estimation using kinect camera [C]//2015 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2015: 1752-1756.
[30] ASTHANA A, ZAFEIRIOU S, CHENG S Y, et al. Incremental face alignment in the wild [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 1859-1866.
Real-Time Head Pose Estimation Based on RGBD
CHEN Guo-jun, YANG Jing, CHENG Yan, YIN Peng
(Computer and Communication Engineering, School of China University of Petroleum, Qingdao Shandong 266580, China)
Real-time head pose estimation plays a crucial role in the application of human-computer interaction and face analysis, but accurate head pose estimation methods still face certain challenges. In order to improve the accuracy and robustness of the head pose estimation, this paper combines the geometry-based method and the learning-based method for head pose estimate. On the basis of face detection and face alignment, the geometric feature of the color image and the local area depth feature of the depth image are extracted, combining with the normal and curvature feature of the depth block to form the feature vector group, and then the random forest method is used to do the training. Finally, all decision trees are involved in the vote, and the resulting Gaussian distribution of the head pose is filtered by thresholds to further improve the model’s accuracy. Experimental results show that the proposed method has higher accuracy and robustness than the existing head pose estimation methods.
head pose estimation; random forest; RGBD data; geometric feature; depth feature
TP 391
10.11996/JG.j.2095-302X.2019040681
A
2095-302X(2019)04-0681-08
2018-11-11;
定稿日期:2018-11-21
國家“863”計劃主題項目子課題(2015AA016403);虛擬現(xiàn)實技術(shù)與系統(tǒng)國家重點實驗室(北京航空航天大學(xué))開放基金(BUAA-VR-15KF-13)
陳國軍(1968-),男,江蘇如東人,副教授,博士,碩士生導(dǎo)師。主要研究方向為圖形圖像處理、虛擬現(xiàn)實及科學(xué)可視化等。 E-mail:chengj@upc.edu.cn