代少升,熊昆,吳云鐸,肖佳偉
(重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065)
在面部分析應(yīng)用中,準(zhǔn)確和魯棒的面部特征點(diǎn)跟蹤至關(guān)重要。包括了面部行為分析、人機(jī)界面和人機(jī)交互、情感計(jì)算、唇讀和監(jiān)視等。近20 年里,很多算法在人臉特征點(diǎn)定位上取得了很大的成功,但在真實(shí)視頻中應(yīng)用人臉特征點(diǎn)跟蹤時(shí),表情、光照、遮擋、姿態(tài)、圖像質(zhì)量等因素的挑戰(zhàn)仍然有待解決。
為了應(yīng)對(duì)視頻中的特征點(diǎn)檢測(cè)和跟蹤,國(guó)內(nèi)外專家和學(xué)者提出了很多有效的算法。文獻(xiàn)[1]中利用特定幀的多個(gè)候選幀提供的信息,并使用頭部姿態(tài)選擇有用的人臉邊界框進(jìn)行連續(xù)幀之間的特征點(diǎn)跟蹤;但該算法在面對(duì)大的遮擋時(shí),由于頭部姿態(tài)估計(jì)不準(zhǔn)確會(huì)影響后續(xù)幀之間的跟蹤。文獻(xiàn)[2]中采用一種粗到密集的三維面部表情重建算法以細(xì)化二維特征點(diǎn),并利用三維光流建立幀之間的關(guān)系進(jìn)行特征點(diǎn)跟蹤;但該算法在建立連續(xù)幀之間的關(guān)系時(shí),最終檢測(cè)到的人臉特征點(diǎn)不足。文獻(xiàn)[3-4]中首先檢測(cè)第一幀的人臉,然后使用前一幀的特征點(diǎn)檢測(cè)結(jié)果進(jìn)行后續(xù)幀的特征點(diǎn)檢測(cè)和跟蹤;但這類算法受前一幀結(jié)果影響較大,在后續(xù)幀中會(huì)累積前面的誤差。文獻(xiàn)[5]中使用多視圖約束局部模型,并根據(jù)之前檢測(cè)到的特征點(diǎn)進(jìn)行初始化,從而能對(duì)較大的頭部姿態(tài)進(jìn)行跟蹤;但該算法在跟蹤過(guò)程可能會(huì)檢測(cè)失敗,從而影響到后續(xù)幀的檢測(cè)。文獻(xiàn)[6-7]建立了不同視角,并在不同視角下訓(xùn)練相應(yīng)模型,通過(guò)選擇視角進(jìn)行不同的回歸;但該類算法受初始形狀影響較大。文獻(xiàn)[8]中在每一幀單獨(dú)進(jìn)行特征點(diǎn)檢測(cè),并使用卡爾曼濾波器平滑估計(jì)人臉位置從而進(jìn)行特征點(diǎn)的跟蹤;但該算法在面對(duì)大姿態(tài)時(shí)效果不理想。文獻(xiàn)[9-11]中利用神經(jīng)網(wǎng)絡(luò)處理人臉圖像,并進(jìn)行特征點(diǎn)的定位跟蹤;但這類算法模型復(fù)雜,難以在低處理速度的嵌入式設(shè)備中運(yùn)行。
以上算法在不同程度上提高了在視頻中特征點(diǎn)檢測(cè)的精度和魯棒性,綜上可知在視頻人臉特征點(diǎn)跟蹤中主要存在以下問(wèn)題:1)連續(xù)幀之間存在較大的姿態(tài)、角度、遮擋變化時(shí),會(huì)對(duì)下一幀的跟蹤結(jié)果產(chǎn)生較大的影響,使定位失??;2)特征點(diǎn)在定位失敗時(shí),沒(méi)有及時(shí)檢測(cè)出并重新初始化會(huì)影響后續(xù)的跟蹤;3)在頭部移動(dòng)較大時(shí),特征點(diǎn)會(huì)出現(xiàn)嚴(yán)重漂移導(dǎo)致跟蹤失??;4)處理速度過(guò)慢、模型過(guò)大達(dá)不到實(shí)時(shí)的跟蹤。因此,從以上四個(gè)方面著手,本文提出了一種多視角約束級(jí)聯(lián)回歸的視頻人臉特征點(diǎn)跟蹤算法。首先,算法利用二維稀疏點(diǎn)集與三維稀疏點(diǎn)集建立的變換關(guān)系進(jìn)行初始化;然后,采用多視角約束級(jí)聯(lián)回歸模型對(duì)人臉進(jìn)行特征點(diǎn)預(yù)測(cè),進(jìn)一步探索了一種歸一化互相關(guān)(Normalized Cross Correlation,NCC)匹配跟蹤算法以應(yīng)對(duì)連續(xù)幀之間的對(duì)齊;最后,采用了一種重新初始化機(jī)制,對(duì)最終檢測(cè)結(jié)果進(jìn)行評(píng)估。
圖1 展示了本文提出的多視角約束級(jí)聯(lián)回歸的視頻人臉特征點(diǎn)跟蹤算法的基本流程。
圖1 視頻人臉特征點(diǎn)跟蹤基本流程Fig.1 Basic process of video face feature point tracking
在第一幀中,算法使用預(yù)先訓(xùn)練好的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Task Convolutional Neural Network,MTCNN)[12]人臉檢測(cè)器對(duì)算法進(jìn)行初始化,得到初始的5 個(gè)人臉特征點(diǎn)。初始的人臉形狀由這5 個(gè)特征點(diǎn)與三維標(biāo)準(zhǔn)特征點(diǎn)估計(jì)。面部視角(左臉、正臉、右臉)由初始人臉形狀估計(jì),然后使用多視角約束級(jí)聯(lián)回歸(Multi-view Constrained Cascade Regression,MCCR)預(yù)測(cè)當(dāng)前幀中的人臉特征點(diǎn)。當(dāng)特征點(diǎn)對(duì)齊結(jié)果的平均得分大于閾值時(shí),對(duì)人臉特征點(diǎn)進(jìn)行NCC模板匹配跟蹤。當(dāng)對(duì)齊結(jié)果的得分小于閾值時(shí),為了避免人臉特征點(diǎn)跟蹤過(guò)程中的錯(cuò)誤收斂,采用了一種重新初始化的機(jī)制。
傳統(tǒng)的回歸算法通常使用平均形狀完成初始化,但由于較大遮擋和頭部姿態(tài)變化,易導(dǎo)致特征點(diǎn)定位失敗而造成初始化失敗。而5 特征點(diǎn)是人臉最突出的幾個(gè)特征點(diǎn),并且三維特征點(diǎn)保留了面部大量的形狀角度信息。因此,本文提出一種初始化算法,利用一組二維稀疏點(diǎn)集和三維稀疏點(diǎn)集建立投影映射關(guān)系,并根據(jù)投影映射關(guān)系將三維66 特征點(diǎn)轉(zhuǎn)換為二維66 特征點(diǎn)作為初始形狀,有效地提高了級(jí)聯(lián)回歸算法的性能。如圖2 所示,藍(lán)色是三維特征點(diǎn),紅色是根據(jù)所求得投影映射關(guān)系估計(jì)的二維特征點(diǎn)。
圖2 不同投影映射關(guān)系的變換結(jié)果Fig.2 Transformation results of different projection mapping relations
根據(jù)MTCNN 人臉檢測(cè)得到的5 特征點(diǎn)和三維空間下5個(gè)標(biāo)準(zhǔn)特征點(diǎn)可建立如下關(guān)系:
其中:S3D5是一個(gè)5 × 3 的矩陣,表示三維空間下標(biāo)準(zhǔn)模型中的人臉5 點(diǎn)坐標(biāo)信息;R表示投影映射矩陣;S2D5是一個(gè)5 × 2的矩陣,表示通過(guò)MTCNN 人臉檢測(cè)得到的5 點(diǎn)坐標(biāo),這些數(shù)據(jù)在計(jì)算前都需要?dú)w一化,即減去均值。由于式(1)不一定有解,因此可利用最小二乘的矩陣形式,求得近似成立的最小二乘解為:
由式(2)得到人臉形狀從三維空間到二維空間的投影變換關(guān)系R,那么三維66 點(diǎn)人臉形狀S3D66與二維66 點(diǎn)人臉形狀S2D66的變換關(guān)系為:
此時(shí)得到的特征點(diǎn)與MTCNN 得到的5 特征點(diǎn)計(jì)算比例、平移關(guān)系,調(diào)整后即可得到初始形狀,估計(jì)結(jié)果如圖3 所示,白色是MTCNN 預(yù)測(cè)估計(jì)的5 個(gè)特征點(diǎn),紅色是根據(jù)本文方法估計(jì)的66 點(diǎn)。
圖3 用5點(diǎn)估計(jì)66點(diǎn)Fig.3 Estimateing 66 points by using 5 points
由5 點(diǎn)估計(jì)的初始特征點(diǎn)和前一幀的預(yù)測(cè)形狀在人臉偏轉(zhuǎn)角度大時(shí)會(huì)錯(cuò)亂重疊,這將影響后續(xù)的形狀回歸,如圖4 綠色點(diǎn)。為了解決這個(gè)問(wèn)題,本文先利用初始特征點(diǎn)或前一幀的預(yù)測(cè)形狀進(jìn)行姿態(tài)估計(jì),然后根據(jù)所得偏航角Yaw選擇人臉視角,即正臉(-15° <Yaw<15°)、左臉(Yaw<-15°)和右臉(Yaw>15°,并利用不同形狀增量組合的方式對(duì)不同視角下錯(cuò)亂重疊的特征點(diǎn)進(jìn)行約束調(diào)整。最后根據(jù)偏航角選擇預(yù)先訓(xùn)練好的3 個(gè)視角下的形狀回歸模型,從而完成人臉特征點(diǎn)的定位。
圖4 特征點(diǎn)的錯(cuò)亂重疊Fig.4 Disorder and overlapping of feature points
1.2.1 多視角約束
對(duì)于一個(gè)在平均形狀基礎(chǔ)上變化的形狀可以構(gòu)造如下關(guān)系:
對(duì)于在平均形狀上變化的均值近似為0 的形狀,可求得e1,且e1的平方和為1,結(jié)合式(4)可建立如式(5):
由此可見(jiàn)在單位增量的基礎(chǔ)上,不同的增量倍數(shù)可以得到不同的形狀,如圖5 所示。
圖5 不同增量倍數(shù)的形狀變化Fig.5 Shape change of different increment multiples
由此可以構(gòu)建一個(gè)矩陣公式:
根據(jù)式(6),對(duì)于一個(gè)需要糾正的形狀S,可以得到一個(gè)基于S的P矩陣,即式:
式(7)表示將形狀S分解為不同形狀上的增量倍數(shù),對(duì)于形狀的調(diào)整,只需要將增量倍數(shù)限制在指定范圍,即在不同形狀上,若增量倍數(shù)超出這個(gè)形狀上增量倍數(shù)的最大范圍,就將增量倍數(shù)糾正為這個(gè)形狀規(guī)定的最大增量倍數(shù),最后根據(jù)式(6)得到調(diào)整后的形狀。
如圖6 為本文實(shí)驗(yàn)在正臉視角下構(gòu)建的24 種不同變化的形狀,特征點(diǎn)約束只在這些形狀下進(jìn)行,但不僅局限于這24 種。其中第一行前兩個(gè)形狀的變化是在平均形狀基礎(chǔ)上縮放,這兩個(gè)形狀疊加不同的增量倍數(shù)可以達(dá)到不同大小和不同旋轉(zhuǎn)角度。最后一行的形狀變化很小,主要是做形狀的微調(diào)使用。
圖6 24種不同增量的形狀Fig.6 24 shapes of different increments
圖7 是在三個(gè)視角下得到的糾正結(jié)果,可見(jiàn)第一行錯(cuò)亂重疊的點(diǎn)得到了調(diào)整,形狀也得到了部分調(diào)整,且在平均形狀周圍變化。
圖7 調(diào)整前后的形狀Fig.7 Shapes before and after adjusting
1.2.2 多視角級(jí)聯(lián)形狀回歸
由多視角約束調(diào)整后得到了級(jí)聯(lián)回歸的初始形狀,這時(shí)姿態(tài)是多樣的,為此在開(kāi)始級(jí)聯(lián)回歸前,本文還引入了仿射變換對(duì)姿態(tài)進(jìn)行糾正。如只做平移、旋轉(zhuǎn)、縮放變換,仿射變換可表示為:
其中:s為等比例縮放因子;θ為旋轉(zhuǎn)角度;Tx為水平平移量;Ty為垂直平移量;(x,y,1)T是源坐標(biāo)系下的坐標(biāo),(x′,y′,1)T是目標(biāo)坐標(biāo)系下的坐標(biāo)。
在不同視角下,本文利用標(biāo)準(zhǔn)人臉形狀與初始形狀計(jì)算出旋轉(zhuǎn)矩陣M,然后利用仿射變換得到變換后的人臉圖像區(qū)域和相應(yīng)的特征點(diǎn)坐標(biāo),如圖8 所示是在3 個(gè)視角下的仿射變換結(jié)果。
圖8 仿射變換結(jié)果Fig.8 Results of affine transformation
此時(shí),本文將變換后的人臉特征點(diǎn)作為級(jí)聯(lián)回歸的初始形狀,在仿射變換后的人臉圖像中提取HOG(Histogram of Oriented Gradient)特征,并根據(jù)偏航角Yaw 選擇最佳視角模型進(jìn)行級(jí)聯(lián)回歸。級(jí)聯(lián)回歸算法公式如下:
其中:表示經(jīng)過(guò)t層迭代后預(yù)測(cè)的人臉關(guān)鍵點(diǎn)位置,是一個(gè)由多個(gè)特征點(diǎn)的橫縱坐標(biāo)組成的向量;t表示迭代的層數(shù);I表示數(shù)據(jù)集中的人臉圖像;rt表示當(dāng)前層數(shù)的回歸器。
回歸器的計(jì)算過(guò)程如下,
其中:Wt是一個(gè)線性回歸矩陣;Φt是根據(jù)圖像和上一層特征點(diǎn)位置提取的圖像特征信息。
最終輸出的關(guān)鍵點(diǎn)位置需要通過(guò)逆變換轉(zhuǎn)換到源坐標(biāo)系下,如式(11)所示:
其中:是仿射變換后的坐標(biāo)系下的位置坐標(biāo);xt是源坐標(biāo)系下關(guān)鍵點(diǎn)位置的坐標(biāo)。
對(duì)每一幀進(jìn)行人臉檢測(cè)以實(shí)現(xiàn)人臉對(duì)齊非常耗時(shí)。此外,在人臉姿態(tài)變化較大的情況下,初始平均形狀與人臉真實(shí)形狀相差甚遠(yuǎn),這可能會(huì)降低視頻的對(duì)齊精度。因此,在連續(xù)幀之間建立一種關(guān)聯(lián)是非常重要的。在這項(xiàng)工作中,本文引入NCC 模板匹配計(jì)算前一幀人臉區(qū)域在當(dāng)前幀中的偏移量,進(jìn)行初步的特征點(diǎn)跟蹤,得到這一幀的初始形狀,如圖9,IS 為初始形狀,PS 為預(yù)測(cè)形狀。
圖9 NCC模板匹配跟蹤流程Fig.9 NCC template matching tracking process
NCC 模板匹配算法也稱為歸一化互相關(guān)模板匹配算法,它適用于沒(méi)有幾何誤差的情況。簡(jiǎn)而言之,本文通過(guò)計(jì)算得出互相關(guān)值以確定目標(biāo)的坐標(biāo)位置。假設(shè)搜索圖像I的尺寸為M×M,模板T的尺寸為N×N,其中M>N,單位為像素。模板T在搜索圖像I上平移,Ii,j為模板在搜索圖像所覆蓋的子圖,子圖在搜索圖像I中左上角頂點(diǎn)的坐標(biāo)為(i,j)。在實(shí)際匹配中,模板和搜索圖像的相似性通過(guò)度量函數(shù)衡量,則歸一化互相關(guān)匹配度量定義為:
在本文算法中,先從前一幀圖像中截取出包含所有特征點(diǎn)的最小人臉,并縮放為48×48 的圖片作為匹配模板,如圖10(a)。當(dāng)前幀中,截取前一幀模板的位置為中心向外擴(kuò)大一倍的區(qū)域,并縮放為96×96 作為待匹配區(qū)域,如圖10(b)。使用NCC 模板匹配得到模板在匹配區(qū)域的偏移量,即特征點(diǎn)的偏移量,以前一幀特征點(diǎn)加上偏移量可得到當(dāng)前幀的初始形狀,如圖10(c),綠色為NCC 跟蹤之前、紅色NCC 跟蹤之后。
圖10 NCC模板匹配跟蹤結(jié)果Fig.10 NCC template matching tracking results
如上所述,多視角約束級(jí)聯(lián)回歸被用于預(yù)測(cè)每一幀上的特征點(diǎn)位置,而NCC 模板匹配跟蹤被用于創(chuàng)建連續(xù)幀之間的連接。兩個(gè)步驟工作時(shí),前一幀可靠的對(duì)齊結(jié)果可以準(zhǔn)確地預(yù)測(cè)當(dāng)前幀的特征點(diǎn)位置;當(dāng)前一幀的對(duì)齊結(jié)果有漂移時(shí),會(huì)導(dǎo)致本幀特征點(diǎn)預(yù)測(cè)出現(xiàn)偏移或丟失。因此,有必要采用一種重新初始化機(jī)制以有效、準(zhǔn)確地應(yīng)對(duì)特征點(diǎn)定位失敗。在這項(xiàng)工作中,引入了對(duì)齊分?jǐn)?shù),它對(duì)應(yīng)特征點(diǎn)定位的優(yōu)度。當(dāng)對(duì)齊分?jǐn)?shù)低于設(shè)定的閾值θ時(shí),進(jìn)行形狀重新初始化。為此,訓(xùn)練了一個(gè)支持向量機(jī)(Support Vector Machine,SVM)分類器,根據(jù)最后的形狀索引特征區(qū)分對(duì)齊和未對(duì)齊的圖像。從標(biāo)注的樣本中生成正樣本,然后在實(shí)際特征點(diǎn)周圍隨機(jī)生成負(fù)樣本,以訓(xùn)練后的SVM 的得分作為判斷對(duì)齊效果的標(biāo)準(zhǔn)。在實(shí)驗(yàn)中,所有特征點(diǎn)的平均置信度高于或等于θ被認(rèn)為是一個(gè)成功的特征點(diǎn)定位。給定一個(gè)人臉視頻,如果前一幀特征點(diǎn)的平均置信度低于θ,MTCNN 人臉檢測(cè)器開(kāi)始在下一幀進(jìn)行人臉檢測(cè),并重新根據(jù)5 特征點(diǎn)估算得到初始形狀。
本文系統(tǒng)有幾個(gè)自由參數(shù):級(jí)聯(lián)階數(shù)T、對(duì)齊分?jǐn)?shù)閾值θ、形狀增量倍數(shù)限制范圍Pλ。經(jīng)過(guò)大量測(cè)試和驗(yàn)證,最后使用以下設(shè)置:T=5,θ=0.5,-2P<Pλ<2P。
靜態(tài)圖像的人臉對(duì)齊評(píng)估是在Lfpw(Labeled face parts in the wild)、Helen 和300W 三個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行的,這些數(shù)據(jù)集的圖像有較大的頭部姿態(tài)變化、面部遮擋和光照變化,因此充滿挑戰(zhàn)性。而視頻中人臉對(duì)齊的評(píng)估是在300VW 數(shù)據(jù)集上進(jìn)行的。
Lfpw:由于一些無(wú)效的網(wǎng)址,只取1 100 張訓(xùn)練圖片中的811 張進(jìn)行訓(xùn)練,300 張測(cè)試圖片中的224 張進(jìn)行測(cè)試。
Helen:取該數(shù)據(jù)集中的2 000 張圖片用于訓(xùn)練,330 張圖片用于測(cè)試。這些圖片都在各種自然條件下拍攝,包括室內(nèi)和室外,且大部分都是高分辨率圖片。
300W:訓(xùn)練集由Lfpw、Helen 和整個(gè)Afw(Annotated faces in the wild)的所有訓(xùn)練樣本組成(共3 148 張圖片)。對(duì)于測(cè)試數(shù)據(jù)集分三個(gè)部分進(jìn)行評(píng)估,224 張Lfpw 測(cè)試集和330 張Helen 測(cè)試集構(gòu)成普通(common)測(cè)試集,135 張Ibug(Intelligent behaviour understanding group)數(shù)據(jù)集構(gòu)成挑戰(zhàn)(challenge)測(cè)試集,兩部分結(jié)合在一起就是整個(gè)(full)測(cè)試集(共689 張圖片)。
300VW:“300 video in the Wild”收集了大量在野外錄制的長(zhǎng)時(shí)間面部視頻,每個(gè)視頻的長(zhǎng)度約1 min(25~30 frame/s),并且所有的視頻幀都進(jìn)行了68 個(gè)人臉特征點(diǎn)的注釋,其中提供了114 個(gè)視頻用于測(cè)試。該數(shù)據(jù)集根據(jù)各自的特點(diǎn)分為三個(gè)測(cè)試場(chǎng)景,涵蓋了不同程度的面部遮擋、姿態(tài)、表情、光照、背景以及圖像質(zhì)量等情況。
關(guān)鍵點(diǎn)定位通常用歸一化平均誤差評(píng)價(jià),利用平均歐幾里得距離歸一化誤差,如式(13)所示:
其中:N是關(guān)鍵點(diǎn)的數(shù)量;x是預(yù)測(cè)關(guān)鍵點(diǎn)的位置;g是真實(shí)關(guān)鍵點(diǎn)的位置。在靜態(tài)圖像的評(píng)估中,l和r分別是左眼中心和右眼中心的位置。
為了說(shuō)明MCCR 的有效性,首先在靜態(tài)圖像中評(píng)估MCCR,以顯示多視圖約束在關(guān)鍵點(diǎn)對(duì)齊中的重要性。實(shí)驗(yàn)將MCCR 與主流的一些算法進(jìn)行比較,包括PFLD(Practical Facial Landmark Detector)[10]、LUVLi(Location,Uncertainty,and Visibility Likelihood)[11]、SDM(Supervised Descent Method)[13]、GN-DPM(Gauss-Newton Deformable Part Models)[14]、ERT(Ensemble of Regression Trees)[15]、ESR(Explicit Shape Regression)[16]、LBF(Local Binary Features)[17]、CFSS(Coarse-to-Fine Shape Searching)[18]、3DDFA(3D Dense Face Alignment)[19]、MDM(Mnemonic Descent Method)[20]、SeqMT(Sequential Multi-Tasking)[21]。
表1 中總結(jié)了比較結(jié)果,其中LUVLi[11]是以眼角距離歸一化,其余都是以瞳孔距離歸一化。
表1 本文算法與其他算法在平均誤差上的比較Tab.1 Comparison of average error between the proposed algorithm and other algorithms
首先對(duì)Lfpw 和Helen 數(shù)據(jù)集進(jìn)行了單獨(dú)的實(shí)驗(yàn),從表1可以看出,本文提出的MCCR 優(yōu)于SDM 和GN-DPM。然后在300W 數(shù)據(jù)集上對(duì)比MCCR 和現(xiàn)有算法,如表1 所示實(shí)驗(yàn)在此數(shù)據(jù)集上進(jìn)行了三次不同的實(shí)驗(yàn),將300W 測(cè)試集分為普通、挑戰(zhàn)、全部測(cè)試集并進(jìn)行實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)結(jié)果顯示,本文算法在三次實(shí)驗(yàn)中均優(yōu)于絕大多數(shù)算法,尤其在挑戰(zhàn)集上只低于PFLD 和LUVLi 算法,這是因?yàn)樵陟o態(tài)圖像中MCCR 算法在每一張圖像上都進(jìn)行初始化和級(jí)聯(lián)回歸,沒(méi)有通過(guò)利用特征點(diǎn)跟蹤算法顯示出性能的優(yōu)勢(shì)。在2.4 節(jié)視頻結(jié)果整體評(píng)估中,本文將與PFLD 和LUVLi 算法比較顯示本文算法在復(fù)雜頭部運(yùn)動(dòng)視頻中的性能。最后綜合表1 所示實(shí)驗(yàn)結(jié)果,在所列公共數(shù)據(jù)集中本文算法的平均誤差均小于眼間距離的10%。
在圖11 中提供了本文算法在來(lái)自Lfpw、Helen 和300W的Ibug 挑戰(zhàn)集的人臉圖像上的關(guān)鍵點(diǎn)定位結(jié)果示例??梢宰⒁獾?,MCCR 算法對(duì)這些數(shù)據(jù)集中遇到的表情、姿態(tài)、光照和部分遮擋的巨大變化是魯棒的。
本節(jié)實(shí)驗(yàn)的目的是研究本文算法執(zhí)行面部關(guān)鍵點(diǎn)跟蹤的性能,使用的模型與靜態(tài)圖像中的模型(MCCR)相同。為了對(duì)關(guān)鍵點(diǎn)跟蹤算法進(jìn)行全面的評(píng)估,實(shí)驗(yàn)探索了算法中提出的重新初始化機(jī)制和NCC 模板匹配跟蹤。本文算法在300VW 中的實(shí)驗(yàn)結(jié)果如圖11~14 所示。
圖11 MCCR的示例圖像Fig.11 Example images of MCCR
2.4.1 評(píng)估重新初始化
如果先前的對(duì)齊結(jié)果出現(xiàn)了關(guān)鍵點(diǎn)漂移,將把錯(cuò)誤的信息傳播到下一幀,造成預(yù)測(cè)漂移。實(shí)驗(yàn)中當(dāng)擬合評(píng)分低于設(shè)定的閾值θ=0.5 時(shí),進(jìn)行人臉檢測(cè)和重新初始化。擬合評(píng)分在0.5 以上的關(guān)鍵點(diǎn)定位被認(rèn)為是一個(gè)成功定位,將進(jìn)行NCC 模板匹配跟蹤。
圖12 的實(shí)驗(yàn)結(jié)果是從測(cè)試集中隨機(jī)選擇的2 個(gè)視頻,繪制每一幀的歸一化平均誤差(以瞳孔距離歸一化)及其對(duì)應(yīng)的得分。結(jié)果表明,本文使用的重新初始化機(jī)制是合理和有效的。當(dāng)歸一化誤差增大時(shí),估計(jì)得分變低,這種對(duì)應(yīng)的變化關(guān)系是想要達(dá)到的效果。
圖12 300VW數(shù)據(jù)集中重新初始化實(shí)驗(yàn)結(jié)果Fig.12 Experimental results of reinitialization in 300VW dataset
2.4.2 評(píng)估NCC模板匹配跟蹤
為了評(píng)估NCC 模板匹配跟蹤算法在視頻關(guān)鍵點(diǎn)定位中的效果,從測(cè)試集中挑選了一個(gè)人臉區(qū)域偏移較大的視頻(視頻序號(hào)為557),繪制了基于該視頻的累計(jì)誤差曲線和每一幀的歸一化誤差(以眼角距離歸一化),并分別對(duì)使用NCC模板匹配跟蹤和未使用NCC 模板匹配跟蹤算法(即直接將上一幀級(jí)聯(lián)回歸結(jié)果作為當(dāng)前幀的初始形狀)進(jìn)行測(cè)試。測(cè)試結(jié)果如圖13,可以看出引入了NCC 模板匹配跟蹤后算法的性能得到了提高,并且在人臉區(qū)域出現(xiàn)較大偏移時(shí)更加地穩(wěn)定。
圖13 累積誤差曲線和前400幀歸一化誤差Fig.13 Cumulative error curves and the first 400 frames normalized errors
2.4.3 系統(tǒng)評(píng)估
實(shí)驗(yàn)與按文獻(xiàn)[10]、[11]論述實(shí)現(xiàn)的PFLD[10]和LUVLi[11]算法比較,并與本文算法在300VW 數(shù)據(jù)集上測(cè)試統(tǒng)計(jì)68 點(diǎn)累積誤差(均以眼角距離做歸一化)。為測(cè)試本文算法在視頻中復(fù)雜頭部運(yùn)動(dòng)時(shí)特征點(diǎn)跟蹤的能力,在300VW數(shù)據(jù)集中挑選了視頻序號(hào)為409、410、411、508、509、520、533、553、557、562 的視頻組成復(fù)雜測(cè)試集。如圖14 所示,在總測(cè)試集上本文算法性能不及另外兩種算法,但在復(fù)雜測(cè)試集上體現(xiàn)了算法的性能,實(shí)驗(yàn)顯示本文算法在復(fù)雜頭部運(yùn)動(dòng)的視頻中能實(shí)現(xiàn)準(zhǔn)確的特征點(diǎn)跟蹤。
圖14 300VW數(shù)據(jù)集上的累積誤差曲線Fig.14 Cumulative error curves on 300VW dataset
為進(jìn)一步展現(xiàn)本文算法的優(yōu)勢(shì),與SDM、LAB(Look At Boundary)[22]、SAN(Style Aggregated Network)算法[9]進(jìn)行了模型大小和速度的比較,其中SAN 算法由風(fēng)格聚合人臉生成模型和關(guān)鍵點(diǎn)預(yù)測(cè)模型組成,對(duì)比結(jié)果如表2 所示。綜合考慮,本文算法在保持較小模型的基礎(chǔ)上,仍具有較高的處理速度,特別適合在內(nèi)存有限的中低端嵌入式處理器上應(yīng)用。
表2 不同處理平臺(tái)上模型大小和處理時(shí)間對(duì)比Tab.2 Comparison of model size and processing time on different processing platforms
如圖15 所示,展示了300VW 數(shù)據(jù)集中部分視頻對(duì)齊結(jié)果。在面臨光照、姿態(tài)變化和遮擋的挑戰(zhàn)時(shí),本文算法可以很好地處理這些困難。
圖15 300VW數(shù)據(jù)集結(jié)果示例Fig.15 Examples of 300VW dataset results
本文構(gòu)建了一個(gè)視頻人臉特征點(diǎn)跟蹤算法。首先,提出了一種利用三維人臉形狀估計(jì)二維人臉形狀的變換算法,使初始化時(shí)算法更加穩(wěn)定可靠。其次,提出了一種多視角約束級(jí)聯(lián)回歸算法,初始形狀在不同的視角下得到不同的約束,大幅降低了初始形狀對(duì)最終形狀的影響;并使用仿射變換再次減少姿態(tài)變化,使回歸模型對(duì)不同姿態(tài)更具魯棒性,有效提高了級(jí)聯(lián)回歸算法的性能。然后,提出了一種面向連續(xù)幀間對(duì)齊的NCC 模板匹配跟蹤算法,提高了對(duì)齊結(jié)果之間的時(shí)間連續(xù)性。最后,為了提高視頻對(duì)齊的效率,采用了一種重新初始化機(jī)制,在人臉錯(cuò)位或丟失時(shí)及時(shí)對(duì)算法進(jìn)行重新初始化。在具有挑戰(zhàn)性的300W、300VW 數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)結(jié)果表明:本文算法對(duì)不同姿態(tài)、遮擋、光照等影響因素都具有良好的魯棒性。