梁洋洋 陳 宇 楊 健
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 江蘇 南京 210094)
?
基于深度自編碼器網(wǎng)絡(luò)的人臉特征點(diǎn)定位方法
梁洋洋陳宇楊健
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院江蘇 南京 210094)
使用深度學(xué)習(xí)網(wǎng)絡(luò)技術(shù)的人臉特征點(diǎn)定位方法已經(jīng)取得了比較突出的效果。然而,人臉圖像由于姿態(tài)、表情、光照、遮擋等變化而具有復(fù)雜多樣性,因此數(shù)目較多的人臉特征點(diǎn)(超過50個(gè)特征點(diǎn))定位依然有很大的挑戰(zhàn)性。設(shè)計(jì)了三層級(jí)聯(lián)的自編碼器網(wǎng)絡(luò),并通過由粗到精的方法對(duì)多數(shù)目的人臉特征點(diǎn)進(jìn)行定位。第一層網(wǎng)絡(luò)以整張人臉圖像為輸入,直接估計(jì)人臉輪廓和部件位置,從而將特征點(diǎn)分成三部分(眼眉鼻,嘴巴和人臉輪廓)進(jìn)行下一步定位;之后的兩層網(wǎng)絡(luò)分別對(duì)各部件特征點(diǎn)進(jìn)行估計(jì)求精。在LFPW、HELEN數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,該方法能夠提高人臉特征點(diǎn)定位的準(zhǔn)確性和魯棒性。
人臉特征點(diǎn)定位深度學(xué)習(xí)自編碼器網(wǎng)絡(luò)逐步求精
人臉特征點(diǎn)定位在人臉識(shí)別、姿態(tài)估計(jì)、人臉跟蹤、人臉表情分析等大部分人臉感知任務(wù)中扮演著重要的角色。文獻(xiàn)[1] 中指出,錯(cuò)誤的特征點(diǎn)定位會(huì)導(dǎo)致提取的人臉描述特征的嚴(yán)重變形,即使不精確的對(duì)齊也會(huì)帶來識(shí)別性能的快速下降。文獻(xiàn)[2]表明如果能夠獲得準(zhǔn)確的人臉特征點(diǎn)位置,那么在人臉識(shí)別上簡(jiǎn)單的特征就能到達(dá)領(lǐng)先的性能水平。由此可見,準(zhǔn)確的定位是非常重要的前期準(zhǔn)備步驟。人臉特征點(diǎn)定位的研究因此也得到了越來越多的關(guān)注和發(fā)展,然而,由于姿態(tài)、表情、光照、部分遮擋等因素導(dǎo)致人臉圖像的復(fù)雜多樣性,也給準(zhǔn)確的定位帶來了巨大的挑戰(zhàn)。
在早期的一些方法中,主動(dòng)形狀模型ASM(Active Shape Model)[3],主動(dòng)表現(xiàn)模型AAM(Active Appearance Model)[4]在實(shí)驗(yàn)室中建立的數(shù)據(jù)庫(kù)上具有了可靠的性能,在此基礎(chǔ)上,許多學(xué)者也提出了改進(jìn)的方法[5-9]。然而,在真實(shí)環(huán)境應(yīng)用中,在人臉外觀上的呈現(xiàn)出復(fù)雜多樣性時(shí),這些方法通常會(huì)失效,主要原因?yàn)橐粋€(gè)單一的線性模型很難刻畫人臉形狀所有非線性的變化。近年來,在自然環(huán)境下建立起來的數(shù)據(jù)庫(kù)變得非常流行,從而對(duì)人臉特征點(diǎn)定位方法提出了更多的挑戰(zhàn)。一些新的定位方法已在這些數(shù)據(jù)庫(kù)上取得了較好的成果。Piotr Dollar等人[10]提出級(jí)聯(lián)姿態(tài)回歸CPR(Cascaded Pose Regression)方法對(duì)初始形狀估計(jì)進(jìn)行逐步的求精,每一個(gè)求精過程都由一個(gè)不同的回歸器實(shí)現(xiàn),每個(gè)回歸器處理與前一個(gè)回歸器輸出相關(guān)的圖像度量,整個(gè)系統(tǒng)從訓(xùn)練樣本中自動(dòng)的學(xué)習(xí)。在此基礎(chǔ)上,Xavier P. B.等人[11]提出魯棒級(jí)聯(lián)姿態(tài)回歸RCPR(Robust Cascaded Regression),通過顯式表達(dá)是否存在遮擋,利用魯棒的形狀索引特征進(jìn)行在遮擋環(huán)境下的人臉特征點(diǎn)定位。Cao等人[12]提出了一種高效準(zhǔn)確的顯式形狀回歸模型。該方法設(shè)計(jì)了兩層增強(qiáng)回歸,利用形狀索引特征,使用基于相關(guān)的特征選擇方法直接學(xué)習(xí)出一個(gè)向量回歸函數(shù)來估計(jì)整個(gè)人臉形狀,并在訓(xùn)練集中顯式地最小化定位誤差。Xiong等人[13]提出一種有監(jiān)督的梯度下降方法SDM(Supervised Descent Method)解決復(fù)雜最小二乘問題,即從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)梯度下降的方向并建立相應(yīng)的回歸模型,然后利用得到的模型來進(jìn)行梯度方向估計(jì),并應(yīng)用于人臉對(duì)齊,取得了較好的效果。最近,深度自編碼器DAEs(Deep Auto-Encoders)、卷積神經(jīng)網(wǎng)絡(luò)CNNs(Convolution Neural Networks)、受限波爾茲曼機(jī)RBMs(Restricted Boltzmann Machines)等深度網(wǎng)絡(luò)模型被廣泛應(yīng)用于計(jì)算機(jī)視覺的各個(gè)領(lǐng)域[14],在特征點(diǎn)定位中也取得了突出效果。這主要得益于它強(qiáng)大的非線性擬合能力,能夠更好地學(xué)習(xí)到從人臉圖像到人臉形狀(特征點(diǎn))的非線性映射關(guān)系。Wu等人[15]使用深度置信網(wǎng)絡(luò)DBNs(Deep Belief Networks)從人臉表情中捕獲人臉形狀變化特征,同時(shí)使用三元受限波爾茲曼機(jī)處理姿態(tài)變化。Luo等人[16]使用深度置信網(wǎng)絡(luò)進(jìn)行人臉部件檢測(cè),之后利用深度自動(dòng)編碼器對(duì)每個(gè)部件進(jìn)行訓(xùn)練預(yù)測(cè)。Sun等人[17]使用三層深度卷積網(wǎng)絡(luò)DCNN(Deep Convolution Neural Networks)進(jìn)行人臉特征點(diǎn)檢測(cè),在第一階段,首先估計(jì)出所有特征點(diǎn)(5個(gè))作為初始形狀,在之后的兩個(gè)階段中,對(duì)初始形狀的每一個(gè)特征點(diǎn)分別訓(xùn)練深度網(wǎng)絡(luò)進(jìn)行逐步求精。然而,該方法對(duì)初始形狀比較敏感,對(duì)每個(gè)特征點(diǎn)分別訓(xùn)練深度網(wǎng)絡(luò)又不易擴(kuò)展到特征點(diǎn)較多的情況。Zhang等人[18]提出由粗到精的自動(dòng)編碼網(wǎng)絡(luò)CFAN(Coarse-to-Fine Auto-Encoder Networks)進(jìn)行人臉特征點(diǎn)定位,在估計(jì)初始形狀之后,將所有特征點(diǎn)一起逐步求精。在以上深度模型基礎(chǔ)上,本文設(shè)計(jì)了三層級(jí)聯(lián)的自編碼器網(wǎng)絡(luò),通過由粗到精的方法對(duì)數(shù)目較多的人臉特征點(diǎn)(超過50個(gè))進(jìn)行定位。第一層網(wǎng)絡(luò)以整張人臉圖像為輸入,并非直接估計(jì)所有特征點(diǎn)作為初始形狀,而是先估計(jì)出人臉輪廓和部件位置,從而將所有特征點(diǎn)劃分到若干部件;第二層針對(duì)不同部件分別訓(xùn)練網(wǎng)絡(luò)對(duì)各個(gè)部件內(nèi)特征點(diǎn)進(jìn)行估計(jì);第三層為每個(gè)部件訓(xùn)練相應(yīng)網(wǎng)絡(luò)并以部件為單位對(duì)其內(nèi)所有特征點(diǎn)進(jìn)行求精。實(shí)驗(yàn)結(jié)果表明,這種方法能夠在定位多數(shù)目特征點(diǎn)的任務(wù)中提高估計(jì)的準(zhǔn)確性和魯棒性。
在數(shù)目較多的人臉特征點(diǎn)定位任務(wù)中,如果使用一個(gè)單一的深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)所有特征點(diǎn)進(jìn)行估計(jì),將導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜和訓(xùn)練過程困難,同時(shí)由于姿態(tài)、表情、光照等因素使得精確的定位更加困難。針對(duì)這一情況,本文設(shè)計(jì)了一個(gè)基于深度自編碼器網(wǎng)絡(luò)的人臉特征點(diǎn)定位方法,這一部分首先對(duì)設(shè)計(jì)的方法進(jìn)行概述,然后分析自編碼器網(wǎng)絡(luò)的設(shè)計(jì)細(xì)節(jié),最后給出實(shí)驗(yàn)中的網(wǎng)絡(luò)設(shè)置參數(shù)。
1.1方法概述
本文設(shè)計(jì)了三層級(jí)聯(lián)的自編碼器網(wǎng)絡(luò),并通過粗到精的方法對(duì)多數(shù)目的人臉特征點(diǎn)進(jìn)行定位。如圖1所示,根據(jù)面部結(jié)構(gòu)特征,我們將眉毛、眼睛和鼻子整體作為一個(gè)部件(包含31個(gè)特征點(diǎn)),嘴巴單獨(dú)作為一個(gè)部件(包含20個(gè)特征點(diǎn)),人臉輪廓作為一個(gè)部件(包含17個(gè)特征點(diǎn)),從而將所有特征點(diǎn)分成三部分。第一層深度網(wǎng)絡(luò)以整個(gè)人臉圖像作為輸入,訓(xùn)練網(wǎng)絡(luò)直接估計(jì)出三個(gè)部件的邊框位置(邊框左上角和右下角點(diǎn)的坐標(biāo))作為輸出。通過邊框位置信息對(duì)人臉圖像進(jìn)行剪裁,分別得到三個(gè)部件的圖像,作為第二層網(wǎng)絡(luò)的輸入,針對(duì)三種不同部件分別訓(xùn)練第二層深度網(wǎng)絡(luò)對(duì)相應(yīng)部件中的特征點(diǎn)做出初始的估計(jì),得益于深度網(wǎng)絡(luò)對(duì)從圖像到特征點(diǎn)之間復(fù)雜的非線性映射關(guān)系的優(yōu)良擬合能力,同時(shí)每個(gè)網(wǎng)絡(luò)僅對(duì)數(shù)目不多的特征點(diǎn)進(jìn)行預(yù)測(cè),使得第二層深度網(wǎng)絡(luò)的初始預(yù)測(cè)已經(jīng)比較接近實(shí)地真值。鑒于人臉圖像在表情、姿態(tài)、光照等方面的較大變化,設(shè)計(jì)第三層深度網(wǎng)絡(luò)來刻畫描述這些變化,在當(dāng)前特征點(diǎn)周圍提取的局部索引特征用于特征點(diǎn)定位是經(jīng)常使用并且有效的方法[10-12],該層網(wǎng)絡(luò)也以各個(gè)部件局部索引特征作為輸入,分別預(yù)測(cè)當(dāng)前特征點(diǎn)估計(jì)值與實(shí)地真值的偏差,以對(duì)特征點(diǎn)進(jìn)一步求精,得到更加準(zhǔn)確和魯棒的特征點(diǎn)坐標(biāo)。整個(gè)方法公式表示如下:
S=S0+ΔS
(1)
其中,S表示最終人臉特征點(diǎn)(人臉形狀)估計(jì)值,S0表示第二層網(wǎng)絡(luò)對(duì)特征點(diǎn)的初始估計(jì)值,ΔS表示第三層網(wǎng)絡(luò)對(duì)上一層網(wǎng)絡(luò)特征點(diǎn)估計(jì)值與真實(shí)值的偏差估計(jì)值。
第一層估計(jì)各部件位置,將得到各個(gè)部件邊框左上角和右下角坐標(biāo),為便于顯示,圖中各部件位置用不同粗細(xì)的矩形框框出來,之后將各部件剪裁出來分別進(jìn)行估計(jì)和求精,最后將所有部件特征點(diǎn)合并得到一個(gè)完整的人臉形狀。
圖1 方法概述
1.2深度自編碼器網(wǎng)絡(luò)
我們使用深度自編碼器網(wǎng)絡(luò)作為設(shè)計(jì)的三層級(jí)聯(lián)網(wǎng)絡(luò)的基本構(gòu)件。給定一個(gè)由d維人臉(或人臉部件)圖像x∈Rd,Tg(x)∈Rp表示p維的目標(biāo)輸出變量,各層的網(wǎng)絡(luò)學(xué)習(xí)出一個(gè)從圖像到目標(biāo)值的映射函數(shù)F,如下所示:
F:x→T
(2)
一般來說,映射F是一個(gè)復(fù)雜的非線性函數(shù),為了實(shí)現(xiàn)這一目標(biāo),k個(gè)單一的隱藏層自動(dòng)編碼器被堆疊起來作為一個(gè)深度神經(jīng)網(wǎng)絡(luò)來擬合這個(gè)映射函數(shù)。具體而言,各層網(wǎng)絡(luò)的任務(wù)可以看作最小化以下目標(biāo)函數(shù):
(3)
ai=fi(ai-1)=σ(Wiai-1+bi),i=1,2,…,k-1
(4)
fk(ak-1)=Wkak-1+bk
(5)
其中,F(xiàn)={f1,f2,…,fk},fi是深度網(wǎng)絡(luò)中第i層的映射函數(shù),σ是sigmoid函數(shù),ai是第i層的特征表示。自編碼器網(wǎng)絡(luò)中前k-1層神經(jīng)元節(jié)點(diǎn)激活函數(shù)使用sigmoid函數(shù)來刻畫圖像特征與目標(biāo)變量之間的非線性,然而,由于sigmoid函數(shù)的輸出范圍是[01],與目標(biāo)變量范圍不一致,因此在網(wǎng)絡(luò)最后一層fk中神經(jīng)元節(jié)點(diǎn)激活函數(shù)使用線性函數(shù)以得到目標(biāo)輸出估計(jì)值。
(6)
自編碼器網(wǎng)絡(luò)在通過式(7)進(jìn)行初始化后,網(wǎng)絡(luò)所有層參數(shù)按照式(6)進(jìn)行微調(diào),如此,自編碼器網(wǎng)絡(luò)的前幾層用來捕獲低層特征,如圖像中的紋理模式;較后面的幾層來刻畫包含紋理模式上下文信息的較高層的特征。網(wǎng)絡(luò)以圖像原始像素為輸入變量,以期望的回歸目標(biāo)值作為輸出進(jìn)行訓(xùn)練,測(cè)試時(shí),網(wǎng)絡(luò)的輸出值即為相應(yīng)的預(yù)測(cè)值。
1.3實(shí)現(xiàn)細(xì)節(jié)
數(shù)據(jù)擴(kuò)增:為了通過訓(xùn)練得到一個(gè)魯棒的深度網(wǎng)絡(luò),對(duì)每一個(gè)訓(xùn)練樣本(按照數(shù)據(jù)集提供的人臉邊框提取的人臉圖像)進(jìn)行隨機(jī)縮放和平移操作擴(kuò)充樣本容量,這樣可以有效地防止深度網(wǎng)絡(luò)模型訓(xùn)練過擬合,增強(qiáng)對(duì)自然環(huán)境下各種變化的魯棒性。
參數(shù)設(shè)置:實(shí)現(xiàn)中使用由三個(gè)非線性隱藏層和一個(gè)線性輸出層構(gòu)成的深度自編碼器網(wǎng)絡(luò)模型來擬合非線性映射函數(shù)。調(diào)整輸入網(wǎng)絡(luò)的人臉(或人臉部件)圖像到固定大小(50×50像素),隱藏層神經(jīng)元節(jié)點(diǎn)個(gè)數(shù)分別為取1600、900、300,在提取局部形狀索引特征時(shí),我們?cè)诿總€(gè)特征點(diǎn)周圍提取9×9的小塊,式(6)中的權(quán)重衰減項(xiàng)參數(shù)α用來控制樣本集均方差項(xiàng)和權(quán)重衰減項(xiàng)的相對(duì)重要性,實(shí)驗(yàn)中取值為0.001。
為了評(píng)估所文中設(shè)計(jì)方法的性能,我們?cè)诔S萌四樚卣鼽c(diǎn)定位數(shù)據(jù)庫(kù)上進(jìn)行了多次實(shí)驗(yàn)。這一部分首先介紹所使用的數(shù)據(jù)庫(kù),之后給出實(shí)驗(yàn)結(jié)果與分析。
2.1數(shù)據(jù)庫(kù)介紹
我們?cè)贚FPW[19]和HELEN[20]兩個(gè)數(shù)據(jù)庫(kù)上進(jìn)行了多次實(shí)驗(yàn),這兩個(gè)數(shù)據(jù)庫(kù)中的圖片在姿態(tài)、光照、表情方面變化較大,并且存在一些遮擋,是近幾年提出的在自然環(huán)境條件下的人臉對(duì)齊數(shù)據(jù)庫(kù),具有一定的挑戰(zhàn)性,廣泛應(yīng)用于理論研究。LFPW數(shù)據(jù)庫(kù)中包含1132張訓(xùn)練集圖片和300張測(cè)試圖片,由于該數(shù)據(jù)庫(kù)只提供了圖片鏈接并且有些鏈接已經(jīng)失效,我們使用IBUG[21]提供的數(shù)據(jù)庫(kù)圖片,包含811張訓(xùn)練集圖片和224張測(cè)試集圖片。HELEN數(shù)據(jù)庫(kù)為高分辨率圖片庫(kù),由2000張訓(xùn)練集圖片和330張測(cè)試集圖片構(gòu)成。兩個(gè)數(shù)據(jù)庫(kù)中的人臉圖片均標(biāo)注由300-W提供的68個(gè)人臉特征點(diǎn)。
2.2實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)結(jié)果采用平均估計(jì)誤差和失效率兩個(gè)指標(biāo)來度量所設(shè)計(jì)方法的性能,這兩個(gè)指標(biāo)顯示了一個(gè)特征點(diǎn)定位算法的準(zhǔn)確度和可靠性。估計(jì)誤差公式如下:
(8)
其中,(x,y)和(x′,y′)分別表示特征點(diǎn)真值坐標(biāo)和估計(jì)坐標(biāo),d表示估計(jì)誤差標(biāo)準(zhǔn)化因子。如果估計(jì)誤差超過10%,則認(rèn)為估計(jì)失效。兩眼中心距離常用來作為估計(jì)誤差標(biāo)準(zhǔn)化因子,然而,與正臉相比,側(cè)臉兩眼中心的距離較短,使用兩眼中心距離作為估計(jì)誤差標(biāo)準(zhǔn)化因子在人臉姿態(tài)變化較大時(shí)顯然是不合適的,這一點(diǎn)在文獻(xiàn)[22]中也被提出。因此,實(shí)驗(yàn)中我們使用人臉邊框的水平方向上像素個(gè)數(shù)(邊框?qū)挾?作為估計(jì)誤差標(biāo)準(zhǔn)化因子進(jìn)行性能度量。
我們將文中設(shè)計(jì)的方法和主動(dòng)表現(xiàn)模型(AAM)方法[4]和有監(jiān)督梯度下降方法(SDM)[13]進(jìn)行比較。AAM方法主要通過網(wǎng)絡(luò)資源提供的API實(shí)現(xiàn)[23],SDM方法發(fā)布的代碼只估計(jì)了49個(gè)特征點(diǎn),為了統(tǒng)一比較,借鑒源代碼重新實(shí)現(xiàn)了估計(jì)68個(gè)特征點(diǎn)的版本。
表1和表2分別給出了在LFPW和HELEN數(shù)據(jù)庫(kù)上的平均估計(jì)誤差和失效率。與AAM和SDM方法相比,文中設(shè)計(jì)的方法在兩個(gè)數(shù)據(jù)庫(kù)上平均估計(jì)誤差最小,失效率最低(表中用粗體呈現(xiàn)),表明文中設(shè)計(jì)的方法在特征點(diǎn)定位的準(zhǔn)確度和可靠性(魯棒性)上有相應(yīng)提高。圖2給出了在LFPW(左三列)和HELEN(右三列)數(shù)據(jù)庫(kù)上結(jié)果對(duì)比。從上到下依次為:實(shí)地真值、AAM方法、SDM方法和本文設(shè)計(jì)的方法。從圖中可以看出,當(dāng)人臉姿態(tài)或表情有較大變化時(shí),鼻子和嘴巴處的特征點(diǎn)準(zhǔn)確定位比較困難,然而,文中設(shè)計(jì)的方法在應(yīng)對(duì)這種姿態(tài)或表情變化有一定的魯棒性。圖3和圖4分別給出了文中設(shè)計(jì)方法在LFPW和HELEN數(shù)據(jù)庫(kù)上的一些特征點(diǎn)定位結(jié)果,這些人臉圖片在姿態(tài)、表情、年齡、膚色都有變化,有的還存在一些遮擋,盡管如此,我們?cè)O(shè)計(jì)的方法依然能夠比較準(zhǔn)確地定位。
表1 LFPW數(shù)據(jù)庫(kù)上不同方法比較結(jié)果
表2 HELEN數(shù)據(jù)庫(kù)上不同方法比較結(jié)果
圖2 不同數(shù)據(jù)庫(kù)和不同方法同方法的對(duì)比結(jié)果
圖3 LFPW數(shù)據(jù)庫(kù)上一些樣本的結(jié)果
圖4 HELEN數(shù)據(jù)庫(kù)上一些樣本的結(jié)果
本文在深度學(xué)習(xí)網(wǎng)絡(luò)基礎(chǔ)上,針對(duì)在數(shù)目較多的人臉特征點(diǎn)定位任務(wù)中,使用單一的網(wǎng)絡(luò)導(dǎo)致結(jié)構(gòu)復(fù)雜、學(xué)習(xí)困難、定位不夠準(zhǔn)確的情況,設(shè)計(jì)了一個(gè)三層級(jí)聯(lián)自編碼器深度學(xué)習(xí)網(wǎng)絡(luò)。將整個(gè)人臉特征點(diǎn)劃分在若干部件范圍內(nèi),從而對(duì)每個(gè)部件內(nèi)特征點(diǎn)進(jìn)行估計(jì)并求精,最后合并所有部件得到整個(gè)人臉圖像上的全部特征點(diǎn)位置。實(shí)驗(yàn)表明該方法在自然環(huán)境下采集的人臉圖像數(shù)據(jù)庫(kù)LFPW和HELEN上取得比較準(zhǔn)確的定位效果。
[1] Shan S G, Chang Y Z, Gao W. Curse of mis-alignment in face recognition: problem and a novel mis-alignment learning solution[C]//6th IEEE International Conference on Automatic Face and Gesture Recognition, Seoul, South Korea, 2004. Washington, DC: IEEE Computer Society, 2004:314-320.
[2] Chen D, Cao X D, Wen F, et al. Blessing of dimensionality: high-dimensional feature and its efficient compression for face verification[C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR, 2013. Washington, DC: IEEE Computer Society, 2013:3025-3032.
[3] Cootes T F, Taylor C J, Cooper D H, et al. Active shape models-their training and application [J]. Computer Vision and Image Understanding, 1995,61(1):38-59.
[4] Cootes T F, Edwards C J, Taylor C J, et al. Active appearance models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. Mach,2011,23(6):681-685.
[5] Matthews I, Baker S. Active appearance models revisited [J]. International Journal of Computer Vision, 2004,60(2):135-164.
[6] Milborrow S, Nicolls F. Locating facial features with an extended active shape model [C]//10th European Conference on Computer Vision (ECCV), Marseille, France, 2008. Berlin Heidelberg: Springer, 2008:504-513.
[7] Sauer P, Cootes T, Taylor C. Accurate regression procedures for active appearance models [C]//22nd British Machine Vision Conference (BMVC), University of Dundee, 2011. Norwich, UK: BMVA Press, 2011:1-11.
[8] Cootes T F, Ionita M C, Lindner C, et al. Robust and accurate shape model fitting using random forest regression voting [C]//12nd European Conference on Computer Vision (ECCV), Florence, Italy, 2012. Berlin Heidelberg: Springer, 2012:278-291.
[9] Zhao X, Shan S, Chai X, et al. Locality-constrained active appearance model[C]//Asian Conference on Computer Vision (ACCV), Daejeon, Korea, 2012. Berlin Heidelberg: Springer, 2013:636-647.
[10] Dollar P, Welinder P, Perona P. Cascaded Pose Regression[C]//23rd IEEE Conference on Computer Vision and Pattern Recognition (CVPR), San Francisco, 2010. Washington, DC: IEEE Computer Society, 2010:1078-1085.
[11] Burgos-Artizzu X P, Perona P, Dollar P. Robust face landmark estimation under occlusion[C]//IEEE International Conference on Computer Vision (ICCV), Sydney, 2013. Washington, DC: IEEE Computer Society, 2013:1513-1520.
[12] Cao X D, Wei Y C, Wen F, et al. Face alignment by explicit shape regression[J]. International Journal of Computer Vison. 2014,107(2):177-190.
[13] Xiong X H, De la Torre F.Supervised descent method and its application to face alignment[C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR,2013. Washington, DC: IEEE Computer Society, 2013:532-539.
[14] Bengio Y. Learning deep architecture for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.
[15] Wu Y, Wang Z, Ji Q. Facial feature tracking under varying facial expressions and face poses based on restricted boltzmann machines [C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR, 2013. Washington, DC: IEEE Computer Society, 2013:3452-3459.
[16] Luo P,Wang X, Tang X. Hierarchical face parsing via deep learning [C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, Rhode Island, 2012. Washington, DC: IEEE Computer Society, 2012,157(10):2480-2487.
[17] Sun Y, Wang X G, Tang X O. Deep convolutional network cascade for facial point detection[C]//26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Portland, OR, 2013. Washington, DC: IEEE Computer Society, 2013:3476-3483.
[18] Zhang J, Shan S G, Kan M N, et al. Coarse-to-fine auto-encoder networks (CFAN) for real-time face alignment[C]//13rd European Conference on Computer Vision (ECCV), Zurich, Switzerland, 2014. Switzerland: Springer, 2014:1-16.
[19] Belhumeur P N, Jacobs D W, Kriegman D, et al. Localizing parts of faces using a consensus of examples[J].IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 2013, 35(12):2930-2940.
[20] Le V, Brandt J, Lin Z, et al. Interactive facial feature localization[C]//12nd European Conference on Computer Vision (ECCV), Florence, Italy, 2012. Berlin Heidelberg: Springer, 2012:679-692.
[21] Christos S, Georgios T, Stefanos Z, et al. 300 faces in-the-wild challenge: the first facial landmark localization challenge[C]//IEEE International Conference in Computer Vision Workshops (ICCVW), Sydney, 2013. Washington, DC: IEEE Computer Society, 2013:397-403.
[22] Zhu X, Ramanan D. Face detection, pose estimation, and landmark localization in the wild[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, RI, USA, 2012. Washington, DC: IEEE Computer Society, 2012:2879-2886.
[23] Mikkel B Stegmann. http://www.imm.dtu.dk/~aam/.
FACIAL LANDMARK LOCALISATION APPROACH BASED ON DEEP AUTOENCODER NETWORKS
Liang YangyangChen YuYang Jian
(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, Jiangsu, China)
Facial landmarks localisation methods using deep learning network technology have achieved prominent effect. However, the localisation of larger number of facial landmarks (more than 50 points) still have lots of challenges due to the complex diversities in face images caused by pose, expression, illumination and occlusion, etc. This paper designs a three-level cascaded autoencoder network, which are employed to locate a large number of facial landmarks in a coarse-to-fine manner. The first level of the network estimates facial contour and component positions directly by tacking the whole face image as input, which divides landmarks into three parts (eyes and nose, mouth, and facial contour) for the next localisation steps; the following two level of the network estimate and refine the landmarks of each part respectively. Experiments conducted on LFPW, HELEN databases show that the approach can improve the accuracy and robustness of facial landmark localisation.
Facial landmark localisationDeep learningAutoencoder networksCoarse-to-fine
2015-06-25。國(guó)家自然科學(xué)基金面上項(xiàng)目(61472187)。梁洋洋,碩士生,主研領(lǐng)域:人臉識(shí)別。陳宇,博士生。楊健,教授。
TP3
A
10.3969/j.issn.1000-386x.2016.09.033