李悅 山東科技大學
基于級聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)的面部特征點定位算法
李悅 山東科技大學
面部的特征點準確定位對于表情識別和面部動畫合成等應(yīng)用具有重要的意義。隨著網(wǎng)絡(luò)時代自拍的盛行,人們對于實際應(yīng)用場景中不同光照,角度和遮擋條件下的準確特征點定位提出了更高的要求。本文設(shè)計了一種基于級聯(lián)的深度卷積神經(jīng)網(wǎng)絡(luò)的面部特征點定位算法,在初步特征點識別的基礎(chǔ)上利用級聯(lián)網(wǎng)絡(luò)進行回歸優(yōu)化擬合,從而達到了精確定位的效果。
深度卷積神經(jīng)網(wǎng)絡(luò) 級聯(lián) 面部特征點
面部特征點識別是指根據(jù)輸入的人臉圖像,自動識別出眼角、眉心、鼻尖、嘴角、輪廓等特征點的位置。面部特征點的識別是面部屬性分析、老化模擬、人臉對齊以及動畫合成等等問題的基礎(chǔ),實現(xiàn)精確的面部特征點定位具有重要的意義。本文設(shè)計的級聯(lián)深度神經(jīng)網(wǎng)絡(luò)算法具有兩級網(wǎng)絡(luò)結(jié)構(gòu),其中一級網(wǎng)絡(luò)負責特征點的識別,二級網(wǎng)絡(luò)實現(xiàn)特征點的定位優(yōu)化。
深 度 卷 積 神 經(jīng) 網(wǎng) 絡(luò)(Deep Convolutional Neural Network,DCNN)是近些年來興起的一種高效的識別方法,在數(shù)字圖像處理的諸多領(lǐng)域都取得了很好的效果。DCNN的基本結(jié)構(gòu)由特征提取和特征映射兩部分構(gòu)成,通過局部感知和神經(jīng)元權(quán)值共享的方法,我們可以堆疊出一個深層的結(jié)構(gòu)并能夠從數(shù)據(jù)中學習到很好地效果。
我們首先利用一個9層的深度卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)面部特征點大致區(qū)域定位。由于網(wǎng)絡(luò)的最后兩層是全連接層,輸入圖像的尺寸必須是固定大小,因此針對候選的人臉區(qū)域,將其縮放到39×39像素大小。對于輸入圖像,先后用一個4×4和兩個3×3的卷積核對圖像進行卷積操作,每個卷積層后面進行最大值池化來降低參數(shù)的數(shù)量,提高網(wǎng)絡(luò)的效率。最后,通過兩個全連接層對坐標參數(shù)進行回歸,由于實驗中采用了眼角、鼻尖、嘴角的標注,最終輸出層的神經(jīng)元數(shù)目為10,代表了回歸出的5個特征點的二維坐標值。
在神經(jīng)網(wǎng)絡(luò)的選取過程中,本文選取了以下三個優(yōu)化方法。①適度增加神經(jīng)網(wǎng)絡(luò)的深度。在大范圍圖像上進行特征點識別是一個高層特征的任務(wù),通過增加神經(jīng)網(wǎng)絡(luò)的深度,高層的神經(jīng)元可以接受更大區(qū)域的輸入信息,增強輸入輸出的非線性相關(guān)程度,實現(xiàn)更好的定位效果。②選取雙曲正切函數(shù)作為激活函數(shù),并在激活函數(shù)層后添加絕對值映射,從而保留更多的對比信息,應(yīng)對低對比度的情況。③利用局部的神經(jīng)元權(quán)值共享。人臉圖像具有相對固定的空間布局,因此全局的神經(jīng)元權(quán)值共享無法反映出局部區(qū)域的特征差異。本文針對人臉圖像進行分塊,對局部的權(quán)值進行共享,從而更好地提取圖像特征。
通過一級的神經(jīng)網(wǎng)絡(luò),我們得到了面部特征點的大致位置。我們通過五個淺層的神經(jīng)網(wǎng)絡(luò)組成次級特征點優(yōu)化網(wǎng)絡(luò),針對特征點所在的局部區(qū)域進行分析和處理,從而回歸出特征點的精確位置。
五個子網(wǎng)絡(luò)分別針對五個特征點進行坐標的回歸。選取一級網(wǎng)絡(luò)得到的特征點周圍15×15的區(qū)域,分別作為五個子網(wǎng)絡(luò)的輸入圖像。我們先后采用一個4×4和一個3×3的卷積核對局部圖像進行卷積操作,每個卷積層后面接最大值池化層操作。最后是兩個全連接層,由于每個子網(wǎng)絡(luò)只針對一個點進行回歸,因此輸出層的神經(jīng)元數(shù)目為2,代表了對應(yīng)坐標點的二維坐標值。由于次級網(wǎng)絡(luò)的坐標回歸是在局部圖像上進行的,對于次級網(wǎng)絡(luò)的輸出需要進行線性坐標映射還原到原圖上去,從而形成最終的網(wǎng)絡(luò)輸出。
在神經(jīng)網(wǎng)絡(luò)的訓練過程中,針對一級網(wǎng)絡(luò),我們利用現(xiàn)有的人臉標注庫作為訓練數(shù)據(jù)。針對二級網(wǎng)絡(luò),我們采用相應(yīng)標注點為中心的圖像區(qū)域作為訓練圖像。二級的級聯(lián)結(jié)構(gòu)能夠同時利用圖像的深度特征和區(qū)域的局部相關(guān)信息,利用深度網(wǎng)絡(luò)在大尺度上進行特征點的區(qū)域定位,進而利用淺層網(wǎng)絡(luò)實現(xiàn)局部的優(yōu)化和擬合,從而兼顧了精確度和效率,為后續(xù)在移動端的部署打下了基礎(chǔ)。
下圖是我們選取了一些具有代表的實驗結(jié)果。從左到右,分別代表了大角度側(cè)臉,大幅度特殊表情,區(qū)域遮擋和低對比度暗光照四種常見的難處理場景。我們用綠點標記了眼角、鼻尖和嘴角五個特征點的識別情況,可以看到本文提出的基于級聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)的面部特征點識別算法具有很強的魯棒性,在各種復(fù)雜的場景下都能夠?qū)崿F(xiàn)特征點的準確識別和精確的定位。
本文提出了一種基于級聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)的面部特征點識別算法,構(gòu)造了二級級聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu),分別對面部圖像進行特征點的區(qū)域定位和坐標的優(yōu)化。相關(guān)實驗表明算法在實際應(yīng)用的復(fù)雜場景中具有很強的魯棒性和極高的識別精度,為后續(xù)基于面部特征點的操作打下了良好的基礎(chǔ)。
[1]謝鄭楠.基于多任務(wù)特征選擇和自適應(yīng)模型的人臉特征點檢測[D].北京交通大學,2016
[2]劉俊權(quán).人臉關(guān)鍵特征點定位與識別研究[D].東南大學,2016
[3]李月龍,靳彥,汪劍鳴,肖志濤,耿磊.人臉特征點提取方法綜述[J].計算機學報,2016,(07):1356-1374
[4]劉暢翔.人臉特征點定位算法及其在人臉識別的應(yīng)用研究[D].東華理工大學,2015