李睿,李科,孫家煒
(1.四川大學(xué)計算機(jī)學(xué)院,成都 610065;2.四川大學(xué)視覺合成圖形圖像技術(shù)國防重點(diǎn)學(xué)科實(shí)驗(yàn)室,成都 610065;3.四川川大智勝軟件股份有限公司,成都 610045)
在互聯(lián)網(wǎng)技術(shù)不斷發(fā)展的今天,人工智能[1]成為了當(dāng)前眾多前沿技術(shù)的潮流,追求軟件應(yīng)用的快捷、安全是各個領(lǐng)域重要的主題。由于人工智能中計算機(jī)視覺技術(shù)[2]的快速發(fā)展,誕生出基于深度學(xué)習(xí)[3]的人臉識別技術(shù)可應(yīng)用于各種需要驗(yàn)證身份的場景,如銀行交易認(rèn)證、車站卡口認(rèn)證以及門禁系統(tǒng)等眾多安防領(lǐng)域。
目前的人臉識別主要是利用二維人臉檢測特征點(diǎn)[4],并分部分訓(xùn)練深度學(xué)習(xí)模型提取特征,再利用特征信息比對進(jìn)行身份識別。但是由于受到姿勢、光照、表情變化等因素的影響,其有較大的局限性。此外,隨著二維人臉識別技術(shù)的成熟與廣泛應(yīng)用,更高標(biāo)準(zhǔn)的安全性、可靠性要求被提出,于是三維人臉識別技術(shù)[5]開始誕生。經(jīng)過國內(nèi)外研究人員的大量研究證明三維人臉可大大提高識別技術(shù)的可靠性。
雖然直接利用三維人臉信息的識別方法不斷有新的進(jìn)展,且能夠更加準(zhǔn)確豐富地描述人臉特征,并不容易受到光照和姿態(tài)影響,但是三維人臉具有信息采集耗時耗力,采集條件苛刻、成本高等缺點(diǎn)。所以本方法結(jié)合二維圖像采集方便快捷和三維人臉識別更為可靠準(zhǔn)確的優(yōu)勢,利用二維紋理重建三維人臉深度信息,將二維人臉與三維人臉轉(zhuǎn)換到同一度量空間,再進(jìn)行同一度量空間的人臉信息對比識別。
三維人臉數(shù)據(jù)中的深度信息與二維人臉圖像中的紋理信息具有不同的性質(zhì)和屬性,按照紋理的具體表現(xiàn)形式分類可將紋理分為:顏色紋理、凹凸紋理、過程紋理。凹凸紋理是二維紋理由于不同部位光反射的不同,可以體現(xiàn)人臉表面的凹凸特性,該凹凸特性在三維人臉中的表現(xiàn)為三維人臉數(shù)據(jù)中的深度信息??紤]到實(shí)際應(yīng)用中在注冊端采用三維人臉采集設(shè)備進(jìn)行注冊是可行的且二維攝像機(jī)已經(jīng)普及,因此本文重點(diǎn)研究了三維人臉注冊加二維人臉識別,以期推動三維人臉識別的實(shí)際應(yīng)用。三維人臉注冊加二維人臉識別是一個異源異質(zhì)異構(gòu)問題,其核心問題在于如何將三維人臉與二維人臉轉(zhuǎn)換到同一度量空間,本文研究了二維人臉如何轉(zhuǎn)換為三維結(jié)構(gòu)信息(深度圖),提出了一套高精度三維人臉結(jié)構(gòu)信息對二維人臉紋理信的人臉識別框架與算法。
本研究從FRGC 數(shù)據(jù)庫中取466 人,共3276 組數(shù)據(jù)(每組由一張二維人臉紋理圖像和對應(yīng)的三維人臉深度圖像構(gòu)成,同一人有多組數(shù)據(jù))。
(1)預(yù)處理
由于訓(xùn)練數(shù)據(jù)量較少以及三維深度圖擴(kuò)充受限(不受光照等影響),所以本研究將二維人臉紋理圖像進(jìn)行了擴(kuò)展與增強(qiáng)[6],通過OpenCV 訪問圖像像素改變其對比度亮度生成新的紋理圖像,再映射出其相應(yīng)的三維深度圖像。 亮度對比度調(diào)整公式為:g(i,j)=a*f(i,j)+b,其中 i 和 j 表示 i 行 j 列,f(i,j)為源圖像像素,g(i,j)為輸出圖像像素,參數(shù)a 為控制對比度參數(shù),參數(shù)b 為控制亮度的參數(shù)。擴(kuò)展效果圖如圖1。
圖1 圖像擴(kuò)展
(2)算法框架及網(wǎng)絡(luò)結(jié)構(gòu)
①算法的總體框架
如圖2 所示,該方法利用二維圖像通過深度網(wǎng)絡(luò)重建三維深度圖后進(jìn)行人臉特征提取,同時原有數(shù)據(jù)集中三維人臉數(shù)據(jù)投影形成的人臉深度圖也進(jìn)行特征提取,最后進(jìn)行特征比對。實(shí)質(zhì)上本方法是將二維紋理與三維深度信息通過深度網(wǎng)絡(luò)映射到同一特征空間上進(jìn)行比較。
圖2 三維深度與二維紋理的識別流程
②二維紋理到三維深度圖的映射網(wǎng)絡(luò)
二維紋理到三維深度的映射是端到端的像素映射,除特征表達(dá)外還進(jìn)行了重建,且必須從總體上計算光照(紋理)與深度之間的關(guān)系。因此作為特征提取的卷積神經(jīng)網(wǎng)絡(luò)不適合二維紋理到三維深度。本研究設(shè)計通過自編碼網(wǎng)絡(luò)[7]結(jié)構(gòu)實(shí)現(xiàn)映射,通過自編碼網(wǎng)絡(luò)對輸入數(shù)據(jù)進(jìn)行了降維壓縮,然后在輸出層中解壓縮,通過這種網(wǎng)絡(luò)訓(xùn)練可以將冗余信息去除并保留其主要的特征。算法結(jié)構(gòu)如圖3 所示。
圖3 自編碼網(wǎng)絡(luò)結(jié)構(gòu)
對于該自編碼神經(jīng)網(wǎng)絡(luò),含有2N 個全連接層,且具有對稱性。編碼器含有前N 個全連接層,解碼器含有后N 個全連接層,設(shè)第k(k=1,2,…,2N)個全連接層的輸出神經(jīng)元單元數(shù)為m(k),網(wǎng)絡(luò)的輸入為x ∈Rd,則第 k 層的輸出表達(dá)為 h(k)=g(W(k)h(k-1)+b(k)) ,其中為該層的參數(shù)矩陣,b(k)∈Rm(k)為偏置項,為激活函數(shù)。于是最后一層的輸出為,其中 H:Rd→Rd,即為從二維人臉紋理圖到三維人臉深度圖的非線性映射模型。整個二維人臉紋理圖到三維人臉深度圖轉(zhuǎn)換的問題轉(zhuǎn)化為求取H 的問題。
圖4 自編碼網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)
③三維深度圖特征提取網(wǎng)絡(luò)
由于訓(xùn)練數(shù)據(jù)量較少以及三維深度圖擴(kuò)充受限(不受光照等影響),所以本研究將二維人臉紋理圖像進(jìn)行了擴(kuò)展,通過改變其對比度亮度生成新的紋理圖像,再映射出其相應(yīng)的三維深度圖像[8]。然后針對本研究設(shè)計了簡單的卷積神經(jīng)網(wǎng)絡(luò)[9]以實(shí)現(xiàn)三維深度圖的訓(xùn)練與特征提取。該網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。
圖5 三維人臉深度圖與二維人臉映射圖特征提取網(wǎng)絡(luò)
該網(wǎng)絡(luò)包含了兩個卷積層,兩個池化層,以及兩個全鏈接層。Conv1 和Conv2 為卷積層,簡單來說卷積層為利用二維濾波器根據(jù)步長在二維圖像(三維深度圖為二維圖像)的像素點(diǎn)上滑動,同時與該像素點(diǎn)及其附近像素點(diǎn)做內(nèi)積,通過這樣的卷積操作可以不斷提取圖像的特征。兩個Pooling 層為池化層,該層可達(dá)到減少數(shù)據(jù)處理量的作用,通過利用圖像的局部相關(guān)性對圖像進(jìn)行子抽樣,還可以保留有用的信息,并且能夠在一定程度上控制過擬合。IP1 和IP2 為全連接層,全連接層中的每個神經(jīng)元與其前一層的所有神經(jīng)元進(jìn)行全連接。全連接層可以整合卷積層和池化層中具有類別區(qū)分性的局部信息。該網(wǎng)絡(luò)具有簡潔但層次完備的特點(diǎn),適用于本研究數(shù)據(jù)量較少的情況。
(3)評估方法
算法評估中,本研究從FRGC 數(shù)據(jù)庫中取466 人,共3276 組(每組由一張二維人臉紋理圖像和三維人臉深度圖像構(gòu)成)數(shù)據(jù)中選取100 人的722 組數(shù)據(jù)作為測試對象,余下的366 人的所有數(shù)據(jù)作為訓(xùn)練集。為了保證特征提取的魯棒性,從訓(xùn)練集中隨機(jī)抽取一半的數(shù)據(jù)(1277 組)用于二維紋理到三維深度的映射網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí),通過學(xué)習(xí)訓(xùn)練形成的模型將訓(xùn)練集中所有的二維人臉紋理圖像映射為三維深度圖。最后利用映射得到的三維深度圖形成特征提取的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,得到特征提取模型以提取用于人臉識別的特征。在應(yīng)用到人臉識別階段用提取的特征值進(jìn)行對比,求得余弦相似度,判斷是否為同一人臉,并計算判斷正確的準(zhǔn)確率。
通過二維人臉紋理圖到三維人臉深度圖的非線性映射模型映射出的結(jié)果如圖6(每對圖像中左圖為二維紋理圖,中間圖為三維投影深度圖,右圖為二維紋理重建三維深度圖)。
圖6 二維紋理到三維深度映射的深度神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)與映射結(jié)果
通過三維深度圖特征提取網(wǎng)絡(luò)提取特征后進(jìn)行特征比對,測試結(jié)果表明在沒有其他任何信息支撐的前提下,三維人臉深度圖像對二維人臉紋理圖像的異構(gòu)異質(zhì)識別率在 100 人的 722 組數(shù)據(jù)上,達(dá)到了75.21%。
由于該實(shí)驗(yàn)數(shù)據(jù)集較小,所以識別率還未達(dá)到最好效果。且由于使用深度學(xué)習(xí)的方法可以在數(shù)據(jù)繼續(xù)擴(kuò)充的情況下不斷優(yōu)化訓(xùn)練模型并提升準(zhǔn)確度,且二維人臉紋理采集方便、三維深度信息可信度高,對比與當(dāng)前的二維人臉識別與三維人臉識別技術(shù),基于二維紋理重建三維人臉深度圖像后的人臉識別有不錯的應(yīng)用價值和發(fā)展前景。與其他方法相比,該研究具有以下優(yōu)勢:①用采集二維紋理圖代替了采集三維信息,且本研究中的兩種深度學(xué)習(xí)框架架構(gòu)簡單,訓(xùn)練方便。②利用三維深度圖作為驗(yàn)證手段,提升了人臉識別的可靠性。
針對該實(shí)驗(yàn)可以預(yù)見,通過采集二維人臉紋理并利用三維深度圖進(jìn)行人臉識別的方法將使基于人臉識別的應(yīng)用更加便捷且更加可靠。對于該文中使用的深度學(xué)習(xí)模型,如果繼續(xù)增加數(shù)據(jù)集以及改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)為更多層更深的網(wǎng)絡(luò)并使用更好的設(shè)備進(jìn)行訓(xùn)練模型,會得到準(zhǔn)確率更高的深度學(xué)習(xí)模型。