周麗芳,高 劍
1(重慶郵電大學(xué) 軟件工程學(xué)院,重慶 400065)
2(重慶郵電大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,重慶 400065)
3(三峽大學(xué) 湖北省水電工程智能視覺監(jiān)測重點(diǎn)實(shí)驗(yàn)室,宜昌 443002)
人臉姿態(tài)識(shí)別作為人臉識(shí)別的一個(gè)主要分支,近年來得到了廣泛和深入的研究,其中最常見的就是基于2D和3D的研究方法.2D方法包括:回歸模型、虛擬視圖重建、不變特征的提取;3D方法包含:基于像素的模型建立、基于標(biāo)定點(diǎn)的模型建立.由于提取方式的不同,不變特征的提取又分為基于傳統(tǒng)特征和基于深度學(xué)習(xí)的方法.局部二值模式作為一類有效的紋理描述方法被視為經(jīng)典的傳統(tǒng)特征廣泛地應(yīng)用于人臉姿態(tài)識(shí)別當(dāng)中,近年來一系列局部二值模式(Local Binary Pattern,LBP)的拓展方法[1-6]被先后提了出來,包括:基于拓?fù)浣Y(jié)構(gòu)角度、編碼角度、降噪角度、降維角度的擴(kuò)展.這一類基于傳統(tǒng)特征的人臉姿態(tài)識(shí)別存在特征維度過大、編碼方式不魯棒、對方向信息敏感等缺陷,依然是一個(gè)具有挑戰(zhàn)性的項(xiàng)目.
深度學(xué)習(xí)在過去的十多年里取得了顯著的成功,面向不同問題的模型[7-11]被先后提出.深度學(xué)習(xí)作為不變特征的一類有效提取方法同樣被運(yùn)用在人臉姿態(tài)識(shí)別中.由于深度網(wǎng)絡(luò)中不同卷積核和偏置的存在,這種學(xué)習(xí)機(jī)制會(huì)導(dǎo)致基于深度學(xué)習(xí)的人臉姿態(tài)識(shí)別計(jì)算量龐大、內(nèi)存開銷大、易于過擬合.日常生活中的自動(dòng)駕駛汽車、機(jī)器人、智能手機(jī)和智能攝像頭和智能穿戴設(shè)備為了部署這種可訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),也會(huì)面臨這些問題.為了解決網(wǎng)絡(luò)大模型化帶來的缺點(diǎn),一些用二值化權(quán)重取代實(shí)值權(quán)重的二值化版本神經(jīng)網(wǎng)絡(luò)[12-14]被提出,與實(shí)值權(quán)重網(wǎng)絡(luò)相比在計(jì)算效率上有很大的提升.
為了讓人臉姿態(tài)識(shí)別更好的提取圖像邊緣梯度信息同時(shí)規(guī)避傳統(tǒng)方法和深度學(xué)習(xí)提取特征的缺陷,本文基于MGP(Modified Gradient Pattern)二值算子[15]和改進(jìn)的DR-LDP(Dimensionality Reduced Local Directional Pattern)算子[16],提出了一種新的二值化卷積神經(jīng)網(wǎng)絡(luò),如圖1所示.所提網(wǎng)絡(luò)結(jié)構(gòu)主要分為3層,第1層ROILBC在LBC[17](Local Binary Convolution)的基礎(chǔ)上增加了ROI(感興趣區(qū)域)判斷.MGP算子結(jié)合了局部鄰域中心像素,網(wǎng)絡(luò)第2層DR-MGPC將MGP和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合并進(jìn)行特征降維,很好的提取了人臉姿態(tài)圖像邊緣梯度信息.DR-LDP考慮了局部鄰域方向響應(yīng)值,網(wǎng)絡(luò)第3層Enhanced DR-LDPC在DR-LDP的基礎(chǔ)上提出增強(qiáng)DR-LDP并將其與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合提取人臉姿態(tài)圖像邊緣梯度方向信息,一定程度上解決了人臉姿態(tài)識(shí)別對圖像方向信息敏感的問題.本文提出的DR-MGPC和Enhanced DR-LDPC所提取的特征維度與傳統(tǒng)二值模式相比,縮小了4倍(網(wǎng)絡(luò)結(jié)構(gòu)中池化層的作用),極大的減小了網(wǎng)絡(luò)計(jì)算復(fù)雜度.ROILBC和Enhanced DR-LDPC運(yùn)用了預(yù)先定義好的非學(xué)習(xí)的卷積核,在網(wǎng)絡(luò)訓(xùn)練過程中極大的減少了參數(shù)量,解決了深度學(xué)習(xí)人臉姿態(tài)識(shí)別中計(jì)算量過大、易于過擬合的問題.傳統(tǒng)二值模式只是簡單的用局部鄰域像素減去中心像素然后再用人為設(shè)定閾值的方法來對特征模式取值,本文所提網(wǎng)絡(luò)結(jié)構(gòu)用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)這個(gè)過程,有效的規(guī)避了基于傳統(tǒng)特征的人臉姿態(tài)識(shí)別中編碼方式過于簡單、無法挖掘人臉姿態(tài)深度信息的缺陷.
圖1 本文提出的二值化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
ROILBC層運(yùn)用改進(jìn)的LBC在輸入人臉姿態(tài)圖像上提取深度局部二值特征并進(jìn)行歸類,根據(jù)深度二值特征圖譜與輸入人臉姿態(tài)圖像的對比情況選擇圖像感興趣區(qū)域,作為后續(xù)網(wǎng)絡(luò)層的輸入.和LBC不同的是:為了保留原始局部鄰域灰度值,ROILBC采用權(quán)值為1的可變橢圓形卷積核.人臉重要組成部分(如眼睛、嘴巴)都是橢圓形結(jié)構(gòu),因此對于人臉圖像來說橢圓形感受野具有更強(qiáng)的識(shí)別能力.ROILBC中使用tanh激勵(lì)函數(shù)取代傳統(tǒng)手工閾值的設(shè)定,提取的局部二值特征更加魯棒.偏置bias的存在使得整個(gè)網(wǎng)絡(luò)在反向傳播過程中學(xué)習(xí)局部二值特征編碼的過程.傳統(tǒng)局部二值模式:
(1)
激勵(lì)函數(shù)和偏置bias的存在,使得ROILBC中局部二值模式變?yōu)長BCP(Local Binary Convolution Pattern):
(2)
A為激勵(lì)函數(shù),b為偏置bias,pi為局部鄰域像素且pc為局部鄰域中心像素.
Ojala等人[18]提出統(tǒng)一局部二值模式(ULBP)只考慮了模式中0/1變換次數(shù)小于等于2的情況,忽略了模式中0/1變換次數(shù)大于4的情況.為了提升特征的魯棒性并降低特征維度,冀中等人[19]提出增強(qiáng)局部二值模式(ELBP),對特征模式進(jìn)行重新歸類.具體如下:如果模式中0/1變換次數(shù)小于等于2,則各個(gè)模式單獨(dú)歸為一類,分為2+8×7共58種;如果模式中0/1變換次數(shù)等于4,根據(jù)包含1的個(gè)數(shù)進(jìn)行歸類,將包含1的個(gè)數(shù)相同的歸為一類,共5種;最后將模式中0/1變換次數(shù)大于4的歸為一類,最終形成的特征維度為58+5+1共64維.
與ULBP、ELBP不同,本文通過直觀的數(shù)據(jù)對比,不同模式特征圖譜與輸入圖像的對比情況來對0/1跳變次數(shù)進(jìn)行歸類.首先通過對CAS-PEAL-R1姿態(tài)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析可得:LBCP特征中0/1、1/0跳變次數(shù)為0和8的模式只占總模式的0.09%和0.1%,跳變次數(shù)為6的模式占3.85%,跳變次數(shù)為2和4的模式分別占比64.68%和31.28%,其它跳變次數(shù)占比均為0.通過不同跳變次數(shù)模式特征圖譜與輸入人臉姿態(tài)圖像的對比復(fù)原分析,跳變次數(shù)為2和4的模式對比原圖復(fù)原情況比較清晰.按照文獻(xiàn)[19]將跳變次數(shù)為2和4的特征模式按照其中包含1的個(gè)數(shù)相同的歸為一類.其中,跳變次數(shù)為2的情況下包含1的個(gè)數(shù)為3、4、5的模式下對應(yīng)特征圖譜刻畫出輸入人臉姿態(tài)圖像的主體框架.同樣跳變次數(shù)為4的情況下包含1的個(gè)數(shù)為3、4、5的模式下對應(yīng)特征圖譜刻畫出了原圖主體輪廓.
綜合以上分析最終將跳變次數(shù)為2包含1的個(gè)數(shù)為3、4、5的各個(gè)模式單獨(dú)歸為一類(每個(gè)模式由于1出現(xiàn)的位置不同又分為8種情況),分為3*8共24類.將跳變次數(shù)為4包含1的個(gè)數(shù)為3、4、5的各個(gè)模式單獨(dú)歸為一類共3類,最后將跳變次數(shù)大于4的歸為一類,最終形成的特征維數(shù)為24+3+1共28類.和文獻(xiàn)[19]相比特征維度從64維減少到28維,特征維度減少到一半,極大的減小了網(wǎng)絡(luò)的計(jì)算復(fù)雜度.傳統(tǒng)LBP中跳變次數(shù)為0的模式占總模式的10%,LBCP中只占0.09%是因?yàn)镽OILBC層中偏置bias的存在,導(dǎo)致局部鄰域中心像素和鄰域像素的灰度值發(fā)生了一定的偏置而最終的二值編碼相應(yīng)的發(fā)生了變化.
將跳變次數(shù)為2包含1的個(gè)數(shù)為3、4、5的模式統(tǒng)稱為CMT(Convert Mode Two),將跳變次數(shù)為4包含1的個(gè)數(shù)為3、4、5的模式統(tǒng)稱為CMF(Convert Mode Four),跳變次數(shù)大于4的模式統(tǒng)稱為CMO(Convert Mode Others),將以上模式的特征圖譜交叉融合作為輸入人臉姿態(tài)圖像的感興趣區(qū)域ROI,也就是ROILBC層的輸出RFMi(ROILBC Feature Map,i=1,2,…,9):
RFMi=α{β[LBCP(X)]}
(3)
α為特征圖譜交叉融合操作,β為特征模式歸類操作,X為網(wǎng)絡(luò)輸入人臉姿態(tài)圖像.RFMi由CMT中任意組合的2種模式和CMF中任意組合的2種模式加上CMO融合而成.CMT占輸入圖像信息的60%(除去邊、角模式)、CMF占30%(除去邊、角模式),CMO占3.85%,最終每一個(gè)RFMi都能捕獲到輸入人臉姿態(tài)圖像信息的65%.傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過第一層的卷積后只能采集到輸入圖像的邊、角、輪廓信息,遠(yuǎn)遠(yuǎn)達(dá)不到本文65%這么大比例的信息,這也是本文ROILBC層將傳統(tǒng)二值模式與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的優(yōu)勢之處.
傳統(tǒng)人臉姿態(tài)識(shí)別沒有考慮人臉姿態(tài)圖像的局部邊緣梯度信息,因此識(shí)別效果有一定的局限性.傳統(tǒng)二值模式的編碼角度擴(kuò)展中,有一系列方法就考慮了圖像局部鄰域邊緣梯度信息.首先Jun與Kim提出了LGP算子[20],其基本思想是通過局部梯度進(jìn)行定義如公式(4)所示:
gi=|pi-pc|
(4)
在LGP的基礎(chǔ)上,Choi與Kim進(jìn)一步提出了MGP算子,MGP首先定義了局部鄰域像素灰度與局部鄰域像素灰度均值的差異mi,然后以該差異的均值為閾值將局部鄰域進(jìn)行二值化.其次基于MCT(Modifies the Census Transform)變換[21],MGP算子將中心像素與鄰域像素一同考慮進(jìn)行局部二值編碼,其定義如公式(5)所示:
(5)
圖2給出了在人臉姿態(tài)圖像瞳孔邊緣局部時(shí)LGP與MGP編碼的對比,從圖2可以看出,由于MGP在進(jìn)行閾值設(shè)定時(shí)考慮了加入中心像素的鄰域灰度均值,所以MGP更好地描述了局部鄰域的梯度變化信息.為了進(jìn)一步說明該問題,圖3給出了采用不同閾值時(shí)局部鄰域邊緣梯度提取效果的對比,可以看出同時(shí)考慮了中心像素與鄰域平均像素時(shí)邊緣梯度提取的效果最好.
圖2 MGP與LGP編碼對比
圖3 采用不同閾值的局部梯度提取效果對比
(6)
上式中A代表激勵(lì)函數(shù),?代表卷積操作.ROILBC層的輸出RFMi作為DR-MGPC層的輸入,通過卷積、特征下采樣(Average Pooling)操作得到DR-MGPC層的輸出DR-MFMi(Dimensionality Reduced MGP Convolution Feature Map),其過程如公式(7)所示(K=5,DR表示特征下采樣):
(7)
DR-MGPC層的輸出DR-MFMi即提取包含圖像降維邊緣梯度信息的特征圖譜,如圖4(右圖為左圖局部放大效果)所示.可以明顯看出眼睛、鼻子、嘴巴的邊緣梯度信息已經(jīng)被提取出來,在一定程度上說明DR-MGPC層充分地發(fā)揮了MGP的特點(diǎn)(將鄰域中心像素一同進(jìn)行特征編碼,可以有效的提取圖像邊緣梯度特征).特征下采樣算法中kernel size取2×2將提取特征維度縮小4倍,有效的減輕了網(wǎng)絡(luò)的計(jì)算復(fù)雜度.
圖4 DR-MGPC層提取特征圖譜
2010年,Jabid等人[5,6]提出了LDP(局部方向模式)特征描述方法,這種方法類似于LBP編碼方法,也為圖像的每個(gè)像素分配一個(gè)8位的二進(jìn)制編碼,但進(jìn)一步結(jié)合了邊緣特征的方向性,將圖像的邊緣信息融入所提取的特征中.對于局部方向模式,在描述圖像特征時(shí),往往將圖像劃分為若干塊,然后將不同分塊的特征進(jìn)行級(jí)聯(lián)作為最終的圖像特征,從而導(dǎo)致圖像特征維數(shù)較高.為此,Sriniva等人提出DR-LDP算子,其基本流程是:首先按照LDP的方法得到LDP編碼圖像;其次,將LDP編碼圖像劃分為3×3的鄰域;最后將鄰域內(nèi)LDP值通過XOR編碼轉(zhuǎn)換為一個(gè)值,從而得到最終的編碼.DR-LDP的基本原理是在LDP的基礎(chǔ)上降低了圖像分辨率.
Enhanced DR-LDPC層運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)操作取代Kirsch掩模卷積方式得到不同方向的響應(yīng)值,LDP中Kirsch掩模為3×3大小的8個(gè)不同的方向,Enhanced DR-LDPC中將其拓展到可變形橢圓patch的16個(gè)不同的方向.所以在Enhanced DR-LDPC中LDP被重新定義為ELDP(Enhanced LDP),構(gòu)造ELDP算子的基本步驟如下:
1)針對3×3的局部鄰域,首先將該鄰域分別與Kirsch模板(16個(gè)方向)進(jìn)行卷積運(yùn)算,得到16個(gè)方向的邊緣響應(yīng)值;每個(gè)邊緣響應(yīng)值分別體現(xiàn)了在不同方向上的重要性,在所有方向上的邊緣響應(yīng)值的重要性并不等同.
2)構(gòu)造原圖像的ELDP編碼圖像.對原圖像中的每個(gè)像素點(diǎn)對其16個(gè)方向的邊緣響應(yīng)值進(jìn)行排序,將邊緣相應(yīng)絕對值排名前K位所在方向的二進(jìn)制編碼設(shè)置為1,其余(16-K)方向的編碼設(shè)置為0.若相鄰兩位響應(yīng)值的編碼相同則設(shè)置編碼1,不相同設(shè)置編碼0,從而構(gòu)成了8位的二進(jìn)制編碼,稱為ELDP編碼.
3)將ELDP編碼圖像的直方圖作為原圖像的ELDP特征.Kirsch模板包含了16個(gè)不同方向的邊緣梯度檢測信息,這16個(gè)不同方向的掩模算子集合為{M0,M1,…,M15}.16個(gè)Kirsch掩模分別表示16個(gè)方向所對應(yīng)的16條邊,東向、西向、南向和北向分別對應(yīng)直線邊,其余方向分別對應(yīng)折線邊.應(yīng)用16個(gè)掩模對圖像塊進(jìn)行卷積運(yùn)算,我們可以獲得中心像素的16個(gè)邊緣響應(yīng)值{m0,m1,…,m15}.基于該16個(gè)響應(yīng)值,ELDP的定義如公式(8)所示:
mi=I?Mi
(8)
上式中,?表示卷積,⊙表示判斷編碼是否相同,mi表示與Kirsch模板第i方向卷積運(yùn)算后得到的邊緣梯度,{|m0|,|m1|,…,|m15|}表示邊緣響應(yīng)值的絕對值,|mK|表示|mi|中第K大的邊緣響應(yīng)值.
利用Kirsch掩模對圖像鄰域進(jìn)行卷積運(yùn)算,每個(gè)像素被分配一個(gè)8位的二進(jìn)制編碼.與LBP算子不同的是,ELDP在LBP的基礎(chǔ)上融入了邊緣梯度方向信息,ELDP主要從方向性角度入手,不僅解決了LBP對中心像素點(diǎn)絕對依賴的不足,還能充分利用各鄰域像素之間的相互關(guān)系.相比LBP算子,ELDP算子對姿態(tài)、光照、表情和遮擋等噪聲影響的魯棒性更好.實(shí)驗(yàn)表明加入卷積神經(jīng)網(wǎng)絡(luò)和增強(qiáng)到16方向的Kirsch掩模使得最終提取的邊緣梯度方向信息更加具有魯棒性.由于Kirsch掩模在文中被增加到16個(gè)方向,所以本文實(shí)驗(yàn)統(tǒng)一取K=8.與DR-LDP不同的是本文采用下采樣(Average Pooling)對提取的邊緣梯度方向特征進(jìn)行降維,由于kernel size為2×2,所以提取的特征維度縮小4倍,減輕了網(wǎng)絡(luò)的計(jì)算復(fù)雜度.DR-MGPC層的輸出DR-MFMi作為輸入,經(jīng)過卷積提取增強(qiáng)邊緣梯度方向特征ELDP、特征下采樣進(jìn)行降維,得到最終的特征圖譜EDLFM.其過程如公式(9)所示(DR表示降維操作):
EDLFM=DR[ELDP(DR-MFMi)]
(9)
硬件環(huán)境:64位ubuntu16.04操作系統(tǒng)、Intel i9處理器、64GB內(nèi)存和雙Geforce RTX2070 SUPER GPU的計(jì)算機(jī).
開發(fā)環(huán)境:PyCharm.
編程語言:Python.
FERET數(shù)據(jù)集:FERET數(shù)據(jù)集為美國國防部發(fā)起為了促進(jìn)人臉識(shí)別算法的研究和實(shí)用化.數(shù)據(jù)集包含994個(gè)個(gè)體的不同姿態(tài)的11338張面部圖片.
CAS-PEAL-R1數(shù)據(jù)集:CAS-PEAL-R1數(shù)據(jù)集為中國先進(jìn)人機(jī)通信技術(shù)聯(lián)合實(shí)驗(yàn)室的CAS-PEAL人臉數(shù)據(jù)集的子集,數(shù)據(jù)集包含1040個(gè)個(gè)體的30900張照片,每一個(gè)個(gè)體有21個(gè)不同人臉姿態(tài)的圖片,除此之外,還包含表情、穿戴物、光照不同影響因數(shù)的照片.
由于CAS-PEAL-R1姿態(tài)數(shù)據(jù)集分為兩部分(偏轉(zhuǎn)角度不同),所以本文在該數(shù)據(jù)集上進(jìn)行兩次實(shí)驗(yàn).實(shí)驗(yàn)1將CAS-PEAL-R1姿態(tài)數(shù)據(jù)集前101個(gè)個(gè)體的姿態(tài)圖片按偏轉(zhuǎn)角度進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)2將后939個(gè)個(gè)體的姿態(tài)圖片按偏轉(zhuǎn)角度進(jìn)行實(shí)驗(yàn).本文將實(shí)驗(yàn)1的前71個(gè)個(gè)體設(shè)置成訓(xùn)練集,后30個(gè)個(gè)體設(shè)置為測試集.將實(shí)驗(yàn)2的前639個(gè)個(gè)體設(shè)置成訓(xùn)練集,后300個(gè)個(gè)體設(shè)置成測試集,每個(gè)實(shí)驗(yàn)的訓(xùn)練集與測試集的比例為7:3.實(shí)驗(yàn)3在FERET數(shù)據(jù)集上按照人臉姿態(tài)圖片的偏轉(zhuǎn)角度進(jìn)行實(shí)驗(yàn).為了探究網(wǎng)絡(luò)的訓(xùn)練效果,本文將超參數(shù)Batch Size和Epoch取不同值時(shí)識(shí)別精度的結(jié)果如圖5所示.
圖5 實(shí)驗(yàn)1、2超參數(shù)取不同值時(shí)識(shí)別率
從圖5可以看出實(shí)驗(yàn)1中Batch Size取6、Epoch取300的時(shí)候識(shí)別精度最高,實(shí)驗(yàn)2中Batch Size取50、Epoch取300的時(shí)候識(shí)別精度最高.
實(shí)驗(yàn)1的識(shí)別效果如表1所示,本文除了直方圖相似度來衡量識(shí)別精度,還用到了常態(tài)分布比對的巴氏距離法、卡方檢驗(yàn)作為衡量依據(jù).實(shí)驗(yàn)1在Batch Size取6、實(shí)驗(yàn)2在Batch Size取50時(shí)隨著Epoch的增長其卡方距離的變化情況如圖6所示.從圖6可以看出隨著Epoch的增長其卡方距離在逐漸減小,說明網(wǎng)絡(luò)學(xué)習(xí)到了不同人臉姿態(tài)間的差異,并通過隨機(jī)梯度下降法反向傳播來減小這種差異.
表1 實(shí)驗(yàn)1識(shí)別精度
圖6 實(shí)驗(yàn)1、2中卡方的變化情況
將不同姿態(tài)圖片經(jīng)過本文所提網(wǎng)絡(luò)卷積計(jì)算后所得EDLFM特征圖譜進(jìn)行全連接,再進(jìn)行歐氏距離計(jì)算并作為整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的誤差損失函數(shù)如公式(10)所示:
Err=Euc[Fcn(EDLFM1),Fcn(EDLFM2)]
(10)
實(shí)驗(yàn)1在Batch Size取6、實(shí)驗(yàn)2在Batch Size取50時(shí)隨著Epoch的增長其歐式距離的變化情況如圖7所示.通過圖像可以看出歐式距離在逐漸減小,從一定程度上說明面網(wǎng)絡(luò)學(xué)習(xí)到了不同姿態(tài)人臉圖像的區(qū)別并進(jìn)行誤差反向傳播.
圖7 實(shí)驗(yàn)1、2中歐式距離的變化情況
文獻(xiàn)[17,22-26]沒有很好的提取圖像邊緣梯度特征.為了驗(yàn)證本文所提二值卷積神經(jīng)網(wǎng)絡(luò)能夠有效地提取人臉姿態(tài)圖像邊緣梯度信息,同時(shí)有效地規(guī)避傳統(tǒng)二值模式與卷積神經(jīng)網(wǎng)絡(luò)的缺陷,實(shí)驗(yàn)2、實(shí)驗(yàn)3本別在CAS-PEAL-R1數(shù)據(jù)集和FERET數(shù)據(jù)集與上述所提方法進(jìn)行對比,對比情況如表2、表3所示.從表2和表3可以看出:傳統(tǒng)方法中Huffman-LBP識(shí)別效率和運(yùn)算效率是最好的,p-CNN多任務(wù)學(xué)習(xí)的機(jī)制導(dǎo)致各個(gè)模塊相互促進(jìn)使得在深度學(xué)習(xí)方法當(dāng)中表現(xiàn)最好.基于深度學(xué)習(xí)的方法由于提取特征更全面,普遍比傳統(tǒng)方法表現(xiàn)優(yōu)異,將二者結(jié)合的方法表現(xiàn)最好.本文所提方法結(jié)合傳統(tǒng)與深度學(xué)習(xí)來提取特征,ROILBC層和Enhanced DR-LDPC層使用了預(yù)定義非學(xué)習(xí)卷積核使得訓(xùn)練單張圖片與其它方法相比耗時(shí)最短.除了計(jì)算復(fù)雜度有所減少,識(shí)別精度和其它方法相比也是最優(yōu)異的,尤其是在大姿態(tài)偏轉(zhuǎn)角度時(shí).
表2 本文所提方法和其它方法在CAS-PEAL-R1數(shù)據(jù)集上的實(shí)驗(yàn)對比
表3 本文所提方法和其它方法在FERET數(shù)據(jù)集上的實(shí)驗(yàn)對比
本文在提取特征時(shí)考慮了圖像邊緣梯度信息,利用傳統(tǒng)二值特征的特點(diǎn)構(gòu)造了一系列預(yù)定義非學(xué)習(xí)的卷積核,減輕了網(wǎng)絡(luò)計(jì)算復(fù)雜度.將傳統(tǒng)二值模式與深度學(xué)習(xí)結(jié)合提高了特征編碼的魯棒性,同時(shí)提高了人臉姿態(tài)識(shí)別的識(shí)別精度和計(jì)算效率.目前關(guān)于二值模式與深度學(xué)習(xí)結(jié)合的研究還處于探索階段,本文為該方向提出了一種高效、可行的研究方法.