王 鵬,葉學(xué)義,王 濤,錢丁煒
杭州電子科技大學(xué) 通信工程學(xué)院 模式識別與信息安全實(shí)驗(yàn)室,杭州 310018
近年來人臉識別因?yàn)槠浞€(wěn)定、非接觸性和易于獲取等特點(diǎn),已經(jīng)被廣泛應(yīng)用。但實(shí)際應(yīng)用場景環(huán)境的復(fù)雜多變,尤其是光照、表情、遮擋、姿態(tài)等變化都會顯著影響人臉識別的性能。
人臉識別主要包含人臉檢測、人臉表征、人臉匹配等環(huán)節(jié)。人臉表征主要包括特征提取和特征降維。而特征提取從人臉屬性要素中提取能夠體現(xiàn)特定人臉身份的面部特征,因此成為整個人臉識別的關(guān)鍵。特征提取的研究主要分為局部特征提取和全局特征提取兩類。全局特征關(guān)注整體屬性,經(jīng)典的方法有主成分分析法(Principal Component Analysis,PCA)[1]、線性判別分析(Linear Discriminant Analysis,LDA)[2]等。全局特征可以反映粗略信息,但無法刻畫人臉細(xì)節(jié),在應(yīng)用時(shí)有很大的局限性;而基于局部特征的方法聚焦于圖像的微紋理結(jié)構(gòu),對原始圖像以模式編碼獲得新的特征圖像,對于光照、表情等干擾可以保持更好的穩(wěn)定性,近年來得到廣泛研究。目前對局部特征提取的方法主要分為兩類:一類是基于手工設(shè)計(jì)描述符的局部特征提取方法,如局部方向數(shù)模式(Local Directional Number pattern,LDN)[3]、壓縮二進(jìn)制模式(Compressive Binary Pattern,CBP)[4]等,它依賴設(shè)計(jì)者的先驗(yàn)知識精心設(shè)計(jì)編碼,計(jì)算快速且效果良好。另一類是基于學(xué)習(xí)描述符的局部特征提取方法,如緊湊二進(jìn)制人臉描述符(Compact Binary Face Descriptor,CBFD)[5]、上下文感知的局部二值特征學(xué)習(xí)(Context-Aware Local Binary Feature Learning,CA-LBFL)[6]等。它通過無監(jiān)督或監(jiān)督學(xué)習(xí)優(yōu)化編碼方法,相比于手工描述符,它利用更大采樣范圍的像素信息自動編碼,不需要手工設(shè)計(jì)具體編碼規(guī)則。但這類方法需要多次迭代尋找最優(yōu)編碼,計(jì)算耗時(shí),效率不高?;谑止ぴO(shè)計(jì)描述符的方法計(jì)算速度快且識別性能好,因此近年來受到廣泛研究。
Ojala 等人[7]提出的局部二值模式(Local Binary Pattern,LBP)是局部特征提取的經(jīng)典方法。它聚焦于圖像局部紋理,利用局部區(qū)域信息替代單個像素點(diǎn)信息,有較好的紋理描述能力。但LBP 僅使用灰度信息,拋棄了非強(qiáng)度信息,有很多需要改進(jìn)的地方。為了克服LBP等方法的一些缺點(diǎn),Rivera等人提出局部方向數(shù)模式(LDN)。它基于邊緣響應(yīng)算子記錄了邊緣響應(yīng)最強(qiáng)和最弱的兩個方向,抓住了主要紋理。但LDN僅依據(jù)原始的邊緣響應(yīng)值來提取梯度信息,特征信息少。Ryu等人[8]在保留LDN邊緣響應(yīng)信息基礎(chǔ)上,提出局部方向紋理模式(Local Directional Texture Pattern,LDTP),通過區(qū)分主要方向的灰度差異豐富了梯度信息,但忽略了對灰度空間信息的提取。王曉華等人[9]提出了梯度中心對稱局部模式(Gradient Center Symmetric Local Directional Pattern,GCSLDP),它利用中心對稱點(diǎn)和相鄰點(diǎn)的邊緣響應(yīng)差值來描述人臉信息,提取了更深層次的梯度信息,但卻忽略了原始邊緣響應(yīng)包含的紋理細(xì)節(jié),沒有準(zhǔn)確還原人臉特征。楊恢先等人[10]綜合了LDN 與GCSLDP 的特點(diǎn),提出雙空間局部方向模式(Double-Space Local Directional Pattern,DSLDP),其同時(shí)保留了原始邊緣響應(yīng)信息及相鄰點(diǎn)的邊緣響應(yīng)差分信息。但它僅依賴邊緣響應(yīng)算子補(bǔ)充梯度信息,忽略了灰度空間的差異與強(qiáng)度信息,不能充分提取有強(qiáng)區(qū)分性的人臉特征。
圖像的梯度信息和灰度信息都是描述圖像細(xì)節(jié)的重要組成部分。LBP方法抓住了圖像的灰度信息,但忽略了對邊緣細(xì)節(jié)有更強(qiáng)刻畫能力的梯度信息;而LDN類方法大多基于邊緣響應(yīng)算子獲得梯度信息,缺少對灰度信息的有效利用。針對兩類方法各自的優(yōu)缺點(diǎn),本文融合相互獨(dú)立的梯度與灰度空間信息,提出一種雙偏差雙空間局部方向模式(Double Variation and Double Space Local Directional Pattern,DVDSLDP),提取更豐富的判別特征以提高人臉識別性能。
該方法先對圖像進(jìn)行局部采樣,利用相關(guān)聯(lián)點(diǎn)的加權(quán)擬合值來代替單點(diǎn)灰度值,擴(kuò)大關(guān)聯(lián)鄰域信息,以表征更豐富的圖像信息;然后考慮到梯度特征與邊緣紋理的強(qiáng)關(guān)聯(lián)性,通過Kirsch濾波器計(jì)算8個方向的邊緣響應(yīng)值,以表征某一方向?qū)ζ溆? 個方向的相對偏差,從而反映出該點(diǎn)的鄰域紋理方向;再利用前向差分和后向差分計(jì)算絕對偏差來表征該點(diǎn)的紋理方向,并以度量函數(shù)進(jìn)行優(yōu)化;最后以特征級聯(lián)實(shí)現(xiàn)相對偏差與絕對偏差信息的相互補(bǔ)充,獲得更優(yōu)的局部梯度信息表征。
同時(shí)像素的灰度信息同樣包含人臉的特征信息,因此該方法提取像素點(diǎn)鄰域灰度值和的最大值方向表征與梯度空間相互獨(dú)立的灰度空間特征信息,再以級聯(lián)實(shí)現(xiàn)融合得到雙空間特征。
最后該方法根據(jù)模式編碼后的圖像特征圖,分塊提取直方圖統(tǒng)計(jì)特征,利用信息熵自適應(yīng)地加權(quán)級聯(lián)各子塊的特征,得到表征人臉圖像的特征向量。最后利用最近鄰分類器完成分類識別。
局部方向數(shù)(LDN)方法利用圖像的3×3鄰域與8個方向的Kirsch模板算子卷積得到邊緣響應(yīng),Kirsch算子具體構(gòu)成及各算子對應(yīng)的方向如圖1所示,M0,M1,…,M7分別是對應(yīng)正東,東北,…,東南8 個方向的Kirsch算子模板。邊緣響應(yīng)值最大和最小的兩個方向提供了有價(jià)值的信息,因?yàn)檫@兩個方向通常是從亮到暗或者從暗到亮的過渡方向,這種過渡通常發(fā)生在臉部圖像的嘴、鼻子等器官周圍,記錄這些方向信息有利于提取關(guān)鍵特征。編碼方式如圖1所示。
圖1 Kirsch算子及方向
首先計(jì)算圖像的3×3鄰域I和8個模板Mi卷積后得到8個邊緣響應(yīng)值ei:
式中,(x,y)表示以圖像左上角像素點(diǎn)為原點(diǎn),水平方向與原點(diǎn)相隔x距離,豎直方向與原點(diǎn)相隔y距離的像素點(diǎn);*表示卷積計(jì)算;ei(x,y)表示圖像鄰域I與Kirsch模板Mi卷積得到的第i個方向的邊緣響應(yīng)值,它用相對偏差的方式記錄了鄰域信息。
之后記錄最大和最小邊緣響應(yīng)值對應(yīng)的方向數(shù):
式中,ix,y和jx,y表示最大和最小邊緣響應(yīng)值對應(yīng)的方向數(shù)。
最后的編碼結(jié)果如下:
式中,LDN(x,y)表示(x,y)點(diǎn)的LDN編碼結(jié)果。
中心對稱局部方向模式(CSLDP)方法[11]依然利用了Kirsch算子得到邊緣響應(yīng)值,它通過計(jì)算4個中心對稱梯度方向的邊緣響應(yīng)變化值來獲得特征信息,實(shí)際上在相對偏差的基礎(chǔ)上計(jì)算中心對稱方向的差分信息來提取人臉特征。其編碼方式如下:
式中,cei(x,y)表示在中心對稱方向上的邊緣響應(yīng)變化差值絕對值。
最后的編碼結(jié)果如下:
式中,CSLDP(x,y)表示像素點(diǎn)(x,y)的CSLDP編碼結(jié)果。
梯度中心對稱局部方向模式(GCSLDP)在計(jì)算CSLDP的4個中心對稱方向的邊緣響應(yīng)變化值的基礎(chǔ)上,進(jìn)一步計(jì)算相鄰點(diǎn)的邊緣響應(yīng)差值。它在相對偏差的基礎(chǔ)上記錄了中心對稱方向上點(diǎn)與相鄰點(diǎn)的絕對偏差值,反映了局部圖像更深層次的梯度信息。其編碼方式如下:
式中,d(x,y)表示在像素點(diǎn)(x,y)中心對稱梯度方向上邊緣響應(yīng)值變化最大的方向,dei(x,y)表示相鄰點(diǎn)的邊緣響應(yīng)變化差值,p(x,y)表示相鄰點(diǎn)邊緣響應(yīng)變化最大的方向。
最后的編碼結(jié)果如下:
式中,GCSLDP(x,y)表示像素點(diǎn)(x,y)的GCSLDP編碼結(jié)果。
局部特征提取的過程主要有圖像局部采樣、模式編碼和特征分類識別等[12]。在圖像采樣時(shí),LDN類算法在圖像3×3 鄰域計(jì)算邊緣響應(yīng)。但人臉圖像的各個點(diǎn)之間并不孤立,人臉圖像像素點(diǎn)之間有很強(qiáng)的關(guān)聯(lián)性。如果單個點(diǎn)受到光照、噪聲等因素的干擾,就會影響最后的特征提取,使算法性能下降。
因此,在設(shè)計(jì)局部描述符時(shí),設(shè)計(jì)者往往考慮在局部采樣更多的關(guān)聯(lián)點(diǎn),獲取更豐富的圖像信息。例如基于塊的局部對比度模式[13](Block-based Local Contrast Pattern,BLCP)、隨機(jī)采樣局部二值模式[14](Random Sampling LBP,RSLBP)等,這種策略表現(xiàn)出了更好的識別性能。因此本文先對原始圖像進(jìn)行局部采樣,擴(kuò)大鄰域范圍,通過加權(quán)融合關(guān)聯(lián)點(diǎn)的像素獲得信息更豐富的采樣結(jié)果。
如圖2 所示,采樣區(qū)域是以gc為中心點(diǎn)的5×5 鄰域。其中a0,a1,…,a7代表與中心點(diǎn)gc相差1 或 2 距離的像素點(diǎn)。而b0,b1,…,b7是與中心點(diǎn)相差2 或2 2距離的像素點(diǎn)。在8個方向上的加權(quán)策略如下:
式中g(shù)i,0 ≤i≤7 分別代表在0、π/4、π/2、3π/4、π、5π/4、3π/2、7π/4 方向上加權(quán)后的像素值。如式(11)所示,首先各方向采樣與對應(yīng)方向關(guān)聯(lián)的6個點(diǎn),設(shè)置主方向上的點(diǎn)權(quán)重為其他點(diǎn)的2 倍以加大采樣方向上像素點(diǎn)的作用,然后取采樣點(diǎn)的加權(quán)平均值作為各方向的擬合像素值。以式(11)中的g0和g1為例,g0和g1分別是gc正東和東北側(cè)像素點(diǎn)的擬合結(jié)果,它們都利用了中心點(diǎn)附近的關(guān)聯(lián)點(diǎn),綜合其位置及它們到中心點(diǎn)的距離來分配權(quán)重,以充分利用更大鄰域信息獲得更準(zhǔn)確的采樣結(jié)果。對于正東關(guān)聯(lián)點(diǎn)的擬合結(jié)果g0,像素點(diǎn)的方位與正東方向偏離越小則聯(lián)系越緊密。由于a0、b0剛好位于正東方向且距gc較近,在式(11)賦予了更大的權(quán)重2。而a1、b1和a7、b15位于中心點(diǎn)東偏上和東偏下的位置,與正東方向有一定偏離,因此賦予較小的權(quán)重1;而對于g1,它是東北側(cè)方向的擬合結(jié)果,綜合了東北側(cè)的a1、b2點(diǎn),正東側(cè)的a0、b0點(diǎn),正北側(cè)的a2、b4點(diǎn)的多重采樣信息。由于正東、正北側(cè)的點(diǎn)與東北側(cè)的點(diǎn)靠近但與東北方向有一定的偏離,因此將其利用并設(shè)置它們權(quán)重為東北側(cè)點(diǎn)的一半。最后取加權(quán)平均值作為擬合結(jié)果,可以在突出主要信息的基礎(chǔ)上利用附近的關(guān)聯(lián)點(diǎn)信息。遍歷圖像每一點(diǎn),根據(jù)其鄰域信息及式(11)就可以得到關(guān)于每一點(diǎn)的采樣結(jié)果矩陣G,如圖3所示。后續(xù)都使用采樣結(jié)果G的擬合值替代圖像對應(yīng)區(qū)域的原始像素值。
圖2 采樣像素點(diǎn)示意圖
圖3 局部采樣結(jié)果G 示意圖
人臉圖像最重要的區(qū)域在眼睛、鼻子、嘴巴等周圍,這些區(qū)域通常都有大量梯度信息。利用這些信息可以還原圖像邊緣與細(xì)節(jié),因此對這些信息的準(zhǔn)確記錄至關(guān)重要。LDN 類方法以鄰域內(nèi)所有像素點(diǎn)為參考,通過Kirsch算子設(shè)置不同權(quán)重模板獲得各方向的邊緣響應(yīng),實(shí)際計(jì)算了鄰域某一方向像素點(diǎn)與其他方向點(diǎn)的相對偏差值,其值反映了鄰域梯度信息,值越大的方向越可能是鄰域紋理方向。相對偏差表征了局部圖像鄰域整體的大致紋理方向,而鄰域內(nèi)具體各點(diǎn)的紋理方向可能不盡相同。點(diǎn)與相近點(diǎn)像素的絕對差異,其絕對偏差值表征了具體某個點(diǎn)的紋理方向,可以進(jìn)一步增加梯度信息,補(bǔ)充紋理細(xì)節(jié)。因此本文使用相對與絕對雙重偏差,利用它們相互補(bǔ)充的梯度信息來豐富特征。該方法首先使用Kirsch算子獲得相對偏差值,只取其最大絕對值對應(yīng)的方向,這樣既保留了主要紋理,又減少了信息冗余。具體計(jì)算公式如下:
CSLDP、GCSLDP 等方法利用邊緣響應(yīng),通過計(jì)算中心對稱方向邊緣響應(yīng)的差值來找尋紋理,實(shí)際上是直接在相對偏差基礎(chǔ)上來計(jì)算絕對偏差,這種深層次的交叉提取方式會使得記錄的紋理信息不準(zhǔn)確。另外,它沒有中間值來參考,計(jì)算對稱方向點(diǎn)的邊緣響應(yīng)差值并不能反映中間點(diǎn)與相鄰點(diǎn)的變化程度。因此本文選擇在原像素空間中引入中間值gc,即局部圖像的中心像素值,并利用局部采樣后的像素值獨(dú)立計(jì)算絕對偏差,進(jìn)而更準(zhǔn)確地記錄紋理細(xì)節(jié),豐富梯度信息。其計(jì)算方式如下:
式中,dgi(x,y)表示在像素點(diǎn)(x,y)中心對稱方向上計(jì)算得到的絕對偏差值。CSLDP方法在相對偏差基礎(chǔ)上計(jì)算絕對偏差,這種交叉提取的方式不利于信息的準(zhǔn)確提取。為了更準(zhǔn)確地得到絕對偏差,式(14)在引入中心值為參考后,獨(dú)立計(jì)算出前向差分與后向差分。然后取兩個差分的平均值作為結(jié)果,以均衡得到中心對稱方向上總的絕對偏差。f(gi,gc)是度量函數(shù),用來度量不同偏差值對結(jié)果的影響。n(x,y)代表在像素點(diǎn)(x,y)最大絕對偏差值對應(yīng)的方向數(shù)。
在設(shè)計(jì)度量函數(shù)時(shí),考慮以下幾個函數(shù):
式中,c為65 025,防止數(shù)值溢出。設(shè)計(jì)度量函數(shù)為gi-gc的偶函數(shù),減少對正負(fù)差分的探討,重點(diǎn)考慮其差分值對結(jié)果的影響。另外,式(17)或(18)通過非線性函數(shù)將差分值進(jìn)行映射,這種映射方式可以區(qū)分不同偏差對結(jié)果的影響,更準(zhǔn)確反映各方向的實(shí)際梯度信息。相比于式(16)、(17),式(18)的指數(shù)函數(shù)有更強(qiáng)的區(qū)分能力,因此本文選用式(18)作為度量函數(shù)來衡量絕對偏差。
m(x,y)通過Kirsch 模板記錄最大相對偏差對應(yīng)方向,n(x,y)通過前后向差分和度量函數(shù)記錄最大絕對偏差對應(yīng)方向。雙偏差信息互相補(bǔ)充,它們在梯度空間下記錄了主要紋理信息,但缺失了對灰度信息的提取。因此進(jìn)一步提取與梯度空間獨(dú)立的灰度空間特征。通過計(jì)算各方向灰度值之和,利用圖像灰度提取圖像結(jié)構(gòu)信息,提供更多的細(xì)節(jié)信息。并且和值與偏差值相對,灰度與梯度互相獨(dú)立,不會造成冗余信息的記錄,可以補(bǔ)充更多有效的特征信息[15]。其計(jì)算方法如下:
式中,Sgi(x,y)是像素點(diǎn)(x,y)上4個中心對稱方向的灰度值之和;s(x,y)是在像素點(diǎn)(x,y)最大灰度和值對應(yīng)的方向數(shù),進(jìn)一步完善了對圖像人臉信息的記錄。
最后,融合梯度與灰度的雙空間特征,利用3 個方向?qū)θ四槇D像進(jìn)行量化編碼:
式中,DVDSLDP(x,y)是像素點(diǎn)(x,y)上的DVDSLDP編碼結(jié)果,模式數(shù)為8×4×4=128 種,和同類方法的模式數(shù)相當(dāng)。圖4展示了具體編碼過程。
圖4 算法編碼過程
通過上述方式得到圖像中每一點(diǎn)的編碼值之后,便可以得到人臉圖像的特征圖。
為了更直觀地了解不同特征提取方法的差異,本文從AR人臉庫選擇了5張人臉,分別用LDN、GCSLDP、DSLDP 和本文提出的DVDSLDP 方法對人臉圖像進(jìn)行特征提取,結(jié)果如圖5所示。
從圖5中可以看出,LDN方法保留了人臉大致輪廓,但是在眼睛、嘴巴等區(qū)域丟失了大量細(xì)節(jié)信息;GCSLDP方法在相對偏差基礎(chǔ)上直接提取絕對偏差,它提取了深層次的信息,但丟失了原始的邊緣信息,邊緣輪廓模糊;DSLDP 方法利用了更多梯度信息編碼,但未有效利用原始空間的灰度信息,紋理細(xì)節(jié)不夠豐富;而本文提出的DVDSLDP 方法,既利用了雙偏差提取梯度信息,又補(bǔ)充了灰度特征記錄人臉結(jié)構(gòu),編碼得到的特征圖和其他算法相比輪廓更清晰,紋理細(xì)節(jié)更豐富,進(jìn)一步說明所提方法相比其他算法擁有更多的特征信息。
圖5 特征圖對比
為了客觀比較本文算法和其他算法,本文算法不對采集到的人臉圖像進(jìn)行任何預(yù)處理操作。如圖6所示,直觀展示了如何從人臉圖像中提取出穩(wěn)定的人臉特征過程,下面是算法的具體描述:
(1)對人臉圖像進(jìn)行局部采樣,通過DVDSLDP 算法對圖像進(jìn)行模式編碼,獲得特征圖像。
(2)獲得特征圖像后,將它分為若干不重疊子塊,并對每一個子塊進(jìn)行直方圖統(tǒng)計(jì),獲得每一子塊的直方圖特征。同時(shí)計(jì)算每一子塊的信息熵,因?yàn)樾畔㈧豙16]越大,在圖像里面表現(xiàn)為局部紋理更復(fù)雜,代表該子塊圖像有更多信息。因此依據(jù)每一子塊信息熵占總圖像的信息熵之比得到權(quán)重系數(shù),區(qū)分每一圖像子塊的特征貢獻(xiàn)度。
(3)最后利用步驟(2)得到的權(quán)重系數(shù)加權(quán)串接所有子塊的直方圖向量,融合得到整個人臉圖像特征向量。
通過上述過程得到整個圖像的特征向量后,完成特征提取,可送至后續(xù)分類器匹配識別。
圖6 人臉表征流程圖
獲得特征向量后,需計(jì)算不同直方圖向量的距離。常用的距離度量方式有直方圖相交距、歐氏距離、卡方距離[10]等??ǚ骄嚯x考慮特征間的相對距離比較直方圖的差異,直方圖相交距直接比較兩直方圖的相交成分來判斷兩向量的相似程度,都可以很好地度量兩直方圖的向量距離。因此本文使用卡方距和直方圖相交距來進(jìn)行相似性判別。其中卡方距定義如下:
直方圖相交距定義如下:
式中,F(xiàn)1和F2是兩個直方圖特征向量,分別代表待識別人臉特征向量和樣本庫某一樣本的人臉特征向量;N是特征向量的長度;χ2(F1,F2)代表卡方距離,距離越小,說明兩個向量相似度越高;d(F1,F2)代表直方圖相交距,距離越大代表越相似。
通過式(23)、(24)計(jì)算測試樣本和訓(xùn)練樣本的距離后,利用最近鄰分類器,選擇具有和測試樣本最相似的訓(xùn)練樣本類別作為測試樣本的類別標(biāo)簽,完成分類識別。
為驗(yàn)證方法性能,在ORL、Yale、AR 數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),這些數(shù)據(jù)庫包含了光照、表情、遮擋、姿態(tài)等干擾變量。實(shí)驗(yàn)中直方圖的Bin數(shù)設(shè)置為128。在ORL庫和AR 庫使用卡方距離匹配識別,在Yale 庫使用直方圖相交距匹配識別。選擇與典型的識別算法進(jìn)行性能對比,如 LDP[17]、LDN、DLDP[18]、SLDP[19]、CSLDP、GCSLDP、DSLDP等,其中ORL和AR庫實(shí)驗(yàn)數(shù)據(jù)來自于文獻(xiàn)[10],Yale庫的實(shí)驗(yàn)數(shù)據(jù)來自于文獻(xiàn)[15]。實(shí)驗(yàn)所用硬件設(shè)備為 Intel I7-2600K,RAM 為 8 GB,仿真環(huán)境為 Matlab R2016a。
由于在特征提取中,需對圖像進(jìn)行分塊來獲得各子塊直方圖,太大或太小的分塊都會影響識別效果。為了選擇最佳分塊,通常將分塊數(shù)控制在一定范圍進(jìn)行對比實(shí)驗(yàn),以找到每個數(shù)據(jù)庫下最好的分塊方式。圖7中橫軸代表分塊數(shù),如2×4 代表列塊數(shù)和行塊數(shù)分別為2和4,縱軸代表識別率。從圖7結(jié)果可知,在ORL庫下選擇分塊為2×4,識別率最高;在Yale下分塊數(shù)越多,識別率越高,選擇分塊為10×10,效果最好;在AR 光照子集和AR 表情子集下分塊分別為24×15、8×5 時(shí),識別率最高;在AR遮擋A子集和AR遮擋B子集下,識別率隨著分塊數(shù)增加而提高,且分塊方式對結(jié)果有很大影響,選擇分塊為24×15,有最好的識別效果。
圖7 各數(shù)據(jù)庫分塊實(shí)驗(yàn)結(jié)果
ORL數(shù)據(jù)庫是由英國劍橋的Olivetti研究實(shí)驗(yàn)室創(chuàng)建的,總共有400 張圖片,包含40 個人,每人有10 張人臉樣本,主要包含了姿態(tài)和表情的變化,分辨率為112×92,實(shí)驗(yàn)中選擇歸一化到96×96 分辨率下,部分樣本如圖8所示。
圖8 ORL庫部分樣本
為了保證實(shí)驗(yàn)的準(zhǔn)確性,實(shí)驗(yàn)中每個人隨機(jī)選擇2~6張圖片作為訓(xùn)練樣本,剩下的作為測試樣本。取10次實(shí)驗(yàn)的平均值作為實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果見表1。
表1 各種算法在ORL庫下識別率 %
從表1中可以看出,各算法隨著樣本數(shù)的增加識別率都逐漸增加,而本文提出的算法在不同數(shù)目的訓(xùn)練樣本下都有最高的識別率。LDN算法僅利用邊緣響應(yīng)找到邊緣特征,僅利用最大最小值對應(yīng)方向,得到的空間信息非常有限,效果一般;在3 張圖像作為訓(xùn)練樣本時(shí),本文算法相比LDP、LDN、DLDP、SLDP、CSLDP、GCSLDP、DSLDP 識別率提高了 6.31 個百分點(diǎn)、4.75 個百分點(diǎn)、4.37 個百分點(diǎn)、4.28 個百分點(diǎn)、3.33 個百分點(diǎn)、5.71個百分點(diǎn)、2.84個百分點(diǎn),訓(xùn)練樣本數(shù)較小時(shí),提升明顯。在ORL庫中表情和姿態(tài)引起的變化主要體現(xiàn)在圖像的紋理上。本文算法基于邊緣響應(yīng)的相對偏差和原灰度空間的絕對偏差來提取主要邊緣特征,同時(shí)基于各方向的灰度最大值提取出獨(dú)立的灰度結(jié)構(gòu)信息,相比其他同類方法融合了多空間的特征,可以更好地捕捉紋理,識別率更高,性能更好。
Yale 人臉數(shù)據(jù)庫是由耶魯大學(xué)采集得到的,共有165 張圖片,有15 個人,每人包含11 張圖片,分辨率為100×100,主要包含光照、表情、姿態(tài)等變化因素,其部分圖片如圖9所示。
圖9 Yale庫部分樣本
Yale 數(shù)據(jù)庫的樣本圖中有較多的變量因素,如表情、光照、小部分遮擋等。本實(shí)驗(yàn)隨機(jī)選擇其中的2~5張圖片作為訓(xùn)練樣本,剩余的作為測試樣本。同樣取10 次實(shí)驗(yàn)結(jié)果的平均值作為最終的結(jié)果,實(shí)驗(yàn)結(jié)果如表2所示。
僅2張圖片進(jìn)行訓(xùn)練時(shí),大部分算法表現(xiàn)結(jié)果都不太好,LDP方法只有78.34%的識別率,它不區(qū)分方向信息很難提取到穩(wěn)定的人臉特征;LDN、DSLDP和本文算法等都抓住最大值對應(yīng)的方向數(shù)來提取特征,這種提取方式相比LDP更加穩(wěn)定,識別性能更好。僅2張訓(xùn)練樣本時(shí),本文算法相比LDP、LDN、DLDP、SLDP、CSLDP、GCSLDP、DSLDP分別提高了11.36個百分點(diǎn)、7.85個百分點(diǎn)、6.63個百分點(diǎn)、9.38個百分點(diǎn)、6.66個百分點(diǎn)、6.14個百分點(diǎn)、2.63個百分點(diǎn),提升效果最為顯著。另外,在不同訓(xùn)練樣本數(shù)下,本文算法都達(dá)到了更高的識別率。
表2 各種算法在Yale庫下識別率 %
SLDP 算法利用井字形鄰域擴(kuò)大了采樣范圍,且利用最大與次最大邊緣響應(yīng)值提取特征,信息量增加;LDN 算法在LDP 基礎(chǔ)上通過區(qū)分不同的邊緣響應(yīng)值,利用最大值和最小值對應(yīng)的方向信息,抓住了主要邊緣信息,性能更好;DLDP 方法利用相鄰點(diǎn)的邊緣響應(yīng)差值來區(qū)分不同方向信息,但梯度信息提取較少,識別率提高較少;CSLDP計(jì)算中心對稱方向上邊緣響應(yīng)差值,這種差值反映的偏差信息可以反映邊緣紋理大致方向,有一定提升,但信息量有限;GCSLDP在利用CSLDP提取中心對稱方向的偏差信息的基礎(chǔ)上,又通過相鄰點(diǎn)的邊緣響應(yīng)差值補(bǔ)充了梯度信息;DSLDP 算法通過原始邊緣響應(yīng)值和相鄰點(diǎn)邊響應(yīng)值作差來記錄局部區(qū)域的變化信息,實(shí)際上是基于相對差值來記錄信息,保存了主要信息,有一定效果提升。本文算法基于邊緣響應(yīng)獲得了相對偏差,然后利用各個方向的前、后向差分獲得了絕對偏差,這兩種偏差信息在梯度空間下互相補(bǔ)充,抓住了最重要的邊緣紋理信息。同時(shí)記錄了灰度最大的方向,并且記錄了與梯度空間獨(dú)立的灰度信息。兩空間特征信息相互獨(dú)立,共同完善了人臉信息,表現(xiàn)出了最佳的識別效果。
AR 數(shù)據(jù)庫包含了 126 個人的 4 000 多張圖片[20],圖片像素為120×165。每個人有26張圖片,在不同的時(shí)期采集,因此包含了年齡的變化。每個時(shí)期包含了13 張圖片,分為表情、光照、遮擋A、遮擋B 共4 個子集,擁有各種環(huán)境變化的情形。它也是目前用于檢驗(yàn)人臉識別最廣泛的數(shù)據(jù)庫之一,部分樣本圖片如圖10所示。
本文選取了50名男性和50名女性的圖片進(jìn)行了實(shí)驗(yàn),每個人包含了同一時(shí)期的13張圖片,選擇圖10中第一張正臉圖片作訓(xùn)練集,其余各個子集作測試集。實(shí)驗(yàn)結(jié)果如表3所示。
圖10 AR庫部分樣本
表3 各種算法在AR庫下識別率 %
從表3 可以看出,本文算法在AR 庫的各個子集下的識別率都有明顯提升。
在光照、表情子集下,算法如果在光照、表情改變時(shí)依然能提取相同穩(wěn)定的特征,則表現(xiàn)會更好。大部分算法在這兩個子集下都表現(xiàn)出了較好的識別效果,這是因?yàn)榇蟛糠炙惴ㄓ涗浀氖亲畲笾祷蜃钚≈祵?yīng)的方向信息,這種方向信息往往有更好的魯棒性。但LDP算法同等對待各個方向的信息,因此當(dāng)條件發(fā)生變化時(shí),識別性能較差。本文算法在表情子集下識別率相比LDP、LDN、DLDP、SLDP、CSLDP、GCSLDP、DSLDP 識別率分別提高了3.34 個百分點(diǎn)、3 個百分點(diǎn)、2.67 個百分點(diǎn)、2.34 個百分點(diǎn)、3 個百分點(diǎn)、2 個百分點(diǎn)、1.67 個百分點(diǎn)。本文算法在光照子集下相比LDP、LDN、DLDP、SLDP、CSLDP、GCSLDP、DSLDP 識別率分別提高了7 個百分點(diǎn)、3.33個百分點(diǎn)、5個百分點(diǎn)、4個百分點(diǎn)、2個百分點(diǎn)、2.67個百分點(diǎn)和1.67個百分點(diǎn)。在進(jìn)行比較的算法中,DSLDP 表現(xiàn)最好。它主要記錄了梯度信息,而本文算法在通過雙偏差豐富梯度信息基礎(chǔ)上,進(jìn)一步補(bǔ)充了與梯度獨(dú)立的灰度信息,特征更有區(qū)分性,因此識別率也更高。
在AR遮擋子集下,人臉的一些關(guān)鍵器官被遮擋了,可利用的信息大大減少。算法如果對沒有遮擋的關(guān)鍵區(qū)域相關(guān)信息提取得不夠充分,識別性能就會大大下降。AR 遮擋A 子集是墨鏡遮擋,眼睛區(qū)域的信息受到很大干擾,LDP、LDN、DLDP、SLDP 方法的識別率都不足95%。本文算法相比LDP、LDN、DLDP、SLDP、CSLDP、GCSLDP 算法識別率分別提高了9.33 個百分點(diǎn)、8 個百分點(diǎn)、8 個百分點(diǎn)、5.33 個百分點(diǎn)、1 個百分點(diǎn)、0.33 個百分點(diǎn);在AR 遮擋B 圍巾干擾下,圖像幾乎喪失了嘴巴區(qū)域的細(xì)節(jié),因此如果對人臉上半部分區(qū)域細(xì)節(jié)還原能力不夠,識別率就會大大下降??梢钥吹竭M(jìn)行比較的算法識別率已經(jīng)低于80%,而本文算法依然達(dá)到了97.33%的識別率,相比LDP、LDN、DLDP、SLDP、CSLDP、GCSLDP、DSLDP 算法識別率分別提高了25.66 個百分點(diǎn)、30.66 個百分點(diǎn)、19.33 個百分點(diǎn)、22.66 個百分點(diǎn)、22 個百分點(diǎn)、19.33 個百分點(diǎn)、9.66 個百分點(diǎn),遠(yuǎn)遠(yuǎn)好于同類算法。對比同類算法,本文算法充分利用了雙重偏差,從不同角度提取了梯度特征,同時(shí)補(bǔ)充了灰度特征,融合后的雙空間特征還原人臉細(xì)節(jié)的能力更強(qiáng),因此在有大范圍遮擋干擾時(shí)識別率依然最高,效果提升明顯。
考慮到人臉圖像的梯度空間和灰度空間都包含了大量的人臉特征信息,由此提出一種雙偏差雙空間局部方向模式的人臉識別方法。針對LDN類方法大多基于邊緣響應(yīng)算子獲得梯度信息,缺少對灰度信息的有效利用問題,本文方法首先利用局部采樣像素引入關(guān)聯(lián)鄰域信息,再以梯度絕對偏差信息來補(bǔ)充相對偏差信息,得到梯度空間的雙偏差信息;然后與獨(dú)立的灰度空間信息級聯(lián)融合,更充分地描述了鄰域邊緣信息與紋理細(xì)節(jié);最后對量化編碼得到特征圖進(jìn)行自適應(yīng)信息熵直方圖加權(quán)處理,獲取更強(qiáng)區(qū)分性的人臉特征向量。直觀的特征圖對比表明了本文方法的特征圖具有更清晰的輪廓邊緣和更豐富的紋理特征,實(shí)驗(yàn)數(shù)據(jù)也表明了同樣的結(jié)果。本文方法在ORL和Yale庫上分別達(dá)到了更高的識別率,尤其是在訓(xùn)練樣本較少時(shí)性能提升明顯;在AR庫的表情、光照、遮擋A 和遮擋B 子集上的識別率明顯高于其他方法,表明本文方法同時(shí)具有良好的魯棒性。