徐望明, 張培, 伍世虔
(1.武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北,武漢 430081; 2.武漢科技大學(xué) 教育部冶金自動(dòng)化與檢測(cè)技術(shù)工程研究中心,湖北,武漢 430081; 3.武漢科技大學(xué) 機(jī)械自動(dòng)化學(xué)院,湖北,武漢 430081; 4.武漢科技大學(xué) 機(jī)器人與智能系統(tǒng)研究院,湖北,武漢 430081)
經(jīng)過(guò)近幾十年的發(fā)展,人臉識(shí)別技術(shù)已取得巨大進(jìn)步,出現(xiàn)了一些有代表性的識(shí)別算法[1-2],但是這些人臉識(shí)別算法在實(shí)際應(yīng)用中受到諸多條件的制約,比如光照、表情以及姿態(tài)變化等. 提升算法在這些制約條件下的魯棒性既是人臉識(shí)別技術(shù)的研究難點(diǎn),也是研究熱點(diǎn). 為了解決人臉識(shí)別技術(shù)中存在的這些問(wèn)題,Wright等[3]提出了一種基于稀疏表示分類(lèi)的人臉識(shí)別方法(sparse representation based classification,SRC).相比于文獻(xiàn)[1-2]等經(jīng)典的人臉識(shí)別算法,SRC算法不僅提高了對(duì)光照、表情、姿態(tài)等可變因素的不敏感性,而且對(duì)遮擋、噪聲也具備一定的魯棒性.
很多研究學(xué)者在SRC人臉識(shí)別方法的基礎(chǔ)上做了大量改進(jìn)工作[4-5]. 這類(lèi)方法基于人臉圖像的全局特征,對(duì)光照、姿態(tài)、表情等因素的適應(yīng)性仍存在局限性. 考慮到LBP、Gabor等局部特征在人臉識(shí)別任務(wù)中能夠很好地獲取人臉圖像局部的紋理信息,且對(duì)光照變化不敏感,Yang等[6]提出基于Gabor特征稀疏表示(Gabor-feature based SRC,GSRC)的人臉識(shí)別方法,提取不同尺度和方向的Gabor特征,提取的局部Gabor特征比全局特征包含更多人臉紋理信息,從而具有更好的識(shí)別效果,但是提取的多方向多尺度的Gabor特征存在信息冗余. 劉帥師等[7]提出一種基于Gabor特征融合的人臉表情識(shí)別方法,對(duì)多方向多尺度的Gabor特征進(jìn)行同一尺度不同方向的特征融合,這種融合策略使得人臉特征得以降維,從而提高運(yùn)算效率,同時(shí)融合后的特征圖也具備較好的紋理信息,能夠?qū)Ρ砬樽兓泻芎玫聂敯粜?
為了進(jìn)一步解決基于稀疏表示的人臉識(shí)別算法對(duì)光照、表情、姿態(tài)等可變因素敏感的問(wèn)題,本文提出了一種基于多方向Gabor特征圖稀疏表示的人臉識(shí)別方法(multi-directional Gabor feature maps based SRC,MGFM-SRC),對(duì)人臉圖像的多方向Gabor特征圖提取自適應(yīng)加權(quán)的Gist特征,并利用稀疏表示分類(lèi)器實(shí)現(xiàn)人臉識(shí)別.
在Yale、ORL和Extended Yale B人臉數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,本文提出的人臉識(shí)別方法相比于其它基于SRC的人臉識(shí)別方法提高了識(shí)別準(zhǔn)確率.
本文提出的基于稀疏表示的人臉識(shí)別方法. 先對(duì)人臉圖像進(jìn)行多方向多尺度Gabor變換,得到了不同方向和尺度的Gabor實(shí)部特征和虛部特征,然后分別將同一方向不同尺度的Gabor實(shí)部特征和虛部特征采用二進(jìn)制融合規(guī)則得到多方向Gabor幅值特征圖,又對(duì)每個(gè)方向的幅值特征圖提取Gist特征并賦予自適應(yīng)權(quán)重,接著將所有方向特征圖的自適應(yīng)加權(quán)Gist特征串聯(lián)構(gòu)成人臉特征向量. Gabor變換能夠很好地提取人臉圖像局部紋理信息,而Gist特征又能夠很好地描述圖像的全局形狀信息,結(jié)合這兩種特征能有效提高人臉識(shí)別的魯棒性. 如圖1所示,特征提取主要步驟分為:多方向多尺度Gabor變換、Gabor特征融合、多方向融合特征圖的自適應(yīng)加權(quán)Gist特征計(jì)算.
圖1 人臉圖像加權(quán)Gist特征提取Fig.1 Weighted Gist feature extraction for face image
二維Gabor核函數(shù)[8]定義為
(1)
Mu,v(z)=I(z)*gu,v(z).
(2)
式中:I(z)為灰度人臉圖像;*為卷積操作符;gu,v(z)為Gabor濾波器;Mu,v(z)為濾波得到的不同方向和尺度的Gabor特征圖. 如圖1中的Gabor實(shí)部和虛部特征圖所示,其中各行特征圖對(duì)應(yīng)不同的方向,各列特征圖對(duì)應(yīng)不同.
從Gabor實(shí)部和虛部特征圖中可以看出:一方面,對(duì)于多尺度和多方向的Gabor特征所包含的人臉特征信息存在一定程度冗余,使用全部特征圖的信息必將提高后續(xù)人臉識(shí)別算法的計(jì)算復(fù)雜度;另一方面,對(duì)于同一個(gè)方向的特征圖,隨著尺度變大,Gabor特征圖中所包含的局部信息逐漸變少,人臉圖像的全局輪廓信息逐漸變得明顯. 為了減少后續(xù)人臉識(shí)別算法的計(jì)算復(fù)雜度,同時(shí)保留更多的局部紋理信息以提升人臉識(shí)別的性能,本文提出一種對(duì)同一方向不同尺度Gabor特征進(jìn)行融合的方法.
首先,根據(jù)Gabor實(shí)部特征Re(Mu,v(z))和虛部特征Im(Mu,v(z))的符號(hào)進(jìn)行二進(jìn)制編碼:
(3)
(4)
然后,分別對(duì)同一方向不同尺度的二值特征圖進(jìn)行加權(quán)融合十進(jìn)制編碼形式:
(5)
(6)
最后,用融合后實(shí)、虛部特征求幅值特征圖:
(7)
如圖1中融合后的幅值特征圖所示,減少Gabor特征冗余信息的同時(shí),也包含了人臉比較明顯的局部紋理信息.
Oliva等[10]提出的Gist特征能夠模擬人的視覺(jué)捕獲圖像中的全局信息,常用于場(chǎng)景圖像分類(lèi)任務(wù). Gist特征提取方法的主要原理是:利用Gabor濾波器組對(duì)輸入圖像進(jìn)行卷積處理,將濾波結(jié)果圖像劃分為均等不重疊的l×l個(gè)圖像子塊,并對(duì)每個(gè)圖像子塊取灰度平均值,把所有圖像子塊的灰度平均值串聯(lián)起來(lái)即形成表示圖像的特征向量.
本文以上述融合后的幅值特征圖作為輸入圖像,進(jìn)一步提取其Gist特征形成人臉圖像的全局表示,用于人臉識(shí)別任務(wù). 同時(shí)考慮到每個(gè)融合后的幅值特征圖所包含的紋理信息不同,本文采用香農(nóng)信息熵來(lái)度量其紋理信息豐富程度,并依據(jù)信息熵為不同方向特征圖的Gist特征進(jìn)行自適應(yīng)加權(quán).
本文方法在計(jì)算Gist特征時(shí)取l=4,并采用8個(gè)方向、4個(gè)尺度共32個(gè)Gabor濾波器參與卷積運(yùn)算. 自適應(yīng)加權(quán)Gist特征計(jì)算的具體步驟如下.
(8)
式中:z為像素的坐標(biāo);gi為第i個(gè)Gabor濾波器;u=0,1,…,7;i=1,2,…,32.
(9)
式中:Cat表示特征串聯(lián)操作符,j=1,2,…,16.
④ 對(duì)于每個(gè)融合后的幅值特征圖Mu(z),其信息熵為
(10)
式中:L表示融合后幅值特征圖Mu(z)中像素灰度最大值;pu,m表示第u個(gè)特征圖中灰度值為m的像素出現(xiàn)的概率. 根據(jù)信息熵理論得知,信息熵越大,圖像所包含的信息越多,則在本文方法中賦予對(duì)應(yīng)圖像Gist特征更大的權(quán)重,權(quán)值計(jì)算如下:
(11)
⑤ 將每個(gè)融合后的幅值特征圖Mu(z)的Gist特征Gu進(jìn)行歸一化,記為Su(u=0,1,…,7),將所有加權(quán)的Gist特征串聯(lián)形成最終人臉圖像的特征向量b,其中
b=[w0S0w1S1…w7S7]T,
w0+w1+…+w7=1.
文獻(xiàn)[3]進(jìn)行人臉識(shí)別的一個(gè)前提條件是:同一個(gè)類(lèi)別的訓(xùn)練樣本屬于同一子空間,每一個(gè)測(cè)試樣本屬于對(duì)應(yīng)類(lèi)別的子空間. 定義第i類(lèi)的訓(xùn)練樣本組成的特征矩陣為
Ai=[vi,1vi,2…vi,ni]∈Rm×ni.
式中:vi,j為第i類(lèi)的第j個(gè)樣本的特征向量;m為特征向量的維度;ni表示第i類(lèi)樣本的個(gè)數(shù). 對(duì)于屬于第i類(lèi)的測(cè)試樣本y∈Rm×1,可以由Ai線性表示為y=Aixi,其中xi=[xi,1xi,2…xi,ni]T.
有k個(gè)類(lèi)別足夠多的訓(xùn)練樣本,所有訓(xùn)練樣本的特征矩陣為
A=[A1A2…Ak]=
[v1,1…vi,ni…vk,nk]∈Rm×n,
式中n=n1+n2+…+nk,n表示所有訓(xùn)練樣本的個(gè)數(shù),理想情況下y可以由A線性表示為y=Ax,其中
x=[0…xi,1…xi,ni…0]T.
x可看作測(cè)試樣本在訓(xùn)練樣本特征矩陣作為字典時(shí)的稀疏表示系數(shù),在求解該系數(shù)時(shí),希望對(duì)應(yīng)第i類(lèi)訓(xùn)練樣本的系數(shù)較大,而對(duì)應(yīng)其它類(lèi)訓(xùn)練樣本的系數(shù)較小或?yàn)?.
SRC人臉識(shí)別算法的主要步驟如下.
① 對(duì)輸入的A和y利用L2范數(shù)歸一化.
② 按L1范數(shù)最小化[9]求稀疏表示系數(shù):
(12)
③ 計(jì)算重構(gòu)誤差:
(13)
④ 依重構(gòu)誤差最小化原則判定識(shí)別結(jié)果為
identity(y)=argminri(y).
(14)
本文利用所提出的多方向Gabor特征圖的自適應(yīng)加權(quán)Gist特征提取方法(MGFM)與上述稀疏表示分類(lèi)方法(SRC)相結(jié)合實(shí)現(xiàn)人臉識(shí)別. 本文算法MGFM-SRC可描述如下.
給定k個(gè)類(lèi)別的足夠多的訓(xùn)練樣本,將所有的訓(xùn)練樣本按照本文提出的特征提取方法提取每個(gè)樣本的人臉特征向量,然后所有的人臉特征矩陣為B=[B1B2…Bk]=[b1,1…bi,ni…bk,nk]∈Rc×n.
式中:bi,j表示第i類(lèi)的第j個(gè)訓(xùn)練樣本人臉特征向量;c為特征向量的維度;n(n=n1+n2+…+nk)為所有訓(xùn)練樣本個(gè)數(shù). 給定屬于i類(lèi)測(cè)試樣本也按照本文特征提取算法提取特征向量φ∈Rc×1. 考慮到本文提取人臉特征向量的維度比較高,為了提高計(jì)算效率,利用主成分分析(principal component analysis,PCA)產(chǎn)生一個(gè)變換矩陣ψ∈RK×c,其中K(K Q=Φx=Φ1x1+Φ2x2+…+Φkxk. (15) 將式(15)中的字典矩陣Φ和特征向量Q分別代替式(12)~(14)中的A和y,依據(jù)重構(gòu)誤差最小化原則得到人臉識(shí)別結(jié)果. 本文算法MGFM-SRC的具體步驟如下. ① 對(duì)人臉圖像I(z)利用式(1)中Gabor濾波器組提取不同方向和尺度人臉圖像的Gabor特征Μu,v(z). ② 將得到的不同方向和尺度的Gabor實(shí)部特征和虛部特征利用式(3)~(7)按同一方向不同尺度進(jìn)行特征融合,最后得到8個(gè)方向的融合的特征圖Mu(z)(u=0,1,…,7). ③ 對(duì)每個(gè)方向融合的特征圖Mu(z)利用式(8)和式(9)得到圖像的Gist特征Gu(u=0,1,…,7),對(duì)每個(gè)融合的特征圖像的Gist特征進(jìn)行歸一化,記為Su(u=0,1,…,7),再利用式(10)和式(11)求取不同方向特征圖的權(quán)重wu(u=0,1,…,7),最后將所有加權(quán)的Gist特征串聯(lián)形成表示一幅人臉圖像的特征向量b,其中 b=[w0S0w1S1…w7S7]T, w0+w1+…+w7=1. 為便于在實(shí)驗(yàn)中比較自適應(yīng)加權(quán)所起的作用,這里記不使用加權(quán)策略的方法為MGFM-SRC-1,使用了加權(quán)策略的方法為MGFM-SRC-2. ④ 將所有的訓(xùn)練樣本的特征集組成訓(xùn)練樣本特征矩陣B=[B1B2…Bk]∈Rc×n,利用PCA降維得到變換矩陣ψ,對(duì)訓(xùn)練樣本特征矩陣降維構(gòu)成用于稀疏表示的字典矩陣:Φ=ψB,并對(duì)字典矩陣Φ進(jìn)行L2范數(shù)歸一化. ⑥ 利用式(13)求解測(cè)試樣本的人臉特征向量對(duì)應(yīng)于各個(gè)類(lèi)別的稀疏重構(gòu)誤差,并根據(jù)式(14)所示的重構(gòu)誤差最小化原則判定人臉識(shí)別結(jié)果. SRC算法、GSRC算法、Gist-SRC算法、MGFM-SRC-1算法以及MGFM-SRC-2算法分別在Yale[2]、ORL、Extended Yale B等典型人臉數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn)比較. 設(shè)置SRC算法中λ=0.05,其他算法中λ=0.001. 在Yale人臉庫(kù)上,比較了特征維度對(duì)各個(gè)算法的影響;在ORL人臉庫(kù)上,比較了訓(xùn)練樣本個(gè)數(shù)對(duì)各個(gè)算法的影響;在Extended Yale B人臉庫(kù)上,比較了光照變化對(duì)各個(gè)算法的影響. Yale數(shù)據(jù)庫(kù)包含15個(gè)人每個(gè)人11幅在不同光照、表情和姿態(tài)下的正面人臉圖像,共165幅. 本文隨機(jī)選取每類(lèi)5幅人臉圖像作為訓(xùn)練集字典,剩余的作為測(cè)試樣本,將人臉圖像裁剪和歸一化為32×32,10次實(shí)驗(yàn)取平均值,比較不同維度m下各個(gè)算法的識(shí)別率,如表1所示. 表1 在Yale數(shù)據(jù)庫(kù)不同算法的識(shí)別率 Tab.1 Recognition results of different methods on the Yale database 算法識(shí)別率/%m=10m=30m=50m=60m=70SRC75.283.183.284.785.3GSRC76.086.188.289.788.4Gist-SRC88.495.197.998.699.0MGFM-SRC-187.297.098.699.498.6MGFM-SRC-287.897.399.299.899.8 從表1可見(jiàn),當(dāng)數(shù)據(jù)維度為10時(shí),Gist-SRC算法識(shí)別率最高,本文算法與之也很接近;但隨著數(shù)據(jù)維度升高,各個(gè)算法識(shí)別率也逐步上升. 相對(duì)于SRC算法,其他算法識(shí)別率均有更大幅度提升,說(shuō)明基于局部特征的稀疏表示算法對(duì)光照、姿態(tài)以及表情有更好魯棒性. MGFM-SRC-2算法比Gist-SRC算法和MGFM-SRC-1算法的識(shí)別率高,說(shuō)明MGFM-SRC-2算法進(jìn)一步克服了光照、表情以及姿態(tài)等因素變化對(duì)人臉識(shí)別帶來(lái)的影響. ORL人臉數(shù)據(jù)庫(kù)包含40個(gè)人、每人10幅不同光照、表情以及姿態(tài)下的人臉圖像,總共400幅人臉樣本. 將人臉圖像裁剪和歸一化為32×32,根據(jù)選取的每類(lèi)訓(xùn)練樣本個(gè)數(shù)不同分為3組實(shí)驗(yàn),每組10次實(shí)驗(yàn)取平均值,驗(yàn)證改變每類(lèi)訓(xùn)練樣本個(gè)數(shù)n對(duì)各個(gè)算法人臉識(shí)別率的影響. 結(jié)果如表2所示. 表2 在ORL數(shù)據(jù)庫(kù)不同算法的識(shí)別率 Tab.2 Recognition results of different methods on the ORL database 算法識(shí)別率/%n=3n=4n=5SRC90.494.595.6GSRC96.298.199.2Gist-SRC97.098.799.6MGFM-SRC-196.398.499.6MGFM-SRC-296.399.099.7 可見(jiàn),當(dāng)訓(xùn)練樣本數(shù)為3時(shí),Gist-SRC算法效果最好,本文算法MGFM-SRC-1和MGFM-SRC-2與之接近;隨著訓(xùn)練樣本數(shù)增加,MGFM-SRC-2算法的優(yōu)勢(shì)體現(xiàn)出來(lái),相對(duì)于其他算法識(shí)別率均有所提升,且處于最高位置. 這說(shuō)明基于Gabor特征構(gòu)造的稀疏表示字典,有助于提高識(shí)別率,同時(shí)MGFM-SRC-2算法對(duì)不同方向融合的Gabor特征賦予了自適應(yīng)的權(quán)重,凸顯出不同方向特征圖的重要性,因而取得了更好的識(shí)別效果. Extended Yale B人臉數(shù)據(jù)庫(kù)中包含38個(gè)人每個(gè)人64幅在不同光照條件下的正面人臉圖像,共有2 432幅圖像. 將人臉圖像裁剪和歸一化為54×48,本文隨機(jī)選取每類(lèi)32幅人臉圖像作為訓(xùn)練集字典,剩余的作為測(cè)試樣本,5次實(shí)驗(yàn)取平均值. 表3給出了各個(gè)算法在同樣的條件下進(jìn)行實(shí)驗(yàn)比較的結(jié)果. 表3 在Extended Yale B數(shù)據(jù)庫(kù)不同算法的識(shí)別率 Tab.3 Recognition results of different methods on the Extended Yale B database 算法識(shí)別率/%SRC94.7GSRC95.5Gist-SRC99.5MGFM-SRC-199.9MGFM-SRC-2100.0 可見(jiàn)本文算法MGFM-SRC-1和MGFM-SRC-2的識(shí)別率高于SRC算法、GSRC算法以及Gist-SRC算法. 使用了自適應(yīng)加權(quán)策略的MGFM-SRC-2算法平均識(shí)別率達(dá)到100.0%,優(yōu)于未使用自適應(yīng)加權(quán)策略的MGFM-SRC-1算法的識(shí)別率,這說(shuō)明不同方向的融合特征圖的表征能力不一樣,賦予重要方向特征圖更大的權(quán)重,有利于提高識(shí)別率. 提出了一種基于多方向Gabor特征圖稀疏表示的人臉識(shí)別方法,能有效的克服光照、姿態(tài)和表情等因素變化對(duì)人臉識(shí)別性能的影響,提升人臉識(shí)別準(zhǔn)確率. 本文方法的特點(diǎn)在于:①Gabor變換能夠很好的提取人臉圖像局部紋理信息,而Gist特征又能夠很好的描述圖像的全局形狀信息,本文方法結(jié)合了這兩種特征,能有效的提高人臉識(shí)別的魯棒性;②多尺度和多方向的Gabor特征圖存在信息冗余,而且對(duì)于同一個(gè)方向的特征圖,隨著尺度變大所含局部信息逐漸變少、全局輪廓信息逐漸明顯,本文方法實(shí)現(xiàn)了對(duì)同一方向不同尺度的Gabor特征圖進(jìn)行融合,減少了后續(xù)人臉識(shí)別算法的計(jì)算復(fù)雜度,同時(shí)保留了更多的局部紋理信息以提升人臉識(shí)別的性能;③為了突顯每個(gè)融合后的特征圖所包含的紋理信息的重要性,本文方法采用了香農(nóng)信息熵來(lái)度量其紋理信息豐富程度,并依據(jù)信息熵為不同方向特征圖的Gist特征進(jìn)行自適應(yīng)加權(quán),以加權(quán)Gist特征作為人臉圖像的全局表示,在此基礎(chǔ)上使用稀疏表示分類(lèi)方法實(shí)現(xiàn)人臉識(shí)別. 實(shí)驗(yàn)結(jié)果表明,與以上分析的算法相比,本文方法對(duì)光照、姿態(tài)、表情等可變因素的魯棒性更強(qiáng),取得了更高的識(shí)別準(zhǔn)確率.3 實(shí)驗(yàn)結(jié)果與分析
3.1 在Yale人臉數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)
3.2 在ORL人臉數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)
3.3 在Extended Yale B人臉數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)
4 結(jié) 論