卞加祁,胡學(xué)龍*,陳舒涵
(1.揚(yáng)州大學(xué) 信息工程學(xué)院,江蘇 揚(yáng)州 225127;2.揚(yáng)州大學(xué) 人工智能學(xué)院,江蘇 揚(yáng)州 225127)
近年來(lái),監(jiān)控?cái)z像頭的應(yīng)用頗為廣泛,人臉識(shí)別系統(tǒng)備受重視。由于攝像頭常處于非可控狀態(tài),故所拍攝得到的人臉圖像一般分辨率較低且質(zhì)量較差。如何提高此類(lèi)低分辨率人臉的識(shí)別準(zhǔn)確率具有重要的現(xiàn)實(shí)意義。目前,低分辨率人臉識(shí)別主要有超分辨率重建[1-6]和穩(wěn)健特征提取[7-10]。超分辨率重建算法主要是先對(duì)低分辨率樣本進(jìn)行超分辨率增強(qiáng),然后再進(jìn)行識(shí)別。具體可以分為以下幾類(lèi):基于流形學(xué)習(xí)、基于字典學(xué)習(xí)以及基于回歸學(xué)習(xí)。在基于流形學(xué)習(xí)中,先假設(shè)高分辨率人臉和低分辨率人臉中具有相同的局部鄰域結(jié)構(gòu),在這種假設(shè)下,可以通過(guò)鄰域樣本重建生成與低分辨率人臉相對(duì)應(yīng)的高分辨率人臉;具體的流形思想有:局部幾何結(jié)構(gòu)以及稀疏鄰域嵌入。在基于字典學(xué)習(xí)中,通過(guò)尋找和從低分辨率人臉和高分辨率人臉特征空間有關(guān)的稀疏編碼系數(shù)來(lái)預(yù)測(cè)高分辨率人臉;基于字典學(xué)習(xí)的方法大致有2類(lèi):正交字典[3]和過(guò)完備字典。在基于回歸學(xué)習(xí)中,首先通過(guò)高低分辨率人臉數(shù)據(jù)集,建立一個(gè)映射函數(shù),再通過(guò)這個(gè)映射函數(shù),來(lái)構(gòu)建與低分辨率人臉相對(duì)應(yīng)的高分辨率人臉。具體方法有核回歸[5]、支持向量回歸等。在超分辨率重建算法中,Pong等[11]提出了一種基于Gabor特征重建的低分辨率人臉識(shí)別,即先用局部線(xiàn)性回歸建立一個(gè)映射函數(shù),再通過(guò)這個(gè)映射函數(shù),來(lái)構(gòu)建高分辨率(HR)的Gabor特征;將預(yù)測(cè)得到的HR特征和低分辨率(LR)特征投影到GCCA[12]空間中,進(jìn)行識(shí)別分類(lèi)。
在該算法中存在一些不足:① 使用局部線(xiàn)性回歸(LLR)[13]預(yù)測(cè)高分辨率人臉的Gabor特征,忽略了高低分辨率之間的非線(xiàn)性,本文采用流形學(xué)習(xí)中一種LLE[14]的算法預(yù)測(cè)高分辨率人臉Gabor特征,有效地預(yù)測(cè)了高分辨率人臉的非線(xiàn)性特征;② 通過(guò)Randomized CCA來(lái)揭示高低Gabor人臉特征的非線(xiàn)性關(guān)系,取代了原論文中使用GCCA僅能表示數(shù)據(jù)集之間線(xiàn)性關(guān)系的不足。
Gabor小波與人類(lèi)視覺(jué)系統(tǒng)中的簡(jiǎn)單細(xì)胞刺激響應(yīng)非常相似。它在提取目標(biāo)的局部空間和頻率信息方面具有良好的特性。Gabor小波能夠提供良好的方向和尺度選擇特性,而且對(duì)于光照變化并不敏感,能夠提供對(duì)光照變化良好的適應(yīng)性,正是這些良好的特征,所以能夠被廣泛地應(yīng)用于視覺(jué)。本文的人臉特征提取采用Gabor小波方法。在空間域中,由高斯函數(shù)調(diào)制的復(fù)指數(shù)構(gòu)成,其公式為:
(1)
式中,(m,n)為人臉像素的位置;ω為復(fù)指數(shù)的徑向中心頻率;θ為Gabor小波的方向;σ為高斯函數(shù)的標(biāo)準(zhǔn)偏差。
Pong使用了局部線(xiàn)性回歸的方法來(lái)預(yù)測(cè)高分辨率Gabor特征,這雖然能夠在一定程度上預(yù)測(cè)高分辨率的Gabor特征,但只假設(shè)了高低分辨率之間存在線(xiàn)性關(guān)系。而在流形學(xué)習(xí)中,認(rèn)為高低分辨率人臉具有相似的內(nèi)在結(jié)構(gòu)。相比于簡(jiǎn)單的局部線(xiàn)性回歸,使用流形學(xué)習(xí)進(jìn)行HR Gabor特征預(yù)測(cè),更能準(zhǔn)確地預(yù)測(cè)HR人臉。
嵌入算法在高分辨率人臉重建應(yīng)用中,對(duì)于輸入的低分辨率人臉特征:
(2)
③ 通過(guò)結(jié)構(gòu)權(quán)重和對(duì)應(yīng)K個(gè)近鄰的高分辨率來(lái)計(jì)算高分辨率Gabor人臉特征:
(3)
(4)
雖然CCA能夠最大化2組變量之間的相關(guān)性,但是CCA是基于線(xiàn)性相關(guān)的,所以不能準(zhǔn)確反映非線(xiàn)性關(guān)系。為了克服CCA這一缺點(diǎn),一系列的非線(xiàn)性拓展算法相繼提出。比如Kernel CCA[15],利用核函數(shù)來(lái)構(gòu)造2組變量的非線(xiàn)性關(guān)系;再如Deep CCA[16],利用DNN網(wǎng)絡(luò)來(lái)訓(xùn)練2組變量的非線(xiàn)性關(guān)系;但是這些算法雖然提高了相關(guān)性,但也具有相當(dāng)高的計(jì)算復(fù)雜度和時(shí)間復(fù)雜度。David[17]提出了利用隨機(jī)策略來(lái)構(gòu)造可以與線(xiàn)性算法結(jié)合使用揭示非線(xiàn)性特征。其公式為:
(5)
(6)
通過(guò)拉格朗日乘法,得出Urandom和Vrandom,即為:
(7)
為了避免過(guò)擬合,添加了μ和k兩個(gè)懲罰項(xiàng):
(8)
類(lèi)似于CCA,選擇前d個(gè)特征值對(duì)應(yīng)的特征向量Wl=(α1,α2,…,αd)和Wh=(β1,β2,…,βd),將Wl,Wh稱(chēng)為廣義典型投影向量,并且使用式(9)和式(10)組合的特征稱(chēng)為廣義規(guī)范判別特征。即:
(9)
(10)
(11)
(12)
通過(guò)式(12)級(jí)聯(lián)后并使用式(13)的計(jì)分函數(shù)將其分類(lèi):
(13)
式中,G和H表示訓(xùn)練集和測(cè)試集里的人臉投影到RCCA后的特征向量。
算法框架如圖1所示,分為2個(gè)部分:訓(xùn)練部分和測(cè)試部分。訓(xùn)練部分:分別將高低分辨率的人臉數(shù)據(jù)集都基于Gabor進(jìn)行特征提取,再通過(guò)RCCA獲取LR和HR對(duì)應(yīng)的相關(guān)特征,并將其線(xiàn)性連接;測(cè)試部分:輸入一個(gè)LR的人臉,利用LLE構(gòu)建HR的Gabor特征,分別將LR、HR映射到相關(guān)的特征中并進(jìn)行線(xiàn)性連接;最后送入最近鄰分類(lèi)器進(jìn)行分類(lèi),求得識(shí)別結(jié)果。
圖1 算法框架
為了驗(yàn)證改進(jìn)算法的有效性,在YALE和ORL數(shù)據(jù)集上做了一些實(shí)驗(yàn),將LLE與LLR,GCCA與RCCA進(jìn)行兩兩組合。保留PCA的97%的有效能量。實(shí)驗(yàn)環(huán)境為Intel Core i7 CPU 2.2 GHz,內(nèi)存8 GB,操作系統(tǒng)Windows 10,編程平臺(tái)為Matlab2017b。
YALE數(shù)據(jù)集由耶魯大學(xué)計(jì)算視覺(jué)與控制中心創(chuàng)建,包含15名志愿者,每名志愿者由11幅圖像組成,這些人臉包含著明顯不同的光照、表情以及姿態(tài)的變化。以YALE數(shù)據(jù)集為基礎(chǔ),將48 pixel×48 pixel分辨率作為HR人臉圖像集,對(duì)該數(shù)據(jù)集依次平滑下采樣,依次獲得8 pixel×8 pixel,9 pixel×9 pixel,11 pixel×11 pixel,13 pixel×13 pixel,15 pixel×15 pixel,17 pixel×17 pixel,19 pixel×19 pixel的LR人臉數(shù)據(jù)集。
ORL數(shù)據(jù)集由劍橋大學(xué)AT&T實(shí)驗(yàn)室創(chuàng)建,包含40名志愿者,每名志愿者由10幅圖像組成,分辨率大小統(tǒng)一為92 pixel×112 pixel。該數(shù)據(jù)庫(kù)人臉表情和人臉姿態(tài)有一定的變化。以O(shè)RL數(shù)據(jù)集為基礎(chǔ),將48 pixel×48 pixel作為高分辨率人臉圖像集,對(duì)該數(shù)據(jù)集依次平滑下采樣,依次獲得10 pixel×10 pixel,12 pixel×12 pixel,14 pixel×14 pixel,16 pixel×16 pixel,18 pixel×18 pixel,20 pixel×20 pixel的低分辨率人臉數(shù)據(jù)集。
在比對(duì)重建Gabor特征時(shí),LR的Gabor特征分辨率為8 pixel×8 pixel,HR的Gabor特征的分辨率為48 pixel×48 pixel。如圖2和圖3所示。在YALE的人臉集中,采用峰值信噪比(PSNR)和結(jié)構(gòu)相似度值(SSIM)對(duì)比LLR和LLE算法重建的Gabor特征,所考慮的尺度和方向分別為5和8。
圖2 重建Gabor特征得PSNR對(duì)比
圖3 重建Gabor特征得SSIM對(duì)比
從圖2和圖3可以得出,在PNSR的比對(duì)中,LLR算法重建特征效果好于K=10和K=20的,在K為30,40,...,70時(shí),效果均小于LLE算法的重建效果;在SSIM的比對(duì)中,LLE算法的重建效果都好于LLR算法的重建。
在YALE數(shù)據(jù)集的實(shí)驗(yàn)中,每位志愿者隨機(jī)抽取5張人臉作為訓(xùn)練集,其余作為測(cè)試集。將48 pixel×48 pixel作為HR人臉,LR人臉?lè)秶? pixel×9 pixel~19 pixel×19 pixel。在LLE算法中,K取值為30;RCCA中的懲罰項(xiàng)μ和κ設(shè)置為0.001。實(shí)驗(yàn)結(jié)果如表1和圖4所示。
表1 YALE上不同算法在不同分辨率下的識(shí)別率
圖4 YALE上各類(lèi)算法識(shí)別率
通過(guò)實(shí)驗(yàn)結(jié)果比對(duì),本文基于LLE算法而改進(jìn)的重建HR人臉的Gabor特征,在不同分辨率下,識(shí)別率均高于原論文中基于LLR算法而重建的HR人臉Gabor特征;本文所提出的基于LLE重建Gabor特征,結(jié)合原論文中的GCCA算法,能夠在不同的LR下?lián)碛凶罡叩淖R(shí)別率;本文提出的LLE+RCCA的改進(jìn)算法在不同分辨率下普遍高于原算法的LLR+GCCA的組合,尤其是在超低分辨率9 pixel×9 pixel時(shí),依然有72.22%的識(shí)別率。
在ORL人臉數(shù)據(jù)集的實(shí)驗(yàn)中,每位志愿者隨機(jī)抽取5幅人臉作為訓(xùn)練集,其余作為測(cè)試集,以48 pixel×48 pixel作為HR人臉,LR范圍10 pixel×10 pixel~20 pixel×20 pixel。在LLE算法中,K值選取為40;RCCA中的懲罰項(xiàng)μ和κ設(shè)置為0.001。實(shí)驗(yàn)結(jié)果如表2和圖5所示。
表2 ORL上不同算法在不同分辨率下的識(shí)別率
圖5 ORL上各類(lèi)算法識(shí)別率
更換實(shí)驗(yàn)數(shù)據(jù)集,將實(shí)驗(yàn)放在ORL數(shù)據(jù)集上測(cè)試。由于ORL數(shù)據(jù)集的環(huán)境干擾比較少,所以識(shí)別率普遍提高。也得到和YALE數(shù)據(jù)集相似的結(jié)論:本文基于LLE算法而改進(jìn)的重建HR人臉的Gabor特征,在不同分辨率下,識(shí)別率均高于原論文中基于LLR算法而重建的HR人臉Gabor特征;本文所提出的基于LLE重建Gabor特征,結(jié)合原論文中的GCCA算法,能夠在不同LR下?lián)碛凶罡叩淖R(shí)別率;本文提出的LLE+RCCA的改進(jìn)算法在不同分辨率下普遍高于原算法的LLR+GCCA的組合,尤其是在超低分辨率10 pixel×10 pixel時(shí),依然有86.50%的識(shí)別率;
本文提出了基于改進(jìn)的Gabor特征幻影的人臉識(shí)別算法,在Pong的算法上提出了改進(jìn)。主要有以下2點(diǎn):采用基于流形學(xué)習(xí)的LLE算法取代原論文的LLR算法,更加注重高低分辨率之間的非線(xiàn)性關(guān)系;在特征投影方面,采用RCCA算法,更加注重訓(xùn)練集的非線(xiàn)性特征。在上述實(shí)驗(yàn)結(jié)果中,改進(jìn)后的算法提高了識(shí)別率,尤其是極低分辨率的情況下。