賀 輝,陳思佳,黃 靜
(北京師范大學(xué)珠海分校 信息技術(shù)學(xué)院,廣東 珠海 519087)
人臉識別一直以來都是計算機視覺領(lǐng)域的一個研究熱點,相比指紋識別、虹膜識別等識別方式,人臉識別有更多優(yōu)勢,因此,基于人臉識別技術(shù)的應(yīng)用也越來越廣泛。隨著深度學(xué)習(xí)的興起,越來越多的領(lǐng)域采用深度學(xué)習(xí)模型作為主要模型,而在計算機視覺領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)成為了最有效的模型之一,人臉識別也不例外,基于卷積神經(jīng)網(wǎng)絡(luò)分類模型的方法具有明顯優(yōu)于以往機器學(xué)習(xí)模型的效果[1]。神經(jīng)網(wǎng)絡(luò)如此強大的一個主要原因是深層神經(jīng)網(wǎng)絡(luò)擁有的“萬有逼近”能力:深層神經(jīng)網(wǎng)絡(luò)可以逼近任意連續(xù)函數(shù)。而卷積神經(jīng)網(wǎng)絡(luò)具有強大的采樣能力,能夠自動提取圖像集中的主要成分[2]。然而,雖然人臉識別率已經(jīng)接近100%,但是市面上人臉識別設(shè)備的應(yīng)用卻很少,主要原因還是模型訓(xùn)練集遠遠不能覆蓋現(xiàn)實中所有的影響因素,而在這些影響因素中,光照是最具代表性的一種。雖然卷積神經(jīng)網(wǎng)絡(luò)本身十分強大,在數(shù)據(jù)集足夠好的時候可以幾乎不采用任何圖像預(yù)處理方式,但是當(dāng)數(shù)據(jù)集不夠全面,或者說缺少足夠多的數(shù)據(jù)時,光照對識別率的影響很大。因此,改善光照對人臉識別的影響對實現(xiàn)人臉識別在工業(yè)上的應(yīng)用有著極其重要的意義[3-4]。
在光照問題上,近年來并沒有提出與CNN相結(jié)合的方法,主要原因是人為提取高質(zhì)量的特征十分困難,并且人為干涉會降低模型提取到的特征的質(zhì)量[5],因此現(xiàn)在的主流主張是讓模型自主提取特征。例如,特征臉方法[6]是人臉識別領(lǐng)域內(nèi)的經(jīng)典方法,利用PCA(principal component analysis)方法計算多張人臉照片的協(xié)方差,并求出其特征值和特征向量,接著利用特征值保留最大的若干特征向量,最后利用特征向量對原圖像進行投影,這樣就達到了保留主成分而降維的目的;基于光照不變表示的方法[7-8],認為映射到人眼中的圖像和光的長波(R)、中波(G)、短波(B)以及物體反射性質(zhì)有關(guān);局部二值模式法(local binary patterns,LBP)在人臉識別中應(yīng)用廣泛,對光照、年齡、表情等變化都有很強的魯棒性[9-10],它通過與周圍像素的對比,具有旋轉(zhuǎn)不變性和灰度不變性等特點,但是經(jīng)它處理后的圖像并不符合直覺,換句話說,并不能輕易地由人眼分辨。實際上,經(jīng)過LBP處理后的圖像一般不直接用于識別,而是將區(qū)域分塊直方圖連成一個特征向量,放入分類器中做分類,顯然這種方法并不適合與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,因為它本身就是一種采樣操作,降低了圖片的可識別性。
既然CNN具有生物視覺神經(jīng)的特點,那么人為干涉實際上是可以提高模型提取特征的質(zhì)量的,就像近視眼鏡對于近視眼一樣?;谶@樣的考慮,結(jié)合直方圖均衡化預(yù)處理后圖像的特點,文中提出了一種類視網(wǎng)膜大腦皮層增強法,并通過實驗進行驗證。
視網(wǎng)膜-大腦皮層(Retinex)理論[7]認為世界是無色的,人眼看到的世界是光與物質(zhì)相互作用的結(jié)果,也就是說,映射到人眼中的圖像和光的長波(R)、中波(G)、短波(B)以及物體反射性質(zhì)有關(guān),如式1所示。
I(x,y)=R(x,y)L(x,y)
(1)
其中,I是人眼中看到的圖像;R是物體的反射分量;L是環(huán)境光照射分量;(x,y)是二維圖像對應(yīng)的像素位置。
基于Retinex理論,有學(xué)者提出了SSR(single scale Retinex)方法[8],通過估算L來計算R,具體來說,L可以通過高斯模糊和I做卷積運算求得,如下:
logR=logI-logL
(2)
L=F*I
(3)
其中,F(xiàn)是高斯模糊濾波器;“*”表示卷積運算。
通過選擇不同的高斯周圍空間常數(shù)(Gaussian surround space constant)對圖像處理有比較大的影響,小的常數(shù)對細節(jié)和動態(tài)區(qū)域壓縮有比較好的效果,但是整體色彩容易失真,大的常數(shù)反之,這也是SSR方法的不足之處。
針對這個問題,有學(xué)者提出了MSR(multi-scale Retinex)方法[11-13],MSR使用了多種常數(shù),并用權(quán)值的方法將它們混合在一起,如下:
(4)
(5)
其中,σi為高斯周圍空間常數(shù);wi為每個待混合圖像的權(quán)值,一般來說:
(6)
(7)
其中,N為選用高斯周圍空間常數(shù)的數(shù)量。
然而SSR和MSR對于色彩恢復(fù)在灰度上的都有些問題,主要原因在logR恢復(fù)到[0,255]色彩空間的方式,也就是恢復(fù)到R的方式。針對這個問題,Parthasarathy等提出了帶色彩恢復(fù)的多尺度視網(wǎng)膜增強算法(multi-scale Retinex with color restoration,MSRCR)[14],如式8~10:
(8)
(9)
Ri=G(CilogR-b)
(10)
其中,Ci是色彩恢復(fù)函數(shù);α、β、G都是經(jīng)驗參數(shù);b是經(jīng)驗偏移量;S是色彩通道數(shù)。
為從根本上消除MSRCR方法導(dǎo)致的圖像關(guān)鍵點不明顯的缺點,結(jié)合直方圖均衡化在增強圖像對比度上的優(yōu)點,提出了一種類視網(wǎng)膜大腦皮層增強法(similar Retinex reinforcement method,SRRM)。
SRRM方法同時克服了直方圖均衡化方法導(dǎo)致的圖像多處變化大的缺點,也即經(jīng)過SRRM處理后的圖像具有關(guān)鍵點外的變化度小和有利于目視判讀的優(yōu)點,也即該方法同時保留了灰度增強和視網(wǎng)膜大腦皮層法的優(yōu)點。
算法基本步驟如下:
輸入:人臉圖像矩陣;輸出:增強結(jié)果矩陣。
Step1:將圖像轉(zhuǎn)為RGB圖,并對圖像利用MSRCR進行處理;
Step2:將處理后的圖像轉(zhuǎn)為灰度圖,進行直方圖均衡化處理。
基于CNN的人臉識別分類器非常多,它們一次次地刷新了LFW的記錄[1],甚至有些網(wǎng)絡(luò)模型擁有非常好的魯棒性,即便不對數(shù)據(jù)做過多處理也可以得到非常好的效果[15]。為驗證文中提出的預(yù)處理方法的有效性,這里使用一種相對并不復(fù)雜的CNN結(jié)構(gòu)。
將輸入圖片作為輸入層;第二層是卷積層,卷積核尺寸為5×5,步長為1;第三層是池化層,池化核的尺寸為2×2,步長為2;第四層是卷積層,卷積核尺寸為5×5,步長為1;第五層是池化層,池化核的尺寸為2×2,步長為2;第六層是全連接層,神經(jīng)元數(shù)量為256;最后一層也是全連接層,神經(jīng)元數(shù)量為68,即訓(xùn)練集類別。將最后的輸出結(jié)果輸入到softmax函數(shù)中做分類。
文中選用CMU_PIE人臉光照數(shù)據(jù)庫作為實驗數(shù)據(jù)集,CMU_PIE數(shù)據(jù)集中的Pose9是正臉居中裁剪好的人臉數(shù)據(jù),一共包含1 632張人臉圖片,包含68個來自多個國家的人的人臉,其中每人有24張尺寸為64×64的灰度圖片,包含3張暗光照下不同表情的圖片和21張不同角度的環(huán)繞光照圖片。
為了保證數(shù)據(jù)集傾斜情況的發(fā)生,對每張人臉,分別取19張圖片作為訓(xùn)練集,5張圖片作為測試集,這樣訓(xùn)練集有1 292張圖片,測試集有340張圖片,訓(xùn)練集和測試集不相交。實驗同時對比了文中提出的SRRM方法與特征臉方法、LBP方法[16]、MSRCR方法、直方圖均衡化方法分別對圖片進行預(yù)處理后的CNN的識別效果,對于每張圖片,CNN每次會返回最有可能的預(yù)測結(jié)果,實驗中根據(jù)分類器的識別率作為標準。為了保證實驗結(jié)果的客觀真實,對于每種圖像處理方法的訓(xùn)練集和測試集,都進行了10次隨機選取,對于每次選取的數(shù)據(jù),又進行了10輪神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,最終的實驗結(jié)果是100組實驗結(jié)果取均值,總體技術(shù)路線如圖1所示。各種方法預(yù)處理實驗結(jié)果如圖2~圖5所示,最終的人臉識別精度比較如表1所示。
圖1 總體技術(shù)路線
圖2 LBP處理
(注:第一行是原圖,第二行是處理后的圖像)
從圖2可見,雖然LBP表現(xiàn)出了強大的人臉識別問題解決能力,但是經(jīng)它處理后的圖像并不符合直覺,換句話說,并不能輕易地由人眼分辨。最后的識別結(jié)果也表明LBP不適合與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,因為它本身就是一種采樣操作,降低了圖片的可識別性。從圖3可見,MSRCR可以比較好地保留人臉輪廓,消去圖中的光照和陰影與皮膚信息,但是對比度不高,一些輪廓細節(jié)不明顯。由圖4可見,直方圖均衡化預(yù)處理也有明顯的缺點:變化后的圖像灰度級可能會減少,使某些細節(jié)不明顯甚至消失;均衡化后的灰度范圍取決于原圖像的灰度范圍,因此對灰度范圍過小的圖像對比度增強的效果有限。而從圖5中可以看出,SRRM方法同時保留了灰度增強和視網(wǎng)膜大腦皮層法的優(yōu)點。
圖3 MSRCR處理
(注:第一行是原圖,第二行是處理后的圖像)
圖4 直方圖均衡化處理
(注:第一行是原圖,第二行是處理后的圖像)
圖5 SRRM處理
(注:第一行是原圖,第二行是經(jīng)直方圖均衡化處理后的圖像,第三行是經(jīng)MSRCR處理后的圖像,第四行是經(jīng)SRRM處理后的圖像)
需要特別說明的是,當(dāng)預(yù)處理方法為PCA時,會先將數(shù)據(jù)集分為訓(xùn)練集和測試集,再讓PCA模型對訓(xùn)練數(shù)據(jù)集擬合,最后再分別對訓(xùn)練集和測試集進行重構(gòu)預(yù)處理,以此來避免預(yù)處理方法對測試集的擬合。
表1 多種光照預(yù)處理方法與CNN結(jié)合后的 實驗結(jié)果
表1結(jié)果顯示,SRRM方法相比其他圖像預(yù)處理方法,在光照處理上擁有更好的效果,明顯提升了CNN在光照影響環(huán)境下人臉識別的能力。
提出了一種新的光照預(yù)處理方法:視網(wǎng)膜大腦皮層增強法(RRM),并與多種典型的光照預(yù)處理方法進行了對比實驗。實驗結(jié)果證明,該方法在處理光照不均圖像并與CNN結(jié)合后的效果遠超其他方法,有效地提升了CNN在不均勻光照環(huán)境下對人臉識別的能力。更重要的是,提出的CNN和以往的分類器不同,它的識別方式應(yīng)該符合直覺,也就是說圖片應(yīng)該可以被人眼識別,并通過實驗證明了這種想法的正確性,對解釋CNN這個復(fù)雜的黑盒模型非常有幫助。對于比較極端的光照情況(如半張臉完全被黑暗覆蓋),雖然該方法也有復(fù)原圖像的能力,但是在一些細節(jié)上有比較大的瑕疵,針對這個問題,除了一些光照補償算法外,可以考慮利用人臉的對稱性復(fù)原人臉,從已經(jīng)做過的實驗結(jié)果來看這應(yīng)該比子空間匹配更有利。