許亞軍,李瑋欣
(1. 太原理工大學信息工程學院,山西太原 030024;2. 天津大學精密儀器與光電子工程學院,天津 300072)
小波理論出現(xiàn)于20世紀80年代,盡管出現(xiàn)較晚,但小波理論越來越受到歡迎,其發(fā)展速度也很快[1-2]。學者們普遍認為小波變換是傅里葉變換的一個突破。此外,Gabor濾波對光照變化以及圖像與人臉表情的對比度變化具有很強的魯棒性,在人臉識別的過程中它表達的是對人臉識別最為有用的局部特征[3],因此Gabor小波已被廣泛應(yīng)用于人臉特征的提取。目前,學者們已經(jīng)加深了對神經(jīng)網(wǎng)絡(luò)理論的研究。人工神經(jīng)網(wǎng)絡(luò)[4-5]是人類模擬人腦神經(jīng)系統(tǒng)的信息處理過程而產(chǎn)生的一種智能系統(tǒng),這種系統(tǒng)是基于人腦組織結(jié)構(gòu)和活性機制的初步了解而產(chǎn)生的新型結(jié)構(gòu)計算系統(tǒng)。因為它可以模擬人腦的神經(jīng)系統(tǒng)并且賦予機器人腦的感知、學習和推理能力,它已被廣泛應(yīng)用到各種領(lǐng)域的模式識別中。
但是,如何將神經(jīng)網(wǎng)絡(luò)與非線性理論,如小波理論、模糊集和混沌理論相結(jié)合是一個新的研究方向[6-7]。神經(jīng)網(wǎng)絡(luò)擁有一系列的有利特征,包括容錯、自適應(yīng)、自學習、泛化能力和穩(wěn)健性,而小波變換具有良好的時頻局部化特性和變焦能力,所以Gabor小波變換可以被用來減少神經(jīng)網(wǎng)絡(luò)中的輸入節(jié)點數(shù)量,并且一方面可以加快收斂速度,另一方面能夠充分有效地表達人臉特征和改進神經(jīng)網(wǎng)絡(luò)識別能力。然而,如何將兩者的優(yōu)點結(jié)合起來并將其應(yīng)用到人臉識別技術(shù)中,成為雙方專家學者一直關(guān)注的一個問題。文獻[8]提出了一種通過組合Gabor濾波器和卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測方法并獲得了87.5%的檢測率。Singh等[9]使用基于Gabor濾波的特征向量作為前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Neural Network, FFNN)的輸入。文獻[10]在Java環(huán)境下提出了類似的方法,主要用于目標定位和分類。
因此,本文的研究重點是基于Gabor小波變換的圖像特征提取。結(jié)合BP神經(jīng)網(wǎng)絡(luò)的智能識別,本文提出了基于小波變換和神經(jīng)網(wǎng)絡(luò)模型的圖像智能識別。采用人臉識別作為一種例子。首先,對照明變化和復(fù)雜紋理下的模型檢測表現(xiàn)進行了分析。然后,在相關(guān)人臉數(shù)據(jù)庫的基礎(chǔ)上進行了測試。給出了該模型的識別準確率,從而為圖像智能識別的進一步研究提供了一個新的視角。
為了引入Gabor小波并將其應(yīng)用到圖像特征提取,本文首先引入一維Gabor小波[11]的分析推論以便引入二維Gabor小波。其中,一維Gabor小波由三角函數(shù)乘以高斯函數(shù)構(gòu)成。見式(1):
W(t,t0,ω)=e-σ(t-t0)2eiω(t-t0)
(1)
進行公式(1)和信號頻率的整合,一維Gabor小波變換可以如下表示:
(2)
其中,頻率為ω,時間為t0,公式左邊代表信號x(t)的頻率信息,將式(1)置入式(2)中,拓展出一個復(fù)合的公式:
C(x(t))(t0,ω)=
(3)
通過尺度變換和旋轉(zhuǎn)變換,二維Gabor小波可以通過由一維Gabor函數(shù)拓展成二維Gabor函數(shù)來生成[12]。就任何尺度和任何方向而言,二維Gabor小波可以獲得圖像信息。通過一維Gabor小波函數(shù),可以看出,二維Gabor小波函數(shù)是獨特的,并且可以用來作為圖像提取和分析的主要函數(shù)。換句話說,圖像的完整描述可以根據(jù)時空域和頻域得以實現(xiàn)。小波變換反映了一個比較直觀的概念:當紋理都比較細致,樣本域的采樣范圍相對較小,而相對的頻域取樣范圍是比較大的。然而,當紋理是相對粗糙的,空間域的采樣范圍是比較大的,頻域的采樣范圍則相對較小。因此,二維Gabor小波可以捕捉紋理,包括選擇空間位置、Gabor方向、空間頻率和正交相位關(guān)系。
這里,二維Gabor小波函數(shù)的核[13]如式(5)所定義:
(4)
圖1 基于5個頻率和8個方向的Gabor濾波模板
因此,當ku,v不同,可以得到一組不同的Gabor濾波器?;?個頻率(0.2,0.22,0.24,0.26 和0.28)和8個方向(0°,45°,90°,135°,180°,225°,270°和315°)的Gabor濾波器的實、虛部如圖1所示。
小波變換被應(yīng)用到圖像處理時具有以下優(yōu)點:1)小波分解可以覆蓋整個頻域;2)通過選擇適當?shù)臑V波器,小波濾波可以在很大程度上減少甚至去除提取到的不同特征之間的相關(guān)性;3)小波變換具有“變焦”的特點,在低頻部分采用寬分析窗口,并在高頻部分采用狹窄分析窗口。
因此,圖像特征提取過程中,Gabor圖像特征提取是進行輸入圖像和如公式(7)所述Gabor小波的卷積。假定輸入圖像灰度是I(x,y),則I和Gabor核Gu,v之間的卷積,用公式(6)表示如下:
Ou,v(x,y)=I(x,y)*Gu,v(x,y)
(5)
其中,*代表卷積因子;Ou,v(x,y)代表相應(yīng)于尺度u和方向v的卷積圖像。
神經(jīng)網(wǎng)絡(luò)是一種高度非線性的系統(tǒng)。在不同的功能和研究方面,也有不同的神經(jīng)網(wǎng)絡(luò)模型。BP神經(jīng)網(wǎng)絡(luò)是一種前饋網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)模型采用這種前饋網(wǎng)絡(luò)的誤差反向傳播實現(xiàn)模型的自學習[14]。它主要由輸入層,輸出層和隱藏層組成。層與層之間的神經(jīng)細胞采用全互聯(lián)方式,并通過相應(yīng)的網(wǎng)絡(luò)權(quán)重系數(shù)w建立連接。此外,每一層內(nèi)的神經(jīng)細胞之間沒有任何聯(lián)系。BP算法的基本思想是,學習過程是由兩個過程,即信號向前傳播和誤差向后傳播組成。 圖2示出了神經(jīng)網(wǎng)絡(luò)模型的具體結(jié)構(gòu)[15]:
圖2 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
這里,xj代表輸入層第j節(jié)點的輸入(j= 1, …,M);wij表示從隱藏層節(jié)點i到輸入層節(jié)點j的權(quán)重值;θi代表隱藏層節(jié)點i的閾值;φ(x)代表隱藏層的激勵函數(shù);wki表示從輸出層節(jié)點k到隱藏層節(jié)點i的權(quán)值(i=1, …,q);ak代表輸出層節(jié)點k的閾值(k=1, …,L);ψ(x)代表輸出層的激勵函數(shù);ok代表輸出層節(jié)點k的輸出。
當信號通過信號前饋進入神經(jīng)網(wǎng)絡(luò)中,輸入樣本通過輸入層輸入,并通過隱藏層處理被發(fā)送到輸出層。如果輸出層的實際輸出未能與所期望的輸出一致,將進入誤差向后傳播期。上述信號向前傳播和誤差向后傳播的本質(zhì)是一個網(wǎng)絡(luò)迭代過程。在網(wǎng)絡(luò)迭代過程中,權(quán)重值不斷調(diào)整。直到網(wǎng)絡(luò)的輸出錯誤被減小到低于設(shè)定的誤差值,或直至達到預(yù)先設(shè)定的迭代,該過程結(jié)束。因此可以看出,神經(jīng)網(wǎng)絡(luò)輸入與輸出之間關(guān)系是一種具有“多輸入多輸出”特點的高度線性系統(tǒng)[16],這適用于預(yù)測和識別處理系統(tǒng)。
根據(jù)輸入節(jié)點和輸出節(jié)點的權(quán)值,輸入節(jié)點與隱藏節(jié)點之間、隱藏節(jié)點與輸出節(jié)點之間的權(quán)值,各層節(jié)點之間的迭代關(guān)系如下:
(1)信號前向傳播過程:
隱藏層節(jié)點i的輸入neti:
(6)
隱藏層節(jié)點i的輸出yi:
(7)
輸出層節(jié)點k的輸入netk:
(8)
輸出層節(jié)點k的輸出ok:
(9)
(2)誤差反向傳播過程
誤差反向傳播,首先計算輸出層神經(jīng)細胞的輸出誤差,并逐步反向計算各個層的輸出誤差。然后,根據(jù)誤差梯度下降調(diào)整權(quán)重值和各層閾值,使最終的改進網(wǎng)絡(luò)輸出接近于預(yù)期值。每個采樣P的二乘誤差評價函數(shù),如公式(11):
(10)
總而言之,神經(jīng)網(wǎng)絡(luò)的主要思想是調(diào)整閾值和權(quán)重值以使誤差函數(shù)沿梯度方向下降,輸出層通過處理在隱藏層中的輸入信息獲得實際輸出。如果實際輸出與樣品輸出不一致,該錯誤將被逐層反饋。每層的權(quán)重值根據(jù)算法規(guī)定的學習規(guī)則進行調(diào)整。通過重復(fù)迭代,收斂或動態(tài)平衡就可以實現(xiàn)。換句話說,根據(jù)實際輸出和目標輸出之間的總誤差是否達到所需的最小值來判斷步驟是否結(jié)束。
基于Gabor特征提取的BP神經(jīng)網(wǎng)絡(luò)人臉識別步驟如下:
(1)對要識別的圖像和標準模板圖像進行卷積,并提高對圖像光照變化的抵抗性。標準模板圖像如圖3所示。
(2)根據(jù)n個頻率、m方向生成Gabor濾波器。這里取n=5并且m=8;
(3)上傳人臉圖像和非人臉圖像作為訓練樣品,利用步驟1中生成的濾波器提取特征,所提取的特征數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)模型的輸入信息;
圖3 標準模板圖像
(4)建立BP神經(jīng)網(wǎng)絡(luò)模型,并參考下面的核網(wǎng)絡(luò)參數(shù);
(5)將提取的特征數(shù)據(jù)輸入根據(jù)第3步已經(jīng)建立的BP神經(jīng)網(wǎng)絡(luò),并訓練網(wǎng)絡(luò)。對已訓練的網(wǎng)絡(luò)進行人臉檢測并提取圖像上的人臉區(qū)域;
BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示。對已經(jīng)建立的BP神經(jīng)網(wǎng)絡(luò)賦予相關(guān)訓練參數(shù)進行模型訓練。網(wǎng)絡(luò)訓練和網(wǎng)絡(luò)收斂過程相關(guān)的模型參數(shù)示于下表1中。網(wǎng)絡(luò)訓練過程中的動態(tài)誤差變化如圖5所示。
圖4 BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖
網(wǎng)絡(luò)訓練參數(shù)網(wǎng)絡(luò)收斂參數(shù)輸入層節(jié)點數(shù)隱藏層節(jié)點數(shù)網(wǎng)絡(luò)目標誤差網(wǎng)絡(luò)訓練函數(shù)10011.0×e-3trainscg網(wǎng)絡(luò)訓練次數(shù)網(wǎng)絡(luò)訓練周期(s)網(wǎng)絡(luò)收斂誤差網(wǎng)絡(luò)擬合優(yōu)化164109.98×10-40.99999
圖5 網(wǎng)絡(luò)訓練過程中的動態(tài)誤差變化
識別性能評價是人臉識別應(yīng)用的一個重要方面。為了驗證本文所提出的方法的有效性和穩(wěn)定性,在包括ORL[17]和Extended Yale B[18]等人臉數(shù)據(jù)庫上進行了實驗,這些數(shù)據(jù)庫圖像包含不同的姿勢、不同的表情和不同的光照條件。最后,將該方法與其他一些先進的方法進行了比較。
目前,人臉識別系統(tǒng)的性能是由各種度量指標來評價的,其中的識別率是常用的一種。為了全面分析所提出的方法的識別準確率,我們利用ORL數(shù)據(jù)庫進行了測試。這個數(shù)據(jù)庫包含了40個不同的人,對每一個個體,在不同的時間拍攝不同的光照變化、不同的面部表情和不同的面部細節(jié),因此每個人都有10種不同的人臉圖像(92×112)。數(shù)據(jù)庫的預(yù)覽圖像如圖6所示。
圖6 ORL數(shù)據(jù)庫中人臉的預(yù)覽圖像
測試次數(shù)/次訓練樣本數(shù)/個測試樣本數(shù)/個訓練樣本識別率測試樣本識別率綜合識別率11602400.9650.9220.939221602400.9750.9350.951031602400.9520.9220.934041602400.9610.9200.936451602400.9620.9250.9398
實驗中,我們將所有測試圖像經(jīng)轉(zhuǎn)換、裁剪和下采樣為25×30。然后,我們從每個人的圖像中隨機選擇部分圖像作為訓練集,其他部分作為測試集。當我們隨機選擇每個人的四幅圖像并進行五組實驗時,表2顯示了識別準確率結(jié)果。結(jié)果表明,人臉識別的準確率達到0.93以上,識別準確率較高。
除了識別準確率之外,還有其他幾個重要的關(guān)鍵指標可用于性能評估。比如,錯誤接受率(false accept rate,F(xiàn)AR),錯誤拒絕率(false reject rate,F(xiàn)RR),和接受者操作特征(receiver operating characteristics,ROC)。其中,ROC圖被越來越多地用于機器學習或者數(shù)據(jù)處理等系統(tǒng)研究的性能可視化。在ROC圖中,越往左上角的點具有更高的FFR和更低的FAR,因此ROC是智能分類的一種代表。
我們使用這三類度量指標,在Extended Yale B人臉數(shù)據(jù)庫上進行了實驗,并與現(xiàn)有方法的實驗結(jié)果進行對比分析。該人臉數(shù)據(jù)集包含28個個體在9個姿勢和64個照明條件下的共計16128個GIF格式的灰度圖像。圖7顯示了Extended Yale B人臉數(shù)據(jù)庫中人臉的預(yù)覽圖像。針對這個數(shù)據(jù)庫,我們將圖像裁剪、調(diào)整到32×32像素。
圖7 Extended Yale B人臉數(shù)據(jù)庫中人臉的預(yù)覽圖像
在這個實驗中,我們從28組人臉圖像的每組中隨機選取2、4、8、16和32幅圖像作為訓練集,同時選擇其余圖像作為測試集。該方法與局部Gabor(Local Gabor,LG[19])和局部Gabor二值模式(Local Gabor Binary Pattern, LGBP[20])的識別率的比較結(jié)果,如表3所示,ROC圖如圖8所示。從表3可以看出,隨著訓練樣本數(shù)的增加,所有方法的識別率都在增加。此外,當訓練樣本數(shù)為32時,該方法的識別率分別超過LG和LGBP的識別率各6.87%和3.91%。因此,在不同的姿勢和不同光照條件下,該方法比LG、LGBP這兩種人臉識別方法更優(yōu)秀。
表3 不同訓練樣本數(shù)下三種方法的識別率
圖8 ROC特征曲線圖
本文首先分析了Gabor小波理論,及其對圖像亮度和紋理變化的強抵抗力和變換特點;在此基礎(chǔ)上,提出了基于Gabor小波變換的圖像特征提取的概念;然后,建立了基于Gabor小波和神經(jīng)網(wǎng)絡(luò)的圖像智能識別模型。通過人臉識別實驗,分析了模型算法的有效性。實驗結(jié)果顯示,當結(jié)合Gabor小波變換和神經(jīng)網(wǎng)絡(luò)來進行人臉識別,人臉圖像的復(fù)雜紋理和亮度改變不會影響實驗結(jié)果。利用ORL和Extended Yale B等人臉數(shù)據(jù)庫來測試模型算法的準確性,證明其準確率在0.93以上。
[1] 董玉龍. 基于提升小波與FLD的人臉表情識別算法研究[D]. 山東大學, 2013.
[2] 李沫, 郝偉博, 范哲意, 等. 一種改進的粒子濾波和Mean Shift聯(lián)合跟蹤算法[J]. 中國電子科學研究院學報, 2013, 8(6):599-604.
[3] 詹曙, 張啟祥, 蔣建國,等. 基于Gabor特征核協(xié)作表達的三維人臉識別[J]. 光子學報, 2013, 42(12):1448-1453.
[4] 田間. 一種訓練BP神經(jīng)網(wǎng)絡(luò)的融合算法[D]. 吉林大學, 2011.
[5] Govindaraju R S. Artificial Neural Networks in Hydrology. I: Preliminary Concepts [J]. Journal of Hydrologic Engineering, 2015, 5(2):115-123.
[6] 邵俊倩. 小波模糊神經(jīng)網(wǎng)絡(luò)在非線性函數(shù)逼近中的應(yīng)用[J]. 計算機與數(shù)字工程, 2013, 41(1):4-6.
[7] Wu W J, Huang D G. Research on Fault Diagnosis for Rotating Machinery Vibration of Aero-Engine Based on Wavelet Transformation and Probabilistic Neural Network [J]. Advanced Materials Research, 2011, 295-297(6): 2272-2278.
[8] Kwolek B. Face Detection Using Convolutional Neural Networks And Gabor Filters[M]// Artificial Neural Networks: Biological Inspirations-ICANN 2005. Springer Berlin Heidelberg, 2005:551-556.
[9] Singh S, Agarwal R. Face Recognition using the Gabor Wavelet Transform and Feed Forward Neural Network[J]. RIET-IJSET: International Journal of Science, Engineering and Technology, 2014, 3(11):370-377.
[10] Andrzej B, Teresa N, Stefan P. FACE DETECTION AND RECOGNITION USING BACK PROPAGATION NEURAL NETWORK AND FOURIER GABOR FILTERS [J]. Signal & Image Processing, 2011, 2(3):705-708.
[11] Khalil M S. Erratum to: Reference point detection for camera-based fingerprint image based on wavelet transformation[J]. Biomedical Engineering Online, 2016, 15(1):30.
[12] Yifrach A, Novoselsky E, Solewicz Y A, et al. Improved nuisance attribute projection for face recognition[J]. Pattern Analysis & Applications, 2016, 19(1):69-78.
[13] Lades M, Vorbrüggen J C, Buhmann J, et al. Distortion Invariant Object Recognition in the Dynamic Link Architecture[J]. IEEE Transactions on Computers, 1993, 42(3):300-311.
[14] 高玉明, 張仁津. 基于遺傳算法和BP神經(jīng)網(wǎng)絡(luò)的房價預(yù)測分析[J]. 計算機工程, 2014, 40(4):187-191.
[15] Lee K C, Ho J, Kriegman D J. Acquiring linear subspaces for face recognition under variable lighting[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2005, 27(5):684-698.
[16] Rowley H A, Baluja S, Kanade T. Neural Network-Based Face Detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1998, 20(1):23-38.
[17] Database of Faces. 2016. Available online: http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html (accessed on 14 November 2016).
[18] Extended Yale Face Database B (B+). Available online: http://vision.ucsd.edu/content/extended-yale-face-database-b-b (accessed on 14 November 2016).
[19] Nanni L, Brahnam S, Ghidoni S, et al. Region-based Approaches and Descriptors extracted from the Co-occurrence Matrix[J]. International Journal of Latest Research in Science & Technology, 2014, 3(6):2278-5299.
[20] Xie S, Shan S, Chen X, et al. Fusing local patterns of gabor magnitude and phase for face recognition[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2010, 19(5):1349-1361.