桂 榮,沈榮鑫,詹 泳
(華南師范大學計算機學院,廣東廣州510631)
隨著多媒體技術的發(fā)展,數(shù)字圖像處理在科學研究、國防、工業(yè)生產(chǎn)以及現(xiàn)代化管理決策等各行業(yè)都得到了越來越多的應用.以人臉識別為代表的面部感知計算從20世紀80年代末開始逐漸成為熱門的研究方向.
在日常生活中,識別一個人最常用的方法是根據(jù)其臉部形象[1].由于諸多復雜因素的影響,致使人臉識別性能受到很大限制.目前根據(jù)人臉表征方式的不同,通常將人臉正面自動模式識別技術分為三大類:基于幾何特征的識別方法、基于代數(shù)特征的識別方法和基于連接機制的識別方法.
幾何特征方法[2]首先將人臉用一個幾何特征向量表示,繼而用模式識別中層次聚類的思想設計分類器達到識別目的.近年來,學術界相繼提出了各種優(yōu)秀的特征提取算法,如LI等[3]提出的基于熱核的局部二值模式(Heat Kernel Based Local Binary Pattern,HKLBP)人臉表征法,YIN 等[4]提出的基于聯(lián)合預測模型的人臉識別算法,XIE等[5]提出的局部融合模式識別算法,并以多種傳統(tǒng)算法為例進行了融合仿真,LI等[6]提出的一種基于聯(lián)合局部保護映射機制的人臉識別算法,并通過仿真數(shù)據(jù)與多種傳統(tǒng)算法進行了性能對比.
基于代數(shù)特征的人臉識別算法的原理是利用統(tǒng)計特征提取,形成子空間進行模式識別.SIROVICH等[7]首先將K-L變換用于人臉圖像的最優(yōu)表示;隨后,TURK等[8]提出了基于主分量分析(Principal Component Analysis,PCA)的特征臉(Eigenfaces)方法,為人臉識別中子空間分析方法(Subspace Analysis)這一經(jīng)典研究方向開辟了道路,但其不足之處在于:由主分量張成的子空間雖然從最小誤差重建意義上是最優(yōu)的,但是與分類并沒有直接的聯(lián)系.該方法對背景及光照等因素較為敏感.很多學者針對這一問題開展了研究,如 JORSTAD等[9]提出的基于密度對比的人臉識別算法,TAN等[10]提出的低光線條件下的局部特征增強算法,楊占棟等[11]提出的基于半動態(tài)外觀模型(Semi-active Appearance Model,SAAM)的人臉識別算法等,這些研究均在一定程度上改善了該類算法的技術.
基于連接機制的人臉識別算法將人臉直接用灰度圖表征,利用了神經(jīng)網(wǎng)絡強大的非線性擬合能力.這種方法的優(yōu)勢在于保存了人臉圖像中的材質(zhì)信息及細微的形狀信息,同時避免了較為復雜的特征提取工作[12].該類算法由于原始灰度圖像數(shù)據(jù)量十分龐大,因此神經(jīng)元數(shù)目通常很多,訓練時間很長.另外,神經(jīng)網(wǎng)絡雖然有較強的非線性擬合能力,但當樣本數(shù)大量增加時,其性能可能會嚴重下降.
本文以ORL(Olivetti Research Laboratory)數(shù)據(jù)庫為背景,開展了基于模糊神經(jīng)推理的人臉識別算法研究.其中,將整幅人臉圖像輸入系統(tǒng),符合格氏塔心理學中對人類識別能力的解釋,如果離線訓練樣本豐富,在線階段就可以削弱人臉角度等細節(jié)對識別結(jié)果的影響.人臉特征采用基于子圖分割的SVD特征提取算法,文中針對不同子圖分割方式對系統(tǒng)的性能影響進行了詳盡的實驗分析.仿真結(jié)果給出了基于模糊神經(jīng)推理算法的實驗結(jié)果以及算法性能分析,并與一系列人臉識別算法進行了比較.實驗結(jié)果表明,本文提出的人臉識別算法具有良好的識別性能及魯棒性.
本文選擇目前使用最廣泛的英國劍橋大學AT&T實驗室創(chuàng)建的ORL人臉數(shù)據(jù)庫來設計實驗.圖1是ORL人臉數(shù)據(jù)庫中的一組人臉圖像.
圖1 ORL人臉數(shù)據(jù)庫的一組圖例Figure 1 A group of sample images from ORL
由于該人臉數(shù)據(jù)庫種類覆蓋面廣,且個體表情、配飾豐富,因此是人臉識別研究的首選數(shù)據(jù)庫.ORL人臉數(shù)據(jù)庫包括從1992年4月~1994年4月拍攝的一系列人臉圖像,由40個人的400幅灰度圖像組成,圖像尺寸為92×112像素,圖像背景為黑色.由于人臉是塑性可變形體,表情的變化、有無戴眼鏡、不同的姿態(tài)都使拍攝的人臉看起來有所不同,為了反映這些變化,每一個人拍攝10幅圖像,其中人臉臉部表情和細節(jié)均有變化.
對于模糊模型來說模型結(jié)構(gòu)的確定主要包括2個方面:一是輸入變量的選擇.這包括物理輸入量和狀態(tài)變量的選擇.可以依據(jù)專家知識、對過程特性的理解和模型的用途來考慮如何選擇合適的輸入變量.然后參考某種準則,使用自動數(shù)據(jù)驅(qū)動選擇程序來比較不同結(jié)構(gòu)的性能,選擇較好的模型結(jié)構(gòu);二是隸屬函數(shù)的確定、形式及規(guī)則數(shù)量的選擇.這2種結(jié)構(gòu)參數(shù)是相互關聯(lián)的,它們決定了模型的復雜程度及對輸入空間的劃分方式.
在模糊系統(tǒng)的設計過程中,規(guī)則數(shù)目的確定非常重要.規(guī)則數(shù)量過多會令模糊系統(tǒng)變得過于復雜;規(guī)則過少會令模糊系統(tǒng)的作用削弱,導致難以達到足夠的擬合能力.對于每一個模糊子空間,系統(tǒng)的局部模型可用一個線性方程表達,而系統(tǒng)的總輸出則為各局部線性模型輸出的加權(quán)和.對于一階“Takagi Sugeno”模型,模糊規(guī)則數(shù)設為2,那么具體規(guī)則集如式(1)所示.
圖2是本文基于子圖分割和模糊神經(jīng)推理算法的人臉識別系統(tǒng)流程圖.主要步驟包括人臉圖像的載入、人臉圖像的子圖分割、人臉圖像的特征提取、模糊神經(jīng)推理系統(tǒng)的訓練和人臉圖像的識別.
模糊神經(jīng)推理系統(tǒng)模型可表現(xiàn)為一個多層前饋網(wǎng)絡,同一層節(jié)點具有相同類型的輸出函數(shù),不同層節(jié)點具有不同的輸出函數(shù).模糊神經(jīng)推理系統(tǒng)拓撲結(jié)構(gòu)如圖3所示,每維坐標方向上生成的模糊子系統(tǒng)為一階單輸出的Takagi-Sugeno模型.其輸入為子圖分割特征向量,模糊規(guī)則數(shù)設為P,輸出為一組
圖2 基于模糊神經(jīng)推理的人臉識別系統(tǒng)流程圖Figure 2 The flow chart of fuzzy neural inference based face recognition system
圖3 模糊神經(jīng)推理系統(tǒng)的基本拓撲結(jié)構(gòu)示意圖Figure 3 Topological structure of fuzzy neural inference system
第1層:輸入層,該層由N個節(jié)點構(gòu)成,模糊神經(jīng)元僅起到傳遞作用,即:
第2層:該層節(jié)點的作用是對輸入信號進行模糊化,該層共由T個節(jié)點組成,A是與該節(jié)點有關的語言變量.也就是說,O2i是輸入信號樣本的對應模糊集隸屬度,它確定了給定輸入信號樣本滿足A的程度,實現(xiàn)了模糊化,A的隸屬函數(shù)可以是任何合適的參數(shù)化隸屬函數(shù),這里使用高斯函數(shù):
其中,高斯函數(shù)的參數(shù)(mi,σi)由系統(tǒng)訓練過程得到.由于該層隸屬度參數(shù)為非線性,且位于模糊規(guī)則的“如果”部分,所以該層的參數(shù)又稱為前件參數(shù).
第3層:實現(xiàn)模糊推理系統(tǒng)前件部分的模糊合成運算,也就是各個輸入值的模糊“乘”運算,即:
第4層:實現(xiàn)模糊推理系統(tǒng)后件部分的模糊蘊含運算,節(jié)點的傳遞函數(shù)為線性函數(shù),表示模糊推理系統(tǒng)后件部分的線性模型.其輸出如下式所示.
其中(qi,1,qi,2,…,qi,N-1,qi,N,qi,N+1)是第 i個節(jié)點的輸出語言變量參數(shù)集,即規(guī)則后件參數(shù),由系統(tǒng)訓練過程得到.
第5層:解模糊層,計算模糊神經(jīng)推理系統(tǒng)的總輸出:
此種模糊多層前饋網(wǎng)絡不但在輸入輸出端口與具體的模糊系統(tǒng)等效,而且網(wǎng)絡內(nèi)部與模糊系統(tǒng)的模糊化、模糊推理、解模糊相對應,可以用模糊系統(tǒng)的有關概念來解釋,因而這種網(wǎng)絡內(nèi)部是透明的.模糊系統(tǒng)的模糊規(guī)則及隸屬函數(shù)參數(shù)的修改,在模糊多層前饋網(wǎng)絡中轉(zhuǎn)變?yōu)榫植抗?jié)點或權(quán)值的確定和調(diào)整.
本文中模糊神經(jīng)推理系統(tǒng)的訓練采用BP算法,該算法建立在梯度下降算法的基礎上,即權(quán)值的修正量取誤差函數(shù)E(W)對W的負梯度.在一個L層的模糊神經(jīng)網(wǎng)絡系統(tǒng)中,設第k層上有nk個節(jié)點,且訓練樣本集中有P組輸入、輸出數(shù)據(jù),定義第p(1≤p≤P)組數(shù)據(jù)對應的目標函數(shù)為均方根誤差:
輸出節(jié)點(L,i)的誤差變化率為:
對內(nèi)部節(jié)點(k,i)(1≤k≤L-1),其誤差變化率可以根據(jù)鏈式法則由下式推導出:
設α是ANFIS網(wǎng)絡的一個待調(diào)整的參數(shù),則
其中S代表輸出依賴α的節(jié)點集,總誤差E對α的偏導數(shù)為:
為了盡快地減小目標誤差,沿著目標誤差函數(shù)斜率下降的方向調(diào)整 α,即 Δα=-η?E/?α,η 稱為學習速率,可以根據(jù)目標誤差減小的情況進行調(diào)整.
采用ORL數(shù)據(jù)庫進行實驗.該人臉庫共包括40人,每人10副圖像,共計400副圖像.系統(tǒng)可選參數(shù)包括子圖分割數(shù)量、模糊語言變量數(shù)及模糊規(guī)則數(shù)及結(jié)構(gòu).其中,子圖分割數(shù)量直接影響圖像特征的豐富程度.理論上來說,子圖分割數(shù)量越大,圖像特征量越多,特征越豐富,但同時會導致模糊神經(jīng)推理系統(tǒng)的輸入量維數(shù)增多,從而使得系統(tǒng)過于復雜,訓練時間急劇上升.
圖4 基于二維子圖分割的示意圖Figure 4 Face image base on two dimension sub-image dividing
表1 基于二維子圖分割的系統(tǒng)正確識別率Table 1 The performance of sub-image division based face recognition system
為了深入分析子圖分割方式對人臉識別系統(tǒng)的性能影響,本文研究了不同二維子圖分割方式的系統(tǒng)性能,如圖4所示.二維子圖分割的系統(tǒng)性能參數(shù)如表1所示.實驗發(fā)現(xiàn)當子圖分割數(shù)目過大時,導致神經(jīng)網(wǎng)絡輸入維數(shù)過多,系統(tǒng)過于復雜,以至于實驗機內(nèi)存溢出.其中,實驗機所能承受的神經(jīng)網(wǎng)絡輸入最大維數(shù)為32.此外,由于模糊神經(jīng)推理系統(tǒng)復雜度極高,輸入達到20維時,訓練耗時已達到10 h為單位.綜合以上客觀原因,本文中二維子圖分割數(shù)目上限分析至25.
將表1的實驗結(jié)果進行三次樣條插值得到系統(tǒng)性能圖(圖5).其中,X軸及Y軸非整數(shù)部分值為擬合結(jié)果,并無實際意義.總的來說,在本文所取子圖分割范圍內(nèi),系統(tǒng)性能一直隨子圖分割數(shù)目增多而提高,在極限處趨于收斂.三維曲面在X=5,Y=5處達到峰值85.5%,該子圖分割方式如圖4(b)所示.該子圖分割很好地保留了諸如眼睛、耳朵、鼻梁、鼻尖以及下顎等諸多局部特征的局部完整性,系統(tǒng)性能達到最佳.
圖5 二維子圖分割的系統(tǒng)性能擬合圖Figure 5 Fitting chartof sub-image division based face recognition system
對比實驗采用“特征臉”算法,在同等實驗條件下.將訓練集圖像向量通過K-L變換進行降維,保留k個特征值最大的特征向量組成低維線性向量空間,即特征子空間.將測試集的人臉圖像向特征子空間進行投影,并求得投影結(jié)果與每個訓練集投影結(jié)果的歐氏距離.若此距離小于閾值,則認為人臉匹配成功.
以X=5,Y=5進行子圖分割,實驗結(jié)果正確識別人臉圖像共計171副,平均正確識別率85.5%.在同一實驗背景下,經(jīng)典“特征臉”算法的正確識別人臉圖像為156副,平均正確識別率為78%.基于模糊神經(jīng)推理算法與經(jīng)典“特征臉”算法的性能曲線對比如圖6所示.對第14及第17組樣本,“特征臉”算法正確識別率為0%,而模糊神經(jīng)推理算法有了一定的改善,識別率分別為60%及20%.模糊神經(jīng)推理算法正確識別率低于“特征臉”算法的樣本只有第3、第5以及第40組,共計3組,可以認為模糊神經(jīng)推理算法的正確識別率較好.
圖6 ANFIS與Eigenface算法的性能曲線對比Figure 6 The comparison on performance curve between the ANFISand Eigenface
如表2所示,二者的系統(tǒng)測試耗時相對近似,200張人臉圖片的測試時間分別為3.58 s和8.46 s,平均每張圖片測試時間分別為0.02 s和0.04 s.考慮到系統(tǒng)訓練過程在離線階段完成,實際工程應用中主要涉及的性能指標是在線測試耗時,因此模糊神經(jīng)推理算法離線訓練階段耗時比較大的問題對實際系統(tǒng)使用影響不大.
表2 2種人臉識別算法的在線階段系統(tǒng)耗時對比表Table 2 The online time consuming of two face recognition algorithm /s
將實驗條件改為:取ORL人臉庫每組前5副圖像用于訓練,所有的400幅圖像作為測試集,以X=5,Y=5進行子圖分割,實驗結(jié)果正確識別人臉圖像共計371副,識別率為92.8%.與同等實驗條件下特征臉算法(Eigenface)、局部二值模式算法(LBP)、基于熱核的局部二值模式算法(HKLBP)、基于半動態(tài)外觀模型的人臉識別算法(SAAM)進行結(jié)果比較[3,10],如表3 所示.本文算法的識別率稍優(yōu)于 LBP的 92.3% 與 SAAM 的 90.6%,低 于 HKLBP 的99.5%.本文算法效果與最新研究成果仍存在一定差距,但是本文的算法作為一種新的人臉識別技術方案,在改進系統(tǒng)第二層中的隸屬函數(shù)和神經(jīng)網(wǎng)絡學習算法等方面有進一步改進的可能性.
表3 本文算法與其他一些算法的識別精度對比Table 3 The accuracy comparison of several face recognition algorithms %
觀察本實驗采用的ORL人臉庫可知,其中同一個人的面部圖像包含了各種細節(jié)差別,例如笑與不笑、眼睛的睜閉、是否佩戴眼鏡、表情姿態(tài)、拍攝角度等.因此本文的識別算法對表情差異、圖像拍攝角度等方面具有一定的容錯性.
實驗結(jié)果驗證了本文的理論分析,即模糊邏輯算法區(qū)別于布爾邏輯之處在于其不確定性,其將輸入離散為多維隸屬度,并在輸出時按加權(quán)和判決的思想十分符合人腦的整個人臉識別過程.此外,神經(jīng)網(wǎng)絡與模糊邏輯具有很好的技術互補性.因此,基于模糊神經(jīng)推理算法的人臉識別系統(tǒng),具有較好的技術優(yōu)勢.
近年來,人臉識別逐漸成為模式識別領域中的研究熱點之一,同時也是一項具有應用前景的技術.本文提出了一種基于模糊神經(jīng)推理算法的人臉識別系統(tǒng),通過對ORL人臉數(shù)據(jù)庫中的400副人臉圖像進行實驗,論證了基于模糊神經(jīng)推理算法的人臉識別系統(tǒng)的有效性和實用性.
[1]鄧志才,麥瑞玲,伍成柏.計算機與個人識別技術[J].華南師范大學學報:自然科學版,1997(2):25-31.
[2]GOLDSTEIN A J,HANNON L D,LESK A B.Identification of human faces[J].Proceeding of the IEEE,1971,59(5):748-760.
[3]LIX,HU W M,ZHANG Z F.Heat kernel based local binary pattern for face representation[J].IEEE Signal Processing Letters,2010,17(3):308-311.
[4]YIN Q,TANG X OU,SUN J.An associate-predict model for face recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:497-504.
[5]XIE S F,SHAN SG,CHEN X L,et al.Fusing local patterns of gabormagnitude and phase for face recognition[J].IEEE Trans on Image Processing,2010,19(5):1349-1361.
[6]LIB,CHANGH,SHAN SG,etal.Low-resolution face recognition via coupled locality preserving mappings[J].IEEE Signal Processing Letters,2009,16(11):20-23.
[7]SIROVICH L,KIRBY M.Low-dimensional procedure for the characterization of human faces[J].Journal of the Optical Society of America A,1987,4(3):519-524.
[8]TURK M,PENTLAND A.Eigenfaces for recognition[J].Cognitive Neuroscience,1991,3(1):71-86.
[9]JORSTAD A,JACOBS D,TROUVE A.A deformation and lighting insenstive metric for face recognition based on dense correspondences[C]∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2011:2353-2360.
[10]TAN X,TRIGGSB.Enhanced local texture feature sets for face recognition under difficult lighting conditions[J].Lecture Notes in Computer Science,2007,19(6):1635-1650.
[11]楊占棟,解梅.基于半動態(tài)外觀模型的人臉識別[J].計算機工程,2011,37(24):150-151.
[12]LAWRENCE S,GILES C L,TSOI A C,et al.Face recognition:a convolutional neural network approach[J].IEEE Transactionson Neural Networks,1997,8(1):98-113.