李光早,王士同
(江南大學 數(shù)字媒體學院,江蘇 無錫 214122) (*通信作者電子郵箱firstliguangzao@163.com)
基于稀疏表示和彈性網(wǎng)絡(luò)的人臉識別
李光早*,王士同
(江南大學 數(shù)字媒體學院,江蘇 無錫 214122) (*通信作者電子郵箱firstliguangzao@163.com)
由于稀疏表示方法在人臉分類算法中的成功使用,在此基礎(chǔ)上提出了一種更為有效的基于稀疏表示(SRC)和彈性網(wǎng)絡(luò)相結(jié)合的分類方法。為了加強樣本間的協(xié)作表示能力以及增強處理強相關(guān)性變量數(shù)據(jù)的能力,基于迭代動態(tài)剔除機制,提出一種結(jié)合彈性網(wǎng)絡(luò)的稀疏分解方法。通過采用訓練樣本的線性組合來表示測試樣本,并運用迭代機制從所有樣本中剔除對分類貢獻度較小的類別和樣本,采用Elastic Net算法來進行系數(shù)分解,從而選擇出對分類貢獻度較大的樣本和類別,最后根據(jù)計算相似度對測試樣本進行分類。在ORL、FERET和AR 三個數(shù)據(jù)集進行了許多實驗,實驗結(jié)果顯示算法識別率分別達到了98.75%、86.62%、99.72%,表明了所提算法的有效性。所提算法相比LASSO和SRC-GS等方法,在系數(shù)分解過程中增強了處理高維小樣本和強相關(guān)性變量數(shù)據(jù)的能力,突出了稀疏約束在該算法中的重要性,具有更高的準確性和穩(wěn)定性,能夠更加有效地適用于人臉分類。
稀疏表示;彈性網(wǎng)絡(luò);人臉識別;嶺估計;Lasso估計
盡管目前人臉識別技術(shù)在現(xiàn)實生活當中得到了許多應(yīng)用,但是人臉識別技術(shù)仍然是研究的熱點。在人臉識別的實際應(yīng)用過程中會受到外部許多因素的干擾而使面部識別效果降低,比如不同的光照條件、面部表情、姿勢和遮擋等因素,而且面部有效的可鑒別特征存在于高維圖像的子空間中。高維子空間中存在大量的冗余信息,這樣不但消耗大量的數(shù)據(jù)處理時間,而且對最后的分類結(jié)果造成很大的影響。
傳統(tǒng)的人臉識別方法是通過變換軸來進行分類的,研究人員提出了許多局部線性變換方法,這類算法的變換軸是通過訓練樣本來進行構(gòu)造的。Harandi等[1]嘗試獲得面部空間局部最優(yōu)的變換軸。Sugiyama等[2]提出了一種十分有效的處理樣本多樣化問題的變換方法,這種變換方法結(jié)合了線性鑒別分析(Linear Discriminant Analysis, LDA)和局部保持投影(Locality Preserving Projection, LPP)。Liu等[3]提出在特征提取過程中使用了局部主成分分析(Local Principal Component Analysis, LPCA)方法。
在圖像重建[4]過程中使用稀疏表示(Sparse Representation-based Pattern Classification, SRC)是近期研究的熱點,將稀疏表示理論運用到人臉識別中,利用訓練樣本來線性地表示測試樣本,通過計算測試樣本與訓練樣本的線性表示的誤差來進行樣本的分類。文獻[5-10]都是使用訓練樣本的線性組合來表示測試樣本。在處理高維小樣本數(shù)據(jù)時,可以有效地避免維數(shù)災(zāi)難以及因降維而導致數(shù)據(jù)結(jié)構(gòu)信息的缺失,這樣可以提高人臉識別算法在實際應(yīng)用過程中的魯棒性。
基于SRC的方法中,訓練樣本的優(yōu)化問題是最基本問題[10],強化了樣本之間的可辨別性。Zhang等[11]經(jīng)過分析SRC模型中的協(xié)作表示(Collaborative Representation ,CR)特性后,并證實了在SRC模型中,協(xié)作表示機制在分類中起到了關(guān)鍵性作用。而訓練樣本的優(yōu)化也是必不可少的,在樣本優(yōu)化過程中,首先應(yīng)該使得稀疏表示的測試樣本的誤差最小,其次還要使得真正的類別的稀疏系數(shù)達到最大,因此研究人員引進了貪婪搜索策略來弱化稀疏性約束條件。
Bo等[12]提出的匹配追蹤(Matching Pursuit, MP)和Wang等[13]提出的正交匹配追蹤(Orthogonal Matching Pursuit, OMP)是貪婪搜索算法的兩種方法。MP算法通過迭代的方式每次在訓練樣本中得到一個與測試樣本最匹配的訓練樣本,然后計算殘差,計算完成之后,再繼續(xù)尋找下一個最匹配的訓練樣本,直到符合最初設(shè)置的允許最小誤差值,跳出迭代循環(huán)。OMP算法是對MP算法的改進,OMP在分解的每一步都會對所要選擇的全部訓練樣本進行正交化處理。貪婪搜索算法的特點是通過迭代無限逼近測試樣本,通過先求局部最優(yōu)解,逐步地搜索到全局最優(yōu)解,但是這種方法在人臉識別過程中取得的效果不是很理想。
因此,在實際的人臉識別過程中,系數(shù)分解時的稀疏約束條件是必要的。研究人員提出了一種新的變量選擇技術(shù)最小絕對壓縮方法,即 LASSO(Least Absolute Shrinkage and Selection Operator)[14]。LASSO估計是用于描述約束問題的一種壓縮估計,它通過構(gòu)造一個懲罰函數(shù)來得到一個簡單精煉的模型,使得有些變量的系數(shù)等于或者趨近于零,因此具有變量選擇的作用。LASSO估計可以進行連續(xù)的選擇變量和模型參數(shù)估計。研究人員對LASSO進行了改進并提出了最小角回歸(Least Angle RegreSsion, LARS)算法[15]。這種方法的提出使得 LASSO算法的計算更加簡單,使得 LASSO算法在特征選擇和參數(shù)估計方面得到了更廣泛的應(yīng)用。然而LASSO估計有自己的不足之處,對于高維小樣本數(shù)據(jù),會使得出來的模型過于稀疏,使得系數(shù)分解時得到的誤差較大;而且LASSO估計對于向量間具有強相關(guān)性的數(shù)據(jù),得到的結(jié)果也不是很理想。
鑒于上述算法的不足之處,本文提出了基于彈性網(wǎng)絡(luò)(Elastic Network)的SRC模型,Zou等[16]提出了一種新的特征選擇的算法叫作 Elastic Net。這種方法在自變量數(shù)目遠遠大于樣本容量時,能夠有效地進行向量選擇,使得模型不至于過度稀疏,而且該算法能夠有效地處理強相關(guān)性變量的數(shù)據(jù),即有較好的自變量分組效應(yīng)。
相對其他算法,彈性網(wǎng)絡(luò)在模型變量選擇方面表現(xiàn)會更加地好,在ORL、FERET和AR三個數(shù)據(jù)集的仿真實驗結(jié)果進一步證明了,人臉識別率有了很大的提高。
假設(shè)存在L類共計n個訓練樣本,訓練樣本記作n個列向量x1,x2,…,xn,假定測試樣本y可以近似地表示為訓練樣本的線性組合,即:
(1)
從式(1)中可以得出,每一類的訓練樣本都可以線性地表示測試樣本,而且第i個訓練樣本對于表示測試樣本y的擬合度可記為αixi,因此所有來自第k類的訓練樣本的集合為xs,xs+1…,xt,則第k類訓練樣本的擬合總和為gk=αsxs+αs+1xs+1…+αtxt。若偏離度ek=‖y-gk‖2越小,則第k類訓練樣本與測試樣本的擬合度越大,進而將測試樣本y歸為使ek最小的那一類。
2.1SRC模型
算法的基本思路[17]是將測試樣本表示為訓練樣本的線性組合。其大體上分為兩步:第一步就是比較樣本之間的歐氏距離,剔除若干對分類影響較小或起到負作用的類別或樣本,然后在剩余的類別或樣本中進行最后的分類決策。第二步根據(jù)彈性網(wǎng)絡(luò)估計得到稀疏系數(shù),并計算誤差將測試樣本歸為誤差最小的某一類。算法描述如圖1。
圖1 算法框架示意圖
2.2 基于ElasticNet的SRC模型
LASSO估計是一種處理共線性數(shù)據(jù)的有偏估計。LASSO估計定義如下:
L(λ1,λ2,β)=‖y-Xβ‖2
(2)
此時t成為調(diào)整參數(shù)且滿足t>0,LASSO是對分解系數(shù)的絕對值進行懲罰求值,因此LASSO估計的懲罰也叫L1懲罰,其約束條件就是一些變量的分解系數(shù)的絕對值之和小于一個常數(shù)t,這樣使得一些變量的系數(shù)壓縮為零,從而起到壓縮變量的作用。
對于高維小樣本數(shù)據(jù)(p?n),LASSO估計最多可能選擇n個變量,這樣會得到過于稀疏的模型,結(jié)果對人臉的分類決策造成非常大的負面影響,進而影響分類效果。因為LASSO估計不具有組效應(yīng)性質(zhì),所以該算法在處理向量間具有強相關(guān)性的數(shù)據(jù)集時,其準確率和效果很差。LASSO估計對于每個分解系數(shù)不作區(qū)別進行相同程度的壓縮,這樣的后果會使某些系數(shù)過度壓縮,更加影響分類準確率。
彈性網(wǎng)絡(luò)能夠有效地彌補上述算法的不足,很大程度上提高了算法識別率。研究人員提出了一種高維變量選擇的算法叫作彈性網(wǎng)絡(luò)(ElasticNetwork),相比貪婪搜索策略和LASSO的稀疏分解方法,本文提出的稀疏分解方法增加了ElasticNet懲罰項,懲罰項的作用主要是保證最小二乘解的魯棒性和強化解向量的稀疏性,使得模型更加簡單精煉,準確率也有很大的提高。彈性網(wǎng)絡(luò)還可以有效地處理高維小樣本數(shù)據(jù),不會使模型過于稀疏影響分類精度。ElasticNet有組效應(yīng)性質(zhì),它將強相關(guān)性變量組全部剔除或者保留,能夠保證每次得到的解是最優(yōu)的,因此將ElasticNet算法應(yīng)用在模型中的第二步對每類圖像中的樣本進行變量選擇。
對于固定的非負值λ1和λ2,彈性網(wǎng)絡(luò)準則定義如下:
(3)
(4)
算法流程如下:
1)假定有L個人臉n張圖片,先將樣本的圖片轉(zhuǎn)換成一維列向量,每一個列向量代表一張人臉圖片,則n個列向量構(gòu)成一個矩陣。
2)將矩陣中的所有的列向量標準化,并隨機分成訓練樣本和測試樣本矩陣。
3)首先根據(jù)訓練樣本和測試樣本的歐氏距離,剔除距離最大的若干類和樣本,完成訓練樣本的第一次更新。
4)在剩余的訓練樣本中使用彈性網(wǎng)絡(luò)完成稀疏系數(shù)的分解,完成訓練樣本的第二次更新,此次更新需要滿足終止條件(誤差需要小于某一個值)。
5)停止更新,根據(jù)得到的稀疏解的計算結(jié)果和測試樣本進行比較,那么測試樣本歸為誤差最小的那一類。
2.3 算法時間復(fù)雜度
假設(shè)n個人臉圖像為訓練樣本,經(jīng)過m次迭代以后剩余的樣本個數(shù)為n-m個,每個樣本是p×1的向量。而總的樣本個數(shù)為D,則算法對數(shù)據(jù)進行處理一次的時間復(fù)雜度為O(m3)+O(pm2),每次剔除貢獻度小的樣本的時間復(fù)雜度為O(n),所以整個動態(tài)類別剔除機制的總的時間復(fù)雜度為O(nm3)+O(npm2)+O(n2),而剩余的n-m個樣本的分解過程,其時間復(fù)雜度為O(mlbp)。總的時間復(fù)雜度為O(nm3)+O(npm2)+O(n2)。
為了與上述方法進行比較,本文采用了ORL、FERET和AR三個人臉數(shù)據(jù)庫進行了大量實驗,這三個數(shù)據(jù)庫中的照片是在特定的外部條件下采集。
圖2 人臉數(shù)據(jù)庫中的部分標準圖像
ORL數(shù)據(jù)庫共計400幅圖像,分別來自40個類別,每個類別提供10幅樣本圖像。
FERET人臉數(shù)據(jù)庫是人臉識別的一個標準數(shù)據(jù)庫,本文只使用了數(shù)據(jù)庫的一部分圖像。共計1 400幅圖像,分別來自200個類別,每個類別提供7幅樣本圖像。
AR人臉數(shù)據(jù)庫中共計使用了3 120幅圖像,分別來自120個類別,每個類別提供26幅樣本圖像。
首先將來自O(shè)RL數(shù)據(jù)庫中的人臉圖像降采樣為46×56的尺寸大小,同樣的FERET和AR人臉數(shù)據(jù)庫圖像分別降采樣為40×40和40×50的尺寸大小。
特別指出的是所提出的人臉識別方法能夠比較魯棒地解決遮擋問題,因此本文分別對ORL、FERET和AR數(shù)據(jù)庫進行了面部有遮擋的實驗。三個數(shù)據(jù)集的實驗參數(shù)如表1所示。本文算法是采用Matlab程序來實現(xiàn)的。
表1 3個人臉測試數(shù)據(jù)集的實驗參數(shù)
圖3所示,表示對ORL數(shù)據(jù)庫不同的稀疏分解方法在不同的訓練樣本的情況下的分類識別率的變化。圖中顯示的是SRC、LASSO、OMP、ElasticNet算法作稀疏分解時分類算法的最終識別率。從圖中可以看出本文提出算法的有效性。
表2列出了在ORL數(shù)據(jù)庫上,SRC、CRC(CollaborativeRepresentationbasedClassification)、SRC-LARS、SRC-GS和本文提出的SRC-EN方法的分類準確率和部分識別率較高的算法運行時間。SRC-LARS為基于LARS的稀疏表示的人臉識別方法,SRC-GS(GreedySearch)為基于貪婪搜索的稀疏表示的人臉識別方法。SRC-EN是本文提出的基于ElasticNet的算法。
圖3 ORL庫下不同的稀疏分解方法在不同的訓練樣本下的識別率
比較項目方法訓練樣本數(shù)3456分類識別率/%時間/sSRC90.65±0.0893.24±0.0595.22±0.0696.33±0.07CRC91.78±0.0495.08±0.0496.40±0.0297.73±0.05SRC?LARS90.85±0.0494.05±0.0495.34±0.0496.32±0.04SRC?GS91.81±0.0695.14±0.0596.42±0.0597.88±0.05SRC?EN95.70±0.0996.25±0.0697.50±0.0598.75±0.08SRC?LARS263.65465.23586.32618.75SRC?GS98.68120.86201.17280.59SRC?EN287.62479.31595.95634.57
表3列出了在FERET和AR數(shù)據(jù)庫上,SRC、CRC、SRC-LARS、SRC-GS和本文提出的SRC-EN方法的分類準確率和運行時間。
表3 FERET和AR上不同方法的識別率和時間比較
傳統(tǒng)的SRC方法中,將測試樣本用訓練樣本來線性表示,在理想狀態(tài)下,只有與測試樣本同類別的訓練樣本的系數(shù)較大,其余類別的訓練樣本的系數(shù)為零,但是在實際情況下,由于外部條件的影響下,如噪聲、光照變化、遮擋等影響,使得分解系數(shù)不是稀疏的。因此在SRC模型中,本文引進了彈性網(wǎng)絡(luò)約束來求解稀疏表示系數(shù),使得測試樣本的重構(gòu)誤差減小,并且突出了真正的類別;而且該算法能夠有效地處理高維小樣本和具有強相關(guān)性變量的人臉數(shù)據(jù)集,具有很高的適應(yīng)性,但是由于算法比較復(fù)雜,因此算法時間復(fù)雜度相比傳統(tǒng)的算法稍微大一些。
人臉識別算法一般是建立在子空間的特征提取的基礎(chǔ)之上的,但是在人臉識別算法的應(yīng)用過程中,子空間的提取的穩(wěn)定性會受到表情、光照和姿勢等的影響,影響了人臉識別的效果。本文提出了一種基于稀疏表示和彈性網(wǎng)絡(luò)的人臉分類方法。這種方法將測試樣本表示成訓練樣本線性組合的方式,并且通過迭代方式來剔除對分類產(chǎn)生負作用的若干個樣本,同時能夠使得對分類起到?jīng)Q定作用的類別的稀疏系數(shù)變大。在系數(shù)分解過程中稀疏性約束是必要的,因此不能簡單地被弱化,本文采用彈性網(wǎng)絡(luò)增加了ElasticNet懲罰項。一方面保證了最小二乘解的魯棒性,另一方面強化了解向量的稀疏性。對于人臉數(shù)據(jù)集來說,樣本向量之間具有強相關(guān)性。相對于傳統(tǒng)的貪婪搜索策略,ElasticNet具有組效應(yīng)性質(zhì),保證每一步能夠得到最優(yōu)解,而且還能夠有效地處理高維小樣本數(shù)據(jù),使得模型不會過于稀疏。仿真實驗表明人臉分類識別率有明顯的提高,適應(yīng)性很高,具有較高的研究價值。相比于傳統(tǒng)的變量選擇方法該算法比較復(fù)雜,運行比較耗時,因此在保證準確率的前提下,注重效率是以后要研究的內(nèi)容。
)
[1]HARANDIMT,AHMADABADIMN,ARAABIBN.Optimallocalbasis:areinforcementlearningapproachforfacerecognition[J].InternationalJournalofComputerVision, 2009, 81(2): 191-204.
[2]SUGIYAMAM.DimensionalityreductionofmultimodallabeleddatabylocalFisherdiscriminantanalysis[J].JournalofMachineLearningResearch, 2007, 8: 1027-1061.
[3]LIUZY,CHIUKC,XUL.Improvedsystemforobjectdetectionandstar/galaxyclassificationvialocalsubspaceanalysis[J].NeuralNetworks, 2003, 16(3/4): 437-451.
[4] 孫玉寶.圖像稀疏表示模型及其在圖像處理反問題中的應(yīng)用[D].南京:南京理工大學,2010:1-10.(SUNYB.Imagesparserepresentationtheoryanditsapplicationtoimageprocessinginverseproblems[D].Nanjing:NanjingUniversityofScienceandTechnology, 2010:1-10.)
[5]WRIGHTJ,MAY,MAIRALJ,etal.Sparserepresentationforcomputervisionandpatternrecognition[J].ProceedingsoftheIEEE, 2010, 98(6): 1031-1044.
[6]WRIGHTJ,YANGAY,GANESHA,etal.Robustfacerecognitionviasparserepresentation[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2009, 31(2): 210-227.
[7]YANGM,ZHANGL,YANGJ,etal.Robustsparsecodingforfacerecognition[C]//Proceedingsofthe2011IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2011: 625-632.
[8]XUY,FANGX,LIX,etal.Datauncertaintyinfacerecognition[J].IEEETransactionsonCybernetics, 2014, 44(10): 1950-1961.
[9]XUY,ZHUX,LIZ,etal.Usingtheoriginaland‘symmetricalface’trainingsamplestoperformrepresentationbasedtwo-stepfacerecognition[J].PatternRecognition, 2013, 46(4): 1151-1158.
[10] 朱杰,楊萬扣,唐振民.基于字典學習的核稀疏表示人臉識別方法 [J].模式識別與人工智能,2012,25(5):859-864.(ZHUJ,YANGWK,TANGZM.Adictionarylearningbasedkernelspamrepresentationmethodforfacerecognition[J].PatternRecognitionandArtificialIntelligence, 2012, 25(5): 859-864.)
[11]ZHANGL,YANGM,FENGX.Sparserepresentationorcollaborativerepresentation:Whichhelpsfacerecognition? [C]//Proceedingsofthe2011InternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2011: 471-478.
[12]BOL,RENX,FOXD.Hierarchicalmatchingpursuitforimageclassification:architectureandfastalgorithms[EB/OL]. [2016- 02- 03].http://papers.nips.cc/paper/4473-hierarchical-matching-pursuit-for-image-classification-architecture-and-fast-algorithms.pdf.
[13]WANGJ,KWONS,SHIMB.Generalizedorthogonalmatchingpursuit[J].IEEETransactionsonSignalProcessing, 2012, 60(12): 6202-6216.
[14]DAGHIRWOJTKOWIAKE,WICZLINGP,BOCIANS,etal.Leastabsoluteshrinkageandselectionoperatoranddimensionalityreductiontechniquesinquantitativestructureretentionrelationshipmodelingofretentioninhydrophilicinteractionliquidchromatography[J].JournalofChromatographyA, 2015, 1403: 54-62.
[15]SHAHRIARIS,FARIAS,GONCALVESAM,etal.Outlierdetectionandrobustvariableselectionforleastangleregression[M]//ComputationalScienceandItsApplications—ICCSA2014,LNCS8581.Berlin:Springer, 2014: 512-522.
[16]ZOUH,HASTIET.Regularizationandvariableselectionviatheelasticnet[J].JournaloftheRoyalStatisticalSociety, 2005, 67(2): 301-320.
[17]MARONNARA.Robustridgeregressionforhigh-dimensionaldata[J].Technometrics, 2011, 53(1): 44-53.
[18] 劉梓,宋曉寧,唐振民.稀疏表示和貪婪搜索的人臉分類[J].中國圖象圖形學報,2015,20(1):39-49.(LIUZ,SONGXN,TANGZM.Sparserepresentationbasedfacerecognitionclassificationalgorithmusinggreedysearchstrategy[J].JournalofImageandGraphics, 2015, 20(1): 39-49.)
[19]VURALV,FUNGG,KRISHNAPURAMB,etal.Usinglocaldependencieswithinbatchestoimprovelargemarginclassifiers[J].JourhalofMachineLearningResearch, 2009,10: 183-206.
ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61272210).
LI Guangzao, born in 1988, M. S. candidate. His research interests include artificial intelligence, pattern recognition.
WANG Shitong, born in 1964. M. S., professor. His research interests include artificial intelligence, pattern recognition, neuro-fuzzy system, bioinformatics.
Face recognition based on sparse representation and elastic network
LI Guangzao*, WANG Shitong
(SchoolofDigitalMedia,JiangnanUniversity,WuxiJiangsu214122,China)
Because of the successful use of the sparse representation in face classification algorithm, a more efficient classification method based on Sparse Representation-based pattern Classification (SRC) and elastic network was proposed. To enhance the ability of collaborative representation and enhance the ability to deal with strongly correlated data, a sparse decomposition method based on elastic network was proposed based on the iterative dynamic culling mechanism. Test samples were represented by a linear combination of training samples, and the iterative mechanism was used to remove the categories and samples with less contribution to the classification from all the samples, the Elastic Net algorithm was used for coefficient decomposition to select the samples and classes with high contribution to the classification. Finally, the test samples were classified according to the similarity. The experiment results show that the recognition rate of the algorithm is 98.75%, 86.62% and 99.72% respectively for the ORL, FERET and AR data sets which shows the effectiveness of the proposed algorithm. Compared with the methods of LASSO and SRC-GS, the proposed algorithm can enhance the ability of dealing with high-dimension small sample and strongly correlated variable data in the process of coefficient decomposition. It highlights the importance of sparse constraint in the algorithm and has higher accuracy and stability, and can be more effectively applied to face classification.
sparse representation; elastic network; face recognition; ridge estimation; Lasso estimation
2016- 09- 18;
2016- 11- 17。 基金項目:國家自然科學基金資助項目(61272210)。
李光早(1988—),男,山東汶上人,碩士研究生,主要研究方向:人工智能、模式識別; 王士同(1964—),男,江蘇揚州人,教授,博士生導師,碩士,CCF會員,主要研究方向:人工智能、模式識別、神經(jīng)模糊系統(tǒng)、生物信息學。
1001- 9081(2017)03- 0901- 05
10.11772/j.issn.1001- 9081.2017.03.901
TP391.413
A