張彥 鄭任兒
摘要:單樣本人臉識別問題是人臉識別問題中的難點問題,由于樣本數(shù)少,現(xiàn)有的人臉識別算法在處理單樣本人臉識別問題時,識別效果會顯著降低。本文提出一種基于深度卷積自編碼器的單樣本人臉識別算法。算法采用深度卷積自編碼器將多樣本個體的類內(nèi)變化遷移至單樣本個體,重構(gòu)出單樣本個體包含類內(nèi)變化的新圖像,從而提高識別率。算法在公共測試庫上進行了測試,實驗結(jié)果表明,該算法能夠重構(gòu)出單樣本個體包含其他類內(nèi)變化的人臉圖像,同時,識別率優(yōu)于原圖的識別率。
單樣本人臉識別是人臉識別問題中的難點問題。在單樣本人臉識別問題中,每個測試個體僅有一張已知樣本圖像,測試圖像通過與已知樣本圖像的對比,得到測試結(jié)果。由于人臉圖像在不同的環(huán)境、時間等情況下,會包含光照、表情、遮擋、姿態(tài)等變化,因此,當(dāng)測試圖像與已知樣本圖像拍攝的時間、環(huán)境等不同時,同一個體的人臉圖像間會存在由于表情、環(huán)境、遮擋等帶來的類內(nèi)變化,有時類內(nèi)變化會遠遠大于個體身份變化帶來的類間變化。因此,諸多人臉識別算法在處理單樣本人臉識別問題時,識別率會下降。
2012年Alex Krizhevsky等將卷積深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于Imagenet圖像識別大賽,并取得了最好成績,使得卷積深度神經(jīng)網(wǎng)絡(luò)得到廣泛推廣,并在諸如文字識別、語音識別等領(lǐng)域取得了成功。
深度神經(jīng)網(wǎng)絡(luò)要求有大量的樣本進行訓(xùn)練,當(dāng)樣本數(shù)較少時,識別結(jié)果會迅速下降。2014年Bengio等研究了深度學(xué)習(xí)中特征的可遷移性問題,遷移學(xué)習(xí)的目標(biāo)是利用已有的數(shù)據(jù),將學(xué)習(xí)到的模式應(yīng)用于相關(guān)的問題中,解決樣本數(shù)較少時的識別問題。人臉圖像的變化是具有相似性的,那么,是否可以利用已有個體的多個圖像,學(xué)習(xí)人臉圖像光照、表情、遮擋等類內(nèi)變化,將其遷移至單樣本個體,重構(gòu)出該個體的圖像,提高單樣本人臉識別的識別率?
本文提出了一種基于深度卷積自編碼器的單樣本人臉識別算法。算法試圖通過深度卷積神經(jīng)網(wǎng)絡(luò),經(jīng)過遷移學(xué)習(xí),將多樣本人臉圖像的類內(nèi)變化,推廣至單樣本人臉圖像,重構(gòu)出單樣本個體不同類內(nèi)變化圖像,增加單樣本個體的樣本數(shù),從而提高識別率。
本文算法分為以下三個步驟:
(1)采用所有已知樣本訓(xùn)練通用深度卷積自編碼器
(2)采用單樣本個體的單個樣本訓(xùn)練特定深度卷積自編碼器
(3)采用softmax回歸進行分類
深度卷積自編碼器通過神經(jīng)網(wǎng)絡(luò)的卷積與反卷積重構(gòu)出輸入圖像,輸入圖像與重構(gòu)圖像間的誤差作為損失函數(shù),訓(xùn)練深度卷積自編碼器,得到訓(xùn)練結(jié)果。
設(shè)訓(xùn)練圖像為,則第K層的特征映射為:
hk=σ(X*Wk+bk)
其中為激活函數(shù)(文中采用雙曲正切函數(shù)),為2維卷積,b為偏移量。
在重構(gòu)時,重構(gòu)圖像通過如下函數(shù)進行重構(gòu):
其中Y為重構(gòu)圖像,H為特征的集合,c為偏移量。在重構(gòu)圖像時,根據(jù)上式進行反卷積操作,重構(gòu)出新的圖像。
通過最小化輸入圖像與輸出圖像間的最小均方誤差函數(shù),對深度卷積自編碼器進行訓(xùn)練,誤差函數(shù)如下所示:
通用深度卷積自編碼器包含人臉圖像的類內(nèi)及類間信息,在訓(xùn)練時,我們將所有的已知圖像輸入深度卷積自編碼器,對所有輸入圖像進行重構(gòu),訓(xùn)練結(jié)束后,深度卷積自編碼器應(yīng)包含人臉圖像的類內(nèi)類間變化特征。
在通用深度卷積自編碼器的基礎(chǔ)上,我們采用每個單樣本個體的標(biāo)準(zhǔn)圖像,對通用深度卷積自編碼器進行微調(diào)(finetune),修改通用深度卷積自編碼器的權(quán)值,將多樣本個體的類內(nèi)變化進行遷移,得到針對每個單樣本個體的特定深度卷積自編碼器。
Softmax回歸模型可用于多目標(biāo)分類問題,通過訓(xùn)練數(shù)據(jù)得到訓(xùn)練樣本屬于某個類別的后驗概率模型,當(dāng)測試時,將測試數(shù)據(jù)輸入概率模型,得到測試數(shù)據(jù)屬于每個類別的概率,最大概率給出分類結(jié)果。
本文將特定深度卷積自編碼器生成的重構(gòu)圖像及其編碼器編號作為訓(xùn)練樣本,生成類別概率模型,再將測試圖像輸入分類器,得到分類結(jié)果。
本節(jié)在AR Database上進行測試實驗。AR Database 包含100個人,每人13張包含不同表情、光照及遮擋的人臉圖像,其中50人性別為男,50人性別為女。AR Database中的圖像如下圖所示。
圖1中(a)為個體的標(biāo)準(zhǔn)圖像,該圖像沒有遮擋、表情及光照的變化,圖1中(b)為包含表情、光照及遮擋的人臉照片。
本文選擇50個人(25人男性,25人女性)的所有照片及另外50人的標(biāo)準(zhǔn)圖像(共700幅圖像)作為通用深度卷積自編碼器的訓(xùn)練樣本,所有圖像轉(zhuǎn)換為灰度圖像,抽取為30*30的圖像,輸入深度卷積自編碼器進行訓(xùn)練,生成通用深度卷積自編碼器。
生成通用深度卷積自編碼器后,選取剩余50人的標(biāo)準(zhǔn)圖像,經(jīng)過灰度化及抽取,轉(zhuǎn)換為單通道30*30的圖像,圖像復(fù)制,生成500個樣本,輸入通用深度卷積自編碼器進行微調(diào),生成50個特定深度卷積自編碼器。
測試時,選取人臉庫中除訓(xùn)練圖像外的所有圖像(共600幅)作為測試圖像,將測試圖像輸入50個特定深度卷積自編碼器,得到測試圖像的重構(gòu)圖像,重構(gòu)圖像的類別為特定深度卷積自編碼器的類別。識別時,將測試圖像與重構(gòu)圖像輸入softmax分類器,給出識別結(jié)果。
特定深度卷積自編碼器的輸入圖像及重構(gòu)圖像如圖2所示。
本文分別測試了卷積核為7、15、23、29時的識別結(jié)果,識別率結(jié)果如圖3所示。表1 給出了相同訓(xùn)練樣本及相同測試樣本情況下,采用softmax回歸的分類結(jié)果,以及本文算法的識別結(jié)果(卷積核為29)。通過對比,表明本文算法可以提高單樣本識別問題的識別率。
本文提出了一種基于深度卷積自編碼器的單樣本人臉識別算法,算法將多樣本個體的類內(nèi)變化遷移至單樣本個體,重構(gòu)出單樣本個體的新圖像,采用重構(gòu)圖像進行識別,提高識別率。實驗表明,本文算法能夠重構(gòu)出單樣本個體在不同環(huán)境下包含類內(nèi)變化的圖像,識別率優(yōu)于原圖采用相同分類算法的識別率。
[1]Krizhevsky, Alex , I. Sutskever , and G. Hinton . "ImageNet Classification with Deep Convolutional Neural Networks." NIPS Curran Associates Inc. 2012.
[2]Yosinski, Jason , et al. "How transferable are features in deep neural networks?." International Conference on Neural Information Processing Systems MIT Press, 2014.
[3]Jonathan Masci, Ueli Meier, Dan Cire?an, Jürgen Schmidhuber, Stacked Convolutional Auto-Encoders for Hierarchical Feature Extraction,Artificial Neural Networks and Machine Learning (ICANN), 2011, pp: 52-59.