張 濤,吳 鍵
(南京理工大學 機械工程學院,南京210094)
21世紀以來,隨著識別技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們已經(jīng)意識到基于IC/ID卡、身份證號、密碼的識別系統(tǒng)仍不夠安全。據(jù)MasterCard公司估計,美國因為信用卡安全性差造成每年有價值4.5億美元的詐騙案發(fā)生,損失巨大。生物特征的識別技術(shù)因其安全便利,顯示出較好的應用價值。基于生物特征的指紋識別和虹膜識別,是比較成熟的生物識別技術(shù),但因指紋和虹膜的獲取都要求待識別對象與成像設(shè)備有較近的空間距離,導致其應用范圍較小。而基于生物特征的人臉識別突破了這一限制,廣泛應用于遠程安全、安防、檢疫以及圖像傳送等領(lǐng)域。
目前,智能儲物柜多采用條形碼識別(如超市儲物柜),IC/ID卡識別(如游樂場、浴室、泳池)、指紋或人臉的生物特征的識別。指紋因為容易被污染、破壞,導使識別錯誤,而人臉識別具有非強制性、非接觸性及可并發(fā)性識別的特點,因此得到很多研究機構(gòu)的認可。
現(xiàn)有的人臉識別儲物柜,尚存在一些問題,例如在取物的過程中,人臉會被口罩、眼鏡等遮擋,或在識別過程中產(chǎn)生背景噪聲信號,使圖像不清晰,導致識別率降低。由文獻[1]研究可知,基于壓縮感知的稀疏臉對噪聲相當魯棒,且在有部分遮擋的情況下,仍有較高的識別性能。以下采用壓縮感知方法,以解決人臉識別儲物柜系統(tǒng)所存在的問題。
壓縮感知,是一種新的采樣理論,2006年由E.J.Candes,D.L.Donoho和T.Tao等人提出。這一理論通過開發(fā)信號的稀疏特性(信號的稀疏性比帶寬更能表達信號的信息),信號的離散樣本通過隨機采樣獲取。如果一個信號在某個基下是稀疏的,就可以設(shè)計一個觀測矩陣。通過這個與變換基不相關(guān)的觀測矩陣將所得到的高維信號投影到一個低維空間上,得到少量投影,通過求解一個凸優(yōu)化問題就可以從這些少量的投影中重構(gòu)出原始信號[2]。如果設(shè)計好觀測矩陣和利用觀測矩陣觀測到的低維信號,就可以求解出原始信號的稀疏表示,也就是對原信號的壓縮編碼。該編碼信號可以作為人臉識別分類的依據(jù)[3]。
特征向量提取和分類方法的實現(xiàn)(即分類器的設(shè)計)是人臉識別技術(shù)的關(guān)鍵。在此采用了PCA算法提取特征向量,利用稀疏表示分類算法(SRC)實現(xiàn)分類。
主成分分析法在降維和特征提取上具有很強的優(yōu)勢,因此在人臉識別技術(shù)中獲得大量的使用。
令 x=[x1,x2,…,xM]T為一隨機變量,其自相關(guān)矩陣為 Rx=E{xxH},對 x 進行線性變換,即 ω=QHx,式中Q為酉矩陣,即Q-1=QH。原信號x可以用線性正交變換矩陣Q表示為ω的線性組合,即
隨機向量的m階逼近的誤差為
均方誤差為
為使均方誤差最小化,使用了Lagrange乘數(shù)法來構(gòu)造代價函數(shù)[4],則
求極值得 Rxqi=λiqi,i=m+1,…,M
通過上述K-L變換,當使用式(1)逼近原始信號時,選擇Lagrange乘數(shù)因子作為矩陣Rx后面的M-m個特征值,代價函數(shù)中的正交基向量作為矩陣Rx的前m個特征向量。得出
自相關(guān)矩陣Rx的特征值分解為
式中:ui為代價函數(shù)中的正交基向量,若令主分量為i,則根據(jù)能量最大化準則
步驟1將人臉圖像數(shù)據(jù)尺度歸一化(差值臉),即 xi=x-;
步驟2計算構(gòu)建人臉圖像的協(xié)方差矩陣,即
圖1 主成分的比例Fig.1 Proportion of principal component
圖2 保留的主成分比例Fig.2 Retain proportion of principal component
步驟3對協(xié)方差矩陣進行特征值分解,求解出協(xié)方差矩陣的特征值和其對應的特征向量,取前k個特征值所對應的特征向量構(gòu)成特征臉空間,即w=(u1,u2,…,uk);
步驟4將歸一化的人臉矢量投影到特征臉空間,即 Ωi=wTxi;
步驟5將待識別的人臉Γ和的差值投影到w 特征空間里,即 ΩΓ=wT(Γ-),計算閾值為
采用歐氏距離計算ΩΓ與每個人臉的距離通過與閾值θ比較,識別人臉。圖3為基于ORL數(shù)據(jù)庫的一部分特征臉,最后一張是平均臉[5]。
圖3 基于ORL數(shù)據(jù)庫的部分特征臉和平均臉Fig.3 Partial eigenfaces and average faces based on ORL database
壓縮感知的特點是信號的采樣與數(shù)據(jù)的壓縮同時進行,在較大的壓縮條件下,重構(gòu)出較好的信號。該理論的核心是信號的稀疏表示、編碼測量以及信號重構(gòu),其中信號的稀疏表示是先驗條件[6]。
設(shè)一個一維離散信號f,由一組標準正交基線性表示出來,即
式中:N為信號的長度;Ψ為N×N的標準正交基;φi為 Ψ 的列向量;Θ 為系數(shù)矩陣若Θ的非零個數(shù)遠小于N,則此信號是可壓縮的。
得到信號的稀疏系數(shù)矩陣以后,需構(gòu)建一個穩(wěn)定的測量矩陣Φ∈RM×N,式中M?N,對系數(shù)矩陣進行線性變換,保證在任意稀疏度為K的可壓縮信號,在降維到測量信號y的過程中,原信號的信息不會被破壞,從而重構(gòu)出原信號f,即y=Φf=ΦΨΘ,式中A=ΦΨ∈RM×N為傳感矩陣。因為Θ是稀疏的,A滿足約束性等距條件,所以方程可求出唯一解[7]。Candes等人從理論上證明了使用最小l0范數(shù)法是可以用來計算解答信號重構(gòu)的問題,即=arg min‖x‖0s.t.y=Φx,式中x為稀疏系數(shù);y為測試圖像[8]。在計算信號重構(gòu)的過程中,最小l0范數(shù)法和最小l1范數(shù)法在約束等距條件下是近似等價的。但最小l0范數(shù)法是一個NP-hard的問題,求解最優(yōu)解需要列舉x中所有種可能才能得到,因此一般采用最小l1范數(shù)法來解決次優(yōu)解的問題,即=arg min‖x‖1s.t.y=Φx。
SRC算法的理論基礎(chǔ)是壓縮感知,假設(shè)人臉可以構(gòu)成一個空間,任何一張圖像可以由其他線性表示,在充分利用人臉在高維空間具有稀疏特性的情況下,對一欠定方程求取最稀疏解,以進行人臉識別而得到分類結(jié)果[9]。
設(shè)N個訓練樣本分別屬于C個人,每個人有ki個正面臉圖像,矢量 xi,k∈Rm×1為第 i個人的第 ki幅圖像,這ki個矢量為基向量所構(gòu)成的人臉子空間稱為第i類人臉子空間。其空間中的任意矢量x都可以被此基向量線性表達,即
式中:α= [αi,1,αi,2,…,αi,k]T,αi,j∈R( j=1,2,…,k1)為稀疏系數(shù)。構(gòu)造冗余矩陣
任何一幅測試圖像y均可以表示為y=Ax0,例如若測試圖像的類別屬于第i個人,那么理想情況的系數(shù)向量為
那么這個冗余矩陣A就可構(gòu)造過完備冗余字典。這個系數(shù)向量可當作y在A下的坐標,若樣本數(shù)量大于類內(nèi)的最大樣本數(shù)量,即 N>max(ki),N 和max(ki)的差距越大,x0越稀疏,也更有利于恢復。
因為壓縮感知的特征提取比較理想,將輸入的人臉圖像在過完備冗余字典A中通過稀疏系數(shù)α展開,此時的樣本y為整個訓練樣本集的線性組合,即y=Ax0∈Rm,m為人臉識別中的特征維數(shù),m?N。用向量x0表示測試樣本y,所以將問題變?yōu)榍蠼庖粋€線性方程y=Ax。目標函數(shù)為
根據(jù)2.1節(jié)所述,可將l0范數(shù)轉(zhuǎn)化為l1范數(shù)來求解。
在實際的人臉識別時,人臉圖像的維度很大,一般達到105數(shù)量級,雖然壓縮感知處理高維度問題具有優(yōu)勢,但是對計算機的計算能力要求很高,并且圖像維度超過訓練圖像的訓練樣本數(shù),即m>N,使得等式約束方程y=Ax是超定的,解出的解x作為方程的唯一解,效果不好,不能正確分類。因此在人臉識別時,需要先降維,而PCA在降維方面優(yōu)勢很大。
通過PCA降維后,原始人臉圖片m維高維空間到m′低維空間的投影矩陣作為觀測矩陣,即Φ=wT,Φ∈Rm′×m,并且 m′<N<m,由 2.2 節(jié)所述可知,構(gòu)造過完備冗余字典為
進而構(gòu)造人臉稀疏模型,即
然后利用觀測矩陣Φ對所有人臉的訓練數(shù)據(jù)進行觀測投影,即:
通過稀疏表示和觀測投影,就完成了人臉圖像的訓練過程,即完成了訓練階段。當輸入一幅測試圖像x時,系統(tǒng)利用相同的觀測矩陣Φ對樣本x投影得到:
由式(16)~式(18),得到優(yōu)化的目標函數(shù),即Yα=y;利用最小l1范數(shù)法求解,即
恢復誤差最小時所屬的類為人臉識別出來的類。圖4為人臉實例及其基于PCA特征提取的SRC算法的人臉重構(gòu),圖 4(a)為人臉原圖,圖 4(b)為相應的人臉重構(gòu)圖像。
圖4 基于SRC算法的人臉原圖與人臉重構(gòu)Fig.4 Original face and face reconstruction based on SRC algorithm
人臉識別儲物柜系統(tǒng)的總體設(shè)計主要包括儲物柜控制器模塊,它作為系統(tǒng)的終端主要負責控制儲物柜的開關(guān)、實時監(jiān)測儲物柜的狀態(tài)、讀取人臉圖像。系統(tǒng)的硬件總體設(shè)計如圖5所示。
圖5 系統(tǒng)硬件總體設(shè)計Fig.5 Overall design of system hardware
儲物柜采用一對多的控制方式,1個儲物柜中,從機控制器控制12個箱柜,且實時監(jiān)測箱柜狀態(tài),并將狀態(tài)實時反饋到主控MCU上。1個主控MCU可通過RS485接口級聯(lián)多個儲物柜。主控制器主要由攝像頭、時鐘模塊、觸摸屏模塊、通信模塊、驅(qū)動模塊及單片機微處理器等部分組成。儲物柜主控芯片選用意法半導體公司生產(chǎn)的芯片STM32F103單片機,32位ARM微控制器,Cortex-M3內(nèi)核。此款單片機功能強大、I/O口較多、讀寫速度快、功耗較低,在人臉識別時可連接計算機運用Matlab軟件進行識別計算[10]。儲物柜從機控制器選用TI公司的MSP430F149單片機,主要考慮到低功耗的問題[11]。
在該系統(tǒng)中,攝像頭采集的圖像像素為240×320;顯示屏用于顯示圖像和儲物柜中各個儲物箱的狀態(tài);電磁鎖有驅(qū)動功能;紅外對管用于檢查箱內(nèi)是否有物;LED燈用作信息提示。
人臉識別儲物箱的軟件流程如圖6所示。
圖6 控制器軟件工作流程Fig.6 Controller software work flow chart
為了驗證該人臉識別算法的性能,選擇在ORL人臉數(shù)據(jù)庫進行仿真測試實驗,測試其識別率。數(shù)據(jù)庫包含40位不同的人,每人包含10幅圖像,這10幅圖像均是在不同的光照強度、面部表情以及各個角度下拍攝的;每張人臉圖像是92×112的灰度圖像。當訓練樣本數(shù)N取4,5,6時,PCA算法和PCA+SRC算法在ORL數(shù)據(jù)庫上的識別率如表1所示。
表1 PCA算法和PCA+SRC算法在ORL數(shù)據(jù)庫上的識別率Tab.1 Recognition rate of PCA algorithm and PCA&SRC algorithm on ORL face database
表2是在仿真試驗中,將ORL數(shù)據(jù)庫中的像素受到隨機選取的不同比例白噪聲的污染時,PCA和PCA+SRC算法的識別率,訓練樣本取5。
表2 PCA算法和PCA+SRC算法的識別率Tab.2 PCA algorithm and PCA&SRC algorithm recognition rate
表3是在儲物柜的測試實驗中,通過戴墨鏡、口罩2種遮擋時,PCA和PCA+SRC算法的識別率,重復次數(shù)30次,測試了3個人。圖7為實際測驗中部分未識別的人臉。
表3 算法在儲物柜上的識別率Tab.3 Recognition rate of algorithm on locker
圖7 未能識別的人臉Fig.7 Unrecognized faces
將壓縮感知應用于PCA人臉識別儲物柜系統(tǒng),與基于PCA的人臉識別算法相比,前者的組合方法識別效果更好,并對遮擋、噪聲相當魯棒。至于未識別出的圖像,經(jīng)過分析,是由于遮擋面積過大或識別時環(huán)境太暗所導致,還有待于進行深入的研究。由于所涉及的運算復雜度相對高了點,時間相對來說變長了,下一步重點減少求解最優(yōu)解的時間,使得人臉識別儲物柜市場化。
[1]Wright J,Yang A Y,Ganesh A,et al.Robust face recognition via sparse representation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2009,31(2):210-227.
[2]Boyd S,Vandenberghe L.Convex optimization[M].[S.l.]:Cambridge University Press,2004.
[3]石光明,劉丹華,高大華.壓縮感知理論及其研究進展[J].電子學報,2009,37(5):1071-1080.
[4]沈理,劉翼光,熊志勇.人臉識別原理及算法:動態(tài)人臉識別系統(tǒng)研究[M].北京:人民郵電出版社,2014.
[5]曾凌子.基于壓縮感知的人臉識別算法研究[D].合肥:中國科技大學,2014.
[6]Graham D,Allison.Characterizing virtual eigensignatures for general purpose face recognition[M].Face Recognition:From Theory to Applications,1998:446-456.
[7]Candes E J,Romberg J.Sparsity and incoherence in compressive sampling[J].Inverse Problems,2007,23(3):969-985.
[8]Candès E J,Wakin M B.An introduction to compressive sampling[J].Signal Processing Magazine,2008,25(2):21-30.
[9]Wright J,Yang A,Ganesh A,et al.Robust face recognition via sparse epresentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence(PAMI),2009,31(2):210-227.
[10]張洋,劉軍,嚴漢宇.原子教你玩STM32[M].北京:北京航空航天大學出版社,2013.
[11]利爾達科技有限公司.MSP430開發(fā)板實驗指導書[Z].杭州:[s.n.],2012.