莊薪霖
(中國海洋大學(xué) 信息科學(xué)與工程學(xué)部,山東 青島266100)
作為一種通過獲取人面部的特征信息進行身份確認(rèn)的技術(shù),人臉識別近年來一直是人工智能、計算機視覺、心理學(xué)等領(lǐng)域的熱門研究問題。類似已用于身份識別的人體的其他生物特征(如虹膜、指紋等),人臉具備唯一性、一致性和高度的不可復(fù)制性,為身份識別提供了穩(wěn)定的條件。人臉識別的應(yīng)用日益廣泛,例如用于刑事案件偵破、智慧交通、出入口控制、互聯(lián)網(wǎng)服務(wù)等。人臉識別不同于傳統(tǒng)的學(xué)科,涉及到計算機視覺、心理學(xué)等諸多學(xué)科的理論和方法[1],人臉識別技術(shù)的研究對相關(guān)人員知識體系的完備性提出了較高要求,具有豐富的研究意義。
本文按照實際使用的場景將人臉識別劃分為兩類:無遮擋人臉識別和有遮擋人臉識別。早期的人臉識別算法在無遮擋條件下可以正常使用,但對于有遮擋的情況表現(xiàn)不佳;人臉識別系統(tǒng)通常會受到各類因素的影響,獲得的人臉并不完整,比如受到光照遮擋、實物遮擋等的影響[2]。本文分別介紹了各類比較成熟完善的方法與技術(shù),最后進行了總結(jié)和展望。
無遮擋人臉識別是指受外界條件影響因素小或較理想地?zé)o外界影響因素情況下的人臉識別。根據(jù)發(fā)展歷程,本文將其分為傳統(tǒng)的無遮擋人臉識別方法和現(xiàn)代的無遮擋人臉識別方法。傳統(tǒng)無遮擋人臉識別方法可分為基于幾何特征的方法、基于代數(shù)特征的方法;現(xiàn)代無遮擋人臉識別方法可分為基于特征子空間的方法、基于雙模態(tài)融合的方法。
1.1.1 基于幾何特征的方法
基于幾何特征的人臉識別方法是一種比較直觀且常用于早期人臉識別的傳統(tǒng)方法。該類方法通常需要和其他輔助算法結(jié)合使用才可以獲得更好的效果[3]?;谠摲椒ǖ娜四樧R別系統(tǒng)主要提取人臉的主要幾何特征點(如面部輪廓等)、面部主要器官連續(xù)形狀、幾何特征曲率等信息進行識別。人面部不能完全近似為剛體的特性為幾何特征的提取帶來了較高的復(fù)雜度和難度。
張俊等使用形態(tài)交離變換法先確定眼球的位置,以此為基礎(chǔ)來確定各器官的分布區(qū)域、根據(jù)區(qū)域點投影圖確定特征點[4]。其設(shè)計的特征向量具有尺寸、旋轉(zhuǎn)和位移的不變性,獲得了較好的適應(yīng),最后在250 個待測樣本中達(dá)到96%的識別率。闕曉輝等結(jié)合使用PCA 等算法,利用膚色模型和器官特征提取了人臉特征和用于輔助的側(cè)臉特征(正側(cè)面特征相結(jié)合),提出了基于局部特征的人臉識別算法。該方法也獲得了比較好的識別效果[5]。
1.1.2 基于代數(shù)特征的方法
此類方法從代數(shù)特征的角度出發(fā),相較于基于幾何特征的方法,其優(yōu)勢在于對光照和人的表情變化有一定的包容度[6]。
彭輝等改進K-L 變換進行人臉識別[7]。該方法的核心為分層次的最小距離分類器,其識別率達(dá)到86.13%、91.06%。高麗萍等提出了特征半臉方法[8]。該方法在Stirling人像數(shù)據(jù)庫的識別率優(yōu)于單獨的特征臉方法。周德龍以奇異值特征向量為基礎(chǔ),結(jié)合模擬K-L 變換、Fisher 線性判別分析技術(shù)等,設(shè)計出了十分簡潔有效的分類器,利用少量的特征向量得到了較高識別率:在Essex 彩色人臉圖像數(shù)據(jù)庫中測試達(dá)到96.25%的識別率[9]。王蘊紅等引入了正負(fù)樣本學(xué)習(xí)過程進行人臉識別[10]。該方法對結(jié)果隸屬度函數(shù)進行了LOGISTIC 回歸,從而在一定程度上克服了小樣本效應(yīng)的問題。該方法在標(biāo)準(zhǔn)ORL 人臉數(shù)據(jù)庫中測試結(jié)果達(dá)到了90.48%的識別率。
現(xiàn)代無遮擋人臉識別大多結(jié)合深度學(xué)習(xí)的理論和技術(shù)。該類方法不必人為對不同類型的類內(nèi)差異(例如人臉的姿勢、待識別者的年齡等)設(shè)計特定特征,因為其能夠自然地從訓(xùn)練數(shù)據(jù)中獲得。
1.2.1 基于特征子空間的方法
基于特征子空間的方法是一種將人臉的二維圖像通過變換調(diào)整到另外的空間中,從而便于在其他空間中處理非人臉特征同人臉特征之間的區(qū)別的處理方法。其常用的算法有主元分析法(又稱K-L 變換法)、因子分解法、Fisher 準(zhǔn)則方法、小波變換等[11]。
尹飛等基于一般的PCA 方法做了一定改善[12]。該方法在選用的部分小像素圖像中實驗得到大約76%的識別準(zhǔn)確率。喬宇等提出了一種基于加權(quán)的主元分析法[13]。該方法先利用大量樣本的統(tǒng)計學(xué)習(xí)求得各特征較合適的加權(quán)系數(shù),再加強對關(guān)鍵特征的識別、弱化非關(guān)鍵特征的作用實現(xiàn)加權(quán)K-L 變換。該方法在劍橋的ORL 人臉數(shù)據(jù)庫達(dá)到接近95%的識別率。齊興敏改善了以往Fisher 準(zhǔn)則類方法應(yīng)用于人臉識別中常見的小樣本問題,提出了改進的基于Fisher 準(zhǔn)則的2DPCA 人臉識別算法[14]。該方法綜合運用了2DPCA 提取人臉特征和LDA 作分類,克服了小樣本問題,在50-55 維之間保持較高的識別率。
1.2.2 基于雙模態(tài)融合的方法
基于雙模態(tài)融合的方法同時運用二維和三維兩個模態(tài)的信息,可以在信號層、特征層、決策層進行融合,從而獲得比單模態(tài)更優(yōu)的識別效果[15]。
Sotiris 等提出了一種計算效率高并且不需要擴展訓(xùn)練集的歸一化方法[16]。在其大數(shù)據(jù)集上的實驗結(jié)果表明,在分類前應(yīng)用所提出的歸一化算法可以顯著提高基于模板的人臉識別性能。該方法在其自行采集的三維人臉數(shù)據(jù)集中,識別率達(dá)到96.3%以上。Yingjie 等融合了歸一化的形狀和紋理權(quán)重向量,提出了一種基于三維距離數(shù)據(jù)和二維灰度圖像的人臉識別方法[17]。在對其50 名學(xué)生的面部圖像的實驗中,達(dá)到了90%以上的識別率。Chiraz 等融合了深度和紋理的人臉編碼,提出了一種模式分類器,支持深度、紋理、深度和紋理融合這三種輸入[18]。該方法在185 個測試人臉數(shù)據(jù)中,均達(dá)到了92%以上的識別率;且深度和紋理結(jié)合達(dá)到97%左右的識別率。
相比于無遮擋人臉識別,有遮擋人臉識別更常見于現(xiàn)實應(yīng)用場景。有遮擋人臉識別需要考慮的影響因素較多,不易實現(xiàn)。其主要影響因素有特征損失、局部混疊、對準(zhǔn)誤差等。當(dāng)前常用方法有傳統(tǒng)的子空間回歸法、結(jié)構(gòu)化誤差編碼法以及現(xiàn)代應(yīng)用“淺層”魯棒特征提取的方法、深度學(xué)習(xí)方法。
2.1.1 基于子空間回歸方法
基于子空間回歸方法的核心思想是待識別人臉樣本是否能回歸落到他所屬的子空間之中。人臉圖像之間本身帶有的高度相關(guān)性,再加上遮擋物的干擾,就必須考慮清楚遮擋子空間和人臉子空間相關(guān)性如何去除。
趙雯等主要解決了待識別圖像中噪聲的影響問題,提出了一種同時運用DLRR 和FDDL 方法的魯棒人臉識別算法[19]。單獨使用DLRR 會忽略樣本類內(nèi)結(jié)構(gòu)信息,但加上FDDL 的優(yōu)化會更好地表示各類別的子字典,從而改善識別效果。該方法在FERET 人臉庫、AR 人臉庫、XM2VTS 人臉庫中,識別率最高分別達(dá)到了80.17%、98.25%、95.85%。
2.1.2 基于結(jié)構(gòu)化誤差編碼的方法
由實物遮擋引起的誤差一般具有一定的空間結(jié)構(gòu)(比如墨鏡遮擋、圍巾遮擋等),這與由高斯噪聲引起的誤差不同。結(jié)構(gòu)化誤差編碼是一類常用解決方法,常見的編碼思路有構(gòu)造遮擋字典、利用反向表示分離出遮擋等。
李小薪等綜述了幾種主流的結(jié)構(gòu)化誤差編碼方式,提出了一種能夠提高人臉識別率和加強識別性能的基于奇異值分解的Gabor 遮擋字典學(xué)習(xí)方法[20]。該方法通過Extended Yale B、AR、UMBDB 三個人臉數(shù)據(jù)庫進行驗證測試:在Extended Yale B 測試集中,當(dāng)遮擋比例不超過40%時可獲得較高的識別率;在UMBDB 測試集和AR測試集中,采用SVD-2 算法可獲得最高的識別率。楊方方等面向帶有強噪聲的人臉圖像,提出了一種有優(yōu)秀抗干擾能力的人臉識別算法[21]。其與SVM、SRC、GSRC、GLR_SRC算法進行對比,通過Extended Yale B 和AR 人臉數(shù)據(jù)庫進行測試。在AR 人臉數(shù)據(jù)集中,該算法對于圍巾遮擋、眼鏡遮擋以及同時含有圍巾和眼鏡遮擋的圖像識別率均高于其他四種算法,可識別率接近80%。
當(dāng)前,已經(jīng)出現(xiàn)了大量識別性能較好的特征提取和學(xué)習(xí)的有遮擋人臉識別算法。本文從“淺層”特征到深層特征,對現(xiàn)有的方法進行回顧。
2.2.1 基于“淺層”魯棒特征提取的方法
“淺層”魯棒特征提取的主要思想是依據(jù)人為設(shè)計的“淺層”特征提取相關(guān)的人臉識別特征,但對光照遮擋和實物遮擋混合出現(xiàn)的情況魯棒性差[22]。
曾慧等提出了一種可應(yīng)用于圖像匹配的魯棒圖像局部特征區(qū)域描述子的構(gòu)造方法。該方法在光照變化、有遮擋等情況下具有較好的魯棒性,能為人臉識別提供有利的參考[23]。其采用Mikolajczyk 數(shù)據(jù)集驗證,并和SIFT、CSLBP 描述子進行了對比:該方法擁有較高的正確檢索率和較短的平均運算時間開銷。李昆明等利用韋伯算子的優(yōu)勢進行人臉識別[24]。該方法融合了韋伯方向差分模式和韋伯局部方向差分激勵累積模式進行判別、采用基于分塊的線性判別降維,提高了識別速度并減小了空間消耗。該方法在ORL 人臉數(shù)據(jù)庫上的識別率最高達(dá)98%。
2.2.2 基于深度學(xué)習(xí)的方法
人臉識別有遮擋的人臉圖像是通過理解人臉圖像中的高階屬性實現(xiàn)的。深度學(xué)習(xí)具有從輸入層到輸出層的多層非線性映射和基于反向傳播的反饋學(xué)習(xí)機制,非常適合解決這類常規(guī)分類器無法比擬的變換問題。深度網(wǎng)絡(luò)具有穩(wěn)定強大的分布式表達(dá)能力,因此可以設(shè)計合理的網(wǎng)絡(luò)完成人臉識別的任務(wù)。
郭偉等采用PCANet 深度學(xué)習(xí)模型,提出了一種結(jié)合DL 和特征點遮擋檢測的人臉識別算法[25]。該方法在AR人臉數(shù)據(jù)庫中驗證,并和PCANet 算法、SRC 算法、Gabor-SRC 算法進行對比,在圍巾遮擋、墨鏡遮擋、自行添加的組合式遮擋三種情形下均達(dá)到最高的識別率。
從現(xiàn)實應(yīng)用場景來看,有遮擋人臉識別顯然比無遮擋人臉識別更具普遍性,而有遮擋人臉識別也是當(dāng)前面臨的一個重要挑戰(zhàn)。綜合各項人臉識別方法來看,將深度學(xué)習(xí)用于人臉識別方法具有很大優(yōu)勢,其主要表現(xiàn)為:易于從原始數(shù)據(jù)學(xué)習(xí)低層次的“淺層”特征、易于檢測出特征中的相互作用、易于構(gòu)建精確的模型;然而其劣勢也比較明顯:模型訓(xùn)練比較耗時、模型需要進行長期的不斷迭代優(yōu)化、需要大量級的數(shù)據(jù)庫。從當(dāng)前發(fā)展趨勢來看,深度學(xué)習(xí)和其他方法相結(jié)合將是未來人臉識別發(fā)展的一個重要方向。比如考慮將深度學(xué)習(xí)和人臉光照矯正、姿態(tài)和表情矯正融合,設(shè)計新的模型等。