孫 茜
(安徽郵電職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)系,安徽 合肥 230031)
人臉識(shí)別是模式識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)一項(xiàng)最具有挑戰(zhàn)性的研究課題。它除了具有科學(xué)意義外,還在商業(yè)、執(zhí)法等其他領(lǐng)域中有許多應(yīng)用,如監(jiān)督、安全、通信和人機(jī)交互等。經(jīng)過(guò)30多年的研究,研究者提出了許多人臉識(shí)別方法,但由于表情、發(fā)型、光照和不同人群之間的面部器官分布的相似性致使魯棒的人臉識(shí)別仍然是一個(gè)開(kāi)放研究的問(wèn)題。
在過(guò)去的幾年中,由于壓縮感知的興起,特別是作為其核心技術(shù)的稀疏表示,不僅可以降低數(shù)據(jù)分析和處理的成本,而且提高了數(shù)據(jù)壓縮的效率?;鞠∈璞硎镜姆椒ㄓ捎谄鋬?yōu)良的性能以及對(duì)噪聲和遮擋的魯棒性,受到了廣泛的關(guān)注。在2009年,J.Wright等人提出稀疏表示方法SRC[1],用以解決人臉識(shí)別問(wèn)題。稀疏表示主要是在訓(xùn)練數(shù)據(jù)字典中尋找測(cè)試樣本最稀疏的表示方法,在分類(lèi)中是有效且魯棒的,但沒(méi)有考慮訓(xùn)練數(shù)據(jù)字典的內(nèi)部結(jié)構(gòu)信息。M.Yang等人在2010年提出基于Gabor特征的稀疏表示方法GSRC[2],使用圖像的局部Gabor特征用于稀疏表示之中。GSRC的顯著優(yōu)勢(shì)在于它使用了緊湊的遮擋字典,大大降低了稀疏編碼的計(jì)算代價(jià),但仍沒(méi)有考慮到字典的內(nèi)部結(jié)構(gòu)信息。同時(shí),J.Simon等人關(guān)注到字典內(nèi)部組別問(wèn)題[3],2011年E.Elhamifar等人提出了一種更魯棒的分類(lèi)方法,即分組稀疏表示方法[4],這種方法主要是尋找測(cè)試樣本的最小塊數(shù)表示,克服了SRC的缺點(diǎn),但丟失了數(shù)據(jù)的局部性結(jié)構(gòu)。近幾年,稀疏表示方法有了越來(lái)越多的研究與發(fā)展,例如2013年提出的基于核函數(shù)的稀疏表示方法KSRC[5-11],2014年提出的判別組稀疏字典學(xué)習(xí)算法DGSDL[12]。之后,基于核函數(shù)稀疏學(xué)習(xí)的方法也得以精進(jìn)[13],R.Abiantun等人關(guān)注到姿勢(shì)變化對(duì)于稀疏學(xué)習(xí)的影響[14],2015年由X.Jiang等人提出用于處理人臉識(shí)別任務(wù)的通過(guò)字典分解的稀疏與稠密相混合的表示方法SDR[15],2016年N.Zhang等的基于極限學(xué)習(xí)機(jī)的稀疏表示人臉識(shí)別方法[16]。2017年張濤、吳鍵提出基于PCA和SRC的人臉識(shí)別算法[17],2018年木立生、呂迎春提出基于稀疏表示與特征融合的人臉識(shí)別方法[18],2019年王國(guó)權(quán)、鞏燕提出小波分析和稀疏表示的人臉圖像識(shí)別方法[19],2020年吳慶洪、高曉東提出稀疏表示和支持向量機(jī)相融合的非理想環(huán)境人臉識(shí)別算法[20]。
本文提出了一種將局部敏感稀疏性與分組稀疏相結(jié)合的新方法,它不僅考慮了訓(xùn)練數(shù)據(jù)字典的分組結(jié)構(gòu)信息,而且集中了數(shù)據(jù)的局部性,該方法旨在學(xué)習(xí)分組稀疏和數(shù)據(jù)局部性的同時(shí),實(shí)現(xiàn)分類(lèi)性能的提高。
SRC算法可以被視為一個(gè)將輸入圖像轉(zhuǎn)化為具有光照、表情等訓(xùn)練圖像的線(xiàn)性組合的過(guò)程。假設(shè)有n組,第i類(lèi)有ni個(gè)訓(xùn)練樣本,ai,j∈RD×1表示第i類(lèi)中的第j個(gè)人臉樣本圖像,所構(gòu)成的D表示圖像特征向量的維數(shù),Ai=[ai,1,ai,2,…,ai,ni]∈RD×ni包含第i類(lèi)的訓(xùn)練圖像。A=[A1,A2,…,An]表示全部的訓(xùn)練集,y代表一個(gè)輸入測(cè)試圖像。為避免l0模引起的NP-hard問(wèn)題,SRC通常使用l1模最小化約束進(jìn)行分類(lèi):
(1)
其中,x是稀疏系數(shù)特征,ε是與有界能量的噪聲項(xiàng)相關(guān)的參數(shù)。x*T=[x1*T,x2*T,…,xn*T]表示最優(yōu)解,xi包含著第i類(lèi)的相關(guān)系數(shù)。
SRC算法雖然已獲得很好的識(shí)別性能,但一個(gè)潛在的問(wèn)題在于SRC算法中測(cè)試圖像可能是被不同對(duì)象的訓(xùn)練樣本所表示出來(lái)。在人臉識(shí)別過(guò)程中,這個(gè)問(wèn)題容易造成錯(cuò)誤的識(shí)別。理論上,測(cè)試圖像應(yīng)該只被其對(duì)應(yīng)對(duì)象的訓(xùn)練圖像所表示?;谶@個(gè)思想,Elhamifar等人提出一種更為魯棒的分組稀疏表示分類(lèi)方法,該方法主要是用盡可能少的對(duì)象的訓(xùn)練圖像表示出測(cè)試樣本,首先將訓(xùn)練數(shù)據(jù)字典劃分為不同組,每一組由來(lái)自同一個(gè)對(duì)象的訓(xùn)練圖像組成,然后搜索出一種在進(jìn)行識(shí)別時(shí)使用最少分組數(shù)目的表示方法。這等價(jià)于將分類(lèi)問(wèn)題轉(zhuǎn)化為結(jié)構(gòu)稀疏恢復(fù)問(wèn)題。
給定一個(gè)測(cè)試圖像y,通過(guò)以下的凸問(wèn)題得到稀疏系數(shù)x,從而最大限度地減少字典中的非零組數(shù)目。
(2)
其中,xi表示第i類(lèi)相關(guān)的系數(shù),ε是相關(guān)噪聲參數(shù),A=[A1,A2,…,An]表示一個(gè)完整的訓(xùn)練集。
除了最小化非零組數(shù)目,另一種優(yōu)化方法是最小化非零重構(gòu)向量Aixi。
(3)
其中,Ai=[ai,1,ai,2,…,ai,ni]∈RD×ni表示第i類(lèi)訓(xùn)練樣本。
從式(2)和式(3)中可以看出,只有當(dāng)這些分組由線(xiàn)性無(wú)關(guān)數(shù)據(jù)組成時(shí),它們才是等價(jià)的。由于人臉之間器官分布的相似性,在人臉識(shí)別應(yīng)用中很容易出現(xiàn)線(xiàn)性相關(guān)的數(shù)據(jù)。
目前在許多模式識(shí)別問(wèn)題中,數(shù)據(jù)局部性得到了廣泛的應(yīng)用,如K近鄰分類(lèi)器、數(shù)據(jù)聚類(lèi)和圖像分類(lèi)等。有研究指出,數(shù)據(jù)的局部性比稀疏編碼的稀疏性更為適用于分類(lèi)識(shí)別。因此,我們提出了一種改進(jìn)方法,將局部敏感的稀疏性和分組稀疏相結(jié)合。
首先,本文算法考慮分組稀疏表示中的一種形式,即字典中的最小化非零組數(shù)目,通過(guò)將l1模最小化問(wèn)題置于特征空間中考慮數(shù)據(jù)的局部性。本文算法中l(wèi)1模最小化問(wèn)題可以寫(xiě)成如下形式:
(4)
其中λ是一個(gè)正則化參數(shù),符號(hào)·代表點(diǎn)乘計(jì)算,x表示稀疏系數(shù)向量,β用于對(duì)分組稀疏進(jìn)行加權(quán),A=[A1,A2,…,An]是所有類(lèi)的訓(xùn)練樣本,y表示一個(gè)測(cè)試樣本,ε是相關(guān)的噪聲參數(shù),xi是與第i類(lèi)訓(xùn)練樣本相關(guān)的表示系數(shù),p是局部適配器,本文所提算法使用類(lèi)似于LS-KSRC算法中的指數(shù)局部適配器:
(5)
其中,η是一個(gè)正值參數(shù),yi表示一個(gè)測(cè)試樣本,yj表示一個(gè)鄰近yi的訓(xùn)練樣本,d(yi,yj)由l2模計(jì)算如下
d(yi,yj)=‖yi-yj‖2
(6)
其中,d(yi,yj)表示歐氏距離。
在式(4)中,向量p被用于度量測(cè)試樣本與每一列訓(xùn)練樣本之間的距離,換言之,向量p可以被視為一個(gè)差異向量,主要用于約束對(duì)應(yīng)的稀疏系數(shù)。由于大部分系數(shù)均為0,只有少量的有效系數(shù)值,因而式(4)可以被視為l1模下的稀疏表示,而非l2模。則式(4)的最小化問(wèn)題可以理解為用鄰近的訓(xùn)練樣本去編碼表示出測(cè)試樣本,使所獲得的最優(yōu)稀疏系數(shù)既有分組稀疏性,也包含數(shù)據(jù)的局部結(jié)構(gòu)。這保證了本文所提算法可以較好地學(xué)習(xí)到用以分類(lèi)的判別稀疏表示系數(shù)。
同理,本文考慮了另一種分組稀疏表示的優(yōu)化形式,即考慮最小數(shù)目的非零重構(gòu)向量,則本文所提算法的l1模的最小化問(wèn)題可表示如下:
(7)
其中,Ai∈RD×ni是訓(xùn)練樣本中i類(lèi)的子集。
需要指出的是在式(4)和式(7)中,第一項(xiàng)約束了數(shù)據(jù)的局部性,可以保留測(cè)試樣本與其鄰近的訓(xùn)練樣本之間的相似性,并給出具有判別性信息的稀疏表示系數(shù)。第二項(xiàng)約束了分組稀疏性,將訓(xùn)練數(shù)據(jù)內(nèi)部的分組結(jié)構(gòu)信息加以利用。因而,本文所提算法在使用了分組稀疏約束的同時(shí),也考慮了數(shù)據(jù)的局部結(jié)構(gòu)。該算法的流程總結(jié)如下。
1)輸入:訓(xùn)練樣本矩陣A,一個(gè)測(cè)試樣本y
2)通過(guò)局部適配器p計(jì)算測(cè)試樣本與每一個(gè)訓(xùn)練樣本之間的差異向量
3)解決l1模最小化問(wèn)題
5)輸出:給出測(cè)試樣本的類(lèi)標(biāo)簽class(y)=argmini=1,2,…,nri(y)
本文在ORL、AR和Extended Yale B數(shù)據(jù)庫(kù)上對(duì)所提出算法進(jìn)行了識(shí)別性能測(cè)試。圖1展示了來(lái)自這3個(gè)數(shù)據(jù)庫(kù)中的幾個(gè)樣本圖像,它們往往有不同的姿態(tài)、表情和光照。為了驗(yàn)證本文算法的優(yōu)越性,本文將提出的算法與幾個(gè)相關(guān)的稀疏表示人臉識(shí)別算法的識(shí)別率進(jìn)行比較。
在實(shí)驗(yàn)過(guò)程中,使用PCA方法[26]對(duì)分類(lèi)前的特征進(jìn)行降維,使用CVX工具箱解決l1模最小化問(wèn)題。本文設(shè)置實(shí)驗(yàn)參數(shù)ε=0.05,η=0.5,由于算法和數(shù)據(jù)庫(kù)不同,需要通過(guò)設(shè)置不同的λ和β以實(shí)現(xiàn)最優(yōu)的性能。為了公正的比較,實(shí)驗(yàn)中測(cè)試了多種參數(shù)值設(shè)置,并記錄下它們的最優(yōu)性能。
圖1 3個(gè)人臉數(shù)據(jù)庫(kù)的樣本圖像
在本實(shí)驗(yàn)中,在ORL數(shù)據(jù)庫(kù)上測(cè)試了在不同訓(xùn)練與測(cè)試百分比下不同算法的識(shí)別性能。ORL數(shù)據(jù)庫(kù)包括40個(gè)對(duì)象的400張不同姿態(tài)、光照和面部表情下的人臉圖像。每次測(cè)試時(shí),隨機(jī)選擇每個(gè)對(duì)象的L張圖像作為訓(xùn)練集,其余圖像作為測(cè)試集。識(shí)別率取30次隨機(jī)測(cè)試結(jié)果的平均值。表1是不同算法的識(shí)別率結(jié)果。
表1 ORL數(shù)據(jù)庫(kù)上的識(shí)別性能對(duì)比 單位:%
表1所示,在不同訓(xùn)練/測(cè)試比例設(shè)置下,本文所提出的P3和P4算法明顯優(yōu)于其他算法,包括SRC,LS-KSRC以及兩種形式的分組稀疏算法。P3算法在30%訓(xùn)練百分比設(shè)置下實(shí)現(xiàn)了90.357%的識(shí)別性能,在訓(xùn)練比為40%實(shí)現(xiàn)了94.167%的識(shí)別率,50%時(shí)為97.000%。P4算法在30%訓(xùn)練比下實(shí)現(xiàn)了94.286%的識(shí)別率,40%時(shí)為95.417%,50%時(shí)為98.000%。由表1還可以看出,P4算法一般可以實(shí)現(xiàn)最優(yōu)的識(shí)別性能。例如在L=3時(shí),P4算法的識(shí)別率高于SRC算法8%左右,高于LS-KSRC算法4.643%,比P1算法優(yōu)6.429%,比P2算法優(yōu)5%,甚至比P3算法優(yōu)出3.929%的識(shí)別率。這些都表明本文提出算法是一種相較于其他已知的幾種算法更有效的人臉識(shí)別分類(lèi)方法。
本實(shí)驗(yàn)中,不同算法將在AR數(shù)據(jù)庫(kù)上進(jìn)行不同PCA降維設(shè)置下的性能對(duì)比,AR數(shù)據(jù)庫(kù)包含126個(gè)對(duì)象的3 276張不同姿態(tài)、表情和光照的人臉圖像。原始的圖像大小是165*120,實(shí)驗(yàn)時(shí)選擇100個(gè)對(duì)象的1 400張圖像作為一個(gè)實(shí)驗(yàn)子集,保證對(duì)于每一個(gè)對(duì)象有14張正面人臉圖像。每次測(cè)試時(shí),隨機(jī)選取每個(gè)對(duì)象7張圖像作為訓(xùn)練數(shù)據(jù)集,其余的圖像作為測(cè)試訓(xùn)練集。與ORL數(shù)據(jù)庫(kù)上進(jìn)行的實(shí)驗(yàn)一樣,統(tǒng)計(jì)30次的隨機(jī)測(cè)試結(jié)果的平均值作為識(shí)別率記錄下來(lái)。表2給出了不同算法在不同PCA特征降維設(shè)置下的最優(yōu)識(shí)別率。
表2 AR數(shù)據(jù)庫(kù)的識(shí)別性能對(duì)比 單位:%
正如表2所示,本文提出的P3和P4算法顯示了它們相較于其他算法在不同PCA降維設(shè)置下的優(yōu)越性。在36維時(shí)P3算法最高的識(shí)別率為75.393%,在54維時(shí)為81.688%,130維時(shí)為87.838%。P4算法顯示出了比P3算法更好的識(shí)別性能,在36維時(shí)達(dá)到78.112%,在54維時(shí)達(dá)到82.546%,130維時(shí)為89.557%的識(shí)別率。這些識(shí)別率都再次證明本文所提算法的優(yōu)越性,尤其是在低維情況下。當(dāng)降維數(shù)為36時(shí),P3算法可以實(shí)現(xiàn)高于SRC算法2.289%的識(shí)別性能,高于LS-KSRC算法2.146%,高于P1算法2.575%;而P4算法可以實(shí)現(xiàn)優(yōu)于SRC算法5.008%的識(shí)別性能,分別優(yōu)于LS-KSRC和P2算法4.865%、3.434%。
Extended Yale B數(shù)據(jù)庫(kù)是由38個(gè)對(duì)象的2 414張正面臉部圖像組成,每一個(gè)對(duì)象均有64張大小為192*168的不同光照下人臉圖像。實(shí)驗(yàn)時(shí)選擇每個(gè)對(duì)象的32張圖像作為訓(xùn)練圖像,剩下的作為測(cè)試圖像。表3是不同算法在不同PCA降維設(shè)置下的最優(yōu)識(shí)別率。
表3 Extended Yale B數(shù)據(jù)庫(kù)上的性能對(duì)比 單位:%
從表3可以看出,本文所提出的算法仍然比其他方法的性能要優(yōu)異。P3算法在特征維數(shù)為36時(shí)獲得最優(yōu)識(shí)別率89.043%,54維時(shí)最優(yōu)為91.275%,130維時(shí)最優(yōu)為95.274%。在低維情況下,本文算法展現(xiàn)出了明顯優(yōu)于其他算法的分類(lèi)識(shí)別性能,這與AR數(shù)據(jù)庫(kù)上進(jìn)行的實(shí)驗(yàn)測(cè)試結(jié)果一致。例如,當(dāng)特征維數(shù)降為36時(shí),P4算法獲得的最優(yōu)識(shí)別率為90.041%,相較于SRC的識(shí)別性能高出2.469%,優(yōu)于LS-KSRC的識(shí)別性能1.811%,比P1算法高出9.629%,比P2算法高出7.572%。P4算法在特征維數(shù)為130時(shí)可以實(shí)現(xiàn)最高的識(shí)別性能,達(dá)到96.626%的識(shí)別率。
本文提出了一種新的分類(lèi)方法,即使用局部敏感稀疏和分組稀疏來(lái)進(jìn)行魯棒的人臉識(shí)別。這種方法同時(shí)學(xué)習(xí)了分組稀疏性和數(shù)據(jù)局部性,不僅考慮了訓(xùn)練數(shù)據(jù)字典的分組結(jié)構(gòu)信息,也整合了數(shù)據(jù)的局部性,這樣可以學(xué)習(xí)更多的可判別稀疏表示系數(shù)用以人臉識(shí)別。為了測(cè)試本文所提方法的有效性,在ORL、AR和Extended Yale B數(shù)據(jù)庫(kù)上展開(kāi)了人臉識(shí)別的實(shí)驗(yàn),并與其他分類(lèi)識(shí)別算法進(jìn)行對(duì)比驗(yàn)證了本文算法的優(yōu)越性能。
河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版)2022年5期