李玲
(重慶師范大學(xué)計算機與信息科學(xué)學(xué)院,重慶 401331)
傳統(tǒng)的人臉識別方法通常以單幅人臉圖像作為測試對象,在可控場景下大部分方法取得了良好的識別效果。然而,在非約束條件下,由于人臉圖像在采集過程中易受光照、表情、姿態(tài)等因素的影響,基于單幅圖像的人臉識別方法在很多實際應(yīng)用場景中的識別效果不佳。隨著數(shù)字圖像技術(shù)、交互技術(shù)、海量存儲設(shè)備及社交網(wǎng)絡(luò)的快速發(fā)展,目前可以很方便地獲取一個人的多幅圖像即圖像集,例如使用多個相機拍攝多視角圖像、收集不同時期的多幅圖像或從個人相冊獲取等。因此,在人臉識別過程中可以將測試圖像集與訓(xùn)練圖像集進行對比,從而提高分類的準(zhǔn)確性。研究者將這類人臉識別問題稱為基于圖像集的人臉識別。與單幅人臉圖像相比,圖像集能夠更全面地刻畫同一類人臉圖像中存在的各種面部表觀變化,如表情、光照、姿態(tài)等,便于消除這些干擾因素的影響,因此基于圖像集的人臉識別方法較基于單幅圖像的人臉識別方法更能實現(xiàn)魯棒的分類。
但是,目前基于圖像集的人臉識別技術(shù)仍然存在不足之處:在非控條件下,由于受多種因素的干擾,同一人臉圖像集內(nèi)的多個樣本在表觀上存在著多種變化,因此圖像集數(shù)據(jù)所在的流形中潛藏著多個子流形,這些子流形之間既存在著差別,也有著聯(lián)系,而現(xiàn)有的人臉識別方法在識別過程中并沒有考慮這些子流形之間的相互關(guān)系,勢必會對識別結(jié)果的精確性不產(chǎn)生不利影響。為此,本文提出一種基于復(fù)雜網(wǎng)絡(luò)和圖像集的人臉識別方法,以非控條件下獲取的人臉圖像集為研究對象,將人臉圖像集抽象成復(fù)雜網(wǎng)絡(luò)系統(tǒng),在復(fù)雜網(wǎng)絡(luò)體系下劃分圖像集數(shù)據(jù)的子流形,以獲取各潛在子流形的特征屬性;在子流形劃分的層面上,構(gòu)建稀疏嵌入的圖模型與最優(yōu)投影目標(biāo)函數(shù),以保持人臉樣本的內(nèi)在低維結(jié)構(gòu)信息;最后,在低維空間構(gòu)建基于子流形的人臉圖像集的聯(lián)合識別模型。為了檢驗算法的有效性,本文將在多個不同類型的人臉圖像集數(shù)據(jù)庫上設(shè)計實驗,對提出的算法進行標(biāo)準(zhǔn)測試和評估,并通過實驗發(fā)現(xiàn)算法中存在的問題,從而對理論模型加以修正。
典型的網(wǎng)絡(luò)是由眾多節(jié)點以及節(jié)點之間的連邊組成的。自然界中存在著大量可以用網(wǎng)絡(luò)來進行描述的復(fù)雜系統(tǒng),其中每個節(jié)點分別表示系統(tǒng)中的每個個體,而連邊則表示個體之間的相互關(guān)系。例如計算機網(wǎng)絡(luò)、生物網(wǎng)絡(luò)、電力與交通網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、金融與經(jīng)濟網(wǎng)絡(luò)、社會網(wǎng)絡(luò)、語言網(wǎng)絡(luò)、科研與教育網(wǎng)絡(luò)等。
人們在研究網(wǎng)絡(luò)模型時,往往只會關(guān)心網(wǎng)絡(luò)中有多少個節(jié)點以及哪些節(jié)點之間有邊直接相連這些基本特征,即網(wǎng)絡(luò)的拓撲性質(zhì)。在近兩百年以來,研究者們提出了眾多的拓撲結(jié)構(gòu),用于描述真實的系統(tǒng),主要分為規(guī)則網(wǎng)絡(luò)和隨機網(wǎng)絡(luò)。近來,計算機相關(guān)技術(shù)的飛速發(fā)為復(fù)雜網(wǎng)絡(luò)的研究提供了強大的工具和技術(shù)支持,研究者們逐漸發(fā)現(xiàn),自然界中尚存在大量不能直接用規(guī)則網(wǎng)絡(luò)或者隨機網(wǎng)絡(luò)來描述的真實系統(tǒng),并稱其為復(fù)雜網(wǎng)絡(luò)。
錢學(xué)森給出了復(fù)雜網(wǎng)絡(luò)的一個較為嚴(yán)格的定義:具有自組織、自相似、吸引子、小世界、無標(biāo)度中部分或全部性質(zhì)的網(wǎng)絡(luò)稱為復(fù)雜網(wǎng)絡(luò)。為刻畫復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的統(tǒng)計特性,研究者們提出了許多概念和方法,例如度、度分布、聚類系數(shù)等。下面就本文會用到的幾個概念進行介紹。
度:無向網(wǎng)絡(luò)中節(jié)點i的度ki定義為與該節(jié)點直接相連的邊的數(shù)目。給定網(wǎng)絡(luò)的鄰接矩陣A=(aij)N×N,則有:
平均度:網(wǎng)絡(luò)中所有節(jié)點的度的平均值稱為網(wǎng)絡(luò)的平均度,記為〈k〉。
聚類系數(shù):網(wǎng)絡(luò)中一個度為ki的節(jié)點i的聚類系數(shù)Ci定義為:
其中,Ei是節(jié)點i的ki個鄰居節(jié)點之間實際存在的邊的數(shù)目,即節(jié)點i的ki個鄰居節(jié)點之間實際存在的鄰居對的數(shù)目。
本文的人臉識別方法包括四個步驟:構(gòu)造復(fù)雜網(wǎng)絡(luò)系統(tǒng)、劃分網(wǎng)絡(luò)社團結(jié)構(gòu)、稀疏降維、分類和識別。
將人臉圖像集抽象成網(wǎng)絡(luò)模型,網(wǎng)絡(luò)中的節(jié)點表示人臉圖像集中的各個樣本,網(wǎng)絡(luò)中的邊表示樣本之間的相互關(guān)系,并采用熱核方法計算邊的權(quán)重以度量樣本之間的相似度,從而得到樣本的關(guān)系矩陣S,即對于任意兩個樣本mi和mj,它們之間的相似度為Sij,則有(σ為適應(yīng)性常量),由此便得到抽象的隨機網(wǎng)絡(luò)模型。但由于隨機網(wǎng)絡(luò)模型不具備高聚類特性,不便于分析節(jié)點之間的相互關(guān)系,需進一步將其轉(zhuǎn)換成復(fù)雜網(wǎng)絡(luò)模型,令:
其中,μ為隨機網(wǎng)絡(luò)模型中所有節(jié)點對之間的相似度的平均值。隨機網(wǎng)絡(luò)模型轉(zhuǎn)換成復(fù)雜網(wǎng)絡(luò)模型之后,其圖模型可能不連通。為確保圖的連通性,假設(shè)復(fù)雜網(wǎng)絡(luò)模型有n個連通分支,在任意兩個連通分支之間尋找θ個距離最近的節(jié)點對,并在它們之間添加連邊,其權(quán)重為隨機網(wǎng)絡(luò)模型中的樣本相似度。然后采用Floyd或Dijkstra算法來計算任意兩個樣本之間的全局相似度(最短路徑),最后基于全局相似度構(gòu)造樣本的k近鄰關(guān)系矩陣W。
構(gòu)建無監(jiān)督的層次聚類樹模型對復(fù)雜網(wǎng)絡(luò)進行分組,即劃分人臉圖像集數(shù)據(jù)的子流形。本文利用高斯混合模型(GMM)結(jié)合復(fù)雜網(wǎng)絡(luò)系統(tǒng)的社團結(jié)構(gòu)來對復(fù)雜網(wǎng)絡(luò)進行社團的劃分,即對人臉圖像集數(shù)據(jù)進行子流形劃分。利用GMM每次自頂向下地將數(shù)據(jù)劃分成兩個社團,并利用復(fù)雜網(wǎng)絡(luò)理論中的聚類系數(shù)來控制每個社團是否需要繼續(xù)劃分。假設(shè)一個社團的節(jié)點數(shù)目為N,其鄰接矩陣為A=(aij)N×N,則該社團的聚類系數(shù)C定義為社團中所有節(jié)點的聚類系數(shù)的平均值,即:
其中,Ci為社團中節(jié)點i的聚類系數(shù),這里,ki為節(jié)點 i的度,為k近鄰關(guān)系矩陣W中的相似度權(quán)重,ωijk為節(jié)點i與它的兩個鄰居節(jié)點j和k之間的兩條連邊的權(quán)值的歸一化平均值,〈wi〉是以節(jié)點i為一個端點的所有邊的權(quán)值的平均值。設(shè)定一個閾值t,當(dāng)C<t時就用GMM對該社團進行聚類,這種聚類過程重復(fù)進行,直到C≥t,從而產(chǎn)生一棵聚類樹,其葉子節(jié)點即為得到的人臉圖像集數(shù)據(jù)的子流形。
利用稀疏重建的思想,計算同一個子流形中每個樣本與其他樣本的關(guān)系系數(shù)以及流形之間的關(guān)系系數(shù),采用監(jiān)督的方法分別構(gòu)造稀疏的類內(nèi)圖模型與類間圖模型,以反映樣本之間的相互關(guān)系。
首先,構(gòu)建稀疏的類內(nèi)圖模型,以保持每個子流形的局部內(nèi)在結(jié)構(gòu)。設(shè)X=[x1,x2,…,xn],其中Xi為第i個人臉圖像集(即第i個流形),每個人臉圖像集被劃分為ci個子流形,每個子流形包含nci個樣本。對于每個子流形Xij(即第i個人臉圖像集的第j個子流形)中的任意節(jié)點xk,其與該子流形中其它樣本的關(guān)系系數(shù)sk由下面的L1范數(shù)最小化問題求得:
求得式(6)最優(yōu)的sk之后,則子流形Xij的關(guān)系矩陣S為:
其次,構(gòu)造稀疏的類間圖模型,以反映人臉圖像集子流形之間的相互關(guān)系。設(shè)μi、μj分別表示兩個人臉圖像集Xi和Xj(即第i個流形與第j個流形)中樣本的均值。對于任意流形Xi,其與所有其他流形之間的關(guān)系系數(shù)ri由下面的L1范數(shù)最小化問題求得:
其中,μ=[μ1,μ2,…,μn]。求得式(8)最優(yōu)的 ri之后,則流形之間的關(guān)系矩陣R為:
最后,構(gòu)造最優(yōu)投影目標(biāo)函數(shù)。最優(yōu)投影不僅要保持人臉圖像集內(nèi)部子流形的緊湊性,又要保持不同人臉圖像集流形之間的分離性。即投影之后的樣本應(yīng)滿足:每個子流形內(nèi)的樣本盡可能離得近,不同流形之間的樣本盡可能地離得遠。為此,本文定義如下的類內(nèi)散度Sw與類間散度Sb:
為了最小化類內(nèi)散度同時最大化類間散度,聯(lián)合式(10)和式(11)構(gòu)造最優(yōu)目標(biāo)函數(shù):
則最優(yōu)投影矩陣W=[w1,w2,…,wd]的列向量為歸一化的特征值問題(sb-sw)w=λXXTw的前d個最大的特征值所對應(yīng)的特征向量。
(1)選取代表性圖像。根據(jù)每個社團即每個子流形中樣本的連通性對該社團中的所有樣本排序,選取排序靠前的樣本,從而濾除掉受干擾因素影響較大以及不相關(guān)的圖像,保留質(zhì)量較好且具有特征模式代表性的圖像,使最終選出的樣本圖像滿足:與該社團中的其他樣本高度相似,同時與社團外的樣本高度不相似。
(2)構(gòu)造子流形聯(lián)合表示模型。借鑒稀疏編碼的思想,在子流形劃分及代表性圖像選取的基礎(chǔ)上,構(gòu)造測試人臉圖像集與訓(xùn)練人臉圖像集的聯(lián)合表示模型,以挖掘出隱含在人臉圖像集數(shù)據(jù)內(nèi)部的結(jié)構(gòu)與模式信息。在訓(xùn)練圖像集中尋找一組超完備基向量,在最小化誤差的基礎(chǔ)上使用這些基向量的線性組合更高效地重建測試圖像集。此外,加入“稀疏性”約束以解決因超完備而導(dǎo)致的退化問題,使線性組合中大于零的數(shù)據(jù)盡可能地少,即使用盡可能少的訓(xùn)練圖像集的子流形來表示測試圖像集。同時加入“局部性”約束以保持流形的局部結(jié)構(gòu)特征。聯(lián)合表示模型如下
其中,Yk表示測試人臉圖像集Y的第k個子流形,Xij表示第i個訓(xùn)練圖像集的第j個子流形,aij、bk為對應(yīng)子流形的系數(shù)向量,λ1、λ2、λ3為尺度數(shù),d=為訓(xùn)練圖像集數(shù)目),Θ表示點乘。式(13)中第一項確保重構(gòu)誤差最小化,第二項和第三項控制稀疏性,并且第三項融入了流形的類別屬性,第四項用以保持流形的局部結(jié)構(gòu)信息。利用拉格朗日乘子法,不斷迭代直至得到最優(yōu)解。最后基于最小重構(gòu)誤差對測試人臉圖像集進行分類,即:
本文實驗采用的數(shù)據(jù)集是三個被廣泛研究的大型人臉視頻數(shù)據(jù)庫,即 Honda/UCSD[2]、CMU MoBo[3]和YouTube Celebrities[4],其中每個視頻序列都被分解成幀并保存為一個圖像集。在本節(jié)中,我們將評估本文方法在這三個數(shù)據(jù)庫上的性能。
本節(jié)將本文提出的方法與四類最先進的方法進行比較:
(1)基于線性/仿射子空間的方法:互子空間方法(MSM)[5],基于仿射包的圖像集距離方法(AHISD)[6]。
(2)基于非線性流形的方法:流行判別分析(MDA)方法[7]。
(3)基于格拉斯曼流形的方法:格拉斯曼流形判別分析(GDA)方法[8]。
(4)基于協(xié)同表示的方法:基于正則包的圖像集協(xié)同表示和分類(RH-ISCRC)[9]。
以上方法的源代碼均由原始作者提供,為了進行公平的比較,這些方法的重要參數(shù)都是根據(jù)原始參考文獻的建議進行設(shè)置和調(diào)整的。對于MSM和AHISD,在學(xué)習(xí)線性子空間時,我們尋找最優(yōu)的PCA能量,并為每一種方法記錄最佳結(jié)果。對于MDA,構(gòu)造最大線性補丁的參數(shù)是優(yōu)化的,類間最近局部模型的數(shù)量和嵌入子空間的維數(shù)也是最優(yōu)的[7]。對于GDA,子空間基向量的數(shù)量被調(diào)優(yōu)到能夠提供最好的結(jié)果,且只測試投影內(nèi)核。對于RH-ISCRC,只測試能夠達到更好性能的L1-范數(shù)規(guī)則。平衡表示剩余的正則化參數(shù)λ1和λ2都被設(shè)置為默認值0.001,壓縮原子的數(shù)量限制在10~20之間,迭代的次數(shù)設(shè)置為20[9]。
在本文的實驗中,對于Honda/UCSD數(shù)據(jù)庫,采用文獻[2]中提供的標(biāo)準(zhǔn)訓(xùn)練/測試配置:20個序列用于訓(xùn)練,剩下的39個序列用于測試,即隨機選擇每個人的一個序列用于訓(xùn)練,其余序列用于測試。對于CMU MoBo數(shù)據(jù)庫,隨機選擇每個人的一個圖像集用于構(gòu)成訓(xùn)練數(shù)據(jù),剩下的圖像集用于構(gòu)成測試數(shù)據(jù)。對于YTC數(shù)據(jù)庫,將每個人的視頻序列分為5組,并確保每組包含9個序列(最少重疊),這樣該數(shù)據(jù)庫就被分成5個組,每個組由47個人的423個序列組成。每組隨機選擇每個人的3個序列用于訓(xùn)練,6個序列用于測試。每個實驗重復(fù)10次,實驗結(jié)果如表1所示。
表1 三個數(shù)據(jù)庫上的實驗結(jié)果(平均識別率(%)和標(biāo)準(zhǔn)偏差),粗體條目顯示了最高識別率。
表1總結(jié)了3種不同數(shù)據(jù)庫上所有對比方法的識別結(jié)果。從表1可以看出,本文提出的方法在測試的大部分方面都取得了優(yōu)越的性能。在Honda/UCSD數(shù)據(jù)庫上,本文方法的平均識別率為98.9%,高于其他對比方法,RH-ISCRCS方法以97.4%的平均識別率僅次于本文方法。在CMU MoBo數(shù)據(jù)庫上,所有方法的識別性能都不錯,本文方法的平均識別率為98.7%,高于其他對比方法。在YTC數(shù)據(jù)庫上,由于所有視頻都來自真實世界,質(zhì)量低且包含非常大的表觀變化,所以所有方法的識別性能較前兩個數(shù)據(jù)庫都下降了許多。盡管如此,本文方法同樣以73.2%的平均識別率高于其他對比方法,并且其優(yōu)越性是顯而易見的。
在效率方面,表2比較了Honda/UCSD數(shù)據(jù)庫上訓(xùn)練和測試階段不同算法的平均時間消耗,這一實驗是在英特爾酷睿i5-6200U PC上實現(xiàn)的。從表3可以看出,在訓(xùn)練階段,本文方法的計算成本比其他方法要高,因為本文方法需要計算每個子流形內(nèi)部及子流形之間的圖像之間的稀疏重建權(quán)重向量,但仍然可以接受。在測試階段,本文方法的測試速度比大多數(shù)最先進方法要快。
表2 Honda/UCSD數(shù)據(jù)庫上不同方法的時間消耗(一個圖像集的分類)
本文提出了一種新的基于復(fù)雜網(wǎng)絡(luò)和圖像集的人臉識別方法。首先,將非約束條件下獲取的人臉圖像集抽象成復(fù)雜網(wǎng)絡(luò)系統(tǒng),在復(fù)雜網(wǎng)絡(luò)體系下劃分人臉圖像集數(shù)據(jù)的子流形。其次,在子流形劃分的基礎(chǔ)上,構(gòu)建稀疏嵌入的類內(nèi)圖模型與類間圖模型以及最優(yōu)投影目標(biāo)函數(shù),保持人臉樣本的內(nèi)在低維結(jié)構(gòu)信息。最后,在低維空間構(gòu)建人臉圖像集的聯(lián)合表示模型以實現(xiàn)人臉圖像集的分類和識別。
基于復(fù)雜網(wǎng)絡(luò)的思想,本文方法在理論上和實際上都很有吸引力。實驗結(jié)果表明,本文方法適用于基于圖像集的人臉識別問題,并可與最先進的方法相媲美。對于未來的工作,我們現(xiàn)在正在探索人臉圖像集的魯棒表征描述模型,它將抽取出人臉顯著區(qū)域的視覺紋理特征,在解決人臉圖像集的魯棒表征問題上取得重要突破。而且,將新的訓(xùn)練集應(yīng)用到增加學(xué)習(xí)也將會是我們今后的一個研究興趣。
[1]汪小帆,李翔,陳關(guān)榮.網(wǎng)絡(luò)科學(xué)導(dǎo)論[M].北京:高等教育出版社,2013.
[2]K.C.Lee,J.Ho,M.H.Yang,et al.Video-Based Face Recognition Using Probabilistic Appearance Manifolds,in:Pro-ceedings of International Conference on Computer Vision and Pattern Recognition(CVPR),pp.313-320,IEEE(2003).
[3]R.Gross,J.Shi.The CMU Motion of Body(MoBo)Database.Technical Report CMU-RI-TR-01-18,Robotics Institute,Carnegie Mellon University,pp.1-13(2001).
[4]M.Kim,S.Kumar,V.Pavlovic,et al.Face Tracking and Recognition with Visual Constraints in Real-World Videos.CVPR,pp.1787-1794,IEEE(2008).
[5]O.Yamaguchi,K.Fukui,K.Maeda.Face Recognition Using Temporal Image Sequence,in:Proceedings of the IEEE International Conference on Automatic Face and Gesture Recognition,pp.318-323,IEEE(1998).
[6]H.Cevikalp,B.Triggs.Face Recognition Based on Image Sets,in:Proceedings of International Conference on Computer Vision and Pattern Recognition(CVPR),pp.2567-2573,IEEE(201 0).
[7]R.Wang,X.Chen.Manifold Discriminant Analysis,in:Proceedings of International Conference on Computer Vision and Pattern Recognition(CVPR),pp.429-436,IEEE(2009).
[8]J.Hamm,D.D.Lee.Grassmann Discriminant Analysis:a Unifying View on Subspace-Based Learning,in:Proceedings of International Conference on Machine Learning(ICML),pp.376-383,IEEE(2008).
[9]P.Zhu,W.Zuo,L.Zhang,et al.Image Set-based Collaborative Representation for Face Recognition,IEEE Transactions on Information Forensics and Security,9(7),1120-1132(201 4).