孫偉強
(遼寧廣播電視大學,遼寧沈陽110034)
由于視頻圖像有許多優(yōu)點,視頻人臉識別已經(jīng)得到了廣泛的應用,例如安防監(jiān)控系統(tǒng)、手持設備和多媒體數(shù)據(jù)庫等[1-2]。使用視頻有益于提高識別率,視頻包含的信息多于圖像,分類的精確性、確定性和可靠性都會提高,這些信息也會用于觀察條件不佳情況下的補償,而圖像人臉識別只允許在較低干擾系統(tǒng)下實現(xiàn)[3-4]。
至今,學者們已經(jīng)提出了許多視頻人臉識別方法,例如,文獻[5]將圖像集表示成一個線性子空間,使用子空間之間的正則角度計算它們之間的距離,稱為交互子空間方法(MSM)。文獻[6]對集占有的區(qū)域使用凸近似,如凸包或仿射包,通過尋找最近距離來衡量包間相似性,對應于合成最接近的粒子對。文獻[7]通過使用距離計算樣本系數(shù)稀疏性的規(guī)范化約束改進了上述算法,很多情況下,這些全集表示都是有效的,然而,它們不是以人臉外觀流形的非線性(局部拓撲結(jié)構(gòu))建模的,稀疏約束能改善性能的事實表明整體的近似會導致過高的估計[8]。為了對流形的局部結(jié)構(gòu)建模,圖像集主要表示成分段局部線性模型,從圖像集的聚類可以學習到這些表示,文獻[9]和文獻[10]從聚類構(gòu)建線性子空間作為局部模型,為了評估兩個圖像集之間的相似性,計算了局部模型之間的成對距離,并通過融合策略對它們進行合并;另一種方法是融合過程之前在探針集中計算每幅圖像的點到模型距離。提到的這些方法都是以非判別方式構(gòu)建局部模型的,經(jīng)常需要與最優(yōu)分類的貝葉斯先驗進行協(xié)調(diào)。文獻[11-13]提出通過人臉外觀流形的判別學習[11]、線性投影矩陣[12]及流形嵌入的非線性映射[13]學習構(gòu)建局部模型的鄰居圖像,從而更好地分離不同人的局部模型,增加同一個人的局部模型緊湊性。盡管這些方法都取得了不錯的識別效果,然而,在這些現(xiàn)存的方法中,大部分都是在非判別方式下執(zhí)行的,在每個圖像集上進行訓練,不直接學習集之間的差別,往往不能很好地學習局部模型特定協(xié)方差。
基于上述分析,為了更好地識別視頻中的人臉,提出了一種基于異方差概率LDA的外觀流形建模算法,通過構(gòu)建分段局部線性模型,以高斯分布的集合建模,使用異方差概率線性判別分析(PLDA)學習,實驗結(jié)果驗證了所提算法的有效性及可靠性。
概率線性判別分析或者PLDA是一個通用的模型,用于描述如何觀察從潛在空間生成的人臉圖像,分配適當?shù)膮?shù)來對模型進行訓練,以便它可以支持精確的預測和合理的不確定性估計。令M個視頻中M個不同人X1,X2,…,XM作為訓練數(shù)據(jù),每個視頻是D×1維矢量圖像(或者是派生特征向量)的集合,如果用xij表示第i個人的第j幅圖像,PLDA的數(shù)據(jù)生成過程可表示如下
假設每個觀察數(shù)據(jù)點xij是從潛在空間hi和wij生成的點,稱hi的空間為類間空間,wij的空間為類內(nèi)空間,正如下標所示,來自同一個人的觀察共享相同的h值,但有自己的w值,因此,h項也稱為潛在身份變量(LIV),對于每個人來說,它是獨一無二的。向量hi和wij應該小于xij,且遵循附加的觀察平均μ和剩余噪聲εij,分別由線性變換F和G映射到觀察空間。注意,x,h,w和ε是有多元高斯分布的隨機變量,條件概率可描述為
式中:θ=(μ,F(xiàn),G,Σ)是建模參數(shù);Σ是剩余噪聲ε的對角協(xié)方差矩陣。
使用這個模型有兩個階段:訓練(離線)階段和識別(在線)階段。訓練階段,該算法試圖優(yōu)化似然函數(shù)
識別階段,使用訓練模型去推斷探針數(shù)據(jù)的身份,如果在模型比較過程中使用統(tǒng)一的先驗知識,探測圖像xp和圖庫圖像xm之間的匹配得分可定義如下
式中:P(xm,xp)和P(xm)是生成的數(shù)據(jù)點的似然值,對于P(xm,xp),要外加假設這兩個點是從相同的LIV生成的,為了評估P(xm,xp)和P(xm),生成方程改寫為
然后計算gx'[μ',AAT+Σ'],其中,Σ'是ε'的對角協(xié)方差矩陣。式(8)和式(9)有通用的形式,可以用來獲取P(xm,xp)和P(xm),因此,也可以推廣到圖像集(Xm和Xp)似然評估的情況。
為了更好地識別視頻中的人臉,提出了基于異方差概率現(xiàn)行判別分析的流刑學習方法,提出的方法包含兩個部分:利用圖庫中所有視頻的人臉進行外觀流形建模;利用匹配探測和圖庫視頻進行身份認證。為了完成這兩個任務,采用了異方差PLDA模型。
異方差PLDA能使人臉樣本減少“預測的”高斯分布,從而可以得到更好地近似非線性流形。盡管能逐個對類內(nèi)協(xié)方差建模,它們都保持在單個類間協(xié)方差的頂端。
通過對每個人/類的類內(nèi)協(xié)方差分開建模的方式將標準PLDA擴展成了異方差PLDA,在這個新模型下,式(1)的數(shù)據(jù)生成過程變?yōu)?/p>
式中:G不是唯一的,以類標簽i為索引,這個模型的參數(shù)可記作 θ=(μ,F(xiàn),G1,2,…,M,Σ),似然函數(shù)為
為了訓練異方差模型,執(zhí)行如下算法:
2)重復下述過程直至融合:
E-step:為每幅訓練圖像 xij計算 E(zijxij)和,給出當前的θ。
M-step:使用 E-step 獲得的值計算新的 F,G1,2,…,M和Σ。
以上步驟,N是訓練圖像和z=[hTwT]T的數(shù)目。項xij表示第i個人的所有訓練圖像,E-step類似于標準PLDA中的 E-step,為每幅圖像計算2個預期值E(zijxij)和E(zijzTijxij),指定某個人所有圖像的預期值是同時計算的,由那些圖像的第一次列出的通用等式實現(xiàn),如式(8)。這次如果考慮的是第i個人,則用Gi取代式(8)中的G,然后用得到的式子計算
式中:y,x',μ',A 和 Σ'是式(9)中的項,E(zijxij)和E(zijzTijxij)分別從E(yxij)和E(yyTxij)中提取出來。
異方差PLDA的M-step從式(11)中推導出來,更具體的就是試圖最大化以下函數(shù)
圖庫中每個視頻都包含一個人的各種人臉外觀,使用分段局部線性模型對這些外觀建模,首先通過聚集視頻幀找到每個視頻的局部結(jié)構(gòu),然后,使用異方差PLDA模型學習聚類結(jié)果,獲得表征分布的參數(shù)。
為了聚集視頻幀,任何聚類算法都可使用,因此,提出了一種基于PLDA的增量式合并聚類方法,該方法首先使用圖庫X1,X2,…,XM中所有視頻訓練標準PLDA模型θ=(μ,F(xiàn),G,Σ),然后,視頻 Xi的聚類過程可描述如下:
1)創(chuàng)建第一個聚類Xi1,包含視頻的第一幀和集合Ki,即在Xi的聚類數(shù)目為1。
2)對每個剩余幀xij:
(1)在已經(jīng)存在的聚類中尋找一個與xij相似度最高的聚類:
(2)如果得分低于預定義閾值δ:Ki增加1;為xij創(chuàng)建一個新的聚類XiKi,否則,包含xij到Xik';執(zhí)行聚類迭代合并,即當時,Ki減1;合并2個與Xil'相似度最高的聚類,即l',m'=
3)對于每個聚類,如果它的成員少于確定值η,合并這個聚類到最相似的且成員多于η的聚類。
上述過程聚類之間的相似性計算如下
式中:P(Xa,Xb),P(Xa)和P(Xb)使用如式(7)所示的預訓練的標準PLDA模型計算得到,整個實驗,設置閾值δ為0,η為4。注意,整個過程結(jié)束時,視頻可能會有不同數(shù)目的聚類。
如前文所述,形成的聚類將作為局部線性模型的樣本,異方差PLDA,聚類被建模成高斯分布,在訓練的異方差模型中每個聚類將關聯(lián)于其中一個G,訓練算法本身會搜尋最優(yōu)類間協(xié)方差(特征為F)和類內(nèi)協(xié)方差(特征為G)。在訓練過程中,所有聚類都是針對不同人的,例如,聚類 X11,X12,…,X1K1,X21,…,XMKM是 X1,X2,…,XK的重新索引,其中K=ΣiKi。訓練結(jié)束后,學習的G要重新索引,以便GiK與XiK相關聯(lián)。
為了識別探針視頻,匹配每一幀到圖庫的所有聚類并融合匹配得分,已知探針視頻Xp有R幀xp1,xp2,…,xpR,幀xpr與聚類Xik之間的匹配分數(shù)計算如下
另外,P(Xik,xpr)和P(Xik)計算方法相同,但是式(8)中的G由訓練的異方差模型的Gi取代,xpr和整個視頻Xi的匹配分數(shù)由下述最大化規(guī)則獲得
最后探針視頻Xp和圖庫視頻Xi之間的匹配分數(shù)計算如下選定argmaxxiS(Xi,Xp)為匹配身份,它具有最大的融合匹配得分。
所提算法的整個過程如圖1所示。
圖1 所提算法的整個過程
訓練階段:
1)通過聚集視頻幀找到每個視頻的局部結(jié)構(gòu);
2)對視頻幀進行聚類;
3)使用異方差PLDA模型學習聚類結(jié)果,獲得表征分布的參數(shù)。
識別階段:
1)匹配每一幀到圖庫的所有聚類;
2)并融合匹配得分;
3)根據(jù)最大融合匹配得分原則完成視頻人臉的識別。
實驗使用MATLAB7.0在個人計算機上實現(xiàn),計算機配置為:Windows XP操作系統(tǒng)、迅馳酷睿2處理器、2.53 GHz主頻、4 Gbyte RAM。在公開的數(shù)據(jù)庫CMU Mo-Bo[14]和 Honda/UCSD[15]上對提出的方法作了評估,也將所提方法與其他文獻中提出的方法作了比較。
實驗在MoBo數(shù)據(jù)集的正面視圖子集上執(zhí)行,該子集包含在跑步機上行走的25個人的99個視頻序列,每個人有4個序列對應于4個行走模型:慢、快、傾斜和抱球(缺少了一個人的持物序列),視頻中包含姿勢和表情的變化,對這些視頻使用Viola-Jones探測器檢測人臉,并將圖像裁剪為40×40灰度大小,然后提取每幅圖像的局部二進制模式(LBP)直方圖特征集,劃分圖像為25個8×8像素的方塊,在每個方塊上計算以圓(8,1)為鄰域的統(tǒng)一LBP直方圖,產(chǎn)生的所有直方圖連起來產(chǎn)生最終1 476×1的特征向量。
共執(zhí)行了12次實驗,得到識別率的平均值和標準差,最初,在原始基于行走模式分組上執(zhí)行了4倍交叉驗證,選取其中一個組作為訓練集/圖庫,剩下的作為測試集,在每個視頻打亂分組前重復兩次交叉驗證,每次實驗中,使用標準PLDA聚類訓練集中的圖像,使用異方差PLDA學習,然后與測試集比對。
令F中包含24個基礎向量,每個G中也包含24個基礎向量。對文獻中提到的其他3種較為先進的視頻人臉識別方法進行了測試比較,包括 MSM[5]、SANP[7]和標準PLDA[12]。其中,SANP因其識別率高而被認為是最先進的算法;對于MSM來說,需要選擇特征向量的數(shù)目,以便能保留98%的總特征值;對于SANP,標準參數(shù)值使用文獻[7]中建議的值,圖2表明了12次實驗中各個算法取得的識別率,各算法的識別率從低到高排列,平均識別結(jié)果如表1所示。
圖2 各方法在CMU MoBo數(shù)據(jù)集上的識別率
表1 各方法在CMU MoBo數(shù)據(jù)集上的平均識別率及其標準差
從圖2和表1可以看出,所提算法明顯優(yōu)于其他幾個方法,獲得的平均分類率最高;其次為SANP方法,分類率僅略低于所提算法;另外兩個方法MSM和標準PLDA性能明顯欠佳。所提算法的標準差也是最低的,表明它比其他方法更穩(wěn)定,優(yōu)于標準PLDA的事實表明,為每個人分別構(gòu)建類內(nèi)協(xié)方差模型確實非常有效、益于識別。
Honda/UCSD數(shù)據(jù)集包含20個人的有姿勢和表情變化的59個視頻序列,使用Viola-Jones檢測器檢測每幀圖像,并將人臉圖像裁剪為20×20灰度大小,然后使用直方圖均衡化每幅圖像,通過矢量化圖像原始像素來提取特征向量。
使用文獻[9]中指定的標準訓練/測試配置在這個數(shù)據(jù)集上執(zhí)行實驗,即20個序列用作訓練集/圖庫,剩余的39個序列作為測試集,為了得到更詳細的結(jié)果,對每個視頻都執(zhí)行了多次實驗,并且限制了用于訓練模型和識別視頻的最大幀數(shù)目,使用與CMU MoBo數(shù)據(jù)集相同的參數(shù)值執(zhí)行實驗,視頻幀數(shù)分別設置為50、100及全長,表2列出了4種方法相對于不同最大幀數(shù)目的識別率。
從表2可以看出,使用全長視頻識別的情況下,所提算法及SANP得到的性能最佳,識別率可達100%;標準PLDA性能略差;MSM性能遠低于其他三種方法。當最大幀數(shù)目減小到100時,所提算法優(yōu)于SANP,標準PLDA排第三,在這種情況下,所提算法仍能獲得幾乎完美的識別率。
當視頻長度限制為50幀時,SANP能獲得最佳性能,所提出的方法降為第三,甚至不及標準PLDA,這表明在訓練集不是很充足的情況下,異方差PLDA不能可靠地估計指定人的類內(nèi)協(xié)方差,標準PLDA這種均勻模型可能會獲得更好的估計,或者,某個人的整個數(shù)據(jù)可能被更好地全局建模,然而這類情況不是本文首先要考慮的情況。
表2 各方法在Honda/UCSD數(shù)據(jù)集上的分類率
為了更好地體現(xiàn)所提算法的優(yōu)越性,將其復雜度與標準PLDA、MSM、SANP算法進行了對比,分別比較了訓練時間復雜度、測試時間復雜度及空間復雜度,具體比較結(jié)果如表3所示,其中,m和n分別表示圖像矩陣的行數(shù)和列數(shù),L,M和N分別表示投影向量數(shù)、測試樣本數(shù)和訓練樣本數(shù)。
表3 各算法的復雜度比較
從表3可以看出,與標準PLDA算法相比,所提算法的各個復雜度均相當;與MSM算法相比,所提算法的訓練階段時間復雜度稍微高了點,但是測試階段的時間復雜度比MSM算法低了一半;與SANP算法相比,所提算法的訓練階段、測試階段時間復雜度及總體空間復雜度均低了很多。在大大提高識別率的同時,所提異方差概率LDA流形學習算法仍然能夠保持與其他相關算法相當甚至更優(yōu)的復雜度,由此可見其優(yōu)越性。
針對現(xiàn)有的視頻人臉識別方法不能很好地學習局部模型特定協(xié)方差的問題,為了更好地識別視頻中的人臉,提出了基于異方差概率線性判別分析的外觀流形建模算法,以高斯分布集合作為人臉外觀流形模型,采用了異方差概率線性判別分析(PLDA)來判別性地學習流形。在訓練期間,對從視頻中采集的人臉圖像進行聚類,同時學習所有人的聚類。為了識別一個新穎的視頻,視頻要與訓練模型按幀匹配,然后融合得到各個類的得分。在兩個基準數(shù)據(jù)庫上進行了實驗,將提出的方法與其他幾種視頻人臉識別算法進行了比較,雖然匹配策略很簡單,但提出的方法能獲得較高的識別率,表現(xiàn)出的性能也很穩(wěn)定,并且具有較低的時間復雜度和空間復雜度,標準和異方差PLDA之間的比較也證實了局部模型特定協(xié)方差建模的有效性。
未來會將本文算法應用到其他的視頻人臉數(shù)據(jù)集上,進行大量的實驗,在提高識別率的同時,進一步降低算法的計算復雜度,從而更好地運用于實時人臉識別系統(tǒng)。
[1]嚴嚴,章毓晉.基于視頻的人臉識別研究進展[J].計算機學報,2009,32(5):878-886.
[2]張亮亮.基于對稱子空間分析的人臉識別方法研究[D].濟南:山東大學,2011.
[3]王曉侃,毛峽.基于非線性流形學習的人臉面部運動估計[J].電子與信息學報,2011,33(10):2531-2535.
[4]張鑫.基于SIFT算法的ATM視頻人臉識別系統(tǒng)研究[D].哈爾濱:哈爾濱工程大學,2012.
[5]劉亞楠,吳飛,莊越挺.基于多模態(tài)子空間相關性傳遞的視頻語義挖掘[J].計算機研究與發(fā)展,2009,46(1):1-8.
[6]CEVIKALP H,TRIGGS B.Face recognition based on image sets[C]//Proc.2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).[S.l.]:IEEE Press,2010:2567-2573.
[7]HU Y,MIAN A S,OWENS R.Sparse approximated nearest points for image set classification[C]//Proc.2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).[S.l.]:IEEE Press,2011:121-128.
[8]劉向陽.多流形數(shù)據(jù)建模及其應用[D].上海:上海交通大學,2011.
[9]張懿,劉國海,魏海峰,等.基于二次仿射傳播聚類的非線性系統(tǒng)多模型 LSSVM 建模[J].控制與決策,2012,27(7):1117-1120.
[10]陳定三.基于聚類的多模型建模及其在軟測量中的應用[D].無錫:江南大學,2011.
[11]范小九,彭強,夏旭.一種改進的AAM人臉特征點快速定位方法[J].電子與信息學報,2009,31(6):1354-1358.
[12]李樂,章毓晉.基于線性投影結(jié)構(gòu)的非負矩陣分解[J].自動化學報,2010,36(1):23-39.
[13]何強,蔡洪,韓壯志,等.基于非線性流形學習的ISAR目標識別研究[J].電子學報,2010,38(3):585-590.
[14] 魯珂,丁正明,趙繼東,等. 一種基于相關反饋的視頻人臉算法[J].西安電子科技大學學報: 自然科學版, 2012, 39(3) : 154-160.
[15] 代毅,肖國強,宋剛. 隱馬爾可夫后處理模型在視頻人臉識別中的應用[J]. 計算機應用, 2010(4) : 960-963.