蘇樹智 謝 軍 平昕瑞 高鵬連
①(安徽理工大學計算機科學與工程學院 淮南 232001)
②(合肥綜合性國家科學中心能源研究院(安徽省能源實驗室) 合肥 230031)
③(安徽理工大學數(shù)學與大數(shù)據(jù)學院 淮南 232001)
特征提取[1,2]是解決分類和識別任務(wù)的一類主流方法,從模態(tài)數(shù)據(jù)種類角度劃分,可分為單模態(tài)方法和多模態(tài)方法。在單模態(tài)方法中主成分分析(Principal Component Analysis, PCA)[3,4]使用最為廣泛,其通過正交變換從原始單模態(tài)數(shù)據(jù)[5,6]的高維空間中抽取數(shù)據(jù)的低維表示形式,同時最大化低維數(shù)據(jù)的差異。但是PCA是一種線性特征提取方法,沒有考慮數(shù)據(jù)的內(nèi)在結(jié)構(gòu)信息,因此在很多實際應用中難以抽取強鑒別力的低維特征。而多模態(tài)方法則是處理兩種或兩種以上模態(tài)數(shù)據(jù)的方法,典型相關(guān)分析(Canonical Correlation Analysis,CCA)[7]是多模態(tài)特征提取方法中的代表算法,能夠?qū)崿F(xiàn)高維多模態(tài)數(shù)據(jù)的特征提取和融合。
CCA旨在學習兩組模態(tài)數(shù)據(jù)的相關(guān)投影方向,使投影后的兩組模態(tài)間相關(guān)性最大,目前已應用于圖像處理[8]、特征融合[9]等領(lǐng)域。但CCA本身和PCA均為線性方法,針對其難以提取高維非線性數(shù)據(jù)有效特征的問題,文獻[10,11]中提出局部保持CCA(Locality Preserving Canonical Correlation Analysis, LPCCA),該方法考慮局部鄰域間的關(guān)系,利用局部的幾何結(jié)構(gòu)解決一些非線性問題。雖然LPCCA比CCA更好地揭示了內(nèi)在數(shù)據(jù)結(jié)構(gòu),但是保留的局部信息多包含噪聲,揭示的近鄰結(jié)構(gòu)存在失真現(xiàn)象,因此僅在姿態(tài)估計任務(wù)中獲得了良好的實驗結(jié)果,而分類能力較差。為了解決LPCCA的弱分類性能問題,文獻[12]提出一種新的可替代局部保持CCA(Alternative Locality-Preserving Canonical Correlation Analysis, ALPCCA),該算法對LPCCA整體近鄰幾何結(jié)構(gòu)的嵌入方式加以改進,進而提升了識別性能。
此外使用核的思想也可以解決非線性問題,文獻[13,14]提出的核CCA(Kernel Canonical Correlation Analysis, KCCA)利用核函數(shù)在更高維空間中表示原高維數(shù)據(jù),令原高維數(shù)據(jù)在更高維空間中線性可分,盡管KCCA在分類性能上有所提升,但將高維數(shù)據(jù)映射到更高維大大增加了運算過程的計算量。
除了考慮數(shù)據(jù)結(jié)構(gòu)信息外還可以利用標簽信息和圖的思想提升算法的性能。標簽信息即一種有效的監(jiān)督信息,鑒別CCA(Discriminative Canonical Correlation Analysis, DCCA)在文獻[15,16]被中提出,將監(jiān)督信息融合到特征提取的框架中,在子空間中類內(nèi)樣本分布更加緊密,類間樣本離散程度更大,從而使其在分類任務(wù)中擁有較好的類分離性。而圖多視角CCA(Graph Multiview Canonical Correlation Analysis, GMCCA)[17,18]則通過使用圖誘導的方式直接分析數(shù)據(jù)間的內(nèi)在關(guān)系,減少規(guī)范變量與常見的低維表示形式之間的距離。
上述方法是基于原始高維數(shù)據(jù)確定近鄰關(guān)系或構(gòu)建圖,但因噪聲和冗余信息,這種近鄰關(guān)系或圖揭示的幾何結(jié)構(gòu)會存在失真現(xiàn)象,降低特征的鑒別性。本文提出一種新的圖強化典型相關(guān)分析(Graph Enhanced Canonical Correlation Analysis, GECCA)算法。該算法使用譜聚類方法對原始高維數(shù)據(jù)進行分割,獲取多種數(shù)據(jù)成分,并針對每種數(shù)據(jù)成分構(gòu)建對應成分圖,可從不同成分的角度出發(fā)更好地揭示高維數(shù)據(jù)間復雜幾何流形;為了獲得益于分類和識別任務(wù)的信息,采用相似準則構(gòu)建成分圖的權(quán)重矩陣,借助概率評估方法保留成分圖對應的類監(jiān)督信息,以此構(gòu)建成分圖的類系數(shù)矩陣;通過圖強化方式將成分圖的權(quán)重矩陣和類系數(shù)矩陣進行融合得到強化矩陣,并將其嵌入到典型相關(guān)分析的框架中。GECCA更好地揭示和保留了隱藏在原始高維數(shù)據(jù)中的幾何流形和鑒別信息,從而能夠更好地指導和輔助特征的提取。GECCA有以下特點:(1)能更好地揭示數(shù)據(jù)的本質(zhì)幾何流形,解決非線性特征提取問題;(2)有效地利用了監(jiān)督信息,使其在圖像識別任務(wù)中擁有良好的類分離性。
本節(jié)將簡要回顧CCA算法的主要內(nèi)容。CCA為兩種模態(tài)數(shù)據(jù)學習一個相關(guān)子空間,使得在子空間中兩種模態(tài)數(shù)據(jù)的相關(guān)性最大。兩種模態(tài)數(shù)據(jù)集可分別用X和Y表示,且所有樣本均一一對應,其中X=[x1,x2,...,xn]∈Rp×n,Y=[y1,y2,...,yn]∈Rq×n。每種模態(tài)數(shù)據(jù)集都有n個樣本,xi,yi(i=1,2,...,n) 表示數(shù)據(jù)集X,Y中第i個樣本,且樣本均為均值化后的樣本數(shù)據(jù),X數(shù)據(jù)集中數(shù)據(jù)維度是p,Y數(shù)據(jù)集中數(shù)據(jù)維度是q。CCA可簡化為使模態(tài)間相關(guān)性最大的投影方向(α,β)學習問題
由于投影方向的尺度不變性,上述投影方向的學習問題能夠進一步簡化如式(2)的優(yōu)化模型
CCA的優(yōu)化函數(shù)可等價于兩模態(tài)間樣本距離最小,因此可將其等價描述為
對于給定兩組對應模態(tài)數(shù)據(jù)集X和Y,數(shù)據(jù)樣本間通常包含不同的幾何結(jié)構(gòu)信息,為了有效利用這些信息本文提出圖強化的方法。
每個模態(tài)數(shù)據(jù)集在原始高維數(shù)據(jù)中通常包含多種獨立數(shù)據(jù)成分,例如一張照片中人物和背景即為兩種不同數(shù)據(jù)成分,利用原始數(shù)據(jù)直接構(gòu)圖的方法無法反映不同數(shù)據(jù)成分間的關(guān)系。GECCA先將上述數(shù)據(jù)集X和Y采用譜聚類方法進行分割,將不同數(shù)據(jù)中同一成分的數(shù)據(jù)分割在一塊,分割后得到原始高維數(shù)據(jù)的多重數(shù)據(jù)成分集,并為每種數(shù)據(jù)成分構(gòu)建對應成分圖,以此保留數(shù)據(jù)間的內(nèi)在聯(lián)系,使用相似準則構(gòu)建成分圖權(quán)重矩陣,揭示原始數(shù)據(jù)中的復雜內(nèi)在流形結(jié)構(gòu),流程如圖1所示。從優(yōu)化角度來看沒有區(qū)分各成分的重要性,所以本文采用線性融合策略進行圖強化,根據(jù)標簽信息獲取類系數(shù)矩陣以此作為圖強化的優(yōu)化系數(shù)。
圖1 成分圖權(quán)重矩陣流程圖
為優(yōu)化模型,可將式(14)在代數(shù)運算后重寫為(忽略一般性常數(shù))
對式(15)中模型進行求解,首先為該模型構(gòu)建拉格朗日乘子函數(shù)
利用求得的相關(guān)投影矩陣A和B可得到數(shù)據(jù)集X和Y對應的低維相關(guān)特征訓練集ATX ∈Rd×n和BTY ∈Rd×n。本文采用并行特征融合策略完成特征融合
融合后獲得的訓練集在子空間低維融合特征集可記作Z={Z1,Z2,...,Zn}∈Rd×n。采用同樣方法可得到測試集低維融合特征集。
為評估GECCA的圖像識別性能,分別在人臉數(shù)據(jù)集XM2VTS和手寫體數(shù)字數(shù)據(jù)集Semeion上設(shè)計了針對性實驗。利用模態(tài)策略[19]獲得上述數(shù)據(jù)集的模態(tài)數(shù)據(jù),具體為采用Coiflets和Daubechies兩種小波變換得到每個圖像的低頻子圖,為了弱化小樣本問題,可用PCA將低頻子圖約簡到100維,以此作為每幅圖形的兩種模態(tài)數(shù)據(jù)。在實驗中將GECCA算法與DCCA[16], CCA[7], LPCCA[10], ALPCCA[12]算法作對比分析,并且所有算法的最終識別率均利用基于歐氏距離的最近鄰分類器來獲得。
XM2VTS人臉數(shù)據(jù)集包含來自295名志愿者每人4個會話中的8幅圖像,圖2為XM2VTS數(shù)據(jù)集中部分人臉圖片。本實驗從每類樣本中進行10次隨機抽取,每次抽取t(t=3,4,5,6)個樣本作為訓練樣本,其余樣本作為本次實驗的測試樣本。圖3展示了在人臉數(shù)據(jù)集上識別率隨維度變化情況。
圖2 XM2VTS部分人臉圖像
CCA沒有考慮數(shù)據(jù)間內(nèi)在幾何關(guān)系和類標簽信息,只是將投影后兩模態(tài)間的相關(guān)性最大化,無法掌握數(shù)據(jù)中非線性幾何結(jié)構(gòu),學習的低維特征在圖像識別中鑒別力不足。LPCCA和ALPCCA都在一定程度上考慮了高維數(shù)據(jù)中的內(nèi)在聯(lián)系,在相關(guān)子空間中盡可能保留數(shù)據(jù)的幾何結(jié)構(gòu);但LPCCA直接利用原始的高維數(shù)據(jù)揭示的局部近鄰結(jié)構(gòu),會受到高維數(shù)據(jù)中包含的噪聲和冗余信息的影響,保留的局部近鄰結(jié)構(gòu)容易失真,所以識別效果較差;ALPCCA也使用原始高維數(shù)據(jù),與LPCCA不同,采用的是兩模態(tài)整體近鄰結(jié)構(gòu)的等權(quán)線性表示,因此識別率要高于LPCCA。DCCA在相關(guān)系分析框架中加入了監(jiān)督信息,對高維數(shù)據(jù)進行約束,具有較高識別率。
表1 GECCA的算法步驟
GECCA利用成分圖的方式揭示數(shù)據(jù)中各成分之間的聯(lián)系,用成分圖權(quán)重矩陣保留數(shù)據(jù)的幾何流形,并借助類系數(shù)矩陣優(yōu)化成分圖權(quán)重矩陣,使得低維相關(guān)特征更具鑒別力。從圖3中不難看出,在不同個數(shù)訓練樣本下GECCA均展示出最佳識別率,且識別率在較低維度時增幅最快說明GECCA提取的特征鑒別能力更強。
圖3 在XM2VTS人臉數(shù)據(jù)集上識別率隨維度變化情況
Semeion手寫體數(shù)字數(shù)據(jù)集包含大約80個人的1593個手寫體數(shù)字,每人寫出由0到9的所有數(shù)字。該數(shù)據(jù)集中每類有大量數(shù)據(jù)樣本,因此本實驗從每類中選擇t(t=40, 60, 80, 100)個樣本用于訓練,剩余樣本用作實驗測試,并進行10次隨機性測試。圖4為每次隨機實驗各算法的最佳識別率立體圖,表2記錄各算法平均最佳識別率及標準差。
CCA是一種線性方法,無法發(fā)現(xiàn)隱藏在高維數(shù)據(jù)中的非線性幾何結(jié)構(gòu),因此會影響識別性能。LPCCA是將全局非線性轉(zhuǎn)化為局部線性,解決姿態(tài)估計中的非線性問題,但鑒別能力受原始高維數(shù)據(jù)中的噪聲和冗余信息的影響,表現(xiàn)出了較差的識別性能。ALPCCA對LPCCA鄰域信息的利用加以改進,使之鑒別能力得以提升。類標簽作為一種重要的監(jiān)督信息,可提升算法的識別和分類性能,但CCA, LPCCA和ALPCCA均未用到標簽信息,因此識別率均低于包含類標簽約束的DCCA。
GECCA通過圖強化方法將成分圖權(quán)重矩陣和類系數(shù)矩陣線性融合,并將其嵌入到相關(guān)特征學習的理論框架中,使其在保留成分數(shù)據(jù)間關(guān)系的同時具有鑒別效果;此外,GECCA對模態(tài)內(nèi)樣本的散布進行約束,使得同類樣本間的距離更近,分類性更強。如圖4所示,不難發(fā)現(xiàn)在訓練樣本情況不同時,10次隨機實驗中GECCA均表現(xiàn)出最佳鑒別能力,這表明GECCA的識別效果優(yōu)于其他算法。在表2中,GECCA具有最高的平均識別率和更小的標準差,說明GECCA在相同訓練樣本下更加穩(wěn)定,有更小的誤差,實驗對隨機樣本有更好的魯棒性。
表2 在Semeion手寫體數(shù)字數(shù)據(jù)集上的識別率及標準差
圖4 在Semeion數(shù)據(jù)集中每次隨機實驗的最佳識別率
CCA作為一種線性多模態(tài)特征學習方法,無法解決高維數(shù)據(jù)的非線性問題。而基于局部領(lǐng)域的特征提取方法的幾何結(jié)構(gòu)往往會因噪聲和冗余信息存在失真現(xiàn)象,從而影響低維特征的類分離性。在原始高維數(shù)據(jù)中通常包含多種獨立的數(shù)據(jù)成分,僅使用一個圖難以反映不同數(shù)據(jù)成分之間的差異。為此,本文提出了一種新的GECCA算法,該方法考慮了原始數(shù)據(jù)中的幾何信息和監(jiān)督信息。采用成分圖權(quán)重矩陣揭示數(shù)據(jù)內(nèi)在本質(zhì)幾何流形;以類系數(shù)矩陣方式增加數(shù)據(jù)的可分類性;以此為基礎(chǔ),通過圖強化將成分圖權(quán)重矩陣和類系數(shù)矩陣進行融合,并嵌入到相關(guān)特征提取框架中,減小直接使用原始數(shù)據(jù)而保留噪聲的影響,同時增強算法的識別和分類性能。在XM2VTS人臉數(shù)據(jù)集和Semeion手寫體數(shù)字數(shù)據(jù)集上進行實驗,良好的實驗結(jié)果顯示GECCA是一種有效的圖像識別算法。
本文為未來的研究開辟了幾個有趣的方向。將兩模態(tài)數(shù)據(jù)融合擴展至3個或3個以上模態(tài)值得進一步探究。將全監(jiān)督改為半監(jiān)督也具有十分重要的現(xiàn)實意義。