尹寶才,張超輝,胡永利,孫艷豐,王博岳
(1. 北京工業(yè)大學(xué) 信息學(xué)部,北京 100124; 2. 北京人工智能研究院,北京 100124)
隨著攝像頭、傳感器以及互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們能夠越來越便捷地獲取各種各樣的多視數(shù)據(jù),例如描述人的人臉、筆跡、指紋等特征,描述圖像的顏色、紋理、形狀等特征。多視數(shù)據(jù)能夠更全面的描述目標(biāo)對(duì)象,有益于克服單視數(shù)據(jù)中常見的光照、遮擋等難題,在識(shí)別[1]、聚類[2]等多視學(xué)習(xí)任務(wù)中表現(xiàn)出顯著優(yōu)勢(shì)。然而,多視數(shù)據(jù)一般維度較高[3],對(duì)其進(jìn)行向量化表示時(shí)容易引發(fā)“維數(shù)災(zāi)難”問題,給傳統(tǒng)多視學(xué)習(xí)算法帶來了極大的困難。降維是數(shù)據(jù)挖掘的基礎(chǔ)和熱點(diǎn)問題,在克服“維數(shù)災(zāi)難”的同時(shí)還能挖掘數(shù)據(jù)中的判別信息,但其很難處理多視數(shù)據(jù)。因此,如何對(duì)多視數(shù)據(jù)進(jìn)行有效的降維成為一個(gè)亟待解決的問題。
多視降維方法主要分為兩類:有監(jiān)督多視降維方法[4]和無監(jiān)督多視降維方法[5]。有監(jiān)督數(shù)據(jù)降維通過標(biāo)簽數(shù)據(jù)學(xué)習(xí)從高維數(shù)據(jù)到低維數(shù)據(jù)的降維模型,并利用該降維模型對(duì)新高維數(shù)據(jù)進(jìn)行降維。然而,互聯(lián)網(wǎng)上大部分?jǐn)?shù)據(jù)是沒有標(biāo)簽的,對(duì)其進(jìn)行人工標(biāo)注不僅效率低下且需要付出高昂的成本,因此無監(jiān)督多視降維方法的研究變得更為重要。無監(jiān)督多視降維方法不使用數(shù)據(jù)的標(biāo)簽信息,挖掘數(shù)據(jù)間聯(lián)系來學(xué)習(xí)數(shù)據(jù)的低維表示。截止到目前,針對(duì)多視數(shù)據(jù)的無監(jiān)督降維方法的研究,國內(nèi)外都剛剛起步。
典范相關(guān)分析(canonical correlation analysis,CCA)及其變體[6-7]是研究多視圖數(shù)據(jù)之間線性相關(guān)的一種有效方法。具體地,判別典型相關(guān)分析(discriminative CCA, DCCA)[8]結(jié)合了CCA和線性判別分析(linear discriminative analysis, LDA)[9],從不同的角度考慮了同一類別數(shù)據(jù)之間的相關(guān)性,以提高低維子空間的判別能力。張量典型相關(guān)分析(tensor CCA, TCCA)[10]通過分析不同視圖之間的協(xié)方差張量,將CCA推廣到處理多視數(shù)據(jù),但是該方法計(jì)算成本過高限制了其應(yīng)用范圍。偏最小二乘(partial least squares, PLS)[11]使用回歸方式將不同視的數(shù)據(jù)映射到公共線性子空間。分布式頻譜嵌入(distributed spectral embedding, DSE)[12]將數(shù)據(jù)平滑地嵌入到低維空間中?;诙嗪藢W(xué)習(xí)(multiple kernel learning, MKL)[13]的方法將多核學(xué)習(xí)與圖嵌入結(jié)合實(shí)現(xiàn)降維任務(wù)。多視聯(lián)合降維(multi-view dimensionality co-reduction, MDcR)[14]使用核匹配方法挖掘多個(gè)視圖之間的依存關(guān)系,從而獲得每視數(shù)據(jù)的低維投影。耦合塊對(duì)齊算法(coupled patch alignment, CPA)[15]將樣本和其跨視角下的同類近鄰以及異類近鄰組成局部塊,平衡跨視角類內(nèi)的緊密性與類間的可分離性,并擴(kuò)展成多維耦合塊對(duì)齊,解決了任意數(shù)量視角的共同學(xué)習(xí)問題。
綜上,現(xiàn)有的多視降維方法存在以下主要缺點(diǎn):1) 這些方法僅關(guān)注不同視數(shù)據(jù)之間的關(guān)系,而忽略同視數(shù)據(jù)內(nèi)部的關(guān)系;2) 這些方法通常僅考慮降維后的數(shù)據(jù)關(guān)系,而忽略原始數(shù)據(jù)的關(guān)聯(lián)關(guān)系;3) 這些方法通常將不同視數(shù)據(jù)映射到一個(gè)公共空間,當(dāng)不同視原始數(shù)據(jù)的維度不同時(shí)降維結(jié)果受影響較大。針對(duì)這些問題,本文提出的基于圖嵌入的自適應(yīng)多視降維(MVDR-GE)方法在考慮每視內(nèi)數(shù)據(jù)關(guān)聯(lián)性的基礎(chǔ)上,自適應(yīng)地學(xué)習(xí)相似矩陣來探索不同視之間數(shù)據(jù)的關(guān)聯(lián)關(guān)系,獲得各視數(shù)據(jù)的正交投影矩陣實(shí)現(xiàn)多視降維任務(wù)。
通過式(2)可求得高維數(shù)據(jù)X的投影矩陣P∈K×V。
令Z=PX,式(2)可以寫成圖正則化表示:
自適應(yīng)局部結(jié)構(gòu)學(xué)習(xí)旨在通過度量樣本之間的歐氏距離來自適應(yīng)地學(xué)習(xí)樣本間的相似度,從而獲得樣本的局部結(jié)構(gòu)信息。對(duì)于每個(gè)樣本xi和樣本xj,sij為衡量?jī)蓚€(gè)樣本之間相似性的值。則自適應(yīng)學(xué)習(xí)相似性矩陣S可通過下面優(yōu)化問題求得[17]:
盡管sij可以自適應(yīng)地學(xué)習(xí)兩個(gè)樣本的相似度,但是式(4)不能避免S的對(duì)角線為1這種平凡解,故引入正則化約束:
式(5)是面向單視數(shù)據(jù)的自適應(yīng)局部結(jié)構(gòu)學(xué)習(xí)的公式,將其擴(kuò)展到多視數(shù)據(jù)后可得:
基于模型式(3)的思路,通過多視共享相似性矩陣可以很有效地探索視與視數(shù)據(jù)間的關(guān)系,則多視圖嵌入降維模型為
式中P(m)P(m)T=I的目的是避免平凡解。
對(duì)式(7)進(jìn)行分解,則:
式(9)中的相似度矩陣S只關(guān)注降維后數(shù)據(jù)關(guān)聯(lián)關(guān)系,忽略了原始數(shù)據(jù)間的結(jié)構(gòu)關(guān)系,從而不能保證降維后的數(shù)據(jù)保留原始數(shù)據(jù)的結(jié)構(gòu)。因此,引入對(duì)原始數(shù)據(jù)的約束后,則:
式中 λ1、 λ2和 λ3是平衡各個(gè)模塊重要性的參數(shù)。此外,為了避免降維后數(shù)據(jù)丟失信息嚴(yán)重,引入約束視內(nèi)數(shù)據(jù)重構(gòu)誤差項(xiàng):
目標(biāo)函數(shù)式(12)是典型非凸優(yōu)化問題,本文通過迭代更新的方法,求解P(m)和S。
通過特征值分解得方法,可以求得投影矩陣P(m)并可指定其目標(biāo)維度。
當(dāng)固定投影矩陣P(m)時(shí),重構(gòu)誤差項(xiàng)不參與更新,目標(biāo)函數(shù)式(12)變?yōu)?/p>
將式(14)中的低維數(shù)據(jù)和原始數(shù)據(jù)之間的距離設(shè)為dij:
則式(14)可簡(jiǎn)化為
將式(16)變換為最小二乘形式:
綜上所述,通過不斷的迭代更新,最終得到各視的投影矩陣P(m),實(shí)現(xiàn)多視降維任務(wù)。
該模型的算法如下:
算法1 基于圖嵌入的自適應(yīng)多視降維方法(MVDR-GE)。
輸入 多視數(shù)據(jù) {X(1),X(2),···,X(M)};每視維度降至 {K(1),K(2),···,K(M)} ;參數(shù)λ1、λ2和λ3。
2) 當(dāng)不滿足收斂條件時(shí):
Form=1:M
根據(jù)式(13)計(jì)算各式投影矩陣P(m);
End for
根據(jù)式(17)計(jì)算相似度矩陣S;
End
輸出 各視降維矩陣 {P(1),P(2),···,P(M)}。
為了驗(yàn)證本文所提出的多視降維方法的有效性,在多個(gè)公開數(shù)據(jù)集上進(jìn)行了驗(yàn)證實(shí)驗(yàn)。
IXMAS[18]數(shù)據(jù)集是由5個(gè)不同視角拍攝的視頻組成的多視視頻數(shù)據(jù)集,包含10個(gè)人的11種日常行為:看手表、抱胳膊、抓頭、坐下、起來、轉(zhuǎn)身、走、揮手、拳擊、踢、撿。本文為每個(gè)視角提取177維視頻特征。
ORL數(shù)據(jù)集由40個(gè)人、每人10幅不同的人臉照片構(gòu)成。每個(gè)人拍攝照片的時(shí)間不同,光照和面部表情不同,本文調(diào)整圖像大小為64×64,并提取圖像的光照強(qiáng)度(intensity)、局部二值模式(local binary pattern, LBP)[19]和Gabor[19]特征構(gòu)造多視數(shù)據(jù),維度分別是4 096、3 304和6 750。
PIE數(shù)據(jù)集包含從68個(gè)人中采集的共1 428張人臉圖像,該數(shù)據(jù)集提取特征的方法跟ORL數(shù)據(jù)集相同。
MSRCV1[21]數(shù)據(jù)集包含240張圖片,這些圖片屬于9個(gè)類別,本文實(shí)驗(yàn)選取其中的樹、建筑物、飛機(jī)、牛、人臉、汽車和自行車等7個(gè)類別共210張圖片。分別提取每張圖片的CENT(1 302維)、COLOR(48維)、GIST(512維)、LBP(256維)4種特征作為此數(shù)據(jù)集的多視數(shù)據(jù)。
Notting-Hill[22]諾丁山數(shù)據(jù)集來源于電影《諾丁山》,收集了5個(gè)角色的多張人臉照片。本文調(diào)整圖像大小為64×64并提取跟ORL數(shù)據(jù)集相同的特征,維度分別為2 000、3 304和6 750。
為了驗(yàn)證方法的有效性,與以下幾個(gè)經(jīng)典降維方法做了實(shí)驗(yàn)結(jié)果對(duì)比。
主成分分析(principal component analysis,PCA)[23]:該方法是經(jīng)典的無監(jiān)督線性降維方法,通過將原始數(shù)據(jù)投影到線性子空間中對(duì)數(shù)據(jù)進(jìn)行降維。
樸素多視降維(naive multi-view dimension reduction, NaMDR)[14]:此方法獨(dú)立地減小了每個(gè)視圖的維度,而沒有約束不同的視圖。
多視聯(lián)合降維(multi-view dimensionality co-reduction, MDcR)[14]:該方法利用核匹配方法挖掘多個(gè)視圖之間的依存關(guān)系,并獲得每視數(shù)據(jù)的低維投影。
對(duì)于不同的數(shù)據(jù)集,特征的維數(shù)也不相同,本文統(tǒng)一將數(shù)據(jù)的目標(biāo)特征維度設(shè)置為10維。為了進(jìn)一步驗(yàn)證多視學(xué)習(xí)的有效性,本文對(duì)比了不同單視數(shù)據(jù)的最好性能和多視聯(lián)合的性能,其中不同單視數(shù)據(jù)的最好性能在表格中用single表示,多視聯(lián)合的性能在表格中用multiple表示。具體地說,在得到降維數(shù)據(jù)后,本文進(jìn)行了聚類/識(shí)別實(shí)驗(yàn)從而間接對(duì)降維性能進(jìn)行了評(píng)估。全部實(shí)驗(yàn)是在Window 10、64位操作系統(tǒng)、Inter Corei5-6500 3.20 GHz和20 G RAM的工作站上實(shí)現(xiàn)的,軟件環(huán)境為Matlab 2018a。
4.2.1 聚類實(shí)驗(yàn)
在聚類實(shí)驗(yàn)中,采用3個(gè)評(píng)價(jià)指標(biāo)度量聚類性能:準(zhǔn)確性(accuracy, ACC)、歸一化互信息(normalized mutual information, NMI)和純度(Purity)。這些指標(biāo)越高代表聚類表現(xiàn)越好。在獲得不同降維方法的降維數(shù)據(jù)后,本文使用自動(dòng)加權(quán)多圖(auto-weighted multi-view learning, AMGL)[23]聚類方法對(duì)其進(jìn)行聚類。由于此方法最后一步是執(zhí)行K-means操作,所以本文進(jìn)行30次實(shí)驗(yàn)取均值和標(biāo)準(zhǔn)差作為最終的實(shí)驗(yàn)結(jié)果。最后的實(shí)驗(yàn)結(jié)果為平均值±標(biāo)準(zhǔn)差的形式。本文在IXMAS、PIE、Notting-Hill 3個(gè)數(shù)據(jù)集上進(jìn)行了聚類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1~3所示。
本文用加粗的字體表示最好的實(shí)驗(yàn)結(jié)果。從表1~3中可以看出,本文提出的多視降維方法無論在單視特征還是多視特征上都取得了最好的聚類表現(xiàn)。其他降維方法在ACC、NMI和Purity指標(biāo)上,都不能取得一個(gè)令人滿意的結(jié)果。由于本文提出的多視降維方法利用一個(gè)融合多視數(shù)據(jù)相似度的矩陣去輔助生成投影矩陣,使得用投影矩陣和原始數(shù)據(jù)運(yùn)算得到的每視的低維數(shù)據(jù)能夠融合其他視數(shù)據(jù)的信息,并且本文不同視數(shù)據(jù)的相似度矩陣S是自適應(yīng)學(xué)習(xí)得到的,所以在擁有很強(qiáng)的靈活性的同時(shí)又能保證多視數(shù)據(jù)相互融合之后的低維數(shù)據(jù)具有代表高維數(shù)據(jù)的判別性信息,最終對(duì)多視低維數(shù)據(jù)進(jìn)行聚類時(shí)獲得一個(gè)令人滿意的表現(xiàn)。同時(shí),對(duì)比單視低維數(shù)據(jù)聚類也能獲得最好的結(jié)果,表明本文提出的多視降維方法已經(jīng)很好地融合了多視數(shù)據(jù)。
表1 IXMAS數(shù)據(jù)集聚類實(shí)驗(yàn)結(jié)果Table 1 Clustering experiment results of IXMAS dataset
表2 PIE數(shù)據(jù)集聚類實(shí)驗(yàn)結(jié)果Table 2 Clustering experiment results of PIE dataset
表3 Notting-Hill數(shù)據(jù)集聚類實(shí)驗(yàn)結(jié)果Table 3 Clustering experiment results of Notting-Hill dataset
4.2.2 識(shí)別實(shí)驗(yàn)
本文在ORL、Notting-Hill和MSRCV1數(shù)據(jù)集上進(jìn)行了識(shí)別實(shí)驗(yàn),采用最近鄰分類器作為識(shí)別方法,采用識(shí)別準(zhǔn)確度作為評(píng)價(jià)指標(biāo)。由于在Notting-Hill和MSRCV1數(shù)據(jù)集上每類的樣本不相同,本文從每類所有的樣本中選取了M個(gè)樣本進(jìn)行訓(xùn)練,記作Gm,其余的樣本進(jìn)行測(cè)試。本文實(shí)驗(yàn)設(shè)置為隨機(jī)選取30次訓(xùn)練集進(jìn)行訓(xùn)練和測(cè)試,并報(bào)告平均識(shí)別結(jié)果。最后的實(shí)驗(yàn)結(jié)果為平均值±標(biāo)準(zhǔn)差的形式。
實(shí)驗(yàn)結(jié)果如表4~6所示,本文提出的方法在絕大多數(shù)情況上獲得了最好的識(shí)別效果。由于本文提出的多視降維方法能夠很好地融合多視數(shù)據(jù)的特征,使得降維后的低維數(shù)據(jù)能充分表示高維數(shù)據(jù)且具有更強(qiáng)的判別性,因此本文的方法能在識(shí)別實(shí)驗(yàn)中得到一個(gè)比較高的準(zhǔn)確度,這也驗(yàn)證了本文的方法相較于其他對(duì)比方法,能夠更好地對(duì)不同視角數(shù)據(jù)進(jìn)行融合,使降維后的低維數(shù)據(jù)更有利于進(jìn)行識(shí)別。在ORL人臉數(shù)據(jù)集和Notting-Hill數(shù)據(jù)集上,本文提出的方法雖然在單視數(shù)據(jù)和多視數(shù)據(jù)上均獲得最好的實(shí)驗(yàn)結(jié)果,單視實(shí)驗(yàn)結(jié)果整體略優(yōu)于多視實(shí)驗(yàn)結(jié)果,其他方法也同樣出現(xiàn)了該問題。這一現(xiàn)象的原因在于兩個(gè)數(shù)據(jù)集提取的LBP特征能夠很好地反應(yīng)圖像的特征,在拼接多視數(shù)據(jù)進(jìn)行識(shí)別時(shí),本文選用的識(shí)別方法不能很好地融合多視數(shù)據(jù)進(jìn)行識(shí)別。
表4 ORL數(shù)據(jù)集識(shí)別實(shí)驗(yàn)結(jié)果Table 4 Recognition experiment results of ORL dataset
表5 Notting-Hill數(shù)據(jù)集識(shí)別實(shí)驗(yàn)結(jié)果Table 5 Recognition experiment results of Notting-Hill dataset
表6 MSRCV1數(shù)據(jù)集識(shí)別實(shí)驗(yàn)結(jié)果Table 6 Recognition experiment results of MSRCV1 dataset
本文提出了一種基于圖嵌入的自適應(yīng)多視降維方法。通過圖嵌入的方法能夠?qū)⒏呔S數(shù)據(jù)嵌入到一個(gè)低維的子空間,并使得到的低維數(shù)據(jù)能夠具有高維數(shù)據(jù)的特點(diǎn)。通過自適應(yīng)學(xué)習(xí)一個(gè)多視數(shù)據(jù)共享的相似性矩陣,能夠?qū)Σ煌暤臄?shù)據(jù)在降維的過程中進(jìn)行融合,使得降維后的每個(gè)視之間的數(shù)據(jù)都包含其它視特征的信息。實(shí)驗(yàn)結(jié)果證明,本文提出的方法在多視數(shù)據(jù)降維的同時(shí)能夠促進(jìn)多視數(shù)據(jù)的融合,并且能夠提高后續(xù)聚類/識(shí)別任務(wù)的實(shí)驗(yàn)效果。雖然本文提出的方法能獲得了令人滿意的多視降維表現(xiàn),但降維過程比較耗時(shí),今后的研究將致力于如何降低算法的復(fù)雜度。