江 帆,田 青
(1.南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 211106;2.南京信息工程大學(xué) 計算機與軟件學(xué)院,江蘇 南京 210044)
在實際的機器學(xué)習(xí)任務(wù)中,目標(biāo)常常以多視圖數(shù)據(jù)描述。例如,Web頁面可以用文本、圖像和鏈接等組件來共同描述,一個組件的數(shù)據(jù)是頁面的一個視圖。每一種視圖都有其特殊的結(jié)構(gòu)和獨特的概念;而不同的視圖又是相互關(guān)聯(lián)的,因為它們描述的對象是相同的。多視圖數(shù)據(jù)的這兩種性質(zhì)蘊含著多視圖學(xué)習(xí)的兩個原則:互補性和一致性[1]。一致性源自不同視圖之間的相關(guān)性,互補性源自每個視圖的獨有信息。根據(jù)一致性和互補性,多視圖降維算法可分為三類。第一類是只關(guān)注一致性,如凸子空間表示學(xué)習(xí)(convex subspace representation learning,CSRL)[2]和典型相關(guān)分析(canonical correlation analysis,CCA)[3-4]。第二類是只側(cè)重于互補性,如多視圖判別分析(multi-view discriminant analysis,MVDA)[5]和集成流形正則化稀疏低秩逼近(ensemble manifold regularized sparse low-rank approximation,EMRSLRA)[6]。最后一類是同時關(guān)注兩種原則,如基于結(jié)構(gòu)化稀疏的分解隱空間學(xué)習(xí)(factorized latent spaces with structured sparsity,F(xiàn)LSS)[7]和部分共享的隱因子學(xué)習(xí)(partially shared latent factor learning,PSLF)[8]。
而根據(jù)多視圖數(shù)據(jù)的基本假設(shè),多視圖降維算法可以分為兩類。第一種假設(shè)是低維表示只包含原始數(shù)據(jù)信息的一部分。不同的算法根據(jù)不同偏好提取相應(yīng)信息,如判別信息和流形信息。投影學(xué)習(xí)模型(projection learning model)[9],如多視圖典型相關(guān)分析(multi-view canonical correlation analysis,MCCA)[10]和MVDA,都是基于這種假設(shè)。另一種假設(shè)是不同的高維視圖的數(shù)據(jù)是由相同的低維數(shù)據(jù)生成的?;陔[變量生成模型(latent variable generation model)[11-12]的算法,如高斯過程(Gaussian process,GP)[13-14]和CSRL,都是基于這種假設(shè)。
綜合考慮兩個原則和兩個假設(shè),多視圖降維算法可以更細(xì)致地分為六類。表1為六類算法及其示例。
表1 六類算法及其示例
現(xiàn)今尚沒有同時關(guān)注兩個原則的基于投影模型的多視圖降維算法。為了解決這個問題,提出了一種新的基于結(jié)構(gòu)化稀疏投影的監(jiān)督型多視圖特征提取框架(MSSP)。框架由兩部分組成。一部分是融合特征的判別損失函數(shù)。大多數(shù)單視圖投影學(xué)習(xí)算法的損失函數(shù)都可以實例化這部分,文中選擇線性判別分析(linear discriminant analysis,LDA)[15]和度量學(xué)習(xí)[16]。另一部分是聯(lián)合投影矩陣的多重結(jié)構(gòu)化稀疏正則化。
文中主要貢獻(xiàn)如下:
(1)在向多視圖數(shù)據(jù)上拓展單視圖算法時,一個簡單的方案是將所有視圖的特征拼接成一個單一的視圖數(shù)據(jù)。然而,這種方案不但忽略了不同視圖潛在的相關(guān)性,也缺乏物理意義。MSSP的正則化項解決了這個問題。
(2)MSSP是同時關(guān)注一致性和互補性的基于投影模型的多視圖降維算法,能夠同時提取融合視圖的共享信息和獨有信息,避免信息缺失和信息冗余的問題。
(3)定義了一個M范數(shù)作為正則化項,以懲罰聯(lián)合投影矩陣的多重結(jié)構(gòu)化稀疏程度,其中聯(lián)合投影矩陣約束為列正交矩陣。然后利用在Stiefel流形上的梯度下降法,對框架優(yōu)化求解,得到一個局部最優(yōu)解。
(4)分析了MSSP的目標(biāo)函數(shù)的數(shù)學(xué)性質(zhì)并推測了超參數(shù)的選擇與投影維數(shù)的關(guān)系,以縮小超參數(shù)的選擇范圍,降低模型訓(xùn)練的代價。
圖1 并行信息融合模型的一致性和互補性解釋
在訓(xùn)練數(shù)據(jù)是稀疏的或者模型有特定的偏好時,模型的解決方案(矢量或矩陣)需要擁有特定的稀疏結(jié)構(gòu)。因L1范數(shù)具有包容性、凸性和強大的理論保證等優(yōu)勢,大多數(shù)現(xiàn)有的稀疏學(xué)習(xí)都是基于其正則化的變種[18]。1996年,Tibshirani提出了一種稀疏特征選擇算法Lasso(The least absolute shrinkage and selectionator operator),可以自適應(yīng)地選擇有用的特征。其形式如下:
其中,X∈Rp×q為數(shù)據(jù)矩陣;L∈Rp為類標(biāo)簽向量;λ>0為控制稀疏程度的超參數(shù);β∈Rq為選擇特征的稀疏向量。
Group Lasso是Lasso的一個變種。Lasso將單個特征作為單位而Group Lasso將變量組作為單位進(jìn)行選擇。Group Lasso的形式如下:
Lasso和Group Lasso能夠覆蓋向量的大多數(shù)稀疏形式。對于矩陣,懲罰項通常為L2,1范數(shù)或L∞,1范數(shù)。L2,1[19]和L∞,1的形式如下:
其中,Z∈Rs×d,Zi表示矩陣Z的第i列。
正交是一種常見的矩陣結(jié)構(gòu),通常用于減少模型的復(fù)雜度或應(yīng)用于可視化。在文獻(xiàn)[20]中,線性降維算法的解被約束為正交矩陣,算法被看作矩陣優(yōu)化問題。應(yīng)用在Stiefel流形上的梯度下降法可以得到一個局部最優(yōu)解。Stiefel流形Od×r是列正交矩陣的集合,可以表示為Od×r={M∈Rd×r|MTM=I},其中I是r×r的單位矩陣。Od×r是Rd×r的子流形嵌入,是有界的閉集。切空間是流形在某一特定點上的線性逼近,對于理解任何流形幾何,特別是矩陣流形的優(yōu)化至關(guān)重要。首先定義流形Od×r上的一條曲線,一個光滑的映射γ():Rd×r→Od×r,進(jìn)而定義切空間為:
度量學(xué)習(xí)[16]中,融合特征的類內(nèi)和類間距離矩陣如下:
(2)
LDA中,融合特征的類內(nèi)和類間散度矩陣如下:
(3)
(4)
MSSP的基本框架的抽象形式如下,大多數(shù)的機器學(xué)習(xí)算法都可以抽象為這種形式:
s.t.W∈Ψ
(5)
其中,loss(W;X)為數(shù)據(jù)X上關(guān)于W的損失函數(shù);R(W)為W的正則化;λ為平衡損失與正則化的超參數(shù);Ψ為W的約束空間。
MSSP以‖W‖M和Stiefel流形實例化R(W)和Ψ。文中用LDA的瑞利商形式和度量學(xué)習(xí)來實例化損失函數(shù),因此有MSSP_LDA如下:
s.t.WTW∈Ψ
(6)
在選擇超參數(shù)的時候,如果沒有足夠的經(jīng)驗和專家來幫助,通常沒有很好的方法,只能使用交叉驗證的方法,這使得模型訓(xùn)練的代價很大。對于MSSP_LDA和MSSP_ML,根據(jù)損失函數(shù)的變化趨勢和‖W‖M的取值范圍推測λ隨著d的變化趨勢。
假設(shè)總能找到最佳的d個投影方向,則損失函數(shù)的最小值隨著d的增加而增加。這意味著損失函數(shù)的下界隨著d的增加而增加。為了保證融合特征的判別性,損失函數(shù)必然有一個上界。因此,在保證判別性的前提下,損失函數(shù)的取值范圍隨著d的增加而減小。
對于‖W‖M,可以得到:
(7)
由于W是列正交的,故有:
(8)
很容易得到:
(9)
‖W‖M的取值范圍隨著d的增大而迅速增大,這與損失函數(shù)取值范圍的變化趨勢是相反的。這意味著隨著d的增大,‖W‖M對f(W)的影響很可能比損失函數(shù)要大。因此,可以推斷,為了確保損失函數(shù)和正則化之間的最佳平衡,最佳的超參數(shù)會隨著d的增加而減小,而實驗結(jié)果也驗證了上述推測。
采用在Stiefel流形上的梯度下降法得到局部最優(yōu)解,MSSP框架優(yōu)化算法簡介如下:
Input:ViewsX1…Xv,hyper-parameterλ
Step2:Gradient descent over Stiefel manifold
(a)Initialize W
(b)loop
Selectβwith Armijo rule.
CalculateWnewaccording to (15)
end loop until converge
Output:Projection matricesW1…Wv
梯度可以計算如下:
(10)
(11)
(12)
已經(jīng)介紹了切空間TM,它是在點M上沿著流形變化的所有方向的集合。因此W實際不是沿著變化。根據(jù)文獻(xiàn)[21-22],將梯度映射到切空間TW:
(13)
(14)
U1∈Rr×d,U2∈Rr×(r-d)
(15)
在實驗中,將MSSP_LDA和MSSP_ML與以下幾種算法進(jìn)行比較。(1)單視圖的LDA(S_LDA):在每個視圖以及所有視圖的拼接視圖上運行LDA,報告最好的結(jié)果。(2)EMRSLRA:其超參數(shù)選擇的方法采用文獻(xiàn)[6]的方式。(3)View-Consistency MVDA(VcMVDA)[24]:在MVDA的基礎(chǔ)上,約束所有的投影矩陣互相接近。(4)SDMCCA[25]:一種MCCA的監(jiān)督型改進(jìn)算法。
算法的性能是通過KNN的精確度來評估的,其中K用c+1。每個實驗隨機選取80%的樣本進(jìn)行訓(xùn)練,其余20%用于測試。每個實驗進(jìn)行10次,結(jié)果取平均值,通過交叉驗證選擇超參數(shù)。
表2介紹了五個真實數(shù)據(jù)集:NUS-WIDE-LIFE[26]、MFD[27]、AWA[28]、ADNI(sdin.loni.usc.edu)、WebKB[29]。NUS-WIDE-LIFE數(shù)據(jù)集是NUS-WIDE數(shù)據(jù)集的一個子集,由28 807個訓(xùn)練圖像以及28 808個測試圖像組成,每個圖像有81維的標(biāo)簽向量。實驗中只使用物體圖像,由于處理的是單標(biāo)簽圖像,所以進(jìn)一步去掉了零標(biāo)簽或多個標(biāo)簽的圖像。在丟棄稀有圖像的類別之后,有以下九類:鳥、船、花、巖石、太陽、塔、玩具、樹和車輛,其中10 600個圖像用于訓(xùn)練,7 094個圖像用于測試。對AWA數(shù)據(jù)集,選擇了羚羊、灰熊、虎鯨、河貍和達(dá)爾馬提亞狗五種動物的數(shù)據(jù)。從每種動物數(shù)據(jù)中隨機選擇不多于200個樣本,為避免過擬合用PCA將數(shù)據(jù)降到50維。對ADNI數(shù)據(jù)集,選擇患病者和正常人兩類數(shù)據(jù)進(jìn)行實驗,MRI、FDG-PET和AV45-PET數(shù)據(jù)按文獻(xiàn)[30]方式進(jìn)行預(yù)處理。對WebKB數(shù)據(jù)集,先用PCA降到50維。對MFD數(shù)據(jù)集,去掉維數(shù)較少的mor和zer兩個視圖。
表3中的實驗結(jié)果表明:
(1)基于MSSP框架的兩種方法,分類的準(zhǔn)確率顯著好于其他算法,說明同時關(guān)注一致性和互補性對分類效果是有促進(jìn)作用的;
(2)MSSP_LDA在四數(shù)據(jù)集上結(jié)果顯著好于VcMVDA,同樣是LDA在多視圖上的推廣,基于MSSP的框架具有更好的性能。一方面是由于MSSP的框架結(jié)構(gòu)簡單,LDA在推廣的過程中形式和原理都沒有發(fā)生變化,另一方面結(jié)構(gòu)化稀疏正則化使得推廣更靈活,可以適應(yīng)多視圖數(shù)據(jù)的結(jié)構(gòu)特點,可以同時提取共享信息和獨有信息中對于分類效果有促進(jìn)作用的信息;
(3)在ADNI數(shù)據(jù)集上MSSP兩種算法效果遠(yuǎn)高于其他幾種算法,這是因為數(shù)據(jù)本身對稀疏性有偏好,稀疏的方法在這種數(shù)據(jù)上通常有較好的效果,而MSSP的稀疏正則化項也能滿足這種偏好,這是MSSP的形式本身的特點。
圖2和圖3分別為MSSP_ML在ANDI和AWA數(shù)據(jù)集上,最佳超參數(shù)隨投影維數(shù)的變化趨勢。可以發(fā)現(xiàn),最佳的超參數(shù)會隨著d的增加而減小,并且隨著d的增加,減小的速度變快,這驗證了前文中對超參數(shù)的分析和推測。
圖2 MSSP_ML在ANDI上最佳超參數(shù)變化趨勢
圖3 MSSP_ML在AWA上最佳超參數(shù)變化趨勢
根據(jù)信息保持的兩個假設(shè)和一致性與互補性兩個原則,將多視圖降維方法細(xì)分為六類,提出了一個新的多重結(jié)構(gòu)化稀疏投影框架MSSP,并分析了超參數(shù)的變化趨勢。在真實數(shù)據(jù)集上的對比實驗,驗證了MSSP的有效性和對超參數(shù)變化趨勢的推測。在未來的工作中,可以嘗試將更多的單視圖方法推廣到MSSP框架中。