劉 宇,孟 敏,武繼剛
廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州510006
隨著科技不斷發(fā)展,獲取數(shù)據(jù)的方式呈現(xiàn)著多元化的趨勢,從而使得這類數(shù)據(jù)可以由多種數(shù)據(jù)特征表示。例如,一個圖像可以由多種不同的特征來描述,如方向梯度直方圖特征(histogram of oriented gradients,HOG)、尺度不變特征變換特征(scaleinvariant feature transform,SIFT)、局部二值模式特征(local binary pattern,LBP)等;對于一個網(wǎng)頁,它可以由網(wǎng)站網(wǎng)址、網(wǎng)頁中的文本信息以及網(wǎng)站名稱等特征來描述;在生物學(xué)數(shù)據(jù)中,每個人類基因可以通過基因表達(dá)、陣列比較基因組雜交(ACGH)、單核苷酸多態(tài)性(SNP)和甲基化來測量。對于這類可以由不同特征集來共同表示的數(shù)據(jù),稱為多視圖數(shù)據(jù)。在過去幾十年里,單視圖算法在降維、分類、聚類以及回歸領(lǐng)域上都取得了巨大的進(jìn)展,但由于不同特征視圖的有效組合能夠很好地提高算法的準(zhǔn)確性,近年來多視圖算法成為了廣大學(xué)者的研究熱點(diǎn)。
基于全局結(jié)構(gòu)和局部流形結(jié)構(gòu)的特征投影能夠提取有效的判別信息來對原始數(shù)據(jù)空間進(jìn)行降維,并結(jié)合低秩表示與稀疏學(xué)習(xí)方法可以提高算法的魯棒性,這些方法同時也被廣泛地應(yīng)用于多視圖學(xué)習(xí)。例如,低秩公共子空間多視圖學(xué)習(xí)(low-rank common subspace for multi-view learning,LRCS)方法,通過學(xué)習(xí)一個共同的低秩線性投影來減少不同視圖之間的語義差距。為了更多地保留每個類中所包含的信息,Ding 等考慮了類結(jié)構(gòu)與視圖結(jié)構(gòu)并通過成對的低秩分解來進(jìn)行求解。Kan 等通過最大化類間間距以及最小化類內(nèi)差異來學(xué)習(xí)投影矩陣進(jìn)行人臉識別。基于深度矩陣分解多視圖聚類(multi-view clustering via deep matrix factorization,MVC)的方法,運(yùn)用了半非負(fù)矩陣因式分解的方法來學(xué)習(xí)多視圖數(shù)據(jù)的層次語義,并通過保留原始數(shù)據(jù)固有的幾何結(jié)構(gòu)來進(jìn)行多視圖聚類。通過對正則化函數(shù)施加范數(shù)和跡范數(shù)約束,Lu 等提出了一種新穎的凸多視圖低秩稀疏回歸算法來進(jìn)行聚類和特征選擇。Zhong 等通過考慮多個視圖的互補(bǔ)性和每個視圖的特殊性,提出了基于判別稀疏進(jìn)行加權(quán)特征選擇的多視圖學(xué)習(xí)方法。通常,這些算法都需要大量的標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練。在實(shí)際應(yīng)用中,收集到的數(shù)據(jù)經(jīng)常含有少量的標(biāo)簽數(shù)據(jù)和大量的無標(biāo)簽數(shù)據(jù),并且對大量無標(biāo)簽的數(shù)據(jù)進(jìn)行標(biāo)記會消耗大量的人力資源。因此,半監(jiān)督學(xué)習(xí)得到了有效的發(fā)展。
半監(jiān)督學(xué)習(xí)方法能夠同時使用標(biāo)簽信息和無標(biāo)簽數(shù)據(jù)中的空間結(jié)構(gòu)信息,自動地為無標(biāo)簽數(shù)據(jù)進(jìn)行標(biāo)記?;诖颂匦?,半監(jiān)督學(xué)習(xí)方法被廣泛地應(yīng)用于多視圖的分類與聚類。自適應(yīng)多模態(tài)的半監(jiān)督分類算法,將每種類型的特征視為一種模式,學(xué)習(xí)了不同模式的共享類指標(biāo)矩陣和權(quán)重。通過利用標(biāo)簽數(shù)據(jù)的判別信息和原始數(shù)據(jù)的流形結(jié)構(gòu),Han 等提出了半監(jiān)督多視圖流形判別完整空間學(xué)習(xí)。潛在的多視圖半監(jiān)督分類(latent multi-view semi-supervised classification,LMSCC)方法將潛在表示學(xué)習(xí)、圖構(gòu)造和標(biāo)簽傳播集成到一個統(tǒng)一的框架中,使得每個子任務(wù)都能得到優(yōu)化。Liu 等通過對模塊化度量進(jìn)行分析,設(shè)計(jì)了一種邊緣函數(shù)自動地為每個屬性分配理想的權(quán)重,并將拓?fù)浣Y(jié)合到圖形聚類中。然而這些算法都沒有考慮到每個視圖之間存在著數(shù)據(jù)結(jié)構(gòu)的一致性,從而使得多視圖算法的性能并不是很理想。因此,基于視圖結(jié)構(gòu)一致性的算法引起了學(xué)者們的研究。Zhang 等用拉普拉斯(Laplacian)和黑賽(Hessian)圖組成的群圖流形正則化器,并結(jié)合具有全局標(biāo)簽一致性的半監(jiān)督學(xué)習(xí),提出了全局標(biāo)簽一致分類器。Wang 等通過引入位置感知獨(dú)占項(xiàng)(position-aware exclusivity term)來獲取不同表示之間的互補(bǔ)信息,同時使用一致性約束來進(jìn)行互補(bǔ)表示。Tao等基于視圖之間的聯(lián)系和不同視圖包含的信息,提出了多視圖協(xié)作表示分類方法。然而這些算法仍然存在以下幾個問題:(1)對不同視圖一致性約束的度量較為單一,沒有考慮到在不同的空間中每個視圖的數(shù)據(jù)結(jié)構(gòu)存在著聯(lián)系。(2)部分半監(jiān)督分類算法僅僅局限于對空間結(jié)構(gòu)的保持,忽略了對原始數(shù)據(jù)進(jìn)行特征提取和相似矩陣的F 范數(shù)約束,從而無法避免噪聲以及其他不相關(guān)特征的影響。(3)沒有考慮到不同視圖包含特征信息量的差異性,無法對每個特征視圖進(jìn)行合理的加權(quán)。
針對以上問題,本文提出了基于一致性約束的半監(jiān)督多視圖分類(semi-supervised multi-view classification via consistency constraint,SMCC)算法。該算法同時保持了不同視圖之間的一致性結(jié)構(gòu)與每個視圖的局部流形結(jié)構(gòu),并對相似矩陣進(jìn)行F 范數(shù)約束,其主要貢獻(xiàn)有以下幾個方面:不僅僅局限于歐式空間距離的度量,還結(jié)合了希爾伯特空間的度量,并基于希爾伯特-施密特獨(dú)立性準(zhǔn)則保持了不同視圖之間數(shù)據(jù)結(jié)構(gòu)的一致性;通過對原始數(shù)據(jù)進(jìn)行保留局部流形結(jié)構(gòu)的特征投影提取有效的判別特征,以及對相似矩陣的F 范數(shù)約束提高了算法的魯棒性;根據(jù)不同視圖包含的不同特征信息量,自適應(yīng)地賦予不同視圖相應(yīng)的權(quán)重;基于線性交替方向乘子方法(linear alternative direction method with adaptive penalty,LADM),對提出的算法設(shè)計(jì)了有效的求解方法;通過大量實(shí)驗(yàn)結(jié)果證明,本文算法能夠捕獲多視圖數(shù)據(jù)中更多的有效判別信息,提高了算法的準(zhǔn)確性。
特征投影通過提取原始數(shù)據(jù)的有效判別特征不僅能降低計(jì)算成本,而且能夠提高算法的準(zhǔn)確性。因此,相關(guān)學(xué)者對多視圖特征投影方法進(jìn)行了廣泛的研究。與大多數(shù)直接在每個視圖中分別進(jìn)行特征投影不同,潛在的多視圖子空間聚類(latent multiview subspace clustering,LMSC)方法基于每個視圖都起源于一個潛在表示來對原始數(shù)據(jù)空間進(jìn)行重構(gòu),再利用不同視圖之間的互補(bǔ)性進(jìn)行子空間聚類。為了縮小多個視圖之間的語義差異,Ding 等將多個視圖特定投影轉(zhuǎn)換為共享的多視圖低秩投影,并將類內(nèi)數(shù)據(jù)耦合到不同的視圖中,使所學(xué)習(xí)的集體子空間更具鑒別性。然而在實(shí)際應(yīng)用中,獲取的原始數(shù)據(jù)通常只含有少量的標(biāo)簽,這使得上述算法無法得到足夠的標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,從而導(dǎo)致算法的性能較低。因此,為了充分利用未標(biāo)記數(shù)據(jù)中所包含的判別信息,學(xué)者們對半監(jiān)督學(xué)習(xí)算法進(jìn)行了廣泛的研究。
典型的半監(jiān)督學(xué)習(xí)算法包括基于高斯場和諧波函數(shù)的半監(jiān)督學(xué)習(xí)方法與FME(flexible manifold embedding)算法。通過結(jié)合多視圖學(xué)習(xí)與半監(jiān)督學(xué)習(xí)算法,Nie 等提出了多視圖聚類與半監(jiān)督分類的框架算法(parameter-free auto-weighted multiple graph learning,AMGL),其算法能夠不引入附加參數(shù)即可對每個視圖自適應(yīng)地賦予相應(yīng)的權(quán)重。面向圖聚類和半監(jiān)督分類的自適應(yīng)權(quán)重多視圖學(xué)習(xí)(autoweighted multi-view learning for image clustering and semi-supervised classification,MLAN)方法,通過考慮原始數(shù)據(jù)中存在的噪音以及空間局部流形結(jié)構(gòu),有效提高算法的魯棒性,并且在合理的秩約束下,得到的最優(yōu)圖可以直接劃分為特定的簇,有效地提高了聚類與半監(jiān)督分類的性能。基于自適應(yīng)回歸的可增強(qiáng)多視圖半監(jiān)督分類(scalable multi-view semi-supervised classification via adaptive regression,MVAR)方法,對每個視圖都采用基于回歸矩陣范數(shù)的損失函數(shù),并將最終的目標(biāo)函數(shù)表示為所有損失函數(shù)的線性加權(quán)組合。然而,上述半監(jiān)督分類算法對數(shù)據(jù)局部結(jié)構(gòu)的保持僅僅在單一的歐式空間中進(jìn)行度量,且都忽視了不同視圖之間的數(shù)據(jù)存在著潛在的一致性結(jié)構(gòu)。而本文算法基于多度量學(xué)習(xí),考慮了希爾伯特空間中的一致性結(jié)構(gòu),構(gòu)造了更穩(wěn)健、更魯棒的判別性投影,有效地提高了分類精度。通過考慮多視圖數(shù)據(jù)在不同視圖的多個度量中存在固定聯(lián)系,Zhang 等基于Fisher 判別分析與希爾伯特-施密特正交準(zhǔn)則提出了Fisher-MML(Fisher-HSIC multi-view metric learning)多視圖度量學(xué)習(xí)方法,但此方法缺少對局部結(jié)構(gòu)的保持、每個視圖的合理加權(quán)以及忽視了未標(biāo)記數(shù)據(jù)的結(jié)構(gòu)信息與噪音的污染,從而使得算法在多視圖分類中準(zhǔn)確率較低。而本文提出的SMCC 算法基于半監(jiān)督學(xué)習(xí),保留了歐式空間中的局部結(jié)構(gòu)以及對表示矩陣進(jìn)行了F 范數(shù)約束,有效地提高了算法對噪音的魯棒性,并自適應(yīng)地為不同視圖賦予了相應(yīng)的權(quán)值,提高了算法的準(zhǔn)確性,彌補(bǔ)了上述算法的缺陷。
本章主要內(nèi)容是對基于一致性約束的半監(jiān)督多視圖分類方法進(jìn)行詳細(xì)的介紹,并基于交替迭代(LADM)方法對所提出的算法進(jìn)行優(yōu)化求解。為了便于理解,在優(yōu)化過程中本文主要對多視圖數(shù)據(jù)=[,,…,X]∈R中的第個視圖X進(jìn)行分析,其他視圖與此類似??紤]到本文算法使用的變量較多,因此首先在表1 中對主要使用的符號以及變量進(jìn)行必要的注釋。
表1 符號解釋Table 1 Symbolic interpretation
通常數(shù)據(jù)中的局部流形結(jié)構(gòu)信息比全局結(jié)構(gòu)信息更重要。為了能夠使原始數(shù)據(jù)X=[,,…,x]∈R在降維后保持空間局部結(jié)構(gòu),得到表達(dá)式如下:
其中,X∈R表示第視圖的第列向量,P=[,,…,p]∈R表示第視圖投影矩陣,表示相似矩陣,其初始化定義為:
考慮在實(shí)際應(yīng)用中數(shù)據(jù)存在噪聲或異常值,本文對相似矩陣進(jìn)行F 范數(shù)約束并限定S取值范圍在[0,1],用公式描述為:
以上公式是基于歐式空間來度量變量之間的差異以及保留數(shù)據(jù)的空間結(jié)構(gòu)信息,為了在不同的空間中挖掘數(shù)據(jù)包含的判別信息,本文考慮了在希爾伯特空間對多視圖數(shù)據(jù)進(jìn)行度量?;谙柌?施密特獨(dú)立性準(zhǔn)則(Hilbert-Schmidt independence criteria,HSIC)能有效地挖掘多視圖數(shù)據(jù)中的互補(bǔ)信息,使得多個視圖的數(shù)據(jù)能夠在希爾伯特空間上保持結(jié)構(gòu)一致。一般而言,典型的HSIC 算法能夠定義為:
由于每個特征視圖包含的信息量有所差異,引入權(quán)重參數(shù)對不同的視圖進(jìn)行權(quán)衡。為了規(guī)范相似矩陣的表示以及防止過擬合,將投影矩陣約束為正交矩陣,并結(jié)合式(3)與式(5)可得到目標(biāo)函數(shù)表達(dá)如下所示:
通過式(8),則上述目標(biāo)函數(shù)(6)可轉(zhuǎn)化為:
其中,表示預(yù)測標(biāo)簽矩陣,表示超參數(shù),tr(?)表示跡函數(shù)。本文算法整體流程框架如圖1 所示。
圖1 算法框架流程圖Fig.1 Flowchart of algorithm framework
由于基于一致性約束的半監(jiān)督多視圖分類方法的目標(biāo)函數(shù)屬于多變量優(yōu)化問題,本文基于LADM方法對各個變量進(jìn)行交替迭代更新。求解本文算法的基本思想是對某個變量進(jìn)行優(yōu)化時,固定其他變量。具體更新步驟如下所示:
(更新P)固定變量、w、,則關(guān)于變量P的優(yōu)化函數(shù)可表示為:
經(jīng)過代數(shù)轉(zhuǎn)換可得:
(更新w)固定變量、P、,則關(guān)于變量w的優(yōu)化函數(shù)可表示為:
進(jìn)而可以得到式(13)的拉格朗日表達(dá)式為:
其中,為拉格朗日乘子。將(w,)函數(shù)相對于與w的偏導(dǎo)數(shù)分別等于0,則可得表達(dá)式:
因此可以得到關(guān)于w的表達(dá)式為:
(更新)固定變量w、P、,則關(guān)于變量的優(yōu)化函數(shù)可表示為:
對于預(yù)測標(biāo)簽矩陣=[,,…,f]∈R在譜聚類算法中,有以下表達(dá):
由于在式(17)中對于不同的都相互獨(dú)立,對=[,,…,S]中任意項(xiàng)S優(yōu)化可表示為:
(更新)固定變量P、w、,則關(guān)于變量的優(yōu)化函數(shù)可表示為:
基于一致性約束的半監(jiān)督多視圖分類(SMCC)
輸入:原始數(shù)據(jù)X=[,,…,x]∈R;維數(shù);標(biāo)簽率;參數(shù)、、、。
輸出:預(yù)測標(biāo)簽矩陣=[F;F];投影矩陣=[,,…,P]。
2.迭代更新:
2.1 固定變量、w、,根據(jù)以下函數(shù)更新變量P:
2.3 固定變量w、P、,更新變量:
2.4 固定變量、w、P,更新變量:
3.滿足收斂條件。
本章對本文算法進(jìn)行了詳細(xì)分析,并在4 個基準(zhǔn)數(shù)據(jù)集上與其他新穎的算法進(jìn)行對比來驗(yàn)證SMCC算法的性能。
本文算法分別在ORL、Yale、MSRCv1 以及Handwriting numerals 數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),其中各數(shù)據(jù)集的部分展示圖如圖2 所示。
圖2 實(shí)驗(yàn)數(shù)據(jù)集部分展示圖Fig.2 Sample images from experimental data sets
ORL 數(shù)據(jù)集是由40 個不同類別的400 張人臉圖像組成。實(shí)驗(yàn)中,該數(shù)據(jù)集有包括4 096 維度的灰度特征、3 304 維度的LBP 特征以及6 750 維度的Gabor 特征的三種不同特征數(shù)據(jù)集被使用。Yale 數(shù)據(jù)集包括15 個類別的165 張灰度圖像,其不同的特征集也分別由灰度特征、LBP 特征以及Gabor 特征組成。MSRCv1 數(shù)據(jù)集共有8 個類別的240 張圖像。選取了樹、建筑、飛機(jī)、奶牛、人臉、汽車以及自行車7類圖像進(jìn)行實(shí)驗(yàn),其中每類圖像含有30 張。四種類型的特征被提?。?4 維的色矩(color moment,CM)特征、512 維的GIST 特征、254 維的CENTRIST 特征以及256 維的LBP 特征。HW(handwriting numerals)數(shù)據(jù)集由2 000 個0~9 的數(shù)字圖像組成,每個數(shù)字有200 張圖像。六種類型的特征被提?。?6 維的FOU特征,216 維的FAC 特征,64 維的KAR 特征,240 維的PIX特征,47維的ZER特征以及6維的形態(tài)(morphological,MOR)特征。
在實(shí)驗(yàn)中,本文對比了標(biāo)簽傳播(label propagation,LP)算法、AMGL 算法、MVAR 算法、MLAN 算法以及FISH-MML 算法。其中LP 算法是作為每個特征視圖判別的基準(zhǔn)。為了公平地對每個算法進(jìn)行對比,從每類中隨機(jī)選取了對應(yīng)標(biāo)簽比例下的訓(xùn)練樣本,其他樣本用于測試??紤]到標(biāo)簽比例對應(yīng)的標(biāo)簽數(shù)量可能為非整數(shù),因此最后會對獲取的標(biāo)簽數(shù)量進(jìn)行向下取整。本文對所有算法都進(jìn)行了10次實(shí)驗(yàn)并記錄了分類準(zhǔn)確率的平均值與標(biāo)準(zhǔn)差。其中最近鄰的個數(shù)設(shè)置為9,的取值范圍為[1.5,5.0]。值得注意的是,F(xiàn)ISH-MML 算法最終的分類結(jié)果由NN 算法獲得。
通過大量實(shí)驗(yàn)得到了所有算法在4 個數(shù)據(jù)庫上的不同標(biāo)簽比例下分類結(jié)果,如表2 與表3 所示,其中對表現(xiàn)最優(yōu)的結(jié)果進(jìn)行了加粗處理,n/a 表示為不適用。從數(shù)據(jù)結(jié)果可以得出,SMCC 算法在大部分情況下能夠表現(xiàn)出最優(yōu)的性能。
表2 不同算法在ORL 與Yale數(shù)據(jù)庫中的性能(均值±標(biāo)準(zhǔn)差)Table 2 Performance(mean±standard deviation)of different algorithms on ORL and Yale databases
表3 不同算法在MSRCv1 與HW 數(shù)據(jù)庫中的性能(均值±標(biāo)準(zhǔn)差)Table 3 Performance(mean±standard deviation)of different algorithms on MSRCv1 and HW databases
在ORL 數(shù)據(jù)集中,AMGL 算法在標(biāo)簽比例10%的情況下優(yōu)于本文算法,其主要原因可能是在訓(xùn)練樣本較少且不包含噪聲或者陰影的情況下,對相似矩陣進(jìn)行F 范數(shù)約束會損失部分判別信息,從而使得SMCC 算法性能略低于AMGL。MVAR 算法在標(biāo)簽比例為30%與40%的條件下表現(xiàn)優(yōu)異,說明基于多元回歸的自適應(yīng)權(quán)重多視圖算法在沒有被污染的人臉數(shù)據(jù)中能夠進(jìn)行很好的擬合。在Yale 數(shù)據(jù)庫中,本文算法在不同標(biāo)簽比例下都表現(xiàn)最優(yōu),特別在標(biāo)簽比例為10%的情況下SMCC 算法的準(zhǔn)確率比AMGL算法高出了9.35 個百分點(diǎn),其效果說明了基于一致性約束的半監(jiān)督多視圖分類算法在樣本含有噪聲以及陰影的情況下能夠提取更多有效的判別特征用于分類。而基于一致性約束的FISH-MML 算法性能較低,主要原因是由于沒有考慮到對每個特征視圖進(jìn)行合理的加權(quán)以及利用無標(biāo)簽樣本中的結(jié)構(gòu)信息。在MSRCv1 數(shù)據(jù)庫中,對比次優(yōu)的MVAR 算法,本文算法考慮了數(shù)據(jù)的局部結(jié)構(gòu)以及每個特征視圖的空間一致結(jié)構(gòu),從而提高了算法分類效果。在HW 數(shù)據(jù)庫上整體算法的分類準(zhǔn)確率都較高,其原因可能是FOU 特征中包含了足夠多的判別樣本有效信息。然而,MVAR 算法分類準(zhǔn)確率較低,表明基于多元回歸的算法對于一種類別用多種形式展示的數(shù)據(jù)判別性能較差。因此,通過對不同算法在不同數(shù)據(jù)庫下獲得的結(jié)果進(jìn)行分析,本文算法考慮了數(shù)據(jù)的局部結(jié)構(gòu)與不同視圖之間的空間一致性結(jié)構(gòu),提取了原始數(shù)據(jù)有效的判別信息,并通過對相似矩陣進(jìn)行F 范數(shù)約束以及自適應(yīng)地為不同視圖進(jìn)行合理的加權(quán),使得SMCC 算法在不同的數(shù)據(jù)庫下都能獲得較好的分類效果。
為了便于理解,所提出的算法(SMCC)在ORL、Yale、MSRCv1 與HW 數(shù)據(jù)庫上標(biāo)簽比例為10%的條件下進(jìn)行實(shí)驗(yàn),得到的收斂性曲線如圖3 所示。其中圖3 中的(a)、(b)、(d)圖顯示,算法在數(shù)據(jù)庫ORL、Yale 與HW 上迭代10 次后目標(biāo)函數(shù)值趨于穩(wěn)定狀態(tài)。在圖3(c)中可得到算法在MSRCv1數(shù)據(jù)庫上迭代15次后收斂。因此本文算法是有效的且收斂速度較快。
圖3 在不同數(shù)據(jù)庫上目標(biāo)函數(shù)值與迭代次數(shù)的關(guān)系Fig.3 Relationship between value of objective function and the number of iterations on different databases
為了分析正則化參數(shù)和對本文算法的影響,進(jìn)行了大量的實(shí)驗(yàn)來評價在不同參數(shù)下SMCC算法的性能。不失一般性,本文在每個數(shù)據(jù)庫標(biāo)簽比例為10%的條件下依次進(jìn)行實(shí)驗(yàn),首先分別設(shè)置兩個參數(shù)(與)的取值范圍為{10,10,10,10,10,10,10,10,10},其更新的方法為更新一個參數(shù)時固定另一個參數(shù)。圖4 展示了在4 個數(shù)據(jù)集上本文算法的分類精度與不同參數(shù)值的關(guān)系。
圖4 不同數(shù)據(jù)庫上參數(shù)β 和λ 對算法分類結(jié)果的影響Fig.4 Influence of parameters β and λ on algorithm classification on different databases
從圖4 可觀察到,當(dāng)正則化參數(shù)和在選擇合適的范圍時,SMCC 算法能夠達(dá)到滿意的效果。特別對于HW 與MSRCv1 數(shù)據(jù)庫,本文算法能夠在參數(shù)廣泛選擇的范圍內(nèi)取得優(yōu)異的性能。在ORL 數(shù)據(jù)庫上,算法對參數(shù)的敏感度較低,且當(dāng)>1 時能獲得較好的效果。對于Yale 數(shù)據(jù)庫,算法受參數(shù)的影響較大,僅當(dāng)與屬于[10,10]時性能相對較高。
本文通過結(jié)合多度量學(xué)習(xí)與自適應(yīng)權(quán)重學(xué)習(xí)設(shè)計(jì)了一種新穎的半監(jiān)督分類算法,即基于一致性約束的半監(jiān)督多視圖分類(SMCC)。具體而言,本文算法不僅考慮了多視圖數(shù)據(jù)在希爾伯特空間中的不同視圖之間存在著潛在的一致性結(jié)構(gòu),而且對在歐式空間中的數(shù)據(jù)進(jìn)行了局部流形結(jié)構(gòu)保留。更重要的是,對相似矩陣進(jìn)行F 范數(shù)約束,有效提高了算法對噪音以及異常點(diǎn)的魯棒性。此外,通過對每個包含不同特征信息的視圖設(shè)置一個自適應(yīng)的權(quán)重進(jìn)行加權(quán),提高算法的準(zhǔn)確性,并基于LADM 方法對所提出的算法進(jìn)行了有效的求解。在4 個基準(zhǔn)數(shù)據(jù)庫上的廣泛實(shí)驗(yàn)結(jié)果表明,所提出的SMCC 算法整體上優(yōu)于其他的半監(jiān)督多視圖分類算法。