劉 靜, 孫艷豐, 胡永利
(北京工業(yè)大學信息學部, 北京 100124)
子空間聚類方法[1-5]作為一種有效的無監(jiān)督學習方法,在數(shù)據(jù)挖掘、計算機視覺等領域引起了廣泛關注。該方法假設將高維數(shù)據(jù)嵌入在低維子空間中,并可由其描述表示,因此,子空間聚類的主要目標是將一系列樣本分割成互不相干的簇,使每個簇內的樣本屬于同一個子空間[6-7]。近年來,基于自表示的子空間聚類方法[8-10]因其優(yōu)異的聚類性能備受關注。該方法的主要思想是將數(shù)據(jù)集自身作為字典使用,利用數(shù)據(jù)的表示矩陣構建相似矩陣,從而進行聚類任務。基于自表示的子空間聚類方法在圖像表示[11]、人臉聚類[12-13]、運動分割[14]、社交網絡中的社區(qū)聚類、生物信息學[15]、醫(yī)學圖像分析[16]等方面具有廣泛應用。
隨著多媒體技術迅猛發(fā)展以及各種功能攝像機的普及,數(shù)據(jù)可以以不同形式被收集,從而產生多特征、多攝像角度、多模態(tài)等數(shù)據(jù),這些數(shù)據(jù)被統(tǒng)稱為多視數(shù)據(jù)。相較于單一視圖采樣的數(shù)據(jù),對同一事物從不同角度或按不同方式所得到的多視數(shù)據(jù)擁有更豐富的信息。多視數(shù)據(jù)不同視圖間存在一致性和互補性,一致性可理解為多視數(shù)據(jù)各視圖間具有一致的語義信息,也就是多個視圖的表示共享一套標簽?;パa性是指多視數(shù)據(jù)的多個視圖之間信息互補,這些信息是每個視圖獨有的特征,這些特征從不同的角度描述了該數(shù)據(jù)。因此,結合一致性和互補性可提升人們對多視數(shù)據(jù)的理解。有效利用這些信息可以克服光照變化、遮擋等問題,有助于提高聚類性能。
多視子空間聚類旨在合并多視數(shù)據(jù)的特征以將相似的多視樣本分到相同的簇中,而將差異較大的多視樣本分到不同簇中。Zhang等[13]通過對多視特征的張量表示施加低秩約束來獲取不同視圖的一致性信息,將張量的低秩約束分解為多個矩陣的低秩約束。Zhang等[17]在多視子空間聚類方法中引入級聯(lián)的思想,提出潛在多視子空間聚類方法。首先,用多個投影矩陣將不同視圖數(shù)據(jù)投影到相同的低維空間以獲得多視數(shù)據(jù)的公共表示,并處理樣本中存在的噪聲;然后,將具有公共信息的表示矩陣用于聚類任務。Wang等[18]提出一種能夠融合多視間的一致性信息和互補性信息的多視子空間聚類模型,利用互補約束項挖掘不同視圖的互補信息,與此同時,利用一致約束項挖掘不同視圖的一致信息。雖然上述方法存在顯著差異,但是它們均運用一致性原則或互補性原則來確保多視子空間聚類任務的成功??傮w而言,通過探索不同視圖之間的一致性和互補性,使得多視聚類比單視聚類更加有效且更具泛化能力,這使得多視聚類[19-21]在聚類任務中占據(jù)一席之地。
近幾年,關于子空間聚類的研究主要關注線性子空間的聚類,然而,實際中的數(shù)據(jù)不一定符合線性子空間聚類模型假設。例如:人臉圖像會受到反射率以及被拍攝者姿態(tài)等影響,在這些外部因素影響下,面部圖像往往位于一個非線性子空間中。因此,利用深度神經網絡結構以一種無監(jiān)督的方式來學習數(shù)據(jù)的非線性映射,從而使其更好地適用于子空間聚類是有必要的。深度學習的發(fā)展將多視子空間聚類帶入了新的階段,Abavisani等[22]除了提出基于空間融合的各種方法之外,還提出一種基于相似性融合的網絡(將與不同模態(tài)相對應的自表示層強制設置為相同),使得聚類性能獲得顯著提升。Zhu等[23]提出了一種多視深度子空間聚類網絡,該網絡由2個子網組成,即分集網絡和通用網絡。分集網絡學習視圖特有的表示矩陣,而通用網絡則為所有視圖學習一個公共的表示矩陣。通過分集正則項利用多視圖表示的互補性,可以捕獲非線性和高階視圖間的關系。不同的視圖共享相同的標簽空間,因此,每個視圖的表示矩陣都通過通用性正則項與公共視圖對齊。
然而,上述方法在為各視圖學習一個公共的表示矩陣時均未能甄別不同視圖的可靠性。當存在一個不佳的視圖數(shù)據(jù)時,聚類結果可能因此毀壞。因此,在聚類過程中為每一個視圖學習一個權重是有必要的。同時,深度多視子空間聚類對將一致性信息與互補性信息相結合的研究還相對匱乏。如何在保證各視圖之間一致性的情況下,充分利用不同視圖的互補性信息來提高多視聚類性能,是多視聚類的一個重要問題。
綜上所述,本文考慮到多視間共享一致性信息與不同視圖所具有的內在個性化信息,提出了在獲得所有視圖的一致性信息基礎上強調互補性(個性化)信息的模型,即基于自適應的權重融合深度多視子空間聚類模型(deep multi-view subspace clustering based on adaptive weight fusion,DMSC-AWF)。該模型通過各視圖共享同一個自表示層學習一個共享的子空間表示矩陣,同時,又為各視圖分別學習各自的自表示層來確保互補性信息。同時,為了避免某視圖出現(xiàn)不可靠的信息從而影響最終聚類效果,引入注意力模塊來量化不同視圖的重要性,注意力模塊自適應地為每種模態(tài)分配權重。注意力模塊的使用為相似度融合質量提供了魯棒性保障,從而提升了聚類性能。
圖1 DMSC-AWF網絡框架Fig.1 Framework of DMSC-AWF
深度多模態(tài)聚類作為基于多視學習的無監(jiān)督子空間聚類方法,具有優(yōu)異的聚類性能。然而,對某些視圖數(shù)據(jù)進行采集時可能存在噪聲干擾,會出現(xiàn)數(shù)據(jù)不可靠的情況,直接進行視圖間融合會降低生成的相似度矩陣的有效性。針對這一問題,通過引入注意力模塊為各視圖自適應地分配融合權重。對于信息量損壞的視圖,網絡并不撤銷對這些信息的注意力,而是降低對其分配的權重。相反,網絡也能在訓練過程中增加對干凈視圖的注意力。注意力模塊的權重均由網絡學習得出,不需要人為指定權重大小,這也符合本文為不同視圖自適應匹配權重的特點。
注意力模塊以學習不同視圖的權重為目標,本模塊的輸入為潛在表示Fv(v=1,2,…,V)拼接而成的連接特征F,其輸出是V維向量w。通常,它由3個全連接層和1個Softmax層組成,通過求平均函數(shù)獲得輸出權重w。注意力模塊詳細網絡結構見圖2。
圖2 注意力模塊結構Fig.2 Structure of attention module
本文使用公式
F=concat(F1,F2,…,FV)
(1)
h=FCs(F)
(2)
e=Softmax(Sigmoid(h)/τ)
(3)
w=Mean(e,dim=0)
(4)
描述該過程。式中:concat(·)表示連接運算符;FCs(·)表示3個全連接的層;h、e為隱含特征;τ為校準因子;Sigmoid函數(shù)與校準因子τ可以看作是一種技巧,用來避免為質量最優(yōu)的視圖分配接近1的分數(shù);Mean(e,dim=0)表示對e每一列求平均值。為了簡單起見,將該模塊中的參數(shù)表示為Θa。
因為對于深度多模態(tài)聚類缺乏對互補性信息的研究,所以本文在深度子空間網絡的自表示層進行改進。傳統(tǒng)的模型假設各視圖共享學習一個公共的自表示層,自表示模塊的輸入為各視圖的潛在表示Fv,輸出為經自表示的潛在表示FvZ,Z為公共自表示層系數(shù),即公共表示矩陣,同時FvZ也將作為后續(xù)解碼操作的輸入,這種傳統(tǒng)自表示模型可以用
(5)
本模塊為傳統(tǒng)自表示模型增加了視圖特定的自表示層,結構上本模塊的輸入仍是各視圖的潛在表示Fv,而輸出除了經公共自表示層自表示的潛在表示FvZ,還增加了FvZv。因此,本模塊可以分為一致性模塊和互補性模塊。解碼器的輸入變成了FvZ與FvZv之和,在數(shù)學上,模型可以表示為
(6)
式中Zv為各視圖特定的自表示層系數(shù),即個性表示矩陣,此處同樣要求Zv對角線元素為0。
最后,本文用網絡收斂后學習到的公共表示矩陣Z構建相似度矩陣A(A=(|Z|+|ZT|)/2),對A執(zhí)行譜聚類。
由于多視數(shù)據(jù)各視圖之間既有一致性又有互補性,通常用約束各視圖的個性表示矩陣與公共表示矩陣距離相近來約束各視圖一致性。Cao等[12]考慮到視圖間信息多樣性,引入希爾伯特-施密特獨立性準則(Hilbert-Schmidt independence criterion,HSIC)[12,24]來學習多視圖間的互補性信息,如RGB信息和深度信息,主要目的是衡量2個變量的分布差異,因此,可以度量非線性和高階相關性。在此基礎上,將互補性正則化Rs定義為
(7)
式中Zi和Zj分別表示第i個和第j個視圖對應的視特定表示矩陣。
式(7)利用HSIC確保學到的各視圖的個性表示矩陣具有足夠的差異性,從而達到有效利用來自多個視圖的互補信息的目的。
所有視圖共享相同標簽,因此,各視圖特定表示矩陣應該與公共表示矩陣對齊。本文將一致性正則化Rc定義為
(8)
結合注意力模塊和自表示模塊的權重和約束,基于權重融合的多視子空間聚類模型,最終可以表示為
(9)
式中:Xv為模型輸入數(shù)據(jù),v代表第v個視圖;v為重構數(shù)據(jù);λ1、λ2、λ3、λ4為正則化項系數(shù)。式(9)第1項表示重構損失;第2~4項表示帶權重的自表示損失及其正則項;第5項表示一致性正則項,約束各視圖個性表示矩陣向公共表示矩陣逼近;第6項表示互補性正則項保證視特定表示矩陣相互獨立,確保模型可以充分挖掘多視信息的多樣性。DMSC-AWF模型的詳細學習過程在算法1中給出。
為驗證本模型的有效性,本文進行了大量實驗,包括聚類實驗,注意力模塊、互補性模塊退化實驗和具有噪聲數(shù)據(jù)的實驗等,并將其與近年來的幾種方法進行比較,以驗證所提出模型的性能。此外,對實驗中使用的數(shù)據(jù)集、對比方法、參數(shù)設置進行了詳細說明。本文實驗將相似度矩陣A=(|Z|+|ZT|)/2用于4個多視數(shù)據(jù)集以實現(xiàn)聚類任務。
本文方法使用Python 3.7環(huán)境及采用Tensorflow框架編碼,操作系統(tǒng)為Linux,顯卡為RTX 2080S×2,顯存為8 GB×2。
在聚類實驗中,將本文提出的DMSC-AWF與近年來性能較為優(yōu)異的子空間聚類算法進行比較。對比方法包括單視傳統(tǒng)子空間聚類算法和深度子空間聚類算法,共4種。
1) 基于低秩表示的子空間結構魯棒恢復(robust recovery of subspace structures by low-rank representation,LRR)[11]。在所有候選中尋求最低秩表示,這些候選可以將數(shù)據(jù)樣本表示為給定字典中具有最佳單視圖的基的線性組合。
2) 深度子空間聚類網絡(deep subspace clustering networks,DSCN)[25]。該算法將通過原始數(shù)據(jù)計算出的稀疏表示矩陣作為先驗知識,再結合自編碼器網絡將原始數(shù)據(jù)映射到潛在空間。該模型首次將子空間聚類用于深度自編碼器框架。
3) 對子空間聚類的深度認知(deep cognitive subspace clustering,DCSC)[26]。該算法對損失施加一個自定速正則化,是一種魯棒的深度子空間聚類算法。
4) 無監(jiān)督學習視覺特征的深度聚類(deep clustering for unsupervised learning of visual features,DC)[27]。該算法使用k-means在聚類之間迭代,并通過將聚類分配預測為偽標簽來更新其權值,從而產生判別損失,是一種可擴展的無監(jiān)督聚類方法。
對比方法包括多視傳統(tǒng)子空間聚類算法和深度子空間聚類算法,共5種。
1) 共同規(guī)范化多視譜聚類(co-regularized multi-view spectral clustering,Co-Reg SPC)[28]。該算法通過譜聚類目標函數(shù)隱式結合多個視圖的圖形,并進行聚類,以實現(xiàn)更好的聚類結果。
2) 通過低秩稀疏分解實現(xiàn)魯棒的多視譜聚類(robust multi-view spectral clustering via low-rank and sparse decomposition,RMSC)[29]。為解決無甄別結合含有噪聲的多視數(shù)據(jù)影響聚類結果的問題,該模型為單視圖構造相應轉移概率矩陣,并通過這些矩陣獲得一個共享的低秩轉移概率矩陣,并將其作為標準馬爾可夫鏈聚類方法的關鍵輸入,該模型具有低秩和稀疏性。
3) 通過深度矩陣分解進行多視聚類(multi-view clustering via deep matrix factorization,DMF)[30]。該算法通過半非負矩陣分解學習多視數(shù)據(jù)的多層次語義信息。
4) 潛在的多視子空間聚類(latent multi-view subspace clustering,LMSC)[17]。該算法尋找原始數(shù)據(jù)的潛在表示,同時,根據(jù)學習到的潛在表示進行數(shù)據(jù)重構。
5) 深度多模態(tài)子空間聚類(deep multimodal subspace clustering networks,MSCN)[22]。研究發(fā)現(xiàn),該模型在深度多模態(tài)子空間聚類任務中的空間融合方法依賴于模式之間的空間對應。
為評估提出的基于權重融合的多視子空間聚類恢復算法性能,本研究在4個公共數(shù)據(jù)集上進行了大量實驗,數(shù)據(jù)集簡介如下。
1) ORL人臉數(shù)據(jù)集[31]。該數(shù)據(jù)集包含40個人的10張不同的圖像。對于每個受試者,圖像采集時的控制光照條件、面部表情和面部細節(jié)不同。對于ORL原始數(shù)據(jù)集,本實驗調整圖像大小為48×48,提取3種類型的特征,即強度(4 096維)、局部二值模式(local binary pattern,LBP)(3 304維)和Gabor(6 750維)。標準的LBP特征是從72×80像素的圖像中提取的,直方圖大小為59~910個像素塊。Gabor特征是在4個方向θ=0°、45°、90°、135°的情況下以同一個尺度λ=4提取的,其分辨率為25×30像素的松散臉部裁剪。除了強度之外,所有描述符都縮放為單位范數(shù)。
2) Still DB數(shù)據(jù)集[23]。該數(shù)據(jù)集由467張行為動作圖像構成,主要包括6類:跑步、行走、接球、投擲、蹲下、蹋腿。由于行為動作姿勢的相似和圖片有雜亂的背景,該數(shù)據(jù)集是具有挑戰(zhàn)性的行為圖像數(shù)據(jù)庫。
3) BBC Sport數(shù)據(jù)集[32]。該數(shù)據(jù)集包含544份來自BBC體育網站的體育新聞文章,這些文章在2004、2005年涉及5個主題領域的2個視圖。對于每個示例,第1個視圖有3 183個特征,第2個視圖有3 203個特征。BBC Sport的部分子集如圖3所示。
圖3 BBC Sport文本數(shù)據(jù)集的部分原始樣本Fig.3 Part of the original sample of the BBC Sport text dataset
4) RGB-D對象數(shù)據(jù)集[33]。該數(shù)據(jù)集包含從多個視圖中獲取的300個物理上(傳感器距離物體的實際距離)截然不同的對象的視覺和深度圖像,這些對象按照WordNet上下名關系(類似于ImageNet)被組織成51個類別。本實驗中隨機選擇50個類,每類10個樣本。所有視覺圖像和深度圖像大小均為64×64像素。實驗中使用遞歸中值濾波,直到所有缺失的值都被填滿。RGB圖像和深度圖像的子集如圖4所示。
圖4 RGB-D對象數(shù)據(jù)集的部分樣本Fig.4 Part of sample from the RGB-D object dataset
4個公開數(shù)據(jù)集ORL、Still DB、BBC Sport和 RGB-D在本文實驗中的使用情況如表1所示。
表1 數(shù)據(jù)集情況統(tǒng)計Table 1 Statistics of datasets
本文模型使用[64,32,16]通道的3層編碼器,相應地使用[16,32,64]通道的3層解碼器。卷積層的卷積核大小都設置為3×3,而非線性激活函數(shù)為整流線性單元。然后,通過反卷積層將潛在特征返回到與輸入大小相同的空間。同時,在所有實驗中將lr設置為0.001。以RGB-D數(shù)據(jù)集為例,其輸入為2個視圖數(shù)據(jù):一個視圖數(shù)據(jù)為彩色視覺圖像(有3個通道),另一個視圖數(shù)據(jù)為深度圖像(有1個通道)。2個視圖的通道分別為3—64—32—16—32—64—3和1—64—32—16—32—64—1。橫向和縱向平移步長為2,填充方式為same,迭代次數(shù)為40,λ1=1.00,λ2=1.00,λ3=0.10,λ4=0.10,τ=0.50。為確定上述關鍵參數(shù)(λ1、λ2、λ3、λ4、τ)取值對聚類性能的影響,本文固定其他4個參數(shù),依次分析各參數(shù)對聚類性能的影響。不同參數(shù)在RGB-D數(shù)據(jù)集的DMSC-AWF性能見圖5。圖5(a)~(d)中λ1、λ2、λ3、λ4的取值范圍設置為[0.01,0.10,1.00,10.00,100.00]。結果表明,當λ1、λ2被設為1.00時,本文方法在不同的性能指標上均有良好的表現(xiàn)。同樣,可以觀察到,當λ3、λ4設為0.10時,本文提出的DMSC-AWF具有更好的性能。當τ分別取0.1、0.5、1.0、10.0、20.0時進行實驗,當τ=0.5時效果最優(yōu)。
圖5 不同參數(shù)對DMSC-AWF性能的影響Fig.5 Effect of different parameters on DMSC-AWF performance
本實驗使用4個流行的評價指標來評估聚類效果,包括準確度(accuracy,ACC)ACC、歸一化互信息(normalized mutual information,NMI)NMI、精確率和召回率的加權調和平均Fmeasure和可以綜合評價性能的調整蘭德指數(shù)(adjusted Rand index,ARI)IAR。其中,分數(shù)越高,表示聚類性能越好。
ACC的計算公式為
(10)
式中:li為真實標簽;yi為模型產生的聚類結果;m(yi)為置換映射函數(shù),將聚類標簽映射到類標簽;n為樣本數(shù)。置換映射函數(shù)的最佳映射可通過匈牙利算法獲得。
NMI是數(shù)據(jù)真實標簽l和聚類標簽k之間相似度的歸一化度量,計算公式為
(11)
式中:I(l;y)表示l和y之間的互信息;H(l)、H(y)分別表示l和y的熵。NMI的結果不因簇(類)的排列而改變,它們歸一化為[0,1],0表示沒有相關性,1表示完全相關。
IAR反映聚類標簽與數(shù)據(jù)真實標簽的重疊程度,具體計算公式見文獻[34]。
Fmeasure常用于衡量模型的有效性,取值范圍為[0,1],公式為
(12)
式中:P為精確率;R為召回率。
實驗時,將MSCN與本模型DMSC-AWF的迭代步數(shù)保持一致,并以最后一次迭代的結果作為最終結果。其他對比實驗結果取自文獻[23]。在實驗設置中,所有方法都使用k-means聚類方法來得到最終的聚類結果。解的初始化嚴重影響k-means的性能,因此,實驗時把每個代碼均運行30次,并給出了平均性能和標準偏差。為驗證本模型及本模型提出的各個模塊的有效性,分別進行了聚類實驗、退化實驗以及具有噪聲實驗。
2.3.1 聚類實驗
為驗證本文模型的有效性,本實驗將不同方法在ORL、Still DB、BBC Sport和RGB-D數(shù)據(jù)集上的聚類結果進行對比,實驗結果如表2~5所示。表中黑體數(shù)字為最佳結果。
表2 不同方法在ORL下的聚類性能對比Table 2 Comparison of the clustering performance of different methods under the ORL dataset
表3 不同方法在Still DB下的聚類性能對比Table 3 Comparison of the clustering performance of different methods under the Still DB dataset
表4 不同方法在BBC Sport下的聚類性能對比Table 4 Comparison of the clustering performance of different methods under the BBC Sport dataset
表5 不同方法在RGB-D下的聚類性能對比Table 5 Comparison of the clustering performance of different methods under the RGB-D dataset
根據(jù)聚類結果顯示,本文提出的方法在ORL、Still DB、BBC Sport和RGB-D數(shù)據(jù)集上明顯優(yōu)于其他對比方法的聚類性能。例如:對于RGB-D來說,本文提出的模型ACC提高了4.3%,NMI提高了2.0%,ARI提高了0.8%,Fmeasure提高了1.4%。這證明了所提出的DMSC-AWF模型在多視子空間聚類任務中的有效性。同時,在聚類結果中可以看出:1) 無論是單視還是多視,使用深度網絡的方法相比于傳統(tǒng)方法具有較高的準確度,這表明深度網絡具有更好地提取非線性數(shù)據(jù)特征的能力,有助于提高聚類效果。2) 在同樣使用深度網絡的情況下,多視聚類方法相較于單視聚類方法取得了更好的聚類性能,這表明有效利用多視角數(shù)據(jù),在大多數(shù)情況下可以獲得較為不錯的聚類性能。
綜上可知,性能的提升主要體現(xiàn)在3個方面:一是在網絡中以端到端的方式學習相似度矩陣;二是將多視數(shù)據(jù)的一致性信息和互補性信息結合,并應用到自表示中;三是做相似度融合時將注意力模塊應用到網絡中,為不同質量的視圖數(shù)據(jù)分配合適的權重。
2.3.2 注意力模塊及互補性模塊退化實驗
為驗證本文提出的模塊的有效性,以RGB-D數(shù)據(jù)集為例,對包含添加了互補性信息的自表示模塊和注意力模塊的模型DMSC-AWF、在DMSC-AWF模型基礎上去掉注意力模塊的模型DMSC-AWF/att以及在DMSC-AWF/att模型基礎上去掉互補性模塊的MSCN模型進行實驗,最終聚類結果見表6。
表6 退化實驗的聚類性能對比Table 6 Clustering performance of degraded experiments
由表6可以看出,DMSC-AWF相較MSCN和DMSC-AWF/att具有較為優(yōu)異的性能優(yōu)勢。因為DMSC-AWF/att與MSCN的區(qū)別在于DMSC-AWF/att的自表示模塊中包含互補性模塊,所以由DMSC-AWF/att與MSCN的實驗結果可知,在自表示模塊中添加互補性模塊是非常有必要的。DMSC-AWF在聚類性能上大致高于沒有添加注意力模塊的DMSC-AWF/att,同時,DMSC-AWF聚類結果的標準差小于DMSC-AWF/att,這說明添加注意力模塊有助于提高網絡的魯棒性,從而提升聚類穩(wěn)定性。本退化實驗結果證實了注意力模塊及互補性模塊的有效性。
2.3.3 具有噪聲數(shù)據(jù)的聚類實驗
以RGB-D數(shù)據(jù)集為例,在本數(shù)據(jù)集的某一視圖上添加高斯噪聲,從而獲得一組新的噪聲數(shù)據(jù)。將這組噪聲數(shù)據(jù)作為一個視圖同另一個視圖一起送入網絡中,并將本模型DMSC-AWF與MSCN的聚類結果進行對比。將高斯噪聲均值設置為0,標準差設置為0.2。在本部分預訓練實驗中一個視圖的輸入數(shù)據(jù)為噪聲數(shù)據(jù)。具有噪聲數(shù)據(jù)的聚類結果如表7所示。表中黑體數(shù)字為最佳結果。
表7 標準差為0.2的噪聲數(shù)據(jù)的聚類性能Table 7 Clustering performance of noise data with standard deviation of 0.2
根據(jù)表7中展示的添加噪聲實驗的聚類結果可以看出,如果原始圖像包含噪聲,則會降低聚類性能,但本文提出的方法依舊可以保持一個不錯的聚類效果。相比于MSCN來說,本文模型ACC提高了3.8%,NMI提高了0.5%,ARI提高了1.7%,Fmeasure提高了1.7%。為進一步直觀體現(xiàn)本模型面對噪聲數(shù)據(jù)的魯棒性,本文對不同視圖的權重進行了可視化,展示了有噪聲的視圖和無噪聲的視圖之間的權重差異,實驗結果如圖6所示。本噪聲實驗驗證了在面對不可靠數(shù)據(jù)時,本文提出的基于權重融合的方法相對于各視圖直接融合的傳統(tǒng)方法具有更強的魯棒性,從而證實了融合時對各視圖分配不同權重是有必要的。
圖6 對噪聲實驗權重可視化Fig.6 Visualization of experimental weight of noise
1) DMSC-AWF方法強制各視圖共享自表示層(相似度融合)以確保一致性,并在此基礎上強調了各視圖獨立的互補性信息,即為各視圖分別學習一個自表示層。同時,在多視信息融合時利用注意力模塊學習到各視圖的權重分配,為相似度融合質量提供了魯棒性保障。
2) DMSC-AWF算法可以提升數(shù)據(jù)融合質量,從而提升聚類性能。
3) DMSC-AWF的注意力模塊有助于提高網絡的魯棒性,使網絡具有一定抗噪聲能力,從而提升聚類穩(wěn)定性。