亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于核誘導的不完整多視角聚類

2021-02-05 18:10:50鄧趙紅王士同

計算機與生活 2021年2期

關(guān)鍵詞：共性方法

張煒，鄧趙紅，王士同

江南大學人工智能與計算機學院，江蘇無錫 214122

隨著數(shù)據(jù)采集技術(shù)的發(fā)展，數(shù)據(jù)的復雜性越來越高，復雜數(shù)據(jù)給傳統(tǒng)機器學習技術(shù)帶來許多挑戰(zhàn)。數(shù)據(jù)的復雜性包括很多方面，如：數(shù)據(jù)集的大小、數(shù)據(jù)屬性特征的復雜性等。觀察復雜數(shù)據(jù)集時，可以通過多個視角詮釋，多視角數(shù)據(jù)是指對同一樣本不同角度的表示，例如在基于內(nèi)容的網(wǎng)頁圖像搜索中，目標可以用圖像的可視化特征以及對圖像描述的文本特征表示。近年來，多視角學習得到越來越多的關(guān)注，在各個領(lǐng)域得到廣泛應用。

多視角聚類作為多視角學習的重要分支，近年來取得了較大發(fā)展[1-2]。Cleuziou 等人基于經(jīng)典模糊C 均值聚類（fuzzy C-means，F(xiàn)CM）算法，利用協(xié)同劃分的思想對不同視角的模糊劃分進行控制，提出了基于FCM 的協(xié)同聚類算法[3]。Liu 等人針對多視角數(shù)據(jù)，提出了一個新穎的張量框架，該框架用來在譜聚類中整合異構(gòu)多視角數(shù)據(jù)[4]。Wang 等人提出了一種多視角學習模型，通過引入新的聯(lián)合結(jié)構(gòu)稀疏準則，將所有特征進行集成，并對每個特征的權(quán)值進行單獨學習[5]。Xia 等人提出了一種魯棒的多視角譜聚類的馬爾可夫鏈方法，該方法通過低秩稀疏分解將每個視角的過度概率矩陣組合成一個共享的過度概率矩陣[6]。另外，近年來還有一些在非負矩陣分解（nonnegative matrix factorization，NMF）基礎(chǔ)上的多視角聚類算法被提出[7-8]。Liu 等人提出了一個具有一致性約束的聯(lián)合非負矩陣分解過程，該過程對每個視角執(zhí)行非負矩陣分解，并利用每個視角的低維表示推出一個共同的表示[7]?；贜MF 和流形學習，Shen 等人提出了流形NMF[8]。

上述多視角聚類算法大多有一個共同的前提假設(shè)：所有視角都是完整的。然而在現(xiàn)實場景中，多數(shù)多視角數(shù)據(jù)存在缺失。例如，文本集群中，可以將文檔翻譯成代表多個視角的不同語言。但是，某些文檔可能沒有全部翻譯版本。再例如視頻數(shù)據(jù)中，畫面和聲音各代表一個視角，而有的數(shù)據(jù)只有聲音視角或者畫面視角。在這些情況下，傳統(tǒng)多視角聚類算法將不可用或不再可靠，因此如何充分利用隱藏在不同視圖中的互補知識，減少缺失實例的影響，是不完全多視角學習中最具挑戰(zhàn)性的問題。

為了應對不完整多視角帶來的挑戰(zhàn)，近年來，一些不完整多視角算法被提出：Trivedi 等人提出了一種基于核相關(guān)性分析的不完整視角核矩陣補全的方法[9]，然而該方法需要至少一個視角的數(shù)據(jù)是完整的。Gao等人基于譜圖理論和核對齊原理提出了IVC（incomplete multi-view clustering）[10]，但是，該方法不能處理缺失率較大的情況。Li等人通過使用NMF 和L1正則化提出了處理兩個視角不完整數(shù)據(jù)的聚類算法（partial view clustering，PVC）[11]。Zhao 等在PVC的基礎(chǔ)上，融合PVC 和流型學習提出IMG（incomplete multi-modal grouping）[12]。Hu 等人在PVC 的基礎(chǔ)上引入半非負矩陣分解（semi-nonnegative matrix factorization，semi-NMF），提出了DAIMC（doubly aligned incomplete multi-view clustering）[13]。Shao 等人使用加權(quán)非負矩陣分解技術(shù)和L2,1正則化項提出了MIC（multi-view incomplete clustering）[14]。為了減少運算時間，Shao 等人又提出了在線不完整多視角聚類算法[15]。在PVC 的基礎(chǔ)上，Wen 等人通過將最近鄰圖應用到矩陣分解的重構(gòu)誤差上提出了IMC_GRMF（incomplete multi-view clustering via graph regularized matrix factorization）[16]。此外，Wen 等人通過對所有視角的共性表示和相似圖進行聯(lián)合學習提出了IMSC_AGL（incomplete multi-view spectral clustering with adaptive graph learning）[17]。Wang 等人通過建立光譜攝動理論與不完整多視角聚類之間的聯(lián)系，利用光譜聚類的關(guān)鍵特征，將特征值缺失轉(zhuǎn)化為相似值缺失，提出了PIC（perturbation-oriented incomplete multi-view clustering）[18]。雖然目前上述這些方法顯示出一定有效性，但仍存在一些問題：（1）上述這些不完整多視角算法大都是在歐式空間求解共性矩陣，然后利用共性矩陣進行聚類得到最終結(jié)果，然而多數(shù)多視角數(shù)據(jù)在原始特征空間并不線性可分，因此不能找到具有較好代表性的共性矩陣，并且在缺失樣本的情況下找到具有較好代表性的共性矩陣難度大大增加。（2）不同視角提供可鑒別的信息量有所不同，因此在學習優(yōu)化過程中平等對待每個視角是不合理的。（3）數(shù)據(jù)的局部幾何結(jié)構(gòu)沒有得到很好的挖掘，不能保證得到的共性矩陣的緊湊性和代表性。因此，不完整的多視角聚類仍面臨重大挑戰(zhàn)。

針對上述問題，本文提出基于核誘導的不完整多視角聚類算法（kernel-induced incomplete multi-view clustering，KIMV）。首先，有別于傳統(tǒng)方法在歐式空間中求解共性視角，本文將在核希爾伯特空間中求解更具表示性的共性矩陣。通過核方法的非線性映射，使得原始線性不可分離的輸入映射到新的特征空間中可能會變成可分離的輸入[19-20]，即原始線性不可分的數(shù)據(jù)可以映射進入一個更高維度的空間，它表現(xiàn)出線性模式，可以更容易地表示和提取特征[19-20]。因此當數(shù)據(jù)投影到核空間后將能提供更多的可鑒別信息，更具描述性。其次，考慮到不同視角提供給模型信息量的差異，而且合理的視角間權(quán)重有利于提高聚類的準確性和魯棒性，因此本文引入香農(nóng)熵視角加權(quán)機制，通過自適應學習視角權(quán)重的方式，KIMV能夠獲得最優(yōu)的視角權(quán)重劃分。最后，本文引入圖拉普拉斯正則化不僅保持了抗噪性，同時保留局部原始空間內(nèi)在幾何特征，提高了算法的魯棒性[21]。

本文主要貢獻可歸納如下：

（1）與現(xiàn)有方法不同，本文在利用非負矩陣分解技術(shù)提取共性矩陣以降低缺失樣本影響的同時，引入核方法和核技巧，使求得的共性矩陣更具代表性；

（2）將香農(nóng)熵自適應視角加權(quán)機引入不完整多視角聚類算法，自適應地調(diào)整視角間的權(quán)重，使KIMV獲得最優(yōu)的視角權(quán)重劃分，從而提高算法的魯棒性；

（3）為保證多視角的局部一致性，本文引入了圖拉普拉斯正則化，保留了原始空間中的內(nèi)在幾何結(jié)構(gòu)，進一步提高了KIMV 的魯棒性；

（4）在多個真實多視角數(shù)據(jù)集上驗證了本文方法的有效性，并分析了該方法相對于其他相關(guān)方法所具有的優(yōu)勢。

1 相關(guān)工作

1.1 核方法和核技巧

本節(jié)簡要地介紹核方法和核技巧。核方法已成功地應用于輸入輸出關(guān)系不是線性的，類間數(shù)據(jù)不能被線性邊界劃分（即線性不可分）的各種學習任務中[21-23]。對于線性不可分的數(shù)據(jù)，核方法的目標是將其映射到更高的維度，在更高的維度上它們可以顯示為線性可分的狀態(tài)，然后在新的特征表示空間中使用線性模型。令?(x)表示一個樣本從原始空間Rn到高維核空間Rp(p?n)的非線性映射，并且其在核空間的內(nèi)積可由一個核矩陣表示：

核方法依賴于核函數(shù)將原始空間中的數(shù)據(jù)投影到高維核誘導的特征空間中。常見的核函數(shù)包括線性核函數(shù)、二次核函數(shù)、多項式核函數(shù)和高斯核函數(shù)?？紤]到不同核函數(shù)的通用性，本文選擇高斯核函數(shù)作為核函數(shù)，其可表示如下：

其中，σ表示高斯核的帶寬。

1.2 不完整多視角聚類

假設(shè)給定一個數(shù)據(jù)集{Xv,v=1,2,…,V}，包括N個樣本，C個類別，V個視角，其中X∈RN×dv表示第v個視角的數(shù)據(jù)。給不完整聚類問題定義一個標識如下：

其中，Mv=[mv,1,mv,2,…,mv,n]T的每一行都是對應視角的樣本表示。大多數(shù)多視角聚類算法假設(shè)所有視角都是完整的，每個視角包含所有樣本，即v=1,2,…,V。然而在多數(shù)真實場景中，某些樣本可能只出現(xiàn)在某些視角中，這可能導致某些視角不完整。如果第v個視角的數(shù)據(jù)Xv將有一定數(shù)量的行數(shù)缺失，那么不完整多視角聚類算法的目標就是通過集成所有的不完整視角，將所有N個實例劃分到C個簇或類中。

為解決不完整多視角聚類問題，目前已提出不少有效方法，Li 等人利用NMF 學習對齊空間的共性矩陣和非對齊空間的私有共性矩陣提出了PVC[11]，但是該方法只能處理兩個視角的不完整數(shù)據(jù)，并且僅使用L1正則化進行約束，忽視了數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。Zhao 等人將流型正則化融入PVC，提出了IMG[12]，該方法利用數(shù)據(jù)內(nèi)在結(jié)構(gòu)提高了聚類效果。為解決已有方法只能處理兩個視角的不足，Shao 等人使用加權(quán)非負矩陣分解技術(shù)和L2,1正則化項提出了MIC[14]。已有方法都需要較多正則化來約束，因此不能自適應不同實際數(shù)據(jù)集，為解決該問題，Wen 等人在PVC的基礎(chǔ)上通過將最近鄰圖應用到矩陣分解的重構(gòu)誤差上提出了IMC_GRMF[16]。然而目前現(xiàn)有方法大都是在歐式空間中求解共性矩陣[11-16,24]，最后對共性矩陣聚類得到最終聚類結(jié)果。雖然目前方法已顯示出一定有效性，但還存在改進的空間，例如多數(shù)數(shù)據(jù)集在原始特征空間中并不能線性可分，因此找到的共性矩陣不具有較強的代表性，從而導致最終的聚類效果較差。

2 基于核誘導的不完整視角聚類

本章將詳細闡述基于核誘導的不完整視角聚類算法。核技巧將被引入非負矩陣分解，并使用圖拉普拉斯正規(guī)化約束共性矩陣?？紤]到不同視角對于聚類的貢獻不一致，進一步還引入香農(nóng)熵自適應視角加權(quán)機制。具體細節(jié)描述如下。

2.1 目標函數(shù)

對于一組不完整多視角數(shù)據(jù){Xv∈RN×Dv,v=1,2,…,V}進行聚類，現(xiàn)有的方法通過對缺失樣本進行填充，然后利用非負矩陣分解技術(shù)在歐式空間中找到所有視角的潛在的共性矩陣，并最終對最優(yōu)共性矩陣進行聚類[11-17]。通過引入非負矩陣分解技術(shù)，本文的初始目標函數(shù)可構(gòu)造為：

其中，Uv∈RN×c是第v個視角的基礎(chǔ)矩陣。H∈RN×c是所有視角的潛在共性矩陣，N是樣本個數(shù)，c為子空間的維度，根據(jù)前人的工作[13-15]，c可定義為數(shù)據(jù)集的類別個數(shù)。

然而在存在缺失數(shù)據(jù)情況下，歐式空間中數(shù)據(jù)線性可分性較低或分離并不準確，因此本文利用核方法將原始數(shù)據(jù)映射到高維空間，使其線性可分，并同時找到更好的共性矩陣，因此式（4）可更新為：

其中，?(Xv)表示第v個視角的數(shù)據(jù)Xv在核空間中的投影數(shù)據(jù)。然而在沒有明確?(Xv)的情況下，無法求得潛在共性矩陣H和基礎(chǔ)矩陣Uv。為解決該問題，前人通過對基礎(chǔ)矩陣施加約束[25-27]，使其每個向量都位于?(Xv)的列空間中，即?(xN)WNj，此時Uv可更新為：

其中，Wv中的每一列都滿足和為1 的約束條件。將約束（6）引入式（5）中，式（5）可更新為：

其中，tr{?}為跡運算，K=?(X)T?(X)為核矩陣，I為單位矩陣。

為減少缺失視角帶來噪聲的影響，現(xiàn)有的方法[11,13-14]通過添加L1,L2正則化來提高模型的魯棒性。然而前人的工作[21]表明，保持局部結(jié)構(gòu)不僅能夠提高抗噪能力，還能提高聚類質(zhì)量。傳統(tǒng)L1,L2正則化忽視了每個視角數(shù)據(jù)內(nèi)在幾何結(jié)構(gòu)，為彌補此不足，本文進一步引入圖拉普拉斯正則化懲戒項[28]，此時式（7）更新為：

其中，β為懲戒參數(shù)，Dist(κKv,κH)為圖拉普拉斯懲戒項，本文利用如下方式構(gòu)造：針對核空間中每個視角的數(shù)據(jù)Kv構(gòu)造一個具有N個頂點的最近鄰圖Gv，該最近鄰圖視為視角v的局部流行結(jié)構(gòu)模型。構(gòu)造相似性矩陣Sv，若在特征空間中樣本為樣本的k近鄰點（本文中k設(shè)定為5），則為核函數(shù)，否則。構(gòu)造其中為使兩個在核空間中足夠近的點映射到共性矩陣后能夠保持原有拓撲結(jié)構(gòu)，本文定義如下函數(shù)[21]：

其中，Lv=Dv-Sv為拉普拉斯矩陣。結(jié)合式（9），式（8）更新為：

在多視角數(shù)據(jù)場景下，不同視角常常具有不同的物理意義和判別能力，特別是在不完整多視角場景下，由于多視角可用樣本的特征維度和數(shù)量不同，不同視角的可用判別信息會有很大的差異。因此引入視角加權(quán)機制來調(diào)整各視角的影響有極大意義。為此，本文引入香農(nóng)熵自適應視角加權(quán)機制來自動學習各個視角的權(quán)重，以平衡不同視角的重要性[29-30]。此時式（10）更新為：

其中，av表示第v個視角的權(quán)重，λ為香農(nóng)熵的正則化參數(shù)，為負香農(nóng)熵正則化項。通過引入負熵技術(shù)，使目標函數(shù)達到最優(yōu)時負熵盡可能小，負熵極小化會導致各視角權(quán)重趨于一致[31]，無法凸顯出各個視角的重要性。同時，式（11）的前兩項，即式（10）極大化則使得視角權(quán)重易于趨向于某一視角，將最具代表性（空間劃分最為明顯）的視角凸顯出來，而該視角將控制最后的聚類結(jié)果。上述兩種情況為極端情況，本文對它們進行了平衡，以獲得更好聚類結(jié)果。本文在各個視角上引入自適應熵加權(quán)的概念，該方法能夠有效降低聚類特性較差視角的干擾和一個視角控制輸出的風險，從而獲得更為理想的空間劃分結(jié)果，最終增強本文算法的有效性和魯棒性。

2.2 優(yōu)化

為了求解式（11），本文采用經(jīng)典的交叉迭代策略，迭代過程包括三個主要步驟，即對Wv、H、av分別進行迭代更新。

（1）更新Wv

當H和av固定為常數(shù)時，需要最小化如下目標函數(shù)：

通過將式（12）相對于Wv的導數(shù)置于零，并利用KKT（Karush-Kuhn-Tucker）[32]互補條件，由此可得到Wv的更新公式：

（2）更新H

當Wv和av固定為常數(shù)時，需要最小化如下目標函數(shù)：

通過將式（14）相對于H的導數(shù)置于0 并利用KKT 互補條件，由此可得到H的更新公式：

（3）更新av

當Wv和H固定為常數(shù)時，需要最小化如下目標函數(shù)：

通過將式（16）相對于av的導數(shù)置于0，由此可得到av的更新公式：

通過對式（13）、式（15）、式（17）交替迭代優(yōu)化，可以得到目標函數(shù)的最優(yōu)解，在最優(yōu)的共性矩陣H基礎(chǔ)上，利用K-means聚類算法得到最終聚類解。

基于上述推導和分析，算法1 給出KIMV 的細節(jié)描述。

2.3 算法描述和分析

本節(jié)將分析KIMV 的計算復雜度。算法KIMV的復雜度主要由在更新過程中矩陣乘法的矩陣逆運算決定。在每次迭代更新中，更新av的計算復雜度為O((N2C)2N2VT)，N為樣本數(shù)，C為類別數(shù)，V為視角數(shù)，T為迭代次數(shù)。更新Wv的計算復雜度為O((N2C)2NCVT)。更新H的計算復雜度為O((N2C)2(NCN+1)T)。因此，KIMV算法的總計算復雜度為O((N2C)2(NCN+1)T)。

2.4 與相關(guān)方法的聯(lián)系與區(qū)別

雖然本文提出的KIMV與現(xiàn)有的方法，如PVC[11]、IMG[12]、MIC[14]、IMC_GRMF[16]等一樣都基于非負矩陣分解技術(shù)求解共性矩陣，然后進行聚類操作，但不同的是KIMV 將求解空間映射到核希爾伯特空間中，相比在原始特征空間求解到的共性矩陣更具代表性。并且值得注意的是：（1）之前的方法并沒有注意到不同視角的貢獻程度不一致，而KIMV 利用香農(nóng)熵實現(xiàn)視角的自適應加權(quán)獲得了最優(yōu)的視角權(quán)重分配。（2）雖然MIC 和PVC 中使用的L2,1和L2正則化能夠很好地提高模型的抗噪性，但同時忽略了數(shù)據(jù)的內(nèi)部幾何結(jié)構(gòu)。而KIMV 和IMG 利用圖拉普拉斯正則化兼顧這兩點，大大提高了模型的魯棒性。

3 實驗結(jié)果和分析

本章對提出的不完整多視角聚類（KIMV）進行實驗研究。

3.1 數(shù)據(jù)集

本文所用多視角數(shù)據(jù)集均來自UCI 數(shù)據(jù)集庫。表1 給出了數(shù)據(jù)集的統(tǒng)計信息。其中，IRIS 數(shù)據(jù)集本身并非多視角數(shù)據(jù)集，其特征人為地劃分為多視角數(shù)據(jù)，下面給出數(shù)據(jù)集的詳細描述。

Table 1 Statistics of datasets表1 數(shù)據(jù)集的統(tǒng)計信息

（1）IRIS 數(shù)據(jù)集：IRIS 數(shù)據(jù)是UCI 數(shù)據(jù)庫中的經(jīng)典數(shù)據(jù)集，本文將其每兩維特征看成一個視角，即，將原來的IRIS 數(shù)據(jù)集拆分成兩個視角樣本集合。

（2）Dermatology 數(shù)據(jù)集：該數(shù)據(jù)集用于判定紅斑鱗狀皮膚病的類型，共有兩個視角，包括組織病理學視角和臨床視角。

（3）Image Segmentation 數(shù)據(jù)集：采用的圖像分割數(shù)據(jù)集由從7 個室外圖像的數(shù)據(jù)庫中隨機抽取的2 310 個對象組成。該數(shù)據(jù)集包含19 個特征，可以自然地分為兩個視角，形狀視角和RGB 視角。

（4）Multiple Features 數(shù)據(jù)集：UCI 數(shù)據(jù)庫經(jīng)典手寫字數(shù)據(jù)集，總共包含5 個視角，本文選取其中兩個視角，即傅里葉系數(shù)視角和Zernike矩陣視角。

（5）WebKB 數(shù)據(jù)集：WebKB 數(shù)據(jù)集在多視角學習的研究中被頻繁使用。該數(shù)據(jù)集收集了4 所大學的網(wǎng)頁，共1 051 頁?？煞譃榫W(wǎng)頁文本視角、網(wǎng)頁超鏈接視角和標題文本視角。在本文實驗中選取其中一個大學的網(wǎng)頁作為數(shù)據(jù)集。

3.2 實驗設(shè)置

在實驗中，KIMV 將和如下的多視角聚類算法進行比較。

（1）MultiNMF[7]：MultiNMF 作為基于非負矩陣分解技術(shù)的傳統(tǒng)多視角聚類算法無法直接處理不完整的多視角數(shù)據(jù)，因此在實驗中，先使用平均特征值填充每個不完整視圖中的缺失實例。

（2）PVC[11]：PVC通過學習對齊實例的公共子空間和未對齊實例的私有子空間進行不完整多視角聚類。

（3）IMG[12]：IMG 融合了PVC 和流型學習，通過學習完整的圖拉普拉斯正則化項，將不同視角缺失的實例數(shù)據(jù)連接起來。

（4）MIC[14]：MIC 利用加權(quán)非負矩陣分解技術(shù)和L2,1正則化對多個不完整視角進行聚類。

（5）OMVC[15]：在線不完整多視角聚類算法是MIC 的改進版，大大減少了MIC 算法運算的時間和復雜度。

（6）IMC_GRMF[16]：IMC_GRMF 在矩陣分解的重構(gòu)誤差上加入最近鄰圖，利用數(shù)據(jù)的局部幾何結(jié)構(gòu)，使算法能夠?qū)W習的共性矩陣更有鑒別性。

為了公平起見，在實驗中所有算法的正則化參數(shù)都將設(shè)置在{10-3,10-2,…,103}內(nèi)，KIMV 的核寬設(shè)置在lg{0.01,0.05,0.10,0.50,e,e2} 內(nèi)。實驗評判標準本文跟隨文獻[33]，選用歸一化互信息（NMI）、準確度（Acc）和Purity 作為評價指標。與文獻[14]相似，對于完整的多視角數(shù)據(jù)集，將隨機移除每個視角一定比例的樣本，移除的比例將從10%到50%依次遞增，并且對于每個數(shù)據(jù)集，所有的方法都是在相同的5 個隨機形成的不完全比例上執(zhí)行，并以它們的平均結(jié)果作為最終結(jié)果進行比較。需要注意的是PVC、IMG 和IMC_GRMF 這3 個算法只針對兩個視角的數(shù)據(jù)，因此它們在WebKB 上沒有結(jié)果。

3.3 實驗結(jié)果和分析

本文算法與其他6 個不完整多視角聚類算法在4個數(shù)據(jù)集上的實驗結(jié)果如圖1 所示，表2 列出了4個算法在3個視角數(shù)據(jù)集WebKB上的詳細結(jié)果。

Fig.1 Clustering performance of each algorithm on 4 datasets圖1 各算法在4 個數(shù)據(jù)集上的聚類表現(xiàn)

通過觀察圖1和表2可以得到如下結(jié)論：（1）KIMV在多數(shù)數(shù)據(jù)集上與其他算法相比具有顯著優(yōu)勢，因此本文算法具有較好的性能。（2）MultiNMF 與其他算法相比，性能較差，這表明存在缺失樣本情況下傳統(tǒng)多視角聚類算法不再可靠。（3）KIMV、IMG 和IMC_GRMF 在大多數(shù)情況下表現(xiàn)優(yōu)于PVC，這證明利用圖拉普拉斯正則化保留數(shù)據(jù)內(nèi)在幾何結(jié)構(gòu)，有利于提升算法性能。（4）在多數(shù)情況下，特別是當缺失視角較多時，KIMV 與其他算法相比，在Acc、NMI和Purity 上都有較大優(yōu)勢，這說明不僅在核空間中求解的共性矩陣能夠提供更多聚類信息，并且考慮不同視角的重要性，能夠大大提升聚類效果。

Table 2 NMI,Acc and Purity of 4 methods on WebKB表2 4 個算法在WebKB 上的NMI、Acc、Purity

3.4 有效性分析

為研究拉普拉斯正則化和自適應視角加權(quán)機制是否給模型帶來正面影響，本節(jié)在含有20%缺失數(shù)據(jù)情況下分別移除拉普拉斯正則化項（KIMV1）和自適應視角加權(quán)項（KIMV2）進行實驗，表3 給出3 種情況下的NMI結(jié)果。通過觀察表3 可以看出，通過利用自適應視角加權(quán)項和拉普拉斯正則化項可以較大提高模型的魯棒性，此外在多數(shù)數(shù)據(jù)集上拉普拉斯正則化的作用要大于自適應視角加權(quán)項。

Table 3 NMI of 3 KIMV on 5 datasets表3 3 種KIMV 在5 個數(shù)據(jù)集上的NMI

3.5 參數(shù)分析

參數(shù)β用于控制拉普拉斯正則化項的影響，一個好的懲戒參數(shù)設(shè)置會對模型性能的提升有較大影響。因此為研究參數(shù)β對KIMV 的影響，在本節(jié)實驗中，將另一個作用較小的參數(shù)λ固定，然后利用網(wǎng)格搜索的方法觀察參數(shù)β采取不同值對算法效果的影響?？紤]到缺失樣本過少，不具有代表性，而缺失樣本過多時不能體現(xiàn)算法的特點，本文在5 個數(shù)據(jù)集中以含有20%缺失數(shù)據(jù)情況為例進行參數(shù)分析，實驗結(jié)果如圖2 所示。

由圖2 可得出如下結(jié)論：5 個數(shù)據(jù)集對于β的敏感程度較為一致。當參數(shù)β較小時算法性能較好，而當β逐漸增大，算法性能開始下降。可以看出β在{10-3,10-2,10-1,100}區(qū)間內(nèi)算法取得較好性能。

3.6 收斂性分析

Fig.2 Sensitivity analysis of parameter β on 5 datasets圖2 參數(shù)β 在5 個數(shù)據(jù)集上的敏感度分析

本節(jié)通過實驗證明了所提算法的收斂性，同樣以20%不完整率情況為例。受文章篇幅限制，只給出Dermatology 和Multiple Features 兩個多視角數(shù)據(jù)集上的實驗結(jié)果。圖3 和圖4 分別為Dermatology 和Multiple Features 數(shù)據(jù)集的收斂曲線和性能曲線，其中實線為收斂曲線，虛線為性能曲線?？梢钥闯鰧τ贒ermatology 數(shù)據(jù)集，KIMV 迭代到40 次后便收斂，而Multiple Features 數(shù)據(jù)集KIMV 需要迭代60 次后才收斂。可見KIMV 具有良好的收斂性和穩(wěn)定性。

Fig.3 Convergence and performance curve of algorithm on Dermatology圖3 Dermatology 上算法的收斂和性能曲線

Fig.4 Convergence and performance curve of algorithm on Multiple Features圖4 Multiple Features上算法的收斂和性能曲線

4 結(jié)論和展望

本文針對多個視角中存在缺省樣本時傳統(tǒng)多視角聚類算法可靠性大大下降的問題，提出了基于核誘導的不完整多視角聚類算法。該方法利用核方法和非負矩陣分解技術(shù)在核空間中對所有視角學習一個共性矩陣，核空間與傳統(tǒng)歐式空間相比能提供更多信息，因此學習到的共性矩陣具有更強的表示性，同時樣本加權(quán)機制能夠?qū)⑷笔颖镜呢撁嬗绊懡档阶畹?。另外本文引入圖拉普拉斯正則化提高模型對噪聲和異常值的魯棒性。最后本文引入視角自適應加權(quán)機制獲得了最優(yōu)的視角權(quán)重劃分，進一步提高了模型的聚類效果。未來，將考慮提高模型的可解釋性，比如將模糊函數(shù)引入模型。