黃奕軒,杜世強(qiáng),,余瑤,肖慶江,宋金梅
(1.西北民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,蘭州 730030;2.西北民族大學(xué) 中國(guó)民族信息技術(shù)研究院,蘭州 730030)
隨著數(shù)據(jù)收集和存儲(chǔ)能力的提高,各領(lǐng)域已經(jīng)積累了豐富的數(shù)據(jù)資源,快速對(duì)這些數(shù)據(jù)進(jìn)行處理、分析和分類(lèi)尤為重要。聚類(lèi)[1-2]作為處理和分析數(shù)據(jù)的高效方法之一,已被廣泛應(yīng)用于機(jī)器學(xué)習(xí)、模式識(shí)別和數(shù)據(jù)挖掘等領(lǐng)域。
由于信息源的多樣性,越來(lái)越多的多視圖數(shù)據(jù)不斷涌入人們的生活,為了對(duì)多視圖數(shù)據(jù)進(jìn)行分類(lèi),一系列多視圖聚類(lèi)方法相繼被提出。多視圖聚類(lèi)通過(guò)融合多個(gè)視圖的互補(bǔ)信息和兼容信息,從而獲得更穩(wěn)定的聚類(lèi)性能。其中用于多視圖的譜聚類(lèi)算法[3-4]和K-means[5-7]算法應(yīng)用最為廣泛。與K-means聚類(lèi)相比,譜聚類(lèi)作為一種基于圖的算法,在檢測(cè)數(shù)據(jù)結(jié)構(gòu)方面有著更強(qiáng)的能力[8]。根據(jù)圖構(gòu)建方式的不同,現(xiàn)有的多視圖聚類(lèi)方法主要分為兩類(lèi):基于自表示的子空間多視圖聚類(lèi)和基于自適應(yīng)近鄰圖學(xué)習(xí)的多視圖聚類(lèi)。
基于自表示的子空間多視圖聚類(lèi)算法用剩余其他數(shù)據(jù)點(diǎn)的線(xiàn)性組合來(lái)表示某一數(shù)據(jù)點(diǎn),得到的系數(shù)矩陣即為圖矩陣,其在濾除噪聲影響的同時(shí)獲取了數(shù)據(jù)樣本的全局結(jié)構(gòu)。文獻(xiàn)[9]對(duì)表示矩陣施加低秩約束來(lái)捕獲數(shù)據(jù)樣本的全局結(jié)構(gòu)。潛在嵌入空間的多視圖聚類(lèi)模型[10]先將各視圖數(shù)據(jù)映射為共同的表示矩陣,然后再學(xué)習(xí)全局相似圖進(jìn)行譜聚類(lèi)。文獻(xiàn)[11]提出一種基于自適應(yīng)圖的子空間學(xué)習(xí)框架,通過(guò)同時(shí)學(xué)習(xí)數(shù)據(jù)的低秩表示和局部結(jié)構(gòu)來(lái)獲得子空間的最佳全局表示。多視圖低秩稀疏子空間聚類(lèi)[12]通過(guò)構(gòu)造所有視圖之間共享的親和矩陣來(lái)學(xué)習(xí)子空間表示。文獻(xiàn)[13]同時(shí)對(duì)每個(gè)視圖的子空間表示進(jìn)行聚類(lèi),為保證不同視圖之間的一致性,模型強(qiáng)制將不同視圖中的數(shù)據(jù)點(diǎn)分為同一類(lèi)。文獻(xiàn)[14]在子空間表示學(xué)習(xí)的基礎(chǔ)上提出主動(dòng)學(xué)習(xí)共識(shí)子空間的方法。文獻(xiàn)[15]將原始數(shù)據(jù)映射到低維子空間中,在低維數(shù)據(jù)中挖掘信息的同時(shí)捕獲數(shù)據(jù)的全局結(jié)構(gòu)和局部結(jié)構(gòu),從而提高了聚類(lèi)性能。但是,上述方法忽略了不同視圖的重要性,即信息量較多的視圖和信息量較少的視圖被同等對(duì)待,因此會(huì)丟失一些重要的信息。
基于自適應(yīng)近鄰圖學(xué)習(xí)的多視圖聚類(lèi)方法具有識(shí)別不同視圖的聚類(lèi)能力,其通過(guò)給每個(gè)數(shù)據(jù)點(diǎn)分配一個(gè)概率作為另一個(gè)數(shù)據(jù)點(diǎn)的鄰域來(lái)構(gòu)建一個(gè)圖,并將學(xué)習(xí)到的概率作為兩個(gè)數(shù)據(jù)點(diǎn)之間的相似性,可以有效探索數(shù)據(jù)樣本的局部結(jié)構(gòu)。文獻(xiàn)[16]提出自適應(yīng)近鄰學(xué)習(xí)方法,將歐式距離作為度量標(biāo)準(zhǔn),自適應(yīng)地構(gòu)造一個(gè)關(guān)系矩陣。文獻(xiàn)[17]采用自適應(yīng)近鄰圖學(xué)習(xí)方法構(gòu)造數(shù)據(jù)樣本的相似矩陣,然后融合相似矩陣進(jìn)行譜聚類(lèi)來(lái)獲取最終聚類(lèi)結(jié)果。之后,文獻(xiàn)[18]對(duì)上述模型又進(jìn)行了改進(jìn),將圖矩陣、圖融合和圖聚類(lèi)整合到一個(gè)框架中,以獲得整體最優(yōu)解。文獻(xiàn)[19]提出了無(wú)參數(shù)自適應(yīng)鄰域構(gòu)建無(wú)向圖的方法降低算法的復(fù)雜度。為了解決不同視圖的特征不同這一問(wèn)題,文獻(xiàn)[20]提出了一個(gè)無(wú)參數(shù)模型,可以自適應(yīng)地為相似圖分配權(quán)重。基于自適應(yīng)加權(quán)的多視圖聚類(lèi)[21]首先分別學(xué)習(xí)不同視圖的譜嵌入,然后通過(guò)譜旋轉(zhuǎn)學(xué)習(xí)到一致的聚類(lèi)結(jié)果。多圖自加權(quán)多視圖聚類(lèi)[22]利用原始數(shù)據(jù)樣本分別學(xué)習(xí)多個(gè)關(guān)系圖,然后采用自加權(quán)技術(shù)融合多個(gè)關(guān)系圖得到一個(gè)共識(shí)圖,但是他們都是從原始數(shù)據(jù)中學(xué)習(xí)圖,忽略了噪聲和離群點(diǎn)的影響,無(wú)法保證樣本之間的真實(shí)相似度。
針對(duì)上述問(wèn)題,本文提出基于特征選擇和魯棒圖學(xué)習(xí)的多視圖聚類(lèi)算法FRMC。通過(guò)特征選擇學(xué)習(xí)每個(gè)視圖的特征,利用自表示學(xué)習(xí)從多視圖數(shù)據(jù)中得到樣本的表示系數(shù)。在此基礎(chǔ)上,引入自適應(yīng)近鄰圖方法在表示系數(shù)的基礎(chǔ)上構(gòu)造魯棒圖矩陣,利用矩陣加權(quán)和得到最終的親和圖矩陣用于譜聚類(lèi)。FRMC 算法將特征選擇、噪聲去除和魯棒圖學(xué)習(xí)集成在一個(gè)框架中,從而獲得整體最優(yōu)解,通過(guò)特征選擇為不同的特征分配不同的權(quán)重,通過(guò)自適應(yīng)學(xué)習(xí)不同視圖的特征,降低高維數(shù)據(jù)并減少冗余特征,通過(guò)自表示學(xué)習(xí)濾除噪聲和離群點(diǎn)同時(shí)獲取數(shù)據(jù)樣本的全局結(jié)構(gòu),在自適應(yīng)近鄰學(xué)習(xí)構(gòu)建魯棒圖的同時(shí)保持?jǐn)?shù)據(jù)樣本的局部結(jié)構(gòu)。
在本節(jié)中,首先引入符號(hào)說(shuō)明,然后分別介紹多視圖子空間聚類(lèi)算法和自適應(yīng)近鄰圖學(xué)習(xí)方法。
為方便起見(jiàn),用X表示樣本矩陣,X的每一列表示一個(gè)樣本。本文算法中的符號(hào)說(shuō)明如表1 所示。
表1 符號(hào)說(shuō)明Table 1 Symbol description
多視圖子空間聚類(lèi)算法首先從自表示學(xué)習(xí)框架中學(xué)習(xí)各視圖表示矩陣,然后利用學(xué)習(xí)到的表示矩陣構(gòu)建拉普拉斯矩陣進(jìn)行譜聚類(lèi)。模型的一般表示形式如下[23]:
其中:Zv∈Rn×n(v=1,2,…,m),是自表示矩陣,Z的每一列zi都被認(rèn)為是樣本xi在X為字典情況下的新表示;第一項(xiàng)R(Xv,Xv Zv)=,表示重構(gòu)誤差項(xiàng);α>0 用于平衡正則化項(xiàng)?(·)。
在相似圖B上進(jìn)行譜聚類(lèi)可以得到最終的聚類(lèi)結(jié)果,其中:
其中:Sv是第v個(gè)視圖的相似矩陣,通過(guò)式(4)自適應(yīng)學(xué)習(xí)到的Sv能夠保留數(shù)據(jù)樣本的局部結(jié)構(gòu)。
本節(jié)提出了基于特征選擇和魯棒圖學(xué)習(xí)的多視圖聚類(lèi)算法(FRMC),并給出其目標(biāo)函數(shù)的優(yōu)化過(guò)程。與其他相關(guān)算法相比,F(xiàn)RMC 主要有以下3 個(gè)特點(diǎn):1)自適應(yīng)選擇不同視圖的特征,在數(shù)據(jù)降維的同時(shí)減少了噪聲和冗余特征的影響,并且在自表示矩陣的基礎(chǔ)上能自適應(yīng)地學(xué)習(xí)魯棒圖;2)同時(shí)捕獲數(shù)據(jù)樣本的全局結(jié)構(gòu)和局部結(jié)構(gòu),采用l2,1范數(shù)測(cè)量樣本噪聲能更準(zhǔn)確地揭示數(shù)據(jù)的真實(shí)分布;3)使用一種基于交替方向最小化的算法來(lái)優(yōu)化目標(biāo)函數(shù)。
考慮到原始數(shù)據(jù)通常包含高度冗余特征,筆者希望充分地利用跨多個(gè)視圖的有效特征,使得數(shù)據(jù)空間結(jié)構(gòu)變得更加清晰。因此,為了更好地揭示多視圖聚類(lèi)結(jié)構(gòu),本文將特征選擇技術(shù)應(yīng)用于聚類(lèi)算法中。文獻(xiàn)[9-15]的研究證明了多視圖子空間聚類(lèi)算法能有效地減少噪聲的影響,提高算法的魯棒性。因此,本文將特征選擇和魯棒圖學(xué)習(xí)集成到一個(gè)框架中。FRMC 算法的主要計(jì)算公式如下:
式(5)可以通過(guò)交替方向最小化(ADM)策略[25]和增廣拉格朗日乘子法(ALM)來(lái)解決。為方便求解Zv,本文引入輔助變量Qv和Jv。相應(yīng)地,問(wèn)題式(5)可以表示為:
構(gòu)造式(6)的拉格朗日函數(shù)式為:
其中:μ>0 是懲罰參數(shù);和(v=1,2,…,m)是拉格朗日乘數(shù)。為解決問(wèn)題式(7),通過(guò)固定其他變量來(lái)最小化L1,迭代地更新每個(gè)變量,更新規(guī)則如下:
1)更新Pv。固定除Pv以外的其他變量,子問(wèn)題Pv為:
根據(jù)式(4),問(wèn)題式(8)可以表示為:
構(gòu)造式(10)的拉格朗日函數(shù)式為:
2)更新Zv。固定除Zv以外的其他變量,子問(wèn)題Zv為:
式(13)是關(guān)于Zv的凸函數(shù),對(duì)Zv求導(dǎo)并將它置為0,則式(13)的封閉解為:
3)更新Ev。固定除Ev以外的其他變量,子問(wèn)題Ev為:
引用文獻(xiàn)[26]提出的方法解決上述問(wèn)題,得到解:
4)更新Jv。固定除Jv以外的其他變量,子問(wèn)題Jv為:
式(18)也是關(guān)于Jv的凸函數(shù),對(duì)Jv求導(dǎo)并將其置為0,則式(18)的解為:
5)更新Qv。固定除Qv以外的其他變量,子問(wèn)題Qv為:
為了簡(jiǎn)化符號(hào),暫時(shí)忽略視圖數(shù)v。式(20)中每個(gè)i是獨(dú)立的,通過(guò)解決以下問(wèn)題獲得Q的第i行:
通過(guò)構(gòu)造上式的拉格朗日函數(shù)式并利用KKT[27]條件得到qi的最優(yōu)解為:
其中:(·)+=max(·,0)。
6)更新Av。Lv也是Av的函數(shù),固定除Av以外的其他變量,子問(wèn)題Av為:
式(24)對(duì)于每個(gè)i是獨(dú)立的,因此,對(duì)于每個(gè)可以分別解決以下問(wèn)題:
將ai限制為k個(gè)非零項(xiàng),有aik≥0,ai,k+1≤01=1。由上述條件可得:
FRMC 算法詳細(xì)迭代更新過(guò)程如算法1 所示。
算法1FRMC
輸入多視圖數(shù)據(jù)Xv=∈?dv×n,參數(shù)α、β、γ、μ
輸出聚類(lèi)結(jié)果C
9)對(duì)親和圖矩陣A進(jìn)行譜聚類(lèi),得到聚類(lèi)結(jié)果C。
將FRMC 算法與其他算法進(jìn)行比較,驗(yàn)證其在聚類(lèi)任務(wù)上的有效性,所有實(shí)驗(yàn)均在Matlab 上進(jìn)行。
為了檢驗(yàn)算法的性能,在6 個(gè)公開(kāi)的標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行聚類(lèi)實(shí)驗(yàn),每個(gè)數(shù)據(jù)集的具體信息如表2所示。
表2 數(shù)據(jù)集信息統(tǒng)計(jì)Table 2 Information statistics of datasets
1)BBCSport 數(shù)據(jù)集主要有2 個(gè)視圖,包含了來(lái)自BBC 體育網(wǎng)站的544 份文件,分別對(duì)應(yīng)于5 個(gè)熱門(mén)領(lǐng)域發(fā)表的體育文章。
2)MSRC-v1數(shù)據(jù)集由210 張圖像和7 個(gè)類(lèi)別組成,對(duì)于1 張圖像有5 個(gè)特征向量,包括色矩、GIST、CENT、HOT 和LBP。
3)HW2 數(shù)據(jù)集由2 000 張圖像組成,10 個(gè)類(lèi)別從0 到9 個(gè)數(shù)字不等,實(shí)驗(yàn)選擇了76 個(gè)字符形狀的傅里葉系數(shù)和216 個(gè)輪廓相關(guān)特征。
4)Scene 數(shù)據(jù)集有2 688 張圖像,對(duì)于每張圖像提取了4 個(gè)不同的特征向量,包括512DGIST、432D色矩、256DHOG 和48DLBP。
5)Uci-3view 數(shù)據(jù)集由10 個(gè)類(lèi)的手寫(xiě)數(shù)字組成,每個(gè)類(lèi)有200 個(gè)不同的數(shù)字,有2 000 個(gè)數(shù)據(jù)點(diǎn)。
6)ORL 數(shù)據(jù)集是人臉數(shù)據(jù)集,由40 個(gè)不同的類(lèi)別組成,每個(gè)類(lèi)別包含10 幅在不同時(shí)間、光照、面部表情和面部細(xì)節(jié)下拍攝的不同圖像。
為驗(yàn)證算法的有效性,本文簡(jiǎn)要介紹7 種對(duì)比算法來(lái)驗(yàn)證FRMC 的性能優(yōu)勢(shì)。
1)譜聚類(lèi)(SC-best)[28]:該算法返回多個(gè)視圖中最好的聚類(lèi)結(jié)果。
2)從噪聲數(shù)據(jù)中學(xué)習(xí)魯棒圖(RGC)[7]:該算法自適應(yīng)地消除了原始數(shù)據(jù)中的噪聲和誤差,從干凈的數(shù)據(jù)中學(xué)習(xí)魯棒圖,提高了聚類(lèi)和半監(jiān)督分類(lèi)的性能。
3)基于自適應(yīng)加權(quán)的多視圖聚類(lèi)(AWP)[18]:該算法將多個(gè)不同的譜嵌入集成到一個(gè)一致的索引矩陣中。
4)多圖自加權(quán)多視圖聚類(lèi)(SwMC)[19]:該算法通過(guò)融合不同的權(quán)重圖來(lái)構(gòu)造相似圖,然后利用相似圖構(gòu)造一個(gè)具有明確塊對(duì)角結(jié)構(gòu)的拉普拉斯圖。
5)自加權(quán)多視圖學(xué)習(xí)(AMGL)[17]:該算法沒(méi)有額外的參數(shù),能夠自動(dòng)學(xué)習(xí)每個(gè)視圖的最優(yōu)權(quán)值。
6)多視圖低秩稀疏子空間聚類(lèi)(MLRSSC)[11]:該算法通過(guò)構(gòu)造所有視圖之間共享的親和矩陣來(lái)學(xué)習(xí)聯(lián)合子空間表示。
7)一致和特定的多視圖子空間聚類(lèi)(CSMSC)[12]:該算法是一種新的多視圖子空間聚類(lèi)方法,將一致性和特異性共同用于子空間表示學(xué)習(xí)。
在所有的對(duì)比算法中,RGC、AWP、SwMC 和AMGL 使用相似矩陣作為算法的輸入,并將圖學(xué)習(xí)和聚類(lèi)集成到一個(gè)框架中,而MLRSSC 和CSMSC則使用自表示系數(shù)矩陣作為算法的輸入,兩個(gè)算法都將子空間學(xué)習(xí)和聚類(lèi)集成到一個(gè)框架中。
本文使用精度(ACC)、歸一化互信息(NMI)、純度(Purity)和調(diào)整蘭德指數(shù)(ARI)這4 個(gè)指標(biāo)來(lái)評(píng)估算法的聚類(lèi)性能,指標(biāo)值越高,表示算法的聚類(lèi)性能越好,表3~表8 列出了聚類(lèi)結(jié)果,其中加粗表示最優(yōu)結(jié)果。
表3 BBCSport 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results on BBCSport dataset %
表4 MSRC-v1 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results on MSRC-v1 dataset %
表5 HW2 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 5 Experimental results on HW2 dataset %
表6 Scene 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 6 Experimental results on Scene dataset %
表7 Uci-3view 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 7 Experimental results on Uci-3view dataset %
表8 ORL 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 8 Experimental results on ORL dataset %
由表3~表8 可以看出,F(xiàn)RMC 算法在BBCSport、MSRC-v1、HW2 和ORL4 個(gè)公共數(shù)據(jù)集上都取得最佳聚類(lèi)效果。FRMC 能自適應(yīng)選擇有用的特征,有效降低冗余特征的影響,通過(guò)魯棒自表示學(xué)習(xí)獲取表示系數(shù),濾除噪聲的同時(shí)獲取數(shù)據(jù)樣本的全局結(jié)構(gòu),并與自適應(yīng)圖學(xué)習(xí)結(jié)合,可以更好地增強(qiáng)多視圖聚類(lèi)結(jié)構(gòu)。此外,魯棒圖矩陣建立在干凈的表示系數(shù)矩陣上,可以更好地揭示樣本之間的屬性。FRMC 的優(yōu)勢(shì)具體體現(xiàn)在以下4 個(gè)方面:
1)與單視圖聚類(lèi)算法SC 和RGC 相比,F(xiàn)RMC 在4 種評(píng)價(jià)指標(biāo)上聚類(lèi)性能提高了10~40 個(gè)百分點(diǎn)。FRMC 可通過(guò)學(xué)習(xí)數(shù)據(jù)樣本的全局結(jié)構(gòu)和局部結(jié)構(gòu)更好地利用多視圖信息。
2)單視圖聚類(lèi)算法RGC 在Scene 數(shù)據(jù)集上的性能優(yōu)于SwMC,這是由于RGC 構(gòu)造魯棒圖矩陣用作算法的新輸入,而SwMC 直接從原始數(shù)據(jù)中構(gòu)造相似矩陣,這表明了構(gòu)造魯棒圖的重要性。FRMC 構(gòu)造了基于自表示系數(shù)矩陣的魯棒圖,更好地提高了聚類(lèi)性能。
3)與在原始數(shù)據(jù)上構(gòu)建圖的AWP、SwMC和AMGL算法相比,F(xiàn)RMC 濾除了原始數(shù)據(jù)中的噪聲和離群點(diǎn),表現(xiàn)出更好的聚類(lèi)性能。
4)與以自表示系數(shù)矩陣為輸入的MLRSSC 和CSMSC 算法相比,F(xiàn)RMC 算法表現(xiàn)出更好的聚類(lèi)性能:ACC 提升1~20 個(gè)百分點(diǎn),NMI 提升1~10 個(gè)百分點(diǎn),純度提升5~20 個(gè)百分點(diǎn),ARI 提升2~28 個(gè)百分點(diǎn)。FRMC 通過(guò)自適應(yīng)選擇重要特征增強(qiáng)了聚類(lèi)結(jié)構(gòu),證明了數(shù)據(jù)進(jìn)行特征選擇的重要性。
綜上所述,與其他相對(duì)比算法相比,F(xiàn)RMC 可以顯著提高聚類(lèi)性能。
FRMC 的最高計(jì)算成本來(lái)自式(14)和式(19)。式(14)中的Zv和式(19)的Jv計(jì)算復(fù)雜度均為O(n3)。以數(shù)據(jù)集Scene 為例,由于其數(shù)據(jù)樣本多,計(jì)算量大,因此本文利用Woodbury 公式[29]對(duì)式(14)和式(19)求逆,將復(fù)雜度降至O(dvn2)。因?yàn)閆v在迭代過(guò)程中沒(méi)有更新,所以只需要一次求逆,故FRMC 的總時(shí)間復(fù)雜度為O(2m(dvn2))。FRMC 的存儲(chǔ)成本主要也來(lái)自Zv,由于求解Zv利用了矩陣的求逆運(yùn)算,因此存儲(chǔ)復(fù)雜度為O(n2)。表9 列出了FRMC 算法和7 種對(duì)比算法在6 個(gè)數(shù)據(jù)集上運(yùn)行10 次的平均時(shí)間。
表9 各算法在6 個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間Table 9 Running time of each algorithm on six datasets 單位:s
由表9 可以看出:基于單視圖的SC 算法運(yùn)行時(shí)間少于多視圖聚類(lèi)算法,但聚類(lèi)性能遠(yuǎn)低于多視圖聚類(lèi)算法;AMGL 算法在比較算法中運(yùn)行時(shí)間最少,但在所有數(shù)據(jù)集上聚類(lèi)性能低于FRMC 算法;與基于圖學(xué)習(xí)的RGC、AWP、SwMC 和AMGL 算法相比,F(xiàn)RMC 算法運(yùn)行時(shí)間最長(zhǎng),但是聚類(lèi)性能最好;與基于自表示學(xué)習(xí)的方法MLRSSC 和CSMSC 相比,除了在Scene 和Uci-3view 數(shù)據(jù)集上,F(xiàn)RMC 算法均得到了最好聚類(lèi)效果;此外,F(xiàn)RMC 算法在6 個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間少于MLRSSC 算法。由表9 可知,雖然提出的基于特征選擇和魯棒圖學(xué)習(xí)的多視圖聚類(lèi)算法運(yùn)行速度不是最快的,但能夠在可接受的時(shí)間范圍內(nèi)達(dá)到更好聚類(lèi)效果。
圖1 顯示了FRMC 在BBCSport 數(shù)據(jù)集上的收斂曲線(xiàn),可見(jiàn)算法經(jīng)過(guò)30 次迭代后趨于穩(wěn)定,這說(shuō)明FRMC 具有較好的收斂性。
圖1 收斂性曲線(xiàn)Fig.1 Convergence curve
利用合成數(shù)據(jù)集來(lái)驗(yàn)證算法的魯棒性,實(shí)驗(yàn)具體設(shè)置參考文獻(xiàn)[16]。實(shí)驗(yàn)使用的合成數(shù)據(jù)集是一個(gè)100×100 的矩陣,由4 個(gè)25×25 的塊矩陣對(duì)角排列組成,每個(gè)塊內(nèi)的數(shù)據(jù)表示1 個(gè)類(lèi)中2 個(gè)對(duì)應(yīng)點(diǎn)的親和度,親和度數(shù)據(jù)在0~1 的范圍內(nèi)隨機(jī)生成,而塊外的數(shù)據(jù)表示噪聲,噪聲數(shù)據(jù)在0~f的范圍內(nèi)隨機(jī)生成,f可以設(shè)置為0.5、0.6 或0.7。任意選取20 個(gè)噪聲數(shù)據(jù)點(diǎn),并將其值設(shè)置為1。
實(shí)驗(yàn)選取了2 種具有代表性的算法來(lái)驗(yàn)證FRMC 的魯棒性,如圖2 所示,圖中展示了數(shù)據(jù)噪聲為0.6 時(shí)的聚類(lèi)圖,可見(jiàn)FRMC 算法學(xué)習(xí)到的矩陣的塊結(jié)構(gòu)比其他算法更清晰。因此,F(xiàn)RMC 在捕獲數(shù)據(jù)空間的不同結(jié)構(gòu)方面表現(xiàn)得更好。
圖2 對(duì)塊對(duì)角合成數(shù)據(jù)進(jìn)行聚類(lèi)的結(jié)果Fig.2 Clustering results on the block diagonal synthetic data
FRMC 算法有α、β、γ和μ4 個(gè)參數(shù)。根據(jù)低秩表示算法得到α=,γ可以從式(28)中獲得,因此,采用交叉驗(yàn)證方法來(lái)求解參數(shù)β和μ。一般來(lái)說(shuō),通常在[0.001,1 000]范圍內(nèi)調(diào)整參數(shù),經(jīng)過(guò)大量實(shí)驗(yàn)驗(yàn)證,當(dāng)β和μ在[0.001,10]的范圍內(nèi)時(shí),效果相對(duì)較好,所以,選擇這個(gè)區(qū)間來(lái)評(píng)估算法的聚類(lèi)性能。其他7 種比較算法則均按照文獻(xiàn)中所推薦的參數(shù)范圍進(jìn)行網(wǎng)格搜索并選取最好的結(jié)果。
本文在HW2 數(shù)據(jù)集上展示FRMC 和3 種不同對(duì)算法的聚類(lèi)可視化結(jié)果(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版),同種顏色的數(shù)據(jù)點(diǎn)代表同一類(lèi),如圖3 所示。對(duì)比算法中都存在不同類(lèi)別分離不充分的情況,F(xiàn)RMC 算法使得同類(lèi)數(shù)據(jù)點(diǎn)之間的距離相對(duì)較小,不同類(lèi)之間的距離相對(duì)較大,能夠有效地將相似對(duì)象分組到同一個(gè)類(lèi)別中。
圖3 HW2 數(shù)據(jù)集上的聚類(lèi)可視化結(jié)果Fig.3 Clustering visualization results on HW2 dataset
本文提出基于特征選擇和魯棒圖學(xué)習(xí)的多視圖聚類(lèi)算法FRMC,將樣本的特征選擇、噪聲去除和魯棒圖學(xué)習(xí)集成到一個(gè)框架中,以使模型獲得整體最優(yōu)值。此外,不僅通過(guò)自適應(yīng)選擇特征和自表示學(xué)習(xí)減少冗余特征和噪聲的影響,同時(shí)還考慮多視圖數(shù)據(jù)樣本中的全局結(jié)構(gòu)和局部結(jié)構(gòu)。在6 種不同數(shù)據(jù)集上與7 種聚類(lèi)算法的實(shí)驗(yàn)結(jié)果對(duì)比,驗(yàn)證了FRMC 在揭示樣本類(lèi)別屬性方面的良好性能。后續(xù)將利用二部圖技術(shù)降低FRMC 在處理大規(guī)模數(shù)據(jù)集時(shí)的計(jì)算復(fù)雜度,同時(shí)針對(duì)每個(gè)視圖中聚類(lèi)的多樣性問(wèn)題,為每個(gè)視圖分配適當(dāng)?shù)臋?quán)重,進(jìn)一步提高算法的聚類(lèi)性能。