亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于錨點圖的低秩缺失多視圖子空間聚類

2022-02-20 12:19:32劉小蘭石宗宇葉澤慧梁勇

華南理工大學(xué)學(xué)報(自然科學(xué)版) 2022年12期

劉小蘭石宗宇葉澤慧梁勇

（華南理工大學(xué) 數(shù)學(xué)學(xué)院，廣東廣州 510640）

多視圖數(shù)據(jù)是對同一個物體不同方面的特征的描述，如一份新聞文稿，它有多個不同的版本，這些不同版本的報道形成一個多視圖數(shù)據(jù)集。多視圖聚類算法則聚焦于如何利用物體的多視圖信息來獲得更好的聚類結(jié)果［1-3］。在實際任務(wù)中，受限于各種因素，完整的數(shù)據(jù)一般難以獲取，對缺失多視圖數(shù)據(jù)進(jìn)行聚類產(chǎn)生了缺失多視圖聚類問題。

目前常見的缺失多視圖聚類算法分為3類：基于非負(fù)矩陣分解的方法［4-7］、基于深度學(xué)習(xí)的方法［8］、基于譜聚類的方法?；诜秦?fù)矩陣分解的方法通常利用非負(fù)矩陣分解（NMF）來獲得共同表示。Li等［4］利用NMF和L1正則化來學(xué)習(xí)數(shù)據(jù)共同的潛在空間，提出了部分多視圖聚類（PVC）算法，但它只能解決兩個視圖的情形。Shao等［5］通過加權(quán)的方式將完整多視圖中的NMF拓展到缺失多視圖，提出了多視圖不完全聚類（MIC）算法。Hu 等［7］通過半NMF和L2，1正則化將PVC 算法拓展為雙對齊缺失多視圖聚類（DAIMC）算法。Hu 等［9］針對常見NMF 方法中無法處理大規(guī)模數(shù)據(jù)的問題，提出了一步缺失多視圖聚類（OPIMC）算法。以上基于NMF的算法都取得了很好的效果，但它們在處理負(fù)值數(shù)據(jù)和刻畫數(shù)據(jù)的潛在結(jié)構(gòu)方面仍有不足。基于譜聚類的方法根據(jù)聚類圖的構(gòu)造方法不同又分為兩種：①通過學(xué)習(xí)數(shù)據(jù)點的相似圖進(jìn)行聚類，其中最具代表性的是基于子空間聚類的方法。Wen 等［10］利用擴維的方法對齊缺失多視圖數(shù)據(jù)，以解決不同視圖相似矩陣維度不一致的問題，再根據(jù)一致性原則對對齊后的相似矩陣進(jìn)行譜聚類。文獻(xiàn)［11］采用了與文獻(xiàn)［10］相同的對齊相似矩陣的策略，同時引入流形正則化，提出了一致性指導(dǎo)下的缺失多視圖譜聚類（CGIMVSC）算法。文獻(xiàn)［12］針對現(xiàn)有方法大多聚焦于成對視圖之間的相似性而忽略了樣本中的高階關(guān)聯(lián)性，通過引入三階張量來挖掘缺失多視圖中的子空間結(jié)構(gòu)，提出了高階（HCP-IMSC）算法。②通過直接計算數(shù)據(jù)點之間的度量來得到相似矩陣并進(jìn)行聚類，其中最具代表性的是通過構(gòu)造錨點圖的快速算法［13］。Kang等［14］將構(gòu)造錨點圖與二向圖優(yōu)化相結(jié)合，挖掘錨點與數(shù)據(jù)點的潛在結(jié)構(gòu)，提出了基于多視圖結(jié)構(gòu)圖學(xué)習(xí)（MSGL）。Guo等［15］將完整多視圖中基于錨點圖構(gòu)造的快速算法推廣到缺失多視圖，提出了基于錨點圖的缺失多視圖聚類（APMC）算法。APMC 算法利用成對視圖中共有的數(shù)據(jù)來選取錨點集，取得了不錯的聚類效果。由于缺少了對數(shù)據(jù)整體結(jié)構(gòu)的刻畫，故APMC算法的性能較其他算法仍有差距。

為了充分利用APMC算法的高效性，同時提升其性能，本文提出了一種基于錨點圖的低秩缺失多視圖子空間聚類（ALIMSC）算法。首先利用APMC 算法的錨點圖得到數(shù)據(jù)的基準(zhǔn)相似矩陣，為了進(jìn)一步提升其性能，同時考慮每個視圖的低秩自表示矩陣，本文通過升維對齊維度后進(jìn)行加權(quán)融合，得到相似矩陣，從而使兩個相似矩陣趨于共同的相似矩陣；然后以最終優(yōu)化得到的相似矩陣為聚類圖進(jìn)行譜聚類；最后在幾個公開的數(shù)據(jù)集上進(jìn)行實驗，以驗證本文算法的有效性。

1 相關(guān)工作

1.1 問題描述

設(shè)X={X(1)，X(2)，…，X(v)，…，X(V)}（v=1，2，…，V）為待聚類的缺失多視圖數(shù)據(jù)集，它包含了V個視圖，第v個視圖的數(shù)據(jù)矩陣為X(v)= [，，…，]∈Rdv×nv，nv為視圖Xv中樣本的個數(shù)，dv為樣本的維度；Cv∈Rnv×nv，為第v個視圖的自表示相似矩陣，代表了視圖的子空間結(jié)構(gòu)；ψ是元素全為1 的列向量。設(shè)實例總數(shù)為n，對于缺失多視圖子空間聚類，每個視圖中樣本個數(shù)小于等于總的實例個數(shù)，即nv≤n（v=1，2，…，V）。該問題的最終任務(wù)是在獲得每個子空間的結(jié)構(gòu)的同時獲得數(shù)據(jù)的聚類結(jié)果。

1.2 缺失多視圖子空間聚類

完整數(shù)據(jù)的多視圖子空間聚類算法可用如下框架進(jìn)行描述［3］：

式中，α為平衡系數(shù)，R(C1，C2，…，CV)為對每個視圖的自表示矩陣進(jìn)行約束的正則項。通過正則項來學(xué)習(xí)一致性矩陣，并將它應(yīng)用于譜聚類得到最終的聚類結(jié)果。

對于缺失多視圖子空間聚類問題，第v個視圖上學(xué)習(xí)到的相似矩陣的維數(shù)是nv×nv，不同視圖的nv可能不相等，因此無法直接通過加權(quán)融合的方法將其集成。IMSC_AGL［10］使用指示矩陣P(v)∈{0，1}nv×n記錄每個實例在對應(yīng)視圖出現(xiàn)與否，當(dāng)實例在該視圖中有樣本時取值為1，否則為0。第v個視圖的拉普拉斯矩陣為Lv=Dv-Cv，其中Dv為對角陣，對角線上的元素為Cv的每行元素之和。通過變換P(v)TLvP(v)將Lv擴維為n×n矩陣，達(dá)到維數(shù)對齊的目的。對相似矩陣Cv添加低秩性和一致性正則化，得到IMSC_AGL的模型為

式中：Fv∈Rn×c為正交矩陣，每行包含了數(shù)據(jù)的聚類信息；c為聚類數(shù)；Ev∈Rdv×nv，為噪聲項；U∈Rn×n包含了所有視圖的共有信息，表現(xiàn)為視圖的一致性。

1.3 APMC算法

APMC 算法［15］將視圖兩兩分為一組，每組選取兩個視圖上都存在的數(shù)據(jù)作為錨點集，如圖1所示（圖中展示的是k=2 的情形，視圖1 中缺失了實例5和實例6，視圖2中缺失了實例1）。對每一個實例，計算與其距離最近的k個錨點的高斯距離，以此得到n個實例與錨點之間的錨點圖Z（v）為

圖1 APMC中錨點圖的構(gòu)造方法（k=2）Fig.1 Construction method of anchor graph in APMC （k=2）

式中：Z(v)∈Rnv×m，表示第v個視圖中實例和錨點之間的相似性；D( )·，· 是某種距離度量；σ是參數(shù)，通常設(shè)置為1；iv表示那些距離最近的k個錨點的指標(biāo)。

在得到所有的Z（v）之后，APMC 算法通過圖重構(gòu) 的方法將Z（v）重構(gòu) 為nv×nv的相似矩陣Cv，即第v個視圖中樣本點之間的相似圖。然后根據(jù)每一個實例在不同視圖中的缺失與否，將得到的v個相似圖加權(quán)融合，得到最終的n×n的相似圖，即所有實例之間的相似圖，并將它應(yīng)用于最終的譜聚類。

2 ALIMSC算法

APMC 算法有不錯的聚類性能，但它缺乏對數(shù)據(jù)整體結(jié)構(gòu)的刻畫。為了充分發(fā)揮APMC算法的優(yōu)勢，同時考慮低秩性對數(shù)據(jù)整體結(jié)構(gòu)的刻畫，本文提出了一種基于錨點圖的低秩缺失多視圖子空間聚類算法ALIMSC。首先利用APMC 算法生成基準(zhǔn)相似矩陣，以得到一個較好的初始解；然后加入子空間聚類框架中，將基準(zhǔn)相似矩陣與每個視圖的低秩自表示矩陣對齊升維后加權(quán)融合，得到新的相似矩陣并進(jìn)行集成，利用集成后的聚類圖進(jìn)行譜聚類得到最終聚類結(jié)果。

2.1 算法描述

設(shè)S∈Rn×n為APMC 算法生成的錨點圖（相似矩陣），APMC 算法是通過直接計算樣本點和錨點的相似矩陣來獲得聚類圖的，但由于對數(shù)據(jù)的全局結(jié)構(gòu)欠考慮，故性能有待提升。假設(shè)第v個視圖的低秩自表示矩陣為Cv∈Rnv×nv，以往的子空間聚類方法主要采用同時優(yōu)化一致性項和自表示矩陣來實現(xiàn)一致性原則，即同時優(yōu)化式（2）中的U和Cv。同時優(yōu)化這兩個對象容易使得一致性項落入性能較差的局部最優(yōu)解中，因此使用一個有足夠高性能的預(yù)設(shè)圖來作為一致性項，只單獨優(yōu)化Cv是一個比較好的選擇，即

式中，w=[w1，w2，…，wi，…，wV]，wv∈[0，1]為對應(yīng)視圖的權(quán)值。使用固定的一致性項S作為基準(zhǔn)而只優(yōu)化Cv的策略能夠讓wvP(v)TCvP(v)落在S的附近，這樣wvP(v)TCvP(v)的性能也能夠得到保障，因此能夠避免同時優(yōu)化時容易落入局部最優(yōu)的問題。

但在得到了一致性項之后，還不能直接將它應(yīng)用于譜聚類之中。注意到wvP(v)TCvP(v)是維度對齊后相似矩陣的加權(quán)融合，而這樣得到的矩陣在結(jié)構(gòu)上具有一些不好的性質(zhì)，如圖2所示，視圖1中缺失了實例7、8、9、10，視圖2中缺失了實例3、4、5、6，圖中的空白格表示缺失實例在對齊時所對應(yīng)的那些全零向量。從圖2可知，在融合后的相似矩陣中，缺失的實例之間所對應(yīng)的系數(shù)都為0。當(dāng)缺失率不斷增大時，融合后的相似矩陣對缺失樣本的刻畫越來越少，大多數(shù)保留下來的都是單個視圖的結(jié)構(gòu)信息。使用這樣的圖進(jìn)行聚類會極大地降低聚類結(jié)果的正確率。

為了解決上述問題，本文引入變量Z∈Rn×n作為最終的相似圖，它同時繼承S和wvP(v)TCvP(v)中的聚類信息，即

接下來將模型（5）與IMSC_AGL 中所使用的低秩表示模型［16］進(jìn)行結(jié)合。具體的方法是使用矩陣的核范數(shù)以及自表示重構(gòu)誤差來對每個Cv進(jìn)行約束，然后加入模型（5）中一起優(yōu)化，最終得到所提出的ALIMSC算法的模型：

式中，β1、β2、β3為平衡系數(shù)，對Cv和Z施加的標(biāo)準(zhǔn)化約束能提升相似圖的質(zhì)量并且避免平凡解的產(chǎn)生。在求得最優(yōu)解Z之后對它進(jìn)行譜聚類，可得到最終的聚類結(jié)果。

與現(xiàn)有的缺失多視圖子空間聚類算法相比，ALIMSC算法具有以下特點：

（1）ALIMSC算法利用預(yù)先構(gòu)造的錨點圖來達(dá)成一致性，而非使用共同優(yōu)化的策略，這樣能有效地限制最終結(jié)果的范圍，使得模型的性能有較好的保障；

（2）ALIMSC 算法通過對模型施加適當(dāng)?shù)募s束，將基于子空間表示的相似圖和基于高斯距離生成的錨點圖進(jìn)行融合，使用錨點圖來填補自表示相似圖中關(guān)于缺失樣本的信息，從而構(gòu)造出一個更優(yōu)的聚類圖。

2.2 模型求解

本文運用交替方向乘子法（ADMM）［17］來求解優(yōu)化問題（6）。引入輔助變量Ev、Dv和Z'，將問題（6）改寫為如下形式：

對應(yīng)的增廣拉格朗日函數(shù)為

1）固定其他變量，更新Cv，即求解優(yōu)化問題

利用奇異值閾值算子（SVT）［18］可得其解

式中，Π為SVT算子，Πβ(Y)=Uπβ(Σ)VT，Y=UΣVT是Y的SVD 分解，πβ(Σ) =(Σ-β)+是軟閾值算子，t+= max(0，t)。

2）固定其他變量，更新Dv，即

該問題可由迭代算法［19］進(jìn)行求解。

3）固定其他變量，更新Ev，即

令式（12）對Ev的偏導(dǎo)數(shù)為0，得到

由P(v)P(v)T=I可得Ev的解析解

4）固定除wv以外的所有變量，更新w，則問題化為

記Mv=P(v)TEvP(v)，則上述問題可以化為

這是一個關(guān)于w的二次規(guī)劃問題［20］，可以使用Matlab中的二次規(guī)劃函數(shù)Quadprog進(jìn)行求解。

5）固定其他變量，更新Z，即

令其對Z的偏導(dǎo)數(shù)為0，得到

化簡可得Z的解析解

6）固定其他變量，更新Z'，即

此問題和問題（11）是同樣的優(yōu)化問題，因此使用求解Dv子問題的方法即可得到結(jié)果。

7）更新拉格朗日乘子和罰參數(shù)

式中，ρ＞ 1，u0是常數(shù)。

ALIMSC算法描述如下：

在得到了聚類圖Z之后，對Z進(jìn)行譜聚類，可得到最終的聚類結(jié)果。

2.3 算法復(fù)雜度分析

求解ALIMSC模型的時間消耗主要來自于：①解問題（9）的SVD 分解操作，時間復(fù)雜度為O()；②解問題（12）的矩陣求逆，時間復(fù)雜度為O()；③解問題（15）的二次規(guī)劃求解，時間復(fù)雜度為O(V3)；④使用迭代算法［19］求解問題（11）和（20），時間復(fù)雜度分別為O()和O(t2n2)，t1、t2分別是兩個問題所需要的迭代次數(shù)；⑤對Z進(jìn)行最終的譜聚類，時間復(fù)雜度為O(n3)。因此算法總的時間復(fù)雜度為為整個算法的迭代次數(shù)。

3 實驗分析

將本文ALIMSC 算法與經(jīng)典的PVC［4］、MIC［5］、DAIMC［7］和最近提出的OPIMC［9］、HCP-IMSC［12］、IMSC_AGL［10］和APMC［15］算法在多個公開數(shù)據(jù)集上進(jìn)行實驗比較。實驗采用Matlab R2021a，在Intel Core i7-11800H 2.3 GHz CPU、16 GB RAM計算機上實現(xiàn)。

3.1 實驗數(shù)據(jù)集

選用的6 個多視圖數(shù)據(jù)集分別是3Source、USPS-MNIST、UCI Digit、BBCSports、ORL和WebKB，詳細(xì)的信息如表1所示。

表1 數(shù)據(jù)集描述Table 1 Descriptions of datasets

3Source［21］數(shù)據(jù)集來源于BBC、Reuters、Guardian上的948篇新聞報道，其中包括了416個新聞內(nèi)容。

遵循文獻(xiàn)［15］中的做法，將USPS［22］和MNIST［23］中的每個數(shù)字，隨機選取50個樣本作為對應(yīng)視圖中的數(shù)據(jù)，以此組成一個視圖數(shù)為2、實例個數(shù)為500的二視圖數(shù)據(jù)集USPS-MNIST。

UCI Digit［24］數(shù)據(jù)集共由6 個視圖組成，每個視圖都由200×10 個數(shù)據(jù)樣本組成，遵從文獻(xiàn)［25］中的設(shè)定，從中選取字母的傅里葉系數(shù)和輪廓相關(guān)性這兩個視圖作為二視圖Digit數(shù)據(jù)集。

BBCSports［26］數(shù)據(jù)集收錄了544 份BBC 體育的報道，每份報道分為兩個部分，代表了數(shù)據(jù)集中的兩個視圖。所有的報道最終被歸結(jié)為5個大類，代表了5個類別。

ORL數(shù)據(jù)集是常見的人臉識別數(shù)據(jù)集，它由4個視圖組成，數(shù)據(jù)樣本的維度分別為512、59、864、254。實驗中選取數(shù)據(jù)集的前3個視圖組成1個三視圖數(shù)據(jù)集。

WebKB［4］數(shù)據(jù)集包含了4 個大學(xué)中共5 個類別的網(wǎng)頁信息。這里選取其中的203條數(shù)據(jù)，它們包含了其中的4 個類別，每個類別中的數(shù)據(jù)由1 個內(nèi)容視圖和2 個引用視圖的數(shù)據(jù)組成，最終組成1 個三視圖的多視圖數(shù)據(jù)集。

3Source 數(shù)據(jù)集是一個缺失多視圖數(shù)據(jù)集，因此可以直接使用它進(jìn)行實驗。其他幾個數(shù)據(jù)集都是完整的多視圖數(shù)據(jù)集，因此采取隨機刪去其中一部分樣本的方法來構(gòu)造它們對應(yīng)的缺失多視圖數(shù)據(jù)集。具體地，對于每個數(shù)據(jù)集，給定0.1、0.3、0.5、0.7 和0.9 的缺失率（PDR，rPD），隨機刪除對應(yīng)比例的樣本來構(gòu)造缺失數(shù)據(jù)集。

3.2 對比算法的參數(shù)設(shè)置與評價指標(biāo)

使用網(wǎng)格法來尋找最優(yōu)的參數(shù)。對于PVC的λ、MIC和DAIMC的α、β，從｛10-5，10-4，10-3，10-2，10-1，1，10，102，103，104，105｝中遍歷選取。對于OPIMC的α，從｛10-4，10-3，10-2，10-1，1，10，102，103｝中遍歷選取。對于HCP-IMSC 的α和β，從｛10-3，10-2，10-1，0.5，1，2，3，5，10，50｝中遍歷選取。對于IMSC_AGL，λ1從｛10-2，10-1，1，10，102｝中遍歷選取，λ2和λ3從｛10-4，10-3，10-2，10-1，1，10，102，103，104｝中遍歷選取。在APMC算法中，對每個數(shù)據(jù)集分別選取2～30個錨點進(jìn)行實驗，取性能最高的結(jié)果作為APMC算法的實驗結(jié)果。對于ALIMSC 算法，選取APMC 算法中最高性能的結(jié)果作為輸入的錨點圖S，β1、β2、β3在UCI-Digit 數(shù)據(jù)集上從｛10-1，1，10，102，103｝中遍歷選取，而在其他數(shù)據(jù)集上則從｛10-2，10-1，1，10，102，103｝中遍歷選取，選取最優(yōu)的參數(shù)組合。采用聚類準(zhǔn)確率（ACC）和標(biāo)準(zhǔn)化互信息量（NMI）［27］兩個指標(biāo)來評價聚類結(jié)果，指標(biāo)值越高代表聚類效果越好。

基于非負(fù)矩陣分解的方法PVC、MIC 和DAIMC，取10 次運行的ACC 和NMI 的平均值作為最終的實驗結(jié)果。對于OPIMC，參照文獻(xiàn)［9］的設(shè)定，直接輸出最終聚類結(jié)果的ACC 和NMI。對于HCP-IMSC，參照文獻(xiàn)［12］的設(shè)定，取20 次譜聚類結(jié)果的ACC 和NMI 的平均值作為最終聚類結(jié)果。對于APMC、IMSC_AGL和ALIMSC，首先得到最終的聚類圖，然后對其進(jìn)行10 次譜聚類，取ACC 和NMI的平均值作為最終結(jié)果。

3.3 實驗結(jié)果分析

8種算法在6個數(shù)據(jù)集上的實驗結(jié)果如圖3、表2和表3 所示。PVC 是針對兩個視圖的算法，因此在三視圖數(shù)據(jù)集上沒有實驗結(jié)果。從圖3、表2和表3可以看出，與基于錨點圖的APMC算法相比，除了在BBCSports數(shù)據(jù)集上當(dāng)缺失率為0.1、0.3、0.5時出現(xiàn)了持平的情況外，ALIMSC 算法在其他情形下的ACC和NMI平均值均比APMC算法高出2個百分點以上，最高的甚至達(dá)到了10個百分點。

表2 8種算法在USPS-MNIST、UCI Digit數(shù)據(jù)集上的聚類結(jié)果Table 2 Clustering results of eight algorithms on USPS-MNIST and UCI Digit datasets

表3 8種算法在3Source上的聚類結(jié)果Table 3 Clustering results of eight algorithms on 3Source dataset

圖3 8種算法在WebKB、ORL、BBCSports數(shù)據(jù)集上的實驗結(jié)果Fig.3 Experimental results of 8 algorithms on WebKB， ORL and BBCSports datasets

與經(jīng)典的PVC 和MIC 算法相比，ALIMSC 算法的性能提升是明顯的。在3Source、WebKB 和UCI Digit數(shù)據(jù)集上，ALIMSC 的ACC 和NMI均高出PVC和MIC 算法10 個百分點以上。與DAIMC 算法相比，ALIMSC 算法在WebKB 和ORL 數(shù)據(jù)集上的ACC 和NMI普遍能高出5個百分點，最高則達(dá)到了10 個百分點；而在剩余的4 個數(shù)據(jù)集上，ALIMSC算法與DAIMC 的差距被迅速拉大，最大的性能差距甚至達(dá)到了30 個百分點。與快速算法OPIMC 相比，ALIMSC 算法除了在0.7 缺失率下的WebKB 數(shù)據(jù)集上的ACC 和NMI 只有2～3 個百分點的差距外，在其余數(shù)據(jù)集上的性能都有大幅度的提升。

對比IMSC_AGL 算法，ALIMSC 算法在大多數(shù)據(jù)集上的性能提升顯著。在3Source 和UCI Digit 數(shù)據(jù)集上，ALIMSC 算法的性能明顯優(yōu)于IMSC_AGL算法。在USPS-MNIST、WebKB、ORL 數(shù)據(jù)集上，當(dāng)缺失率小于0.9 時，ALIMSC 算法在0.3 缺失率下的WebKB 數(shù)據(jù)集上的ACC 和在0.7 缺失率下的ORL 數(shù)據(jù)集上的NMI 僅比IMSC_AGL 低1 個百分點左右，除了這兩個特殊的缺失情形外，ALIMSC 在這3 個數(shù)據(jù)集上的性能都要優(yōu)于IMSC_AGL；當(dāng)缺失率達(dá)到0.9 時，ALIMSC 算法的性能不如IMSC_AGL 算法。在BBCSports 數(shù)據(jù)集上，ALIMSC和IMSC_AGL 算法的性能持平，在0.1 和0.3 缺失率的情形下ALIMSC算法的性能占優(yōu)，在0.7和0.9缺失率的情況下IMSC_AGL 算法的性能占優(yōu)，在0.5 缺失率的情形下兩種算法的性能基本持平。ALIMSC 算法在高缺失率情況下性能欠佳的原因在于，高缺失率的數(shù)據(jù)集中所包含的大量空白樣本充當(dāng)了噪聲項的作用，而ALIMSC算法中并沒有考慮到噪聲的影響，因此更具魯棒性的IMSC_AGL算法在高缺失率的數(shù)據(jù)集上的性能要略優(yōu)于ALIMSC算法。

與HCP-IMSC算法相比，ALIMSC算法在USPSMNIST、UCI-Digit和WebKB數(shù)據(jù)集上的性能是最優(yōu)的；而在BBCSports數(shù)據(jù)集上，ALIMSC算法在0.1、0.3、0.9缺失率下的性能優(yōu)于HCP-IMSC 算法，在0.5、0.7 缺失率下兩種算法的性能基本持平。在3Source數(shù)據(jù)集上，ALIMSC算法在3個二視圖情形下的ACC 分別高出HCP-IMSC 算法5.3、1.7和5.9個百分點，NMI則分別高出8.0、1.6、10.7個百分點；在三視圖情形下兩種算法的ACC 持平，而ALIMSC算法的NMI則低于HCP-IMSC算法1.4個百分點。在ORL數(shù)據(jù)集上，ALIMSC算法的性能則落后于HCPIMSC算法。經(jīng)分析發(fā)現(xiàn)，HCP-IMSC算法引入了張量來刻畫數(shù)據(jù)的結(jié)構(gòu)，而ALIMSC算法是處于矩陣的層次上考慮成對視圖間的關(guān)系，因此HCP-IMSC 算法在處理三視圖圖像數(shù)據(jù)時有明顯的優(yōu)勢。

3.4 收斂性分析

圖4 ALIMSC 算法在BBCSports（rPD=0.1）、ORL（rPD=0.9）數(shù)據(jù)集上的收斂性Fig.4 Convergence of ALIMSC algorithm on BBCSports（rPD=0.1） and ORL（rPD=0.9） datasets

3.5 參數(shù)敏感性分析

選用0.9缺失率的UCI Digit數(shù)據(jù)集進(jìn)行實驗。β1分別固定為｛0.1，1，10，100，1 000｝，ALIMSC算法的ACC隨β2、β3的變化如圖5所示。從圖中可以看到，在固定β1的情況下，當(dāng)β2＞β3時，ALIMSC的ACC性能較差；當(dāng)β2≤β3時，ALIMSC的ACC性能比前一種情況高出很多，并且具有很好的穩(wěn)定性。特別地，當(dāng)β2=β3時，ALIMSC的ACC性能往往能達(dá)到同樣β1下的性能最高值。因此在實際的模型中，選取一個比β2大的β3，再對β1進(jìn)行遍歷，則能夠在保證模型對參數(shù)的變化保持穩(wěn)定的同時獲取一個較高的ACC性能。

圖5 ALIMSC算法在UCI Digit（rPD=0.9）數(shù)據(jù)集上的參數(shù)敏感性Fig.5 Sensibility of parameters in ALIMSC algorithm on UCI Digit （rPD=0.9） dataset

3.6 對聚類圖的分析

對ALIMSC 模型中最終生成的聚類圖Z進(jìn)行分析，主要從引入Z的影響和Z的質(zhì)量兩個方面展開分析。使用N-ALIMSC代表如下模型：

圖6 ALIMSC 和N-ALIMSC 算法在UCI Digit 和USPS-MNIST數(shù)據(jù)集上的ACC對比Fig.6 Comparison of ACC between ALIMSC and N-ALIMSC algorithms on UCI-Digit and USPS-MNIST datasets

圖7 3Source數(shù)據(jù)集上兩種算法生成的聚類圖對比Fig.7 Comparison of clustering graphs generated by two algorithms on 3Source dataset

4 結(jié)論

本文提出了一種基于錨點圖和低秩自表示的缺失多視圖子空間聚類算法ALIMSC。首先利用APMC 算法生成的錨點圖作為基準(zhǔn)相似矩陣；然后對每個視圖的低秩自表示矩陣進(jìn)行升維對齊后加權(quán)融合，得到所有數(shù)據(jù)間的自表示相似矩陣；最后將兩種相似矩陣進(jìn)行結(jié)合得到最終的聚類圖，并對其進(jìn)行譜聚類，得到最終的聚類結(jié)果。ALIMSC 算法不僅在APMC 算法的基礎(chǔ)上提升了其性能，還利用其高效性緩解了優(yōu)化方法容易落入較差的局部最優(yōu)解的問題。實驗結(jié)果表明：ALIMSC 算法的聚類性能優(yōu)于經(jīng)典的算法和APMC算法，總體上也優(yōu)于最近兩年提出的IMSC_AGL算法。未來將圍繞ALIMSC 算法的魯棒性進(jìn)行研究，以解決其高缺失率下聚類性能下降的問題。如何設(shè)計圖之間的度量，使其能夠同時利用錨點圖和自表示相似圖之間的結(jié)構(gòu)信息，也是一個值得深入研究的問題。

華南理工大學(xué)學(xué)報(自然科學(xué)版)2022年12期

華南理工大學(xué)學(xué)報(自然科學(xué)版)的其它文章: 表面肌阻抗混合信號的盲源分離電特性提取方法; 一種多尺度輕量級腦膠質(zhì)瘤圖像分割網(wǎng)絡(luò); 基于SiGe 工藝的207～215 GHz 工作帶寬的緊湊型雙向放大器; 無人機聲學(xué)定位技術(shù)綜述; 基于深度壓縮感知的波束空間信道估計算法; 水聲通信中稀疏信道均衡算法優(yōu)化