吳 峰, 劉 改, 劉詩儀
(西安工程大學(xué) 計算機科學(xué)學(xué)院, 西安 710600)
聚類分析是數(shù)據(jù)挖掘和人工智能領(lǐng)域中一種重要的數(shù)據(jù)處理技術(shù), 其目的是根據(jù)未標記的數(shù)據(jù)點的內(nèi)在相似性, 將其劃分為相應(yīng)的簇[1]. 聚類分析作為無監(jiān)督學(xué)習中的一項基本任務(wù), 在圖像處理、數(shù)據(jù)挖掘等眾多領(lǐng)域具有廣泛的應(yīng)用前景. 傳統(tǒng)的聚類方法包含子空間聚類[1]、譜聚類[1]和K-means 聚類[2]等. 近年來, 也有學(xué)者提出基于深度學(xué)習的聚類方法, 但目前這類方法通常用于處理傳統(tǒng)的單視角數(shù)據(jù). 多視角數(shù)據(jù)對象由多個視角的數(shù)據(jù)實例組成, 不同視角間存在一致性和互補性關(guān)系, 僅直接采用傳統(tǒng)的單視角聚類方法, 無法有效挖掘多視角數(shù)據(jù)所包含的豐富信息. 因而,近年來出現(xiàn)了一些多視角聚類方法. 其中Wang 等人[3]考慮到不同視角的權(quán)重問題, 提出一種基于圖的多視角聚類算法(GMC), 該方法首先將每個視角的數(shù)據(jù)矩陣轉(zhuǎn)換為由相似度圖矩陣構(gòu)成的圖矩陣, 其次將它們進行融合生成統(tǒng)一的圖矩陣. GMC 自動為每個視角分配權(quán)重, 共同學(xué)習每個視角的圖矩陣和融合圖, 并在融合后直接生成最終的簇. Tang 等人[4]提出基于聯(lián)合潛在表示和相似性學(xué)習的多視角聚類方法(LALMVC),用于解決相似性矩陣無法有效表示數(shù)據(jù)內(nèi)在幾何結(jié)構(gòu)與數(shù)據(jù)間鄰域關(guān)系的問題. LALMVC 首先學(xué)習各視角共享數(shù)據(jù)的潛在表示, 然后在數(shù)據(jù)的潛在表示中利用流形學(xué)習自適應(yīng)地獲得相似性矩陣, 從而較好描述數(shù)據(jù)幾何關(guān)系. 由于多視角的一致性與特定性通常無法共同用于子空間表示的學(xué)習過程, Luo 等人[5]提出一致與特定多視角子空間聚類方法(CSMSC). 該方法使用一個共享的一致性表示與一組特定性表示描述多視角自表示屬性. 其中一致性用于描述所有視角間的共同特性, 而特定性用于捕獲每個視角的內(nèi)在差異. Zheng等人[6]通過挖掘局部和全局圖信息并將其融合, 用于約束子空間表示學(xué)習過程. 由于該方法缺乏對自表達系數(shù)矩陣的監(jiān)督過程, 不能學(xué)到很好的特征表示. 因此可以使用聚類標簽監(jiān)督自表達模塊的訓(xùn)練, 以獲得更好的聚類效果.
基于上述問題, 本文提出一種基于圖信息的自監(jiān)督子空間聚類方法, 用來自監(jiān)督式地挖掘多視角數(shù)據(jù)的潛在圖信息. 本文的主要貢獻包含: (1)通過添加圖正則化項獲得更好的潛在空間表示; (2)通過在目標函數(shù)中添加自監(jiān)督規(guī)范化項, 實現(xiàn)聚類標簽對自表達系數(shù)學(xué)習過程的監(jiān)督.
子空間聚類旨在從多個子空間組成的數(shù)據(jù)中揭示固有的簇結(jié)構(gòu). 現(xiàn)有的子空間聚類方法主要集中于構(gòu)造好的自表達系數(shù)矩陣, 然后學(xué)習良好的親和矩陣并進行譜聚類, 其中具有代表性的方法包括深度子空間聚類(DSCN)[7]、稀疏子空間聚類(SSC)[8]和超完全深度子空間聚類(ODSC)[9]. DSCN 設(shè)計一種新的無監(jiān)督子空間聚類深度神經(jīng)網(wǎng)絡(luò). 該架構(gòu)建立在深度自編碼器上, 非線性地將輸入數(shù)據(jù)映射到潛在空間. 在編碼器和解碼器之間引入一種新的自表達層模擬在傳統(tǒng)子空間聚類中被證明有效的“自表達性”特性. SSC 通過對自表達系數(shù)矩陣添加L1范數(shù), 保證了自表達系數(shù)矩陣的稀疏性. 該方法在處理噪聲和缺失數(shù)據(jù)方面也起到了重要作用. ODSC 首先融合不完全和過完全的自動編碼器網(wǎng)絡(luò)的特征, 然后將它們通過自表達層提取一個更有意義和更魯棒的輸入數(shù)據(jù)表示進行聚類.
傳統(tǒng)的單視角子空間聚類處理多視角數(shù)據(jù)只是進行簡單的特征拼接, 容易造成維度災(zāi)難等問題. 多視角子空間聚類以單視角子空間聚類為基礎(chǔ), 分別處理每個視角的特征. 在互補性原則和一致性原則[10]的輔助下, 多視角子空間聚類建立不同視角間的聯(lián)系并進行信息交互, 克服了單視角子空間聚類劃分多視角數(shù)據(jù)的問題. 潛在多視角子空間聚類(LMSC)[11]從多個視角探索潛在的互補信息, 利用多個視角的互補性, 潛在表示比每個視角更全面地描述數(shù)據(jù), 從而使子空間表示更準確和穩(wěn)健. 多視角深度子空間聚類(MDSC)[12]由兩個子網(wǎng)絡(luò)組成, 且分別完成所有視角的公共自表示矩陣和特定視角的自表示矩陣的學(xué)習. 該方法通過引入希爾伯特·施密特獨立標準作為多樣性正則化項,將每個視角的自表示矩陣與公共的自表示矩陣對齊,從而取得了較好的聚類效果.
監(jiān)督學(xué)習和無監(jiān)督學(xué)習是機器學(xué)習兩種基本的學(xué)習范式, 而自監(jiān)督學(xué)習是使用無標注數(shù)據(jù)自我監(jiān)督的方式開展學(xué)習, 其歸類于無監(jiān)督學(xué)習的范疇. 自監(jiān)督學(xué)習[13]的思想較為簡單, 即輸入的無監(jiān)督數(shù)據(jù)通過數(shù)據(jù)本身的結(jié)構(gòu)或者特性, 構(gòu)造偽標簽(pseudo label)出來.有了標簽以后就可以類似監(jiān)督學(xué)習一樣進行訓(xùn)練. 近年來, 有學(xué)者試圖將自監(jiān)督學(xué)習與多視角子空間聚類相結(jié)合, 獲得構(gòu)造的偽標簽后對整體網(wǎng)絡(luò)進行訓(xùn)練.自監(jiān)督卷積子空間聚類網(wǎng)絡(luò)(S2ConvSCN)[14]通過聚類標簽監(jiān)督每個特定視角的潛在表示學(xué)習過程和多個視角的公共潛在子空間表示學(xué)習過程, 實現(xiàn)數(shù)據(jù)的自監(jiān)督目的. 多視角聚類中的自監(jiān)督判別特征學(xué)習(SDMVC)[15]應(yīng)用深度自編碼器獨立學(xué)習每個視角的嵌入式特性, 并利用多視角互補信息連接所有視角的嵌入特性, 形成全局特性. 以一種自監(jiān)督的方式, 獲得偽標簽建立統(tǒng)一的目標分布并執(zhí)行多視角判別特征學(xué)習.這種統(tǒng)一的目標分布可實現(xiàn)多個視角一致性與多樣性.
圖1 基于圖信息的自監(jiān)督多視角子空間聚類網(wǎng)絡(luò)結(jié)構(gòu)
表示每個指定簇的數(shù)據(jù)點的所屬類別. 譜聚類產(chǎn)生了數(shù)據(jù)集的聚類標簽, 盡管不一定是所有數(shù)據(jù)點的正確標簽, 但它包含了關(guān)于數(shù)據(jù)集的有意義的信息, 這促使我們使用譜聚類的輸出來監(jiān)督自表達模塊的訓(xùn)練. 自監(jiān)督損失函數(shù)如下:
本文所提出的方法在4 個標準的真實數(shù)據(jù)集上進行了廣泛的實驗. 其中, Yale Face 包含15 個人的面部圖像, 共165 張. ORL 包含40 個人的面部圖像, 共400 張. Yale Face 和ORL 數(shù)據(jù)集的每個圖像都由3 個特征來描述: intensity、LBP 和Gabor. 而且每張圖像的面部表情、光線強弱都是不同的. MSRCV1 數(shù)據(jù)集是由從7 個簇中收集的210 個圖像樣本組成, 每張圖像由6 個特征來描述: CENT、CMT、GIST、HOG、LBP 和SIFT. BBC 數(shù)據(jù)集由英國廣播公司的685 份文本文件組成, 每份文件分為4 個子部分.
本文采用了4 種評價指標[11]來評估算法的聚類效果, 分別是歸一化互信息(NMI)、準確率(ACC)、F-度量值(F-Measure)和蘭德指數(shù)(RI).
結(jié)果表明, 本文所提出的SMSC 相較于其他對比方法獲得了更好的聚類結(jié)果. 與傳統(tǒng)的多視角子空間聚類方法相比, SMSC 取得了顯著的改進. 從表1 中可以看出, 在Yale Face 數(shù)據(jù)集上, SMSC 與LMSC 相比,NMI 和ACC 指標分別提升了20.56%和25.84%, 說明SMSC 的效果是更好的一方. 在另外3 個數(shù)據(jù)集上,相比其他多視角算法, SMSC 也都有顯著的提升. SMSC首先挖掘數(shù)據(jù)的潛在信息, 其次通過自表達系數(shù)矩陣獲得相似性矩陣并在其上應(yīng)用譜聚類, 獲得聚類標簽信息后, 通過自監(jiān)督規(guī)范化項對自表達系數(shù)矩陣進行監(jiān)督, 獲得更好的聚類效果.
表1 Yale Face 數(shù)據(jù)集對比實驗結(jié)果
表2 ORL 數(shù)據(jù)集對比實驗結(jié)果
表3 MSRCV1 數(shù)據(jù)集對比實驗結(jié)果
表4 BBC 數(shù)據(jù)集對比實驗結(jié)果
以Yale Face 數(shù)據(jù)集上的實驗為例. 圖2 顯示了標準化損失和聚類結(jié)果指標(NMI 和ACC)隨著迭代次數(shù)增加的變化情況. 可以很明顯的看出, SMSC 具有較快的收斂速度.
圖2 收斂性結(jié)果示意圖
本文提出一種基于圖信息的自監(jiān)督多視角子空間聚類方法, 該方法自監(jiān)督式地挖掘多視角數(shù)據(jù)的潛在信息, 提升聚類效果. 通過在4 個標準數(shù)據(jù)集上的大量實驗驗證, 結(jié)果表明所提方法優(yōu)于幾種常用的多視角聚類方法.