鄧 祥,俞 璐,謝 鈞,呂昊遠(yuǎn),姚昌華
(1.陸軍工程大學(xué),江蘇 南京 210001;2.南京信息工程大學(xué),江蘇 南京 210044)
聚類本質(zhì)上是一個(gè)物以類聚的過程,通常在無監(jiān)督條件下,依靠發(fā)掘數(shù)據(jù)潛在的結(jié)構(gòu)、性質(zhì)和規(guī)律實(shí)現(xiàn)聚類目的?,F(xiàn)有的聚類模型以是否使用深度學(xué)習(xí)可以劃分為傳統(tǒng)聚類和深度聚類兩類。傳統(tǒng)聚類可以劃分為原型聚類、密度聚類、圖聚類、層次聚類等。原型聚類算法用原型作為每個(gè)簇的代表,通過度量樣本與原型之間的距離確定樣本的歸屬,典型的算法有k-means[1]、高斯混合模型(GMM)[2]等。密度聚類的主要目標(biāo)是尋找被低密度區(qū)域分離的高密度區(qū)域,典型的算法是Density-Based Spatial Clustering of Applications with Noise (DBSCAN)[3]。從圖論中演化而來的圖聚類模型通過構(gòu)建一個(gè)基于相似度的無向加權(quán)圖把聚類問題轉(zhuǎn)化為圖的最優(yōu)劃分問題,典型的算法是spectral clustering(SC)[4]。層次聚類通過度量數(shù)據(jù)節(jié)點(diǎn)之間的相似性或者距離構(gòu)建一個(gè)樹形結(jié)構(gòu)在不同層面上對數(shù)據(jù)集進(jìn)行劃分,典型的算法是AGglomerative NESting (AGNES)。傳統(tǒng)聚類算法從不同的角度出發(fā)挖掘數(shù)據(jù)簇的聚類規(guī)律,針對這個(gè)規(guī)律設(shè)計(jì)明確的聚類過程實(shí)現(xiàn)聚類簇的劃分。傳統(tǒng)聚類算法獨(dú)立地進(jìn)行特征提取與數(shù)據(jù)聚類,聚類算法的輸入特征完全依賴于特征預(yù)處理,而多數(shù)特征提取算法是非目標(biāo)導(dǎo)向算法,提取的特征未必是利于聚類的特征,這些特征提取算法包括線性的PCA[5]、非線性的核方法(kernel methods)[6]等。近些年深度學(xué)習(xí)因其強(qiáng)大的非線性擬合能力和特征表示能力可以很好地緩解傳統(tǒng)聚類算法的缺陷,將深度學(xué)習(xí)引入無監(jiān)督聚類領(lǐng)域形成的深度聚類模型已經(jīng)顯示出了優(yōu)越性。在深度聚類領(lǐng)域尚在探索階段的今天,該文提出一種全新的深度聚類模型,該模型從不同的角度出發(fā)探索深度聚類的可行性方案。
用于聚類的深度模型有多種選擇,較為常用的包括自編碼器[7]、圖神經(jīng)網(wǎng)絡(luò)和生成模型等。近年來,圖卷積神經(jīng)網(wǎng)絡(luò)提取特征考慮到數(shù)據(jù)的結(jié)構(gòu),能夠提取利于聚類的特征,故用圖卷積神經(jīng)網(wǎng)絡(luò)完成聚類任務(wù)成為新興的研究方向之一,基于圖神經(jīng)網(wǎng)絡(luò)的深度聚類模型中較成功的有Embedding Graph Auto-Encoder (EGAE)[8]、Deep Attentional Embedded Graph Clustering (DAEGC)[9]、Structural Deep Clustering Network (SDCN)[10]、Adaptive Graph Convolution (AGC)[11]、Adversarial Graph Auto-Encoders (AGAE)[12]。其中AGAE的輸入是相似性矩陣,利用圖卷積神經(jīng)網(wǎng)絡(luò)處理相似性矩陣提取特征,并把它與特征先驗(yàn)分布中得到的特征一同進(jìn)行對抗性訓(xùn)練,得到一個(gè)能完成聚類的概率分布。生成模型因其能夠使用神經(jīng)網(wǎng)絡(luò)捕獲數(shù)據(jù)分布并產(chǎn)生真實(shí)的未見樣本而受到人們廣泛關(guān)注,其中GAN[13]和VAE[14]是最成功的生成模型。將生成模型用于聚類任務(wù)是深度聚類的研究方向之一?;谏赡P偷木垲惙譃椋夯谧兎肿跃幋a器(VAE)的聚類和基于生成對抗模型(GAN)的聚類。變分自編碼器假設(shè)樣本服從高斯分布,通過變分推斷法求出樣本后驗(yàn)概率。將變分自編碼器引入聚類中成功的模型有Variational Deep Embedding (VaDE)[15]、Gaussian Mixture Variational AutoEncoder (GMVAE)[16]。VaDE在變分自編碼器的基礎(chǔ)上加上Mixture-of-Gaussians,使用變分推斷法推斷出樣本所屬簇的后驗(yàn)概率,進(jìn)而對數(shù)據(jù)樣本進(jìn)行簇推斷?;谏蓪咕W(wǎng)絡(luò)的深度聚類模型借助GAN網(wǎng)絡(luò)捕獲數(shù)據(jù)分布的能力尋找樣本的后驗(yàn)概率。這方面突出的模型有ClusteringGAN[17]、Categorical Generative Adversarial Networks (CatGAN)[18]、InfoGAN[19]等。InfoGAN利用變分法推斷出生成器輸入與判別器輸出之間的互信息,用于GAN的對抗性訓(xùn)練中。當(dāng)訓(xùn)練完成后,判別器可以輸出輸入樣本屬于各簇的概率,從而完成聚類任務(wù)。
自編碼器重構(gòu)樣本時(shí)可以產(chǎn)生表征數(shù)據(jù)本質(zhì)的非線性映射特征,基于自編碼器模型的聚類方案有K-means-friendly Spaces (DCN)[20]、Adversarial AutoEncoders(AAE)[21]、Deep Embedded Clustering (DEC)[22]等,其中DEC模型在自編碼器的基礎(chǔ)上提出使用神經(jīng)網(wǎng)絡(luò)同時(shí)學(xué)習(xí)特征表示和聚類分配。它在潛在的特征空間中設(shè)計(jì)了一個(gè)軟分布和一個(gè)輔助概率分布,通過讓兩個(gè)分布的KL散度最小化實(shí)現(xiàn)聚類目的。DCN模型通過聯(lián)合優(yōu)化特征空間和k-means算法,同步完成了聚類任務(wù)和尋找適合k-means聚類的特征子空間。文獻(xiàn)[23]提出的模型在DSC-NET的基礎(chǔ)上引入二元分類模塊用于學(xué)習(xí)更抽象更具有區(qū)分度的特征,它同時(shí)與DSC-NET的自表示層進(jìn)行協(xié)同訓(xùn)練達(dá)到聚類目的。針對無監(jiān)督聚類領(lǐng)域經(jīng)常出現(xiàn)的錯(cuò)誤預(yù)測和過置信現(xiàn)象,文獻(xiàn)[24]借鑒半監(jiān)督聚類的思想,提出了基于魯棒學(xué)習(xí)的改進(jìn)無監(jiān)督圖像聚類模型(Robust learning for Unsupervised Clustering,RUC),有效地解決了上述問題。
目前基于自編碼器的深度聚類模型更關(guān)注自編碼器的數(shù)據(jù)壓縮能力,并基于中間特征(編碼器輸出)設(shè)計(jì)聚類的損失函數(shù)。該文關(guān)注自編碼器的重構(gòu)能力,提出了基于重構(gòu)誤差(解碼器輸出)設(shè)計(jì)損失函數(shù),并對中間特征加以約束的端到端深度聚類方案,對自編碼器應(yīng)用于聚類任務(wù)做出了新的探索。
受生成模型和自編碼器的啟發(fā),該文提出一種新的基于自編碼器的深度聚類模型:基于重構(gòu)誤差的深度聚類方法(Deep Clustering Method Based on Reconstruction Error,DCMBORE)。該模型在自編碼器框架下,通過構(gòu)建K個(gè)不同的聚類子空間,根據(jù)樣本在各子空間的映射獲得K個(gè)生成樣本,并利用K個(gè)生成樣本的概率加權(quán)和樣本重構(gòu)原始樣本,通過最小化重構(gòu)誤差同時(shí)對子空間加以約束,最終實(shí)現(xiàn)對樣本的聚類。主要貢獻(xiàn)如下:
·探索了以重構(gòu)誤差為聚類目標(biāo)的深度聚類方案。
·該模型能對同一簇下不同的小簇(MiniCluster)進(jìn)行區(qū)分。
聚類的目標(biāo)是通過對無標(biāo)記樣本的學(xué)習(xí)來揭示和挖掘數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、性質(zhì)和規(guī)律。對于數(shù)據(jù)內(nèi)蘊(yùn)規(guī)律不同的先驗(yàn)和假設(shè)將導(dǎo)出不同的聚類模型。假設(shè)高維空間數(shù)據(jù)樣本呈現(xiàn)出K個(gè)不同的簇,其本質(zhì)原因在于數(shù)據(jù)采樣于高維空間中的K個(gè)低維子空間,分別對應(yīng)K個(gè)簇。高維樣本空間和低維子空間之間的非線性映射揭示了數(shù)據(jù)的內(nèi)在規(guī)律和本質(zhì),學(xué)習(xí)這些映射就是聚類的關(guān)鍵。該文提出一種端到端的深度聚類模型,借助神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性逼近能力,通過學(xué)習(xí)高維樣本空間和K個(gè)低維子空間之間的映射完成聚類任務(wù)。
為保證聚類效果,希望不同簇的子空間盡可能遠(yuǎn)離,同時(shí)每個(gè)簇的子空間盡可能收縮在一定范圍內(nèi)。假定有K個(gè)簇,μi是簇i對應(yīng)的子空間內(nèi)的特征中心,xni是樣本n映射到子空間i的低維特征。Sw表示子空間內(nèi)特征的散度,Sb表示子空間之間的距離。該文對子空間做如下約束:
(1)
(2)
其中,d1、d2是超參數(shù),[x]+=max(0,x)表示正部函數(shù)。最小化Sw將使每個(gè)子空間內(nèi)的低維特征都收縮在半徑為d1的超球內(nèi),以此保證同一簇內(nèi)高維空間樣本具有一定程度的多樣性。最小化Sb將使任意兩個(gè)子空間的特征中心的距離超過d2,以此保證不同簇子空間的分離性。
L=R+Sw+Sb=
α≥1
(3)
在模型中引入加權(quán)指數(shù)用來控制融合樣本與原始樣本的重構(gòu)速度,增加聚類模型的靈活性和自由度。
(1)MNIST數(shù)據(jù)集[25]包含了70 000張手寫數(shù)字的圖像,其中60 000個(gè)訓(xùn)練樣本,10 000個(gè)測試樣本,該圖像的像素大小為28×28。該數(shù)據(jù)集包含了10個(gè)大類別(0~9),幾百個(gè)小類別(每個(gè)數(shù)字不同形態(tài)的寫法)。
(2)USPS數(shù)據(jù)集與MNIST類似,包含了10個(gè)類別的手寫數(shù)字,訓(xùn)練集共7 291個(gè)樣本,測試集共2 007個(gè)樣本,每個(gè)樣本都是16×16的灰度圖像。
(3)Fashion-MNIST數(shù)據(jù)集是10類不同風(fēng)格衣服的數(shù)據(jù)集,該數(shù)據(jù)集包含60 000個(gè)訓(xùn)練樣本,10 000個(gè)測試樣本,每個(gè)樣本都是28×28的灰度圖像。
選用互信息(NMI)[26]和Homogeneiy[27]指數(shù)來評估不同聚類簇K下的聚類性能。其中NMI能夠評估一個(gè)變量包含另一個(gè)變量的信息量。NMI取值范圍是[0,1],越接近1說明變量Y包含變量X的信息量越小,變量X確定性越大。
(4)
Homogeneiy指數(shù)用來評估聚類簇的同質(zhì)性,即一個(gè)聚類簇中的樣本是否只屬于某一個(gè)單獨(dú)類。Homogeneiy的取值范圍為[0,1],其值越接近1則表明聚類簇中同類樣本越多。假設(shè)真實(shí)樣本標(biāo)簽為C={Ci|i=1,2,…,n},預(yù)測簇標(biāo)簽為K={Kj|j=1,2,…,m},則Homogeneiy計(jì)算方法如公式5。該公式表明預(yù)測簇標(biāo)記K的條件信息熵越小,K的不確定性越小,Homogeneiy的數(shù)值越接近于1,預(yù)測簇K的同質(zhì)性越強(qiáng)。
(5)
由于該模型能夠聚類不同的模態(tài),故在選擇NMI指標(biāo)的同時(shí)選擇了Homogeneiy指標(biāo)來評估模型的細(xì)致劃分能力。
如前所述,該文的主要工作基于如下假設(shè):原始樣本在K個(gè)子空間的映射特征上所生成的K個(gè)樣本中只有對應(yīng)簇的生成樣本接近給定的原始樣本,且這K個(gè)生成樣本在概率向量的加權(quán)融合下能夠逼近原始樣本。為說明假設(shè)的合理性,進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果如圖1所示。
圖1在超參數(shù)α=2,K=10,d1=5的模型上展示了三種不同的手寫數(shù)字的融合過程。從圖1(a)可以看出原始樣本0在10個(gè)子空間上的投影特征所生成的樣本中只有簇5對應(yīng)的樣本與原始樣本接近,且原始樣本對應(yīng)的概率推斷向量也逼近one-hot向量,其結(jié)果基本符合預(yù)定的假設(shè)。
該文對神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)分為共享層網(wǎng)絡(luò)F、子空間映射網(wǎng)絡(luò)P、概率推斷網(wǎng)絡(luò)Q、生成網(wǎng)絡(luò)G。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。采用圖像數(shù)據(jù)集,故神經(jīng)網(wǎng)絡(luò)選用卷積神經(jīng)網(wǎng)絡(luò)和反卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)F設(shè)計(jì)了3層卷積網(wǎng)絡(luò);概率推斷網(wǎng)絡(luò)Q設(shè)計(jì)了兩層卷積網(wǎng)絡(luò)加一個(gè)Softmax層,其輸入來源于共享層網(wǎng)絡(luò)F(或者單獨(dú)設(shè)計(jì)一個(gè)網(wǎng)絡(luò)Q,獨(dú)立于共享層網(wǎng)絡(luò)F,其輸入為樣本y);K個(gè)映射網(wǎng)絡(luò)P與概率推斷網(wǎng)絡(luò)Q并列,用于提取具有區(qū)分度的特征,其輸入來自于共享層網(wǎng)絡(luò)F,每個(gè)映射網(wǎng)絡(luò)P都設(shè)計(jì)兩層卷積神經(jīng)網(wǎng)絡(luò);生成網(wǎng)絡(luò)G用于生成對應(yīng)簇的樣本,其輸入特征來自映射網(wǎng)絡(luò)P,該網(wǎng)絡(luò)設(shè)計(jì)了四層反卷積神經(jīng)網(wǎng)絡(luò)加Sigmoid函數(shù)用于輸出灰度圖像。優(yōu)化函數(shù)選著帶動量的隨機(jī)梯度下降法Adam[28],學(xué)習(xí)率lr=0.001,迭代周期epoch=200。該模型實(shí)際聚類結(jié)果隨聚類簇個(gè)數(shù)K,類內(nèi)距離d1的變化而呈現(xiàn)不同的聚類現(xiàn)象。模型中超參數(shù)d2控制著不同簇低維子空間的分離性,d2的取值只要能夠保持子空間相互分離即可,在此條件下,d2取值的差異對聚類結(jié)果影響不顯著。模型中包含如下超參數(shù)K、d1、d2、α。
從生成網(wǎng)絡(luò)G的生成圖(圖5)和聚類評估指標(biāo)Homogeneity、NMI的數(shù)值變化(表1~表5)來看(實(shí)驗(yàn)結(jié)果取自多次實(shí)驗(yàn)的最優(yōu)值),提出的模型具有把數(shù)據(jù)集進(jìn)行簇劃分的能力。
表1 DCMBORE在超參數(shù)α=1時(shí)MNIST數(shù)據(jù)集上的聚類指標(biāo)
在表1中可以看出,d1的變化對NMI指標(biāo)影響不大,排除d1對NMI的影響之后,對比表1和表2,不難看出隨著α變大,模型的NMI指標(biāo)上升。這是因?yàn)槌瑓?shù)α變大,融合樣本與原始樣本之間的重構(gòu)速度變快,模型對樣本間差異的區(qū)分力度變小,因此模型將學(xué)得不同數(shù)字之間的差異,而忽略同一數(shù)字下不同寫法之間的差異。故評估聚類結(jié)果相似度的NMI指標(biāo)上升,而評估聚類簇樣本同質(zhì)性的Homogeneity指標(biāo)略有下降。
表2 DCMBORE在超參數(shù)α=2時(shí)MNIST數(shù)據(jù)集上的聚類指標(biāo)
超參數(shù)α控制著樣本間差異的區(qū)分力度,觀察在α=1時(shí)表1的Homogeneity指標(biāo)和網(wǎng)絡(luò)G的生成圖(圖5),可以看出模型對樣本差異的區(qū)分力度變大,不同簇之間學(xué)得的差異是同一數(shù)字下不同寫法之間的差異,此時(shí)模型得到的每一簇分別表示同一數(shù)字不同形態(tài)的寫法(如圖5(n)和(o)所示),可視為0~9十個(gè)類別下的不同小簇(MiniCluster)。所以聚類簇?cái)?shù)目K越大,模型對樣本的劃分越細(xì)致。
在超參數(shù)α=1固定時(shí),觀察表1在d1取值較大時(shí)Homogeneity指標(biāo)略有提升,這是因?yàn)閐1取值較大,不同簇的低維子空間變大, 對應(yīng)的高維生成空間樣本多樣性變大,可以包含更多變化的同質(zhì)性樣本.因此超參數(shù)d1控制著高維生成空間的樣本多樣性.
該模型聚類效果對參數(shù)α,K,d1的變化較敏感。當(dāng)K的數(shù)值越大,α、d1數(shù)值越小時(shí),聚類劃分越細(xì)致。同時(shí)需要注意,在加權(quán)指數(shù)α=1且d1和K都變小時(shí),高維樣本多樣性減少,類別劃分得細(xì)致,而K的數(shù)目較小,則現(xiàn)有的聚類簇?cái)?shù)目難以包含所有類別,所以會出現(xiàn)難以區(qū)分不同類別的樣本(如圖5(d)和(e)所示)。此外在K值較小時(shí),實(shí)驗(yàn)結(jié)果受隨機(jī)性影響較大。
就實(shí)驗(yàn)結(jié)果而言,相較于傳統(tǒng)聚類算法,該模型的聚類效果有顯著的提高。相比較于最先進(jìn)的深度聚類算法,該模型具有可調(diào)節(jié)的簇區(qū)分能力,功能更靈活。模型的參數(shù)規(guī)模隨著聚類簇的增加而變大,因此,該模型的時(shí)間復(fù)雜度較高。同時(shí)由于該模型是在自編碼器的框架下設(shè)計(jì)的聚類算法,因此該模型的泛化能力較弱。
表3 DCMBORE在α=1.6、d1=13、d2=200、K=15時(shí)USPS數(shù)據(jù)集上的Homogeneity、NMI指標(biāo)
表4 DCMBORE在α=1.4、d1=10、d2=200、K=10時(shí)Fashion-MNIST數(shù)據(jù)集上的Homogeneity、NMI指標(biāo)
表5 DCMBORE與不同聚類模型在給定數(shù)據(jù)集上的NMI聚類指標(biāo)
該文以一種新的方式將自編碼器引入聚類領(lǐng)域,借助自編碼器的特征表示和樣本重構(gòu)能力,通過設(shè)置基于重構(gòu)誤差的聚類損失項(xiàng),并加以子空間約束項(xiàng),實(shí)現(xiàn)有效聚類。模型可通過調(diào)節(jié)聚類簇個(gè)數(shù),得到不同粒度的聚類結(jié)果,以滿足數(shù)據(jù)分析的不同需要。雖然該模型的聚類性能相比前沿的深度聚類模型優(yōu)勢并不明顯,但卻對自編碼器用于深度聚類任務(wù)做出了一個(gè)全新的探索。