亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

聯(lián)合編碼屬性圖聚類算法研究

2022-06-01 02:08:18劉俊奇

信息記錄材料 2022年4期

劉俊奇

(國防科技大學(xué)計(jì)算機(jī)學(xué)院湖南長沙 410073)

0 引言

數(shù)據(jù)聚類是機(jī)器學(xué)習(xí)、模式識別、數(shù)據(jù)挖掘等許多領(lǐng)域的基本問題。聚類的主要目的是基于相似性度量將數(shù)據(jù)分成相似數(shù)據(jù)點(diǎn)形成的組（簇）。然而，傳統(tǒng)的聚類方法的性能高度依賴于輸入數(shù)據(jù)，不同的數(shù)據(jù)集通常需要不同的相似性度量和分離技術(shù)。同時，由于這些方法中使用的相似性度量效率低下，通常在高維數(shù)據(jù)上表現(xiàn)不佳[1-4]。

深度學(xué)習(xí)越來越多的應(yīng)用在各個領(lǐng)域，把學(xué)習(xí)能力和聚類目標(biāo)結(jié)合起來是深度聚類的主要特征[5]，姬強(qiáng)等[6]指出基于深度學(xué)習(xí)的聚類算法迅速成為研究熱點(diǎn)。徐慧英等[7]提出了基于自編碼器的多模態(tài)嵌入式聚類模型。郭西風(fēng)[8]通過加入局部保存機(jī)制可以使得自編碼器學(xué)習(xí)到更好的數(shù)據(jù)表示。圖卷積網(wǎng)絡(luò)（GCN）的在處理圖數(shù)據(jù)上的巨大成功[9]，然而基于GCN 的聚類方法都忽略了數(shù)據(jù)本身的屬性特征,只利用圖結(jié)構(gòu)來學(xué)習(xí)數(shù)據(jù)的表示，依賴重構(gòu)鄰接矩陣來更新模型，同時GCN 的過平滑現(xiàn)象限制了這些方法的性能的進(jìn)一步提升。最近，將自動編碼器和GCN 網(wǎng)絡(luò)進(jìn)行結(jié)合以實(shí)現(xiàn)更好的表示學(xué)習(xí)，在他們提出的網(wǎng)絡(luò)中，自編碼器可以提取數(shù)據(jù)的屬性信息，而GCN 為自編碼器提供高階結(jié)構(gòu)信息，同時信息的融合有助于緩解GCN 的過平滑現(xiàn)象。

1 研究目的

近年來，為了更好的樣本表示學(xué)習(xí)而聚合鄰域信息的圖卷積網(wǎng)絡(luò)引起了許多研究人員的關(guān)注[10-12]。因此，文中希望能夠同時利用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)的優(yōu)勢，考慮數(shù)據(jù)的原始特征和樣本的結(jié)構(gòu)信息，設(shè)計(jì)一個專門用于聚類任務(wù)的神經(jīng)網(wǎng)絡(luò)，從而學(xué)習(xí)到更有利于聚類任務(wù)的特征表示，并且獲得更為理想的聚類結(jié)果。

為了提取數(shù)據(jù)自身的屬性信息和樣本之間的結(jié)構(gòu)信息，分別引入了一個自編碼器和圖自編碼器模塊來從數(shù)據(jù)的原始特征中學(xué)習(xí)特定的表示。由于自編碼器和圖自編碼器都會輸出表示，文中提出一個融合算子將兩個表示進(jìn)行結(jié)合。之后獲得聚類分配矩陣，并設(shè)計(jì)了一種監(jiān)督機(jī)制進(jìn)一步根據(jù)t分布定義一個目標(biāo)分布，利用目標(biāo)分布提供可靠的指導(dǎo)對網(wǎng)絡(luò)進(jìn)行微調(diào)。提出的方法可以使用梯度下降和反向傳播算法進(jìn)行優(yōu)化，大量的實(shí)驗(yàn)證明了文中方法的有效性，實(shí)驗(yàn)結(jié)果說明結(jié)構(gòu)信息有助于提升聚類的效果，將結(jié)構(gòu)信息融合到現(xiàn)有的深度聚類算法能取得比現(xiàn)有的深度聚類更好或者相當(dāng)?shù)男阅堋?/p>

2 研究方法

2.1 自編碼器

學(xué)習(xí)有效的數(shù)據(jù)表示對于深度聚類非常重要，為了通用性，文中使用基本的自編碼器來學(xué)習(xí)原始數(shù)據(jù)的表示，以適應(yīng)不同類型的數(shù)據(jù)集。假設(shè)自編碼器中有L層，l表示層數(shù)，則編碼器部分第l層學(xué)習(xí)的表示lH可以用如下公式表示：

其中，Wl和bl分別表示編碼器中第l層的權(quán)重矩陣和偏置，σ為激活函數(shù)，如Relu 或 Sigmoid。Hl表示第l層的隱特征，特別，H0為原始數(shù)據(jù)X。編碼器之后是解碼器部分，解碼器在結(jié)構(gòu)上與編碼器是對稱的，通過幾個全連接層來重建輸入數(shù)據(jù)，解碼器的輸出是原始數(shù)據(jù)X的重構(gòu)，這部分目標(biāo)函數(shù)如下：

2.2 圖自編碼器

在現(xiàn)有的文獻(xiàn)中，自編碼器是一種對稱的結(jié)構(gòu)，而圖自編碼器是一種不對稱的結(jié)構(gòu)，典型的圖像自編碼器的編碼器部分是一個圖卷積網(wǎng)絡(luò)，在GAE 中，編碼器和解碼器中的一層被表述為：

其中，=A+I和。從上式可以看出，第l- 1層的表示Zl-1通過歸一化鄰接矩陣進(jìn)行節(jié)點(diǎn)間的信息傳播以獲得第l層的表示Zl。為了最小化加權(quán)屬性矩陣和鄰接矩陣上的重建損失函數(shù)，GAE 的損失函數(shù)由兩部分重構(gòu)損失組成：

2.3 信息融合機(jī)制

為了充分利用自編碼器和圖自編碼器提取的節(jié)點(diǎn)屬性信息和結(jié)構(gòu)信息，使用一個高效的信息融合模塊來整合由自編碼器學(xué)到的表示和圖自編碼器學(xué)到的表示，融合后的表示包含了屬性與結(jié)構(gòu)兩方面的信息，旨在獲得表征能力更強(qiáng)的，聚類友好的潛在一致表示，以提升聚類任務(wù)的性能。具體來說，可以分為如下4 步：

首先，將AE 和GAE 學(xué)到的潛在表示進(jìn)行線性組合操作：

其中，a是可學(xué)習(xí)參數(shù)，ZAE和ZGAE分別表示由AE和GAE 學(xué)到的潛在表示。

最后，將考慮了局部連接關(guān)系的ZL和融合了全局相關(guān)關(guān)系的ZG進(jìn)行線性組合，得到最終的一致表示= ZL+bZG，其中，b是可學(xué)習(xí)參數(shù)，用來平衡兩個表示的重要程度。以這個統(tǒng)一的潛在表示Z~ 作為AE 和GAE 解碼器的輸入，從而分別對兩個子網(wǎng)絡(luò)的輸入進(jìn)行重構(gòu)。

2.4 聚類損失

經(jīng)過信息融合模塊，自編碼器和圖自編碼器學(xué)到的表示已經(jīng)連接起來，為了設(shè)計(jì)聯(lián)合的深度聚類算法，將特征學(xué)習(xí)和信息融合模塊與聚類任務(wù)統(tǒng)一在一個框架中，以對這些模塊進(jìn)行端到端的訓(xùn)練。具體來說，對于第i個樣本表示和第j個簇中心，使用t分布作為核來度量樣本點(diǎn)和簇中心之間的相似性，如下所示：

其中，uj是聚類中心，v表示t分布的自由度,qij可以理解為將樣本i分配給第j個簇的概率，即把Q當(dāng)作所有樣本的聚類分配矩陣，對Q經(jīng)過銳化處理得到目標(biāo)分布P:

為了在統(tǒng)一的框架中訓(xùn)練網(wǎng)絡(luò)并提高每個模塊的表示能力，對AE 和GAE 兩個子網(wǎng)絡(luò)的潛在嵌入計(jì)算相應(yīng)的軟分配Q′和Q′，將三者的平均值和P分布之間的OT距離作為聚類損失，目標(biāo)分布P可以幫助前面的模塊學(xué)習(xí)到更好的用于聚類的表示，聚類損失即為二者之間的OT 距離：

整體的損失函數(shù)由3 部分組成，即AE 和GAE 的重構(gòu)誤差，以及聚類損失：。其中，β是一個預(yù)定義的超參數(shù)。

3 結(jié)果與分析

3.1 數(shù)據(jù)集描述

對于提出的算法，在如下3 個公共的圖數(shù)據(jù)集（ACM、DBLP 和Citeseer）進(jìn)行了評估。這些數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)信息如表1 所示。本文將提出的方法與K-means、AE、DEC、IDEC、GAE & VGAE、DAEGC、SDCN 進(jìn)行了比較。

表1 數(shù)據(jù)集描述

3.2 實(shí)驗(yàn)設(shè)置與評價指標(biāo)

對于其他比較方法，我們直接報告SDCN 論文中列出的結(jié)果。對于我們的方法，模型的訓(xùn)練包括3 個步驟：首先，對AE 和IGAE 進(jìn)行預(yù)訓(xùn)練（30 次迭代）；其次，集成兩個子網(wǎng)絡(luò)到統(tǒng)一框架，再進(jìn)行100 次迭代；最后，在三重監(jiān)督策略的指導(dǎo)下，訓(xùn)練整個網(wǎng)絡(luò)200 次迭代直到收斂。把實(shí)驗(yàn)重復(fù)做10 次，目的在于減輕隨機(jī)性的不利影響，并報告平均值和相應(yīng)的標(biāo)準(zhǔn)偏差。以下4 個指標(biāo)可以評估所有方法的聚類性能：準(zhǔn)確度（ACC）、歸一化互信息（NMI）、調(diào)整的蘭德指數(shù)（ARI）和宏觀F1-分?jǐn)?shù)（F1）。對于每個指標(biāo)，較大的值意味著更好的聚類結(jié)果。

3.3 實(shí)驗(yàn)結(jié)果與分析

將提出的方法與幾種不同類型的聚類方法進(jìn)行了比較，以驗(yàn)證其有效性，表2 顯示了3 個數(shù)據(jù)集上的聚類結(jié)果。對于每個指標(biāo)，文中的方法在所有數(shù)據(jù)集中都取得了最好的結(jié)果，通過高效地融合圖結(jié)構(gòu)信息和節(jié)點(diǎn)屬性，充分利用了數(shù)據(jù)各方面信息，使得學(xué)到的共識表示對于聚類更加友好，極大地提高了聚類性能；聚類損失對提高深度聚類性能有重要作用，它提高簇的凝聚力進(jìn)而提升聚類效果。

表2 在3 個數(shù)據(jù)集上的聚類結(jié)果（x- ± s）

4 結(jié)論

本文提出了一種新的基于圖卷積神經(jīng)網(wǎng)絡(luò)的深度聚類方法，稱為聯(lián)合編碼屬性圖聚類（JEAGC）。在該方法中，通過信息融合模塊對來自編碼器的信息和圖自編碼器的信息實(shí)現(xiàn)了動態(tài)的融合，充分利用了數(shù)據(jù)的屬性和結(jié)構(gòu)雙方面的信息，同時三重自監(jiān)督策略有效地提供精確的網(wǎng)絡(luò)訓(xùn)練指導(dǎo)，使其學(xué)到更好的表示，獲得更優(yōu)的聚類性能。3 個基準(zhǔn)圖數(shù)據(jù)集的實(shí)驗(yàn)表明，JEAGC 始終優(yōu)于此前的傳統(tǒng)聚類和深度聚類方法。