融合多角度信息和圖卷積網(wǎng)絡(luò)的社交網(wǎng)絡(luò)節(jié)點(diǎn)分類模型

2022-06-18 02:21:48梁安婷劉小洋黃賢英

重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)) 2022年5期

關(guān)鍵詞：分類模型

劉超，梁安婷，劉小洋，黃賢英

(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，重慶 400054)

0 引言

當(dāng)前各種在線交流分享平臺發(fā)展迅猛，產(chǎn)生大量社交網(wǎng)絡(luò)數(shù)據(jù)。這些數(shù)據(jù)蘊(yùn)含著個體信息、個體活動及個體間的交互信息，能體現(xiàn)用戶的屬性與偏好，展示用戶之間的關(guān)系等。如何挖掘社交網(wǎng)絡(luò)數(shù)據(jù)中的信息，利用其價值一直備受研究者們關(guān)注。節(jié)點(diǎn)分類是將代表實(shí)體的節(jié)點(diǎn)進(jìn)行類別劃分，是社交網(wǎng)絡(luò)的研究熱點(diǎn)之一，有著重要的實(shí)際應(yīng)用價值，例如在交流分享平臺中(微博、抖音等)，對用戶進(jìn)行精確分類，有助于后續(xù)為用戶推薦共同點(diǎn)更多的好友及可能感興趣的事件，增強(qiáng)用戶的使用體驗(yàn)；在電商平臺中(淘寶、京東等)，精確分類買家有助于商家的把控和售賣，提高交易成功的概率。然而如何從節(jié)點(diǎn)自身屬性和網(wǎng)絡(luò)結(jié)構(gòu)中提取更多的信息，有效融合這些信息，實(shí)現(xiàn)社交網(wǎng)絡(luò)節(jié)點(diǎn)分類任務(wù)依然是個有待研究的問題。

同質(zhì)性(homophily)和共引規(guī)律(co-citation regularity)是社會科學(xué)中的2種重要性質(zhì)，源于人與人之間的交流來往。社交網(wǎng)絡(luò)是人際網(wǎng)絡(luò)的延伸，已有研究[1-3]證明社交網(wǎng)絡(luò)同樣具備上述性質(zhì)。研究者已經(jīng)利用這2種性質(zhì)對社交網(wǎng)絡(luò)問題進(jìn)行了一些探索，如Getoor[4]對網(wǎng)絡(luò)數(shù)據(jù)的近似推理算法進(jìn)行了比較，在社交網(wǎng)絡(luò)中，同質(zhì)性是應(yīng)用到鏈接分類的鏈接模式之一，并且鏈接到相同文檔的文檔很可能具有相同標(biāo)簽；Bhagat等[5]在處理帶權(quán)邊的多重圖的標(biāo)記問題時，分別利用同質(zhì)性和共引規(guī)律提出了兩類算法，兩類算法在博客的標(biāo)簽分配上分別取得了較好的效果。這些研究表明，在社交網(wǎng)絡(luò)的研究中，利用同質(zhì)性和共引規(guī)律能提升解決相關(guān)問題的性能，遺憾的是，研究尚未應(yīng)用到社交網(wǎng)絡(luò)節(jié)點(diǎn)分類，同時，在2種性質(zhì)和節(jié)點(diǎn)自身信息及網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的融合問題上，沒有相關(guān)文獻(xiàn)進(jìn)行探討。為了利用2種性質(zhì)更好地挖掘并融合網(wǎng)絡(luò)拓?fù)浜凸?jié)點(diǎn)自身屬性，在圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)的基礎(chǔ)上進(jìn)行改進(jìn)，提出能融合更多信息的模型，提高節(jié)點(diǎn)分類效果?；谕|(zhì)性和共引規(guī)律，提取出同質(zhì)型節(jié)點(diǎn)和共引型節(jié)點(diǎn)兩類節(jié)點(diǎn)。通過相似度度量算法，計(jì)算被分類節(jié)點(diǎn)與其他所有節(jié)點(diǎn)特征向量的相似度，找到相似度最高的前k1個節(jié)點(diǎn)作為該節(jié)點(diǎn)的同質(zhì)型節(jié)點(diǎn)；計(jì)算被分類節(jié)點(diǎn)與其他所有節(jié)點(diǎn)的鄰接向量的相似度，找到相似度最高的前k2個節(jié)點(diǎn)作為該節(jié)點(diǎn)的共引型節(jié)點(diǎn)。對被分類節(jié)點(diǎn)與對應(yīng)的同質(zhì)型節(jié)點(diǎn)進(jìn)行鏈接，構(gòu)成同質(zhì)矩陣空間，同理，對被分類節(jié)點(diǎn)與對應(yīng)共引型節(jié)點(diǎn)進(jìn)行鏈接，構(gòu)成共引矩陣空間。分別在2種矩陣空間進(jìn)行卷積，提取相應(yīng)的節(jié)點(diǎn)信息，對被分類節(jié)點(diǎn)進(jìn)行信息補(bǔ)充，提高分類精確度。

在Wang等[6]的研究基礎(chǔ)上，利用上述兩類節(jié)點(diǎn)，挖掘更全面的信息并進(jìn)行融合，提出融合多角度信息和圖卷積網(wǎng)絡(luò)的社交網(wǎng)絡(luò)節(jié)點(diǎn)分類模型(a social network node classification model based on multi-angle information fusion and graph convolutional network,MAIF-GCN)。主要貢獻(xiàn)如下：

1) 提取蘊(yùn)含著節(jié)點(diǎn)同質(zhì)信息和共引信息的兩類關(guān)系型節(jié)點(diǎn)。①同質(zhì)型節(jié)點(diǎn)：和被分類節(jié)點(diǎn)有著相似屬性(特征向量相似度高)的節(jié)點(diǎn)；②共引型節(jié)點(diǎn)：和被分類節(jié)點(diǎn)鏈接著更多相同節(jié)點(diǎn)(鄰接向量相似度高)的節(jié)點(diǎn)。提取兩類關(guān)系節(jié)點(diǎn)的信息，即挖掘被分類節(jié)點(diǎn)的隱藏信息，后續(xù)實(shí)驗(yàn)證明，提出的兩類關(guān)系節(jié)點(diǎn)能對被分類的社交網(wǎng)絡(luò)節(jié)點(diǎn)信息進(jìn)行更好地補(bǔ)充，對社交網(wǎng)絡(luò)節(jié)點(diǎn)分類有益。

2) 提出一種新的融合多角度信息和圖卷積網(wǎng)絡(luò)的節(jié)點(diǎn)分類模型MAIF-GCN。從鄰接鄰居、同質(zhì)最近鄰和共引最近鄰多個角度挖掘被分類節(jié)點(diǎn)的相關(guān)信息，通過平均嵌入相加、注意力機(jī)制進(jìn)行信息融合，實(shí)驗(yàn)證明，該模型在傳統(tǒng)社交網(wǎng)絡(luò)數(shù)據(jù)集上取得很好的分類效果。

1 相關(guān)工作

Kipf等[7]和Defferrard等[8]提出的GCN能有效捕捉節(jié)點(diǎn)的相關(guān)信息，在節(jié)點(diǎn)分類問題上表現(xiàn)出很好的分類效果，是處理節(jié)點(diǎn)分類問題的常用方法。如Derr等[9]利用平衡理論來正確地匯總和傳播經(jīng)過簽名的GCN模型各層的信息，使分類問題泛化至社交媒體中的簽名網(wǎng)絡(luò)(或既有正面鏈接又有負(fù)面鏈接的圖表)；Hu等[10]為了增加接收域，提出了一種新的深度層次圖卷積網(wǎng)絡(luò)(hierarchical graph convolutional networks,H-GCN)用于半監(jiān)督節(jié)點(diǎn)分類；Lin等[11]提出了基于圖卷積網(wǎng)絡(luò)的結(jié)構(gòu)融合，從多視圖數(shù)據(jù)的多圖結(jié)構(gòu)中挖掘出更完整的分布結(jié)構(gòu)，以半監(jiān)督的方式提高引文網(wǎng)絡(luò)節(jié)點(diǎn)分類性能。

GCN的巨大成功部分歸功于它提供了一種基于拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)特征的融合策略來學(xué)習(xí)節(jié)點(diǎn)嵌入，然而，最近的一些研究揭示了GCN在融合節(jié)點(diǎn)特征和拓?fù)浣Y(jié)構(gòu)方面的某些弱點(diǎn)。例如，Li等[12]的研究表明，GCN實(shí)際上對節(jié)點(diǎn)特征進(jìn)行了拉普拉斯平滑，使嵌入到整個網(wǎng)絡(luò)中的節(jié)點(diǎn)逐漸收斂；Hoang等[13]和Wu等[14]證明了特征信息在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)上傳播時，拓?fù)浣Y(jié)構(gòu)對節(jié)點(diǎn)特征起到低通濾波的作用；Wang等[6]通過實(shí)驗(yàn)證明，GCN對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)特征的融合能力與最佳甚至令人滿意的距離相去甚遠(yuǎn)。

無法充分融合節(jié)點(diǎn)自身屬性和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來提取相關(guān)信息，可能會嚴(yán)重影響GCN在分類任務(wù)中的性能，為解決此問題，不少研究者在GCN的基礎(chǔ)上進(jìn)行改進(jìn)：Velikovi等[15]提出了圖注意網(wǎng)絡(luò)(graph attention network,GATs) ，他們?yōu)橐粋€鄰域中的不同節(jié)點(diǎn)指定不同的權(quán)值，以此調(diào)整從鄰居節(jié)點(diǎn)接收的信息量，提高分類精確度；Abu-El-Haija等[16]提出了一個利用鄰接矩陣的多次冪的圖卷積層，通過堆疊高階卷積層獲取更多信息，達(dá)到提高分類精度的效果；Wu等[17]提出了一個名為DEMO-Net(degree-specific graph neural networks)的通用圖神經(jīng)網(wǎng)絡(luò)模型，該模型根據(jù)節(jié)點(diǎn)的度值將特征聚合表達(dá)為一個多任務(wù)學(xué)習(xí)問題。這些改進(jìn)方法都在一定程度上提高了節(jié)點(diǎn)分類的精度，在處理節(jié)點(diǎn)分類問題上起著不可忽視的作用，可見，更好地融合網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)信息，更多地提取相關(guān)信息，是提高節(jié)點(diǎn)分類效果的先決條件，是解決節(jié)點(diǎn)分類問題的重要目標(biāo)。

Bhagat等[18]在發(fā)表的社交網(wǎng)絡(luò)節(jié)點(diǎn)分類研究綜述中，提到社交網(wǎng)絡(luò)存在的2個重要特性：一為同質(zhì)性，即個體之間的聯(lián)系與那些在本質(zhì)上相似的個體相關(guān)；二為共引規(guī)律，即相似的人傾向于提及或聯(lián)系相同的事物。然而，對這2個重要特性的研究尚未應(yīng)用到社交網(wǎng)絡(luò)節(jié)點(diǎn)分類領(lǐng)域。Wang等[6]就GCNs能否在信息豐富的復(fù)雜圖中最優(yōu)地整合節(jié)點(diǎn)特征和拓?fù)浣Y(jié)構(gòu)進(jìn)行研究，針對GCNs融合節(jié)點(diǎn)特征和拓?fù)浣Y(jié)構(gòu)的能力不夠理想的缺陷，提出了一種用于半監(jiān)督分類的自適應(yīng)多通道圖卷積網(wǎng)絡(luò)(adaptive multi-channel graph convolutional networks,AM-GCN)。其核心思想是同時從節(jié)點(diǎn)特征、拓?fù)浣Y(jié)構(gòu)及其組合中提取特定的和共同的嵌入，并利用注意機(jī)制學(xué)習(xí)自適應(yīng)嵌入的重要性權(quán)重。在進(jìn)行節(jié)點(diǎn)特征和拓?fù)浣Y(jié)構(gòu)信息融合的過程中，AM-GCN無意識地使用了同質(zhì)性，受其使用方法的啟發(fā)，本文中從理論上證明為何該構(gòu)建方法能夠?qū)Ψ诸慄c(diǎn)信息進(jìn)行補(bǔ)充，并進(jìn)一步添加共引規(guī)律，構(gòu)建能提取更多信息、融合信息更完整的分類模型。

2 提出的MAIF-GCN模型

2.1 問題描述

為研究社交網(wǎng)絡(luò)節(jié)點(diǎn)分類問題，在給定圖數(shù)據(jù)G= (A,X)的條件下，盡可能精確地將圖中的n個節(jié)點(diǎn)分為C類中的某一類，使用的符號定義即變量描述如表1所示。

表1 符號定義

為解決上述問題，提出了融合多角度信息和圖卷積網(wǎng)絡(luò)的節(jié)點(diǎn)分類MAIF-GCN模型，模型概覽如圖1所示。

圖1 融合多角度信息和圖卷積網(wǎng)絡(luò)的社交網(wǎng)絡(luò)節(jié)點(diǎn)分類模型(MAIF-GCN)

2.2 構(gòu)造2個矩陣空間

為了提高社交網(wǎng)絡(luò)節(jié)點(diǎn)分類精度，基于社會科學(xué)中確定的2個可以應(yīng)用于在線社交網(wǎng)絡(luò)的重要現(xiàn)象——同質(zhì)性和共引規(guī)律，提出兩類能為分類節(jié)點(diǎn)提供有用信息的相關(guān)節(jié)點(diǎn)——同質(zhì)型節(jié)點(diǎn)和共引型節(jié)點(diǎn)。為挖掘兩類節(jié)點(diǎn)信息，構(gòu)造相應(yīng)的關(guān)系矩陣空間，在構(gòu)建好的關(guān)系矩陣空間中進(jìn)行卷積操作，就能融合相應(yīng)關(guān)系的節(jié)點(diǎn)信息。

X是特征向量矩陣，該矩陣每一行代表著一個節(jié)點(diǎn)的特征，將一行向量同其他所有行向量進(jìn)行相似度的計(jì)算，便能求得這些其他節(jié)點(diǎn)同這個節(jié)點(diǎn)在特征即性質(zhì)上的相似程度。通過對特征向量矩陣的每一行和其他行進(jìn)行相似度的計(jì)算，得出和每個節(jié)點(diǎn)性質(zhì)最相似的k1個節(jié)點(diǎn)。將“性質(zhì)相似”這種聯(lián)系作為邊，相似度最高的k1個節(jié)點(diǎn)將產(chǎn)生鏈接，由此得出每個節(jié)點(diǎn)的同質(zhì)向量FAi∈R1×n，將所有節(jié)點(diǎn)的同質(zhì)向量拼接起來，得到同質(zhì)矩陣空間FA∈Rn×n。

A是鄰接矩陣，該矩陣每一行代表著一個節(jié)點(diǎn)同其他節(jié)點(diǎn)的聯(lián)系，存在聯(lián)系則為1，否則為0。將一行向量同其他所有行的向量進(jìn)行相似度的計(jì)算，便能求得其他所有節(jié)點(diǎn)同該節(jié)點(diǎn)偏好或傾向最相近的k2個節(jié)點(diǎn)。將“偏好或傾向相近”這種聯(lián)系作為邊，傾向相近度最高的幾個節(jié)點(diǎn)將產(chǎn)生鏈接，否則不鏈接，由此得出每個節(jié)點(diǎn)的共引向量CoAi∈R1×n，將所有節(jié)點(diǎn)的共引向量拼接起來，得到共引矩陣空間CoA∈Rn×n。

經(jīng)過上述理論鋪墊發(fā)現(xiàn)，2種矩陣空間都是由求解向量間相似度獲取的。常見的相似度的計(jì)算有歐幾里得度量、皮爾遜相關(guān)系數(shù)、余弦相似度等。通過對比計(jì)算，幾種相似度度量算法對最近鄰的計(jì)算結(jié)果幾乎一致，此種算法的選擇不影響最終分類結(jié)果。本文中最終使用余弦相似度進(jìn)行相似度的度量：

(1)

2.3 提出的融合多角度信息和圖卷積網(wǎng)絡(luò)的社交網(wǎng)絡(luò)節(jié)點(diǎn)分類模型MAIF-GCN

2.3.1獲取空間嵌入

在共引矩陣空間進(jìn)行圖卷積，提取并融合共引型節(jié)點(diǎn)的節(jié)點(diǎn)信息，得到共引矩陣空間卷積后的嵌入ZCo(CoEmb)，其中，Wco是在共引矩陣空間進(jìn)行學(xué)習(xí)的權(quán)重矩陣：

(2)

在鄰接矩陣空間進(jìn)行圖卷積，提取并融合鄰居節(jié)點(diǎn)的節(jié)點(diǎn)信息，得到鄰接矩陣空間卷積后的嵌入ZA(AEmb)，其中，WA是在鄰接矩陣空間進(jìn)行學(xué)習(xí)的權(quán)重矩陣：

(3)

在同質(zhì)矩陣空間進(jìn)行圖卷積，提取并融合同質(zhì)型節(jié)點(diǎn)的節(jié)點(diǎn)信息，得到同質(zhì)矩陣空間卷積后的嵌入ZF(FEmb)，其中，WF是在同質(zhì)矩陣空間進(jìn)行學(xué)習(xí)的權(quán)重矩陣：

(4)

2.3.2融合空間嵌入

不同社交網(wǎng)絡(luò)中，三類節(jié)點(diǎn)向被分類節(jié)點(diǎn)提供的信息的重要程度不同，有時可能只有單一類型的節(jié)點(diǎn)提供對分類有幫助的信息，但有時需要2種或3種關(guān)系節(jié)點(diǎn)共同提供信息。

鄰接矩陣空間、同質(zhì)矩陣空間和共引矩陣空間3種單空間都經(jīng)過了相同的預(yù)處理，因此在3種單空間進(jìn)行卷積后的嵌入輸出格式一致，即矩陣大小一致，可以直接進(jìn)行加減。將單空間嵌入通過相加平均進(jìn)行組合，節(jié)點(diǎn)會融合不同空間卷積后的信息，得到聯(lián)合嵌入。

將單空間嵌入、兩兩單空間聯(lián)合嵌入和3個單空間聯(lián)合嵌入共同放進(jìn)注意力機(jī)制進(jìn)行融合，得到最終嵌入，同時獲得各種嵌入的重要性。由上述獲取聯(lián)合空間嵌入的操作易知，單空間嵌入與聯(lián)合空間嵌入輸出格式一致。將所有嵌入在第二維上進(jìn)行拼接，得到每個節(jié)點(diǎn)在不同角度上的多維表示。本文的注意力機(jī)制使用兩層全連接進(jìn)行學(xué)習(xí)，再通過softmax函數(shù)，從每個節(jié)點(diǎn)在不同角度上的多維表示，學(xué)習(xí)到分類該節(jié)點(diǎn)時在每個角度，即每種嵌入上所占的比重。

1) 組合單空間嵌入(eg：共引與鄰接單空間嵌入組合ZCoA(CoAComE)，3個單空間嵌入組合ZTotal(ComETotal))：

(5)

(6)

2) 融合空間嵌入：

(αCo,αA,αF,αCoA,αFA,αCoF,αTotal)=

att(ZCo,ZA,ZF,ZCoA,ZFA,ZCoF,ZTotal)

(7)

將3種單空間嵌入和聯(lián)合嵌入共同放進(jìn)注意力機(jī)制，通過注意力機(jī)制得到每個節(jié)點(diǎn)對應(yīng)各種嵌入的重要性，使用該表示重要性的向量將各種嵌入融合起來，得到終極嵌入Z(Emb)：

Z=αCo·ZCo+αA·ZA+αF·ZF+

αCoA·ZCoA+αFA·ZFA+αCoF·ZCoF+

αTotal·ZTotal

(8)

2.3.3半監(jiān)督多標(biāo)簽分類

(9)

2.3.4約束和目標(biāo)函數(shù)

1) 一致性約束

考慮到雖然提取信息的角度不同，但最終信息給予的對象是同一節(jié)點(diǎn)，因此，這些不同的信息會有些許相似或存在某種聯(lián)系。通過將不同關(guān)系矩陣空間中提取到的信息進(jìn)行相互約束，使得挖掘到的信息更有利于分類。這種相互約束，就是提取出的信息的一致性約束。

各嵌入在正則化后乘以自身的轉(zhuǎn)置轉(zhuǎn)化為對稱矩陣，用對稱矩陣的最小二乘進(jìn)行一致性約束。鄰接矩陣嵌入ZA正則化后表示為ZAnor，同理，同質(zhì)矩陣嵌入、共引矩陣嵌入正則化后的表示為ZFnor、ZConor。正則化后的不同空間嵌入乘以自身的轉(zhuǎn)置轉(zhuǎn)化為對稱矩陣，分別得對稱陣如下：

(10)

以鄰接矩陣和同質(zhì)矩陣為例，用最小二乘得此2種空間嵌入的一致性約束LCoA如下：

(11)

同理可得鄰矩和共引矩陣嵌入的一致性約束LFA，同質(zhì)矩陣和共引矩陣嵌入的一致性約束LCoF。不同網(wǎng)絡(luò)對于矩陣空間的相似性要求不同，通過對一致性約束進(jìn)行加權(quán)相加，得到總的一致性約束：

(12)

式中：α、β為超參數(shù)，不同網(wǎng)絡(luò)通過調(diào)節(jié)α、β來調(diào)整各空間嵌入的一致性約束。

2) 目標(biāo)函數(shù)

(13)

3) 綜合目標(biāo)函數(shù)

結(jié)合一致性約束和目標(biāo)函數(shù)，得到模型的綜合目標(biāo)函數(shù)L：

L=Lt+θ·LCom

(14)

式中：θ為超參數(shù)，不同網(wǎng)絡(luò)的數(shù)據(jù)集在經(jīng)此模型訓(xùn)練時，通過調(diào)節(jié)此超參數(shù)對一致性約束的權(quán)重進(jìn)行調(diào)整。

算法1模型算法流程。

輸入：社交網(wǎng)絡(luò)圖數(shù)據(jù)G=(A,X)，L個帶標(biāo)簽的樣本節(jié)點(diǎn)；

1) 通過式(1)得到FA和CoA；

repeat：

3) 通過式(2)—(4)分別計(jì)算得到單空間嵌入ZCo、ZA和ZF，通過式(5)與式(6)獲取組合空間嵌入ZCoA、ZFA、ZCoF與ZTotal；

4) 使用式(7)獲得不同嵌入的比重(αCo,αA,αF,αCoA,αFA,αCoF,αTotal)，式(8)加權(quán)融合，得到最終嵌入Z；

6) 通過式(10)—(12)計(jì)算一致性約束LCom，式(13)進(jìn)行交叉熵?fù)p失求和，得到Lt；

7) 使用式(14)得到綜合目標(biāo)函數(shù)L；

8) 梯度下降法更新模型參數(shù)；

until 滿足訓(xùn)練停止條件

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

3.1.1數(shù)據(jù)描述

使用2個傳統(tǒng)社交網(wǎng)絡(luò)數(shù)據(jù)集BlogCatalog[19]和Flickr[19](數(shù)據(jù)集信息見表2)，以分類準(zhǔn)確率(accuracy)與F1-measure作為度量指標(biāo)，測試本文提出的MAIF-GCN模型。在BlogCatalog和Flickr數(shù)據(jù)集上，將本文模型與傳統(tǒng)的社交網(wǎng)絡(luò)節(jié)點(diǎn)分類算法及一些先進(jìn)的GCNs變體模型進(jìn)行對比，并結(jié)合試驗(yàn)結(jié)果對模型進(jìn)行分析。

表2 用于模型測試的數(shù)據(jù)集信息

1) BlogCatalog數(shù)據(jù)集：一個社會關(guān)系網(wǎng)絡(luò)。節(jié)點(diǎn)屬性由用戶配置文件的關(guān)鍵字構(gòu)造，圖是由博主和他(她)的社會關(guān)系(比如好友)組成，標(biāo)簽代表作者提供的主題類別，所有節(jié)點(diǎn)劃分為6類。

2) Flickr數(shù)據(jù)集：Flickr是用戶分享圖片和視頻的社交網(wǎng)絡(luò)。節(jié)點(diǎn)表示Flickr中的用戶，圖是用戶之間的好友關(guān)系，標(biāo)簽用于標(biāo)識用戶的興趣小組，所有節(jié)點(diǎn)劃分為9類。

3.1.2對比實(shí)驗(yàn)

將MAIF-GCN模型與6種先進(jìn)且效果良好的圖神經(jīng)模型進(jìn)行對比，對比模型詳情如下：

1) GCN[7]：一種半監(jiān)督圖卷積網(wǎng)絡(luò)模型，它通過聚合鄰居的信息來學(xué)習(xí)節(jié)點(diǎn)表示。

2) Chebyshev[8]：一種基于切比雪夫?yàn)V波器的GCN方法。

3) GAT[15]：一種利用注意機(jī)制聚集節(jié)點(diǎn)特征的圖神經(jīng)網(wǎng)絡(luò)模型。

4) DEMO-Net[17]：一種用于節(jié)點(diǎn)分類的度數(shù)特定圖神經(jīng)網(wǎng)絡(luò)。

5) MixHop[16]：一種基于GCN的方法，在一個圖卷積層中混合高階鄰居的特征表示。

6) AM-GCN[6]：一種用于半監(jiān)督分類的自適應(yīng)多通道圖卷積網(wǎng)絡(luò)。

3.1.3參數(shù)設(shè)置

如表2數(shù)據(jù)集所示，訓(xùn)練集有3種標(biāo)簽率(如BlogCatalog數(shù)據(jù)集存在120、240、360個標(biāo)簽節(jié)點(diǎn))，2個數(shù)據(jù)集都選擇1 000個節(jié)點(diǎn)作為測試集。所有對比模型都在他們相應(yīng)論文建議的參數(shù)基礎(chǔ)上進(jìn)行調(diào)優(yōu)，以求更高的精度。除本文模型外，模型AM-GCN的分類結(jié)果都優(yōu)于其他模型，為了方便對比，本文模型與AM-CGN模型共有的參數(shù)，取值與該模型一致，在3個不同的矩陣空間進(jìn)行兩層圖卷積，2個數(shù)據(jù)集的隱藏層nhid1都是512，輸出層nhid2都是128；120個標(biāo)簽節(jié)點(diǎn)的BlogCatalog數(shù)據(jù)集使用0.000 2的學(xué)習(xí)率進(jìn)行Adam優(yōu)化，180個標(biāo)簽節(jié)點(diǎn)的Flickr數(shù)據(jù)集使用0.000 3，除此之外，2個數(shù)據(jù)集的其他訓(xùn)練集都用0.000 5作為優(yōu)化函數(shù)的學(xué)習(xí)率。一致性約束系數(shù)θ和所取同質(zhì)型節(jié)點(diǎn)的個數(shù)k1及共引型節(jié)點(diǎn)的個數(shù)k2值將在后文進(jìn)行討論，根據(jù)分析結(jié)果取值，最終設(shè)置BlogCatalog數(shù)據(jù)集的一致性約束系數(shù)θ為1，k1取值為5，k2取值為6；Flickr數(shù)據(jù)集的一致性約束系數(shù)θ為0.1，k1取值為6，k2取值為3。

3.2 實(shí)驗(yàn)結(jié)果與分析

3.2.1實(shí)驗(yàn)結(jié)果

社交網(wǎng)絡(luò)節(jié)點(diǎn)分類對比實(shí)驗(yàn)結(jié)果見表3。由實(shí)驗(yàn)結(jié)果可以得出，MAIF-GCN的準(zhǔn)確率(Accuracy)與F1-measure在2個數(shù)據(jù)集上都優(yōu)于所有對比模型。事實(shí)上，除卻本文中提出的MAIF-GCN，AM-GCN的準(zhǔn)確率和F1-measure都是最高的，已被提出者證明其信息融合能力的優(yōu)越，而MAIF-GCN在此模型分類結(jié)果的基礎(chǔ)上，將BlogCatalog數(shù)據(jù)集的分類精確度和F1-measure指標(biāo)提高3%及以上，將Flickr數(shù)據(jù)集的分類精確度提高3%及以上、F1-measure指標(biāo)提高2%及以上，充分說明本文模型在引入社會科學(xué)中的2種性質(zhì)后，具有更進(jìn)一步的信息挖掘與融合能力，證明了提出的兩類型節(jié)點(diǎn)在解決社交網(wǎng)絡(luò)節(jié)點(diǎn)分類時具有積極作用。

表3 社交網(wǎng)絡(luò)節(jié)點(diǎn)分類實(shí)驗(yàn)結(jié)果

3.2.2嵌入分布分析

可視化各種嵌入方式的占比，直觀表示不同嵌入方式在分類時的占比情況，觀測提取的兩類型節(jié)點(diǎn)在社交網(wǎng)絡(luò)節(jié)點(diǎn)分類中的作用。單空間嵌入、兩兩單空間聯(lián)合嵌入和3個單空間聯(lián)合嵌入共同放進(jìn)注意力機(jī)制進(jìn)行融合，在得到最終嵌入的同時，獲得各種嵌入的重要性。下載訓(xùn)練過程中各嵌入的注意力值，使用箱須圖進(jìn)行繪制，得到嵌入分布分析如圖2所示。

Blogcatalog數(shù)據(jù)集上各嵌入方式(箱須圖橫軸從左往右)占比均值分別為：0.013，0.434，0.149，0.045，0.265，0.029，0.065；Flickr數(shù)據(jù)集上分別為：0.010，0.822，0.017，0.026，0.094，0.011，0.020。

從圖2和嵌入占比均值可以直觀地看到每種嵌入的分布情況，并且總結(jié)出以下結(jié)論：① 同質(zhì)矩陣單空間嵌入在2種數(shù)據(jù)集中都占比最高，遠(yuǎn)超傳統(tǒng)鄰矩，充分說明在社交網(wǎng)絡(luò)節(jié)點(diǎn)分類中，同質(zhì)型節(jié)點(diǎn)對分類節(jié)點(diǎn)的正向作用；② 同質(zhì)和共引矩陣空間的融合嵌入在2種數(shù)據(jù)集的嵌入中都占比次高，且在2個數(shù)據(jù)集的嵌入中，共引矩陣單空間嵌入都比鄰接矩陣單空間嵌入要高，這兩點(diǎn)證實(shí)了共引型節(jié)點(diǎn)同樣對被分類節(jié)點(diǎn)的精確分類有益；③ 單空間嵌入占比較大，但融合嵌入的比例同樣不可忽視，因此，在社交網(wǎng)絡(luò)節(jié)點(diǎn)分類時，要挖掘融合多方面的信息，才能對節(jié)點(diǎn)進(jìn)行精確分類。

圖2 嵌入分布分析

3.2.3參數(shù)分析

本文模型的超參數(shù)有k1、k2、θ、α、β。參數(shù)k1和k2是獲取的：“近鄰”個數(shù)，這里的“近鄰”并非直觀意義上的位置相近，而是同質(zhì)或共引意義相近?；诹瓤臻g理論，k1、k2取值范圍以數(shù)字6為中心，分別測試兩類型的“近鄰”個數(shù)從2～9對分類產(chǎn)生的影響。圖3展示了k1取值(2～9)對節(jié)點(diǎn)分類精度的影響，圖4展示了k2取值(2～9)對節(jié)點(diǎn)分類精度的影響。

圖3 參數(shù)k1分析

圖4 參數(shù)k2分析

參數(shù)θ是損失函數(shù)中共同一致性約束的系數(shù)，調(diào)整θ即改變一致性約束對節(jié)點(diǎn)分類影響的力度，圖5展示了θ取值(0.000 1～10 000)對節(jié)點(diǎn)分類精度的影響。

α、β是共同一致性約束中，2種單獨(dú)一致性約束的系數(shù)，調(diào)節(jié)α、β值，就能調(diào)整3種單獨(dú)一致性約束在共同一致性約束中的占比。3種約束的占比情況由α、β共同決定，2個參數(shù)的實(shí)驗(yàn)數(shù)據(jù)單獨(dú)進(jìn)行可視化不夠直觀，將每組α、β的實(shí)驗(yàn)數(shù)據(jù)同時繪制，以便分析出更合理的超參數(shù)配比。圖6、圖7分別展示了α、β取值(0.000 1～10 000)對Blogcatalog、Flickr數(shù)據(jù)集節(jié)點(diǎn)分類精度的影響。

圖5 參數(shù)θ分析

圖6 參數(shù)α、β分析(Blogcatalog)

圖7 參數(shù)α、β分析(Flickr)

同質(zhì)最“近鄰”參數(shù)k1的分析見圖3，BlogCatalog隨著k1值的增加，分類精確度先增加再減少，類標(biāo)簽數(shù)為20、40、60的數(shù)據(jù)集分別在k1取5、8、4處獲得最優(yōu)。這可能是因?yàn)锽logCatalog隨著圖變得更密集，特征平滑，而且更大的k1可能引入更多的噪聲連邊。而Flickr的精確度在中間存在小波峰，隨著k1值的增加，精確度先增大后減小再趨于平緩，它可能同樣受特征平滑和噪聲的影響，類標(biāo)簽數(shù)為20、40、60的Flickr數(shù)據(jù)集都在k1取6或9處獲得最優(yōu)。

共引最“近鄰”參數(shù)k2的分析見圖4。圖4中，BlogCatalog在類標(biāo)簽數(shù)為20時，精確度隨k2的增加先增大后減小再趨于平緩，k2在6或9處取得最優(yōu)；當(dāng)標(biāo)記數(shù)據(jù)增多，隨著k2值的增加，BlogCatalog的分類精確度先增加再減少，與k1情況相似，可能因BlogCatalog變得密集，特征平滑，或引入更多的噪聲連邊，類標(biāo)簽數(shù)為40和60的BlogCatalog數(shù)據(jù)集分別在k2取6和5處獲得最優(yōu)效果。Flickr的精確度波動小，同樣是隨著k2值的增加，精確度先增大后減小，原因與BlogCatalog數(shù)據(jù)集一致，類標(biāo)簽數(shù)為20、40、60的Flickr數(shù)據(jù)集，都在k2取3時獲得最佳效果。

共同一致性約束θ的分析見圖5，2個數(shù)據(jù)集的精確度，都隨著一致性約束系數(shù)θ的增加，先非常緩慢的上升，而后，BlogCatalog數(shù)據(jù)集以1為拐點(diǎn)，F(xiàn)lickr數(shù)據(jù)集以0.1為拐點(diǎn)，精確度隨著θ值的增加下降。兩數(shù)據(jù)集分別在θ取1和0.1左右獲得最優(yōu)效果?，F(xiàn)象表明，2個數(shù)據(jù)集都不期望從3個空間中提取出太相似的信息。

一致性約束系數(shù)α、β分析見圖6、圖7。如圖6(a)所示，圓形標(biāo)記實(shí)線是超參數(shù)α的消融實(shí)驗(yàn)結(jié)果，此時β恒為1(第3種單獨(dú)約束系數(shù)一直為1)，反映α對應(yīng)的單獨(dú)約束的占比對分類結(jié)果的影響；星形標(biāo)記線是超參數(shù)β的消融實(shí)驗(yàn)結(jié)果，此時α恒為1，反映β對應(yīng)的單獨(dú)約束的占比對分類結(jié)果的影響；X形標(biāo)記線是超參數(shù)α、β同時進(jìn)行消融實(shí)驗(yàn)的結(jié)果，此時第3種單獨(dú)約束仍為1，α、β取值的一致變化將改變第3種單獨(dú)約束的占比，反映了第3種單獨(dú)約束的占比對分類結(jié)果的影響，α、β取值越大，第3種約束占比越小。將每個數(shù)據(jù)集的3種單獨(dú)約束對分類結(jié)果的影響可視化到同一張圖上，觀測分析超參數(shù)α、β的配比。

圖6中，所有子圖中的圓形標(biāo)記線大體呈上升趨勢，α取值大，分類效果較好；子圖(a)中除波峰，星形標(biāo)記線大體呈下降趨勢，β取值較小，分類效果好；子圖(c)中除波峰，星形標(biāo)記線大體呈上升趨勢，說明第3種約束占比小，α、β取值大于等于1(第3種單獨(dú)約束系數(shù)一直為1)。子圖(a)中，在類標(biāo)簽數(shù)為20的Blogcatalog數(shù)據(jù)集中，圓形標(biāo)記實(shí)線大體呈上升趨勢，在1 000處達(dá)到峰值，星形標(biāo)記線在1處取得最大值，X形標(biāo)記線在10處取得最大值，再往后對精確度沒有影響，說明α對應(yīng)約束占比最大，第3種約束占比最小，β值對應(yīng)約束較為折中取得最佳效果，但因X形標(biāo)記線后面趨于平緩，α取值不適宜過大。綜上，α值取100左右，β值取10左右時，模型效果較好；在類標(biāo)簽數(shù)為40和60的Blogcatalog數(shù)據(jù)集中，圓形標(biāo)記實(shí)線呈上升趨勢，在1 000處達(dá)到峰值，星形標(biāo)記線和X形標(biāo)記線都在0.1處取得最大值，β對應(yīng)約束應(yīng)比另外兩約束小，α值取10左右，β值取0.1左右時，模型效果較好。

圖7中，3個子圖的圓形標(biāo)記實(shí)線和星形標(biāo)記線走向幾乎相反，說明在Flickr數(shù)據(jù)集上，類標(biāo)簽個數(shù)對一致性約束占比有影響，需要逐個分析。圖7(a)中，圓形標(biāo)記實(shí)線在0.1處取得最大值，星形標(biāo)記線和X形標(biāo)記線都在10處取得最大值，α值對應(yīng)一致性約束占比小，β值對應(yīng)一致性約束占比大，第3種約束占比小。綜上，在類標(biāo)簽數(shù)為20的Flickr數(shù)據(jù)集上，α值取1,獲得的模型效果較好，β值取10左右模型效果較好。圖7(b)中，圓形標(biāo)記實(shí)線不隨值的變化改變走向，星形標(biāo)記線和X形標(biāo)記線都在10處取得最大值，β值對應(yīng)一致性約束占比大，第3種約束占比小，α值對應(yīng)一致性約束的占比比β大，比第3種約束小，α值取5左右，β值取10左右獲取的模型效果較好。圖7(c)中，圓形標(biāo)記實(shí)線在10處達(dá)到最大值，且取值再往上精確度不變，星形標(biāo)記線在0.1處取得最大值，X形標(biāo)記線在100處取得最大值，第3種約束占比最小。綜上，α值對應(yīng)約束占比大，β值對應(yīng)約束占比小，但比第3種約束占比大，α值取5左右，β值取10左右獲取的模型效果較好。

對不同數(shù)據(jù)集，給出的α、β近似值的模型的分類結(jié)果比取距離該近似值較遠(yuǎn)的值高0.2%～0.8%，且分類精確度對α、β的取值不敏感，一定范圍(20左右)內(nèi)變化非常小，可忽略不計(jì)。

3.2.4剝離實(shí)驗(yàn)分析

為了進(jìn)一步評估本文模型各模塊的有效性，進(jìn)行剝離實(shí)驗(yàn)，將MAIF-GCN及其4種變體在所有數(shù)據(jù)集上的分類結(jié)果進(jìn)行比較。對比分類實(shí)驗(yàn)結(jié)果見表4。

1) GCN：沒有同質(zhì)矩陣空間和共引矩陣空間的MAIF-GCN模型。不存在同質(zhì)矩陣空間和共引矩陣空間的嵌入，節(jié)點(diǎn)只在鄰接矩陣空間進(jìn)行卷積操作，進(jìn)而分類，模型退化為傳統(tǒng)的GCN模型。

2) MAIF-GCN-F：沒有同質(zhì)矩陣空間的MAIF-GCN模型(只有鄰接矩陣嵌入、共引矩陣嵌入及兩者的組合嵌入)。

3) MAIF-GCN-Co：沒有共引矩陣空間的MAIF-GCN模型(只有鄰接矩陣嵌入、同質(zhì)矩陣嵌入及兩者的組合嵌入)。

4) MAIF-GCN-cst：去掉一致性約束的MAIF-GCN模型。不對各單空間嵌入進(jìn)行一致性約束，只通過模型訓(xùn)練，將各種嵌入進(jìn)行組合和融合，進(jìn)而進(jìn)行分類的MAIF-GCN模型。

表4 MAIF-GCN及其變體模型節(jié)點(diǎn)分類實(shí)驗(yàn)結(jié)果

分析表4，可以得出以下結(jié)論：① MAIF-GCN的結(jié)果始終優(yōu)于其他4種變體，表明引入并結(jié)合利用同質(zhì)矩陣和共引矩陣空間，進(jìn)行3種單空間嵌入的一致性約束是有效的。② MAIF-GCN-F和MAIF-GCN-Co的分類精確度都比GCN的高，分別表明了共引矩陣空間和同質(zhì)矩陣空間的有效性。③ MAIF-GCN-Co的結(jié)果比MAIF-GCN-F好，意味著同質(zhì)性在本模型中起著更重要的作用。④ 對比MAIF-GCN-cst和表3中的其他實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，MAIF-GCN-cst雖然沒進(jìn)行約束，但仍取得了對抗baseline的非常有競爭力的表現(xiàn)。

3.2.5不同類型數(shù)據(jù)集驗(yàn)證實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證所提出模型的效性，驗(yàn)證利用2種性質(zhì)在解決社交網(wǎng)絡(luò)節(jié)點(diǎn)分類問題時真實(shí)有效，使用不同類型的數(shù)據(jù)集進(jìn)行對比實(shí)驗(yàn)分析。

將社交網(wǎng)絡(luò)數(shù)據(jù)集ego-Facebook[20]中的2個網(wǎng)絡(luò)進(jìn)行處理，用于節(jié)點(diǎn)分類對比實(shí)驗(yàn)。該數(shù)據(jù)集因收集的節(jié)點(diǎn)特征不同分為10個小網(wǎng)絡(luò)，取其中缺失標(biāo)簽較少、節(jié)點(diǎn)個數(shù)較多，且類別較多的網(wǎng)絡(luò)0(后稱FaceNet_0)和網(wǎng)絡(luò)1912(后稱FaceNet_1912)進(jìn)行實(shí)驗(yàn)，清洗掉網(wǎng)絡(luò)中缺失特征或標(biāo)簽的節(jié)點(diǎn)，進(jìn)行數(shù)據(jù)規(guī)整化后進(jìn)行分類，驗(yàn)證模型在分類類別較多時的性能。同時，使用另一社區(qū)檢測數(shù)據(jù)集UAI2010和其他2個不同類型的數(shù)據(jù)集進(jìn)行對比實(shí)驗(yàn)分析，對比本文模型在不同類型數(shù)據(jù)集上的分類效果。驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)集信息見表5。

表5 用于模型驗(yàn)證的數(shù)據(jù)集信息

1) FaceNet_0[20]：Facebook社交網(wǎng)絡(luò)小子集，節(jié)點(diǎn)特征為Facebook用戶的性別、生日等屬性信息，圖由用戶間的朋友關(guān)系組成，將用戶所屬的圈子作為類別，所有節(jié)點(diǎn)劃分為25類。

2) FaceNet_1912[20]：Facebook社交網(wǎng)絡(luò)小子集，節(jié)點(diǎn)特征為Facebook用戶的性別、生日等屬性信息(與Facebook_0不完全相同)，圖由用戶間的朋友關(guān)系組成，將用戶所屬的圈子作為類別，所有節(jié)點(diǎn)劃分為47類。

3) Citeseer[7]：引文網(wǎng)絡(luò)。節(jié)點(diǎn)代表文章，圖表示文章之間的引用關(guān)系，標(biāo)簽用于識別文章所屬的類別，所有節(jié)點(diǎn)劃分為6類。

4) UAI2010[21]：一個已經(jīng)在圖卷積網(wǎng)絡(luò)中進(jìn)行了社區(qū)檢測測試的數(shù)據(jù)集，所有節(jié)點(diǎn)劃分為19類。

5) ACM[22]：從ACM數(shù)據(jù)集中提取，節(jié)點(diǎn)代表文章，特征是文章關(guān)鍵詞的詞袋表示，圖的連邊代表兩篇論文出自同一作者，所有節(jié)點(diǎn)劃分為3類。

不同類型的數(shù)據(jù)集進(jìn)行節(jié)點(diǎn)分類的實(shí)驗(yàn)結(jié)果見表6。本小節(jié)所有對比模型都在相應(yīng)論文建議的參數(shù)基礎(chǔ)上進(jìn)行調(diào)優(yōu)，以求更高的精度。

表6 不同類型數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

通過實(shí)驗(yàn)結(jié)果可以看到：MAIF-GCN在前3個數(shù)據(jù)集上的分類結(jié)果明顯優(yōu)于其他模型，提高1%及以上；MAIF-GCN作用于后2個數(shù)據(jù)集上時，鮮少有分類精度不變或降低的情況，有的數(shù)據(jù)集存在較小提升。前3個數(shù)據(jù)集是社交網(wǎng)絡(luò)數(shù)據(jù)集(UAI2010是用于社區(qū)探測的數(shù)據(jù)集，能夠歸為社交網(wǎng)絡(luò)一列)，網(wǎng)絡(luò)存在本文模型引入的2種性質(zhì)，因此本文模型能夠產(chǎn)生效用，從對比實(shí)驗(yàn)結(jié)果看也的確如此。后2個數(shù)據(jù)集不屬于社交網(wǎng)絡(luò)范疇，模型引入的2種性質(zhì)不一定存在于后2種網(wǎng)絡(luò)，從結(jié)果也可以看出，后2個數(shù)據(jù)集分類精度雖提升卻有限，且存在不提升或略有降低的情況，但不提升和降低的情況極少，多數(shù)精度仍是提升的。由實(shí)驗(yàn)結(jié)果分析得出：

1) MAIF-GCN在處理社交網(wǎng)絡(luò)節(jié)點(diǎn)分類的問題上具有積極作用；在不同的社交網(wǎng)絡(luò)數(shù)據(jù)集上總能取得較好的效果體現(xiàn)了MAIF-GCN的泛化能力。

2) 其他類型數(shù)據(jù)集上的分類精度不提升或降低的情況極少，展現(xiàn)了MAIF-GCN的優(yōu)越性。

4 結(jié)論

根據(jù)社交網(wǎng)絡(luò)中存在的同質(zhì)性和共引規(guī)律這2種性質(zhì)，提取出兩類對社交網(wǎng)絡(luò)中被分類節(jié)點(diǎn)產(chǎn)生正向影響的節(jié)點(diǎn)：①和被分類節(jié)點(diǎn)有著相似屬性(相似特征向量)的同質(zhì)型節(jié)點(diǎn)；②和被分類節(jié)點(diǎn)鏈接著較多相同節(jié)點(diǎn)(相似領(lǐng)域節(jié)點(diǎn))的共引型節(jié)點(diǎn)。分別計(jì)算特征向量和鄰接矩陣中鏈接向量的相似程度，選取同質(zhì)性相似度最高的前k1個節(jié)點(diǎn)和共引性相似度最高的前k2個節(jié)點(diǎn)，構(gòu)建兩類型節(jié)點(diǎn)相應(yīng)的同質(zhì)矩陣空間和共引矩陣空間。在構(gòu)建的2個矩陣空間進(jìn)行卷積，融合相應(yīng)類型的節(jié)點(diǎn)信息。為了更好地融合各角度提取到的信息，除了單獨(dú)在矩陣空間進(jìn)行卷積，還將不同空間卷積的結(jié)果相加，通過注意力機(jī)制，將提取到的各類型信息進(jìn)一步融合，最終進(jìn)行分類，提高分類精度。

本文中提出的MAIF-GCN模型挖掘并融合了相鄰節(jié)點(diǎn)、同質(zhì)型節(jié)點(diǎn)及共引型節(jié)點(diǎn)3種不同類型的關(guān)系節(jié)點(diǎn)，聚合了鄰接鄰居、同質(zhì)最近鄰、共引最近鄰及三者組合的多角度的信息。在傳統(tǒng)社交網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)，MAIF-GCN的分類精度比最先進(jìn)的分類模型高，證明了提出的兩類型節(jié)點(diǎn)對社交網(wǎng)絡(luò)節(jié)點(diǎn)分類具有正向影響，證實(shí)了MAIF-GCN模型合理有效。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放