亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向社交網(wǎng)絡用戶建模的異質網(wǎng)絡研究

        2023-12-06 02:41:32寧上毅李冠穎黃增峰周葆華魏忠鈺
        中文信息學報 2023年9期
        關鍵詞:用戶模型

        寧上毅,李冠穎,陳 琴,黃增峰,周葆華,魏忠鈺

        (1.復旦大學 大數(shù)據(jù)學院, 上海 200433;2.復旦大學 新聞學院, 上海 200433;3.華東師范大學 計算機科學與技術學院, 上海 200241)

        0 引言

        用戶建模以其巨大的優(yōu)勢在學術界和工業(yè)界都得到了廣泛的關注,具有很高的研究價值。用戶建模旨在預測用戶的屬性,如性別、年齡、教育程度、地區(qū)、職業(yè)、收入等,這些屬性可以用來幫助描繪電子商務、社交網(wǎng)絡等各種應用中的潛在用戶的特征。

        以往的研究主要集中在從用戶個人資料和發(fā)表內容中挖掘有效特征以進行用戶建模。Diehl[1]利用用戶特征,例如,用戶的粉絲數(shù)量和關注數(shù)量,以及文本特征,例如,用戶發(fā)文中的話題標簽比例等來對用戶的特征進行預測。Hasanuzzaman等人[2]用卷積神經網(wǎng)絡[3]來檢測時間特征,然后用它來預測用戶的收入。此外,Gu等人[4]還提出了一種心理學方法,將語言風格、自我描述標簽、表情符號使用等人口學信息結合起來進行用戶個性預測。

        盡管上述方法在用戶建模方面取得了很大的成功,但它們并沒有充分利用用戶特征和發(fā)表內容之間的全局語義關系,而這些內容以及它們之間的聯(lián)系在社交網(wǎng)絡分析中起著重要作用。為了解決這一問題,最近的一些研究轉向為用戶建模建立各種特征之間的關系。Kanavos和Livieris[5]建立基于關注關系的用戶圖,計算用戶在社交平臺中的影響力。類似地,Bacha和Thi Zin[6]利用“用戶-文本”二部圖來識別有影響力的用戶,而不是建模單獨的用戶或文本的關系,Li等人[7]構建了一個包含用戶圖、文本圖和用戶文本交互圖的耦合網(wǎng)絡,有效地評價了用戶和文本之間的可信度。然而,這些方法仍然是基于粗粒度的淺層關系,而對于細粒度的關系,如用戶內部的社區(qū)關系和用戶間討論的主題,還沒有得到很好的研究。

        如圖1所示,社交網(wǎng)絡平臺中有許多由用戶組成的社區(qū),具有相似興趣或背景的用戶會自發(fā)地加入這些社區(qū),他們發(fā)送的內容也通常與某些主題相關。在本文提出了一種異構圖卷積網(wǎng)絡(HGCN),通過對用戶節(jié)點和關鍵詞節(jié)點之間的異質信息來學習用戶和關鍵詞節(jié)點的節(jié)點表示。我們的方法與單獨對用戶或者關鍵詞進行建模相比,增強了不同類型節(jié)點之間的信息交換。為了獲取這些群體的特征來幫助用戶建模,本文進一步設計了一種包含多質心圖池化和圖解耦操作的圖上學習的擴充方法。具體來說,多質心圖池化模型致力于自動生成一系列節(jié)點集群(即社區(qū)),如用戶組成的社區(qū)和關鍵詞組成的主題。圖解耦的目的是通過將原始的節(jié)點表示與相應的集群中心信息相結合,來獲取集群內部的共同特征。最終,這一融合的表示可以被用來進行用戶屬性預測或用戶節(jié)點分類任務。

        圖1 社交網(wǎng)絡中的用戶與言論關系

        我們在國內社交媒體數(shù)據(jù),即微博上進行了廣泛的實驗。實驗結果表明,我們提出的用戶建模方法在預測教育和職業(yè)等用戶屬性方面也明顯優(yōu)于現(xiàn)有的基線方法。此外,我們將本文的節(jié)點分類方法擴展到另外兩個異質數(shù)據(jù)集,即DBLP和IMDB,這也驗證了本文方法的有效性。本文的主要貢獻如下:

        (1) 提出了一種異質圖卷積網(wǎng)絡,方便了嵌入學習過程中不同類型節(jié)點之間的信息交互。

        (2) 提出了一種多質心增強方法,它能夠自動吸收用戶群體和關鍵詞主題等社會群體的共同特征,增強節(jié)點的表示學習。

        (3) 我們在微博數(shù)據(jù)集和其他兩個異構數(shù)據(jù)集上對實驗結果進行了詳細的分析,從而更好地解釋了本文所提方法的有效性。

        1 相關工作

        1.1 圖神經網(wǎng)絡

        近年來,圖神經網(wǎng)絡引起了人們越來越多的興趣。Bruna等人[8]提出了一種譜圖卷積網(wǎng)絡,它從連通圖中學習卷積層。ChebNet[9]利用切比雪夫多項式來逼近譜圖卷積。Kipf和Welling[10]對其進行了進一步簡化,提出了基于譜圖卷積的半監(jiān)督節(jié)點分類和圖分類任務的圖卷積網(wǎng)絡(GCN)。GCN體系結構在節(jié)點分類、圖分類和推薦等圖的研究中取得了很大的進展。其他基于GCN模型的工作如文獻[11-12]在節(jié)點分類任務上對其進行了改進或簡化。關于圖神經網(wǎng)絡也有一些綜合性的綜述文章,如文獻[13-14]。

        異構網(wǎng)絡考慮不同類型節(jié)點和邊的任務。由于異構網(wǎng)絡的特殊性,傳統(tǒng)的圖模型不能直接應用。文獻[15]對異構信息網(wǎng)絡進行了全面的調研。許多工作將傳統(tǒng)的分類擴展到異構信息網(wǎng)絡。一些工作擴展了傳導性學習分類任務,即為給定的未標記數(shù)據(jù)預測標簽。例如,Ji等人[16]提出對具有任意網(wǎng)絡模式和任意數(shù)量的節(jié)點或連接類型的信息網(wǎng)絡中的鏈接結構進行建模的方法。Jacob等人[17]提出通過一種新的元路徑選擇模型,利用異質網(wǎng)絡上的小標記數(shù)據(jù)進行聚類,提出了一種通過計算空間中節(jié)點的潛在表示來標記不同類型節(jié)點的方法,其中兩個連接的節(jié)點往往具有緊密的潛在表示。一些工作還擴展了歸納分類,即在整個數(shù)據(jù)空間中構造一個決策函數(shù)。例如,Rossi等人[18]使用無組分異構網(wǎng)絡來表示文本文檔集合,并提出IMBHN算法來歸納為文本術語分配權重的分類模型。

        圖數(shù)據(jù)的池操作主要包括兩類: 節(jié)點聚類和節(jié)點采樣。Ying等人[19]通過將節(jié)點聚合成更大的超級節(jié)點來實現(xiàn)圖池化,通過學習分配矩陣,以指定的概率將每個節(jié)點軟分配到新圖中的不同子圖中。每個子類下的池化操作保留了節(jié)點的所有表示信息,并在新的子圖中繼續(xù)進行表示學習。這類方法的一個問題是,子圖的訓練可能帶來過擬合的問題,因為圖中邊上的權值表示兩個節(jié)點之間的連通強度。新圖中的連通強度可能與原始圖中的連通模式有很大的不同。

        節(jié)點采樣方法主要是選取一個固定的節(jié)點數(shù)目,來形成一個新的子圖。在文獻[20]中,模型對每個節(jié)點的相同特征進行排序,并選擇該特征中具有最大值的k個節(jié)點來形成新圖。Gao和Ji[21]使用一個可訓練的投影向量,將節(jié)點的特征向量投影成標量值,生成排序得分,選擇標量值最大的k個節(jié)點,形成排序后的子圖。

        1.2 用戶建模

        用戶建模是建立用戶模型的過程,在該過程中,有關用戶的不可觀察信息是從該用戶的可觀察信息,例如用戶與系統(tǒng)的交互中推斷出來的[22]。用戶模型可以使用用戶引導的方法創(chuàng)建,在這之中模型是使用每個用戶提供的信息直接創(chuàng)建的;或者使用自動方法創(chuàng)建,其中創(chuàng)建用戶模型的過程是由系統(tǒng)控制,并且對用戶隱藏的。用戶引導方法產生適應性服務和適應性用戶模型[23],而自動方法產生獲得性服務和獲得性用戶模型[24]。一般來說,用戶模型將包含一些自適應元素。理想情況下,適應性因素的集合應該盡可能地減少(如年齡、性別、喜歡的背景顏色等),而其他因素(喜歡的話題、行為模式等)應該通過學習過程來創(chuàng)造。這些概念在文獻中也被稱為隱式用戶模型和顯式用戶模型習得[25]。

        用戶建模,包括教育和職業(yè)分類,被社會學家和數(shù)據(jù)科學家廣泛研究。Gu等人[4]運用皮爾遜相關度分析法對微博用戶的五大人格特征進行了研究。Preotiuc-Pietro等人[26]公布了一個推特數(shù)據(jù)集,其中包含了擁有職位信息和歷史推文的推特用戶。Hasanuzzaman等人[2]用時間方向的分類方法研究?,F(xiàn)有的社會網(wǎng)絡論文缺乏對用戶話語和社會網(wǎng)絡關系的挖掘。其中大多數(shù)只是數(shù)據(jù)分析和分類,或者高度相關標簽的集成。

        2 基于異質圖網(wǎng)絡的用戶建模

        本節(jié)介紹我們提出的使用多質心池化圖模型進行用戶建模的方法,該方法使用異構質心池化圖模型對用戶的社交網(wǎng)絡關系和發(fā)表的內容進行建模。第2.1節(jié)將介紹如何構造一個包含兩種類型節(jié)點的異構圖,其中兩種節(jié)點分別代表用戶和關鍵詞。第2.2節(jié)提出了異質圖卷積網(wǎng)絡(HGCN)來對圖中節(jié)點進行表示學習,并且考慮了社交網(wǎng)絡中的聚類效應,將多質心圖池化模型應用于圖中的聚類節(jié)點。模型的總體框架如圖2所示,其中包括異質圖卷積、多質心圖池化和屬性預測三個模塊。

        圖2 本文提出的基于異質圖網(wǎng)絡的用戶建模模型

        2.1 異質網(wǎng)絡構建

        為了預測用戶的受教育程度和職業(yè)類別,本文構建了一個包含用戶關注關系和歷史數(shù)據(jù)的異構圖網(wǎng)絡。網(wǎng)絡中的節(jié)點由用戶節(jié)點和關鍵詞節(jié)點構成,因此存在兩種不同類型的節(jié)點。在網(wǎng)絡中,兩種不同類型的節(jié)點形成了三個不同的子圖。因此需要構造這樣的三個子圖,即用戶圖、關鍵詞圖以及用戶與關鍵詞之間的二部圖。用戶圖是最容易構造的,每個節(jié)點代表了一個用戶,如果一個用戶在社交網(wǎng)絡中關注了數(shù)據(jù)集中的另一個用戶,那么它們之間就會有一條邊。實驗結果表明,對稱無向圖的性能是優(yōu)于有向圖的,因此我們沒有使用有向的關注關系,而是如果兩個用戶是互相關注的,那么他們之間邊的權重會被設置為2。關鍵詞圖和二部圖中引入了一種新的節(jié)點,即關鍵詞節(jié)點。關鍵詞節(jié)點是從用戶的歷史推文中提取出來的。我們使用中文分詞框架Jieba對所有用戶的歷史微博進行了分詞操作,找出了前10 000個最常用詞。這些詞被設置為關鍵詞的節(jié)點。在關鍵詞圖中,邊的權重被定義為兩個詞在一條社交網(wǎng)絡文本中同時出現(xiàn)的次數(shù)。在用戶-關鍵詞二部圖中,權重被定義為用戶在發(fā)布的內容中提及這些關鍵字的次數(shù)。在IMDB和DBLP數(shù)據(jù)集中,我們使用類似的方法構造圖結構。如果用戶與同一篇論文或是同一部電影有聯(lián)系,那么用戶和論文、用戶和電影之間就會有邊相連。在DBLP數(shù)據(jù)集中,具有相同關鍵詞的論文被認為是相鄰的。在IMDB數(shù)據(jù)集中,具有相同導演的電影是相鄰的。

        2.2 異質圖上的表示學習

        為了處理異質圖網(wǎng)絡,本文提出了一種異構圖卷積網(wǎng)絡(HGCN),它能同時捕獲用戶級別和文本級別的特征。

        Kipf和Welling[10]提出了圖卷積網(wǎng)絡的逐層傳播規(guī)則,如式(1)所示。

        (1)

        這一規(guī)則可表示為式(2):

        (2)

        (3)

        Duan等人[27]提出了一種異質社交網(wǎng)絡圖上的主題摘要模型。如果僅考慮用戶級別和內容級別信息,則個性化頁面層可表示為式(4):

        (4)

        假設權重矩陣為歸一化鄰接矩陣,個性化矩陣為單位矩陣且α1=γ1,上面的公式變?yōu)槭?5):

        (5)

        同樣地,在類似的假設下,對于內容級別表示的更新,我們有

        (6)

        因為在我們的圖中,用戶和關鍵字之間的邊是對稱的,所以C等于D的轉置。

        在我們的異質圖中,聚合層如上面的兩個公式所示。將它們與一個線性層結合,可以得到具有兩種節(jié)點的異質圖的圖卷積層。

        (7)

        為了使用戶節(jié)點和關鍵字節(jié)點的表示攜帶相同的信息,我們要求所有層中的W1=W2為簡化計算,上面的計算公式可表示為式(8)。

        (8)

        因此,圖卷積層可以在異質圖網(wǎng)絡上通過一個改進的矩陣歸一化來實現(xiàn)。

        2.3 異質圖上的多質心圖池化模型

        本節(jié)將介紹基于圖池化和圖解耦操作的多質心圖池化機制,并將其擴展到異質圖上,如圖3所示。Gao和Ji[21]介紹了圖池化(gPool)和圖解耦(gUnpool)層的工作機制。在圖池化層,我們會從原始圖中選擇一個子圖,并且希望所選擇的子圖中的節(jié)點能盡可能地代表原始節(jié)點。在這里,我們需要一個選擇向量來對整張圖的中間位置進行表示,并計算圖中所有節(jié)點的投影,如式(9)所示。

        圖3 本文提出的多質心異質圖節(jié)點表示模型

        yi=Xip/‖p‖

        (9)

        我們貪心地選擇最大的yi,相應的節(jié)點就是子圖中選定的節(jié)點。將第l層所選節(jié)點表示為V(l),子圖定義如式(10)、式(11)所示。

        在圖池化操作之后,我們會把圖卷積層應用于所選的子圖,將得到子圖中每個節(jié)點的新的表示。之后的圖解耦操作將這些新的表示釋放回原始的圖中。在圖解耦層,我們將所選節(jié)點的新表示與前一個層的表示相連接。在這種操作之后,表示向量的長度會被改變,因此我們需要調節(jié)那些未選擇的節(jié)點的表示。Gao和Ji[21]提出的圖上的單元網(wǎng)絡是由多個圖池化層和圖解耦層組成的。在原始實驗環(huán)境下,選取子圖中的重要節(jié)點進行放大表示。在實驗中,我們發(fā)現(xiàn)未選擇的節(jié)點往往具有相同的標簽,換句話說,圖池化和圖解耦的重要性采樣在標簽分布上是不平衡的。從這個角度出發(fā),我們希望用類似的方法對節(jié)點進行聚類。通過對每一類別賦予一個中心向量,我們可以通過訓練中心向量的形式來學習每個類別的特征,從而完成節(jié)點聚類的任務,這一任務可以通過圖池化和圖解耦的操作完成。

        由于圖上的單元網(wǎng)絡子圖的節(jié)點是不平衡的,我們希望每個子圖都能代表一個數(shù)據(jù)集中的標簽類。因此,我們需要幾個不同的子圖。假設有m個子圖,則每個子圖都分配有一個中心向量,pi,i=1,2,…,m。我們將子圖被提取出來。對于第n個子圖,如式(12)所示。

        (12)

        圖解耦的操作與文獻[21]中的類似。在同一層生成的所有表示都分配在節(jié)點表示的同一位置。例如,圖3中要提取兩個子圖,也就是m=2。我們設k1=4,k2=3。在第一個子圖中,選擇并提取右側的四個節(jié)點。在第二個子圖中,提取中間的三個節(jié)點。在圖池化操作之后,子圖中提取的節(jié)點通過圖卷積層表示。它們的輸入是原始圖上圖卷積層輸出的表示,并輸出一個相同長度的向量。在圖解耦步驟中,新的輸出表示被附加回原始向量的后面,這樣一來,節(jié)點的表示向量長度比以前長一倍。另外,圖中未被選定節(jié)點的表示會用零填充。

        由于我們的任務是一個只在用戶節(jié)點上有標簽的半監(jiān)督節(jié)點分類問題,所以在用戶網(wǎng)絡和網(wǎng)絡上應該分別考慮池和圖卷積關鍵字網(wǎng)絡。在圖池化操作中,我們分別從用戶網(wǎng)絡和關鍵詞網(wǎng)絡中提取節(jié)點。當我們從用戶網(wǎng)絡中提取節(jié)點時,關鍵詞網(wǎng)絡中的所有節(jié)點都被保留。提取這些節(jié)點后,子圖上的圖卷積層將更新提取的用戶節(jié)點和所有關鍵字節(jié)點。

        在圖解耦操作期間,只有用戶節(jié)點會被連接回來。另外,我們會同時提取關鍵字節(jié)點。在這個子圖中,關鍵字節(jié)點的表示被更新并附加到表示向量。因為真實值只標注在用戶向量上,我們可以使用一些技巧減少訓練的層數(shù)。例如,在提取用戶節(jié)點的子圖中,關鍵字節(jié)點的表示不需要在最后一層更新。在提取關鍵字節(jié)點的子圖中,只有有真實標簽的節(jié)點才需要更新,從而能完成反向傳播。在每次節(jié)點更新時,需要計算鄰接矩陣、特征矩陣與參數(shù)矩陣的乘法,在圖池化階段,需要計算節(jié)點與中心節(jié)點之間的距離,因此本文提出的方法的時間復雜度為O(l(n2k2+n2pk)),其中,l是池化層數(shù),n是節(jié)點個數(shù),k是參數(shù)長度,p是池化中心數(shù)量。

        2.4 特征預測

        我們提出的框架以三個圖的鄰接矩陣為輸入,輸出用戶節(jié)點的分類標簽。在每一層中,都有一個多質心的圖池化和圖解耦,抽出的子圖用圖卷積網(wǎng)絡來進行表示。在所有這些子圖都被解耦之后,我們會得到一個最終表示的圖卷積層。我們使用多任務分類器,用邏輯回歸和交叉熵完成職業(yè)和教育分類,如式(13)、式(4)所示。

        其中,sj,ti是職業(yè)和教育分類的輸出分別。另外,最終的損失函數(shù)中還有一個關于子圖的損失,使同一類型的節(jié)點盡量出現(xiàn)在同一個子圖中。最終的損失函數(shù)定義如式(15)所示。

        (15)

        其中,Wi,Ei是教育和職業(yè)分類的真實值,p(wj)、p(ek)是教育和職業(yè)分類各標簽的預測概率。xi是第i個節(jié)點的表示向量,n是子圖中的節(jié)點數(shù)量,p是聚類中心的中心向量。

        3 社交網(wǎng)絡中的用戶數(shù)據(jù)

        本文使用了從新浪微博上抓取的用戶關系與用戶言論數(shù)據(jù)來構建異質網(wǎng)絡。

        我們在新浪微博上搜集了超過10萬名用戶的用戶信息、歷史微博和關注信息關系數(shù)據(jù)集。我們在2018年10月爬取了這些數(shù)據(jù),其中微博的范圍覆蓋了2009年至2018年之間。經過一些預處理后,我們刪除了其中一些信息不完整或發(fā)文太少的微博用戶。最后,我們的數(shù)據(jù)集中共有35 830個用戶。根據(jù)用戶自己填寫并提交的信息,我們將他們的教育和職業(yè)劃分為不同的類別。

        本文主要從教育程度和職業(yè)類別兩個方面進行研究。對于教育程度分類,我們使用用戶最終教育大學的平均錄取分數(shù)。需要注意的是,在預處理步驟中,仍然保留在數(shù)據(jù)集中的所有用戶都填寫了他們的本科學校信息。我們手動將錄取分數(shù)分成不同的類別,形成了教育水平分類。對于職業(yè)分類,我們使用了用戶引用的公司和工作崗位信息。我們使用預先訓練好的中文詞向量工具[28]來生成用戶職業(yè)表示的向量表示。然后我們使用k-Means聚類將用戶分為五個不同的標簽。通過對集群中心的觀察,我們將這些集群命名為咨詢、藝術、管理、科學和文化,以反映這些集群中用戶的職業(yè)。

        用戶節(jié)點之間的連接是通過用戶之間的關注關系來實現(xiàn)的,因此不同用戶之間的連接邊數(shù)是不同的,這是一個值得研究的問題。圖4顯示了用戶圖中用戶節(jié)點的度分布。在用戶圖中,節(jié)點的邊由用戶的關注關系決定。如果用戶A關注了用戶B,那么A和B之間會有一條連邊優(yōu)勢,反之亦然。因此,一個節(jié)點的度數(shù)表示用戶圖中的關注這一用戶的用戶數(shù)量。圖4顯示大多數(shù)用戶在網(wǎng)絡中的關注和粉絲之和少于10人。直觀地說,在進行節(jié)點表示時,用戶的節(jié)點很容易被他所關注的或關注他的人所影響。

        圖4 微博數(shù)據(jù)集中節(jié)點的分布

        4 實驗結果

        4.1 實驗設置

        在本文中,我們主要在微博數(shù)據(jù)集上進行了實驗,另外,我們還將該模型與其他幾種異構數(shù)據(jù)集上的一些最新模型進行了比較,如DBLP和IMDB數(shù)據(jù)集。為了與其他節(jié)點分類方法進行比較,我們對常見的異構圖進行了實驗,包括DBLP和IMDB數(shù)據(jù)集。對于這兩個數(shù)據(jù)集,我們遵循了文獻[29]中的數(shù)據(jù)集設置。

        對于異質圖節(jié)點分類,我們采用了兩層多質心圖池化框架,其中第一層用戶節(jié)點包含6個池化中心,比例為[0.4,0.25,0.15,0.1,0.05,0.05]。在這一步中,我們將第一層的比例調整范圍設為0.05,池化中心數(shù)從3×3到8×8不等。第二層包含8個池化層,每個池層的大小相同。兩層關鍵字節(jié)點分別包含4個和5個池化中心,每個子圖的大小相同。初始GCN的輸入輸出維數(shù)為32,因此最終輸出維數(shù)為32×3=96。在第一個多質心圖化池層中,我們在池的開始和結束使用了兩層GCN框架,在其他層中,每個池層上只有一層GCN。我們在模型中使用ReLU作為激活函數(shù),在GCN的最后一層使用Sigmoid作為激活函數(shù)。我們使用Adam[30]優(yōu)化器訓練模型,學習率為0.01,每104次迭代遞減因子為0.9,隨機失活率設置為0.1。對于DBLP和IMDB數(shù)據(jù)集,我們使用了一個2層多質心圖池框架,其中池質心的結構從3×3到7×7不等。在驗證集上的實驗表明,3×5和5×5的結構性能最好。所有這些子圖都具有相同數(shù)量的節(jié)點。初始GCN的輸入和輸出維度在DBLP中為16,在IMDB中為32。學習率分別為0.01和0.05。其他超參數(shù)與微博異質圖相同。

        用于實驗對比的模型有:

        (1) GCN,是Kipf和Welling[10]提出的圖神經網(wǎng)絡模型。

        (2) HAN,是文獻[22]提出的異質圖神經網(wǎng)絡模型。

        (3) GCN+MUCA,是文獻[10]中的神經網(wǎng)絡模型與多質心圖池化模型的結合,沒有使用異質網(wǎng)絡的信息。

        (4) HGCN,是本文提出的異質網(wǎng)絡信息傳遞機制。

        (5) HGCN+MUCA,是本文提出的多質心圖池化的異質網(wǎng)絡。

        4.2 總體實驗結果

        我們報告了微博數(shù)據(jù)集中不同模型的用戶教育和職業(yè)分類模型的結果。評價指標為分類準確度,結果見表1。結果表明,我們提出的HGCN模型比目前最優(yōu)的圖神經網(wǎng)絡(如HAN和GCN)的性能提高了8.24%,這說明在節(jié)點表示學習過程中融合異構信息的有效性。此外,當我們將多中心聚類整合到模型中時,性能可以進一步提高。具體而言,GCN+MUCA和HGCN+MUCA模型的平均準確度分別比GCN和HGCN提高了0.01左右。這一結果驗證了我們的假設,也就是說將社會社區(qū)特征建模為多個中心有助于增強對用戶的建模。

        表1 微博數(shù)據(jù)集上職業(yè)和教育分類的準確度

        如表1所示,實驗驗證了本文方法對于用戶節(jié)點建模是有效的。由于我們的異構圖可以包含其他類型的節(jié)點,因此將我們的方法擴展到其他節(jié)點分類任務中,以便進行更全面的評估。我們分別為DBLP構造了一個以研究者和論文節(jié)點為節(jié)點的異構圖,為IMDB分別構造了一個以用戶和電影為節(jié)點的異構圖。在這兩個數(shù)據(jù)集中,分別對研究者的研究領域和電影類別進行分類,結果見表2。可以在這組實驗中觀察到了相似的結果,我們的HGCN模型和多中心聚類方法都有助于增強節(jié)點分類,這表明我們的方法對于不同類型的節(jié)點都是有效的。

        表2 在IMDB和DBLP數(shù)據(jù)集上的準確度

        4.3 消融實驗

        為了進一步研究我們的異質圖對用戶建模的有效性,本文進行了圖上的消融實驗,結果如表3所示。本文觀察到,用戶圖在用戶建模中發(fā)揮著最重要的作用,當從完全異構圖中遷移時,平均準確率下降了20.9%。關鍵詞圖和二部圖也有助于提高教育和職業(yè)分類的準確性。因此,在實際操作中,有必要構造一個包含綜合三類圖的信息的異質圖來進行用戶建模。

        5 實驗分析

        為了進一步研究我們的多質心異質圖模型,我們在微博數(shù)據(jù)集上進行了進一步的實驗,研究聚類中心數(shù)量對結果的影響,并對聚類中心分類效果進行可視化。

        5.1 聚類中心數(shù)量的影響

        在這一節(jié)中,我們研究了用于多中心聚類方法中的質心數(shù)目的影響。實驗中使用了兩個多中心聚類層,第一層和第二層的質心數(shù)從3到8不等。圖5用不同的質心數(shù)繪制實驗結果。可以觀察到,在大多數(shù)情況下,當?shù)谝粚拥馁|心數(shù)量增加時,性能會提高,如圖5左圖所示。具體地說,當?shù)谝粚?Nc1)的質心數(shù)增加到6時,性能最佳。考慮到第二層(Nc2)質心數(shù)的影響,性能隨Nc2先增大后下降,如圖5右圖所示。當Nc2設置為8時,將獲得最佳性能??偟膩碚f,實驗中,第一層和第二層的質心數(shù)建議設置為6和8作為一個默認的設置。

        圖5 多中心聚類方法中的質心數(shù)目的影響

        5.2 聚類中心可視化

        圖6顯示了多中心聚類中的用戶群體。不同形狀的符號代表不同的職業(yè)類別,不同的數(shù)字表示不同的教育程度。我們觀察到,在第一層中代表一個簇的每一行主要包含同一個符號形狀,它對應于一個職業(yè)類別。此外,在最后一層中代表一個群集的每個塊都有幾乎相同的符號數(shù)字,這與教育程度一致。也就是說,在多中心聚類過程中生成的用戶集群可能會反映某個用戶屬性,這表明了通過多個聚類中心來建模用戶組特征對于提升用戶建模效果的有效性。

        圖6 多中心聚類中的用戶群體

        6 總結與展望

        本文提出了一個異質多質心圖模型用于進行社交網(wǎng)絡上的用戶建模。我們首先構造了一個由用戶圖、關鍵詞圖和用戶-關鍵詞二部圖組成的異質圖。為了方便不同類型節(jié)點之間的信息交互,我們提出了一種異質圖卷積網(wǎng)絡用于嵌入學習。此外,我們還設計了一種多質心圖池化方法,該方法通過允許節(jié)點獲得其所屬子圖的質心信息來捕獲所屬集群的特征。在三個數(shù)據(jù)集上的實驗結果表明了我們方法的有效性。通過對不同子圖的分析發(fā)現(xiàn),對于用戶節(jié)點建模任務來說,用戶之間的子圖比其他子圖在建模中起著更重要的作用。此外,對多質心圖池化模型進行了詳細的分析,解釋了我們方法的有效性。

        今后將從兩個方向繼續(xù)研究。首先,我們將致力于用戶建模的數(shù)據(jù)集構建,從而包含更多我們感興趣的用戶屬性。第二,可以研究更多的方法來構建用戶建模的社區(qū)特征。

        猜你喜歡
        用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        Camera360:拍出5億用戶
        100萬用戶
        国产精彩刺激对白视频| 精品麻豆国产色欲色欲色欲www| 久久国产精品免费久久久| 亚洲国产综合性感三级自拍 | 久久久久AV成人无码网站| 国产360激情盗摄一区在线观看 | 国产精品一区二区三区黄片视频| 大香蕉久久精品一区二区字幕| 国产在线观看不卡网址| 中文字幕人成乱码中文| 水蜜桃一二二视频在线观看免费| 久久精品国产亚洲av蜜臀久久| 久久中文字幕亚洲综合| 中文资源在线一区二区三区av| 老女人下面毛茸茸的视频| 午夜福利理论片在线观看播放| 熟女体下毛荫荫黑森林| 未发育成型小奶头毛片av| 中国美女a级毛片| 精品水蜜桃久久久久久久 | 日本乱偷人妻中文字幕在线| 日本熟妇色xxxxx欧美老妇| av天堂久久天堂av色综合| 国产精品无码不卡一区二区三区| 免费无码成人av在线播| 国产精在线| 91在线区啪国自产网页| 国产又粗又猛又黄色呦呦| 在线看片免费人成视久网不卡| 亚洲av午夜福利精品一区不卡| 亚洲一区二区三区激情在线观看| 亚洲毛片在线免费视频| 国精产品一区一区三区有限在线| 99精品人妻无码专区在线视频区 | 亚洲AⅤ樱花无码| 五月激情四射开心久久久| av免费在线播放视频| 久久久www成人免费毛片| 国产美女在线精品免费观看| 亚洲天堂99| 亚洲AV永久无码精品一区二国 |