李 超 孫國(guó)義 閆頁(yè)宇 段 華 曾慶田
圖數(shù)據(jù)在現(xiàn)實(shí)生活中無(wú)處不在,如社交網(wǎng)絡(luò)[1]、電子商務(wù)[2]、蛋白質(zhì)網(wǎng)絡(luò)[3]和交通網(wǎng)絡(luò)[4]等.針對(duì)現(xiàn)實(shí)世界交互系統(tǒng)的復(fù)雜性,研究人員將現(xiàn)實(shí)場(chǎng)景建模為包含多種類型節(jié)點(diǎn)和邊的特殊的圖數(shù)據(jù)結(jié)構(gòu),即異質(zhì)圖.異質(zhì)圖能夠?qū)D數(shù)據(jù)實(shí)現(xiàn)更加細(xì)致全面的描述.由于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)[5]可以充分挖掘異質(zhì)圖上的復(fù)雜結(jié)構(gòu)和豐富語(yǔ)義,目前已受到研究人員的極大關(guān)注.
早期的異質(zhì)圖神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于半監(jiān)督學(xué)習(xí)模型[6].Wang等[7]提出HAN(Heterogeneous Graph Attention Network),引入節(jié)點(diǎn)級(jí)注意力和語(yǔ)義級(jí)注意力,聚集來(lái)自基于元路徑的鄰居信息.Fu等[8]進(jìn)一步改進(jìn)HAN,提出MAGNN(Metapath Aggregated Graph Neural Network),涉及到HAN中未考慮的節(jié)點(diǎn)之間的中間節(jié)點(diǎn).Yu等[9]提出GTNs(Graph Trans-former Networks),不再依賴人工定義的元路徑,而是設(shè)計(jì)方法自動(dòng)學(xué)習(xí)節(jié)點(diǎn)之間的多跳關(guān)系,再基于多跳關(guān)系聚合消息.
然而,半監(jiān)督學(xué)習(xí)往往需要大量的標(biāo)注數(shù)據(jù),在現(xiàn)實(shí)場(chǎng)景中數(shù)據(jù)標(biāo)注信息的獲取存在一定的困難,成本較高.為了解決標(biāo)簽較難獲取的問(wèn)題,自監(jiān)督學(xué)習(xí)[10]成為圖表示學(xué)習(xí)模型構(gòu)建的新方向.作為無(wú)監(jiān)督學(xué)習(xí)的子類,自監(jiān)督學(xué)習(xí)是從數(shù)據(jù)本身獲取監(jiān)督信息的一種有效學(xué)習(xí)范式.在自監(jiān)督學(xué)習(xí)中,模型由代理任務(wù)進(jìn)行訓(xùn)練,從而確保學(xué)習(xí)到的節(jié)點(diǎn)表示具有更好的性能和更佳的泛化性[11].對(duì)比學(xué)習(xí)[12]廣泛應(yīng)用于自監(jiān)督圖表示學(xué)習(xí)中,基本思想是提供一組負(fù)樣本和正樣本生成方式,通過(guò)最小化目標(biāo)節(jié)點(diǎn)與正樣本之間的距離、最大化與負(fù)樣本之間的距離以優(yōu)化模型.
大多數(shù)現(xiàn)有模型主要集成節(jié)點(diǎn)屬性信息和拓?fù)湫畔?并進(jìn)行節(jié)點(diǎn)嵌入的學(xué)習(xí).然而這種集成忽略拓?fù)湫畔⒑蛯傩孕畔⒅g的干擾問(wèn)題[26].一方面,拓?fù)浣Y(jié)構(gòu)會(huì)干擾屬性信息的學(xué)習(xí),具體表現(xiàn)在: 屬性信息通過(guò)鄰域進(jìn)行傳播,從而達(dá)到相連節(jié)點(diǎn)具有相似的向量化表示,這種領(lǐng)域傳播會(huì)使屬性信息同化,導(dǎo)致過(guò)平滑[27].另一方面,屬性信息會(huì)扭曲網(wǎng)絡(luò)的拓?fù)湫畔?具體表現(xiàn)在: 具有相似拓?fù)湫畔⒌囊恍┕?jié)點(diǎn)在變換后可能獲得不同的表示,導(dǎo)致拓?fù)湫畔G失[28].
因此,拓?fù)湫畔⒑蛯傩孕畔⒅g的干擾問(wèn)題是圖神經(jīng)網(wǎng)絡(luò)模型需要解決的關(guān)鍵問(wèn)題之一.為了減輕學(xué)習(xí)過(guò)程中拓?fù)湫畔⑴c屬性信息相互干擾的問(wèn)題,需要在不同視角下分別學(xué)習(xí)拓?fù)湫畔⒑蛯傩孕畔?此外,為了獲得更加豐富的節(jié)點(diǎn)表示,還需要引入跨視角的對(duì)比學(xué)習(xí),通過(guò)最大化不同視圖節(jié)點(diǎn)表示之間的互信息,學(xué)習(xí)節(jié)點(diǎn)表示.
為了緩解拓?fù)湫畔⒑蛯傩孕畔⒅g的干擾,本文提出基于拓?fù)湫畔⒑蛯傩孕畔f(xié)同對(duì)比的自監(jiān)督異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型(Self-Supervised Heterogeneous Graph Neural Network Model Based on Collaborative Contrastive Learning of Topology Information and Attribute Information, HGTA).模型由拓?fù)湟暯枪?jié)點(diǎn)編碼器模塊、屬性視角節(jié)點(diǎn)編碼器模塊和協(xié)同對(duì)比優(yōu)化模塊組成.在拓?fù)湟暯枪?jié)點(diǎn)編碼器模塊中,基于原始圖的拓?fù)湫畔?引入節(jié)點(diǎn)類型特征,區(qū)分異質(zhì)圖不同類型節(jié)點(diǎn),學(xué)習(xí)目標(biāo)節(jié)點(diǎn)的拓?fù)湫畔?在屬性視角節(jié)點(diǎn)編碼器模塊中,引入節(jié)點(diǎn)級(jí)注意力機(jī)制和語(yǔ)義級(jí)注意力機(jī)制,聚合相同元路徑下的節(jié)點(diǎn)表示及不同元路徑下的節(jié)點(diǎn)表示,得到屬性視角下目標(biāo)節(jié)點(diǎn)的表示.最后,通過(guò)協(xié)同對(duì)比優(yōu)化算法模塊,實(shí)現(xiàn)拓?fù)湫畔⑴c屬性信息的協(xié)同對(duì)比學(xué)習(xí).本文還提出基于元路徑條數(shù)與節(jié)點(diǎn)拓?fù)湎嗨贫热诤系恼龢颖旧煞椒?實(shí)現(xiàn)節(jié)點(diǎn)局部結(jié)構(gòu)信息和全局結(jié)構(gòu)信息的有效融合.在3個(gè)公共數(shù)據(jù)集上的大量對(duì)比實(shí)驗(yàn)表明,HGTA的性能優(yōu)于對(duì)比的自監(jiān)督異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型和部分半監(jiān)督異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型.
定義 1異質(zhì)圖[29]異質(zhì)圖
G=(V,E,A,R,φ,φ),
其中,V表示節(jié)點(diǎn)集合,E表示邊集合,A表示節(jié)點(diǎn)類型集合,R表示邊類型集合,|A+R|>2.節(jié)點(diǎn)類型映射函數(shù)φ∶V→A,邊類型映射函數(shù)φ∶E→R.
如圖1所示,一個(gè)由學(xué)術(shù)網(wǎng)絡(luò)構(gòu)建的異質(zhì)圖,包含3種類型的節(jié)點(diǎn)(作者,文章,主題),以及2種類型邊的關(guān)系(作者-論文,論文-主題).
定義 2元路徑[30]元路徑是異質(zhì)圖中的一條路徑:
表示A1到Al+1之間的一種復(fù)合連接關(guān)系
R=R1°R2°…°Rl,
其中°表示關(guān)系上的復(fù)合運(yùn)算符.
元路徑描述異質(zhì)圖中兩個(gè)節(jié)點(diǎn)的復(fù)合關(guān)系,例如,在圖2中,文章-作者-文章這條元路徑描述兩篇論文同屬于一個(gè)作者,文章-主題-文章描述兩篇論文屬于同一個(gè)主題.
圖1 異質(zhì)圖
圖2 元路徑
定義3圖的拓?fù)浣Y(jié)構(gòu) 圖的拓?fù)浣Y(jié)構(gòu)可以表示為它的鄰接矩陣adj=[aij],當(dāng)且僅當(dāng)節(jié)點(diǎn)i、j存在邊eij=(i,j),aij=1,否則aij=0.具體拓?fù)浣Y(jié)構(gòu)示例如圖3所示.
圖3 拓?fù)浣Y(jié)構(gòu)
給定一個(gè)異質(zhì)圖G=(V,E,A,R,φ,φ)作為輸入,生成多個(gè)子視圖{G1,G2,…,Gn},生成視圖中的嵌入分別為
Z=cont{Z1,Z2,…,Zn},
優(yōu)化并輸出低維節(jié)點(diǎn)嵌入Z.
本文提出基于拓?fù)湫畔⒑蛯傩孕畔f(xié)同對(duì)比的自監(jiān)督異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型(HGTA),總體框架如圖4所示.HGTA從兩種不同的視角融合異質(zhì)圖的拓?fù)湫畔⒑蛯傩孕畔?解決圖神經(jīng)網(wǎng)絡(luò)中屬性信息和拓?fù)湫畔⒃趯W(xué)習(xí)過(guò)程中互相干擾的問(wèn)題.
HGTA由三部分組成: 拓?fù)湟暯枪?jié)點(diǎn)編碼器模塊、屬性視角節(jié)點(diǎn)編碼器模塊、協(xié)同對(duì)比優(yōu)化模塊.在拓?fù)湟暯蔷幋a過(guò)程中,加入節(jié)點(diǎn)類型特征,區(qū)分異質(zhì)圖不同類型節(jié)點(diǎn).在屬性視角編碼過(guò)程中,引入節(jié)點(diǎn)級(jí)注意力機(jī)制和語(yǔ)義級(jí)注意力機(jī)制.在拓?fù)湟暯呛驼Z(yǔ)義視角之間使用協(xié)同對(duì)比學(xué)習(xí),使這兩個(gè)視角相互補(bǔ)充和監(jiān)督.考慮到節(jié)點(diǎn)間的高相關(guān)性,重新設(shè)計(jì)異質(zhì)圖中節(jié)點(diǎn)的正負(fù)樣本選擇方式.
圖4 HGTA總體框架圖
異質(zhì)圖具有豐富的拓?fù)湫畔?在節(jié)點(diǎn)表示學(xué)習(xí)過(guò)程中,為了減少屬性信息的干擾,HGTA將節(jié)點(diǎn)屬性特征替換為單位陣,并且為了更好地區(qū)分不同類型的節(jié)點(diǎn),加入節(jié)點(diǎn)類型特征,以便更好地挖掘異質(zhì)圖的拓?fù)湫畔?
拓?fù)湟暯枪?jié)點(diǎn)嵌入編碼總體設(shè)計(jì)如下:首先,將不同類型的節(jié)點(diǎn)特征(單位陣)以及節(jié)點(diǎn)類型特征投影到相同的公共空間,并串聯(lián)投影變換后的節(jié)點(diǎn)特征和節(jié)點(diǎn)類型特征作為節(jié)點(diǎn)初始表示.然后,利用注意力機(jī)制計(jì)算不同鄰居對(duì)于目標(biāo)節(jié)點(diǎn)的重要性.最后,對(duì)鄰居節(jié)點(diǎn)嵌入進(jìn)行加權(quán)求和,得到拓?fù)湟暯窍碌墓?jié)點(diǎn)嵌入.
在拓?fù)湟暯侵?HGTA重點(diǎn)在于挖掘節(jié)點(diǎn)的拓?fù)湫畔?因此節(jié)點(diǎn)特征被替換為單位矩陣fe.此外,為了區(qū)分不同類型的節(jié)點(diǎn),設(shè)計(jì)節(jié)點(diǎn)類型特征ft,ft在輸入HGTA前被初始化為節(jié)點(diǎn)類型的單位陣.串聯(lián)投影變換后的節(jié)點(diǎn)特征和節(jié)點(diǎn)類型特征,作為節(jié)點(diǎn)的初始表示:
對(duì)于一個(gè)節(jié)點(diǎn)對(duì)(i,j),首先計(jì)算節(jié)點(diǎn)j對(duì)于目標(biāo)節(jié)點(diǎn)i的注意力權(quán)重:
其中Ni表示目標(biāo)節(jié)點(diǎn)i的一階鄰域.
最后,對(duì)鄰居節(jié)點(diǎn)進(jìn)行加權(quán)求和,得到拓?fù)湟暯窍鹿?jié)點(diǎn)的嵌入:
其中,k表示注意力頭數(shù),用于穩(wěn)定學(xué)習(xí)過(guò)程和減少高方差.
本文首先將節(jié)點(diǎn)屬性特征投影到相同空間,利用節(jié)點(diǎn)級(jí)注意力計(jì)算相同元路徑下節(jié)點(diǎn)鄰居對(duì)于目標(biāo)節(jié)點(diǎn)的重要性,通過(guò)加權(quán)聚合鄰居節(jié)點(diǎn)表示得到元路徑下目標(biāo)節(jié)點(diǎn)的嵌入.然后利用語(yǔ)義級(jí)注意力計(jì)算不同元路徑下節(jié)點(diǎn)嵌入對(duì)于目標(biāo)節(jié)點(diǎn)的重要性,通過(guò)加權(quán)聚合不同元路徑下的節(jié)點(diǎn)表示,最終得到屬性視角下節(jié)點(diǎn)的嵌入.
首先將不同類型的節(jié)點(diǎn)特征xi投影變換到相同的空間中:
其中
表示注意力系數(shù).
最后,加權(quán)聚合鄰居節(jié)點(diǎn)信息,得到同一元路徑下節(jié)點(diǎn)的嵌入:
其中
最后通過(guò)加權(quán)聚合不同元路徑下的節(jié)點(diǎn)表示,最終得到屬性視角下節(jié)點(diǎn)的嵌入:
對(duì)于正樣本的選擇,HGTA從節(jié)點(diǎn)的拓?fù)湎嗨贫群驮窂綏l數(shù)兩方面考慮.考慮到節(jié)點(diǎn)的拓?fù)湎嗨贫?圖5中I、III部分),HGTA根據(jù)不同的元路徑,使用訓(xùn)練好的Metapath2vec(Scalable Representa-tion Learning for Heterogeneous Networks)[30]得到不同元路徑下的節(jié)點(diǎn)表示,再構(gòu)建不同元路徑下的節(jié)點(diǎn)相似度矩陣,并將不同元路徑下的節(jié)點(diǎn)相似度矩陣求和,得到節(jié)點(diǎn)的拓?fù)湎嗨贫染仃?
考慮到節(jié)點(diǎn)之間的元路徑條數(shù)(圖5中II部分),HGTA根據(jù)節(jié)點(diǎn)之間的元路徑連接條數(shù)構(gòu)建節(jié)點(diǎn)-元路徑條數(shù)矩陣,再將節(jié)點(diǎn)的拓?fù)湎嗨贫染仃嚺c元路徑條數(shù)矩陣求和,并根據(jù)得分對(duì)節(jié)點(diǎn)進(jìn)行降序排列(圖5中IV部分),最終選擇前K個(gè)節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn)的正樣本,其它節(jié)點(diǎn)作為負(fù)樣本.
對(duì)于包含M種元路徑{p1,p2,…,pm},使用訓(xùn)練好的Metapath2vec,得到嵌入
Z={Zp1,Zp2,…,Zpm}.
構(gòu)建元路徑pm下的節(jié)點(diǎn)拓?fù)湎嗨贫染仃?
每種元路徑下的拓?fù)湎嗨贫染仃嚤硎静煌?jié)點(diǎn)間的相似度,求和得到所有節(jié)點(diǎn)的拓?fù)湎嗨贫染仃?
在元路徑下,由于節(jié)點(diǎn)之間是高度相關(guān)的,節(jié)點(diǎn)之間如果有元路徑連接,那么這兩個(gè)節(jié)點(diǎn)具有相關(guān)性,如果兩個(gè)節(jié)點(diǎn)通過(guò)多條元路徑連接,則它們具有更強(qiáng)的相關(guān)性.對(duì)于節(jié)點(diǎn)i、j,定義函數(shù)
統(tǒng)計(jì)連接這兩個(gè)節(jié)點(diǎn)的元路徑條數(shù),其中θ(·)表示指向函數(shù).然后構(gòu)造Cmeta,表示所有節(jié)點(diǎn)之間的元路徑條數(shù)矩陣.
將拓?fù)湎嗨贫染仃嘢topo與元路徑條數(shù)矩陣Cmeta進(jìn)行歸一化后相加,得到節(jié)點(diǎn)之間的綜合相似度.所有節(jié)點(diǎn)對(duì)節(jié)點(diǎn)i的綜合相似度為:
圖5 正負(fù)樣本篩選框架圖
其中Si(j)表示節(jié)點(diǎn)j與節(jié)點(diǎn)i之間的拓?fù)湎嗨贫?根據(jù)Di的得分對(duì)節(jié)點(diǎn)進(jìn)行降序排列.
下面設(shè)置一個(gè)閾值K,選擇前Top-K個(gè)節(jié)點(diǎn)作為目標(biāo)節(jié)點(diǎn)的正樣本Pos,其它節(jié)點(diǎn)為負(fù)樣本Neg.
其中,σ表示激活函數(shù),兩個(gè)視角下共用一套可學(xué)習(xí)的參數(shù)w(1)、w(2)、b(1)、b(2).在得到正樣本集合Pos和負(fù)樣本集合Neg后,計(jì)算拓?fù)湟暯窍碌膿p失:
屬性視角下的損失為:
因此,總損失函數(shù)為:
其中,λ用于平衡兩個(gè)視角下的損失,并通過(guò)反向傳播優(yōu)化模型.最后,使用ztopo執(zhí)行下游任務(wù).
為了驗(yàn)證HGTA的有效性,本文使用3個(gè)真實(shí)世界的數(shù)據(jù)集,具體信息如表1所示.
1)ACM數(shù)據(jù)集[6].學(xué)術(shù)網(wǎng)絡(luò)數(shù)據(jù)集,目標(biāo)節(jié)點(diǎn)為文章,文章分為3類.數(shù)據(jù)集包含4 019篇文章、7 167位作者和60個(gè)主題.
2)DBLP數(shù)據(jù)集[8].學(xué)術(shù)網(wǎng)絡(luò)數(shù)據(jù)集,目標(biāo)節(jié)點(diǎn)為作者,作者分為4類.數(shù)據(jù)集包含4 057位作者、14 328篇文章、20個(gè)會(huì)議和7 723個(gè)術(shù)語(yǔ).
3)Freebase數(shù)據(jù)集[31].電影信息網(wǎng)絡(luò)數(shù)據(jù)集,目標(biāo)節(jié)點(diǎn)為電影,電影分為3類.數(shù)據(jù)集包含3 492個(gè)電影、33 401位演員、2 502位導(dǎo)演和4 459位編輯.
表1 實(shí)驗(yàn)數(shù)據(jù)集
本文選擇如下3類基線模型.
1)無(wú)監(jiān)督同質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型.
(1)GraphSAGE[1].學(xué)習(xí)一個(gè)對(duì)鄰居頂點(diǎn)進(jìn)行聚合表示的函數(shù),生成目標(biāo)頂點(diǎn)的節(jié)點(diǎn)表示.
(2)DGI[14].訓(xùn)練一個(gè)編碼模型,最大化高階全局表示和輸入的局部表示之間的互信息.
2)無(wú)監(jiān)督異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型.
(1)Metapath2vec[30].利用基于元路徑的隨機(jī)游走構(gòu)建節(jié)點(diǎn)的異質(zhì)鄰域,通過(guò)skip-gram學(xué)習(xí)節(jié)點(diǎn)嵌入.
(2)HERec[32].設(shè)計(jì)類型約束策略,過(guò)濾節(jié)點(diǎn)序列,并利用跳圖學(xué)習(xí)異質(zhì)圖的節(jié)點(diǎn)表示.
(3)HDGI[15].使用元路徑對(duì)異質(zhì)圖中涉及語(yǔ)義的結(jié)構(gòu)進(jìn)行建模,最大化局部表示和全局表示的互信息,學(xué)習(xí)異質(zhì)圖中不同信息的節(jié)點(diǎn)表示.
(4)DMGI[17].在每個(gè)單一視圖上對(duì)原始網(wǎng)絡(luò)和損壞網(wǎng)絡(luò)進(jìn)行對(duì)比學(xué)習(xí),設(shè)計(jì)共識(shí)正則化,指導(dǎo)不同元路徑下節(jié)點(diǎn)表示的融合.
(5)HeCo[23].利用網(wǎng)絡(luò)模式和元路徑兩個(gè)視圖學(xué)習(xí)節(jié)點(diǎn)嵌入,提出跨視圖對(duì)比學(xué)習(xí),使兩個(gè)視圖能夠相互協(xié)作監(jiān)督,并最終優(yōu)化節(jié)點(diǎn)嵌入.
(6)MEOW[25].利用元路徑構(gòu)建一個(gè)粗粒度的視圖和一個(gè)細(xì)粒度的視圖,并進(jìn)行對(duì)比.
(7)HGCML[24].以元路徑為擴(kuò)展,生成多個(gè)子圖作為多視圖,提出對(duì)比目標(biāo),即最大化任意一對(duì)元路徑,導(dǎo)出視圖之間的互信息.
3)半監(jiān)督異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型.HAN[7].對(duì)基于元路徑的鄰域特征進(jìn)行分層聚合,生成節(jié)點(diǎn)嵌入.
對(duì)于基于隨機(jī)游走的方法(Metapath2vec和HERec),將每個(gè)節(jié)點(diǎn)的游動(dòng)次數(shù)設(shè)置為40,游動(dòng)長(zhǎng)度設(shè)置為100,窗口大小設(shè)置為5.對(duì)于GraphSAGE、Mp2vec、HERec、DGI,測(cè)試它們所有的元路徑,并報(bào)告最佳性能.在其它參數(shù)方面,遵循原始文獻(xiàn)中的設(shè)置.對(duì)于所有模型,嵌入維度設(shè)置為64,隨機(jī)運(yùn)行10次,計(jì)算平均結(jié)果.
本節(jié)通過(guò)節(jié)點(diǎn)分類實(shí)驗(yàn),驗(yàn)證HGTA的性能.在ACM、DBLP、Freebase數(shù)據(jù)集上進(jìn)行訓(xùn)練,選擇每類20、40、60個(gè)標(biāo)記節(jié)點(diǎn)作為訓(xùn)練集,并分別為每個(gè)數(shù)據(jù)集選擇1 000個(gè)節(jié)點(diǎn)作為驗(yàn)證集,1 000個(gè)節(jié)點(diǎn)作為測(cè)試集.
使用通用的評(píng)估指標(biāo):Macro-F1、Micro-F1和AUC(Area Under Curve).
各模型在3個(gè)數(shù)據(jù)集上的節(jié)點(diǎn)分類結(jié)果如表2~表4所示,表中黑體數(shù)字表示最優(yōu)結(jié)果,斜體數(shù)字表示次優(yōu)結(jié)果.
由表2可知,在ACM數(shù)據(jù)集上,相比無(wú)監(jiān)督同質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型(GraphSAGE和DGI).HGTA的Macro-F1值分別提升35%和31%,Micro-F1值分別提升3%和4%,原因是GraphSAGE和DGI只能學(xué)到單條元路徑下同質(zhì)節(jié)點(diǎn)的信息,而異質(zhì)圖擁有更加復(fù)雜的結(jié)構(gòu).HGTA是針對(duì)異質(zhì)圖的模型,能夠全面學(xué)到異質(zhì)圖更復(fù)雜的信息,獲得更好結(jié)果.
相比無(wú)監(jiān)督異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型(Meta-path2vec,HERec,HDGI,DMGI和HeCo),HGTA也展現(xiàn)其優(yōu)越性.相比Metapath2vec和HERec,HGTA的Macro-F1值分別提升30%和29%,Micro-F1值分別提升27%和26%.Metapath2vec和HERec雖然可適用于異質(zhì)圖,但也僅能學(xué)習(xí)單條元路徑下的信息.相比HDGI和DMGI,HGTA的Macro-F1值分別提升4%和4%,Micro-F1值分別提升3%和3%.雖然HDGI和DMGI保留最大化局部表示和全局表示間的互信息,但都是單一視圖的學(xué)習(xí),忽略不同視圖下獲得信息的能力不同,也忽略異質(zhì)節(jié)點(diǎn)的信息.相比HeCo,HGTA的Macro-F1和Micro-F1值分別提升5%和4%.HeCo雖然將兩個(gè)視圖進(jìn)行對(duì)比學(xué)習(xí),但是在學(xué)習(xí)過(guò)程中,未考慮節(jié)點(diǎn)屬性信息和拓?fù)湫畔⒃趯W(xué)習(xí)過(guò)程中的干擾,統(tǒng)一處理拓?fù)湫畔⒑凸?jié)點(diǎn)屬性信息,并且也未考慮到高階信息對(duì)目標(biāo)節(jié)點(diǎn)的重要性.相比MEOW和HGCML,HGTA的Macro-F1值分別提升2%和1%,Micro-F1值分別提升1%和1%,原因是MEOW和HGCML嚴(yán)重依賴元路徑,只學(xué)習(xí)目標(biāo)節(jié)點(diǎn)的信息,忽略異質(zhì)節(jié)點(diǎn)的信息.
由表3可知,在DBLP數(shù)據(jù)集上,相比無(wú)監(jiān)督同質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型(GraphSAGE和DGI),HGTA的Macro-F1值分別提升21%和20%,Micro-F1值分別提升7%和5%.分析表明,GraphSAGE和DGI僅能學(xué)習(xí)單條元路徑下目標(biāo)節(jié)點(diǎn)作者(A)的信息,忽略目標(biāo)節(jié)點(diǎn)作者(A)的標(biāo)簽與會(huì)議節(jié)點(diǎn)(C)的依賴關(guān)系.
相比無(wú)監(jiān)督異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型(Metapath2-vec,HERec,HDGI,DMGI和HeCo),HGTA的Macro-F1和Micro-F1值都有所提升.相比Metapath2vec和HERec,HGTA的Macro-F1值分別提升4%和4%,Micro-F1值分別提升27%和3%.分析表明,Meta-path2vec和HERec只學(xué)到單條元路徑下目標(biāo)節(jié)點(diǎn)作者(A)的信息.相比HDGI和DMGI,HGTA的Macro-F1值分別提升4%和3%,Micro-F1值分別提升5%和4%.相比MEOW和HGCML,HGTA的Macro-F1值分別提升1%和1%,Micro-F1值分別提升2%和2%.分析表明,HDGI、DMGI、MEOW和HGCML雖然可以通過(guò)元路徑學(xué)習(xí)到多條元路徑的信息,但是僅限于同質(zhì)節(jié)點(diǎn),也就是目標(biāo)節(jié)點(diǎn)作者(A)的信息,忽略異質(zhì)節(jié)點(diǎn)的信息.相比HeCo,HGTA的Macro-F1和Micro-F1值分別提升3%和2%.原因是目標(biāo)節(jié)點(diǎn)作者(A)的標(biāo)簽依賴節(jié)點(diǎn)會(huì)議(C),因此元路徑APCPA能夠提供更多有效的信息,而該路徑的語(yǔ)義是:作者(A)將其文章(P)發(fā)表到會(huì)議(C).這與數(shù)據(jù)集的真實(shí)情況高度吻合.實(shí)際上,作者(A)類型對(duì)象的真實(shí)類別標(biāo)簽是根據(jù)作者的文章(P)發(fā)表的會(huì)議(C)標(biāo)記的,然而HeCo只學(xué)到異質(zhì)節(jié)點(diǎn)的屬性信息,忽略局部的拓?fù)湫畔?
表2 各模型在ACM數(shù)據(jù)集上的節(jié)點(diǎn)分類結(jié)果
表3 各模型在DBLP數(shù)據(jù)集上的節(jié)點(diǎn)分類結(jié)果
表4 各模型在Freebase數(shù)據(jù)集上的節(jié)點(diǎn)分類結(jié)果
由表4可知,在Freebase數(shù)據(jù)集上,雖然HGTA能夠?qū)W到更高階的拓?fù)湫畔?但由于該數(shù)據(jù)集上節(jié)點(diǎn)沒(méi)有特征,因此兩個(gè)視圖學(xué)到的只有節(jié)點(diǎn)的拓?fù)湫畔?HGTA提升并不明顯.
本文選擇GraphSAGE、Metapath2vec、HERec、DGI、HDGI、DMGI、HeCo、MEOW、HGCML這9種無(wú)監(jiān)督模型作為基線模型,使用K-means算法學(xué)習(xí)所有節(jié)點(diǎn)的嵌入,并采用歸一化互信息(Normalized Mutual Information, NMI)和調(diào)整蘭德指數(shù)(Adjusted Rand Index, ARI)評(píng)估聚類結(jié)果.重復(fù)該過(guò)程10次,計(jì)算平均結(jié)果,結(jié)果如表5所示,表中黑體數(shù)字表示最優(yōu)值.
由表5可知,HGTA的節(jié)點(diǎn)聚類結(jié)果大部分優(yōu)于對(duì)比模型,并且多視圖的對(duì)比學(xué)習(xí)優(yōu)于單一視圖.分析表明,多視圖模型充分考慮節(jié)點(diǎn)不同方面信息,特別是HGTA充分考慮節(jié)點(diǎn)屬性信息和拓?fù)湫畔⒃趯W(xué)習(xí)過(guò)程中的相互協(xié)同優(yōu)化.
表5 各模型在3個(gè)數(shù)據(jù)集上的節(jié)點(diǎn)聚類結(jié)果
為了證實(shí)從節(jié)點(diǎn)的拓?fù)湎嗨贫群驮窂綏l數(shù)聯(lián)合篩選正樣本節(jié)點(diǎn)更加可靠,設(shè)計(jì)HGTA的兩種變體:僅依據(jù)節(jié)點(diǎn)的拓?fù)湎嗨贫群Y選正樣本(HGTA-w/o-meta)、僅依據(jù)節(jié)點(diǎn)元路徑條數(shù)篩選正樣本(HGTA-w/o-topo).3種模型對(duì)比結(jié)果如圖6所示.由圖可知,兩種方式下共同篩選正樣本要優(yōu)于單一方式選擇正樣本.
在ACM數(shù)據(jù)集上,HGTA-w/o-mata優(yōu)于HGTA-w/o-topo,原因是ACM數(shù)據(jù)集更加依賴元路徑下的節(jié)點(diǎn)屬性,元路徑能更好地捕捉節(jié)點(diǎn)間的相關(guān)性,HGTA-w/o-meta與目標(biāo)節(jié)點(diǎn)具有更強(qiáng)的語(yǔ)義關(guān)系.
(a)ACM
在DBLP數(shù)據(jù)集上,HGTA-w/o-topo優(yōu)于HGTA-w/o-meta.原因是目標(biāo)節(jié)點(diǎn)作者(A)的標(biāo)簽更加依賴會(huì)議節(jié)點(diǎn)(C),而拓?fù)湎嗨贫群雎跃植康倪B接信息,使元路徑條數(shù)篩選的正樣本與目標(biāo)節(jié)點(diǎn)的相關(guān)性大于拓?fù)湎嗨贫群Y選的正樣本.
在Freebase數(shù)據(jù)集上,元路徑條數(shù)能更好地捕捉節(jié)點(diǎn)的局部結(jié)構(gòu)信息,拓?fù)湎嗨贫瓤筛玫夭蹲焦?jié)點(diǎn)的整體結(jié)構(gòu)信息.
HGTA同時(shí)考慮節(jié)點(diǎn)的局部結(jié)構(gòu)信息與整體結(jié)構(gòu)信息,利用元路徑條數(shù)與拓?fù)湎嗨贫群Y選正樣本,能達(dá)到更優(yōu)的效果.
為了驗(yàn)證跨視圖協(xié)同對(duì)比的重要性,設(shè)計(jì)2個(gè)HGTA的變體:HGTA-attr和HGTA-topo,具體結(jié)構(gòu)如圖7所示.在HGTA-topo中,節(jié)點(diǎn)僅在拓?fù)湟暯窍戮幋a,如(a)所示,目標(biāo)節(jié)點(diǎn)與正負(fù)樣本的嵌入均來(lái)自拓?fù)湟暯?在HGTA-attr中,節(jié)點(diǎn)僅在屬性視角下編碼,如(b)所示,目標(biāo)節(jié)點(diǎn)與正負(fù)樣本的嵌入均來(lái)自屬性視角.
本文將這兩種變體與HGTA對(duì)比,結(jié)果如圖8所示.由圖可知,HGTA性能優(yōu)于變體,這說(shuō)明跨視角學(xué)習(xí)可以學(xué)習(xí)到更多有用的信息,節(jié)點(diǎn)的拓?fù)湫畔⑴c屬性信息互相補(bǔ)充.此外,本文發(fā)現(xiàn),在ACM數(shù)據(jù)集上HGTA-attr優(yōu)于HGTA-topo,在DBLP數(shù)據(jù)集上HGTA-topo優(yōu)于HGTA-attr,說(shuō)明不同的數(shù)據(jù)集在學(xué)習(xí)過(guò)程中拓?fù)湫畔⒑蛯傩孕畔⒕哂胁煌闹匾?
(a)HGTA-topo
(a)ACM
本文分析拓?fù)湟暯窍碌木W(wǎng)絡(luò)層數(shù)l對(duì)模型結(jié)果的影響,在ACM數(shù)據(jù)集上不同網(wǎng)絡(luò)層數(shù)的影響的對(duì)比結(jié)果如圖9所示.由圖可見(jiàn),在神經(jīng)網(wǎng)絡(luò)層數(shù)l達(dá)到兩層以后,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的提高,數(shù)據(jù)呈現(xiàn)上升的趨勢(shì),到達(dá)四、五層以后,隨著網(wǎng)絡(luò)層數(shù)的增加,數(shù)據(jù)呈現(xiàn)下降趨勢(shì).在聚合鄰居信息時(shí),各節(jié)點(diǎn)狀態(tài)更新時(shí)一般只聚合一跳鄰居信息,因此,網(wǎng)絡(luò)層數(shù)就反映節(jié)點(diǎn)融合幾跳內(nèi)的鄰居信息.當(dāng)節(jié)點(diǎn)無(wú)標(biāo)簽時(shí),節(jié)點(diǎn)在淺層聚合過(guò)程中可能無(wú)法獲取有效信息,從而對(duì)分類性能造成不利影響.隨著網(wǎng)絡(luò)層數(shù)的增加,節(jié)點(diǎn)獲取更多的有效信息,分類效果提升,但網(wǎng)絡(luò)層數(shù)到達(dá)某個(gè)數(shù)值以后,整個(gè)網(wǎng)絡(luò)的節(jié)點(diǎn)就會(huì)有相同特征,出現(xiàn)過(guò)平滑現(xiàn)象,導(dǎo)致性能下降.
(a)Macro-F1
本文提出基于拓?fù)湫畔⒑蛯傩孕畔f(xié)同對(duì)比的自監(jiān)督異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型(HGTA),重點(diǎn)解決拓?fù)湫畔⒑蛯傩孕畔⒅g的干擾問(wèn)題.HGTA由拓?fù)湟暯枪?jié)點(diǎn)編碼器模塊、屬性視角節(jié)點(diǎn)編碼器模塊和協(xié)同對(duì)比優(yōu)化模塊組成.在拓?fù)湟暯侵?基于原始圖的拓?fù)?學(xué)習(xí)目標(biāo)節(jié)點(diǎn)的拓?fù)湫畔?并加入節(jié)點(diǎn)類型特征,區(qū)分異質(zhì)圖不同類型的節(jié)點(diǎn).在屬性視角中,利用元路徑學(xué)習(xí)節(jié)點(diǎn)的屬性信息,在聚合相同元路徑下的節(jié)點(diǎn)表示及不同元路徑下的節(jié)點(diǎn)表示時(shí)分別加入節(jié)點(diǎn)級(jí)注意力機(jī)制和語(yǔ)義級(jí)注意力機(jī)制,最終得到屬性視角下目標(biāo)節(jié)點(diǎn)的嵌入.通過(guò)協(xié)同對(duì)比優(yōu)化算法,實(shí)現(xiàn)拓?fù)湫畔⑴c屬性信息的協(xié)同對(duì)比學(xué)習(xí).在正樣本生成方面,提出元路徑條數(shù)與節(jié)點(diǎn)拓?fù)湎嗨贫热诤系纳煞椒?在3個(gè)公共數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,HGTA的性能較優(yōu).目前HGTA只考慮拓?fù)湫畔⒑蛯傩孕畔⒃谧员O(jiān)督異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型中的協(xié)同對(duì)比,今后可從更多視角出發(fā),構(gòu)建多視角系統(tǒng)的異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型.