李 征
(常州信息職業(yè)技術(shù)學(xué)院電子工程學(xué)院 江蘇 常州 213164) (江蘇科技大學(xué)電子信息學(xué)院 江蘇 鎮(zhèn)江 212003)
網(wǎng)絡(luò)在各種各樣的現(xiàn)實(shí)世界場(chǎng)景中無(wú)處不在,如社交網(wǎng)絡(luò)、評(píng)論網(wǎng)絡(luò)和新聞媒體等[1-2]。目前,網(wǎng)絡(luò)表示學(xué)習(xí)的基本思想是將網(wǎng)絡(luò)中的節(jié)點(diǎn)映射到低維空間中,同時(shí)保持原始網(wǎng)絡(luò)的結(jié)構(gòu)信息和屬性,它可以為許多下游數(shù)據(jù)挖掘應(yīng)用提供幫助,如鏈路預(yù)測(cè)、節(jié)點(diǎn)分類、節(jié)點(diǎn)聚類和社區(qū)檢測(cè)[3-4]。
現(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)方法有許多是針對(duì)同質(zhì)網(wǎng)絡(luò)設(shè)計(jì)的,即不管它們的類型是什么,它對(duì)所有的節(jié)點(diǎn)和邊都一視同仁,例如DeepWalk、LINE、node2vec、GraphSAGE、PRUNE和HARP等,然而,網(wǎng)絡(luò)通常包含由不同類型的關(guān)系連接起來(lái)的多種實(shí)體,稱為異構(gòu)信息網(wǎng)絡(luò)(HINs)[5]。由于異構(gòu)性,傳統(tǒng)的網(wǎng)絡(luò)表現(xiàn)學(xué)習(xí)方法不能滿足異構(gòu)信息網(wǎng)絡(luò)的需要,近年來(lái),一些研究論文在異構(gòu)信息網(wǎng)絡(luò)的學(xué)習(xí)表示方面取得了豐碩的進(jìn)展。Chang等[6]首先利用深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)來(lái)獲得異構(gòu)信息網(wǎng)絡(luò)中的節(jié)點(diǎn)表示。Xu等[7]提出基于矩陣分解來(lái)獲取耦合異構(gòu)信息網(wǎng)絡(luò)的結(jié)構(gòu)信息。然而,深層神經(jīng)網(wǎng)絡(luò)和矩陣分解方法都存在計(jì)算量大的問(wèn)題。周麗等[8]提出了一種基于文本數(shù)據(jù)的半監(jiān)督表示學(xué)習(xí)方法PTE,該方法將異構(gòu)信息網(wǎng)絡(luò)分解為若干個(gè)二元網(wǎng)絡(luò),然后學(xué)習(xí)網(wǎng)絡(luò)表示。蔣宗禮等[9]提出了一種異構(gòu)跳圖模型metapath2vec,將基于元路徑的隨機(jī)游動(dòng)形式化,構(gòu)造異構(gòu)鄰域,學(xué)習(xí)異構(gòu)信息網(wǎng)絡(luò)的表示。雖然上述方法能夠應(yīng)用于異構(gòu)信息網(wǎng)絡(luò),但其計(jì)算量大,且使用框架有相應(yīng)的限制,另外無(wú)法全方位地保存異構(gòu)信息。
針對(duì)上述分析,提出一種全局異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)框架,在保持異構(gòu)信息網(wǎng)絡(luò)全局結(jié)構(gòu)信息的同時(shí),采用基于元路徑的隨機(jī)游走策略和自編碼器來(lái)提取語(yǔ)義信息。通過(guò)幾個(gè)異構(gòu)信息網(wǎng)絡(luò)挖掘任務(wù)驗(yàn)證了本文方法的有效性。
異構(gòu)信息網(wǎng)絡(luò)是指具有多種對(duì)象和/或多種鏈接的網(wǎng)絡(luò)。在異構(gòu)信息網(wǎng)絡(luò)中,G=(V,E),V是節(jié)點(diǎn)集,E={(vi,vj)}是邊緣集,G是異構(gòu)信息網(wǎng)絡(luò)。異構(gòu)信息網(wǎng)絡(luò)還具有節(jié)點(diǎn)型映射函數(shù)φ:V→A和邊緣型映射函數(shù)ψ:E→R。在此,A和R分別表示預(yù)定義節(jié)點(diǎn)類型和鏈接類型的集合。當(dāng)|A|+|E|>2時(shí),該網(wǎng)絡(luò)稱為異構(gòu)信息網(wǎng)絡(luò);否則,為同構(gòu)網(wǎng)絡(luò)。例如,圖1所示的電影網(wǎng)絡(luò)具有三個(gè)不同類型的節(jié)點(diǎn):用戶(U)、電影(M)和標(biāo)簽(T)。
圖1 電影網(wǎng)絡(luò)結(jié)構(gòu)
異構(gòu)信息網(wǎng)絡(luò)中的節(jié)點(diǎn)相似性定義為一對(duì)節(jié)點(diǎn)間的相似性。對(duì)于任意一對(duì)節(jié)點(diǎn)(vi,vj),如果存在一條邊滿足(vi,vj)∈E,則將vi和vj的一階相似度定義為1。如圖2所示,由實(shí)線連接的每個(gè)節(jié)點(diǎn)對(duì)具有一階相似性。異構(gòu)信息網(wǎng)絡(luò)的高階相似性度量了其鄰域結(jié)構(gòu)的成對(duì)相似性。給定一個(gè)節(jié)點(diǎn)對(duì)(vi,vj)∈E,如果它們有一個(gè)公共的一階相連的頂點(diǎn)vk滿足(vi,vk)∈E以及(vj,vk)∈E,則它們之間存在二階相似性。因此,vj和vj的表示應(yīng)該相似。圖2中的細(xì)虛線圓圈表示節(jié)點(diǎn)之間的二階相似性。此外,可以得到高階相似性定義。如果從vj到vj存在路徑(vi,v2,…,vn,vj)則vi、vj具有n階相似度。粗虛線圓圈表示網(wǎng)絡(luò)中的四階相似性。
本文提出一種半監(jiān)督的異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)方法,主要集中在保存語(yǔ)義信息和高階相似性。SGHIRL的框架如圖3所示。整個(gè)體系結(jié)構(gòu)由訓(xùn)練數(shù)據(jù)的準(zhǔn)備和表示學(xué)習(xí)兩部分組成。為了保存語(yǔ)義信息和高階相似性,首先對(duì)輸入異構(gòu)信息網(wǎng)絡(luò)中的路徑進(jìn)行采樣,形成路徑集。然后需要一個(gè)能夠?qū)⑺鼈兙幋a為低維向量的框架。為此,本文提出使用自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò)模型和路徑預(yù)測(cè)任務(wù)來(lái)分別學(xué)習(xí)和改進(jìn)節(jié)點(diǎn)的表示。
圖3 SGHIRL的結(jié)構(gòu)框架
網(wǎng)絡(luò)的異構(gòu)性加快從網(wǎng)絡(luò)中提取更多的隱含信息。該算法采用元路徑來(lái)獲取異構(gòu)信息。元路徑模式S=(Asub,Rsub)可以用節(jié)點(diǎn)序列和邊緣序列的形式表示。
(1)
式中:Asub和Rsub是A和R的子集;ai表示特定的節(jié)點(diǎn)類型;ri表示邊緣類型。給定一個(gè)元路徑模式,可以將原始的異構(gòu)信息網(wǎng)絡(luò)G分解為一個(gè)能夠保留語(yǔ)義信息的元路徑集合Gs。
Gs的鄰接矩陣可以表示為Mp∈Rn×n,當(dāng)且僅當(dāng)節(jié)點(diǎn)i通過(guò)元路徑樣本P與節(jié)點(diǎn)j相連時(shí),Mp(i,j)=1??紤]到Mp的構(gòu)造比較復(fù)雜,在實(shí)際應(yīng)用中不需要構(gòu)造Mp。事實(shí)上,對(duì)于任意長(zhǎng)度lp的路徑模式,可以通過(guò)維護(hù)lp-1鄰接查找表來(lái)獲得lp-1中任意兩個(gè)給定節(jié)點(diǎn)的連通性。
為了提取異構(gòu)信息,本文采用基于元路徑的隨機(jī)游走策略從異構(gòu)信息網(wǎng)絡(luò)中采取路徑。對(duì)于每個(gè)路徑P,設(shè)置一個(gè)指標(biāo)變量Ip來(lái)標(biāo)明該路徑是否是原始網(wǎng)絡(luò)中的元路徑。例如,在圖3(a)所示的電影網(wǎng)絡(luò)中有三種類型的節(jié)點(diǎn):用戶(U)、標(biāo)簽(T)和電影(M)。假設(shè)選擇一個(gè)長(zhǎng)度為5的元路徑模式
算法1基于元路徑的數(shù)據(jù)采樣
輸入:異構(gòu)信息網(wǎng)絡(luò)G=(V,E),元路徑模式S,每個(gè)節(jié)點(diǎn)的行走步數(shù)u,負(fù)樣本數(shù)q。
輸出:數(shù)據(jù)集D。
1.初始化D=[];
2.fori= 1:1:udo
3.根據(jù)S從網(wǎng)絡(luò)中對(duì)路徑P進(jìn)行采樣;
4.將樣本(P,1)加入D中;
5.forj=k:1:qdo
6.產(chǎn)生一個(gè)負(fù)樣本P-;
7.將樣本(P-,1)加入D中;
8.end for
9.end for
10.returnD
選自給定網(wǎng)絡(luò)中的節(jié)點(diǎn)序列或路徑,需要一個(gè)編碼框架將它們編碼到一個(gè)固定的低維空間。在最近提出的許多模型中,自編碼器被證明是最有效的解決方法。一般而言,自編碼器由兩部分組成:將原始輸入編成隱變量表示的編碼器和試圖從隱變量表示中恢復(fù)數(shù)據(jù)的解碼器。給定鄰接矩陣xi的第i行,表示節(jié)點(diǎn)i,編碼器將其映射到低維空間:
(2)
(3)
(4)
式中:dist(x,y)表示距離,在實(shí)驗(yàn)中首先考慮歐幾里得距離。對(duì)于元路徑中的每個(gè)節(jié)點(diǎn),考慮到每個(gè)節(jié)點(diǎn)的位置和類型不同,使用獨(dú)立的自動(dòng)編碼器將其映射到低維向量。因此,自編碼器部分的代價(jià)函數(shù)為:
(5)
式中:Pj表示訓(xùn)練數(shù)據(jù)中的第j條路徑,總共np條路徑。事實(shí)上,大多數(shù)網(wǎng)絡(luò)是稀疏的,這意味著xi中非零元素的數(shù)目遠(yuǎn)遠(yuǎn)少于零元素的數(shù)目。SGHIRL通過(guò)獲取網(wǎng)絡(luò)中的高階相似性來(lái)緩解這個(gè)問(wèn)題。此外,在計(jì)算自編碼器的損耗時(shí),只需關(guān)注xi中的非零元素。此時(shí)自動(dòng)編碼損失值為:
(6)
式中:?為哈達(dá)瑪積。注意,在這里引入哈達(dá)瑪積將導(dǎo)致解碼器總是輸出全為1的向量,從而迫使LAE等于零。本文稍后會(huì)討論如何解決這個(gè)問(wèn)題。對(duì)自動(dòng)編碼層進(jìn)行訓(xùn)練后,可以得到初始節(jié)點(diǎn)的表示形式,為[z1,z2,…,zlP]。
實(shí)際上,可以通過(guò)訓(xùn)練自編碼器來(lái)獲得基礎(chǔ)表示。為了保留高階相似性和語(yǔ)義信息,引入一種中間表示,即路徑表示,用來(lái)表示細(xì)化過(guò)程。所提出的SGHIRL訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型用于二元預(yù)測(cè)任務(wù),以判別給定節(jié)點(diǎn)序列之間是否存在路徑。雖然有很多種深層架構(gòu)可供選擇,但本文方法模型能高效率計(jì)算,且表達(dá)式便于應(yīng)用。具體而言,SGHIRL采用了一個(gè)單隱層前向神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將序列[z1,z2,…,zlP]作為輸入,用來(lái)預(yù)測(cè)節(jié)點(diǎn)間路徑存在的概率。即第一層以多個(gè)節(jié)點(diǎn)作為輸入,然后通過(guò)一個(gè)非線性映射函數(shù),由隱藏層獲得集相似性和語(yǔ)義于一體的路徑,表示為:
(7)
(8)
式中:W[2]表示第二個(gè)隱藏層的權(quán)重;b[2]表示第二個(gè)隱藏層偏移向量。
(9)
式中:Ij是訓(xùn)練集的指標(biāo)變量。
算法(SGHIRL)步驟如算法2所示。
算法2半監(jiān)督全局異構(gòu)信息保存網(wǎng)絡(luò)表示學(xué)習(xí)(SGHIRL)。
輸入:訓(xùn)練數(shù)據(jù)D,節(jié)點(diǎn)集V,元路徑模式S,每個(gè)節(jié)點(diǎn)行走步數(shù)u,自編碼器lp。
1. 隨機(jī)初始化參數(shù)θ,θ={WEN,WDE,W[1],W[2],b};
2. while目標(biāo)函數(shù)不收斂do
4. 用小批量梯度下降法更新θ;
5. end while
7. for vi:1:V do
8. 獲取節(jié)點(diǎn)表示zi;
10. end for
所提出的SGHIRL學(xué)習(xí)表示法是將前向神經(jīng)網(wǎng)絡(luò)中的自編碼器重構(gòu)損失LAE和預(yù)測(cè)損失LNN聯(lián)合最小化,即目標(biāo)是解決以下優(yōu)化問(wèn)題:
(10)
為了將參數(shù)W和b進(jìn)行優(yōu)化,用小批量梯度下降的反向傳播算法對(duì)SGHIRL進(jìn)行訓(xùn)練。首先從異構(gòu)信息網(wǎng)絡(luò)中抽取路徑并生成(P,Ip)形式的負(fù)路徑,用來(lái)構(gòu)造訓(xùn)練數(shù)據(jù)集D。
則可采用式(11)對(duì)參數(shù)θ進(jìn)行更新。
(11)
式中:η是學(xué)習(xí)率??梢酝ㄟ^(guò)自編碼器獲得任意節(jié)點(diǎn)的向量表示形式。
為了驗(yàn)證SGHIRL的有效性,本文在四個(gè)不同的異構(gòu)信息網(wǎng)絡(luò)上進(jìn)行了實(shí)驗(yàn),包括GPS網(wǎng)絡(luò)、醫(yī)學(xué)網(wǎng)絡(luò)、電影評(píng)論網(wǎng)絡(luò)和語(yǔ)言網(wǎng)絡(luò)。表1總結(jié)了這些異構(gòu)信息網(wǎng)絡(luò)的統(tǒng)計(jì)數(shù)據(jù)。
表1 異構(gòu)信息網(wǎng)絡(luò)參數(shù)統(tǒng)計(jì)
(1) GPS:這個(gè)數(shù)據(jù)集記錄了164個(gè)用戶的軌跡,包括5種不同類型的活動(dòng)。它最初用于構(gòu)建推薦活動(dòng)系統(tǒng)。對(duì)于每個(gè)包含三個(gè)元素的元組:用戶、位置和活動(dòng),假設(shè)任何兩個(gè)對(duì)象之間都有一個(gè)直接的鏈接。因此,以用戶定位、用戶活動(dòng)和位置活動(dòng)的形式構(gòu)建了一個(gè)具有邊緣的異構(gòu)網(wǎng)絡(luò)[9]。
(2) Drug:這是提交給美國(guó)食品和藥物管理局(FDA)的關(guān)于不良事件和用藥錯(cuò)誤報(bào)告的公共信息的子集。完整的數(shù)據(jù)集在FDA不良事件報(bào)告系統(tǒng)(FAERS)上出版。與GPS一樣,對(duì)于數(shù)據(jù)集中的每個(gè)報(bào)告,本文假設(shè)使用者、藥物和反應(yīng)是相互關(guān)聯(lián)的。以用戶藥物、用戶反應(yīng)和藥物反應(yīng)的形式構(gòu)建一個(gè)具有邊緣的異構(gòu)網(wǎng)絡(luò)[9]。
(3) MovieLens:這是一個(gè)典型的網(wǎng)絡(luò)評(píng)論數(shù)據(jù)集,描述人們?nèi)绾卧u(píng)價(jià)電影,并廣泛用于電影推薦服務(wù)。根據(jù)數(shù)據(jù)集的組織結(jié)構(gòu),以電影用戶和電影標(biāo)簽的形式構(gòu)建了一個(gè)具有邊緣的異構(gòu)網(wǎng)絡(luò)[10]。
(4) WordNet:這是一個(gè)大型詞匯數(shù)據(jù)庫(kù),用于生成詞典,并支持自動(dòng)文本分析。它由同義詞集和這些同義詞集之間的關(guān)系類型組成,是一個(gè)具有超邊的異構(gòu)網(wǎng)絡(luò)[11]。
本文比較了SGHIRL與以下網(wǎng)絡(luò)表示學(xué)習(xí)方法的性能:
(1) DeepWalk[12]:從網(wǎng)絡(luò)生成截短隨機(jī)游動(dòng),并應(yīng)用skip-Gram模型來(lái)學(xué)習(xí)網(wǎng)絡(luò)表示。在這里,對(duì)整個(gè)異構(gòu)信息網(wǎng)絡(luò)進(jìn)行DeepWalk,而忽略了節(jié)點(diǎn)的類型。
(2) LINE[13]:LINE分別保留網(wǎng)絡(luò)中節(jié)點(diǎn)的一階和二階相似性,并通過(guò)skip-gram模型學(xué)習(xí)網(wǎng)絡(luò)表示。將一階和二階相似性的表示串聯(lián)起來(lái),同樣忽略了節(jié)點(diǎn)類型。
(3) node2vec[14]:作為DeepWalk的一種廣義方法,node2vec通過(guò)參數(shù)化隨機(jī)游動(dòng)捕捉w-hop鄰域內(nèi)的節(jié)點(diǎn)對(duì),從而學(xué)習(xí)低維度節(jié)點(diǎn)向量。此方法無(wú)法處理節(jié)點(diǎn)類型。
(4) HEBE[15]:HEBE是基于超邊的網(wǎng)絡(luò)表示學(xué)習(xí)框架,它可以捕獲不同類型節(jié)點(diǎn)之間的交互情況。
(5) DHNE[16]:DHNE的目標(biāo)是學(xué)習(xí)超級(jí)網(wǎng)絡(luò)的低維度表示,并使用深度模型來(lái)保持向量空間中的局部和全局相似性。
注意,DeepWalk、LINE和node2vec是為同構(gòu)網(wǎng)絡(luò)設(shè)計(jì)的。為了公平比較,SGHIRL還采用普通隨機(jī)游走策略從異構(gòu)信息網(wǎng)絡(luò)中抽取路徑,盡管HEBE和DHNE是為異構(gòu)網(wǎng)絡(luò)設(shè)計(jì)的。
本文為每個(gè)數(shù)據(jù)集在SGHIRL中設(shè)計(jì)前向自編碼器神經(jīng)網(wǎng)絡(luò)。針對(duì)GPS這個(gè)規(guī)模較小的數(shù)據(jù)集,節(jié)點(diǎn)表示的維度均設(shè)置為64,因此自編碼器的輸出層尺寸為64×5。權(quán)衡參數(shù)α通過(guò)線性搜索進(jìn)行調(diào)整,取值范圍為[0,1],每隔0.1取一個(gè)值。對(duì)于所有適用的模型,負(fù)采樣率始終設(shè)置為5;學(xué)習(xí)率η的起始值設(shè)置為0.1,并采用Adam自動(dòng)調(diào)整學(xué)習(xí)率;批的最小值設(shè)置為16。在SGHIRL中為每個(gè)節(jié)點(diǎn)抽取了1 000條路徑。為了公平比較,DeepWalk和node2vec中每個(gè)節(jié)點(diǎn)的行走次數(shù)設(shè)為125,行走長(zhǎng)度為40。為了考察SGHIRL的一般適用性,其隨機(jī)行走路徑模式下的行走長(zhǎng)度設(shè)為5。以上未提及的其他參數(shù)均設(shè)為默認(rèn)值。而針對(duì)MovieLens以及WordNet兩個(gè)規(guī)模較大的數(shù)據(jù)集來(lái)說(shuō),單一隱層的自編碼器計(jì)算能力稍顯不夠,因此根據(jù)數(shù)據(jù)集的規(guī)模,可以設(shè)置不同層數(shù)的隱藏層自動(dòng)編碼器來(lái)匹配相應(yīng)的計(jì)算需求,從而進(jìn)行驗(yàn)證,其各隱藏層節(jié)點(diǎn)數(shù)與單一隱藏層的節(jié)點(diǎn)數(shù)相同,相關(guān)參數(shù)設(shè)置與單一隱藏層無(wú)異。為了觀察自編碼器在節(jié)點(diǎn)表示學(xué)習(xí)中的作用,建立一個(gè)只包含一個(gè)自編碼器的SGHIRL模型進(jìn)行比較。注意,模型的復(fù)雜性與自編碼器的數(shù)量呈線性關(guān)系。例如,當(dāng)采用長(zhǎng)度為l的路徑模式時(shí),正常SGHIRL參數(shù)值如表2所示,忽略偏差參數(shù)b。
表2 每個(gè)數(shù)據(jù)集上的參數(shù)值
通過(guò)網(wǎng)絡(luò)重構(gòu)、鏈路預(yù)測(cè)和節(jié)點(diǎn)分類等多個(gè)下游任務(wù)來(lái)評(píng)估不同模型的性能。為了確保實(shí)驗(yàn)的可靠性,將所有評(píng)估重復(fù)進(jìn)行5次,并計(jì)算出平均結(jié)果。
為了直接評(píng)估表示學(xué)習(xí)算法能在多大程度上保留原始網(wǎng)絡(luò)的結(jié)構(gòu)信息,本文對(duì)所有數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)重構(gòu)。使用整個(gè)網(wǎng)絡(luò)以及生成的負(fù)樣本來(lái)訓(xùn)練模型并獲得每個(gè)節(jié)點(diǎn)的表示。特別是對(duì)于SGHIRL,將節(jié)點(diǎn)反饋給相應(yīng)類型的自編碼器,從而獲得表示。如果有多個(gè)對(duì)應(yīng)類型的自編碼器,取平均值即可。其任務(wù)是通過(guò)比較兩個(gè)節(jié)點(diǎn)表示之間的相似性來(lái)重構(gòu)原始網(wǎng)絡(luò)中的邊緣。利用余弦相似性來(lái)預(yù)測(cè)原始網(wǎng)絡(luò)中的邊緣。采用AUC[16]進(jìn)行評(píng)價(jià),結(jié)果見(jiàn)表3。
表3 AUC在網(wǎng)絡(luò)重建方面得分
如表3所示,除了隨機(jī)模式和單個(gè)SGHIRL外,在AUC方面,所提出的SGHIRL在四個(gè)數(shù)據(jù)集上的運(yùn)行結(jié)果優(yōu)于其他所有比較方法。很明顯,僅使用單個(gè)自編碼器來(lái)學(xué)習(xí)節(jié)點(diǎn)表示的SGHIRL性能最差。與SGHIRL隨機(jī)游走模型相比,該結(jié)果表明單個(gè)SGHIRL的自適應(yīng)能力受到自編碼器的限制。與DHNE和HEBE等異構(gòu)信息網(wǎng)絡(luò)表示學(xué)習(xí)模型相比,SGHIRL+metapath模型在所有數(shù)據(jù)集上的運(yùn)行結(jié)果相對(duì)改進(jìn)率分別至少為3.43%、2.78%、3.26%和4.32%。結(jié)果表明,表示形式的改進(jìn)對(duì)于保存異構(gòu)信息網(wǎng)絡(luò)的結(jié)構(gòu)信息具有積極效果。注意,DHNE和本文模型均優(yōu)于HEBE,這說(shuō)明高階相似性在網(wǎng)絡(luò)表示學(xué)習(xí)中的重要性。此外,通過(guò)比較全部采用隨機(jī)游走取樣策略的DeepWalk、LINE和node2vec,SGHIRL在四個(gè)數(shù)據(jù)集上的精確率分別提高了19.09%、36.11%、2.22%和4.05%,說(shuō)明了本文模型在異構(gòu)信息網(wǎng)絡(luò)中保存異構(gòu)信息的有效性。此外,觀察到具有元路徑抽樣策略的SGHIRL始終優(yōu)于隨機(jī)行走抽樣策略,這說(shuō)明表示學(xué)習(xí)可以從語(yǔ)義信息中受益。此外,SGHIRL在不同路徑模式下的性能表明使用較長(zhǎng)的元路徑將獲得更好的節(jié)點(diǎn)表示。
網(wǎng)絡(luò)表示學(xué)習(xí)的最原始對(duì)象是預(yù)測(cè)將來(lái)哪對(duì)節(jié)點(diǎn)將形成一條邊緣。對(duì)于鏈接預(yù)測(cè)任務(wù),首先隨機(jī)均勻地隱藏10%的邊緣,剩余網(wǎng)絡(luò)和生成的無(wú)邊緣用于訓(xùn)練SGHIRL并獲得表示,其任務(wù)是使用獲得的表示來(lái)預(yù)測(cè)那些隱藏的邊緣。與網(wǎng)絡(luò)重建任務(wù)相似,使用余弦相似性來(lái)預(yù)測(cè)邊緣,并使用AUC來(lái)評(píng)估預(yù)測(cè)性能,結(jié)果見(jiàn)表4。
表4 AUC在鏈接預(yù)測(cè)方面得分
由于HEBE、DHNE和SGHIRL都利用語(yǔ)義信息進(jìn)行預(yù)測(cè),因此它們的性能相對(duì)較好。實(shí)驗(yàn)過(guò)程中注意到,在這些異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)方法中,本文模型的性能最佳,這主要是因?yàn)镾GHIRL將高階相似性和語(yǔ)義信息集成在一起。與以前的研究結(jié)果一致,證明了保留高階相似性可以提高鏈路預(yù)測(cè)性能,這反映了網(wǎng)絡(luò)結(jié)構(gòu)信息的重要性。較長(zhǎng)的路徑架構(gòu)仍然有助于SGHIRL獲得更高的分?jǐn)?shù)。此外,在僅考慮節(jié)點(diǎn)相似性的模型,即DeepWalk、LINE、node2vec和SGHIRL+隨機(jī)行走模型中,本文模型仍然表現(xiàn)最佳。一致認(rèn)為性能改進(jìn)的主要原因是SGHIRL中改進(jìn)的優(yōu)越性。此外,與SGHIRL+隨機(jī)游走模型相比SGHIRL+metapath,在四個(gè)數(shù)據(jù)集上的增益達(dá)到了6.12%~11.18%,這表明保留語(yǔ)義信息可以提高模型的泛化能力。
在節(jié)點(diǎn)分類任務(wù)中,為每個(gè)節(jié)點(diǎn)歸為一類或多個(gè)類。在MovieLens數(shù)據(jù)集中,每部電影都有一個(gè)或多個(gè)流派的標(biāo)簽。而在Wordnet數(shù)據(jù)集中,每個(gè)同義詞都有一個(gè)正屬性。由于只有兩個(gè)數(shù)據(jù)集具有類信息,因此在這兩個(gè)異構(gòu)信息網(wǎng)絡(luò)上進(jìn)行了節(jié)點(diǎn)分類實(shí)驗(yàn)。最近鄰分類器被用來(lái)預(yù)測(cè)將表示學(xué)習(xí)作為輸入的節(jié)點(diǎn)的標(biāo)簽。首先,在整個(gè)網(wǎng)絡(luò)上訓(xùn)練模型,得到所有節(jié)點(diǎn)的表示。然后將學(xué)習(xí)到的節(jié)點(diǎn)表示按9∶1的比例隨機(jī)分為訓(xùn)練集和測(cè)試集。節(jié)點(diǎn)的類屬性作為標(biāo)簽。在訓(xùn)練集上擬合一個(gè)最近鄰分類器,即K=1,然后使用測(cè)試集來(lái)驗(yàn)證SGHIRL節(jié)點(diǎn)表示學(xué)習(xí)的有效性。表5和表6分別記錄了宏觀F1和微觀F1的平均值。
表5 用于節(jié)點(diǎn)分類的MovieLens和WordNet上的宏觀F1
表6 用于節(jié)點(diǎn)分類的MovieLens和WordNet上的微觀F1
從結(jié)果來(lái)看,SGHIRL在節(jié)點(diǎn)分類任務(wù)上各方面優(yōu)于所有對(duì)比方法,進(jìn)一步驗(yàn)證了語(yǔ)義信息和細(xì)化過(guò)程的有效性。在所有基于隨機(jī)游走的模型中,DeepWalk和LINE的性能最差,因?yàn)樗鼈儾捎脟?yán)格的策略來(lái)探索網(wǎng)絡(luò)中的鄰域。在探索網(wǎng)絡(luò)鄰域方面具有更靈活策略的Node2vec表現(xiàn)得更好。另外,與SGHIRL和DHNE相比,HEBE表現(xiàn)最差。在WordNet數(shù)據(jù)集上所有方法中,HEBE的F1得分最低,這意味著數(shù)據(jù)稀疏性嚴(yán)重?fù)p害了HEBE的性能,并且在LINE和DeepWalk中觀察到類似的情況。在所有四個(gè)數(shù)據(jù)集上,SGHIRL+隨機(jī)游走模型始終比HEBE表現(xiàn)得更好,這說(shuō)明表示精簡(jiǎn)程序的有效性。
進(jìn)一步進(jìn)行魯棒性測(cè)試,為了模擬具有不同稀疏度的網(wǎng)絡(luò),在四個(gè)數(shù)據(jù)集上將訓(xùn)練率從10%調(diào)整到90%,網(wǎng)絡(luò)的剩余部分用于測(cè)試鏈路預(yù)測(cè)模型的魯棒性。本節(jié)中使用的路徑模式如表7所示,結(jié)果如圖4所示。
表7 用于穩(wěn)健性檢驗(yàn)的路徑架構(gòu)
圖4 四種數(shù)據(jù)集鏈路預(yù)測(cè)的魯棒性檢驗(yàn)
圖4描繪了在所有方法上隨著訓(xùn)練數(shù)據(jù)大小的增加而不斷改進(jìn)的AUC模型。注意到SGHIRL+元路徑始終優(yōu)于DHNE和HEBE,這表明當(dāng)網(wǎng)絡(luò)稀疏時(shí),高階相似性非常重要。通過(guò)SGHIRL+metapath和SGHIRL+隨機(jī)游走模型的比較,說(shuō)明了表示細(xì)化的有效性。
本節(jié)研究了模型中不同參數(shù)對(duì)鏈路預(yù)測(cè)的敏感性,包括表示尺寸、損失權(quán)衡參數(shù)α和每個(gè)節(jié)點(diǎn)的遍歷次數(shù)。結(jié)果如圖5所示。
圖5 靈敏度測(cè)試
從圖5(a)可以看出,性能首先隨著表示維度的增長(zhǎng)而提高,然后達(dá)到飽和,原因是SGHIRL需要合適的維度對(duì)異構(gòu)信息進(jìn)行編碼。當(dāng)表示尺寸大于128時(shí),除WordNet外,AUC開(kāi)始下降。這是因?yàn)檩^大的尺寸可能會(huì)引入一些冗余,但是對(duì)于WordNet,較適合采用高維向量表示節(jié)點(diǎn),因?yàn)樗S多節(jié)點(diǎn),而且是一個(gè)稀疏網(wǎng)絡(luò)。
圖5(b)描繪了損耗權(quán)衡參數(shù)α對(duì)性能產(chǎn)生的影響。參數(shù)α衡量無(wú)監(jiān)督誤差LAE和有監(jiān)督誤差LNN。當(dāng)α為0時(shí),忽略了自編碼器的損耗,因此SGHIRL只考慮了路徑預(yù)測(cè)的誤差,可以認(rèn)為該模型主要保留網(wǎng)絡(luò)中的語(yǔ)義信息。即使在這種情況下,神經(jīng)網(wǎng)絡(luò)模型也能取得良好的效果,這也表明了語(yǔ)義信息在網(wǎng)絡(luò)中的重要性。隨著α的增加,性能得到了改善,因?yàn)橐氲腖AE主要影響高階相似性。該研究結(jié)果表明了高階相似性和語(yǔ)義信息的集成的重要性。但是,當(dāng)α大于0.5時(shí),這意味著SGHIRL的路徑預(yù)測(cè)誤差LNN對(duì)模型沒(méi)有太大影響,而四個(gè)數(shù)據(jù)集的性能都急劇下降。當(dāng)α為1時(shí),SGHIRL只考慮重構(gòu)LAE的損失,從而得到的AUC值很低。結(jié)果表明自學(xué)習(xí)是一種合理的無(wú)監(jiān)督編碼方法,能同時(shí)保留高階相似性和語(yǔ)義信息的必要性。
圖5(c)表示在每個(gè)節(jié)點(diǎn)上存在的數(shù)據(jù)和信息產(chǎn)生更多的行走,但增加步行次數(shù)所產(chǎn)生的收益也將會(huì)達(dá)到飽和。為了驗(yàn)證不同長(zhǎng)度的路徑模式的復(fù)雜性,在藥物數(shù)據(jù)集上測(cè)量了每批數(shù)據(jù)的訓(xùn)練時(shí)間,如圖5(d)所示??梢杂^察到訓(xùn)練時(shí)間與路徑模式的長(zhǎng)度呈線性關(guān)系,證實(shí)了之前對(duì)模型的參數(shù)估計(jì)。
傳統(tǒng)的網(wǎng)絡(luò)表示學(xué)習(xí)模型存在網(wǎng)絡(luò)信息保存不全面的缺點(diǎn),為此提出一種半監(jiān)督全局異構(gòu)信息保存網(wǎng)絡(luò)表示學(xué)習(xí)框架。通過(guò)多個(gè)異構(gòu)數(shù)據(jù)集的驗(yàn)證結(jié)果可得出如下結(jié)論:
(1) 相較于其他方法,本文模型在異構(gòu)信息網(wǎng)絡(luò)中保存異構(gòu)信息更加有效。
(2) 具有元路徑抽樣策略的SGHIRL始終優(yōu)于隨機(jī)行走抽樣策略,這說(shuō)明表示學(xué)習(xí)可以從語(yǔ)義信息中受益。此外,SGHIRL在不同路徑模式下的性能表明使用較長(zhǎng)的元路徑將獲得更好的節(jié)點(diǎn)表示,驗(yàn)證了語(yǔ)義信息和細(xì)化過(guò)程對(duì)改善方法的重要性。
(3) 保留高階相似性可以提高鏈路預(yù)測(cè)性能,這反映了網(wǎng)絡(luò)結(jié)構(gòu)信息的重要性,另外,保留語(yǔ)義信息可以提高模型的泛化能力。
(4) 自編碼器是一種合理的無(wú)監(jiān)督編碼方法,能夠有效提升方法的應(yīng)用范圍,且同時(shí)保留高階相似性和語(yǔ)義信息,對(duì)于性能的提升有著十分重要的作用。