亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習①

2019-12-20 02:31:28蔣宗禮陳浩強張津麗

計算機系統(tǒng)應用 2019年12期

蔣宗禮,陳浩強,張津麗

(北京工業(yè)大學信息學部,北京 100124)

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,現(xiàn)實生活中出現(xiàn)了大量的信息網(wǎng)絡(luò),如社交網(wǎng)絡(luò)、論文引用網(wǎng)絡(luò)、電商信息網(wǎng)絡(luò).信息網(wǎng)絡(luò)中包含豐富的數(shù)據(jù)信息,對這些數(shù)據(jù)進行多角度、多層次的分析具有重要意義.例如,分析電商信息網(wǎng)絡(luò)中用戶購物數(shù)據(jù)可獲知用戶的喜好信息,進而可優(yōu)化電商系統(tǒng)中的商品推薦系統(tǒng).但是,信息網(wǎng)絡(luò)中一般包含數(shù)百萬個數(shù)據(jù)節(jié)點和節(jié)點之間的連接(稱為“邊”),因此在原始信息網(wǎng)絡(luò)中執(zhí)行復雜的推理、操作將消耗大量計算資源.目前,一種行之有效的解決方法是對信息網(wǎng)絡(luò)進行網(wǎng)絡(luò)表征學習以降低信息網(wǎng)絡(luò)中數(shù)據(jù)的表示維度.網(wǎng)絡(luò)表征學習可將信息網(wǎng)絡(luò)中節(jié)點或者邊映射到低維向量空間,即通過降維處理,得到節(jié)點或者邊的低維、實值、稠密的向量形式,并且在低維空間中具有表示以及推理能力[1].

目前,信息網(wǎng)絡(luò)表征學習研究中大部分工作聚焦于同質(zhì)信息網(wǎng)絡(luò)(信息網(wǎng)絡(luò)中包含單一類型的節(jié)點及單一類型的邊)[2].比如,Perozzi B等[3]首次提出以隨機游走為基礎(chǔ)的網(wǎng)絡(luò)表征學習模型DeepWalk.該模型將信息網(wǎng)絡(luò)中數(shù)據(jù)節(jié)點視為單詞,節(jié)點序列視為句子,然后通過隨機游走構(gòu)建由節(jié)點序列組成的語料庫,進而結(jié)合自然語言處理領(lǐng)域中Skip-gram[4]模型學習信息網(wǎng)絡(luò)中節(jié)點的低維表征.其實驗結(jié)果表明隨機游走技術(shù)可有效提取信息網(wǎng)絡(luò)中結(jié)構(gòu)信息并應用于節(jié)點的表征學習.在DeepWalk的基礎(chǔ)上Grover A等[5]提出了應用深度優(yōu)先隨機游走和廣度優(yōu)先隨機游走提取信息網(wǎng)絡(luò)中結(jié)構(gòu)信息并結(jié)合Skip-gram模型的Node2Vec網(wǎng)絡(luò)表征學習模型.相比于DeepWalk模型Node2Vec模型在信息網(wǎng)絡(luò)的低維表征中保留了更多的結(jié)構(gòu)信息,其在分類實驗中的準確率同樣優(yōu)于DeepWalk模型.除應用隨機游走技術(shù)獲取信息網(wǎng)絡(luò)中結(jié)構(gòu)信息進行表征學習外,Tang J[6]提出了應用節(jié)點間一介相似性和節(jié)點間二階相似性提取網(wǎng)絡(luò)結(jié)構(gòu)信息進行表征學習的LINE 模型.此外,Yang C[7]、Cao SS[8]、Tu CC[9]等還提出了基于矩陣分解的網(wǎng)絡(luò)表征學習方法.

相比于同質(zhì)信息網(wǎng)絡(luò),異質(zhì)信息網(wǎng)絡(luò)中包含多種類型的數(shù)據(jù)節(jié)點或者邊[10],導致同質(zhì)信息網(wǎng)絡(luò)的表征學習方法不適用于異質(zhì)網(wǎng)絡(luò).異質(zhì)網(wǎng)絡(luò)表征學習中元路徑是一個極其重要的概念,Shi C等[11-13]對此進行了整理、研究.這些研究發(fā)現(xiàn)元路徑可表示節(jié)點類型間的復合關(guān)系,不同元路徑表示不同的語義信息,基于不同元路徑的表征學習方法可造成不同的分析結(jié)果和特征表示.此外,Zhang JL等[14]利用不同元路徑表示的語義信息對異質(zhì)信息網(wǎng)絡(luò)進行表征學習.在元路徑的基礎(chǔ)上Dong YX等[15]提出了Metapath2Vec異質(zhì)信息網(wǎng)絡(luò)表征學習模型.該模型首次應用基于元路徑的隨機游走獲取異質(zhì)網(wǎng)絡(luò)中的結(jié)構(gòu)信息并結(jié)合Skip-gram模型學習異質(zhì)網(wǎng)絡(luò)中節(jié)點的低維表征,從而在低維表征中融入元路徑所表示的語義信息.但是,該模型僅基于單條元路徑對異質(zhì)網(wǎng)絡(luò)進行隨機游走以獲取異質(zhì)信息網(wǎng)絡(luò)的結(jié)構(gòu)信息.然而異質(zhì)信息網(wǎng)絡(luò)中存在多條元路徑,導致Metapath2Vec模型學習的低維表征中缺失原始網(wǎng)絡(luò)中部分結(jié)構(gòu)信息和其它元路徑表示的語義信息.

針對上述問題,本文提出了基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征.該表征學習方法首先針對異質(zhì)網(wǎng)絡(luò)提取元路徑集合,然后學習元路徑權(quán)重并以此為基礎(chǔ)對基于不同元路徑的低維表征進行加權(quán)融合,得到一個低維、實值、稠密且融合不同元路徑語義信息的異質(zhì)網(wǎng)絡(luò)表征.該低維表征中包含豐富的結(jié)構(gòu)信息以及不同元路徑表示的語義信息.本文的主要貢獻可概括為以下3點：

(1)在異質(zhì)網(wǎng)絡(luò)表征學習中引入元路徑權(quán)重,通過對基于不同元路徑的低維表征進行加權(quán)融合,解決了低維表征中缺失原始網(wǎng)絡(luò)中結(jié)構(gòu)信息以及缺失其它元路徑表示的語義信息問題.

(2)基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習在不同數(shù)據(jù)規(guī)模的異質(zhì)網(wǎng)絡(luò)中具有良好的表征學習能力,并可有效應用于數(shù)據(jù)挖掘.

(3)在實際數(shù)據(jù)集上進行的對比試驗驗證了基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法的正確性、有效性.

1 基本概念

信息網(wǎng)絡(luò)[12]用于表示由數(shù)據(jù)節(jié)點以及節(jié)點之間聯(lián)系組成的數(shù)據(jù)網(wǎng)絡(luò),可定義為有向圖.

定義1.信息網(wǎng)絡(luò)G=(V,E),其中V表示信息網(wǎng)絡(luò)中數(shù)據(jù)節(jié)點的集合,E表示節(jié)點之間邊的集合.定義映射函數(shù) Φ :V→A表示節(jié)點與節(jié)點類型之間的映射關(guān)系,即對任意節(jié)點v∈V都有唯一的節(jié)點類型 Φ(v)∈A與之對應.定義映射函數(shù) Ψ :E→R表示邊與邊類型之間的映射關(guān)系,即對任意一條邊e∈E都有唯一的邊類型Ψ(e)∈R與之對應.當節(jié)點類型數(shù)|A|＞1或者邊類型數(shù)|R|＞1時,該信息網(wǎng)絡(luò)為異質(zhì)信息網(wǎng)絡(luò).

如圖1(a)所示,作者合著網(wǎng)絡(luò)為同質(zhì)信息網(wǎng)絡(luò),其中只包含作者類型的數(shù)據(jù)節(jié)點以及表示節(jié)點之間合著關(guān)系的邊.圖1(b)所示的學術(shù)文獻網(wǎng)絡(luò)為異質(zhì)信息網(wǎng)絡(luò),其中包含3種節(jié)點類型,分別為作者、文章、會議.同時,包含兩種邊類型,分別用于表示作者與文章之間的撰寫與被撰寫關(guān)系以及文章與會議之間的發(fā)表與被發(fā)表關(guān)系.

網(wǎng)絡(luò)模式[10]是信息網(wǎng)絡(luò)G=(V,E)的元級描述.

定義2.網(wǎng)絡(luò)模式TG=(A,R).其中A為信息網(wǎng)絡(luò)G中節(jié)點類型集合,R為信息網(wǎng)絡(luò)G中邊類型集合.

例如,在圖1(b)的基礎(chǔ)上可定義學術(shù)文獻網(wǎng)絡(luò)的網(wǎng)絡(luò)模式.如圖1(c)所示,該網(wǎng)絡(luò)模式為由3種節(jié)點類型和兩種邊類型構(gòu)成的有向圖.

在網(wǎng)絡(luò)模式的基礎(chǔ)上可定義元路徑[16],用于表示節(jié)點類型間的復合關(guān)系.

定義3.給定異質(zhì)信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式TG=(A,R),其元路徑定義為即在節(jié)點類型A1與Al+1之間定義長度為l的復合關(guān)系Rc=R1°R2°···°Rl,其中 ° 表示關(guān)系間的復合算子.

元路徑不僅刻畫了對象之間的語義關(guān)系,而且能夠提取對象之間的特征信息[16].例如,根據(jù)定義,可基于圖1(c)中的網(wǎng)絡(luò)模式定義學術(shù)文獻網(wǎng)絡(luò)的元路徑,如APA、APCPA、APAPA等.不同元路徑表示不同的語義信息,比如,APA表示兩個作者合著完成了一篇文章,而APCPA則表示兩個作者在同一個會議中發(fā)表了文章,前者語義中側(cè)重于文章,后者則側(cè)重于會議.

異質(zhì)信息網(wǎng)絡(luò)中存在多條元路徑,基于不同元路徑的表征學習方法可造成不同的分析結(jié)果和特征表示.為表示不同元路徑對異質(zhì)網(wǎng)絡(luò)表征學習的重要程度,本文對元路徑賦予相應的權(quán)重值.

定義4.元路徑集合P={p1,p2,···,pn},對于任意一條元路徑pi∈P都有權(quán)重wpi與之對{應,各條元路徑的權(quán)重值構(gòu)成元路徑的權(quán)重集合其中wp1+wp1+···+wpn=1.

網(wǎng)絡(luò)表征學習[17]用于降低信息網(wǎng)絡(luò)中數(shù)據(jù)節(jié)點的表示維度.

定義5.對于給定的信息網(wǎng)絡(luò)G=(V,E),網(wǎng)絡(luò)表征學習的目標是通過對目標函數(shù)fG=V→Ld的學習將信息網(wǎng)絡(luò)中的節(jié)點在低維空間Ld中進行向量表示,從而得到信息網(wǎng)絡(luò)的低維表征M∈ R|V|×d,其中d?|V|.低維空間Ld中的低維表征需盡可能保留原始信息網(wǎng)絡(luò)中的結(jié)構(gòu)信息,以便低維表征在低維空間中具有良好的表示、推理能力.

圖1 信息網(wǎng)絡(luò)及網(wǎng)絡(luò)模式

2 基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習

異質(zhì)網(wǎng)絡(luò)表征學習中元路徑具有刻畫對象之間語義關(guān)系以及能夠抽取對象之間特征信息的特點,經(jīng)常用于指導獲取異質(zhì)信息網(wǎng)絡(luò)的結(jié)構(gòu)信息.異質(zhì)信息網(wǎng)絡(luò)中不同元路徑表示不同的語義信息,因此基于不同元路徑的表征學習方法可造成不同的分析結(jié)果和特征表示.但是,現(xiàn)有的異質(zhì)網(wǎng)絡(luò)表征學習方法往往采用單條元路徑提取節(jié)點間結(jié)構(gòu)信息,進而學習節(jié)點的低維表征.導致學習到的低維表征中缺失原始信息網(wǎng)絡(luò)中部分結(jié)構(gòu)信息及其它元路徑表示的語義信息,影響低維表征在低維空間中的表示、推理能力,進而影響其在數(shù)據(jù)挖掘任務中的有效性.基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法學習到的低維表征融合了不同元路徑表示的語義信息,在低維空間中具有良好的表示、推理能力,提高了低維表征在數(shù)據(jù)挖掘任務中的有效性.如圖2所示,基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法包含4個處理階段：階段1用于構(gòu)建元路徑集合.階段2對元路徑集合進行權(quán)重學習.階段3根據(jù)元路徑集合學習各個元路徑所對應的異質(zhì)信息網(wǎng)絡(luò)的低維表征.階段4將基于元路徑權(quán)重對各個低維表征進行融合.

2.1 階段 1：構(gòu)建元路徑集合

此階段首先根據(jù)實際生活中的異質(zhì)信息網(wǎng)絡(luò)定義其網(wǎng)絡(luò)模式.對異質(zhì)信息網(wǎng)絡(luò)G=(V,E),其節(jié)點類型數(shù)|A|＞1或者邊類型數(shù)|R|＞1,定義其網(wǎng)絡(luò)模式為TG=(A,R).然后,基于網(wǎng)絡(luò)模式定義不同的元路徑pi,從而構(gòu)建異質(zhì)信息網(wǎng)絡(luò)的元路徑集合P={p1,p2,···,pn}.

2.2 階段 2：元路徑權(quán)重學習

目前,多個研究發(fā)現(xiàn)不同元路徑對異質(zhì)網(wǎng)絡(luò)表征學習的重要程度不同[14,16,18].因此,階段2中應用HeteClass[18]框架中的元路徑權(quán)重學習思想對階段1中

應用上述元路徑權(quán)重學習思想實現(xiàn)了元路徑權(quán)重學習程序并對元路徑集合P={p1,p2,···,pn}進行權(quán)重學習,以此計算元路徑的權(quán)重并構(gòu)建元路徑的權(quán)重集合

圖2 基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習

2.3 階段3：異質(zhì)信息網(wǎng)絡(luò)的表征學習

階段3將根據(jù)元路徑集合對異質(zhì)信息網(wǎng)絡(luò)進行表征學習.本文采用基于元路徑的隨機游走技術(shù)[15]獲取異質(zhì)信息網(wǎng)絡(luò)中節(jié)點序列集,結(jié)合Skip-gram[4]模型學習異質(zhì)信息網(wǎng)絡(luò)的低維表征.

基于元路徑的隨機游走技術(shù)是Dong YX[15]等人提構(gòu)建的元路徑集合進行權(quán)重學習,為元路徑賦予權(quán)重值,以此表明不同元路徑對異質(zhì)信息網(wǎng)絡(luò)表征學習的重要程度.

HeteClass框架是Gupta M等[18]提出的一種基于元路徑的直推式分類框架.該框架提出了一種基于目標類型對象之間關(guān)聯(lián)程度的元路徑權(quán)重學習方法.該方法以最大化相同標簽對象之間的相關(guān)性,同時最小化不同標簽對象之間的相關(guān)性為思想提出了式(1)所示的損失函數(shù).其中 θk表示第k個元路徑的重要程度,vi,vj表示帶標簽的目標類型對象.Sign為符號函數(shù),用于表示目標類型對象是否具有相同標簽信息,若相同值為1,否則值為-1.Simpk為目標對象的相關(guān)性矩陣[19].λ為正則化系數(shù),‖·‖為 ?2范數(shù).該學習方法通過最小化目標函數(shù)計算元路徑權(quán)重.出的一種基于元路徑的圖隨機遍歷技術(shù).對于給定的異質(zhì)信息網(wǎng)絡(luò)G=(V,E)和元路徑隨機游走的起始節(jié)點為A1類型節(jié)點,第i+ 1個游走節(jié)點的選擇概率如式(2)所示.其中表示At類型的節(jié)點,表示節(jié)點的鄰域中At+1類型的節(jié)點數(shù)量.第i+ 1個游走節(jié)點應從節(jié)點的所有At+1類型的鄰居節(jié)點中隨機選擇.基于節(jié)點選擇概率,隨機游走將在元路徑的指導下游走出包含元路徑語義信息以及異質(zhì)信息網(wǎng)絡(luò)中結(jié)構(gòu)信息的節(jié)點序列.

Skip-gram模型是Mikolov T等[4]提出的用于自然語言處理中學習大型數(shù)據(jù)集中單詞的連續(xù)向量表征的神經(jīng)網(wǎng)絡(luò)模型.Skip-gram模型具有三層網(wǎng)絡(luò)結(jié)構(gòu),分別為輸入層、隱藏層和輸出層,并提出了式(3)所示的損失函數(shù)[20].其中,C為上下文中單詞數(shù)量,V為語料庫中單詞數(shù)量,wI表示輸入的單詞,wO,i表示第i個輸出的上下文單詞,j*c為輸出層輸出的第c個上下文單詞在語料庫中的真實索引,u表示單詞從隱藏層到輸出層過程中的計算分數(shù).該模型輸入為由文本中句子構(gòu)成的語料庫,通過最小化損失函數(shù),學習語料庫中單詞的低維表征.

目前,DeepWalk[3]、Node2Vec[5]、Metapath2Vec[15]等研究發(fā)現(xiàn)將信息網(wǎng)絡(luò)中節(jié)點信息映射為自然語言可應用Skip-gram模型學習信息網(wǎng)絡(luò)中節(jié)點的低維表征.基于元路徑的隨機游走技術(shù)可提取包含元路徑語義信息、網(wǎng)絡(luò)結(jié)構(gòu)信息的節(jié)點序列,從而將異質(zhì)信息網(wǎng)絡(luò)中的節(jié)點信息映射為自然語言,進而可結(jié)合Skip-gram模型學習異質(zhì)信息網(wǎng)絡(luò)中節(jié)點的低維表征.

如圖2中階段3所示,首先應用基于元路徑的隨機游走技術(shù)獲取異質(zhì)信息網(wǎng)絡(luò)中的節(jié)點序列.對任意元路徑pi∈P獲取其相應的節(jié)點序列集cpi并構(gòu)建語料庫集合C={cp1,cp2,···,cpn}.

對語料庫集合中任意一個節(jié)點序列集cpi應用Skip-gram模型學習異質(zhì)信息網(wǎng)絡(luò)的低維表征Mpi.此時,任意元路徑pi都有唯一的低維表征Mpi與之對應.各個低維表征構(gòu)成了基于不同元路徑的低維表征集合M={Mp1,Mp2,···,Mpn}.

2.4 階段4：基于元路徑權(quán)重對低維表征進行融合

此階段基于元路徑權(quán)重集合W={wp1,wp2,···,wpn}對低維表征集合M={Mp1,Mp2,···,Mpn}進行加權(quán)融合.對于任意的低維表征Mpi均基于相應的元路徑pi,所以低維表征Mpi中僅包含元路徑pi所表示的語義信息,導致基于單一元路徑的低維表征中缺失其它元路徑表示的語義信息.而元路徑因語義信息的不同對表征學習的重要程度不同,從而具有不同的權(quán)重.所以對基于不同元路徑的低維表征進行加權(quán)融合可得到融合不同元路徑語義信息的低維表征,從而提高低維表征質(zhì)量.因此,本文提出了式(4)所示的低維表征融合公式,并基于該公式實現(xiàn)了基于元路徑權(quán)重的低維表征融合算法.

如算法1所示,該算法的輸入為元路徑權(quán)重集合、低維表征集合以及低維表征維度,然后依次對低維表征中d個特征分量進行加權(quán)融合,得到融合不同元路徑語義信息的低維表征MW.低維表征MW不僅包含不同元路徑的語義信息,而且還包含豐富的網(wǎng)絡(luò)結(jié)構(gòu)信息.以上特點使得基于融合元路徑權(quán)重的低維表征在低維空間中具有良好的表示、推理能力,并且可有效應用于數(shù)據(jù)挖掘任務.

算法1.基于元路徑權(quán)重的低維表征融合算法images/BZ_36_1632_2616_1903_2653.pngimages/BZ_36_2137_2616_2262_2653.pngimages/BZ_36_1290_2667_1457_2705.png輸入：元路徑權(quán)重集合,低維表征集合,維度d images/BZ_36_1775_2723_1825_2752.png輸出：融合元路徑權(quán)重的低維表征images/BZ_36_1375_2769_1554_2798.png1.for doimages/BZ_36_1324_2824_1953_2857.png2.3.end for

3 實驗結(jié)果與分析

為證明本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法的正確性以及在數(shù)據(jù)挖掘任務中的有效性,本文對實際數(shù)據(jù)集進行了節(jié)點分類對比試驗.

3.1 實驗數(shù)據(jù)集

實驗所用數(shù)據(jù)集為AMIner[15,21]數(shù)據(jù)集,該數(shù)據(jù)集為典型的異質(zhì)學術(shù)文獻信息網(wǎng)絡(luò).如表1所示,該數(shù)據(jù)集中包含作者、文章、會議3種節(jié)點類型,共計4891 819個數(shù)據(jù)節(jié)點,其中246 678個帶標簽的作者節(jié)點被分為8個類別,分別為Computing Systems,Theoretical Computer Science,Computer Networks & Wireless Communication,Computer Graphics,Human Computer Interaction,Computational Linguistics,Computer Vision &Pattern Recognition,Databases & Information Systems.

表1 AMIner數(shù)據(jù)集中的節(jié)點

如表2所示,AMiner數(shù)據(jù)集中共包含12 518 144個邊,其中表示文章與作者之間撰寫與被撰寫關(guān)系的邊共9323 739個,表示文章與會議之間發(fā)表與被發(fā)表關(guān)系的邊共3194 405個.

表2 AMIner數(shù)據(jù)集中的邊

此外,本文在AMIner數(shù)據(jù)集的基礎(chǔ)上構(gòu)建數(shù)據(jù)規(guī)模較小的子數(shù)據(jù)集AMIner-Small,用于驗證本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法對不同數(shù)據(jù)規(guī)模的異質(zhì)信息網(wǎng)絡(luò)的表征學習能力.如表3所示,AMIner-Small數(shù)據(jù)集中數(shù)據(jù)規(guī)模遠遠小于AMiner數(shù)據(jù)集.

表3 AMIner-Small數(shù)據(jù)集中的節(jié)點

3.2 評價指標

在分類實驗中,數(shù)據(jù)的低維表征質(zhì)量對實驗結(jié)果具有重要影響,因此本文通過實驗結(jié)果評價低維表征質(zhì)量,進而分析異質(zhì)網(wǎng)絡(luò)表征學習方法的正確性、有效性.

本文采用分類精確率(Precision)、召回率(Recall)、Micro-F1分數(shù)、Macro-F1分數(shù)評價分類實驗結(jié)果,從而評價不同異質(zhì)網(wǎng)絡(luò)表征學習方法的正確性、在數(shù)據(jù)挖掘任務中的有效性.

分類精確率為預測為正類的樣本中實際為正類的樣本比例.召回率表示預測為正類的樣本數(shù)占全部正類樣本數(shù)的比例.F1分數(shù)(Micro-F1分數(shù)、Macro-F1分數(shù))表示精確度和召回率的加權(quán)平均值.以上4個評價指標值越高表示分類實驗越精確,相應的低維表征質(zhì)量越高、異質(zhì)網(wǎng)絡(luò)表征學習方法越正確、有效.

3.3 節(jié)點分類實驗

3.3.1 AMIner-Small數(shù)據(jù)集的節(jié)點分類實驗

采用HIN2Vec[17]異質(zhì)網(wǎng)絡(luò)表征框架作為對比實驗方法.不同于之前基于Skip-gram模型的表征方法,HIN2Vec核心是一個神經(jīng)網(wǎng)路模型,并且將元路徑視為節(jié)點間的不同類型關(guān)系,然后通過捕獲節(jié)點間不同類型關(guān)系學習節(jié)點的低維表征.

首先在AMIner-Small數(shù)據(jù)集的基礎(chǔ)上構(gòu)建元路徑集合并學習各個元路徑的權(quán)重.權(quán)重學習實驗重復十次,結(jié)果如表4所示,其中APA的權(quán)重均值為0.01,APAPA的權(quán)重均值為0.02,APCPA的權(quán)重均值為0.97.根據(jù)元路徑權(quán)重學習結(jié)果發(fā)現(xiàn)在AMIner-Small數(shù)據(jù)集中元路徑APCPA表示的語義信息對異質(zhì)網(wǎng)絡(luò)表征學習的重要程度遠高于APA、APAPA表示的語義信息,而APA、APAPA表示的語義信息對異質(zhì)網(wǎng)絡(luò)表征學習的重要程度則十分接近.

表4 元路徑及其權(quán)重

在元路徑集合及權(quán)重的基礎(chǔ)上分別應用本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法以及HIN2Vec框架學習AMIner-Small數(shù)據(jù)集中節(jié)點的低維表征.然后將帶標簽的675個作者節(jié)點的低維表征作為特征向量訓練和測試SVM分類器.分類實驗中將675個低維表征按70%/30%比例隨機分為訓練數(shù)據(jù)集與測試數(shù)據(jù)集,分類結(jié)果是取10次實驗結(jié)果的均值.具體實驗結(jié)果如表5所示,其中FMPW表示本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法.

表5 AMIner-Small數(shù)據(jù)集中作者節(jié)點分類結(jié)果

根據(jù)實驗結(jié)果發(fā)現(xiàn)本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法在分類精確率、召回率、Micro-F1分數(shù)、Macro-F1分數(shù)上均明顯高于HIN2Vec方法.該結(jié)果表明基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法對小規(guī)模異質(zhì)網(wǎng)絡(luò)具有良好的表征學習能力,證明了該方法的正確性、有效性.

3.3.2 AMIner數(shù)據(jù)集的節(jié)點分類實驗

由于AMIner數(shù)據(jù)集中數(shù)據(jù)規(guī)模遠大于AMiner-Small數(shù)據(jù)集,導致HIN2Vec不能處理AMiner數(shù)據(jù)集,所以本文采用Metapath2Vec[15]異質(zhì)網(wǎng)絡(luò)表征方法作為對比實驗方法.Metapath2Vec應用基于單條元路徑的隨機游走獲取異質(zhì)網(wǎng)絡(luò)中的結(jié)構(gòu)信息并結(jié)合Skip-gram模型需學習異質(zhì)網(wǎng)絡(luò)的低維表征.

此部分實驗中,實驗步驟與AMIner-Small數(shù)據(jù)集中分類的實驗步驟一致,首先提取元路徑APA、APAPA、APCPA構(gòu)成元路徑集合并學習其權(quán)重,然后分別采用本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法和Metapath2Vec方法學習AMIner數(shù)據(jù)集中節(jié)點的低維表征.

元路徑權(quán)重學習的實驗結(jié)果與AMIner-Small數(shù)據(jù)集中的元路徑權(quán)重學習結(jié)果一致,即APA的權(quán)重均值為0.01,APAPA的權(quán)重均值為0.02,APCPA的權(quán)重均值為0.97.該結(jié)果表示在AMIner數(shù)據(jù)集中APCPA表示的語義信息對異質(zhì)網(wǎng)絡(luò)表征學習的影響程度最大.

本文在全部節(jié)點的低維表征中隨機挑選47 108個帶標簽的作者的低維表征作為SVM分類器的特征向量,其中訓練集比例為10%～90%,其余節(jié)點為測試集.實驗重復十次并取平均值,結(jié)果如圖3所示,其中FMPW表示本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法.

根據(jù)實驗結(jié)果可知,隨著訓練集比例的提高,分類結(jié)果越加精確.而且本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法的分類精確率、召回率、Micro-F1分數(shù)、Macro-F1分數(shù)中均明顯高于基于元路徑APA和基于元路徑APAPA的Metapath2Vec方法,但是僅率高于基于APCPA的Metapath2Vec方法.造成以上結(jié)果的原因在于,元路徑APCPA的權(quán)重為0.97,導致融合不同元路徑的低維表征中APCPA對應的低維表征占主要比例.該結(jié)果從側(cè)面驗證了元路徑權(quán)重學習結(jié)果的正確性.此外,基于圖3所示的實驗結(jié)果發(fā)現(xiàn)基于不同元路徑的Metapath2Vec方法學習的低維表征質(zhì)量差別大,導致應用Metapath2Vec方法學習異質(zhì)網(wǎng)絡(luò)的低維表征時結(jié)果具有不確定性.而本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法可得出最優(yōu)結(jié)果,從而有效解決上述問題.

3.4 實驗分析

綜合以上實驗結(jié)果可知,基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法可應用于不同數(shù)據(jù)規(guī)模的異質(zhì)網(wǎng)絡(luò),并且在不同數(shù)據(jù)規(guī)模的異質(zhì)網(wǎng)絡(luò)中分類實驗結(jié)果優(yōu)于基準方法HIN2Vec和Metapath2Vec.因此本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法對不同數(shù)據(jù)規(guī)模的異質(zhì)網(wǎng)絡(luò)具有良好的表征學習能力,可學習得到高質(zhì)量的低維表征,可有效應用于數(shù)據(jù)挖掘任務,并且優(yōu)于基于單條元路徑的異質(zhì)網(wǎng)絡(luò)表征學習方法.

4 結(jié)論

本文提出基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法,通過元路徑權(quán)重學習表明元路對異質(zhì)網(wǎng)絡(luò)表征學習的重要程度,并以此為基礎(chǔ)對基于不同元路徑的低維表征進行加權(quán)融合,得到融合不同元路徑語義信息的異質(zhì)網(wǎng)絡(luò)表征.該方法解決了基于單條元路徑的異質(zhì)網(wǎng)絡(luò)表征學習方法不能包含其它元路徑語義信息而導致的低維表征中缺失結(jié)構(gòu)信息、語義信息的問題.同時通過對比試驗證明本文提出的基于融合元路徑權(quán)重的異質(zhì)網(wǎng)絡(luò)表征學習方法在不同數(shù)據(jù)規(guī)模的異質(zhì)網(wǎng)絡(luò)中具有良好的表征學習能力,并且可有效應用于數(shù)據(jù)挖掘任務.在未來的工作中,將對如何提高大規(guī)模異質(zhì)網(wǎng)絡(luò)的表征學習效率進行深入研究.