亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PPMI的異質(zhì)屬性網(wǎng)絡嵌入

        2022-12-15 13:19:06東坤杰周麗華朱月英杜國王
        計算機研究與發(fā)展 2022年12期
        關鍵詞:信息

        東坤杰 周麗華 朱月英 杜國王 黃 通

        1(云南大學信息學院 昆明 650504)2(大連理工大學計算機科學與技術學院 遼寧大連 116086)(kunjiedong@qq.com)

        網(wǎng)絡是一種普遍存在的、可以描述復雜系統(tǒng)中鏈接關系的數(shù)據(jù)結(jié)構,廣泛應用于計算機科學、生物信息學、社會科學等相關領域.網(wǎng)絡分析是指利用數(shù)據(jù)挖掘技術從原始網(wǎng)絡分析和挖掘網(wǎng)絡的本質(zhì)特征,發(fā)現(xiàn)和理解事物間的內(nèi)在聯(lián)系.高效的網(wǎng)絡分析方法不僅可以創(chuàng)造巨大的商業(yè)價值,而且對社會穩(wěn)固、經(jīng)濟發(fā)展和健康醫(yī)療等具有深遠的積極影響.因此,網(wǎng)絡分析引起了工業(yè)界和科研工作者的關注和研究.

        節(jié)點依附有屬性信息的網(wǎng)絡稱為屬性網(wǎng)絡[1].傳統(tǒng)的網(wǎng)絡分析方法通常只關注網(wǎng)絡中節(jié)點間的鏈接關系,忽略了節(jié)點本身的個性化屬性信息.個性化屬性信息揭示了物以類聚的同質(zhì)性效應[2],如具有相同主題、關鍵字等屬性的論文相似性較高,論文間容易出現(xiàn)引用關系.節(jié)點屬性從微觀視角描述節(jié)點的個性化信息,網(wǎng)絡拓撲從宏觀角度描述節(jié)點間的鏈接關系.盡管2種信息異質(zhì),但是由于它們描述的是同一對象,因此這2種信息之間存在一致性和互補性關系.如何高效地融合2種異質(zhì)性信息是影響網(wǎng)絡分析任務性能的一個關鍵問題.

        目前的網(wǎng)絡分析研究大多建立在同質(zhì)屬性網(wǎng)絡(homogeneous attribute network, HoAN)上,即網(wǎng)絡中所有節(jié)點的類型相同,鏈接關系的類型也相同.然而,現(xiàn)實世界中的屬性網(wǎng)絡通常是異質(zhì)的,即網(wǎng)絡中包含多種類型的節(jié)點和(或)多種類型的鏈接關系.如圖1所示,網(wǎng)絡中包含4種節(jié)點類型(作者(A)、論文(P)、主題(T)和會議(C))以及10種關系類型(撰寫/被撰寫(A-P)、發(fā)表/被發(fā)表(P-C)、包含/被包含(P-T)、屬于/被屬于(T-C)和引用/被引用(P-P)).相比同質(zhì)屬性網(wǎng)絡,異質(zhì)屬性網(wǎng)絡(heterogeneous attribute network, HeAN)具有多樣化的節(jié)點類型、復雜的網(wǎng)絡關系和更豐富的語義信息[3].在圖1中,作者間的合著關系(author-paper-author, A-P-A)、不同作者發(fā)表了相同研究主題論文的關系(author-paper-theme-paper-author, A-P-T-P-A)及不同作者在相同會議上發(fā)表論文的關系(author-paper-conference-paper-author, A-P-C-P-A)等共同描述了網(wǎng)絡中豐富多樣的語義信息.異質(zhì)屬性網(wǎng)絡中多種類型的節(jié)點和鏈接關系給網(wǎng)絡分析任務提供豐富語義的同時也帶來了新的挑戰(zhàn).

        Fig. 1 The citation network among papers圖1 文獻引用網(wǎng)絡

        異質(zhì)屬性網(wǎng)絡嵌入(heterogeneous attribute network embedding, HeANE)就是將網(wǎng)絡中多種類型的節(jié)點和(或)多種類型的鏈接關系映射到低維、緊湊的空間,同時保護原始異質(zhì)屬性網(wǎng)絡中節(jié)點的屬性特征和不同類型對象之間的異質(zhì)鏈接承載的復雜、多樣且豐富的語義信息[4].嵌入學習獲得的低維表示不僅有利于機器學習算法的應用,而且有助于解決數(shù)據(jù)存儲和高計算復雜度的問題.通常,節(jié)點屬性被視為位于非線性流形中[5],但現(xiàn)有的HeANE方法沒有有效地捕捉這種非線性流形的幾何結(jié)構,而且節(jié)點屬性和異質(zhì)網(wǎng)絡拓撲信息的融合效率也有待提升.

        為了有效捕捉網(wǎng)絡中節(jié)點、連邊和屬性的異質(zhì)性信息,并提升異質(zhì)性信息的融合效率,本文提出基于PPMI的異質(zhì)屬性網(wǎng)絡嵌入學習方法HANEP.HANEP首先基于屬性相似性構建屬性圖,并依據(jù)不同的元路徑提取異質(zhì)網(wǎng)絡的拓撲信息;然后基于屬性圖和拓撲圖執(zhí)行隨機沖浪獲得屬性和元路徑的拓撲概率共現(xiàn)(probabilistic co-occurrence, PCO)矩陣,進而計算屬性和元路徑拓撲的正點對互信息(positive point-wise mutual information, PPMI);最后,將PPMI輸入到考慮局部圖正則的多個自編碼器(auto-encoder, AE)完成嵌入.在HANEP中,基于屬性相似性構建的屬性圖描述了節(jié)點屬性的非線性流行結(jié)構;基于不同元路徑提取的拓撲圖有效捕捉了不同類型節(jié)點間的異質(zhì)鏈接承載的豐富的語義信息,并且屬性圖和拓撲圖是2種異質(zhì)性信息的同質(zhì)表示,不僅方便以相同的方法處理而且有利于提高異質(zhì)信息的融合效率.另外,PCO矩陣捕捉了不同節(jié)點間的轉(zhuǎn)移概率,PPMI較好地維持了圖的結(jié)構特征以捕捉節(jié)點的高階近鄰信息,AE有效地捕捉了潛在的非線性關系.

        本文的工作主要貢獻有3個方面:

        1) 提出了一種基于PPMI的異質(zhì)屬性網(wǎng)絡嵌入模型HANEP,通過屬性相似性和不同元路徑抽取的網(wǎng)絡拓撲構建屬性圖和拓撲圖,進而計算PCO矩陣和PPMI矩陣,利用AE有效捕捉并融合網(wǎng)絡中的多種異質(zhì)性信息.

        2) 設計了屬性圖和元路徑拓撲圖的局部圖正則以增強屬性和元路徑拓撲的局部一致性,并給出了HANEP的算法描述.

        3) 在3個真實異質(zhì)屬性網(wǎng)絡數(shù)據(jù)集上通過節(jié)點分類、節(jié)點聚類、消融實驗、可視化和參數(shù)敏感性分析實驗,結(jié)果表明本文所提的HANEP方法的性能優(yōu)于基線算法.

        1 相關工作

        近年來,許多屬性網(wǎng)絡嵌入模型被提出,本節(jié)將主要介紹同質(zhì)屬性網(wǎng)絡嵌入和異質(zhì)屬性網(wǎng)絡嵌入的相關工作.

        1.1 同質(zhì)屬性網(wǎng)絡嵌入

        為了在同質(zhì)屬性網(wǎng)絡嵌入中結(jié)合節(jié)點屬性和網(wǎng)絡拓撲信息,ASNE[2]提出在級聯(lián)2種信息時引入1個權值參數(shù)來調(diào)整屬性的重要性.DANE[6]設計2個允許交互的AE保護節(jié)點屬性和網(wǎng)絡拓撲的一致性和互補性關系.ANRL[7]采用鄰域增強的策略將節(jié)點屬性作為編碼器的輸入,在網(wǎng)絡拓撲信息的指導下重構節(jié)點的目標鄰居.AANE[8]采用分布式的方法考慮節(jié)點的屬性特征,加速嵌入學習的過程.GAT[9]基于圖注意力機制為中心節(jié)點的鄰域節(jié)點分配不同的權重,然后加權得到中心樣本的新表示.ONE[10]提出一種非監(jiān)督的異常值檢測算法,通過最小化離群節(jié)點的影響生成健壯的屬性網(wǎng)絡嵌入表示.DFANE[11]提出雙重融合策略充分捕捉節(jié)點屬性和網(wǎng)絡拓撲的區(qū)分性特征和互補性信息.DANEP[12]首先構建與網(wǎng)絡拓撲同質(zhì)表示的屬性圖,進而設計局部成對約束的圖正則以增強局部特征的一致性.PMI[13]通過最大化中心節(jié)點與其k階鄰居之間的互信息,從而利用節(jié)點的位置信息指導嵌入學習的過程.然而,上述方法僅考慮了相同類型的節(jié)點和鏈接關系,忽略了網(wǎng)絡中節(jié)點和鏈接關系的多樣化特征.

        1.2 異質(zhì)屬性網(wǎng)絡嵌入

        異質(zhì)屬性網(wǎng)絡中不同類型對象間的鏈接關系承載著更豐富的語義信息,這些語義信息可以通過元路徑來捕捉.不同元路徑捕捉了節(jié)點間不同的關聯(lián)關系,描述了不同的語義信息.Metapath2vec[4]基于元路徑的隨機游走獲取節(jié)點的異質(zhì)性拓撲信息.HIN2Vec[14]使用不同類型的節(jié)點和鏈接關系學習節(jié)點及元路徑的向量表示.HEER[15]對異質(zhì)網(wǎng)絡中不同的鏈接類型定義不同的度量空間,以保持統(tǒng)一度量空間下節(jié)點的兼容性.HAN[16]提出分層注意力機制考慮節(jié)點和元路徑在語義空間中的個性化偏好.GANTE[17]考慮屬性信息的多元化,同時支持直推式和歸納式2種學習方式.NECS[18]利用異質(zhì)屬性網(wǎng)絡中豐富的社區(qū)結(jié)構指導節(jié)點的表示學習.HDGI[19]利用圖卷積模塊和語義級別的注意力機制捕捉節(jié)點的局部表示,通過最大化局部和全局互信息學習節(jié)點的低維表示.HeteSpaceyWalk[20]提出基于元路徑、元圖、元模式的異質(zhì)個性化空間隨機游走方法,集成多條元路徑捕獲更豐富的拓撲信息.

        2 相關定義

        定義1.異質(zhì)屬性網(wǎng)絡[3].異質(zhì)屬性網(wǎng)絡通常被定義為一個無向圖G=(V,E,A,Q,U),其中V表示網(wǎng)絡中節(jié)點的集合,E表示網(wǎng)絡中邊的集合,A∈n×m表示節(jié)點的屬性特征(n表示節(jié)點數(shù),m表示節(jié)點屬性的維度),Q表示節(jié)點類型的集合,U表示邊類型的集合,|Q|+|U|>2.每個節(jié)點對象v∈V屬于一個特定的對象類型,每條邊e∈E屬于一個特定的邊類型,節(jié)點類型和邊類型的映射函數(shù)分別為φ:V→Q和φ:E→U.

        Fig. 2 The architecture of HANEP圖2 HANEP模型框架

        定義3.異質(zhì)屬性網(wǎng)絡嵌入[15].給定一個異質(zhì)屬性網(wǎng)絡G=(V,E,A,Q,U),異質(zhì)屬性網(wǎng)絡嵌入學習的目的是找到一個映射函數(shù)f:V→d,該函數(shù)能夠?qū)愘|(zhì)屬性網(wǎng)絡中的每個節(jié)點v∈V映射為d維空間d中的一個向量(d?|V|),同時保留原始網(wǎng)絡中多種類型的節(jié)點和邊關系的本質(zhì)特征.

        定義4.概率共現(xiàn)(PCO)矩陣[21].給定一個無向圖G=(V,E,A),隨機排序圖中的節(jié)點,PCO矩陣描述了從任意節(jié)點vi經(jīng)過k步轉(zhuǎn)移后到達其他節(jié)點vj(j≠i)的轉(zhuǎn)移概率.

        定義5.正點對互信息PPMI[22].給定一個無向圖G=(V,E,A),點對互信息PMI衡量節(jié)點對(vi,vj)間的相關性.通過進一步將PMI矩陣中的負值分配成0,則形成PPMI,其數(shù)值越大,說明相關性越高.

        3 HANEP模型

        為了捕捉和高效地融合多種類型節(jié)點的屬性和異質(zhì)鏈接關系的本質(zhì)特征,本文提出一種基于PPMI的異質(zhì)屬性網(wǎng)絡嵌入方法HANEP. HANEP首先基于節(jié)點屬性的相似性利用k近鄰圖[22]的方法構建屬性圖、依據(jù)不同的元路徑r1,r2,…,rL提取不同鏈接關系的網(wǎng)絡拓撲圖,然后基于屬性圖和元路徑拓撲圖進行隨機沖浪[22]獲得PCO矩陣,并計算屬性和元路徑拓撲的PPMI.然后,HANEP利用多個神經(jīng)網(wǎng)絡AE分別基于屬性圖和元路徑拓撲圖的PPMI學習節(jié)點屬性和元路徑拓撲的固有本質(zhì),同時使用局部成對約束的圖正則增強局部結(jié)構特征.屬性圖和拓撲圖的PPMI表示有利于保護屬性和拓撲的高階近鄰信息和復雜的非線性結(jié)構.HANEP模型框架如圖2所示.

        3.1 構建屬性圖

        節(jié)點屬性描述了節(jié)點的個性化信息,通常被視為位于某種非線性流形中[5].屬性圖有利于捕捉屬性信息的非線性流形結(jié)構.設A∈n×m表示網(wǎng)絡中節(jié)點的屬性矩陣,Anew∈n×n表示節(jié)點屬性的相似性矩陣,其中元素表示節(jié)點vi和vj的屬性ai和aj的相似性,余弦相似性的計算如式(1)所示:

        (1)

        3.2 構建元路徑拓撲圖

        異質(zhì)屬性網(wǎng)絡中節(jié)點對象包含豐富的鏈接關系,依附于鏈接關系的語義信息可以通過元路徑來捕捉.如圖1所示,元路徑APA,APTPA,APCPA可以分別描述作者的合著關系、相同研究主題關系、在相同會議上的發(fā)表論文關系.依據(jù)元路徑r1,r2,…,rL可以抽取不同鏈接關系的網(wǎng)絡拓撲,令S1,S2,…,SL∈n×n表示元路徑拓撲的鄰接矩陣,元素表示節(jié)點vi和vj在元路徑rl上可達;否則

        3.3 隨機沖浪產(chǎn)生PCO矩陣

        pk=α·pk-1P+(1-α)p0,

        (2)

        其中pk是一個行向量,其第j項表示從節(jié)點vi經(jīng)過k步轉(zhuǎn)移后到達節(jié)點vj的概率,p0是第i個元素為1、其余元素均為0的初始化one-hot向量,α表示隨機沖浪過程中節(jié)點跳轉(zhuǎn)到下一個節(jié)點的概率,1-α表示節(jié)點返回原頂點重啟隨機沖浪過程的概率.

        3.4 計算PPMI矩陣

        (3)

        MPPMIvi,vj=max(MPMIvi,vj,0),

        (4)

        3.5 自編碼器

        (5)

        (6)

        (7)

        (8)

        (9)

        (10)

        (11)

        (12)

        (13)

        (14)

        3.6 損失函數(shù)

        為了訓練HANEP捕捉異質(zhì)屬性網(wǎng)絡中節(jié)點屬性特征和節(jié)點間的豐富鏈接關系,本文定義局部節(jié)點對約束損失Llocal和重構損失Lrec作為懲罰項,以反向傳播的方法訓練AE,提高嵌入學習的質(zhì)量.Llocal和Lrec定義為:

        (15)

        (16)

        綜上所述,HANEP模型在訓練學習過程中考慮局部節(jié)點對約束損失Llocal和重構損失Lrec.因此,HANEP模型的損失函數(shù)定義如式(17)所示,其中參數(shù)α和β是用來平衡局部節(jié)點對約束損失和重構損失之間的權重.

        L=αLlocal+βLrec.

        (17)

        3.7 算法描述

        本文利用Adam[23]算法在訓練過程中迭代優(yōu)化AE直到模型收斂或迭代次數(shù)達到設定的迭代閾值,HANEP算法描述如算法1:

        算法1.異質(zhì)屬性網(wǎng)絡嵌入HANEP算法.

        輸入:異質(zhì)屬性圖G=(V,E,A,Q,U),元路徑r1,r2,…,rL,參數(shù)α,β,嵌入維度d,學習率λ,迭代損失閾值ε,迭代次數(shù)閾值τ;

        輸出:嵌入表示hi.

        ① 基于屬性相似性構建屬性近鄰圖C;

        ② 基于元路徑r1,r2,…,rL抽取網(wǎng)絡拓撲S1,S2,…,SL;

        ④ 初始化參數(shù)θ={θC,θSl}(1≤l≤L);

        ⑤ repeat

        ⑥ for each nodevi∈V

        ⑦ 訓練AE,更新參數(shù)θ;

        ⑧ end for

        ⑨ until迭代損失小于εor 迭代次數(shù)等于τ;

        4 實驗評估和分析

        本節(jié)從節(jié)點分類、節(jié)點聚類、消融實驗、可視化和參數(shù)敏感性分析5個方面分別來評估HANEP模型的性能.

        4.1 實驗準備

        4.1.1 數(shù)據(jù)集

        本文實驗使用了ACM,DBLP,IMDB這3個公共可用的異質(zhì)屬性網(wǎng)絡數(shù)據(jù)集來評估和驗證HANEP模型的有效性,其中ACM包含3 025篇論文、5 835位作者、56個研究主題和3種類標簽,論文關鍵字的bag-of-words表示為1 870維的特征向量;DBLP包含14 328篇論文、4 057位作者、20個會議、8 789個主題和4種類標簽,作者信息表示為334維的特征向量;IMDB數(shù)據(jù)集包含3 550場電影、4 441位演員、1 726個導演和3種類標簽,電影信息表示為2 000維的特征向量.與文獻[16,19]中的HAN和HDGI模型相似,本文分別依據(jù)元路徑{PAP,PTP},{APA,APCPA,APTPA},{MAM,MDM}提取數(shù)據(jù)集ACM,DBLP,IMDB的網(wǎng)絡拓撲信息.數(shù)據(jù)集的詳細信息如表1所示:

        Table 1 Information Statistics of the Datasets Features

        4.1.2 基線算法

        本文選擇了11種方法作為基線,包括:4種網(wǎng)絡拓撲嵌入方法(DeepWalk[24],GraRep[26],SDNE[25],DNGR[22]),4種同質(zhì)屬性網(wǎng)絡嵌入方法(PRRE[27],DANE[6],DFANE[11],DANEP[12])和3種異質(zhì)屬性網(wǎng)絡嵌入方法(HAN[16],HDGI[19],HANEP-A).實驗中所有基線算法與HANEP使用相同元路徑抽取的網(wǎng)絡拓撲信息.具體來說,網(wǎng)絡拓撲嵌入方法不區(qū)分依據(jù)元路徑抽取的網(wǎng)絡拓撲信息的異質(zhì)性,將依據(jù)不同元路徑抽取的所有網(wǎng)絡拓撲信息匯聚成一個網(wǎng)絡拓撲進行訓練學習;同質(zhì)屬性網(wǎng)絡嵌入方法使用與網(wǎng)絡拓撲嵌入方法相同的方式學習網(wǎng)絡拓撲,同時考慮了網(wǎng)絡中節(jié)點的屬性信息;異質(zhì)屬性網(wǎng)絡嵌入方法區(qū)分依據(jù)元路徑抽取的網(wǎng)絡拓撲信息的異質(zhì)性,即對依據(jù)不同元路徑抽取的網(wǎng)絡拓撲信息分別處理,并同時考慮節(jié)點的屬性信息.同質(zhì)屬性網(wǎng)絡嵌入和異質(zhì)屬性網(wǎng)絡嵌入的基線算法介紹如下.

        DANE[6].DANE考慮節(jié)點屬性和網(wǎng)絡拓撲的一致性和互補性關系,首先通過隨機游走獲得鄰域拓撲,然后采用2個對稱的、允許相互交互的AE捕捉節(jié)點屬性和鄰域拓撲的高階非線性信息.節(jié)點屬性AE和網(wǎng)絡拓撲AE在嵌入學習中實時交互,捕捉2種信息的一致性和互補性關系.

        DFANE[11].DFANE包括基于早期融合策略的早期融合組件和基于后期融合策略的后期融合組件,前者主要負責捕捉節(jié)點屬性和網(wǎng)絡拓撲的互補性信息;后者負責從2種異質(zhì)信息中提取各自的獨特本質(zhì),這2個組件在一致性損失函數(shù)的約束下協(xié)同訓練以實現(xiàn)信息交互.

        DANEP[12].DANEP是一種基于PPMI的同質(zhì)屬性網(wǎng)絡嵌入方法,該方法首先基于樣本屬性間的相似性構建屬性圖;然后分別對屬性圖和網(wǎng)絡拓撲圖進行隨機沖浪獲得屬性和拓撲PCO矩陣并計算其PPMI;最后級聯(lián)屬性圖和拓撲圖的PPMI矩陣輸入共享AE學習節(jié)點的低維表示.

        PRRE[27].PRRE考慮節(jié)點屬性和網(wǎng)絡拓撲的部分相關性,即節(jié)點屬性相似但網(wǎng)絡拓撲不相似或網(wǎng)絡拓撲相似但節(jié)點屬性不相似.PRRE首先利用期望最大化算法訓練2個閾值來區(qū)分節(jié)點屬性和網(wǎng)絡拓撲的相關性,進而定義節(jié)點屬性和網(wǎng)絡拓撲的積極、模糊和消極的相關關系.

        HAN[16].HAN擴展圖神經(jīng)網(wǎng)絡到異質(zhì)信息圖,首先使用指定的元路徑捕捉網(wǎng)絡中不同語義關系的鄰居節(jié)點,然后利用分層注意力機制考慮每個鄰居和每條元路徑的不同注意力權重,聚合鄰居信息,獲取目標節(jié)點的嵌入表示.

        HDGI[19].HDGI基于互信息最大化實現(xiàn)無監(jiān)督的圖神經(jīng)網(wǎng)絡嵌入學習,使用注意力機制捕捉不同元路徑上節(jié)點的局部表示,通過最大化局部和全局互信息學習節(jié)點的低維表示.

        HANEP-A.HANEP-A是HANEP模型的變體,HANEP-A匯聚不同元路徑抽取的鏈接關系構建異質(zhì)網(wǎng)絡拓撲圖.相比HANEP依據(jù)不同的元路徑構建相對應的拓撲圖,HANEP-A匯聚多條元路徑構建異質(zhì)網(wǎng)絡的綜合拓撲圖.通過HANEP和變體HANEP-A,本文想探究依據(jù)單條元路徑構建多個拓撲圖和匯聚多條元路徑構建單個綜合的網(wǎng)絡拓撲圖對嵌入學習的影響.此外,通過變體HANEP-A和DANEP,本文想探究對稱獨立的節(jié)點屬性AE和網(wǎng)絡拓撲AE與級聯(lián)節(jié)點屬性和網(wǎng)絡拓撲信息的共享AE對嵌入學習效果的影響.

        實驗中所有基線算法都進行了參數(shù)調(diào)優(yōu),使用最好結(jié)果進行比較.

        4.1.3 參數(shù)設置

        參數(shù)α和β是用來平衡局部節(jié)點對約束損失Llocal和重構損失Lrec之間的權重.在實驗中,本文通過網(wǎng)格搜索算法調(diào)整參數(shù)α和β用于節(jié)點分類、節(jié)點聚類和可視化任務.為了達到精確和直觀的評估效果,本文在節(jié)點分類、節(jié)點聚類和可視化任務上應用相同的參數(shù).此外,本文基于數(shù)據(jù)集ACM,DBLP,IMDB設置相同的神經(jīng)元層次結(jié)構(屬性特征數(shù)或節(jié)點數(shù)-512-128-64).每個數(shù)據(jù)集對應的參數(shù)α和β數(shù)值,以及神經(jīng)網(wǎng)絡層的神經(jīng)元個數(shù)如表2所示.具體來說,節(jié)點屬性編碼器的第1層輸入對應節(jié)點的屬性信息,而第l(1≤l≤L)個網(wǎng)絡拓撲編碼器的第1層輸入對應節(jié)點在元路徑rl上可達的網(wǎng)絡拓撲信息.

        Table 2 The Parameters and Structures of Neural Network for Each Dataset

        4.2 性能評估

        本文選擇節(jié)點分類和節(jié)點聚類任務評估模型嵌入學習的性能.實驗中,隨機選取10%,30%,50%的節(jié)點作為訓練集,余下的節(jié)點作為測試集,SVM[7]作為分類器;Micro-F1和Macro-F1作為分類指標;k-means++[6]作為聚類算法;精確度(accuracy, ACC)和標準化互信息(normalized mutual information, NMI)[11]作為聚類指標.指標數(shù)值越高說明性能越好,本文重復實驗過程10次統(tǒng)計指標的平均值示于表3.

        從表3可以看到:

        1) HANEP在數(shù)據(jù)集ACM和DBLP上取得了最優(yōu)的Micro-F1和Macro-F1;在數(shù)據(jù)集IMDB上取得了次優(yōu)的Micro-F1和Macro-F1;變體HANEP-A在數(shù)據(jù)集IMDB上獲得了最優(yōu)的Micro-F1和Macro-F1;在數(shù)據(jù)集ACM和DBLP上獲得了次優(yōu)的Micro-F1和Macro-F1,這些結(jié)果表明基于屬性圖和元路徑拓撲圖的PPMI在嵌入學習過程中有利于捕捉異質(zhì)屬性網(wǎng)絡中多種類型節(jié)點的個性化信息和異質(zhì)鏈接承載的豐富語義信息.

        2) 變體HANEP-A在數(shù)據(jù)集DBLP上獲得了最優(yōu)的聚類指標ACC和NMI;在數(shù)據(jù)集IMDB上獲得了最高的NMI值,表明匯聚多條元路徑構建單個綜合的網(wǎng)絡拓撲圖學到的嵌入比依據(jù)不同元路徑構建多個拓撲圖學到的嵌入更有利于聚類,進一步說明依據(jù)不同元路徑構建多個拓撲圖捕捉到了多種類型節(jié)點的個性化信息.

        3) 基線HAN在數(shù)據(jù)集ACM上獲得了最優(yōu)的聚類指標ACC和NMI、在數(shù)據(jù)集DBLP上獲得了次優(yōu)的NMI、在數(shù)據(jù)集IMDB上獲得了最優(yōu)的ACC;HDGI在數(shù)據(jù)集ACM上獲得了次優(yōu)的ACC和NMI、在數(shù)據(jù)集DBLP上獲得了次優(yōu)的ACC;說明注意力在嵌入學習中是值得考慮的因素.

        4) 變體HANEP-A優(yōu)于基線DANEP,說明獨立的學習節(jié)點屬性和網(wǎng)絡拓撲比級聯(lián)的學習方式更有利于捕捉異質(zhì)網(wǎng)絡中節(jié)點的本質(zhì)特征.HANEP-A在節(jié)點分類和節(jié)點聚類任務上優(yōu)于DANE,DFANE,PRRE,說明屬性圖和拓撲圖的PPMI表示有利于捕捉高階近鄰信息和復雜的非線性結(jié)構.

        5) 在網(wǎng)絡拓撲嵌入模型中,除了Deepwalk和Grarep在數(shù)據(jù)集DBLP上比同質(zhì)屬性網(wǎng)絡嵌入模型獲得較好的分類結(jié)果外,在其余情況下同質(zhì)屬性網(wǎng)絡嵌入模型的節(jié)點分類和節(jié)點聚類結(jié)果都比網(wǎng)絡拓撲嵌入模型好,說明節(jié)點屬性信息在異質(zhì)網(wǎng)絡嵌入學習中提供了有效的輔助作用.

        4.3 消融實驗

        本節(jié)以DBLP數(shù)據(jù)集為例,通過消融實驗分別評估了單條元路徑APA,APCPA,APTPA;多條元路徑APA+APCPA,APA+APTPA,APCPA+APTPA,APA+APCPA+APTPA和節(jié)點屬性Attribute在異質(zhì)屬性網(wǎng)絡嵌入學習中的貢獻,以探究元路徑和節(jié)點屬性對嵌入結(jié)果的影響.消融實驗模型設置與HANEP相似,消融實驗設置和結(jié)果示于表4,其中“學習資源”列中的APA,APA+APCPA,APA+Attribute分別表示利用單條元路徑APA、多條元路徑APA+APCPA、元路徑APA和屬性信息進行訓練學習,其余消融實驗的設置與此類似,不再一一列舉.

        Table 3 Performance Evaluation of Node Classification and Node Clustering

        Table 4 Performance Evaluation of the Ablation Experiment on the DBLP Dataset

        從表4可以看到:

        1) 單條元路徑APA,APCPA,APTPA的性能差異明顯,其中APTPA性能明顯優(yōu)于APA,APCPA,說明不同元路徑在嵌入學習中捕捉異質(zhì)網(wǎng)絡拓撲信息時有不同的貢獻;元路徑APA+APCPA,APA+APTPA,APCPA+APTPA分別優(yōu)于其各自對應的單條元路徑性能,說明不同元路徑在嵌入學習過程中可以提供互補信息.

        2) 元路徑APTPA的性能優(yōu)于APA+APCPA,說明實驗性能不僅取決于元路徑的條數(shù),也取決于元路徑在描述異質(zhì)網(wǎng)絡拓撲中的重要性.元路徑APCPA+APTPA的性能優(yōu)于APA+APCPA+APTPA、APCPA+APTPA+Attribute的性能優(yōu)于APA+APCPA+APTPA+Attribute,加入APA后嵌入學習性能反而降低了,說明元路徑APA存在噪聲.此外,單條元路徑APA嵌入學習時的性能明顯劣于APCPA和APTPA,也證實了APA存在噪聲.

        3) 同時考慮節(jié)點屬性和元路徑(APA+APCPA+APTPA+Attribute,APCPA+APTPA+Attribute,APA+APTPA+Attribute,APA+APCPA+Attribute,APTPA+Attribute, APCPA+Attribute,APA+Attribute)時的學習性能優(yōu)于只考慮元路徑(APA+APCPA+APTPA,APCPA+APTPA,APA+APTPA,APA+APCPA,APTPA,APCPA,APA)時的學習性能,說明節(jié)點屬性在異質(zhì)屬性網(wǎng)絡嵌入學習中提供了有效的輔助作用.

        4.4 可視化

        本文使用t-SNE[28]方法將節(jié)點的低維嵌入表示投影到2維空間,布局中的點表示網(wǎng)絡中的節(jié)點,其中不同的顏色表示節(jié)點的類標簽.期望的布局是相同顏色的點相互聚集,不同顏色的點相互分離且有明顯的分離界線.相同顏色的節(jié)點越聚集、不同顏色的節(jié)點越疏遠說明節(jié)點的低維表示捕捉了原始節(jié)點的固有本質(zhì)和區(qū)分性特征,即嵌入學習效果越好.圖3給出DBLP數(shù)據(jù)集的可視化結(jié)果作為代表案例,其中布局里的點表示論文,節(jié)點的顏色表示論文的類別.

        Fig. 3 The visualization results of different methods on the DBLP dataset圖3 不同方法在DBLP數(shù)據(jù)集上的可視化結(jié)果

        Fig. 4 The sensitivity of HANEP on α and β圖4 HANEP關于參數(shù)α和β的敏感性

        觀察圖3可知:HANEP和變體HANEP-A的可視化表現(xiàn)最佳(圖3(l)(k)),表現(xiàn)為布局中相同顏色的節(jié)點彼此靠近,不同顏色的節(jié)點相互遠離且有清晰的分離邊界;HDGI和HAN獲得了次優(yōu)的可視化結(jié)果(圖3(j)(i)),表現(xiàn)為相同顏色節(jié)點的聚集程度和不同顏色節(jié)點的分離效果差于HANEP和HANEP-A;DeepWalk(圖3(a))表現(xiàn)為相同顏色的節(jié)點聚集在一起,不同顏色節(jié)點的分離邊界不清晰;其余基線的可視化表現(xiàn)為不同顏色的節(jié)點混合在一起(圖3(b)~(h)).可視化結(jié)果再次表明本文所提模型HANEP在異質(zhì)屬性網(wǎng)絡嵌入學習中的有效性.

        4.5 參數(shù)敏感性

        HANEP使用參數(shù)α和β平衡節(jié)點屬性和元路徑拓撲的局部節(jié)點對約束損失Llocal和重構損失Lrec的權重.如圖4所示,本文統(tǒng)計節(jié)點分類指標Micro-F1和節(jié)點聚類指標ACC在DBLP數(shù)據(jù)集上隨參數(shù)α和β的變化情況作為代表來分析HANEP的參數(shù)敏感性.如果模型性能對參數(shù)不敏感,則說明模型有良好的健壯性和穩(wěn)定性;反之,則說明模型的健壯性和穩(wěn)定性較差.從圖4可見,節(jié)點分類指標Micro-F1和節(jié)點聚類指標ACC值在數(shù)據(jù)集ACM,DBLP,IMDB上隨參數(shù)α和β的變化情況是穩(wěn)定的,幾乎沒有明顯的波動,說明HANEP在節(jié)點分類和節(jié)點聚類任務上有良好的健壯性和穩(wěn)定性.

        5 結(jié)束語

        本文提出了一種基于PPMI的異質(zhì)屬性網(wǎng)絡嵌入學習模型HANEP,該模型基于屬性相似性構建的屬性圖描述了節(jié)點屬性的非線性流行結(jié)構,基于不同元路徑提取的拓撲圖有效捕捉了不同類型節(jié)點間的異質(zhì)鏈接承載的豐富的語義信息,并且屬性圖和拓撲圖是2種異質(zhì)性信息的同質(zhì)表示,不僅方便用相同的方法處理而且有利于提高異質(zhì)信息的融合效率.另外,PCO矩陣捕捉了不同節(jié)點間的轉(zhuǎn)移概率,PPMI較好地維持了圖的結(jié)構特征以捕捉節(jié)點的高階近鄰信息,AE有效地捕捉了潛在的非線性關系,設計的圖正則增強了局部特征的一致性.在3個數(shù)據(jù)集上的實驗結(jié)果驗證了HANEP算法的有效性.

        本文工作中,元路徑由用戶指定,并且所有元路徑間相互獨立.在未來工作中,我們將考慮識別元路徑間的耦合關系來指導節(jié)點的嵌入學習過程,消除元路徑信息的噪聲,以獲得更高質(zhì)量的嵌入表示.

        作者貢獻聲明:東坤杰負責實驗思路構思、方法設計和程序設計、數(shù)據(jù)整理、實驗探究、數(shù)據(jù)分析、初稿撰寫;周麗華負責實驗監(jiān)督、數(shù)據(jù)分析、初稿的審閱和修改指導;朱月英、杜國王、黃通負責數(shù)據(jù)整理、實驗探究、數(shù)據(jù)分析、實驗結(jié)果可視化.

        猜你喜歡
        信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        信息超市
        展會信息
        展會信息
        展會信息
        展會信息
        展會信息
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        欧美乱妇高清无乱码在线观看| 青青草视频免费在线播放| 国内自拍视频一区二区三区| 久久精品国产亚洲av无码偷窥 | 女性女同性aⅴ免费观女性恋| 在线观看无码一区二区台湾| 亚洲一区久久久狠婷婷| 午夜福利一区在线观看中文字幕| 特级a欧美做爰片第一次| 国产成人久久综合热| 青青草视频国产在线观看 | 美女内射毛片在线看免费人动物| 国产午夜精品久久久久免费视 | 天堂√中文在线bt| 久久亚洲国产成人精品v| 久久精品国产亚洲av沈先生 | 日韩欧美中文字幕不卡| 精品女同一区二区三区在线播放器 | 亚洲男女内射在线播放| 亚洲日本中文字幕天天更新| 人伦片无码中文字幕| 精品中文字幕久久久人妻| 国产成人精品免费久久久久 | 亚洲天堂免费成人av| 手机免费在线观看av网址| 亚洲日韩精品无码专区网站| 久久精品国产亚洲Av无码偷窍| 男女动态视频99精品| 天天做天天添av国产亚洲| 久久久久亚洲av无码a片软件| 亚洲图片第二页| 国产成人高清在线观看视频| 亚洲精品乱码久久久久久金桔影视| 国产成人免费a在线视频| 在线观看国产精品一区二区不卡| 一本无码中文字幕在线观| 久久不见久久见免费视频7| 国产精品国产三级国产av主| 久久99天堂av亚洲av| 久久国产劲暴∨内射| 一区二区三区内射视频在线观看|