亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向異質(zhì)信息網(wǎng)絡(luò)的表示學(xué)習(xí)方法研究綜述*

        2019-07-11 07:28:38趙中英
        計算機(jī)與生活 2019年7期
        關(guān)鍵詞:信息模型

        周 慧,趙中英,李 超

        山東科技大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590

        1 引言

        網(wǎng)絡(luò)是表達(dá)事物之間關(guān)聯(lián)關(guān)系的有效載體,由節(jié)點和鏈接關(guān)系(邊)組成,在日常生活中無處不在。異質(zhì)信息網(wǎng)絡(luò)是一種特殊類型的網(wǎng)絡(luò),由多種類型的節(jié)點、鏈接關(guān)系以及屬性信息組成,具有大規(guī)模、異質(zhì)性等特點。隨著信息時代的發(fā)展,所面臨的信息網(wǎng)絡(luò)越來越復(fù)雜,各行各業(yè)對數(shù)據(jù)處理的速度和有效性也提出了更高的需求。采用鄰接矩陣這種高維稀疏的編碼方式來表示網(wǎng)絡(luò)中的節(jié)點,很難被機(jī)器學(xué)習(xí)算法處理。網(wǎng)絡(luò)表示學(xué)習(xí)(或網(wǎng)絡(luò)嵌入)采用低維向量的形式表示網(wǎng)絡(luò)中的組件,打破了網(wǎng)絡(luò)固有的節(jié)點和邊的形態(tài),同時最大程度地保留原網(wǎng)絡(luò)中的結(jié)構(gòu)信息和特性。由于低維的向量很容易被機(jī)器學(xué)習(xí)算法處理,因而越來越受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注,也有效地運用到了節(jié)點分類[1-2]、鏈接預(yù)測[3-4]、社區(qū)發(fā)現(xiàn)[5-6]和推薦[7-8]等任務(wù)中。最初的網(wǎng)絡(luò)表示學(xué)習(xí)算法注重對原網(wǎng)絡(luò)的復(fù)現(xiàn),即最大程度保留原網(wǎng)絡(luò)中的信息。相關(guān)研究工作包括DeepWalk[9]、LINE(large-scale information network embedding)[10]、node2vec[11]和 GraRep(graph representations)[12]等。雖然這些算法越來越精確地保留了節(jié)點在原網(wǎng)絡(luò)中的相對位置關(guān)系,但它們只是單純地借助于拓?fù)浣Y(jié)構(gòu)信息,學(xué)得的表征向量缺乏對后續(xù)實驗任務(wù)的區(qū)別力和推理能力。現(xiàn)實世界的網(wǎng)絡(luò)中普遍存在著除拓?fù)湫畔⒅獾漠愘|(zhì)信息,包括節(jié)點或邊上的標(biāo)簽信息、社區(qū)信息和屬性信息等。充分利用這些異質(zhì)信息有助于學(xué)得更具推理能力和區(qū)別力的表征向量。

        融合異質(zhì)信息的網(wǎng)絡(luò)表示學(xué)習(xí)工作相繼被提出,在很大程度上推動了該領(lǐng)域的發(fā)展。對這些算法進(jìn)行分類梳理有助于了解和掌握該領(lǐng)域的學(xué)術(shù)思路和動態(tài)。在本文中,首先創(chuàng)建了一個統(tǒng)一的分類框架,并在每個類別下列舉了一些代表性算法。進(jìn)一步地,從橫向上對各類別下的代表性算法進(jìn)行了介紹,包括其主要的理論方法和思想。之后,又縱向?qū)Ρ攘诉@些算法的時間復(fù)雜度、優(yōu)缺點和評估實驗等。此外,整理了實驗中一些常用的數(shù)據(jù)集,并給出了簡單的屬性介紹和相關(guān)鏈接。在文章最后,進(jìn)一步指出了該領(lǐng)域的挑戰(zhàn)和未來可能的研究方向。

        1.1 相關(guān)定義

        1.1.1 異質(zhì)信息網(wǎng)絡(luò)

        根據(jù)石川等人在文獻(xiàn)[13]中提出的異質(zhì)信息網(wǎng)絡(luò)的定義,進(jìn)一步對本文所涉及的異質(zhì)信息網(wǎng)絡(luò)給出以下形式化的定義。

        1.1.2 網(wǎng)絡(luò)表示學(xué)習(xí)

        定義2(網(wǎng)絡(luò)表示學(xué)習(xí)[14](network representation learning,NRL))給定一網(wǎng)絡(luò)G(V,E),其中V表示網(wǎng)絡(luò)G中的節(jié)點集,E表示網(wǎng)絡(luò)G中的邊集。目標(biāo)是為網(wǎng)絡(luò)中的節(jié)點v∈V(或邊、子圖等)學(xué)習(xí)一映射關(guān)系f:v→rv∈Rd,其中rv是為節(jié)點v學(xué)得的低維稠密向量,d<<|V|,轉(zhuǎn)換函數(shù)f用于捕獲定義在原網(wǎng)絡(luò)中的相似度信息。

        結(jié)合定義1,進(jìn)一步給出異質(zhì)信息網(wǎng)絡(luò)上的表示學(xué)習(xí)的形式化定義,如下所示。

        定義3(異質(zhì)信息網(wǎng)絡(luò)表示學(xué)習(xí))給定一異質(zhì)信息網(wǎng)絡(luò)G(V,E,T,φ,ψ,H),目標(biāo)是為網(wǎng)絡(luò)中的節(jié)點v∈V(或邊、子圖等)學(xué)習(xí)一映射關(guān)系f:v→rv∈Rd,d<<|V|,rv是為節(jié)點v學(xué)得的低維稠密向量,其中包含了節(jié)點在原網(wǎng)絡(luò)中的異質(zhì)信息。

        1.2 符號和解釋

        進(jìn)一步總結(jié)了本文中用到的主要符號及其解釋,如表1所示。

        Table 1 Notations used in this paper表1 本文中的常用符號

        2 算法分類介紹

        Fig.1 Classification framework for algorithms(color of algorithm is corresponding to methodology)圖1 算法分類框架(算法的顏色與理論相對應(yīng))

        針對融合異質(zhì)信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法,首先設(shè)計了一個統(tǒng)一的分類框架,并在每個類別下列舉了一些代表性算法。如圖1所示,該框架首先以信息類型作為分類依據(jù)將算法分成了四大類,即:標(biāo)簽/社區(qū)信息、屬性信息、多種類型信息以及異構(gòu)網(wǎng)絡(luò)。其中前三類面向的是帶有輔助信息的網(wǎng)絡(luò),第四類面向的是異構(gòu)網(wǎng)絡(luò)。接下來,在每個類別下進(jìn)一步劃分成有監(jiān)督和無監(jiān)督這兩個子類,并列舉了相應(yīng)的代表性算法。此外,框圖的最下方是這些算法用到的基礎(chǔ)理論方法,包括矩陣分解、神經(jīng)網(wǎng)絡(luò)、自定義損失函數(shù)以及其他的綜合框架。采用不同的顏色進(jìn)行標(biāo)注,并與相應(yīng)算法的顏色相對應(yīng)。在下文中,將對一些代表性算法進(jìn)行分類介紹。

        2.1 標(biāo)簽信息輔助的網(wǎng)絡(luò)表示學(xué)習(xí)

        2.1.1 基于矩陣分解的方法

        MMDW(max-margin DeepWalk)[15]是基于矩陣分解的有監(jiān)督的表示學(xué)習(xí)模型。該模型首先從理論上證明了DeepWalk相當(dāng)于矩陣分解;然后將矩陣分解得到的表征向量輸入到支持向量機(jī)[16](support vector machine,SVM)中進(jìn)行訓(xùn)練,并根據(jù)分類邊界產(chǎn)生有偏置的梯度方向;之后根據(jù)該方向進(jìn)行向量更新,以增大表示向量在分類器中的分類間隔??偟膩碚f,該模型共同優(yōu)化最大間隔分類器和目標(biāo)矩陣分解模型,使得學(xué)得的表征向量具有對后續(xù)機(jī)器學(xué)習(xí)任務(wù)的區(qū)別力。

        與之類似的算法還包括DDRW(discriminative deep random walk)[17]、TLINE[18]以 及 SemNE(semisupervised network embedding)[19]等。這些算法共同的優(yōu)點是能夠直接優(yōu)化分類損失,使學(xué)得的表征向量具有區(qū)別力,但這些算法容易產(chǎn)生過擬合。

        2.1.2 基于神經(jīng)網(wǎng)絡(luò)的方法

        Kipf等人提出了GCN(graph convolution networks)[20]算法,運用卷積神經(jīng)網(wǎng)絡(luò)來處理圖結(jié)構(gòu)數(shù)據(jù)。該算法首先將圖的拉普拉斯矩陣的特征向量矩陣通過傅里葉變換轉(zhuǎn)化到譜空間上,然后進(jìn)行卷積操作。然后通過部分帶標(biāo)簽的節(jié)點對模型進(jìn)行訓(xùn)練,從而實現(xiàn)半監(jiān)督學(xué)習(xí)。此外,作者還設(shè)計了一種簡單有效的層級傳播規(guī)則,通過這種方式可快速有效地處理圖數(shù)據(jù)上的半監(jiān)督分類問題。特別地,在不借助任何外部信息的情況下,該模型所學(xué)得的圖節(jié)點向量表示和DeepWalk算法結(jié)果是極為相似的,這也表明了圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在網(wǎng)絡(luò)表示學(xué)習(xí)任務(wù)中的有效性。更多關(guān)于圖神經(jīng)網(wǎng)絡(luò)的內(nèi)容可參閱文獻(xiàn)[21]。

        TransNet(translation-based network representation)[22]將自編碼器模型與轉(zhuǎn)換機(jī)制[23-24]相結(jié)合,對網(wǎng)絡(luò)中邊上的標(biāo)簽信息進(jìn)行建模。主要方法是對邊上的標(biāo)簽信息進(jìn)行自編碼,并對自編碼器中間層上的邊向量進(jìn)行轉(zhuǎn)換操作,將節(jié)點的向量表示和對應(yīng)的邊向量訓(xùn)練成平移關(guān)系。由此,可根據(jù)節(jié)點向量直接推出邊向量,通過解碼操作即可獲得邊上的標(biāo)簽信息。該模型被成功運用在社會關(guān)系提取任務(wù)中。

        2.1.3 綜合框架方法

        在現(xiàn)實網(wǎng)絡(luò)中,節(jié)點之間存在著不同類型的相似性,使得網(wǎng)絡(luò)呈現(xiàn)出多種視圖(multi-view)。傳統(tǒng)網(wǎng)絡(luò)表示學(xué)習(xí)模型大都是學(xué)習(xí)網(wǎng)絡(luò)中的單一視圖信息,唐建等人提出了一種可整合網(wǎng)絡(luò)中多視圖信息的魯棒性表示學(xué)習(xí)模型MVE(multi-view network embedding)[25]。該模型基于注意力機(jī)制學(xué)習(xí)各視圖的權(quán)重并進(jìn)行信息整合,最終學(xué)得具有高魯棒性的表征向量。

        進(jìn)一步將本小節(jié)中介紹的算法進(jìn)行綜合比較,包括時間復(fù)雜度、理論基礎(chǔ)、有無監(jiān)督以及評估方法等,對比結(jié)果如表2所示。

        Table 2 Comprehensive comparison of algorithms assisted by label information表2 標(biāo)簽信息輔助的算法綜合比較

        2.2 社區(qū)信息輔助的網(wǎng)絡(luò)表示學(xué)習(xí)

        2.2.1 基于矩陣分解的方法

        M-NMF(modularized nonnegative matrix factorization)[26]算法對網(wǎng)絡(luò)中節(jié)點分別從微觀和中觀的角度學(xué)習(xí)向量表示,同時考慮節(jié)點之間的相似度和節(jié)點所屬的社區(qū)信息。微觀層面上,該算法主要編碼節(jié)點間的一階和二階拓?fù)湎嗨贫龋恢杏^層面上,該模型運用基于模塊性最大化的社區(qū)發(fā)現(xiàn)方法來建模網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)。最終學(xué)得的表征向量同時包含了節(jié)點在原網(wǎng)絡(luò)中的拓?fù)湫畔⒁约八鶎俚纳鐓^(qū)信息,在后續(xù)的節(jié)點聚類和分類任務(wù)中表現(xiàn)優(yōu)越。

        2.2.2 綜合框架方法

        除了利用社區(qū)信息對網(wǎng)絡(luò)中的單個節(jié)點進(jìn)行表示學(xué)習(xí)之外,Cavallari等人設(shè)計了ComE(community embedding)[27]模型,可直接對整個社區(qū)進(jìn)行表示學(xué)習(xí)。模型中節(jié)點嵌入、社區(qū)發(fā)現(xiàn)以及社區(qū)嵌入這三部分之間循環(huán)進(jìn)行,并且相互促進(jìn)。節(jié)點嵌入有助于增強(qiáng)社區(qū)發(fā)現(xiàn),用于輸出更好的社區(qū),由此能夠進(jìn)一步擬合出更好的社區(qū)嵌入。實驗證明這對社區(qū)層面上的任務(wù)有很大的幫助,包括社區(qū)發(fā)現(xiàn)、社區(qū)可視化和社區(qū)推薦等。結(jié)合社區(qū)信息進(jìn)行表示學(xué)習(xí)的算法還包括COSINE(community-preserving social network embeddings)[28]、CARE(community aware random walk for network embedding)[29]和 GNE(galaxy network embedding)30]等無監(jiān)督學(xué)習(xí)算法。

        進(jìn)一步將本小節(jié)中介紹的算法進(jìn)行綜合比較,總結(jié)如表3所示。

        2.3 屬性信息輔助的網(wǎng)絡(luò)表示學(xué)習(xí)

        2.3.1 基于矩陣分解的方法

        Liu等人在DeepWalk算法基礎(chǔ)之上進(jìn)行改進(jìn),提出了TADW(text-associated DeepWalk)[31]算法。該算法將節(jié)點的屬性信息加入到矩陣分解的過程中,主要思想如圖2所示。其目標(biāo)是對矩陣M(M=(A+A2)/2)進(jìn)行矩陣分解,使得M≈WTHT,其中T矩陣中包含了節(jié)點的屬性信息。對應(yīng)的目標(biāo)函數(shù)如式(1)所示,最小化目標(biāo)函數(shù)并更新矩陣W和H。節(jié)點最終的向量表示由矩陣W和HT對應(yīng)的列向量拼接得到。DMF(discriminative matrix factorization)[32]對 TADW算法進(jìn)一步作了改進(jìn),通過增加一線性分類器進(jìn)行有監(jiān)督學(xué)習(xí),從而使學(xué)得的表征向量更具區(qū)別力。

        Fig.2 Framework of TADW model(from Ref.[31])圖2 TADW模型框架(來源于文獻(xiàn)[31])

        AANE(accelerated attributed network embedding)[33]模型同樣基于矩陣分解將網(wǎng)絡(luò)中的拓?fù)湫畔⒁约皩傩孕畔⒄系揭黄?。特別地,該模型將優(yōu)化過程分解成了多個子問題進(jìn)行并行工作,通過這種方法大大提升了模型的工作效率。Li等人引入矩陣攝動理論,進(jìn)一步設(shè)計了能夠適應(yīng)網(wǎng)絡(luò)動態(tài)變化的表示學(xué)習(xí)模型 DANE(dynamic attributed network embedding)[34],在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和屬性信息產(chǎn)生變化后,該模型能夠在較短時間內(nèi)對網(wǎng)絡(luò)中的節(jié)點生成新的向量表示。

        2.3.2 基于神經(jīng)網(wǎng)絡(luò)的方法

        Li等人提出了一深度學(xué)習(xí)模型VAE(variational AutoEncoder)[35]來學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點的嵌入。該模型整合了doc2vec[36]和深度自編碼器,將屬性信息和拓?fù)湫畔⑦M(jìn)行整合并映射到同一語義空間中。其中doc2vec用于將屬性信息向量化,深度自編碼器用于整合向量化的屬性信息和拓?fù)湫畔ⅲㄠ徑泳仃嚕L貏e地,在編碼區(qū)的最后一層會產(chǎn)生兩種信息新的分布,以提取兩者的主要特征。最終,模型將自編碼器的中間層作為節(jié)點的向量表示。學(xué)得的表征向量同時捕獲了節(jié)點在原網(wǎng)絡(luò)中的屬性信息以及高度非線性的拓?fù)湫畔ⅰ?/p>

        Table 3 Comprehensive comparison of algorithms assisted by community information表3 社區(qū)信息輔助的算法綜合比較

        GraphSAGE(graph sample and aggregate)[37]在傳統(tǒng)圖卷積神經(jīng)網(wǎng)絡(luò)上進(jìn)行了延伸,通過匯聚多階鄰居節(jié)點的信息來生成向量表示。特別地,該模型對于不同階層的鄰居節(jié)點訓(xùn)練不同的聚合器,并可通過后續(xù)的任務(wù)進(jìn)行有監(jiān)督的學(xué)習(xí)。最終學(xué)得的節(jié)點的向量表示一方面匯聚了多階鄰居節(jié)點的屬性信息,另一方面也捕獲了原網(wǎng)絡(luò)中的拓?fù)湫畔?。EP(embedding propagation)[38]算法同樣是通過匯聚鄰居信息來進(jìn)行表示學(xué)習(xí)。不同之處在于,EP算法屬于無監(jiān)督學(xué)習(xí),且獨立學(xué)習(xí)每種不同類型標(biāo)簽的嵌入。

        Tu等人指出現(xiàn)實網(wǎng)絡(luò)中節(jié)點與不同鄰居節(jié)點交互時所展現(xiàn)的主題會有所不同,進(jìn)而設(shè)計了CANE(context-aware network embedding)[39]算法。該算法通過一深度架構(gòu)將節(jié)點的屬性信息和拓?fù)湫畔⒂成涞酵徽Z義空間中,并引入注意力機(jī)制來捕獲節(jié)點與不同鄰居交互時所側(cè)重的主題。

        2.3.3 基于自定義損失函數(shù)的方法

        Xu等人認(rèn)為現(xiàn)實世界網(wǎng)絡(luò)中的鏈接信息和屬性信息大都是部分可見的,由此提出了NRCL(noiseresilient representation consensus learning)[40]算法為具有部分鏈接和屬性信息的網(wǎng)絡(luò)學(xué)習(xí)向量表示,并應(yīng)用到鏈接預(yù)測任務(wù)中。該模型將網(wǎng)絡(luò)中的節(jié)點分為三類,分別為具有連邊的節(jié)點集、具有屬性信息的節(jié)點集以及同時具有這兩種信息的節(jié)點集,網(wǎng)絡(luò)中的節(jié)點屬于這三類中的一類或多類。對前兩類節(jié)點集分別進(jìn)行建模,然后通過第三類節(jié)點集相聯(lián)系,由此使得鏈接信息與屬性信息相互補(bǔ)充,學(xué)得的向量表示具有高魯棒性。

        進(jìn)一步將本小節(jié)中介紹的算法進(jìn)行綜合比較,總結(jié)如表4所示。

        2.4 多類別信息輔助的網(wǎng)絡(luò)表示學(xué)習(xí)

        以上介紹的表示學(xué)習(xí)模型都只結(jié)合了一種異質(zhì)信息,并不適用于多種異質(zhì)信息的有效融合。而如何有效地融合和平衡多種異質(zhì)信息是一個極具挑戰(zhàn)的任務(wù)。已有一些研究者針對此問題各自提出了不同的解決方法。在下文中,將對這些研究成果分別進(jìn)行詳細(xì)介紹。

        2.4.1 基于神經(jīng)網(wǎng)絡(luò)的方法

        Fig.3 Framework ofASNE model(from Ref.[41])圖3 ASNE模型框架(來源于文獻(xiàn)[41])

        Table 4 Comprehensive comparison on algorithms assisted by attribute information表4 屬性信息輔助的算法綜合比較

        ASNE(attributed social network embedding)[41]運用深層神經(jīng)網(wǎng)絡(luò)對不同類型的節(jié)點信息(離散+連續(xù))進(jìn)行綜合的學(xué)習(xí),模型的整體架構(gòu)如圖3所示。首先,該模型對節(jié)點的離散屬性(例如id)進(jìn)行onehot編碼,對于連續(xù)屬性(例如文本)進(jìn)行TF-IDF(term frequency-inverse document frequency)編碼;然后,將編碼生成的向量輸入到嵌入層(由兩個全連接層組成)進(jìn)行降維,Wid和Watt分別對應(yīng)id和屬性信息的全連接層中的權(quán)重矩陣;之后將降維后的向量進(jìn)行拼接,并輸入到隱含層中進(jìn)行非線性映射;最后,在輸出層上計算出目標(biāo)節(jié)點與其他節(jié)點連接的概率,由此將拓?fù)湫畔⑴c多種類別的屬性信息聯(lián)系起來??偟膩碚f,該模型通過深層神經(jīng)網(wǎng)絡(luò)建模不同類型信息之間的復(fù)雜的關(guān)聯(lián)關(guān)系,在后續(xù)的節(jié)點分類和鏈接預(yù)測的任務(wù)中表現(xiàn)優(yōu)越。

        Jacobs等人提出了一種半監(jiān)督模型SEANO(semisupervised embedding in attributed networks with outliers)[42]為具有部分標(biāo)簽和屬性信息的網(wǎng)絡(luò)學(xué)習(xí)節(jié)點的向量表示。該模型通過深度學(xué)習(xí)架構(gòu)將節(jié)點的拓?fù)浣Y(jié)構(gòu)信息、屬性信息和標(biāo)簽信息關(guān)聯(lián)起來。模型的整體框架如圖4所示,它包含了兩個輸入層和兩個輸出層,中間通過非線性映射層將異構(gòu)信息相連。其中,輸入層中包含了目標(biāo)節(jié)點和其鄰居節(jié)點的屬性信息向量;左側(cè)的輸出層作為該模型的有監(jiān)督學(xué)習(xí)部分,通過帶有標(biāo)簽信息的節(jié)點進(jìn)行訓(xùn)練;右側(cè)的輸出層作為模型的無監(jiān)督學(xué)習(xí)部分,用于捕獲節(jié)點在原網(wǎng)絡(luò)中的拓?fù)湫畔?。最后,將模型嵌入層中的向量作為?jié)點最終的向量表示。

        Fig.4 Framework of SEANO model(from Ref.[42])圖4 SEANO模型框架(來源于文獻(xiàn)[42])

        2.4.2 綜合框架方法

        Huang等人提出了一種半監(jiān)督的綜合框架LANE(label informed attributed network embedding)[43]來匯聚多種異構(gòu)信息。該模型通過將標(biāo)簽信息、屬性信息和拓?fù)湫畔⒂成涞较嗤恼Z義空間中,并尋找三者之間的關(guān)聯(lián)關(guān)系來獲得節(jié)點的向量表示。其中,對于拓?fù)湫畔⒑蛯傩孕畔⒌那度胫饕\用了譜方法;對于標(biāo)簽信息的嵌入,主要根據(jù)同質(zhì)性原則,使具有相同標(biāo)簽的節(jié)點在向量空間中距離相近。最后通過相關(guān)投影將學(xué)得的這三類向量嵌入到一個新的維度空間中,最大化三者在新空間上的關(guān)聯(lián)性,進(jìn)而得出最終的向量表示。

        將本小節(jié)介紹的算法及帶有輔助信息的網(wǎng)絡(luò)表示學(xué)習(xí)方法進(jìn)行綜合對比,從算法的理論基礎(chǔ)、有無監(jiān)督、時間復(fù)雜性、評測任務(wù)等方面進(jìn)行比較,分別如表5和表6所示。

        2.5 面向異構(gòu)網(wǎng)絡(luò)的表示學(xué)習(xí)

        2.5.1 基于自定義損失函數(shù)的方法

        Jacob等人在文獻(xiàn)[44]中提出了一種半監(jiān)督表示學(xué)習(xí)算法LSHM(latent space heterogeneous model),用于對異構(gòu)網(wǎng)絡(luò)中的不同類型的節(jié)點學(xué)習(xí)向量表示。該算法同時對相同類型和不同類型的節(jié)點進(jìn)行平滑性約束,并將所有類型的節(jié)點映射到同一潛在空間中。此外,對于每類節(jié)點,都會進(jìn)一步學(xué)習(xí)一分類函數(shù),并對帶標(biāo)簽的節(jié)點進(jìn)行預(yù)測。最終學(xué)得的向量表示同時包含了節(jié)點在原網(wǎng)絡(luò)中的拓?fù)湫畔⒑蜆?biāo)簽信息。

        Table 5 Comprehensive comparison on algorithms assisted by polytype information表5 多類型信息輔助的算法綜合比較

        Table 6 Comparison of NRL algorithms in terms of theoretical foundation表6 網(wǎng)絡(luò)表示學(xué)習(xí)算法的理論基礎(chǔ)比較

        PTE(predictive text embedding)[45]算法在 LINE算法的基礎(chǔ)上進(jìn)行了改進(jìn),用于在異構(gòu)文本網(wǎng)絡(luò)中學(xué)習(xí)文本的嵌入。異構(gòu)文本網(wǎng)絡(luò)中包含了單詞、文檔和標(biāo)簽這三種類型的節(jié)點。在建模過程中,首先將異構(gòu)文本網(wǎng)絡(luò)劃分成了三個子網(wǎng)絡(luò),分別為“單詞-單詞”“單詞-文本”和“單詞-標(biāo)簽”子網(wǎng)絡(luò)。然后采用改進(jìn)后的LINE算法分別對這些子網(wǎng)絡(luò)建模,捕獲不同類型信息之間的相似性。最終文本的向量表示由相應(yīng)單詞的向量表示取平均得到。

        以上介紹的算法都是將異構(gòu)數(shù)據(jù)拆分成兩兩交互的類型分別進(jìn)行建模,這種方法的缺點就是無法捕獲一些強(qiáng)類型對象(strongly-typed objects)產(chǎn)生的共同作用效果。Gui等人提出了HEBE(hyperedgebased embedding)[46]算法用于解決這個問題。該算法將一類事件產(chǎn)生的交互集合(即強(qiáng)類型對象)看作一個超邊,并將每個超邊作為一個整體進(jìn)行建模。在建模過程中,將超邊中的一特定類型的節(jié)點設(shè)定為預(yù)測目標(biāo),并用該超邊中剩余節(jié)點對該目標(biāo)節(jié)點進(jìn)行預(yù)測,從而捕獲了基于事件的相似性關(guān)系。

        2.5.2 基于矩陣分解的方法

        CMF(coordinate matrix factorization)[47]是一種基于矩陣分解的異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)算法,用于同時學(xué)習(xí)維基百科中實體、類別和詞的向量表示。該算法通過矩陣分解的方式分別建立實體之間、實體與類別之間、實體與詞之間的聯(lián)系,總的損失函數(shù)如式(2)所示。通過這種方式,一方面可以克服網(wǎng)絡(luò)稀疏問題,另一方面也方便增加更多的關(guān)系矩陣,具有可擴(kuò)展性。

        2.5.3 基于神經(jīng)網(wǎng)絡(luò)的方法

        metapath2vec[48]算法基于隨機(jī)游走和skip-gram模型來學(xué)習(xí)異構(gòu)網(wǎng)絡(luò)中節(jié)點的向量表示。該算法設(shè)計了基于元路徑的隨機(jī)游走方法,通過定義的對稱的meta-path來控制隨機(jī)游走過程。產(chǎn)生的節(jié)點序列可以直接輸入到skip-gram模型中進(jìn)行訓(xùn)練,不區(qū)分節(jié)點的類別。作者將skip-gram進(jìn)一步作了改進(jìn),改進(jìn)后的模型metapath2vec++使得不同類型的節(jié)點能夠在輸出層上被區(qū)別開來。Zhang等人在文獻(xiàn)[49]中指出了基于mata-path的方法只能嚴(yán)格按照設(shè)定的路徑類型選取節(jié)點建立聯(lián)系,并不能捕獲那些距離較遠(yuǎn)的節(jié)點間的相似性,而且只有一少部分節(jié)點符合設(shè)定的元路徑,從而導(dǎo)致在訓(xùn)練過程中數(shù)據(jù)的稀疏。由此,作者設(shè)計一種基于元圖(metagraph)的方法來引導(dǎo)隨機(jī)游走的過程。由于每個元圖中包含了多種元路徑,因而在隨機(jī)游走過程中能夠?qū)崿F(xiàn)更加靈活的匹配,從而捕獲更加復(fù)雜的節(jié)點關(guān)系。

        在文獻(xiàn)[50]中,作者提出了一種無監(jiān)督的異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)框架AspEm(embedding learning by aspects),為異構(gòu)節(jié)點學(xué)習(xí)匯聚多方面信息的向量表示。如圖5所示,(a)圖例可以分解成(b)中兩個方面的子圖。文中設(shè)計了一種不兼容信息度量方法來提取這種多方面子圖。該模型進(jìn)一步將不同子圖通過skip-gram分別進(jìn)行訓(xùn)練,最后將同一節(jié)點的來自不同子圖的向量表示整合在一起。

        Fig.5 Schema and 2 aspects of HIN(from Ref.[50])圖5 異構(gòu)網(wǎng)絡(luò)的圖例和兩個方面(來源于文獻(xiàn)[50])

        Wang等人提出了SHINE(signed heterogeneous information network embedding)[51]模型用于預(yù)測異構(gòu)情感網(wǎng)絡(luò)中用戶的潛在情感傾向。文中通過建立情感網(wǎng)絡(luò)、社會網(wǎng)絡(luò)和資料網(wǎng)絡(luò)這三大網(wǎng)絡(luò)來匯聚異構(gòu)信息,并通過三個深度自編碼器分別對三個網(wǎng)絡(luò)進(jìn)行信息嵌入,之后將節(jié)點在不同網(wǎng)絡(luò)下得到的向量表示進(jìn)行匯聚,產(chǎn)生節(jié)點最終的向量表示。最后可通過計算用戶表征向量之間的相似性來進(jìn)行情感預(yù)測。該模型充分借助異構(gòu)信息,有效地解決了冷啟動問題,進(jìn)而可有效應(yīng)用到鏈接預(yù)測和推薦任務(wù)中。

        2.5.4 綜合框架方法

        為了整合異構(gòu)網(wǎng)絡(luò)中不同類型的信息,Chang等人設(shè)計了一深度架構(gòu)HNE(heterogeneous network embedding)[52],將不同類型的信息映射到相同的語義空間中。以包含文本和圖片信息的異構(gòu)網(wǎng)絡(luò)為例,該模型對不同類型的節(jié)點采用不同的處理方法(圖片-卷積神經(jīng)網(wǎng)絡(luò),文本-全連接神經(jīng)網(wǎng)絡(luò)),并將它們映射到同一潛在空間中。進(jìn)一步地,該模型根據(jù)原網(wǎng)絡(luò)中的拓?fù)湫畔Σ煌愋偷墓?jié)點對(“圖片-圖片”“圖片-文本”和“文本-文本”)進(jìn)行相似性建模。由此也證明了不同模態(tài)的數(shù)據(jù)類型能夠通過這種深層架構(gòu)在同一潛在空間中建立聯(lián)系。

        Fu等人提出了HIN2Vec(heterogeneous information network to vector)[53]模型,基于神經(jīng)網(wǎng)絡(luò)同時學(xué)習(xí)異構(gòu)網(wǎng)絡(luò)中的節(jié)點和元路徑的向量表示。與上文介紹的基于metapath的算法不同,HIN2Vec是以完全隨機(jī)游走的方式選取訓(xùn)練集,并通過預(yù)測相鄰節(jié)點間的特定關(guān)系來建模異構(gòu)網(wǎng)絡(luò)中節(jié)點的關(guān)聯(lián)關(guān)系。這種多任務(wù)學(xué)習(xí)方法使得表示學(xué)習(xí)過程得以高效進(jìn)行。

        3 常用數(shù)據(jù)集

        本章主要介紹上述論文實驗中常用的數(shù)據(jù)集,包括數(shù)據(jù)集的來源(Link)、節(jié)點數(shù)(|V|)、邊數(shù)(|E|)、標(biāo)簽類別數(shù)(|y|)、是否有屬性信息(attributes,Att.)等。同時對這些數(shù)據(jù)集進(jìn)行分類,類別包括:社交網(wǎng)絡(luò)(social network)、引文網(wǎng)絡(luò)(citation network)、合著網(wǎng)絡(luò)(collaboration network)、網(wǎng)頁鏈接網(wǎng)絡(luò)(Webpage network)和生物學(xué)網(wǎng)絡(luò)(biological network)等。將數(shù)據(jù)集的信息總結(jié)如表7所示。

        4 總結(jié)與展望

        本文為融合異質(zhì)信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法設(shè)計了一個統(tǒng)一的分類框架,并對一些代表性算法進(jìn)行了概括介紹和分類對比??偟膩碚f,復(fù)雜網(wǎng)絡(luò)中豐富的信息越來越充分地得到挖掘和運用,這也使模型學(xué)得的表征向量更能反映網(wǎng)絡(luò)的真實形態(tài)。隨著社會發(fā)展,現(xiàn)實世界網(wǎng)絡(luò)會變得更加復(fù)雜,如何有效地匯聚不同類型的信息來輔助表征向量的學(xué)習(xí),使其更具推理能力和區(qū)別力,同時降低整個模型的復(fù)雜度是今后仍需研究的開放性問題。對此領(lǐng)域未來可能的研究方向做了如下總結(jié):

        (1)適應(yīng)大規(guī)模復(fù)雜網(wǎng)絡(luò)?,F(xiàn)有的融合異質(zhì)信息的網(wǎng)絡(luò)表示學(xué)習(xí)算法僅適用于小規(guī)模數(shù)據(jù)網(wǎng)絡(luò),難以適用到現(xiàn)實應(yīng)用場景中。因此,設(shè)計具有可擴(kuò)展性的算法值得未來進(jìn)行深入研究。

        (2)適應(yīng)網(wǎng)絡(luò)的動態(tài)變化?,F(xiàn)實網(wǎng)絡(luò)具有動態(tài)性,節(jié)點、鏈接關(guān)系以及復(fù)雜的異質(zhì)信息都會不斷發(fā)生變化,而現(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)算法大都不適用于在線更新。設(shè)計能夠有效融合異質(zhì)信息的在線網(wǎng)絡(luò)表示算法具有很高的實用價值。

        Table 7 Data sets and descriptions表7 數(shù)據(jù)集及其介紹

        (3)尋找更多的應(yīng)用場景。目前網(wǎng)絡(luò)表示學(xué)習(xí)的應(yīng)用場景相對局限,主要包括節(jié)點分類、聚類、社區(qū)發(fā)現(xiàn)、鏈接預(yù)測等。挖掘出更多復(fù)雜網(wǎng)絡(luò)中的應(yīng)用場景,并設(shè)計針對特定任務(wù)的網(wǎng)絡(luò)表示學(xué)習(xí)算法是未來值得探索的方向。

        猜你喜歡
        信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        一個相似模型的應(yīng)用
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        青青草视频在线观看9| 国产成人精品一区二区三区免费| 狠狠躁日日躁夜夜躁2020| 亚洲人成色7777在线观看| 蜜桃视频一区二区三区在线观看| 日韩av高清无码| 免费国产黄片视频在线观看| 日本高清一区二区三区不卡| 亚洲av日韩专区在线观看| 日本伦理精品一区二区三区| 亚洲国产av玩弄放荡人妇| 欧美freesex黑人又粗又大| 伊人22综合| 天堂69亚洲精品中文字幕| 国产精品美女一区二区av| 性色av一二三天美传媒| 免费成人在线电影| 久久aⅴ无码av免费一区| 无码高清视频在线播放十区 | 国产精品亚洲一区二区三区正片 | 亚洲中文字幕午夜精品| av狠狠色丁香婷婷综合久久| 国产成人无码区免费网站| 国产肉体XXXX裸体784大胆| 国产一级片内射在线视频| 日本视频一区二区三区| 国产一区高清在线观看| 毛片免费视频在线观看| 又爆又大又粗又硬又黄的a片| 亚洲AVAv电影AV天堂18禁| 亚洲女同高清精品一区二区99| 亚洲最大中文字幕在线| 久久99热狠狠色精品一区| 国产精品第一二三区久久蜜芽 | 美女被强吻并脱下胸罩内裤视频| 色欲欲www成人网站| 国产精品无码av天天爽| 91免费在线| 国产高清不卡在线视频| 日产精品高潮一区二区三区5月| 开心五月激情综合婷婷色|