亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)進(jìn)行引文推薦

        2021-06-13 03:02:24張燕平
        計(jì)算機(jī)與生活 2021年6期
        關(guān)鍵詞:語義特征方法

        陳 潔,劉 洋,趙 姝+,張燕平

        1.安徽大學(xué) 計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,合肥230601

        2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥230601

        3.中鋼集團(tuán)馬鞍山礦山研究總院股份有限公司,安徽 馬鞍山243000

        +通信作者E-mail:zhaoshuzs2002@hotmail.com

        據(jù)計(jì)算機(jī)領(lǐng)域著名集成數(shù)據(jù)庫系統(tǒng)DBLP 統(tǒng)計(jì),計(jì)算機(jī)學(xué)科每年發(fā)表的文章數(shù)量超過30 萬篇。大學(xué)術(shù)數(shù)據(jù)時(shí)代已經(jīng)到來,信息過載問題日益嚴(yán)重。龐大的文獻(xiàn)數(shù)量有利于滿足研究者們的信息需求和相關(guān)研究工作的開展,但各類學(xué)術(shù)文獻(xiàn)質(zhì)量參差不齊也導(dǎo)致研究者們越來越難以高效、準(zhǔn)確地從海量文獻(xiàn)數(shù)據(jù)庫中檢索到最有用的出版物。學(xué)術(shù)搜索引擎可以通過執(zhí)行基于關(guān)鍵詞的檢索為研究者提供可能需要的文章,但仍需研究者逐一地審查每篇文章來篩選出合適的文章[1],在大規(guī)模數(shù)據(jù)庫中這樣勞動(dòng)密集型的工作并不適用。最近的趨勢是利用機(jī)器學(xué)習(xí)算法來探索與研究者給定文章相關(guān)領(lǐng)域的出版物并智能化地推薦一組文章集合,即引文推薦。

        引文推薦旨在根據(jù)研究者給定的查詢返回可供引用的相關(guān)文章或?qū)ζ溲芯款I(lǐng)域相近的有價(jià)值的文章。圖1 是一個(gè)示例,給出查詢文章及相關(guān)信息(圖左),引文推薦從文獻(xiàn)數(shù)據(jù)庫中返回可供參考的文章列表(圖右)。

        引文推薦的相關(guān)研究大體上包含三類:分別是基于協(xié)同過濾的方法(collaborative-based filtering,CF)[2-3]、基于內(nèi)容過濾的方法(content-based filtering,CBF)[4-6]和基于網(wǎng)絡(luò)圖的方法(graph-based,GB)[7-9]。CF 方法基于有類似研究興趣的研究者提供的論文評(píng)分進(jìn)行推薦,但數(shù)據(jù)稀疏和冷啟動(dòng)問題是其主要缺陷,難以推薦新文章和引用較少的文章。CBF 方法利用文章的關(guān)鍵詞或主題特征來確定待推薦文章是否與研究人員的需求相關(guān)。但新的術(shù)語不斷產(chǎn)生,單純基于語義的匹配不足以準(zhǔn)確找到最相關(guān)的文章。GB 方法將文章、作者以及它們之間的復(fù)雜關(guān)系以網(wǎng)絡(luò)范式刻畫,并將引文推薦轉(zhuǎn)換為網(wǎng)絡(luò)上文章結(jié)點(diǎn)間的相似性匹配問題[10]。為了進(jìn)一步描繪文章的文本上下文信息,可以通過屬性網(wǎng)絡(luò)建模[11-13]。近年來,隨著網(wǎng)絡(luò)表示學(xué)習(xí)的興起,一些研究者開始嘗試將屬性網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)引入引文推薦[8]。屬性網(wǎng)絡(luò)表示學(xué)習(xí)可以將網(wǎng)絡(luò)上的文章結(jié)點(diǎn)表示為低維稠密的實(shí)值向量并同時(shí)兼顧文章的文本屬性和拓?fù)浣Y(jié)構(gòu),基于屬性網(wǎng)絡(luò)表示學(xué)習(xí)實(shí)現(xiàn)引文推薦具有很高的研究價(jià)值。

        Fig.1 Example of citation recommendation圖1 引文推薦示例

        但現(xiàn)有基于屬性網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦一貫地使用單粒度網(wǎng)絡(luò)對引文推薦建模,存在計(jì)算復(fù)雜性高、內(nèi)存消耗大等弊端,難以被擴(kuò)展到大規(guī)模文獻(xiàn)數(shù)據(jù)網(wǎng)絡(luò)。開發(fā)出高效的多粒度網(wǎng)絡(luò)表示學(xué)習(xí)算法并考慮引文推薦的具體特性,同時(shí)兼顧文章的語義和結(jié)構(gòu)信息仍是個(gè)具有挑戰(zhàn)性的問題。本文進(jìn)一步提出一種基于多粒度屬性網(wǎng)絡(luò)表示引文推薦算法來放寬這一限制,使得多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)在引文推薦問題上成為可能。本文主要做出如下兩個(gè)貢獻(xiàn):

        (1)提出一種多粒度語義連邊屬性網(wǎng)絡(luò)粗化方法,可以在網(wǎng)絡(luò)粗化過程的同時(shí)利用語義連邊兼顧文章結(jié)點(diǎn)屬性,以在多粒度網(wǎng)絡(luò)表示學(xué)習(xí)過程中學(xué)習(xí)更高質(zhì)量的結(jié)點(diǎn)特征表示。

        (2)將多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)應(yīng)用于引文推薦,并開發(fā)出一種基于屬性網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦算法。在AAN 和DBLP 數(shù)據(jù)集上的實(shí)驗(yàn)表明提出的算法相比單粒度方法在不損失精度的前提下大大提升了效率。

        1 相關(guān)工作

        準(zhǔn)確地檢索可供引用的相關(guān)文章對研究者來說是一項(xiàng)繁瑣的工作?,F(xiàn)有的相關(guān)研究主體上包含基于協(xié)同過濾的方法、基于內(nèi)容過濾的方法和基于網(wǎng)絡(luò)圖的方法三大類。

        1.1 基于協(xié)同過濾的引文推薦

        基于協(xié)同過濾的方法通過收集用戶對文章的反饋來工作,并根據(jù)用戶配置文件之間的相似性來推薦文章,因此,它是領(lǐng)域無關(guān)的[3]。Yang 等[14]開發(fā)了一種面向排序的協(xié)同過濾方法,可根據(jù)用戶的訪問日志來推薦文章。Kang 等[15]利用低秩假設(shè)來填充評(píng)分矩陣中缺少的元素之后基于新矩陣來推薦文章。盡管這類方法已成功應(yīng)用于很多領(lǐng)域,但存在數(shù)據(jù)稀疏和冷啟動(dòng)問題[16],通常不會(huì)推薦新發(fā)表的文章或引用較少的文章。

        1.2 基于內(nèi)容過濾的引文推薦

        基于內(nèi)容過濾的方法能夠分析文章領(lǐng)域知識(shí),通常結(jié)合文本語義或潛在主題來比較文章相似性,在很大程度上緩解了基于協(xié)同過濾方法的弊端。Chandrasekaran 等[17]用概念層次樹(concept hierarchy tree,CHT)來描述用戶偏好,并在樹下度量用戶偏好和論文的相關(guān)度。Huang 等[18]利用神經(jīng)概率語言模型(neural probabilistic language model,NPLM)來學(xué)習(xí)文章特征表示,并根據(jù)學(xué)習(xí)到的表示進(jìn)行相似性搜索。Tang 等[5]提出一種雙層受限玻爾茲曼機(jī)模型來同時(shí)探索學(xué)術(shù)文獻(xiàn)的主題分布和引文關(guān)系。盡管這些方法取得了一些成果,但過于依賴對語義內(nèi)容的理解,不能準(zhǔn)確描述文章間的分歧,對引文推薦建模能力受限。

        1.3 基于網(wǎng)絡(luò)圖的引文推薦

        最近開始采用基于網(wǎng)絡(luò)圖的方法來建模引文推薦問題。Strohman 等[19]將每篇文章看作網(wǎng)絡(luò)上的結(jié)點(diǎn),引用關(guān)系看作結(jié)點(diǎn)之間的連接并將引文推薦看作鏈接預(yù)測問題。為了進(jìn)一步地探索異質(zhì)實(shí)體之間的復(fù)雜關(guān)系,異構(gòu)信息網(wǎng)絡(luò)開始被用于探索引文推薦問題,并引入元路徑、元結(jié)構(gòu)來捕獲實(shí)體間的潛在聯(lián)系。Mu 等[20]在三層圖模型上挖掘文章、作者等異質(zhì)實(shí)體間的關(guān)聯(lián)。Gupta 等[21]首次將網(wǎng)絡(luò)表示技術(shù)應(yīng)用于引文推薦并取得了顯著的提升。Gonog等[22]利用生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)來學(xué)習(xí)文章結(jié)點(diǎn)表示。為進(jìn)一步耦合結(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)?,Chen 等[8]利用語義連邊來捕獲結(jié)點(diǎn)屬性,語義連邊指代網(wǎng)絡(luò)上兩個(gè)文章結(jié)點(diǎn)共享相似的文本屬性繼而生成語義連邊并提出一種基于語義連邊屬性網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦算法。

        盡管現(xiàn)有的方法取得了成效,但單粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)計(jì)算復(fù)雜性高,應(yīng)用價(jià)值受限。本文提出基于多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)算法來改善這一弊端,將基于單粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦算法推廣到其多粒度形式,研究價(jià)值較高。

        2 相關(guān)理論和算法

        2.1 屬性網(wǎng)絡(luò)表示學(xué)習(xí)相關(guān)理論

        本章介紹研究涉及相關(guān)算法的基礎(chǔ)理論。屬性網(wǎng)絡(luò)是指網(wǎng)絡(luò)中的全部或部分結(jié)點(diǎn)關(guān)聯(lián)豐富屬性信息的網(wǎng)絡(luò)。下面給出屬性網(wǎng)絡(luò)的具體定義。

        定義1(屬性網(wǎng)絡(luò))指代網(wǎng)絡(luò)G=(V,E,A),V是結(jié)點(diǎn)集合,E是邊集合,A是屬性集合,每個(gè)結(jié)點(diǎn)vi可能關(guān)聯(lián)屬性。A={xi|vi∈V}是結(jié)點(diǎn)特征集合,如果vi是無屬性結(jié)點(diǎn)則xi為空,當(dāng)存在結(jié)點(diǎn)xi不為空時(shí),則G為屬性網(wǎng)絡(luò)。每條邊eij=(vi,vj)關(guān)聯(lián)權(quán)重wij≥0,指代vi和vj關(guān)系的強(qiáng)度。如果G是有向的,有eij≠eji并且wij≠wji;如果G是無向的,有eij=eji并且wij=wji。

        如圖2 所示,是由具體學(xué)術(shù)文獻(xiàn)組成的屬性網(wǎng)絡(luò)示例。作者C 和作者D 合著了文章A,作者D 和作者E 合著了文章B,文章A 和文章B 包含文本屬性。該屬性網(wǎng)絡(luò)可以有效地集成文章和作者之間豐富的語義和結(jié)構(gòu)信息并描述之間關(guān)聯(lián)。

        Fig.2 Example of attributed network圖2 屬性網(wǎng)絡(luò)示例

        為進(jìn)一步將結(jié)點(diǎn)屬性融入網(wǎng)絡(luò)拓?fù)?,可以使用語義連邊進(jìn)行建模,語義連邊指代網(wǎng)絡(luò)上兩點(diǎn)共享相似的屬性信息。

        定義2(語義連邊[8])給定文章pi∈V的屬性xi,pj∈V的屬性xj,語義連邊相似度產(chǎn)生閾值τ,fT是一個(gè)文本屬性分布式表示函數(shù),當(dāng)xi和xj的相似度cos(fT(xi),fT(xj))>τ時(shí),eij被定義為語義連邊。

        圖3 給出示例,文章1 和2 共享屬性“BCD”,和文章3 共享屬性“ABD”,其相似度達(dá)到75%,故文章1和文章3、4 之間產(chǎn)生語義連邊。而文章2 和3 間只共享兩個(gè)屬性,不產(chǎn)生語義連邊。

        Fig.3 Example of semantic links圖3 語義連邊示例

        為進(jìn)一步使用低維特征向量描述結(jié)點(diǎn)特征,屬性網(wǎng)絡(luò)表示學(xué)習(xí)被引入來提取和表示給定網(wǎng)絡(luò)有價(jià)值的信息。其學(xué)習(xí)的特征是一種低維稠密的實(shí)值向量并可以高度概括網(wǎng)絡(luò)信息特征。

        定義3(屬性網(wǎng)絡(luò)表示學(xué)習(xí)[23])給定屬性網(wǎng)絡(luò)G=(V,E,A),表示學(xué)習(xí)旨在學(xué)習(xí)函數(shù)f:V→?d可將結(jié)點(diǎn)v∈V轉(zhuǎn)化為d維空間?d向量,d?|V|,并保留結(jié)點(diǎn)間的結(jié)構(gòu)特性和內(nèi)容信息。

        嵌入由文章及其相關(guān)信息構(gòu)建的屬性網(wǎng)絡(luò)是希望融合文章多樣化信息,有利于后續(xù)引文推薦任務(wù)。但單粒度網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)計(jì)算復(fù)雜度高、占用內(nèi)存大。為克服這個(gè)挑戰(zhàn),進(jìn)一步引入多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)。

        定義4(多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí))給定屬性網(wǎng)絡(luò)G=(V,E,A)的壓縮網(wǎng)絡(luò)G1,G2,…,Gi,…,Gm,和基本的網(wǎng)絡(luò)表示映射函數(shù)f,多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)可通過χi←f(Gi),0 ≤i≤m得到壓縮網(wǎng)絡(luò)特征,通過χ1,χ2,…,χm獲得初始網(wǎng)絡(luò)G的特征。

        多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)以單粒度網(wǎng)絡(luò)表示學(xué)習(xí)作為基礎(chǔ)模型,可以增強(qiáng)網(wǎng)絡(luò)表示的性能。多粒度網(wǎng)絡(luò)表示學(xué)習(xí)包含網(wǎng)絡(luò)粗化和特征表示細(xì)化過程,本文用圖卷積網(wǎng)絡(luò)(graph convolution networks,GCN)完成特征表示細(xì)化過程。

        這里,簡要地概述廣泛使用的GCN模型。給定輸入特征矩陣H(0)=X∈?n×d0和網(wǎng)絡(luò)圖A∈?n×n,Aii=0,GCN 將分層傳播定義為:

        這里k=0,1,…,K-1,I指代單位矩陣,D是網(wǎng)絡(luò)的對角度矩陣。Θ(k)∈?dk×dk+1是可被訓(xùn)練的特定層的權(quán)重矩陣,這里σ指代激活函數(shù)。GCN 的最后一次輸出是所有結(jié)點(diǎn)最后的特征表示H(K)。

        2.2 引文推薦相關(guān)問題定義

        引文推薦旨在依據(jù)文章信息為用戶推薦合適引文。因此該問題可抽象為輸入一篇查詢文章并包含該文章多樣化的信息。輸出依據(jù)具體相似性度量規(guī)則從候選文章集中選得的排序后的文章列表。引文推薦問題可形式化如下:

        定義5(引文推薦)有集合P={p1,p2,…,p|P|}共包含|P|篇文章,A={a1,a2,…,a||A} 共包含|A|個(gè)作者。每篇文章pi關(guān)聯(lián)文本屬性ti和作者集合。引文推薦問題被定義為根據(jù)條件概率Pr(pi|pj)計(jì)算給定文章pj得出pj可能的參考文獻(xiàn)列表。

        因此,給定某篇查詢文章pj,只需遍歷每篇候選文章pi并計(jì)算條件概率Pr(pi|pj)就可以知道兩篇文章的相關(guān)度并根據(jù)計(jì)算的條件概率排序。為了更清晰地理解本文內(nèi)容,表1 列出了本文用到的相關(guān)符號(hào)定義。

        Table 1 Symbol definition表1 符號(hào)定義

        3 基于多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦

        本章介紹提出的基于多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦(citation recommendation algorithm based on hierarchical attributed network representation learning,CR-HANRSL)。首先,將包含語義連邊的初始網(wǎng)絡(luò)不斷粗化為更小的網(wǎng)絡(luò),并在每次粗化后重新計(jì)算超結(jié)點(diǎn)的語義連邊并在最后一次粗化后學(xué)習(xí)結(jié)點(diǎn)特征表示。然后,通過GCN對粗化網(wǎng)絡(luò)的表示進(jìn)行細(xì)化來學(xué)習(xí)初始網(wǎng)絡(luò)特征。最后,根據(jù)線性融合多模態(tài)特征表示相似度的方法計(jì)算文章相似度完成引文推薦。

        3.1 語義連邊網(wǎng)絡(luò)粗化

        給定初始包含語義連邊的屬性網(wǎng)絡(luò)G0=(V0,E0,Y0),粗化過程利用粗化策略ζ將其反復(fù)粗化為更小的語義連邊屬性網(wǎng)絡(luò)G1,G2,…,Gm,|Gm|<|Gm-1|<…<|G1|?,F(xiàn)有粗化策略不考慮屬性,定義為ζo,因此有G1=ζo(V0,E0),G2=ζo(V1,E1),…,Gm=ζo(Vm-1,Em-1)。ζ在粗化過程中考慮結(jié)點(diǎn)屬性并重新構(gòu)建語義連邊,G1=ζ(V0,E0,Y0),G2=ζ(V1,E1,Y1),…,Gm=ζ(Vm-1,Em-1,Ym-1)。Gi+1=ζ(Vi,Ei,Yi)指代將網(wǎng)絡(luò)Gi粗化到網(wǎng)絡(luò)Gi+1,Gi的多個(gè)結(jié)點(diǎn)被粗化為Gi+1中超結(jié)點(diǎn)

        接下來將介紹ζ在粗化過程中選擇子結(jié)點(diǎn),以及如何重新計(jì)算邊權(quán)重。利用以下分組策略將相似結(jié)構(gòu)的結(jié)點(diǎn)分配到較粗網(wǎng)絡(luò)的超結(jié)點(diǎn)。首先,將Gi看作無權(quán)圖,構(gòu)建結(jié)構(gòu)等效組對結(jié)點(diǎn)進(jìn)行結(jié)構(gòu)相似分組;然后,使用標(biāo)準(zhǔn)化邊權(quán)重匹配策略重新計(jì)算邊權(quán)重。

        定義6(結(jié)構(gòu)等效組)如果兩個(gè)結(jié)點(diǎn)共享同一組鄰居,則它們結(jié)構(gòu)等效,繼而將其合并為超結(jié)點(diǎn)。

        完成超結(jié)點(diǎn)合并之后邊也被同時(shí)合并需要重新計(jì)算權(quán)重。為保留網(wǎng)絡(luò)中本身的邊權(quán)重,對合并后的邊權(quán)重進(jìn)行標(biāo)準(zhǔn)化處理。一條邊的權(quán)值wi(u,v)是由這條邊關(guān)聯(lián)的兩個(gè)頂點(diǎn)u和v的度數(shù)標(biāo)準(zhǔn)化的:

        直觀地,這樣的標(biāo)準(zhǔn)化策略弱化了高度結(jié)點(diǎn)的權(quán)重。結(jié)點(diǎn)屬性的合并在超結(jié)點(diǎn)生成之后進(jìn)行,接著為超結(jié)點(diǎn)計(jì)算語義連邊輸出粗化網(wǎng)絡(luò)Gi+1。

        由此,可得矩陣運(yùn)算網(wǎng)絡(luò)Gi+1的鄰接矩陣Ai+1。再定義二元矩陣來儲(chǔ)存將網(wǎng)絡(luò)Gi粗化到Gi+1的信息,若結(jié)點(diǎn)r被合并到網(wǎng)絡(luò)Gi+1的超點(diǎn)c,其第r行和第c列為1,否則為0,故Mi,i+1的每一列承載了超結(jié)點(diǎn)的子結(jié)點(diǎn)信息。然后,將在得到的新網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建語義連邊的過程記為fSL()。在網(wǎng)絡(luò)上構(gòu)建語義連邊即當(dāng)結(jié)點(diǎn)r和c之間存在語義連邊時(shí)將Ai+1的第r行和第c列設(shè)置為1。網(wǎng)絡(luò)Gi+1的鄰接矩陣為:

        圖4 給出在網(wǎng)絡(luò)上進(jìn)行語義連邊屬性網(wǎng)絡(luò)粗化的示意圖。首先構(gòu)建初始語義連邊網(wǎng)絡(luò),之后不斷完成網(wǎng)絡(luò)粗化過程m次得到最終的粗化網(wǎng)絡(luò),每次粗化過程如上部虛線框內(nèi)所示。這里語義連邊權(quán)重由結(jié)點(diǎn)屬性相似度指代,如sim(13,56)為合并后的超結(jié)點(diǎn)“13”和“56”的屬性計(jì)算得到。

        Fig.4 Attributed network coarsening with semantic links圖4 語義連邊屬性網(wǎng)絡(luò)粗化

        在每次粗化之后,網(wǎng)絡(luò)規(guī)模急劇減小,理想情況下可以在一次粗化后減小一半。多粒度網(wǎng)絡(luò)表示學(xué)習(xí)旨在進(jìn)行一定次數(shù)m的粗化后得到網(wǎng)絡(luò)Gm并通過f(·)得到粗化網(wǎng)絡(luò)的特征表示χm=f(Gm)。由于初衷是將單粒度方法擴(kuò)展到其多粒度模式,故本文依舊使用基于skip-gram 模型的網(wǎng)絡(luò)表示學(xué)習(xí)方法作為f(·)。下一節(jié)將具體介紹使用圖卷積模型來對網(wǎng)絡(luò)特征表示進(jìn)行細(xì)化,得到初始網(wǎng)絡(luò)G0的特征表示。

        3.2 網(wǎng)絡(luò)特征表示細(xì)化

        網(wǎng)絡(luò)特征表示細(xì)化(feature representation refinement,F(xiàn)RR)完成將粗粒度層次網(wǎng)絡(luò)上的結(jié)點(diǎn)特征表示逐步細(xì)化的過程,即將特征表示χm細(xì)化到χ0的過程。給定屬性網(wǎng)絡(luò)G0,G1,…,Gm,以及網(wǎng)絡(luò)Gm的特征表示χm,特征表示細(xì)化聚焦于探索如何完成從Gm到G0的細(xì)化來學(xué)習(xí)初始網(wǎng)絡(luò)G0的特征表示χ0。實(shí)際上,可以將通過Gi和χi+1來學(xué)習(xí)χi=FRR(Gi,χi+1)看作FRR 過程的子任務(wù)。然后,不斷迭代該過程得到G0的特征表示χ0(具體地,χ0包含兩部分,分別為初始網(wǎng)絡(luò)中文章結(jié)點(diǎn)特征表示集合和作者結(jié)點(diǎn)特征表示集合)。

        本節(jié)延用MILE(multi-level embedding framework)[23]的思想,使用k層GCN 來優(yōu)化Gi的特征表示矩陣χi=?(Mi,i+1χi+1,Ai)。這里Mi,i+1χi+1完成將超結(jié)點(diǎn)的特征表示直接復(fù)制到它的原始結(jié)點(diǎn),故χi決定于已優(yōu)化的Gi+1的特征表示矩陣χi+1派生出的簡單投影特征表示和Gi的鄰接矩陣。給出Gi的鄰接矩陣Ai,度矩陣,GCN的第j層被定義為:

        采用帶反向傳播的梯度下降算法來學(xué)習(xí)Γj。解決該子任務(wù)后,繼而迭代地完成FRR 過程,并最終得到初始網(wǎng)絡(luò)G0的特征表示χ0。

        3.3 融合多模態(tài)特征表示相似度的引文推薦

        屬性網(wǎng)絡(luò)表示學(xué)習(xí)過程旨在學(xué)習(xí)網(wǎng)絡(luò)映射函數(shù),fN可將每篇文章pi映射為文章結(jié)點(diǎn)向量fN(pi),每個(gè)作者ai映射為作者結(jié)點(diǎn)向量fN(ai)。因此,所有文章的文本屬性被映射到同一向量空間,并可以在該空間中度量不同文章間的文本相似度。此外,文章結(jié)點(diǎn)和作者結(jié)點(diǎn)也被映射到同一個(gè)特征向量空間,并可以在該空間中度量文章-文章結(jié)點(diǎn)的相似度和文章-作者結(jié)點(diǎn)相似度。本質(zhì)上可以在不同向量空間中度量文章間不同模態(tài)的相似度,即為多模態(tài)特征表示的文章相似度計(jì)算。再給出文檔特征映射函數(shù)fT即可計(jì)算文章多模態(tài)表示相似度,該過程由文獻(xiàn)[8]提出。

        Pr(pi|pj)被定義為三種模態(tài)pi和pj余弦相似度的線性融合,向量d1和d2的余弦值被定義如下:

        現(xiàn)計(jì)算文章間文本屬性相似度μ1(pi,pj):

        第二種是文章結(jié)點(diǎn)相似度μ2(pi,pj):

        這里余弦值越大說明文章結(jié)點(diǎn)向量越相近。文章-作者模態(tài)相似度μ3(pi,pj)定義如下:

        物候期記載詳見表1。由表1可知,參試品種同期播種后均于4月13日出苗。包心最早的是大綠黃迷你,比其余品種早三四天,其次是小寶,比多寶品種早1 d。生育期最短的是大綠黃迷你為70 d,其次是小寶為73 d,多寶生育期相對較長為77 d。

        文章-作者模態(tài)相似度本質(zhì)上是給出查詢文章pj,遍歷候選文章pi作者集合pai中每個(gè)作者a來計(jì)算pj和a的相似度。并最終使用和查詢文章相似度最大的作者計(jì)算出的余弦相似度作為文章-作者模態(tài)相似度。故最終的條件概率Pr(pi|pj)即為三種模態(tài)相似度的加權(quán)線性組合:

        這里(w1+w2)<1控制不同模態(tài)相似度對最終結(jié)果的貢獻(xiàn)。最后根據(jù)和每篇候選文章pj的Pr(pi|pj)排序推薦最相似的文章作為引文推薦列表。CR-HANRSL的整體算法流程如算法1 所示。

        算法1CR-HANRSL 算法

        輸入:文章集合{p1,p2,…,p|P|};粗化次數(shù)m。

        輸出:為每篇查詢文章pj推薦的引文。

        1.構(gòu)建初始屬性網(wǎng)絡(luò)G0=(V0,E0,Y0)

        2.Fori=0 →m-1 do

        4.End

        5.學(xué)習(xí)第m次粗化后特征表示χm=f(Gm)

        6.Fori=m-1 →0 do

        7.χi=FRR(Gi,χi+1)

        8.End

        9.For每篇查詢文章pido

        10.For每篇候選文章pj

        11.根據(jù)式(12)計(jì)算Pr(pi|pj)

        12.輸出為pi推薦的引文列表

        13.End

        4 實(shí)驗(yàn)

        4.1 數(shù)據(jù)集

        本文實(shí)驗(yàn)在公共數(shù)據(jù)集AAN 和DBLP 上完成。AAN 數(shù)據(jù)集即ACL 本體網(wǎng)絡(luò),由于文章參考文獻(xiàn)的發(fā)表年份必然小于文章本身發(fā)表年份,故將2012 年的文章作為查詢文章集合。DBLP 數(shù)據(jù)集由Tang 等人抽取并逐年更新[21],本文數(shù)據(jù)使用V10 版本,年份截止2008 年并將2008 年文章作為查詢文章集合。未加工的數(shù)據(jù)量級(jí)十分龐大且許多文章缺少元數(shù)據(jù),因此對原始數(shù)據(jù)集進(jìn)行元數(shù)據(jù)的抽取和文本內(nèi)容清洗,清洗步驟如表2 所示,表3 給出兩個(gè)數(shù)據(jù)集相關(guān)的統(tǒng)計(jì)信息。

        Table 2 Data pre-processing表2 數(shù)據(jù)預(yù)處理

        Table 3 Statistics of datasets表3 數(shù)據(jù)集統(tǒng)計(jì)

        4.2 評(píng)價(jià)指標(biāo)

        為評(píng)估CR-HANRSL 性能,本文使用信息檢索領(lǐng)域的通用評(píng)價(jià)指標(biāo)召回率(Recall@N)和歸一化折扣累積增益(NDCG@N)來對算法性能進(jìn)行評(píng)估,這里N指代推薦項(xiàng)的數(shù)量。

        召回率,又稱查全率,指代推薦的N項(xiàng)候選文章中正確的引文占總參考文獻(xiàn)數(shù)量的比重。低N值下取得高召回率則說明推薦系統(tǒng)性能好。

        歸一化折扣累積增益NDCG@N,推薦系統(tǒng)的有效性對參考文獻(xiàn)的位置敏感,不能通過召回率來全面評(píng)估。直觀地,高度相關(guān)的引文在推薦列表中出現(xiàn)得越靠前越好。使用NDCG@N來度量排序后的推薦列表。

        4.3 對比算法

        幾種被廣泛使用的或當(dāng)前研究最新進(jìn)展的對比算法被使用,包括基于協(xié)同過濾的方法、基于內(nèi)容過濾的方法和基于網(wǎng)絡(luò)圖的方法。

        (1)CFCR(collaborative filtering co-authorship relations recommendation):基于協(xié)同過濾算法來計(jì)算文章相似度,利用作者間歷史合作關(guān)系過濾出與查詢文章相關(guān)性高的文章繼而產(chǎn)生文章推薦列表。

        (2)Word2vecSim:該算法使用skip-gram 模型來訓(xùn)練詞的特征表示。繼而根據(jù)文章線性文本信息逐個(gè)計(jì)算詞向量。根據(jù)文章的文本特征表示計(jì)算余弦相似度。

        (3)Doc2vecSim:類似Word2vecSim,直接訓(xùn)練文章的文檔分布式表示計(jì)算文檔向量,之后計(jì)算文章余弦相似度并依據(jù)相似度排序完成推薦過程。文本使用PV-DBOW 模型訓(xùn)練文檔的分布式表示。

        (4)PW(paper-word graph citation recommendation)[12]:將文章和作者當(dāng)作網(wǎng)絡(luò)上的結(jié)點(diǎn)構(gòu)建了一個(gè)兩層圖模型,并使用多層圖模型相似度度量方法計(jì)算文章相似度,根據(jù)文章相似度排序候選文章集合,選取高度相似的文章進(jìn)行推薦。

        (5)MMRQ(multi-layered mutually reinforced queryfocused citation recommendation)[11]:分別考慮文章信息網(wǎng)絡(luò)上通過作者傳播和詞傳播,并用同構(gòu)內(nèi)部和外部的相互強(qiáng)化來更新傳播,還在其中融入查詢信息,根據(jù)作者傳播和關(guān)鍵詞傳播同時(shí)更新文章傳播,該方法在每步迭代都組合查詢信息。

        (6)CR-ANRSL(citation recommendation based on attribute network representation with semantic link)[8]:是本文算法的單粒度形式,該算法首先構(gòu)建包含語義連邊的屬性網(wǎng)絡(luò),之后使用基于skip-gram 模型的網(wǎng)絡(luò)表示學(xué)習(xí)方法學(xué)習(xí)特征,最后融合文章多模態(tài)相似完成引文推薦。

        4.4 實(shí)驗(yàn)結(jié)果

        表4 和表5 分別展示CR-HANRSL 算法在召回率和NDCG 兩個(gè)指標(biāo)上和對比算法的性能比較。展示了m=1 時(shí)的結(jié)果,其中最好的結(jié)果已在表格中加粗表示。可以看到:(1)基于協(xié)同過濾的方法展示出最差性能,通常不會(huì)推薦引用較少的文章,實(shí)際是一種有偏推薦,在引文推薦任務(wù)上受到了一定的局限性,實(shí)現(xiàn)上主要基于作者進(jìn)行協(xié)同過濾,通常難以取得好的性能。(2)Word2vecSim 和Doc2vecSim 作為基于內(nèi)容過濾的兩種經(jīng)典方法在本文實(shí)驗(yàn)中勝過基于協(xié)同過濾的方法。但這類方法只考慮了文本內(nèi)容相似度,不同的訓(xùn)練方式只改變生成向量的方式。這類方法忽略文章的結(jié)構(gòu)信息,只使用單一的文本內(nèi)容信息來描述文章間的分歧,通常不能取得好的效果。CR-HANRSL 算法顯然勝過所有基于內(nèi)容的方法。(3)一些基于網(wǎng)絡(luò)圖的方法在內(nèi)容的基礎(chǔ)上進(jìn)一步考慮文章的潛在結(jié)構(gòu)特性,效果有了明顯的改善。但現(xiàn)有基于網(wǎng)絡(luò)圖的引文推薦方法,PW 和MMRQ,通常將關(guān)鍵詞作為網(wǎng)絡(luò)上的結(jié)點(diǎn)而后通過人工設(shè)定的元路徑來捕獲異質(zhì)結(jié)點(diǎn)間的關(guān)聯(lián)。

        Table 4 Performance comparison on recall of algorithms表4 算法召回率性能比較

        Table 5 Performance comparison on NDCG of algorithms表5 算法NDCG 性能比較

        這類方法使用關(guān)鍵詞來聯(lián)系兩篇可能語義相近的文章,推薦性能提升是有限的。相比于表現(xiàn)最好的對比算法,值得強(qiáng)調(diào)的是提出的CR-HANRSL 算法在兩個(gè)數(shù)據(jù)集的召回率指標(biāo)上均取得了超過7%的提升,在NDCG 指標(biāo)上亦提升明顯。這說明CR-HANRSL算法具有更強(qiáng)的集成文章內(nèi)容屬性和結(jié)構(gòu)特征的能力,從而能夠?qū)W習(xí)高質(zhì)量的特征表示。MMRQ 和PW對比算法均遵循原文報(bào)告的結(jié)果,由于原文只在AAN 數(shù)據(jù)集上進(jìn)行,故文章實(shí)驗(yàn)也沒有報(bào)告這兩個(gè)對比算法在DBLP 數(shù)據(jù)集上的性能比較情況。提出的CR-HANRSL 算法與單粒度屬性網(wǎng)絡(luò)學(xué)習(xí)的引文推薦算法CR-ANRSL 相比仍表現(xiàn)出很強(qiáng)的競爭力,幾乎在所有的推薦位置都勝過,僅在AAN 數(shù)據(jù)集上Recall@100和NDCG@25位置弱于CR-ANRSL算法,表明CR-HANRSL 算法能夠保留語義連邊在單粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)中的重要作用,并在多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)過程中具有同等效力,提出的方法可以有效地在粗化后的多級(jí)網(wǎng)絡(luò)中充分耦合結(jié)點(diǎn)屬性并在網(wǎng)絡(luò)表示過程中結(jié)合網(wǎng)絡(luò)拓?fù)浜徒Y(jié)點(diǎn)屬性學(xué)習(xí)高質(zhì)量的特征表示以更好地服務(wù)于下游引文推薦任務(wù)。

        不斷調(diào)整粗化次數(shù)m的取值,來觀察網(wǎng)絡(luò)的規(guī)??s減情況、網(wǎng)絡(luò)表示的時(shí)間消耗以及在引文推薦任務(wù)上展現(xiàn)出的性能。圖5 和圖6 分別報(bào)告在AAN 和DBLP數(shù)據(jù)集上不同粗化次數(shù)下CR-HANRSL算法的性能變化,x軸表示推薦項(xiàng)的數(shù)量,y軸是評(píng)價(jià)指標(biāo)數(shù)值??梢钥闯?,增加粗化次數(shù)后性能呈下降趨勢,因此在高等級(jí)網(wǎng)絡(luò)粗化下,語義連邊在捕獲結(jié)點(diǎn)屬性的能力上是有損的,但作為等價(jià)交換,當(dāng)粗化次數(shù)增大時(shí),網(wǎng)絡(luò)表示學(xué)習(xí)過程耗費(fèi)的時(shí)間顯著下降。

        表6 是不同粗化次數(shù)下的時(shí)間消耗情況和網(wǎng)絡(luò)規(guī)??s減情況,粗化率指代粗化后網(wǎng)絡(luò)規(guī)模和初始構(gòu)建的網(wǎng)絡(luò)規(guī)模的比值。耗費(fèi)時(shí)間從構(gòu)建完語義連邊屬性網(wǎng)絡(luò)開始算起??梢宰⒁獾奖M管隨著粗化次數(shù)的增加在引文推薦任務(wù)指標(biāo)上有略微損失,但在時(shí)間性能上的增益是顯著的。同時(shí),隨著粗化次數(shù)的增加,多級(jí)網(wǎng)絡(luò)結(jié)點(diǎn)數(shù)量急劇下降,這里的粗化率指代當(dāng)前層級(jí)網(wǎng)絡(luò)結(jié)點(diǎn)數(shù)量和初始語義連邊屬性網(wǎng)絡(luò)結(jié)點(diǎn)數(shù)量的比值,因此CR-ANRSL 算法的網(wǎng)絡(luò)粗化率以100%給出。可以看到在AAN 數(shù)據(jù)集上從粗化1 次到3 次時(shí)網(wǎng)絡(luò)規(guī)??s減比例從51.8%變化到12.9%,在DBLP 數(shù)據(jù)集上也遵循類似的趨勢,這是多粒度網(wǎng)絡(luò)表示學(xué)習(xí)模式加速顯著的主要原因。最后,本文實(shí)驗(yàn)在與CR-ANRSL 算法所述一致的機(jī)器上完成。為盡量保證實(shí)驗(yàn)的公平,本文實(shí)驗(yàn)與CR-ANRSL算法的對比中共同參數(shù)均與其所述一致。

        Fig.5 Performance comparison of different granularity on AAN dataset圖5 AAN 數(shù)據(jù)集上不同粗化粒度下的性能比較

        Fig.6 Performance comparison of different granularity on DBLP dataset圖6 DBLP 數(shù)據(jù)集上不同粗化粒度下的性能比較

        Table 6 Network size reduction under different coarsening times表6 不同粗化次數(shù)下的網(wǎng)絡(luò)縮減情況

        5 結(jié)束語

        隨著科學(xué)技術(shù)的快速發(fā)展和互聯(lián)網(wǎng)的普及,知識(shí)傳播速度大幅提升,同時(shí)帶來學(xué)術(shù)界的快速發(fā)展。近年來相關(guān)學(xué)術(shù)資源呈爆炸式增長,給科研人員在線檢索相關(guān)領(lǐng)域的文章帶來了困難。相關(guān)研究者通過推薦系統(tǒng)技術(shù)嘗試克服這一挑戰(zhàn)以縮小文獻(xiàn)檢索的難度,目前主流技術(shù)包含基于協(xié)同過濾的方法、基于內(nèi)容過濾的方法和基于網(wǎng)絡(luò)圖的方法。由于文章以及背后的語義和結(jié)構(gòu)信息可以連貫地以網(wǎng)絡(luò)范式呈現(xiàn),基于網(wǎng)絡(luò)圖的引文推薦近年來越來越受到研究者的關(guān)注。屬性網(wǎng)絡(luò)表示學(xué)習(xí)作為分析網(wǎng)絡(luò)數(shù)據(jù)的新興技術(shù),可以將結(jié)點(diǎn)映射到低維稠密的向量空間并同時(shí)保留網(wǎng)絡(luò)的結(jié)點(diǎn)屬性和結(jié)構(gòu)拓?fù)?,已在許多細(xì)分領(lǐng)域取得成功。但單粒度網(wǎng)絡(luò)表示學(xué)習(xí)模型具有計(jì)算復(fù)雜性高、內(nèi)存消耗大的弊端。故本文在屬性網(wǎng)絡(luò)表示學(xué)習(xí)的基礎(chǔ)上提出基于多粒度屬性網(wǎng)絡(luò)表示學(xué)習(xí)的引文推薦。

        猜你喜歡
        語義特征方法
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        認(rèn)知范疇模糊與語義模糊
        人妻熟女翘屁股中文字幕| 日本老熟妇五十路一区二区三区 | 久久青草伊人精品| 一本久久a久久精品综合| 野狼第一精品社区| 今井夏帆在线中文字幕| 图图国产亚洲综合网站| 亚洲成av人片乱码色午夜| 日本一区二区在线资源| 亚洲av永久无码精品一区二区| 国产性色av一区二区| 最新亚洲人AV日韩一区二区 | 国产女主播在线免费观看| 国产真人无码作爱视频免费| 户外精品一区二区三区| 亚洲国产成人资源在线桃色| 日韩视频中文字幕精品偷拍| 黄色三级视频中文字幕| 国产成人无码av在线播放dvd | 中文无码制服丝袜人妻AV| 香蕉久久福利院| 免费无码又爽又刺激网站直播| 丝袜美腿诱惑一二三区| 亚洲影院天堂中文av色| 国产成人无码专区| 日本一区二区午夜视频| 91精品啪在线观看国产18| 亚洲日韩国产欧美一区二区三区| 国产丝袜长腿在线看片网站 | 国产成人丝袜在线无码| 久久亚洲私人国产精品| 在线观看午夜视频国产| 亚洲又黄又大又爽毛片| 9久久精品视香蕉蕉| 小蜜被两老头吸奶头在线观看| 亚洲av成人片色在线观看| 日本乱码一区二区三区在线观看| 青青草极品视频在线播放| 白嫩少妇激情无码| 亚洲国产天堂久久综合网| 久久精品熟女亚洲av麻豆永永|