單 輝,丁成鑫,趙中英,周明成,賈霄生,李 超,2
(1.山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590;2.山東科技大學(xué)電子信息工程學(xué)院,山東 青島 266590)
學(xué)術(shù)新星是指那些正處于職業(yè)生涯初期,沒有較多的出版物和引用,也沒有在著名的會議或期刊上發(fā)表過文章,但未來能夠快速崛起,成為該領(lǐng)域?qū)<业难芯咳藛T。學(xué)術(shù)新星預(yù)測(Academic Rising Star Prediction)是學(xué)術(shù)評估領(lǐng)域中一個(gè)非常具有現(xiàn)實(shí)意義的問題,已經(jīng)成為近年來的熱門話題,并得到了廣泛的探索[1 -3]。預(yù)測快速崛起的學(xué)術(shù)新星有助于解決資源配置、決策支持等實(shí)際問題。學(xué)術(shù)領(lǐng)域有一些評價(jià)指標(biāo),如g-指數(shù)、h-指數(shù)等[4 -7]能在一定程度上反映學(xué)者的研究成果。然而,這些指標(biāo)往往需要較長時(shí)間的積累。而學(xué)術(shù)新星發(fā)表論文數(shù)量較少,引用次數(shù)較少,因此使用這些指標(biāo)來識別學(xué)術(shù)新星是不合適的?,F(xiàn)有的學(xué)術(shù)新星預(yù)測方法大多是基于PageRank算法進(jìn)行改進(jìn)的,Jin等人[5]最先將學(xué)術(shù)社會網(wǎng)絡(luò)應(yīng)用于發(fā)現(xiàn)學(xué)術(shù)新星任務(wù),提出了基于作者合著網(wǎng)絡(luò)尋找學(xué)術(shù)新星的算法—PubRank。Yan等人[8]將引用論文、引用期刊和引用作者等因素與PageRank算法相結(jié)合提出了P-Rank算法,用于計(jì)算論文、期刊和作者的排名。但是,預(yù)測學(xué)術(shù)新星本質(zhì)上是發(fā)現(xiàn)未來具有較大潛力的學(xué)術(shù)新人,而不是根據(jù)作者當(dāng)前所取得的學(xué)術(shù)成果對其進(jìn)行排名。因此,這些方法的效果并不佳。
還有一些學(xué)者使用機(jī)器學(xué)習(xí)算法預(yù)測學(xué)術(shù)新星,常用的算法有決策樹、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等。文獻(xiàn)[9]利用因子分析法找出反映學(xué)者活動特征的內(nèi)在因素,利用神經(jīng)網(wǎng)絡(luò)分配權(quán)重,最后使用層次分析法預(yù)測學(xué)術(shù)新星。文獻(xiàn)[10]提出了將機(jī)器學(xué)習(xí)算法用于學(xué)術(shù)新星預(yù)測,主要考慮了判別模型和生成模型。但是,這些算法忽略了作者間的社交關(guān)系,如合作關(guān)系、引用關(guān)系等,從而影響了預(yù)測的性能。
鑒于以上問題,本文提出了一種聯(lián)合多圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的學(xué)術(shù)新星預(yù)測方法MGCNA(academic rising star prediction method based on Multi-Graph Convolutional Neural network and Attention mechanism)。該方法考慮了各種學(xué)術(shù)影響力評價(jià)指標(biāo),以此來生成作者最初的特征表示;然后采用圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不同類型網(wǎng)絡(luò)中的作者特征,將作者的交互信息和屬性信息結(jié)合起來,并引入注意力機(jī)制對不同類型網(wǎng)絡(luò)的重要性進(jìn)行分配,從而實(shí)現(xiàn)學(xué)術(shù)新星的預(yù)測。
本文的主要貢獻(xiàn)如下所示:
(1)提出了一種聯(lián)合多圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的學(xué)術(shù)新星預(yù)測方法MGCNA,能夠?qū)⒆髡叩慕换バ畔⒑蛯傩孕畔⒔Y(jié)合起來;
(2)考慮了影響作者引用次數(shù)增長的各種因素,構(gòu)建了2種類型的網(wǎng)絡(luò),即合作網(wǎng)絡(luò)和相似網(wǎng)絡(luò),能夠挖掘作者間的多種關(guān)系;
(3)在大規(guī)模真實(shí)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了方法的有效性。
學(xué)術(shù)新星預(yù)測一直是學(xué)術(shù)評估領(lǐng)域最有意義的問題之一,它可以應(yīng)用于各種實(shí)際任務(wù)。如一所高校想要招聘年輕教師,如何從一組候選人中識別出未來有潛力的學(xué)者,學(xué)術(shù)新星預(yù)測可以提供有用的參考;或者對于某一領(lǐng)域的初學(xué)者,學(xué)術(shù)新星預(yù)測能夠幫助他識別出該領(lǐng)域最具潛力的學(xué)者,更快地熟悉該領(lǐng)域。
學(xué)術(shù)新星預(yù)測的方法主要分為2種,一種是基于社交網(wǎng)絡(luò)的方法,另一種是基于機(jī)器學(xué)習(xí)的方法?;谏缃痪W(wǎng)絡(luò)的方法是將作者抽象為點(diǎn),作者之間的合作關(guān)系抽象為邊,利用圖論的相關(guān)知識,計(jì)算節(jié)點(diǎn)的中心度等各種網(wǎng)絡(luò)屬性,根據(jù)作者在網(wǎng)絡(luò)中的重要性對其排名,然后記錄一段時(shí)間內(nèi)作者排名的變化,分析排名的變化趨勢,預(yù)測學(xué)術(shù)新星。其中合著者網(wǎng)絡(luò)和引文網(wǎng)絡(luò)使用最為廣泛[11,12]。Sayyadi等人[13]提出了FutureRank算法,利用引文網(wǎng)絡(luò)和論文發(fā)表時(shí)間計(jì)算論文未來的PageRank分?jǐn)?shù)。Daud等人[14]考慮了引用作者、署名順序和出版地等因素,提出了WMIRank(Weighted Mutual Influence Rank)算法,實(shí)驗(yàn)結(jié)果表明所考慮的特征在預(yù)測學(xué)術(shù)新星任務(wù)中非常有效。Zhang等人[15]提出的CocaRank(a Collaboration Caliber-based Method for Finding Academic Rising Stars)算法同樣是綜合論文、作者和期刊等因素預(yù)測學(xué)術(shù)新星,但是該算法在整合多種因素時(shí)處理得較為簡單。由此可知,社交網(wǎng)絡(luò)分析是實(shí)現(xiàn)作者學(xué)術(shù)影響力評估的有效方法。然而這些方法都只考慮了單一的網(wǎng)絡(luò)(合作網(wǎng)絡(luò)或被引網(wǎng)絡(luò)),只能建模作者間的一種關(guān)系(合作關(guān)系或引用關(guān)系)。
基于機(jī)器學(xué)習(xí)的方法其原理是將能夠反映作者學(xué)術(shù)影響力的指標(biāo)作為特征,然后構(gòu)建擬合模型來預(yù)測冉冉升起的學(xué)術(shù)新星。文獻(xiàn)[16]首先提出了一種基于引文質(zhì)量和合著者影響力的層次加權(quán)評價(jià)模型,然后使用機(jī)器學(xué)習(xí)中的分類算法預(yù)測學(xué)術(shù)新星。Zhang等人[17]探索了一系列影響作者引用次數(shù)增長的因素,并將引用次數(shù)的增量作為回歸任務(wù)的預(yù)測目標(biāo)。Panagopoulos等人[18]提出了一種基于無監(jiān)督學(xué)習(xí)的方法來預(yù)測學(xué)術(shù)新星。該方法為每個(gè)學(xué)者提取若干評估指標(biāo),根據(jù)一段時(shí)間內(nèi)這些評估指標(biāo)的變化,使用聚類方法對學(xué)者進(jìn)行分類,從而識別出學(xué)術(shù)新星。然而基于機(jī)器學(xué)習(xí)的方法在特征選擇上具有較強(qiáng)的主觀性,同時(shí)沒有考慮作者間的相互作用。
本節(jié)詳細(xì)介紹本文提出的基于多圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的學(xué)術(shù)新星預(yù)測方法MGCNA。
給定某領(lǐng)域一組新人作者集合U={u1,u2,…,uL}(指在某一年首次發(fā)表論文的作者),其中L表示作者的數(shù)量,新人作者T年內(nèi)發(fā)表的論文集合P={p1,p2,…,pm},合作網(wǎng)絡(luò)C(U,E1)和相似網(wǎng)絡(luò)S(U,E2),E1表示作者間的合作關(guān)系,E2表示作者間的相似關(guān)系。對于每個(gè)作者ui∈U,xi表示作者ui的特征向量,包含其T年內(nèi)發(fā)表的論文數(shù)量、引用次數(shù)等屬性。該方法的任務(wù)是識別出某研究領(lǐng)域未來的學(xué)術(shù)新星,即給定作者ui、特征向量xi、合作網(wǎng)絡(luò)C(U,E1)和相似網(wǎng)絡(luò)S(U,E2),計(jì)算該作者Δt年后成為學(xué)術(shù)新星的概率p,可以形式化如式(1)所示:
f:(ui,xi,C,S,Δt)→p
(1)
考慮能夠影響作者ui未來引用次數(shù)增長的各種因素,生成作者最初的特征表示xi。表1列出了本文選擇的Author、Social、Venue和Initial 4種類型的特征。下面給出每種類型的特征的詳細(xì)描述。表1中所有特征的取值都是根據(jù)作者截止到目前的科研成果統(tǒng)計(jì)的。
(1)Author:作者未來引用次數(shù)的增長與其當(dāng)前的學(xué)術(shù)水平息息相關(guān)。本文提取了5個(gè)與作者自身相關(guān)的特征:①發(fā)表論文數(shù)量;②總引用次數(shù);③平均引用次數(shù);④總貢獻(xiàn)度;⑤平均貢獻(xiàn)度。作者的貢獻(xiàn)度是由作者的署名順序反映的,排名越靠前的作者一般貢獻(xiàn)程度比較高。本文采用S-index[19]計(jì)算一篇論文中作者的貢獻(xiàn)度,如式(2)所示:
Table 1 Definition of features表1 特征定義
(2)
其中,k是作者的署名順序,0≤S≤1。Q的計(jì)算如式(3)所示:
(3)
其中,N是該論文的作者總數(shù),j表示合著者的排名序列。
(2)Social:作者間的社交活動也會對作者未來引用次數(shù)的增長產(chǎn)生影響。為了建模這種影響,本文構(gòu)建了作者加權(quán)合著網(wǎng)絡(luò)ACN(Author Collaboration Network)和論文被引網(wǎng)絡(luò)PCN(Paper Citation Network)。在ACN中,邊表示作者之間的合作關(guān)系,邊的權(quán)值表示合作頻率;在PCN中,邊表示作者之間的“引用-被引用”關(guān)系,是一個(gè)有向網(wǎng)絡(luò)。本文使用PageRank算法[20]量化節(jié)點(diǎn)的權(quán)重值。最終提取了10個(gè)社會屬性特征:①合著者數(shù)量;②合著者發(fā)表論文的總數(shù);③合著者發(fā)表論文的平均數(shù);④合著者獲得的總引用次數(shù);⑤合著者獲得的平均引用次數(shù);⑥ACN中作者的PR值;⑦ACN中合著者的總PR值;⑧ACN中合著者的平均PR值;⑨PCN中作者發(fā)表的論文的總PR值;⑩PCN中作者發(fā)表的論文的平均PR值。
(3)Venue:出版物具有的影響力和聲譽(yù)不同,從而對作者引用次數(shù)的增長會產(chǎn)生不同程度的影響。本文根據(jù)中國計(jì)算機(jī)學(xué)會(CCF)最新發(fā)布的推薦期刊/會議列表,統(tǒng)計(jì)作者在A、B、C 3個(gè)等級的期刊/會議上發(fā)表的論文數(shù)量。
(4)Initial:最后考慮了作者最初2年發(fā)表論文的數(shù)量和引用次數(shù)。最初的學(xué)術(shù)成果也能很好地表征作者未來引用次數(shù)的變化。本文考慮了作者第1年及第2年發(fā)表論文的數(shù)量和引用次數(shù)4個(gè)特征。
另外,由于不同特征的取值范圍不同,需要對每個(gè)特征的取值進(jìn)行歸一化處理,從而得到作者最初的特征表示。
Figure 1 Overall framework of MGCNA 圖1 MGCNA的整體框架
對于每個(gè)作者ui∈U,找到與其特征向量相似度最高的n個(gè)鄰居,設(shè)置邊來連接他們,從而生成作者相似網(wǎng)絡(luò)S(U,E2)。計(jì)算作者相似度的具體方法有很多,如余弦相似度、皮爾森相關(guān)系數(shù)和杰卡德相似度等。余弦相似度在比較向量之間的相似性方面簡單高效,具有突出的優(yōu)勢,因此本文使用余弦相似度計(jì)算作者的相似度。令xi和xj表示作者ui和作者uj的特征向量,兩者的余弦相似度sim(ui,uj)如式(4)所示:
(4)
本文提出的學(xué)術(shù)新星預(yù)測方法MGCNA如圖1所示。給定合作網(wǎng)絡(luò)C(U,E1)、相似網(wǎng)絡(luò)S(U,E2)和特征矩陣X={x1,x2,…,xL}(X∈RL×d),d是特征向量的維數(shù),xi(i∈[1,L])表示作者的特征向量,使用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖編碼。圖卷積網(wǎng)絡(luò)(Graph Convolutional Network)是卷積神經(jīng)網(wǎng)絡(luò)的一種變體,基本思想是聚合鄰居節(jié)點(diǎn)的特征,將其作為目標(biāo)節(jié)點(diǎn)的特征表示[21]。對于合作網(wǎng)絡(luò)C(U,E1),圖卷積神經(jīng)網(wǎng)絡(luò)將原始圖結(jié)構(gòu)C(U,E1)映射到一個(gè)新的特征空間fC→fγ,每一層的傳播規(guī)則如式(5)所示:
(5)
(6)
(7)
由于不同類型網(wǎng)絡(luò)所代表的信息的重要程度不同,本文引用注意力機(jī)制為不同網(wǎng)絡(luò)學(xué)習(xí)到的表示分配不同的權(quán)重,注意力系數(shù)如式(8)和式(9)所示:
(8)
(9)
(10)
(11)
(12)
為了評估本文方法的性能,在真實(shí)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了本文提出的MGCNA在學(xué)術(shù)新星預(yù)測任務(wù)上的有效性。
本文選用的數(shù)據(jù)是來自著名在線索引數(shù)據(jù)庫ArnetMiner[22]中的Academic Social Network數(shù)據(jù)集(http:∥www.a(chǎn)miner.cn/aminernetwork)。該數(shù)據(jù)集是一個(gè)被廣泛使用的開放數(shù)據(jù)集,包含1936~2014年間發(fā)表的兩百多萬篇論文,且每篇論文都包含題目、作者、摘要、出版時(shí)間、出版地和參考文獻(xiàn)等信息。除此之外,還包含作者信息和合著關(guān)系信息。本文從該數(shù)據(jù)集中提取1996~2005年的論文數(shù)據(jù),共617 829篇。再根據(jù)作者的研究興趣信息將作者劃分為5個(gè)研究領(lǐng)域,分別預(yù)測不同領(lǐng)域的學(xué)術(shù)新星。
為了衡量MGCNA的有效性,本文使用精確率(precision)、召回率(recall)和F1 3個(gè)指標(biāo)來評價(jià)MGCNA和其他對比方法的效果。具體地,精確率、召回率和F1的定義分別如式(3)~式(5)所示:
(13)
(14)
(15)
其中,TP表示實(shí)際是學(xué)術(shù)新星被預(yù)測為學(xué)術(shù)新星的作者數(shù)量;FP表示實(shí)際不是學(xué)術(shù)新星被預(yù)測為學(xué)術(shù)新星的作者數(shù)量;FN表示實(shí)際是學(xué)術(shù)新星被預(yù)測為不是學(xué)術(shù)新星的作者數(shù)量。
為了驗(yàn)證MGCNA的性能,本文將MGCNA與以下幾種方法進(jìn)行對比。
(1)RF(Random Forest):通過構(gòu)建多個(gè)決策樹對數(shù)據(jù)進(jìn)行分類的方法。
(2)SVM(Support Vector Machine):一種二分類模型,通過求解幾何間隔最大的分離超平面對數(shù)據(jù)進(jìn)行分類。
(3)PubRank[5]:一種基于作者合作網(wǎng)絡(luò)和論文質(zhì)量預(yù)測學(xué)術(shù)新星的方法。
(4)MLP(Multi-Layer Perceptron):一種由輸入層、隱藏層和輸出層構(gòu)成的簡單神經(jīng)網(wǎng)絡(luò)。
(5)C-GCN(Graph Convolutional Network based on author Collaboration network):只考慮作者合作網(wǎng)絡(luò),使用圖卷積神經(jīng)網(wǎng)絡(luò)預(yù)測學(xué)術(shù)新星的方法。
本文將實(shí)驗(yàn)數(shù)據(jù)集劃分為1996~2000年和2001~2005這2個(gè)時(shí)間段,對2個(gè)時(shí)間段內(nèi)的學(xué)術(shù)新星進(jìn)行預(yù)測。實(shí)驗(yàn)參數(shù)的具體設(shè)置如下:t=1996,2001,即2個(gè)時(shí)間段的學(xué)術(shù)新人集合分別為在1996年和在2001年第1次發(fā)表論文的所有作者,Δt=5,T=5,文獻(xiàn)[23]指出有研究表明學(xué)術(shù)生涯的前5年是一個(gè)至關(guān)重要的時(shí)期,對學(xué)者整個(gè)研究生涯起著關(guān)鍵作用。MGCNA中,網(wǎng)絡(luò)的層數(shù)l=2,嵌入的維度c=32,學(xué)習(xí)率lr=0.01,采用dropout防止過擬合,dropout=0.5,n=10。表2顯示了不同領(lǐng)域的新人作者的數(shù)量。
本文選用ARIC(Average Relative Increase in Citations)[10]衡量新人作者引用次數(shù)的變化,根據(jù)ARIC值的大小對新人作者進(jìn)行排名,將排名前10%的作者視為學(xué)術(shù)新星,令其標(biāo)簽值為1。與引用次數(shù)增長量不同的是,ARIC能反映引用次數(shù)隨時(shí)間的增長變化,其定義如式(16)所示:
(16)
ΔCi=(Ci-Ci-1)/Ci
(17)
其中,Ci表示在第i年作者論文的被引用次數(shù);ΔCi表示在第i年作者論文被引用次數(shù)的增長率。
每次訓(xùn)練重復(fù)10次,取其平均值作為最終結(jié)果,2個(gè)時(shí)間段的實(shí)驗(yàn)結(jié)果分別如表3和表4所示,其中黑體表示最優(yōu)值。
MGCNA在1996~2000年數(shù)據(jù)集上的precision、recall和F1值比RF和SVM分別最少提升了2.49%,2.67%,2.58%和8.4%,8.3%,8.17%;在2001~2005年數(shù)據(jù)集上的precision、recall和F1值比RF和SVM分別最少提升了3.69%,3.78%,3.99%和8.7%,8.4%,8.6%,表明MGCNA的性能優(yōu)于機(jī)器學(xué)習(xí)的分類方法。相比于PubRank,MGCNA在2個(gè)時(shí)間段的數(shù)據(jù)集上的precision、recall和F1值分別最少提升了14.07%,14.07%,14.07%和14.42%,14.42%,14.42%,表明考慮作者自身的特征表示能夠有效地提高方法的性能。與MLP相比,MGCNA在2個(gè)時(shí)間段的數(shù)據(jù)集上的precision、recall和F1值分別最少提升了2.81%,2.53%,2.84%和2.66%,2.41%,2.78%。最后與只考慮作者合作網(wǎng)絡(luò)的C-GCN相比,MGCNA在2個(gè)時(shí)間段的數(shù)據(jù)集上的precision、recall和F1值分別最少提升了1.13%,1.12%,1.13%和1.67%,1.44%,1.52%,這表明融入作者間的相似關(guān)系是有效的。
Table 2 Number of young authors in different domains表2 不同領(lǐng)域新人作者的數(shù)量
Table 3 Comparison of experimental results on data from 1996 to 2000 表3 1996~2000年數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果對比
Table 4 Comparison of experimental results on data from 2001 to 2005表4 2001~2005年數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果對比
本節(jié)以D1領(lǐng)域的數(shù)據(jù)為例,分析MGCNA中各參數(shù)對實(shí)驗(yàn)結(jié)果的影響。圖2顯示的是圖卷積層數(shù)l對實(shí)驗(yàn)結(jié)果的影響。從圖2中可以看到,隨著圖卷積層數(shù)的增加,MGCNA的F1值先增大,當(dāng)l=2時(shí),F(xiàn)1值是最大的,此時(shí)再增加圖卷積的層數(shù),F(xiàn)1值反而逐漸減小。這是因?yàn)閳D卷積層數(shù)較大時(shí),會將距離較遠(yuǎn)的鄰居聚合在內(nèi),從而影響MGCNA的性能。
Figure 2 Effect of layer number of graph convolutional neural network on MGCNA 圖2 圖卷積神經(jīng)網(wǎng)絡(luò)層數(shù)對MGCNA的影響
圖3顯示的是嵌入維度c對MGCNA性能的影響。可以看到,當(dāng)c=32時(shí),MGCNA的性能最好,原因是嵌入維度較小時(shí),會出現(xiàn)欠擬合,而嵌入維度較大時(shí)則會出現(xiàn)過擬合。相似鄰居的數(shù)量n與MGCNA性能的關(guān)系如圖4所示,n的最優(yōu)取值為10。當(dāng)n過大時(shí),會將相似度較小的鄰居考慮在內(nèi),從而增加噪聲數(shù)據(jù),使得MGCNA性能下降。
Figure 3 Effect of embedding dimension on MGCNA 圖3 嵌入維度對MGCNA的影響
Figure 4 Effect of the count of similar neighbors on MGCNA圖4 相似鄰居數(shù)量對MGCNA的影響
本文將學(xué)術(shù)新星預(yù)測問題定義為預(yù)測在給定的學(xué)術(shù)新人集合中未來引用次數(shù)增長較快的學(xué)者。為了解決這個(gè)問題,本文首先探索了一系列能夠影響作者論文引用次數(shù)增長的各種因素,以此生成作者最初的特征表示。然后從多角度建模作者間的關(guān)系,如合作關(guān)系和相似關(guān)系,使用圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)作者節(jié)點(diǎn)的表示。最后使用注意力機(jī)制將學(xué)習(xí)到的表示進(jìn)行融合,預(yù)測未來的學(xué)術(shù)新星。本文使用ArnetMiner平臺中的大規(guī)模學(xué)術(shù)社交數(shù)據(jù)集來評估方法的性能,實(shí)驗(yàn)結(jié)果表明,本文提出MGCNA在效果上優(yōu)于現(xiàn)有的方法。在下一步的工作中,考慮將時(shí)間因素融入到方法中,進(jìn)一步改進(jìn)方法的預(yù)測性能。