亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于異構(gòu)特征融合的論文引用預測方法

2022-10-13 08:46:02朱丹浩黃肖宇

數(shù)據(jù)采集與處理 2022年5期

關(guān)鍵詞：特征方法

朱丹浩，黃肖宇

（1.江蘇警官學院刑事科學技術(shù)系，南京 210031；2.江蘇警官學院計算機信息與網(wǎng)絡安全系，南京 210031）

引言

被引頻次是最具代表性、最簡單、最標準和最客觀的度量學術(shù)影響力的指標［1］，貫穿了科研活動的始終。例如，文獻搜索引擎會根據(jù)被引次數(shù)調(diào)整檢索結(jié)果的排序，科技期刊的分區(qū)主要依據(jù)所載論文的平均被引次數(shù)，學科熱點的發(fā)現(xiàn)常常依賴于對引用網(wǎng)絡進行聚類分析。然而，引用行為具有較長的滯后性，影響了各類下游任務的應用范圍和性能。為解決這一問題，研究者嘗試通過機器學習算法來預測論文的未來被引情況。例如，Ibá?ez等［2］使用多元線性回歸方法，基于摘要等文本特征預測了論文發(fā)表后4年內(nèi)的引用次數(shù)；耿騫等［3］嘗試了樸素貝葉斯和邏輯回歸方法等。近年來，隨著深度學習的發(fā)展，循環(huán)神經(jīng)網(wǎng)絡及前饋神經(jīng)網(wǎng)絡［4-5］也被引入論文被引預測算法中，預測精度取得了一定的提高。論文引用預測任務的一大特點是，存在大量的、形態(tài)各異的論文被引影響因素可作為輸入特征，但單一影響因素的預測能力極弱，在具體論文上常常是稀疏的。例如，一經(jīng)發(fā)表就被引用的論文常會被引更多，但一方面，也存在大量的“睡美人”文獻［6］，在發(fā)表后多年才突然被喚醒，成為研究的熱點；另一方面，對于剛發(fā)表的新論文，并不存在早期被引，基于該特征的預測方法自然也就失效了。因此，如何充分利用異構(gòu)特征，挖掘其中蘊含的復雜關(guān)聯(lián)關(guān)系是建立論文引用預測方法的關(guān)鍵。現(xiàn)有的研究大多只能利用單一類型的特征，這不僅阻礙了預測精度的進一步提高，也限制了預測方法的適用范圍。

基于以上考慮，本文提出了基于異構(gòu)特征融合的論文引用預測方法。首先，本文針對論文引用預測任務定義了引文屬性網(wǎng)絡，對3類異構(gòu)特征進行建模；其次，提出了面向異構(gòu)特征融合的論文引用預測方法，使用圖神經(jīng)網(wǎng)絡處理定長特征和引文網(wǎng)絡特征，使用循環(huán)神經(jīng)網(wǎng)絡處理引文時序特征，基于多頭注意力機制對提取到的異構(gòu)特征進行融合并預測被引次數(shù)。本文在基于CSSCI真實數(shù)據(jù)集的實驗證明了所提出方法的有效性，可以有效緩解數(shù)據(jù)稀疏問題。

1 相關(guān)研究

從使用特征的形態(tài)來看，當前的論文被引預測算法大體可分為3類：基于定長特征向量的方法、基于不定長引文時序特征的方法以及基于引文網(wǎng)絡特征的方法。

定長的特征向量，主要是論文發(fā)表時即存在的特征，包括論文本身相關(guān)、期刊相關(guān)和作者相關(guān)3類［7］。例如，論文的摘要或標題中的關(guān)鍵詞［8］、語言風格［9］；載文期刊的影響因子［10］、載文量［11］、引用半衰期［12］；作者之前的被引頻次［13］以及是否獲得諾貝爾獎等［14］。最常見的預測方法當屬多元線性回歸［2，15］，其優(yōu)點是可解釋性較強，可以比較不同特征對論文被引的解釋能力。但如果以提高預測精度為目標，該類方法有些力不從心，并不能挖掘因素間的非線性關(guān)系。耿騫等［3］嘗試了樸素貝葉斯、邏輯回歸、支持向量機、梯度提升決策樹、XGBoost、AdaBoost和隨機森林7種算法，發(fā)現(xiàn)XGBoost和隨機森林可以取得最好的預測結(jié)果。

基于不定長引用時序特征的方法以論文發(fā)表后前若干年的逐年被引次數(shù)為輸入，預測其后的被引次數(shù)。對于這一類特征，面向時間序列的序列化學習算法是自然的解決思路。Abrishami等［4］基于循環(huán)神經(jīng)網(wǎng)絡，以論文前若干年的被引次數(shù)為每一步的輸入，預測論文在數(shù)年之后的被引次數(shù)。Liu等［5］結(jié)合了連續(xù)長短期記憶循環(huán)網(wǎng)絡（Continuous-time long short-term memory，cLSTM）和神經(jīng)霍克斯過程進行引用預測，他們認為該方法更能識別“睡美人”現(xiàn)象。

基于引用網(wǎng)絡特征的方法將待預測論文看作引文網(wǎng)絡中的節(jié)點，目前主要基于無監(jiān)督的學習模式進行學習，不同于之前的分類或回歸算法，這一類算法基于論文在引文網(wǎng)絡中的拓撲信息，基于Pagerank或相近算法判斷其在網(wǎng)絡中的重要性，假設重要性更高的重要節(jié)點的引文排名會更高。相應的研究包括Walker等［16］、劉大有等［17］和Davletov等［18］。

現(xiàn)有的方法大多只能利用單一類型的特征，主要出于兩個原因：（1）非經(jīng)專門設計，多種類型的特征很難兼容彼此。例如，引文網(wǎng)絡特征是非歐幾里得空間的數(shù)據(jù)，難以直接轉(zhuǎn)化為定長特征。（2）方法本身只適用于單一類型的特征。例如，基于無監(jiān)督網(wǎng)絡學習的算法只能利用引文網(wǎng)絡特征，無法建模其他兩種特征類型。

盡管種類繁多，但對于具體的論文，特征常常是稀疏的。新發(fā)表的論文不存在被引網(wǎng)絡和引用時序特征，大多數(shù)論文也不發(fā)表在重點期刊，或由知名學者發(fā)表。因此，建立能夠同時利用多種特征的論文被引預測算法，可以有效緩解數(shù)據(jù)稀疏問題，提高預測精度。

2 兼容異構(gòu)特征的論文引用預測任務定義

2.1 屬性引文網(wǎng)絡

本文定義了屬性引文網(wǎng)絡，可同時兼容定長特征、引文網(wǎng)絡特征和引用時序特征，具體定義如下。

定義1（屬性引文網(wǎng) 絡）令G=(V，W，Xf，Xc)，其中，G為屬性引文網(wǎng) 絡，V為網(wǎng) 絡中節(jié) 點v1，v2，…，vn的集合，節(jié)點vi為第i篇論文，n=|V|為論文的數(shù)量。W∈Rn×n為節(jié)點的鄰接矩陣，存儲了論文之間的引用關(guān)系，其中的元素只能為0或1，如果為Wi，j=1，表示論文vi引用了vj。Xf∈Rn×f和Xc∈Rn×c是節(jié)點的兩類屬性矩陣，分別為定長特征矩陣和引用時序特征矩陣，各自存儲了論文本身的特征和歷年被引用的次數(shù)。兩個矩陣中，第i行表示論文vi對應的屬性向量，f和c分別為兩類屬性的維度。盡管引用時序特征本身是不定長的，發(fā)表年份越久的論文特征維度越大，但本文使用填充技術(shù)將統(tǒng)一轉(zhuǎn)換為同一長度，可提升定義的簡潔性。

本文所使用的特征和編碼方式見表1。此處重點對“期刊名稱”“論文關(guān)鍵詞”和“歷年被引次數(shù)”進行介紹。“期刊名稱”表示為單熱點向量，即每個期刊對應于1個編號，在后續(xù)的圖神經(jīng)網(wǎng)絡中，該編號將隱式地轉(zhuǎn)換為稠密的期刊特征向量。由于每個期刊均會出現(xiàn)在多篇論文的Xf中，通過訓練該期刊特征向量將會反映期刊本身的特性?！罢撐年P(guān)鍵詞”也是單熱點向量，如果出現(xiàn)多個關(guān)鍵詞，則多個維度的對應位置都被設為1?！皻v年被引次數(shù)”是論文發(fā)表后的逐年被引次數(shù)，本文根據(jù)所用數(shù)據(jù)設置長度為18，即對應于論文在1998—2015年的逐年被引次數(shù)。如果1篇論文是2014年發(fā)表的，則其對應向量在1998—2013年的維度上的值都設為0。

表1 本文所使用的特征和編碼方式Table 1 Features and coding methods used in the paper

3種形式的特征對應于屬性引文網(wǎng)絡的位置如下：（1）定長特征，包括論文內(nèi)容、期刊和作者等，存儲于在內(nèi)容屬性矩陣Xf中；（2）引文網(wǎng)絡特征，本文中即為W；（3）不定長引用時序特征，對應于引用屬性矩陣Xc。

值得一提的是，限于篇幅、工作量和本文所使用數(shù)據(jù)集的特點，本文并未設計和使用更多的特征。屬性引文網(wǎng)絡具有良好的擴展性，足以編碼絕大部分論文被引影響因素。例如，如果數(shù)據(jù)集中包含了學術(shù)全文本信息，則可在通過自然語言處理技術(shù)提取具體的引用行為特征后，編碼至Xc中；期刊的影響因子、作者的H指數(shù)以及標題摘要等文本特征等也可直接附加至Xf中。

2.2 論文引用預測任務

本文對論文引用預測任務定義如下。

定義2（論文引用預測任務）對于屬性引文網(wǎng)絡G，每一個節(jié)點vi對應一個標簽yi∈Y，Y是標簽的集合。已知屬性引文網(wǎng)絡G和一部分節(jié)點的標簽yi∈Ytrain，Ytrain指訓練集的標簽，論文引用預測的目標是學習出1個模型M，使得M(vi)=yi，yi∈Ytest，Ytest指測試集的標簽。

標簽Y如果是離散的，例如高被引/低被引，論文引用預測可歸類為分類任務；反之，如果Y直接是連續(xù)的被引次數(shù)，則可歸類為回歸任務。Dong等［19］則認為論文引用頻次是長尾分布，不適用于回歸預測。耿騫等［3］認為，將引用預測定義為分類問題，可以使預測粒度變粗，可利用更符合真實分布的數(shù)據(jù)，模型泛化能力更強，研究更有價值。但從機器學習模型的角度來看，分類方法是在回歸預測目標后多加了一層分類層，對構(gòu)建預測算法本身影響并不大。因此，本文直接以論文的被引次數(shù)為預測目標，即Y∈R+。

3 論文引用預測方法

3.1 總體框架

算法總體框架見圖1。首先，以圖的鄰接矩陣和定長特征矩陣為輸入，使用圖神經(jīng)網(wǎng)絡學習出論文的網(wǎng)絡特征表示；其次，以引用時序特征矩陣為輸入，基于循環(huán)神經(jīng)網(wǎng)絡學習出論文的逐年引用特征表示；最后，基于多頭注意力模型，融合網(wǎng)絡特征表示和逐年引用特征表示，并預測論文的引用次數(shù)。

圖1 本文方法總體框架圖Fig.1 Framework of the proposed method

3.2 基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡特征表示學習

圖神經(jīng)網(wǎng)絡系列算法是目前屬性網(wǎng)絡上最為強大的學習算法，其中最為經(jīng)典的是圖卷積神經(jīng)網(wǎng)絡（Graph convolution network，GCN）［20］。本文基于GCN，面向?qū)傩砸木W(wǎng)絡的特性進行了針對性的特征學習。整個GCN的輸入為引文屬性網(wǎng)絡的鄰接矩陣W和定長特征Xf，輸出為所有論文的網(wǎng)絡特征表示S∈Rn×g，第i行對應于論文vi的網(wǎng)絡特征表示向量，維度為g。

整個算法可看作多層神經(jīng)網(wǎng)絡，在第k層中輸入的節(jié)點屬性矩陣為，第i行對應于論文vi在第k層的特征表示，維度為hk。最初始的第0層被定義為輸入層，即：H(0)=Xf。每一層中，每一個節(jié)點都從其周圍的鄰接節(jié)點中搜集信息，并更新到下一層的節(jié)點屬性特征向量中去。為了更好地利用節(jié)點本身的信息，需要首先對鄰接矩陣增加自連接，使得節(jié)點可以直接利用上一層自己的信息，即

式中In為對角線為1、其余位置均為0的方陣。再進行矩陣行和列的歸一化處理，有

式中D為對角矩陣，元素為節(jié)點的度，有

第k層的GCN函數(shù)為

式中：T(k)∈Rn×hk為線性轉(zhuǎn)換矩陣；ReLU為非線性激活函數(shù)。

一般GCN多為2層，過多的層數(shù)會引起過平滑現(xiàn)象，從而導致性能下降。所以對于2層的GCN，論文的網(wǎng)絡特征表示矩陣S可由式（1）求得。S的每一行對應于一篇論文的網(wǎng)絡特征表示向量，有

3.3 基于循環(huán)神經(jīng)網(wǎng)絡的引用特征表示學習

論文的引用特征Xc，反映了學術(shù)界對工作的認同程度和引文曲線的形態(tài)。本文使用循環(huán)神經(jīng)網(wǎng)絡對時間序列進行建模，為解決循環(huán)神經(jīng)網(wǎng)絡的梯度爆炸和梯度消失問題，使用了長短期記憶單元（Long-short term memory unit，LSTM）［21］。為簡化標記，此處令x為某篇論文的逐年被引次數(shù)，對應于的1行，xt表示論文第t年的被引次數(shù)。

首先，利用門函數(shù)計算遺忘門向量ft、輸入門it、輸出門ot，以及單元狀態(tài)更新值有

式中：σ為sigmoid函數(shù)；ht-1為論文在第t-1年的隱藏層向量；Wf、Wi、Wo、Wc為線性轉(zhuǎn)換矩陣；bf、bf、bo、bc為偏置向量。

其次，基于上述4個向量對單元狀態(tài)ct進行更新，并得到新的隱藏層向量ht，有

式中tanh為激活函數(shù)，即

式中初始的c0和h0都設置為0向量。

每篇論文得到一個逐年的隱藏層向量ht，按行堆疊，即可得到其逐年的隱藏層矩陣H∈Rc×dh，dh表示LSTM的隱藏層維度。常見的LSTM常以H的最后一列作為輸出。而對于引用次數(shù)預測任務，由于“睡美人“等形態(tài)引用曲線的存在，中間步數(shù)的輸出也可能具有重要的預測意義，本文將序列的每一步輸出都保留下來，用于下一步針對性的特征融合。

3.4 基于多頭注意力模型的特征融合和預測

注意力機制被廣泛應用于機器翻譯［22］、知識圖譜［23］和目標識別［24］等領(lǐng)域，可以動態(tài)地聚焦于復雜特征的重要部分。本文使用多頭注意力模型，基于論文的網(wǎng)絡特征對其不同年份的引文時序特征進行注意力加權(quán)，從而實現(xiàn)不同類型特征的深度融合。

對于論文vi，其網(wǎng)絡特征表示向量記為s，即為在2.2節(jié)所得的網(wǎng)絡特征表示矩陣S中的對應行數(shù)；對應的時序特征矩陣為H，由2.3節(jié)得出。由于H中包含了不同年份的論文引用時序特征，本文基于多頭注意力機制，以s為查詢式，對不同年份的特征，也就是H的不同列，賦予不同的權(quán)重，聚焦于對未來被引最具預測能力的時序特征。

首先，通過線性轉(zhuǎn)換Wq、Wk、Wv，將s和H轉(zhuǎn)換為查詢向量q、鍵矩陣K和值矩陣V，有

其次，對查詢向量和鍵矩陣進行按列點乘，再通過softmax函數(shù)歸一化后求每一列的權(quán)值，有

最后，不同時序的論文引用特征進行加權(quán)求和，其中V：，i表示V的第i列，即有

由于不同的時序特征中包含著不同方面的信息，此處采用多頭注意力特征機制，具體流程圖見圖2。即使用多組不同的Wq、Wk、Wv，計算出不同的v，記為v1，v2，…，vm，m為多頭注意力的個數(shù)。

圖2 多頭注意力計算流程圖Fig.2 Flow chart of multi-head attention calculation

對多頭注意力和s進行拼接，再經(jīng)過向量點乘后，得到了最終的預測結(jié)果

式中：uT為權(quán)重向量為論文vi的預測被引次數(shù)；concat是拼接函數(shù)；ReLU激活函數(shù)除了可以提供非線性轉(zhuǎn)換，還能保證預測的被引次數(shù)大于等于0。

本文使用均方根誤差（Root mean square error，RMSE）計算損失函數(shù)為

再使用反向傳播算法優(yōu)化模型中的所有參數(shù)，包括GCN、LSTM和特征融合模塊中的所有參數(shù)。

3.5 討論

在特征融合時，為何要區(qū)分Xf和Xc，對其分別使用GCN和FNN進行特征表示學習；而不是直接合并Xf和Xc輸入到1個GCN中進行預測？這是由論文被引預測本身的性質(zhì)決定的。在GCN中，屬性通過鄰接邊傳遞到相鄰的節(jié)點上去，相鄰的節(jié)點常常會學習出相近的屬性和標簽。因此，使用GCN預測論文的學科時很容易取得成功［20］。而在預測論文被引時，相鄰的2個論文節(jié)點的引用差距極大是常見的現(xiàn)象，比如一篇經(jīng)典論文發(fā)表10年，被引數(shù)百次，而另一篇論文剛剛發(fā)表，尚未獲得被引，經(jīng)典論文的被引屬性傳遞到新論文上，會嚴重高估新論文的預測被引次數(shù)?；谝陨峡紤]，本文對兩類特征進行區(qū)分學習，避免上述的信息傳播問題。

4 實驗

4.1 數(shù)據(jù)集和評測標準

本文使用的數(shù)據(jù)庫為中文社會科學引文索引（Chinese social sciences citation index，CSSCI）1998—2020年的數(shù)據(jù)，該數(shù)據(jù)庫包含了中文核心期刊論文的題錄和引文信息。本文以1998—2015年的數(shù)據(jù)構(gòu)建了引文屬性網(wǎng)絡，并預測網(wǎng)絡中論文在16～20年間的被引次數(shù)。按5∶1∶4的比例隨機設置了訓練節(jié)點、驗證節(jié)點和測試節(jié)點。需要強調(diào)的是，本文采用的是半監(jiān)督的學習模式，也就是說，整個網(wǎng)絡在訓練階段對于模型都是可見的，但隱去了驗證節(jié)點和測試節(jié)點的標簽。表2給出了引文屬性網(wǎng)絡的總體統(tǒng)計信息。其中節(jié)點的屬性由16 601維關(guān)鍵詞的稀疏向量、672維期刊的稀疏向量、1維的作者歷史被引次數(shù)和1維的作者歷史平均被引組成。本文只保留了出現(xiàn)頻次20以上的關(guān)鍵詞。

圖3給出了屬性和標簽的分布。第1行的3張和第2行的第1張是節(jié)點的屬性，總體上呈現(xiàn)明顯的長尾分布，但其中期刊的分布較為平滑。第2行的第2張給出了引文的間隔，第0年的引用較少，第1、2年的引用達到高峰，之后逐年下降。第2行的第3張是待預測的標簽，也就是2016—2000年的被引次數(shù)，大部分的論文被引次數(shù)均是0次，引用次數(shù)在9次以下的占了絕大部分，極少數(shù)論文會被引更多次。本文使用在測試集上的RMSE來評測算法的精準度，該指標越低，表示預測的精準度越高。

圖3 屬性和標簽的分布圖Fig.3 Distribution of attributes and labels

4.2 基準方法和訓練過程

4.2.1 基準方法

本文對比了在論文被引預測中常用的3種算法，這些方法基于不同類型的特征進行學習。本文的數(shù)據(jù)集遠大于之前的研究，例如本文的訓練集包含了34萬篇論文，而耿騫等［3］的訓練數(shù)據(jù)約包含2.6萬篇論文。因此，在小數(shù)據(jù)集上常用的算法，如支持向量機、隨機森林等，因內(nèi)存和訓練時間的限制不再適用，故本文主要選擇了在大數(shù)據(jù)集上性能和表現(xiàn)優(yōu)秀的神經(jīng)網(wǎng)絡系列算法作為基準。

隨機猜測：選取測試集上所有標簽的平均值作為預測結(jié)果，經(jīng)統(tǒng)計為1.31次，該方法忽略了所有輸入特征的作用。所有其他方法的結(jié)果均應優(yōu)于隨機猜測。

前饋神經(jīng)網(wǎng)絡（Feed-forward neural network，F(xiàn)NN）：前饋神經(jīng)網(wǎng)絡是經(jīng)典的神經(jīng)網(wǎng)絡。深度為2層，隱藏層的單元數(shù)為512，使用Adam梯度下降［25］進行優(yōu)化，初始值設為0.01，使用Dropout［26］技術(shù)避免過擬合，概率值設為0.3，批大小為1 000，在測試集上反復訓練，最多50個Epoch。

循環(huán)神經(jīng)網(wǎng)絡（Recurrent neural network，RNN）：循環(huán)神經(jīng)網(wǎng)絡適用于不定長的特征序列，常在論文引用預測任務中被用來建模引用時序特征。本文基于Abrishami等［4］的設置進行了實驗，使用LSTM為基本單元。深度為1層，隱藏層的單元數(shù)為512，使用Adam梯度下降進行優(yōu)化，初始值設為0.01，Dropout技概率設為0.3，批大小為1 000，在測試集上反復訓練，最多50個Epoch。

圖卷積神經(jīng)網(wǎng)絡［20］：標準的圖神經(jīng)網(wǎng)絡，層數(shù)為2，隱藏層單元數(shù)為32，Dropout概率設為0.5，使用Adam優(yōu)化，初始學習率為0.01，訓練了200輪。

4.2.2 實驗細節(jié)

實驗環(huán)境：全部代碼基于Python 3.6實現(xiàn)，使用Pytorch深度學習框架。實驗運行在2核的Intel（R）Xeon（R）Silver 4214R CPU@2.40 GHz服務器上，整個模型訓練時間大約為1.5 h。GCN模塊基于DGI①https://docs.dgl.ai/，目前流行的圖神經(jīng)網(wǎng)絡框架實現(xiàn)。

評測指標：本文使用RMSE作為評測指標，可以看作是預測被引次數(shù)和實際被引次數(shù)的平均偏差次數(shù)，該指標越小，表示預測越為精確。如果不經(jīng)訓練，直接隨機猜測的話，最低偏差為4.99次。

預測和訓練過程：基于Early stop技術(shù)，在驗證集上選取RMSE最小的模型作為最終模型，并匯報該模型在測試集上的結(jié)果。

具體參數(shù)設置：深度學習的結(jié)果和超參數(shù)、實驗設置密切相關(guān)，表3中詳述了本文的實驗參數(shù)。

表3 本文方法的主要參數(shù)配置Table 3 Main configure parameters of the proposed method

4.3 實驗結(jié)果

4.3.1 總體比較

實驗結(jié)果見表4。RNN、FNN方法以論文的歷史逐年被引次數(shù)Xc為特征時，平均偏差為3.49次和3.44次，取得了較大提升。在結(jié)合Xc和Xf后，兩種方法都取得了進一步提升，平均偏差分別下降到了3.21次和3.16次。經(jīng)典的圖神經(jīng)網(wǎng)絡方法GCN以W、Xf為輸入時RMSE為3.89次，但在引入Xc后，預測精度未見明顯提高。本文方法綜合使用了所有的3種特征，取得了最好的預測精度2.85次，偏差比第二名，使用了Xf、Xc特征的FNN，下降了0.31次。

表4 不同方法的預測結(jié)果Table 4 Prediction results of different methods

綜上，可以得到3點結(jié)論：（1）本文方法能夠利用多種異構(gòu)特征，取得了最好的預測精度；（2）引用特征Xc對于預測引用次數(shù)極為關(guān)鍵，僅基于該特征的RNN和FNN方法都取得了很好的預測精度；（3）本文的特征融合方法是有必要的，更能適應引用預測任務的特性。相比而言，使用全部特征的GCN方法和本文方法在輸入特征上是公平的，但并未比僅使用W、Xf的GCN有大幅度提升，這表明GCN并不能很好地利用好引用特征Xc。

4.3.2 有效性分析

通過比較不同年份上本文方法和基準方法的表現(xiàn)，驗證了異構(gòu)特征融合方法的有效性。圖4（a）比較了發(fā)表年份不同時GCN方法和本文方法的結(jié)果，其中GCN方法的特征是Xf和Xc的拼接。也就是說，此時的GCN方法和本文方法輸入的特征是完全一致的。GCN方法在1～2年時和本文方法結(jié)果很接近，此時引用特征Xc的信息還較為稀疏，當年份增加時，GCN方法的RMSE的下降趨勢并沒有本文方法明顯，這表明GCN并不能很好地利用引用特征，也驗證了3.5節(jié)中的討論。圖4（b）比較了不同發(fā)表年份下RNN方法和本文方法的對比。可以看出，發(fā)表年份越大時，預測的精度越好（RMSE越小）。而論文剛發(fā)表的1～2年之間，引用數(shù)據(jù)極為稀疏，此時預測的偏差較大，但本文方法的RMSE相對提高較大。這表明，本文方法可以較好地應對數(shù)據(jù)稀疏問題。

圖4 不同年份下基準方法和本文方法的RMSE對比Fig.4 Comparison on RMSE between the benchmark method and the proposed method

4.3.3 參數(shù)敏感性分析

圖5給出了不同超參數(shù)設置下本文方法的性能。圖5（a）顯示，LSTM的隱藏層維度在16時，取得了最低的RMSE值，隨著維度值增加，模型的誤差上升較慢。圖5（b）顯示，GCN的隱藏層維度在16時，RMSE最低。圖5（c）給出，隨著多頭注意力個數(shù)的上升，模型誤差下降，到4時取得最好結(jié)果，再提升注意力個數(shù)會導致誤差急速上升。

圖5 參數(shù)敏感性分析Fig.5 Parameter sensitivity analysis

在選擇超參數(shù)時，本文方法的預測誤差對GCN的隱藏層維度不太敏感，對LSTM的隱藏層維度較為敏感。選擇多頭注意力的個數(shù)要格外小心，會明顯影響最終結(jié)果的精度。

4.3.4 多頭注意力的可視化

圖6給出了2篇典型論文的多頭注意力熱力圖。顏色越深表示權(quán)重越高，橫坐標中1對應1998年，18對應2015年。從圖6（a）可知：（1）越靠后的年份對未來的被引次數(shù)預測越重要；（2）不同的注意力聚焦了不同年份的信息，例如，第1行和第2行相比，更注重于中間靠后部分的年份，第3行選中了第6年的引文信息用于預測。從圖6（b）中可以看出，由于該論文發(fā)表于2013年，橫軸編號16之前的年份不存在被引信息，注意力模型基本上不再聚焦于這些年份，這表明注意力模型可以有效聚焦于部分重要年份。

圖6 多頭注意力的熱力圖Fig.6 Heat map of multi-head attention mechanism

5 結(jié)束語

本文提出了一種融合異構(gòu)特征的論文引用預測方法，可以有效利用定長特征、引用時序特征和引文網(wǎng)絡特征進行被引預測。在CSSCI數(shù)據(jù)庫18年的大規(guī)模數(shù)據(jù)上的實驗證明，本文方法可以有效解決數(shù)據(jù)稀疏問題，提高預測精度，RMSE比最好的基準方法降低了0.31。盡管本文所提出的預測框架可以涵蓋多種異構(gòu)特征，但還不足以建模引文上下文信息。早期引文上下文中蘊含了學者對論文的初步評價，對未來被引具有重要指征意義。下一步工作探索使用具有邊屬性的引文網(wǎng)絡來組織數(shù)據(jù)，將引文上下文信息放置邊上，并設計針對性的預測方法。