亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于異構(gòu)特征融合的論文引用預測方法

        2022-10-13 08:46:02朱丹浩黃肖宇
        數(shù)據(jù)采集與處理 2022年5期
        關(guān)鍵詞:特征方法

        朱丹浩,黃肖宇

        (1.江蘇警官學院刑事科學技術(shù)系,南京 210031;2.江蘇警官學院計算機信息與網(wǎng)絡安全系,南京 210031)

        引 言

        被引頻次是最具代表性、最簡單、最標準和最客觀的度量學術(shù)影響力的指標[1],貫穿了科研活動的始終。例如,文獻搜索引擎會根據(jù)被引次數(shù)調(diào)整檢索結(jié)果的排序,科技期刊的分區(qū)主要依據(jù)所載論文的平均被引次數(shù),學科熱點的發(fā)現(xiàn)常常依賴于對引用網(wǎng)絡進行聚類分析。然而,引用行為具有較長的滯后性,影響了各類下游任務的應用范圍和性能。為解決這一問題,研究者嘗試通過機器學習算法來預測論文的未來被引情況。例如,Ibá?ez等[2]使用多元線性回歸方法,基于摘要等文本特征預測了論文發(fā)表后4年內(nèi)的引用次數(shù);耿騫等[3]嘗試了樸素貝葉斯和邏輯回歸方法等。近年來,隨著深度學習的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡及前饋神經(jīng)網(wǎng)絡[4-5]也被引入論文被引預測算法中,預測精度取得了一定的提高。論文引用預測任務的一大特點是,存在大量的、形態(tài)各異的論文被引影響因素可作為輸入特征,但單一影響因素的預測能力極弱,在具體論文上常常是稀疏的。例如,一經(jīng)發(fā)表就被引用的論文常會被引更多,但一方面,也存在大量的“睡美人”文獻[6],在發(fā)表后多年才突然被喚醒,成為研究的熱點;另一方面,對于剛發(fā)表的新論文,并不存在早期被引,基于該特征的預測方法自然也就失效了。因此,如何充分利用異構(gòu)特征,挖掘其中蘊含的復雜關(guān)聯(lián)關(guān)系是建立論文引用預測方法的關(guān)鍵。現(xiàn)有的研究大多只能利用單一類型的特征,這不僅阻礙了預測精度的進一步提高,也限制了預測方法的適用范圍。

        基于以上考慮,本文提出了基于異構(gòu)特征融合的論文引用預測方法。首先,本文針對論文引用預測任務定義了引文屬性網(wǎng)絡,對3類異構(gòu)特征進行建模;其次,提出了面向異構(gòu)特征融合的論文引用預測方法,使用圖神經(jīng)網(wǎng)絡處理定長特征和引文網(wǎng)絡特征,使用循環(huán)神經(jīng)網(wǎng)絡處理引文時序特征,基于多頭注意力機制對提取到的異構(gòu)特征進行融合并預測被引次數(shù)。本文在基于CSSCI真實數(shù)據(jù)集的實驗證明了所提出方法的有效性,可以有效緩解數(shù)據(jù)稀疏問題。

        1 相關(guān)研究

        從使用特征的形態(tài)來看,當前的論文被引預測算法大體可分為3類:基于定長特征向量的方法、基于不定長引文時序特征的方法以及基于引文網(wǎng)絡特征的方法。

        定長的特征向量,主要是論文發(fā)表時即存在的特征,包括論文本身相關(guān)、期刊相關(guān)和作者相關(guān)3類[7]。例如,論文的摘要或標題中的關(guān)鍵詞[8]、語言風格[9];載文期刊的影響因子[10]、載文量[11]、引用半衰期[12];作者之前的被引頻次[13]以及是否獲得諾貝爾獎等[14]。最常見的預測方法當屬多元線性回歸[2,15],其優(yōu)點是可解釋性較強,可以比較不同特征對論文被引的解釋能力。但如果以提高預測精度為目標,該類方法有些力不從心,并不能挖掘因素間的非線性關(guān)系。耿騫等[3]嘗試了樸素貝葉斯、邏輯回歸、支持向量機、梯度提升決策樹、XGBoost、AdaBoost和隨機森林7種算法,發(fā)現(xiàn)XGBoost和隨機森林可以取得最好的預測結(jié)果。

        基于不定長引用時序特征的方法以論文發(fā)表后前若干年的逐年被引次數(shù)為輸入,預測其后的被引次數(shù)。對于這一類特征,面向時間序列的序列化學習算法是自然的解決思路。Abrishami等[4]基于循環(huán)神經(jīng)網(wǎng)絡,以論文前若干年的被引次數(shù)為每一步的輸入,預測論文在數(shù)年之后的被引次數(shù)。Liu等[5]結(jié)合了連續(xù)長短期記憶循環(huán)網(wǎng)絡(Continuous-time long short-term memory,cLSTM)和神經(jīng)霍克斯過程進行引用預測,他們認為該方法更能識別“睡美人”現(xiàn)象。

        基于引用網(wǎng)絡特征的方法將待預測論文看作引文網(wǎng)絡中的節(jié)點,目前主要基于無監(jiān)督的學習模式進行學習,不同于之前的分類或回歸算法,這一類算法基于論文在引文網(wǎng)絡中的拓撲信息,基于Pagerank或相近算法判斷其在網(wǎng)絡中的重要性,假設重要性更高的重要節(jié)點的引文排名會更高。相應的研究包括Walker等[16]、劉大有等[17]和Davletov等[18]。

        現(xiàn)有的方法大多只能利用單一類型的特征,主要出于兩個原因:(1)非經(jīng)專門設計,多種類型的特征很難兼容彼此。例如,引文網(wǎng)絡特征是非歐幾里得空間的數(shù)據(jù),難以直接轉(zhuǎn)化為定長特征。(2)方法本身只適用于單一類型的特征。例如,基于無監(jiān)督網(wǎng)絡學習的算法只能利用引文網(wǎng)絡特征,無法建模其他兩種特征類型。

        盡管種類繁多,但對于具體的論文,特征常常是稀疏的。新發(fā)表的論文不存在被引網(wǎng)絡和引用時序特征,大多數(shù)論文也不發(fā)表在重點期刊,或由知名學者發(fā)表。因此,建立能夠同時利用多種特征的論文被引預測算法,可以有效緩解數(shù)據(jù)稀疏問題,提高預測精度。

        2 兼容異構(gòu)特征的論文引用預測任務定義

        2.1 屬性引文網(wǎng)絡

        本文定義了屬性引文網(wǎng)絡,可同時兼容定長特征、引文網(wǎng)絡特征和引用時序特征,具體定義如下。

        定義1(屬 性 引文 網(wǎng) 絡)令G=(V,W,Xf,Xc),其 中,G為 屬性 引 文 網(wǎng) 絡,V為 網(wǎng) 絡 中節(jié) 點v1,v2,…,vn的集合,節(jié)點vi為第i篇論文,n=|V|為論文的數(shù)量。W∈Rn×n為節(jié)點的鄰接矩陣,存儲了論文之間的引用關(guān)系,其中的元素只能為0或1,如果為Wi,j=1,表示論文vi引用了vj。Xf∈Rn×f和Xc∈Rn×c是節(jié)點的兩類屬性矩陣,分別為定長特征矩陣和引用時序特征矩陣,各自存儲了論文本身的特征和歷年被引用的次數(shù)。兩個矩陣中,第i行表示論文vi對應的屬性向量,f和c分別為兩類屬性的維度。盡管引用時序特征本身是不定長的,發(fā)表年份越久的論文特征維度越大,但本文使用填充技術(shù)將統(tǒng)一轉(zhuǎn)換為同一長度,可提升定義的簡潔性。

        本文所使用的特征和編碼方式見表1。此處重點對“期刊名稱”“論文關(guān)鍵詞”和“歷年被引次數(shù)”進行介紹。“期刊名稱”表示為單熱點向量,即每個期刊對應于1個編號,在后續(xù)的圖神經(jīng)網(wǎng)絡中,該編號將隱式地轉(zhuǎn)換為稠密的期刊特征向量。由于每個期刊均會出現(xiàn)在多篇論文的Xf中,通過訓練該期刊特征向量將會反映期刊本身的特性?!罢撐年P(guān)鍵詞”也是單熱點向量,如果出現(xiàn)多個關(guān)鍵詞,則多個維度的對應位置都被設為1?!皻v年被引次數(shù)”是論文發(fā)表后的逐年被引次數(shù),本文根據(jù)所用數(shù)據(jù)設置長度為18,即對應于論文在1998—2015年的逐年被引次數(shù)。如果1篇論文是2014年發(fā)表的,則其對應向量在1998—2013年的維度上的值都設為0。

        表1 本文所使用的特征和編碼方式Table 1 Features and coding methods used in the paper

        3種形式的特征對應于屬性引文網(wǎng)絡的位置如下:(1)定長特征,包括論文內(nèi)容、期刊和作者等,存儲于在內(nèi)容屬性矩陣Xf中;(2)引文網(wǎng)絡特征,本文中即為W;(3)不定長引用時序特征,對應于引用屬性矩陣Xc。

        值得一提的是,限于篇幅、工作量和本文所使用數(shù)據(jù)集的特點,本文并未設計和使用更多的特征。屬性引文網(wǎng)絡具有良好的擴展性,足以編碼絕大部分論文被引影響因素。例如,如果數(shù)據(jù)集中包含了學術(shù)全文本信息,則可在通過自然語言處理技術(shù)提取具體的引用行為特征后,編碼至Xc中;期刊的影響因子、作者的H指數(shù)以及標題摘要等文本特征等也可直接附加至Xf中。

        2.2 論文引用預測任務

        本文對論文引用預測任務定義如下。

        定義2(論文引用預測任務)對于屬性引文網(wǎng)絡G,每一個節(jié)點vi對應一個標簽yi∈Y,Y是標簽的集合。已知屬性引文網(wǎng)絡G和一部分節(jié)點的標簽yi∈Ytrain,Ytrain指訓練集的標簽,論文引用預測的目標是學習出1個模型M,使得M(vi)=yi,yi∈Ytest,Ytest指測試集的標簽。

        標簽Y如果是離散的,例如高被引/低被引,論文引用預測可歸類為分類任務;反之,如果Y直接是連續(xù)的被引次數(shù),則可歸類為回歸任務。Dong等[19]則認為論文引用頻次是長尾分布,不適用于回歸預測。耿騫等[3]認為,將引用預測定義為分類問題,可以使預測粒度變粗,可利用更符合真實分布的數(shù)據(jù),模型泛化能力更強,研究更有價值。但從機器學習模型的角度來看,分類方法是在回歸預測目標后多加了一層分類層,對構(gòu)建預測算法本身影響并不大。因此,本文直接以論文的被引次數(shù)為預測目標,即Y∈R+。

        3 論文引用預測方法

        3.1 總體框架

        算法總體框架見圖1。首先,以圖的鄰接矩陣和定長特征矩陣為輸入,使用圖神經(jīng)網(wǎng)絡學習出論文的網(wǎng)絡特征表示;其次,以引用時序特征矩陣為輸入,基于循環(huán)神經(jīng)網(wǎng)絡學習出論文的逐年引用特征表示;最后,基于多頭注意力模型,融合網(wǎng)絡特征表示和逐年引用特征表示,并預測論文的引用次數(shù)。

        圖1 本文方法總體框架圖Fig.1 Framework of the proposed method

        3.2 基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡特征表示學習

        圖神經(jīng)網(wǎng)絡系列算法是目前屬性網(wǎng)絡上最為強大的學習算法,其中最為經(jīng)典的是圖卷積神經(jīng)網(wǎng)絡(Graph convolution network,GCN)[20]。本文基于GCN,面向?qū)傩砸木W(wǎng)絡的特性進行了針對性的特征學習。整個GCN的輸入為引文屬性網(wǎng)絡的鄰接矩陣W和定長特征Xf,輸出為所有論文的網(wǎng)絡特征表示S∈Rn×g,第i行對應于論文vi的網(wǎng)絡特征表示向量,維度為g。

        整個算法可看作多層神經(jīng)網(wǎng)絡,在第k層中輸入的節(jié)點屬性矩陣為,第i行對應于論文vi在第k層的特征表示,維度為hk。最初始的第0層被定義為輸入層,即:H(0)=Xf。每一層中,每一個節(jié)點都從其周圍的鄰接節(jié)點中搜集信息,并更新到下一層的節(jié)點屬性特征向量中去。為了更好地利用節(jié)點本身的信息,需要首先對鄰接矩陣增加自連接,使得節(jié)點可以直接利用上一層自己的信息,即

        式中In為對角線為1、其余位置均為0的方陣。再進行矩陣行和列的歸一化處理,有

        式中D為對角矩陣,元素為節(jié)點的度,有

        第k層的GCN函數(shù)為

        式中:T(k)∈Rn×hk為線性轉(zhuǎn)換矩陣;ReLU為非線性激活函數(shù)。

        一般GCN多為2層,過多的層數(shù)會引起過平滑現(xiàn)象,從而導致性能下降。所以對于2層的GCN,論文的網(wǎng)絡特征表示矩陣S可由式(1)求得。S的每一行對應于一篇論文的網(wǎng)絡特征表示向量,有

        3.3 基于循環(huán)神經(jīng)網(wǎng)絡的引用特征表示學習

        論文的引用特征Xc,反映了學術(shù)界對工作的認同程度和引文曲線的形態(tài)。本文使用循環(huán)神經(jīng)網(wǎng)絡對時間序列進行建模,為解決循環(huán)神經(jīng)網(wǎng)絡的梯度爆炸和梯度消失問題,使用了長短期記憶單元(Long-short term memory unit,LSTM)[21]。為簡化標記,此處令x為某篇論文的逐年被引次數(shù),對應于的1行,xt表示論文第t年的被引次數(shù)。

        首先,利用門函數(shù)計算遺忘門向量ft、輸入門it、輸出門ot,以及單元狀態(tài)更新值有

        式中:σ為sigmoid函數(shù);ht-1為論文在第t-1年的隱藏層向量;Wf、Wi、Wo、Wc為線性轉(zhuǎn)換矩陣;bf、bf、bo、bc為偏置向量。

        其次,基于上述4個向量對單元狀態(tài)ct進行更新,并得到新的隱藏層向量ht,有

        式中tanh為激活函數(shù),即

        式中初始的c0和h0都設置為0向量。

        每篇論文得到一個逐年的隱藏層向量ht,按行堆疊,即可得到其逐年的隱藏層矩陣H∈Rc×dh,dh表示LSTM的隱藏層維度。常見的LSTM常以H的最后一列作為輸出。而對于引用次數(shù)預測任務,由于“睡美人“等形態(tài)引用曲線的存在,中間步數(shù)的輸出也可能具有重要的預測意義,本文將序列的每一步輸出都保留下來,用于下一步針對性的特征融合。

        3.4 基于多頭注意力模型的特征融合和預測

        注意力機制被廣泛應用于機器翻譯[22]、知識圖譜[23]和目標識別[24]等領(lǐng)域,可以動態(tài)地聚焦于復雜特征的重要部分。本文使用多頭注意力模型,基于論文的網(wǎng)絡特征對其不同年份的引文時序特征進行注意力加權(quán),從而實現(xiàn)不同類型特征的深度融合。

        對于論文vi,其網(wǎng)絡特征表示向量記為s,即為在2.2節(jié)所得的網(wǎng)絡特征表示矩陣S中的對應行數(shù);對應的時序特征矩陣為H,由2.3節(jié)得出。由于H中包含了不同年份的論文引用時序特征,本文基于多頭注意力機制,以s為查詢式,對不同年份的特征,也就是H的不同列,賦予不同的權(quán)重,聚焦于對未來被引最具預測能力的時序特征。

        首先,通過線性轉(zhuǎn)換Wq、Wk、Wv,將s和H轉(zhuǎn)換為查詢向量q、鍵矩陣K和值矩陣V,有

        其次,對查詢向量和鍵矩陣進行按列點乘,再通過softmax函數(shù)歸一化后求每一列的權(quán)值,有

        最后,不同時序的論文引用特征進行加權(quán)求和,其中V:,i表示V的第i列,即有

        由于不同的時序特征中包含著不同方面的信息,此處采用多頭注意力特征機制,具體流程圖見圖2。即使用多組不同的Wq、Wk、Wv,計算出不同的v,記為v1,v2,…,vm,m為多頭注意力的個數(shù)。

        圖2 多頭注意力計算流程圖Fig.2 Flow chart of multi-head attention calculation

        對多頭注意力和s進行拼接,再經(jīng)過向量點乘后,得到了最終的預測結(jié)果

        式中:uT為權(quán)重向量為論文vi的預測被引次數(shù);concat是拼接函數(shù);ReLU激活函數(shù)除了可以提供非線性轉(zhuǎn)換,還能保證預測的被引次數(shù)大于等于0。

        本文使用均方根誤差(Root mean square error,RMSE)計算損失函數(shù)為

        再使用反向傳播算法優(yōu)化模型中的所有參數(shù),包括GCN、LSTM和特征融合模塊中的所有參數(shù)。

        3.5 討 論

        在特征融合時,為何要區(qū)分Xf和Xc,對其分別使用GCN和FNN進行特征表示學習;而不是直接合并Xf和Xc輸入到1個GCN中進行預測?這是由論文被引預測本身的性質(zhì)決定的。在GCN中,屬性通過鄰接邊傳遞到相鄰的節(jié)點上去,相鄰的節(jié)點常常會學習出相近的屬性和標簽。因此,使用GCN預測論文的學科時很容易取得成功[20]。而在預測論文被引時,相鄰的2個論文節(jié)點的引用差距極大是常見的現(xiàn)象,比如一篇經(jīng)典論文發(fā)表10年,被引數(shù)百次,而另一篇論文剛剛發(fā)表,尚未獲得被引,經(jīng)典論文的被引屬性傳遞到新論文上,會嚴重高估新論文的預測被引次數(shù)?;谝陨峡紤],本文對兩類特征進行區(qū)分學習,避免上述的信息傳播問題。

        4 實 驗

        4.1 數(shù)據(jù)集和評測標準

        本文使用的數(shù)據(jù)庫為中文社會科學引文索引(Chinese social sciences citation index,CSSCI)1998—2020年的數(shù)據(jù),該數(shù)據(jù)庫包含了中文核心期刊論文的題錄和引文信息。本文以1998—2015年的數(shù)據(jù)構(gòu)建了引文屬性網(wǎng)絡,并預測網(wǎng)絡中論文在16~20年間的被引次數(shù)。按5∶1∶4的比例隨機設置了訓練節(jié)點、驗證節(jié)點和測試節(jié)點。需要強調(diào)的是,本文采用的是半監(jiān)督的學習模式,也就是說,整個網(wǎng)絡在訓練階段對于模型都是可見的,但隱去了驗證節(jié)點和測試節(jié)點的標簽。表2給出了引文屬性網(wǎng)絡的總體統(tǒng)計信息。其中節(jié)點的屬性由16 601維關(guān)鍵詞的稀疏向量、672維期刊的稀疏向量、1維的作者歷史被引次數(shù)和1維的作者歷史平均被引組成。本文只保留了出現(xiàn)頻次20以上的關(guān)鍵詞。

        圖3給出了屬性和標簽的分布。第1行的3張和第2行的第1張是節(jié)點的屬性,總體上呈現(xiàn)明顯的長尾分布,但其中期刊的分布較為平滑。第2行的第2張給出了引文的間隔,第0年的引用較少,第1、2年的引用達到高峰,之后逐年下降。第2行的第3張是待預測的標簽,也就是2016—2000年的被引次數(shù),大部分的論文被引次數(shù)均是0次,引用次數(shù)在9次以下的占了絕大部分,極少數(shù)論文會被引更多次。本文使用在測試集上的RMSE來評測算法的精準度,該指標越低,表示預測的精準度越高。

        圖3 屬性和標簽的分布圖Fig.3 Distribution of attributes and labels

        4.2 基準方法和訓練過程

        4.2.1 基準方法

        本文對比了在論文被引預測中常用的3種算法,這些方法基于不同類型的特征進行學習。本文的數(shù)據(jù)集遠大于之前的研究,例如本文的訓練集包含了34萬篇論文,而耿騫等[3]的訓練數(shù)據(jù)約包含2.6萬篇論文。因此,在小數(shù)據(jù)集上常用的算法,如支持向量機、隨機森林等,因內(nèi)存和訓練時間的限制不再適用,故本文主要選擇了在大數(shù)據(jù)集上性能和表現(xiàn)優(yōu)秀的神經(jīng)網(wǎng)絡系列算法作為基準。

        隨機猜測:選取測試集上所有標簽的平均值作為預測結(jié)果,經(jīng)統(tǒng)計為1.31次,該方法忽略了所有輸入特征的作用。所有其他方法的結(jié)果均應優(yōu)于隨機猜測。

        前饋神經(jīng)網(wǎng)絡(Feed-forward neural network,F(xiàn)NN):前饋神經(jīng)網(wǎng)絡是經(jīng)典的神經(jīng)網(wǎng)絡。深度為2層,隱藏層的單元數(shù)為512,使用Adam梯度下降[25]進行優(yōu)化,初始值設為0.01,使用Dropout[26]技術(shù)避免過擬合,概率值設為0.3,批大小為1 000,在測試集上反復訓練,最多50個Epoch。

        循環(huán)神經(jīng)網(wǎng)絡(Recurrent neural network,RNN):循環(huán)神經(jīng)網(wǎng)絡適用于不定長的特征序列,常在論文引用預測任務中被用來建模引用時序特征。本文基于Abrishami等[4]的設置進行了實驗,使用LSTM為基本單元。深度為1層,隱藏層的單元數(shù)為512,使用Adam梯度下降進行優(yōu)化,初始值設為0.01,Dropout技概率設為0.3,批大小為1 000,在測試集上反復訓練,最多50個Epoch。

        圖卷積神經(jīng)網(wǎng)絡[20]:標準的圖神經(jīng)網(wǎng)絡,層數(shù)為2,隱藏層單元數(shù)為32,Dropout概率設為0.5,使用Adam優(yōu)化,初始學習率為0.01,訓練了200輪。

        4.2.2 實驗細節(jié)

        實驗環(huán)境:全部代碼基于Python 3.6實現(xiàn),使用Pytorch深度學習框架。實驗運行在2核的Intel(R)Xeon(R)Silver 4214R CPU@2.40 GHz服務器上,整個模型訓練時間大約為1.5 h。GCN模塊基于DGI①https://docs.dgl.ai/,目前流行的圖神經(jīng)網(wǎng)絡框架實現(xiàn)。

        評測指標:本文使用RMSE作為評測指標,可以看作是預測被引次數(shù)和實際被引次數(shù)的平均偏差次數(shù),該指標越小,表示預測越為精確。如果不經(jīng)訓練,直接隨機猜測的話,最低偏差為4.99次。

        預測和訓練過程:基于Early stop技術(shù),在驗證集上選取RMSE最小的模型作為最終模型,并匯報該模型在測試集上的結(jié)果。

        具體參數(shù)設置:深度學習的結(jié)果和超參數(shù)、實驗設置密切相關(guān),表3中詳述了本文的實驗參數(shù)。

        表3 本文方法的主要參數(shù)配置Table 3 Main configure parameters of the proposed method

        4.3 實驗結(jié)果

        4.3.1 總體比較

        實驗結(jié)果見表4。RNN、FNN方法以論文的歷史逐年被引次數(shù)Xc為特征時,平均偏差為3.49次和3.44次,取得了較大提升。在結(jié)合Xc和Xf后,兩種方法都取得了進一步提升,平均偏差分別下降到了3.21次和3.16次。經(jīng)典的圖神經(jīng)網(wǎng)絡方法GCN以W、Xf為輸入時RMSE為3.89次,但在引入Xc后,預測精度未見明顯提高。本文方法綜合使用了所有的3種特征,取得了最好的預測精度2.85次,偏差比第二名,使用了Xf、Xc特征的FNN,下降了0.31次。

        表4 不同方法的預測結(jié)果Table 4 Prediction results of different methods

        綜上,可以得到3點結(jié)論:(1)本文方法能夠利用多種異構(gòu)特征,取得了最好的預測精度;(2)引用特征Xc對于預測引用次數(shù)極為關(guān)鍵,僅基于該特征的RNN和FNN方法都取得了很好的預測精度;(3)本文的特征融合方法是有必要的,更能適應引用預測任務的特性。相比而言,使用全部特征的GCN方法和本文方法在輸入特征上是公平的,但并未比僅使用W、Xf的GCN有大幅度提升,這表明GCN并不能很好地利用好引用特征Xc。

        4.3.2 有效性分析

        通過比較不同年份上本文方法和基準方法的表現(xiàn),驗證了異構(gòu)特征融合方法的有效性。圖4(a)比較了發(fā)表年份不同時GCN方法和本文方法的結(jié)果,其中GCN方法的特征是Xf和Xc的拼接。也就是說,此時的GCN方法和本文方法輸入的特征是完全一致的。GCN方法在1~2年時和本文方法結(jié)果很接近,此時引用特征Xc的信息還較為稀疏,當年份增加時,GCN方法的RMSE的下降趨勢并沒有本文方法明顯,這表明GCN并不能很好地利用引用特征,也驗證了3.5節(jié)中的討論。圖4(b)比較了不同發(fā)表年份下RNN方法和本文方法的對比。可以看出,發(fā)表年份越大時,預測的精度越好(RMSE越小)。而論文剛發(fā)表的1~2年之間,引用數(shù)據(jù)極為稀疏,此時預測的偏差較大,但本文方法的RMSE相對提高較大。這表明,本文方法可以較好地應對數(shù)據(jù)稀疏問題。

        圖4 不同年份下基準方法和本文方法的RMSE對比Fig.4 Comparison on RMSE between the benchmark method and the proposed method

        4.3.3 參數(shù)敏感性分析

        圖5給出了不同超參數(shù)設置下本文方法的性能。圖5(a)顯示,LSTM的隱藏層維度在16時,取得了最低的RMSE值,隨著維度值增加,模型的誤差上升較慢。圖5(b)顯示,GCN的隱藏層維度在16時,RMSE最低。圖5(c)給出,隨著多頭注意力個數(shù)的上升,模型誤差下降,到4時取得最好結(jié)果,再提升注意力個數(shù)會導致誤差急速上升。

        圖5 參數(shù)敏感性分析Fig.5 Parameter sensitivity analysis

        在選擇超參數(shù)時,本文方法的預測誤差對GCN的隱藏層維度不太敏感,對LSTM的隱藏層維度較為敏感。選擇多頭注意力的個數(shù)要格外小心,會明顯影響最終結(jié)果的精度。

        4.3.4 多頭注意力的可視化

        圖6給出了2篇典型論文的多頭注意力熱力圖。顏色越深表示權(quán)重越高,橫 坐 標 中1對 應1998年,18對 應2015年。從圖6(a)可知:(1)越靠后的年份對未來的被引次數(shù)預測越重要;(2)不同的注意力聚焦了不同年份的信息,例如,第1行和第2行相比,更注重于中間靠后部分的年份,第3行選中了第6年的引文信息用于預測。從圖6(b)中可以看出,由于該論文發(fā)表于2013年,橫軸編號16之前的年份不存在被引信息,注意力模型基本上不再聚焦于這些年份,這表明注意力模型可以有效聚焦于部分重要年份。

        圖6 多頭注意力的熱力圖Fig.6 Heat map of multi-head attention mechanism

        5 結(jié)束語

        本文提出了一種融合異構(gòu)特征的論文引用預測方法,可以有效利用定長特征、引用時序特征和引文網(wǎng)絡特征進行被引預測。在CSSCI數(shù)據(jù)庫18年的大規(guī)模數(shù)據(jù)上的實驗證明,本文方法可以有效解決數(shù)據(jù)稀疏問題,提高預測精度,RMSE比最好的基準方法降低了0.31。盡管本文所提出的預測框架可以涵蓋多種異構(gòu)特征,但還不足以建模引文上下文信息。早期引文上下文中蘊含了學者對論文的初步評價,對未來被引具有重要指征意義。下一步工作探索使用具有邊屬性的引文網(wǎng)絡來組織數(shù)據(jù),將引文上下文信息放置邊上,并設計針對性的預測方法。

        猜你喜歡
        特征方法
        抓住特征巧觀察
        新型冠狀病毒及其流行病學特征認識
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        學習方法
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        国产乱人伦精品一区二区| 亚洲岛国一区二区三区| 日韩精品中文一区二区三区在线| 国产精品国产亚洲精品看不卡| 亚洲av无码一区二区乱孑伦as| 亚洲依依成人综合在线网址| 无码中文字幕久久久久久| 精品国产乱子伦一区二区三| 久久综合狠狠综合久久综合88| 久久久国产一区二区三区四区小说 | 高清亚洲精品一区二区三区| 蜜桃tv在线免费观看| 无码人妻人妻经典| 在线免费观看国产精品| 久久久亚洲日本精品一区| 国产91色综合久久高清| 中文在线8资源库| 最新亚洲人成网站在线| av资源在线永久免费观看| 肥老熟女性强欲五十路| 野狼第一精品社区| 国产偷国产偷亚洲欧美高清| 中文字幕av一区二区三区诱惑 | 99久久精品在线视频| 亚洲熟女一区二区三区| 青草热久精品视频在线观看| 亚洲在线视频一区二区| 亚洲一区二区三区乱码在线中国| 久久精品国产亚洲av麻豆| 最新亚洲人AV日韩一区二区| 少妇特殊按摩高潮对白| 日韩视频在线观看| 国产精品无码日韩欧| 久久91精品国产91久久麻豆| 国产精品亚洲二区在线看| 国产顶级熟妇高潮xxxxx| 老汉tv永久视频福利在线观看| 成年男女免费视频网站点播| 国产成人精品无码一区二区三区| 欧美综合自拍亚洲综合图片区 | 最近中文字幕视频完整版在线看|