亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于持續(xù)關(guān)注度衰減的重要論文預(yù)測(cè)

2015-12-19 09:16:24張美平尚明生

復(fù)雜系統(tǒng)與復(fù)雜性科學(xué) 2015年3期

張美平，尚明生

（電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心，成都611731）

0 引言

如何評(píng)價(jià)科學(xué)家的影響力及論文的內(nèi)在質(zhì)量一直都是重要的研究課題［1］?；诳傄么螖?shù)的評(píng)價(jià)方法最簡(jiǎn)單但存在若干不足，為此Hirsch［2］提出了具有很強(qiáng)魯棒性的H指數(shù)。此后，Egghe［3］提出g指數(shù)用來(lái)解決H 指數(shù)存在的一些問(wèn)題。文獻(xiàn)［4］提出帶權(quán)重的PageRank算法對(duì)科學(xué)家的影響力進(jìn)行排名。文獻(xiàn)［5］基于數(shù)字圖書館的引證數(shù)據(jù)，以科學(xué)家合作網(wǎng)絡(luò)為研究對(duì)象，從網(wǎng)絡(luò)結(jié)構(gòu)特性的角度對(duì)科學(xué)家進(jìn)行評(píng)價(jià)。然而，這些研究大多僅依賴于論文當(dāng)前的被引次數(shù)來(lái)評(píng)價(jià)一篇論文的受歡迎程度和權(quán)威性，從而對(duì)科學(xué)家進(jìn)行評(píng)價(jià)，無(wú)法處理論文將來(lái)可能獲得大量引用的情況。因此，如何對(duì)論文的潛在重要性進(jìn)行預(yù)測(cè)引起了大量學(xué)者的關(guān)注，已經(jīng)提出很多算法，主要包括以下3個(gè)方面：

1）基于時(shí)間效應(yīng)的方法?？茖W(xué)論文發(fā)表時(shí)總是會(huì)引用已經(jīng)發(fā)表過(guò)的論文，因此論文引用次數(shù)是隨時(shí)間動(dòng)態(tài)變化的累計(jì)增量。Medo等［6］通過(guò)分析論文引用隨時(shí)間的演化過(guò)程和偏好依附過(guò)程來(lái)挖掘論文的影響力，發(fā)現(xiàn)了論文的影響力隨著時(shí)間指數(shù)遞減的規(guī)律。文獻(xiàn)［7］基于引用存在的時(shí)間進(jìn)行加權(quán)，為較新的引用賦予較高的權(quán)重。Walker等［8］的CiteRank算法優(yōu)先訪問(wèn)發(fā)表時(shí)間較近的論文。

2）基于論文多種信息融合的方法。與一般作者相比，領(lǐng)域權(quán)威作者所撰寫的論文更可能吸引同行的關(guān)注；被這些作者引用的論文，也更可能被其他人引用；而發(fā)表在影響力更高的期刊上的論文，會(huì)更有機(jī)會(huì)被其他工作者引用［9］?；谶@些因素，研究者們運(yùn)用論文的多種信息，如期刊、作者、領(lǐng)域等信息來(lái)更全面地預(yù)測(cè)論文被引變化趨勢(shì)。例如，文獻(xiàn)［10］利用論文、作者、期刊信息，為不同的引證邊賦權(quán)，提出一種運(yùn)用于不同期刊的論文和作者的評(píng)價(jià)指標(biāo)。文獻(xiàn)［11］利用HITS算法［12］的思想，通過(guò)作者－論文關(guān)系、論文－論文引用關(guān)系以及作者合作關(guān)系來(lái)動(dòng)態(tài)評(píng)價(jià)論文的價(jià)值以及作者的權(quán)威度。此外，文獻(xiàn)［13］通過(guò)一個(gè)加強(qiáng)的泊松分布概率模型來(lái)預(yù)測(cè)論文被引用的動(dòng)態(tài)特性。

3）時(shí)間衰減和多源信息融合集成的方法。論文的時(shí)間衰減因素通常也和論文的多源信息在一起被考慮。例如，文獻(xiàn)［14］依據(jù)施引論文所在雜志的影響因子以及引用時(shí)間，為引用鏈接賦予不同的權(quán)值，進(jìn)而評(píng)價(jià)論文的價(jià)值。文獻(xiàn)［15］提出FutureRank算法，該算法基于HITS算法［12］與PageRank算法［16］考慮了論文的發(fā)表時(shí)間、作者權(quán)威度和論文當(dāng)前的PageRank值，基于迭代運(yùn)算預(yù)測(cè)論文未來(lái)的被引次數(shù)排名和PageRank值排名，較之前的算法取得了更好的預(yù)測(cè)準(zhǔn)確度。

上述方法大多存在計(jì)算復(fù)雜或精確度不高的問(wèn)題，本文通過(guò)對(duì)APS和arXiv兩個(gè)典型數(shù)據(jù)集的實(shí)證研究，發(fā)現(xiàn)論文未來(lái)引用數(shù)和論文的持續(xù)關(guān)注度密切相關(guān)，結(jié)合論文引用隨時(shí)間指數(shù)衰減的特性，設(shè)計(jì)了基于持續(xù)關(guān)注度衰減的重要論文預(yù)測(cè)方法。該方法具有預(yù)測(cè)準(zhǔn)確率高，且復(fù)雜度低的特點(diǎn)。

1 基于持續(xù)關(guān)注度衰減的重要論文預(yù)測(cè)

對(duì)科學(xué)引文網(wǎng)絡(luò)的分析需建立在真實(shí)數(shù)據(jù)的研究上。為此，以兩個(gè)典型的引文網(wǎng)絡(luò)數(shù)據(jù)arXiv數(shù)據(jù)集和APS數(shù)據(jù)集為研究對(duì)象做實(shí)證分析和算法研究。其中，arXiv數(shù)據(jù)集取自arXiv中的高能物理理論引文網(wǎng)絡(luò)數(shù)據(jù)集，包含了1992年～2003年發(fā)表的所有高能物理論文。APS數(shù)據(jù)集取自美國(guó)物理學(xué)會(huì)出版的物理評(píng)論系列期刊的引用數(shù)據(jù)集。該數(shù)據(jù)集論文時(shí)間跨度為1893年－2009年，包含了APS系列所有期刊論文的引用關(guān)系數(shù)據(jù)。由于其各期刊的起始時(shí)間和數(shù)量等因素差別較大，在后續(xù)討論中，僅選取其中異質(zhì)性較低的PRA、PRB、PRC、PRD和PRL期刊的相互引用關(guān)系數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，簡(jiǎn)稱為APS數(shù)據(jù)集。經(jīng)過(guò)預(yù)處理后，兩個(gè)數(shù)據(jù)集的基本信息表如表1所示。

表1 數(shù)據(jù)集基本信息表Tab.1 Information of the two data sets

1.1 論文的持續(xù)關(guān)注度

論文發(fā)表以后，會(huì)有后續(xù)論文對(duì)其進(jìn)行引用。這些引用行為反映出科研工作群體對(duì)某篇論文的關(guān)注程度，可以用論文的引用次數(shù)來(lái)刻畫論文的被關(guān)注度。一般而言，論文存在時(shí)間越長(zhǎng)，被其他工作者關(guān)注到的機(jī)會(huì)就更多［17－18］。因?yàn)榧词箖善撐馁|(zhì)量相當(dāng)，發(fā)表時(shí)間長(zhǎng)的論文通常會(huì)比近期發(fā)表的論文獲得更多的引用，也即被關(guān)注度越大。這樣，論文的被關(guān)注度是受到時(shí)間因素的影響的。為消除這種時(shí)間因素帶來(lái)的影響，本文提出論文持續(xù)關(guān)注度的概念，用來(lái)預(yù)測(cè)論文未來(lái)的被引用情況。論文的持續(xù)關(guān)注度定義為

其中，S為示論文獲得的持續(xù)關(guān)注度，cc為論文當(dāng)前獲得的總被引用次數(shù)，tc為當(dāng)前時(shí)間，tp為論文的發(fā)表時(shí)間，均以年為單位計(jì)算。

通過(guò)對(duì)APS和arXiv引文數(shù)據(jù)的實(shí)證分析發(fā)現(xiàn)，與論文當(dāng)前總被引用次數(shù)相比，論文持續(xù)關(guān)注度更能體現(xiàn)論文未來(lái)的被引潛力。圖1a給出了arXiv數(shù)據(jù)集中論文2000年前的持續(xù)關(guān)注度與2000年后的持續(xù)關(guān)注度之間的相關(guān)性；圖1b顯示了相同情況下論文當(dāng)前總被引次數(shù)與未來(lái)被引次數(shù)之間的相關(guān)性。可以看到，相比于圖1b，圖1a中的點(diǎn)更集中在對(duì)角線周圍，也就是相關(guān)度更高。事實(shí)上，持續(xù)關(guān)注度的相關(guān)系數(shù)為0.77，而總被引次數(shù)的相關(guān)系數(shù)為0.62，也就是說(shuō)，論文的持續(xù)關(guān)注度更能刻畫論文未來(lái)的引用情況。對(duì)APS數(shù)據(jù)集的分析（見(jiàn)圖2），得到類似的結(jié)論，前者的相關(guān)系數(shù)為0.52，后者為0.38。

進(jìn)一步，本文用持續(xù)關(guān)注度對(duì)論文的未來(lái)引用進(jìn)行預(yù)測(cè)。圖3給出了僅用持續(xù)關(guān)注度排名來(lái)預(yù)測(cè)論文未來(lái)的被引次數(shù)排名的實(shí)驗(yàn)結(jié)果：對(duì)前50篇論文，在arXiv數(shù)據(jù)集上精確率可達(dá)0.38，在APS數(shù)據(jù)集上為0.4。作為對(duì)比，如果用當(dāng)前總被引次數(shù)來(lái)預(yù)測(cè)論文的未來(lái)排名，arXiv數(shù)據(jù)集上精確率僅為0.3，APS數(shù)據(jù)集為0.26。

圖1 arXiv中論文2000年前和2000年后的持續(xù)關(guān)注度的相關(guān)度和被引總數(shù)的相關(guān)度Fig.1 Relevance of the sustained attention and the total citations before 2000and after 2000in arXiv dataset

圖2 APS中論文2000年前和2000年后的持續(xù)關(guān)注度的相關(guān)度和被引總數(shù)的相關(guān)度Fig.2 Relevance of the sustained attention and the total citations before 2000and after 2000in APS dataset

1.2 論文的時(shí)間衰減效應(yīng)

論文引用受時(shí)間衰減效應(yīng)的影響已被大量學(xué)者的實(shí)證研究所證實(shí)［6－8］。通常情況下，一項(xiàng)研究成果問(wèn)世之后，會(huì)受到很多同行工作者的關(guān)注，但隨著時(shí)間的推移，新的研究成果會(huì)涵蓋、完善甚至完全代替已有的研究成果，人們將會(huì)更關(guān)注這些新的研究成果。除非是開(kāi)創(chuàng)性工作的論文或者非常經(jīng)典的文獻(xiàn)，才會(huì)在經(jīng)過(guò)很多年后依然被大量引用。事實(shí)上，我們對(duì)arXiv和APS引證數(shù)據(jù)集的實(shí)證研究也支持這一結(jié)論。

圖3 基于持續(xù)關(guān)注度和總被引數(shù)在預(yù)測(cè)論文未來(lái)引用排名的精確率比較Fig.3 Comparision of the predicted precision based on sustained attention and total citations

圖4 論文引用次數(shù)隨時(shí)間變化圖Fig.4 The citation vary over time

圖4給出了論文平均引用次數(shù)隨時(shí)間的變化情況，其中橫坐標(biāo)是論文被引用的時(shí)間間隔，縱坐標(biāo)是對(duì)應(yīng)時(shí)間的論文平均被引次數(shù)。圖4a是APS數(shù)據(jù)集上1958年到1988年發(fā)表的論文在30年內(nèi)的平均被引次數(shù)。可以看到，論文平均被引次數(shù)是隨時(shí)間呈負(fù)指數(shù)規(guī)律衰減的。圖4b給出了arXiv數(shù)據(jù)集上的所有論文引用數(shù)據(jù)的分析。由于arXiv數(shù)據(jù)集論文時(shí)間從1992年到2003年，時(shí)間跨度較短，我們統(tǒng)計(jì)了其11年的平均引用次數(shù)，得到了類似的結(jié)論。

1.3 基于持續(xù)關(guān)注度衰減的論文價(jià)值預(yù)測(cè)算法

通過(guò)前面的分析發(fā)現(xiàn)，論文的持續(xù)關(guān)注度體現(xiàn)了論文未來(lái)的被引潛力，與此同時(shí)，論文引用又呈現(xiàn)明顯的時(shí)間衰減特性，因此，我們考慮將上面兩個(gè)因素結(jié)合起來(lái)對(duì)論文未來(lái)被引情況進(jìn)行預(yù)測(cè)。

沿用文獻(xiàn)［8］和［15］中刻畫時(shí)間衰減效應(yīng)的指數(shù)函數(shù)：

其中，x為論文發(fā)表時(shí)間距離當(dāng)前時(shí)間的年數(shù)，ρ為刻畫時(shí)間衰減程度的參數(shù)，其值越大則刻畫時(shí)間衰減因素權(quán)重越大，反之越小。

科學(xué)論文發(fā)表時(shí)，往往會(huì)基于不同的引證動(dòng)機(jī)引用相關(guān)參考文獻(xiàn)。針對(duì)這些引用行為，從微觀角度同等對(duì)待每一條邊，僅基于時(shí)間為它們賦權(quán)則會(huì)有失偏頗；但是如果從宏觀角度將一篇論文某個(gè)時(shí)間周期的被引次數(shù)作為研究對(duì)象，就能降低相應(yīng)的預(yù)測(cè)誤差。因此，與之前研究對(duì)每條引用連邊基于時(shí)間賦權(quán)不同，本文基于時(shí)間段為論文的持續(xù)關(guān)注度賦予不同的權(quán)重，進(jìn)而預(yù)測(cè)論文未來(lái)的被引次數(shù)。具體計(jì)算公式為

其中，cf為論文未來(lái)引用的預(yù)測(cè)值，tc為當(dāng)前時(shí)間，tp為論文發(fā)表時(shí)間，ct為該年的被引次數(shù)。

2 實(shí)驗(yàn)及結(jié)果分析

為了驗(yàn)證算法的預(yù)測(cè)效果，通過(guò)arXiv和APS兩個(gè)典型的引文數(shù)據(jù)集對(duì)算法進(jìn)行評(píng)估。參考算法是目前預(yù)測(cè)效果最好的FutureRank算法［15］，從算法對(duì)參數(shù)的敏感度、算法排名預(yù)測(cè)的準(zhǔn)確率和全局的spearman秩相關(guān)系數(shù)值等3個(gè)方面進(jìn)行對(duì)比。

2.1 實(shí)驗(yàn)數(shù)據(jù)和設(shè)置

在算法驗(yàn)證過(guò)程中，將ArXiv數(shù)據(jù)集分為兩部分：2000年以前的引用數(shù)據(jù)和2000年以后的引用數(shù)據(jù)，第1部分為訓(xùn)練數(shù)據(jù)，第2部分為測(cè)試數(shù)據(jù)。算法的目的是預(yù)測(cè)論文未來(lái)的被引次數(shù)和PageRank值排名。其中，被引次數(shù)反映論文的流行度，PageRank值反映出論文的權(quán)威值［15］。APS數(shù)據(jù)劃分方式類似arXiv數(shù)據(jù)集，以2000年為分界點(diǎn)劃分?jǐn)?shù)據(jù)集。兩個(gè)數(shù)據(jù)集經(jīng)過(guò)劃分之后，基本信息如表2。

表2 實(shí)驗(yàn)數(shù)據(jù)劃分信息表Tab.2 The training data and the test data

2.2 評(píng)價(jià)指標(biāo)

2.2.1 精確率

精確率反映算法預(yù)測(cè)的準(zhǔn)確性，定義為

其中，hit＝｜預(yù)測(cè)排名topk∩真實(shí)排名topk｜，精確率用來(lái)檢驗(yàn)算法對(duì)排名靠前的論文的預(yù)測(cè)準(zhǔn)確度。

2.2.2 spearman秩相關(guān)系數(shù)

計(jì)算算法預(yù)測(cè)的論文未來(lái)引用排名、PageRank值排名與論文未來(lái)實(shí)際排名的全局相關(guān)程度。假設(shè)測(cè)試集中的論文xi，yi按從大到小的順序排列，記x’i，y’i為xi，yi根據(jù)預(yù)測(cè)算法計(jì)算獲得的排名，則Spearman秩相關(guān)系數(shù)的計(jì)算即為秩次之間的Pearson的線性相關(guān)系數(shù)：

2.3 實(shí)驗(yàn)結(jié)果及分析

2.3.1 參數(shù)敏感性分析

對(duì)本文算法中唯一的刻畫時(shí)間衰減程度的參數(shù)ρ，研究其不同取值對(duì)算法精度的影響。實(shí)驗(yàn)中，不失一般性，topK取值為50（事實(shí)上，在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)，topK取其他值會(huì)得到同樣的結(jié)論）。

圖5 算法預(yù)測(cè)精度和參數(shù)的關(guān)系Fig.5 The precision varies over the parameter

圖5給出了在兩個(gè)不同的數(shù)據(jù)集上，參數(shù)ρ的不同取值對(duì)算法效果的影響。ρ從0取值到40，取值越大，則刻畫時(shí)間衰減因素的權(quán)重越大，反之越小。當(dāng)ρ取0時(shí)，算法退化成僅用論文持續(xù)關(guān)注度進(jìn)行預(yù)測(cè)，即不考慮時(shí)間衰減效應(yīng)。在arXiv數(shù)據(jù)上，ρ取值在0到4時(shí)，算法效果逐漸提升，考慮時(shí)間效應(yīng)確實(shí)大大提高算法預(yù)測(cè)精確率。此后，算法一直保持最優(yōu)值，對(duì)算法參數(shù)不再敏感（見(jiàn)圖5a）；在APS數(shù)據(jù)集上，ρ取值在0到1時(shí)，算法精度逐漸提高。取值大于1后，算法一直保持較高精度。在兩個(gè)不同的數(shù)據(jù)集上，算法對(duì)參數(shù)ρ在一定取值后就不再敏感，表現(xiàn)大體一致。需要說(shuō)明的是，算法對(duì)ρ取值的不敏感不代表時(shí)間效應(yīng)因素的不重要，因?yàn)榍€前期精確率有一個(gè)逐漸提升過(guò)程。

2.3.2 算法預(yù)測(cè)準(zhǔn)確性比較

2.3.2.1 不同topK 下的算法精確率

進(jìn)一步驗(yàn)證算法在不同topK下的預(yù)測(cè)效果：固定ρ取值最優(yōu)的情況下，變化topK計(jì)算算法精確率，比較本文算法與FutureRank算法［4］、Neman［19－20］提到的用z－score預(yù)測(cè)論文流行度的算法（僅用來(lái)預(yù)測(cè)論文的被引次數(shù)，不預(yù)測(cè)論文的PageRank值）的預(yù)測(cè)效果。

如圖6a所示，在APS數(shù)據(jù)集上，對(duì)基于持續(xù)關(guān)注度衰減算法（s－decay）取在topK為50時(shí)精確率最高的參數(shù)兩組ρ＝2.2和ρ＝25，對(duì)于FutureRank算法，也取topK 為50時(shí)精確率最高的參數(shù)兩組，futurerank＿1（α＝0.09，β＝0.25，γ＝0.66），futurerank＿2（α＝0.12，β＝0，γ＝0.88）。其中，α為論文當(dāng)前的PageRank值的權(quán)重值，β為作者權(quán)威值的權(quán)重值，γ為時(shí)間效應(yīng)權(quán)重值。由于訓(xùn)練集有將近20萬(wàn)篇論文，所以圖中topK取值為1～500?？梢钥吹剑簔－score的預(yù)測(cè)結(jié)果最差，而基于持續(xù)關(guān)注度衰減算法在前70名精確率略微高于FutureRank算法，70名后遠(yuǎn)優(yōu)于FutureRank算法；基于持續(xù)關(guān)注度衰減算法在不同參數(shù)下，表現(xiàn)幾乎一樣，F(xiàn)utureRank算法不同參數(shù)表現(xiàn)差異比較大。PageRank值預(yù)測(cè)（見(jiàn)圖6b）中，前170名中兩種算法差別不大，但170名后，本文算法開(kāi)始優(yōu)于FutureRank算法，當(dāng)topK取值為170到500時(shí)，基于持續(xù)關(guān)注度衰減算法已經(jīng)遠(yuǎn)優(yōu)于FutureRank算法。

圖6 APS數(shù)據(jù)集的算法精確率比較Fig.6 Comparision of the precision in APS data set

由于arXiv數(shù)據(jù)的訓(xùn)練集中只有將近2萬(wàn)篇論文，所以圖中topK取值從1取到50?；诔掷m(xù)關(guān)注度衰減算法在arXiv數(shù)據(jù)集上ρ大于4后未出現(xiàn)波動(dòng)情況（2.3.1節(jié)），所以只選取ρ＝10這一組值，而FutureRank算法參數(shù)仍選擇兩組，futurerank＿1（α＝0.16，β＝0.05，γ＝0.79），futurerank＿2（α＝0.17，β＝0，γ＝0.83）。從圖7a可以看出，z－socre預(yù)測(cè)效果最差，基于持續(xù)關(guān)注度衰減算法在不同的topK下均優(yōu)于FutureRank算法，尤其在20名之后遠(yuǎn)優(yōu)于FutureRank算法。圖7b顯示基于持續(xù)關(guān)注度衰減算法對(duì)論文PageRank值的預(yù)測(cè)相比于Future－Rank算法同樣能獲得更高的準(zhǔn)確率。

圖7 arXiv數(shù)據(jù)集的算法精確率比較Fig.7 Comparision of the precision in arXiv data set

2.3.2.2 spearman秩相關(guān)系數(shù)比較

為了驗(yàn)證算法的全局排序效果，對(duì)比算法對(duì)所有論文的預(yù)測(cè)排名與其未來(lái)的真實(shí)排名的spearman秩相關(guān)系數(shù)。實(shí)驗(yàn)結(jié)果如圖8所示，可以看出，兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示的結(jié)論一致：對(duì)于未來(lái)被引次數(shù)的排名預(yù)測(cè)，基于持續(xù)關(guān)注度衰減算法要遠(yuǎn)優(yōu)于FutureRank算法，對(duì)于未來(lái)PageRank值的預(yù)測(cè)，基于持續(xù)關(guān)注度衰減算法要稍遜于FutureRank算法，但這種優(yōu)勢(shì)不是很明顯。而且前面的分析已經(jīng)發(fā)現(xiàn)，對(duì)于預(yù)測(cè)較靠前（APS數(shù)據(jù)前500名，arXiv數(shù)據(jù)前50名）的論文的情況下（見(jiàn)2.3.2.1節(jié)），基于持續(xù)關(guān)注度衰減算法預(yù)測(cè)未來(lái)PageRank值排序的準(zhǔn)確率要優(yōu)于FutureRank算法。這種差異性出現(xiàn)的根本原因是基于持續(xù)關(guān)注度衰減算法本身是基于論文的引用次數(shù)計(jì)算的，而FutureRank算法是基于論文的PageRank值計(jì)算的。

圖8 算法spearman秩相關(guān)系數(shù)比較Fig.8 Comparision of the spearman’s rank correlation

表3和表4分別給出了基于持續(xù)關(guān)注度衰減算法在兩個(gè)數(shù)據(jù)集上得到的前20篇論文（表中第1列）與真實(shí)排名比較情況。從表3可以看到比較顯著的是編號(hào)為“199908142”的論文，2000年之前它的排名為222，未來(lái)的排名躍居為第2，而算法能將它預(yù)測(cè)進(jìn)前20。此外，論文“199905111”之前為81名，2000年之后排名第6，算法較準(zhǔn)確地預(yù)測(cè)出其潛在價(jià)值。

而在 APS數(shù)據(jù)集上（見(jiàn)表4），比較顯著的是論文10.1103／PhysRevLett.77.3865，10.1103／PhysRevB.54.11169，10.1103／PhysRevB.37.785，10.1103／PhysRevLett.80.149和論文10.1103／PhysRevB.37.785，這類論文在2000年以前排名比較靠后，但是未來(lái)排名靠前，屬于潛在價(jià)值比較大的文獻(xiàn)，算法能較準(zhǔn)確地將其挖掘出來(lái)。

表3 arXiv數(shù)據(jù)集預(yù)測(cè)排名前20位與真實(shí)排名比較Tab.3 Comparison of the predicted rank and the real rank of the Top20for arXiv data set

表4 APS預(yù)測(cè)前20名與真實(shí)排名比較Tab.4 Comparison of the predicted rank and the real rank of the Top20for APS data set

3 總結(jié)和討論

本文提出一種基于持續(xù)關(guān)注度衰減的重要論文預(yù)測(cè)算法（s－decay），該方法的優(yōu)點(diǎn)有：1）預(yù)測(cè)準(zhǔn)確性較高。對(duì)于預(yù)測(cè)排名靠前的論文未來(lái)被引情況，本文算法精確率高于FutureRank算法以及z－score值預(yù)測(cè)算法，只是預(yù)測(cè)PageRank值排序的全局相關(guān)度要稍遜于FutureRank算法；2）本文算法僅含有一個(gè)時(shí)間參數(shù)，且對(duì)參數(shù)不敏感；3）本文算法不需要處理作者等文本信息，僅僅依據(jù)論文隨時(shí)間變化的關(guān)注度進(jìn)行論文價(jià)值預(yù)測(cè)，對(duì)數(shù)據(jù)要求低，計(jì)算復(fù)雜度較低，適用于大規(guī)模數(shù)據(jù)集的處理；4）本文算法在兩個(gè)不同的數(shù)據(jù)集上表現(xiàn)效果也較穩(wěn)定。

本文綜合考慮論文被引趨勢(shì)呈現(xiàn)負(fù)指數(shù)衰減的特性和論文持續(xù)關(guān)注度蘊(yùn)含論文被引潛力的特性，提出基于持續(xù)關(guān)注度衰減的算法。該算法能較好地預(yù)測(cè)論文的未來(lái)被引排名，但由于算法通過(guò)論文過(guò)去一段時(shí)間的被引用情況來(lái)判斷其是否具有繼續(xù)被關(guān)注的潛力，所以論文必須有被引用的記錄，才能加以判斷。對(duì)一些剛剛發(fā)表的論文，由于沒(méi)有引用鏈接或者過(guò)少，對(duì)其的預(yù)測(cè)準(zhǔn)確性會(huì)大大降低。為此我們猜想是否可將論文所發(fā)表的期刊信息，論文所屬的研究領(lǐng)域等因素來(lái)預(yù)測(cè)論文未來(lái)的被引情況。此外，被引文獻(xiàn)來(lái)自于多個(gè)領(lǐng)域，從屬多個(gè)類型的論文和引文領(lǐng)域單一，類型單一的論文相比，在未來(lái)受到的關(guān)注將會(huì)更多，被引用潛力也相對(duì)更大，論文引文的“多樣性”也可作為研究論文潛在價(jià)值的重要依據(jù)。

［1］ Wang D，Song C，Barabási A L.Quantifying long－term scientific impact［J］.Science，2013，342（6154）：127－132.

［2］ Hirsch J E.An index to quantify an individual＇s scientific research output［J］.Proceedings of the National academy of Sciences of the United States of America，2005，102（46）：16569－16572.

［3］ Egghe L.Theory and practise of the g－index［J］.Scientometrics，2006，69（1）：131－152.

［4］ Ding Y，Yan E，F(xiàn)razho A，et al.PageRank for ranking authors in co－citation networks［J］.Journal of the American Society for Information Science and Technology，2009，60（11）：2229－2243.

［5］ Liu X，Bollen J，Nelson M L，et al.Co－authorship networks in the digital library research community［J］.Information Processing ＆ Management，2005，41（6）：1462－1480.

［6］ Medo M，Cimini G，Gualdi S.Temporal effects in the growth of networks［J］.Physical Review Letters，2011，107（23）：238701.

［7］ Berberich K，Vazirgiannis M，Weikum G.Time－aware authority ranking［J］.Internet Mathematics，2005，2（3）：301－332.

［8］ Walker D，Xie H，Yan K K，et al.Ranking scientific publications using a model of network traffic［J］.Journal of Statistical Mechanics：Theory and Experiment，2007，2007（06）：P06010.

［9］Zhou Y B，LüL，Li M.Quantifying the influence of scientists and their publications：distinguishing between prestige and popularity［J］.New Journal of Physics，2012，14（3）：033033.

［10］Yan E，Ding Y，Sugimoto C R.P－Rank：an indicator measuring prestige in heterogeneous scholarly networks［J］.Journal of the American Society for Information Science and Technology，2011，62（3）：467－477.

［11］Zhou D，Orshanskiy S A，Zha H，et al.Co－ranking authors and documents in a heterogeneous network［J］.IEEE International Conference on Data Mining，2007，739－744.

［12］Kleinberg J M.Authoritative sources in a hyperlinked environment［J］.Journal of the ACM （JACM），1999，46（5）：604－632.

［13］Shen H，Wang D，Song C，et al.Modeling and predicting popularity dynamics via reinforced poisson processes［J］.Eprint arXiv，2014：arXiv：1401.0778.

［14］Yan E，Ding Y.Weighted citation：an indicator of an article＇s prestige［J］.Journal of the American Society for Information Science and Technology，2010，61（8）：1635－1643.

［15］Sayyadi H，Getoor L.FutureRank：ranking scientific articles by predicting their future pagerank［J］.Proc of Siam International Conference on Data Mining，2009：533－544.

［16］Page L，Brin S，Motwani R，et al.The pageRank citation ranking：bringing order to the web［J］.Lecture Notes in Engineering，1998，9（1）：1－14.

［17］Radicchi F，F(xiàn)ortunato S，Vespignani A.Citation networks［J］.Understanding Complex Systems，2012：233－257.

［18］Wu Z X，Holme P.Modeling scientific－citation patterns and other triangle－rich acyclic networks［J］.Physicl Review E，2009，80（3）：037101.

［19］Newman M E J.Prediction of highly cited papers［J］.Earophysics Letters，2014，105（2）：28002－28007.

［20］Newman M E J.The first－mover advantage in scientific publication［J］.Europhysics Letters，2009，86（6）：68001.