文/徐萍
隨著互聯(lián)網(wǎng)技術的高速發(fā)展和普及,數(shù)字化成為科學論文傳播的一條重要途徑,文獻被引頻次、下載頻次、期刊影響因子、CI指數(shù)等指標在評價學術成果影響力等方面發(fā)揮了重要的作用。下載頻次與被引頻次作為文獻價值的集中體現(xiàn)方式一直受到學界的廣泛關注,有研究提出了利用下載頻次代替被引頻次來解決引文評價中時間的滯后性問題。[1-4]因此,下載頻次有望成為一個新的考量論文傳播和影響的指標。
以往的研究發(fā)現(xiàn)[5-12]:下載頻次與被引頻次(兩年后的)具有較強的相關性,文獻的被引頻次可以通過對應的下載頻次進行預測;可以用期刊的前期下載頻次借助回歸方程對其后期(兩年)的被引頻次進行估計;期刊的下載頻次與被引頻次高度正相關,且不是單純的線性相關關系。也有不少研究直接對被引頻次與下載頻次具有高度一致性這一說法進行否認,甚至否認兩者具有相關性:Andrew等對International Journal of Cardiology上2007年下載頻次和被引頻次最高的前25篇論文進行比較分析發(fā)現(xiàn),被引頻次與下載頻次并無明顯的關系,由此對 “將被引頻次作為評價論文影響力的決定性因素”提出了質疑;[13]杜秀杰等采用簡單線性相關系數(shù)判斷學術論文的被引頻次并不是簡單的與下載頻次成正比。[14]
如果兩者具有較強的相關性,是否直接可以利用下載頻次對被引頻次進行預測呢?有必要對兩者關系展開進一步深入探討。
資料來源:利用中國知網(wǎng)“中國引文數(shù)據(jù)庫”(http://ref.cnki.net.knsref/index.aspx)的高級檢索功能(檢索日期為2019年3月1日),在“檢索項”選擇“刊名”,“檢索詞”輸入“西南交通大學學報”,發(fā)布時間從2014—2018年的EI來源期刊,檢索學報2014—2018年刊登論文的下載和被引用情況,分別按下載頻次和被引頻次從大到小進行排序,將文章名、發(fā)表年份、下載頻次、被引頻次等相關信息導入到excel表格中進行數(shù)據(jù)分析。
文章的下載頻次和被引頻次是計量學評價體系中的兩個基本指標,在研究兩個隨機變量間的相互關系時,常使用數(shù)理統(tǒng)計學中的簡單線性相關系數(shù),具體公式為[15,16]
式中:r為簡單線性相關系數(shù);n為取樣數(shù)量;xi為被引用頻次;yi為下載頻次。
基于定量分析,探討下載頻次與被引頻次之間的相關性,利用相關系數(shù)判別數(shù)據(jù)的相關性大小,在分析相關性的基礎上,使用曲線估計初步確定下載頻次與被引頻次的函數(shù)關系曲線方程,主要是選出最佳的曲線模型,對下載頻次與被引頻次進行擬合。
表1 被引頻次和下載頻次TOP50論文數(shù)量分布情況 篇
對《西南交通大學學報》2014—2018年在知網(wǎng)上被引頻次、下載頻次TOP50論文的發(fā)表年份進行統(tǒng)計,結果如表1所示。由表1可知:被引頻次TOP50論文主要集中在2014—2016年,其中,以2014年最多(27篇,占比54%);2015年發(fā)表的論文數(shù)其次(15篇,占比30%);2017年和2018年發(fā)表的論文都沒有進入TOP50。下載頻次TOP50的論文集中在2014—2016年,分別占比32%左右,下載頻次TOP50的論文主要集中在論文發(fā)表后的3~5年。
下載頻次可反映上網(wǎng)論文的擴散速率, 是網(wǎng)絡環(huán)境下期刊傳播效率的一個新指標,論文下載量在第一時間反映了文獻的使用情況,在一定程度上反映了被使用但最終未被引用文獻的價值,相對論文被引頻次、下載頻次具有更強的時效性。
對《西南交通大學學報》2014—2018年在知網(wǎng)上下載頻次TOP25論文進行統(tǒng)計分析,結果如表2所示。下載頻次最多的為2015年發(fā)表的論文(4347次),對應的被引頻次為121次,其中,期刊論文和碩士論文的引用居多。下載頻次是2016年發(fā)表的排第二論文的2倍多。
表2 下載前25論文被引情況分析
下載頻次TOP25論文被引頻次和下載頻次相關性見圖1。相關系數(shù)R=0.431,關系式為yi=0.028xi+6.3127。由圖1可知:下載頻次主要集中在500~1000的范圍內,對應的被引頻次主要集中在60次以下,下載頻次在500~1000次時和被引頻次擬合度好,高于1000次時分布比較分散。
具體被引分布情況見圖2。由圖2可知:下載頻次TOP25的論文總被引頻次為854,其中,期刊論文引用412次,占比48.24%;博士論文引用64次,占比7.49%;碩士論文引用351次,占比41.10%;會議論文引用23次,占比2.69%。
圖1 下載頻次TOP25論文被引頻次和下載頻次相關性
圖2 下載頻次前25論文被引具體分布情況
對《西南交通大學學報》2014—2018年在知網(wǎng)上被引頻次TOP25論文進行統(tǒng)計分析,結果如表3所示。被引頻次最多的為2014年發(fā)表的論文(152次),對應的下載頻次為1459次,其中,期刊論文和碩士論文的引用居多。被引頻次與2015年發(fā)表的排第二的論文相差31次,但下載頻次卻相差了3000次左右。被引頻次TOP25的論文的被引頻次次數(shù)主要集中在20次左右。
被引頻次TOP25論文被引頻次和下載頻次相關性見圖3。相關系數(shù)R=0.458 3,關系式為yi=18.166xi+193.1。具體被引分布情況見圖4。由圖4可知:被引頻次主要集中在20次左右,對應的下載頻次主要集中在500次左右,被引頻次20次左右時和下載頻次擬合度好,大于20次時分布比較分散,擬合度差。
表3 被引頻次前25具體數(shù)據(jù)分析
圖3 被引頻次前25論文被引頻次與下載頻次相關性
圖4 被引頻次前25論文具體被引分散情況
具體被引分布情況見圖4。由圖2可知:被引頻次TOP25的論文總被引頻次為933,其中,期刊論文引用476次,占比51.01%;博士論文引用56次,占比6.00%;碩士論文引用386次,占比41.10%;會議論文引用25次,占比2.68%。
被引頻次是評價學術質量和影響力的重要指標, 從下載頻次可以直接看出文獻被讀者使用的情況,反映了論文被關注的程度, 但是,不是所有的下載都會被引用。根據(jù)本文的研究結果, 文章出版后3~5年下載頻次達到峰值,文章出版后4~5年被引頻次達到峰值, 而高引用和高下載存在時間差解釋了高下載和高被引論文年份不對應的現(xiàn)象。
論文下載頻次越高,受讀者關注的程度越高,被引用的幾率就會增大,通過下載頻次直接看出論文被讀者使用的情況,視為對論文學術價值的先期反映。文獻的被引頻次與其質量高度相關,論文被引用意味著研究成果得到發(fā)展或評價,被引頻次越高,效果越明顯。
人們通常認為論文的下載頻次與被引頻次正相關,即文章被下載得越多, 被引頻次也就越高。下載一篇文章后是否引用它要看它的內在質量。當然, 下載頻次與被引頻次之間擁有某些相關性,但不是完全的線性相關,在一定的下載頻次范圍內(本文對應的下載頻次為500~1000次)下載頻次與被引頻次是呈線性相關的,超過這個相關范圍后被引頻次和下載頻次相關性不大,所以,不能完全用下載頻次對后續(xù)的被引頻次進行預測。