,,,
學術論文是科研活動特別是基礎研究的重要產出成果,一定程度上反映了國家地區(qū)、機構和個人的科研水平[1]。論文是科研人員績效考核、職稱評定的重要指標之一[2],也是科技資源配置的重要參考之一,因此得到了科研管理人員和科研工作者的廣泛關注??陀^科學的論文評價對于激發(fā)科研工作者的積極性、合理配置科技資源和營造健康的學術環(huán)境具有重要意義。
論文評價主要有定性評價和定量評價兩種方法。定性評價的主流方法是同行評議,例如2002年由維特克·特拉茨(Vitek Tracz)創(chuàng)立的全球最大的醫(yī)學和生物學專家組成的F1000,具有很高的認可度[3]。但同行評議存在成本太高,評價標準主觀性強、隨意性大的問題[4]。目前常見的論文評價定量方法有以下幾種。
但葉繼元[4]等學者指出,期刊評價不等于論文評價,以期刊影響力、影響因子作為論文評價的標準不合理、不科學。
1.2.1 缺陷
該方法只是對論文被引次數進行簡單計數,存在以下3個缺陷。一是沒有考慮學科領域、出版時間等論文屬性會造成論文被引機會的不同,二是沒有考慮施引文獻的重要性區(qū)別,三是沒有考慮論文在引用網絡中的結構重要性。
1.2.2 改進方法
針對第一個問題,湯森路透(Thomson Reuters)基本科學指標數據庫(ESI)對學科、出版年份等進行標準化處理,提出相對影響力指標。也有學者基于ESI統計數據對高水平論文、不同領域熱點論文和高被引論文等進行分析[5-9],但其問題是學科分類的粒度較粗。針對第二個問題,劉昌來[10]等運用加權被引頻次,蘇成[11]等將PageRank運用到論文評價中,體現了施引文獻的重要性。針對第三個問題,邱均平[12]、劉蓓[13]和姜磊[14]等將社會網絡分析的方法運用到論文評價中,反映了論文在引文網絡結構中的重要程度,證明了社會網絡分析方法也適用論文引用網絡。
上述的改進方法一定程度上比被引頻次更合理,但也存在以下問題:ESI的相對影響力指標粒度較粗;缺少從窄主題出發(fā)評價論文的研究,論文評價應該放在一個比較窄的主題下才有意義,因為在一個大的領域中,不同主題的被引機會也是不同的,而且被同主題的論文引用的重要性也要大于被其他相關領域的論文引用,也就是說被“小同行”的認可更重要些;缺少從主題引用結構角度對不同算法的排序結果產生影響因素分析研究。為解決以上3個問題,本文以“雌性生殖力維持”這個窄主題為例,從被引頻次、相對影響力和中心度3方面進行論文的評價研究。
本文選用科學引文索引網絡擴展版(SCI-E)核心合集數據庫作為數據檢索源,基于生物生殖領域中“雌性生殖力維持”主題的研究熱點,抽出可表征主題所在領域的主題詞,并根據Mesh主題詞表擴充完善主題詞,完成對基本主題詞的構建,并不斷利用這些主題詞在Web of Science(WoS)平臺試檢、精煉,最后經過討論確定檢索式:TS= (meiosis or meiotic* or (genome* and oocyte*) or (folliculogenesis and effect gene?) or mitochondrial inheritance or (maternal to zygotic transition or MAZ) or polycystic ovary syndrome or POS or assisted reproducti*),檢索時間限定為2006年1月1日-2015年12月31日,文獻類型限定為Article和Review。
借鑒信息檢索結果評價經驗,從查全率、查準率兩個指標出發(fā),不斷迭代檢測,通過刪除噪音數據和補充遺漏數據,從而保證數據集覆蓋了研究主題的絕大部分論文,并且集中數據與該方向高度相關,最終得到“雌性生殖力維持”主題論文37 919篇。
2.2.1 方法
本文主要采用科學計量方法、社會網絡分析法和統計學方法,對論文的被引頻次、相對影響力、中介中心度和接近中心度等論文評價指標進行重合度和相關性分析,分析不同論文屬性對不同評價方法的影響,討論不同評價方法間的差異性和適用范圍。
2.2.2 指標
2.2.2.1 被引頻次
本文從Global視角、Local視角分析了論文的引用情況。Global被引是指論文在WoS數據庫中所有的被引頻次,Local被引是指論文在“雌性生殖力維持”主題中的被引頻次。
2.2.2.2 相對影響力
2.2.2.3 中心度
中心度是社會網絡分析的研究重點之一,可以反映個人或者組織在其社會網絡中的地位[15]。本文采用社會網絡分析方法中的中介中心度和接近中心度對論文在研究主題子網中的影響力進行測度。中介中心度表征了網絡中某論文作為一個節(jié)點在網絡中聯系其他兩個節(jié)點之間交往的能力,接近中心度表征了網絡中某論文作為一個節(jié)點在網絡的核心程度。
由于缺少如信息檢索領域的成熟標準的語料庫,因此如何判斷不同算法的論文評價排序結果優(yōu)劣成為一個難題。但對比不同方法得到的排序列表,至少可以分析不同算法間的差異、算法的適用范圍以及影響算法的因素。
37 919篇論文的Global最高被引頻次為8 193,篇均被引次數為24.0;Local最高被引頻次為477,篇均被引次數為5.4,大約為Global篇均被引的1/5。也就是說,從整體上看這些論文只有1/5的引用來自主題內論文,4/5的引用來自于非“雌性生殖力維持”主題。因此,我們認為,Global被引反映的是論文在全領域內的影響力,而Local被引反映的是論文在主題內的影響力,兩者既有聯系,也有區(qū)別。而在實際的論文評價工作中,Local被引的意義可能更大一些。
3.2.1 相關性分析
因為數據集中零被引論文占比達到38%,而用戶多關注高被引論文,所以我們不但計算了全部論文各種算法間的相關系數,也計算了Local被引頻次>0、≥5、≥10等數據集的各種算法間的相關系數(表1)。
表1 Global被引頻次、相對影響力和中心度排序結果Spearman相關系數
注:“**”為相關性在0.01級別顯著(雙尾)
研究表明,Local被引頻次越大的數據集,相對影響力和Global被引頻次相關系數增大,相對影響力和Local被引頻次的相關系數有增大趨勢,Global被引頻次、相對影響力、Local被引頻次與中心度之間、中介中心度和接近中心度的相關系數均下降。也就是說,Local被引頻次越大的數據集,相對影響力和Global被引頻次、相對影響力和Local被引頻次相關性越高,Global被引頻次、相對影響力、Local被引頻次分別與中心度之間,以及中介中心度和接近中心度的相關性越低。相對影響力、Global被引頻次和Local被引頻次都是基于論文被引次數的統計,中心度算法是基于主題內論文引用結構,基于相同內核的算法之間相關性越高,基于不同內核的算法之間相關性越低,即算法的內核決定了排序結果的相關性。
盡管基于不同算法內核的方法間存在差異,但總體上看,Global被引頻次、Local被引頻次、相對影響力、中介中心度和接近中心度兩兩之間均呈正相關關系。其中Local被引頻次大于0時,強相關的有:Global被引頻次分別和相對影響力、Local被引頻次、接近中心度之間,接近中心度和Local被引頻次;弱相關的有:Global被引頻次和中介中心度,相對影響力和接近中心度、中介中心度。
3.2.2 重合度分析
重合度可以測度不同數據間的相似程度。重合度計算公式如下:
其中A表示一種方法排序結果中TopN論文,B表示另一種方法排序結果中TopN論文,N表示選取的論文數??傮w來說,N越小,Global被引頻次和相對影響力的重合度有增大趨勢,評價結果一致性越高;Global被引頻次和相對影響力分別與中心度之間、中心度之間的重合度越低,即Top 20重合度 表2 不同方法Top 20、Top 100和Top 1000排序結果重合度 重合度高的有Global被引頻次與相對影響力,Global被引頻次與Local被引頻次,中介中心度和Local被引頻次,接近中心度與Local被引頻次,Top 1000重合度均大于30%;重合度低的有Global被引頻次和相對影響力分別和中介中心度、相對影響力和接近中心度、Top 1000重合度低均小于20%。Global被引頻次、相對影響力和Local被引頻次之間重合度高,中心度之間重合度高(表2)。 從重合度上不同方法可分為A、B兩組,A組為Global被引頻次、相對影響力和Local被引頻次,B組為Local被引頻次、中介中心度和接近中心度。兩組內方法之間的重合度較高,兩組方法之間的重合度較低。其中A組算法是基于論文被引次數的統計,B組算法是基于主題內論文引用結構,算法的內核決定了排序結果的重合度。因此,重合度的差異也反映了算法和評價內容的不同。 通過不同方法之間相關性和重合度可以看出,基于相同算法內核的方法之間相關性和重合度高,評價結果一致性高;基于不同算法內核的方法之間相關性和重合度低,評價結果差異性大。 3.2.3 引用結構對不同方法的結果影響 為了分析引用結構對不同算法排序結果的影響,我們對比分析了不同聚類的排序結果。聚類采用Gephi自帶的Community-detection算法,最終得到24個聚類。 我們還分析了聚類出度和入度、聚類鏈接數和聚類密度對算法的影響。聚類出度即聚類鏈出數,聚類入度即聚類鏈入數,聚類鏈接數即聚類出度和入度之和,聚類密度是聚類中論文實際連線和最大連線數的比值: 式中L=聚類中論文連線數,N=聚類中論文數。 24個聚類的文獻數均值為1 445,密度均值為0.0135。 聚類篇均接近中心度和中介中心度的均值分別為0.00174和0.00000154,聚類篇均入度、聚類篇均出度和聚類篇均鏈接數的均值分別為6.75、6.82和8.38。 聚類4和聚類6的聚類篇均接近中心度和中介中心度、聚類篇均入度、聚類篇均出度和聚類篇均鏈接數均排在前2位(表3)。 聚類4的主要研究內容是卵母細胞減數分裂,聚類6主要是雌性卵巢健康方面的研究。我們推測卵母細胞減數分裂和雌性卵巢健康可能是“雌性生殖力維持”窄主題研究的核心方向。 表3 聚類概況 注:*Cluout為聚類篇均出度,Cluin為聚類篇均入度,Clutc為聚類篇均鏈接數;中心度均為篇均數 總體上看,聚類篇均接近中心度和聚類篇均中介中心度分別和聚類篇均入度、聚類篇均出度、聚類篇均鏈接數之間,聚類文獻數和聚類篇均鏈接數之間均呈極強的正相關關系。聚類文獻數和聚類密度呈極強的反相關關系,即聚類文獻數量越多,聚類的密度越小,這是因為論文引用網絡是一個稀疏矩陣。聚類密度與聚類篇均接近中心度、聚類篇均中介中心度和聚類篇均鏈接數之間相關性不顯著,也就是說聚類密度與聚類的中介中心度、接近中心度和聚類鏈接數關系不明顯(表4)。 表4 聚類排序結果Spearman相關系數 注:*Cluout為聚類篇均出度,Cluin為聚類篇均入度,Clutc為聚類篇均鏈接數;“**”相關性在0.01級別顯著(雙尾)。 聚類篇均中心度和聚類篇均鏈接數相對位置如圖1所示。 圖1 聚類篇均中心度和聚類篇均鏈接數相對位置 橫坐標代表聚類篇均接近中心度,縱坐標代表聚類篇均中介中心度,點的直徑代表聚類篇均鏈接數,點內的數字代表聚類號。 圖1中的點基本分布在直線兩側,且較大的點集中在中介中心度和接近中心度較大的區(qū)域。也就是說,接近中心度、中介中心度和聚類篇均鏈接數存在線性相關的關系,與表4的相關性結果具有一致性。同理,經過驗證,聚類篇均入度和聚類篇均出度均和聚類篇均中介中心度和接近中心度呈現明顯的線性相關關系。 聚類篇均入度、聚類篇均出度、聚類篇均鏈接數和聚類篇均中介中心度、聚類篇均接近中心度之間相關性極強,線性相關關系明顯。同時,聚類篇均中介中心度和聚類篇均入度、聚類篇均出度、聚類篇均鏈接數之間的相關系數均大于聚類篇均接近中心度。也就是說聚類入度、聚類出度和聚類鏈接數對接近中心度和中介中心度影響大,但中介中心度影響程度更大。 3.2.4 排序結果靠前論文分析 根據搜索引擎調查表明,85%的用戶只看搜索結果的第1個頁面[16],也就是說用戶更關注檢索算法排名靠前的結果,說明排序靠前的結果更能滿足用戶需求。 同理,排序靠前的論文更重要、更受到關注,因此對排序結果靠前的論文進行分析,符合評價的實際需求。 Global被引頻次Top 20、Top 100、Top 1000論文Local被引頻次占比分別是1.36、2.45、9.51,Local被引頻次占比逐漸增多,最大占比小于10%,即超過90%的引用來自于其他主題論文。相對影響力Top 20、Top 100、Top 1000論文Local被引頻次占比均小于10%且Local被引頻次占比逐漸增多,與Global被引頻次具有一致性。與Global被引頻次和相對影響力情況相反,中心度Top 20、Top 100和Top 1000論文的Local被引頻次占比逐漸減少,最小占比大于22%,即1/5以上的引用來自于相關主題論文,與論文被引情況結果具有一致性(表5)。 Global被引頻次和相對影響力這兩種算法的Local被引頻次占比遠小于中介中心度、Local被引頻次和接近中心度算法。造成這種現象的原因可能是:前兩種算法是論文在WoS中的所有引用計數,一般來說,高被引論文因其影響力廣,存在馬太效應強,易得到更多的“大同行引用”;后3種算法是基于主題內引用網絡計算的,有利于Local被引頻次占比多的論文,與前兩種算法包含大量“大同行引用”不同的是,Local引用網絡更多的是“小同行引用”。前兩種算法,“大同行引用”多,影響力大,馬太效應強,可以認為影響的廣度大;后3種算法,“小同行引用”多,可以認為影響的深度大。 表5 不同方法Top 20、Top 100和Top 1000論文被引情況 注:*Gtc為Global被引頻次,Betw為中介中心度,Ltc為Local被引頻次,Clo為接近中心度 中介中心度Top 20論文的篇均入度(99)小于接近中心度的136,即相對中介中心度,接近中心度更有利于測度被引頻次更高的論文。中介中心度Top 20論文的篇均引用和論文出度均大于接近中心度,其中中介中心度Top 20論文的論文出度是接近中心度的5.41倍,差異最大(表6)。論文出度多,說明聯系主題內其他論文次數多,即出度多的論文中介中心度大。中介中心度Top 20論文50%來自聚類4和聚類6。接近中心度Top 20論文分布聚類相對分散。聚類4和聚類6是聚類篇均鏈接數排名前2的聚類,即中介中心度排名靠前論文集中在鏈接數多的聚類,接近中心度排名靠前論文分布相對分散。 表6 中介中心度和接近中心度Top 20論文 3.3.1發(fā)表時間對不同方法結果的影響 Global被引頻次和Local被引頻次Top 50論文85%以上發(fā)表時間在2006-2010年,接近中心度Top 50論文都發(fā)表于2006-2007年,其中86%集中在2006年;中介中心度Top 50論文中發(fā)表時間相對分散,近70%集中在中間段2008-2012年(表7)。對不同方法Top 50論文集中的發(fā)表時間從早到晚進行排序:接近中心度最早,Global被引頻次和Local被引頻次其次,中介中心度最晚。接近中心度Top 50論文發(fā)表時間集中程度遠高于其他方法,這可能是由于論文的引用是由新到老單向追溯的,論文發(fā)表時間越早,累積被引次數越多的可能性越大。因此接近中心度更有利于測度發(fā)表時間較早的論文。 表7 不同方法Top 50論文發(fā)表時間分布 注:*Global被引頻次、Local被引頻次排名中有并列,因此總數大于1000 3.3.2 論文文獻類型對不同方法結果的影響 37 919篇數據集中,Article論文33 194篇,占87.54%;Review論文4 725篇,占12.46%。Global被引頻次、Local被引頻次和接近中心度Top 20、Top 50和Top 1000 論文中的Review論文比例在17%-30%之間;其中,接近中心度排名靠前的論文中的Article論文占比大于Global被引頻次、Local被引頻次和接近中心度,一定程度上反映接近中心度更有利于測度Article論文。 中介中心度Top 20、Top 50論文中Review論文比例均大于60%,Top 1000論文的Review論文比例33.4%(表8)。 表8 不同方法Top20、Top50和Top1000文獻類型統計 與數據集Review論文占比12.46%相比,不同方法排序靠前的論文中Review占比較高,這與學術公認的Review論文被引頻次較高[17]具有一致性。 與Global被引頻次、Local被引頻次和接近中心度Top 20、Top 50和Top 1000 論文中Article論文占比多于Review論文相反,中介中心度Top 20、Top 50論文中Review論文占比多于Article論文,且排名越靠前的論文中Review論文占比越大。其原因可能是Review論文是對前人的實驗結果或某一研究成果的總結與評述[18],即對過去研究成果的匯總和歸納,因此Review論文引用相關主題內論文頻次多;對于主題內新的研究論文,Review論文也可以提供理論基礎,新論文對Review論文的引用機會多,因此Review論文對新老論文的聯系程度較高。中介中心度是測度論文在主題內的聯系程度,因此對文獻類型為Review的論文有較好的測度。 從結果上看,Global被引頻次測度的是總體的影響廣度,Local被引頻次測度的是窄主題的影響深度。相對影響力因為對時間和文獻類型進行標準化處理,一定程度上減少了時間和文獻類型對排序結果的影響。 中介中心度排序靠前的論文體現了3個集中特性:集中在鏈接數多的聚類中,集中在發(fā)表時間中間時間段,集中在文獻類型為Review論文中,因此中介中心度有利于發(fā)現窄主題內具有紐帶作用的核心論文,接近中心度有利于測度發(fā)表時間早的Article論文。 Global被引頻次、Local被引頻次和相對影響力是基于論文被引頻次統計的算法,中心度是基于主題論文引文結構的算法。通過相關性和重合度結果表明:基于相同算法內核的方法之間相關性和重合度高,評價結果一致性高;基于不同算法內核的方法之間相關性和重合度低,評價結果差異性大。 聚類入度、聚類出度、聚類鏈接數和中介中心度、接近中心度之間具有明顯的線性相關關系,線性關系強說明聚類入度、聚類出度、聚類鏈接數對中介中心度和接近中心度的影響大,一定程度上反映了結構對不同算法有影響。 因此在論文評價中,選擇測度角度與評價目的一致性高的評價方法,更有利于對論文進行科學合理地評價。如了解論文的影響廣度,選擇Global被引頻次更為合適;了解論文影響深度,選擇Local被引頻次更合適。如果對論文進行多角度評價,評價結果一致性高的方法中可以選擇其一,對于評價結果差異大的方法可以多選。不同的評價方法可從不同角度測度論文的影響力,運用不同方法進行論文評價時,要注意不同方法的適用性。接近中心度有利于測度發(fā)表時間較早的論文,中介中心度有利于測度出度多、發(fā)表時間處于中間段的Review論文。 本文選取的窄主題“雌性生殖力維持”屬于發(fā)展成熟的基礎學科,在新興的應用學科中不同方法間的排序結果如何,值得探索。時間窗口上,本研究選取了2006-2015年,存在選取的時間窗口更大會更有利于進行不同方法的對比研究的可能性。此外,本文的結果尚未得到專家的驗證,在今后的研究中可以結合定量和定性評價,保證結果的準確性。3.3 論文屬性對不同方法結果的影響
4 結論與討論