□方勝華 劉柏嵩
引文分析(Citation Analysis)是指采用各種數(shù)理統(tǒng)計和邏輯方法對文獻的引用頻率、模式和圖像進行計量研究[1],將文獻、著者、大學、國家以及其他感興趣的特征項作為分析對象,以便揭示其內在規(guī)律[2]。分析文獻的引用關系可以揭示出科研成果之間的聯(lián)系,發(fā)現(xiàn)學科熱點與前沿,預測學科的發(fā)展趨勢,遴選核心期刊、評價科研機構或國家的學術地位等。
作為信息計量學的子領域,引文分析的迅猛發(fā)展源于20世紀60年代科學引文索引(SCI)的誕生[3]。進入21世紀,Scoups、Google Scholar等新型數(shù)據(jù)庫工具的出現(xiàn)進一步豐富了引文研究的數(shù)據(jù)源,通過這些大規(guī)模的引文數(shù)據(jù),學者們可運用統(tǒng)計分析、線性代數(shù)、聚類算法等數(shù)理方法來分析和評價科研產(chǎn)出活動,與此同時,引文分析研究領域自身也形成了一系列新理念和新方法,如影響因子、皇冠指標、文獻耦合等。近年來,加權直接引用、VOS等新型方法工具的出現(xiàn)使引文分析研究成為國內外學者眼中一顆耀眼的明星。為此,本文以上述知識為基礎,綜述近年來引文分析在理論與實踐兩方面取得的研究進展,以供國內同行參考。
回顧引文分析的發(fā)展歷程不難發(fā)現(xiàn),基礎理論的研究都有力促進了領域的變革,豐富了引文分析的實踐來源,著名文獻計量學家Garfield、Persson、Small等對引文分析的基礎理論作出了杰出貢獻[4]。引文分析的基礎理論主要包括引文關系的相關概念和引文方法及其相關指標的研究。引文關系的研究是引文分析的基礎。廣泛使用的引文分析工具ISI Web of Knowledge數(shù)據(jù)庫、Bibexcel等均涉及多種引文關系。在引文基礎理論研究中,Small對引文關系進行了劃分,Small將引文關系劃分為直接引用(Direct Citation)、文獻耦合(Bibliographic Coupling)和同被引(Co-citation)等三種類型[5]如圖1所示。瑞典學者Persson在上述三種引文關系類型的基礎上,在最新的研究中引入共享引用(Shared References)和加權直接引用(Weighted Direct Citation)的概念,對引文關系的基礎理論進行了拓展。
圖1 引文關系的類型[6]
圖1表示一組引用數(shù)據(jù)集,圓和箭頭分別表示文獻和引用關系。記文獻A—E,M—P發(fā)表的時間分別為t1和t2(t1>t2)。若A引用 M,那么二者就構成直接引用關系。如文獻簇(A,M,N)。同理還有文獻簇(C,D,O),(E,P)。若兩篇或多篇文獻同時引用一篇文獻,其中施引文獻簇構成耦合關系,如文獻簇(C,D),若一篇文獻同時引用兩篇乃至多篇文獻,則這組文獻存在同被引關系。其中,施引文獻和被引文獻簇的集合稱為同被引(Co-citation Analysis),亦稱共引,如文獻簇(A,M,N);被引文獻簇表示共引聚類(Co-citation Clusters),如文獻簇(M,N)。
共享引用是指文獻耦合中的被引文獻簇,如圖1中耦合文獻簇(C,D,O)中的文獻O。Persson綜合直接引用、共享引用和同被引三種引文關系類型提出了加權直接引用的理論方法[7],所謂加權直接引用,是指將共享引用和同被引兩種情形與直接引用整合,使之成為一個新的引用強度,Persson把它稱為加權直接引用(Weight Direct Citations,縮寫WDC)。其測量可用圖2解釋:由于A和B引用C,所以文獻簇A和B對于C來講,是耦合關系;同時D引用A和B,文獻簇(D,A,B)是同被引關系,綜合這兩種關系,A到B的直接引用鏈接被加強。假設對每一種關系計分為1分,那么,在這個集合中,對于AB的加權直接引用得分為3。如圖2所示。
圖2 加權直接引用
加權直接引用理論在引文分析應用實踐中具有重要作用。以探測研究前沿為例,它有利于更加理性看待直接引用、文獻耦合和同被引在探測研究前沿方面的作用。Shibata研究認為[8],直接引用較同被引探測研究前沿更理想,主要原因是同被引需要一定的時間才能體現(xiàn)出來。Persson認同Shibata的觀點,同時又認為,共享引用和同被引均能夠對前沿探測產(chǎn)生重要的影響,這是因為論文的參考文獻會隨著引證文獻主題的相似發(fā)生相當大的變化,直接引用鏈接越多,基于相似性產(chǎn)生共享引用和頻繁被引的可能性越大。因此在探測研究前沿方面要對共享引用和同被引進行加權。引入加權直接引用,有利于在研究前沿中探測有意義的子領域。加權直接引用的方法已經(jīng)用于Persson所開發(fā)的著名引文分析軟件Bibexcel中。
引文分析研究方法是引文分析中的核心?;仡櫼姆治龅拿恳淮伟l(fā)展,引文分析研究方法都對引文分析有著顯著的促進作用。引文分析研究方法一般由引文分析工具、引文分析流程、引文分析指標等構成。例如,文獻耦合的流程可概括為圖3所示:
圖3 文獻耦合的流程
基于文獻數(shù)據(jù)建立科學圖譜的研究方法可直觀地發(fā)現(xiàn)文獻中的各種現(xiàn)象,從而總結引文規(guī)律。多維尺度分析、可視化分析等分析手段均是引文分析中的科學圖譜分析方法。荷蘭萊頓大學Van Eck等人在多維尺度分析(Multidemensional Scaling,縮寫MDS)的基礎上提出了一種新的文獻計量地圖技術 VOS(Visualization of Similarity)[9]。多維尺度法是運用壓力函數(shù)(Stress Function)將多維空間的研究對象(樣本或變量)簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關系的數(shù)據(jù)分析方法。VOS方法是對MDS壓力函數(shù)的加權,較多維尺度法基于鄰近指數(shù)和余弦方程產(chǎn)生的MDSAS和 MDS-COS方法,COS在聚合度和區(qū)分度兩種關鍵評價指標上均要優(yōu)于多維尺度法。
Van Eck選取情報學中的作者共引、社會學期刊的期刊共引和運籌學領域的關鍵詞共現(xiàn)三種數(shù)據(jù)集,分別采用 MDS-AS、MDS-COS和 VOS三種方法進行實驗,其結果如下圖所示:
圖4 采用MDS-AS、MDS-COS和VOS三種方法進行實驗的結果
由上圖看出,VOS方法在三種領域均有較好的聚合度和區(qū)分度,明顯優(yōu)于MDS。為了配合VOS在實踐中的推廣應用,Van Eck于2010年推出了開源軟件VOSviewer供學者使用,可到網(wǎng)上下載開源軟件包[10]。
近年來納米學科的結構是怎樣的?該結構中的主要板塊是什么?其中有哪些研究領域/專家?這些類似的問題在不同學科經(jīng)常引起學者的關注。引文分析自產(chǎn)生以來就對學科結構的揭示進行了研究,常用的方法有:聚類、多變量因子、主成分分析[11]等。2009 年,Ibekwe-SanJuan運用文本分析軟件Term Watch和網(wǎng)絡可視化軟件pajek繪制了情報學的結構[12]。Chen Chaomei等人則從情報學知識圖譜的動態(tài)視角運用多視角共引分析法解析共引網(wǎng)絡的動態(tài)屬性[13]。
Chen Chaomei選取情報學領域1996-2008年間12種著名期刊所發(fā)表的論文,運用Citespace軟件繪制了作者共引分析(Author Co-citation Analysis,ACA)和文獻共引分析(Documentation Co-citation Analysis,DCA)可視化知識圖譜,分別對兩種地圖從結構、時態(tài)、語義模式以及共引聚類的引用與被引項進行解析識別情報學的學科結構和專家。較Ibekwe-SanJuan在2009年的研究,Chen Chaomei等人討論了被引參考文獻的結構模式,在揭示文獻間的隱含信息方面推進了一步。
在科學研究中,研究前沿對于科研人員捕捉創(chuàng)新思想,占領學科制高點有著不可估量的作用,運用引文分析來探測研究前沿也就成為引文分析應用研究最活躍的領域之一。荷蘭[14]、美國、瑞典、日本等國學者都在此方面作出了重要貢獻。近年來引文分析在研究前沿的探測應用研究方面有進一步加強的趨勢。
確定研究前沿是建立在對研究前沿概念界定的基礎上的。研究前沿至今尚無統(tǒng)一的定義,較具代表性的觀點可分為三種派別:一種是以瑞典學者Persson為代表的施引文獻派別:即將一組高被引文獻簇的施引文獻作為研究前沿;一種是以Price和Small為代表的高被引文獻簇派別:即將特定領域內被新近發(fā)表的論文引用的早期高被引文獻作為研究前沿;一種是以Chen Chaomei為代表的以突發(fā)熱點主題稱為研究前沿的突發(fā)熱點派別。不同的流派在分析方法上各有不同。如表1所示:
表1 研究前沿的派別[15-16]
上述三種派別充分體現(xiàn)了研究前沿定義的爭議性。但是,這并不妨礙學者對不同學科研究前沿的揭示。從發(fā)表的文獻來看,文獻計量學界運用引文分析探測研究前沿依據(jù)學科特點的不同,一般綜合了上述三類派別的觀點。在研究前沿的認定上,需要結合相關的評價指標進行綜合研究。2009年,日本東京大學Shibata等人在分析研究前沿時提出了能見度、平均出版年和密度(拓撲相關性)三種指標[17]。能見度是對文獻簇進行歸一化處理后的文獻簇大小。文獻簇越大,越容易辨別前沿文獻簇與普通文獻簇之間的分布;平均出版年更小,意味著文獻簇可更快地被探測到前沿文獻簇包括的核心論文;文獻簇越密集反映出文獻簇形成的核心文獻群更具價值,故研究前沿是那些平均出版年越小探測到范圍更大和文獻更集中的文獻簇,Shibata等人將此定義為最佳引用類型。該研究選取氮化鉀、復雜網(wǎng)絡和碳納米管三個不同研究領域,對每一個領域分別建立直接引用、文獻耦合和同被引三種引用網(wǎng)絡進行比較。研究發(fā)現(xiàn),直接引用能夠探測大量和新近出現(xiàn)的早期聚類,在探測研究前沿具有最好的表現(xiàn)。同被引效果最差。研究還發(fā)現(xiàn)直接引用網(wǎng)絡的聚類系數(shù)(clustering coefficient)最大,反映出直接引用所測出的論文內容相似度最好。
如第1節(jié)所述,Persson認同Shibata的研究結論,同時又認為共享引用和同被引也對研究前沿產(chǎn)生一定的影響,但是其影響較直接引用而言要小。因此,對直接引用網(wǎng)絡進行策略上的優(yōu)化,Perssson引入加權直接引用的概念。如圖2所示。Persson對直接引用、共享引用和同被引賦予不同的權重值。與此同時,可能存在論文引用形式不一致的情況:比如有的論文共享引用更多,有的論文同被引情形更多。為了區(qū)分這一情況,對共享引用和同被引要進行歸一化處理。例如:如果C受到10篇文獻引用它,即共享引用為10,那么1/10即是C的歸一共享引用值。D引用5篇論文,歸一化共引值為1/5。最后A到B的歸一化加權直接引用值為1+1/10+1/5=1.3。
通過設置加權直接引用,形成新的直接引用網(wǎng)絡,在探測研究前沿時要通過設置引文鏈接強度閾值去除不達標的鏈接。對于沒有被引用或很少引用的論文可直接排除。同時,可去除重復作者集定義的自引鏈接,以避免論文的聚類被相同的作者或相同集合所統(tǒng)治。
較Shibata的研究而言,Persson是對前述研究的深化。研究表明,用共享引用和同被引作為直接引用強度的加權是剖析論文網(wǎng)絡的有效工具。設定閥值對于研究結果有著重要的影響。由于網(wǎng)絡的復雜度很高,提高閾值將導致更多的論文不被納入計算范圍,從而影響結果及對結論的分析。
2009年普賴斯獎得主,匈牙利科學家Vinkler P認為 “指標是科學計量學和文獻計量學的本質”[18]。Garfield的影響因子、荷蘭萊頓大學的王冠指數(shù)、美國學者Hirsh的h指數(shù)等指標的產(chǎn)生引發(fā)了評價科研績效的革命。指標不僅可以作為對外部對象評價的方法,還可以評價引文分析方法本身,它們共同構成了引文分析指標的兩種應用類型。例如,Shibata運用能見度、平均出版年和拓撲相關性三種指標確定最佳引用模型。Boyack和Klavans運用文本一致性和向心度兩個指標來衡量直接引用、文獻耦合和同被引揭示生物醫(yī)學領域的研究前沿[19]。
王冠指數(shù)是一個世界平均水平相比較的相對指標,在科研績效評價中有著重要的影響。湯姆森路透對諾貝爾獎獲得者的王冠指數(shù)研究發(fā)現(xiàn),他們中的絕大部分王冠指數(shù)較高,以至于王冠指數(shù)成為預測新一年是否獲諾獎的風向標。2010年,Opthof T和Leydesdorff L對王冠指數(shù)進行了修正,提出了卡羅林卡指數(shù)(Karolinska Indicator)[20]。
卡羅林卡指數(shù)(Mean Normalized Citation Score,MNCS)是在王冠指數(shù)的基礎上得出的新指標,其數(shù)學意義表示所有科研領域論文被引次數(shù)與領域被引次數(shù)比值之和的平均值,用公式表示為:
與卡羅林卡指數(shù)相比較而言,傳統(tǒng)的王冠指數(shù)表示論文篇均被引次數(shù)與評價對象在不同科研活動領域篇均被引次數(shù)世界平均值的均值CPP/FCSm,其用公式表示是:
通過比較公式可以發(fā)現(xiàn),王冠指數(shù)代表的是平均值的比例(a ratio of averages,Ro A),而卡羅林卡指數(shù)所代表的是比例的平均值(an average of ratios,Ao R)。王冠指標由于通過更高的引用數(shù)量對所有領域和期刊賦予更多的權重,而新指標則賦予等同的權重,這樣在結論上更為客觀。
綜上所述,筆者從引文分析的基礎理論、引文分析的研究方法、引文分析的研究前沿探測應用和引文分析指標四個領域闡述了國外著名學者近兩年來的重要進展。這些介紹只是引文分析近年來發(fā)展的一個側面。結合國際上科學計量學的實踐進展,筆者認為,我國學者可在下列領域深化引文分析研究:
其一,加強對引文分析方法的研究。我國學者在引文分析研究方面主要是采用國外學者的工具和方法,基本還處于引進消化階段,不能做到與國際引文分析方法的同步。但是,縱觀國外學者近年來的研究,引文分析方法的革新在學科發(fā)展中處于核心地位。例如,對引文網(wǎng)絡和引證網(wǎng)絡的處理問題。在研究前沿的揭示中,即使選擇一個較窄的學科,其結點和鏈接會相對減少,但要能夠做到識別、閱讀、明確傳統(tǒng)與新興研究主題,這樣產(chǎn)生了評價指標的需求和閥值的設定。與聚集結構(例如,作者、期刊、機構)相比,論文引證網(wǎng)絡通常更為復雜。這些有待我們進一步研究。
其二,加強對重要指標的修正研究。王冠指數(shù)、影響因子是引文分析中最重要的兩個指標。近年來,國際上對王冠指數(shù)和影響因子都提出了不同的見解,著名學者Leydesdorff、Rousseau等對此進行了研究并取得了重要成果。與此同時,H指數(shù)對應的修正——H型指數(shù)的研究持續(xù)不斷。為此,我國學者在此方面應給予加強。
其三,加強對新興方法和指標的實證研究。在對新興理論研究進行跟蹤的同時,要注意加強對這些方法的實證研究。中科院、浙江大學等科研機構走在了前列。其他機構有待加強。
參考資料
1 Garfield,E.Citation Indexing—Its Theory and Application in Science,Technology and Humanities.Philadelphia:ISI Press,1983
2 邱均平.信息計量學.武漢:武漢大學出版社,2007
3 龐景安.科學計量研究方法論.北京:科學技術文獻出版社,2002
4 Rousseau R.Journal evaluation:Technical and practical issues.Library Trends,2002,50(3):418-439
5 Small H.Update on science mapping:Creating large document spaces.Scientometrics,1997,38(2):275-293
6 Boyack KW,Klavans R.Co-Citation Analysis,Bibliographic Coupling,and Direct Citation:Which Citation Approach Represents the Research Front Most Accurately?Journal of the American Society for Information Science and Technology,2010,61(12):2389-2404
7 Persson O.Identifying research themes with weighted direct citation links.Journal of Informetrics,2010,4(3):415-422
8 Shibata N,Kajikawa Y,Takeda Y,et al.Comparative Study on Methods of Detecting Research Fronts Using Different Types of Citation.Journal of the American Society for Information Science and Technology,2009,60(3):571-580
9 Van Eck N J,Waltman L,Dekker R,et al.A comparison of two techniques for bibliometric mapping:Multidimensional scaling and VOS.Journal of the American Society for Information Science and Technology.2010,61(12):2405–2416
10 http://www.vosviewer.com/
11 Morris S A,Van der Veer Martens B.Annual Review of Information Science and Technology.2008,42:213-295
12 Ibekwe-SanJuan F.Information Science in the web era:A termbased approach to domain mapping.Proceedings of the American Society for Information Science and Technology.2009,46(1):1-23
13 Chen C M,Ibekwe-SanJuan F,Hou J H.The Structure and Dynamics of Cocitation Clusters:A Multiple-Perspective Cocitation Analysis.Journal of the American Society for Information Science and Technology.2010,61(7):1386-1409
14 Leydesdorff L,Opthof T.Remaining problems with the“New Crown Indicator”(MNCS)of the CWTS.Journal of Informetrics,2011,5(1):224-225
15 Persson O.The intellectual base and research fronts of JASIS 1986-1990.Journal of the American Society for Information Science,1994,45,(1):31-38
16 Small,H.Co-citation in the scientific literature:A new measure of the relationship between two documents.Journal of the A-merican Society for Information Science 24(4):265-269.
17 Shibata N,Kajikawa Y,Takeda Y,et al.Comparative Study on Methods of Detecting Research Fronts Using Different Types of Citation.Journal of the American Society for Information Science and Technology,2009,60(3):571-580
18 Vinkler P.Indicators are the essence of scientometrics and bibliometrics.Scientometrics,85(3):861-866
19 Boyack K W,Klavans R.Co-Citation Analysis,Bibliographic Coupling,and Direct Citation:Which Citation Approach Represents the Research Front Most Accurately?Journal of The A-merican Society for information Science and Technology.2010,61(12):2389-2404
20 Opthof T,Leydesdorff L.Caveats for the journal and field normalizations in the CWTS (“Leiden”)evaluations of research performance.Journal of Informetrics,2010,4(3):423-430