FRANCIS Narin 欒春娟 胡志剛
關鍵詞:文獻計量指標;施引側(cè);被引側(cè);引文分析;實用性;及時性
中圖分類號:G306;N18 文獻標識碼:A DOI:10.3969/j.issn.1003-8256.2023.06.007
0 引言
探索施引側(cè)文獻計量指標的設置、優(yōu)勢與應用,有助于推動文獻計量學學科與時俱進發(fā)展,使其更好地為政策制定和科學評價服務。施引側(cè)文獻計量指標是否更具有優(yōu)勢和應用價值?傳統(tǒng)的文獻計量指標基本上都是從被引側(cè)(cited side)設置和應用的,這根源于其產(chǎn)生的歷史,受制于當時的科學技術(shù)發(fā)展水平。隨著科學技術(shù)突飛猛進的發(fā)展,尤其是計算能力的大大提升,我們提出文獻計量指標的設置和應用應該由被引側(cè)轉(zhuǎn)向施引側(cè)(citing side)。基于當前年份、施引側(cè)的文獻計量指標,不僅能夠給我們帶來更多的科學洞見,同時對政府考核與評價目標的實現(xiàn)、科學共同體的學術(shù)研究與學術(shù)評價,也具有更重要的理論意義和實踐意義。
施引側(cè)文獻計量指標強調(diào)當前年份,這樣做時效性更強,與政策問題更相關。當前幾乎所有的文獻計量研究都是從被引的角度來做分析的。比如,分析師通常會問這樣的問題:2015年發(fā)表的、被引用次數(shù)最多的化學論文是哪篇?然而,我們認為,無論就政策方面還是應用方面,一個更相關的問題,都應該從當前年份的、施引側(cè)的角度提出。比如,2021年發(fā)表的論文施引最多的化學論文是哪篇?類似的,2021年發(fā)表的論文施引最多的作者是哪位?2021年發(fā)表的論文施引文獻的高頻關鍵詞有哪些?等等。不難發(fā)現(xiàn),施引側(cè)的文獻計量指標,更有利于科學評價和對研究前沿的追蹤。
1 國內(nèi)外研究進展述評
1.1 關于被引側(cè)文獻計量指標的研究
被引側(cè)文獻計量指標的相關研究成果,主要集中于對以下知識單元的分析:被引文獻(cited references)、被引期刊(cited journal)、被引作者(cited author)、被引機構(gòu)(cited organization)和被引國家(cited country)等??茖W文獻發(fā)表之后,大部分文獻不會得到學者的引證,只有少數(shù)會被引證,高被引文獻更是鳳毛麟角。在科學出版物日益增長而科學家的時間和精力非常有限的情況下,高被引文獻常常被視為一個學科或研究領域的經(jīng)典文獻,進而被研究人員更多地閱讀甚至引用[1- 2]。揭示科學文獻在學術(shù)期刊集中與離散分布的布拉德福定律(Law of Bradford),早在20世紀30年代初就已經(jīng)被科學家確認了。該定律將刊載某學科專業(yè)論文的期刊劃分為核心區(qū)、相關區(qū)和非相關區(qū),各個區(qū)的文章數(shù)量幾乎相等,此時核心區(qū)、相關區(qū)、非相關區(qū)期刊數(shù)量的比例為1∶n∶n2(n>1)的關系[3]。學科專業(yè)論文在學術(shù)期刊集中-分散分布的規(guī)律,揭示了少量的核心期刊刊載了大量學科專業(yè)論文的規(guī)律。期刊共被引分析(co-citedjournal analysis,CJA)方法被廣泛應用于某一研究領域的核心期刊識別[4- 5];高被引期刊往往被視為一個學科或研究領域的核心期刊。核心期刊的甄別,為科研人員和圖書資料建設單位節(jié)約時間、節(jié)省經(jīng)費、提高文獻信息服務質(zhì)量提供了重要的科學決策支撐。
隨著科學的發(fā)展,對科學家評價的方法與指標也在不斷演進。早期時候,科學家發(fā)表論文的數(shù)量指標常常被用來評價科學家影響力的大?。?]。但后來,人們逐漸認識到,與科學家發(fā)表論文的數(shù)量指標相比較,科學家被引用的頻次更能夠反映其影響力的大?。?]。于是,對被引作者的檢索和分析開始流行起來,高被引作者常常被視為一個學科或研究領域的核心人物[8]。類似地,學者們也常常采用機構(gòu)共被引分析方法與國家共被引分析方法,來識別具有較高影響力的高被引機構(gòu)與高被引國家[6];也有一些科學評價機構(gòu)直接通過被引側(cè)的被引頻次等檢索結(jié)果,來判別具有較高學術(shù)影響力的機構(gòu)或國家[9]。
1.2 關于施引側(cè)文獻計量指標的研究
施引側(cè)文獻計量指標的研究成果,主要集中于探索研究前沿熱點主題、高產(chǎn)機構(gòu)、高產(chǎn)作者、科學合作等方面,而這些方面的研究又往往基于施引側(cè)文獻中知識單元的共現(xiàn)分析方法。一個學科或研究領域的前沿熱點主題,總是受到研究人員的關注和追蹤[10-12]。學者們常常基于CiteSpace、VOSviewer 等可視化分析軟件[13-14],采用關鍵詞共現(xiàn)分析[15-16]、專業(yè)術(shù)語的突變分析[11]、主題詞詞頻變動趨勢檢測[17]等方法,進行研究前沿或研究熱點主題的探測分析。高產(chǎn)機構(gòu)常常被認為擁有雄厚的研究實力,并且科研成果產(chǎn)出豐碩;高產(chǎn)機構(gòu)可以在當前幾乎所有數(shù)據(jù)庫中檢索得到[18-19]。高產(chǎn)作者是一段時期內(nèi)或者長期發(fā)表活躍的作者;在當前幾乎所有數(shù)據(jù)庫中,都可以依據(jù)作者排序篩選出高產(chǎn)作者[20-21]??茖W合作逐漸成為科學研究的主流趨勢。有學者專門對諾貝爾獎獲得者進行過分析,發(fā)現(xiàn)有三分之二的獲獎者是與其他科學家合作完成的獲獎成果[22]。施引側(cè)的文獻耦合分析方法,針對施引文獻中的作者、機構(gòu)、國家等不同知識單元,可以進行作者合作[23]、機構(gòu)合作[24]和國家合作[25]的分析研究。
1.3 研究評述
當前包括Web of Science在內(nèi)的幾乎所有數(shù)據(jù)庫都是從被引側(cè)設置的文獻計量指標。學者們的研究也多數(shù)是基于被引側(cè)進行的。雖然也有施引側(cè)的研究成果[26-28],但我們尚未發(fā)現(xiàn)正式提出文獻計量由被引側(cè)轉(zhuǎn)向施引側(cè)的學術(shù)觀點。本研究提出,在當前的科學技術(shù)發(fā)展高度上,是時候?qū)⑽墨I計量指標由被引側(cè)轉(zhuǎn)向施引側(cè)了;并論證施引側(cè)文獻計量指標設置的可行性、優(yōu)勢與應用。采用施引側(cè)的文獻計量指標更實用、更及時,將更有利于實現(xiàn)其政策制定和科研評價的宗旨,發(fā)揮其優(yōu)勢,推動科學技術(shù)的進步和發(fā)展,為相關決策者提供支撐。
2 被引側(cè)文獻計量指標的起源、目的與歷史環(huán)境
2.1 被引側(cè)指標的起源
從歷史上看,尤金·加菲爾德(Eugene Garfield)在開發(fā)科學引文搜索工具時,是以法律搜索工具謝潑德引文(Shepard's Citations)為模型的。謝潑德引文是一套自1873年在美國出版的、美國最高法院和各州高級法院的案例索引,早期為印刷的法律案例匯編版本[29-30]。該套索引方便查找相關案例中援引(引用的意思)的案件、法庭判決與法律條款,并追蹤這些援引是否被另一個法院準許、辨別、推翻或另作解釋。謝潑德引文是被引側(cè)導向的(a cited side orientation),即以早期被引用的案例為起點。謝潑德引文產(chǎn)生的原因,是因為美國是實行判例法的國家,“遵循先例”是法官審判案件的基本原則。具體地說,法官審判案件的時候,需要查看之前美國最高法院和各州高級法院的案例,本著“相同情況相同處理,類似情況類似處理”的原則,即遵循先例的原則,對本案件進行審理和判決。判例法制度保證了判決的一致性,具有其自身的特點和長處。類似的,起初印刷版本的科學引文索引(Science Citation Index,SCI),列出了所有施引某個特定被引論文的論文[31],從而能夠讓我們基于某個特定的被引論文追蹤科學大廈的興起與發(fā)展軌跡。
2.2 被引側(cè)指標的目的
需要指出的是,文獻計量學指標包括引文分析指標,最初是為政策目的而提出的。第一套重要的指標出現(xiàn)在1972 年提交給美國總統(tǒng)的《科學指標》(Science Indicators 1972)報告中:“這項工作的最終目標是建立一套指標,這些指標將根據(jù)企業(yè)為國家目標做出貢獻的能力和表現(xiàn),揭示美國科學和技術(shù)的優(yōu)勢和劣勢”[32-33]。由此可見,提出文獻計量指標的目的,是為了查清對國家發(fā)展目標來說科學的貢獻有多大。文獻計量指標是具有實踐意義的,因此,任何使之更容易實現(xiàn)其目的的公式或算法改進等,肯定是受歡迎的。
2.3 被引側(cè)指標產(chǎn)生的歷史條件與發(fā)展
傳統(tǒng)的文獻計量指標大多數(shù)之所以基于被引側(cè)的視角,這既源于它們的歷史起源,也歸因于20世紀60—70年代科學技術(shù)的發(fā)展水平,尤其是當時計算能力的限制,當時正式的文獻計量學剛剛出現(xiàn),尚處于萌芽階段。
在計算方面,謝潑德引文的開發(fā)早在計算機發(fā)明之前,而最初的SCI是在1955年提出的[34],早在計算機被廣泛使用或非常強大之前。事實上,1972 年由CHI研究公司(Computer Horizons,Inc.)為《科學指標》開發(fā)的第一套文獻計量指標,并不是基于對單個論文的精確引用匹配,而是基于對期刊間引用的分析,從SCI中提取期刊引用索引。直到后來的《科學指標》報告,CHI才有可能通過計算來處理現(xiàn)在已被計算機化的SCI磁帶,并根據(jù)論文引用的精確匹配和被引用作者所在國家和機構(gòu)的精確識別,開發(fā)出國家績效統(tǒng)計數(shù)據(jù)。所有后來的《科學指標》報告(現(xiàn)在稱為《科學與工程指標》)中使用的文獻計量指標直到今天仍然很大程度上基于被引年份(cited year)。
3 施引側(cè)文獻計量指標的設置、優(yōu)勢與應用
3.1 施引側(cè)指標設置的可行性及優(yōu)勢
基于當前年份的、施引側(cè)的文獻計量指標有兩個重要屬性:穩(wěn)定性(stability)和及時性(timeliness)。轉(zhuǎn)換為施引側(cè)指標后,相關數(shù)據(jù)庫,比如Scopus 和Web ofScience這樣的主要數(shù)據(jù)庫,將在它們的算法中添加施引年搜索(citing year search)。添加之后,他們將最近年份,比如2021年,發(fā)表的論文添加到數(shù)據(jù)庫中。然后根據(jù)2021年發(fā)表論文的引證數(shù)據(jù),就可以確定2021年發(fā)表的論文引用最多的是哪些國家/地區(qū)、哪些機構(gòu)、哪些作者、哪些論文、哪些學科、哪些主題詞,等等。即添加了施引年搜索后,就能夠檢索出施引側(cè)相關的排序結(jié)果;這些施引側(cè)的檢索結(jié)果是最終的、確定的結(jié)果。基本流程如圖1所示。
圖1中,選擇檢索字段“施引年”,可以在檢索框中輸入最近的年份,比如2021年,而后得到檢索結(jié)果。檢索結(jié)果可以有多種排序方式:國家/地區(qū)、機構(gòu)、作者、文獻、學科、主題詞等等。檢索結(jié)果可以進一步精煉,比如,如果想了解物理學科的情況,就可以將其精煉,進一步了解2021 年物理學科施引論文主要來自于哪些國家、機構(gòu)等。
3.2 施引側(cè)指標的應用場景與先例
轉(zhuǎn)換為施引側(cè)的、施引年搜索,能帶來一系列積極的效果。比如,2021年人工智能領域施引的全部文獻的國家排序、機構(gòu)排序、作者排序、文獻排序等;或者表現(xiàn)突出的前百分之十的國家和機構(gòu)等。這些結(jié)果都是最新的、并且只需要為每個施引年計算一次的結(jié)果。它們的時效性將使它們對政策目的更有用,因為它們在形式上將類似于大多數(shù)決策者和政治家所熟悉的普通經(jīng)濟指標。
轉(zhuǎn)換到施引側(cè)的文獻計量指標,將帶來許多新的洞見,而且具有較強時效性。比如,一個施引年(citingyear)的H指數(shù)——一位科學家H篇論文被任何施引年份發(fā)表的論文引用至少H次的數(shù)值。這樣計算的結(jié)果,將提供一個精確的時間序列,清楚地顯示該科學家對當代科學影響的出現(xiàn)、上升、高峰和衰退。另一個新的指標是“科學周期時間(science cycle time)”,即被任一施引年所引用論文的中位數(shù)年齡,用來衡量一個機構(gòu)或科學家論文的影響力的時效性。
施引側(cè)指標是有應用先例的,它們在CHI的專利引用活動研究中曾經(jīng)被采用,例如技術(shù)時間線圖譜(techlineprofile)[35]和技術(shù)周期時間(technology cycle time)。技術(shù)時間線圖譜是被CHI公司采用的、描述公司專利組合特征的當前影響指數(shù)(current impact index),該指數(shù)是指一個公司最近五年的專利在本年度被引用的標準化比率。技術(shù)周期時間即被該公司當前專利施引的專利年齡的中位數(shù)。如果是基于之前的3~5年被引側(cè)數(shù)據(jù),CHI將很難向其企業(yè)客戶提供其競爭對手的資料。在CHI的財務模型中,這些當前的、施引年份指標的時效性更為重要,它們對股票績效的預測相當成功,因為這些模型可以識別出股價似乎低于其技術(shù)價值的公司[36]。顯然,在預測股票市值時,時效性是至關重要的。
3.3 施引側(cè)指標的應用實例
為了更清晰地展示施引側(cè)指標的應用,我們選擇全新大型文獻索引系統(tǒng)OpenAlex,根據(jù)《自然》新聞報道,OpenAlex 是一個包含2 億余份科學文獻的索引平臺,該索引的目標是建立一個文獻之間相互關聯(lián)的全球研究系統(tǒng)數(shù)據(jù)庫?;贠penAlex數(shù)據(jù)集,分別查詢發(fā)表于2013年、2015年、2017年、2019年和2021年五年的文獻計量學(bibliometrics)領域文獻并進行施引側(cè)的引文分析,得到各年的施引文獻及被引文獻的情況如表1所示。以2021年為例,這一年共發(fā)表文獻計量學論文2 580篇,此為發(fā)文數(shù)量,也是施引文獻數(shù)量;它們累計施引了69 952篇文獻,去重后共54 920篇;這些被引文獻的平均發(fā)表年份為2012.41年;H 指數(shù)為32,即有32篇被引文獻、其中每一篇的被引次數(shù)都在32 次以上。從各年的比較來看,被引文獻與施引文獻的比值并不一致。例如,2013年施引文獻有1 332篇,而被引文獻有13 740篇,去重后僅10 207篇;去重前后被引文獻數(shù)量分別為施引文獻數(shù)量的10.3倍和7.7倍;而2021年這兩個比例分別為27.1 倍和21.3 倍。這說明2013—2021年,施引文獻在引用數(shù)量上有了大幅上升。
表2進一步展現(xiàn)了各個施引年度的被引文獻分布的主要期刊、作者和學科情況。五個施引年份中,被引最多的期刊始終都是Scientometrics;排名第二的高被引期刊在2013、2015和2017年為Journal of the Associationfor Information Science and Technology,在2019年和2021年為Journal of Informetrics。除上面三本期刊之外,Science、Nature、Research Policy 和PLOS ONE 也經(jīng)常位列前五的高被引期刊之中。此外,在2021年還出現(xiàn)了新的高被引期刊Journal of Cleaner Production,表明清潔生產(chǎn)(cleaner production)相關主題研究在2021 年受到學者們廣泛關注。
從高被引作者來看,2013—2021 年的被引次數(shù)最高的作者依次是LoetLeydesdorff(2013)、WolfgangGl?nzel(2015)、Lutz Bornmann(2017)、Ludo Waltman(2019和2021),體現(xiàn)了文獻計量學領域高影響力學者的代際更替。其他高被引學者還包括Eugene Garfield(2013 年位列第三,2015 年位列第二,2017 年位列第四)、Henk F. Moed(2013 年位列第四,2015 年位列第三)、Nees Jan van Eck(2019 和2021 年均位列第二)、José M. Merigó(2019 年位列第四、2021 年第三)、ChenChaomei(2021年位列第四)等。
從高被引領域主題來看,基于OpenAlex 中的領域主題劃分,在選定的五個施引年份,引用最多的領域主題都是Computer science,不過其在各年的占比不盡相同。在2013年,有5 314篇被引文獻來自該主題,占總被引文獻數(shù)量的38.7%;而在2021年,來自該主題的被引文獻有18 643篇,占總數(shù)量的26.7%,下降了12個百分點。這表明了引用的主題集中度降低,而主題多樣化程度提高。Citation 是被引文獻中的另一個高頻主題,尤其在2017 年之前,Citation 主題的被引文獻量都高居第二,是熱門主題。但是在2021 年,Citation 主題的占比已經(jīng)跌出前五的行列,表明該主題的影響力在下降。Data science 在2013 年至今也一直位列熱門主題詞的前五之列,表明數(shù)據(jù)科學是文獻計量學的重要研究基礎。此外,前五的高頻主題中還有Medicine、Business、Psychology、Political science 等表示具體應用領域的主題,并且其占比逐年上升,這表明文獻計量學正經(jīng)歷著從學科的自身建設轉(zhuǎn)向面向具體領域應用研究的趨勢。
4 結(jié)論與討論
本研究中,在梳理文獻計量被引側(cè)指標起源、目的、歷史條件和后續(xù)發(fā)展的基礎上,探討了文獻計量由被引側(cè)轉(zhuǎn)向施引側(cè)的歷史時機、施引側(cè)指標在數(shù)據(jù)庫中設置的可行性、施引側(cè)指標的優(yōu)勢,和施引側(cè)指標的應用場景、應用先例與應用實例。我們認為,無論就政策方面還是應用方面,文獻計量指標都應該從當前年份的、施引側(cè)的角度設置和應用。因此,建議文獻計量指標由被引側(cè)轉(zhuǎn)換到施引側(cè),這將大大提高文獻計量指標的實用性、及時性和對用戶群體的影響。
隨著科學技術(shù)日新月異的發(fā)展,尤其是計算能力的空前提升,文獻計量指標理應與時俱進。文獻計量指標由被引側(cè)向施引側(cè)轉(zhuǎn)換,在理論層面具有合理性;在設置層面具有可行性;在實踐層面,具有更強的時效性和應用性。概括之,與被引側(cè)文獻計量指標相比較,施引側(cè)文獻計量指標具有其優(yōu)勢和應用價值。被引側(cè)的文獻計量指標仍然有其生存和發(fā)展的空間,有其存在的必要性和價值性。應該說,在某些方面、某些具體事項上,施引側(cè)的文獻計量指標更具優(yōu)勢和應用價值。