張茜晴
(廈門醫(yī)學(xué)院圖書館,福建 廈門 361001)
研究熱點(Hot Topic)這一概念由普賴斯(Price)在1965年提出,是指在某段時間段內(nèi)有突出發(fā)展?jié)摿Φ难芯恐黝}??萍嘉墨I呈現(xiàn)出指數(shù)級增長的趨勢,有針對性地挖掘科技信息中的有效情報,快速了解研究領(lǐng)域的熱點話題,有助于把握研究動向,節(jié)約科研成本。文獻計量學(xué)是在對大量文獻進行定量化研究需求的基礎(chǔ)上應(yīng)運而生的,利用文獻計量手段識別研究領(lǐng)域熱點,分析主題演進已成為研究主題分析的基本方法。目前,經(jīng)過較長時間的探索與發(fā)展已形成多種基于文獻計量的熱點識別方法。
早期關(guān)于熱點識別的研究多集中在西方國家,20世紀(jì)90年代起逐漸受到我國學(xué)者的關(guān)注、研究與應(yīng)用,并產(chǎn)生了豐碩的研究成果。筆者在調(diào)研國內(nèi)相關(guān)文獻中的各個分析環(huán)節(jié)指標(biāo)的基礎(chǔ)上進行研究,旨在梳理基于文獻計量的熱點識別方法及分析路徑,比較不同方法的特征,以期為研究人員提供借鑒和參考。
研究熱點通常源于某時間段研究領(lǐng)域內(nèi)受到廣泛關(guān)注的研究話題或進展,且常伴隨著文獻發(fā)表數(shù)量增加、某些主題詞數(shù)量及漲幅突增、引文網(wǎng)絡(luò)突變等計量學(xué)特征。針對這些計量指標(biāo),衍生出多種識別研究熱點的方法和技術(shù)。關(guān)鍵詞作為最能表征文獻主題內(nèi)容的要素之一,將其用于分析識別領(lǐng)域熱點由來已久,例如詞頻分析、共詞分析等方法。另外,文獻之間的引證關(guān)系可以理解為是科學(xué)對話的一種形式,基于引文的研究可定量分析科學(xué)研究的傳播途徑和發(fā)展脈絡(luò),對主題發(fā)展和熱點趨勢都有重要的揭示作用。同時,以文獻數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)為紐帶,借助計算機圖像處理技術(shù)將數(shù)據(jù)轉(zhuǎn)換成圖像并進行交互處理的新興可視化技術(shù)為研究熱點的識別和呈現(xiàn)提供了更加多樣且靈活的途徑。通過對國內(nèi)外相關(guān)文獻進行梳理和分析,熱點識別方法研究可分為以下幾類。
2.1.1 基于詞頻的熱點識別
詞頻分析以詞匯為分析對象,詞匯作為表達文獻主題內(nèi)容的最小單位,因其概括性、統(tǒng)計性、鏈接性等特性,常用于研究熱點的識別[1]。詞頻分析法由Luhn于1958年首次提出并應(yīng)用于自動文摘的研究,該方法基于研究內(nèi)容的集中與分散性可由關(guān)鍵詞的頻次與個數(shù)的關(guān)系加以判斷這一原理,研究內(nèi)容的集中性越強,則表征該內(nèi)容的關(guān)鍵詞所代表的內(nèi)容在該領(lǐng)域越可能起關(guān)鍵作用[2]。除了以詞頻累積數(shù)量為分析依據(jù)外,2002年Kleinberg提出了一種突破監(jiān)測算法,在分析詞頻時考慮其變化密度,從而識別文獻中具有高密度特性的詞,即有突然增長特性的詞[3]。
2.1.2 基于詞共現(xiàn)的熱點識別
通常,一個研究主題包含不止一兩個詞匯,相互關(guān)聯(lián)的一系列詞匯凝聚在一起能更全面地表征主題。共詞分析法即為典型代表。該方法由法國文獻計量學(xué)家在20世紀(jì)70年代中后期提出,以文獻計量和統(tǒng)計聚類為研究手段,按照詞間的緊密程度對共同出現(xiàn)的詞進行聚類,為定量分析大數(shù)據(jù)量的文獻信息,探究知識演化、熱點話題和學(xué)科演進提供了一種新的思路[4]。此外,在共詞分析的基礎(chǔ)上,利用各種統(tǒng)計學(xué)分析方法,結(jié)合可視化軟件,可將研究熱點更加直觀地展現(xiàn)出來。如,徐曉華等人利用共詞聚類和多維尺度分析方法對艾滋病預(yù)防醫(yī)學(xué)領(lǐng)域的文獻進行分析,獲得了2013—2015年的4大熱點研究領(lǐng)域[5];周麗英等人以SCI收錄的3種國際植物營養(yǎng)學(xué)期刊為數(shù)據(jù)源,將共詞分析與社會網(wǎng)絡(luò)分析方法相結(jié)合進行了主題領(lǐng)域劃分,并研究各領(lǐng)域的發(fā)展變化趨勢[6]。
Small將引文關(guān)系劃分為文獻耦合(Bibliographic Coupling)、文獻同被引(Co-catation)以及直接引用(Direct Citation)這3種類型。文獻耦合分析由麻省理工學(xué)院的Kessler教授于1963年提出,其原理是兩篇及兩篇以上的文獻因引用同一篇文獻可發(fā)生互相關(guān)聯(lián)[7],共同引用的文獻越多,說明這幾篇施引文獻之間的聯(lián)系越為緊密。以此理念為基礎(chǔ),肖明等人以引文耦合為分析方法,在國內(nèi)首次探討了學(xué)科結(jié)構(gòu)和知識基礎(chǔ),并輔以可視化工具描繪了數(shù)字圖書館領(lǐng)域具有相同主題的文獻間關(guān)系[8]。同被引分析由美國情報學(xué)家Small于1973年提出,反映的是被引證文獻之間的關(guān)系,他采用同被引的分析方法,對有機薄膜晶體管領(lǐng)域進行了分析,并揭示了該領(lǐng)域主題演化過程中的發(fā)展、消亡過程[9]。引文關(guān)系的最后一種類型直接引用則是文獻引用的一種基本形態(tài),在對文獻進行直接引用分析時無需厘清他們之間的耦合或同被引關(guān)系[10]。
已有研究采用不同的研究方法對各研究領(lǐng)域的熱點話題進行識別和展現(xiàn),為當(dāng)前研究提供了重要的參考。識別方法的多樣性和靈活性在為主題研究提供多種途徑的同時,也帶來不同方法在過程分析和結(jié)果展現(xiàn)方面的差異以及方法選擇上的困惑。目前國內(nèi)尚缺乏較為全面的研究,因此,筆者采用內(nèi)容分析法,通過文獻調(diào)研梳理出現(xiàn)有研究中較為常用的熱點識別方法,并從各流程角度比較不同方法之間的差異。
筆者主要采用內(nèi)容分析法,以中國知網(wǎng)(CNKI)數(shù)據(jù)庫中收錄的CSSCI、中文核心以及CSCD索引的期刊為數(shù)據(jù)來源,以“研究熱點”為檢索詞在題名中進行檢索,又以“SU='研究熱點'ANDSU='文獻計量'”為檢索式在CNKI全文數(shù)據(jù)庫中進行檢索,剔除重復(fù)文獻后共獲取2059篇相關(guān)文獻,經(jīng)過快速閱讀文獻題錄信息,刪除與本研究無關(guān)的文獻共556條,最后納入內(nèi)容分析的樣本文獻1211條。
筆者以熱點識別過程的每一個環(huán)節(jié)為分析要素,共構(gòu)建文獻調(diào)研指標(biāo)4個,分別為數(shù)據(jù)來源、計量要素、計量方法以及熱點呈現(xiàn)方法與采用工具。其中,數(shù)據(jù)來源是指該篇文獻所研究的目標(biāo)文獻來源;計量要素是指該篇文獻依據(jù)何種文獻要素進行研究熱點的識別;計量方法是指該文獻采用何種計量方法進行研究熱點的識別;熱點呈現(xiàn)方法與采用工具即該文獻將分析出的研究熱點以何種形式呈現(xiàn),以及采用了何種工具對研究熱點進行可視化表達。
3.2.1 數(shù)據(jù)來源統(tǒng)計結(jié)果
按照熱點識別所依據(jù)的論文要素,將調(diào)研指標(biāo)分為基于詞匯的熱點識別文獻和基于引文的熱點識別文獻兩部分分別進行指標(biāo)統(tǒng)計結(jié)果的解讀,數(shù)據(jù)來源見圖1,從上圖可見,CNKI是以詞匯進行熱點識別文獻分析對象的主要來源,占比高達49%,其次是科睿唯安的Web of Science(WoS)數(shù)據(jù)庫和中文CSSCI索引,占比分別為28%和12%。下圖所示基于引文進行熱點識別的文獻分析對象來源中,Web of Science數(shù)據(jù)庫占比最大,高達75%,其次是CNKI以及CSSCI來源文獻。
圖1 調(diào)研結(jié)果——數(shù)據(jù)來源統(tǒng)計
3.2.2 識別方法統(tǒng)計結(jié)果
筆者將全部調(diào)研樣本分為基于詞匯的識別方法與基于引文關(guān)系的識別方法兩類,其中,基于詞匯的識別方法又可分為基于詞頻和基于詞共現(xiàn)兩種,基于引文關(guān)系的識別方法又可分為基于高被引文獻和基于文獻共被引的分析方法兩種,具體到每一種方法的使用情況詳見表1。
表1 調(diào)研結(jié)果——方法統(tǒng)計
基于本研究調(diào)研的全部文獻,建立起“文獻來源—分析要素—計量方法—分析工具”的一一對應(yīng)關(guān)系,從多維度剖析當(dāng)前常用研究熱點的分析路徑,如圖2所示。圖2中圈的大小表示使用頻次的高低,如,就“文獻來源”這一指標(biāo)來看,WoS及CNKI是目前國內(nèi)進行熱點識別研究中使用頻次最高的數(shù)據(jù)庫;就“分析要素”指標(biāo)來看,基于詞匯的分析方法使用頻次要高于基于引文的分析方法;就“計量方法”指標(biāo)來看,基于詞共現(xiàn)的計量方法使用頻次最高,而基于文獻共被引的計量方法則是引文分析中最常用的。圖2中連線的粗細表示共現(xiàn)頻次的高低,例如,在以CNKI為文獻來源的熱點識別文獻中,基于詞匯的分析方法使用頻次要遠高于基于引文的分析方法,以WOS為文獻來源的文獻中,基于詞匯與基于引文的分析方法使用頻次相差不大;在基于詞匯的分析方法中,詞頻分析與詞共現(xiàn)分析的使用頻次都較高,而基于引文的分析方法中,文獻共被引分析的使用頻次則遠高于基于高被引文獻及基于關(guān)鍵節(jié)點文獻的使用頻次;在基于詞共現(xiàn)的分析方法中,聚類分析、多維尺度分析及共詞分析的使用頻次較高,在基于文獻共被引分析方法中,聚類分析、內(nèi)容分析、時序分析等使用頻次較高;聚類分析以SPSS及CiteSpace為主要分析工具,共詞分析則主要依靠CiteSpace、SPSS及Ucinet等分析工具。
圖2 研究熱點識別路徑
在全部調(diào)研樣本中,基于詞頻的分析方法共使用708次,其中,簡單詞頻分析法,即單純累計關(guān)鍵詞或主題詞出現(xiàn)頻次來判斷研究熱點的文獻有467篇;另外,突現(xiàn)詞分析方法共使用122次,該方法利用Kleinberg的突現(xiàn)詞算法,借助CiteSpace可視化分析軟件可運行計算得出某段時間內(nèi)具有高突現(xiàn)率的關(guān)鍵詞,通過分析這些關(guān)鍵詞所表達的研究主題,從而獲取該時間段內(nèi)的研究熱點;除了簡單詞頻及突現(xiàn)詞分析法,還有119篇文獻使用了時序分析方法,利用分析軟件對文獻進行處理繪制主題熱點演變時區(qū)視圖,以時間線為橫軸,以熱點關(guān)鍵詞節(jié)點之間的連線表達研究熱點的演變。
筆者通過內(nèi)容分析對全部調(diào)研樣本進行了細化分析,基于詞共現(xiàn)分析方法共使用1427次(由于一篇文獻可使用多種分析方法,因此分析方法的使用總次數(shù)可能大于調(diào)研樣本數(shù))。具體到每一種方法,聚類分析使用頻次最高,達590次,聚類分析是一種研究“物以類聚”的多元統(tǒng)計方法[11],根據(jù)關(guān)鍵詞(主題詞)之間關(guān)聯(lián)強度的大小聚集成簇,把聯(lián)系緊密、代表相似主題的關(guān)鍵詞聚集在一起,從而達到分析熱點話題、研究趨勢的目的。聚類分析通常需要借助分析工具來完成,調(diào)研樣本中聚類分析常使用的工具有SPSS(251次)、CiteSpace(202次)、Bibcomb(36次)、Ucinet(33次)、VOSviewer(31次)等。SPSS(Statistical Package of the Social Science)是目前社會科學(xué)領(lǐng)域使用最廣泛的一套模塊化的統(tǒng)計分析軟件,功能包括因子分析、回歸分析、相關(guān)分析、聚類分析等;CiteSpace是在科學(xué)計量學(xué)、數(shù)據(jù)可視化背景下逐漸發(fā)展起來的引文可視化圖譜軟件,以可視化手段呈現(xiàn)科學(xué)知識結(jié)構(gòu)、規(guī)律和分布情況[12]。共現(xiàn)分析方法共使用438次,這種研究方法以關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜鎖定核心研究領(lǐng)域[13],結(jié)合關(guān)鍵詞詞頻統(tǒng)計及關(guān)鍵詞之間的共現(xiàn)關(guān)系厘清研究熱點,以CiteSpace的共現(xiàn)圖譜為例,每個節(jié)點代表一個研究熱點,節(jié)點的大小表示該關(guān)鍵詞出現(xiàn)的頻次高低,節(jié)點越大則話題越熱,節(jié)點之間的連線表示熱點之間的共現(xiàn)情況,連線越粗則熱點間關(guān)聯(lián)越緊密。在共詞分析中,分析軟件的使用頻次依次為:CiteSpace(211次)、Ucinet(92次)、SPSS(26次)等。多維尺度分析方法使用頻次為154次,主要借助軟件SPSS(107次)以及Ucinet(6次)。該方法將觀測對象定位到二維或三維空間中一個特定位置,通過測定觀測量之間的距離發(fā)現(xiàn)各觀測量之間的結(jié)構(gòu)[14]。社會網(wǎng)絡(luò)分析方法(SNA)的使用頻次為102次,它是一種社會學(xué)的研究方法,與統(tǒng)計學(xué)和心理學(xué)等學(xué)科聯(lián)系緊密[15],常用的分析工具分別為Ucinet(78次)、SPSS(10次)、CiNetExplorer(3次)、CiteSpace(1次)以及Thomson Data Analyzer(1次)。戰(zhàn)略坐標(biāo)分析方法使用頻次為49次,該方法是一個二維坐標(biāo)圖,橫軸代表向心度(Centrality),縱軸代表密度(Density),使用這兩個指標(biāo)衡量主題類團內(nèi)部的發(fā)展?fàn)顩r和類團之間的互相影響狀況[16],調(diào)研樣本中使用的工具主要包括SPSS(22次)、CiteSpace(4次)、Ucinet(1)次。因子分析方法共使用48次,這是將多個實測變量轉(zhuǎn)換為幾個不相關(guān)的綜合指標(biāo)的一種多元分析方法[17],通過分析多個原始變量,找出對原始變量有潛在支配作用、數(shù)量相對較少的因子[14]。調(diào)研樣本中在進行因子分析時主要使用SPSS(32次)、Ucinet(2次)等。中心性分析方法的使用次數(shù)為46次,中心性是指一個點在網(wǎng)絡(luò)中居于核心地位的程度,是判定網(wǎng)絡(luò)中節(jié)點重要性的指標(biāo),調(diào)研樣本中中心性分析的工具主要包括CiteSpace(23次)、Ucinet(7次)、SPSS(6次)和Gephi(1次)。
基于引文的熱點分析方法以引文類型的不同分為兩類,首先是基于文獻共被引的分析方法,文獻共被引分析是Citespace最具特色的功能,利用Citespace對文獻進行共引分析可以提煉該領(lǐng)域的知識基礎(chǔ)、研究熱點以及新興趨勢[18]。在調(diào)研樣本文獻中,基于文獻共被引的分析方法共使用77次,其中,聚類分析使用60次,通過對共現(xiàn)網(wǎng)絡(luò)進行聚類,可將文獻根據(jù)研究內(nèi)容的相似程度劃分到不同的聚類中進行分門別類分析,分析工具為Citespace(39次)、VOSviewer(1次);關(guān)鍵節(jié)點文獻分析是對網(wǎng)絡(luò)中的關(guān)鍵節(jié)點的文獻進行內(nèi)容分析,借此了解領(lǐng)域研究熱點,在調(diào)研樣本中共使用16次;時序分析的視圖顯示方式能突出共引網(wǎng)絡(luò)節(jié)點隨時間變化的結(jié)構(gòu)關(guān)系[19],在調(diào)研樣本中共使用8次;中心性分析通過分析一篇文獻在共引網(wǎng)絡(luò)中與其他文獻連接的緊密程度,從而判斷其核心程度,中心性越高的文獻,其在網(wǎng)絡(luò)中的影響力越大,調(diào)研樣本中中心性分析共使用5次,分析工具均為Citespace;多維尺度分析方法使用3次;戰(zhàn)略坐標(biāo)分析方法使用兩次。除了基于文獻共被引的分析方法外,高被引論文作為被引用頻次最高的那部分文獻,往往具有較高的影響力,且數(shù)量較少的論文較大程度覆蓋了某一研究領(lǐng)域的熱點主題,調(diào)研樣本中基于高被引論文進行的分析共使用57次,其中,對高被引論文的內(nèi)容進行閱讀分析研究熱點的方法使用42次;另外,與突破詞分析類似,Citespace同樣可對在某一時間段內(nèi)引用頻次突增的文獻進行探測,具有高突破性的文獻所反映的內(nèi)容在某段時間內(nèi)受到了較多關(guān)注,因此,突破文獻分析可快速了解某領(lǐng)域?qū)W者們所共同關(guān)注的話題,找到研究熱點,這種分析方法使用了10次;最后,引文編年分析是利用HistCite軟件進行的一種基于高被引論文的分析方法,可直觀得到引文之間引用與被引的關(guān)系,從而反映文獻間的關(guān)聯(lián)[20],樣本文獻中該方法的使用頻次為5次。
筆者對國內(nèi)有關(guān)熱點識別共1211篇研究文獻進行內(nèi)容分析,建立各個分析環(huán)節(jié)的調(diào)研字段,通過對調(diào)研結(jié)果的統(tǒng)計分析,梳理出使用頻次高且具有代表性的熱點識別分析路徑,得出以下結(jié)論。
(1)文獻計量方法是識別研究熱點最主要的分析方法,且基于文獻計量的熱點分析方法呈現(xiàn)多樣化趨勢,可分為基于詞匯的分析方法和基于引文的分析方法兩大類。其中,基于詞匯的分析方法以能表征研究主題的詞匯為對象、以詞頻或詞間共現(xiàn)關(guān)系為基礎(chǔ),具有分析數(shù)據(jù)易獲取、分析方法簡單多樣、分析工具種類多等特點,其使用率遠高于基于引文的方法,在調(diào)研樣本中的文獻占比約為88.8%;基于引文的分析方法由于對數(shù)據(jù)庫提供的可計量數(shù)據(jù)有較高要求、分析過程中算法較為復(fù)雜、分析工具單一(絕大多數(shù)使用CiteSpace),且對分析工具的依賴性較大,因此使用頻次較小,在調(diào)研樣本中的文獻占比僅為11.2%。
(2)借助可視化分析軟件進行熱點識別是目前國內(nèi)應(yīng)用研究的主要趨勢。調(diào)研樣本中65.7%的文獻借助可視化軟件進行研究熱點的識別與呈現(xiàn),軟件種類多達27種,且不同分析方法常用工具差異明顯。例如,SPSS作為一款功能強大的統(tǒng)計分析軟件,在基于詞共現(xiàn)的聚類分析、多維尺度分析、因子分析、中心性分析等分析中應(yīng)用廣泛;CiteSpace是陳超美教授用Java語言開發(fā)的基于引文分析理論的可視化軟件,調(diào)研樣本中的文獻共被引分析、突破詞分析、共現(xiàn)網(wǎng)絡(luò)分析等,有61%都是借助CiteSpace進行的,可視化分析軟件的多樣性為研究熱點的識別和呈現(xiàn)提供了更多的途徑和更豐富的結(jié)果呈現(xiàn)方式。
(3)不同識別方法的分析側(cè)重點差異明顯,應(yīng)根據(jù)數(shù)據(jù)特征及具體需求選擇合適的分析方法。在分析對象選擇方面,詞匯具有較強的解讀性,而引文分析通常需要耗費較多的精力對高被引文獻、關(guān)鍵節(jié)點文獻進行解讀,因此詞匯的分析結(jié)果會更加直觀、易讀;但文獻間的引用關(guān)系代表著知識的流動和傳承,以引文為對象可探測研究領(lǐng)域的知識基礎(chǔ)和研究前沿,相較于詞匯能更好地表達研究主題的演進。在計量方法和分析工具的選擇上,聚類分析在主題表達方面更為直觀,且分析工具多樣,但由于算法不同,導(dǎo)致聚類類團也不同,因此在分析主題時仍需人工判斷、調(diào)試;多維尺度分析圖譜中,點與點之間的位置關(guān)系以及與中心位置的距離遠近反映研究對象間的相似性及其核心程度,但通常仍需要綜合其他分析方法進行區(qū)域劃分,且研究者本身需對研究領(lǐng)域有一定了解,SPSS是多維尺度分析中最常用的工具。社會網(wǎng)絡(luò)分析方法依據(jù)中心性指標(biāo)判斷對象在圖譜中的地位,Ucinet中的NetDraw繪制的網(wǎng)絡(luò)圖可清晰看到對象間的親疏關(guān)系,是社會網(wǎng)絡(luò)分析中應(yīng)用最為廣泛的軟件。突破詞分析基于CiteSpace的突破算法識別出短時間內(nèi)具有高增長率的關(guān)鍵詞,在生成的圖譜中使用紅色標(biāo)注并形成突破詞檢測報告,運算速度快且易于解讀,是識別新型熱點話題的一種高效途徑,但同時也存在著缺乏詞間關(guān)聯(lián)、分布較為分散等弊端,需研究人員結(jié)合其他網(wǎng)絡(luò)進行更為宏觀的分析。此外,利用CiteSpace進行基于引文共被引的聚類分析,以參考文獻為節(jié)點,節(jié)點文獻一般是本領(lǐng)域內(nèi)被引用頻次較高且在引文網(wǎng)絡(luò)中中心性較高的文獻,通過對節(jié)點文獻的閱讀和分析,找出領(lǐng)域內(nèi)的熱點研究話題,這種方法通常用于探測知識基礎(chǔ),但在圖譜的解讀中較為費時費力,要同時結(jié)合節(jié)點附近的其他文獻對領(lǐng)域內(nèi)的研究主題進行解讀。