鐘秀梅 崔 雷
(中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)系 沈陽(yáng) 110013)
?
科學(xué)映射工具在醫(yī)學(xué)知識(shí)圖譜構(gòu)建中的比較
鐘秀梅 崔 雷
(中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)系 沈陽(yáng) 110013)
選擇HistCite,NWB,ROST CM,Sci2,SATI,SciMAT,Bibexcel,BICOMB,UCINET,gCLUTO,VOSviewer 11款科學(xué)映射工具進(jìn)行對(duì)比分析研究,并對(duì)各自特點(diǎn)簡(jiǎn)要介紹及總結(jié)評(píng)述,以期有助于醫(yī)學(xué)領(lǐng)域知識(shí)圖譜的構(gòu)建。
科學(xué)映射工具;醫(yī)學(xué)知識(shí)圖譜;比較
20世紀(jì)50-60年代以來(lái),科學(xué)計(jì)量學(xué)不斷發(fā)展,已成為科學(xué)學(xué)領(lǐng)域的重要分支??茖W(xué)映射(Science Mapping)是科學(xué)計(jì)量學(xué)的重要研究領(lǐng)域,其意在研究并揭示科學(xué)研究活動(dòng)中各要素的行為模式與規(guī)律以及科學(xué)知識(shí)結(jié)構(gòu)中各類別元素的相互關(guān)系[1],以期展現(xiàn)學(xué)科的發(fā)展歷程、研究現(xiàn)狀、前沿領(lǐng)域以及知識(shí)脈絡(luò)等[2-3]。科學(xué)映射的結(jié)果被稱作科學(xué)圖譜或知識(shí)圖譜,是指學(xué)科知識(shí)元素的結(jié)構(gòu)和相互關(guān)系的可視化表達(dá)[4-5]。借助科學(xué)知識(shí)圖譜,人們可以透視龐大的人類知識(shí)體系中各個(gè)領(lǐng)域的結(jié)構(gòu),理順復(fù)雜的知識(shí)網(wǎng)絡(luò),預(yù)測(cè)科學(xué)技術(shù)前沿發(fā)展的最新態(tài)勢(shì)??茖W(xué)映射工具多種多樣,大多為特定的領(lǐng)域、目的或工作流程而設(shè)計(jì),各有其優(yōu)劣。本文選取一些國(guó)內(nèi)廣泛應(yīng)用的科學(xué)映射工具[6-9]進(jìn)行介紹,分析比較其在醫(yī)學(xué)知識(shí)圖譜繪制中的作用。
2.1 11款軟件概況
本文對(duì)比研究了HistCite[10],NWB[11],ROST CM(國(guó)內(nèi))[12],Sci2[13],SATI(國(guó)內(nèi))[14],SciMAT[15],Bibexcel[16],BICOMB(國(guó)內(nèi))[17],UCINET[18],gCLUTO[19],VOSviewer[20]11款軟件用于繪制醫(yī)學(xué)知識(shí)圖譜的相關(guān)功能,總結(jié)評(píng)述其功能特點(diǎn)。其中HistCite,NWB,ROST CM,Sci2,SATI,SciMAT為綜合性工具,Bibexcel,BICOMB為處理統(tǒng)計(jì)性工具,UCINET,gCLUTO,VOSviewer為可視化工具,均可在Windows平臺(tái)下使用,部分還可在其他平臺(tái)使用;除UCINET需付費(fèi)使用外,其余均為免費(fèi)使用。11款軟件全稱及官網(wǎng),見(jiàn)表1。
表1 11款科學(xué)映射工具全稱及官網(wǎng)
2.2 輸入數(shù)據(jù)格式
WOS和PubMed是國(guó)際上重要的科技文獻(xiàn)數(shù)據(jù)庫(kù),富含醫(yī)學(xué)研究資源,尤其是WOS的引文數(shù)據(jù)和PubMed的MeSH詞表最具特色[21-22]。但目前,科學(xué)映射工具多以WOS數(shù)據(jù)為分析對(duì)象,如表2所示,有8款明確指明接受WOS數(shù)據(jù);此外ROST CM雖未明確指出,但也可對(duì)其處理。而以PubMed為分析對(duì)象的則相對(duì)較少。此外,中英文數(shù)據(jù)皆可處理的工具,僅Bibexcel,BICOMB,ROST CM和SATI,見(jiàn)表2。
表2 11款科學(xué)映射工具可接受數(shù)據(jù)格式比較
注:“_”表示軟件不接受原始文獻(xiàn)題錄格式。
2.3 數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)功能
原始數(shù)據(jù)往往存在條目重復(fù)、拼寫錯(cuò)誤、格式不規(guī)范、壞數(shù)據(jù)等問(wèn)題,故需預(yù)處理后再行統(tǒng)計(jì)分析。預(yù)處理是整個(gè)科學(xué)映射中非常重要的步驟,直接關(guān)系著結(jié)果質(zhì)量的高低,故需謹(jǐn)慎處理。除UCINET和gCLUTO外,其余9款都具有一定數(shù)據(jù)預(yù)處理和統(tǒng)計(jì)功能,見(jiàn)表3。
表3 11款科學(xué)映射工具數(shù)據(jù)預(yù)處理功能比較
2.4 知識(shí)矩陣網(wǎng)絡(luò)構(gòu)建功能
該功能主要圍繞知識(shí)表達(dá)的主體和載體等知識(shí)元素展開(kāi),如作者、關(guān)鍵詞、文獻(xiàn)、引文、期刊等,以表示其直接或間接聯(lián)系。除UCINET和gCLUTO外,其余9款軟件均可構(gòu)造出一定類型的知識(shí)矩陣網(wǎng)絡(luò),見(jiàn)表4。
表4 11款科學(xué)映射工具可構(gòu)建知識(shí)矩陣網(wǎng)絡(luò)比較
2.5 矩陣網(wǎng)絡(luò)指標(biāo)關(guān)系整理功能
上步所得矩陣網(wǎng)絡(luò)僅為原始頻數(shù)矩陣,需加以規(guī)范,即依據(jù)具體數(shù)據(jù)形式選擇適當(dāng)規(guī)范化指標(biāo)進(jìn)行關(guān)系整理。盡管有學(xué)者直接使用原始頻數(shù)矩陣進(jìn)行分析[23],但有許多學(xué)者認(rèn)為,指標(biāo)關(guān)系整理是科學(xué)映射必不可少的步驟,它能使相互關(guān)系研究盡可能不受混雜因素影響[24-25]。規(guī)范化指標(biāo)包括相似性度量指標(biāo)和相異性度量指標(biāo),且多種多樣。除BICOMB、HistCite兩款不具此功能外,其余9款的指標(biāo)都各具特色,見(jiàn)表5。
表5 11款科學(xué)映射工具的規(guī)范化度量指標(biāo)比較
2.6 矩陣網(wǎng)絡(luò)關(guān)系發(fā)現(xiàn)功能
除Bibexcel和BICOMB不能進(jìn)行后續(xù)分析外,其余均能進(jìn)行一些分析,詳細(xì)情況,見(jiàn)表6。但需注意對(duì)于某特定數(shù)據(jù)源數(shù)據(jù),軟件可能會(huì)缺失其中某項(xiàng)分析功能,如Sci2暫不具有對(duì)WOS數(shù)據(jù)的空間地理分析功能。
表6 11款科學(xué)映射工具分析方法比較
注:突發(fā)監(jiān)測(cè)指根據(jù)知識(shí)元素頻率隨時(shí)間的變化情況,監(jiān)測(cè)出短期內(nèi)波幅較大的對(duì)象,目前多采用Kleinberg的bumt detection algorithm[13];空間分析指基于地圖(如google地圖),分析研究對(duì)象的地理分布情況;時(shí)序分析指知識(shí)元素隨時(shí)間的變化情況;網(wǎng)絡(luò)分析指根據(jù)知識(shí)元素間聯(lián)系,以網(wǎng)絡(luò)圖形式呈現(xiàn)分析結(jié)果;雙聚類指對(duì)二維數(shù)據(jù)的行列變量均進(jìn)行聚類。
3.1 HistCite
HistCite專注于引文分析,以時(shí)間軸為基礎(chǔ),繪制施引文獻(xiàn)與被引文獻(xiàn)間關(guān)聯(lián),意在識(shí)別出領(lǐng)域中重要研究成果。其特色是與WOS的銜接性很好,中間數(shù)據(jù)可經(jīng)由WOS獲取、修正和鏈接,在引文分析方面有其獨(dú)特優(yōu)勢(shì)。但其僅限于引文分析和一定元素統(tǒng)計(jì),缺失合著、共詞以及其他多種關(guān)聯(lián)的分析,可接受數(shù)據(jù)格式較局限,不能處理中文。
3.2 NWB
NWB相對(duì)較成熟完善,接受多種數(shù)據(jù)格式;根據(jù)具體需求進(jìn)行相應(yīng)的數(shù)據(jù)預(yù)處理;構(gòu)建多種知識(shí)矩陣網(wǎng)絡(luò),根據(jù)用戶自定義進(jìn)行規(guī)范化;分析方法多種多樣;嵌合了GUESS,GnuPlot,DrL等多種可視化插件;但不能處理中文。因提供多種自定義設(shè)置,較靈活,要求用戶具有較高信息分析能力,較適合熟悉科學(xué)計(jì)量學(xué)分析方法的用戶。
3.3 ROST CM
ROST CM主要用于情感分析和社會(huì)網(wǎng)絡(luò)分析領(lǐng)域,也可用于科學(xué)計(jì)量學(xué),以進(jìn)行分類聚類、共現(xiàn)分析、依存分析、語(yǔ)義網(wǎng)絡(luò)、社會(huì)網(wǎng)絡(luò)等。該軟件具有較強(qiáng)的數(shù)據(jù)預(yù)處理功能,可處理多種數(shù)據(jù)格式且中英文數(shù)據(jù)均可處理;借助插件NetDraw完成可視化。
3.4 SATI
SATI專門用于處理文獻(xiàn)題錄數(shù)據(jù)。其優(yōu)勢(shì)在于:(1)除基本預(yù)處理功能外,還能去停用詞及提取詞干。(2)可進(jìn)行時(shí)間切分,劃分不同時(shí)間段子集。(3)通過(guò)插件NetDraw完成可視化。但該軟件在矩陣截取方面不便捷,矩陣行列數(shù)相同且不得超過(guò)100,若行列數(shù)不同或行列超過(guò)100則無(wú)法自動(dòng)截取。
3.5 Sci2
Sci2在界面、設(shè)計(jì)和功能上與NWB相像,但二者又不盡相同。相對(duì)NWB來(lái)講,Sci2的功能更為全面、完善:(1)除GUESS,GnuPlot,DrL等外,還嵌合了Gephi。(2)嵌入了R語(yǔ)言功能模塊。(3)保有空間分析。但NWB操作相對(duì)簡(jiǎn)便。
3.6 SciMAT
SciMAT出現(xiàn)較晚,融合了多款綜合性科學(xué)映射工具和可視化工具的優(yōu)點(diǎn),其數(shù)據(jù)預(yù)處理、知識(shí)矩陣網(wǎng)絡(luò)構(gòu)建和分析方面功能強(qiáng)大,但其主要分析對(duì)象是WOS,對(duì)其他格式數(shù)據(jù)的處理還相對(duì)欠缺,尤其是中文數(shù)據(jù)。
3.7 Bibexcel
Bibexcel是一款文獻(xiàn)計(jì)量學(xué)軟件,擅長(zhǎng)引文分析。其特點(diǎn)在于:(1)除英文數(shù)據(jù)外,還可處理CSSCI數(shù)據(jù)。(2)靈活多變、功能強(qiáng)大,但設(shè)置上較繁瑣,適合較熟悉科學(xué)計(jì)量學(xué)研究的用戶。(3)可全面構(gòu)建共現(xiàn)矩陣,但缺失直接關(guān)系矩陣構(gòu)建功能且輸出行列數(shù)受Excel本身的限制。(4)不具可視化功能,需借助其他可視化工具。
3.8 BICOMB
BICOMB主要用于文獻(xiàn)計(jì)量學(xué),也可用于其他結(jié)構(gòu)化數(shù)據(jù),中英文均可。其優(yōu)勢(shì)在于:(1)除預(yù)設(shè)數(shù)據(jù)格式外,用戶還可自定義處理格式。(2)頻次閾值截取功能,允許研究者進(jìn)行典型或高頻數(shù)據(jù)的知識(shí)矩陣網(wǎng)絡(luò)構(gòu)建。(3)可自動(dòng)獲取除引文耦合矩陣外的其他矩陣。其劣勢(shì)為無(wú)規(guī)范化、可視化功能,需結(jié)合可視化工具使用。
3.9 UCINET
UCINET主要用于社會(huì)網(wǎng)絡(luò)分析,也可用于科學(xué)計(jì)量學(xué),是一款功能齊全的可視化工具,整合了Pajek,Mage,NetDraw這3款軟件,涵蓋大量矩陣計(jì)算、轉(zhuǎn)換算法以及網(wǎng)絡(luò)布局算法。但由于其不能直接處理原始數(shù)據(jù),所以需與處理統(tǒng)計(jì)工具相結(jié)合使用。
3.10 gCLUTO
gCLUTO用于矩陣聚類。該軟件特色在于:(1)除對(duì)共現(xiàn)矩陣聚類外,還可對(duì)直接關(guān)系矩陣雙聚類。(2)提供多種聚類算法、相似函數(shù)和標(biāo)準(zhǔn)函數(shù)。(3)經(jīng)過(guò)多維標(biāo)度法生成三維彩色山丘聚類圖形。(4)根據(jù)相似度度量給出各類的特征屬性,用以描述和區(qū)分各類。其不足之處在于:(1)僅能接受矩陣格式數(shù)據(jù),不能直接處理原始數(shù)據(jù)。(2)除聚類外,不涉及其他分析方法。
3.11 VOSviewer
VOSviewer主要用于知識(shí)矩陣網(wǎng)絡(luò)的可視化。自2012年3月后增加處理統(tǒng)計(jì)功能模塊,可處理WOS和Scopus記錄格式數(shù)據(jù)。盡管如此,但因該功能尚不完善,故歸為可視化工具,仍需與其他處理統(tǒng)計(jì)分析工具相結(jié)合。此外,在數(shù)據(jù)規(guī)范化方面,所提供的規(guī)范化度量指標(biāo)僅關(guān)聯(lián)強(qiáng)度一種,其適應(yīng)性較弱。
科學(xué)知識(shí)圖譜是顯示科學(xué)知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一種圖形,以數(shù)學(xué)方程式表達(dá)科學(xué)發(fā)展規(guī)律,用圖譜的形式加以呈現(xiàn),是科學(xué)計(jì)量學(xué)具有前景的研究方向。分析科學(xué)知識(shí)圖譜映射工具的特點(diǎn),有利于知識(shí)圖譜的構(gòu)建,本文簡(jiǎn)要介紹11款科學(xué)映射的工具,對(duì)各映射點(diǎn)進(jìn)行簡(jiǎn)要評(píng)述,希望有助于醫(yī)學(xué)領(lǐng)域知識(shí)圖譜的構(gòu)建。
1 黃亞明.科學(xué)映射模式及其方法論基礎(chǔ)的探討[J].科學(xué)學(xué)研究,2008, 26(5):904-912,931.
2 秦長(zhǎng)江,侯漢清.知識(shí)圖譜——信息管理與知識(shí)管理的新領(lǐng)域[J].大學(xué)圖書館學(xué)報(bào),2009,27(1):30-37,96.
3 王海燕.基于知識(shí)脈絡(luò)分析的ICD-10熱點(diǎn)研究[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(3):73-75.
4 Small H.Update on Science Mapping:creating large document spaces[J].Scientometrics,1997,38(2):275-293.
5 Morris SA,Van der Veer Martens B.Modeling and Mapping of Research Specialties[J].The Annual Review of Information Science and Technology,2007,42(1):213-295.
6 王超,呂俊生,吳新年,等.學(xué)術(shù)網(wǎng)絡(luò)研究進(jìn)展[J].情報(bào)雜志,2013,(10):93-98.
7 岳曉旭,袁軍鵬,高繼平,等.常用科學(xué)知識(shí)圖譜工具實(shí)例對(duì)比[J].數(shù)字圖書館論壇,2014,(5):66-72.
8 侯月明,喬曉東,孫衛(wèi),等. 開(kāi)源分析工具在中文文獻(xiàn)分析中的應(yīng)用[J]. 現(xiàn)代圖書情報(bào)技術(shù),2013,(3):71-76.
9 李維,李毅.轉(zhuǎn)化醫(yī)學(xué)信息學(xué)研究熱點(diǎn)雙向聚類計(jì)量分析[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(4):15-19.
10 Garfield E.Using HistCite to Map the Output of Small World,Walson-Crisk 1953,Cell Death and Differentiation,and Gene Flow[EB/OL].[2014-07-28]. http://garfield.library.upenn.edu/papers/leocester071103.pdf.
11 NWB Team. Network Workbench Tool. Indiana University, Northeastern University, and University of Michigan. 2006[EB/OL].[2014-07-28].http://nwb.slis.indiana.edu.
12 ROST工具列表[EB/OL].[2014-07-28].http://hi.baidu.com/ietynxalzidjoye/item/77fa3d392e5f8b6f7c034bae.
13 Sci2 Team.Science of Science(Sci2) Tool.Indiana University and SciTech Strategies[EB/OL].[2014-07-28].http://Sci2.cns.iu.edu.
14 劉啟元,葉鷹.文獻(xiàn)題錄信息挖掘技術(shù)方法及其軟件SATI的實(shí)現(xiàn)——以中外圖書情報(bào)學(xué)為例[J].信息資源管理學(xué)報(bào),2012,(1):50-58.
15 Cobo MJ,López-Herrera AG,Herrera-Viedma E,et al.SciMAT:a new science mapping analysis software tool[J].Journal of the American Society for Information Science and Technology,2012,63(8):1609-1630.
16 Persson O, Danell R,Wiborg Schneider J. 2009. How to Use Bibexcel for Various Types of Bibliometric Analysis[C].Belgium: Celebrating Scholarly Communication Studies: a festschrift for Olle Persson at his 60th birthday, 2009:9-24.
17 崔雷,劉偉,閆雷,等.文獻(xiàn)數(shù)據(jù)庫(kù)中書目信息共現(xiàn)挖掘系統(tǒng)的開(kāi)發(fā)[J].現(xiàn)代圖書情報(bào)技術(shù),2008,(8):70-75.
18 Borgatti SP,Everett MG,Freeman LC.Ucinet for Windows:software for social network analysis[EB/OL].[2014-07-28].http://www.analytictech.com/ucinet/.
19 Rasmussen M,Karypis G.gCLUTO-An Interactive Clustering,Visualization,and Analysis System[EB/OL].[2014-07-28].http://glaros.dtc.umn.edu/gkhome/node/174.
20 Van Eck NJ,Waltman L.VOSviewer:a computer program for bibliometric mapping[C].Proceeding of the 12th International Conference on Scientometrics and Informetrics,2009:886-889.
21 張玢,梁芳,許培揚(yáng),等.Web of Knowledge在醫(yī)學(xué)信息分析評(píng)價(jià)研究中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2007,28(6):536-540.
22 廖一平.PubMed,Web of Science,Scopus以及Google Scholar比較研究[J].醫(yī)學(xué)信息學(xué)雜志,2009,30(5):18-20,23.
23 White HD.Pathfinder Networks and ACA:a remapping of paradigmatic information scientists[J].Journal of the American Society for Information Science and Technology,2003,(5):423-434.
24 Leydesdorff L.Should Co-occurrence Data be Normalized:a rejoinder[J].Journal of the American Society for Infomation Science and Technology,2007,58(14):2411-2413.
25 Waltman L,Nees Jan van Eck.Some Comments on the Question whether Co-occurrence Data Should be Normalized[J].Journa of the American Society for Information Science and Technology,2007,58(11):1701-1703.
Comparison of Science Mapping Tools in Constructing Medical Knowledge Maps
ZHONGXiu-mei,CUILei,
DepartmentofMedicalInformatics,ChinaMedicalUniversity,Shenyang110013,China
The paper carries out comparative analysis among 11 science mapping tools,including HistCite,NWB,ROST CM,Sci2,SATI,SciMAT,Bibexcel,BICOMB,UCINET,gCLUTO,VOSviewer, introduces and summarizes their characteristcs for helping to construct the knowledge maps in medical domain.
Science mapping tools;Medical knowledge map;Comparison
2015-01-06
鐘秀梅,在讀碩士研究生,發(fā)表論文2篇;通訊作者:崔雷。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.04.011