彭 琰 嚴(yán) 莉
(云南省醫(yī)學(xué)信息研究所 昆明 650031)
?
基于Gephi的云南民族醫(yī)藥研究可視化分析
彭 琰 嚴(yán) 莉
(云南省醫(yī)學(xué)信息研究所 昆明 650031)
采用文獻(xiàn)計(jì)量法、社會(huì)網(wǎng)絡(luò)可視化分析工具Gephi對(duì)云南民族醫(yī)藥研究情況從發(fā)文年代、期刊分布、作者分布、合著網(wǎng)絡(luò)、研究機(jī)構(gòu)分布、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)等方面進(jìn)行分析,指出傣醫(yī)、傣藥為該領(lǐng)域研究的熱點(diǎn)。
云南;民族醫(yī)藥;Gephi;可視化
我國(guó)民族眾多,在數(shù)千年的文明發(fā)展中,各民族醫(yī)藥也隨之發(fā)展,民族醫(yī)藥學(xué)是我國(guó)傳統(tǒng)醫(yī)藥學(xué)的重要組成部分。作為我國(guó)少數(shù)民族大省,云南省人口在5 000以上并有固定分布范圍的少數(shù)民族有26個(gè),其中獨(dú)有的少數(shù)民族多達(dá)15個(gè)。豐富多樣的民族文化和獨(dú)一無(wú)二的自然環(huán)境,造就了云南獨(dú)特的民族醫(yī)藥資源,云南在民族醫(yī)藥的研究、開(kāi)發(fā)和應(yīng)用方面積累豐厚、碩果累累[1]。
信息可視化技術(shù)以計(jì)算機(jī)科學(xué)、地圖學(xué)、認(rèn)知科學(xué)、信息傳播科學(xué)與信息系統(tǒng)為基礎(chǔ),直觀、形象地表現(xiàn)、解釋、傳遞信息并揭示其規(guī)律[2]。在大數(shù)據(jù)時(shí)代,信息可視化技術(shù)能夠幫助更為有效地挖掘和理解大型數(shù)據(jù)集,被廣泛應(yīng)用于生物醫(yī)學(xué)、工程技術(shù)、信息通訊、工商管理和社會(huì)科學(xué)等各個(gè)領(lǐng)域。Gephi是一款免費(fèi)、交互式的復(fù)雜網(wǎng)絡(luò)分析軟件, 支持Windows、Mac OSX以及Linux等環(huán)境,主要用于探索性數(shù)據(jù)分析、鏈接分析、社交網(wǎng)絡(luò)分析和生物網(wǎng)絡(luò)分析等[3]。Gephi操作簡(jiǎn)單,支持中文操作,只需要定義節(jié)點(diǎn)(Node,即關(guān)系網(wǎng)中各個(gè)孤立的個(gè)體)和邊(Edge,關(guān)系網(wǎng)中個(gè)體兩兩之間的關(guān)系),然后通過(guò)軟件提供的算法即可生成復(fù)雜網(wǎng)絡(luò)可視化圖譜。本文采用文獻(xiàn)計(jì)量法、社會(huì)網(wǎng)絡(luò)分析和可視化方法,借助可視化分析工具 Gephi對(duì)云南民族醫(yī)藥研究的現(xiàn)狀進(jìn)行分析,以期描繪云南民族醫(yī)藥研究的知識(shí)圖譜,直觀地展現(xiàn)云南民族醫(yī)藥研究的核心團(tuán)隊(duì)、主要機(jī)構(gòu)和熱點(diǎn)問(wèn)題。
2.1 數(shù)據(jù)采集與預(yù)處理
數(shù)據(jù)來(lái)源于中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)(CBM),檢索時(shí)間為2014年5月14日 ,檢索策略為:民族醫(yī)藥學(xué)/全部副主題詞AND “云南”[國(guó)省市名],共檢索到題錄530條。時(shí)間跨度為1979-2013年。下載包括標(biāo)題、作者、關(guān)鍵詞、作者單位、出處等字段的題錄,通過(guò)Word 轉(zhuǎn)換為表格,剔除綜述、述評(píng)以及重復(fù)記錄,共得到有效記錄463條,將表格導(dǎo)入Excel。
2.2 數(shù)據(jù)分析
首先,采用Excel進(jìn)行文獻(xiàn)發(fā)表年代、期刊、作者、第一作者單位和關(guān)鍵詞詞頻分析,構(gòu)建作者合作交叉列聯(lián)表、共詞交叉列聯(lián)表[4]。其次,構(gòu)建合著網(wǎng)絡(luò)和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。將交叉列聯(lián)表保存成CSV格式,導(dǎo)入Gephi0.8.2版。令每一個(gè)節(jié)點(diǎn)(Node)表示一個(gè)作者或關(guān)鍵詞,如果A與B存在合著或共現(xiàn),則A點(diǎn)和B點(diǎn)之間生成一條邊(Edge),由于合著和關(guān)鍵詞共現(xiàn)均不存在指向性,因此所構(gòu)建的網(wǎng)絡(luò)類型為無(wú)向網(wǎng)絡(luò)(Undirected Network),邊的權(quán)重(Weight)等于合著的次數(shù)或關(guān)鍵詞共現(xiàn)的次數(shù),合著或共現(xiàn)次數(shù)越多兩個(gè)節(jié)點(diǎn)間的邊權(quán)重越大。最后,通過(guò)Gephi軟件布局(Layout)、統(tǒng)計(jì)(Statistics)、排序(Ranking)、再次布局、顯示標(biāo)簽、社團(tuán)發(fā)現(xiàn)(Community-detection)、分割(Partition)、過(guò)濾(Filter)等步驟對(duì)作者合著、關(guān)鍵詞共現(xiàn)進(jìn)行可視化,輸出可視化圖譜并對(duì)圖譜進(jìn)行解讀。
3.1 發(fā)表年度和期刊分布情況
云南省關(guān)于民族醫(yī)藥研究的發(fā)文量在1989-2008年間總體呈上升趨勢(shì),尤其是2006年后發(fā)文量急劇上升,在2008年達(dá)到高峰,該年發(fā)文量達(dá)到67篇,而2009年至今發(fā)文量有所下滑,見(jiàn)圖1,其中2013年發(fā)文量為24篇,可能與數(shù)據(jù)庫(kù)尚未更新完2013年所有數(shù)據(jù)有關(guān)。
圖1 云南省民族醫(yī)藥研究年度發(fā)文量
463篇文章共分布在45種不同的期刊上,其中刊載文章量排在前4位的期刊分別為《中國(guó)民族醫(yī)藥雜志》(49.24%)、《中國(guó)民族民間醫(yī)藥雜志》(19.44%)、《云南中醫(yī)學(xué)院學(xué)報(bào)》(10.15%)和《云南中醫(yī)中藥雜志》(8.21%)。這4種期刊除《中國(guó)民族醫(yī)藥雜志》的編輯部在內(nèi)蒙古外,其他3種期刊編輯部均在云南本地。
3.2 作者分布情況和合著網(wǎng)絡(luò)
由于納入統(tǒng)計(jì)的文獻(xiàn)中合著文獻(xiàn)有350篇,合著作者數(shù)量最多的1篇達(dá)16人,有5位及以上作者的文章僅有57篇,所以選取4位及以下作者合著的文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析。結(jié)果顯示,發(fā)表文章數(shù)量最多的10位作者主要來(lái)自西雙版納傣醫(yī)醫(yī)院和云南中醫(yī)學(xué)院,按照發(fā)表文章數(shù)量依次為西雙版納傣醫(yī)醫(yī)院的傣醫(yī)專家林艷芳(8.42%)、云南中醫(yī)學(xué)院的楊梅(7.99%)、云南中醫(yī)學(xué)院的陳普(7.56%)、云南中醫(yī)學(xué)院的鄭進(jìn)(7.34%)、云南中醫(yī)學(xué)院的胥筱云(6.91%)、西雙版納傣醫(yī)醫(yī)院的玉臘波(4.75%)、云南中醫(yī)學(xué)院的張超(4.32%)、西雙版納傣醫(yī)醫(yī)院的刀會(huì)仙(3.89%)、中國(guó)醫(yī)學(xué)科學(xué)院藥用植物研究所云南所的彭朝忠(3.89%)、云南中醫(yī)學(xué)院的周紅黎(3.24%)、西雙版納傣醫(yī)醫(yī)院的玉波罕(2.59%)、西雙版納傣醫(yī)醫(yī)院的趙應(yīng)紅(2.59%)。
采用Gephi Force Atlas[5]算法構(gòu)建作者合著網(wǎng)絡(luò),導(dǎo)入節(jié)點(diǎn)(Nodes)412個(gè),邊(Edges)780條。經(jīng)Gephi 統(tǒng)計(jì)分析顯示,每個(gè)節(jié)點(diǎn)的平均度(邊的個(gè)數(shù))為3.786,平均路徑長(zhǎng)度(指一個(gè)網(wǎng)絡(luò)中任意兩個(gè)節(jié)點(diǎn)之間最短距離的平均值)為3.999。經(jīng)社團(tuán)發(fā)現(xiàn)(Modularity)分割后網(wǎng)絡(luò)被分為63個(gè)社團(tuán),通過(guò)過(guò)濾(Filter),選取包括98.08%的節(jié)點(diǎn)和邊的14個(gè)社團(tuán),生成作者合著網(wǎng)絡(luò)圖,見(jiàn)圖2??梢?jiàn)云南民族醫(yī)藥研究最活躍的團(tuán)隊(duì)有以下5個(gè):林艷芳團(tuán)隊(duì)(林艷芳、玉臘波、刀會(huì)仙、趙應(yīng)紅),鄭進(jìn)團(tuán)隊(duì)(鄭進(jìn)、陳普、張超、周紅黎),楊梅團(tuán)隊(duì)(楊梅、胥筱云,王寅),包·照日格圖團(tuán)隊(duì)、彭朝忠團(tuán)隊(duì)。這5個(gè)團(tuán)隊(duì)中,楊梅團(tuán)隊(duì)和鄭進(jìn)團(tuán)隊(duì)合著關(guān)系緊密,且與林艷芳團(tuán)隊(duì)也有合著,包·照日格圖團(tuán)隊(duì)和彭朝忠團(tuán)隊(duì)與其他3個(gè)團(tuán)隊(duì)合著較少,且兩個(gè)團(tuán)隊(duì)之間沒(méi)有合著,包·照日格圖團(tuán)隊(duì)僅和鄭進(jìn)團(tuán)隊(duì)有合著,彭朝忠團(tuán)隊(duì)僅和林艷芳團(tuán)隊(duì)有合著。這種團(tuán)隊(duì)間合著關(guān)系的緊密程度與作者研究方向有關(guān),包·照日格圖團(tuán)隊(duì)發(fā)表文獻(xiàn)主要涉及蒙醫(yī)學(xué)的研究,其他4個(gè)團(tuán)隊(duì)主要研究傣醫(yī)學(xué)。
圖2 作者合著網(wǎng)絡(luò)
3.3 研究機(jī)構(gòu)分布情況
發(fā)表文章數(shù)量最多的10個(gè)第1作者所在單位依次為云南中醫(yī)學(xué)院(35.85%)、西雙版納傣族自治州傣醫(yī)醫(yī)院(24.41%)、云南省中醫(yī)中藥研究院(6.70%)、中國(guó)醫(yī)學(xué)科學(xué)院藥用植物研究所云南分所(4.75%)、迪慶藏族自治州藏醫(yī)醫(yī)院(2.16%)、普洱市民族傳統(tǒng)醫(yī)藥研究所(1.94%)、楚雄彝族自治州中醫(yī)醫(yī)院(1.73%)、西雙版納職業(yè)技術(shù)學(xué)院(1.51%)、云南省食品藥品檢驗(yàn)所(1.30%)、中國(guó)科學(xué)院昆明植物研究所(1.08%)。進(jìn)一步將第1作者單位按照云南省行政區(qū)劃進(jìn)行統(tǒng)計(jì),利用Excel 制作氣泡地圖,結(jié)果顯示除昆明外,研究機(jī)構(gòu)主要分布在少數(shù)民族聚集地區(qū)如西雙版納、楚雄、普洱、迪慶、大理、麗江、紅河、德宏等地,見(jiàn)圖3。
圖3 第1作者機(jī)構(gòu)所在地分布?xì)馀莸貓D
3.4 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)
納入統(tǒng)計(jì)的463篇文獻(xiàn)共有關(guān)鍵詞3 006個(gè),通過(guò)Excel建立共詞交叉列聯(lián)表,經(jīng)同義詞清洗后導(dǎo)入Gephi中,共導(dǎo)入節(jié)點(diǎn) 592個(gè)、邊1 248條。 采用Force Atlas算法構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),通過(guò)Gephi 統(tǒng)計(jì)分析顯示,每個(gè)節(jié)點(diǎn)的平均度為4.037,平均路徑長(zhǎng)度為3.217。因?yàn)楣?jié)點(diǎn)有重疊且圖像較分散,影響視覺(jué)效果,故采用Force Atlas 2算法和Fruchterman Reingold算法再次布局,以防止節(jié)點(diǎn)重疊發(fā)生并將圖像收縮。經(jīng)社團(tuán)發(fā)現(xiàn)(Modularity)分割后網(wǎng)絡(luò)被分為35個(gè)社團(tuán),其中5個(gè)社團(tuán)的節(jié)點(diǎn)數(shù)超過(guò)50個(gè),生成關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),見(jiàn)圖4。由圖可見(jiàn),云南省民族民間醫(yī)藥研究涉及傣族、彝族、藏族、佤族、哈尼族、壯族、納西族、白族、蒙古族等少數(shù)民族醫(yī)學(xué)、藥學(xué)、醫(yī)藥學(xué)教育以及醫(yī)藥文化傳承方面,其中傣醫(yī)-中醫(yī)-比較研究、傣醫(yī)-四塔五蘊(yùn)、傣醫(yī)-護(hù)理、傣醫(yī)-文化、傣醫(yī)-治療-膽汁病(哦案)、傣醫(yī)-治療-攏梅蘭申(骨關(guān)節(jié)病)、傣藥-發(fā)展、傣醫(yī)-康朗香、傣醫(yī)-西醫(yī)、傣醫(yī)-康朗臘、彝醫(yī)-慢性咽炎-咽舒寶滴丸、藏醫(yī)-中醫(yī)-比較研究、藏醫(yī)-尿癥、藏藥-開(kāi)發(fā)、藏藥-達(dá)里、云南-民族醫(yī)藥-發(fā)掘整理等方面為云南省民族民間醫(yī)藥研究的熱點(diǎn)問(wèn)題。
圖4 云南民族醫(yī)藥研究關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)
4.1 云南民族醫(yī)藥研究可視化分析的難點(diǎn)
可視化分析的難點(diǎn)在于數(shù)據(jù)整理,尤其是關(guān)鍵詞的整理較為復(fù)雜[6]。首先,民族醫(yī)藥研究文獻(xiàn)中存在少數(shù)民族語(yǔ)言的音譯詞匯,如“攏匹勒”和“攏匹冷”均為月子病,但音譯成了不同的詞匯,需要對(duì)照原文進(jìn)行統(tǒng)一;其次,由于缺少細(xì)致到每一民族醫(yī)藥的主題詞,文獻(xiàn)提供的關(guān)鍵詞存在大量同義詞,例如“傣醫(yī)”、“傣醫(yī)藥”、“傣醫(yī)學(xué)”、“傣醫(yī)藥學(xué)”等,面對(duì)這種情況,同樣需要根據(jù)原文內(nèi)容進(jìn)行調(diào)整。
4.2 Gephi分析中文文獻(xiàn)的優(yōu)勢(shì)
當(dāng)前,可視化分析技術(shù)已經(jīng)被廣泛應(yīng)用于生物醫(yī)學(xué)文獻(xiàn)的分析中,國(guó)內(nèi)學(xué)者利用各種可視化分析工具構(gòu)建了各種主題的知識(shí)圖譜,其中最為常見(jiàn)的分析工具包括CiteSpace[7],HistCite[8],BICOMB[9],Bibexcel[10],Pajek[11],UCINET[12]等。這些分析工具除BICOMB外,均為國(guó)外軟件,支持的數(shù)據(jù)源以Web of Science 為主。因此采用國(guó)外軟件分析中文文獻(xiàn)時(shí)必須進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換。而Gephi能夠直接導(dǎo)入Excel生成的CSV文件并且支持中文輸入和輸出,可以省去將中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)(CBM)導(dǎo)出數(shù)據(jù)轉(zhuǎn)化成CiteSpace和Bibexcel等軟件匹配格式的步驟,能夠較為便捷地分析中文來(lái)源的文獻(xiàn)。
4.3 Gephi靜態(tài)展示的缺點(diǎn)
本次納入分析的節(jié)點(diǎn)數(shù)均在400個(gè)以上,在Gephi輸出靜態(tài)分析圖像時(shí),如果選擇固定的標(biāo)簽字體大小,則標(biāo)簽密度太大,可讀性較差,而選擇標(biāo)簽字體與節(jié)點(diǎn)大小匹配時(shí),節(jié)點(diǎn)越小則標(biāo)簽越小,雖然能夠較為直觀地展示研究核心團(tuán)隊(duì)和研究熱點(diǎn),展現(xiàn)作者合著和關(guān)鍵詞共現(xiàn)全貌的效果又不理想,還需要進(jìn)一步優(yōu)化。
借助可視化分析工具 Gephi對(duì)1989-2013年間云南省內(nèi)關(guān)于民族醫(yī)藥研究的文獻(xiàn)進(jìn)行了可視化分析,通過(guò)作者合著網(wǎng)絡(luò)發(fā)現(xiàn)林艷芳團(tuán)隊(duì)、鄭進(jìn)團(tuán)隊(duì)、楊梅團(tuán)隊(duì)、包·照日格圖團(tuán)隊(duì)、彭朝忠團(tuán)隊(duì)是云南省民族醫(yī)藥研究的核心團(tuán)隊(duì),云南省中醫(yī)學(xué)院、西雙版納傣族自治州傣醫(yī)醫(yī)院和云南省中醫(yī)中藥研究院是該方面研究的主要機(jī)構(gòu),而傣醫(yī)、傣藥方面的研究為云南省民族醫(yī)藥研究的最熱點(diǎn)。
1 劉本璽,董廣平,楊本雷,等.泛亞國(guó)際民族醫(yī)藥交流與合作——橋頭堡戰(zhàn)略下面向東南亞南亞的云南民族醫(yī)藥[J].云南中醫(yī)學(xué)院學(xué)報(bào) ,2013,(4):34-37.
2 王敏,張燕舞,張玢,等.信息可視化在醫(yī)學(xué)文獻(xiàn)分析中的初步應(yīng)用理論研究[J].醫(yī)學(xué)信息學(xué)雜志,2010,31(2):40-44,49.
3 https://gephi.org/[EB/OL].[2014-05-30].
4 儲(chǔ)節(jié)旺,郭春俠.EXCEL實(shí)現(xiàn)共詞分析的方法——以國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域知識(shí)管理研究為例[J].情報(bào)雜志,2011,30(3):45-49.
5 關(guān)迎暉,向勇,陳康. 基于Gephi的可視分析方法研究與應(yīng)用[J]. 電信科學(xué),2013, (S1): 112-119.
6 肖志彬,程鴻,趙蓉英,等.蒙醫(yī)文獻(xiàn)信息可視化分析[J].醫(yī)學(xué)信息學(xué)雜志,2012,33(10):48-50,62.
7 吳瓊. 健康素養(yǎng)研究的知識(shí)圖譜——基于CiteSpace的計(jì)量分析[J]. 醫(yī)學(xué)信息學(xué)雜志,2012,33(6):7-13.
8 閆雷,關(guān)晶,崔雷. 基于HistCite的抗瘧藥研究相關(guān)文獻(xiàn)引文編年圖和主要路徑[J]. 醫(yī)學(xué)信息學(xué)雜志,2012,33(9):51-54.
9 張浩,成施充,崔雷. 我國(guó)情報(bào)學(xué)碩士學(xué)位論文研究熱點(diǎn)分析[J]. 醫(yī)學(xué)信息學(xué)雜志,2012,33(2):44-47.
10 周曉分,黃國(guó)彬,白雅楠. 科學(xué)計(jì)量可視化軟件的對(duì)比與數(shù)據(jù)預(yù)處理研究[J]. 圖書(shū)情報(bào)工作,2013,(23):64-72.
11 陳碩,宮雪,毛智,等.鎖定鋼板相關(guān)研究文獻(xiàn)計(jì)量指標(biāo)及可視化分析[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(19):55-59.
12 魏瑞斌. 國(guó)內(nèi)知識(shí)圖譜研究的可視化分析[J]. 圖書(shū)情報(bào)工作,2011,(8):126-130.
Visualization Analysis of Yunnan Nationality Medicine Research Based on Gephi
PENGYan,YANLi,
MedicalInformationInstituteofYunnanProvince,Kunming650031,China
Using bibliometric analysis method and Gephi, which is a social network visualization analysis tool, the paper carries out analysis on Yunnan nationality medicine research status from the aspects of publishing year, journal distribution, author distribution, co-author network, research institution distribution, keywords co-occurrence network, etc. Dai medicine and Dai drugs are the hottest aspects in this area.
Yunnan province; Nationality medicine; Gephi; Visualization
2014-09-08
彭琰,助理研究員,發(fā)表論文10余篇。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.02.015