石習(xí)敏,陳 娟,楊均雪,趙文龍
·數(shù)據(jù)研究分享·
基于知識(shí)圖譜的國(guó)內(nèi)外醫(yī)學(xué)數(shù)據(jù)挖掘研究可視化探析
石習(xí)敏,陳 娟,楊均雪,趙文龍*
采用文獻(xiàn)計(jì)量學(xué)方法和知識(shí)圖譜方法,以CNKI和Web of ScienceTM數(shù)據(jù)庫(kù)中1998—2016年收錄的醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘相關(guān)文獻(xiàn)為分析樣本,從論文數(shù)量、核心作者和研究機(jī)構(gòu)分布、研究熱點(diǎn)前沿等方面進(jìn)行定量定性分析,探討國(guó)內(nèi)外醫(yī)學(xué)數(shù)據(jù)挖掘研究熱點(diǎn)及發(fā)展前沿,對(duì)比國(guó)內(nèi)外醫(yī)學(xué)領(lǐng)域發(fā)展中的異同點(diǎn),以期促進(jìn)我國(guó)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究的進(jìn)一步應(yīng)用和發(fā)展。
文獻(xiàn)計(jì)量學(xué);知識(shí)圖譜;數(shù)據(jù)挖掘;臨床醫(yī)學(xué);可視化
石習(xí)敏,陳娟,楊均雪,等.基于知識(shí)圖譜的國(guó)內(nèi)外醫(yī)學(xué)數(shù)據(jù)挖掘研究可視化探析[J].中國(guó)全科醫(yī)學(xué),2017,20(21):2623-2628.[www.chinagp.net]
SHI X M,CHEN J,YANG J X,et al.Visualization of domestic and abroad medical data mining based on knowledge mapping[J].Chinese General Practice,2017,20(21):2623-2628.
科技部2014年度重點(diǎn)支持方向之一即為大數(shù)據(jù)應(yīng)用研發(fā)與基礎(chǔ)研究[1],在科技高速發(fā)展的帶動(dòng)下,醫(yī)院信息化建設(shè)日臻完善,如何有效地運(yùn)用數(shù)據(jù)分析方法挖掘海量醫(yī)學(xué)數(shù)據(jù)中蘊(yùn)含的高價(jià)值信息,進(jìn)而實(shí)現(xiàn)知識(shí)發(fā)現(xiàn),服務(wù)于醫(yī)院的科學(xué)決策[2],是目前醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究關(guān)注的重要課題。本文利用文獻(xiàn)計(jì)量學(xué)方法和科學(xué)知識(shí)圖譜分析工具——Citespace Ⅲ,從CNKI和Web of ScienceTM數(shù)據(jù)庫(kù)分別選取國(guó)內(nèi)外醫(yī)學(xué)領(lǐng)域有關(guān)數(shù)據(jù)挖掘技術(shù)應(yīng)用的文獻(xiàn)進(jìn)行分析,探討國(guó)際醫(yī)學(xué)大數(shù)據(jù)挖掘領(lǐng)域發(fā)展動(dòng)態(tài),對(duì)比國(guó)內(nèi)外研究熱點(diǎn)和研究前沿的異同,剖析數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域應(yīng)用現(xiàn)狀和特點(diǎn),以促進(jìn)數(shù)據(jù)挖掘技術(shù)在我國(guó)醫(yī)學(xué)領(lǐng)域中更廣泛、更深入的應(yīng)用。
1.1 數(shù)據(jù)來(lái)源 國(guó)內(nèi)外數(shù)據(jù)庫(kù)檢索時(shí)間均為2016-05-04。
本研究背景及創(chuàng)新點(diǎn):
醫(yī)院信息化逐步完善,醫(yī)學(xué)數(shù)據(jù)存儲(chǔ)量越來(lái)越龐大,如何有效地運(yùn)用數(shù)據(jù)分析方法挖掘海量醫(yī)學(xué)數(shù)據(jù)中蘊(yùn)含的高價(jià)值信息,進(jìn)而實(shí)現(xiàn)知識(shí)發(fā)現(xiàn),服務(wù)于醫(yī)院的科學(xué)決策,是目前醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究熱切關(guān)注的重要課題。本研究對(duì)國(guó)內(nèi)外醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究相關(guān)文獻(xiàn)進(jìn)行梳理,分析該領(lǐng)域發(fā)展現(xiàn)狀及研究熱點(diǎn)、前沿。
本研究使用了科學(xué)知識(shí)圖譜分析工具——Citespace Ⅲ,從CNKI和Web of ScienceTM數(shù)據(jù)庫(kù)分別選取國(guó)內(nèi)外醫(yī)學(xué)領(lǐng)域有關(guān)數(shù)據(jù)挖掘技術(shù)應(yīng)用的文獻(xiàn)進(jìn)行分析,探討國(guó)際醫(yī)學(xué)大數(shù)據(jù)挖掘領(lǐng)域發(fā)展動(dòng)態(tài),對(duì)比國(guó)內(nèi)外研究熱點(diǎn)和研究前沿的異同。
在CNKI中,限定文獻(xiàn)類型為期刊后進(jìn)行高級(jí)檢索,檢索策略:中圖分類號(hào)為“R”并且主題為“數(shù)據(jù)挖掘”,采用CNKI默認(rèn)的回溯期,第1篇醫(yī)學(xué)數(shù)據(jù)挖掘文獻(xiàn)出現(xiàn)在1998年。同樣,限定時(shí)間為1998—2016年,在Web of ScienceTM數(shù)據(jù)庫(kù)(Web of ScienceTM核心合集、BIOSIS Previews?、MEDLINE?、SciELO Citation Index)限定文獻(xiàn)類型為“ARTICLE”后進(jìn)行主題檢索,檢索策略:“data mining”AND“medical*”。下載全部文獻(xiàn)題錄數(shù)據(jù)并以txt格式保存作為樣本集。
1.2 研究方法 采用文獻(xiàn)計(jì)量學(xué)方法對(duì)國(guó)內(nèi)外醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究進(jìn)行分析,并用Citespace Ⅲ繪制科學(xué)知識(shí)圖譜。文獻(xiàn)計(jì)量學(xué)方法是通過(guò)分析科學(xué)文獻(xiàn)的增長(zhǎng)和分布,評(píng)價(jià)學(xué)者研究成果的影響力,運(yùn)用普萊斯定律,即相同主題中論文數(shù)量的一半是由具有較高生產(chǎn)力的作者群體所寫(xiě),并且該作者集合的數(shù)量約等于所有作者總數(shù)的平方根[3]。
Citespace Ⅲ被廣泛應(yīng)用于學(xué)科領(lǐng)域發(fā)展趨勢(shì)和研究前沿的文獻(xiàn)分析[4],通過(guò)設(shè)置閾值,Timespan選擇1996—2016年(Slice Length=1),設(shè)定文獻(xiàn)被引頻次(C)、兩篇文獻(xiàn)共引頻次(CC)、文獻(xiàn)共引系數(shù)(CCV)的閾值分別為(2,2,20)、(4,3,20)、(4,3,20),將醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究發(fā)展規(guī)律繪制成知識(shí)圖譜,對(duì)知識(shí)網(wǎng)絡(luò)中的節(jié)點(diǎn)疏密度進(jìn)行可視化展示,顯示科學(xué)知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系[5],以掌握國(guó)內(nèi)外醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究熱點(diǎn)及研究前沿等最新發(fā)展動(dòng)態(tài)。
1.3 檢索結(jié)果 依據(jù)檢索條件,剔除會(huì)議通知、征稿啟事等與主題無(wú)關(guān)的信息,從CNKI索出2 541條文獻(xiàn),國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究呈現(xiàn)多學(xué)科融合發(fā)展態(tài)勢(shì),截至目前已涵蓋延伸至36個(gè)學(xué)科領(lǐng)域,發(fā)文量逐年上升;從Web of ScienceTM數(shù)據(jù)庫(kù)檢索出2 621條文獻(xiàn),國(guó)外該領(lǐng)域發(fā)文量整體呈增長(zhǎng)趨勢(shì)。
2.1 時(shí)間序列發(fā)文量 CNKI檢索出醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘方面的學(xué)術(shù)論文2 541篇,從時(shí)間序列上來(lái)看,1998—2016年,國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究發(fā)文量整體呈增長(zhǎng)趨勢(shì);1998—2003年該領(lǐng)域發(fā)文量增長(zhǎng)緩慢,原因?yàn)閲?guó)內(nèi)數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用處于起步階段;2003年以后,該領(lǐng)域發(fā)文量增長(zhǎng)速度較快,以2011年為拐點(diǎn),之后發(fā)文量增長(zhǎng)迅速,在2015年達(dá)到499篇,增長(zhǎng)率為35.2%(見(jiàn)圖1)。學(xué)科領(lǐng)域的發(fā)文量在一定程度上可以反映該學(xué)科的發(fā)展程度和研究水平,該數(shù)據(jù)表明,國(guó)內(nèi)數(shù)據(jù)挖掘研究在醫(yī)學(xué)領(lǐng)域正處于較快發(fā)展階段,大數(shù)據(jù)研究已引起了相關(guān)研究者的關(guān)注。
注:檢索數(shù)據(jù)截止時(shí)間2016-05-04
圖1 1998—2016年CNKI中醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究的論文數(shù)量
Figure 1 Number of articles about medical data mining in CNKI from 1998 to 2016
圖2 CNKI中高產(chǎn)作者的共現(xiàn)圖譜
Figure 2 Knowledge mapping of prolific authors in medical data mining in CNKI
圖3 CNKI中醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究中前10位高產(chǎn)作者及其發(fā)文量
Figure 3 Ten prolific authors with the largest number of articles about medical data mining indexed in CNKI
我國(guó)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究目前主要集中在中醫(yī)類高校及研究所,這與中醫(yī)類高校及研究所的科研氛圍濃厚、學(xué)術(shù)水平較高存在一定關(guān)聯(lián)。其中,北京中醫(yī)藥大學(xué)發(fā)文量最多(見(jiàn)圖4),說(shuō)明該研究機(jī)構(gòu)對(duì)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究較為重視,科研力量較為強(qiáng)大;其次是山東中醫(yī)藥大學(xué)、中國(guó)中醫(yī)科學(xué)院廣安門醫(yī)院、中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所、成都中醫(yī)藥大學(xué)、南京中醫(yī)藥大學(xué)等。
圖4 CNKI中醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究機(jī)構(gòu)的共現(xiàn)圖譜
Figure 4 Knowledge mapping of institutions that the authors published articles about medical data mining from in CNKI
2.3 研究熱點(diǎn)和研究前沿分析 研究熱點(diǎn)和研究前沿常來(lái)源于新的科學(xué)發(fā)現(xiàn)或?qū)W科進(jìn)展,是科學(xué)研究中最先進(jìn)、最有發(fā)展?jié)摿Φ难芯恐黝}或研究領(lǐng)域[6]。關(guān)鍵詞詞頻共現(xiàn)可揭示文獻(xiàn)所屬領(lǐng)域研究主題的熱點(diǎn)分布并揭示其內(nèi)在聯(lián)系和演進(jìn)規(guī)律[7]。Citespace Ⅲ可應(yīng)用于研究文獻(xiàn)的識(shí)別,繪制關(guān)鍵詞共現(xiàn)圖譜,進(jìn)而顯示醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究發(fā)展新趨勢(shì)和新動(dòng)態(tài),設(shè)置Citespace Ⅲ相應(yīng)閾值,并選擇最小生成樹(shù)(MST)算法,共形成94個(gè)節(jié)點(diǎn),102條連線(見(jiàn)圖5)。
關(guān)鍵詞共現(xiàn)圖譜中字體大小及圓圈顏色可客觀反映醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究在不同時(shí)期的研究熱度[8]。由于本文分析的是數(shù)據(jù)挖掘相關(guān)研究,所以在分析時(shí)剔除了頻次最高的關(guān)鍵詞“數(shù)據(jù)挖掘”。從圖5可看到,“關(guān)聯(lián)規(guī)則”“配伍規(guī)律”“數(shù)據(jù)倉(cāng)庫(kù)”“中醫(yī)傳承輔助系統(tǒng)”“聚類分析”等詞匯圓圈較大且有紫色外圈,且顯現(xiàn)出“醫(yī)案”“方劑”“中藥”“針灸”圓圈稍小的熱點(diǎn)詞匯,反映了國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究范疇較廣,目前研究熱點(diǎn)主要在于探索中醫(yī)用藥規(guī)律的數(shù)據(jù)挖掘研究。
3.1 時(shí)間序列發(fā)文量 Web of ScienceTM數(shù)據(jù)庫(kù)中檢索出醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘方面的學(xué)術(shù)論文2 621篇。從時(shí)間序列上來(lái)看,1998—2016年,國(guó)外醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究發(fā)文量整體呈增長(zhǎng)趨勢(shì)(見(jiàn)圖6),該數(shù)據(jù)表明,國(guó)外數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用正處于發(fā)展較快階段。
3.2 高產(chǎn)作者和研究機(jī)構(gòu)分布 對(duì)高產(chǎn)作者進(jìn)行統(tǒng)計(jì),從Citespace Ⅲ中提取數(shù)據(jù),排名第一的是TSUMOTO S,發(fā)表論文60篇。依據(jù)普萊斯定律計(jì)算結(jié)果為5.8篇,即為6篇。發(fā)文量在6篇以上的核心作者58位,共發(fā)表論文503篇,占所有論文總數(shù)的19.19%,可以看出醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究中高產(chǎn)作者的帶頭作用還未形成(未達(dá)到50%)。表1中列出排名前10位的高產(chǎn)作者及其發(fā)文量,共計(jì)發(fā)表論文170篇。設(shè)置Citespace Ⅲ相關(guān)屬性,構(gòu)建該領(lǐng)域研究者研究機(jī)構(gòu)的共現(xiàn)圖譜(見(jiàn)圖7),并進(jìn)行統(tǒng)計(jì)分析,其中,Shimane Univ發(fā)文量最多,其次是Stanford Univ、Harvard Univ、Shimane Med Univ、US FDA、Univ Iowa等。
圖5 CNKI中醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究關(guān)鍵詞的共現(xiàn)圖譜
Figure 5 Key words co-appearance mapping of medical data mining in CNKI
注:檢索數(shù)據(jù)截止時(shí)間2016-05-04
圖6 1998—2016年Web of ScienceTM數(shù)據(jù)庫(kù)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘文獻(xiàn)數(shù)量
Figure 6 Number of articles about medical data mining included in the Web of ScienceTMfrom 1998 to 2016
3.3 研究熱點(diǎn)和研究前沿分析 以“key words”作為節(jié)點(diǎn),選擇“citation burst”,設(shè)置Citespace Ⅲ相關(guān)屬性,得到關(guān)鍵詞共現(xiàn)圖譜[9],共形成172個(gè)節(jié)點(diǎn),399條連線(見(jiàn)圖8),從中可以看到classification(分類)、system(系統(tǒng))、databases(數(shù)據(jù)庫(kù))、algorithm(算法)、information(信息)、diagnosis(診斷)、prediction(預(yù)測(cè))、text mining(文本挖掘)、knowledge discovery(知識(shí)發(fā)現(xiàn))、medical informatics(醫(yī)學(xué)信息學(xué))10個(gè)熱點(diǎn)詞匯,顯示當(dāng)前國(guó)外醫(yī)學(xué)數(shù)據(jù)挖掘研究已經(jīng)延伸到了技術(shù)應(yīng)用的深層次領(lǐng)域。
表1 Web of ScienceTM數(shù)據(jù)庫(kù)中醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究前10位高產(chǎn)作者及其發(fā)文量統(tǒng)計(jì)(n=2 621)
Table 1 Top 10 prolific authors and the number of their published articles in medical data mining included in the Web of ScienceTM
作者發(fā)文數(shù)量(篇)相對(duì)數(shù)(%)TSUMOTOS602.289HIRANOS271.030BEUSCARTR110.420IWATAH110.420SHAHNH110.420ZHANGJ110.420LIUBY100.382REINERBI100.382ZHOUXZ100.382KUSIAKA90.343合計(jì)1706.488
圖7 Web of ScienceTM數(shù)據(jù)庫(kù)中醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究者研究機(jī)構(gòu)的共現(xiàn)圖譜
Figure 7 Knowledge mapping of the researchers and institutions engaging in medical data mining included in the Web of ScienceTM
圖8 Web of ScienceTM數(shù)據(jù)庫(kù)中醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究關(guān)鍵詞的共現(xiàn)圖譜
Figure 8 Key words co-appearance mapping of the medical data mining in the Web of ScienceTM
在學(xué)科研究熱點(diǎn)及前沿分析中,中心度和關(guān)鍵詞頻次可用來(lái)衡量不同節(jié)點(diǎn)在知識(shí)網(wǎng)絡(luò)中的重要性,以分析學(xué)科領(lǐng)域的研究熱點(diǎn)[4]。通過(guò)對(duì)Citespace Ⅲ后臺(tái)數(shù)據(jù)近5年出現(xiàn)頻次不少于3次的關(guān)鍵詞及相應(yīng)中心度進(jìn)行統(tǒng)計(jì),并結(jié)合突顯詞和關(guān)鍵詞圖譜分析發(fā)現(xiàn):
(1)在技術(shù)研究層面,數(shù)據(jù)挖掘研究技術(shù)在國(guó)內(nèi)外醫(yī)學(xué)領(lǐng)域均得到進(jìn)一步發(fā)展。從表2、表3中可看出,國(guó)內(nèi)外該領(lǐng)域逐漸出現(xiàn)了“支持向量機(jī)”“R語(yǔ)言”“決策支持系統(tǒng)”等名詞。由此可見(jiàn),隨著科學(xué)技術(shù)的發(fā)展,醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘方法也呈現(xiàn)出多樣化發(fā)展趨勢(shì)。
(2)在研究?jī)?nèi)容方面,國(guó)內(nèi)外有關(guān)藥品信息的研究一直處于熱點(diǎn),但側(cè)重點(diǎn)不同。國(guó)內(nèi)外相關(guān)研究文獻(xiàn)關(guān)鍵詞共現(xiàn)分析發(fā)現(xiàn),近5年均出現(xiàn)了“藥物不良反應(yīng)”等藥物相關(guān)詞匯(見(jiàn)表2、表3),但國(guó)內(nèi)偏向于“組方規(guī)律”“證候要素”“選穴規(guī)律”等中醫(yī)用藥的規(guī)律研究。
(3)國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究有國(guó)際化走向趨勢(shì),國(guó)外學(xué)者研究了“gene(基因)”“systems biology(系統(tǒng)生物學(xué))”“genome-wide association(全基因組關(guān)聯(lián))”,國(guó)內(nèi)研究相繼出現(xiàn)了“全基因組關(guān)聯(lián)研究”“生物醫(yī)學(xué)”,雖然頻次相對(duì)較少,但也說(shuō)明國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究范疇正逐漸擴(kuò)大,生物信息學(xué)相關(guān)研究正成為國(guó)內(nèi)外醫(yī)學(xué)數(shù)據(jù)挖掘領(lǐng)域新的發(fā)展前沿。
(4)國(guó)內(nèi)數(shù)據(jù)挖掘研究關(guān)鍵詞出現(xiàn)頻次最高的為中醫(yī)輔助傳承系統(tǒng)(76次),其次為組方規(guī)律(61次),以及證候要素、醫(yī)案、中藥、名老中醫(yī)、糖尿病等,說(shuō)明目前國(guó)內(nèi)醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究前沿主要側(cè)重于中醫(yī)領(lǐng)域,慢性病研究居多,并逐漸應(yīng)用于醫(yī)院管理決策層面。而國(guó)際上研究范疇較廣,就研究?jī)?nèi)容而言,重視技術(shù)與方法研究,側(cè)重于電子病歷臨床數(shù)據(jù)挖掘技術(shù)的研究,并應(yīng)用于臨床實(shí)踐,諸如自然語(yǔ)言處理、電子健康檔案、文本挖掘、預(yù)測(cè)、診斷等高頻詞(見(jiàn)表3、圖8)。YAMADA等[10]分析了血清清蛋白水平對(duì)乙型肝炎病毒非相關(guān)肝細(xì)胞癌的數(shù)據(jù)挖掘研究,SUDARSHAN等[11]研究了數(shù)據(jù)挖掘的框架在超聲心肌梗死階段的識(shí)別,TEIMOURI等[12]使用數(shù)據(jù)挖掘工具和技術(shù)檢測(cè)疾病醫(yī)療處方。
本研究借助文獻(xiàn)計(jì)量學(xué)方法和Citespace Ⅲ可視化功能,對(duì)1998—2016年CNKI和Web of ScienceTM數(shù)據(jù)庫(kù)中收錄的、以“數(shù)據(jù)挖掘”為主題的研究文獻(xiàn),從發(fā)表時(shí)間、作者機(jī)構(gòu)及前沿?zé)狳c(diǎn)視角進(jìn)行統(tǒng)計(jì)分析,探討國(guó)內(nèi)外醫(yī)學(xué)領(lǐng)域發(fā)展中的異同點(diǎn),得出結(jié)論如下:第一,從時(shí)間序列上看,大數(shù)據(jù)挖掘研究已引起國(guó)內(nèi)外廣泛關(guān)注,該領(lǐng)域內(nèi)研究文獻(xiàn)發(fā)文量均呈增長(zhǎng)趨勢(shì);第二,新的數(shù)據(jù)挖掘方法逐漸得以應(yīng)用,已經(jīng)形成了多個(gè)熱點(diǎn)研究主題。通過(guò)知識(shí)圖譜對(duì)比分析后發(fā)現(xiàn),藥品信息、生物醫(yī)學(xué)領(lǐng)域是國(guó)內(nèi)外共同關(guān)注的研究熱點(diǎn),區(qū)別是國(guó)內(nèi)側(cè)重中醫(yī)用藥規(guī)律、慢性病研究,并應(yīng)用于醫(yī)院管理決策。國(guó)際上側(cè)重電子健康檔案、文本挖掘等臨床數(shù)據(jù)研究,并將知識(shí)發(fā)現(xiàn)應(yīng)用于臨床實(shí)踐;第三,從高產(chǎn)作者和研究機(jī)構(gòu)來(lái)看,核心作者的群體帶頭作用暫未形成,依據(jù)普萊斯定律,國(guó)內(nèi)該領(lǐng)域研究高產(chǎn)作者群體帶頭作用有望形成(科研成果已達(dá)44.39%,接近50.00%)。數(shù)據(jù)挖掘研究成果較為突出的機(jī)構(gòu)主要集中在中醫(yī)藥大學(xué)等高校及研究所,表明其在中醫(yī)領(lǐng)域有了較好的發(fā)展。CNKI中醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究關(guān)鍵詞的共現(xiàn)圖譜(見(jiàn)圖5)顯示“中醫(yī)傳承輔助系統(tǒng)”,查閱相應(yīng)節(jié)點(diǎn)文獻(xiàn)分析得知,中國(guó)中醫(yī)科學(xué)院研發(fā)了中醫(yī)傳承數(shù)據(jù)挖掘系統(tǒng),在一定程度上推動(dòng)了中醫(yī)藥領(lǐng)域數(shù)據(jù)挖掘的應(yīng)用發(fā)展,而對(duì)數(shù)據(jù)同樣豐富的臨床醫(yī)學(xué)來(lái)說(shuō),國(guó)內(nèi)臨床醫(yī)學(xué)數(shù)據(jù)挖掘研究成果與國(guó)外相比存在一定差距,需探索積極新的研究方向并深化研究,進(jìn)而推動(dòng)我國(guó)醫(yī)學(xué)科學(xué)研究的全面發(fā)展。
表2 CNKI中近5年醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘關(guān)鍵詞和中心度統(tǒng)計(jì)分析
Table 2 Analysis of the key words and centrality of the medical data mining from CNKI from 2010 to 2015
年度關(guān)鍵詞頻次中心度2015生物醫(yī)學(xué)150.05慢性萎縮性胃炎120.13組方用藥規(guī)律90.06R語(yǔ)言30.042014糖尿病260.00醫(yī)院管理160.01選穴規(guī)律130.03全基因組關(guān)聯(lián)研究50.092013決策支持210.03文本挖掘200.30針灸療法180.02藥物警戒180.08信息化170.012012中醫(yī)輔助傳承系統(tǒng)760.53組方規(guī)律610.20失眠120.042011醫(yī)案500.06中藥410.162010證候要素600.15名老中醫(yī)380.04藥品不良反應(yīng)200.04
表3 Web of ScienceTM數(shù)據(jù)庫(kù)中近5年醫(yī)學(xué)領(lǐng)域數(shù)據(jù)挖掘關(guān)鍵詞和中心度統(tǒng)計(jì)分析
Table 3 Analysis of the key words and centrality of the medical data mining from Web of ScienceTMfrom 2010 to 2015
年度關(guān)鍵詞頻次中心度2015risk-factors(危險(xiǎn)因子)160.00electronicmedicalrecords(電子病歷)100.00adversedrugreaction(藥物不良反應(yīng))40.02immunizationsafetydata(免疫安全數(shù)據(jù))40.012014decisionsupportsystems(決策支持系統(tǒng))80.02ionizing-radiation(電離輻射)30.01outlierdetection(孤立點(diǎn)檢測(cè))80.002013genome-wideassociation(全基因組關(guān)聯(lián))50.01cardiology(心臟病學(xué))30.02medical-records(醫(yī)學(xué)記錄)120.032012systemsbiology(系統(tǒng)生物學(xué))90.00supportvectormachine(支持向量機(jī))80.03imagemining(圖像挖掘)60.01adverseevents(不良反應(yīng)事件)50.02clinical-practice(臨床實(shí)踐)30.01dataintegration(數(shù)據(jù)集成)80.002011biomarkers(生物標(biāo)記)40.01radiologyreporting(放射學(xué)報(bào)告)30.00naturallanguageprocessing(自然語(yǔ)言處理)210.012010electronichealthrecords(電子健康檔案)200.05gene(基因)40.02
作者貢獻(xiàn):石習(xí)敏進(jìn)行文章的構(gòu)思與設(shè)計(jì)、數(shù)據(jù)收集與整理、結(jié)果分析與解釋、撰寫(xiě)論文;石習(xí)敏、陳娟、楊均雪進(jìn)行研究的實(shí)施與可行性分析;石習(xí)敏、陳娟進(jìn)行論文修訂;趙文龍負(fù)責(zé)文章的質(zhì)量控制及審校,對(duì)文章整體負(fù)責(zé),監(jiān)督管理。
本文無(wú)利益沖突。
本文研究不足之處:
本文外文數(shù)據(jù)庫(kù)僅選用了Web of ScienceTM數(shù)據(jù)庫(kù),后期文章可嘗試選用PubMed數(shù)據(jù)庫(kù)進(jìn)行綜合分析。
[1]中華人民共和國(guó)科學(xué)技術(shù)部.科技部基礎(chǔ)司組織召開(kāi)大數(shù)據(jù)科學(xué)問(wèn)題研討會(huì)[EB/OL].(2014-09-01)[2016-05-24].http://www.most.gov.cn/kjbgz/201408/t20140829_115309.htm. Ministry of Science and Technology of the People′s Republic of China.A large data science seminar organized by department of science and technology foundation [EB/OL].(2014-09-01)[2016-05-24].http://www.most.gov.cn/kjbgz/201408/t20140829_115309.htm.
[2]孫向東,黃曉琴,朱春倫,等.基于循證醫(yī)學(xué)的海量醫(yī)學(xué)數(shù)據(jù)挖掘分析方法研究[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(3):11-16.DOI:10.3969/j.issn.1673-6036.2015.03.03. SUN X D,HUANG X Q,ZHU C L,et al.Research on massive medical data mining analysis method based on evidence-based medicine[J].Journal of Medical Intelligence,2015,36(3):11-16.DOI:10.3969/j.issn.1673-6036.2015.03.03.
[3]D·普賴斯.小科學(xué)·大科學(xué)[M].宋劍耕,戴振飛,譯.北京:世界知識(shí)出版社,1982:10-25. PRYSE D.Little science and big science[M].SONG J G,DAI Z F,translate.Beijing:World Knowledge Press,1982:10-25.
[4]CHEN C.Cite SpaceⅡ:detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.DOI:10.1002/asi.20317.
[5]CHEN C,CHEN Y,HOROWITZ M,et al.Towards an explanatory and computational theory of scientific discovery [J].Journal of Informetrics,2009,3(3):191-209.DOI:10.1016/j.joi.2009. 03.004.
[6]陳仕吉.科學(xué)研究前沿探測(cè)方法綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2009,25(9):28-33.DOI:10.11925/infotech.1003-3513.2009.09.05. CHEN S J.Survey of approaches to research front detection[J].New Technology of Library and Information Service,2009,25(9):28-33.DOI:10.11925/infotech.1003-3513.2009.09.05.
[7]孫雨生,陳衛(wèi).我國(guó)網(wǎng)格服務(wù)研究進(jìn)展——基于CNKI(2003—2012)的文獻(xiàn)計(jì)量與知識(shí)圖譜分析[J].現(xiàn)代情報(bào),2013,33(7):102-111.DOI:10.3969/j.issn.1008-0821.2013.07.024. SUN Y S,CHEN W.Research development of grid service in China——bibliometric and mapping knowledge domains analysis based on CNKI from 2003 to 2012[J].Modern Information,2013,33(7):102-111.DOI:10.3969/j.issn.1008-0821.2013.07.024.
[8]曾麗.國(guó)內(nèi)元數(shù)據(jù)研究的文獻(xiàn)計(jì)量分析[J].情報(bào)探索,2016,1(4):130-134.DOI:10.3969/j.issn.1005-8095.2016.04. 029. ZENG L.Bibliometric analysis of metadata researhes in China[J].Information Research,2016,1(4):130-134.DOI:10.3969/j.issn.1005-8095.2016.04.029.
[9]侯劍華,陳悅.戰(zhàn)略管理學(xué)前沿演進(jìn)可視化研究[J].科學(xué)學(xué)研究,2007,25(z1):15-21.DOI:10.3969/j.issn.1003-2053.2007.z1.005. HOU J H,CHEN Y.Research on visualization of the evolution of strategic management front[J].Studies in Science of Science,2007,25(z1):15-21.DOI:10.3969/j.issn.1003-2053.2007.z1.005.
[10]YAMADA S,KAWAGUCHI A,KAWAGUCHI T,et al.Serum albumin level is a notable profiling factor for non-B,non-C hepatitis virus-related hepatocellular carcinoma:a data-mining analysis[J].Hepatology Research,2014,44(8):837-845.DOI:10.1111/hepr.12192.
[11]SUDARSHAN V K,ACHARYA U R,NG E Y,et al.Data mining framework for identification of myocardial infarction stages in ultrasound:a hybrid feature extraction paradigm(PART 2)[J].Comput Biol Med,2016,71:241-251.DOI:10.1016/j.compbiomed.2016.01.029.
[12]TEIMOURI M,FARZADFAR F,SOUDI ALAMDARI M,et al.Detecting diseases in medical prescriptions using data mining tools and combining techniques[J].Iran J Pharm Res,2016,15(Suppl):113-123.
(本文編輯:毛亞敏)
Visualization of Domestic and Abroad Medical Data Mining Based on Knowledge Mapping
SHIXi-min,CHENJuan,YANGJun-xue,ZHAOWen-long*
CollegeofMedicalInformatics,ChongqingMedicalUniversity,Chongqing400016,China
*Correspondingauthor:ZHAOWen-long,Professor;E-mail:cqzhaowl@163.com
In order to promote the development and application of medical data mining in China,we made a comparative analysis of the similarities and differences between the domestic and abroad researches based on quantitatively and qualitatively analyzing the articles about medical data mining included in CNKI and Web of ScienceTMfrom 1998 to 2016 using bibliometrics and knowledge mapping from the aspects of number of articles,core authors and research institutions,and the hotspot and research frontier.
Bibliometrics;Knowledge mapping;Data mining;Clinical medicine;Visualization
國(guó)家社會(huì)科學(xué)規(guī)劃項(xiàng)目(13BTQ004);重慶市自然科學(xué)規(guī)劃項(xiàng)目(cstc2015shmszx10004)——基于臨床大數(shù)據(jù)的醫(yī)療行為分析系統(tǒng)開(kāi)發(fā)與研究
R-05
A
10.3969/j.issn.1007-9572.2017.04.y14
2017-01-22;
2017-03-27)
400016重慶市,重慶醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)院
*通信作者:趙文龍,教授;E-mail:cqzhaowl@163.com