梅泰中 許 吉 張 洋 李小娟 鄧宏勇
(上海中醫(yī)藥大學(xué) 上海 201203)
數(shù)據(jù)挖掘(Data mining, DM)一般是指從大量的數(shù)據(jù)中通過算法提取出隱藏的有價值信息的過程,常用于復(fù)雜非線性特征數(shù)據(jù)分析。中醫(yī)作為有著幾千年歷史的古老學(xué)科,其所累積的數(shù)據(jù)量規(guī)模巨大,且模糊性和非線性特點明顯,因此不易被常規(guī)的數(shù)理統(tǒng)計方法處理[1]。近年來,隨著人工智能興起,大數(shù)據(jù)時代到來,越來越多研究人員開始采用數(shù)據(jù)挖掘技術(shù)從浩瀚的中醫(yī)藥知識寶庫中提取精準(zhǔn)有效而又新穎的知識。本課題組曾于2012年發(fā)文[2],對2011年之前的中醫(yī)藥數(shù)據(jù)挖掘研究情況進(jìn)行分析,本文在此基礎(chǔ)上作進(jìn)一步更新,從多個角度對近年中醫(yī)藥數(shù)據(jù)挖掘類研究進(jìn)行分析總結(jié),以期在一定程度上反映數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域應(yīng)用的現(xiàn)狀及趨勢。
檢索中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(SinoMed)和中國期刊全文數(shù)據(jù)庫(CNKI)的題錄及并獲取全文。檢索時間范圍:2012年1月1日~2017年11月2日;檢索完成時間:2017年11月2日。
檢索詞選取與數(shù)據(jù)挖掘相關(guān)的自由詞“數(shù)據(jù)挖掘”、“機(jī)器學(xué)習(xí)”、“人工智能”、“算法”、“數(shù)據(jù)分析”、“文本挖掘”、“知識發(fā)現(xiàn)”和“大數(shù)據(jù)”,另選取與中醫(yī)藥相關(guān)的自由詞“中醫(yī)”、“中藥”、“中草藥”、“針灸”、“方劑”、“復(fù)方”、“配伍”、“性味”、“辯證”、“證候”、“醫(yī)案”和“病案”。使用布爾邏輯算符“AND”和“OR”根據(jù)檢索需要構(gòu)造檢索式,檢出與中醫(yī)藥數(shù)據(jù)挖掘相關(guān)的文獻(xiàn)。
將從不同數(shù)據(jù)庫檢索出的所有相關(guān)題錄導(dǎo)入文獻(xiàn)管理軟件(ENDNOTE),結(jié)合人工查重和篩選,確定最終納入分析的文獻(xiàn),下載全文。采用文獻(xiàn)計量的方法,從出版年、作者單位、文獻(xiàn)類型、研究領(lǐng)域、數(shù)據(jù)挖掘方法、數(shù)據(jù)挖掘軟件、關(guān)鍵詞等方面對全文進(jìn)行人工拆分處理,并提取數(shù)據(jù)。利用Excel2016和中醫(yī)處方辨證論治特征分析及數(shù)據(jù)挖掘軟件[3]的相應(yīng)功能對提取數(shù)據(jù)進(jìn)行分析,得到中醫(yī)藥領(lǐng)域數(shù)據(jù)挖掘研究狀況的文獻(xiàn)計量結(jié)果。
共檢出相關(guān)題錄4034條,經(jīng)篩選后,最終獲取全文并納入統(tǒng)計1675篇。
2012~2017年中醫(yī)藥數(shù)據(jù)挖掘研究文獻(xiàn)年度變化情況見圖1,總體呈現(xiàn)逐年增長趨勢。
圖1 2012~2017中醫(yī)藥數(shù)據(jù)挖掘文獻(xiàn)年度分布
據(jù)統(tǒng)計,6年間發(fā)文作者所在單位總計約550家,其中以中國中醫(yī)科學(xué)院發(fā)文量最大(182篇),北京中醫(yī)藥大學(xué)和山東中醫(yī)藥大學(xué)分列2、3位,分別有180、164篇??傮w來看國內(nèi)各中醫(yī)高等院校為發(fā)文主體,但不容忽視的是,蘭州大學(xué)(15篇)、復(fù)旦大學(xué)(7篇)等一批國內(nèi)非傳統(tǒng)中醫(yī)藥類機(jī)構(gòu)也開始涉足中醫(yī)藥數(shù)據(jù)挖掘領(lǐng)域,并呈現(xiàn)逐漸增長的趨勢和特征。
本文將中醫(yī)藥數(shù)據(jù)挖掘類文獻(xiàn)從類型角度分為應(yīng)用研究、方法學(xué)研究、一般性論述和綜述4類[2]。文獻(xiàn)類型的年度分布見表2,由表可見,應(yīng)用研究類文獻(xiàn)逐年穩(wěn)步增長,其他類文獻(xiàn)無明顯變化。
本文對文獻(xiàn)所屬的研究領(lǐng)域進(jìn)行了分類,分別是:方劑、證候、名老中醫(yī)經(jīng)驗、病案、中藥藥性、中藥現(xiàn)代研究、診斷、針灸腧穴和其他[3]。各研究領(lǐng)域文獻(xiàn)數(shù)量的年度分布見表3,從中可見,方劑研究一直是中醫(yī)藥數(shù)據(jù)挖掘的重要領(lǐng)域,而名老中醫(yī)經(jīng)驗和腧穴的數(shù)據(jù)挖掘研究在近年也有較為明顯的增長。此外,我們通過詞頻分析對文獻(xiàn)的關(guān)鍵詞進(jìn)行研究,在剔除頻次最高的“數(shù)據(jù)挖掘”關(guān)鍵詞后,出現(xiàn)頻度較高的關(guān)鍵詞有“用藥規(guī)律”、“關(guān)聯(lián)規(guī)則”、“組方規(guī)律”等。
表1 發(fā)文量前5名單位
排序單位篇數(shù)百分比1中國中醫(yī)科學(xué)院18210.9%2北京中醫(yī)藥大學(xué)18010.7%3山東中醫(yī)藥大學(xué)1649.8%4廣州中醫(yī)藥大學(xué)1257.5%5南京中醫(yī)藥大學(xué)1126.7%
表2 不同類型中醫(yī)藥數(shù)據(jù)挖掘文獻(xiàn)年度分布(篇)
文獻(xiàn)類型201220132014201520162017應(yīng)用研究133180203279360360方法學(xué)研究16248221213一般性論述321016綜述810107116
表3 中醫(yī)藥數(shù)據(jù)挖掘類文獻(xiàn)在不同領(lǐng)域的年度分布
研究領(lǐng)域201220132014201520162017方劑667784135179170名老中醫(yī)經(jīng)驗254154689898證候243318311920病案9121581617中藥藥性394647腧穴91715353638中藥現(xiàn)代研究47710109診斷535143其他151720141823
中醫(yī)藥領(lǐng)域應(yīng)用的數(shù)據(jù)挖掘方法主要有頻數(shù)分析、關(guān)聯(lián)規(guī)則、聚類分析、因子分析等,使用了隱結(jié)構(gòu)模型、遺傳算法、隨機(jī)森林等模型及算法。同時也出現(xiàn)了以往相關(guān)文獻(xiàn)中較少出現(xiàn)的的數(shù)據(jù)挖掘方法,如屬性偏序結(jié)構(gòu)等。圖2為主要數(shù)據(jù)挖掘方法的分布情況。
圖2 主要挖掘方法使用情況
中醫(yī)藥數(shù)據(jù)挖掘多數(shù)使用商業(yè)或開源的通用數(shù)據(jù)分析工具軟件,如SPSS(Clementine/Modeler)、SQL Server(Analysis Services)、SAS、Matlab 和Weka等。但自從2012年中國科學(xué)院自動化研究所和中國中醫(yī)科學(xué)院中藥研究所聯(lián)合開發(fā)成功中醫(yī)傳承輔助系統(tǒng)軟件[4]后,該軟件在中醫(yī)藥數(shù)據(jù)挖掘研究中得到廣泛使用,此外還有江蘇省方劑研究重點實驗室開發(fā)的中醫(yī)藥關(guān)聯(lián)規(guī)則挖掘軟件 V1.0[5]等較具有特色的專業(yè)軟件。
圖3 主要挖掘軟件使用情況
數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域得到廣泛應(yīng)用,正是近年來中醫(yī)藥多學(xué)科交叉研究的一個縮影。筆者在對納入的文獻(xiàn)逐篇閱覽過程中,發(fā)現(xiàn)有相當(dāng)數(shù)量的文章同時運用頻數(shù)分析、關(guān)聯(lián)規(guī)則、聚類分析等方法對名老中醫(yī)經(jīng)驗進(jìn)行數(shù)據(jù)挖掘,在發(fā)現(xiàn)總結(jié)名老中醫(yī)的診療特色的同時,還可以得到用來治療具體某一類疾病的藥物范圍和頻率,形成藥物的核心組合或新方,這些結(jié)果在臨床實踐中有極大的應(yīng)用價值。
數(shù)據(jù)挖掘軟件是進(jìn)行數(shù)據(jù)挖掘工作的必需工具,近年來專業(yè)的中醫(yī)藥數(shù)據(jù)挖掘軟件相繼出現(xiàn)并得到較好應(yīng)用,如中醫(yī)傳承輔助系統(tǒng)[4]和基于形式概念分析、偏序理論的非統(tǒng)計偏序結(jié)構(gòu)模式發(fā)現(xiàn)新方法[6]等,這些工具軟件一方面打破了早期通用型數(shù)據(jù)挖掘工具壟斷使用的局面,同時也改變了以往專業(yè)中醫(yī)藥數(shù)據(jù)挖掘軟件應(yīng)用頻率較低、使用范圍較窄等狀況。
我們在研究中也發(fā)現(xiàn)了一些目前中醫(yī)藥數(shù)據(jù)挖掘研究中存在的不足,如個別作者為追求發(fā)文數(shù)量而濫用數(shù)據(jù)挖掘技術(shù),以及多數(shù)文獻(xiàn)使用的挖掘方法較為單一,相對復(fù)雜的挖掘方法使用頻率不高等,但相信通過更多的跨專業(yè)領(lǐng)域合作,以及普及數(shù)據(jù)挖掘技術(shù)、開發(fā)更強(qiáng)大便利的挖掘工具等手段,可以進(jìn)一步推動中醫(yī)藥數(shù)據(jù)挖掘的發(fā)展??傊?,隨著大數(shù)據(jù)時代的到來,中醫(yī)藥要想得到更好的發(fā)展,勢必要和數(shù)據(jù)挖掘等各領(lǐng)域?qū)W科進(jìn)行交叉發(fā)展,不斷提高中醫(yī)藥數(shù)據(jù)的應(yīng)用水平,優(yōu)化臨床有效性及安全性,為廣大患者帶來健康,為弘揚中醫(yī)藥提供助力。