聶佳,任玉蘭,江蓉星,許霞
成都中醫(yī)藥大學(xué),四川 成都 610075
巴蜀中醫(yī)藥古籍醫(yī)案數(shù)據(jù)挖掘系統(tǒng)構(gòu)建及應(yīng)用
聶佳,任玉蘭,江蓉星,許霞
成都中醫(yī)藥大學(xué),四川 成都 610075
中醫(yī)藥古籍是中醫(yī)藥傳承發(fā)展寶貴的知識財富,巴蜀中醫(yī)藥古籍特色突出。承載醫(yī)家豐富理論和臨床經(jīng)驗的醫(yī)案,是知識發(fā)現(xiàn)不可或缺的研究對象。構(gòu)建基于關(guān)聯(lián)規(guī)則方法分析的巴蜀中醫(yī)藥古籍醫(yī)案數(shù)據(jù)挖掘系統(tǒng),不僅能深入研究巴蜀中醫(yī)藥學(xué)術(shù)流派的特色,亦能為中醫(yī)藥古籍數(shù)據(jù)挖掘系統(tǒng)開發(fā)和應(yīng)用提供有效的支持。
巴蜀;中醫(yī)藥;古籍;醫(yī)案;數(shù)據(jù)挖掘系統(tǒng);構(gòu)建
巴蜀地區(qū)獨特的地理和文化環(huán)境,造就了一批在傳統(tǒng)中醫(yī)藥方面卓有成就的名醫(yī)大家,如北宋的唐慎微、清代的齊秉慧等,尤其在中醫(yī)診療、方藥方面特色突出,給后人留下了寶貴的醫(yī)案記錄,為祖國的醫(yī)藥事業(yè)繼承和發(fā)展作出了不朽的貢獻。本研究基于所收集1063部巴蜀中醫(yī)藥古籍中醫(yī)案的特點,利用現(xiàn)代計算機技術(shù),構(gòu)建數(shù)據(jù)挖掘系統(tǒng),旨在深層次發(fā)現(xiàn)巴蜀歷代醫(yī)家辨證論治的知識信息,發(fā)揚巴蜀中醫(yī)藥文化。
1.1 總體思路
數(shù)據(jù)挖掘能從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中提取有效的、新穎的、潛在有用的知識和規(guī)律,具有處理海量模糊性、非線性數(shù)據(jù)及知識發(fā)現(xiàn)的優(yōu)勢。本研究以中醫(yī)藥古籍資源的分析利用和知識發(fā)現(xiàn)為目的,在試驗相關(guān)數(shù)據(jù)挖掘技術(shù)特點和適用性基礎(chǔ)上,結(jié)合巴蜀中醫(yī)藥名家診治思路和特點,探索性地建立了基于關(guān)聯(lián)規(guī)則的辨證施治、用藥規(guī)律挖掘模型,并驗證了其可行性,建立符合中醫(yī)臨床規(guī)律的數(shù)據(jù)分析方法,建造巴蜀中醫(yī)藥古籍數(shù)據(jù)挖掘的計算機模型[1-2]。
1.2 主要構(gòu)建步驟
構(gòu)建步驟共兩部分。第一部分先明確研究需要,定義研究數(shù)據(jù),將原始數(shù)據(jù)通過數(shù)據(jù)轉(zhuǎn)換、加工等數(shù)據(jù)預(yù)處理方式,抽取正確可靠的數(shù)據(jù),構(gòu)建多維的數(shù)據(jù)倉庫挖掘模型;第二部分即根據(jù)不同的查詢條件進行數(shù)據(jù)挖掘,根據(jù)研究需要,選用恰當?shù)臄?shù)據(jù)挖掘算法,計算出滿足條件的模式集合,以數(shù)據(jù)條形式表達出來,調(diào)整參數(shù)進行模式篩選,通過挖掘前臺系統(tǒng)向?qū)нM行數(shù)據(jù)挖掘操作,將數(shù)據(jù)挖據(jù)信息以關(guān)聯(lián)規(guī)則形式展現(xiàn)給用戶,總過程如圖1所示。
1.2.1 數(shù)據(jù)的轉(zhuǎn)換和加工 從數(shù)據(jù)源中抽取的數(shù)據(jù)不一定完全滿足目的庫的要求,例如數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯誤、數(shù)據(jù)不完整等,因此有必要對抽取出的數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換和加工,包括數(shù)據(jù)過濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計算、數(shù)據(jù)驗證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等。本研究根據(jù)抽取數(shù)據(jù)的特點進行數(shù)據(jù)轉(zhuǎn)換和加工研究,主要包括數(shù)據(jù)清洗、噪音處理、數(shù)據(jù)規(guī)范[3-5]。
圖1 巴蜀中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)構(gòu)建步驟
1.2.1.1 缺失值的處理 在中醫(yī)處方信息中,有時會出現(xiàn)期望有數(shù)據(jù)的地方卻沒有數(shù)據(jù)的情況,如對臨床決策有重要價值的藥量等數(shù)據(jù)的缺失。針對數(shù)據(jù)的特點和對決策意義的不同,采用不同的缺失值填充算法,補充缺失數(shù)據(jù)。如針對樹脂類數(shù)據(jù),缺失值采用平均值填充法[6-7]。
1.2.1.2 噪音數(shù)據(jù)的處理 主要指針對一詞多義、多詞一義、詞義模糊、詞義交叉或涵蓋等噪音數(shù)據(jù)進行處理。處理方法主要是根據(jù)《中華人民共和國藥典》《中醫(yī)診斷術(shù)語標準》《中醫(yī)證候鑒別診斷學(xué)》《中醫(yī)癥狀鑒別診斷學(xué)》《中藥學(xué)》《方劑學(xué)》等標準進行刪除或規(guī)范處理。
1.2.1.3 藥物名稱的規(guī)范處理 針對處方中對藥物的描述存在大量異藥同名、同藥異名等現(xiàn)象,本研究采用改進的編輯距離算法,對數(shù)學(xué)名稱進行自動化、智能化的規(guī)范處理。規(guī)范處理過程通過兩級數(shù)據(jù)規(guī)范實現(xiàn)[8-10]。
1.2.1.4 癥狀名稱的規(guī)范 中醫(yī)古籍文獻對癥狀的描述常存在不規(guī)范性,多表現(xiàn)為癥狀名稱不標準以及癥狀表述的模糊性。為了使系統(tǒng)可以正確處理對癥狀的描述,本研究根據(jù)癥狀規(guī)范采用改進的編輯距離算法,對癥狀進行自動化、智能化的規(guī)范處理。規(guī)范過程與藥物規(guī)范一致[11-13]。
1.2.2 數(shù)據(jù)倉庫的實施 構(gòu)建巴蜀中醫(yī)藥古籍數(shù)據(jù)倉庫的目標數(shù)據(jù)庫由藥物表、癥狀表、疾病表等構(gòu)成。數(shù)據(jù)庫中各表根據(jù)情況向下細化到不能分解的原數(shù)據(jù)。各表之間的數(shù)據(jù)可以借助外鍵建立聯(lián)系,從而形成一個龐大的中醫(yī)體系結(jié)構(gòu)。
1.2.3 建造數(shù)據(jù)挖掘模型 為了從多個維度、不同概念層次對藥物運用規(guī)律進行漸進分析,本項目基于中醫(yī)數(shù)據(jù)存在復(fù)雜冠詞,結(jié)合關(guān)聯(lián)規(guī)則建立了癥候關(guān)聯(lián)、藥物配伍等挖掘模型。
1.2.4 數(shù)據(jù)挖掘 運用多維關(guān)聯(lián)規(guī)則分析在不同維度下癥狀、證候、藥物的頻次和支持度,提取中醫(yī)某一疾病的多發(fā)癥狀、證候及治療所需常用藥物;運用關(guān)聯(lián)規(guī)則分析的頻繁項集分析中醫(yī)醫(yī)案中癥狀與證候、藥物與藥物等的配伍規(guī)律,計算癥狀、證候、藥物項集的支持度和置信度,提取常用二元或者多元癥狀、證候、藥物配伍;采用多維關(guān)聯(lián)規(guī)則挖掘算法分析中醫(yī)辨證思路、處方選藥規(guī)律,分析不同年代、出處、文獻類型等條件下辨證論治規(guī)律[14-16]。
2.1 功能界面操作
用戶通過用戶名和密碼登錄巴蜀中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng),進入數(shù)據(jù)挖掘操作界面,見圖2。首先選擇“導(dǎo)入數(shù)據(jù)”選項,在目標文件中選擇準備數(shù)據(jù)挖掘的源數(shù)據(jù),導(dǎo)入數(shù)據(jù)挖掘系統(tǒng),然后根據(jù)研究需要,分別選擇藥物關(guān)聯(lián)、癥候關(guān)聯(lián)(癥狀與證候關(guān)聯(lián))等選項,實現(xiàn)疾病與藥物、病因與癥狀等之間的關(guān)聯(lián)規(guī)則分析,達到數(shù)據(jù)挖掘的目的。
圖2 巴蜀中醫(yī)藥數(shù)據(jù)挖掘系統(tǒng)操作界面
2.2 藥物關(guān)聯(lián)分析展示
以《圣余醫(yī)案》為例,導(dǎo)入所要進行數(shù)據(jù)挖掘的源數(shù)據(jù),點擊“藥物關(guān)聯(lián)分析”按鈕,在病名下拉選項中選擇“咳嗽”,在藥物復(fù)選框中選中“全部藥物”,在支持度和置信度選項中選擇0.5,點擊“數(shù)據(jù)挖掘分析”按鈕,顯示出如下結(jié)果。見表1。
表1 《圣余醫(yī)案》藥物關(guān)聯(lián)情況
從表1中可以看出,在《圣余醫(yī)案》中治療咳嗽所用的藥物配伍組合,支持度和置信度>50%的共有12條數(shù)據(jù)。其中,半夏與白術(shù)組合的支持度為78.95%,置信度為100.00%。說明該書記載咳嗽病醫(yī)案中,半夏和白術(shù)同時出現(xiàn)的頻率為 78.95%;而當半夏或白術(shù)二者其中一味出現(xiàn)時,另一味中藥出現(xiàn)的概率為100.00%??梢姡凇妒ビ噌t(yī)案》中,醫(yī)家治療咳嗽時,半夏與白術(shù)是常用藥對,而且其單味藥使用頻率也是最高,均為 15。半夏燥濕化痰、降逆止嘔,白術(shù)健脾益氣、燥濕利水,二者伍用倍增鎮(zhèn)咳化痰之功。
本研究引進現(xiàn)代計算機技術(shù),針對巴蜀中醫(yī)藥古籍醫(yī)案,探索性地構(gòu)建基于關(guān)聯(lián)規(guī)則方法分析的數(shù)據(jù)挖掘系統(tǒng),以期為中醫(yī)藥古籍數(shù)據(jù)挖掘系統(tǒng)的開發(fā)和應(yīng)用提供有效的支持。關(guān)聯(lián)規(guī)則是中醫(yī)藥領(lǐng)域數(shù)據(jù)挖掘研究常用的方法,對于蘊含豐富的理論知識和實踐經(jīng)驗的中醫(yī)藥古籍而言,應(yīng)嘗試不同的方法,多角度發(fā)現(xiàn)知識。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于不同種類的中醫(yī)藥古籍,將是下一步研究工作的重點。
[1] 舒正渝.淺談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].中國西部科技,2010,9(5): 38-39.
[2] 鄭頻捷.數(shù)據(jù)挖掘在數(shù)據(jù)分析中的應(yīng)用[J].福建電腦,2010,26(10): 104-106.
[3] 崔有文,周金海.基于KETTLE的數(shù)據(jù)集成研究[J].計算機技術(shù)與發(fā)展, 2015,25(4):153-157.
[4] 羅強,何利力,王曉菲.數(shù)據(jù)倉庫中數(shù)據(jù)清洗技術(shù)分析[J].電腦編程技巧與維護,2015(2):61,76.
[5] 李志堅,莫建麟.一種改進的基于概念格的數(shù)據(jù)挖掘算法[J].重慶師范大學(xué)學(xué)報(自然科學(xué)版),2013,30(2):92-95.
[6] 王汾雁,李志蜀,鐘涵,等.數(shù)據(jù)挖掘技術(shù)在中藥自動發(fā)藥系統(tǒng)中的應(yīng)用[J].計算機應(yīng)用研究,2007,24(9):31-33.
[7] 于力超,金勇進,王俊.缺失數(shù)據(jù)插補方法探討——基于最近鄰插補法和關(guān)聯(lián)規(guī)則法[J].統(tǒng)計與信息論壇,2015,30(1):35-40.
[8] 符永馳,李斌,郭敏華,等.中醫(yī)古籍電子化系統(tǒng)的研究與實現(xiàn)[J].中國中醫(yī)藥信息雜志,2008,15(2):103-104.
[9] 孫志勇.中醫(yī)“方劑、藥物、病癥”數(shù)據(jù)歸一化技術(shù)的研究[J].黑龍江科技信息,2012(4):35.
[10] 王俊文,崔蒙,趙英凱.中醫(yī)臨床醫(yī)案信息的抽取、規(guī)范和計量規(guī)則[J].西部中醫(yī)藥,2012,25(1):95-96.
[11] 孫海舒,李斌,王蕊,等.中醫(yī)古籍書目數(shù)據(jù)庫標注中若干問題的探討[J].中國中醫(yī)藥信息雜志,2007,14(10):103-104.
[12] 張志強,王永炎,蓋國忠.論中醫(yī)癥狀名稱規(guī)范五原則[J].北京中醫(yī)藥大學(xué)學(xué)報,2010,33(9):595-596.
[13] 劉保延,張啟明.構(gòu)建中醫(yī)臨床科研信息一體化平臺需要解決的癥狀規(guī)范問題[J].中醫(yī)雜志,2011,52(20):1714-1716.
[14] 胡波,譚工.基于關(guān)聯(lián)規(guī)則的中醫(yī)治療乳腺增生病用藥規(guī)律研究[J].中國實驗方劑學(xué)雜志,2012,18(15):12-17.
[15] 王亞強,金暉,于中華,等.基于關(guān)聯(lián)規(guī)則的中醫(yī)癥狀組團分析[J].四川大學(xué)學(xué)報(自然科學(xué)版),2009,46(6):1650-1654.
[16] 于琦,王映輝,李敬華,等.中醫(yī)名醫(yī)醫(yī)案分析系統(tǒng)研究[J].中國數(shù)字醫(yī)學(xué),2015,10(3):51-53.
Construction and Application of Data Mining System of Bashu Ancient TCM Book Records
NIE Jia, REN Yu-lan, JIANG Rong-xing, XU Xia
(Chengdu University of TCM, Chengdu Sichuan 610075, China)
Ancient TCM books are the valuable wealth of knowledge for TCM inheritance and development, among which Bashu TCM books are with prominent features. With wealthy theories and clinical experience, medical records are the essential research object for knowledge discovery. Construction of data mining system of Bashu ancient TCM book records based on association rules analysis, not only can deeply study the characteristics of Bashu TCM academic schools, but also can provide effective support for development and application of TCM ancient book data mining system.
Bashu; TCM; ancient book; medical record; data mining system; construction
10.3969/j.issn.2095-5707.2015.04.004
教育部人文社會科學(xué)研究西部和邊疆地區(qū)項目(10XJA870003);成都中醫(yī)藥大學(xué)?;痦椖浚╖RMS201362)
聶佳,助理研究員,研究方向為中醫(yī)藥古籍數(shù)字化。E-mail: 7919536@qq.com
2015-04-17;編輯:魏民)