馬捷 王馨梓 何美慧
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;知識發(fā)現(xiàn);Apriori算法;中醫(yī)醫(yī)案;用藥規(guī)律
中醫(yī)醫(yī)案作為重要的醫(yī)療資源包含海量的數(shù)據(jù)與信息,其中蘊含的隱性知識亟待被挖掘與發(fā)現(xiàn)。提升中醫(yī)醫(yī)案的挖掘與利用水平在一定程度上可以提高中醫(yī)臨床診療的效率與醫(yī)療服務的精準性,因此圍繞中醫(yī)醫(yī)案內(nèi)容進行知識發(fā)現(xiàn)有著重要的意義。習近平總書記在考察東漢醫(yī)學家張仲景的墓祠紀念地時強調(diào),中醫(yī)藥學包含著中華民族幾千年的健康養(yǎng)生理念及實踐經(jīng)驗,是中華民族的偉大創(chuàng)造和中國古代科學的瑰寶,要做好守正創(chuàng)新、傳承發(fā)展工作,注重用現(xiàn)代科學解讀中醫(yī)藥學原理,推動傳統(tǒng)中醫(yī)藥和現(xiàn)代科學相結(jié)合。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一項重要技術(shù),也是一種發(fā)現(xiàn)事物之間關(guān)聯(lián)關(guān)系的分析方法。知識發(fā)現(xiàn)(Knowledge Discover-y in Database,KDD)是“數(shù)據(jù)挖掘”的一種更廣義的說法,即從繁雜的信息中根據(jù)不同的需求獲得知識,其最終目的是為使用者提煉出有意義、有價值的規(guī)律和新穎知識以便創(chuàng)新利用?;陉P(guān)聯(lián)規(guī)則挖掘中醫(yī)知識,對中醫(yī)醫(yī)案數(shù)據(jù)進行知識新發(fā)現(xiàn),是體現(xiàn)中醫(yī)藥學與現(xiàn)代科學相結(jié)合的一種方法?,F(xiàn)有基于關(guān)聯(lián)規(guī)則的方法對中醫(yī)知識進行發(fā)現(xiàn)的研究中,大多數(shù)研究以中醫(yī)古籍、名老中醫(yī)醫(yī)案、已出版中醫(yī)著作等作為數(shù)據(jù)挖掘源,使用臨床醫(yī)案作為數(shù)據(jù)源直接進行知識發(fā)現(xiàn)的研究不夠充分,而臨床醫(yī)案中蘊含著大量的醫(yī)生診療經(jīng)驗,基于此數(shù)據(jù)源進行挖掘可以提高研究實用性?;谏鲜觯疚膶⑦\用關(guān)聯(lián)規(guī)則的技術(shù)方法,以實地臨床醫(yī)案為例,挖掘規(guī)律、提煉出特定的知識并進行可視化,從而增強知識發(fā)現(xiàn)結(jié)果的實用性與可利用性。本研究擬解決兩個基本問題:①如何運用關(guān)聯(lián)規(guī)則方法基于臨床醫(yī)案發(fā)現(xiàn)治療以咳嗽為主證的用藥規(guī)律、舌診癥狀特征、癥一藥規(guī)律?②以實地肺病醫(yī)案為例,臨床診療的用藥規(guī)律、舌診癥狀特征以及癥一藥規(guī)律是什么?
1文獻回顧
1.1中醫(yī)藥知識發(fā)現(xiàn)研究
在中醫(yī)藥領(lǐng)域的知識發(fā)現(xiàn)研究中,學者們采用的理論方法豐富多樣,利用計算機技術(shù)與中醫(yī)藥學相結(jié)合分別運用不同方法,從不同角度對中醫(yī)知識進行了新發(fā)現(xiàn)。劉超男等利用復雜概念網(wǎng)絡生成方法對《傷寒論》方藥數(shù)據(jù)進行處理,建立相關(guān)知識庫,以方劑、藥物和方一藥關(guān)系為基礎生成與優(yōu)化形式背景,實現(xiàn)相關(guān)關(guān)系結(jié)構(gòu)的可視化,并在此基礎上做整體的知識發(fā)現(xiàn),驗證了一種新的知識發(fā)現(xiàn)方法的可行性。劉鴻儒等從知識發(fā)現(xiàn)的角度分析石學敏院士針灸治療腦梗死偏癱過程中癥狀與治療原則之間的關(guān)聯(lián),利用屬性偏序圖方法對“現(xiàn)癥一治療原則”的形式背景進行知識結(jié)構(gòu)發(fā)現(xiàn),并獲得結(jié)果關(guān)系描述,發(fā)現(xiàn)以“醒腦開竅”的主要治療原則。張楠收集李賽美教授治療糖尿病患者以失眠為主訴癥狀的有效門診病歷,運用基于屬性偏序結(jié)構(gòu)理論的知識發(fā)現(xiàn)新方法,對診治病例的證型分布和癥狀特征進行提取,挖掘李賽美教授治療的用藥規(guī)律,總結(jié)出糖尿病患者失眠癥的主要癥狀及治療關(guān)鍵,最終發(fā)現(xiàn)其醫(yī)案中蘊藏的隱性知識。徐筍晶等提出基于形式概念分析的數(shù)學屬性偏序表示原理挖掘糖尿病臨床經(jīng)驗的方法,通過建立形式背景、生成屬性偏序結(jié)構(gòu)圖成功進行知識發(fā)現(xiàn)。趙翔鳳等檢索《中國藥典》《中華醫(yī)典》等數(shù)據(jù)源,收集與海馬相關(guān)的方劑,以頻數(shù)分析、關(guān)聯(lián)規(guī)則挖掘方法等分析用藥規(guī)律以及配伍,挖掘并發(fā)現(xiàn)了歷代醫(yī)家中海馬的臨床應用情況、配伍規(guī)律與潛在應用價值。綜上所述,對中醫(yī)藥數(shù)據(jù)規(guī)律挖掘的本質(zhì)是通過數(shù)據(jù)統(tǒng)計與分析得出理法方藥之間的一系列關(guān)系。醫(yī)學數(shù)據(jù)中包含著多維關(guān)系,涉及藥一藥、藥一癥、癥一證等聯(lián)系,而關(guān)聯(lián)規(guī)則方法可以在整體中直接挖掘事物與其他事物的關(guān)聯(lián)與相存依性,可以清晰地挖掘非線性數(shù)據(jù)以及中醫(yī)藥知識,是研究用藥以及診療規(guī)律知識的較好選擇,與本研究目的相匹配。
1.2基于關(guān)聯(lián)規(guī)則的中醫(yī)藥知識發(fā)現(xiàn)研究
數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一個關(guān)鍵步驟,通常以技術(shù)方法實現(xiàn)數(shù)據(jù)模式的發(fā)現(xiàn)。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一項技術(shù),關(guān)聯(lián)規(guī)則的挖掘過程主要包括兩個階段:第一階段是從原始資料集合中找出高頻項目組(頻繁項集);第二階段是從高頻項目組中產(chǎn)生關(guān)聯(lián)規(guī)則。近幾年在國內(nèi)的應用研究已有許多成果,現(xiàn)有基于關(guān)聯(lián)規(guī)則的挖掘技術(shù)在中醫(yī)藥知識發(fā)現(xiàn)方面的研究主要涉及以下幾個方面:對名老中醫(yī)醫(yī)案隱性知識進行發(fā)掘,分析中醫(yī)用藥規(guī)律特點或常用配伍,挖掘癥狀間的關(guān)系發(fā)現(xiàn)證候規(guī)律,從某病癥出發(fā)探索一系列方證關(guān)系等。
1.2.1基于關(guān)聯(lián)規(guī)則的用藥規(guī)律研究
目前,基于關(guān)聯(lián)規(guī)則挖掘用藥規(guī)律的研究往往從某一具體疾病出發(fā),通過關(guān)聯(lián)規(guī)則等方法分析疾病所用藥物,運用中醫(yī)知識分析藥物性味、歸經(jīng)等,從而得出治療疾病的藥物組配規(guī)律以及治療大法。高雅婷等以多層次數(shù)據(jù)挖掘研究中醫(yī)臨床治療咳嗽變異性哮喘的用藥特點及組方規(guī)律,分析得到二項關(guān)聯(lián)規(guī)則15項,藥物組合14項,總結(jié)出以祛風解表、祛痰平喘、補虛、祛濕等為主的治療大法;寒溫結(jié)合、宣降相依的用藥規(guī)律。周世琴等收集名老中醫(yī)治療干眼癥經(jīng)驗方進行用藥規(guī)律挖掘,發(fā)現(xiàn)藥類頻次較高的為補虛藥、清熱藥,體現(xiàn)了以補益肝腎、益氣養(yǎng)陰等為主的治法。劉麗萍等運用關(guān)聯(lián)規(guī)則技術(shù)分析王邦才教授治療郁證的用藥組方規(guī)律,發(fā)現(xiàn)其形神同調(diào)、宣暢氣機的核心主張以及寒溫并用、氣血同調(diào)等治療方法。趙達等通過古今醫(yī)案云平臺探討名中醫(yī)治療冠心病的用藥規(guī)律,發(fā)現(xiàn)以心氣陰虧虛的主要病機以及活血化瘀、燥濕化痰,補益心氣、滋陰養(yǎng)血為主的治療方法,為臨床經(jīng)驗提供了可靠的參考。相麗玲等以中醫(yī)配方書籍為來源篩選治療肺結(jié)核的方劑96首進行關(guān)聯(lián)規(guī)則、頻次等分析,挖掘出出現(xiàn)頻率最高的3味中藥以及3組藥對,為中醫(yī)治療肺結(jié)核用藥及配伍提供依據(jù)。
1.2.2基于關(guān)聯(lián)規(guī)則的證候規(guī)律相關(guān)研究
中醫(yī)證候的概念包含了望聞問切所診斷出的所有反映狀態(tài),表現(xiàn)為所有可被觀察到的癥狀。因此在基于關(guān)聯(lián)規(guī)則挖掘中醫(yī)證候要素的研究中所涉及的內(nèi)容較為復雜,研究往往基于某疾病前提下,在證型分類的基礎上分別構(gòu)成癥狀與癥狀的關(guān)聯(lián)。例如鐘霞等通過關(guān)聯(lián)規(guī)則分析陣發(fā)性房顫中醫(yī)證候要素,得到6個最常見的中醫(yī)證型以及各個證型所對應的常見主要癥狀,從而發(fā)現(xiàn)陣發(fā)性房顫中醫(yī)證候間的內(nèi)在規(guī)律,對于臨床應用以及盡早識別該疾病風險貢獻出一定價值。王昆陽采用關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘方法探索焦慮抑郁共病的中醫(yī)證候要素間的關(guān)聯(lián)規(guī)律,提取出14項證候要素,并最終歸納成五大中醫(yī)證型及其相對應的主癥與次癥。
1.2.3基于關(guān)聯(lián)規(guī)則的中醫(yī)多維關(guān)聯(lián)研究
中醫(yī)知識中不僅存在著藥一藥、癥一癥等簡單的一維關(guān)聯(lián)關(guān)系,還存在方一癥一證一藥等不同性質(zhì)事物間的關(guān)聯(lián)關(guān)系。例如,從某方劑人手挖掘相關(guān)癥、證、藥間的規(guī)律,形成完整的多維關(guān)聯(lián)鏈條。劉夢柳運用關(guān)聯(lián)規(guī)則、聚類分析等方法,從方劑、中藥、癥狀等方面分析梳理《傷寒雜病論》中包含麻黃、石膏經(jīng)典藥對的有關(guān)內(nèi)容,探究出與麻黃一石膏相關(guān)的證一方一藥間的關(guān)系規(guī)律,實現(xiàn)了中醫(yī)經(jīng)典方劑的數(shù)據(jù)化。方坤炎等以關(guān)聯(lián)規(guī)則技術(shù)分析探究小柴胡湯在治療熱人血室中的應用,從中醫(yī)醫(yī)案人手分析相關(guān)方證關(guān)系,發(fā)現(xiàn)“經(jīng)血夾塊一經(jīng)色紫黯”“紅花一桃仁”“生半夏一牡丹皮”“生姜一惡心”等的強關(guān)聯(lián)規(guī)則,揭示了癥狀與藥物的關(guān)聯(lián)。
通過對上述文獻的梳理可知,數(shù)據(jù)挖掘的技術(shù)方法在發(fā)現(xiàn)有價值的知識上發(fā)揮著重要作用。目前有關(guān)中醫(yī)知識發(fā)現(xiàn)的研究大多集中于對古籍或名老中醫(yī)的醫(yī)案分析,以某地醫(yī)案進行實證研究的數(shù)量相對來說較少。本文將基于關(guān)聯(lián)規(guī)則的方法挖掘分析實地肺病醫(yī)案,對中醫(yī)用藥、患者癥狀特征、癥一藥關(guān)聯(lián)等規(guī)律進行研究分析,發(fā)現(xiàn)醫(yī)案中潛在、有價值的知識。
2研究設計
本研究意在基于數(shù)據(jù)挖掘技術(shù)對中醫(yī)醫(yī)案內(nèi)容進行分析挖掘與知識發(fā)現(xiàn),以實地肺病醫(yī)案為數(shù)據(jù)源,發(fā)現(xiàn)用藥知識、患者臨床癥狀特征、癥一藥二維關(guān)聯(lián)規(guī)律與治療特色,以期提高中醫(yī)臨床診療效率、支撐決策,探索關(guān)聯(lián)規(guī)則分析在中醫(yī)藥知識發(fā)現(xiàn)方面的創(chuàng)新應用。
2.1研究思路
首先,收集與整理實地肺病醫(yī)案,將篩選過符合研究要求的醫(yī)案數(shù)據(jù)導人到Excel表格中,為接下來的數(shù)據(jù)分析步驟作準備。其次,用R語言對所需數(shù)據(jù)進行分析,分別統(tǒng)計出臨床治療實踐中運用頻率靠前的高頻藥物、舌診特征后再利用Apriori算法對數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析,得到相應的頻繁項集與強關(guān)聯(lián)規(guī)則。同時將高頻舌診特征作為固定項進行癥一藥關(guān)聯(lián)規(guī)則的挖掘,并加入可視化分析來展示數(shù)據(jù)挖掘的結(jié)果。最后,在上述頻數(shù)分析與關(guān)聯(lián)規(guī)則分析的基礎上對所得數(shù)據(jù)信息進行知識發(fā)現(xiàn),挖掘提煉出隱性的中醫(yī)知識。
2.2研究方法
本文在收集、清洗數(shù)據(jù)后,利用R語言軟件作為輔助工具依次對醫(yī)案數(shù)據(jù)進行統(tǒng)計分析、關(guān)聯(lián)規(guī)則分析與可視化分析,并在上述分析結(jié)果的基礎上對中醫(yī)藥知識進行歸納整理,從而形成有價值的新知識。對醫(yī)案數(shù)據(jù)進行統(tǒng)計分析可以達到直觀迅速地了解中醫(yī)數(shù)據(jù)集中較為重要項目的目的:關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)事物之間關(guān)聯(lián)關(guān)系的一種方法,一般表現(xiàn)的規(guī)則形式為X-y。其典型的例子就是超市購物籃分析,通過分析顧客購買不同商品的行為習慣從而得出商品之間的關(guān)系。而醫(yī)學數(shù)據(jù)與購物籃數(shù)據(jù)存在許多共同點,根據(jù)關(guān)聯(lián)規(guī)則所呈現(xiàn)的支持度、置信度等數(shù)據(jù)觀察到事物間所對應的關(guān)系與規(guī)律,因此關(guān)聯(lián)規(guī)則可以合理地在醫(yī)學知識發(fā)現(xiàn)中被應用,利用關(guān)聯(lián)規(guī)則的方法對中醫(yī)醫(yī)案進行分析,可以發(fā)現(xiàn)藥物間、癥狀間、藥物與癥狀間的隱含關(guān)系。同時,運用R語言中g(shù)gplot2包的功能對關(guān)聯(lián)規(guī)則進行可視化呈現(xiàn),以實現(xiàn)對知識結(jié)果更好的展示。
2.3數(shù)據(jù)來源與處理
首先,分別整理從長春中醫(yī)藥大學附屬醫(yī)院吉林省中醫(yī)院與長春中醫(yī)藥大學附屬第三醫(yī)院門診處所獲的肺病相關(guān)醫(yī)案,選擇數(shù)據(jù)中所有患者主證為“咳嗽”的醫(yī)案。本文篩選醫(yī)案過程中所納入的醫(yī)案需滿足以下要求:醫(yī)案需明確診斷患者主證為“咳嗽”;藥方明確并以口服為治療途徑。排除標準如下:無主要癥狀或主要癥狀不符合的醫(yī)案,醫(yī)案中明確藥物作用不明或為無效的醫(yī)案:藥物組方不完整、不清晰的醫(yī)案;不同病患同一藥物處方的醫(yī)案;患者癥狀惡化成為其他病癥的醫(yī)案。醫(yī)案篩選完畢后根據(jù)所需分析項目依次錄入Excel中,藥物名稱統(tǒng)一按照2020年版《中華人民共和國藥典》與《中華本草》進行規(guī)范校正,例如,“烏賊骨”“墨魚骨”統(tǒng)一為“海螵蛸”、“胡麻仁”統(tǒng)一為“芝麻”、“玉蝴蝶”統(tǒng)一為“馬兜鈴”;舌診名稱按照舌色、舌體、苔色、苔質(zhì)進行拆分并規(guī)范,例如,舌色分為“舌紅”“舌淡紅”“舌白”“舌暗”“舌暗紅”等,苔色分為“苔白”“苔黃”“苔淡黃”等,經(jīng)初步篩選共獲得醫(yī)案663例。整理所有醫(yī)案數(shù)據(jù)并錄入Excel中以建立肺病數(shù)據(jù)庫。數(shù)據(jù)預處理步驟如下:首先在Excel中手動進行清洗,刪除所有藥方不完整的醫(yī)案以及同病治療的相同處方,將無效醫(yī)案過濾掉。將上述醫(yī)案一并整理、保存為CSV文件后導人R語言待進一步處理。在R語言中使用read()函數(shù)讀取數(shù)據(jù),輸入format=c(“basket”),cols=1,header=TRUE命令,定義數(shù)據(jù)類型同時指定表格中第一列(編號)為事物標識,并用rm.duplicates=TRUE命令刪除重復值,將數(shù)據(jù)轉(zhuǎn)化成事務性數(shù)據(jù)后完成數(shù)據(jù)預處理。
3數(shù)據(jù)分析
3.1中醫(yī)治療咳嗽的高頻用藥分析
以治療咳嗽的醫(yī)案為例,收集并整理數(shù)據(jù)。首先針對治療藥物進行頻次分析:第一步在Excel中將整理好的醫(yī)案數(shù)據(jù)保存為.csv格式以便數(shù)據(jù)軟件間兼容利用,在R語言中使用read.()函數(shù)讀取此CSV文件。由于整理好的醫(yī)案數(shù)據(jù)為購物籃型數(shù)據(jù),因此讀取數(shù)據(jù)時編輯cols=1,指定以文件中的第一列為事務標識,并使用rm. duplicates=TRUE命令刪除重復值。再利用itemFrequency()函數(shù)對藥物頻率進行統(tǒng)計,并使用decreasing=TRUE命令對統(tǒng)計結(jié)果進行降序排列,最后再利用itemFrequen-cyPlot()包將數(shù)據(jù)結(jié)果呈現(xiàn)為條形統(tǒng)計圖。如圖1所示,為治療咳嗽的使用頻率排名前十高頻用藥統(tǒng)計圖,橫坐標為中藥名稱,縱坐標為藥物使用頻率。統(tǒng)計分析結(jié)果顯示,本研究所用基礎中藥總共428種,炙甘草、杏仁、半夏、川貝母、茯苓、陳皮等為高頻被使用的藥物,其中炙甘草使用頻率最高,達到30%以上,表明這味藥物經(jīng)常在治療咳嗽當中被使用,可能起著重要的作用或重要輔助調(diào)和作用,極具治療價值。另外,杏仁、半夏、川貝母、茯苓、陳皮的使用頻率也極高,這幾味藥材在臨床醫(yī)案中經(jīng)常出現(xiàn),概率均達到200-/0以上,單獨或組配對治療咳嗽起著重要作用。
3.2基于關(guān)聯(lián)規(guī)則的中醫(yī)咳嗽用藥規(guī)律分析
關(guān)聯(lián)規(guī)則涉及幾個基本概念。是n個不同項目的集合,稱為一個項目,項目的集合簡稱為項集。支持度是兩個事物在總的項集中出現(xiàn)的概率,其大小能反映出規(guī)則是否普遍,最小支持度表示規(guī)則需滿足的最低重要性;置信度是出現(xiàn)前項事物時后項同時出現(xiàn)的概率,是一種條件概率:最小置信度表示規(guī)則需滿足的最低可靠性。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)過程分為兩個步驟,首先,根據(jù)所設定最小支持度找出所有滿足此條件的頻繁項集,包含所有頻繁項集的非空子集;其次,在上一步基礎上設定最小置信度,統(tǒng)計出所有滿足條件的規(guī)則,即為強規(guī)則,強規(guī)則即代表強關(guān)聯(lián)。最小支持度與最小置信度的值需要數(shù)據(jù)挖掘人員結(jié)合實際需要設定。
首先,對規(guī)則支持度的設定意義在于過濾掉沒有意義的規(guī)則,數(shù)據(jù)挖掘的意義在于通過挖掘結(jié)果做出決策而產(chǎn)生價值,若規(guī)則的支持度過低則會失去意義。由于本研究所采用的數(shù)據(jù)量龐大,經(jīng)篩選共得到有效醫(yī)案556條,藥物種類達428種,藥物總使用頻次達5611次,為了不遺漏掉一些可能存在價值的數(shù)據(jù),則需要折中設定支持度。在R語言關(guān)聯(lián)規(guī)則挖掘中,以超市購物籃數(shù)據(jù)為示例,官方設定的最小支持度與最小置信度為Support=0.06,Confidence=0.5,因為醫(yī)學數(shù)據(jù)與購物籃數(shù)據(jù)有許多共同特點,所以嘗試設置與之相同的閾值以觀察關(guān)聯(lián)規(guī)則的結(jié)果是否理想。在R語言中執(zhí)行Aprio-ri算法對藥物數(shù)據(jù)進行分析,在執(zhí)行算法之前首先設定最小支持度為6%,以生成頻繁項集(FrequentItemsets),表1為部分頻繁項集。
其次,在生成頻繁項集的基礎上挖掘關(guān)聯(lián)規(guī)則,置信度越大則說明規(guī)則越可靠。設定藥物間最小支持度為6%,最小置信度為50%,進而篩選出關(guān)聯(lián)規(guī)則(rules)共97條。首先需要通過提升度來判斷所挖掘關(guān)聯(lián)規(guī)則的有效性,提升度是含有X的條件下同時含有y的概率,與y總體發(fā)生的概率之比,即可理解為x發(fā)生對y產(chǎn)生的影響程度,如式(1):
提升度的值可以正確揭示兩種事物的相關(guān)性,當提升度大于1時,值越高,則代表兩種藥物直接的關(guān)聯(lián)性越強,此時提升度越高則可以證明關(guān)聯(lián)規(guī)則越具有實用價值。若提升度等于1,則代表X與y之間相互獨立,此時即便置信度相當高也是一條無效的關(guān)聯(lián)規(guī)則。當提升度小于1時,絕對值越高則代表兩種事物間負相關(guān)性越強。由此,根據(jù)提升度大小排除無效的關(guān)聯(lián)規(guī)則,在驗證X與y存在正向關(guān)聯(lián)性的基礎上,再利用sort函數(shù)對有效關(guān)聯(lián)規(guī)則按照置信度大小進行排序,得到符合標準的規(guī)則如表2所示。
由表2可知,符合設定標準的規(guī)則有{丹參,桔梗}={炙甘草}、{丹參,炙甘草}={桔梗}、{柴胡,桔梗}={炙甘草}、{柴胡,炙甘草}={桔梗}、{前胡,枳殼}={桔梗}、{炙甘草,郁金}={桔梗}、{丹參}={桔梗}、{丹參}={炙甘草}、{桔梗.郁金}={炙甘草}等,序號1~5的關(guān)聯(lián)規(guī)則均兼具100%的置信度,表明出現(xiàn)前項藥對或藥組時有100%的概率后項藥物會同時出現(xiàn)在同一處方當中,這說明所挖掘出的規(guī)則藥物間具有相當緊密的聯(lián)系。且{柴胡,炙甘草}={桔梗}、{前胡,枳殼}={桔梗}、{炙甘草,郁金}={桔梗}、{丹參}={桔梗}、{半夏,枳殼}={桔梗}等藥組具有相當高的提升度,證明本研究所挖掘出的關(guān)聯(lián)規(guī)則中,前項藥物、藥對的出現(xiàn)大大提升了后項藥物出現(xiàn)的程度。
本文采用R語言中具有可視化功能的plot()函數(shù)對上述數(shù)據(jù)結(jié)果進一步精煉,設計了基于關(guān)聯(lián)規(guī)則的用藥規(guī)律可視化方式,分別制作點圖、平行坐標圖與網(wǎng)狀圖。由點圖可以顯示關(guān)聯(lián)規(guī)則按照支持度與置信度的大小分布情況,如圖2(a)所示,點的顏色代表提升度大小,顏色越深則提升度越高:如圖2(b)所示,平行坐標圖每一組由左向右的折線代表一組關(guān)聯(lián)規(guī)則,折線兩側(cè)分別代表關(guān)聯(lián)規(guī)則的前項與后項,即圖2(b)中rhs代表出現(xiàn)在規(guī)則右側(cè)(后項)的項標簽字符串向量。支持度大小由折線粗細代表,顏色越深則代表提升度越強。由圖2(b)可以直觀解讀出,紫菀一炙甘草、陳皮一炙甘草、陳皮一半夏、南沙參一川貝母、浙貝母一杏子等藥物組合的共現(xiàn)次數(shù)較高,彼此之間具有較強的關(guān)聯(lián)性。
如圖3網(wǎng)狀圖所示,每個節(jié)點大小代表支持度大小,節(jié)點顏色深淺則代表提升度大小,兩個帶箭頭折線間的節(jié)點大小與深淺則代表兩味藥物間的支持度與提升度大小。
3.3咳嗽主證相關(guān)舌診癥狀分析
在中醫(yī)理論中臟腑問題通??梢酝ㄟ^舌質(zhì)、舌苔等特征被反映出,因此基于舌診信息能夠判斷疾病與體內(nèi)的一些相關(guān)問題。以治療咳嗽的醫(yī)案為例,針對拆分、規(guī)范化后的舌診數(shù)據(jù)行頻次分析:具體步驟如上述3.1,在R語言軟件中使用read.()函數(shù)讀取csv文件,再利用itemFrequency()函數(shù)對舌診頻率進行統(tǒng)計,圖4為主證咳嗽的舌診高頻統(tǒng)計圖,橫坐標為舌診癥狀,縱坐標為出現(xiàn)頻率。由統(tǒng)計分析結(jié)果顯示,苔薄白、苔薄膩、苔薄黃,以及舌紅、舌暗紅、舌淡紅、有齒印等為高頻出現(xiàn)的舌診癥狀。
3.4基于關(guān)聯(lián)規(guī)則的咳嗽舌診癥狀規(guī)律分析
利用Apriori算法對舌診數(shù)據(jù)進行分析,首先需根據(jù)數(shù)據(jù)集大小與特點調(diào)整最小支持度與置信度的閾值。在調(diào)試過程中,首先以Support=0.06,Confidence=0.5的閾值執(zhí)行算法,結(jié)果只生成一條符合的規(guī)則,為了不遺落有價值的關(guān)聯(lián)關(guān)系,不斷嘗試在調(diào)低最小支持度與最小置信度的同時確保二者的值可以反映出所挖掘規(guī)則的一定意義并挖掘出相應數(shù)量的結(jié)果。最終設定藥物間最小支持度為30%最小置信度為10%,進而篩選出關(guān)聯(lián)規(guī)則(rules)共16條,表3為所有有效關(guān)聯(lián)規(guī)則。
由表3可知,符合設定標準的舌診二元組合有:苔薄淡黃一舌暗紅、舌淡紅一苔薄白、有齒印一舌暗紅、苔薄白一舌紅、苔薄膩淡黃一有齒印、苔薄膩淡黃一舌暗紅;且苔薄淡黃一舌暗紅、有齒印一舌暗紅、苔薄膩淡黃一有齒印的組合具有相當高的提升度,證明在臨床咳嗽醫(yī)案中,患者舌質(zhì)暗紅常伴苔薄且淡黃或有齒印的癥狀一起出現(xiàn),有齒印的癥狀常伴有暗紅舌色或薄膩淡黃的舌苔。而對于同一組舌診數(shù)據(jù)(如{有齒印}={舌暗紅}、{舌暗紅}={有齒印})具有相同的支持度和提升度,置信度存在差異的原因在于項集順序的不同,這種前后順序?qū)е碌牟町愒谂R床中不具有太大的研究意義。最后再次采用plot()函數(shù),選擇用網(wǎng)狀圖對上述數(shù)據(jù)結(jié)果進行更好的展示,如圖5所示,從圖中可直觀解讀出,苔薄淡黃一舌暗紅、有齒印一舌暗紅組合間的圓點的顏色代表的提升度較高。
3.5基于關(guān)聯(lián)規(guī)則的咳嗽相關(guān)癥一藥規(guī)律分析
在全部醫(yī)案中篩選舌診、中藥信息齊全的醫(yī)案數(shù)據(jù),整理保存成所需csv格式。首先利用3.3中所得高頻舌診數(shù)據(jù)作為關(guān)聯(lián)規(guī)則中的固定項,在R語言中將高頻舌診依次放人后項,根據(jù)新數(shù)據(jù)的特點調(diào)整最小支持度與置信度的閾值。在調(diào)試過程中,既最大限度地使設定的閾值提高,又保證關(guān)聯(lián)規(guī)則結(jié)果輸出的數(shù)量,以篩選到有價值的知識。最終設定條件最小支持度為5%,最小置信度為10%,對舌診和藥物間的關(guān)聯(lián)性進行運算,得到舌診癥狀一藥物關(guān)聯(lián)規(guī)則,分別選取舌色、苔色、苔質(zhì)最高頻項的對應關(guān)聯(lián)規(guī)則以展示,按置信度排序的關(guān)聯(lián)規(guī)則如表4所示(序號1~5是以“舌紅”為后項的關(guān)聯(lián)規(guī)則、序號6~10是以“苔薄白”為后項的關(guān)聯(lián)規(guī)則、序號11~15是以“舌暗紅”為后項的關(guān)聯(lián)規(guī)則),按支持度排序的關(guān)聯(lián)規(guī)則如表5所示。
通過綜合觀察關(guān)聯(lián)規(guī)則對應的支持度、置信度、提升度大小可以發(fā)現(xiàn),舌紅與苔薄白的癥狀、舌暗紅與有齒印具有很強的關(guān)聯(lián)性:“舌紅”作為后項時平地木、陳皮一青皮、青皮分別作為前項與其有相當高的提升度,表明這幾味藥或藥物組合對于治療舌紅癥狀對應證具有相當?shù)淖饔茫骸疤Ρ“住迸c防風也具有很高的提升度,桔梗、炙甘草、丹參藥物單獨或組合與“舌暗紅”都有很強的關(guān)聯(lián)度,表明這幾味藥物是治療舌暗紅癥狀對應證的重要藥物;麻黃根、萊菔子分別或組合與“有齒印”“舌暗紅”同時出現(xiàn)時關(guān)聯(lián)規(guī)則的置信度達到100%,說明了“有齒印”“舌暗紅”高度地同時出現(xiàn)在同一醫(yī)案當中,臨床中患者有相當大的概率在出現(xiàn)舌質(zhì)暗紅時同時有齒印,麻黃根、萊菔子是治療其對應證的重要藥物。
4分析結(jié)果與討論
4.1基于關(guān)聯(lián)規(guī)則的中醫(yī)藥知識發(fā)現(xiàn)過程
本研究基于實地肺病醫(yī)案數(shù)據(jù),首先,根據(jù)上文結(jié)果所顯示的關(guān)聯(lián)規(guī)則篩選出具有關(guān)聯(lián)關(guān)系的藥對,在對藥物各自進行四氣五味分析的基礎上挖掘出具有強關(guān)聯(lián)的藥對配伍規(guī)律,初步分析咳嗽患者的大致類型;其次,根據(jù)舌診關(guān)聯(lián)規(guī)則進行歸類挖掘咳嗽的病位以及病因;最后,根據(jù)癥一藥關(guān)聯(lián)規(guī)則通過臨床癥狀結(jié)合藥物作用進一步挖掘以咳嗽為主證患者的幾類證狀,形成癥一藥一癥的邏輯鏈,同時發(fā)現(xiàn)治療基本原則,最終達到整理與細化醫(yī)案知識與知識發(fā)現(xiàn)的目的。
4.2基于關(guān)聯(lián)規(guī)則的用藥規(guī)律知識發(fā)現(xiàn)
中藥的性味可以反映藥物的作用與功效,是藥物性能的一個重要方面?;陉P(guān)聯(lián)規(guī)則從藥物四氣五味的角度可以發(fā)現(xiàn)臨床治療中的常用治法組合,中藥的四氣是從藥物作用于機體所發(fā)生的反應概括的,即寒、熱、溫、涼,此外還有一些藥物藥性較為平和被稱為平性;五味是指酸、苦、甘、辛、咸,有些藥物為一氣多味。對關(guān)聯(lián)規(guī)則中的藥物四氣五味進行總結(jié)發(fā)現(xiàn),在藥物四氣配伍方面,主要分為3個組合方式:第一類為“平+溫”組合的配伍,以炙甘草一紫菀、炙甘草一陳皮、杏仁一桔梗、半夏一茯苓藥物組合為代表:第二類為“溫+溫”組合的同氣配伍,以半夏一陳皮、款冬花一紫菀、紫菀一陳皮等組合為代表;第三類為“平+寒”組合的配伍。溫熱藥物常用于治療陰盛寒證,寒涼藥多具有解熱、鎮(zhèn)咳的作用,具體有清熱燥濕藥、清虛熱藥的功效多用于治療陽盛熱證,由此咳嗽的患者首先可大致分為兩大類,一類為熱證,一類為寒證。藥物五味方面,第一涉及較多“苦辛”搭配,其中多味藥物兼具苦、辛之味??嗄芙的苄梗哂星逍够馃?、泄降氣逆的功效,辛味先人肺經(jīng),可潤燥、行氣;而苦辛并施可以針對表證、熱濕證。第二主要為甘+辛、苦的多味搭配,甘味可調(diào)和諸藥,先人脾經(jīng),中醫(yī)中脾主運化,脾運化功能失常則會影響其余臟腑之功能。而又由于甘味用于虛證,甘+辛、苦的藥物搭配可起到從內(nèi)調(diào)和臟腑的功效,針對里證治療,由此咳嗽患者可再次被分為表證與里證。
4.3基于關(guān)聯(lián)規(guī)則的舌診特征知識發(fā)現(xiàn)
舌診是中醫(yī)望診中的重要內(nèi)容之一,通過觀察舌頭的形態(tài)、色澤等特征來輔助診斷?;陉P(guān)聯(lián)規(guī)則從舌診特征的角度進行知識發(fā)現(xiàn),可以挖掘臨床治療中的患者舌診特征組合。從舌苔顏色角度來看,薄白苔一般為正常舌苔,也可能由外感風邪引起,而薄黃苔大多由白苔轉(zhuǎn)化而成,表示病已由寒化熱、由表及里,黃苔則大多由痰熱濕交織而成;以舌質(zhì)來說,淡紅色為正常,紅舌和暗紅舌大多代表里熱火旺:從舌形角度看,有齒印大多因舌體胖大,多見于虛證或濕熱痰濁壅滯;因此若從病位和病情發(fā)展階段來看,可大致分為兩類:第一種以苔薄白一舌淡紅為代表,反映出患者可能處在表證初期或存在里證輕?。旱诙N包括苔薄淡黃一舌暗紅、苔薄膩淡黃一有齒印、苔薄膩淡黃一舌暗紅、有齒印一舌暗紅組合,以苔色變化伴隨舌質(zhì)的變化反映出患者病位已人里,臟腑功能已失調(diào)。若從病位結(jié)合病因來看,也可分為兩類:苔薄白一舌淡紅多屬外感風寒癥,患者應為外感咳嗽,病位在表病情較為輕微:苔薄白一舌紅癥狀所對應患者屬外感風熱或外感風寒化熱。齒痕舌多因脾臟運化水液功能失調(diào)而濕阻導致,所以伴有齒印一舌暗紅、苔薄膩淡黃一有齒印的患者病為里證虛證:苔薄淡黃一舌暗紅、苔薄膩淡黃一舌暗紅組關(guān)聯(lián)規(guī)則的患者體內(nèi)濕熱積滯病情較為復雜,除肺腑以外腸胃等臟腑可能存在功能障礙,因此患者屬于內(nèi)傷咳嗽,舌形舌質(zhì)、舌苔較正常舌苔相比有較明顯的變化。綜上角度看舌診反映的信息,導致患者咳嗽的主要病因大致有風、寒、熱、濕幾種外邪,病情的病變部位包括體表與內(nèi)在臟腑,即所描述“外感咳嗽”與“內(nèi)傷咳嗽”之分,而具體的證型仍需進一步結(jié)合中藥進行分析。
4.4基于關(guān)聯(lián)規(guī)則的咳嗽癥一藥規(guī)律知識發(fā)現(xiàn)
基于關(guān)聯(lián)規(guī)則從舌診癥狀與藥物相結(jié)合的角度進行知識發(fā)現(xiàn),可以更加精確的挖掘患者咳嗽的主因與治療思路。從咳嗽病位以及主因角度進行知識分類分為以下幾組,第一組為苔薄白一舌淡紅組合,所涉及的強關(guān)聯(lián)藥物有防風、紫菀、款冬花、射干、黃芩等,藥物主要類型為清熱藥、止咳平喘藥與解表藥,結(jié)合中藥功效可見苔薄白一舌淡紅組合所對應的患者為外寒內(nèi)熱證或風熱證:第二組為苔薄膩淡黃一有齒印組合,所涉及的強關(guān)聯(lián)藥物有炙甘草、丹參、枳殼、白前、郁金等,藥物主要類型為補益藥、行氣藥、活血化淤藥,藥物歸經(jīng)涉及心、肝、肺、脾、胃、大腸經(jīng),可見苔薄膩淡黃一有齒印組合,所對應患者病情較為復雜,機體內(nèi)部功能嚴重失調(diào),結(jié)合藥物功效與癥狀看,可能為肺氣虛證、痰熱壅肺證、肝火犯肺證等;第三組為有齒印一舌暗紅組合,所涉及的強關(guān)聯(lián)藥物有丹參、枳殼、白前、萊菔子等,藥物主要類型有行氣藥、止咳平喘藥,藥物歸經(jīng)涉及脾、胃、肺經(jīng),結(jié)合舌診信息來看,患者大多因氣機郁滯導致痰濕咳嗽,屬痰濕證;第四組為苔薄淡黃一舌暗紅組合,所涉及的強關(guān)聯(lián)藥物有桔梗、麻黃根、萊菔子、丹參、白前;苔薄膩淡黃一舌暗紅組合所涉及的強關(guān)聯(lián)藥物有麻黃根、萊菔子、丹參、白前,藥物主要作用為理氣與止咳化痰,表明這兩組舌診癥狀對應的患者大多氣機不通暢且體內(nèi)濕熱屬痰熱證或陰虛證。綜上所述,對舌診癥狀與藥物的關(guān)聯(lián)規(guī)則進行知識發(fā)現(xiàn),一方面可以通過咳嗽患者的舌診癥狀與所對應藥物作用大致判斷其病位深淺與復雜程度:另一方面可以通過研究臨床醫(yī)案發(fā)現(xiàn)咳嗽時不同狀況下所對應的治療方法與原則,如病情較復雜時,用藥不僅需針對肺腑情況,還需兼顧其余臟腑以達到恢復五臟六腑平和的目的。
5結(jié)語
對中醫(yī)藥規(guī)律進行知識發(fā)現(xiàn),可將中醫(yī)的治療經(jīng)驗、用藥思想.癥狀規(guī)律等進行清晰化的表述,有利于思想的傳承與臨床治療的經(jīng)驗借鑒。本文系統(tǒng)性地介紹了基于關(guān)聯(lián)規(guī)則對中醫(yī)藥知識進行挖掘的過程,以實地肺病醫(yī)案為例,從“咳嗽”為主證的醫(yī)案人手,首先通過統(tǒng)計分析、關(guān)聯(lián)規(guī)則算法找出常用藥物、舌診特征以及強關(guān)聯(lián)的藥物、舌診特征、癥一藥關(guān)系組合,最后一步一步對實地治療咳嗽醫(yī)案的用藥規(guī)律、舌診特征、癥一藥關(guān)聯(lián)規(guī)律進行隱性知識發(fā)現(xiàn),為中醫(yī)藥知識發(fā)現(xiàn)提供新角度。本研究選取了實地肺病醫(yī)案進行研究,后可將此關(guān)聯(lián)規(guī)則分析方法運用到其他中醫(yī)藥知識發(fā)現(xiàn)的研究中。本研究結(jié)果顯示,本地治療咳嗽的藥物以炙甘草為首,杏仁、半夏、川貝母、茯苓、陳皮等被高頻使用,基于Apriori算法的關(guān)聯(lián)規(guī)則分析顯示,常見的藥物配伍為丹參,桔梗一炙甘草、柴胡,桔梗一炙甘草、前胡,枳殼一桔梗、丹參一桔梗等;本地咳嗽舌診癥狀以苔薄白、苔薄黃、舌紅、舌暗紅、有齒印等最為常見,基于Apriori算法的關(guān)聯(lián)規(guī)則分析顯示,舌診癥狀以苔薄淡黃一舌暗紅、有齒印一舌暗紅、苔薄膩淡黃一有齒印等組合為強關(guān)聯(lián)組合,苔薄淡黃一舌暗紅舌診癥狀組合的強關(guān)聯(lián)藥物有桔梗、炙甘草、丹參、白前等。研究發(fā)現(xiàn),咳嗽患者病變部位包括體表與體內(nèi)臟腑.導致咳嗽的外邪主要有風、寒、熱、濕,證型涉及風熱證、痰濕證、陰虛證、肺氣虛證、痰熱壅肺證等;醫(yī)治里證時以肺與其他臟腑同時調(diào)理以平衡人體五臟六腑最終達到治療效果。