李鋒剛 LI Feng-gang;李玉 LI Yu;高曉智 GAO Xiao-zhi;凱·曾格 ZENGER Kai
(①合肥工業(yè)大學(xué)管理學(xué)院,合肥 230009;②阿爾托大學(xué)自動(dòng)化與系統(tǒng)技術(shù)系,芬蘭 FI-00076;③合肥工業(yè)大學(xué)過(guò)程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230009)
(①School of Management,Hefei University of Technology,Hefei 230009,China;②Department of Automation and Systems Technology,Aalto University,F(xiàn)inland FI-00076;③Key Laboratory of Process Optimization and Intelligent Decision-making,Ministry of Education,Hefei 230009,China)
基于形式概念分析的治痹用藥規(guī)律挖掘
李鋒剛①②③LI Feng-gang;李玉①③LI Yu;高曉智②GAO Xiao-zhi;凱·曾格②ZENGER Kai
(①合肥工業(yè)大學(xué)管理學(xué)院,合肥 230009;②阿爾托大學(xué)自動(dòng)化與系統(tǒng)技術(shù)系,芬蘭 FI-00076;③合肥工業(yè)大學(xué)過(guò)程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230009)
(①School of Management,Hefei University of Technology,Hefei 230009,China;②Department of Automation and Systems Technology,Aalto University,F(xiàn)inland FI-00076;③Key Laboratory of Process Optimization and Intelligent Decision-making,Ministry of Education,Hefei 230009,China)
本文將形式概念分析理論應(yīng)用于新安醫(yī)籍中的治痹用藥規(guī)律挖掘,借助概念格構(gòu)建工具LatticeMiner軟件對(duì)新安醫(yī)籍治痹資料表進(jìn)行形式背景和概念格的構(gòu)建。通過(guò)構(gòu)建方劑-證型、方劑-癥狀以及方劑-藥材概念格直觀地展示出痹病證型、癥狀、藥材和對(duì)應(yīng)的方劑的層次結(jié)構(gòu),便于挖掘痹病證型、癥狀的分布情況以及組方用藥情況,并通過(guò)嵌入式形式背景構(gòu)建對(duì)證型、癥狀和藥材之間的關(guān)系更加結(jié)構(gòu)化地展示,最后通過(guò)基于FCA的關(guān)聯(lián)規(guī)則挖掘方法對(duì)證型、癥狀和藥材三者的關(guān)聯(lián)規(guī)則進(jìn)行挖掘,為中醫(yī)方面的數(shù)據(jù)挖掘研究提供了一種新的思路。
形式概念分析;概念格;新安醫(yī)學(xué);痹病;關(guān)聯(lián)規(guī)則
形式概念分析理論是由德國(guó)教授Wille在1982年提出的[1],它通過(guò)形式背景構(gòu)造概念格,從而進(jìn)行數(shù)據(jù)的分析和規(guī)則的提取。在形式概念分析理論中最核心的數(shù)據(jù)結(jié)構(gòu)是概念格,它反映了對(duì)象和屬性之間的聯(lián)系,表明概念之間的泛化和例化關(guān)系,通過(guò)Hasse圖的建立實(shí)現(xiàn)了對(duì)數(shù)據(jù)結(jié)構(gòu)的可視化。隨著研究的深入,形式概念分析越來(lái)越多地被應(yīng)用到數(shù)據(jù)挖掘、信息檢索和知識(shí)發(fā)現(xiàn)等領(lǐng)域。
由于形式概念分析通過(guò)對(duì)概念格的構(gòu)造使得數(shù)據(jù)能夠有機(jī)地組織起來(lái),概念格的節(jié)點(diǎn)體現(xiàn)了概念內(nèi)涵和外延的統(tǒng)一,所以形式概念分析非常適合用來(lái)發(fā)現(xiàn)規(guī)則型知識(shí)。通過(guò)將概念格的外延和內(nèi)涵分別于事務(wù)數(shù)據(jù)庫(kù)中的事物和特征相對(duì)應(yīng),可以從概念格上產(chǎn)生頻繁項(xiàng)集,進(jìn)而挖掘關(guān)聯(lián)規(guī)則。國(guó)內(nèi)外基于概念格的關(guān)聯(lián)規(guī)則挖掘方法的研究也很多[3-10]。研究表明形式概念分析可以被用作蘊(yùn)含規(guī)則和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的形式框架,并且能夠提高規(guī)則挖掘的響應(yīng)效率。
新安醫(yī)學(xué)作為一個(gè)具有地方特色的中醫(yī)群體,在痹病診療上進(jìn)行了長(zhǎng)期的研究并積累了豐富的經(jīng)驗(yàn),并著有大量的醫(yī)籍。本文在安徽中醫(yī)學(xué)院新安醫(yī)家治痹資料挖掘計(jì)劃的基礎(chǔ)上,將形式概念分析應(yīng)用到新安醫(yī)籍治痹用藥規(guī)律挖掘,借助概念格構(gòu)造工具Lattice Miner對(duì)治痹數(shù)據(jù)進(jìn)行形式背景和概念格的構(gòu)造,通過(guò)構(gòu)建方劑-證型、方劑-癥狀以及方劑-藥材概念格直觀地展示出痹病證型、癥狀、藥材和對(duì)應(yīng)的方劑的層次結(jié)構(gòu),便于挖掘痹病證型、癥狀的分布情況以及組方用藥情況,并通過(guò)嵌入式形式背景和子概念格的構(gòu)建對(duì)證型、癥狀和藥材之間的關(guān)系做更加結(jié)構(gòu)化地展示。最后通過(guò)基于FCA的關(guān)聯(lián)規(guī)則挖掘方法對(duì)證型-癥狀、癥狀-藥材以及藥材-藥材之間的關(guān)聯(lián)規(guī)則進(jìn)行挖掘,為中醫(yī)方面的數(shù)據(jù)挖掘研究提供了一種新的思路。
Wille提出的形式概念分析理論借鑒了哲學(xué)上把概念理解為由內(nèi)涵和外延兩部分組成的思想,它把概念的外延被理解為屬于這個(gè)概念的所有對(duì)象的集合,內(nèi)涵則是所有這些對(duì)象所共同具有的特征或?qū)傩约懈拍钸B同他們之間的泛化/例化關(guān)系構(gòu)成了一個(gè)概念格。下面給出形式概念分析中的基本概念。
定義1形式背景K是一個(gè)三元組K=(G,M,I),其中G是所有對(duì)象的集合,M為所有屬性的集合,I?G×M為G和M元素之間的關(guān)系集合。對(duì)于g∈G,m∈M,(g,m)∈I表示“對(duì)象g具有屬性m”。一個(gè)簡(jiǎn)單的形式背景如表1所示,表中行代表對(duì)象,列代表屬性,當(dāng)?shù)趇個(gè)對(duì)象具有第j個(gè)屬性的時(shí)候用“×”表示。設(shè) K=(G,M,I)為形式背景,對(duì)于集合 A∈G,記 A*={m∈M│(g,m)∈I,?g∈A},表示A中全體對(duì)象所共有的屬性集合。相應(yīng)的,對(duì)于集合B∈M,記B*={g∈G|(g,m)∈I,?m∈B},表示所有B中屬性的全體對(duì)象的集合。
表1 一個(gè)簡(jiǎn)單的形式背景
定義2 設(shè)K=(G,M,I)為形式背景,A∈G,B∈M,稱(A,B)為K的一個(gè)概念。如果滿足A*=B且B*=A,則A稱為概念(A,B)的外延,B 稱為概念(A,B)的內(nèi)涵。
定義 3 設(shè) K=(G,M,I) 為一個(gè)形式背景,(A1,B1),(A2,B2)是 K 中的兩個(gè)概念,規(guī)定:(A1,B1)≤(A2,B2)?A1?A2(?(B1?B2),此時(shí) C2=(A2,B2)稱為(A1,B1)的超概念,(A1,B1)稱為(A2,B2)的子概念。這種超概念-子概念的偏序關(guān)系所誘導(dǎo)出的格稱為概念格,概念格中的每個(gè)結(jié)點(diǎn)都是一個(gè)形式概念。表1所對(duì)應(yīng)的概念格的Hasse圖如圖1所示。
圖1 Hasse圖
定義4 對(duì)概念 C1=(A,B),稱 C2=(|A|,B)為 C1的量化概念,其中|A|是外延A的基數(shù)。引入內(nèi)涵B的支持度Support(B)=|A|/N,其中,N是整個(gè)形式背景中的對(duì)象總數(shù)。如果Support(B)大于支持度閾值,則稱C是頻繁概念,其中B的基本內(nèi)涵是基本頻繁項(xiàng)目集。對(duì)于概念格中的兩個(gè)概念C1=(A1,B1)和C2=(A2,B2),C2∈sup(C1)(其中sup(C1)是C1的超概念集),則可以得到關(guān)聯(lián)規(guī)則 B2?B1-B2,其可信度=|A1|/|A2|。其中|A1|,|A2|分別是概念 C1,C2的外延基數(shù)。
新安醫(yī)學(xué)是新安地區(qū)產(chǎn)生的一個(gè)醫(yī)學(xué)群體,歷史悠久,在祖國(guó)醫(yī)學(xué)的發(fā)展中起到了重要作用。痹病是人體正氣不足或者臟腑功能失調(diào),風(fēng)寒濕熱燥等外邪乘虛侵襲,造成經(jīng)脈氣血不榮,出現(xiàn)肢體關(guān)節(jié)肌肉疼痛、重著、麻木、腫脹、屈伸不利,甚至關(guān)節(jié),或累及臟腑為特殊的一類疾病[10]。新安醫(yī)籍是歷代新安醫(yī)家智慧的結(jié)晶,對(duì)于新安醫(yī)學(xué)的臨床診斷和發(fā)展具有重要意義。本文根據(jù)安徽中醫(yī)學(xué)院“新安醫(yī)家治痹資料挖掘計(jì)劃”,借助形式概念分析理論對(duì)新安醫(yī)籍治痹用藥規(guī)律進(jìn)行了挖掘。
2.1 數(shù)據(jù)源及應(yīng)用軟件 本文的數(shù)據(jù)源為安徽中醫(yī)學(xué)院收集和整理的新安醫(yī)籍治痹資料表,主要內(nèi)容包括方劑名、書(shū)籍、作者、卷次、規(guī)范證型粗、規(guī)范證型細(xì)、癥狀、規(guī)范癥狀、藥材等。其中規(guī)范證型是安徽中醫(yī)學(xué)院根據(jù)《中醫(yī)內(nèi)科學(xué)》整理的,其將痹癥證型分為風(fēng)寒濕痹、風(fēng)熱濕痹、痰瘀痹阻、肝腎兩虛證等。同時(shí)在癥狀上也做了規(guī)范癥狀,分為肢體疼痛、腫脹、周身痛、惡寒發(fā)熱、灼痛等。
實(shí)驗(yàn)借助概念格構(gòu)造軟件Lattice Miner 1.4進(jìn)行概念格的構(gòu)造和基于概念格的關(guān)聯(lián)規(guī)則挖掘。該軟件由加拿大魁北克大學(xué)渥太華分校多媒體研究實(shí)驗(yàn)室開(kāi)發(fā)的,其在復(fù)雜問(wèn)題處理、關(guān)聯(lián)規(guī)則提取和支持語(yǔ)義網(wǎng)絡(luò)方面都有較強(qiáng)的優(yōu)勢(shì)[11]。
2.2 形式背景構(gòu)建與概念格的形式化表示 本文中將方劑名作為對(duì)象,將證型、癥狀、藥材分別作為屬性構(gòu)建形式背景,即構(gòu)建方劑-證型、方劑-癥狀、方劑-藥材三個(gè)形式背景。為了更清楚的說(shuō)明,在此只選了7個(gè)方劑構(gòu)建了3個(gè)形式背景,如表2-表4所示。由于LatticeMiner不支持中文,所以在構(gòu)建形式背景的時(shí)候用序號(hào)1,2,3代表資料表中對(duì)于序號(hào)方劑的名字,用拼音大寫(xiě)字母縮寫(xiě)代替證型,用拼音小寫(xiě)字母縮寫(xiě)癥狀名字,用拼音表示藥材。
通過(guò)LatticeMiner軟件構(gòu)建方劑-證型概念格和方劑-癥狀概念格,如圖2和圖3所示。從方劑-證型概念格中,由于FHSB(風(fēng)寒濕痹)下有三個(gè)子概念,其分別具有的屬性均為FHSB(風(fēng)寒濕痹)和 TB(痛痹)、XB(行痹)、ZB(著痹)的組合,所以可以很容易的推斷出FHSB(風(fēng)寒濕痹)下包含的三個(gè)子證型即 TB(痛痹)、XB(行痹)、ZB(著痹),而TYBZ(痰瘀痹阻)、FRSB(風(fēng)熱濕痹)沒(méi)有子證型。
為了獲得證型、癥狀和藥材之間的關(guān)系,這里利用LatticeMiner構(gòu)造嵌入式背景的功能,將三個(gè)形式背景組合成一個(gè)嵌入形式背景。由于中醫(yī)診斷首先根據(jù)癥狀判斷證型,然后再根據(jù)證型和癥狀組方配藥,所以這里第一層為證型形式背景,第二層是癥狀形式背景,第三層為藥材形式背景,即構(gòu)成子形式背景關(guān)系。根據(jù)文獻(xiàn)[3]所述,通過(guò)嵌入式形式背景構(gòu)成出的概念格與直接通過(guò)合并形式背景中的屬性構(gòu)造出的概念格在結(jié)構(gòu)上是一致的,但是嵌入式形式背景構(gòu)造出的概念格能更清晰地展示數(shù)據(jù)的層次結(jié)構(gòu),從而有利于進(jìn)行數(shù)據(jù)分析。該嵌入式形式背景的概念格Hasse圖如圖4所示,其中每個(gè)節(jié)點(diǎn)里面都包含一個(gè)子格結(jié)構(gòu)。以FSRB(風(fēng)濕熱痹)節(jié)點(diǎn)為例,可以看到風(fēng)濕熱痹中可能出現(xiàn)癥狀有zz(腫脹)、ehfr(惡寒發(fā)熱)、zttt(肢體疼痛)、zt(脹痛),在zz(腫脹)節(jié)點(diǎn)中又包含對(duì)應(yīng)“腫脹”癥狀的方劑中的藥材節(jié)點(diǎn),這里只含有一個(gè)節(jié)點(diǎn),即表示對(duì)應(yīng)“腫脹”癥狀的方劑中含有的藥材fangji(防己)、gancao(甘草),huangbai(黃柏)huanglian(黃連)。
表2 方劑-證型形式背景
表3 方劑-癥狀形式背景
表4 部分方劑-藥材形式背景
圖2 方劑-證型概念格Hasse圖
圖3 方劑-癥狀概念格Hasse圖
圖4 嵌入式形式背景的概念格Hasse圖
2.3 基于FCA的關(guān)聯(lián)規(guī)則挖掘 為了得到更準(zhǔn)確的數(shù)據(jù)結(jié)果,本文借助LatticeMiner軟件的關(guān)聯(lián)規(guī)則功能,對(duì)上述嵌入式形式背景進(jìn)行了關(guān)聯(lián)規(guī)則提取,其中支持度設(shè)為20%,置信度設(shè)為50%,實(shí)驗(yàn)結(jié)果如表5所示。
通過(guò)對(duì)構(gòu)建的方劑-證型、方劑-癥狀、方劑-藥材構(gòu)建的嵌入式形式背景進(jìn)行關(guān)聯(lián)規(guī)則挖掘,可以便于進(jìn)一步分析新安醫(yī)家治痹用藥組合規(guī)律。如從包含風(fēng)濕熱痹證型的關(guān)聯(lián)規(guī)則有5條(包含F(xiàn)SRB的關(guān)聯(lián)規(guī)則已被用黑色字體標(biāo)出),根據(jù)關(guān)聯(lián)規(guī)則可以推斷出風(fēng)濕熱痹證且伴有腫脹(zz)癥狀的情況下,常采用防己、黃柏和黃連進(jìn)行組方,與上述概念格得出結(jié)論一致。
從上述實(shí)驗(yàn)中可以看出,概念格的構(gòu)建對(duì)于證型與癥狀的分布關(guān)系、核心處方挖掘、藥物加減情況等方面的挖掘提供了良好的分析基礎(chǔ),形式概念分析理論對(duì)于中醫(yī)醫(yī)籍?dāng)?shù)據(jù)挖掘具有一定的意義。
表5 基于FCA關(guān)聯(lián)規(guī)則實(shí)驗(yàn)結(jié)果
本文應(yīng)用形式概念分析理論對(duì)新安醫(yī)學(xué)治痹用藥規(guī)律進(jìn)行挖掘,通過(guò)對(duì)方劑-證型、方劑-癥狀、方劑-藥材概念格的構(gòu)建將數(shù)據(jù)的層次結(jié)構(gòu)展示出來(lái),從而能夠更好地挖掘證型、癥狀與用藥組方上的規(guī)律。借助嵌入式形式背景和子概念格構(gòu)建使得具有多種屬性的數(shù)據(jù)以一種更清晰更層次地方式展示,降低了概念格的復(fù)雜程度,更有利于對(duì)證型、癥狀和藥材之間關(guān)系的挖掘。本文最后對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行基于形式概念分析的關(guān)聯(lián)規(guī)則挖掘,從而可以進(jìn)一步定量分析新安醫(yī)家治痹用藥組合規(guī)律??偟膩?lái)說(shuō),形式概念分析理論的引入有助于探尋新安歷代醫(yī)家治痹用藥規(guī)律,為中醫(yī)方面的數(shù)據(jù)挖掘研究提供了一種新的思路,為中醫(yī)臨床診斷用藥規(guī)律的探究也提供了一種新的模式。
[1]R.Wille.Restructuring lattice theory:an approach based on hierarchies of concepts[J].Formal Concept Analysis,2009,5548:314-339.
[2]L Lakhal,G Stumme.Efficient Mining of Association Rules Based on Formal Concept Analysis[J].Formal Concept Analysis,2005,3626:180-195.
[3]G Stumme,R Taouil,Y Bastide,et al.Computing iceberg concept lattices with TITANIC[J].Data&Knowledge Engineering,2002,42:189-222.
[4]Y Bastide,N Pasquier,R Taouil,G Stumme.Mining minimal non-redundant association rules using frequent closed itemsets[J].Computational Logic,2000,1861:972-986.
[5]Hereth J,Stumme G,Wille R,et a.l Conceptual Knowledge Discovery and Data Analysis[J].Conceptual Structures:Logical,Linguistic,and Computational Issues,2000,1867:421-437.
[6]G Stumme,R Taouil,Y Bastide,et al.Intelligent Structuring and Reducing of Association Rules with Formal Concept Analysis[J].Advances in Artificial Intelligence,2001,2174:335-350.
[7]王德興,胡學(xué)鋼,劉曉平,王浩.基于概念格和Apriori的關(guān)聯(lián)規(guī)則挖掘算法分析[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,29(6):699-702.
[8]王甦菁,陳震.一種基于概念格的關(guān)聯(lián)規(guī)則挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(28):157-161.
[9]王月行,馬桓,胡志宇.基于概念格的關(guān)聯(lián)規(guī)則挖掘方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(22):5062-5064.
[10]薛安榮,王富強(qiáng),李明.基于Iceberg概念格的最大頻繁項(xiàng)集挖掘[J].計(jì)算機(jī)工程,2011,37(7):35-37.
[11]劉磊,劉健.孫一奎治痹特色探析[J].中醫(yī)藥臨床雜志,2011,23(6):481-482.
[12]滕廣青,畢強(qiáng).概念格構(gòu)建工具ConExp與LatticeMiner的比較研究[J].數(shù)字圖書(shū)館,2010,10:17-22.
Mining the Medication Rule of Rheumatism Using Formal Concept Analysis
This paper applies the theory of Formal Concept Analysis(FCA)to mine the medication rule of rheumatism in Xin’an medical documents,with the tools of concept lattice constructing software LatticeMiner to build the formal contexts and concept lattices.The prescription-type,prescription-symptoms and prescription-medicine concept lattice intuitively show the hierarchical structure of syndromes,symptoms,medicinal herbs and the corresponding formulas of Rheumatism disease and are helpful to dig the distribution of syndrome,symptoms and Medication Rule.In addition through the construction of the nested formal context,the relationship among the syndromes,symptoms and medicine becomes more structured.Finally using association rules mining method based on the FCA to mine the association rules about syndromes,symptoms and medicine.This research provides a new train of thought in research field of the data mining of traditional Chinese medicine.
Formal Concept Analysis;concept lattice;Xin'an medicine;treatment of rhemumatism;association rules
李鋒剛(1976-),男,陜西澄城人,博士,副教授,碩士生導(dǎo)師,研究方向?yàn)槿斯ぶ悄芎蜋C(jī)器學(xué)習(xí)、醫(yī)學(xué)信息化;李玉(1987-),女,河北唐山人,碩士研究生,研究方向?yàn)獒t(yī)學(xué)信息化、數(shù)據(jù)挖掘、云計(jì)算。
TP391
A
1006-4311(2014)11-0227-04
南京市科技計(jì)劃項(xiàng)目(2012sf542010);國(guó)家留學(xué)基金資助項(xiàng)目。