藍(lán)昊慧
摘要: 中藥復(fù)方數(shù)據(jù)挖掘研究是將我國豐富的中藥信息資源和現(xiàn)代最新信息技術(shù)相結(jié)合的重要內(nèi)容,它意味著基于中醫(yī)理論,利用知識(shí)發(fā)現(xiàn)技術(shù),對(duì)傳統(tǒng)中藥新藥、中醫(yī)組方理論及規(guī)律、中藥作用機(jī)制、有效成分構(gòu)效關(guān)系等多個(gè)方面進(jìn)行全面、系統(tǒng)的研究。圖作為一種經(jīng)典的數(shù)據(jù)結(jié)構(gòu),被廣泛用于復(fù)雜數(shù)據(jù)結(jié)構(gòu)分析與建模。文章探討了圖建模技術(shù)并實(shí)現(xiàn)了中醫(yī)方劑與圖集的轉(zhuǎn)換。
關(guān)鍵詞: 中醫(yī)方劑; 中醫(yī)藥方; 圖集; 數(shù)據(jù)結(jié)構(gòu); 領(lǐng)域本體; 數(shù)據(jù)庫
中圖分類號(hào):TP39文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2012)11-26-02
Conversion method of traditional Chinese medicine prescriptions and atlas
Lan Haohui
(Zhejiang Songyang County financial local taxation Bureau, Lishui, Zhejiang 323400, China)
Abstract: Research on data mining of Chinese medicine is a vital combination of abundant Chinese medicine information resources and modern information technology. It is based on TCM theory, using knowledge discovery technology to make a comprehensive, systematic research on traditional Chinese medicine prescription, theory and rule of Chinese medicine effective component, mechanism, structure-activity relationships. Atlas, as a classic data structure, is used in analysis and modeling of complex data structure. The modeling technology of atlas is discussed and the conversion of traditional Chinese medicine and atlas is implemented.
Key words: the prescription of traditional Chinese medicine; traditional Chinese medicine prescription; atlas; data structure; domain ontology; database
0 引言
本文主要研究如何將中醫(yī)的相關(guān)知識(shí)合理地轉(zhuǎn)換為圖結(jié)構(gòu),從而為進(jìn)一步利用圖結(jié)構(gòu)對(duì)中醫(yī)的潛在知識(shí)挖掘做好準(zhǔn)備。本文內(nèi)容涉及到對(duì)中醫(yī)方劑的提取方法和提取后的數(shù)據(jù)在數(shù)據(jù)庫中存儲(chǔ)的方式,以及這些存儲(chǔ)內(nèi)容中的關(guān)系計(jì)算和圖結(jié)構(gòu)的建立。
1 中醫(yī)數(shù)據(jù)
在取得中醫(yī)醫(yī)案后,先對(duì)文本進(jìn)行初步的處理(主要是應(yīng)用最大匹配算法(正向和反向)對(duì)中醫(yī)醫(yī)案進(jìn)行初步的分詞),然后對(duì)處理過的句子進(jìn)行自底向上的句法分析,利用中醫(yī)領(lǐng)域本體進(jìn)行排歧處理、同義詞識(shí)別和未登錄詞的識(shí)別,得到最優(yōu)分詞序列。分詞框架如圖1所示。
1.1 分詞算法
最大匹配算法(正向和反向)從左到右,或從右到左,每次取最長詞,得到切分結(jié)果。正向匹配算法可分成五個(gè)步驟。
⑴ 待切分的漢字符串s1,已切分的漢字符串s2(s2初始串為空)。
⑵ s1如果為空串,轉(zhuǎn)⑹。
⑶ 從s1的左邊復(fù)制一個(gè)子串w作為候選詞,w盡可能長,但長度不超過最大詞長(一般為7個(gè)字長)。
⑷ 如果在詞表中能找到w,或w的長度為2,那么將w和一個(gè)詞界標(biāo)記(“/”)一起加到s2的右邊,并且從s1的左邊去掉w,轉(zhuǎn)⑵。
⑸ 去掉w中最后一個(gè)漢字,轉(zhuǎn)⑷。
⑹ 結(jié)束。
[開始] [最大匹配算法][自底向上句法][優(yōu)化后的詞語][同義詞識(shí)別][歧義處理][未登錄詞識(shí)別][結(jié)束][詞庫][本體庫]
圖1分詞框架圖
算法包含兩重循環(huán):外循環(huán)是從輸入串中復(fù)制后選詞w,內(nèi)循環(huán)是用候選詞w去匹配詞表中的詞。
反向最大匹配的是:每次從漢字符串的右邊取一個(gè)候選詞,候選詞不止一個(gè)漢字而且在詞表中查不到時(shí),將它最前面的一個(gè)漢字去掉。
1.2 本體的應(yīng)用
本體是共享可重用的概念集合,利用本體捕獲自然語言的語法知識(shí),確定該領(lǐng)域內(nèi)共同認(rèn)可的術(shù)語(概念),提供人和機(jī)器對(duì)該領(lǐng)域知識(shí)的共同理解,并給出這些概念之間相互關(guān)系的明確定義。所以,本系統(tǒng)分析和建立了分詞階段所需要的定義。
中醫(yī)領(lǐng)域本體是指應(yīng)用本體論的基本方法,通過中醫(yī)概念提取、關(guān)系提取,把中醫(yī)知識(shí)體系中的名詞術(shù)語抽象為一組概念與概念之間的關(guān)系的理論和方法。中醫(yī)領(lǐng)域本體是主要用于描述中醫(yī)領(lǐng)域知識(shí)的專門本體。它給出了中醫(yī)領(lǐng)域?qū)嶓w概念及相互關(guān)系、領(lǐng)域活動(dòng)以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述。
中醫(yī)領(lǐng)域本體的構(gòu)建是由中醫(yī)領(lǐng)域?qū)<彝ㄟ^分析中醫(yī)概念術(shù)語間的語義關(guān)系和中醫(yī)辨證論治的層次關(guān)系,完成中醫(yī)辨證論治基礎(chǔ)本體的構(gòu)建,并給出中醫(yī)知識(shí)的共享模型的明確的形式化規(guī)范說明。中醫(yī)領(lǐng)域本體 (本系統(tǒng)中的中醫(yī)領(lǐng)域本體雛形) 的構(gòu)建過程如下:
⑴ 確定概念,添加本體中的概念;
⑵ 建立概念之間的關(guān)系。
1.3 數(shù)據(jù)庫的設(shè)計(jì)
據(jù)中醫(yī)藥方劑的特點(diǎn),同時(shí)考慮了以后的關(guān)系計(jì)算,我們按照病人就診的過程設(shè)計(jì)了數(shù)據(jù)庫。其中包括一診、二診等過程,以及望、聞、問、切等診療手段;同時(shí),還包括方劑的組成,癥狀,證型等方劑本身的特點(diǎn)和數(shù)據(jù),如圖2所示。
圖2數(shù)據(jù)庫結(jié)構(gòu)圖
2 關(guān)系計(jì)算
通過概念提取過程找到了領(lǐng)域內(nèi)的概念,那么如何將這些概念聯(lián)系起來,還需要我們分析這些概念間的關(guān)系。概念間存在各種各樣的關(guān)系對(duì)于我們來說,完完全全地自動(dòng)分析這千萬種關(guān)系是沒有必要的,同時(shí)對(duì)于系統(tǒng)來說,也是很難實(shí)現(xiàn)的。在我們的系統(tǒng)中,我們主要考慮相連和同義關(guān)系。我們可以通過關(guān)聯(lián)規(guī)則、語義相似度判斷等方式尋找這兩種關(guān)系。
關(guān)系計(jì)算的主要目的就是發(fā)現(xiàn)中醫(yī)藥不同屬性之間,不同元素的關(guān)聯(lián)程度以及它們之間可能存在的關(guān)系,通過在數(shù)據(jù)庫中尋找,根據(jù)它們的關(guān)系計(jì)算出它們的相互信息量和條件相互信息量,為下一步的應(yīng)用PIBLO算法自動(dòng)生成圖結(jié)構(gòu)做好必要的數(shù)據(jù)方面的準(zhǔn)備。
3 圖模型的生成
圖模型是進(jìn)行圖挖掘理論研究的基礎(chǔ),將現(xiàn)實(shí)世界中各種各樣的圖抽象出來歸納總結(jié)為圖模型,便于分析和研究,也有利于在各領(lǐng)域?qū)崿F(xiàn)研究思路和方法的統(tǒng)一。圖模型可以幫助模擬研究現(xiàn)實(shí)中的圖,將現(xiàn)實(shí)中的大圖縮小成與其相匹配的小圖便于研究、分析和計(jì)算。但要將現(xiàn)實(shí)中千差萬別的圖抽象在無向圖中,需通過描述結(jié)點(diǎn)之間是否有邊相連來確定節(jié)點(diǎn)間的關(guān)系;類似地,在一個(gè)多元概率分布中,我們可以通過獨(dú)立性和條件獨(dú)立性來描述變量之間的關(guān)系。利用概率分布的馬氏性(Markov Property)把兩者對(duì)應(yīng)起來,這就產(chǎn)生了圖模型。
圖模型結(jié)構(gòu)學(xué)習(xí)的關(guān)鍵在于識(shí)別數(shù)據(jù)中蘊(yùn)含的獨(dú)立及條件獨(dú)立關(guān)系。我們主要依據(jù)相互信息量(mutual information)和條件相互信息量(conditions mutual information)來度量獨(dú)立性及條件獨(dú)立性。
定義1 令X和Y為兩組互不相交的隨機(jī)向量,f(x)和f(y)分別為它們的密度函數(shù),而f(x,y)為(X,Y)的聯(lián)合密度函數(shù),則X和Y之間的相互信息量為:
令X,Y和Z為三組互不相交的隨機(jī)向量,f(x|z),f(y|z)和f(x,y|z)分別為Z給定時(shí),X,Y的邊緣條件密度和聯(lián)合條件密度,而f(x,y,z)為(X,Y,Z)的聯(lián)合密度。則尤和y在Z給定時(shí)的條件相互信息量為:
Penalized Information-Based Local Optimization(PIBLO):以從表示在算法t層循環(huán)時(shí)Xi的鄰居集,對(duì)于所有的i∈V重復(fù)如下步驟:
步驟1:初始化,令t=0,;
步驟2:令,找到使得S(Xi,X*∪)最大,即
;
步驟3:如果,則,并回到步驟2執(zhí)行第t+1層循環(huán);否則,并轉(zhuǎn)入步驟4;
步驟4:對(duì)任意的,如果,則將Y從對(duì)中除去,即以來更新。最終得到的即為Xi鄰居集Ni。
在實(shí)際應(yīng)用中,我們可以用重抽樣(bootstrap)技術(shù)來評(píng)價(jià)算法所找到各個(gè)邊的穩(wěn)健性。通過對(duì)觀測數(shù)據(jù)進(jìn)行重抽樣并對(duì)每一個(gè)重抽樣數(shù)據(jù)集重復(fù)上述算法,我們可以得到一組圖,從而可以得出每一條邊的出現(xiàn)頻率。通過設(shè)定閥值,我們就可以剔除掉部分不夠穩(wěn)健的邊。
4 實(shí)驗(yàn)結(jié)果
經(jīng)過上述的處理過程,已經(jīng)形成了基本的圖結(jié)構(gòu)。以下是針對(duì)本系統(tǒng)數(shù)據(jù)庫中兩萬多份與中風(fēng)相關(guān)的中醫(yī)醫(yī)案提取的藥物的圖集結(jié)果,如圖3所示。
圖3結(jié)果圖
參考文獻(xiàn):
[1] 楊曉恝,蔣維,郝文寧.基于本體和句法分析的領(lǐng)域分詞的實(shí)現(xiàn)[J].解
放軍理工大學(xué)工程兵工程學(xué)院,2008:26-28
[2] 方鷙飛.中文文本體裁的自動(dòng)分類機(jī)制[D].大連理工大學(xué)計(jì)算機(jī)應(yīng)用
技術(shù)系,2005:32-70
[3] 張曉淼.基于神經(jīng)網(wǎng)絡(luò)的中文分詞算法的研究[D].大連理工大學(xué)控制
理論與控制工程系,2005:26-68
[4] 鄧柯.圖和詞典模型在統(tǒng)計(jì)方法和應(yīng)用[D].北京大學(xué),2008:7-11