李四海,呂曉云
LISihai1,LVXiaoyun2
1.甘肅中醫(yī)學(xué)院 信息工程學(xué)院,蘭州 730000
2.蘭州大學(xué) 中西醫(yī)結(jié)合研究所,蘭州 730000
1.SchoolofInformationEngineering,GansuUniversityofTraditionalChineseMedicine,Lanzhou730000,China
2.InstituteofIntegratedTraditionalandWesternMedicine,LanzhouUniversity,Lanzhou730000,China
中醫(yī)強調(diào)辨證論治,即從各方面綜合診察患者機體當(dāng)前階段的整體反應(yīng)狀態(tài)。證素辨證學(xué)認(rèn)為[1],患者的癥狀、體征為證候,通過對證候的辨識而確定的病理本質(zhì)為證素。辨證就是根據(jù)中醫(yī)學(xué)理論,通過對癥狀(證候)進(jìn)行分析,明確病位與病性(證素),最終做出證名診斷的思維認(rèn)識過程。中醫(yī)辨證過程中存在大量的模糊、不確定信息,其辨證過程可以歸納入不確定多屬性決策問題。在不確定信息的表示及融合方面,傳統(tǒng)的方法主要有:基于概率的優(yōu)化方法及主觀Bayes理論、不確定性推理及人工神經(jīng)網(wǎng)絡(luò)方法、多屬性決策及效用理論、D-S證據(jù)理論等。由于D-S證據(jù)理論具有處理不確定性的能力以及在工程應(yīng)用上表現(xiàn)出來的實用性能,近年來在醫(yī)學(xué)診斷、目標(biāo)識別、故障診斷、投資決策及傳感器信息融合等方面得到廣泛應(yīng)用[2]。
在眾多的不確定推理方法中,貝葉斯網(wǎng)絡(luò)被廣泛用于中醫(yī)證素識別及藥物功效預(yù)測[3-4]。Bayes方法是根據(jù)先驗概率來更新后驗概率。優(yōu)點是具有堅實的理論基礎(chǔ),計算量適中。缺點是需要大量的概率數(shù)據(jù)來構(gòu)造知識庫,無法區(qū)分模糊及不確定信息,在實際應(yīng)用中,主觀概率及其一致性很難得到保證。
證據(jù)理論是由Dempster于1967年首先提出,由Shafer于1976年進(jìn)一步發(fā)展起來的一種不精確推理理論,也稱為D-S理論[5],屬于人工智能范疇,最早應(yīng)用于專家系統(tǒng)中,具有直接表達(dá)“不確定”和“不知道”的能力,能夠根據(jù)證據(jù)的積累不斷縮小假設(shè)的集合。與主觀貝葉斯方法不同,D-S理論是用一個概率范圍而不是單個的概率值來描述不確定性:用信任函數(shù)來度量不確定性,用似然函數(shù)來度量由于“不知道”帶來的不確定性。這樣就弱化了相應(yīng)的公理系統(tǒng),滿足比概率更弱的要求,即不必滿足概率可加性。與主觀Bayes方法相比,證據(jù)理論具有更好的靈活性及實用性。
設(shè)Θ為辨識框架,由一系列互斥且可窮舉的基本命題組成。問題域上的任意命題A都屬于2Θ,在冪集2Θ上定義基本概率分配BPA(BasicProbabilityAssignment)m:
BPA實現(xiàn)了將2Θ上的任意子集映射為[0,1]上的一個數(shù)m(A),當(dāng)m(A)>0時,稱 A為BPA的焦元。對焦元A,分別定義信任函數(shù)Bel和似然函數(shù)Pl:
Bel(A)和Pl(A)分別表示對事件A信任度的下界和上界,Pl(A)-Bel(A)反映了對A不知道的程度。
對不同概率分配函數(shù)的組合是通過求正交和實現(xiàn)的。
(2)多個信任函數(shù)的組合
其中K反映了證據(jù)之間的沖突程度,K越小,沖突程度越高,當(dāng)K=0時,無法使用Dempster規(guī)則,當(dāng)K→0時,會得到與常識相悖的結(jié)論。
基于D-S理論的中醫(yī)辨證模型以患者所表現(xiàn)出的各種癥狀、體征(證候)為依據(jù),根據(jù)對證候的辨識來確定病理的本質(zhì)(證素),由病位、病性證素構(gòu)成最終的證型名稱(證名),其中,由證候辨識證素是關(guān)鍵。設(shè)辨識框架 Θ={syn1,syn2,…,synm}為所有證素的集合,共 m個證素,證候的集合 s={s1,s2,…,sk}共 k 個證候,共有n個專家。面對相同的證候,不同的專家會根據(jù)各自的知識和經(jīng)驗給出不盡相同的診斷結(jié)果,所以模型采用多級融合的群決策模式,以降低系統(tǒng)的不確定性同時提高診斷結(jié)果的可信度。
第一級融合:以各種證候為證據(jù),經(jīng)過證據(jù)融合,得到證素的初步辨識結(jié)果。具體過程為:首先由每個中醫(yī)專家根據(jù)證候集及自己所具有的中醫(yī)知識給出每個證候下的基本概率分配,然后對所有證候的mass函數(shù)求正交和。這樣,對相同的證候集,通過證據(jù)融合得到每個專家各自的mass函數(shù)。
第二級融合:在相同的辨識框架Θ下,對所有專家給出的mass函數(shù)再次進(jìn)行證據(jù)融合,進(jìn)一步降低系統(tǒng)的不確定性,提高各證型之間的可區(qū)分程度。二級融合結(jié)果作為最終的辨證依據(jù)。
基于D-S理論的多級中醫(yī)辨證模型如圖1所示。
圖1 基于D-S多級證據(jù)融合的中醫(yī)辨證模型
大量的研究表明,D-S理論在實際應(yīng)用中需要注意兩個問題:對沖突證據(jù)的處理及提高計算效率[6-8]。
首先是證據(jù)沖突問題,當(dāng)各個專家的意見發(fā)生嚴(yán)重不一致時,會產(chǎn)生證據(jù)沖突,對沖突證據(jù)的處理可從兩個方面進(jìn)行:(1)根據(jù)對專家的信任程度,為專家賦予不同的可信度,降低可信度低的專家對融合結(jié)果的影響,降低決策風(fēng)險。(2)對沖突證據(jù)進(jìn)行預(yù)處理,然后再使用Dempster規(guī)則合成證據(jù),如通過對證據(jù)加權(quán)求平均來消解或緩解證據(jù)沖突[9]。
其次是計算量問題,這是保證基于D-S理論中醫(yī)辨證模型實用性的關(guān)鍵問題,由于中醫(yī)證候、證素很多,規(guī)范后的證候有700余項,證素有50余項,如果直接使用該模型時會產(chǎn)生“焦元爆炸”。假設(shè)有k個證候,m個證素,則要得到一個第二級融合的證據(jù)需要的計算量為2km,如此指數(shù)級的計算量是難以接受的。
Voorbraak發(fā)現(xiàn)[10],如果mass函數(shù)的合成將產(chǎn)生一個Bayes信任函數(shù)(即一個識別框架上的概率測度),則mass函數(shù)用它們的Bayes近似來代替,將不會影響Dempster合成規(guī)則的結(jié)果。Voorbraak給出了mass函數(shù)的Bayes近似計算公式,即
根據(jù)以上公式,在第一級融合前,首先計算mass函數(shù)的Bayes近似,減少焦元的數(shù)量,即識別框架中凡是含有兩個及以上證素者其mass函數(shù)值均為0。假設(shè)經(jīng)近似計算后識別框架中含有單個證素的焦元有t個,證候數(shù)量仍為k個,則近似計算后的貝葉斯mass函數(shù)矩陣如下:
每個專家的BPA可按如下的公式計算:
可以看出,以上公式將正交和變?yōu)榱诉B乘的形式,大大簡化了計算量,從而使得基于D-S證據(jù)理論的中醫(yī)辨證模型具有更好的實用價值。第一級融合結(jié)束后,對所有專家的BPA進(jìn)行第二級融合仍按公式(2)進(jìn)行。
為了有效合理地利用D-S證據(jù)融合2得到的基本概率賦值進(jìn)行證型決策分析,給出如下的決策判據(jù):
(1)目標(biāo)證型應(yīng)具有最大的基本概率賦值。
(2)目標(biāo)證型的基本概率賦值應(yīng)該大于合成的不確信度。
(3)目標(biāo)證型的基本概率賦值與其他證型的基本概率賦值的差值應(yīng)該大于給定的閾值θ。
(4)不確信度賦值m(Θ)必須小于某個閾值。
(5)證據(jù)沖突程度K要小于給定門限值,以保證診斷結(jié)果的合理性和實用性。
使用該模型對冠心病進(jìn)行中醫(yī)辨證。首先收集冠心病的一系列證候(包括主訴癥狀及四診信息),構(gòu)成證候集,然后對證型名稱進(jìn)行規(guī)范,按照本虛(氣虛、血虛、陰虛、陽虛)、標(biāo)實(氣滯、血瘀、痰濁、寒凝)將證型分為氣虛血瘀、氣滯血瘀、血瘀痰濁等證型[11],分別用S1、S2、S3來表示,構(gòu)造辨識框架 Θ={S1,S2,S3,{S1,S2},Θ}。證候集由本虛和標(biāo)實的各主要癥狀和次要癥狀組成。
在證候集中,與各證素關(guān)聯(lián)的癥狀主要有脈診、舌診及體征信息,癥狀有主、次之分。如血虛的主癥為紫默舌、口唇青紫;次癥為胸痛、脈弦。痰濁的主癥為膩苔;次癥為脈滑[12]。中醫(yī)專家根據(jù)各證型的主、次癥狀給出各癥狀對證素的貢獻(xiàn)度,即基本概率分配,對各主、次癥狀的BPA進(jìn)行融合可得到每個專家的BPA。表1給出了兩個專家面對相同證候集給出的各自的BPA,分別用m1和m2表示。
表1 D-S證據(jù)融合后的mass函數(shù)(K=0.705)
對兩位專家給出的mass函數(shù)進(jìn)行證據(jù)合成,首先計算歸一化常數(shù)K:
限于篇幅,其他計算過程省略,最后合成的結(jié)果如表1所示。從表1結(jié)果可知,m(Θ)明顯減小,說明D-S證據(jù)融合降低了疾病診斷的不確定性。融合前,每個專家對各證型給出的基本可信度函數(shù)值都偏低,無法得出令人信服的診斷結(jié)果;融合后,基本可信度函數(shù)值較單個專家給出的基本可信度函數(shù)值具有更好的可區(qū)分性,主要證型的基本可信度函數(shù)值有較大程度的提高:S2的基本可信度函數(shù)值由融合前的0.4或0.3提高至0.51,為各證型中最大,根據(jù)本文提出的證型決策規(guī)則,S2(氣滯血瘀證)為最終診斷的證名。隨著專家證據(jù)的積累,假設(shè)集會逐步縮小,主要證型的可信度會不斷提高,診斷結(jié)果也會更令人信服。
需要指出的是,當(dāng)專家較少時,最終診斷結(jié)果與證型決策規(guī)則(3)中閾值θ的關(guān)系較大。閾值θ越小,診斷結(jié)果越穩(wěn)健,但診斷結(jié)果中可能會包含多個證型;反之,如果要求最終診斷結(jié)果中只包含單一證型,則閾值θ可以取大一些,表明診斷決策為追求精準(zhǔn)度而愿意承擔(dān)診斷結(jié)果缺失的風(fēng)險。如果專家較多且采用了合理的沖突證據(jù)消解方法,閾值θ對最終診斷結(jié)果影響不大,當(dāng)θ取值較大時模型仍然具有較高的辨證精度。
以下進(jìn)行近似計算,以和表1加以對比,首先計算出Bayes的mass函數(shù),然后計算新的歸一化常數(shù)K′:
根據(jù)表2的融合結(jié)果,依據(jù)證型決策規(guī)則,可以得出診斷結(jié)果仍然為氣滯血瘀證,說明近似計算方法是有效的。由此可知,如果診斷結(jié)果只關(guān)注單一證型,則近似計算過程簡單明了,特別是當(dāng)證據(jù)很多時,計算量大為減少,使得基于D-S證據(jù)理論的中醫(yī)辨證模型具有更好的實用價值。對比兩種方法的計算結(jié)果發(fā)現(xiàn),表2中合成的mass函數(shù)值較表1都有不同程度的增加,原因在于通過mass函數(shù)的Bayes近似,對{S1,S2}及Θ的不確定性進(jìn)行了消解,增加了S1、S2、S3的確定性。
表2 近似計算后的mass函數(shù)
基于D-S多級證據(jù)融合理論建立了中醫(yī)辨證模型,分析了模型的證據(jù)沖突及近似計算問題,提出了證型決策規(guī)則,并以冠心病的中醫(yī)診斷為例驗證了模型的有效性。理論分析和實際應(yīng)用表明,模型的有效性很大程度上依賴于證候和證素之間的基本可信度分配,在下一步的工作中,BPA可以考慮采用專家診斷和人工神經(jīng)網(wǎng)絡(luò)、支持向量機輸出相結(jié)合的方法,以得到更為客觀和準(zhǔn)確的可信度分配,進(jìn)一步提高基于D-S理論中醫(yī)專家系統(tǒng)的實用性和有效性。
[1]朱文鋒.證素辨證學(xué)[M].北京:人民衛(wèi)生出版社,2008.
[2]何兵,郝愛民,趙沁平.一種基于不確定信息的決策方法[J].計算機學(xué)報,2004,27(2):281-285.
[3]朱文鋒,朱詠華,黃碧群.采用貝葉斯網(wǎng)絡(luò)運算進(jìn)行中醫(yī)辨證的探討[J].廣州中醫(yī)藥大學(xué)學(xué)報,2006,23(6):449-452.
[4]劉穎,李江,王耘,等.貝葉斯網(wǎng)絡(luò)在中藥活血化瘀功效預(yù)測中的應(yīng)用[J].北京中醫(yī)藥大學(xué)學(xué)報,2008,31(4):229-231.
[5]姚麗莎,趙海峰,羅斌,等.基于證據(jù)理論的小波域多特征醫(yī)學(xué)圖像融合[J].計算機應(yīng)用,2012,32(6):1544-1547.
[6]徐從富,耿衛(wèi)東,潘云鶴.面向數(shù)據(jù)融合的DS方法綜述[J].電子學(xué)報,2001,29(3):393-396.
[7]張航,王一軍,羅大庸.改進(jìn)的D-S證據(jù)理論及在水質(zhì)評價中的應(yīng)用[J].小型微型計算機系統(tǒng),2010,31(6):1236-1239.
[8]尹慧琳,王磊.D-S證據(jù)推理改進(jìn)方法綜述[J].計算機工程與應(yīng)用,2005,41(27):22-24.
[9]呂悅晶,宋向勃,張蕾,等.一種加權(quán)改進(jìn)的D-S證據(jù)推理算法[J].計算機應(yīng)用與軟件,2011,28(10):30-33.
[10]VoorbraakFA.Computationallyefficientapproximation ofDempster-Shafertheory[J].IntJMan-MachineStudies,1989,30:525-536.
[11]孫亞男,寧士勇,魯明羽,等.貝葉斯分類算法在冠心病中醫(yī)臨床證型診斷中的應(yīng)用[J].計算機應(yīng)用研究,2006,11:164-166.
[12]吳榮,聶曉燕,王階,等.基于貝葉斯網(wǎng)絡(luò)的名老中醫(yī)治療冠心病辨證規(guī)律研究[J].中國中醫(yī)藥信息雜志,2010,17(5):98-99.