袁付勇,畢 利
(寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川 750021)
中醫(yī)辨證是對癥狀信息的整合與分析,要求醫(yī)師有扎實的中醫(yī)知識和豐富的診斷經(jīng)驗,給中醫(yī)的傳承和應(yīng)用帶來了挑戰(zhàn)。智能診斷是中醫(yī)信息化發(fā)展中重要的一部分,利用人工智能算法實現(xiàn)疾病診斷可以幫助醫(yī)生更全面、準(zhǔn)確地確定病情。國外對中醫(yī)應(yīng)用的研究也在不斷深入,包括對中醫(yī)診斷決策算法的研究[1-3]、中醫(yī)藥的病理研究[4]等,其中診斷決策算法以決策樹、神經(jīng)網(wǎng)絡(luò)為主。國內(nèi)對中醫(yī)的研究更為重視,中醫(yī)智能化進程不斷加快[5],診斷決策算法的設(shè)計顯得尤為重要,很多智能算法都曾被嘗試應(yīng)用到中醫(yī)診斷中,其中人工神經(jīng)網(wǎng)絡(luò)算法憑借較好的非線性映射能力、自學(xué)習(xí)能力被廣泛應(yīng)用于中醫(yī)診斷的各個層面[6,7],如BP神經(jīng)網(wǎng)絡(luò)[8,9]、RBF神經(jīng)網(wǎng)絡(luò)[10]、PNN神經(jīng)網(wǎng)絡(luò)等[11,12]。隨著智能診斷應(yīng)用性要求的不斷提高,針對單種疾病的智能診斷無法滿足應(yīng)用的需求,而單個神經(jīng)網(wǎng)絡(luò)算法在應(yīng)用到多種疾病混合預(yù)測時很難達到預(yù)期準(zhǔn)確率。DS證據(jù)理論是處理不確定問題的概率組合理論,可融合不同來源的數(shù)據(jù),在信息融合方面有很好的效果。然而對證據(jù)源本身的準(zhǔn)確性并未進行充分考慮。基于此,給出加入證據(jù)源準(zhǔn)確性系數(shù)的方法對DS證據(jù)理論進行改進,并以不同神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果作為不同證據(jù)源的基本信度函數(shù),設(shè)計基于改進DS證據(jù)理論的診斷模型,實現(xiàn)對3種疾病的混合預(yù)測。
人工神經(jīng)網(wǎng)絡(luò)是對人腦神經(jīng)處理事物的一種模擬,通過神經(jīng)元組成網(wǎng)絡(luò)進行數(shù)據(jù)處理,MP模型是較早且影響力最大的神經(jīng)元模型,其模型如圖1所示。
圖1 MP神經(jīng)元模型
圖1中,x1…xi…xn是神經(jīng)元的輸入值,yo是輸出值,wi是各個輸入值對應(yīng)的權(quán)值,b是神經(jīng)元的閾值,f(.)是激活函數(shù)。神經(jīng)元的輸出如式(1)
(1)
激活函數(shù)也有很多種,如線性函數(shù)、S型(Sigmoid)函數(shù)、RBF(radial basis function)函數(shù)等。由于激活函數(shù)和拓展方式的區(qū)別,人工神經(jīng)網(wǎng)絡(luò)又分為很多類。在中醫(yī)領(lǐng)域,病例數(shù)據(jù)中癥狀往往具有多值屬性、多類標(biāo)的特點,辨證也具有復(fù)雜性,使得癥狀與結(jié)果之間往往呈非線性關(guān)系,而神經(jīng)網(wǎng)絡(luò)憑借網(wǎng)絡(luò)結(jié)構(gòu)能夠完成對數(shù)據(jù)的非線性映射,在解決這類問題上比較適用。在所設(shè)計的實驗中,單個網(wǎng)絡(luò)的預(yù)測模型選用了拓?fù)浣Y(jié)構(gòu)不同的BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、PNN神經(jīng)網(wǎng)絡(luò)和LVQ神經(jīng)網(wǎng)絡(luò)。
BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)為輸入層、隱含層和輸出層,每兩層之間通過線性變換來連接,隱含層的激活函數(shù)一般為S型函數(shù),如式(2)、式(3)
(2)
(3)
其中,xi為神經(jīng)元的輸入值,f(hi)為神經(jīng)元的輸出值。BP神經(jīng)網(wǎng)絡(luò)的性能由隱含層節(jié)點數(shù)、各層之間的連接權(quán)值、各神經(jīng)元的閾值共同決定。常見的BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)比較簡單,是最早被應(yīng)用于疾病預(yù)測領(lǐng)域的網(wǎng)絡(luò)結(jié)構(gòu),為智能算法應(yīng)用到疾病診斷領(lǐng)域的實現(xiàn)開拓了思路和方法,但該神經(jīng)網(wǎng)絡(luò)由于自身結(jié)構(gòu)的局限性,在應(yīng)用時也存在一些難以解決的問題,包括模型結(jié)構(gòu)上如何選擇最優(yōu)的隱含層神經(jīng)元數(shù)目、如何解決網(wǎng)絡(luò)運算過程中的局部最優(yōu)困境,如何提高在多預(yù)期結(jié)果條件下的預(yù)測準(zhǔn)確率等。
RBF神經(jīng)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),計算過程比BP網(wǎng)絡(luò)更復(fù)雜,擁有更好的非線性擬合能力。相比于BP神經(jīng)網(wǎng)絡(luò),輸入層到隱含層為非線性變換。隱含層的激活函數(shù)一般使用徑向Gaussian函數(shù),公式如式(4)
(4)
PNN神經(jīng)網(wǎng)絡(luò)是一種雙隱層前饋網(wǎng)絡(luò),結(jié)合了密度函數(shù)估計和貝葉斯決策理論。網(wǎng)絡(luò)結(jié)構(gòu)分為輸入層、模式層、求和層和輸出層,屬于完全前向的計算過程,節(jié)省了反向誤差傳播的計算時間,其輸入層到模式層實現(xiàn)非線性變換,求和層對類別進行密度函數(shù)估計。模式層的激活函數(shù)為徑向基函數(shù),輸出值為一個標(biāo)量。模式層的激活函數(shù)如式(5)
(5)
其中,x表示輸入向量,xij表示第i類的第j個中心點,δ表示平滑參數(shù),d為前一層的維數(shù)。PNN網(wǎng)絡(luò)的性能主要受模式層平滑因子的影響。相對于RBF神經(jīng)網(wǎng)絡(luò),概率神經(jīng)網(wǎng)絡(luò)在判定類別過程中加入了密度函數(shù)估計與貝葉斯決策,不需要反向調(diào)參,學(xué)習(xí)時間短,同時具備容錯性,但對訓(xùn)練集的代表性要求較高,計算過程中需要的存儲空間也較大。
LVQ神經(jīng)網(wǎng)絡(luò)是對SOM網(wǎng)絡(luò)(Kohonen自組織網(wǎng)絡(luò))的一種改進網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)構(gòu)分為輸入層、競爭層和輸出層,不同于另外3種網(wǎng)絡(luò)模型,LVQ神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練學(xué)習(xí)過程中結(jié)合了有監(jiān)督學(xué)習(xí)和競爭學(xué)習(xí)兩種方式對競爭層的參數(shù)進行調(diào)整,其中輸入層和競爭層之間為全連接,競爭層和輸出層為部分連接。LVQ神經(jīng)網(wǎng)絡(luò)的隱含層按照類別數(shù)目分成多個神經(jīng)元組,神經(jīng)元組的每個神經(jīng)元用輸入層和隱含層之間的權(quán)值作為參考矢量的分量,在訓(xùn)練過程中修改權(quán)值來更接近預(yù)期結(jié)果。其中網(wǎng)絡(luò)中輸入向量和競爭層神經(jīng)元的距離計算過程如式(6)
(6)
其中,R表示輸入向量的維度,xj表示輸入層第j個神經(jīng)元,wij表示輸入層第j個神經(jīng)元到競爭層第i個神經(jīng)元的權(quán)值,通過計算距離來得到獲勝神經(jīng)元。LVQ神經(jīng)網(wǎng)絡(luò)的優(yōu)點在于不必對向量進行規(guī)格化,可以直接對輸入向量進行分類,結(jié)構(gòu)較為簡單且效率高。但某些情況下,輸入層到競爭層之間的權(quán)值可能不收斂,另外LVQ神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中忽略了輸入層各維對結(jié)果的影響性差異,也可能會帶來誤差。
DS證據(jù)理論是用于整合多源不確定信息的常用推理方法,是一種有效的信息融合理論[13],可以滿足比概率論更弱的條件,在醫(yī)學(xué)診斷、組合決策、故障診斷和物聯(lián)網(wǎng)等領(lǐng)域有廣泛的應(yīng)用[14-17]。
定義1 辨識框架。即所研究命題在所有可能情況下出現(xiàn)的結(jié)果的并集,辨識框架是證據(jù)理論最基礎(chǔ)的概念,描述了最終所有可能出現(xiàn)的結(jié)果,定義如下
θ={θ1,θ2,…,θi,…,θn}
(7)
其中,θi表示命題可能出現(xiàn)的一種結(jié)果,結(jié)果之間互斥,在一種情況下只可出現(xiàn)一種結(jié)果,n表示結(jié)果的個數(shù)。
定義2 基本信度賦值。又稱mass函數(shù),是對辨識框架里出現(xiàn)某些結(jié)果子集的基本概率分布,m(A)表示對結(jié)果子集A的基本信度賦值,定義如下
(8)
定義3 基本信度函數(shù)?;拘哦群瘮?shù)是出現(xiàn)某個結(jié)果時,對所有支撐該結(jié)果命題為真的結(jié)果子集進行基本信度賦值求和,決定了對該事件的確認(rèn)程度,定義如下
(9)
由經(jīng)典的DS證據(jù)理論知,在證據(jù)源之間不完全沖突的前提下,運用Dempster規(guī)則可以完成不同證據(jù)源之間的證據(jù)組合,以兩個證據(jù)源進行證據(jù)組合來舉例,m1、m2表示兩個不同證據(jù)源對于得到結(jié)果A事件的基本信度函數(shù),則兩者組合所得到的事件A發(fā)生的信任確認(rèn)程度如式(10)
(10)
本文的研究是在多證據(jù)源進行組合的實驗環(huán)境下進行,根據(jù)組合規(guī)則的特點,當(dāng)證據(jù)源增加時,組合規(guī)則滿足結(jié)合律和交換律,在此設(shè)共有n個不同證據(jù)源,各證據(jù)源的基本信度函數(shù)分別為m1、m2、…、mn,則關(guān)于結(jié)果事件A經(jīng)過證據(jù)組合而得到的基本信任函數(shù)如式(11)
(11)
為了計算方便,式(11)中的歸一化因子通過式(12)的方式得到
(12)
DS證據(jù)理論自1976年被提出后,因其在應(yīng)用過程中可以滿足比貝葉斯更弱的條件,實現(xiàn)多途徑獲取知識的有效融合,通過基本信度函數(shù)更直觀表達命題結(jié)果的確定性,得到廣泛的應(yīng)用,但對DS證據(jù)理論的改進也從未停止過。DS證據(jù)理論在應(yīng)用中出現(xiàn)的弊端主要體現(xiàn)在3個方面,首先是對證據(jù)的約束性,DS證據(jù)理論要求證據(jù)必須是獨立的,且證據(jù)源之間盡量避免高沖突情況,否則就會出現(xiàn)“Zadeh悖論”之類的反預(yù)期結(jié)果;其次是辨識框架中元素的問題,當(dāng)元素遞增時,在計算過程中所產(chǎn)生的焦元會呈指數(shù)形式變大,消耗的計算時間也會增加,出現(xiàn)焦元爆炸問題;最后是證據(jù)合成的準(zhǔn)確性問題,經(jīng)典DS證據(jù)理論在合成過程中并未考慮證據(jù)源自身的可信度,也并未考慮證據(jù)源所提供證據(jù)的準(zhǔn)確性,默認(rèn)全部證據(jù)源準(zhǔn)確性相同,這種做法在已知證據(jù)源準(zhǔn)確性不一致情況下并未充分利用已知信息,在合成結(jié)果上可能存在誤差。
結(jié)合本文實驗場景,對于經(jīng)典證據(jù)理論存在的問題進行分析如下:①針對證據(jù)組合中證據(jù)之間高沖突的問題,一般通過改進組合規(guī)則或?qū)嶒灁?shù)據(jù)進行修正兩種方式來解決,改進組合規(guī)則的相關(guān)算法有很多,例如李永忠等認(rèn)為當(dāng)證據(jù)沖突過大時應(yīng)考慮證據(jù)的相似程度,通過計算證據(jù)間的相似程度求得權(quán)系數(shù),在組合時考慮權(quán)系數(shù)的影響,以此為思路提出了對應(yīng)的證據(jù)組合公式[18],但改進組合規(guī)則也會帶來一些新的問題,經(jīng)過研究李永忠、王力[19]等學(xué)者的組合規(guī)則,發(fā)現(xiàn)前兩種組合方式增加了證據(jù)組合過程的計算量,第三種組合方式破壞了證據(jù)組合規(guī)則的交換律和結(jié)合律,由此可見,對組合規(guī)則的修改伴隨著計算量增加或者組合優(yōu)良特性被破壞的問題。而降低沖突的第二種方式,即對實驗數(shù)據(jù)進行修正,例如徐凱通過修改原數(shù)據(jù),利用指數(shù)形式替換原來的基本信度函數(shù),使得合成過程中不會出現(xiàn)0值焦元[20]。這種方式使證據(jù)在符合邏輯的基礎(chǔ)上又避免相互之間的高沖突問題,基于此,本文采取對實驗數(shù)據(jù)進行修正的方式避免高沖突,具體實現(xiàn)為將單網(wǎng)絡(luò)模型的預(yù)測結(jié)果設(shè)定為信度賦值是0.8,其余兩個非預(yù)測結(jié)果的信度賦值為0.1,避免0值焦元的產(chǎn)生,減少了Dempster規(guī)則整體丟棄式處理方式帶來的誤差。②針對辨識框架中元素個數(shù)的問題,當(dāng)辨識框架中元素較多時,通常通過兩種方式進行改進:一是根據(jù)證據(jù)特點,設(shè)計快速算法進行計算;二是通過某種規(guī)則來減少焦元,從而進行近似計算。因本文所設(shè)計的實驗選取數(shù)據(jù)為患痹病、濕阻、感冒3種病其中之一的患者數(shù)據(jù),不存在同時多種病并發(fā)的病例,根據(jù)證據(jù)理論關(guān)于辨識框架的定義可知,元素數(shù)目為3個,不足以出現(xiàn)焦元爆炸類問題,不宜采用近似計算,計算過程較少,可以直接采用組合方式。③對于證據(jù)合成的準(zhǔn)確性問題,大多數(shù)學(xué)者是對證據(jù)權(quán)重進行了調(diào)整,例如如李金玉等提出利用AHP法計算證據(jù)中各個證據(jù)的權(quán)重[21],王法玉等提出采用模糊綜合評價法結(jié)合AHP法計算證據(jù)的權(quán)重[22],但該類方法僅是對證據(jù)完成權(quán)重調(diào)整,忽略了證據(jù)源準(zhǔn)確性帶來的影響。本文提出對各證據(jù)源準(zhǔn)確性進行分析,在證據(jù)組合過程中考慮其帶來的影響,引入證據(jù)源準(zhǔn)確性系數(shù)λ來表示各個證據(jù)源的可信度,改進的DS理論組合規(guī)則計算如式(13)
(13)
其中,λA表示關(guān)于命題A的各證據(jù)源綜合可信度,λA的計算方式如式(14),其中n是證據(jù)源的個數(shù),λ1…λn為各個證據(jù)源的可信度,應(yīng)滿足0≤λi≤1。因為可信度系數(shù)的存在,各證據(jù)源的數(shù)據(jù)會有一部分處于未知領(lǐng)域,加入該系數(shù)后,處于未知領(lǐng)域的信息將被保留為可信比例的信度函數(shù)
(14)
為了驗證方法的有效性,給出λ影響效果較小和較大的兩個算例,設(shè)A、B、C為3個不同結(jié)果事件,m1、m2、m3、m4為4個不同證據(jù)源,合成結(jié)果見表1。
從驗證算例的結(jié)果可以看出,在一般情況下,利用兩種組合規(guī)則所得到的結(jié)果均符合預(yù)期結(jié)論,相比之下,加入證據(jù)源準(zhǔn)確性系數(shù)后,改進規(guī)則的預(yù)期結(jié)果的基本信任函數(shù)略小于經(jīng)典DS證據(jù)理論,并不改變結(jié)果的正確性。但當(dāng)證據(jù)源所提供的基本信度函數(shù)為第二種情況時,利用DS理論所得到的結(jié)果無法判斷A、B中哪個的可能性更高,但加入證據(jù)源準(zhǔn)確性系數(shù)后,得到的結(jié)果為m(A)小于m(B),這種結(jié)果更為符合預(yù)期。
表1 DS證據(jù)理論組合驗證算例
實驗根據(jù)病人癥狀對病名進行預(yù)測,預(yù)期結(jié)果為痹病、濕阻、感冒,每個病例的診斷結(jié)果為一種病名,不考慮多種病同時存在的情況。在預(yù)測前需要訓(xùn)練并保存神經(jīng)網(wǎng)絡(luò)組模型:首先對數(shù)據(jù)進行預(yù)處理,再利用預(yù)處理后的數(shù)據(jù)訓(xùn)練4種不同的神經(jīng)網(wǎng)絡(luò),獲取4種網(wǎng)絡(luò)的準(zhǔn)確率,并保存訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)組;模型在預(yù)測時,直接調(diào)用神經(jīng)網(wǎng)絡(luò)組進行預(yù)測,對所有預(yù)測結(jié)果進行證據(jù)組合,在證據(jù)組合計算時利用改進的DS證據(jù)理論組合規(guī)則,將網(wǎng)絡(luò)的準(zhǔn)確率轉(zhuǎn)換為證據(jù)源準(zhǔn)確性系數(shù),經(jīng)過證據(jù)組合得到最終的信度函數(shù)。模型的預(yù)測流程如圖2所示。
圖2 預(yù)測流程
依據(jù)模型設(shè)計的設(shè)想,具體實現(xiàn)如下:
輸入:原始數(shù)據(jù)集
輸出:預(yù)測的疾病編號
步驟1 將原始數(shù)據(jù)集進行預(yù)處理,并隨機分為90%和10%的兩份,分別作為訓(xùn)練集和測試集;
步驟2 利用訓(xùn)練集數(shù)據(jù)對4種類型的網(wǎng)絡(luò)分別進行訓(xùn)練并保存(BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、LVQ神經(jīng)網(wǎng)絡(luò)、PNN神經(jīng)網(wǎng)絡(luò));
步驟3 載入保存的4個網(wǎng)絡(luò)模型,對測試集進行預(yù)測,產(chǎn)生4組預(yù)測值,將預(yù)測值轉(zhuǎn)化為3種病的基本信度賦值;
步驟4 對步驟3所得到的4組基本信度賦值利用改進的DS證據(jù)理論進行證據(jù)組合,得出每種病的基本信度函數(shù)。選取最大的一項作為最終的預(yù)測結(jié)果,若沒有則提示預(yù)測失敗,算法結(jié)束。
4.1.1 數(shù)據(jù)集
本文所用數(shù)據(jù)集為某中醫(yī)院2004-2016年的真實診斷數(shù)據(jù),數(shù)據(jù)集中包含性別、癥狀、舌像、脈象、對應(yīng)疾病等信息,共3個數(shù)據(jù)表:ClinicPatient、GlobalSickDrug、GlobalSickinfo,依次表示病人信息、用藥信息、診斷信息。
4.1.2 評價指標(biāo)
實驗通過模型預(yù)測的準(zhǔn)確率、100條數(shù)據(jù)預(yù)測用時這兩個量化指標(biāo)對模型進行評價。
步驟1 根據(jù)實驗的需要,從數(shù)據(jù)庫中分離出病人的IC卡號、性別、就診時間、癥狀、舌像、脈象、證候7條屬性作為初始數(shù)據(jù);
步驟2 利用IC卡號和就診時間區(qū)分不同的病案,刪除相同病案,刪除癥狀屬性、舌像屬性、脈象屬性不完整的病案,最終保留3種證候各1500條的數(shù)據(jù)集;
步驟3 對癥狀語句進行分詞,通過詞頻匯總統(tǒng)計出頻率較高的癥狀,建立癥狀值字典;并用相同的方法建立舌像值字典、脈象值字典;
步驟4 讀取每條病例數(shù)據(jù),通過同義詞替換對數(shù)據(jù)進行規(guī)范化,用癥狀值、舌像值、脈象值字典分別對癥狀屬性、舌像屬性、脈象屬性進行映射,出現(xiàn)癥狀記為1,未出現(xiàn)記為0,性別分別用0、1表示,以上屬性共96項;3種證候使用0、1、2進行表示,得到用于訓(xùn)練和測試的數(shù)據(jù)矩陣。
BP神經(jīng)網(wǎng)絡(luò):通過網(wǎng)格搜索的方法尋找最佳隱含層節(jié)點數(shù),節(jié)點數(shù)從5遞增到20,每個節(jié)點的準(zhǔn)確率取5次驗證準(zhǔn)確率的平均值,準(zhǔn)確率統(tǒng)計如圖3所示。
圖3 BP神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率統(tǒng)計
最終選取隱含層節(jié)點數(shù)為9,此時模型的平均準(zhǔn)確率為80%,模型保存為BP_net。
RBF神經(jīng)網(wǎng)絡(luò):通過網(wǎng)格搜索的方法尋找最佳spread值,spread從0.4遞增至1.6,每次增加0.1,每個spread的準(zhǔn)確率取5次驗證的平均值,準(zhǔn)確率統(tǒng)計如圖4所示。
圖4 RBF神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率統(tǒng)計
最終選取的spread值為1,此時模型的平均準(zhǔn)確率為81%,保存為RBF_net。
LVQ神經(jīng)網(wǎng)絡(luò)尋找最佳隱含層節(jié)點數(shù)同BP網(wǎng)絡(luò),最終選擇隱含層節(jié)點為30,平均準(zhǔn)確率為75%,保存為LVQ_net;PNN神經(jīng)網(wǎng)絡(luò)取默認(rèn)參數(shù),保存為PNN_net,平均準(zhǔn)確率為89%,神經(jīng)網(wǎng)絡(luò)組訓(xùn)練完成。
調(diào)用之前4個網(wǎng)絡(luò)模型,將測試集輸入網(wǎng)絡(luò),生成4組預(yù)測值。將4組結(jié)果轉(zhuǎn)化成對3種疾病的基本信度賦值:將預(yù)測編號所對應(yīng)病名的基本信度賦值確定為0.8,其余兩種確定為0.1。之后進行證據(jù)組合,計算過程如式(13),得到的結(jié)果表示3種病的最終基本信度函數(shù)。
實驗將從測試集中隨機選取100條數(shù)據(jù)測試,單獨使用BP網(wǎng)絡(luò)、RBF網(wǎng)絡(luò)、LVQ網(wǎng)絡(luò)、PNN網(wǎng)絡(luò)分別進行預(yù)測,記錄預(yù)測時間和準(zhǔn)確率,再利用本文所提出的模型進行預(yù)測,與上述4種網(wǎng)絡(luò)進行對比進行分析。
4.5.1 證據(jù)源獨立性分析
在進行實驗結(jié)果分析前,首先進行多次預(yù)測實驗,檢驗證據(jù)源之間是否獨立,是否符合4種網(wǎng)絡(luò)預(yù)測屬于不同證據(jù)源。經(jīng)過多次實驗,4個單獨神經(jīng)網(wǎng)絡(luò)模型的錯誤預(yù)測序號不存在雷同,隨機選取一次實驗,對5個模型的錯誤預(yù)測序號統(tǒng)計見表2。
表2 錯誤預(yù)測樣本統(tǒng)計
分析可知,4種神經(jīng)網(wǎng)絡(luò)因為訓(xùn)練過程和分類方式不同,用不同的計算過程對數(shù)據(jù)完成了處理,造成各模型分類結(jié)果也不完全相同,符合DS證據(jù)理論對證據(jù)源相互獨立的要求。
4.5.2 實驗結(jié)果對比分析
記錄預(yù)測時間方面,取5次預(yù)測時間的平均值;記錄預(yù)測準(zhǔn)確率方面,對測試集進行10次隨機選取100條數(shù)據(jù)的測試,取其預(yù)測的準(zhǔn)確率;統(tǒng)計結(jié)果見表3。
表3 各模型平均準(zhǔn)確率統(tǒng)計
通過對比結(jié)果可以看出,基于ANN和改進DS理論的預(yù)測模型在平均準(zhǔn)確率上高于所有單個網(wǎng)絡(luò),準(zhǔn)確率保持在90%以上,其余4個網(wǎng)絡(luò)準(zhǔn)確率在75%至89%不等,分析可知,由于所有神經(jīng)網(wǎng)絡(luò)的預(yù)測準(zhǔn)確率都在70%以上,對于單個樣本而言,加入改進的DS證據(jù)理論后,隨著概率的合成會逐漸增大預(yù)測的準(zhǔn)確率,因此得到比單個網(wǎng)絡(luò)模型更優(yōu)的結(jié)果。在預(yù)測用時上,本文提出的模型耗時最長,這是因為該模型的預(yù)測是在4組網(wǎng)絡(luò)模型的基礎(chǔ)上進行,預(yù)測時間為4個網(wǎng)絡(luò)并行所用時間與證據(jù)組合計算時間之和,但100條數(shù)據(jù)的整體響應(yīng)時間控制在0.15 s之內(nèi),在實時診斷中是能夠接受的。
利用證據(jù)源準(zhǔn)確性系數(shù)對DS證據(jù)理論進行了改進,按證據(jù)源的可信度對證據(jù)合成進行加權(quán)處理,解決了不同準(zhǔn)確度的證據(jù)源合成問題。將改進的DS證據(jù)理論應(yīng)用到中醫(yī)診斷模型中,以多個不同神經(jīng)網(wǎng)絡(luò)的預(yù)測確定基本信度函數(shù),以各個神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度確定證據(jù)源的準(zhǔn)確性系數(shù),最后應(yīng)用改進的DS證據(jù)理論進行證據(jù)組合。實驗結(jié)果表明,該模型對3種疾病的預(yù)測準(zhǔn)確率高于單個神經(jīng)網(wǎng)絡(luò),且穩(wěn)定保持在90%以上,對更多種疾病的混合預(yù)測具有可擴展性;該模型的預(yù)測用時控制在可接受時間范圍內(nèi),可以應(yīng)用到對特定疾病的實時診斷中。但該模型所適用的情景為3種疾病的混合預(yù)測,仍不能滿足實時輔助診斷的要求,在后續(xù)的研究中將增大數(shù)據(jù)集,擴展疾病種類,探究在更大數(shù)據(jù)集情況下,如何更好兼顧準(zhǔn)確率和響應(yīng)時間。