張 萌,孫秉珍,楚曉麗
西安電子科技大學(xué) 經(jīng)濟(jì)管理學(xué)院,西安 710071
分類決策問題是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)。傳統(tǒng)的分類決策模型多為“非此即彼”的二支決策,通過從訓(xùn)練數(shù)據(jù)和歷史經(jīng)驗(yàn)中提取出決策模型,將樣本分為正樣和負(fù)樣,繼而做出接受或者拒絕決策。在現(xiàn)實(shí)生活中決策信息往往不完備,傳統(tǒng)的二支決策會導(dǎo)致信息不充分的樣本難以被正確劃分,造成較大的誤分類率和誤分類代價。針對這個問題,三支決策通過引入延遲決策,將決策信息不充分的樣本劃分到邊界域中,降低決策代價,提高了決策的準(zhǔn)確性。
三支決策是Yao等[1]在概率粗糙集和決策粗糙集的基礎(chǔ)上根據(jù)實(shí)際決策情況提出的決策理論。三支決策通過引入分類損失函數(shù),基于貝葉斯最優(yōu)損失代價計(jì)算閾值(α,β)。假設(shè)給定對象x屬于某個類X的條件概率為P(X|x),將P(X|x)大于或等于α的對象劃分為X的正域,做出接受決策;將P(X|x)小于或等于β的對象劃分為X的負(fù)域,做出拒絕決策;當(dāng)P(X|x)介于α和β之間時,對象被劃分到X的邊界域,做出延遲決策。在決策過程中,將有把握的且信息全面的對象直接給予拒絕或者接受的判斷,而對信息不充分且無法做出立刻判斷的對象延遲其決策,待信息充分時再對其做出決策,從而避免了錯誤拒絕和錯誤接受決策帶來的損失。三支決策在實(shí)際生活中應(yīng)用廣泛,例如在醫(yī)療診斷過程中,當(dāng)患者的臨床病癥信息表現(xiàn)充分或者完全沒有病癥信息時,醫(yī)生可以立馬對患者做出接受治療或不需治療的決策;而當(dāng)患者臨床病癥信息表現(xiàn)不充分,不能完全確診患病,醫(yī)生對其進(jìn)一步觀察待有更明顯的癥狀時再做出判斷。三支決策自提出以來,由于其語義符合實(shí)際和決策過程的優(yōu)越性,成為國內(nèi)外學(xué)者研究熱點(diǎn)。目前,關(guān)于三支決策的理論研究獲得了一定的進(jìn)展。劉久兵等[2]提出確定直覺模糊三支群決策模型概率閾值的方法,解決了閾值難以確定的問題;胡峰等[3]提出基于三支決策的主動學(xué)習(xí)方法,通過對正域、負(fù)域和邊界域中的無標(biāo)簽樣本進(jìn)行分別打標(biāo)處理,解決樣本無標(biāo)簽的問題;方宇等[4]提出了代價敏感學(xué)習(xí)的序貫三支決策模型,并對決策結(jié)果代價和決策過程代價的平衡問題給出了兩個優(yōu)化方向;Qian等[5]提出了基于多個不同閾值的廣義多粒度序貫三支決策模型,解決了傳統(tǒng)序貫三支決策無法適應(yīng)多視圖多閾值粒度結(jié)構(gòu)的情況,從定量角度構(gòu)建了五種多粒度序列三向決策模型,討論了這些多粒序貫三向決策的對應(yīng)關(guān)系和不確定性測度。這些三支決策理論研究廣泛應(yīng)用于圖像處理[6-8]、醫(yī)療診斷[9-10]、評估管理[11-13]、物流動態(tài)調(diào)控[14]、文本分類和文本情感分析[15-16]中。其中,Savchenko[8]將基于序貫三支決策和粒計(jì)算的算法運(yùn)用到圖像識別,提高了圖像識別的速度。Maldonado等[13]將三支決策模型運(yùn)用到信用評分管理,對于無法立刻進(jìn)行評估的客戶進(jìn)入第二階段進(jìn)行再決策,并對智利7 000多個小型企業(yè)的信用申請進(jìn)行分析研究。董新雁等[14]將物流任務(wù)轉(zhuǎn)化成決策信息表,基于三支決策理論,建立虛擬物流任務(wù)動態(tài)調(diào)控模型,并驗(yàn)證其有效性和合理性。張剛強(qiáng)等[15]運(yùn)用序貫三支決策對中文評論進(jìn)行情感分析,通過將粒度細(xì)化提高分類效果。
三支決策建立在決策粗糙集模型上,且傳統(tǒng)的粗糙集模型[17]只能處理離散型數(shù)據(jù),很難對具有符號型、連續(xù)型數(shù)值的混合信息系統(tǒng)進(jìn)行處理。對于連續(xù)型數(shù)據(jù)則需離散化,而將連續(xù)值轉(zhuǎn)換為離散值會造成大量信息的丟失,導(dǎo)致分類精度不高。在現(xiàn)實(shí)應(yīng)用中,信息系統(tǒng)中存在多種類型的數(shù)據(jù)是很普遍的,例如在醫(yī)療檢查結(jié)果中,性別和血型為符號型數(shù)據(jù),而血壓和血糖等指標(biāo)為連續(xù)型數(shù)據(jù)。因此本文在混合信息系統(tǒng)的基礎(chǔ)上引入鄰域關(guān)系,建立了基于鄰域關(guān)系的決策粗糙集模型,同時處理具有連續(xù)值和離散值的混合信息系統(tǒng),降低了數(shù)據(jù)處理過程中信息的丟失,保留數(shù)據(jù)的真實(shí)性。然而現(xiàn)有的基于決策粗糙集模型三支決策分類方法,由于邊界域的存在,使得在算法在分類過程中將一些模糊的、根據(jù)現(xiàn)有信息不能立即做出決策的對象劃分到邊界域中,造成邊界域中大量數(shù)據(jù)的冗余。當(dāng)對邊界域中的數(shù)據(jù)進(jìn)一步分類時,由于數(shù)據(jù)信息不完備,無法進(jìn)行準(zhǔn)確劃分,會造成很大的代價損失,降低分類的準(zhǔn)確性[18]。例如在醫(yī)療診斷中,邊界域中存在大量冗余數(shù)據(jù)會延遲患者的治療時間,給患者帶來巨大的代價和成本損失。已有三支決策模型對邊界域數(shù)據(jù)處理的研究還較少。其中對邊界域數(shù)據(jù)處理多是基于對象之間距離和相似度來確定數(shù)據(jù)的最終分類[19]。這種方式?jīng)]有考慮到分類問題的代價敏感性,分類效果與采用的距離公式和特征點(diǎn)的選取有關(guān),在分類數(shù)據(jù)特征不明顯的情況下,分類效果欠佳,且不利于實(shí)際應(yīng)用中的規(guī)則獲取。針對上述問題,本文提出了基于鄰域決策粗糙集的二階段多次迭代分類方法,在基于鄰域決策粗糙集三支分類的結(jié)果上,多次迭代將測試集中的正域數(shù)據(jù)加入到訓(xùn)練集中形成新的訓(xùn)練集,測試集中的負(fù)域和邊界域形成新的測試集[20]。在多次迭代過程中,訓(xùn)練集中的數(shù)據(jù)特征更加明顯,分類效果更加明顯,分類精度有所提高。
痛風(fēng)是由于人體內(nèi)嘌呤的物質(zhì)代謝發(fā)生紊亂,尿酸鹽結(jié)晶沉積在關(guān)節(jié)腔引起炎性反應(yīng),出現(xiàn)關(guān)節(jié)紅腫熱痛。痛風(fēng)性關(guān)節(jié)炎只是痛風(fēng)危害的一種癥狀表現(xiàn),更重要的是對腎臟的危害,由此誘發(fā)冠心病、動脈硬化、高脂血癥、高血壓病和糖尿病等[21]。目前,我國高尿酸血癥患者人數(shù)已經(jīng)達(dá)到1.7 億,其中痛風(fēng)患者超過8 000 萬人。痛風(fēng)患病率在1%~3%之間,且呈持續(xù)上升的趨勢。國內(nèi)外調(diào)查結(jié)果顯示,目前醫(yī)生對痛風(fēng)病的認(rèn)識不足,診斷不規(guī)范。隨著互聯(lián)網(wǎng)快速普及和數(shù)據(jù)的海量增長,在醫(yī)療方面通過運(yùn)用數(shù)據(jù)挖掘等技術(shù),可以提高醫(yī)療行業(yè)生產(chǎn)力,提高醫(yī)療資源利用率。比如通過數(shù)據(jù)分析對醫(yī)療救治流程優(yōu)化,提高診斷效率和救治質(zhì)量,降低病人的診斷成本和身體損害;在公共衛(wèi)生方面,通過大數(shù)據(jù)分析對流感、病毒等疾病進(jìn)行預(yù)測,為預(yù)防和決策提供支持,降低人民的損失,節(jié)約醫(yī)療資源。傳統(tǒng)的痛風(fēng)診斷是由專家進(jìn)行診斷,對于痛風(fēng)的成因研究和相關(guān)指標(biāo)分析多用數(shù)理統(tǒng)計(jì)方式,將其與數(shù)據(jù)挖掘技術(shù)和理論結(jié)合的研究甚少。本文把三支決策思想和數(shù)據(jù)挖掘技術(shù)引入痛風(fēng)診斷決策問題,嘗試給痛風(fēng)臨床診斷決策提供較為客觀的診療方法和參考。
本文根據(jù)現(xiàn)有問題特點(diǎn),提出基于鄰域的決策粗糙集模型,將鄰域關(guān)系引入到?jīng)Q策粗糙集模型中處理混合信息系統(tǒng),并提出了基于鄰域決策粗糙集多迭代的分類方法處理邊界域中的冗余數(shù)據(jù),最終得到基于代價敏感三支分類結(jié)果。該模型一方面解決了傳統(tǒng)粗糙集模型無法處理連續(xù)值屬性,對噪音數(shù)據(jù)敏感的不足;另一方面,通過引入代價矩陣建立鄰域決策粗糙集模型并對數(shù)據(jù)多次迭代處理,得到較高的分類準(zhǔn)確率和較低的分類代價。最后將該模型應(yīng)用到痛風(fēng)診斷中,驗(yàn)證了其有效性和合理性。這對診斷痛風(fēng)患者和分析指標(biāo)之間潛在關(guān)系有著極高的優(yōu)越性。
給定一個決策信息表S=<U,A=C∪D,V,f> ,其中U是非空樣本集,稱為論域,A是有限非空屬性集,C是條件屬性集,D是決策屬性集。Va表示屬性a的值域,f表示一個信息函數(shù),f:U×A→V。
定義1 對于B?A,xi∈U,xi在子空間B上的鄰域定義為:
其中,Δ表示距離,f(xi,ak)表示樣本xi在屬性ak上的取值[22-24]。
當(dāng)p=1 時,Δ表示曼哈頓距離;當(dāng)p=2 時,Δ表示歐式距離;p=∞時,Δ表示切比雪夫距離。
對于離散型數(shù)據(jù),當(dāng)xi、xj在屬性ak上取值相同時:
當(dāng)xi、xj在屬性ak上取值不同時:
定義2 給定(U,N),N是U上的一個鄰域關(guān)系,對于任意X?U,定義X關(guān)于N的上近似和下近似如下:
其中正域,負(fù)域和邊界域分別如下:
在DTRS(Decision Theoretic Rough Set)模型中,給定數(shù)據(jù)對象x,狀態(tài)集表示x可能的狀態(tài)集,對象x屬于等價類X的可能性描述為P(X|[x]),R={aP,aB,aN}表示對象x可能的三種決策行為:接受、延遲、拒絕。aP、aB、aN分別表將一個對象劃分到正區(qū)域POS(X) ,負(fù)區(qū)域NEG(X) ,邊界區(qū)域BND(X)中。P(x|[X])表示當(dāng)對象x屬于等價關(guān)系[X]的概率,λPP、λBP、λNP分別表示當(dāng)x屬于等價關(guān)系[X]時,采取aP、aB、aN的代價。同理λPN、λBN、λNN分別表示當(dāng)x不屬于等價關(guān)系[X]時,采取aP、aB、aN的代價。
根據(jù)對象x的條件概率和代價,可以計(jì)算出當(dāng)對象x做出不同的決策付出的代價如下:
根據(jù)貝葉斯最小風(fēng)險原則,可以得到如下規(guī)則:
(1)如果C(aN|[x])<C(aB|[x]),C(aN|[x])<C(aP|[x]),則x∈NEG(X)。
(2)如果C(aB|[x])<C(aN|[x]),C(aB|[x])<C(aP|[x]),則x∈BND(X)。
(3)如果C(aP|[x])<C(aB|[x]),C(aP|[x])<C(aN|[x]),則x∈POS(X)。
在日常生活中,往往做出錯誤決策的代價要大于做出正確決策的代價,由語義信-息可得λPP≤λBP≤λNP,λNN≤λBN≤λPN,P(X|[x])+P(X|[x])=1 ,決策規(guī)則可以簡化為:
(1)如果P(X|[x])≥γ,P(X|[x])≥α,則x∈POS(X)。
(2)如果P(X|[x])≥γ,P(X|[x])≤β,則x∈NEG(X)。
(3)如果P(X|[x])≥β,P(X|[x])≤α,則x∈BND(X)。其中α、β、γ根據(jù)已知的代價函數(shù)計(jì)算如下:
由上述決策規(guī)則(1)易得α >β,考慮代價滿足以下條件:
可以得到 0 ≤β <γ <α≤1,決策規(guī)則可簡化為:
(1)如果P(X|[x])≥α,則x∈POS(X)。
(2)如果P(X|[x])≤β,則x∈NEG(X)。
(3)如果β <P(X|[x])< α,則x∈BND(X)。
由于λPP、λNN表示分類正確的代價,故一般設(shè)λPP=λNN=0。
令P(X|[x])= p,可以計(jì)算出在整個決策信息表中,決策代價如下:
定義3 給定 (U,N),X?U,定義x關(guān)于子空間B?A在N上的上近似和下近似如下:
傳統(tǒng)成本管理過程中,成本信息量較大、部門溝通不及時、項(xiàng)目費(fèi)用控制不到位等都是其主要的管理問題所在。在BIM項(xiàng)目成本信息管理中,工程管理人員借助基礎(chǔ)平臺層、數(shù)據(jù)資源層、業(yè)務(wù)支撐層、成本應(yīng)用層和用戶管理層五個層面的應(yīng)用,有效的確保了成本管理的規(guī)范化:
對于子集X?U,X相對于B?C的正域、負(fù)域、邊界域定義如下:
則決策D關(guān)于B?C的正域、負(fù)域、邊界域定義如下:
同理也可以得到如下規(guī)則:
(1)如果p(X|δB(xi))≥α那么xi∈POS(D)。
(2)如果p(X|δB(xi))≤β那么xi∈NEG(D)。
(3)如果β≤p(X|δB(xi))≤α那么xi∈BND(D)。
為了定量的計(jì)算分類能力,定義D關(guān)于B?C的分類質(zhì)量如下:
定義4 給定有限集合B?C,若滿足則稱B是一個獨(dú)立屬性子集,如果對則稱B為C的一個屬性約簡。
在鄰域決策粗糙集系統(tǒng)中,?B?C,?a∈C,定義屬性a相對于子集B的屬性重要程度為:
上式也等價于:
基于上述內(nèi)容,本文給出了基于鄰域決策粗糙集屬性重要度的啟發(fā)式屬性約簡算法Algorithm1[25]。
在 Algorithm1 中,設(shè)循環(huán)次數(shù)為m,計(jì)算的時間復(fù)雜度為O(|U|),計(jì)算兩個屬性重要性的時間為O(1),查找屬性重要性最大的對象這個步驟中,集合中最多有個對象,故時間復(fù)雜度為O(|C|),因此該算法的時間復(fù)雜度為在該算法中沒有額外的空間開銷,故空間復(fù)雜度為O(|U|)。
在該三支分類方法(Multi-iterative Neighborhood Decision Theoretic Rough Set,MNDTRS)中,采用二階段多循環(huán)的方式對邊界域的數(shù)據(jù)進(jìn)行處理,既充分考慮了分類問題的代價敏感性,又使分類結(jié)果更具特征。本文將數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分:第一階段在測試集上運(yùn)用訓(xùn)練集上訓(xùn)練好的基于鄰域決策粗糙集的三支分類器(NDTRS)將測試集中的數(shù)據(jù)分為正域、負(fù)域和邊界域三類。在第二階段運(yùn)用Algorithm2,將測試集中標(biāo)記為正域的數(shù)據(jù)加入到訓(xùn)練集中形成新的訓(xùn)練集,測試集中標(biāo)記為負(fù)域和邊界域的數(shù)據(jù)形成新的測試集。接著多次迭代運(yùn)用基于鄰域決策粗糙集的三支分類方法。在每次迭代中,將測試集中的正域數(shù)據(jù)加入到訓(xùn)練集中,擴(kuò)展了原始訓(xùn)練集,重構(gòu)了訓(xùn)練集中的數(shù)據(jù),使得測試集中負(fù)域和邊界域的對象不斷減少,多次迭代直到測試集的負(fù)域和邊界域不再改變(或者測試集的正域?yàn)榭眨26]。具體算法內(nèi)容見Algorithm2。
現(xiàn)在簡要討論該算法的時間復(fù)雜度,用N1代表訓(xùn)練集中數(shù)據(jù)的數(shù)目,N2代表測試集中數(shù)據(jù)的數(shù)目,假定在Algorithm2上運(yùn)行了k次,其中k為常數(shù)。在訓(xùn)練集上鄰域三支分類器的時間復(fù)雜度為O(N1),則該算法的時間復(fù)雜度為O(k×(N1+N2));該算法空間沒有額外開銷故其空間復(fù)雜度為O(N1+N2)。顯然該算法的時間復(fù)雜度和空間復(fù)雜度開銷較小,符合算法設(shè)計(jì)的原則。
本文建模所采用的痛風(fēng)數(shù)據(jù)共5 616 條數(shù)據(jù),其中女性數(shù)據(jù)3 137條,男性數(shù)據(jù)2 479條,每條數(shù)據(jù)對應(yīng)28個屬性,其中血脂指標(biāo)TC、TG、HDL-C、LDL-C;血糖指標(biāo)GLU;腎功指標(biāo)Urea、Cr;肝功指標(biāo)ALT、AST、AST/ALT、GGT、ALP、TBIL、DBIL、IBIL、TP、ALB、GLB、PA、ALB/GLB、TBA、LDH、LAP、eGFR、non-HDL-C、ADA;尿酸UA 和性別SEX。當(dāng)血脂中的某項(xiàng)指標(biāo)異常時表現(xiàn)為該功能異常,其他功能亦是如此。這些屬性值中性別指標(biāo)是邏輯值(離散值),其余指標(biāo)都為連續(xù)值。其中各指標(biāo)的正常范圍如表1所示,單位為μmol/L。
表1 痛風(fēng)數(shù)據(jù)各指標(biāo)標(biāo)準(zhǔn)范圍
在醫(yī)學(xué)上,痛風(fēng)是單鈉尿酸鹽(MSU)沉積所致的高尿酸血癥關(guān)節(jié)炎,痛風(fēng)發(fā)作的比率與尿酸水平有關(guān)。在臨床上,女性尿酸在360 μmol/L 以下為正常值,360~480 μmol/L則需要臨床干預(yù),在540 μmol/L以上發(fā)展成為痛風(fēng)的幾率很高;男性尿酸在420 μmol/L以下為正常值,420~480 μmol/L 則需要臨床干預(yù),在540 μmol/L 以上發(fā)展成為痛風(fēng)的幾率很高。由于男性和女性尿酸值標(biāo)準(zhǔn)范圍不同,在日常對痛風(fēng)分析中把男性和女性進(jìn)行分別處理,而在該模型中根據(jù)高尿酸與痛風(fēng)發(fā)作的高相關(guān)性,將尿酸作為決策屬性D,其他指標(biāo)值作為條件屬性C,將痛風(fēng)診斷信息轉(zhuǎn)化為決策信息表。一方面可以直接探討尿酸與其他指標(biāo)的相關(guān)性而避免對性別進(jìn)行分類討論;另一方面根據(jù)決策屬性D可以將其轉(zhuǎn)化為監(jiān)督學(xué)習(xí),巧妙地運(yùn)用鄰域三支決策模型對其進(jìn)行分類和獲取相關(guān)規(guī)則,既能夠考慮痛風(fēng)診斷基于代價敏感的特征,又避免數(shù)據(jù)特征不明顯時聚類分析效果不佳。
在實(shí)驗(yàn)前進(jìn)行數(shù)據(jù)預(yù)處理,將一些屬性缺失值較多的樣本剔除,將少量缺失值用平均值替換,將尿酸值根據(jù)性別范圍轉(zhuǎn)化為{0,1,2},其中0 代表正常,1 代表需臨床再診斷(即為痛風(fēng)低風(fēng)險),2代表高概率發(fā)展為痛風(fēng)(即為痛風(fēng)高風(fēng)險),符合三支決策的語義。其中標(biāo)記為0的數(shù)據(jù)有4 072條,標(biāo)記為1的數(shù)據(jù)有1 039條,標(biāo)記為2的數(shù)據(jù)有235條,刪除未標(biāo)記數(shù)據(jù),共5 616條數(shù)據(jù)。
根據(jù)實(shí)際意義,在該模型中,對于求診者來說,將痛風(fēng)患者診斷為正常的代價很大,會延誤患者進(jìn)行及時治療,造成更嚴(yán)重的后果。對分類代價賦值,令λBP=5,λBN=10,λNP=10,λPN=20。其中取鄰域閾值δ=0.1,距離函數(shù)采用歐式距離。在上述實(shí)驗(yàn)準(zhǔn)備的基礎(chǔ)上,運(yùn)用Algorithm1對數(shù)據(jù)進(jìn)行屬性約簡,得到屬性約簡集合R。接著運(yùn)用Algorithm2,得到最終分類結(jié)果。
通過運(yùn)用Algorithm1,計(jì)算屬性重要性,得到屬性重要性排序(Cr,HDL-C,GLU,TG,TF,TC,AST,non-HDL-C,TBA,ALT,eGFR,ALP,AST/ALT,IBIL,GGT,ALB,ALB/GLB,LDL-C,LAP,PA,Urea,TBIL,TP,GLB,DBIL,ADA,LDH),如圖1 所示,并得到約簡集R={Cr,HDL-C,GLU,TG,TC,TF,AST,non-HDL-C,TBA,ALT,eGFR,ALP,AST/ALT,IBIL,GGT},共15 個屬性。圖1顯示Cr的屬性重要度為0.405 2,遠(yuǎn)高于其他指標(biāo),故可以推斷Cr 可能是影響痛風(fēng)發(fā)作的重要指標(biāo)。在屬性約簡集中,腎功的指標(biāo)有Cr,血脂的指標(biāo)有HDL-C 和TG,血糖的指標(biāo)有GLU,肝功的指標(biāo)有TF、AST、non-HDL-C、TBA、ALT、eGFR、ALP、AST/ALT、IBIL和GGT。通過該屬性約簡算法,分別得到了腎功、肝功、血脂和血糖的代表性指標(biāo),符合屬性約簡的本質(zhì)。
圖1 各指標(biāo)屬性重要度柱形圖
在Algorithm2中運(yùn)用多次迭代的方法進(jìn)行分類,為了說明在迭代過程中,正域、負(fù)域、邊界域中樣本數(shù)量的變化,圖2記錄了在多次迭代過程中正域、負(fù)域、邊界域中樣本數(shù)量占所有樣本數(shù)量的百分比。通過觀察圖2可知,隨著迭代次數(shù)的增加,邊界域中的樣本所占比例不斷減小,正域和負(fù)域中的樣本所占比例不斷增大,并最終達(dá)到一個穩(wěn)定值。每次迭代過程形成新的訓(xùn)練集和測試集,使得訓(xùn)練集中的數(shù)據(jù)特征更加明顯,訓(xùn)練得到的模型更加準(zhǔn)確,提高了分類器的分類能力。
圖2 隨迭代次數(shù)增加各區(qū)域數(shù)據(jù)所占比例
圖3 不同分類算法的誤分類代價
本文分別采用LR、RF、SVM與MNDTRS對痛風(fēng)數(shù)據(jù)進(jìn)行分類,得到四種分類算法的誤分類代價(圖3)和混淆矩陣(圖4)。通過觀察圖表,MNDTRS算法在5 616條數(shù)據(jù)中誤分類的數(shù)據(jù)只有49 條,分類準(zhǔn)確率達(dá)到99%;SVM、RF 和LR 算法中誤分類的數(shù)據(jù)數(shù)目分別為91、189、928 條,分類準(zhǔn)確率分別為99%、98%、93%,且MNDTRS的誤分類代價低于其他算法。通過痛風(fēng)數(shù)據(jù)分類實(shí)驗(yàn)驗(yàn)證了MNDTRS 算法的有效性和優(yōu)越性,且算法能夠得到較高的準(zhǔn)確率和較低的分類代價。SVM和RF算法在分類過程中也有較好的性能,而LR算法在分類過程中相較于本文涉及的算法,分類能力較差。
本文在數(shù)據(jù)標(biāo)準(zhǔn)化的基礎(chǔ)上,根據(jù)分類結(jié)果得到不同屬性在痛風(fēng)高風(fēng)險、低風(fēng)險、正常時的平均值,如圖5所示。根據(jù)該圖顯示可知,AST/ALT、eGFR、HDL-C 這三個屬性隨著痛風(fēng)疾病的嚴(yán)重性均值下降;IBIL、TBA屬性對痛風(fēng)疾病的敏感性不高;Cr、GLU、TG、TF、TC、AST、non-HDL-C、ALT、UA、ALP、GGT這些屬性的值隨患痛風(fēng)疾病風(fēng)險的嚴(yán)重性均值上升。圖6 為各屬性之間的相關(guān)矩陣圖,從圖中可以看出尿酸(UA)與AST/ALT、eGFR、HDL-C 相關(guān)系數(shù)為負(fù)值,尿酸(UA)與IBIL、TBA 的相關(guān)系數(shù)接近0,尿酸(UA)與Cr、GLU、TG、TF、TC、AST、ALT、ALP、GGT、non-HDL-C 相關(guān)系數(shù)為正值,這與上述結(jié)論相吻合。在圖6中發(fā)現(xiàn)Cr屬性的均值隨患痛風(fēng)疾病風(fēng)險的嚴(yán)重性增幅較大,并且在相關(guān)矩陣圖中尿酸(UA)與Cr的相關(guān)性比較高,達(dá)到0.54,而Cr 是腎功能的重要指標(biāo),故痛風(fēng)疾病的發(fā)作與腎功指標(biāo)有著極大的相關(guān)性。
通過分類結(jié)果,獲取到分類規(guī)則,并做出規(guī)則樹圖,如圖7 所示。從圖中觀察到腎功指標(biāo)(Cr)在規(guī)則樹的多個規(guī)則中出現(xiàn),且規(guī)則樹中Cr 指標(biāo)作為判斷是否患痛風(fēng)的首要因素。例如規(guī)則R8 和R10 中,當(dāng)Cr 指標(biāo)值高時,有患痛風(fēng)的風(fēng)險,這也驗(yàn)證了上述Cr高屬性重要度和Cr 與尿酸(UA)高相關(guān)性。另外腎功、肝功、血脂的指標(biāo)呈相互制約相互影響的關(guān)系。例如當(dāng)腎功指標(biāo)(Cr)較高時,而血脂指標(biāo)(TG、TC)和肝功指標(biāo)(ALT、GGT 等)較低或在正常范圍內(nèi),則痛風(fēng)發(fā)作幾率較小,反之亦然。如規(guī)則R6中,當(dāng)Cr>73.5而TG ≤1.125時表現(xiàn)為正常;在規(guī)則R5中,當(dāng)Cr ≤ 73.5,TG>1.385,eGRF>120 時表現(xiàn)為痛風(fēng)高風(fēng)險。而當(dāng)腎功指標(biāo)(Cr)、血脂指標(biāo)(TG、TC)和肝功指標(biāo)(ALT、GGT 等)都較高時,痛風(fēng)發(fā)作的概率很大。例如在規(guī)則R11 中,Cr>73.5,TG>1.825,TC>6.475 時有患痛風(fēng)的風(fēng)險。血糖指標(biāo)(GLU)沒有在規(guī)則樹中出現(xiàn),故推斷痛風(fēng)發(fā)作與血糖指標(biāo)相關(guān)性不高。實(shí)際中表明痛風(fēng)發(fā)作常常伴隨著腎功能指標(biāo)異常,腎功能異常時會導(dǎo)致尿酸清除率降低而沉積在血液中,從而使尿酸水平升高。這也驗(yàn)證了該算法的有效性,通過大數(shù)據(jù)分析建立痛風(fēng)診斷模型顛覆了以往根據(jù)數(shù)理統(tǒng)計(jì)的建模的思維,更能精準(zhǔn)有效地進(jìn)行知識挖掘和知識發(fā)現(xiàn)。
圖4 不同分類算法的混淆矩陣
圖5 各指標(biāo)在不同分類下的均值
圖6 相關(guān)矩陣圖
圖7 規(guī)則樹
本文將基于鄰域決策粗糙集代價敏感三支分類方法運(yùn)用到痛風(fēng)診斷模型的建立中,得到有效的分類結(jié)果,并通過分類結(jié)果提取分類規(guī)則,挖掘痛風(fēng)發(fā)作潛在的影響因素,對痛風(fēng)疾病的研究提供知識支持。通過與其他分類算法相比,證明了該算法具有較高的準(zhǔn)確性和較低的分類代價。在該模型建立過程中將尿酸指標(biāo)作為決策屬性,而在臨床過程中,確診是否患有痛風(fēng),還看關(guān)節(jié)是否發(fā)生變形以及關(guān)節(jié)損壞程度。在之后的研究過程中,可以對關(guān)節(jié)損壞程度加以考慮,根據(jù)專家經(jīng)驗(yàn)對致病程度給予權(quán)重,進(jìn)行痛風(fēng)診斷模型的建立。