孫 靜,孫興旺
粗糙集方法在醫(yī)學影像診斷分析中的應用
孫 靜1,孫興旺2
(1.西安醫(yī)學院醫(yī)學技術系,陜西西安710021;2.西安交通大學醫(yī)學院附屬第一醫(yī)院,陜西西安710061)
醫(yī)學診斷常面對越來越多的醫(yī)學影像數據信息,比較不同分析方法對于疾病診斷十分必要。對183例腦膠質瘤的MR資料分別使用粗糙集理論和logistic回歸分析方法導出影像診斷規(guī)則。與病理結果對比后發(fā)現,使用粗糙集理論的診斷規(guī)則準確性高于其他統計方法。粗糙集理論對提高醫(yī)學影像學診斷水平有更好的臨床應用價值。
粗糙集;醫(yī)學影像;診斷規(guī)則
隨著醫(yī)學科技的發(fā)展,醫(yī)院信息管理系統中的信息飛速增加,數據庫逐年增長,信息包括電子病歷、數字化醫(yī)學影像圖像、實驗室檢驗結果、病理參數等等。醫(yī)學診斷是基于信息的推理過程,對有效信息的獲取最為關鍵,醫(yī)師通過獲取的信息形成推理網絡,才可能做出正確診斷?,F代醫(yī)學影像學已步入數字化的時代,積累的影像學數據信息越來越多。在激增的數據背后隱藏著許多重要的信息,單憑醫(yī)師主觀判斷已不適合高維和海量的數據信息分析,在實踐中利用粗糙集理論等工具進行分析和統計,可以幫助醫(yī)師得出確定的診斷規(guī)則[1-2]。
隨著影像儀器設備的發(fā)展,醫(yī)學影像診斷學中能夠采集到的數據資料越來越多,針對各類醫(yī)學數據采用的統計學分析方法也有很多。
1.多元線性回歸分析
在醫(yī)學影像診斷學中,診斷結論與多個影像的征象相聯系,使用多元線性回歸中多個自變量的最優(yōu)組合共同來預測或估計因變量,更符合實際。由于影像征象的分類特征不一致,例如強化掃描,就存在無強化、輕度強化、明顯強化等不同水平,而病變形態(tài)也分為圓形、類圓形、不規(guī)則形等不同分類,自變量的級別單位明顯不同,無法使用系數大小來說明該因素的重要程度,必須先將所有變量先轉化為標準分,再進行線性回歸,得到的回歸系數才有意義。由于臨床影像學研究中數據資料的同質性不高,這種分析效果不盡理想。
2.logistic回歸分析
logistic回歸常用于根據危險因素預測某疾病發(fā)生的概率,其與多元線性回歸有很多相似之處,但應變量不同。logistic回歸應變量多為兩分類變量,即“是”或“否”,自變量可以包括很多。在醫(yī)學影像診斷學中,對于圖像的判斷結果多為“存在某種疾病”和“無異常表現”這樣的兩分類變量,而影響診斷結果的因素是多種多樣的,因此,使用logistic回歸分析方法處理醫(yī)學影像診斷學中的數據化圖像資料比較適合。本文中影像資料數據就采用了logistic回歸分析。
3.分類與回歸樹分析
分類與回歸樹的分析方法由分類樹和回歸樹兩部分構成,分類樹用于結果變量是分類變量的數據,回歸樹則用于結果變量是連續(xù)變量的數據分析。在疾病的診斷中,依據臨床表現和影像特征進行分類的患者,其內部的同質性有待明確,分類與回歸樹可將病例分配到樹的局部進行處理,改善數據的內部同質性;另一方面,分類與回歸樹使用替代變量來解決臨床實踐研究中出現的數據缺失,分析模型不要求預報變量和結果變量必須具有某種分布,能充分利用醫(yī)療實踐中的各類數據。在應用中分類和回歸樹的數據統計計算量非常大,穩(wěn)定性也較差,尤其在樣本量較小時,模型并不穩(wěn)定。
4.數據挖掘技術
20世紀80年代初,計算機輔助診斷系統開始在中國醫(yī)學診斷領域應用,其中核心的技術就是建立正確的數學模型。當時,較為流行的數學模型有Bayes模型[3]、最大似然法模型和序貫模型[4]。這些模型多使用專家診斷疾病時的邏輯思維和辨證方法,建立起“專家系統”,期望使用該系統的其他人能夠達到專家的診斷水平,但是在臨床的醫(yī)療實踐過程中,病人接受“專家系統”的診斷存在明顯的干擾心理因素,加之影像資料、病情發(fā)展的復雜性,造成模型系統對于疾病判斷往往出現偏差。
同時期,國外有學者提出了粗糙集理論方法進行數據分析,該理論當時僅在部分領域應用。隨著粗糙集理論相關專著、論文在國際專題研討會上的推廣,粗糙集作為智能計算的科學研究,無論是在理論方面還是在應用方面都取得了很大的進展,已成為國內外人工智能領域中一個較新的學術熱點,引起了越來越多科研人員的關注。
1982年,波蘭學者Z.Pawlak提出粗糙集理論。它是一種刻畫不完整性和不確定性的數學工具,能有效分析不精確、不一致、不完整的各種不完備信息,發(fā)現隱含、潛在的規(guī)律,其基本思想是在保持分類能力不變的前提下,通過知識約簡導出概念的分類規(guī)則。
粗糙集理論將對象進行論域劃分,然后確定劃分后的各部分對某一概念的支持程度,對象的知識是通過指定基本特征(屬性)和它們的特征值(屬性值)來描述的。給定一個有限的非空集合U稱為論域,R為U上的一族等效關系,R將U劃分為互不相交的基本等效類,K=(U,R)構成一個近似空間,設X為U的一個子集,a為U中的一個對象,[a]R表示所有與a不可分辨的對象組成的集合,即由a決定的等效類。當集合X能表示成基本等效類組成的并集時,稱集合X是可以精確定義的;否則集合X只能通過逼近的方式來刻畫。集合X關于R的下逼近定義為:R.(X)={a∈U:[a]RX},R.(X)實際上是由那些根據已有知識判斷肯定屬于X的對象所組成的最大的集合,也稱為X的正區(qū)。根據已有知識判斷,肯定不屬于X的對象組成的集合稱為X的負區(qū)。集合X關于R的上逼近定義為:R′(X)={a∈U:[a]R∩X≠Φ}。R′(X)是所有與X相交非空的等效類[a]R的并集,是那些可能屬于X的對象組成的最小集合。
用粗糙集應用決策表來描述論域中的對象,二維表格中每一行描述一個對象,每一列描述對象的一種屬性。屬性分為條件屬性和決策屬性。根據條件屬性的不同,論域中的對象被劃分到具有不同決策屬性的決策類。并非所有的條件屬性都是必要的,去除多余的條件屬性并不會影響分類效果,可以約簡。在決策表中,各個條件屬性之間往往存在某種程度的依賴和關聯,約簡定義為不含多余屬性并保證分類正確的最小條件屬性集。決策表中可以同時存在幾個約簡,所有約簡的交集即為核,核中的屬性是影響分類的重要屬性,少了它們,分類的質量就會明顯下降[5]241-250。
屬性約簡是根據屬性的重要程度進行約簡,其重要性的度量可以采用不同方法,現將常用的基于信息量的屬性約簡算法描述如下:
輸入 決策表S=<U,R,V,F>,R=C∪D,C為條件屬性集,D為決策屬性集。
輸出 該決策表的一個相對約簡B。
(1)條件屬性C應用粗糙集離散化
(2)計算I(D|C)
(3)令Core(C,D)=Φ
{for(every a∈C)計算Sig(a,C,D);
if(Sig(a,C,D)>0)Core(C,D):=Core(C,D)∪{a})
(4)if(I(D│Core(C,D))=I(D│C)),則輸出(Core(C,D)為C的最小約簡,終止;否則將非核條件屬性記入集合Att中,即Att=C|Core(C,D),令B=Core(C,D)
While(I(D│B)!=I(D│C))do
{for(every ai∈Att)計算I(D│B∪{ai})
aj=min{aj│I(D│B∪{ai})}
如果有幾個屬性ai∈Att具有相同的最小信息量,則選擇屬性重要性最大的屬性。
Att=Att|{aj};B=B∪{aj};計算新的I(D│B)。
信息量概念在信息系統的定義為:
其中|X|表示集合X的基數,|Xi|/|U|表示等價類Xi在U中的概率。
其中U/IND(P)是根據屬性P劃分的等價類集合。
定義2 設S=<U,R,V,F>是一個決策表,R=C∪D,PR,知識Q(U|IND(Q)={Y1,Y2,Y3,…,Ym})(屬性集合)相對于知識P(U|IND(P)={X1,X2,X3,…,Xn})(屬性集合)的條件信息量I(Q│P)定義為:
定義3 設S=<Un}vf>是一個決策表,R=C∪D,C為條件屬性,D={d}為決策屬性集,AC,a∈A在A中的重要性Sig(a,A,D)定義為Sig(a,A,D)=I(D|A|{a})-I(D\A);當A={a}時,Sig(a,A,D)=I(D)-I(D|{a})。其中U│IND(Φ)={U},I(D|Φ)=I(D)。
1.數據樣本特征
選擇西安交通大學醫(yī)學院第一附屬醫(yī)院2004—2009年經病理證實的腦膠質瘤病例共183例,患者中性別比例為男/女=106/77,年齡從4歲~85歲,平均年齡為42.2±13.45歲。根據WHO分級的數據統計見表1;根據病理類型的數據統計見表2;根據病灶位置的數據統計見表3。
表1 病例WHO分級統計表
183例腦膠質瘤均在荷蘭飛利浦公司1.5T超導型MR掃描系統完成普通MRI平掃和增強掃描,由二位工作經驗5年以上的醫(yī)學影像專業(yè)醫(yī)師,采用盲法對腦膠質瘤的MRI影像征象進行提取,如遇分歧討論確定。MRI征象屬性見表4。
表2 病例病理類型統計表
表3 病灶位置統計表
表4 腦膠質瘤MRI征象屬性表
2.利用粗糙集理論的分析結果
腦膠質瘤決策表導入粗糙集工具軟件Rosetta軟件,其中WHO級別分類為決策屬性,MRI征象為條件屬性,對病例進行屬性約簡和規(guī)則約簡,屬性約簡使用遺傳算法得到條件屬性核。通過條件屬性核產生決策規(guī)則庫,規(guī)則約簡時以不減低規(guī)則覆蓋率、精確度為原則,并采取交叉驗證方式對決策表數據進行測試,了解規(guī)則診斷的靈敏度、特異度、陽性預測值和陰性預測值,以評價規(guī)則的診斷性能。
腦膠質瘤數據經過屬性約簡后,產生的典型診斷規(guī)則有9條,包括MRI征象中壞死、水腫、占位效應、強化特征和信號均勻性等為分級診斷重要征象,經過屬性約簡及規(guī)則約簡的典型診斷規(guī)則,預測腦膠質瘤的準確性為84.4%(詳見表5)。
表5 典型腦膠質瘤診斷規(guī)則表
3.利用二元logistic回歸的分析結果
腦膠質瘤診斷屬于離散選擇,回歸分析也是臨床常用的統計學分析方法[6]。使用二元logistic回歸法建立腦膠質瘤的診斷模型,MR的征象作為因變量,其中多等級的因變量如形態(tài)、占位、水腫等,以最低等級為基線,其他等級與之相比進行啞變量設置。模型中因變量的進入標準為P<0.05,剔除標準為P>0.1,二元logistic回歸的最大迭代次數為20次。模型預測腦膠質瘤的概率分界點為0.5,即當預測概率>0.5時為高級別膠質瘤,預測概率<0.5時為低級別膠質瘤。
二元logistic回歸分析產生的MR診斷腦膠質瘤模型公式包括占位、出血、水腫、強化四個征象,預測模型的回歸方程為:
依據此模型腦膠質瘤分級診斷的準確性為83.6%。其中占位、水腫、強化為多等級因變量,B值詳見表6。
表6 二元logistic回歸方程B值表
4.粗糙集理論與二元logistic回歸分析比較
針對腦膠質瘤樣本數據,分別采用粗糙集理論和二元logistic回歸分析相比,兩種分析方法的診斷性能相比較見表7,粗糙集理論的準確性較高。
表7 粗糙集理論和二元logistic回歸統計方法診斷性能比較表
腦膠質瘤作為顱內最常見的腫瘤,其預后與分級密切相關,低級別腦膠質瘤生存期為5~10年,而高級別腦膠質瘤的生存時間約為1年[7]。正確診斷腦膠質瘤和評判級別對治療方案的選擇和預后的評價具有重要意義。
應用粗糙集理論和二元logistic回歸分析方法分級診斷腦膠質瘤準確性分別達到84.4%和81.6%,與臨床醫(yī)師診斷準確性較為接近,也與Ye等人的研究結果相符[8-9]。兩種方法提取的診斷規(guī)則均符合臨床現有知識,相比而言,粗糙集理論的準確性更高。通過對腦膠質瘤診斷實例應用分析可以發(fā)現,粗糙集理論提取的規(guī)則庫包括的MR征象最多,二元logistic回歸模型僅包括水腫、占位等四個MR征象;粗糙集理論的診斷規(guī)則確定性高,二元logistic回歸分析無法提取確定的診斷規(guī)則。因此,盡管兩種方法均具有良好的診斷性能,但粗糙集理論提取的診斷規(guī)則更加容易理解,也便于臨床應用,其包括較多的MR征象,準確性也更好。
醫(yī)學影像診斷屬于分類及決策問題,經常會遇見由不精確或不一致的數據導致的不確定問題,使得分類或識別目標變得困難。粗糙集理論正是強調在不確定的數據中尋找信息,計算時應用粗糙集理論和基于統計的算法來進行分類決策,既發(fā)揮了粗糙集理論處理不確定數據關系的長處,又能夠凸現統計算法應用簡單且決策高效的優(yōu)點。
粗糙集理論適用于處理離散化數據,與其他應用于醫(yī)學影像診斷的統計分析方法比較,具有以下優(yōu)點:一是不需要建立因變量函數或預先設置概率,主要通過直接對集合中的對象進行運算得到不可分辨矩陣從而產生規(guī)則;二是粗糙集理論是基于集合的數據挖掘方法,因此有利于發(fā)現隱藏知識,其屬性約簡和規(guī)則提取過程基本不受人為因素影響,產生的診斷規(guī)則明確、清晰、易于理解,在醫(yī)學影像的實例應用就可以充分體現這些優(yōu)點[10-11]。
使用粗糙集理論的方法對龐雜的影像數據信息進行分析,得出確切的診斷規(guī)則,不僅有利于影像專業(yè)醫(yī)生減少主觀判斷的偏差和遺漏,又便于臨床醫(yī)生理解,而且在臨床實踐中具有很好的操作性。隨著基于粗糙集理論的軟件系統的不斷開發(fā),粗糙集理論有了越來越廣泛的發(fā)展空間,發(fā)揮這些優(yōu)點,進而可以推廣到其他醫(yī)學領域應用中,對于現代醫(yī)學有著重要的意義。
[1] Katapka H,Sugiura T.The Ideal form of Laboratory Information Management[J].Rinsho Byori,2005,53(1).
[2] Lamma E,Mello P,Nanetti A,et al.Artificial Intelligence Techniques for Monitoring Dangerous Infections[J].IEEE Trans Inf Technol Bramed,2006,10(1).
[3] 羅來鵬.完備決策表中的Bayes公式[J].統計與信息論壇,2005,20(5).
[4] 林燕,高培毅,孫楠.鞍內和鞍上腫瘤計算機輔助MR影像診斷[J].中華放射學雜志,1999,33(12).
[5] Paulak Z.Rough Sets,Theoretical Aspects of Reasoning about Data[M].Boston:Dordrecht Kluwer Acadecmic Publishers,1991.
[6] Mihara F,Numaguchi Y,Rothman M,et al.MR Imaging of Adult Supratentorial Astrocytomas an Attempt of Semiautomatic Grading[J].Radiat Med,1995,13(1).
[7] 楊勁松,陸雪官.高分級腦膠質瘤綜合治療的循證醫(yī)學研究進展[J].中華腫瘤防治雜志,2007,14(13).
[8] Ye C Z,Yang J,Geng D Y,et al.Fuzzy Rules to Predict Degree of Malignancy in Brain Glioma[J].Med Biol Eng Comput,2002,40(2).
[9] Wang X,Yang J,Jenson R,et al.Rough Set Feature Selection and Rule Induction for Prediction of Malignancy Degree in Brain Glioma[J].Comput Methods Programs Biomed,2006,83(2).
[10]范德成,王韶華,張偉.基于粗糙集理論的能源結構合理度分析[J].統計與信息論壇,2012,27(2).
[11]Filipovych R,Resnick S M,Davatzikos C.Semi-supervised Cluster Analysis of Imaging Data[J].Neuroimage,2011(3).
The Application of Rough Set Method in Medical Imaging Diagnostic Analysis
SUN Jing1,SUN Xing-wang2
(1.Medical Technology Department,Xi'an Medical University,Xi'an 710021,China;2.First Hospital,Xi'an Jiaotong University,Xi'an 710061,China)
Facing more and more medical image data information,it is necessary to compare different analysis method for disease diagnosis.This article analysis 183cases of glioma MR details using rough sets theory and logistic regression analysis separately and work out the diagnosis rules.Comparing with pathological results,it can be found that rough set theory has higher diagnosis accuracy than the other statistical method.The rough set theory has better clinical application value to improve medical imaging diagnostic level.
rough set;medical imaging;diagnosis
book=83,ebook=71
O213
A
1007-3116(2012)06-0083-05
(責任編輯:李 勤)
2012-03-16
孫 靜,女,陜西西安人,講師,碩士,研究方向:醫(yī)學影像診斷學。