岳 路 馬凌燕 魏本征
(山東中醫(yī)藥大學,山東濟南 250355)
目前醫(yī)院都在推行信息管理系統(tǒng),為患者建立電子病歷,隨著電子病歷的普及,存儲的數(shù)據(jù)量急劇增加,這些數(shù)據(jù)內部存在著各種千絲萬縷的聯(lián)系,如何對這些海量數(shù)據(jù)進行篩選、分析,并發(fā)現(xiàn)其中未知的規(guī)律是一個非常有研究價值的方向。數(shù)據(jù)挖掘就是一種用于在大規(guī)模數(shù)據(jù)中發(fā)現(xiàn)知識的常用技術,在對病歷數(shù)據(jù)進行挖掘的過程中,最關鍵的問題是能否選擇適用于挖掘環(huán)境的數(shù)據(jù)挖掘算法,能否建立恰當?shù)姆诸惸P汀?/p>
肺炎是一種危害嬰幼兒健康和生命安全的常見病,是導致5歲以下嬰幼兒死亡的主要病因,中醫(yī)對于肺炎辯證和治療有獨有的特點和手段,在小兒肺炎的中醫(yī)辯證中,要搜集小兒的各種病理表現(xiàn)參數(shù),這些參數(shù)在肺炎辯證中具有重要的作用。如小兒肺炎指紋,是指從虎口到食指內側的橈側淺靜脈,由于小兒皮膚很薄,所以這條小靜脈的形狀、顏色、顯露程度可以反應出小兒的血液運行情況和身體狀況,為辯證提供有力依據(jù),故在臨床中,觀察小兒指紋是一種常用的診斷手法。目前,采用數(shù)據(jù)挖掘技術對小兒肺炎指紋圖像進行研究還處于探索階段,本文以小兒肺炎中醫(yī)辨證理論為基礎,結合小兒肺炎指紋圖像,采用決策樹算法構造小兒肺炎分類模型。
決策樹是一種典型的分類算法,起源于概念學習系統(tǒng)CLS(Concept Learning System),其方法就是利用信息論中的信息增益尋找具有最大信息量的分類字段,可以從一組無次序、無規(guī)則的事例中推理出可視的分類規(guī)則,它具有分類和測試速度快,可以選擇重要的決策屬性,分類準確率比較高等優(yōu)點。
本文涉及到的所有數(shù)據(jù)來源于山東中醫(yī)藥大學附屬醫(yī)院兒科臨床病例,共選取300例已經確診的病兒信息作為研究對象,每例含有29個數(shù)據(jù)項。包括食指內側的橈側淺靜脈的顯露部位、顯露程度、是否流暢、色澤特點、病兒的體溫、咳嗽的特點、舌象、鼻咽部癥狀、消化道癥狀、睡眠狀況、三凹征、是否存在氣促、肺部聽診結果、面部色澤、大便特點、小便特點、變癥等。
對于臨床采集的數(shù)據(jù),難免會產生不完整性、不一致性和噪聲等現(xiàn)象。因此,必須對原始數(shù)據(jù)進行數(shù)據(jù)預處理,盡可能提高數(shù)據(jù)的質量。經過數(shù)據(jù)預處理,在臨床采集表中共選取目標樣本300個,其中100個樣本作為訓練集,其余200個作為檢驗集。每個樣本提取與分類結果關聯(lián)性較強的22個指標屬性,對原始數(shù)據(jù)中每個分類變量指標數(shù)量化,對分類變量指標的可能屬性賦值,例如“指紋顏色”屬性用1表示“淡紅隱隱”,用2表示“紫紅”(見表1);小兒肺炎辨證分類空間共有7個不同取值,如表2所示。
表1 對小兒肺炎辨證有影響的指標屬性
R12 口渴 無(1) 口渴(2)R13 口唇 發(fā)紺(1) 紅赤(2) 干燥(3) 紅潤(4)R14 乏力 乏力(1) 無(2)R15 汗出 微汗(1) 多汗(2) 無汗(3)R16 消化道癥狀 腹脹(1) 惡心(2) 嘔吐(3) 無(4)R17 飲食 正常(1) 食少納呆(2)食欲不振(3)R18 大便 正常(1) 溏薄(2) 干結(3)R19 小便 清長(1) 黃赤(2) 正常(3)R20 舌色 淡紅(1) 紅(2) 淡白(3)R21 舌苔厚薄 厚(1) 薄(2) 剝脫苔(3)少苔(4)R22 舌苔顏色 白(1) 黃(2)
表2 小兒肺炎的分類
(1)選擇決策樹算法
本文采用的算法采取一系列局部最優(yōu)決策來構造決策樹。即通過將訓練集相繼劃分成較純的子集,以遞歸方式建立決策樹。設Dt是與結點相關聯(lián)的訓練記錄集,而 Y ={y1,y2 ,...,y c}是類標號,遞歸定義如下:
1)如果Dt中所有的記錄都屬于同一個類yt,則t是葉結點,用yt標記。
2)如果Dt中包含屬于多個類的記錄,則選擇一個屬性測試條件(attribute test condition),將記錄劃分成較小的子集,對于測試條件的每個輸出,創(chuàng)造一個子女結點,并根據(jù)測試結果將Dt中的記錄分布到子女結點中,然后,對于每個子女結點,遞歸的調用該算法。
建立決策樹的偽代碼描述如下:
(2) 選擇最佳劃分的度量
設 P (i|t)表示給定結點t中屬于類i的記錄所占的比例。選擇最佳劃分的度量可以參照劃分后子女結點不純性的程度。
對某組訓練模型中的結點,需計算每個屬性值的Gini系數(shù),多路劃分的總Gini系數(shù)等于子女節(jié)點的不純度量的加權平均值。如:當選擇根結點為R1(鼻部癥狀)時,R1產生4路分支,分別是 R1=1(鼻塞),R2=2(黃涕),R3=3(白涕),R4=4(鼻孔干燥)。計算得到:
圖1 小兒肺炎中醫(yī)辨證分類的決策樹模型
決策樹模型建立后,用200個病歷作為測試樣本進行測試,得出小兒肺炎的辨證分類準確率為82.3%。具有較廣泛的實用價值,可用于小兒肺炎中醫(yī)臨床辨證的輔助診斷。
[1] 葉晨洲,楊杰,狄道穎.應用數(shù)據(jù)挖掘技術從大腦膠質瘤病例中獲取診斷知識.生物醫(yī)學工程學雜志,2002,19(3):426-430
[2] 馮少榮,肖文俊.基于樣本選取的決策樹改進算法,西南交通大學學報,2009,5
[3] 龔德平,高穎,唐濤,基于數(shù)據(jù)挖掘的數(shù)字化中醫(yī)診斷系統(tǒng),中國醫(yī)學影像技術,2003