陳 宋,黃立勤
(福州大學 物理與信息工程學院,福建 福州 350108)
數據挖掘在胎兒心率上的規(guī)則預測研究*
陳 宋,黃立勤
(福州大學 物理與信息工程學院,福建 福州 350108)
瞬時胎心率是監(jiān)測胎兒健康狀態(tài)的一種重要方式。當前,監(jiān)控胎兒心率是重要而復雜的任務,正確的自動化分類和規(guī)則提取是非常必要的。醫(yī)療診斷自動化系統(tǒng),不僅加強醫(yī)療保健,同時也可以降低成本。設計了一個有效挖掘規(guī)則,并根據給定的參數來預測胎兒的風險水平。采用C4.5、Classification and Regression Tree(CART)、隨機森林分類器來進行系統(tǒng)比較。該系統(tǒng)的性能評價由分類精度、產生規(guī)則數量構成。實驗結果表明,基于隨機森林分類器的系統(tǒng)具有高精度(99.4%)的預測胎兒健康狀態(tài)的潛力,同時,產生的規(guī)則數量精簡且可供于醫(yī)生決策。
隨機森林;瞬時胎心率;規(guī)則提??;C4.5;CART
數據挖掘(也稱為數據庫中的知識發(fā)現)是一個過程,包括應用數據分析和發(fā)現算法。現今,數據挖掘在實踐中得到了有效的應用,如行為檢測、醫(yī)療診斷等。越來越多的用戶已經意識到數據挖掘在醫(yī)療中的意義。現今,在醫(yī)療領域,臨床試驗的結果往往是基于醫(yī)生的直覺分析和經驗,這會導致錯誤和巨大的醫(yī)療成本,甚至加劇患者病情。目前,許多醫(yī)院擁有了一些病人的信息收集管理系統(tǒng)來保存病人數據。這些信息系統(tǒng)通常會產生大量的數據,這些數據信息很少用于臨床決策。
本文專注于使用數據挖掘技術進行胎心監(jiān)護數據預測。在實際使用中,觀察胎兒的健康狀態(tài)主要利用胎心監(jiān)護數據,胎兒心率(Cardiotocogram,CTG)[1]包括兩個不同的信號,其瞬時胎心率(Fetal Heart Rate,FHR)和子宮活動的信息可用于早期識別病理狀態(tài)(即遺傳心臟不足、胎兒疼痛或缺氧等),協助醫(yī)生預測胎兒的健康狀態(tài)。
目前,醫(yī)生主要根據胎心監(jiān)護儀的設備顯示信息來判斷胎兒狀態(tài),無法知曉分類結果的規(guī)則。因此,本文研究將胎心數據應用在可解釋分類器上,在提高數據分類精度的情況下,產生直觀的規(guī)則供醫(yī)生決策。
Miranda Lakshmi等人[2]挖掘學生的教學數據并利用ID3、C4.5和CART 算法來分析決策樹算法的性能。Seema Sharma等人[3]提出了一種基于C4.5分類器不同香農熵來分類。Badr Hssina 等人[4]提出了經典算法ID3,并詳細討論了C4.5,然后與CART分類器做詳細比較。Harvinder Chauhan和Anu Chauhan[5]使用WEKA[6]數據挖掘工具在不同大小的可用數據集上實現C4.5算法,同時,在包含有噪聲的數據、缺失的數據和大量的數據集上計算精度。但是,醫(yī)生僅僅依靠分類精度是遠遠不夠的,目前,越來越多的行業(yè)應用數據挖掘技術在提高分類精度前提下提取數據規(guī)則,提取的信息可用于基于回歸的決策醫(yī)療數據分析。規(guī)則提取算法首先在神經網絡下使用[7],但是該算法產生的是不可解釋的模型。隨后的幾年中,Nahla[8]和Chaves[9]等人提出基于支持向量機的規(guī)則提取算法,普遍基于黑盒模型,規(guī)則提取比較模糊。
正因為規(guī)則提取能提高行業(yè)工作效率、收益和成本、保持最高水平的護理[10],所以本研究應用數據挖掘技術提取胎心率規(guī)則并提高分類精度,能夠滿足醫(yī)院的短期目標和長遠需要。
2.1數據集
本研究所使用的數據集方法是從加州大學歐文分校(University of California Irvine,UCI)[11]上獲取,其中包括一些指示性的特征。三位產科醫(yī)生決定標記CTG數據為正常或病理狀態(tài)且給出了每個屬性的解釋。CTG數據有21個特征,8個是連續(xù)的,13個是離散的。每個樣本標記胎兒狀況正?;虍惓!?/p>
2.2C4.5決定樹分類器
C4.5是機器學習算法中的一個分類決策樹算法。C4.5利用“信息增益”得到一個新的測量稱為“增益比”。正是基于此,C4.5采用了信息增益率這樣一個概念。信息增益率使用“分裂信息”值將信息增益規(guī)范化。分類信息定義如下:
(1)
信息增益率定義:
(2)
選擇具有最大增益率的屬性作為分裂屬性。不過該分類器在構造樹的過程中,需要對數據集進行多次的順序掃描和排序,因而導致算法的低效。
2.3CART分類器
分類和回歸樹在20世紀80年代被提出,它的主要特征是屬性(節(jié)點)的分割,并在每個終端節(jié)點分配給類結果(或回歸的預測值)時做出決策。CART使用基尼指數選擇最好的分裂節(jié)點。每個子節(jié)點重復搜索過程,繼續(xù)遞歸,直到不可能進一步分裂或停止。在此過程中產生了大量的分支,而后,通過修剪分支產生最優(yōu)節(jié)點。
CART使用基尼索引來選擇具有最大值的屬性信息?;嶂笖倒剑?/p>
(3)
2.4隨機森林分類器
隨機森林分類器是利用多棵樹對樣本進行訓練并預測的一種分類器。簡單來說,隨機森林是由多棵CART樹構成的。對于每棵樹,它們使用的訓練集是從總的訓練集中有放回采樣出來的,這意味著,總的訓練集中的有些樣本可能多次出現在一棵樹的訓練集中,也可能從未出現在一棵樹的訓練集中。在訓練每棵樹的節(jié)點時,使用的特征是從所有特征中按照一定比例隨機地無放回地抽取的。
決策樹中分裂屬性的兩個選擇度量:
(1)信息增益
如果選取的屬性為A,那么分裂后的數據集D的基尼指數的計算公式為:
(4)
對于特征選取,需要選擇最小的分裂后的基尼指數。也可以用基尼指數增益值作為決策樹選擇特征的依據。選擇具有最大信息增益的屬性為分裂屬性。
(2)基尼指數
分裂后的數據集D的基尼指數的計算公式為:
(5)
分裂屬性選擇規(guī)則:選擇具有最小基尼值的屬性為分裂屬性,在構造過程中,該算法會遍歷所有可能的分割方法。不需要對決策樹生成過程進行剪枝。
3.1測量性能標準
真負類率(True Negatives,TN)、假負類率(False Negatives,FN)、真正類率(True Positives,TP)和假正類率(False
表1 分類器測量值
Positives,FP)是用來分類性能計算的。敏感性和特異性均為統(tǒng)計學檢驗測試樣本的度量。
在表1中,應用測量給出了它們的數學表達式。
3.2實驗結果
(1)精度對比
將所有CTG數據分為兩部分,一部分用于訓練,其余部分用作試驗組。該過程調用了10-fold交叉驗證[12],避免選擇特殊的數據用于訓練和測試。精度如表2所示。
表2 樣本分類精度的對比 (%)
(2)CTG數據集規(guī)則提取結果
字符為數據集的特征屬性,三類算法規(guī)則提取流程如圖1~圖3所示。英文字符為胎兒心率數據的特征屬性。冒號后的數值用數字2代表胎心率狀態(tài)糟糕,用數字1代表胎心率狀態(tài)正常。
3.3結果討論
實驗表明,隨機森林的分類精度最高達到99.40%。同時,隨機森林產生的規(guī)則更加精簡,對于醫(yī)生的決策幫助更有益。
圖1 C4.5算法在CTG數據集上提取規(guī)則
圖2 CART算法在CTG數據集上提取規(guī)則
圖3 RF算法在CTG數據集上提取規(guī)則
胎心監(jiān)護記錄廣泛用于檢測胎兒健康狀態(tài),將其應用在機器學習上,可以依據分析結果采取必要的行動。未來工作將主要進行選取精準的規(guī)則算法研究。
[1] 王乃平. 胎心監(jiān)護儀的產前應用[J]. 河北聯合大學學報(醫(yī)學版), 2009,11(2):188-189.
[2] MARSDEN C A, JR O J B, GULDBERG H C. An analysis on performance of decision tree algorithms using student’s qualitative data[J]. International Journal of Modern Education & Computer Science, 2013,5(5):18-27.
[3] SHARMA S, AGRAWAL J, SHARMA S. Classification through machine learning technique: C4.5 algorithm based on various entropies[J]. International Journal of Computer Applications, 2014,82(16):28-32.
[4] CERVONE G, FRANZESE P, EZBER Y, et al. Risk assessment of atmospheric emissions using machine learning[J]. Natural Hazards & Earth System Sciences,2008,8(5):991-1000.
[5] CHAUHAN H, CHAUHAN A. Implementation of decision tree algorithm C4.5[J]. American Journal of Sports Medicine, 2013,39(12):2611-2618.
[6] HALL M, FRANK E, HOLMES G, et al. The WEKA data mining software: an update[J]. Acm Sigkdd Explorations Newsletter, 2009,11(1):10-18.
[7] GALLANT S I. Connectionist expert systems[J]. Communications of the Acm, 1988,31(2):152-169.
[8] BARAKAT N H, BRADLEY A P. Rule extraction from support vector machines: a sequential covering approach[J]. IEEE Transactions on Knowledge & Data Engineering, 2007,19(6):729-741.
[9] CHAVES A D C F, VELLASCO M M B R, TANSCHEIT R. Fuzzy rule extraction from support vector machines[C]. International Conference on Hybrid Intelligent Systems, IEEE,2005.
[10] SILVER M, SAKATA T, SU H C, et al. Case study: how to apply data mining techniques in a healthcare data warehouse[J]. Journal of Healthcare Information Management Jhim, 2001,15(2):155-164.
[11] BACHE K,LICHMAN M.UCI Machine Learning Repository[EB/OL]. http://archive.ics.uci.edu/Irvine,CA:University of California, School of Information and Computer Science. 2013.
[12] 鄧蕊,馬永軍,劉堯猛.基于改進交叉驗證算法的支持向量機多類識別[J].天津科技大學學報,2007,22(2):58-61.
Study on rule prediction of data mining in fetal heart rate
Chen Song, Huang Liqin
(College of Physics and Information Engineering, Fuzhou University, Fuzhou 350108, China)
Fetal heart rate is an important way to monitor fetal health. At present, the monitoring of fetal heart rate is an important and complex task, and correct automatic classification and rule extraction are necessary. Medical diagnostic automation systems will strengthen health care, but also reduce costs. In this study, we designed an effective rule to predict the risk level of fetus. Then, we used C4.5, Classification and Regression Tree(CART), random forest classifier to evaluate the system. The performance of the system is evaluated by the classification accuracy, which produces the number of rules. The experimental results show that the system based on the random forest classifier has high accuracy(99.40%)in predicting the health status of the fetus, while the number of rules produced is simplified and can be used for decision making.
random forest; fetal heart rate(FHR); rule extraction; C4.5; CART
TP301.6;Q-332
A
10.19358/j.issn.1674- 7720.2017.19.005
陳宋,黃立勤.數據挖掘在胎兒心率上的規(guī)則預測研究[J].微型機與應用,2017,36(19):16-18.
國家自然科學基金重點項目資助(61471124)
2017-04-01)
陳宋(1989-),男,碩士研究生,主要研究方向:人工智能與機器學習。黃立勤(1973-),通信作者,男,博士,教授,主要研究方向: 高性能計算、人工智能與機器學習、醫(yī)學圖像處理等。E-mail:lqhuangfzu@163.com。