亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于均衡分類的腦卒中風(fēng)險預(yù)測模型

2015-12-20 06:56:32曹艷，殷旭

計算機工程與設(shè)計 2015年9期

曹艷，殷旭

（北京信息科技大學(xué) 計算機學(xué)院，北京100085）

0 引言

隨著醫(yī)療信息量的增長，數(shù)據(jù)挖掘技術(shù)在醫(yī)療領(lǐng)域得到廣泛應(yīng)用。決策樹C4.5算法因其具有直觀、高效和結(jié)果易于理解的特點備受關(guān)注。Jinn－Yi Yeh等［1］使用C4.5 算法得到透析病人是否需要住院治療和相關(guān)癥狀的關(guān)系，以合理安排住院和治療方案；Zerina Maetic等［2］綜合使用自回歸（AR）特征提取模塊和C4.5算法檢測分離正常和充血性心臟衰竭，分類準確率高達99.77。在對乳腺癌數(shù)據(jù)分類中，C4.5算法可以較好的控制決策樹的規(guī)模，規(guī)則的可理解性較高［3］。Ture、Tokatli等［4］在對乳腺癌患者的無復(fù)發(fā)生存期預(yù)測實驗中發(fā)現(xiàn)C4.5在準確度和樹結(jié)構(gòu)方面優(yōu)于CART、CHAID、QUEST 和ID3 算法。上述研究中C4.5都取得了較好效果，但都建立在均衡數(shù)據(jù)基礎(chǔ)之上，為了提高整體分類精確度，可能將某些少數(shù)類數(shù)據(jù)作為可允許誤差進行錯誤分類。不均衡數(shù)據(jù)處理主要是對數(shù)據(jù)集進行重構(gòu)，數(shù)據(jù)重構(gòu)通常采用欠采樣技術(shù)、過采樣技術(shù)和Chawla等提出的SMOTE （synthetic minority oversampling technique）算法［5］。文獻［6－11］分別是近年針對不均衡數(shù)據(jù)提出的處理方法。SMOTE 算法與主動學(xué)習(xí)算法［6］集成使用，在一定程度上避免數(shù)據(jù)不均衡帶來的分類偏倚問題；許丹丹等從數(shù)據(jù)水平的過抽樣角度出發(fā)，提出SMOTE 的改進算法ISMOTE算法，更好地提高了不均衡數(shù)據(jù)的分類性能［7］；用陰性免疫算法實現(xiàn)少數(shù)類樣本空間覆蓋，可以避免SMOTE生成的新樣本空間代表性不足的問題［8］；在SVM 分類偏倚問題研究中，集成使用代價敏感學(xué)習(xí)、欠采樣和過采樣技術(shù) 效果明顯［9］；Wang 等［10］結(jié) 合SMOTE、PSO （particle swarm optimization）和C5.0 算法對不均衡的乳腺癌數(shù)據(jù)分類，發(fā)現(xiàn)經(jīng)SMOTE 處理后分類效果明顯提高；孫濤等醫(yī)學(xué)專家也發(fā)現(xiàn)SMOTE 算法可以對臨床的不均衡數(shù)據(jù)進行有效糾偏［11］。上述方法主要是針對少數(shù)類數(shù)據(jù)進行的，忽略了多數(shù)類數(shù)據(jù)處理，當(dāng)兩類數(shù)據(jù)數(shù)量相差較大，一味增加少數(shù)類數(shù)據(jù)會造成少數(shù)類分類過度擬合，生成虛假關(guān)系。

1 SMOTE算法介紹

SMOTE算法［5］是2002年由Chawla等提出的一種針對不均衡數(shù)據(jù)集的智能型過抽樣技術(shù)，可以有效改善傳統(tǒng)過抽樣技術(shù)帶來的分類過度擬合現(xiàn)象，解決分類結(jié)果偏倚問題。

定義1 設(shè)樣本集合為T，x為集合中的單個樣本，k為搜索的少數(shù)類最鄰近樣本的數(shù)量，向上采樣的倍率為N（N 為可被100整除的數(shù)），在k個少數(shù)類最鄰近樣本中隨機選取N／100個樣本，m1，m2，…，mn，在x與m1（j＝1，2，…，n）之間隨機線性插入0到1之間的數(shù)，形成新的少數(shù)類樣本qj

SMOTE算法的核心思想是首先尋找每個少數(shù)類樣本的k個最鄰近樣本，然后選取其中N／100個，分和少數(shù)類樣本兩兩組合，最后在兩個樣本間進行隨機線性插值，構(gòu)造新的少數(shù)類樣本。

算法的具體是實現(xiàn)過程是：

輸入：訓(xùn)練樣本集T，最鄰近樣本數(shù)量k，向上采樣倍率N

輸出：少數(shù)類空間擴大的訓(xùn)練樣本集T1

（1）判斷N 是否小于100，如果是，則直接對樣本進行隨機采樣；否則計算樣本中各決策屬性中樣本的數(shù)量，確定少數(shù)類和多數(shù)類；

（2）根據(jù)k、N 的值和式（1）合成新的少數(shù)類數(shù)據(jù)；

（3）將新生成的少數(shù)類樣本加入原數(shù)據(jù)集中，生成新數(shù)據(jù)，算法結(jié)束。

實驗中，在此過程之前，首先應(yīng)使用隨機抽樣算法抽取訓(xùn)練集中所有的樣本，即對數(shù)據(jù)進行隨機排序，避免數(shù)據(jù)預(yù)處理時排序篩選等操作影響最鄰近樣本分布的隨機性。這樣，既可增大少數(shù)類數(shù)據(jù)的規(guī)模，又可以避免傳統(tǒng)過抽樣中完全復(fù)制少數(shù)類樣本帶來的過度擬合問題。

2 基于PAM 的K－means算法PAM－means算法介紹

2.1 K－means算法

K－means算法是MacQueen在1967年提出的基于距離的聚類算法，該算法因效率較高得到廣泛應(yīng)用。算法的基本思想是：首先選定聚類數(shù)量K 和K 個初始聚類中心Zj，依據(jù)距離最小原則將樣本nj分配到距離聚類中心最近的類中，分配完后，計算每個類的均值作為新的聚類中心，循環(huán)樣本分配過程，直到聚類收斂為止。聚類的目標函數(shù)如下

其中，函數(shù)d（xj，zj）為歐幾里得距離函數(shù)，如下

2.2 PAM 算法

PAM （portioning around medoid），是一種圍繞中心的劃分，試圖對N 個對象進行K 個劃分。該算法首先為每個類選取一個初始中心點數(shù)據(jù)，剩余的數(shù)據(jù)依據(jù)到與中心點的距離或相異度分配給相近的中心點所在的類；然后反復(fù)地用非代表數(shù)據(jù)替換代表數(shù)據(jù)，并使用代價函數(shù)進行評估聚類質(zhì)量，選取當(dāng)前代表數(shù)據(jù)最好的代替，提高聚類質(zhì)量，得到正確的劃分。

2.3 PAM－means算法

K－means算法聚類效果相對較好，較為準確，但對孤立點和噪聲較為敏感，且需人為指定K 值。而PAM 算法不需要指定聚類數(shù)目K，對孤立點和噪聲不敏感，且能處理不同類型的數(shù)據(jù)，但聚類效果相對K－means較差。

為了使聚類效果較好，本文采用PAM－means算法，首先使用PAM 算法得到聚類數(shù)量K，然后使用K－means算法對多數(shù)類數(shù)據(jù)進行聚類，將相似度較高的數(shù)據(jù)聚到一簇，相似度較低的數(shù)據(jù)分開。這樣，對聚類后每個簇進行抽樣所得的數(shù)據(jù)特點基本可代表整個多數(shù)類數(shù)據(jù)的特點，從而避免傳統(tǒng)欠抽樣造成的信息嚴重丟失問題。

算法的基本流程如下：

（1）PAM 算法聚類，得到K 值；

（2）任意選取K 個數(shù)據(jù)對象作為初始聚類中心；

（3）計算樣本中所有數(shù)據(jù)到聚類中心的距離，如式（3）所示，選擇距離最小的數(shù)據(jù)對象，并將該數(shù)據(jù)對象劃分到該聚類中心所在的簇；

（4）計算每個簇中數(shù)據(jù)對象的均值，作為新的聚類中心；

（5）循環(huán)步驟（3）和步驟（4），直到聚類中心不再改變；

（6）算法結(jié)束。

3 決策樹C4.5算法

決策樹C4.5算法是JR Quinlan于1993在算法ID3的基礎(chǔ)上提出的，相對于ID3算法，C4.5具有更高的分類精確度，并且可以處理連續(xù)屬性。C4.5算法用信息增益率來選擇決策屬性，對于連續(xù)屬性要首先進行離散化，離散化的依據(jù)是將連續(xù)屬性排序后，從中間開始選取可能分裂點，計算各可能分裂點的信息增益率，將信息增益率最大的點作為分裂點。因此在C4.5算法中對于連續(xù)屬性的分裂是二元分裂。

C4.5算法利用信息熵原理，以信息增益率作為分類屬性的選擇標準，克服了信息增益選擇屬性時偏向選擇取值多的屬性的不足，遞歸的構(gòu)造決策樹［12］。本文在構(gòu)造樹的過程中使用十折交叉驗證和測試集驗證對分類樹進行剪枝，不斷的訓(xùn)練樹的結(jié)構(gòu)，以達到最簡最可靠有效的分類結(jié)果。

算法的具體實現(xiàn)過程是：

輸入：訓(xùn)練集T，決策屬性C

輸出：決策樹

（1）以T 為根節(jié)點構(gòu)造分類樹；

（2）判斷T 的樣本的決策屬性是否相同，如果相同，那么當(dāng)前節(jié)點即為葉節(jié)點，算法結(jié)束；否則，計算k個決策類的總信息量；

（3）判斷條件屬性是連續(xù)屬性還是離散屬性，如果是連續(xù)屬性，根據(jù)連續(xù)屬性的可能分裂點的信息增益率對該屬性進行離散化；

（4）分別計算條件屬性基于決策屬性的條件信息量和分裂信息；

（5）計算各條件屬性的信息增益率，并選擇最大的為分裂屬性，同時將該屬性對應(yīng)的樣本作為子分類樣本集；

（6）針對選中的分裂屬性，根據(jù)分裂信息構(gòu)建對應(yīng)的節(jié)點，并將對應(yīng)的樣本劃分到該節(jié)點下；

（7）重復(fù)步驟（2）到步驟（6），對個訓(xùn)練樣本子集進行劃分，生成新的決策分支，直到?jīng)]有可以再分的屬性，算法停止。

C4.5算法雖然可以比較準確有效的對連續(xù)和離散數(shù)據(jù)進行分類，但是沒有針對數(shù)據(jù)本身分布不均的特點進行處理，尤其是在遇到普遍存在不均衡性的醫(yī)學(xué)數(shù)據(jù)時，C4.5算法為了保證整體分類精確度，很容易產(chǎn)生不可預(yù)知的偏倚性，將少數(shù)類數(shù)據(jù)誤分到多數(shù)類中，隱藏少數(shù)類數(shù)據(jù)的信息，造成靈敏度較高，特異度較低的結(jié)果。因此合理的對不均衡數(shù)據(jù)進行均衡處理至關(guān)重要。

4 實驗及結(jié)果分析

本文以腦卒中高危因素篩查和防治項目的調(diào)查問卷數(shù)據(jù)為樣本數(shù)據(jù)，分析與腦卒中相關(guān)的因素之間的關(guān)系，并預(yù)測患腦卒中的風(fēng)險，為有效干預(yù)腦卒中預(yù)防提供支持。

4.1 評價標準

提高少數(shù)類的分類性能是不均衡數(shù)據(jù)分類問題的研究重點，表1是3類數(shù)據(jù)集的混淆矩陣，這3類數(shù)據(jù)的標號分別為A、B和C，以A 類為例，TA 為A 類正確分類的樣本數(shù)量，F(xiàn)AB表示A 類樣本誤分到B類的樣本數(shù)量，F(xiàn)AC表示A 類樣本誤分到C類的樣本數(shù)量。

表1 3類數(shù)據(jù)集的混淆矩陣

分類模型中常用的評價標準為精確度Accuracy，體現(xiàn)分類的整體性能，但不能合理準確的評價不均衡數(shù)據(jù)集的分類性能。對于不均衡數(shù)據(jù)分類評價標準常用F－measure，是查全率Recall和查準率Precision的組合，β通常為1。只有少數(shù)類的查全率和查準率都大時，少數(shù)類的F－measure才會大，因此他能正確的反應(yīng)少數(shù)類的分類性能。式（5）、式（6）和式（7）分別是類A 的F－measure（A）、查準率Precision （A）和查全率Recall（A），分類的總體Recall在3類數(shù)據(jù)集分類中為每類查全率的加權(quán)均值，權(quán)重為各類樣本所占比例，整體Precision和F－measure同Recall。

4.2 數(shù)據(jù)預(yù)處理

原始數(shù)據(jù)集有冗余數(shù)據(jù)、缺失數(shù)據(jù)、不確定數(shù)據(jù)和不一致數(shù)據(jù)等，導(dǎo)致結(jié)果不準確、不全面，甚至得出錯誤的規(guī)則。所以首先對數(shù)據(jù)進行預(yù)處理，消除數(shù)據(jù)噪聲帶來的分類問題。

此次調(diào)查問卷得到的原數(shù)據(jù)共有524條記錄，100個數(shù)據(jù)項，其中除了與腦卒中相關(guān)的數(shù)據(jù)項，還有大量的與腦卒中無關(guān)的個人統(tǒng)計學(xué)信息和醫(yī)院信息，如姓名，民族，篩查日期等。

首先刪除如姓名、篩查日期等無關(guān)信息，去除數(shù)據(jù)項中只包含一兩條記錄的數(shù)據(jù)項。其次，整合數(shù)據(jù)，在醫(yī)生專家的指導(dǎo)下將某些數(shù)據(jù)項整合到一起形成新的數(shù)據(jù)項，如在判斷是否是家族遺傳腦卒中時，可以將父母、子女、兄弟姐妹中有得腦卒中的情況視為有家族遺傳腦卒中；將身高體重合并為身體質(zhì)量指數(shù) （BMI）作為衡量身體胖瘦程度的標準等。經(jīng)過這些處理，數(shù)據(jù)中包含15項數(shù)據(jù)項，179條數(shù)據(jù)。最后，統(tǒng)一數(shù)據(jù)格式，并用出現(xiàn)頻率最高的數(shù)據(jù)填充本數(shù)據(jù)項中個別的缺失值。最后生成的數(shù)據(jù)形式見表2。

表2 腦卒中數(shù)據(jù)

表2中與腦卒中相關(guān)的數(shù)據(jù)項包括決策屬性患腦卒中的風(fēng)險和條件屬性年齡、性別、身體質(zhì)量指數(shù) （BMI）、是否從事輕體勞動、體育鍛煉情況、是否有腦卒中史、是否有短暫性腦缺血發(fā)作史（TIA）、是否患有高血壓、是否有過房顫或瓣膜性心臟病（AF／AHD）、是否吸煙、是否飲酒、是否有血脂異常、是否有慢性病史、是否是家族遺傳腦卒中。數(shù)據(jù)中性別項F表示女性，M 表示男性；體育鍛煉情況1表示有規(guī)律性鍛煉，2表示有鍛煉但不規(guī)律，3表示無體育鍛煉；其它數(shù)據(jù)項中1表示是，2表示否；決策屬性有3個取值L、M、H，分別表示低危、中危和高危。

4.3 SMOTE＆PAM－means＋C4.5算法實現(xiàn)過程介紹

整個實驗過程如圖1所示，數(shù)據(jù)預(yù)處理后進行均衡判斷，首先統(tǒng)計每個類中記錄數(shù)，找出記錄數(shù)的最大值max和最小值min，然后對max和min做商，如果max／min＜3則判斷數(shù)據(jù)均衡，直接進入C4.5分類器進行分類；否則判斷該數(shù)據(jù)集存在不均衡性，需要先進行均衡處理，然后進入分類模塊。

（1）菌種活化分別取適量乳桿菌菌株凍干菌粉接種于10 mL滅苗MRS肉湯培養(yǎng)基中，旋渦混勻于37℃在恒溫培養(yǎng)箱中培養(yǎng)24 h得到一代菌懸液。按5%的接種量將一代菌懸液接種于MRS肉湯培養(yǎng)基中，37℃恒溫培養(yǎng)24 h得二代菌懸液。重復(fù)上述步驟37℃恒濕培養(yǎng)18 h，進行第三次活化得到三代活化菌懸液，4℃冰箱儲存?zhèn)溆谩?/p>

圖1 模型實現(xiàn)流程

均衡處理的工作流程如圖2所示，生成的是均衡處理后的均衡數(shù)據(jù)集。整個均衡處理過程包含兩個部分，一部分針對少數(shù)類數(shù)據(jù)，首先對整個數(shù)據(jù)集抽樣，抽樣方式為不可重復(fù)抽樣，數(shù)量為數(shù)據(jù)集數(shù)量，使各記錄隨機排序，然后使用SMOTE 生成新的少數(shù)類數(shù)據(jù)。排除預(yù)處理時篩選排序等操作對SMOTE 算法的影響，確保SMOTE 得到的數(shù)據(jù)是隨機綜合多數(shù)類數(shù)據(jù)和少數(shù)類數(shù)據(jù)得到的，避免SMOTE生成的數(shù)據(jù)僅來源于少數(shù)類數(shù)據(jù)而造成過度擬合問題。針對多數(shù)類數(shù)據(jù)，主要是進行欠抽樣，但考慮到欠抽樣帶來的信息丟失問題，首先對多數(shù)類數(shù)據(jù)做PAMmeans聚類，然后計算聚類結(jié)果中每簇中各個分類屬性的樣本數(shù)量，按比例進行抽樣，使最終得到的數(shù)據(jù)集中每類數(shù)據(jù)的數(shù)量相當(dāng)。

圖2 數(shù)據(jù)均衡處理流程

4.4 實驗結(jié)果及分析

原始C4.5算法分類結(jié)果的混淆矩陣如表3所示。表3顯示樣本總量為179，其中P＝L 的有104例，P＝H 的有66例，而P＝M 的只有9例，P＝M 相對P＝L和P＝H 類別屬于少數(shù)類。混淆矩陣顯示P＝M 類中只9例樣本，只有44.445% 正確分類，有33.333% 偏向p ＝L 類，22.222%偏向P＝H 類，即大部分少數(shù)類數(shù)據(jù)被誤分到其它類別。而P＝H 類別中，分類正確的占78.788%，分類偏向P＝M 類的7.576%，偏向P＝L類的13.636%。對于多數(shù)類P＝L，只有2例被誤分到了P＝H 類中?？v向看，P＝M 類9例中只有4例來自正確數(shù)據(jù)，其余都是P＝H 類錯誤分類的結(jié)果。綜上所述，少數(shù)類數(shù)據(jù)的分類性能極差，結(jié)果不能正確體現(xiàn)少數(shù)類數(shù)據(jù)的特點。因此，不均衡的腦卒中數(shù)據(jù)在C4.5算法分類中存在嚴重的分類偏倚問題，解決數(shù)據(jù)不均衡問題是改善分類性能的首要問題。

表3 C4.5算法分類混淆矩陣

為了解決分類偏倚問題，實驗中分別對原始數(shù)據(jù)做了不同的均衡處理，包括欠采樣、過采樣、SMOTE 和SMOTE＆PAM－means算法，然后用C4.5 算法進行分類，分類過程中采用十折交叉驗證對樹進行剪枝。均衡處理過程中，欠采樣以少數(shù)類樣本數(shù)量為標準分別對兩個多數(shù)類進行欠采樣，形成新的數(shù)據(jù)集。SMOTE 算法處理數(shù)據(jù)，形成的均衡數(shù)據(jù)集中P＝M 含有27例樣本。過采樣中少數(shù)類數(shù)據(jù)數(shù)量與SMOTE 處理結(jié)果中P＝M 類的樣本數(shù)量相同，同時從多數(shù)類數(shù)據(jù)中隨機取一半數(shù)據(jù)，以便與SMOTE和原始C4.5算法進行F－measure和驗證精確度的對比。由于均衡處理后進入分類器的數(shù)據(jù)為部分原始數(shù)據(jù)，所以使用整個原始數(shù)據(jù)集對生成的規(guī)則進行驗證，得到驗證精確度。

原始C4.5算法、欠采樣＋C4.5 算法、過采樣＋C4.5算法、SMOTE＋C4.5算法和最終改進的SMOTE＆PAMmeans＋C4.5算法分類結(jié)果對比見表4。

表4 各算法結(jié)果對比

表4中顯示均衡處理后，分類樹的結(jié)構(gòu)有不同程度的簡化，樹的節(jié)點和葉節(jié)點數(shù)都減少，過采樣簡化程度相對最小，SMOTE＆PAM－means＋C4.5 相對最大。從均衡角度分析，原始C4.5算法的F－measure（M）值僅0.394，而整體F－measure值為0.879，相對較大，說明少數(shù)類分類性能比較差，而多數(shù)類分類性能很好，再次說明原始C4.5算法的分類結(jié)果嚴重偏倚。均衡處理后，少數(shù)類的分類性能都有明顯提高，但整體F－measure 只有SMOTE＆PAMmeans＋C4.5算法有明顯改善，其它3 種都有不同程度的下降，說明只針對少數(shù)類數(shù)據(jù)進行的均衡會造成多數(shù)類數(shù)據(jù)信息嚴重丟失，影響整體的分類性能，使得均衡處理得不償失。而SMOTE＆PAM－means＋C4.5算法的分類精確度和驗證精確度也明顯提高。因此，SMOTE＆PAM－means＋C4.5算法同時對少數(shù)類和多數(shù)類數(shù)據(jù)進行處理，可有效增大少數(shù)類樣本空間的同時需減少多數(shù)類樣本信息損失量，改善不均衡數(shù)據(jù)分類偏倚問題，提高分類性能。

SMOTE＆PAM－means＋C4.5算法生成的樹結(jié)構(gòu)如圖3所示，對應(yīng)的規(guī)則如下：

規(guī)則2：如果慢性病史＝1∧腦卒中史＝2∧飲酒＝1，則風(fēng)險＝H；

規(guī)則3：如果慢性病史＝1∧腦卒中史＝2∧飲酒＝2∧年齡＞66，則風(fēng)險＝H；

規(guī)則4：如果慢性病史＝1∧腦卒中史＝2∧飲酒＝2∧年齡＜＝66，則風(fēng)險＝M；

規(guī)則5：如果慢性病史＝2∧腦卒中史＝1，則風(fēng)險＝H；

規(guī)則6：如果慢性病史＝2∧腦卒中史＝2∧血脂異常＝2，則風(fēng)險＝L；

規(guī)則7：如果慢性病史＝2∧腦卒中史＝2∧血脂異常＝1∧高血壓＝1，則風(fēng)險＝H；

規(guī)則8：如果慢性病史＝2∧腦卒中史＝2∧血脂異常＝1∧高血壓＝2，則風(fēng)險＝L。

圖3 SMOTE＆PAM－means＋C4.5算法生成的樹結(jié)構(gòu)

實驗結(jié)果顯示，在沒有慢性病史的情況下，腦卒中史或血脂異常、高血壓都會增大病人患腦卒中的概率，使病人處于高?；疾∪巳?。而在有慢性病史的情況下，腦卒中史仍是導(dǎo)致病人患腦卒中的關(guān)鍵因素；同時，對于沒有腦卒中史的人，飲酒和年齡大于66歲是兩個導(dǎo)致腦卒中發(fā)病的關(guān)鍵因素。因此，此預(yù)測模型有助于人們尤其是老年人及時了解自身健康情況，準確預(yù)測腦卒中發(fā)病風(fēng)險，并根據(jù)自身情況，尋求更適合自己遠離腦卒中的預(yù)防措施，最終達到有效干預(yù)腦卒中預(yù)防治療的效果。

5 結(jié)束語

基于均衡分類的腦卒中風(fēng)險預(yù)測模型中SMOTE＆PAM－means＋C4.5算法對少數(shù)類數(shù)據(jù)進行了處理，通過少數(shù)類數(shù)據(jù)和少數(shù)類最鄰近的樣本生成新的少數(shù)類數(shù)據(jù)，一定程度增大少數(shù)類數(shù)據(jù)規(guī)模。同時對多數(shù)類進行PAM－means聚類，然后按比例對每簇樣本進行隨機抽樣，達到少數(shù)類和多數(shù)類數(shù)據(jù)均衡的效果。通過實驗可知，均衡后有效解決了分類結(jié)果偏倚問題，并且分類精確度和樹的結(jié)構(gòu)也得到了改善。此模型生成了8條腦卒中風(fēng)險預(yù)測規(guī)則，為人們及時準確的預(yù)測腦卒中風(fēng)險提供依據(jù)。在以后的工作中我們將進一步研究如何更有效解決不均衡數(shù)據(jù)分類問題，提高最終準確度的分類，簡化樹的結(jié)構(gòu)，為疾病的有效預(yù)防治療等提供數(shù)據(jù)支持。

［1］Jinn－Yi Yeh，Tai－Hsi Wu，Chuan－Wei Tsao.Using data mining techniques to predict hospitalization of hemodialysis patients ［J］.Decision Support Systems，2011，50 （1）：439－448.

［2］Zerina Masˇetic，Abdulhamit Subasi.Detection of congestive heart failure using C4.5decision ［J］.Southeast Europe Journal of Soft Computing，2013，2 （2）：74－77.

［3］LI Zhi，LI Guolin.Comparative study of C4.5and CART algorithm in medical data mining ［J］.Electronic Technology ＆Software Engineering，2013，10 （3）：47－48 （in Chinese）.［李治，李國琳.C4.5 和CART 算法在醫(yī)學(xué)數(shù)據(jù)挖掘中的對比研究［J］.電子技術(shù)與軟件工程，2013，10 （3）：47－48.］

［4］MevlutTure，F(xiàn)usunTokatli，Imran Kurt.Using Kaplan－Meier analysis together with decision tree methods（CART，CHAID， QUEST，C4.5and ID3）indetermining recurrence－free survi－val of breast cancer patients ［J］.Expert Systems with Applications，2009，36 （2）：2017－2026.

［5］Chawla NV，Bowyer K，Hall L，et al.SMOTE：Synthetic minority over－sampling technique［J］.Journal of Artificial Intelligence Research，2002，16 （1）：321－357.

［6］ZHANG Yong，LI Zhuoran，LIU Xiaodan.Active learning SMOTE based imbalanced data classification ［J］.Computer Application and Software，2012，29 （3）：91－94 （in Chinese）.［張永，李卓然，劉曉丹.基于主動學(xué)習(xí)SMOTE 的非均衡數(shù) 據(jù) 分類［J］.計算機應(yīng) 用軟件，2012，29 （3）：91－94.］

［7］XU Dandan，WANG Yong，CAI Lijun.ISMOTE algorithm for imbalanced data set［J］.Journal of Computer Application，2011，30 （9）：2399－2401 （in Chinese）.［許丹丹，王勇，蔡立軍.面向不均衡數(shù)據(jù)集的ISMOTE 算法［J］.計算機應(yīng)用，2011，30 （9）：2399－2401.］

［8］TAO Xinmin，XU Jing，TONG Zhijing，et al.Over－sampling algorithm based on negative immune in imbalanced data sets learning ［J］.Control and Decision，2010，25 （6）：1－7（in Chinese）.［陶新民，徐晶，童志靖，等.不均衡數(shù)據(jù)下基于陰性免疫的過抽樣新算法［J］.控制與決策，2010，25 （6）：1－7.］

［9］Tang Y，Zhang YQ，Chawla NV，et a1.SVMs modeling for highly imbalanced classifications ［J］.IEEE Transaction on Systems，Man，and Cybernetics，Part B：Cybernetics，2009，39 （1）：281－288.

［10］Wang K J，Makond B，Chen KH，et al.A hybrid classifier combining SMOTE with PSO to estimate 5－year survivability of breast cancer patients ［J］.Applied Soft Computing，2014，20 （3）：15－24.

［11］SUN Tao，WU Haifeng，LIANG Zhigang，et al.SMOTE algorithm in the application of imbalanced data ［J］.Beijing Biomedical Engineering，2012，31 （5）：528－530 （in Chinese）.［孫濤，吳海豐，梁志剛，等.SMOTE算法在不平衡數(shù)據(jù)中的應(yīng)用［J］.北京生物醫(yī)學(xué)工程，2012，31 （5）：528－530.］

［12］Zhong L，Wang B，Wang Z，et al.Research and application of massive data processing technology ［C］／／8th International Conference on Computer Science ＆ Education.IEEE，2013：829－833.