曹 艷,殷 旭
(北京信息科技大學(xué) 計算機學(xué)院,北京100085)
隨著醫(yī)療信息量的增長,數(shù)據(jù)挖掘技術(shù)在醫(yī)療領(lǐng)域得到廣泛應(yīng)用。決策樹C4.5算法因其具有直觀、高效和結(jié)果易于理解的特點備受 關(guān)注。Jinn-Yi Yeh等[1]使 用C4.5 算法得到透析病人是否需要住院治療和相關(guān)癥狀的關(guān)系,以合理安排住院和治療方案;Zerina Maetic等[2]綜合使用自回歸 (AR)特征提取模塊和C4.5算法檢測分離正常和充血性心臟衰竭,分類準確率高達99.77。在對乳腺癌數(shù)據(jù)分類中,C4.5算法可以較好的控制決策樹的規(guī)模,規(guī)則的可理解性較高[3]。Ture、Tokatli等[4]在對乳腺癌患者的無復(fù)發(fā)生存期預(yù)測實驗中發(fā)現(xiàn)C4.5在準確度和樹結(jié)構(gòu)方面優(yōu)于CART、CHAID、QUEST 和ID3 算法。上述研究中C4.5都取得了較好效果,但都建立在均衡數(shù)據(jù)基礎(chǔ)之上,為了提高整體分類精確度,可能將某些少數(shù)類數(shù)據(jù)作為可允許誤差進行錯誤分類。不均衡數(shù)據(jù)處理主要是對數(shù)據(jù)集進行重構(gòu),數(shù)據(jù)重構(gòu)通常采用欠采樣技術(shù)、過采樣技術(shù)和Chawla等提出的SMOTE (synthetic minority oversampling technique)算法[5]。文獻 [6-11]分別是近年針對不均衡數(shù)據(jù)提出的處理方法。SMOTE 算法與主動學(xué)習(xí)算法[6]集成使用,在一定程度上避免數(shù)據(jù)不均衡帶來的分類偏倚問題;許丹丹等從數(shù)據(jù)水平的過抽樣角度出發(fā),提出SMOTE 的改進算法ISMOTE算法,更好地提高了不均衡數(shù)據(jù)的分類性能[7];用陰性免疫算法實現(xiàn)少數(shù)類樣本空間覆蓋,可以避免SMOTE生成的新樣本空間代表性不足的問題[8];在SVM 分類偏倚問題研究中,集成使用代價敏感學(xué)習(xí)、欠采樣和 過 采 樣 技 術(shù) 效 果 明 顯[9];Wang 等[10]結(jié) 合SMOTE、PSO (particle swarm optimization)和C5.0 算 法 對 不 均 衡的乳腺癌數(shù)據(jù)分類,發(fā)現(xiàn)經(jīng)SMOTE 處理后分類效果明顯提高;孫濤等醫(yī)學(xué)專家也發(fā)現(xiàn)SMOTE 算法可以對臨床的不均衡數(shù)據(jù)進行有效糾偏[11]。上述方法主要是針對少數(shù)類數(shù)據(jù)進行的,忽略了多數(shù)類數(shù)據(jù)處理,當(dāng)兩類數(shù)據(jù)數(shù)量相差較大,一味增加少數(shù)類數(shù)據(jù)會造成少數(shù)類分類過度擬合,生成虛假關(guān)系。
SMOTE算法[5]是2002年由Chawla等提出的一種針對不均衡數(shù)據(jù)集的智能型過抽樣技術(shù),可以有效改善傳統(tǒng)過抽樣技術(shù)帶來的分類過度擬合現(xiàn)象,解決分類結(jié)果偏倚問題。
定義1 設(shè)樣本集合為T,x為集合中的單個樣本,k為搜索的少數(shù)類最鄰近樣本的數(shù)量,向上采樣的倍率為N(N 為可被100整除的數(shù)),在k個少數(shù)類最鄰近樣本中隨機選取N/100個樣本,m1,m2,…,mn,在x與m1(j=1,2,…,n)之間隨機線性插入0到1之間的數(shù),形成新的少數(shù)類樣本qj
SMOTE算法的核心思想是首先尋找每個少數(shù)類樣本的k個最鄰近樣本,然后選取其中N/100個,分和少數(shù)類樣本兩兩組合,最后在兩個樣本間進行隨機線性插值,構(gòu)造新的少數(shù)類樣本。
算法的具體是實現(xiàn)過程是:
輸入:訓(xùn)練樣本集T,最鄰近樣本數(shù)量k,向上采樣倍率N
輸出:少數(shù)類空間擴大的訓(xùn)練樣本集T1
(1)判斷N 是否小于100,如果是,則直接對樣本進行隨機采樣;否則計算樣本中各決策屬性中樣本的數(shù)量,確定少數(shù)類和多數(shù)類;
(2)根據(jù)k、N 的值和式 (1)合成新的少數(shù)類數(shù)據(jù);
(3)將新生成的少數(shù)類樣本加入原數(shù)據(jù)集中,生成新數(shù)據(jù),算法結(jié)束。
實驗中,在此過程之前,首先應(yīng)使用隨機抽樣算法抽取訓(xùn)練集中所有的樣本,即對數(shù)據(jù)進行隨機排序,避免數(shù)據(jù)預(yù)處理時排序篩選等操作影響最鄰近樣本分布的隨機性。這樣,既可增大少數(shù)類數(shù)據(jù)的規(guī)模,又可以避免傳統(tǒng)過抽樣中完全復(fù)制少數(shù)類樣本帶來的過度擬合問題。
K-means算法是MacQueen在1967年提出的基于距離的聚類算法,該算法因效率較高得到廣泛應(yīng)用。算法的基本思想是:首先選定聚類數(shù)量K 和K 個初始聚類中心Zj,依據(jù)距離最小原則將樣本nj分配到距離聚類中心最近的類中,分配完后,計算每個類的均值作為新的聚類中心,循環(huán)樣本分配過程,直到聚類收斂為止。聚類的目標函數(shù)如下
其中,函數(shù)d(xj,zj)為歐幾里得距離函數(shù),如下
PAM (portioning around medoid),是一種圍繞中心的劃分,試圖對N 個對象進行K 個劃分。該算法首先為每個類選取一個初始中心點數(shù)據(jù),剩余的數(shù)據(jù)依據(jù)到與中心點的距離或相異度分配給相近的中心點所在的類;然后反復(fù)地用非代表數(shù)據(jù)替換代表數(shù)據(jù),并使用代價函數(shù)進行評估聚類質(zhì)量,選取當(dāng)前代表數(shù)據(jù)最好的代替,提高聚類質(zhì)量,得到正確的劃分。
K-means算法聚類效果相對較好,較為準確,但對孤立點和噪聲較為敏感,且需人為指定K 值。而PAM 算法不需要指定聚類數(shù)目K,對孤立點和噪聲不敏感,且能處理不同類型的數(shù)據(jù),但聚類效果相對K-means較差。
為了使聚類效果較好,本文采用PAM-means算法,首先使用PAM 算法得到聚類數(shù)量K,然后使用K-means算法對多數(shù)類數(shù)據(jù)進行聚類,將相似度較高的數(shù)據(jù)聚到一簇,相似度較低的數(shù)據(jù)分開。這樣,對聚類后每個簇進行抽樣所得的數(shù)據(jù)特點基本可代表整個多數(shù)類數(shù)據(jù)的特點,從而避免傳統(tǒng)欠抽樣造成的信息嚴重丟失問題。
算法的基本流程如下:
(1)PAM 算法聚類,得到K 值;
(2)任意選取K 個數(shù)據(jù)對象作為初始聚類中心;
(3)計算樣本中所有數(shù)據(jù)到聚類中心的距離,如式(3)所示,選擇距離最小的數(shù)據(jù)對象,并將該數(shù)據(jù)對象劃分到該聚類中心所在的簇;
(4)計算每個簇中數(shù)據(jù)對象的均值,作為新的聚類中心;
(5)循環(huán)步驟 (3)和步驟 (4),直到聚類中心不再改變;
(6)算法結(jié)束。
決策樹C4.5算法是JR Quinlan于1993在算法ID3的基礎(chǔ)上提出的,相對于ID3算法,C4.5具有更高的分類精確度,并且可以處理連續(xù)屬性。C4.5算法用信息增益率來選擇決策屬性,對于連續(xù)屬性要首先進行離散化,離散化的依據(jù)是將連續(xù)屬性排序后,從中間開始選取可能分裂點,計算各可能分裂點的信息增益率,將信息增益率最大的點作為分裂點。因此在C4.5算法中對于連續(xù)屬性的分裂是二元分裂。
C4.5算法利用信息熵原理,以信息增益率作為分類屬性的選擇標準,克服了信息增益選擇屬性時偏向選擇取值多的屬性的不足,遞歸的構(gòu)造決策樹[12]。本文在構(gòu)造樹的過程中使用十折交叉驗證和測試集驗證對分類樹進行剪枝,不斷的訓(xùn)練樹的結(jié)構(gòu),以達到最簡最可靠有效的分類結(jié)果。
算法的具體實現(xiàn)過程是:
輸入:訓(xùn)練集T,決策屬性C
輸出:決策樹
(1)以T 為根節(jié)點構(gòu)造分類樹;
(2)判斷T 的樣本的決策屬性是否相同,如果相同,那么當(dāng)前節(jié)點即為葉節(jié)點,算法結(jié)束;否則,計算k個決策類的總信息量;
(3)判斷條件屬性是連續(xù)屬性還是離散屬性,如果是連續(xù)屬性,根據(jù)連續(xù)屬性的可能分裂點的信息增益率對該屬性進行離散化;
(4)分別計算條件屬性基于決策屬性的條件信息量和分裂信息;
(5)計算各條件屬性的信息增益率,并選擇最大的為分裂屬性,同時將該屬性對應(yīng)的樣本作為子分類樣本集;
(6)針對選中的分裂屬性,根據(jù)分裂信息構(gòu)建對應(yīng)的節(jié)點,并將對應(yīng)的樣本劃分到該節(jié)點下;
(7)重復(fù)步驟 (2)到步驟 (6),對個訓(xùn)練樣本子集進行劃分,生成新的決策分支,直到?jīng)]有可以再分的屬性,算法停止。
C4.5算法雖然可以比較準確有效的對連續(xù)和離散數(shù)據(jù)進行分類,但是沒有針對數(shù)據(jù)本身分布不均的特點進行處理,尤其是在遇到普遍存在不均衡性的醫(yī)學(xué)數(shù)據(jù)時,C4.5算法為了保證整體分類精確度,很容易產(chǎn)生不可預(yù)知的偏倚性,將少數(shù)類數(shù)據(jù)誤分到多數(shù)類中,隱藏少數(shù)類數(shù)據(jù)的信息,造成靈敏度較高,特異度較低的結(jié)果。因此合理的對不均衡數(shù)據(jù)進行均衡處理至關(guān)重要。
本文以腦卒中高危因素篩查和防治項目的調(diào)查問卷數(shù)據(jù)為樣本數(shù)據(jù),分析與腦卒中相關(guān)的因素之間的關(guān)系,并預(yù)測患腦卒中的風(fēng)險,為有效干預(yù)腦卒中預(yù)防提供支持。
提高少數(shù)類的分類性能是不均衡數(shù)據(jù)分類問題的研究重點,表1是3類數(shù)據(jù)集的混淆矩陣,這3類數(shù)據(jù)的標號分別為A、B和C,以A 類為例,TA 為A 類正確分類的樣本數(shù)量,F(xiàn)AB表示A 類樣本誤分到B類的樣本數(shù)量,F(xiàn)AC表示A 類樣本誤分到C類的樣本數(shù)量。
表1 3類數(shù)據(jù)集的混淆矩陣
分類模型中常用的評價標準為精確度Accuracy,體現(xiàn)分類的整體性能,但不能合理準確的評價不均衡數(shù)據(jù)集的分類性能。對于不均衡數(shù)據(jù)分類評價標準常用F-measure,是查全率Recall和查準率Precision的組合,β通常為1。只有少數(shù)類的查全率和查準率都大時,少數(shù)類的F-measure才會大,因此他能正確的反應(yīng)少數(shù)類的分類性能。式 (5)、式 (6)和式 (7)分別是類A 的F-measure(A)、查準率Precision (A)和查全率Recall(A),分類的總體Recall在3類數(shù)據(jù)集分類中為每類查全率的加權(quán)均值,權(quán)重為各類樣本所占比例,整體Precision和F-measure同Recall。
原始數(shù)據(jù)集有冗余數(shù)據(jù)、缺失數(shù)據(jù)、不確定數(shù)據(jù)和不一致數(shù)據(jù)等,導(dǎo)致結(jié)果不準確、不全面,甚至得出錯誤的規(guī)則。所以首先對數(shù)據(jù)進行預(yù)處理,消除數(shù)據(jù)噪聲帶來的分類問題。
此次調(diào)查問卷得到的原數(shù)據(jù)共有524條記錄,100個數(shù)據(jù)項,其中除了與腦卒中相關(guān)的數(shù)據(jù)項,還有大量的與腦卒中無關(guān)的個人統(tǒng)計學(xué)信息和醫(yī)院信息,如姓名,民族,篩查日期等。
首先刪除如姓名、篩查日期等無關(guān)信息,去除數(shù)據(jù)項中只包含一兩條記錄的數(shù)據(jù)項。其次,整合數(shù)據(jù),在醫(yī)生專家的指導(dǎo)下將某些數(shù)據(jù)項整合到一起形成新的數(shù)據(jù)項,如在判斷是否是家族遺傳腦卒中時,可以將父母、子女、兄弟姐妹中有得腦卒中的情況視為有家族遺傳腦卒中;將身高體重合并為身體質(zhì)量指數(shù) (BMI)作為衡量身體胖瘦程度的標準等。經(jīng)過這些處理,數(shù)據(jù)中包含15項數(shù)據(jù)項,179條數(shù)據(jù)。最后,統(tǒng)一數(shù)據(jù)格式,并用出現(xiàn)頻率最高的數(shù)據(jù)填充本數(shù)據(jù)項中個別的缺失值。最后生成的數(shù)據(jù)形式見表2。
表2 腦卒中數(shù)據(jù)
表2中與腦卒中相關(guān)的數(shù)據(jù)項包括決策屬性患腦卒中的風(fēng)險和條件屬性年齡、性別、身體質(zhì)量指數(shù) (BMI)、是否從事輕體勞動、體育鍛煉情況、是否有腦卒中史、是否有短暫性腦缺血發(fā)作史 (TIA)、是否患有高血壓、是否有過房顫或瓣膜性心臟病 (AF/AHD)、是否吸煙、是否飲酒、是否有血脂異常、是否有慢性病史、是否是家族遺傳腦卒中。數(shù)據(jù)中性別項F表示女性,M 表示男性;體育鍛煉情況1表示有規(guī)律性鍛煉,2表示有鍛煉但不規(guī)律,3表示無體育鍛煉;其它數(shù)據(jù)項中1表示是,2表示否;決策屬性有3個取值L、M、H,分別表示低危、中危和高危。
整個實驗過程如圖1所示,數(shù)據(jù)預(yù)處理后進行均衡判斷,首先統(tǒng)計每個類中記錄數(shù),找出記錄數(shù)的最大值max和最小值min,然后對max和min做商,如果max/min<3則判斷數(shù)據(jù)均衡,直接進入C4.5分類器進行分類;否則判斷該數(shù)據(jù)集存在不均衡性,需要先進行均衡處理,然后進入分類模塊。
(1)菌種活化分別取適量乳桿菌菌株凍干菌粉接種于10 mL滅苗MRS肉湯培養(yǎng)基中,旋渦混勻于37℃在恒溫培養(yǎng)箱中培養(yǎng)24 h得到一代菌懸液。按5%的接種量將一代菌懸液接種于MRS肉湯培養(yǎng)基中,37℃恒溫培養(yǎng)24 h得二代菌懸液。重復(fù)上述步驟37℃恒濕培養(yǎng)18 h,進行第三次活化得到三代活化菌懸液,4℃冰箱儲存?zhèn)溆谩?/p>
圖1 模型實現(xiàn)流程
均衡處理的工作流程如圖2所示,生成的是均衡處理后的均衡數(shù)據(jù)集。整個均衡處理過程包含兩個部分,一部分針對少數(shù)類數(shù)據(jù),首先對整個數(shù)據(jù)集抽樣,抽樣方式為不可重復(fù)抽樣,數(shù)量為數(shù)據(jù)集數(shù)量,使各記錄隨機排序,然后使用SMOTE 生成新的少數(shù)類數(shù)據(jù)。排除預(yù)處理時篩選排序等操作對SMOTE 算法的影響,確保SMOTE 得到的數(shù)據(jù)是隨機綜合多數(shù)類數(shù)據(jù)和少數(shù)類數(shù)據(jù)得到的,避免SMOTE生成的數(shù)據(jù)僅來源于少數(shù)類數(shù)據(jù)而造成過度擬合問題。針對多數(shù)類數(shù)據(jù),主要是進行欠抽樣,但考慮到欠抽樣帶來的信息丟失問題,首先對多數(shù)類數(shù)據(jù)做PAMmeans聚類,然后計算聚類結(jié)果中每簇中各個分類屬性的樣本數(shù)量,按比例進行抽樣,使最終得到的數(shù)據(jù)集中每類數(shù)據(jù)的數(shù)量相當(dāng)。
圖2 數(shù)據(jù)均衡處理流程
原始C4.5算法分類結(jié)果的混淆矩陣如表3所示。表3顯示樣本總量為179,其中P=L 的有104例,P=H 的有66例,而P=M 的只有9例,P=M 相對P=L和P=H 類別屬于少數(shù)類。混淆矩陣顯示P=M 類中只9例樣本,只有44.445% 正 確 分 類,有33.333% 偏 向p =L 類,22.222%偏向P=H 類,即大部分少數(shù)類數(shù)據(jù)被誤分到其它類別。而P=H 類別中,分類正確的占78.788%,分類偏向P=M 類的7.576%,偏向P=L類的13.636%。對于多數(shù)類P=L,只有2例被誤分到了P=H 類中??v向看,P=M 類9例中只有4例來自正確數(shù)據(jù),其余都是P=H 類錯誤分類的結(jié)果。綜上所述,少數(shù)類數(shù)據(jù)的分類性能極差,結(jié)果不能正確體現(xiàn)少數(shù)類數(shù)據(jù)的特點。因此,不均衡的腦卒中數(shù)據(jù)在C4.5算法分類中存在嚴重的分類偏倚問題,解決數(shù)據(jù)不均衡問題是改善分類性能的首要問題。
表3 C4.5算法分類混淆矩陣
為了解決分類偏倚問題,實驗中分別對原始數(shù)據(jù)做了不同的均衡處理,包括欠采樣、過采樣、SMOTE 和SMOTE&PAM-means算法,然后用C4.5 算法進行分類,分類過程中采用十折交叉驗證對樹進行剪枝。均衡處理過程中,欠采樣以少數(shù)類樣本數(shù)量為標準分別對兩個多數(shù)類進行欠采樣,形成新的數(shù)據(jù)集。SMOTE 算法處理數(shù)據(jù),形成的均衡數(shù)據(jù)集中P=M 含有27例樣本。過采樣中少數(shù)類數(shù)據(jù)數(shù)量與SMOTE 處理結(jié)果中P=M 類的樣本數(shù)量相同,同時從多數(shù)類數(shù)據(jù)中隨機取一半數(shù)據(jù),以便與SMOTE和原始C4.5算法進行F-measure和驗證精確度的對比。由于均衡處理后進入分類器的數(shù)據(jù)為部分原始數(shù)據(jù),所以使用整個原始數(shù)據(jù)集對生成的規(guī)則進行驗證,得到驗證精確度。
原始C4.5算法、欠采樣+C4.5 算法、過采樣+C4.5算法、SMOTE+C4.5算法和最終改進的SMOTE&PAMmeans+C4.5算法分類結(jié)果對比見表4。
表4 各算法結(jié)果對比
表4中顯示均衡處理后,分類樹的結(jié)構(gòu)有不同程度的簡化,樹的節(jié)點和葉節(jié)點數(shù)都減少,過采樣簡化程度相對最小,SMOTE&PAM-means+C4.5 相對最大。從均衡角度分析,原始C4.5算法的F-measure(M)值僅0.394,而整體F-measure值為0.879,相對較大,說明少數(shù)類分類性能比較差,而多數(shù)類分類性能很好,再次說明原始C4.5算法的分類結(jié)果嚴重偏倚。均衡處理后,少數(shù)類的分類性能都有明顯提高,但整體F-measure 只有SMOTE&PAMmeans+C4.5算法有明顯改善,其它3 種都有不同程度的下降,說明只針對少數(shù)類數(shù)據(jù)進行的均衡會造成多數(shù)類數(shù)據(jù)信息嚴重丟失,影響整體的分類性能,使得均衡處理得不償失。而SMOTE&PAM-means+C4.5算法的分類精確度和驗證精確度也明顯提高。因此,SMOTE&PAM-means+C4.5算法同時對少數(shù)類和多數(shù)類數(shù)據(jù)進行處理,可有效增大少數(shù)類樣本空間的同時需減少多數(shù)類樣本信息損失量,改善不均衡數(shù)據(jù)分類偏倚問題,提高分類性能。
SMOTE&PAM-means+C4.5算法生成的樹結(jié)構(gòu)如圖3所示,對應(yīng)的規(guī)則如下:
規(guī)則2:如果慢性病史=1∧腦卒中史=2∧飲酒=1,則風(fēng)險=H;
規(guī)則3:如果慢性病史=1∧腦卒中史=2∧飲酒=2∧年齡>66,則風(fēng)險=H;
規(guī)則4:如果慢性病史=1∧腦卒中史=2∧飲酒=2∧年齡<=66,則風(fēng)險=M;
規(guī)則5:如果慢性病史=2∧腦卒中史=1,則風(fēng)險=H;
規(guī)則6:如果慢性病史=2∧腦卒中史=2∧血脂異常=2,則風(fēng)險=L;
規(guī)則7:如果慢性病史=2∧腦卒中史=2∧血脂異常=1∧高血壓=1,則風(fēng)險=H;
規(guī)則8:如果慢性病史=2∧腦卒中史=2∧血脂異常=1∧高血壓=2,則風(fēng)險=L。
圖3 SMOTE&PAM-means+C4.5算法生成的樹結(jié)構(gòu)
實驗結(jié)果顯示,在沒有慢性病史的情況下,腦卒中史或血脂異常、高血壓都會增大病人患腦卒中的概率,使病人處于高?;疾∪巳?。而在有慢性病史的情況下,腦卒中史仍是導(dǎo)致病人患腦卒中的關(guān)鍵因素;同時,對于沒有腦卒中史的人,飲酒和年齡大于66歲是兩個導(dǎo)致腦卒中發(fā)病的關(guān)鍵因素。因此,此預(yù)測模型有助于人們尤其是老年人及時了解自身健康情況,準確預(yù)測腦卒中發(fā)病風(fēng)險,并根據(jù)自身情況,尋求更適合自己遠離腦卒中的預(yù)防措施,最終達到有效干預(yù)腦卒中預(yù)防治療的效果。
基于均衡分類的腦卒中風(fēng)險預(yù)測模型中SMOTE&PAM-means+C4.5算法對少數(shù)類數(shù)據(jù)進行了處理,通過少數(shù)類數(shù)據(jù)和少數(shù)類最鄰近的樣本生成新的少數(shù)類數(shù)據(jù),一定程度增大少數(shù)類數(shù)據(jù)規(guī)模。同時對多數(shù)類進行PAM-means聚類,然后按比例對每簇樣本進行隨機抽樣,達到少數(shù)類和多數(shù)類數(shù)據(jù)均衡的效果。通過實驗可知,均衡后有效解決了分類結(jié)果偏倚問題,并且分類精確度和樹的結(jié)構(gòu)也得到了改善。此模型生成了8條腦卒中風(fēng)險預(yù)測規(guī)則,為人們及時準確的預(yù)測腦卒中風(fēng)險提供依據(jù)。在以后的工作中我們將進一步研究如何更有效解決不均衡數(shù)據(jù)分類問題,提高最終準確度的分類,簡化樹的結(jié)構(gòu),為疾病的有效預(yù)防治療等提供數(shù)據(jù)支持。
[1]Jinn-Yi Yeh,Tai-Hsi Wu,Chuan-Wei Tsao.Using data mining techniques to predict hospitalization of hemodialysis patients [J].Decision Support Systems,2011,50 (1):439-448.
[2]Zerina Masˇetic,Abdulhamit Subasi.Detection of congestive heart failure using C4.5decision [J].Southeast Europe Journal of Soft Computing,2013,2 (2):74-77.
[3]LI Zhi,LI Guolin.Comparative study of C4.5and CART algorithm in medical data mining [J].Electronic Technology &Software Engineering,2013,10 (3):47-48 (in Chinese).[李治,李國琳.C4.5 和CART 算法在醫(yī)學(xué)數(shù)據(jù)挖掘中的對比研究 [J].電子技術(shù)與軟件工程,2013,10 (3):47-48.]
[4]MevlutTure,F(xiàn)usunTokatli,Imran Kurt.Using Kaplan-Meier analysis together with decision tree methods(CART,CHAID, QUEST,C4.5and ID3)indetermining recurrence-free survi-val of breast cancer patients [J].Expert Systems with Applications,2009,36 (2):2017-2026.
[5]Chawla NV,Bowyer K,Hall L,et al.SMOTE:Synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16 (1):321-357.
[6]ZHANG Yong,LI Zhuoran,LIU Xiaodan.Active learning SMOTE based imbalanced data classification [J].Computer Application and Software,2012,29 (3):91-94 (in Chinese).[張永,李卓然,劉曉丹.基于主動學(xué)習(xí)SMOTE 的非均衡 數(shù) 據(jù) 分 類 [J].計 算 機 應(yīng) 用 軟 件,2012,29 (3):91-94.]
[7]XU Dandan,WANG Yong,CAI Lijun.ISMOTE algorithm for imbalanced data set[J].Journal of Computer Application,2011,30 (9):2399-2401 (in Chinese).[許丹丹,王勇,蔡立軍.面向不均衡數(shù)據(jù)集的ISMOTE 算法 [J].計算機應(yīng)用,2011,30 (9):2399-2401.]
[8]TAO Xinmin,XU Jing,TONG Zhijing,et al.Over-sampling algorithm based on negative immune in imbalanced data sets learning [J].Control and Decision,2010,25 (6):1-7(in Chinese).[陶新民,徐晶,童志靖,等.不均衡數(shù)據(jù)下基于陰性免疫的過抽樣新算法[J].控制與決策,2010,25 (6):1-7.]
[9]Tang Y,Zhang YQ,Chawla NV,et a1.SVMs modeling for highly imbalanced classifications [J].IEEE Transaction on Systems,Man,and Cybernetics,Part B:Cybernetics,2009,39 (1):281-288.
[10]Wang K J,Makond B,Chen KH,et al.A hybrid classifier combining SMOTE with PSO to estimate 5-year survivability of breast cancer patients [J].Applied Soft Computing,2014,20 (3):15-24.
[11]SUN Tao,WU Haifeng,LIANG Zhigang,et al.SMOTE algorithm in the application of imbalanced data [J].Beijing Biomedical Engineering,2012,31 (5):528-530 (in Chinese).[孫濤,吳海豐,梁志剛,等.SMOTE算法在不平衡數(shù)據(jù)中的應(yīng)用 [J].北京生物醫(yī)學(xué)工程,2012,31 (5):528-530.]
[12]Zhong L,Wang B,Wang Z,et al.Research and application of massive data processing technology [C]//8th International Conference on Computer Science & Education.IEEE,2013:829-833.