亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于均衡分類的腦卒中風(fēng)險預(yù)測模型

        2015-12-20 06:56:32艷,殷
        計算機工程與設(shè)計 2015年9期
        關(guān)鍵詞:數(shù)據(jù)項聚類分類

        曹 艷,殷 旭

        (北京信息科技大學(xué) 計算機學(xué)院,北京100085)

        0 引 言

        隨著醫(yī)療信息量的增長,數(shù)據(jù)挖掘技術(shù)在醫(yī)療領(lǐng)域得到廣泛應(yīng)用。決策樹C4.5算法因其具有直觀、高效和結(jié)果易于理解的特點備受 關(guān)注。Jinn-Yi Yeh等[1]使 用C4.5 算法得到透析病人是否需要住院治療和相關(guān)癥狀的關(guān)系,以合理安排住院和治療方案;Zerina Maetic等[2]綜合使用自回歸 (AR)特征提取模塊和C4.5算法檢測分離正常和充血性心臟衰竭,分類準確率高達99.77。在對乳腺癌數(shù)據(jù)分類中,C4.5算法可以較好的控制決策樹的規(guī)模,規(guī)則的可理解性較高[3]。Ture、Tokatli等[4]在對乳腺癌患者的無復(fù)發(fā)生存期預(yù)測實驗中發(fā)現(xiàn)C4.5在準確度和樹結(jié)構(gòu)方面優(yōu)于CART、CHAID、QUEST 和ID3 算法。上述研究中C4.5都取得了較好效果,但都建立在均衡數(shù)據(jù)基礎(chǔ)之上,為了提高整體分類精確度,可能將某些少數(shù)類數(shù)據(jù)作為可允許誤差進行錯誤分類。不均衡數(shù)據(jù)處理主要是對數(shù)據(jù)集進行重構(gòu),數(shù)據(jù)重構(gòu)通常采用欠采樣技術(shù)、過采樣技術(shù)和Chawla等提出的SMOTE (synthetic minority oversampling technique)算法[5]。文獻 [6-11]分別是近年針對不均衡數(shù)據(jù)提出的處理方法。SMOTE 算法與主動學(xué)習(xí)算法[6]集成使用,在一定程度上避免數(shù)據(jù)不均衡帶來的分類偏倚問題;許丹丹等從數(shù)據(jù)水平的過抽樣角度出發(fā),提出SMOTE 的改進算法ISMOTE算法,更好地提高了不均衡數(shù)據(jù)的分類性能[7];用陰性免疫算法實現(xiàn)少數(shù)類樣本空間覆蓋,可以避免SMOTE生成的新樣本空間代表性不足的問題[8];在SVM 分類偏倚問題研究中,集成使用代價敏感學(xué)習(xí)、欠采樣和 過 采 樣 技 術(shù) 效 果 明 顯[9];Wang 等[10]結(jié) 合SMOTE、PSO (particle swarm optimization)和C5.0 算 法 對 不 均 衡的乳腺癌數(shù)據(jù)分類,發(fā)現(xiàn)經(jīng)SMOTE 處理后分類效果明顯提高;孫濤等醫(yī)學(xué)專家也發(fā)現(xiàn)SMOTE 算法可以對臨床的不均衡數(shù)據(jù)進行有效糾偏[11]。上述方法主要是針對少數(shù)類數(shù)據(jù)進行的,忽略了多數(shù)類數(shù)據(jù)處理,當(dāng)兩類數(shù)據(jù)數(shù)量相差較大,一味增加少數(shù)類數(shù)據(jù)會造成少數(shù)類分類過度擬合,生成虛假關(guān)系。

        1 SMOTE算法介紹

        SMOTE算法[5]是2002年由Chawla等提出的一種針對不均衡數(shù)據(jù)集的智能型過抽樣技術(shù),可以有效改善傳統(tǒng)過抽樣技術(shù)帶來的分類過度擬合現(xiàn)象,解決分類結(jié)果偏倚問題。

        定義1 設(shè)樣本集合為T,x為集合中的單個樣本,k為搜索的少數(shù)類最鄰近樣本的數(shù)量,向上采樣的倍率為N(N 為可被100整除的數(shù)),在k個少數(shù)類最鄰近樣本中隨機選取N/100個樣本,m1,m2,…,mn,在x與m1(j=1,2,…,n)之間隨機線性插入0到1之間的數(shù),形成新的少數(shù)類樣本qj

        SMOTE算法的核心思想是首先尋找每個少數(shù)類樣本的k個最鄰近樣本,然后選取其中N/100個,分和少數(shù)類樣本兩兩組合,最后在兩個樣本間進行隨機線性插值,構(gòu)造新的少數(shù)類樣本。

        算法的具體是實現(xiàn)過程是:

        輸入:訓(xùn)練樣本集T,最鄰近樣本數(shù)量k,向上采樣倍率N

        輸出:少數(shù)類空間擴大的訓(xùn)練樣本集T1

        (1)判斷N 是否小于100,如果是,則直接對樣本進行隨機采樣;否則計算樣本中各決策屬性中樣本的數(shù)量,確定少數(shù)類和多數(shù)類;

        (2)根據(jù)k、N 的值和式 (1)合成新的少數(shù)類數(shù)據(jù);

        (3)將新生成的少數(shù)類樣本加入原數(shù)據(jù)集中,生成新數(shù)據(jù),算法結(jié)束。

        實驗中,在此過程之前,首先應(yīng)使用隨機抽樣算法抽取訓(xùn)練集中所有的樣本,即對數(shù)據(jù)進行隨機排序,避免數(shù)據(jù)預(yù)處理時排序篩選等操作影響最鄰近樣本分布的隨機性。這樣,既可增大少數(shù)類數(shù)據(jù)的規(guī)模,又可以避免傳統(tǒng)過抽樣中完全復(fù)制少數(shù)類樣本帶來的過度擬合問題。

        2 基于PAM 的K-means算法PAM-means算法介紹

        2.1 K-means算法

        K-means算法是MacQueen在1967年提出的基于距離的聚類算法,該算法因效率較高得到廣泛應(yīng)用。算法的基本思想是:首先選定聚類數(shù)量K 和K 個初始聚類中心Zj,依據(jù)距離最小原則將樣本nj分配到距離聚類中心最近的類中,分配完后,計算每個類的均值作為新的聚類中心,循環(huán)樣本分配過程,直到聚類收斂為止。聚類的目標函數(shù)如下

        其中,函數(shù)d(xj,zj)為歐幾里得距離函數(shù),如下

        2.2 PAM 算法

        PAM (portioning around medoid),是一種圍繞中心的劃分,試圖對N 個對象進行K 個劃分。該算法首先為每個類選取一個初始中心點數(shù)據(jù),剩余的數(shù)據(jù)依據(jù)到與中心點的距離或相異度分配給相近的中心點所在的類;然后反復(fù)地用非代表數(shù)據(jù)替換代表數(shù)據(jù),并使用代價函數(shù)進行評估聚類質(zhì)量,選取當(dāng)前代表數(shù)據(jù)最好的代替,提高聚類質(zhì)量,得到正確的劃分。

        2.3 PAM-means算法

        K-means算法聚類效果相對較好,較為準確,但對孤立點和噪聲較為敏感,且需人為指定K 值。而PAM 算法不需要指定聚類數(shù)目K,對孤立點和噪聲不敏感,且能處理不同類型的數(shù)據(jù),但聚類效果相對K-means較差。

        為了使聚類效果較好,本文采用PAM-means算法,首先使用PAM 算法得到聚類數(shù)量K,然后使用K-means算法對多數(shù)類數(shù)據(jù)進行聚類,將相似度較高的數(shù)據(jù)聚到一簇,相似度較低的數(shù)據(jù)分開。這樣,對聚類后每個簇進行抽樣所得的數(shù)據(jù)特點基本可代表整個多數(shù)類數(shù)據(jù)的特點,從而避免傳統(tǒng)欠抽樣造成的信息嚴重丟失問題。

        算法的基本流程如下:

        (1)PAM 算法聚類,得到K 值;

        (2)任意選取K 個數(shù)據(jù)對象作為初始聚類中心;

        (3)計算樣本中所有數(shù)據(jù)到聚類中心的距離,如式(3)所示,選擇距離最小的數(shù)據(jù)對象,并將該數(shù)據(jù)對象劃分到該聚類中心所在的簇;

        (4)計算每個簇中數(shù)據(jù)對象的均值,作為新的聚類中心;

        (5)循環(huán)步驟 (3)和步驟 (4),直到聚類中心不再改變;

        (6)算法結(jié)束。

        3 決策樹C4.5算法

        決策樹C4.5算法是JR Quinlan于1993在算法ID3的基礎(chǔ)上提出的,相對于ID3算法,C4.5具有更高的分類精確度,并且可以處理連續(xù)屬性。C4.5算法用信息增益率來選擇決策屬性,對于連續(xù)屬性要首先進行離散化,離散化的依據(jù)是將連續(xù)屬性排序后,從中間開始選取可能分裂點,計算各可能分裂點的信息增益率,將信息增益率最大的點作為分裂點。因此在C4.5算法中對于連續(xù)屬性的分裂是二元分裂。

        C4.5算法利用信息熵原理,以信息增益率作為分類屬性的選擇標準,克服了信息增益選擇屬性時偏向選擇取值多的屬性的不足,遞歸的構(gòu)造決策樹[12]。本文在構(gòu)造樹的過程中使用十折交叉驗證和測試集驗證對分類樹進行剪枝,不斷的訓(xùn)練樹的結(jié)構(gòu),以達到最簡最可靠有效的分類結(jié)果。

        算法的具體實現(xiàn)過程是:

        輸入:訓(xùn)練集T,決策屬性C

        輸出:決策樹

        (1)以T 為根節(jié)點構(gòu)造分類樹;

        (2)判斷T 的樣本的決策屬性是否相同,如果相同,那么當(dāng)前節(jié)點即為葉節(jié)點,算法結(jié)束;否則,計算k個決策類的總信息量;

        (3)判斷條件屬性是連續(xù)屬性還是離散屬性,如果是連續(xù)屬性,根據(jù)連續(xù)屬性的可能分裂點的信息增益率對該屬性進行離散化;

        (4)分別計算條件屬性基于決策屬性的條件信息量和分裂信息;

        (5)計算各條件屬性的信息增益率,并選擇最大的為分裂屬性,同時將該屬性對應(yīng)的樣本作為子分類樣本集;

        (6)針對選中的分裂屬性,根據(jù)分裂信息構(gòu)建對應(yīng)的節(jié)點,并將對應(yīng)的樣本劃分到該節(jié)點下;

        (7)重復(fù)步驟 (2)到步驟 (6),對個訓(xùn)練樣本子集進行劃分,生成新的決策分支,直到?jīng)]有可以再分的屬性,算法停止。

        C4.5算法雖然可以比較準確有效的對連續(xù)和離散數(shù)據(jù)進行分類,但是沒有針對數(shù)據(jù)本身分布不均的特點進行處理,尤其是在遇到普遍存在不均衡性的醫(yī)學(xué)數(shù)據(jù)時,C4.5算法為了保證整體分類精確度,很容易產(chǎn)生不可預(yù)知的偏倚性,將少數(shù)類數(shù)據(jù)誤分到多數(shù)類中,隱藏少數(shù)類數(shù)據(jù)的信息,造成靈敏度較高,特異度較低的結(jié)果。因此合理的對不均衡數(shù)據(jù)進行均衡處理至關(guān)重要。

        4 實驗及結(jié)果分析

        本文以腦卒中高危因素篩查和防治項目的調(diào)查問卷數(shù)據(jù)為樣本數(shù)據(jù),分析與腦卒中相關(guān)的因素之間的關(guān)系,并預(yù)測患腦卒中的風(fēng)險,為有效干預(yù)腦卒中預(yù)防提供支持。

        4.1 評價標準

        提高少數(shù)類的分類性能是不均衡數(shù)據(jù)分類問題的研究重點,表1是3類數(shù)據(jù)集的混淆矩陣,這3類數(shù)據(jù)的標號分別為A、B和C,以A 類為例,TA 為A 類正確分類的樣本數(shù)量,F(xiàn)AB表示A 類樣本誤分到B類的樣本數(shù)量,F(xiàn)AC表示A 類樣本誤分到C類的樣本數(shù)量。

        表1 3類數(shù)據(jù)集的混淆矩陣

        分類模型中常用的評價標準為精確度Accuracy,體現(xiàn)分類的整體性能,但不能合理準確的評價不均衡數(shù)據(jù)集的分類性能。對于不均衡數(shù)據(jù)分類評價標準常用F-measure,是查全率Recall和查準率Precision的組合,β通常為1。只有少數(shù)類的查全率和查準率都大時,少數(shù)類的F-measure才會大,因此他能正確的反應(yīng)少數(shù)類的分類性能。式 (5)、式 (6)和式 (7)分別是類A 的F-measure(A)、查準率Precision (A)和查全率Recall(A),分類的總體Recall在3類數(shù)據(jù)集分類中為每類查全率的加權(quán)均值,權(quán)重為各類樣本所占比例,整體Precision和F-measure同Recall。

        4.2 數(shù)據(jù)預(yù)處理

        原始數(shù)據(jù)集有冗余數(shù)據(jù)、缺失數(shù)據(jù)、不確定數(shù)據(jù)和不一致數(shù)據(jù)等,導(dǎo)致結(jié)果不準確、不全面,甚至得出錯誤的規(guī)則。所以首先對數(shù)據(jù)進行預(yù)處理,消除數(shù)據(jù)噪聲帶來的分類問題。

        此次調(diào)查問卷得到的原數(shù)據(jù)共有524條記錄,100個數(shù)據(jù)項,其中除了與腦卒中相關(guān)的數(shù)據(jù)項,還有大量的與腦卒中無關(guān)的個人統(tǒng)計學(xué)信息和醫(yī)院信息,如姓名,民族,篩查日期等。

        首先刪除如姓名、篩查日期等無關(guān)信息,去除數(shù)據(jù)項中只包含一兩條記錄的數(shù)據(jù)項。其次,整合數(shù)據(jù),在醫(yī)生專家的指導(dǎo)下將某些數(shù)據(jù)項整合到一起形成新的數(shù)據(jù)項,如在判斷是否是家族遺傳腦卒中時,可以將父母、子女、兄弟姐妹中有得腦卒中的情況視為有家族遺傳腦卒中;將身高體重合并為身體質(zhì)量指數(shù) (BMI)作為衡量身體胖瘦程度的標準等。經(jīng)過這些處理,數(shù)據(jù)中包含15項數(shù)據(jù)項,179條數(shù)據(jù)。最后,統(tǒng)一數(shù)據(jù)格式,并用出現(xiàn)頻率最高的數(shù)據(jù)填充本數(shù)據(jù)項中個別的缺失值。最后生成的數(shù)據(jù)形式見表2。

        表2 腦卒中數(shù)據(jù)

        表2中與腦卒中相關(guān)的數(shù)據(jù)項包括決策屬性患腦卒中的風(fēng)險和條件屬性年齡、性別、身體質(zhì)量指數(shù) (BMI)、是否從事輕體勞動、體育鍛煉情況、是否有腦卒中史、是否有短暫性腦缺血發(fā)作史 (TIA)、是否患有高血壓、是否有過房顫或瓣膜性心臟病 (AF/AHD)、是否吸煙、是否飲酒、是否有血脂異常、是否有慢性病史、是否是家族遺傳腦卒中。數(shù)據(jù)中性別項F表示女性,M 表示男性;體育鍛煉情況1表示有規(guī)律性鍛煉,2表示有鍛煉但不規(guī)律,3表示無體育鍛煉;其它數(shù)據(jù)項中1表示是,2表示否;決策屬性有3個取值L、M、H,分別表示低危、中危和高危。

        4.3 SMOTE&PAM-means+C4.5算法實現(xiàn)過程介紹

        整個實驗過程如圖1所示,數(shù)據(jù)預(yù)處理后進行均衡判斷,首先統(tǒng)計每個類中記錄數(shù),找出記錄數(shù)的最大值max和最小值min,然后對max和min做商,如果max/min<3則判斷數(shù)據(jù)均衡,直接進入C4.5分類器進行分類;否則判斷該數(shù)據(jù)集存在不均衡性,需要先進行均衡處理,然后進入分類模塊。

        (1)菌種活化分別取適量乳桿菌菌株凍干菌粉接種于10 mL滅苗MRS肉湯培養(yǎng)基中,旋渦混勻于37℃在恒溫培養(yǎng)箱中培養(yǎng)24 h得到一代菌懸液。按5%的接種量將一代菌懸液接種于MRS肉湯培養(yǎng)基中,37℃恒溫培養(yǎng)24 h得二代菌懸液。重復(fù)上述步驟37℃恒濕培養(yǎng)18 h,進行第三次活化得到三代活化菌懸液,4℃冰箱儲存?zhèn)溆谩?/p>

        圖1 模型實現(xiàn)流程

        均衡處理的工作流程如圖2所示,生成的是均衡處理后的均衡數(shù)據(jù)集。整個均衡處理過程包含兩個部分,一部分針對少數(shù)類數(shù)據(jù),首先對整個數(shù)據(jù)集抽樣,抽樣方式為不可重復(fù)抽樣,數(shù)量為數(shù)據(jù)集數(shù)量,使各記錄隨機排序,然后使用SMOTE 生成新的少數(shù)類數(shù)據(jù)。排除預(yù)處理時篩選排序等操作對SMOTE 算法的影響,確保SMOTE 得到的數(shù)據(jù)是隨機綜合多數(shù)類數(shù)據(jù)和少數(shù)類數(shù)據(jù)得到的,避免SMOTE生成的數(shù)據(jù)僅來源于少數(shù)類數(shù)據(jù)而造成過度擬合問題。針對多數(shù)類數(shù)據(jù),主要是進行欠抽樣,但考慮到欠抽樣帶來的信息丟失問題,首先對多數(shù)類數(shù)據(jù)做PAMmeans聚類,然后計算聚類結(jié)果中每簇中各個分類屬性的樣本數(shù)量,按比例進行抽樣,使最終得到的數(shù)據(jù)集中每類數(shù)據(jù)的數(shù)量相當(dāng)。

        圖2 數(shù)據(jù)均衡處理流程

        4.4 實驗結(jié)果及分析

        原始C4.5算法分類結(jié)果的混淆矩陣如表3所示。表3顯示樣本總量為179,其中P=L 的有104例,P=H 的有66例,而P=M 的只有9例,P=M 相對P=L和P=H 類別屬于少數(shù)類。混淆矩陣顯示P=M 類中只9例樣本,只有44.445% 正 確 分 類,有33.333% 偏 向p =L 類,22.222%偏向P=H 類,即大部分少數(shù)類數(shù)據(jù)被誤分到其它類別。而P=H 類別中,分類正確的占78.788%,分類偏向P=M 類的7.576%,偏向P=L類的13.636%。對于多數(shù)類P=L,只有2例被誤分到了P=H 類中??v向看,P=M 類9例中只有4例來自正確數(shù)據(jù),其余都是P=H 類錯誤分類的結(jié)果。綜上所述,少數(shù)類數(shù)據(jù)的分類性能極差,結(jié)果不能正確體現(xiàn)少數(shù)類數(shù)據(jù)的特點。因此,不均衡的腦卒中數(shù)據(jù)在C4.5算法分類中存在嚴重的分類偏倚問題,解決數(shù)據(jù)不均衡問題是改善分類性能的首要問題。

        表3 C4.5算法分類混淆矩陣

        為了解決分類偏倚問題,實驗中分別對原始數(shù)據(jù)做了不同的均衡處理,包括欠采樣、過采樣、SMOTE 和SMOTE&PAM-means算法,然后用C4.5 算法進行分類,分類過程中采用十折交叉驗證對樹進行剪枝。均衡處理過程中,欠采樣以少數(shù)類樣本數(shù)量為標準分別對兩個多數(shù)類進行欠采樣,形成新的數(shù)據(jù)集。SMOTE 算法處理數(shù)據(jù),形成的均衡數(shù)據(jù)集中P=M 含有27例樣本。過采樣中少數(shù)類數(shù)據(jù)數(shù)量與SMOTE 處理結(jié)果中P=M 類的樣本數(shù)量相同,同時從多數(shù)類數(shù)據(jù)中隨機取一半數(shù)據(jù),以便與SMOTE和原始C4.5算法進行F-measure和驗證精確度的對比。由于均衡處理后進入分類器的數(shù)據(jù)為部分原始數(shù)據(jù),所以使用整個原始數(shù)據(jù)集對生成的規(guī)則進行驗證,得到驗證精確度。

        原始C4.5算法、欠采樣+C4.5 算法、過采樣+C4.5算法、SMOTE+C4.5算法和最終改進的SMOTE&PAMmeans+C4.5算法分類結(jié)果對比見表4。

        表4 各算法結(jié)果對比

        表4中顯示均衡處理后,分類樹的結(jié)構(gòu)有不同程度的簡化,樹的節(jié)點和葉節(jié)點數(shù)都減少,過采樣簡化程度相對最小,SMOTE&PAM-means+C4.5 相對最大。從均衡角度分析,原始C4.5算法的F-measure(M)值僅0.394,而整體F-measure值為0.879,相對較大,說明少數(shù)類分類性能比較差,而多數(shù)類分類性能很好,再次說明原始C4.5算法的分類結(jié)果嚴重偏倚。均衡處理后,少數(shù)類的分類性能都有明顯提高,但整體F-measure 只有SMOTE&PAMmeans+C4.5算法有明顯改善,其它3 種都有不同程度的下降,說明只針對少數(shù)類數(shù)據(jù)進行的均衡會造成多數(shù)類數(shù)據(jù)信息嚴重丟失,影響整體的分類性能,使得均衡處理得不償失。而SMOTE&PAM-means+C4.5算法的分類精確度和驗證精確度也明顯提高。因此,SMOTE&PAM-means+C4.5算法同時對少數(shù)類和多數(shù)類數(shù)據(jù)進行處理,可有效增大少數(shù)類樣本空間的同時需減少多數(shù)類樣本信息損失量,改善不均衡數(shù)據(jù)分類偏倚問題,提高分類性能。

        SMOTE&PAM-means+C4.5算法生成的樹結(jié)構(gòu)如圖3所示,對應(yīng)的規(guī)則如下:

        規(guī)則2:如果慢性病史=1∧腦卒中史=2∧飲酒=1,則風(fēng)險=H;

        規(guī)則3:如果慢性病史=1∧腦卒中史=2∧飲酒=2∧年齡>66,則風(fēng)險=H;

        規(guī)則4:如果慢性病史=1∧腦卒中史=2∧飲酒=2∧年齡<=66,則風(fēng)險=M;

        規(guī)則5:如果慢性病史=2∧腦卒中史=1,則風(fēng)險=H;

        規(guī)則6:如果慢性病史=2∧腦卒中史=2∧血脂異常=2,則風(fēng)險=L;

        規(guī)則7:如果慢性病史=2∧腦卒中史=2∧血脂異常=1∧高血壓=1,則風(fēng)險=H;

        規(guī)則8:如果慢性病史=2∧腦卒中史=2∧血脂異常=1∧高血壓=2,則風(fēng)險=L。

        圖3 SMOTE&PAM-means+C4.5算法生成的樹結(jié)構(gòu)

        實驗結(jié)果顯示,在沒有慢性病史的情況下,腦卒中史或血脂異常、高血壓都會增大病人患腦卒中的概率,使病人處于高?;疾∪巳?。而在有慢性病史的情況下,腦卒中史仍是導(dǎo)致病人患腦卒中的關(guān)鍵因素;同時,對于沒有腦卒中史的人,飲酒和年齡大于66歲是兩個導(dǎo)致腦卒中發(fā)病的關(guān)鍵因素。因此,此預(yù)測模型有助于人們尤其是老年人及時了解自身健康情況,準確預(yù)測腦卒中發(fā)病風(fēng)險,并根據(jù)自身情況,尋求更適合自己遠離腦卒中的預(yù)防措施,最終達到有效干預(yù)腦卒中預(yù)防治療的效果。

        5 結(jié)束語

        基于均衡分類的腦卒中風(fēng)險預(yù)測模型中SMOTE&PAM-means+C4.5算法對少數(shù)類數(shù)據(jù)進行了處理,通過少數(shù)類數(shù)據(jù)和少數(shù)類最鄰近的樣本生成新的少數(shù)類數(shù)據(jù),一定程度增大少數(shù)類數(shù)據(jù)規(guī)模。同時對多數(shù)類進行PAM-means聚類,然后按比例對每簇樣本進行隨機抽樣,達到少數(shù)類和多數(shù)類數(shù)據(jù)均衡的效果。通過實驗可知,均衡后有效解決了分類結(jié)果偏倚問題,并且分類精確度和樹的結(jié)構(gòu)也得到了改善。此模型生成了8條腦卒中風(fēng)險預(yù)測規(guī)則,為人們及時準確的預(yù)測腦卒中風(fēng)險提供依據(jù)。在以后的工作中我們將進一步研究如何更有效解決不均衡數(shù)據(jù)分類問題,提高最終準確度的分類,簡化樹的結(jié)構(gòu),為疾病的有效預(yù)防治療等提供數(shù)據(jù)支持。

        [1]Jinn-Yi Yeh,Tai-Hsi Wu,Chuan-Wei Tsao.Using data mining techniques to predict hospitalization of hemodialysis patients [J].Decision Support Systems,2011,50 (1):439-448.

        [2]Zerina Masˇetic,Abdulhamit Subasi.Detection of congestive heart failure using C4.5decision [J].Southeast Europe Journal of Soft Computing,2013,2 (2):74-77.

        [3]LI Zhi,LI Guolin.Comparative study of C4.5and CART algorithm in medical data mining [J].Electronic Technology &Software Engineering,2013,10 (3):47-48 (in Chinese).[李治,李國琳.C4.5 和CART 算法在醫(yī)學(xué)數(shù)據(jù)挖掘中的對比研究 [J].電子技術(shù)與軟件工程,2013,10 (3):47-48.]

        [4]MevlutTure,F(xiàn)usunTokatli,Imran Kurt.Using Kaplan-Meier analysis together with decision tree methods(CART,CHAID, QUEST,C4.5and ID3)indetermining recurrence-free survi-val of breast cancer patients [J].Expert Systems with Applications,2009,36 (2):2017-2026.

        [5]Chawla NV,Bowyer K,Hall L,et al.SMOTE:Synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16 (1):321-357.

        [6]ZHANG Yong,LI Zhuoran,LIU Xiaodan.Active learning SMOTE based imbalanced data classification [J].Computer Application and Software,2012,29 (3):91-94 (in Chinese).[張永,李卓然,劉曉丹.基于主動學(xué)習(xí)SMOTE 的非均衡 數(shù) 據(jù) 分 類 [J].計 算 機 應(yīng) 用 軟 件,2012,29 (3):91-94.]

        [7]XU Dandan,WANG Yong,CAI Lijun.ISMOTE algorithm for imbalanced data set[J].Journal of Computer Application,2011,30 (9):2399-2401 (in Chinese).[許丹丹,王勇,蔡立軍.面向不均衡數(shù)據(jù)集的ISMOTE 算法 [J].計算機應(yīng)用,2011,30 (9):2399-2401.]

        [8]TAO Xinmin,XU Jing,TONG Zhijing,et al.Over-sampling algorithm based on negative immune in imbalanced data sets learning [J].Control and Decision,2010,25 (6):1-7(in Chinese).[陶新民,徐晶,童志靖,等.不均衡數(shù)據(jù)下基于陰性免疫的過抽樣新算法[J].控制與決策,2010,25 (6):1-7.]

        [9]Tang Y,Zhang YQ,Chawla NV,et a1.SVMs modeling for highly imbalanced classifications [J].IEEE Transaction on Systems,Man,and Cybernetics,Part B:Cybernetics,2009,39 (1):281-288.

        [10]Wang K J,Makond B,Chen KH,et al.A hybrid classifier combining SMOTE with PSO to estimate 5-year survivability of breast cancer patients [J].Applied Soft Computing,2014,20 (3):15-24.

        [11]SUN Tao,WU Haifeng,LIANG Zhigang,et al.SMOTE algorithm in the application of imbalanced data [J].Beijing Biomedical Engineering,2012,31 (5):528-530 (in Chinese).[孫濤,吳海豐,梁志剛,等.SMOTE算法在不平衡數(shù)據(jù)中的應(yīng)用 [J].北京生物醫(yī)學(xué)工程,2012,31 (5):528-530.]

        [12]Zhong L,Wang B,Wang Z,et al.Research and application of massive data processing technology [C]//8th International Conference on Computer Science & Education.IEEE,2013:829-833.

        猜你喜歡
        數(shù)據(jù)項聚類分類
        分類算一算
        一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計與實現(xiàn)
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數(shù)據(jù)庫Skyline-join查詢*
        基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實現(xiàn)
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        教你一招:數(shù)的分類
        基于改進的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        国产成a人亚洲精v品无码性色| 久久精品亚洲熟女av麻豆| 曰韩内射六十七十老熟女影视| 国产成人精品综合在线观看| 国产特级全黄一级毛片不卡| 亚洲香蕉av一区二区蜜桃| 亚洲天堂av福利在线| 成人毛片av免费| 亚洲图区欧美| 国产激情视频免费观看| 自拍视频在线观看首页国产| 免费视频爱爱太爽了| 少妇精品无码一区二区三区| 久久精品国产亚洲av热九九热| 国产国拍精品亚洲av在线观看| 国产后入又长又硬| 午夜婷婷国产麻豆精品| 国产一区二区av男人| 国产高颜值女主播在线| 亚洲一区二区三区中文字幂| 亚洲a级片在线观看| 国产一区二区三区在线爱咪咪| 日本真人边吃奶边做爽动态图| 欧美孕妇xxxx做受欧美88| 九九99久久精品午夜剧场免费 | 午夜亚洲国产理论片亚洲2020| 国内激情一区二区视频| 亚洲精品无码精品mv在线观看| 丁香五香天堂网| 无码专区无码专区视频网址| 国产在线av一区二区| 免费成人在线电影| 99久久综合精品五月天| 亚洲国产一区二区精品| 无码喷潮a片无码高潮| 精品人妻系列无码一区二区三区| 无码视频一区=区| 国产一区二区长腿丝袜高跟鞋| 成人毛片一区二区| 亚洲欧美日韩高清中文在线| 中文字幕人乱码中文字幕乱码在线|