陳曉彤 岑梓熹 譚靜儀 欒雅 彭師師 嚴(yán)波 何震
摘要:目的? 用機(jī)器學(xué)習(xí)三種不同算法建立心力衰竭分類(lèi)預(yù)測(cè)模型,比較模型的準(zhǔn)確率,并分析心力衰竭死亡事件重要性特征,對(duì)人群盡早發(fā)現(xiàn)和實(shí)施介入措施提供援助,努力提高人們的健康水平和生活質(zhì)量。方法? 使用Kaggle平臺(tái)發(fā)布的心力衰竭數(shù)據(jù)集,通過(guò)缺失值填充法、數(shù)據(jù)標(biāo)準(zhǔn)化處理、SMOTE方法進(jìn)行數(shù)據(jù)預(yù)處理?;陔S機(jī)森林、C4.5、AdaBoost算法建立心力衰竭預(yù)測(cè)模型。使用性能評(píng)估指標(biāo)混淆矩陣、ROC曲線(xiàn)、均方根誤差以及均值絕對(duì)誤差評(píng)估評(píng)價(jià)模型性能。結(jié)果? PermutationImportance給出的變量重要性排序中,血清肌酐水平、年齡、血清鈉離水平排序靠前。三種模型中,隨機(jī)森林模型準(zhǔn)確率為85%,精確率為81%,召回率為68%;C4.5模型準(zhǔn)確率為83%,精確率為80%,召回率為63%;AdaBoost模型準(zhǔn)確率為80%,精確率為71%,召回率為63%。結(jié)論? 基于所用數(shù)據(jù)集,隨機(jī)森林模型優(yōu)于C4.5模型與AdaBoost模型,心力衰竭死亡風(fēng)險(xiǎn)預(yù)測(cè)模型能為心力衰竭早期預(yù)防控制及診斷提供參考依據(jù)。
關(guān)鍵詞:心力衰竭;死亡;預(yù)測(cè)模型;C4.5;隨機(jī)森林;AdaBoost
中圖分類(lèi)號(hào):R541.6? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.3969/j.issn.1006-1959.2024.11.002
文章編號(hào):1006-1959(2024)11-0011-05
Value of Three Machine Learning Algorithms in Predicting Death from Heart Failure
Abstract:Objective? To establish a classification and prediction model of heart failure by using three different algorithms of machine learning, compare the accuracy of the model, and analyze the importance characteristics of heart failure death events, so as to provide assistance for the early detection and implementation of intervention measures, and strive to improve people's health level and quality of life.Methods? Using the heart failure data set published by Kaggle platform, the data preprocessing was carried out by missing value filling method, data standardization processing and SMOTE method. A heart failure prediction model was established based on random forest, C4.5 and AdaBoost algorithms. The performance evaluation index confusion matrix, ROC curve, root mean square error and mean absolute error were used to evaluate the performance of the model.Results? In the order of importance of variables given by PermutationImportance, serum creatinine level, age and serum sodium level were ranked first. Among the three models, the accuracy of the random forest model was 85%, the accuracy was 81%, and the recall rate was 68%; the accuracy rate of the C4.5 model was 83%, the accuracy rate was 80%, and the recall rate was 63%. The accuracy rate of AdaBoost model was 80%, the accuracy rate was 71%, and the recall rate was 63%.Conclusion? Based on the data set used, the random forest model is superior to the C4.5 model and the AdaBoost model. The heart failure death risk prediction model can provide a reference for early prevention, control and diagnosis of heart failure.
Key words:Heart failure;Death;Prediction model;C4.5;Random forest;AdaBoost
心力衰竭(heart failure)是因?yàn)樾呐K的舒張和(或)收縮性的失調(diào)而引起的[1]。通常由于多種原因會(huì)導(dǎo)致心肌的收縮功能下降,導(dǎo)致心臟的血流量降低,無(wú)法達(dá)到人體所需,進(jìn)而出現(xiàn)一系列的臨床表現(xiàn)[2]。心衰是一種嚴(yán)重危害人類(lèi)健康的疾病,因此,基于患者的病情,及早評(píng)估患者的預(yù)后,可以有效地采取針對(duì)性的干預(yù),提高患者的治療效果。作為一門(mén)多學(xué)科交叉的專(zhuān)業(yè),數(shù)據(jù)挖掘是一門(mén)多學(xué)科交叉的專(zhuān)業(yè),它主要是在研究計(jì)算機(jī)如何對(duì)或?qū)崿F(xiàn)人們的學(xué)習(xí)行為進(jìn)行仿真,從而獲得新的知識(shí)或技術(shù)[3]。在醫(yī)學(xué)領(lǐng)域,將機(jī)器學(xué)習(xí)算法應(yīng)用于疾病診斷的研究十分廣泛[4]。裴天天[5]基于集成學(xué)習(xí)算法開(kāi)發(fā)了心血管健康管理系統(tǒng),將邏輯回歸算法、K最近鄰算法作為弱分類(lèi)器,根據(jù)模型投票構(gòu)造投票分類(lèi)器模型,預(yù)測(cè)心臟病準(zhǔn)確率達(dá)到85.5%。Abebe TB等[6]通過(guò)收集患者射血分?jǐn)?shù)、血清肌酐、年齡等13個(gè)特征,利用Cox回歸模型研究心衰患者的生存分析,得到模型AUC下面及為0.81。Zhang H等[7]基于集成學(xué)習(xí)的Bagging算法開(kāi)發(fā)了遠(yuǎn)程醫(yī)療系統(tǒng),用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和樸素貝葉斯構(gòu)建集成框架,其模型預(yù)測(cè)慢性心臟病可達(dá)94%。在借鑒上述研究的基礎(chǔ)上,本研究提出一種基于機(jī)器學(xué)習(xí)算法在在預(yù)測(cè)心力衰竭死亡上的研究,旨在借助機(jī)器學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力以及良好的學(xué)習(xí)性能,將其應(yīng)用于心力衰竭患者是否死亡問(wèn)題研究中。
1資料與方法
1.1數(shù)據(jù)來(lái)源? 本研究所使用的心力衰竭數(shù)據(jù)集在Kaggle平臺(tái)發(fā)布,是2015年巴基斯坦費(fèi)薩拉巴德心臟病研究所和費(fèi)薩拉巴德聯(lián)合醫(yī)院所收集的數(shù)據(jù)[8]。據(jù)集包含299例心力衰竭患者的醫(yī)療記錄,其中女105例,男194例,所有患者年齡均在40歲以上且均存在左心室收縮功能不全,且有既往心力衰竭史。其中以“DEATH_EVENT 死亡事件”作為目標(biāo)特征。具體特征見(jiàn)表1。
1.2數(shù)據(jù)預(yù)處理? 缺失值處理:檢查并刪除全為空的行,檢查每一行缺失值情況。由于數(shù)據(jù)樣本較少,對(duì)于缺失值采用均數(shù)填補(bǔ)的方法處理缺失值。使用熱力圖查看特征與特征之間的相關(guān)性,熱力圖中顏色越深或越淺代表特征之間相關(guān)性越高,心力衰竭數(shù)據(jù)集特征熱力圖見(jiàn)圖1,可看得到特征之間相關(guān)性并不高。
排列特征重要性:使用Permutation Importance對(duì)特征重要性進(jìn)行排列,排列結(jié)果見(jiàn)圖2。其中排在前3位特征分別代表血清肌酐水平、射血分?jǐn)?shù)、年齡、血清鈉水平。因此在臨床治療中,醫(yī)生與患者應(yīng)著重關(guān)注這些指標(biāo),將它們控制在正常范圍內(nèi)以降低死亡的概率;而患病風(fēng)險(xiǎn)一般是隨年齡增長(zhǎng)而增加,因此年長(zhǎng)者也應(yīng)格外關(guān)注自己的這些指標(biāo)。對(duì)于醫(yī)生在后續(xù)的臨床診斷中也可以參考這些指標(biāo)的數(shù)值作為診療判斷依據(jù)。
數(shù)據(jù)標(biāo)準(zhǔn)化處理:本研究所用到的數(shù)據(jù)集中,通過(guò)描述命令可得到數(shù)據(jù)最小取值為0,最大取值為850 000,是否貧血、是否患有糖尿病、是否患有高血壓、性別、是否吸煙與是否死亡為二分類(lèi)變量,其他特征屬性均為計(jì)量資料。計(jì)量資料如血液中肌酐磷酸激酶的水平、血液中的血小板數(shù)量等取值極差較大,如不加以處理則會(huì)對(duì)最終預(yù)測(cè)結(jié)果造成干擾,因此使用數(shù)據(jù)標(biāo)準(zhǔn)化處理將數(shù)據(jù)特征取值轉(zhuǎn)換為同一規(guī)格。
數(shù)據(jù)不平衡處理:目標(biāo)特征“DEATH_EVENT死亡事件”存在類(lèi)別失衡的問(wèn)題,死亡事件情況分布見(jiàn)圖3,未發(fā)生死亡事件患者為203例,發(fā)生死亡事件患者為96例,數(shù)據(jù)存在一定不平衡問(wèn)題。在未發(fā)生死亡事件樣本占大多數(shù)的情況下,分類(lèi)器將所有樣本預(yù)測(cè)為未發(fā)生死亡,也可以得到很高的準(zhǔn)確率,但這樣得到的準(zhǔn)確率高的預(yù)測(cè)并沒(méi)有實(shí)際意義。因此采用人工數(shù)據(jù)合成法(Synthetic Minority Over-sampling Technique, SMOTE)來(lái)平衡原始數(shù)據(jù)。
2數(shù)據(jù)分析
2.1算法介紹? 決策樹(shù)(Decision Tree):決策樹(shù)作為機(jī)器學(xué)習(xí)算法模型之一,是一種分類(lèi)與回歸的方法。它是由樹(shù)模型構(gòu)成,其基本的思想就是“分而治之”[9]。即每個(gè)非葉結(jié)點(diǎn)上都會(huì)有一個(gè)特征變量“把關(guān)”,按照一定的規(guī)則劃分不同的子集,一直到不能夠劃分為止。以下圖為例,分類(lèi)以A是否大于80為開(kāi)始,要是大于80,則被分去左邊,為B;若A小于80,則被分去右邊,又進(jìn)行劃分A是否大于50,若大于,則被劃分為B,若小于50,則被劃分為C。決策樹(shù)的建立流程一般包括特征選擇、決策樹(shù)的生成和決策樹(shù)的剪枝。其中特征選取主要有信息增益和基尼系數(shù)兩種方法[10]。
C4.5算法:由Quinlan自己擴(kuò)充ID3算法提出的,是ID3算法的改進(jìn),它在ID3的基礎(chǔ)上增加了對(duì)連續(xù)屬性、屬性空缺情況的處理,對(duì)樹(shù)剪枝也有了較成熟的方法[11]。該算法的有點(diǎn)有:使用信息增益率作為屬性選擇的標(biāo)準(zhǔn);可以處理連續(xù)性數(shù)值,增加了可處理數(shù)據(jù)的范圍;能夠處理不完整的數(shù)據(jù),增加數(shù)據(jù)的自適應(yīng)性;在建樹(shù)過(guò)程中以及建樹(shù)完成后進(jìn)行剪枝操作,從而避免決策樹(shù)的不平衡[12]。
隨機(jī)森林(Random Forests)算法:由Breimen于2001年提出的,它在Bagging的基礎(chǔ)上加上特征隨機(jī)選取這個(gè)特點(diǎn)[13]。與集成算法的思想相同,由若干個(gè)基分類(lèi)器組成,其中基分類(lèi)器為決策樹(shù)。傳統(tǒng)的決策樹(shù)是在當(dāng)前結(jié)點(diǎn)的特征集合中根據(jù)一定的特征選擇方法選取最優(yōu)的特征進(jìn)行分支;而隨機(jī)森林則是對(duì)于單科決策樹(shù)的每個(gè)結(jié)點(diǎn)首先從全部特征(共b個(gè))中隨機(jī)選取a個(gè)特征(a
集成學(xué)習(xí)(Ensemble Learning):集成學(xué)習(xí)是一個(gè)通過(guò)多個(gè)基分類(lèi)器組合在一起,通過(guò)各種組合策略形成的一個(gè)強(qiáng)學(xué)習(xí)器的過(guò)程[15]。正所謂海納百川,相比于傳統(tǒng)的機(jī)器學(xué)習(xí)模型,其在訓(xùn)練數(shù)據(jù)集上的準(zhǔn)確度一般都高于單個(gè)學(xué)習(xí)器。其基分類(lèi)器即可以是決策樹(shù)模型,也可以是樸素貝葉斯模型等等。
Boosting:一種將弱學(xué)習(xí)器的錯(cuò)誤樣本通過(guò)不斷的訓(xùn)練成為強(qiáng)學(xué)習(xí)器的一種集成方法[16]。對(duì)于Boosting算法要解決兩個(gè)問(wèn)題:第一是對(duì)于每輪分布,要如何選擇進(jìn)行學(xué)習(xí)訓(xùn)練;第二是如何利用錯(cuò)誤的規(guī)則進(jìn)行學(xué)習(xí)。
自適應(yīng)增強(qiáng)算法(AdaBoost):作為Boosting的代表算法,F(xiàn)reund在Boosting理論的研究基礎(chǔ)上,發(fā)現(xiàn)了一種不需要提前預(yù)知任何關(guān)于弱學(xué)習(xí)算法性能的知識(shí)的新算法[17]。并且舉例了一位賭徒因?yàn)槌掷m(xù)的賽馬損失,后來(lái)決定讓朋友代表他下注。他會(huì)根據(jù)朋友的表現(xiàn),要是心理上覺(jué)得哪位朋友這次會(huì)贏得多,他就會(huì)把賭注投入多一點(diǎn)在那位朋友身上。最后他也因?yàn)檫@樣的分配贏回了他的獎(jiǎng)金。因此Freund覺(jué)得這樣的動(dòng)態(tài)分配問(wèn)題也適用于Boosting算法中。這也是著名的AdaBoost算法最早的提出[18]。
AdaBoost算法迭代主要有3個(gè)步驟:第一步,初始化樣本的權(quán)重。假設(shè)樣本集一開(kāi)始有N個(gè)樣本,那么每一個(gè)樣本一開(kāi)始將會(huì)被賦予相同的權(quán)重1/N。第二步,訓(xùn)練單個(gè)弱學(xué)習(xí)器。要是樣本訓(xùn)練正確,那么它的權(quán)重將降低。要是樣本訓(xùn)練錯(cuò)誤,這將會(huì)對(duì)其提高權(quán)值。更新之后的權(quán)值會(huì)用于下一個(gè)弱分類(lèi)器當(dāng)中。第三步,訓(xùn)練每個(gè)弱分類(lèi)器形成一個(gè)強(qiáng)分類(lèi)器。加大學(xué)習(xí)誤差率et小的弱分類(lèi)器的權(quán)重,使得et大的弱分類(lèi)器權(quán)重下降。最后得出一個(gè)et較小的強(qiáng)分類(lèi)器。AdaBoost不需要運(yùn)用特征進(jìn)行篩選,只需要若干個(gè)分類(lèi)器加權(quán)組合即可,不需要提前知道弱分類(lèi)器的錯(cuò)誤率,也能得到較好的精確度。
2.2模型構(gòu)建? AdaBoost:因?yàn)樾牧λソ邤?shù)據(jù)集的因變量是否發(fā)生死亡為二分類(lèi)變量,故本次運(yùn)用決策樹(shù)作為機(jī)器學(xué)習(xí)構(gòu)造AdaBoost模型,選擇AdaBoost分類(lèi)器,通過(guò)調(diào)整參數(shù)機(jī)器學(xué)習(xí)的最大迭代次數(shù)以及每個(gè)弱機(jī)器學(xué)習(xí)的權(quán)重縮減系數(shù)以構(gòu)造模型。若最大迭代次數(shù)過(guò)小,模型容易欠擬合,若最大迭代次數(shù)過(guò)大,模型則容易過(guò)擬合。較小的弱學(xué)習(xí)器權(quán)重縮減系數(shù)意味著需要更多的機(jī)器學(xué)習(xí)迭代次數(shù)。C4.5:構(gòu)建C4.5算法模型前,先通過(guò)導(dǎo)入math庫(kù),計(jì)算信息熵、條件條件熵、信息增益以及信息增益率,比較各個(gè)特征信息增益率的大小得到最優(yōu)特征以劃分?jǐn)?shù)據(jù)集,從而創(chuàng)建出C4.5決策樹(shù),以字典的模式呈現(xiàn)。再使用Sklearn庫(kù)中的分類(lèi)決策樹(shù)模型進(jìn)行擬合,調(diào)整參數(shù),得出最大深度、內(nèi)部節(jié)點(diǎn)再次劃分時(shí)需要的最小樣本數(shù)、葉子節(jié)點(diǎn)最少樣本數(shù)的最優(yōu)參數(shù),從而得到預(yù)測(cè)結(jié)果。隨機(jī)森林:因?yàn)樾牧λソ邤?shù)據(jù)集的因變量是否發(fā)生死亡為二分類(lèi)變量,故運(yùn)用基于決策樹(shù)的隨機(jī)森林分類(lèi)器進(jìn)行構(gòu)建模型。首先將訓(xùn)練集放入沒(méi)有調(diào)整參數(shù)的模型,再利用交叉驗(yàn)證(Cross-validation)和網(wǎng)格搜索(GridSearchCV)對(duì)隨機(jī)森林模型進(jìn)行參數(shù)的調(diào)整。隨后尋找隨機(jī)森林算法其他參數(shù)的最優(yōu)值,放入模型中。
3結(jié)果
3.1模型評(píng)估標(biāo)準(zhǔn)? 該醫(yī)學(xué)問(wèn)題事實(shí)上是分類(lèi)問(wèn)題,對(duì)于分類(lèi)模型,混淆矩陣、ROC曲線(xiàn)下的面積是最常用的評(píng)價(jià)分類(lèi)模型的指標(biāo),混淆矩陣通過(guò)建立真實(shí)類(lèi)別和預(yù)測(cè)類(lèi)別之間的關(guān)系來(lái)評(píng)估分類(lèi)模型的準(zhǔn)確性?;煜仃囍邪?個(gè)基本元素:真正例(True Positives)、假正例(False Positives)、假負(fù)例(False Negatives)和真負(fù)例(True Negatives)。通過(guò)統(tǒng)計(jì)這4個(gè)元素的數(shù)量,可以計(jì)算出分類(lèi)模型的準(zhǔn)確率、精確率和召回率等指標(biāo)。
ROC曲線(xiàn)下面積(area under the ROC curve, AUC)是評(píng)價(jià)分類(lèi)模型的重要指標(biāo)。曲線(xiàn)越靠近左上方,曲線(xiàn)下的面積就越大,表明該算法的預(yù)測(cè)效果越好。其取值范圍為0到1,AUC值越接近1,則表示分類(lèi)模型預(yù)測(cè)準(zhǔn)確性越高?;诒疚姆诸?lèi)模型的主要目的是正確預(yù)測(cè)出心力衰竭患者是否發(fā)生死亡。因此通過(guò)對(duì)比混淆矩陣、ROC曲線(xiàn)下的面積評(píng)估3個(gè)模型的性能。
3.2模型測(cè)試結(jié)果? 本實(shí)驗(yàn)使用python3.9.0進(jìn)行數(shù)據(jù)預(yù)處理及數(shù)據(jù)建模。使用循環(huán)遍歷的方法確定AdaBoost的最大深度是2,隨機(jī)森林的決策樹(shù)個(gè)數(shù)為102?;谟?xùn)練集訓(xùn)練后3個(gè)集成模型在測(cè)試集的性能表現(xiàn)見(jiàn)表2,ROC曲線(xiàn)見(jiàn)圖4。可以看出,采用隨機(jī)森林算法優(yōu)于AdaBoost算法與決策樹(shù)C4.5算法,使得模型的分類(lèi)準(zhǔn)確率和ROC曲線(xiàn)下面積均得到了提升,泛化性較為優(yōu)越。
4討論
本文使用Kaggle中的心力衰竭患者數(shù)據(jù)集展開(kāi)研究,提出一種基于AdaBoost、決策樹(shù)、隨機(jī)森林的模型用于預(yù)測(cè)心力衰竭患者是否發(fā)生死亡。實(shí)驗(yàn)結(jié)果表明,相對(duì)于AdaBoost模型與決策樹(shù)模型,隨機(jī)森林模型對(duì)數(shù)據(jù)集的泛化能力更強(qiáng),預(yù)測(cè)準(zhǔn)確率更高。此外,對(duì)模型的特征進(jìn)行了重要性評(píng)估,找出了對(duì)模型貢獻(xiàn)程度較高的一些指標(biāo),對(duì)醫(yī)生的臨床診斷具有一定的參考價(jià)值。
心血管疾病不僅已經(jīng)成為中國(guó)疾病死亡的主要原因,而且也成為全世界死亡的主要原因[19]。機(jī)器學(xué)習(xí)是人工智能的重要研究方向之一,它致力于通過(guò)利用計(jì)算手段,通過(guò)不斷訓(xùn)練樣本來(lái)改變自身的性能,提高預(yù)測(cè)的準(zhǔn)確率[20]。利用機(jī)器學(xué)習(xí)的算法作為計(jì)算機(jī)輔助診斷的工具,通過(guò)構(gòu)建模型判斷影響心力衰竭的重要特征和預(yù)測(cè)心衰患者的死亡率,對(duì)于醫(yī)生診斷及對(duì)后續(xù)治療心力衰竭患者來(lái)說(shuō)具有重要作用。
參考文獻(xiàn):
[1]國(guó)家心血管病醫(yī)療質(zhì)量控制中心專(zhuān)家委員會(huì)心力衰竭專(zhuān)家工作組.2020中國(guó)心力衰竭醫(yī)療質(zhì)量控制報(bào)告[J].中國(guó)循環(huán)雜志,2021,36(3):221-238.
[2]《中國(guó)心血管健康與疾病報(bào)告》編寫(xiě)組.《中國(guó)心血管健康與疾病報(bào)告2020》要點(diǎn)解讀[J].中國(guó)心血管雜志,2021,26(3):209-218.
[3]王麗麗.大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].計(jì)算機(jī)與網(wǎng)絡(luò),2021,47(20):45-47.
[4]蔡莉莉,侯珂珂.基于K近鄰-隨機(jī)森林集成算法的肝病預(yù)測(cè)研究[J].電腦知識(shí)與技術(shù),2020,16(13):204-205,207.
[5]裴天天.基于集成學(xué)習(xí)算法的心腦血管健康管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2021.
[6]Abebe TB,Gebreyohannes EA,Bhagavathula AS,et al.Anemia in severe heart failure patients:does it predict prognosis?[J].BMC Cardiovasc Disord,2017,17(1):248.
[7]Zhang H,Wang R,Zhou H,et al.A Study on the Association between Korotkoff Sound Signaling and Chronic Heart Failure (CHF) Based on Computer-Assisted Diagnoses[J].J Healthc Eng,2022,2022:3226655.
[8]沈夢(mèng)碧,程祉元,肖易飛,等.Python數(shù)據(jù)分析在公共衛(wèi)生領(lǐng)域的應(yīng)用及前景[J].衛(wèi)生職業(yè)教育,2022,40(14):143-145.
[9]汪靖翔.決策樹(shù)算法的原理研究和實(shí)際應(yīng)用[J].電腦編程技巧與維護(hù),2022,446(8):54-56,72.
[10]劉芯溧.基于大數(shù)據(jù)分析的智能客服系統(tǒng)研究[J].自動(dòng)化與儀器儀表,2021,257(3):139-142.
[11]余建軍,張瓊之.基于粗糙集的決策樹(shù)ID3算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(4):156-162.
[12]馬紅麗,徐長(zhǎng)英,楊新鳴.決策樹(shù)模型在中醫(yī)藥領(lǐng)域的應(yīng)用現(xiàn)狀[J].世界中醫(yī)藥,2021,16(17):2648-2651,2656.
[13]秦璇.隨機(jī)森林算法的改進(jìn)及應(yīng)用[D].蘭州:蘭州交通大學(xué),2020.
[14]曹桃云.基于隨機(jī)森林的變量重要性研究[J].統(tǒng)計(jì)與決策,2022,38(4):60-63.
[15]彭巖,馬鈴,張文靜,等.基于集成學(xué)習(xí)的風(fēng)險(xiǎn)預(yù)測(cè)模型研究與應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2022,43(4):956-961.
[16]王禹,陳德運(yùn),唐遠(yuǎn)新.基于Cart決策樹(shù)與boosting方法的股票預(yù)測(cè)[J].哈爾濱理工大學(xué)學(xué)報(bào),2019,24(6):98-103.
[17]傅紅普,鄒北驥.AdaBoost分類(lèi)器的一種快速訓(xùn)練方法[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,42(1):50-57.
[18]張夢(mèng)嬌,葉慶衛(wèi),陸志華.基于模糊弱分類(lèi)器的AdaBoost算法[J].數(shù)據(jù)通信,2021,204(5):35-41.
[19]北京高血壓防治協(xié)會(huì),北京糖尿病防治協(xié)會(huì),北京慢性病防治與健康教育研究會(huì),等.基層心血管病綜合管理實(shí)踐指南2020[J].中國(guó)醫(yī)學(xué)前沿雜志(電子版),2020,12(8):1-73.
[20]高新成,邵國(guó)銘,張海洋,等.改進(jìn)二進(jìn)制麻雀搜索的特征選擇及文本聚類(lèi)[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué),2023,37(8):166-176.