亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Stacking模型的早產(chǎn)預(yù)測方法

        2025-04-10 00:00:00馬金龍史曉月杜麗佳王勝普楊志芬
        河北工業(yè)科技 2025年2期
        關(guān)鍵詞:特征方法模型

        摘 要:

        為了解決傳統(tǒng)機器學(xué)習(xí)模型在早產(chǎn)預(yù)測時綜合性能不足的問題,提出一種基于Stacking模型的早產(chǎn)預(yù)測方法。首先,在數(shù)據(jù)預(yù)處理階段,采用欠采樣技術(shù)平衡正、負(fù)樣本分布,并通過數(shù)據(jù)標(biāo)準(zhǔn)化消除變量間的數(shù)值差異;其次,通過分析特征之間的相關(guān)性和特征重要性分?jǐn)?shù),進(jìn)行特征選擇;然后,在Stacking模型構(gòu)建時,通過分析機器學(xué)習(xí)算法預(yù)測結(jié)果間的皮爾遜相關(guān)系數(shù),調(diào)整基分類器的類型和數(shù)量;最后,利用多種評價指標(biāo)對基于Stacking模型的早產(chǎn)預(yù)測方法進(jìn)行全面評估,并將其與現(xiàn)有方法對比分析,驗證該方法的有效性。結(jié)果表明:所提方法在ROC曲線下面積(area under the curve, AUC)、準(zhǔn)確率(Accuracy)、F1 值和召回率(Recall)方面,分別達(dá)到了0.921 9、0.922 9、0.916 4和0.858 5,均優(yōu)于搭建Stacking模型所用的11個單一模型的最佳表現(xiàn),且整體性能優(yōu)于現(xiàn)有研究方法。所提方法能夠高效識別孕早期的早產(chǎn)高風(fēng)險人群,為早產(chǎn)的提前干預(yù)提供有力支持。

        關(guān)鍵詞:

        人工智能其他學(xué)科;機器學(xué)習(xí);集成學(xué)習(xí);神經(jīng)網(wǎng)絡(luò)模型;早產(chǎn)預(yù)測

        中圖分類號:

        TP181

        文獻(xiàn)標(biāo)識碼:A

        DOI: 10.7535/hbgykj.2025yx02002

        Preterm birth prediction framework under Stacking model

        MA Jinlong1, SHI Xiaoyue1, DU Lijia2, WANG Shengpu2, YANG Zhifen2

        (1.School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China; 2.Obstetrical Department, The Fourth Hospital of Hebei Medical University, Shijiazhuang, Hebei 050035, China)

        Abstract:

        To address the issue of insufficient overall performance of traditional machine learning algorithms in preterm birth prediction, an innovative preterm birth prediction method based on Stacking model was proposed. Firstly, during the data preprocessing stage, an under-sampling technique was applied to balance the distribution of positive and negative samples, and numerical differences between variables were eliminated through data standardization. Secondly, feature selection was carried out by carefully analyzing the correlations between features and assessing their importance scores. Then, in the construction of the Stacking model, the Pearson correlation coefficient was calculated among the prediction results of different machine learning algorithms, and this analysis was used to adjust both the type and number of base classifiers. Finally, a comprehensive evaluation of the preterm birth prediction method based on the Stacking model was conducted using multiple evaluation indicators, and compared and analyzed with existing methods to verify the effectiveness of the method. The results show that the proposed method achieves remarkable performance, with scores of 0.921 9 in AUC, 0.922 9 in Accuracy, 0.916 4 in F1 score, and 0.858 5 in Recall. These results significantly outperform the best performances of the 11 individual models used to build the Stacking model, and the overall performance is better than the existing research methods. The proposed method can effectively identify high-risk individuals for preterm birth in early pregnancy, providing strong support for early intervention in early pregnanly.

        Keywords:

        other disciplines of artificial intelligence; machine learning; integrated learning; neural network model; preterm birth prediction

        近年來,機器學(xué)習(xí)模型在數(shù)據(jù)分析領(lǐng)域的應(yīng)用不斷深化,為疾病預(yù)測研究提供了新的技術(shù)支持 [1-2]。早產(chǎn)是導(dǎo)致新生兒死亡和發(fā)病的主要原因之一[3],其中約有2/3屬于自發(fā)性早產(chǎn),且通常發(fā)生突然[4],這使得孕婦難以獲得及時轉(zhuǎn)診和高質(zhì)量的圍產(chǎn)期服務(wù)。傳統(tǒng)的早產(chǎn)預(yù)測方法成本高昂且耗時長,近年來,研究人員廣泛運用機器學(xué)習(xí)算法進(jìn)行早產(chǎn)預(yù)測。

        通過深入分析臨床早產(chǎn)數(shù)據(jù),機器學(xué)習(xí)模型能夠有效識別與早產(chǎn)相關(guān)的風(fēng)險因素并進(jìn)行早產(chǎn)預(yù)測。MORKEN等[5]使用邏輯回歸模型(logistic regression,LR)進(jìn)行早產(chǎn)預(yù)測,將數(shù)據(jù)劃分為初產(chǎn)婦和經(jīng)產(chǎn)婦2組,結(jié)果顯示ROC曲線下面積(area under the curve,AUC)分別為0.74和0.58。AHADI等[6]收集了600名1~13周孕婦的數(shù)據(jù),運用LR和支持向量機(support vector machine,SVM)[7]模型進(jìn)行預(yù)測,SVM模型的準(zhǔn)確率(Accuracy)為0.67,高于LR模型的0.56。PREMA等[8]提出了基于機器學(xué)習(xí)的早產(chǎn)危險因素識別方法,采用線性SVM、非線性SVM和LR作為預(yù)測模型。這3種模型的Accuracy較高,分別為0.861 1、0.861 1和0.872 3,但召回率(Recall)和F1值較低。RAKESH等[9]研究了居住環(huán)境因素對早產(chǎn)的影響,并比較了特征選擇前后LR模型和決策樹(decision tree,DT)[10]模型的精度,結(jié)果表明LR模型的表現(xiàn)更好。RAJA等[11]通過機器學(xué)習(xí)模型LR、DT和SVM進(jìn)行預(yù)測,發(fā)現(xiàn)SVM模型的Accuracy為0.909 0,但Recall相對較低。盡管上述研究取得了一定成果,但單一模型容易存在偏差,并且不同模型在相同數(shù)據(jù)集上的表現(xiàn)具有較大差異。

        為減少單一模型的偏差,部分研究人員采用混合模型進(jìn)行早產(chǎn)預(yù)測。吳憶娜[12]構(gòu)建了基于門控循環(huán)單元(gate recurrent unit, GRU) 和梯度提升決策樹(gradient boosting decision tree,GBDT)[13]的混合模型進(jìn)行早產(chǎn)預(yù)測。研究結(jié)果表明,該混合模型的預(yù)測能力優(yōu)于單一的GUR模型和GBDT模型,評價指標(biāo)Recall為0.77, AUC值為0.647。然而,混合模型仍然存在對特定數(shù)據(jù)集的依賴,且在提高準(zhǔn)確性和泛化能力方面仍有不足。

        為進(jìn)一步提升早產(chǎn)預(yù)測模型的泛化能力和綜合性能,本文提出了一種基于Stacking模型[14-15]的早產(chǎn)預(yù)測方法。通過欠采樣解決數(shù)據(jù)不平衡的問題,并綜合運用特征重要性和特征相關(guān)性2種特征選擇方法進(jìn)行特征篩選;同時,利用皮爾遜相關(guān)系數(shù)優(yōu)化Stacking模型中基分類器的類型和數(shù)量,充分挖掘各基分類器的優(yōu)勢,從而更準(zhǔn)確地識別孕早期高風(fēng)險早產(chǎn)人群。

        1 預(yù)測方法概述

        基于Stacking模型的早產(chǎn)預(yù)測方法分為3部分:數(shù)據(jù)預(yù)處理、特征選擇以及Stacking模型構(gòu)建,如圖1所示。

        首先,進(jìn)行數(shù)據(jù)預(yù)處理,運用KNN Imputer方法[16]對數(shù)據(jù)缺失值進(jìn)行填補,使用欠采樣方法解決數(shù)據(jù)集中正、負(fù)樣本不平衡的問題,并通過數(shù)據(jù)標(biāo)準(zhǔn)化消除變量間的數(shù)值差異,使數(shù)據(jù)集服從正態(tài)分布。

        其次,進(jìn)行特征選擇,計算11個機器學(xué)習(xí)模型的特征重要性分?jǐn)?shù),分析特征的相關(guān)系數(shù),識別并剔除冗余特征,從而有效降低過擬合風(fēng)險。

        最后,構(gòu)建3層架構(gòu)的Stacking集成學(xué)習(xí)模型。在第1層,通過分析11個機器學(xué)習(xí)模型的預(yù)測結(jié)果間的相關(guān)性,篩選基分類器。篩選出的基分類器包括 LR、SVM、GBDT、Adaboost[17]以及多層感知器(multi-layerperceptron,MLP)。在第2層,對篩選出的基分類器進(jìn)行五折交叉驗證和超參數(shù)優(yōu)化,以提高分類器的性能和魯棒性。在第3層,將優(yōu)化后的基分類器預(yù)測結(jié)果作為輸入,評估11個模型分別作為元分類器的預(yù)測效果,最終選擇MLP作為Stacking模型的元分類器。

        2 研究方法

        2.1 實驗數(shù)據(jù)

        數(shù)據(jù)集來自美國疾病控制預(yù)防中心(CDC)的綜合數(shù)據(jù)庫[18](http://wonder.cdc.gov)。該數(shù)據(jù)庫包含2021年在美國各州登記的出生人口信息,覆蓋了99%以上的出生人口,共計23 458條記錄,其中包括2 692條早產(chǎn)記錄和20 766條非早產(chǎn)記錄,每條記錄包含92個特征。本文分析了21個特征,并以“是否早產(chǎn)”作為目標(biāo)變量進(jìn)行研究。正樣本指發(fā)生早產(chǎn)的個體(目標(biāo)變量為1),負(fù)樣本指未發(fā)生早產(chǎn)的個體(目標(biāo)變量為0)。在研究數(shù)據(jù)中,正、負(fù)樣本的比例為8∶1。研究人群的特征如表1所示。

        2.2 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理流程包括填補數(shù)據(jù)集中的缺失值、進(jìn)行欠采樣處理和實施數(shù)據(jù)標(biāo)準(zhǔn)化操作。

        1)運用KNN Imputer方法對數(shù)據(jù)缺失值進(jìn)行填補。首先,利用歐氏距離矩陣計算出數(shù)據(jù)集中與缺失值相近的k個樣本;然后,計算這k個樣本內(nèi)非空值的平均值,并用該平均值來填補數(shù)據(jù)中的缺失值。

        2)在監(jiān)督分類任務(wù)里,機器學(xué)習(xí)模型往往會過于側(cè)重目標(biāo)變量的多數(shù)類,這就引發(fā)了數(shù)據(jù)不平衡問題,進(jìn)而對模型性能產(chǎn)生負(fù)面影響[19]。針對實驗數(shù)據(jù)中目標(biāo)變量正、負(fù)樣本比例約為8∶1的情況,本文采用的數(shù)據(jù)不平衡處理方法是欠采樣(NearMiss)[20],其原理是通過去除部分多數(shù)樣本使數(shù)據(jù)集達(dá)到平衡。首先,計算正、負(fù)樣本之間的配對距離;然后,根據(jù)計算的距離,刪除距離負(fù)樣本較遠(yuǎn)的正樣本實例。經(jīng)NearMiss處理后的數(shù)據(jù)集正、負(fù)樣本比例接近于1∶1,能夠有效提升模型預(yù)測的準(zhǔn)確性、穩(wěn)定性。

        3)由于數(shù)據(jù)中的各個特征取值范圍的差異較大,取值范圍較大的特征可能在模型訓(xùn)練過程中占據(jù)主導(dǎo)地位,從而對模型權(quán)重產(chǎn)生較大的影響,而取值范圍較小但同樣重要的特征就可能被忽視。為了解決這一問題,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除變量間的數(shù)值差異,使所有特征在模型中具有相同的權(quán)重。標(biāo)準(zhǔn)化的核心是將數(shù)據(jù)轉(zhuǎn)換為均值為 0、標(biāo)準(zhǔn)差為 1 的正態(tài)分布,其轉(zhuǎn)化公式為

        z=χ-μσ,

        (1)

        式中:χ是特征的原始值;μ是該特征的均值;σ是其標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)化不僅可以平衡特征對模型的影響,還能提高模型的訓(xùn)練效率和預(yù)測性能。

        完成數(shù)據(jù)標(biāo)準(zhǔn)化后,采用分層抽樣將數(shù)據(jù)集按8∶2的比例劃分為訓(xùn)練集和測試集,并確保正、負(fù)樣本比例在兩者中保持一致,即訓(xùn)練集和測試集中的正、負(fù)樣本比均為1∶1。

        2.3 特征選擇

        特征選擇旨在篩選出對機器學(xué)習(xí)模型預(yù)測性能至關(guān)重要的特征[21],以提高訓(xùn)練效率并降低過擬合風(fēng)險,從而增強模型的整體性能[22]。原始數(shù)據(jù)集包含21個特征。在特征選擇過程中,綜合考慮11個機器學(xué)習(xí)模型計算的平均特征重要性分?jǐn)?shù)和特征相關(guān)性,剔除相關(guān)性高且平均特征重要性較低的冗余特征,從而優(yōu)化模型訓(xùn)練過程并提升預(yù)測性能。

        首先,對特征相關(guān)性進(jìn)行分析。在相關(guān)性熱圖中,顏色越深表示特征間相關(guān)性越高,顏色越淺表示特征間相關(guān)性越低。圖2直觀展示了數(shù)據(jù)集中21個特征的兩兩相關(guān)性系數(shù)。由圖可見,2個特征組的相關(guān)性較高:一組為第1、2、3個妊娠期吸煙數(shù)(Cig1、Cig2、Cig3);另一組為自上次妊娠間隔(Ilp)和自上次活產(chǎn)間隔(Illb)。

        然后,通過11個機器學(xué)習(xí)模型分別計算21個特征的重要性分?jǐn)?shù),并對其取平均值,得到平均特征重要性,如圖3所示。

        在特征選擇過程中,過濾掉相關(guān)性較高且平均特征重要性較低的2個特征:Cig1和Illb。

        2.4 Stacking模型構(gòu)建

        所構(gòu)建的Stacking模型分為3層,其中第1層和第2層是基礎(chǔ)層,第3層是元層。在第1層設(shè)置了11個具有廣泛代表性的機器學(xué)習(xí)模型,分別是DT、SVM、LR、MLP、GBDT、LightGBM[23]、 XGBoost[24]、CatBoost[25]、AdaBoost、隨機森林(random forest,RF)[26]以及極端隨機樹分類器(extra trees classifier,ETC)[27],根據(jù)機器學(xué)習(xí)模型預(yù)測結(jié)果間的皮爾遜相關(guān)系數(shù)分步篩選出5個基分類器。在第2層對篩選出的5個基分類器進(jìn)行五折交叉驗證以及超參數(shù)優(yōu)化,以提升模型精度及泛化能力。在第3層將11個機器學(xué)習(xí)模型逐一設(shè)為Stacking模型的元分類器,統(tǒng)計分析Stacking模型的預(yù)測結(jié)果,選擇效能最優(yōu)的機器學(xué)習(xí)模型作為元分類器。Stacking模型的分層集成框架如圖4所示。

        2.4.1 基分類器篩選

        第1層是基分類器的篩選過程,當(dāng)選擇11個機器學(xué)習(xí)模型作為基分類器時,Stacking模型的 AUC 值為0.901 9。在圖4 a)中,M1-M11表示11種機器學(xué)習(xí)模型。研究表明,Stacking模型中基分類器的數(shù)量會影響模型整體性能[28],且基分類器之間應(yīng)保持獨立,即預(yù)測結(jié)果間的皮爾遜相關(guān)系數(shù)要低。為此,對11種模型的預(yù)測結(jié)果進(jìn)行了皮爾遜相關(guān)性分析,并逐步剔除相關(guān)系數(shù)最高的算法,最終確定5個基分類器。

        圖5展示了11個機器學(xué)習(xí)模型預(yù)測結(jié)果的皮爾遜相關(guān)系數(shù),

        其中RF、XGBoost、LightGBM、CatBoost以及AdaBoost之間存在較高的相關(guān)性。為降低Stacking模型基分類器的冗余性,進(jìn)行第1次調(diào)整實驗,評估相關(guān)性較高的5個機器學(xué)習(xí)模型對Stacking模型性能的影響。具體方法是進(jìn)行5組實驗,每組僅保留RF、XGBoost、LightGBM、CatBoost或 AdaBoost之一,并與其余6個機器學(xué)習(xí)模型共同作為Stacking模型的基分類器進(jìn)行訓(xùn)練,同時使用11個機器學(xué)習(xí)模型依次作為元分類器進(jìn)行預(yù)測。第1次調(diào)整中5組實驗的AUC結(jié)果對比如圖6所示,其中AdaBoost組的AUC值最高(0.920 9),因此被保留。

        在第1次調(diào)整后,DT、ETC和GBDT仍存在且均為結(jié)構(gòu)相似的樹模型,為進(jìn)一步降低Stacking模型的冗余并提升基分類器的多樣性,第2次調(diào)整實驗旨在僅保留其中1個。具體方法是進(jìn)行3組實驗每組僅保留DT、ETC或GBDT之一,并與其余4個機器學(xué)習(xí)模型共同作為Stacking模型的基分類器進(jìn)行訓(xùn)練,

        同時使用11個機器學(xué)習(xí)模型依次作為元分類器進(jìn)行預(yù)測。第2次調(diào)整中3組實驗的AUC結(jié)果對比如圖7所示,GBDT組的AUC值最高(0.921 9),因此被保留。最終,篩選出5個相關(guān)性較低且性能優(yōu)越的基分類器:LR、SVM、GBDT、MLP 和 AdaBoost。

        2.4.2 五折交叉驗證

        在Stacking模型的第2層,采用五折交叉驗證對基分類器進(jìn)行訓(xùn)練,并通過超參數(shù)優(yōu)化提升模型性能。在訓(xùn)練過程中,使用網(wǎng)格搜索調(diào)整各基分類器的關(guān)鍵參數(shù),例如,SVM可調(diào)節(jié)懲罰參數(shù)C和核函數(shù)參數(shù)gamma。網(wǎng)格搜索在計算資源允許的范圍內(nèi)尋找最優(yōu)超參數(shù)組合,以提升模型性能和泛化能力。各基分類器經(jīng)過調(diào)整后的關(guān)鍵參數(shù)如表2所

        示。在進(jìn)行超參數(shù)優(yōu)化前,需要先將原數(shù)據(jù)集劃分

        為訓(xùn)練集和測試集,其中訓(xùn)練集用于參數(shù)調(diào)優(yōu),測試集用于性能評估。為避免固定劃分導(dǎo)致評估不穩(wěn)定,采用交叉驗證以提高評估的可靠性和穩(wěn)健性。

        在圖4 a)中,M1—M5和t_M1—t_M5分別指代基分類器被訓(xùn)練集訓(xùn)練前后的狀態(tài),訓(xùn)練集對應(yīng)的訓(xùn)練結(jié)果為p_M1—p_M5。經(jīng)五折交叉驗證后,把測試集輸入經(jīng)過訓(xùn)練后的基分類器得出預(yù)測結(jié)果(tp_M1—tp_M5)。五折交叉驗證通過多次隨機劃分?jǐn)?shù)據(jù)并取平均值,有效降低模型評估的隨機性,能夠更全面地評估模型的性能。此外,在五折交叉驗證過程中,Stacking 模型在不同數(shù)據(jù)集上反復(fù)訓(xùn)練和評估,能夠全面驗證其泛化能力。以基分類器Mi為例,其五折交叉驗證過程如圖4 b)所示。如圖所示,基分類器的預(yù)測組呈交錯分布,經(jīng)過交叉驗證后可獲得整個訓(xùn)練集的預(yù)測結(jié)果(p_Mi)。并且,在基分類器的每一輪迭代中,將五折交叉驗證所產(chǎn)生的5組預(yù)測值進(jìn)行算術(shù)平均運算,從而得出測試集的預(yù)測結(jié)果(tp_Mi)。

        2.4.3 元分類器篩選

        第3層是篩選Stacking模型元分類器的過程。首先,將第2層中基分類器的預(yù)測結(jié)果作為新數(shù)據(jù)集;其次,依次使用11個機器學(xué)習(xí)模型作為元分類器進(jìn)行訓(xùn)練;然后,通過多種評估指標(biāo)計算每個模型的性能分?jǐn)?shù),如表3所示;最后,選擇在各評價指標(biāo)中表現(xiàn)最好的MLP作為最終的元分類器。

        綜上所述,Stacking集成學(xué)習(xí)模型的基分類器由5種異構(gòu)模型組成:LR、SVM、GBDT、AdaBoost和MLP,元分類器擇優(yōu)選用MLP。

        3 實驗與結(jié)果分析

        3.1 實驗環(huán)境

        實驗在筆記本電腦上進(jìn)行,該電腦預(yù)裝Windows 11操作系統(tǒng)。實驗過程中,使用Python語言進(jìn)行編程,并借助Scikit-learn框架完成預(yù)測模型的訓(xùn)練與評估。Scikit-learn框架提供豐富的機器學(xué)習(xí)算法和

        工具,支持?jǐn)?shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練與優(yōu)化及評估。筆記本電腦硬件配置中:CPU為Intel Core i5 1.80 GHz(英特爾公司提供);內(nèi)存為8 GB RAM(三星電子(中國)公司提供)和500 GB SSD(金士頓科技公司提供)。軟件環(huán)境包括Anaconda 2023.09、Python 3.9.13和Jupyter Notebook 6.5.4。

        3.2 評價指標(biāo)

        衡量方法性能的指標(biāo)包括Accuracy、AUC值、Recall、F1值[29],這些常用的分類器評估指標(biāo)可以全面地反映模型表現(xiàn)。

        在ROC曲線中,橫坐標(biāo)為假陽性率( FPR),縱坐標(biāo)是真陽性率(TPR)。通常,ROC曲線處于y=x之上,并且越接近于左上角,表示模型靈敏度越高,誤判率越低,整體性能越優(yōu)。AUC值用于量化ROC曲線下面積,以評估模型的判別能力。當(dāng)AUC值為1時,表明該模型在早產(chǎn)預(yù)測中的表現(xiàn)極佳;而AUC值為0.5,則意味著模型無法有效區(qū)分陽性和陰性樣本,即不具備預(yù)測能力。

        3.3 結(jié)果分析

        3.3.1 特征選擇前后的預(yù)測結(jié)果分析

        特征選擇過程中篩選掉的冗余特征為Cig1和Illb。

        在使用AUC值、Accuracy、Recall以及F1值作為評價指標(biāo)的情況下,對11個機器學(xué)習(xí)模型在特征選擇前后的預(yù)測結(jié)果進(jìn)行了對比分析,結(jié)果如表4所示。其中,CatBoost模型在特征選擇前后,4個評價指標(biāo)均未出現(xiàn)顯著差異。而SVM模型的AUC值、Accuracy和F1值以及AdaBoost模型的Recall值雖然有所下降,但降幅在0.005 7以內(nèi),差異無統(tǒng)計學(xué)意義。除了上述評價指標(biāo)外,其他模型的各項評價指標(biāo)均呈上升趨勢,表明所采用的特征選擇方法能夠有效提升模型的泛化能力。

        3.3.2 基于Stacking模型的早產(chǎn)預(yù)測方法的結(jié)果分析

        11個單一機器學(xué)習(xí)模型在不同評價指標(biāo)上各具優(yōu)勢,而所提出的Stacking集成學(xué)習(xí)模型在Accuracy、Recall、F1值和AUC值等多項指標(biāo)上均表現(xiàn)優(yōu)異,具體結(jié)果見表5。相比單一模型在各評價指標(biāo)上的最佳表現(xiàn),Stacking模型進(jìn)一步提升了預(yù)測性能,其中:AUC值從0.901 9提升至0.921 9,提升約2.22%;Accuracy從0.903 4提升至0.922 9,提升約2.16%;Recall從0.826 4提升至 0.858 5,提升約3.88%;F1值從0.892 9提升至0.916 4,提升約2.63%。此外,Stacking 模型的ROC曲線如圖8所示。結(jié)果表明,所提出的模型能夠有效融合單一機器學(xué)習(xí)模型的優(yōu)勢,顯著提升整體性能。

        3.4 與現(xiàn)有早產(chǎn)預(yù)測方法的對比分析

        本文提出的基于Stacking集成學(xué)習(xí)模型的早產(chǎn)預(yù)測方法通過計算各機器學(xué)習(xí)模型預(yù)測結(jié)果間的皮爾遜相關(guān)系數(shù),優(yōu)化基分類器的類型和數(shù)量,以提升預(yù)測性能。為驗證該方法的優(yōu)越性,將其與現(xiàn)有的早產(chǎn)預(yù)測方法進(jìn)行對比,具體結(jié)果如表6所示。

        PREMA等[8]提出的基于機器學(xué)習(xí)的早產(chǎn)危險因素識別方法采用線性SVM、非線性SVM以及LR作為預(yù)測模型,并運用合成少數(shù)類過采樣技術(shù)(SMOTE)處理數(shù)據(jù)的不平衡問題。其中,

        在未進(jìn)行數(shù)據(jù)平衡處理的模型分別標(biāo)記為線性SVM1、非線性SVM1和LR1,而經(jīng)過SMOTE處理后的模型分別標(biāo)記為線性SVM2、非線性SVM2和LR2。在未進(jìn)行數(shù)據(jù)平衡處理時,線性SVM1與非線性SVM1模型的F1值為0,LR1 的Recall和F1值較低,分別為0.214 3 和0.352 2。運用SMOTE平衡數(shù)據(jù)集后,雖然線性SVM2與非線性SVM2模型的評價指標(biāo)Accuracy和Recall略有下降,但F1值顯著提升,超過0.74;LR2的Accuracy略微下降,但Recall和F1值顯著上升,均超過0.70。這表明數(shù)據(jù)平衡處理有效提升了模型的性能。RAJA等[11]提出的基于機器學(xué)習(xí)的早產(chǎn)預(yù)測方法采用DT、LR 和SVM作為預(yù)測模型。實驗結(jié)果表明,SVM分類器的Accuracy達(dá)到0.909 0,相較于DT和LR模型表現(xiàn)更為優(yōu)越。

        在表6中可以看出,與以上研究相比,本文所提出的基于Stacking集成學(xué)習(xí)模型的早產(chǎn)預(yù)測方法在評價指標(biāo)上表現(xiàn)更全面,而且此前2項研究缺少AUC值這一關(guān)鍵衡量指標(biāo)。盡管基于Stacking集成學(xué)習(xí)模型的早產(chǎn)預(yù)測方法在Recall值上較低,但其Accuracy和F1值卻有顯著提高。F1值作為精確率與召回率的調(diào)和平均數(shù),有效平衡了Stacking集成學(xué)習(xí)的模型精確性與完整性,進(jìn)一步證明了該方法在優(yōu)化整體預(yù)測性能方面的優(yōu)勢。綜上所述,該方法在多個評價指標(biāo)上均表現(xiàn)優(yōu)異,顯著提高了早產(chǎn)預(yù)測模型的綜合性能。

        4 結(jié) 語

        針對傳統(tǒng)機器學(xué)習(xí)模型在早產(chǎn)預(yù)測中的局限性,本文提出了一種基于Stacking模型的預(yù)測方法,通過集成多個基分類器的預(yù)測結(jié)果,并利用元分類器對其進(jìn)行學(xué)習(xí)和優(yōu)化,提升了早產(chǎn)預(yù)測的整體性能。主要研究結(jié)論如下。

        1)在特征選擇前后,11個機器學(xué)習(xí)模型中,AdaBoost、CatBoost和SVM模型預(yù)測結(jié)果的變化不顯著,而其他模型預(yù)測結(jié)果的評價指標(biāo)普遍提升,表明特征選擇有效增強了大部分機器學(xué)習(xí)模型的性能和泛化能力,從而提高了預(yù)測的準(zhǔn)確性和穩(wěn)定性。

        2)相比構(gòu)建時所使用的單一模型,Stacking模型在各評價指標(biāo)上的提升幅度均超過2%。具體而言,AUC值從0.901 9提升至0.921 9,提升約2.22%;Accuracy從0.903 4提升至0.922 9,提升約2.16%;Recall從0.826 4提升至0.858 5,提升約3.88%;F1值從0.892 9提升至0.916 4,提升約2.63%。Stacking模型顯著提升了早產(chǎn)預(yù)測的整體性能。

        3)與現(xiàn)有研究相比,Stacking模型的AUC值為0.921 9,展示了較強的分類能力;同時,Accuracy為0.922 9,優(yōu)于RAJA[11]所提早產(chǎn)預(yù)測法,進(jìn)一步提高了預(yù)測準(zhǔn)確性。盡管Recall較低,但F1值達(dá)到了0.916 4,顯著優(yōu)于以往研究方法,證明了該方法在平衡精度與Recall方面的優(yōu)勢。所提方法較現(xiàn)有研究在整體性能上有了顯著提升,在分類能力和整體性能上具有顯著優(yōu)勢。

        盡管所提出的方法在早產(chǎn)預(yù)測中表現(xiàn)出較高的性能,但目前僅用于預(yù)測是否早產(chǎn),尚未考慮對早產(chǎn)風(fēng)險進(jìn)行分層預(yù)測。未來研究將結(jié)合統(tǒng)計分析方法,采用四分位間距法確定Stacking模型預(yù)測概率的截斷值,將早產(chǎn)風(fēng)險劃分為4個層次:低風(fēng)險、中風(fēng)險、中高風(fēng)險和高風(fēng)險,從而實現(xiàn)風(fēng)險分層預(yù)測。這一改進(jìn)將進(jìn)一步提高預(yù)測的精準(zhǔn)度和可靠性,為早產(chǎn)防控措施的制定提供更為科學(xué)的依據(jù)。

        參考文獻(xiàn)/References:

        [1]

        HOFFMAN M.Prediction and prevention of spontaneous preterm birth:ACOG practice bulletin,number 234[J].Obstetrics and Gynecology, 2021, 138(6):945-946.

        [2] KOTELUK O,WARTECKI A,MAZUREK S,et al.How do machines learn?Artificial intelligence as a new era in medicine[J].Journal of Personalized Medicine,2021,11(1):32.

        [3] LIU Li,OZA S,HOGAN D,et al.Global,regional,and national causes of child mortality in 2000-13,with projections to inform post-2015 priorities:An updated systematic analysis[J].The Lancet,2015,385(9966):430-440.

        [4] MURRAY C J L,VOS T,LOZANO R,et al.Disability-adjusted life years (DALYs) for 291 diseases and injuries in 21 regions,1990-2010:A systematic analysis for the Global Burden of Disease Study 2010[J].The Lancet,2012,380(9859):2197-2223.

        [5] MORKEN N H,KLLEN K,JACOBSSON B.Predicting risk of spontaneous preterm delivery in women with a singleton pregnancy[J].Paediatric and Perinatal Epidemiology,2014,28(1):11-22.

        [6] AHADI B,MAJD H,KHODAKARIM S,et al.Using support vector machines in predicting and classifying factors affecting preterm delivery[J].Paramedical Sciences,2016,7(3):37-42.

        [7] DANENAS P,GARSVA G.Credit risk evaluation modeling using evolutionary linear SVM classifiers and sliding window approach[J].Procedia Computer Science,2012,9:1324-1333.

        [8] PREMA N S,PUSHPALATHA M P.Machine learning approach for preterm birth prediction based on maternal chronic conditions[C]//Emerging Research in Electronics, Computer Science and Technology.Singapore:Springer,2019:581-588.

        [9] RAKESH R,INDRAJIT M,KANTI S B.A systematic review of healthcare big data[J].Scientific Programming,2020(1):5471849.

        [10]SONG Yanyan,LU Ying.Decision tree methods:Applications for classification and prediction[J].Shanghai Archives of Psychiatry,2015,27(2):130-135.

        [11]RAJA R,MUKHERJEE I,SARKAR B K.A machine learning-based prediction model for preterm birth in rural India[J].Journal of Healthcare Engineering,2021,2021:6665573.

        [12]吳憶娜.基于特征融合和深度學(xué)習(xí)的孕婦分娩時間預(yù)測模型的研究[D].杭州:杭州師范大學(xué),2021.

        WU Yina.Study on Prediction of Maternal Delivery Time Based on Feature Fusion and Deep Learning[D].Hangzhou:Hangzhou Normal University,2021.

        [13]RTSCH G,ONODA T,MLLER K R.Softmargins for AdaBoost[J].Machine Learning,2001,42(3):287-320.

        [14]WOLPERT D H.Stacked generalization[J].Neural Networks,1992,5(2):241-259.

        [15]王鵬,曹麗惠,阮冬茹.基于Stacking模型融合的店鋪銷量預(yù)測[J].河北工業(yè)科技,2022,39(3):204-209.

        WANG Peng,CAO Lihui,RUAN Dongru.Store sales forecast based on Stacking model fusion[J].Hebei Journal of Industrial Scienceand Technology,2022,39(3):204-209.

        [16]JUNA A,UMER M,SADIQ S,et al.Water quality prediction using KNN imputer and multilayer perceptron[J].Water,2022,14(17): 2592.

        [17]YE J,CHOW J H,CHEN Jiang,et al.Stochastic gradient boosted distributed decision trees[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management.Hong Kong:ACM,2009:2061-2064.

        [18]OSTERMAN M J K, HAMILTON B E, MARTIN J A, et al. Births:Final data for 2021[J]. National Vital Statistics System,2023,72 (1):1-53.

        [19]LI D C,LIU C W,HU S C.A learning method for the class imbalance problem with medical data sets[J].Computers in Biology and Medicine,2010,40(5):509-518.

        [20]LAURIKKALA J.Improving identification of difficult small classes by balancing class distribution[C]//Artificial Intelligence in Medicine.Berlin Heidelberg:Springer,2001:63-66.

        [21]張永弟,王浩楠,王偉志,等.改進(jìn)PCA方法的牙頜特征提取和數(shù)據(jù)集構(gòu)建[J].河北工業(yè)科技,2024,41(3):212-219.

        ZHANG Yongdi,WANG Haonan,WANG Weizhi,et al.Dental feature extraction and data set construction based on improved PCA method[J].Hebei Journal of Industrial Science and Technology,2024,41(3):212-219.

        [22]MAHENDRAN N,VINCENT R.Effective classification of major depressive disorder patients using machine learning techniques[J].Recent Patents on Computer Science,2019,12(1):41-48.

        [23]LIAO Hualong,ZHANG Xinyuan,ZHAO Can,et al.LightGBM:An efficient and accurate method for predicting pregnancy diseases[J].Journal of Obstetrics and Gynaecology,2022,42(4):620-629.

        [24]CHEN Tianqi,GUESTRIN C.XGBoost:A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco:ACM,2016:785-794.

        [25]FAN Zongwen,GOU Jin,WENG Shaoyuan.A featureimportance-based multi-layer CatBoost for student performance prediction[J].IEEE Transactions on Knowledge and Data Engineering,2024,36(11):5495-5507.

        [26]CUTLER D R,EDWARDS T C J,BEARD K H,et al.Random forests for classification in ecology[J].Ecology,2007,88(11):2783-2792.

        [27]GEURTS P,ERNST D,WEHENKEL L.Extremely randomized trees[J].Machine Learning,2006,63(1):3-42.

        [28]MOHAPATRA S,MANEESHA S,PATRA P K,et al.Heart diseases prediction based on stacking classifiers model[J].Procedia Computer Science,2023,218:1621-1630.

        [29]EBERHART C,DOBBINS W,HUTTON V.Performance metrics[M]//Neural Network PC Tools:A Practical Guide.USA:Academic Press Professional Inc,1990:161-176.

        收稿日期:2024-03-14;修回日期:2024-10-25;責(zé)任編輯:丁軍苗

        基金項目:河北省自然科學(xué)基金(H2022206212,H2022206600);河北省醫(yī)學(xué)科學(xué)研究課題計劃 (20210715,20230775,20240817)

        第一作者簡介:

        馬金龍(1981—),男,河北定州人,副教授,博士,主要從事生物信息學(xué)方面的研究。

        通信作者:

        楊志芬副教授。E-mail:cxsxfy@126.com

        馬金龍,史曉月,杜麗佳,等.

        基于Stacking模型的早產(chǎn)預(yù)測方法

        [J].河北工業(yè)科技,2025,42(2):111-119.

        MA Jinlong,SHI Xiaoyue,DU Lijia,et al.

        Preterm birth prediction framework under Stacking model

        [J]. Hebei Journal of Industrial Science and Technology,2025,42(2):111-119.

        猜你喜歡
        特征方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国内精品国产三级国产avx| 国产精品_国产精品_k频道| 人妻丰满熟妇av无码处处不卡| 精品久久人人妻人人做精品| 亚洲女人被黑人巨大进入| 成年女人免费v片| 日本一区二区久久精品亚洲中文无| 国产成av人在线观看| 男男亚洲av无一区二区三区久久 | 精品人妻va一区二区三区| av 日韩 人妻 黑人 综合 无码| 日本丰满熟妇bbxbbxhd| 亚洲tv精品一区二区三区| 2017天天爽夜夜爽精品视频 | 国产精品又爽又粗又猛又黄| 亚洲av区,一区二区三区色婷婷| 老妇高潮潮喷到猛进猛出| 一二三四区中文字幕在线| 亚洲av无码国产精品色午夜字幕| 久久久亚洲色| 1234.com麻豆性爰爱影| 一本久道在线视频播放| 老女老肥熟女一区二区| 国产精品久久久久久久久免费| 啪啪视频一区二区三区入囗| 亚洲综合久久久中文字幕| 插入日本少妇一区二区三区| 国产精品你懂的在线播放| 国产乱沈阳女人高潮乱叫老| 杨幂国产精品一区二区| 天堂网日韩av在线播放一区| 色综合久久无码五十路人妻 | 国产一区二区在线观看视频免费 | 97人妻精品一区二区三区| 亚洲av无码一区二区乱子伦| 男女上床视频免费网站| 亚洲av午夜福利一区二区国产| 欧美老妇牲交videos| 亚洲av无码一区二区三区不卡| 亚洲av国产av综合av| 国内色精品视频在线网址|