亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Boosting算法結(jié)合SMOTE技術(shù)在青年男男性行為者HIV感染預(yù)測中的應(yīng)用*

        2022-03-17 08:09:14天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系300070
        中國衛(wèi)生統(tǒng)計(jì) 2022年1期
        關(guān)鍵詞:分類特征模型

        天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(300070)

        王肖萌 宋德勝 張?zhí)鹛?常琴雪 王 淳 王柯云 劉媛媛 李長平 崔 壯△ 馬 駿

        【提 要】 目的 評(píng)價(jià)Boosting算法結(jié)合SMOTE技術(shù)預(yù)測青年男男性行為者(YMSM)HIV感染狀況的性能。 方法 通過網(wǎng)絡(luò)和現(xiàn)場抽取2018-2019年天津市YMSM 1179名,分別用XGBoost、LightGBM、CatBoost和logistic結(jié)合SMOTE技術(shù)建立預(yù)測模型,通過AUC、F1、Accuracy、Brier score等指標(biāo)評(píng)價(jià)其分類性能。 結(jié)果 應(yīng)用SMOTE合成數(shù)據(jù)后,logistic、CatBoost、LightGBM和XGBoost的AUC分別提升了23.4%、24.0%、25.4%和26.8%,Boosting算法的分類性能優(yōu)于logistic模型。 結(jié)論 Boosting算法結(jié)合SMOTE技術(shù)為類不平衡數(shù)據(jù)的分類預(yù)測提供了新思路。

        近年來,男男性行為者(men who have sex with men,MSM)由于其高危行為已成為HIV感染的關(guān)鍵人群[1]。而近期調(diào)查數(shù)據(jù)顯示,我國MSM人群中25歲以下青年人正不斷增加,已達(dá)到30%左右[2-3]。截至2019年,我國青年男男性行為者(YMSM)HIV感染率已達(dá)到5.6%[4]。沖動(dòng)冒險(xiǎn)、資金缺乏、社會(huì)歧視、家庭學(xué)校壓力、首次肛交年齡呈不斷下降趨勢[5]等均促成了YMSM的高感染低檢測現(xiàn)狀。因此,構(gòu)建科學(xué)準(zhǔn)確的YMSM人群 HIV感染的預(yù)測模型,對(duì)于及時(shí)發(fā)現(xiàn)早期的HIV感染者、減少YMSM人群HIV的傳播具有重要意義。

        近年來,機(jī)器學(xué)習(xí)技術(shù)蓬勃發(fā)展,越來越被用于解決各種醫(yī)療問題或結(jié)果預(yù)測[6],而Boosting算法是機(jī)器學(xué)習(xí)中較為優(yōu)秀的集成算法。因此,本研究使用Boosting集成學(xué)習(xí)算法(XGBoost,LightGBM和CatBoost)和logistic模型對(duì)YMSM的原始HIV感染數(shù)據(jù)和基于SMOTE-NC的合成數(shù)據(jù)進(jìn)行擬合,比較Boosting算法和logistic回歸在應(yīng)用于YMSM HIV感染數(shù)據(jù)時(shí)的分類效能,為YMSM人群HIV感染的預(yù)測建模提供科學(xué)依據(jù)。

        對(duì)象和方法

        1.研究對(duì)象

        本研究共選取2018-2019年在天津市深藍(lán)公共衛(wèi)生咨詢服務(wù)中心進(jìn)行過HIV咨詢與檢測(HCT)的YMSM 1179名。納入標(biāo)準(zhǔn)包括:16~24周歲,近6個(gè)月與男性發(fā)生過肛交性行為。收集的數(shù)據(jù)包括基本人口學(xué)信息(年齡、性向、文化程度等)、性行為信息(首次性行為年齡、精神物質(zhì)使用、近1周同性肛交次數(shù)、安全套使用情況等)、HIV知曉信息(近1年接受HCT及同伴教育服務(wù)、聽說過PrEP等)和HIV感染信息(既往HIV檢測、梅毒感染等)。

        2.基本原理

        (1)Boosting算法

        XGBoost在傳統(tǒng)的梯度提升樹(GBDT)上進(jìn)行了優(yōu)化,它在擬合樹模型時(shí),使用了預(yù)排序算法,在樹生長時(shí)遍歷所有切分點(diǎn),在找到最優(yōu)切分點(diǎn)后對(duì)數(shù)據(jù)進(jìn)行葉子節(jié)點(diǎn)的劃分。最終將葉子節(jié)點(diǎn)的分?jǐn)?shù)相加得到樣本的預(yù)測值。并且,它在計(jì)算時(shí)支持并行,內(nèi)置處理缺失值的規(guī)則,擁有很大的靈活性,可以提供更高的運(yùn)行速度和更低的內(nèi)存消耗[7]。

        LightGBM在XGBoost的基礎(chǔ)上作了進(jìn)一步的改造。LightGBM使用直方圖算法和按葉子節(jié)點(diǎn)分割的樹生長策略,大大減少了計(jì)算和內(nèi)存代價(jià),因而在保持模型精度的同時(shí)加快了訓(xùn)練速度。此外,LightGBM在模型中增加了樹的最大深度限制,一定程度上避免了按葉子節(jié)點(diǎn)分割導(dǎo)致的過擬合問題[8]。

        CatBoost以對(duì)稱樹作為基學(xué)習(xí)器,在訓(xùn)練過程中采用Target-based方式處理類別特征。因此,當(dāng)數(shù)據(jù)集中絕大多數(shù)特征都是類別特征時(shí),CatBoost可以高效合理地處理這些特征。 另外,它減少了對(duì)廣泛的超參數(shù)優(yōu)化的需要,采用默認(rèn)參數(shù)往往就可以獲得很好的效果,有助于減少預(yù)測時(shí)間,避免過擬合[9]。

        (2)logistic回歸

        logistic模型利用logistic函數(shù)將二分類問題轉(zhuǎn)化為連續(xù)型條件概率問題。假設(shè)有n個(gè)觀測樣本,觀測值分別為y1,y2,y3…yn,在給定xi的條件下,令y=1的概率記為pi。則可得到logistic模型的對(duì)數(shù)似然函數(shù):

        在機(jī)器學(xué)習(xí)中,經(jīng)常在上式中加入L1、L2或Elastic-Net正則項(xiàng)以增加結(jié)果的穩(wěn)定性[10]。

        (3)SMOTE-NC

        YMSM人群HIV感染的資料通常是類不平衡數(shù)據(jù)。已有的機(jī)器學(xué)習(xí)方法在應(yīng)用于極不平衡數(shù)據(jù)或混合類型數(shù)據(jù)時(shí)通常不能提供太大的分類改進(jìn)[11]。SMOTE是過采樣技術(shù)中調(diào)整類不平衡數(shù)據(jù)類別比例的代表方法,這種方法有效地使少數(shù)類決策區(qū)域變得一般化,放大了少數(shù)類的特征[12]。

        在面對(duì)分類特征時(shí),SMOTE無法直接對(duì)其計(jì)算距離,SMOTE-NC提供了解決辦法,它的核心思想是取k個(gè)近鄰樣本中出現(xiàn)頻率最高的樣本值作為新樣本的變量值[12]。本研究采用SMOTE-NC合成新樣本。

        3.統(tǒng)計(jì)學(xué)方法

        (1)單因素分析

        本研究采用Wilcoxon秩和檢驗(yàn)和卡方檢驗(yàn)分別對(duì)定量變量和分類變量進(jìn)行分析,檢驗(yàn)水準(zhǔn)α=0.05。

        (2)模型訓(xùn)練與評(píng)價(jià)

        本研究采用10×5折交叉驗(yàn)證對(duì)數(shù)據(jù)集進(jìn)行擬合,使用SMOTE-NC進(jìn)行少數(shù)類樣本的合成,最終得到1592例樣本(陽性∶陰性=1∶1)。

        本研究使用XGBoost、LightGBM、CatBoost和logistic模型分別對(duì)原始數(shù)據(jù)和合成數(shù)據(jù)進(jìn)行擬合,使用F1,AUC,Accuracy和Brier score對(duì)模型的分類性能進(jìn)行評(píng)價(jià),并繪制校準(zhǔn)曲線圖視化模型的校準(zhǔn)度。各指標(biāo)含義及計(jì)算公式[13-15]見表1。

        表1 模型評(píng)價(jià)指標(biāo)

        本研究使用SAS 9.4進(jìn)行單因素分析,Python3.7.6進(jìn)行3種Boosting算法和logistic回歸模型的擬合。

        結(jié) 果

        1.一般情況及單因素分析

        本研究納入YMSM 1179例,其中HIV感染者66例,HIV感染率5.6%。

        以是否HIV感染對(duì)指標(biāo)進(jìn)行單因素分析后,年齡、文化程度、本地居住時(shí)間、精神物質(zhì)使用等變量有統(tǒng)計(jì)學(xué)意義,詳見表2。

        表2 單因素分析結(jié)果

        2.四種模型在原始數(shù)據(jù)集的表現(xiàn)

        表3顯示了四種算法應(yīng)用于原始數(shù)據(jù)的結(jié)果。就測試集而言,logistic的分類效能最優(yōu)(AUC 0.750,Accuracy 94.7%),但Brier score較低,事件預(yù)測概率的精度較小。Catboost雖Accuracy高,但其F1值為0,且在訓(xùn)練集上的表現(xiàn)差。

        表3 原始數(shù)據(jù)四種算法的評(píng)價(jià)指標(biāo)比較

        3.四種模型在合成數(shù)據(jù)集的表現(xiàn)

        表4顯示了4種算法應(yīng)用于合成數(shù)據(jù)的結(jié)果,圖1是算法在測試集上的表現(xiàn)。與原始數(shù)據(jù)結(jié)果相比,logistic、CatBoost、LightGBM、和XGBoost的AUC分別提升了23.4%、24.0%、25.4%和26.8%。3種Boosting算法的F1值、AUC及準(zhǔn)確度均高于logistic回歸,分類性能更優(yōu)。XGBoost、LightGBM和CatBoost之間的結(jié)果沒有明顯差異。

        表4 合成數(shù)據(jù)四種算法的評(píng)價(jià)指標(biāo)比較

        圖1 合成數(shù)據(jù)4種算法評(píng)價(jià)指標(biāo)雷達(dá)圖

        圖2顯示了4種算法的校準(zhǔn)曲線,橫坐標(biāo)為事件預(yù)測發(fā)生率,縱坐標(biāo)為陽性事件實(shí)際發(fā)生比例,點(diǎn)越靠近虛線則模型校準(zhǔn)度越好。由圖2可知,logistic回歸的校準(zhǔn)度最好。

        圖2 合成數(shù)據(jù)4種算法校準(zhǔn)曲線

        4.變量重要性

        經(jīng)過100次模型擬合之后,原始數(shù)據(jù)和合成數(shù)據(jù)前10位變量相對(duì)重要性排序如圖3、圖4,各算法前10位變量基本相同。

        圖3 原始數(shù)據(jù)變量相對(duì)重要性排序

        圖4 合成數(shù)據(jù)變量相對(duì)重要性排序

        討 論

        本研究將XGBoost、LightGBM、CatBoost和logistic回歸應(yīng)用于YMSM HIV感染的分類預(yù)測,利用多項(xiàng)指標(biāo)對(duì)模型泛化能力進(jìn)行評(píng)估,并計(jì)算了變量的相對(duì)重要性排序。對(duì)于原始數(shù)據(jù)和合成數(shù)據(jù),變量重要性排序前10位基本相同。主要的變量包括精神物質(zhì)使用、近六個(gè)月同性安全套使用、本機(jī)構(gòu)檢測類型等。YMSM精神物質(zhì)的使用、首檢類型和危險(xiǎn)性行為密切相關(guān),如多性伴、無安全套性行為、性交前酗酒等,因此會(huì)導(dǎo)致更高的感染風(fēng)險(xiǎn),這與既往研究的結(jié)果一致[16-18]。

        本研究原始數(shù)據(jù)的模型訓(xùn)練結(jié)果顯示,logistic回歸的AUC最高,這可能是因?yàn)閘ogistic作為傳統(tǒng)的分類模型,其損失函數(shù)為交叉熵,需求解的參數(shù)減少,更能充分利用陽性樣本信息。就F1值而言,由于本研究使用的數(shù)據(jù)類別比例差異較大,因此四個(gè)模型的訓(xùn)練結(jié)果都較小,這也一定程度上反應(yīng)出F1對(duì)類別比例的敏感性。而在準(zhǔn)確度方面,LightGBM效果最差,這可能是因?yàn)長ightGBM采用了直方圖算法,其犧牲了一定的切分準(zhǔn)確性而換取訓(xùn)練速度以及節(jié)省內(nèi)存空間消耗,一定程度上忽略了很多數(shù)據(jù)的細(xì)節(jié)特征,導(dǎo)致數(shù)據(jù)之間的差異性減小。

        考慮到Y(jié)MSM人群的隱蔽性,樣本量較少,我們使用了SMOTE技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行了合成以平衡類別比例,同時(shí)觀察了算法在應(yīng)用于YMSM大樣本情況下的分類效能。就測試集而言,使用SMOTE后,Boosting算法的模型結(jié)果整體上優(yōu)于logistic。而三種Boosting算法相比,CatBoost的AUC數(shù)值上稍高于其他模型,但在準(zhǔn)確度和F1值上稍弱。CatBoost分類性能好可能是因?yàn)槠湓谔幚矸诸愄卣鲿r(shí)使用的是Target-based 的思想。該思想會(huì)隨機(jī)順序置換觀測,產(chǎn)生多個(gè)隨機(jī)置換的觀測集合。然后將標(biāo)簽值從浮點(diǎn)類型或分類類型轉(zhuǎn)化為整數(shù),最終所有的分類特征值都被轉(zhuǎn)為整數(shù)。這種方式避免了one-hot編碼處理高維數(shù)據(jù)會(huì)產(chǎn)生大量新特征的缺點(diǎn)。因此,在有大量分類特征時(shí),CatBoost可以充分利用這些特征的信息[19]。

        模型校準(zhǔn)曲線可以比較不同分類器概率預(yù)測的校準(zhǔn)度,曲線越靠近對(duì)角線虛線則模型校準(zhǔn)度越好。本研究發(fā)現(xiàn)logistic回歸校準(zhǔn)效果較優(yōu),這是因?yàn)閘ogistic回歸直接優(yōu)化了對(duì)數(shù)損失,默認(rèn)返回經(jīng)過良好校準(zhǔn)的預(yù)測值,而Boosting算法為非概率模型,需對(duì)其分類結(jié)果進(jìn)行再學(xué)習(xí)得到概率,返回的概率有偏差,且每個(gè)方法的偏差均不同[20]。

        在應(yīng)用SMOTE技術(shù)后,四類算法的分類能力都得到了顯著提升,尤其是對(duì)類別比例較敏感的F1值、Brier score等指標(biāo)。雖然3種Boosting算法都可設(shè)置陽性樣本權(quán)重,但是在處理YMSM數(shù)據(jù)時(shí),其效果并不如SMOTE合成數(shù)據(jù)顯著,這可能是因?yàn)楸狙芯繕颖纠龜?shù)較少,Boosting算法并未充分學(xué)習(xí)到陽性感染例數(shù)的特征。由此可見,SMOTE作為機(jī)器學(xué)習(xí)中處理類不平衡數(shù)據(jù)的經(jīng)典手段,擴(kuò)大了正例的比例,有助于提高Boosting等其他算法的分類性能,這為今后YMSM數(shù)據(jù)的預(yù)測建模提供了一種新思路。

        猜你喜歡
        分類特征模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        国精无码欧精品亚洲一区| 99999久久久久久亚洲| 色综久久综合桃花网国产精品| 国产av日韩a∨亚洲av电影| 亚洲av中文无码乱人伦在线咪咕| 亚洲国产成人久久精品美女av | 国产精品久久久久久久久绿色| 亚洲一区二区三区最新视频| 2021国产精品一区二区在线 | 欧美亚洲国产片在线播放| 一本色道久久hezyo无码| 日本熟妇免费一区二区三区| 白色橄榄树在线免费观看| 久久精品国产亚洲av高清漫画| 亚洲综合网站久久久| 蜜桃视频第一区免费观看| 亚洲女同精品久久女同| 亚洲天堂成人在线| 人妻少妇精品中文字幕av蜜桃| 国产精品乱码人妻一区二区三区| 综合激情五月三开心五月| 免费人成视频网站在线| 久久99热精品这里久久精品| 亚洲精品乱码久久久久久久久久久久| 色偷偷888欧美精品久久久| 国产精品熟女视频一区二区三区| 精品国产又大又黄又粗av| 麻豆久久五月国产综合| 国产zzjjzzjj视频全免费| 亚洲国产精品无码专区| 久草青青91在线播放| 国产一区资源在线播放| 国产一区二区三区杨幂| 久久精品国产热| a在线观看免费网站大全| 天堂无码人妻精品av一区| 中文字幕亚洲无线码在线一区| 国产精品黑丝美腿美臀| 国产少妇露脸精品自拍网站| 亚洲在线一区二区三区四区| 一本久道久久综合久久|