亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Boosting算法結(jié)合SMOTE技術(shù)在青年男男性行為者HIV感染預(yù)測中的應(yīng)用*

2022-03-17 08:09:14天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系300070

中國衛(wèi)生統(tǒng)計(jì) 2022年1期

天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(300070)

王肖萌宋德勝張?zhí)鹛?常琴雪王淳王柯云劉媛媛李長平崔壯△ 馬駿

【提要】目的評(píng)價(jià)Boosting算法結(jié)合SMOTE技術(shù)預(yù)測青年男男性行為者(YMSM)HIV感染狀況的性能。方法通過網(wǎng)絡(luò)和現(xiàn)場抽取2018-2019年天津市YMSM 1179名，分別用XGBoost、LightGBM、CatBoost和logistic結(jié)合SMOTE技術(shù)建立預(yù)測模型，通過AUC、F1、Accuracy、Brier score等指標(biāo)評(píng)價(jià)其分類性能。結(jié)果應(yīng)用SMOTE合成數(shù)據(jù)后，logistic、CatBoost、LightGBM和XGBoost的AUC分別提升了23.4%、24.0%、25.4%和26.8%，Boosting算法的分類性能優(yōu)于logistic模型。結(jié)論 Boosting算法結(jié)合SMOTE技術(shù)為類不平衡數(shù)據(jù)的分類預(yù)測提供了新思路。

近年來，男男性行為者(men who have sex with men，MSM)由于其高危行為已成為HIV感染的關(guān)鍵人群[1]。而近期調(diào)查數(shù)據(jù)顯示，我國MSM人群中25歲以下青年人正不斷增加，已達(dá)到30%左右[2-3]。截至2019年，我國青年男男性行為者(YMSM)HIV感染率已達(dá)到5.6%[4]。沖動(dòng)冒險(xiǎn)、資金缺乏、社會(huì)歧視、家庭學(xué)校壓力、首次肛交年齡呈不斷下降趨勢[5]等均促成了YMSM的高感染低檢測現(xiàn)狀。因此，構(gòu)建科學(xué)準(zhǔn)確的YMSM人群 HIV感染的預(yù)測模型，對(duì)于及時(shí)發(fā)現(xiàn)早期的HIV感染者、減少YMSM人群HIV的傳播具有重要意義。

近年來，機(jī)器學(xué)習(xí)技術(shù)蓬勃發(fā)展，越來越被用于解決各種醫(yī)療問題或結(jié)果預(yù)測[6]，而Boosting算法是機(jī)器學(xué)習(xí)中較為優(yōu)秀的集成算法。因此，本研究使用Boosting集成學(xué)習(xí)算法(XGBoost，LightGBM和CatBoost)和logistic模型對(duì)YMSM的原始HIV感染數(shù)據(jù)和基于SMOTE-NC的合成數(shù)據(jù)進(jìn)行擬合，比較Boosting算法和logistic回歸在應(yīng)用于YMSM HIV感染數(shù)據(jù)時(shí)的分類效能，為YMSM人群HIV感染的預(yù)測建模提供科學(xué)依據(jù)。

對(duì)象和方法

1.研究對(duì)象

本研究共選取2018-2019年在天津市深藍(lán)公共衛(wèi)生咨詢服務(wù)中心進(jìn)行過HIV咨詢與檢測(HCT)的YMSM 1179名。納入標(biāo)準(zhǔn)包括：16～24周歲，近6個(gè)月與男性發(fā)生過肛交性行為。收集的數(shù)據(jù)包括基本人口學(xué)信息(年齡、性向、文化程度等)、性行為信息(首次性行為年齡、精神物質(zhì)使用、近1周同性肛交次數(shù)、安全套使用情況等)、HIV知曉信息(近1年接受HCT及同伴教育服務(wù)、聽說過PrEP等)和HIV感染信息(既往HIV檢測、梅毒感染等)。

2.基本原理

(1)Boosting算法

XGBoost在傳統(tǒng)的梯度提升樹(GBDT)上進(jìn)行了優(yōu)化，它在擬合樹模型時(shí)，使用了預(yù)排序算法，在樹生長時(shí)遍歷所有切分點(diǎn)，在找到最優(yōu)切分點(diǎn)后對(duì)數(shù)據(jù)進(jìn)行葉子節(jié)點(diǎn)的劃分。最終將葉子節(jié)點(diǎn)的分?jǐn)?shù)相加得到樣本的預(yù)測值。并且，它在計(jì)算時(shí)支持并行，內(nèi)置處理缺失值的規(guī)則，擁有很大的靈活性，可以提供更高的運(yùn)行速度和更低的內(nèi)存消耗[7]。

LightGBM在XGBoost的基礎(chǔ)上作了進(jìn)一步的改造。LightGBM使用直方圖算法和按葉子節(jié)點(diǎn)分割的樹生長策略，大大減少了計(jì)算和內(nèi)存代價(jià)，因而在保持模型精度的同時(shí)加快了訓(xùn)練速度。此外，LightGBM在模型中增加了樹的最大深度限制，一定程度上避免了按葉子節(jié)點(diǎn)分割導(dǎo)致的過擬合問題[8]。

CatBoost以對(duì)稱樹作為基學(xué)習(xí)器，在訓(xùn)練過程中采用Target-based方式處理類別特征。因此，當(dāng)數(shù)據(jù)集中絕大多數(shù)特征都是類別特征時(shí)，CatBoost可以高效合理地處理這些特征。另外，它減少了對(duì)廣泛的超參數(shù)優(yōu)化的需要，采用默認(rèn)參數(shù)往往就可以獲得很好的效果，有助于減少預(yù)測時(shí)間，避免過擬合[9]。

(2)logistic回歸

logistic模型利用logistic函數(shù)將二分類問題轉(zhuǎn)化為連續(xù)型條件概率問題。假設(shè)有n個(gè)觀測樣本，觀測值分別為y1，y2，y3…yn，在給定xi的條件下，令y=1的概率記為pi。則可得到logistic模型的對(duì)數(shù)似然函數(shù)：

在機(jī)器學(xué)習(xí)中，經(jīng)常在上式中加入L1、L2或Elastic-Net正則項(xiàng)以增加結(jié)果的穩(wěn)定性[10]。

(3)SMOTE-NC

YMSM人群HIV感染的資料通常是類不平衡數(shù)據(jù)。已有的機(jī)器學(xué)習(xí)方法在應(yīng)用于極不平衡數(shù)據(jù)或混合類型數(shù)據(jù)時(shí)通常不能提供太大的分類改進(jìn)[11]。SMOTE是過采樣技術(shù)中調(diào)整類不平衡數(shù)據(jù)類別比例的代表方法，這種方法有效地使少數(shù)類決策區(qū)域變得一般化，放大了少數(shù)類的特征[12]。

在面對(duì)分類特征時(shí)，SMOTE無法直接對(duì)其計(jì)算距離，SMOTE-NC提供了解決辦法，它的核心思想是取k個(gè)近鄰樣本中出現(xiàn)頻率最高的樣本值作為新樣本的變量值[12]。本研究采用SMOTE-NC合成新樣本。

3.統(tǒng)計(jì)學(xué)方法

(1)單因素分析

本研究采用Wilcoxon秩和檢驗(yàn)和卡方檢驗(yàn)分別對(duì)定量變量和分類變量進(jìn)行分析，檢驗(yàn)水準(zhǔn)α=0.05。

(2)模型訓(xùn)練與評(píng)價(jià)

本研究采用10×5折交叉驗(yàn)證對(duì)數(shù)據(jù)集進(jìn)行擬合，使用SMOTE-NC進(jìn)行少數(shù)類樣本的合成，最終得到1592例樣本(陽性∶陰性=1∶1)。

本研究使用XGBoost、LightGBM、CatBoost和logistic模型分別對(duì)原始數(shù)據(jù)和合成數(shù)據(jù)進(jìn)行擬合，使用F1，AUC，Accuracy和Brier score對(duì)模型的分類性能進(jìn)行評(píng)價(jià)，并繪制校準(zhǔn)曲線圖視化模型的校準(zhǔn)度。各指標(biāo)含義及計(jì)算公式[13-15]見表1。

表1 模型評(píng)價(jià)指標(biāo)

本研究使用SAS 9.4進(jìn)行單因素分析，Python3.7.6進(jìn)行3種Boosting算法和logistic回歸模型的擬合。

結(jié) 果

1.一般情況及單因素分析

本研究納入YMSM 1179例，其中HIV感染者66例，HIV感染率5.6%。

以是否HIV感染對(duì)指標(biāo)進(jìn)行單因素分析后，年齡、文化程度、本地居住時(shí)間、精神物質(zhì)使用等變量有統(tǒng)計(jì)學(xué)意義，詳見表2。

表2 單因素分析結(jié)果

2.四種模型在原始數(shù)據(jù)集的表現(xiàn)

表3顯示了四種算法應(yīng)用于原始數(shù)據(jù)的結(jié)果。就測試集而言，logistic的分類效能最優(yōu)(AUC 0.750，Accuracy 94.7%)，但Brier score較低，事件預(yù)測概率的精度較小。Catboost雖Accuracy高，但其F1值為0，且在訓(xùn)練集上的表現(xiàn)差。

表3 原始數(shù)據(jù)四種算法的評(píng)價(jià)指標(biāo)比較

3.四種模型在合成數(shù)據(jù)集的表現(xiàn)

表4顯示了4種算法應(yīng)用于合成數(shù)據(jù)的結(jié)果，圖1是算法在測試集上的表現(xiàn)。與原始數(shù)據(jù)結(jié)果相比，logistic、CatBoost、LightGBM、和XGBoost的AUC分別提升了23.4%、24.0%、25.4%和26.8%。3種Boosting算法的F1值、AUC及準(zhǔn)確度均高于logistic回歸，分類性能更優(yōu)。XGBoost、LightGBM和CatBoost之間的結(jié)果沒有明顯差異。

表4 合成數(shù)據(jù)四種算法的評(píng)價(jià)指標(biāo)比較

圖1 合成數(shù)據(jù)4種算法評(píng)價(jià)指標(biāo)雷達(dá)圖

圖2顯示了4種算法的校準(zhǔn)曲線，橫坐標(biāo)為事件預(yù)測發(fā)生率，縱坐標(biāo)為陽性事件實(shí)際發(fā)生比例，點(diǎn)越靠近虛線則模型校準(zhǔn)度越好。由圖2可知，logistic回歸的校準(zhǔn)度最好。

圖2 合成數(shù)據(jù)4種算法校準(zhǔn)曲線

4.變量重要性

經(jīng)過100次模型擬合之后，原始數(shù)據(jù)和合成數(shù)據(jù)前10位變量相對(duì)重要性排序如圖3、圖4，各算法前10位變量基本相同。

圖3 原始數(shù)據(jù)變量相對(duì)重要性排序

圖4 合成數(shù)據(jù)變量相對(duì)重要性排序

討論

本研究將XGBoost、LightGBM、CatBoost和logistic回歸應(yīng)用于YMSM HIV感染的分類預(yù)測，利用多項(xiàng)指標(biāo)對(duì)模型泛化能力進(jìn)行評(píng)估，并計(jì)算了變量的相對(duì)重要性排序。對(duì)于原始數(shù)據(jù)和合成數(shù)據(jù)，變量重要性排序前10位基本相同。主要的變量包括精神物質(zhì)使用、近六個(gè)月同性安全套使用、本機(jī)構(gòu)檢測類型等。YMSM精神物質(zhì)的使用、首檢類型和危險(xiǎn)性行為密切相關(guān)，如多性伴、無安全套性行為、性交前酗酒等，因此會(huì)導(dǎo)致更高的感染風(fēng)險(xiǎn)，這與既往研究的結(jié)果一致[16-18]。

本研究原始數(shù)據(jù)的模型訓(xùn)練結(jié)果顯示，logistic回歸的AUC最高，這可能是因?yàn)閘ogistic作為傳統(tǒng)的分類模型，其損失函數(shù)為交叉熵，需求解的參數(shù)減少，更能充分利用陽性樣本信息。就F1值而言，由于本研究使用的數(shù)據(jù)類別比例差異較大，因此四個(gè)模型的訓(xùn)練結(jié)果都較小，這也一定程度上反應(yīng)出F1對(duì)類別比例的敏感性。而在準(zhǔn)確度方面，LightGBM效果最差，這可能是因?yàn)長ightGBM采用了直方圖算法，其犧牲了一定的切分準(zhǔn)確性而換取訓(xùn)練速度以及節(jié)省內(nèi)存空間消耗，一定程度上忽略了很多數(shù)據(jù)的細(xì)節(jié)特征，導(dǎo)致數(shù)據(jù)之間的差異性減小。

考慮到Y(jié)MSM人群的隱蔽性，樣本量較少，我們使用了SMOTE技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行了合成以平衡類別比例，同時(shí)觀察了算法在應(yīng)用于YMSM大樣本情況下的分類效能。就測試集而言，使用SMOTE后，Boosting算法的模型結(jié)果整體上優(yōu)于logistic。而三種Boosting算法相比，CatBoost的AUC數(shù)值上稍高于其他模型，但在準(zhǔn)確度和F1值上稍弱。CatBoost分類性能好可能是因?yàn)槠湓谔幚矸诸愄卣鲿r(shí)使用的是Target-based 的思想。該思想會(huì)隨機(jī)順序置換觀測，產(chǎn)生多個(gè)隨機(jī)置換的觀測集合。然后將標(biāo)簽值從浮點(diǎn)類型或分類類型轉(zhuǎn)化為整數(shù)，最終所有的分類特征值都被轉(zhuǎn)為整數(shù)。這種方式避免了one-hot編碼處理高維數(shù)據(jù)會(huì)產(chǎn)生大量新特征的缺點(diǎn)。因此，在有大量分類特征時(shí)，CatBoost可以充分利用這些特征的信息[19]。

模型校準(zhǔn)曲線可以比較不同分類器概率預(yù)測的校準(zhǔn)度，曲線越靠近對(duì)角線虛線則模型校準(zhǔn)度越好。本研究發(fā)現(xiàn)logistic回歸校準(zhǔn)效果較優(yōu)，這是因?yàn)閘ogistic回歸直接優(yōu)化了對(duì)數(shù)損失，默認(rèn)返回經(jīng)過良好校準(zhǔn)的預(yù)測值，而Boosting算法為非概率模型，需對(duì)其分類結(jié)果進(jìn)行再學(xué)習(xí)得到概率，返回的概率有偏差，且每個(gè)方法的偏差均不同[20]。

在應(yīng)用SMOTE技術(shù)后，四類算法的分類能力都得到了顯著提升，尤其是對(duì)類別比例較敏感的F1值、Brier score等指標(biāo)。雖然3種Boosting算法都可設(shè)置陽性樣本權(quán)重，但是在處理YMSM數(shù)據(jù)時(shí)，其效果并不如SMOTE合成數(shù)據(jù)顯著，這可能是因?yàn)楸狙芯繕颖纠龜?shù)較少，Boosting算法并未充分學(xué)習(xí)到陽性感染例數(shù)的特征。由此可見，SMOTE作為機(jī)器學(xué)習(xí)中處理類不平衡數(shù)據(jù)的經(jīng)典手段，擴(kuò)大了正例的比例，有助于提高Boosting等其他算法的分類性能，這為今后YMSM數(shù)據(jù)的預(yù)測建模提供了一種新思路。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Boosting算法結(jié)合SMOTE技術(shù)在青年男男性行為者HIV感染預(yù)測中的應(yīng)用*

對(duì)象和方法

結(jié) 果

討 論

討論