天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(300070)
王肖萌 宋德勝 張?zhí)鹛?常琴雪 王 淳 王柯云 劉媛媛 李長平 崔 壯△ 馬 駿
【提 要】 目的 評(píng)價(jià)Boosting算法結(jié)合SMOTE技術(shù)預(yù)測青年男男性行為者(YMSM)HIV感染狀況的性能。 方法 通過網(wǎng)絡(luò)和現(xiàn)場抽取2018-2019年天津市YMSM 1179名,分別用XGBoost、LightGBM、CatBoost和logistic結(jié)合SMOTE技術(shù)建立預(yù)測模型,通過AUC、F1、Accuracy、Brier score等指標(biāo)評(píng)價(jià)其分類性能。 結(jié)果 應(yīng)用SMOTE合成數(shù)據(jù)后,logistic、CatBoost、LightGBM和XGBoost的AUC分別提升了23.4%、24.0%、25.4%和26.8%,Boosting算法的分類性能優(yōu)于logistic模型。 結(jié)論 Boosting算法結(jié)合SMOTE技術(shù)為類不平衡數(shù)據(jù)的分類預(yù)測提供了新思路。
近年來,男男性行為者(men who have sex with men,MSM)由于其高危行為已成為HIV感染的關(guān)鍵人群[1]。而近期調(diào)查數(shù)據(jù)顯示,我國MSM人群中25歲以下青年人正不斷增加,已達(dá)到30%左右[2-3]。截至2019年,我國青年男男性行為者(YMSM)HIV感染率已達(dá)到5.6%[4]。沖動(dòng)冒險(xiǎn)、資金缺乏、社會(huì)歧視、家庭學(xué)校壓力、首次肛交年齡呈不斷下降趨勢[5]等均促成了YMSM的高感染低檢測現(xiàn)狀。因此,構(gòu)建科學(xué)準(zhǔn)確的YMSM人群 HIV感染的預(yù)測模型,對(duì)于及時(shí)發(fā)現(xiàn)早期的HIV感染者、減少YMSM人群HIV的傳播具有重要意義。
近年來,機(jī)器學(xué)習(xí)技術(shù)蓬勃發(fā)展,越來越被用于解決各種醫(yī)療問題或結(jié)果預(yù)測[6],而Boosting算法是機(jī)器學(xué)習(xí)中較為優(yōu)秀的集成算法。因此,本研究使用Boosting集成學(xué)習(xí)算法(XGBoost,LightGBM和CatBoost)和logistic模型對(duì)YMSM的原始HIV感染數(shù)據(jù)和基于SMOTE-NC的合成數(shù)據(jù)進(jìn)行擬合,比較Boosting算法和logistic回歸在應(yīng)用于YMSM HIV感染數(shù)據(jù)時(shí)的分類效能,為YMSM人群HIV感染的預(yù)測建模提供科學(xué)依據(jù)。
1.研究對(duì)象
本研究共選取2018-2019年在天津市深藍(lán)公共衛(wèi)生咨詢服務(wù)中心進(jìn)行過HIV咨詢與檢測(HCT)的YMSM 1179名。納入標(biāo)準(zhǔn)包括:16~24周歲,近6個(gè)月與男性發(fā)生過肛交性行為。收集的數(shù)據(jù)包括基本人口學(xué)信息(年齡、性向、文化程度等)、性行為信息(首次性行為年齡、精神物質(zhì)使用、近1周同性肛交次數(shù)、安全套使用情況等)、HIV知曉信息(近1年接受HCT及同伴教育服務(wù)、聽說過PrEP等)和HIV感染信息(既往HIV檢測、梅毒感染等)。
2.基本原理
(1)Boosting算法
XGBoost在傳統(tǒng)的梯度提升樹(GBDT)上進(jìn)行了優(yōu)化,它在擬合樹模型時(shí),使用了預(yù)排序算法,在樹生長時(shí)遍歷所有切分點(diǎn),在找到最優(yōu)切分點(diǎn)后對(duì)數(shù)據(jù)進(jìn)行葉子節(jié)點(diǎn)的劃分。最終將葉子節(jié)點(diǎn)的分?jǐn)?shù)相加得到樣本的預(yù)測值。并且,它在計(jì)算時(shí)支持并行,內(nèi)置處理缺失值的規(guī)則,擁有很大的靈活性,可以提供更高的運(yùn)行速度和更低的內(nèi)存消耗[7]。
LightGBM在XGBoost的基礎(chǔ)上作了進(jìn)一步的改造。LightGBM使用直方圖算法和按葉子節(jié)點(diǎn)分割的樹生長策略,大大減少了計(jì)算和內(nèi)存代價(jià),因而在保持模型精度的同時(shí)加快了訓(xùn)練速度。此外,LightGBM在模型中增加了樹的最大深度限制,一定程度上避免了按葉子節(jié)點(diǎn)分割導(dǎo)致的過擬合問題[8]。
CatBoost以對(duì)稱樹作為基學(xué)習(xí)器,在訓(xùn)練過程中采用Target-based方式處理類別特征。因此,當(dāng)數(shù)據(jù)集中絕大多數(shù)特征都是類別特征時(shí),CatBoost可以高效合理地處理這些特征。 另外,它減少了對(duì)廣泛的超參數(shù)優(yōu)化的需要,采用默認(rèn)參數(shù)往往就可以獲得很好的效果,有助于減少預(yù)測時(shí)間,避免過擬合[9]。
(2)logistic回歸
logistic模型利用logistic函數(shù)將二分類問題轉(zhuǎn)化為連續(xù)型條件概率問題。假設(shè)有n個(gè)觀測樣本,觀測值分別為y1,y2,y3…yn,在給定xi的條件下,令y=1的概率記為pi。則可得到logistic模型的對(duì)數(shù)似然函數(shù):
在機(jī)器學(xué)習(xí)中,經(jīng)常在上式中加入L1、L2或Elastic-Net正則項(xiàng)以增加結(jié)果的穩(wěn)定性[10]。
(3)SMOTE-NC
YMSM人群HIV感染的資料通常是類不平衡數(shù)據(jù)。已有的機(jī)器學(xué)習(xí)方法在應(yīng)用于極不平衡數(shù)據(jù)或混合類型數(shù)據(jù)時(shí)通常不能提供太大的分類改進(jìn)[11]。SMOTE是過采樣技術(shù)中調(diào)整類不平衡數(shù)據(jù)類別比例的代表方法,這種方法有效地使少數(shù)類決策區(qū)域變得一般化,放大了少數(shù)類的特征[12]。
在面對(duì)分類特征時(shí),SMOTE無法直接對(duì)其計(jì)算距離,SMOTE-NC提供了解決辦法,它的核心思想是取k個(gè)近鄰樣本中出現(xiàn)頻率最高的樣本值作為新樣本的變量值[12]。本研究采用SMOTE-NC合成新樣本。
3.統(tǒng)計(jì)學(xué)方法
(1)單因素分析
本研究采用Wilcoxon秩和檢驗(yàn)和卡方檢驗(yàn)分別對(duì)定量變量和分類變量進(jìn)行分析,檢驗(yàn)水準(zhǔn)α=0.05。
(2)模型訓(xùn)練與評(píng)價(jià)
本研究采用10×5折交叉驗(yàn)證對(duì)數(shù)據(jù)集進(jìn)行擬合,使用SMOTE-NC進(jìn)行少數(shù)類樣本的合成,最終得到1592例樣本(陽性∶陰性=1∶1)。
本研究使用XGBoost、LightGBM、CatBoost和logistic模型分別對(duì)原始數(shù)據(jù)和合成數(shù)據(jù)進(jìn)行擬合,使用F1,AUC,Accuracy和Brier score對(duì)模型的分類性能進(jìn)行評(píng)價(jià),并繪制校準(zhǔn)曲線圖視化模型的校準(zhǔn)度。各指標(biāo)含義及計(jì)算公式[13-15]見表1。
表1 模型評(píng)價(jià)指標(biāo)
本研究使用SAS 9.4進(jìn)行單因素分析,Python3.7.6進(jìn)行3種Boosting算法和logistic回歸模型的擬合。
1.一般情況及單因素分析
本研究納入YMSM 1179例,其中HIV感染者66例,HIV感染率5.6%。
以是否HIV感染對(duì)指標(biāo)進(jìn)行單因素分析后,年齡、文化程度、本地居住時(shí)間、精神物質(zhì)使用等變量有統(tǒng)計(jì)學(xué)意義,詳見表2。
表2 單因素分析結(jié)果
2.四種模型在原始數(shù)據(jù)集的表現(xiàn)
表3顯示了四種算法應(yīng)用于原始數(shù)據(jù)的結(jié)果。就測試集而言,logistic的分類效能最優(yōu)(AUC 0.750,Accuracy 94.7%),但Brier score較低,事件預(yù)測概率的精度較小。Catboost雖Accuracy高,但其F1值為0,且在訓(xùn)練集上的表現(xiàn)差。
表3 原始數(shù)據(jù)四種算法的評(píng)價(jià)指標(biāo)比較
3.四種模型在合成數(shù)據(jù)集的表現(xiàn)
表4顯示了4種算法應(yīng)用于合成數(shù)據(jù)的結(jié)果,圖1是算法在測試集上的表現(xiàn)。與原始數(shù)據(jù)結(jié)果相比,logistic、CatBoost、LightGBM、和XGBoost的AUC分別提升了23.4%、24.0%、25.4%和26.8%。3種Boosting算法的F1值、AUC及準(zhǔn)確度均高于logistic回歸,分類性能更優(yōu)。XGBoost、LightGBM和CatBoost之間的結(jié)果沒有明顯差異。
表4 合成數(shù)據(jù)四種算法的評(píng)價(jià)指標(biāo)比較
圖1 合成數(shù)據(jù)4種算法評(píng)價(jià)指標(biāo)雷達(dá)圖
圖2顯示了4種算法的校準(zhǔn)曲線,橫坐標(biāo)為事件預(yù)測發(fā)生率,縱坐標(biāo)為陽性事件實(shí)際發(fā)生比例,點(diǎn)越靠近虛線則模型校準(zhǔn)度越好。由圖2可知,logistic回歸的校準(zhǔn)度最好。
圖2 合成數(shù)據(jù)4種算法校準(zhǔn)曲線
4.變量重要性
經(jīng)過100次模型擬合之后,原始數(shù)據(jù)和合成數(shù)據(jù)前10位變量相對(duì)重要性排序如圖3、圖4,各算法前10位變量基本相同。
圖3 原始數(shù)據(jù)變量相對(duì)重要性排序
圖4 合成數(shù)據(jù)變量相對(duì)重要性排序
本研究將XGBoost、LightGBM、CatBoost和logistic回歸應(yīng)用于YMSM HIV感染的分類預(yù)測,利用多項(xiàng)指標(biāo)對(duì)模型泛化能力進(jìn)行評(píng)估,并計(jì)算了變量的相對(duì)重要性排序。對(duì)于原始數(shù)據(jù)和合成數(shù)據(jù),變量重要性排序前10位基本相同。主要的變量包括精神物質(zhì)使用、近六個(gè)月同性安全套使用、本機(jī)構(gòu)檢測類型等。YMSM精神物質(zhì)的使用、首檢類型和危險(xiǎn)性行為密切相關(guān),如多性伴、無安全套性行為、性交前酗酒等,因此會(huì)導(dǎo)致更高的感染風(fēng)險(xiǎn),這與既往研究的結(jié)果一致[16-18]。
本研究原始數(shù)據(jù)的模型訓(xùn)練結(jié)果顯示,logistic回歸的AUC最高,這可能是因?yàn)閘ogistic作為傳統(tǒng)的分類模型,其損失函數(shù)為交叉熵,需求解的參數(shù)減少,更能充分利用陽性樣本信息。就F1值而言,由于本研究使用的數(shù)據(jù)類別比例差異較大,因此四個(gè)模型的訓(xùn)練結(jié)果都較小,這也一定程度上反應(yīng)出F1對(duì)類別比例的敏感性。而在準(zhǔn)確度方面,LightGBM效果最差,這可能是因?yàn)長ightGBM采用了直方圖算法,其犧牲了一定的切分準(zhǔn)確性而換取訓(xùn)練速度以及節(jié)省內(nèi)存空間消耗,一定程度上忽略了很多數(shù)據(jù)的細(xì)節(jié)特征,導(dǎo)致數(shù)據(jù)之間的差異性減小。
考慮到Y(jié)MSM人群的隱蔽性,樣本量較少,我們使用了SMOTE技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行了合成以平衡類別比例,同時(shí)觀察了算法在應(yīng)用于YMSM大樣本情況下的分類效能。就測試集而言,使用SMOTE后,Boosting算法的模型結(jié)果整體上優(yōu)于logistic。而三種Boosting算法相比,CatBoost的AUC數(shù)值上稍高于其他模型,但在準(zhǔn)確度和F1值上稍弱。CatBoost分類性能好可能是因?yàn)槠湓谔幚矸诸愄卣鲿r(shí)使用的是Target-based 的思想。該思想會(huì)隨機(jī)順序置換觀測,產(chǎn)生多個(gè)隨機(jī)置換的觀測集合。然后將標(biāo)簽值從浮點(diǎn)類型或分類類型轉(zhuǎn)化為整數(shù),最終所有的分類特征值都被轉(zhuǎn)為整數(shù)。這種方式避免了one-hot編碼處理高維數(shù)據(jù)會(huì)產(chǎn)生大量新特征的缺點(diǎn)。因此,在有大量分類特征時(shí),CatBoost可以充分利用這些特征的信息[19]。
模型校準(zhǔn)曲線可以比較不同分類器概率預(yù)測的校準(zhǔn)度,曲線越靠近對(duì)角線虛線則模型校準(zhǔn)度越好。本研究發(fā)現(xiàn)logistic回歸校準(zhǔn)效果較優(yōu),這是因?yàn)閘ogistic回歸直接優(yōu)化了對(duì)數(shù)損失,默認(rèn)返回經(jīng)過良好校準(zhǔn)的預(yù)測值,而Boosting算法為非概率模型,需對(duì)其分類結(jié)果進(jìn)行再學(xué)習(xí)得到概率,返回的概率有偏差,且每個(gè)方法的偏差均不同[20]。
在應(yīng)用SMOTE技術(shù)后,四類算法的分類能力都得到了顯著提升,尤其是對(duì)類別比例較敏感的F1值、Brier score等指標(biāo)。雖然3種Boosting算法都可設(shè)置陽性樣本權(quán)重,但是在處理YMSM數(shù)據(jù)時(shí),其效果并不如SMOTE合成數(shù)據(jù)顯著,這可能是因?yàn)楸狙芯繕颖纠龜?shù)較少,Boosting算法并未充分學(xué)習(xí)到陽性感染例數(shù)的特征。由此可見,SMOTE作為機(jī)器學(xué)習(xí)中處理類不平衡數(shù)據(jù)的經(jīng)典手段,擴(kuò)大了正例的比例,有助于提高Boosting等其他算法的分類性能,這為今后YMSM數(shù)據(jù)的預(yù)測建模提供了一種新思路。