孟艷輝 李春娜 吳瑞珊 宋小燕 彭紅波
1 廣東省計劃生育科學(xué)技術(shù)研究所國家衛(wèi)生健康委員會男性生殖與遺傳重點實驗室(廣州 510600)2 海南大學(xué)管理學(xué)院(???570563)
妊娠期糖尿病(GDM)是指妊娠期間發(fā)生或首次發(fā)現(xiàn)的不同程度糖耐量異常[1]。隨著二胎政策開放,高齡孕婦越來越多,妊娠期糖尿病的發(fā)病率逐年增加。目前,國內(nèi)外將機(jī)器學(xué)習(xí)方法廣泛應(yīng)用到醫(yī)療研究領(lǐng)域,主要體現(xiàn)在醫(yī)療輔助診斷和分類預(yù)測問題中。通過機(jī)器學(xué)習(xí)算法對疾病進(jìn)行風(fēng)險預(yù)測,提前做好預(yù)防措施,可以大大提高疾病防控水平[2]。支持向量機(jī)(support vector machine,SVM)算法基本上不涉及概率測度和大數(shù)定律,是一種典型的非概率的兩類分類器[3],由于在小樣本訓(xùn)練集上的優(yōu)勢和較好的魯棒性,被廣泛應(yīng)用于處理分類問題和回歸分析[4]。Logistic回歸(LR)是估計Logistic模型參數(shù)的算法,可以良好解決二分類問題,并以分析風(fēng)險度和危險因素的優(yōu)勢,得以在醫(yī)學(xué)領(lǐng)域中分析患病因素時廣泛使用[5]。雖然這兩種算法已成功應(yīng)用于糖尿病的研究[6- 7],但目前關(guān)于GDM的風(fēng)險預(yù)測模型尚不成熟。本研究以520例妊娠期婦女為研究對象,對GDM的危險因素進(jìn)行了回顧性分析,利用SVM、LR建立風(fēng)險預(yù)測模型,并利用各評價指標(biāo)進(jìn)行效果評價,建立一種可行的GDM風(fēng)險預(yù)測模型,為GDM的防治策略提供依據(jù)。
選擇2019年7月—2020年8月在廣州市婦女兒童醫(yī)療中心及廣東省計劃生育??漆t(yī)院進(jìn)行定期產(chǎn)檢的孕早期婦女520例,其中妊娠期糖尿病孕婦200例為觀察組,隨機(jī)抽取同期正常孕婦320人為對照組,所有孕婦均為自然受孕。
納入標(biāo)準(zhǔn)為:①年齡<49歲;②觀察組入選者符合GDM診斷標(biāo)準(zhǔn),無其他并發(fā)癥;③臨床資料完整。排除標(biāo)準(zhǔn):①孕前患糖尿病或孕早期空腹血糖≥5.1 mmol/L;②孕前有高血壓、甲亢等內(nèi)分泌系統(tǒng)疾?。虎鄄l(fā)妊娠期高血壓、妊娠期貧血、前置胎盤、胎盤早剝、胎兒先天畸形等妊娠期疾病。根據(jù)孕婦的空腹血糖(FBG)水平和口服糖耐量試驗(OGTT)結(jié)果分為GDM組(200例)和對照組(320例)。GDM分組參照美國糖尿病協(xié)會2019年發(fā)布《妊娠期糖尿病診治指南》和《中華婦產(chǎn)科學(xué)》制定的GDM診斷標(biāo)準(zhǔn):對孕婦實施75 g OGTT試驗,若滿足空腹血糖≥5.1 mmol/L,服糖后1h PG≥10.0 mmol/L,2h PG≥8.5 mmol/L中任意一點均可診斷為GDM。
本研究采用查閱病歷和電話回訪的方式記錄所有孕產(chǎn)婦的一般情況,包括年齡、產(chǎn)前BMI及糖尿病家族史等。抽血檢測孕婦孕早期(8~12周)的血常規(guī)、凝血功能和生化等共40個指標(biāo)。血常規(guī)采用Sysmex XN-1000血細(xì)胞分析儀檢測。凝血功能采用Sysmex CS1500全自動血液凝固分析儀檢測。生化指標(biāo)采用貝克曼AU680全自動生化分析儀檢測,采用羅氏e602電化學(xué)發(fā)光免疫分析儀檢測血清25(OH)D3。
數(shù)據(jù)錄入Matlab 2017b軟件。分類變量以數(shù)字0或1表示。定量變量以均數(shù)±標(biāo)準(zhǔn)差(SD)表示。采用Pearson相關(guān)分析,找出納入預(yù)測模型的分析變量。組間正態(tài)分布數(shù)據(jù)和非參數(shù)數(shù)值數(shù)據(jù)的比較分別采用Studentt檢驗和Mann-Whitney U檢驗。組間分類變量比較采用卡方檢驗。同時,使用卡方檢驗和95%置信區(qū)間(CI)的比值比(odds ratio, ORs)評估風(fēng)險因素與GDM之間的關(guān)聯(lián)。采用多變量Logistic回歸模型估計校正后的ORs。
針對GDM的影響因素,采用Matlab 2017b軟件建立SVM和LR兩個風(fēng)險預(yù)測模型,將得到的520名受試者隨機(jī)分為訓(xùn)練集(468例)和測試集(52例),比例為9:1。使用訓(xùn)練集數(shù)據(jù)建立兩種風(fēng)險預(yù)測模型,然后對測試集的個體樣本進(jìn)行預(yù)測,得出風(fēng)險預(yù)測模型的測試集分析結(jié)果。最后,以上步驟重復(fù)10次,得到模型評價的最優(yōu)數(shù)據(jù)集。
風(fēng)險預(yù)測模型評價包括模型預(yù)測能力和模型實用性。預(yù)測能力包括模型分類效果的準(zhǔn)確率、精確率、真陽性率(TPR)、假陽性率(FPR)、召回率(Recall rate)、F測度(F-measure)、受試者工作特征曲線(ROC)。模型的適用性包括回溯驗證的準(zhǔn)確性和外推驗證的效果(10折交叉驗證)[8]。10折交叉驗證將原始樣本數(shù)據(jù)隨機(jī)分成10個數(shù)據(jù)集。其中一個數(shù)據(jù)集作為測試集,其他數(shù)據(jù)集作為訓(xùn)練集。采用10折交叉驗證方法使每一個樣本點均可作為訓(xùn)練集與測試集,并保證結(jié)果的可靠性。6個參數(shù)的計算方式如下:
準(zhǔn)確率(%) =算法正確預(yù)測的GDM產(chǎn)婦數(shù)量/測試樣本中的GDM產(chǎn)婦總數(shù)
精確率(%) =算法正確預(yù)測的GDM產(chǎn)婦數(shù)量/預(yù)測為GDM的產(chǎn)婦數(shù)量
真陽性率(%) =真陽性人數(shù)/(真陽性人數(shù)+假陰性人數(shù))
假陽性率(%) =真陰性人數(shù)/(真陰性人數(shù)+假陽性人數(shù))
召回率(%) =算法正確預(yù)測的GDM產(chǎn)婦數(shù)量/實際為GDM的產(chǎn)婦數(shù)量
F1(%) =2×精確率×召回率/精確率+召回率
共納入GDM孕婦200例(平均年齡27.97±4.21歲),根據(jù)Pearson相關(guān)分析GDM患病的危險因素,選擇HbA1c、HDL-c、空腹血糖、產(chǎn)前BMI、酮體、糖尿病家族史、25(OH)D3、TG作為模型構(gòu)建變量。
采用Matlab 2017b軟件進(jìn)行徑向基函數(shù)SVM模型分析。影響GDM的因素HbA1c、HDL-c、空腹血糖、產(chǎn)前BMI、酮體、糖尿病家族史、25(OH)D3、TG為變量建立橫坐標(biāo),以變量的重要性建立縱坐標(biāo),以直方圖的形式表示(見圖1)。
LR模型分析的變量見表1所示。根據(jù)變量數(shù)據(jù),構(gòu)建LR模型,方程為:logit[P/(1-P)]=0.362×HbA1c+0.059×空腹血糖-0.823×HDL-c+0.067×產(chǎn)前BMI-0.657×酮體-1.027×糖尿病家族史-0.496×25(OH)D3+0.007×TG-33.26。
圖1 妊娠期糖尿病的支持向量機(jī)模型注:X軸代表不同的變量, Y軸代表變量的重要性。
表1 Logistic回歸模型分析的結(jié)果
SVM和LR模型的分類準(zhǔn)確率分別為86.79%和86.15%。SVM模型準(zhǔn)確率、真陽性(TP)率、假陽性(FP)率、召回率、F測度方面優(yōu)于LR模型(見表2)。兩種模型在ROC曲線的比較中,SVM模型曲線下面積AUC(area under the ROC curve)最高,LR模型次之(P<0.05)(圖2- 3)。
表2 兩種模型評價指標(biāo)比較
圖2 SVM模型ROC曲線
圖3 LR模型ROC曲線
妊娠期糖尿病(GDM)是指妊娠期間發(fā)生或首次發(fā)現(xiàn)的不同程度糖耐量異常[1]。GDM是妊娠期最常見并發(fā)癥之一,與子癇前期、胎兒畸形及早產(chǎn)等密切相關(guān),嚴(yán)重威脅著患者及新生兒的健康。因此在臨床上對妊娠期糖尿病的早期預(yù)防和監(jiān)測顯得尤為重要[2]。在本次研究中,對200名GDM婦女進(jìn)行了回顧性分析,以揭示危險致病因素和建立可靠的預(yù)后模型。本研究利用孕婦的HbA1c、HDL-c、空腹血糖、產(chǎn)前BMI、25(OH)D3、糖尿病家族史、酮體、TG水平為變量建立模型可以有效預(yù)測GDM。HbA1c是判定血糖長期控制情況的良好指標(biāo),妊娠期較非孕婦女降低,早孕期HbA1c升高是GDM危險因素[9]。研究表明,GDM孕婦在妊娠14~17周的血HbA1c水平顯著高于正常孕婦,利用14~17周時HbA1c、25(OH)D3、產(chǎn)前BMI、糖尿病家族史、孕前軟飲攝入史建立的GDM預(yù)測模型的 AUC為0.79[10]。本研究與之相符,且HbA1c是兩種預(yù)測模型最重要的變量。王爽等[11]現(xiàn)早孕期FBG是妊娠期糖尿病發(fā)病的獨立危險因素(OR=1.061,95%CI:1.030~10.02,P=0.003)。我們的研究與之相符,8~12周空腹血糖升高是GDM的高危因素。高密度脂蛋白是五種主要的脂蛋白之一,參與調(diào)節(jié)糖尿病[12]患者的葡萄糖代謝。Voldner等研究表明,HDL-c水平降低是GDM[13]發(fā)生的危險因素之一。本研究同樣發(fā)現(xiàn),HDL-c水平降低是GDM高危因素。因此,對于14~20周HDL-c水平偏低孕婦應(yīng)提高警惕,控制脂肪攝入量,以降低GDM發(fā)病風(fēng)險。研究發(fā)現(xiàn),孕婦的產(chǎn)前BMI與胰島素抵抗有關(guān)[14]。Savona-Ventura 等[15]對GDM預(yù)測模型進(jìn)行研究,發(fā)現(xiàn)空腹血糖預(yù)測GDM的敏感度為73.9%,聯(lián)合年齡和BMI可以將敏感度提高到96.6%。本研究同樣發(fā)現(xiàn)孕婦產(chǎn)前BMI與GDM有關(guān),但其預(yù)測價值弱于HbA1c和空腹糖脂水平。因此,對于高齡、肥胖的孕婦,需要警惕GDM的發(fā)生并重視其他高危因素的管理。
隨著計算機(jī)技術(shù)的發(fā)展,預(yù)測GDM的統(tǒng)計模型越來越多。支持向量機(jī)是一種帶有相關(guān)學(xué)習(xí)算法的監(jiān)督學(xué)習(xí)模型,用于對數(shù)據(jù)進(jìn)行分類和回歸分析[16]。Yu[17]等表明SVM建??梢杂糜谔悄虿〉瘸R姴〉念A(yù)測,SVM模型對GDM的預(yù)測精度與LR相似,但其特異度和敏感度更好。本研究對GDM的預(yù)測模型進(jìn)行了研究,根據(jù)模型評估結(jié)果,表明SVM可能是臨床預(yù)測GDM的最佳模型。SVM模型AUC為0.97,LR模型AUC為0.76。SVM模型準(zhǔn)確率、真陽性(TP)率、假陽性(FP)率、召回率、F測度方面優(yōu)于LR模型。但是,目前的研究存在一些局限性,如缺乏對GDM孕婦飲食和體育活動的調(diào)查。此外,電話回訪的部分信息可能存在記憶偏差。因此,需要在大樣本量的基礎(chǔ)上進(jìn)行進(jìn)一步的調(diào)查,以證實本研究中的所有猜測。綜上所述,HbA1c、FBG、HDL-c可能是GDM的有效預(yù)測指標(biāo)。SVM是最優(yōu)預(yù)測模型,對GDM的臨床篩查具有一定的實用價值。