范可欣 朱鵬匯 王云 王勇軍 張寧潔
胎母輸血綜合征(fetomaternal hemorrhage syndrome,F(xiàn)MH)是指一定量的胎兒紅細胞經(jīng)由破損的胎盤絨毛間隙進入母體血循環(huán),造成胎兒不同程度的失血及母親和胎兒溶血性反應的臨床癥候群[1]。嚴重的FMH可以造成新生兒嚴重貧血、胎兒非免疫性水腫等不良圍產(chǎn)期結局,甚至危及胎兒生命,其占死產(chǎn)原因的14%[2]。然而,大多數(shù)情況下胎兒出血為持續(xù)發(fā)生且量較小,因此臨床癥狀不典型、起病隱匿,臨床醫(yī)生普遍缺乏對該疾病的認識,從而導致早期宮內診斷困難[3],通常于不良孕產(chǎn)結局發(fā)生后才得到確診。目前臨床上尚無有效的預測FMH發(fā)生風險的手段。近年來,人工智能方法在醫(yī)學領域發(fā)展迅速,利用機器學習算法建立精準的預測模型也已開始廣泛應用于醫(yī)學領域,為我們探究各種疾病、發(fā)掘新的研究角度提供了新的技術手段[4-6]。本研究擬基于機器學習算法構建FMH預測模型,旨在輔助臨床診療中盡早識別診斷FMH并有效干預治療。
1 數(shù)據(jù)資料 本研究納入2019年6月~2020年12月于中南大學湘雅二醫(yī)院產(chǎn)科進行產(chǎn)檢的孕婦總共1933名。納入標準為:孕周在6~42周(孕早期:6~12周;孕中期:13~27周;孕晚期:28~42周)在我院進行產(chǎn)檢,并獲得知情同意的孕婦(倫理批件編號:20191009)。排除標準:1)存在嚴重貧血、鐮刀細胞性貧血、遺傳性胎兒血紅蛋白持續(xù)存在癥、珠蛋白生成障礙性貧血的孕婦;2)由于非病理性原因終止妊娠的孕婦;3)未在我院生產(chǎn)的孕婦;4)可查閱的相關資料記錄不完整的孕婦。相關定義:1)FMH:經(jīng)過改良Kleihauer-Betke(K-B)試驗[7]估算胎兒失血量超過2 mL的孕婦,即至少有2 mL胎兒紅細胞轉移到了母親血液循環(huán)的孕婦;2)大量胎母輸血:將胎母輸血量高于30 mL的患者定義為大量胎母輸血;3)產(chǎn)前血紅蛋白:是指該婦女分娩前48 h內所測得的血紅蛋白水平。
2 數(shù)據(jù)收集 本研究收集了已知或推測可能與FMH發(fā)生相關的特征變量。主要包括孕產(chǎn)婦的一般情況(年齡、身高、體重、胎齡、懷孕次數(shù)、妊娠次數(shù)、流產(chǎn)次數(shù)、圍產(chǎn)期增加體重、單胎/雙胎、是否為體外人工受精、產(chǎn)時孕周)、產(chǎn)前檢查情況(孕婦血紅蛋白水平、孕婦ABO血型、孕婦Rh血型、孕婦血小板抗體檢測、孕婦甲胎蛋白水平、孕婦血紅蛋白F(HbF)水平、孕婦血清炎癥細胞因子水平(IL-2、IL-4、IL-6、IL-10、TNF-α、IL-17A)、胎盤分級、羊水指數(shù)、臍動脈阻力、胎心監(jiān)護情況)、孕婦合并癥及并發(fā)癥(疤痕子宮、妊娠期糖尿病、妊娠期高血壓、妊娠合并子宮肌瘤、妊娠合并貧血、胎膜早破、前置胎盤、是否存在生殖道感染)、產(chǎn)婦分娩情況(生產(chǎn)方式、產(chǎn)時出血)、圍產(chǎn)兒結局(Apgar'1分鐘評分、Apgar'5分鐘評分)等。
3 FMH實驗室診斷檢測 隨機收集2019年6月~2020年12月來醫(yī)院做產(chǎn)檢的孕婦EDTA抗凝全血標本利用改良版的K-B試驗進行初篩,取收集到的EDTA抗凝全血制作血涂片,選取成年男性抗凝全血標本作為陰性對照,取同型臍帶血作為陽性對照。并進一步估算胎兒失血量。初篩陽性的孕婦血樣采用流式細胞術進行驗證[8]。流式細胞術所用FITC-抗HbF單克隆抗體試劑盒購自美國Invitrogen公司,流式細胞分析儀FACSCalibur購自美國BD公司。
4 預測模型的建立 本研究通過對患者數(shù)據(jù)進行收集構建數(shù)據(jù)集,并對數(shù)據(jù)進行清洗,剔除離群值,對于缺失值多使用多重插補進行估算,而對于缺失比例過高的特征變量,為了不影響模型結果判斷予以剔除。本研究主要使用遞歸特征消除法(recursive feature elimination,RFE)對FMH預測中的關鍵特征變量進行篩選。
為了能夠更好地構建、驗證模型,本研究將所收集到的數(shù)據(jù)隨機分成訓練集(70%)和測試集(30%)。在訓練集中采用RFE篩選出的特征變量,采用包括了極端梯度提升決策樹(eXtreme Gradient Boosting,XGBoost)模型[9]、梯度提升決策樹(gradient boosting decision tree,GBDT)模型[10]、隨機森林模型(random forest,RF)[11]、K近鄰算法模型(k-nearest neighbor,KNN)[12]、自適應提升算法模型(adaptive boosting,Adaboost)[13]、樸素貝葉斯模型(naive bayes,NB)[14]、支持向量機模型(support vector machine,SVM)[15]、多層感知器模型(multi-layer perceptron,MLP)[16]以及邏輯回歸模型(logistic regression,LR)等9種方法來構建模型,并對所構建的模型性能進行對比。由于部分模型不能自動處理缺失值,因此,我們使用多重插補的方法來對缺失值進行填補。
5 統(tǒng)計學分析 本研究中的實驗數(shù)據(jù)主要運用SPSS 25.0、Python 3.6進行統(tǒng)計分析:1)服從正態(tài)分布的計量資料用平均值±標準差(mean±SD)表示,采用t檢驗進行組間比較;2)不服從正態(tài)分布的計量資料采用中位數(shù)±四分位數(shù)表示,采用Mann-Whitney U非參數(shù)檢驗進行組間比較;3)計數(shù)資料使用頻數(shù)(%)來表示,卡方檢驗或Fisher確切概率法用于組間比較(P<0.05即差異為具有統(tǒng)計學意義)。機器學習預測模型采用Python軟件包進行建模,十折交叉驗證主要用于模型效能驗證,評價指標選擇受試者工作特征曲線下的面積(AUC),其面積越大,則表明模型的預測效能更好。
1 臨床資料 本研究納入2019~2020年在中南大學湘雅二醫(yī)院進行產(chǎn)檢的1933名孕婦血液進行K-B試驗檢測,排除患有相關血液疾病、未在我院分娩的181名孕婦后,最終納入1752名孕婦資料進行分析(圖1所示)。
圖1 納入排除標準流程圖
2 胎母輸血預測模型構建 研究中將1226名(70%)孕婦的數(shù)據(jù)作為訓練集進行模型構建,526(30%)名孕婦的數(shù)據(jù)作為驗證集。在訓練組中,128名(10.44%)孕婦在圍產(chǎn)期發(fā)生了FMH,1098名孕婦沒有發(fā)生FMH。在驗證組中,54名(10.27%)孕婦在圍產(chǎn)期發(fā)生了FMH,472名孕婦沒有發(fā)生FMH。根據(jù)表1不難發(fā)現(xiàn),各特征變量在訓練集和測試集中的分布均不具有統(tǒng)計學差異。
表1 胎母輸血綜合征預測模型訓練集、測試集數(shù)據(jù)分布比較
續(xù)表1
3 胎母輸血預測模型性能比較 納入所采集特征指標(表1)及回歸分析所得的危險因素(高齡、雙胎妊娠、懷孕次數(shù)更多、妊娠伴有子宮肌瘤、行人工體外受精、胎兒生長受限、妊娠伴子癇前期),運用RFE再次對特征變量進行篩選,分別采用8種機器學習算法和傳統(tǒng)邏輯回歸模型對孕婦是否在圍產(chǎn)期發(fā)生胎母輸血進行預測。其模型性能效果如圖所示,通過十折交叉驗證對其分別進行驗證,發(fā)現(xiàn)XGBoost模型表現(xiàn)出明顯的預測優(yōu)勢,其測試集AUC為0.808,準確率達0.76。其性能明顯優(yōu)于AUC僅為0.681的傳統(tǒng)邏輯回歸模型和其他7個機器學習模型(如圖2)。
圖2 構建的9種預測模型AUC比較
模型性能結果比較詳見表2,根據(jù)約登指數(shù),建議模型XGBoost的最佳預測概率臨界值為0.74,靈敏度和特異度分別為0.75和0.80。邏輯回歸模型LR的最佳cutoff值為0.74,其靈敏度僅為0.55,特異度為0.76。
表2 九種模型預測性能比較
由于缺少特異性的診斷標準,F(xiàn)MH的早期診斷十分困難,因此常被臨床醫(yī)生所忽視。臨床上常常是出現(xiàn)胎兒宮內生長受限、水腫甚至死胎后,才得到診斷。隨著人工智能技術在醫(yī)療領域的廣泛使用,基于機器學習算法建立精確的預測模型已廣泛應用于心臟手術、骨科、兒科等領域,CHEN等[6]基于機器學習算法和生存分析相結合建立對IgA腎病結局進行預測的模型;AL'AREF等[17]利用機器學習算法不僅挖掘出了接受經(jīng)皮冠狀動脈介入治療患者相關危險因素中的一些新聯(lián)系,而且還實現(xiàn)了對該類患者住院死亡率的預測;JO等[18]使用梯度提升機算法建立了全膝關節(jié)置換術后輸血的預測模型,顯示出良好的預測性能。該技術具有高效、高精準性、能夠有效挖掘隱藏在海量數(shù)據(jù)中隱藏關系等特點。能夠直接應用于個體是機器學習的一大優(yōu)點,特別是在處理像醫(yī)療問題這樣的復雜的大數(shù)據(jù)時,它比傳統(tǒng)的統(tǒng)計學方法有更多的優(yōu)勢,其不僅能從多個數(shù)據(jù)模塊中進行學習,有效地識別與患者結局相關的變量、準確地預測相關危險因素、從復雜的數(shù)據(jù)中探索規(guī)律并建立數(shù)學模型,而且,還可以在驗證的過程中具有反復校正的能力[19]。
本研究納入2019~2020年在中南大學湘雅二醫(yī)院進行產(chǎn)檢的1933名孕婦血液進行K-B試驗檢測,排除患有相關血液疾病、未在我院分娩的181名孕婦后,最終納入1752名孕婦資料進行分析。隨后通過對患者數(shù)據(jù)進行數(shù)據(jù)集構建,并對數(shù)據(jù)進行清洗,剔除離群值,對于缺失值多使用多重插補進行估算,而對于缺失比例過高的特征變量,為了不影響模型結果判斷予以剔除。由于在機器學習中不同特征變量對于結果的影響存在差異,因此,為了提升模型的精確性、降低模型的復雜性,需要針對與預測結局相關的特征進行篩選。本研究主要使用RFE對FMH預測中的關鍵特征變量進行篩選,最終得到年齡、體重、羊水指數(shù)等特征變量,隨后將1226名(70%)孕婦的數(shù)據(jù)作為訓練集進行模型構建,526(30%)名孕婦的數(shù)據(jù)作為驗證集。在訓練集中采用RFE篩選出的特征變量,采用包括了XGBoost模型在內的9種方法來構建“胎母輸血綜合征預測模型”,并對所構建模型的性能進行對比。由于部分模型不能自動處理缺失值,因此,我們使用多重插補的方法來對缺失值進行填補。通過十折交叉驗證對9種方法分別進行驗證,發(fā)現(xiàn)XGBoost模型表現(xiàn)出明顯的預測優(yōu)勢,其測試集AUC為0.808,準確率達0.760。其性能明顯優(yōu)于AUC僅為0.681的傳統(tǒng)邏輯回歸模型和其他7個機器學習模型。
本研究發(fā)現(xiàn)所建立的XGBoost模型具有較強的區(qū)分性,預測性能好,表現(xiàn)出令人滿意的特異性和敏感性。該模型的成功建立,我們后續(xù)可以利用所構建的模型,映射到可視化網(wǎng)頁,醫(yī)生僅需要通過網(wǎng)頁輸入孕婦相關信息,便可得到其是否有發(fā)生FMH的風險,從而及時幫助臨床醫(yī)生識別高危人群,減少漏診的風險。此外,還可以針對不同孕婦的孕周和疾病嚴重程度對其制定個體化診療方案,盡早對患者進行救治,從而改善胎兒不良妊娠結局。
本研究尚存在一定的局限性,首先,本研究僅對單中心數(shù)據(jù)進行研究分析,所建立的模型并不具備普適性,有必要擴大樣本量、納入其他中心的數(shù)據(jù)對模型進行完善??傊狙芯窟\用8種機器學習算法和傳統(tǒng)邏輯回歸模型構建了預測孕婦圍產(chǎn)期是否發(fā)生FMH的模型,并分別對其性能進行了比較,從而挑選出一款綜合預測性能最佳的模型,探索FMH的早期預測方法,對FMH的早期臨床診斷和早期干預具有積極意義。
利益沖突所有作者均聲明不存在利益沖突