周鵬程 左海維 楊倩倩
關鍵詞:早產兒視網膜病變;高危因素分析;LightGBM;數據預處理;特征優(yōu)化
早產兒視網膜病變(retinopathy of prematurity,ROP) 是一種視網膜血管增殖性眼底疾病,占全世界兒童視力損傷和失明的因素的11%~45.8%[1]。由于ROP的病因和發(fā)病機制復雜,有效治療的時間窗很短,因此需要盡快找到ROP相關高危因素。
影響ROP發(fā)生的因素很多,目前學術界公認的三大高危因素是胎齡、出生體重與氧療[2],分析ROP相關高危因素主要的方法是傾向評分匹配[3~5]、Logistic回歸分析[6-9]和回顧性統(tǒng)計分析等[10~13]等傳統(tǒng)醫(yī)學統(tǒng)計方法,其性能在很大程度上依賴于數據集樣本和維度的數量,所能分析出的高危因素比較淺顯,很難挖掘更深層次的ROP相關高危因素。隨著人工智能的不斷發(fā)展與成熟,機器學習算法為計算機輔助醫(yī)學診斷與分析提供了有效工具。機器學習的優(yōu)點是適合處理高維數據,對醫(yī)學領域的先驗知識要求較少,評估精度比較高[14]。鑒于此,本文綜合分析ROP相關高危因素分析的研究難點,創(chuàng)新性地將機器學習LightGBM 模型應用到ROP相關高危因素的分析中,基于Light?GBM進行特征優(yōu)化,挖掘ROP更多潛在的相關高危因素,驗證機器學習方法在早產兒視網膜病變領域的應用價值,為醫(yī)生提供診斷參考依據。
1 算法
1.1 LightGBM
本文考慮到ROP數據集具有維度高、樣本少的特點,難于在小樣本數據集中挖掘關鍵特征,因此本文使用機器學習應用領域中廣經驗證的LightGBM算法進行ROP相關高危因素的建模與分析,主要原因是LightGBM具有運行效率高、內存功耗小、模型精度高、特征降維速度快等優(yōu)點。
具體優(yōu)化:因為ROP數據分析存在維度很高的問題,需要對模型訓練進行時空開銷的優(yōu)化,本文通過將數據存儲在直方圖中從而提升模型的整體訓練效率和降低內存的占用;因為按層生長的Level-wise生長策略存在對同一層葉子節(jié)點不加區(qū)分所帶來的一些沒必要地計算開銷的問題,需要對模型訓練過程中的生長策略進行優(yōu)化,本文使用Leaf-wise生長策略選擇增益最大的節(jié)點進行分裂,極大降低模型的計算代價和提高模型的準確度;因為ROP存在數據集數據有限的問題,需要在樣本少的前提下保持與精度之間的平衡,本文使用單邊梯度采樣算法從減少數據量的角度出發(fā),僅使用大梯度樣本和部分小梯度樣本進行信息增益的計算,可以在ROP數據集中保持模型的高精度;因為在特征降維時通常需要將部分特征捆綁在一起,為了防止捆綁互斥特征造成信息丟失,本文使用互斥特征捆綁算法進行特征降維的優(yōu)化。
1.2 Noise-student
Noise-student是一種半監(jiān)督學習方法,其基本步驟是先在標記圖像上訓練模型并生成偽標簽,然后在標記和偽標記圖像的組合上迭代訓練生成更大的模型。本文基于Noise-student思想設計最優(yōu)特征集尋找方法,從零開始搭建最優(yōu)特征集,分別進行特征添加特征刪減,根據評判標準與容錯值(rate) 之差的結果不斷更新最優(yōu)特征集。尋找最優(yōu)特征集的評判標準基于訓練結果受試者工作曲線(Receiver OperatingCharacteristic,ROC) 下方面積大小(Area Under所示。
其中count 為每一輪模型訓練的次數,AUC 為每次模型搭建、訓練、驗證得到的AUC 值?;贜oisestudent思想的特征優(yōu)化方法具體如表1所示。
2 實驗
本文使用LightGBM進行ROP相關高危因素分析的實驗流程結構如圖1所示,依次完成了ROP數據集的基本信息分析與數據預處理,ROP高危因素分析模型的搭建、訓練與驗證,挖掘高危因素所進行的特征優(yōu)化和對比驗證。
2.1 數據集基本信息分析與預處理
數據集的質量很大程度影響模型的性能,需要對原始數據集進行數據預處理,本文采用的數據來源于醫(yī)院ROP真實臨床檢查結果,時間跨度為2017年2月至2021年5月。為了清楚地了解數據集的基本信息,對單變量數據的基本信息進行分析,結果表明,數據共有141個樣本,數據中有“性別12”~“是否治療”共35個特征,數據類型有整數型(10個)、浮點型(34個)、字符型(1個)。
為了清楚地了解ROP數據集的分布情況,對數據集各特征變量數據的統(tǒng)計信息進行分析,結果表明,除了特征“ps”“窒息012”“IVH”的數據驗證缺失外,其余特征的數據基本完整,此外還得知了該數據集各特征的平均值、標準差、最大值、最小值等信息,為數據預處理提供參考。
分析數據集的基本信息后,發(fā)現存在數據缺失、量綱不一致等問題。根據從數據集中識別出來的特征數據缺失的情況、數據的類型以及缺失值與目標變量的關聯程度,使用計算該變量非缺失值的平均值進行填充,或直接成列刪除該特征及其所代表的數據。對于字符型數據則進行數據編碼,人為虛設十進制自增的自然數來反應該特征的不同屬性,從而量化原本不能定量處理的特征。由于部分特征的取值量綱不統(tǒng)一,這將會極大影響估計,為了縮短特征數據之間的差距,使數據更加趨于正態(tài)分布,同時保持數據的完整性,使用區(qū)間縮放法將數據集樣本映射到[0, 1]之間。最后對比參照數據的分位數與正態(tài)分布的分位數,查看數據是否符合正態(tài)分布,分別繪制特征的直方圖和Q-Q圖,特征“胎齡”預處理后的直方圖和Q-Q圖如圖2和圖3所示??梢钥闯鲱A處理后特征“胎齡”的數據分布近似于正態(tài)分布,QQ圖中的數據基本根據對角線分布,經過數據預處理后的數據集相較于原始數據集質量已經有了很大提升,可以足夠適應接下來的模型訓練。為了方便模型搭建與提高模型分析結果的準確度,本文還進行了設置圖片顯示字體、劃分特征變量與目標變量、忽略代碼警告信息、SMOTE過采樣、切分訓練集與測試集(8:2) 等準備工作。
2.2 模型搭建、訓練、驗證
進行ROP相關高危因素分析的關鍵所在是構建LightGBM 分類模型,使用網格搜索對learning_rate、n_estimators、num_leaves 進行參數調優(yōu),其中,learn?ing_rate用于控制模型訓練性能,n_esti mators用于指定算法的迭代次數,num_leaves用于指定一棵樹上的葉子節(jié)點個數,分別設置評估標準為AUC 值和進行5 折交叉驗證。調優(yōu)后得到的參數最優(yōu)值如下:learn?ing_rate:0.2,n_estimators:20,num_leaves:10,然后對訓練集進行模型訓練。訓練結束后計算模型的精度和F1值測試模型性能,精度為0.7142,F1值為0.71。為了使得測試的結果更加準確,計算模型的AUC 值。分別搭建1000次LightGBM模型,調整隨機種子使得每次訓練集和測試集的劃分均不同,并通過控制KS值以防止模型發(fā)生異常。經過訓練與驗證后,發(fā)現當隨機種子為547時的LightGBM模型AUC 值最高,為0.8352,而KS 值為0.4942也驗證了該模型的優(yōu)越性能以及確定了模型沒有發(fā)生異常情況。
2.3 特征優(yōu)化
計算原始特征集的特征重要性,以特征重要性≥1 的特征作為候選特征集,初始化rate為0.02,衰減值為0.002。經過10輪特征優(yōu)化后,所得到的最優(yōu)特征集為Apgar1、胎膜早破、胎齡、母親年齡、Apgar5、敗血癥(E/L)、貧血E/L、氧時/d、Px、無創(chuàng)/d,且在第9輪后不再發(fā)生變動,其AUCMEAN為0.9189。
2.4 對比驗證
使用LightGBM對最優(yōu)特征集進行模型再驗證,相關評判標準的結果如表2所示??梢钥闯?,模型再驗證的精度相對于優(yōu)化前提高了20.00%,F1 相對于優(yōu)化前提高了21.23%,AUC 值為相對于優(yōu)化前提高了13.42%,KS 值為0.7460,低于0.75說明模型沒有發(fā)生異常。
對特征優(yōu)化過程進行拆分實驗,分別驗證未特征優(yōu)化、僅特征添加和有無增加容錯值的特征優(yōu)化后的最優(yōu)特征集在模型上的性能表現,如表3所示??梢钥闯?,增加容錯值的特征優(yōu)化后的最優(yōu)特征集在模型上的性能表現更加準確,其精度、F1、AUC 值都有所提升。
計算最優(yōu)特征集的特征重要性,如表4所示??梢钥闯觯顑?yōu)特征集中的特征按特征重要性從高到低排分別為:Px、氧時/d、無創(chuàng)/d、胎齡、Apgar1、母親年齡、Apgar5、胎膜早破、貧血E/L、敗血癥(E/L),對應的特征重要性分別是18、16、15、14、12、11、9、6、1、0,其中貧血E/L和敗血癥(E/L)相比于其他特征由于特征重要性太低,可能是特征優(yōu)化過程中沒有剔除出去的噪聲。最終得出ROP相關高危因素為Px、氧時、無創(chuàng)、胎齡、Apgar1、母親年齡、Apgar5、胎膜早破,其中氧時與胎齡與學術界公認的結果一致,母親年齡、胎膜早破也符合臨床醫(yī)生診斷經驗,而Px、無創(chuàng)、Apgar1、Ap?gar5則是通過機器學習挖掘出的ROP潛在相關高危因素。
3 結論
本文旨在基于機器學習進行ROP相關高危因素分析,對ROP原始數據集進行了基本信息分析和數據預處理后,建立了基于LightGBM的ROP相關高危因素分析模型,并根據該模型進行特征優(yōu)化得到ROP最優(yōu)特征集,即ROP相關高危因素,得出以下結論
1) 從數據集本身和模型訓練的結果來看,本文使用的徐州醫(yī)科大學附屬醫(yī)院的ROP數據集能夠較好地反映ROP的潛在相關風險因素,利用胎齡、出生體重、高氧、氧時等34個特征作為LightGBM模型的輸入特征,可以很好地挖掘出ROP的相關高危因素以及更深層次的潛在風險因素,其中,LightGBM分析模型的精確度達到0.7142,AUC 值達到0.8352,KS 值達到0.4942也證明了機器學習模型在早產兒視網膜病變分析領域處理高維度數據集的有效性;
2) 從模型再驗證的結果來看,本研究對最優(yōu)特征集再次進行LightGBM模型搭建、訓練與驗證后,經過LightGBM的特征優(yōu)化所得的高危因素相對原始數據集的模型預測性能有了大幅提升,驗證了特征優(yōu)化過程的有效性和合理性,所得的最優(yōu)特征集是通過機器學習模型特征優(yōu)化后的ROP相關高危因素,其中大部分因素與臨床醫(yī)生經驗一致,并通過對相關高危因素進行特征重要性排名,篩選出了潛在高危因素。