鄧宇含,劉爽,王子堯,汪雨欣,劉寶花
卒中是全球最主要的死亡原因和致殘原因之一[1],給社會帶來沉重的經(jīng)濟負擔(dān)[2]。由于人口老齡化速度加快,卒中的高危人群逐漸增加[3],且其發(fā)病人群具有年輕化的趨勢[4]。提早識別高危人群,控制其發(fā)病的危險因素,對減少疾病負擔(dān)以及延長期望壽命意義重大[5]。然而,由于卒中的發(fā)病原因復(fù)雜[6]、個體差異較大[7],傳統(tǒng)的統(tǒng)計學(xué)模型在卒中發(fā)病風(fēng)險預(yù)測方面存在一定的局限性[8]。
在大數(shù)據(jù)時代,數(shù)據(jù)量的日益擴增和計算機處理能力的快速提升使得機器學(xué)習(xí)方法的優(yōu)勢逐步體現(xiàn)[9],機器學(xué)習(xí)方法由于可以處理變量間的復(fù)雜關(guān)系且不要求數(shù)據(jù)遵從統(tǒng)計學(xué)假設(shè),被越來越多地應(yīng)用于疾病的診斷和預(yù)測方面[10-11],其中不乏用機器學(xué)習(xí)方法預(yù)測卒中發(fā)病風(fēng)險的研究。雖然目前將機器學(xué)習(xí)應(yīng)用于卒中的研究較多,但部分研究是以影像學(xué)資料為基礎(chǔ)[12-13],而普通人群進行影像學(xué)檢查的成本較高、檢查比例較低,使得這些研究的結(jié)果不能在普通人群中廣泛應(yīng)用。結(jié)構(gòu)化數(shù)據(jù)具有成本低、易測量、易獲取的特點[14],用結(jié)構(gòu)化數(shù)據(jù)預(yù)測卒中發(fā)病風(fēng)險對于在普通人群中識別出高危個體具有重要意義。
目前,用結(jié)構(gòu)化數(shù)據(jù)預(yù)測卒中發(fā)病風(fēng)險的研究逐漸增加,但尚缺乏相關(guān)的綜述性研究,機器學(xué)習(xí)是否能準(zhǔn)確地識別卒中高危人群仍無定論。因此,本研究納入當(dāng)前用結(jié)構(gòu)化數(shù)據(jù)預(yù)測普通人群卒中發(fā)病風(fēng)險的文獻,旨在評估機器學(xué)習(xí)模型在卒中發(fā)病風(fēng)險預(yù)測中的應(yīng)用價值和預(yù)測性能。
1.1 研究對象 以18歲以上的普通人群作為研究對象。納入標(biāo)準(zhǔn):①在普通人群中進行預(yù)測;②預(yù)測卒中首次發(fā)病的風(fēng)險;③采用結(jié)構(gòu)化數(shù)據(jù)和常規(guī)數(shù)據(jù),如電子健康檔案、保險索賠數(shù)據(jù)等建模和預(yù)測;④采用預(yù)后預(yù)測模型對特定時間間隔后的結(jié)局進行預(yù)測;⑤采用機器學(xué)習(xí)模型進行預(yù)測。排除標(biāo)準(zhǔn):①采用診斷模型識別卒中患者或?qū)膊喰瓦M行分類的研究;②預(yù)測住院患者或因卒中相關(guān)癥狀在門診就診患者的卒中發(fā)病風(fēng)險的研究。
1.2 文獻檢索策略 檢索PubMed、Web of Science、Scopus、Embase 4個數(shù)據(jù)庫2021年6月21日之前的所有文獻,以系統(tǒng)評價和meta分析的首選報告項目(preferred reporting item for systematic reviews and meta-analysis,PRISMA)為基礎(chǔ)進行分析[15]。研究方案及檢索策略已在國際化前瞻性系統(tǒng)評價注冊數(shù)據(jù)庫(international prospective register of systematic reviews,PROSPERO)網(wǎng)站注冊(CRD42021264406)[16]。
1.3 文獻篩選與數(shù)據(jù)提取 兩位研究者依據(jù)納入排除標(biāo)準(zhǔn)獨立對標(biāo)題和摘要進行篩選,初篩合格者進入全文篩選,全文篩選同樣由2名研究者根據(jù)納入排除標(biāo)準(zhǔn)獨立審查。兩位研究者之間存在意見不一致的情況時,交由第三位研究者判定。
對于全文篩選后符合納入標(biāo)準(zhǔn)的文章,由3位研究者參照預(yù)測模型數(shù)據(jù)提取相關(guān)研究(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)[17]獨立進行數(shù)據(jù)提取,提取的信息包括期刊來源、研究發(fā)表年份、研究進行的國家、數(shù)據(jù)收集的國家、數(shù)據(jù)來源、研究類型、預(yù)測時間間隔、納入的變量數(shù)、變量選擇方法、樣本量、陰性陽性事件比例、類別不平衡的處理、缺失值的處理、機器學(xué)習(xí)模型類別、超參數(shù)調(diào)整、內(nèi)部驗證、外部驗證、實施軟件、模型評估指標(biāo)、是否開發(fā)工具、區(qū)分度評價、校準(zhǔn)度評價、變量重要性等。
1.4 偏倚評估 以預(yù)測模型風(fēng)險評估工具(prediction model risk of bias assessment tool,PROBAST)[18]為依據(jù)對文獻進行偏倚風(fēng)險評估,分別對研究對象、預(yù)測變量、結(jié)局和分析方法以及總體偏倚風(fēng)險(前4個部分)和總體適用性(前3個部分)進行評估,風(fēng)險分為低、未知、高3個等級。
1.5 模型表現(xiàn)與meta分析 模型表現(xiàn)通過區(qū)分度和校準(zhǔn)度衡量。區(qū)分度衡量模型區(qū)分特定事件可能結(jié)果的能力,衡量區(qū)分度的指標(biāo)為ROC曲線的AUC,取值范圍為0.5~1,其中,0.5~<0.6表明模型無區(qū)分能力,0.6~<0.7表明模型的區(qū)分能力較差,0.7~<0.8表明模型的區(qū)分能力中等,0.8~<0.9表明模型的區(qū)分能力較好,0.9~1表明模型的區(qū)分能力極佳。校準(zhǔn)度是一種評估模型擬合優(yōu)度的指標(biāo),用于評估觀測結(jié)果和預(yù)測結(jié)果之間的一致性,可以通過校準(zhǔn)圖或統(tǒng)計檢驗方法進行評估。
由于僅有極少數(shù)研究評估了模型的校準(zhǔn)度,因此僅對衡量模型區(qū)分度的指標(biāo)進行meta分析。排除具有高偏倚風(fēng)險的研究,對中、低偏倚風(fēng)險的研究中報告了模型的AUC及其95%CI者,用Robert G的方法[19]計算標(biāo)準(zhǔn)誤,采用限制性最大似然估計進行隨機效應(yīng)meta分析。對于僅報告了模型的AUC,未報告其95%CI及標(biāo)準(zhǔn)誤的研究,采用Hanley和McNeil的方法[20],根據(jù)AUC值、樣本量和陰性陽性事件比例估計標(biāo)準(zhǔn)誤,再對AUC進行meta分析。此外,考慮到各個研究之間的異質(zhì)性,meta分析采用隨機效應(yīng)模型進行,即對總體參數(shù)進行加權(quán)平均。通過漏斗圖和統(tǒng)計檢驗方法評估發(fā)表偏倚。通過剔除具有極端AUC值的模型,評估異常值對合并后AUC的影響。通過亞組分析解釋研究存在的異質(zhì)性的來源,具體包括預(yù)測時間間隔、算法類型、內(nèi)部驗證數(shù)據(jù)劃分方法、是否進行超參數(shù)調(diào)整、預(yù)測變量個數(shù)和樣本量大小等。meta分析在MedCalc中進行。
2.1 文獻篩選流程 4個數(shù)據(jù)庫共檢索出6286篇文獻,其中,重復(fù)文獻2252篇,剔除重復(fù)文獻后,經(jīng)題目和摘要篩選,3954篇文獻不符合納入排除標(biāo)準(zhǔn),對剩余80篇文獻進行全文篩選,最終納入文獻11篇[21-31],文獻篩選流程見圖1。
圖1 文獻篩選流程
2.2 文獻特征描述 多數(shù)研究(7篇)在中國進行;數(shù)據(jù)來源包括電子健康檔案(2篇)、醫(yī)療保險數(shù)據(jù)庫(3篇)、調(diào)查數(shù)據(jù)(4篇)和醫(yī)院來源的數(shù)據(jù)(2篇);中位隨訪時間為3年;納入預(yù)測變量數(shù)的中位數(shù)為26,其中有7篇研究進行了變量選擇,僅有3篇研究描述了預(yù)測變量的測量方法,5篇研究提到了對變量的處理。樣本量的中位數(shù)為8175。其中,6篇研究所納入的研究對象均存在類別不平衡問題,即未發(fā)病者遠多于發(fā)病者;有5篇研究描述了類別不平衡問題,其中4篇研究對類別不平衡問題進行了處理。所有研究中,僅有4篇研究對缺失數(shù)據(jù)進行了描述,4篇研究對缺失數(shù)據(jù)的處理方法進行了描述。研究用到的機器學(xué)習(xí)模型包括神經(jīng)網(wǎng)絡(luò)(5篇)、隨機森林(3篇)和支持向量機(5篇)等,其中,有5篇研究對超參數(shù)進行了調(diào)整。11篇研究中,有3篇研究未進行內(nèi)部驗證,其余研究中,有4篇研究通過K折交叉驗證的方法對數(shù)據(jù)集進行劃分,4篇研究對數(shù)據(jù)集進行了單次隨機劃分;僅有1篇研究進行了外部驗證;有2篇研究未對模型的區(qū)分度進行評估,其余研究均評價了模型的AUC;僅有1篇研究對模型的校準(zhǔn)度進行了評估;此外,5篇研究對預(yù)測變量的重要性進行了評價。11篇文獻數(shù)據(jù)提取的詳細資料可在PROSPERO網(wǎng)站查詢(CRD42021264406)。
2.3 偏倚評估結(jié)果 依據(jù)PROBAST進行偏倚風(fēng)險評估的結(jié)果見圖2。在研究對象、預(yù)測變量和結(jié)局3個部分中,均有8篇為低風(fēng)險;在分析方法部分中,偏倚風(fēng)險為“未知風(fēng)險”的研究有4篇;綜合前4個部分的“未知風(fēng)險”,致使總體偏倚風(fēng)險多為“未知風(fēng)險”。對于適用性問題,偏倚風(fēng)險為“未知風(fēng)險”的研究有6篇,仍占多數(shù)。
2.4 主要結(jié)局與meta分析結(jié)果 排除具有高偏倚風(fēng)險的3篇研究,其余8篇研究建立的33個模型的AUC的變化范圍為0.560~0.925,中位數(shù)為0.76 4。其中,5個模型的AUC位于0.5~<0.6,表明無區(qū)分能力;2個模型的AUC位于0.6~<0.7,表明區(qū)分能力較差;18個模型的AUC位于0.7~<0.8,表明區(qū)分能力中等;6個模型的AUC位于0.8~<0.9,表明區(qū)分能力較好;2個模型的AUC位于0.9~1,表明具有極好的區(qū)分能力。
隨機效應(yīng)meta分析結(jié)果見圖3,異質(zhì)性I2=99.70%(P<0.001),整合后的AUC為0.745(95%CI0.712~0.778)。
圖2 偏倚風(fēng)險評估結(jié)果
2.5 亞組分析I2和P值顯示多數(shù)亞組內(nèi)均存在異質(zhì)性,亞組間的比較通過AUC 的95%CI是否重疊進行。預(yù)測時間間隔為3年(AUC=0.810,95%CI0.750~0.870)和5年(AUC=0.784,95%CI0.774~0.794)的研究相比于1年(AUC=0.689,95%CI0.621~0.757)和2年(AUC=0.713,95%CI0.708~0.719)的研究模型的區(qū)分能力較好。三種機器學(xué)習(xí)模型預(yù)測能力差異較小,其中,隨機森林(AUC=0.755,95%CI0.693~0.818)預(yù)測能力較好,但與其他兩種模型的差異無統(tǒng)計學(xué)意義。未進行超參數(shù)調(diào)整的模型的預(yù)測能力(AUC=0.762,95%CI0.744~0.780)略優(yōu)于進行了超參數(shù)調(diào)整的模型的預(yù)測能力(AUC=0.733,95%CI0.678~0.788)。通過交叉驗證方法劃分?jǐn)?shù)據(jù)集得到的預(yù)測結(jié)果(AUC=0.766,95%CI0.731~0.802)相比于隨機劃分?jǐn)?shù)據(jù)集得到的預(yù)測結(jié)果(AUC=0.726,95%CI0.673~0.779)較好。納入的預(yù)測變量個數(shù)≥100的模型的預(yù)測能力(AUC=0.806,95%CI0.774~0.837)顯著高于預(yù)測變量個數(shù)<100的模型(AUC=0.684,95%CI0.643~0.725)。樣本量較大的模型的預(yù)測性能優(yōu)于樣本量較小的模型的預(yù)測能力(表1)。
2.6 發(fā)表偏倚與敏感性分析 漏斗圖和Egger檢驗結(jié)果(P=0.050)均顯示研究存在發(fā)表偏倚(圖4)。剔除具有極端AUC值(AUC=0.560[27],AUC=0.925[25])的模型后,隨機效應(yīng)meta分析結(jié)果為0.746(95%CI0.714~0.777;I2=99.67%,P<0.001)。對比所有模型隨機效應(yīng)meta分析結(jié)果[0.745(95%CI0.712~0.778);I2=99.70%,P<0.001],可見合并后的AUC對異常值不敏感。
由合并AUC可見,機器學(xué)習(xí)模型預(yù)測卒中發(fā)病風(fēng)險的區(qū)分能力處于中等水平(AUC 0.745,95%CI0.712~0.778),表明其存在一定的應(yīng)用價值,但仍需進一步探討不同研究的差異來源,并通過針對性的改進提高模型預(yù)測能力。
表1 亞組分析結(jié)果
圖4 發(fā)表偏倚評估結(jié)果
亞組分析可以探討研究的異質(zhì)性來源。亞組分析顯示,較大的樣本量(≥100 000)和較大的預(yù)測變量數(shù)量(≥100)可以顯著提高模型的預(yù)測能力,這也與機器學(xué)習(xí)模型能夠處理變量間復(fù)雜的相互關(guān)系并從大樣本中進行學(xué)習(xí)相對應(yīng)[32]。亞組分析結(jié)果還顯示,常規(guī)的機器學(xué)習(xí)模型(隨機森林、神經(jīng)網(wǎng)絡(luò)、支持向量機等)之間預(yù)測性能的差異不大,這也與已有的研究結(jié)果相一致[33]。從不同機器學(xué)習(xí)模型的應(yīng)用頻率可見,神經(jīng)網(wǎng)絡(luò)的應(yīng)用頻率最高,即在不考慮模型可解釋性和過擬合問題的情況下,多數(shù)研究傾向于使用較為復(fù)雜的模型[34]。然而,納入的部分研究在常規(guī)的機器學(xué)習(xí)模型的基礎(chǔ)上進行了優(yōu)化和改進,得出了諸如混合深度轉(zhuǎn)移模型(hybrid deep transfer learning,HDTL)[22]、Dempster-Shafer分類器(Dempster-Shafer classifier)[21]等的新型預(yù)測模型,使得其預(yù)測性能明顯提升,但由于這些模型尚未廣泛應(yīng)用,其價值需要進一步探索。亞組分析顯示預(yù)測時間間隔對預(yù)測性能有一定的影響,其中,預(yù)測時間間隔為3年時,模型的預(yù)測性能較好,這或許提示了預(yù)測卒中患者發(fā)病的最佳時間間隔[35]。不同的數(shù)據(jù)集劃分方法同樣對模型的預(yù)測能力有影響,相較于單次隨機劃分,K折交叉驗證在一定程度上彌補了單次劃分的偶然性,因此具有更好的預(yù)測性能[36]。此外,進行了超參數(shù)調(diào)整的模型比未進行超參數(shù)調(diào)整的模型表現(xiàn)略差,這可能是由于未進行超參數(shù)調(diào)整的模型采用了其他超參數(shù)選擇方法,如借鑒已有的已經(jīng)過驗證的研究中的超參數(shù)等。
偏倚風(fēng)險評估顯示大多數(shù)研究的質(zhì)量均存在問題,且多數(shù)研究存在方法學(xué)缺陷,這也與已有的系統(tǒng)綜述結(jié)果相一致[37],這可能是由于用機器學(xué)習(xí)模型進行建模和預(yù)測的研究缺乏報告規(guī)范[38],因此難以保證研究質(zhì)量。機器學(xué)習(xí)的優(yōu)點之一是可以處理高維變量間的復(fù)雜關(guān)系[39],因此對樣本量的要求較高,而部分研究納入的樣本量較少。此外,機器學(xué)習(xí)模型的復(fù)雜性使其無法對預(yù)測變量與結(jié)局之間的關(guān)系進行明確的解釋,因此在實際應(yīng)用時受到限制,而進行預(yù)測變量重要程度的衡量可以增加機器學(xué)習(xí)模型的可解釋性,但是,11篇研究中僅有4篇研究報告了預(yù)測變量的重要程度。此外,所納入的研究之間存在較大的異質(zhì)性,且異質(zhì)性在多數(shù)亞組內(nèi)同樣存在。由于不同研究的數(shù)據(jù)類型與來源均不同,雖然本研究將研究對象限定為了普通人群,但由于預(yù)測變量的納入通常依賴于當(dāng)前數(shù)據(jù)的特征,不同研究所納入的預(yù)測變量之間仍存在一定的差異,如Chen等[22]的研究僅納入了實驗室檢查變量作為預(yù)測變量;而在Chen等[31]的研究中,雖然實驗室檢查變量納入較少,但卻納入了體格檢查指標(biāo)、病史和生活方式等變量,部分研究也納入了用藥相關(guān)變量[25,29];而預(yù)測變量的類型通常對結(jié)果具有決定性影響,因此,很難對這種因預(yù)測變量而產(chǎn)生的異質(zhì)性進行消除或弱化。
由發(fā)表偏倚漏斗圖可見,數(shù)據(jù)點呈橫向聚集樣分布,即多數(shù)研究AUC的標(biāo)準(zhǔn)誤均無明顯差異,這可能是由于納入的11篇研究均未報告AUC的標(biāo)準(zhǔn)誤,需要通過置信區(qū)間和樣本量等推算得出,而用這些方法推算出的AUC的標(biāo)準(zhǔn)誤不能完全代表真實的標(biāo)準(zhǔn)誤,可能存在一定的偏倚,在后續(xù)的研究中可以探索用已有的指標(biāo)進行AUC的合并。
本研究存在一定的局限性:首先,合并后AUC是基于標(biāo)準(zhǔn)誤產(chǎn)生的,而多數(shù)研究并未直接提供該指標(biāo),也尚未有其他方法可以由文章中已有的指標(biāo)對AUC進行合并,因此,僅能通過對標(biāo)準(zhǔn)誤進行間接推斷的方法計算合并后AUC,這在一定程度上影響了結(jié)果的準(zhǔn)確性。其次,并非所有研究都選取AUC作為模型預(yù)測效果的評價指標(biāo),而諸如準(zhǔn)確率、敏感度、特異度等指標(biāo)也應(yīng)該納入考慮范圍。再次,由于納入的多數(shù)研究在進行時尚未有相應(yīng)的指南對預(yù)后預(yù)測模型的建立方法與步驟進行明確規(guī)定[40],因此,多數(shù)研究均缺少方法學(xué)部分的信息,在一定程度上影響了該研究的結(jié)果。
綜上所述,用結(jié)構(gòu)化數(shù)據(jù)和機器學(xué)習(xí)方法預(yù)測人群卒中發(fā)病風(fēng)險的效果一般,且相關(guān)研究的質(zhì)量普遍不高。后續(xù)的研究應(yīng)著重提高研究質(zhì)量,進而針對性地提高模型的預(yù)測能力。