海軍軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系軍事衛(wèi)生統(tǒng)計(jì)學(xué)教研室(200433) 武勝勇 何 倩 郭軼斌 吳 騁
世界衛(wèi)生組織統(tǒng)計(jì)表明,目前腦卒中已在全球死亡原因中躍升至第二位[1]。據(jù)美國(guó)心臟協(xié)會(huì)(American Heart Association,AHA)統(tǒng)計(jì),在美國(guó),腦卒中是死亡的第五大原因,每年有79.5萬(wàn)美國(guó)人經(jīng)歷一次新的或復(fù)發(fā)性腦卒中[2]。而在中國(guó),腦血管疾病已成為排名第三的死亡原因,對(duì)腦卒中防治的重要性已成為業(yè)內(nèi)共識(shí)[3]。腦卒中發(fā)病的原因涉及先天遺傳因素、后天影響因素[4]等,同時(shí)也受諸多不可控事件的影響,故其發(fā)病過程具有較大的異質(zhì)性[5]。因此,迫切需要在腦卒中的預(yù)防和治療過程中,通過簡(jiǎn)化醫(yī)療操作過程和改進(jìn)診療技術(shù)來解決其治療過程中產(chǎn)生的諸多復(fù)雜問題,降低不斷上升的醫(yī)療成本[6-7]。
近年來隨著生物醫(yī)學(xué)研究的發(fā)展,對(duì)于腦卒中的研究日益深入,在基于“組學(xué)”數(shù)據(jù)[8-9]、實(shí)時(shí)風(fēng)險(xiǎn)預(yù)測(cè)等方面的研究對(duì)統(tǒng)計(jì)學(xué)工具的要求不斷提高。傳統(tǒng)統(tǒng)計(jì)學(xué)方法對(duì)這些高維、海量、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)集分析效果并不理想,同時(shí)面對(duì)真實(shí)世界中取樣異質(zhì)性低、缺失值多、復(fù)雜程度高等問題,也難以找到合適的處理方式[10]。機(jī)器學(xué)習(xí)(machine learning,ML)主要研究如何使計(jì)算機(jī)通過實(shí)驗(yàn)從數(shù)據(jù)中學(xué)習(xí),是預(yù)測(cè)分析的一項(xiàng)主要內(nèi)容[11],作為傳統(tǒng)統(tǒng)計(jì)學(xué)方法的補(bǔ)充,目前醫(yī)學(xué)研究中采用機(jī)器學(xué)習(xí)的趨勢(shì)日益明顯。
圍繞機(jī)器學(xué)習(xí)在腦卒中研究方面的應(yīng)用,本文綜述了支持向量機(jī)、隨機(jī)森林及深度學(xué)習(xí)方法,描述了其主要思想,分析了其優(yōu)點(diǎn)和不足,以期對(duì)機(jī)器學(xué)習(xí)未來在腦卒中患者診療中的應(yīng)用起到一定助力作用。
由于腦卒中發(fā)病位置的特殊性,導(dǎo)致其對(duì)身體各個(gè)部位的影響范圍、程度都遠(yuǎn)超其他疾病,故即使是具有豐富經(jīng)驗(yàn)的臨床醫(yī)師也很難對(duì)其各方面預(yù)后做出準(zhǔn)確評(píng)估。一般認(rèn)為初始運(yùn)動(dòng)障礙和皮質(zhì)運(yùn)動(dòng)系統(tǒng)缺陷較少的患者治療結(jié)束后可能有更好的運(yùn)動(dòng)能力,在實(shí)際預(yù)后評(píng)估中,這些普遍被接受的相關(guān)性并不總是正確[12]。因?yàn)樵谀X卒中患者病情進(jìn)展中,其影響因素包括各類臨床特征、后續(xù)治療甚至患者發(fā)病前后的生活習(xí)慣等[13],但由于這類特征數(shù)據(jù)類型多、數(shù)據(jù)量大,使得這些復(fù)雜的相互作用很難使用傳統(tǒng)模型進(jìn)行評(píng)估。機(jī)器學(xué)習(xí)模型能夠模擬復(fù)雜系統(tǒng)的結(jié)果,具有傳統(tǒng)統(tǒng)計(jì)學(xué)模型不具有的優(yōu)勢(shì),對(duì)比見表1。
表1 傳統(tǒng)和機(jī)器學(xué)習(xí)模型比較
鑒于機(jī)器學(xué)習(xí)方法相較傳統(tǒng)預(yù)測(cè)模型的諸多優(yōu)點(diǎn),目前研究已證實(shí)了使用機(jī)器學(xué)習(xí)方法預(yù)測(cè)卒中結(jié)局的預(yù)后模型能夠取得較準(zhǔn)確的結(jié)果[14-15]。機(jī)器學(xué)習(xí)算法能夠幫助醫(yī)生做出更好的臨床決策,為患者贏得更好的生活質(zhì)量和預(yù)期壽命[16]。
支持向量機(jī)(support vector machine,SVM)是通過將數(shù)據(jù)升維,映射到一個(gè)更高維的特征空間里,在高維空間里建立最大間隔的超平面,通過對(duì)支持向量的訓(xùn)練,對(duì)特征空間進(jìn)行劃分得到最優(yōu)超平面,從而將非線性的分類問題,轉(zhuǎn)變?yōu)榫€性分類的機(jī)器學(xué)習(xí)方法。其對(duì)多變且具有較強(qiáng)時(shí)間性的分類問題具有較大優(yōu)勢(shì)[17],目前已在醫(yī)學(xué)領(lǐng)域取得較廣泛的應(yīng)用[18]。SVM的主要優(yōu)勢(shì)在于其利用核函數(shù)向高維空間進(jìn)行非線性映射,理論基礎(chǔ)較為明確。同時(shí),SVM對(duì)數(shù)據(jù)的預(yù)測(cè)主要基于少數(shù)支持向量,從而對(duì)樣本進(jìn)行篩選,不僅簡(jiǎn)化了算法,避免了算法過度復(fù)雜可能帶來的過擬合風(fēng)險(xiǎn);同時(shí)也可以對(duì)訓(xùn)練集中的樣本進(jìn)行篩選,抓住關(guān)鍵樣本,即研究對(duì)象的關(guān)鍵特征。
國(guó)內(nèi)張麗娜等,分別通過使用SVM和logistic回歸方法對(duì)急性出血性腦卒中早期預(yù)后進(jìn)行預(yù)測(cè),并對(duì)所建立的模型進(jìn)行比較,證實(shí)了SVM在靈敏度、特異度、準(zhǔn)確率及Youden指數(shù)等方面均優(yōu)于傳統(tǒng)的logistic回歸[19]。SVM在小樣本中的表現(xiàn)也明顯優(yōu)于傳統(tǒng)方法。Asadi等開發(fā)了一個(gè)基于二分法的Rankin修訂量表評(píng)分(mRS)模型,采用SVM基于一個(gè)107例的數(shù)據(jù)集,使預(yù)測(cè)精確度達(dá)到了70%[20]。Bentley等利用116例急性缺血性腦卒中患者的CT腦圖像建立了SVM模型,用以識(shí)別具有癥狀性顱內(nèi)出血風(fēng)險(xiǎn)的急性缺血性腦卒中患者,預(yù)測(cè)模型的AUC達(dá)到了0.744[21]。
但SVM也存在較明顯的不足,首先就是對(duì)大樣本數(shù)據(jù)的訓(xùn)練難以進(jìn)行,當(dāng)樣本量較大時(shí),將耗費(fèi)大量的機(jī)器內(nèi)存和運(yùn)算時(shí)間,且無法達(dá)到所期望的效果。Heo等以2923名急性缺血性中風(fēng)患者為研究對(duì)象,建立了基于機(jī)器學(xué)習(xí)的模型,發(fā)現(xiàn)基于SVM的模型AUC為0.836,基于logistic回歸模型AUC為0.842[22],SVM并不具有優(yōu)勢(shì)。
此外,SVM的經(jīng)典算法只能解決二分類問題,然而實(shí)際問題中純粹的二分類問題較少。對(duì)于多分類問題,SVM主要使用一對(duì)多組合模式、一對(duì)一組合模式及SVM決策樹進(jìn)行解決,或通過構(gòu)造多個(gè)分類器的組合來將多分類問題進(jìn)行轉(zhuǎn)換,對(duì)于分類較少的問題效果較好,但對(duì)于分類較多的問題易出現(xiàn)分類重疊現(xiàn)象、不可分類現(xiàn)象等,同時(shí)運(yùn)算量也將大幅度增加,隨著目前硬件水平的不斷提高,相關(guān)研究目前也在不斷深入。
隨機(jī)森林(random forests,RF)是以決策樹(decision tree)為基礎(chǔ)發(fā)展而來的一類高級(jí)集成學(xué)習(xí)方法。決策樹是指通過數(shù)據(jù)之間的相似性對(duì)數(shù)據(jù)進(jìn)行分類,并將分類的依據(jù)設(shè)定為節(jié)點(diǎn)。決策樹最大的優(yōu)勢(shì)就是將一個(gè)復(fù)雜的決定,轉(zhuǎn)化為一系列簡(jiǎn)單的決定,將一個(gè)復(fù)雜的問題轉(zhuǎn)化為一系列簡(jiǎn)單的問題,從而使這一復(fù)雜問題得到解決[23-24]。隨機(jī)森林就是用隨機(jī)的方式構(gòu)建多個(gè)決策樹,并對(duì)所有決策樹的結(jié)果進(jìn)行集成,將眾數(shù)確定為最終的輸出值。
區(qū)別于SVM等二進(jìn)制分類器算法,隨機(jī)森林本質(zhì)上是一個(gè)多標(biāo)簽分類器,使研究者可以直接通過算法對(duì)不同組進(jìn)行分類,而不需要首先尋找方法將不同類的分組合并在一起(如前文所述的建立多個(gè)SVM解決多分類問題)再進(jìn)行分類[25]。因此,在多分類問題上,隨機(jī)森林的表現(xiàn)優(yōu)于SVM等二進(jìn)制分類器[26]。其次,隨機(jī)森林可以有效地處理數(shù)據(jù)量大且維度高的數(shù)據(jù)集,并能夠在訓(xùn)練結(jié)束后將重要特征自動(dòng)進(jìn)行總結(jié),不需要在訓(xùn)練前對(duì)特征進(jìn)行篩選。
Jung-Gyu Yoon等一項(xiàng)針對(duì)韓國(guó)腦卒中患者一般情況與卒中后性功能變化的研究使用隨機(jī)森林算法,取得了較好的結(jié)果[27]。文天才等根據(jù)卒中相關(guān)因素、腦卒中患者所處醫(yī)療環(huán)境及患者家庭情況等方面,采用隨機(jī)森林模型對(duì)患者31天內(nèi)非計(jì)劃再入院的危險(xiǎn)因素進(jìn)行了分析,利用隨機(jī)森林方法綜合考慮各因素對(duì)結(jié)局變量的影響并進(jìn)行重要性評(píng)分,取得了較好的效果[28]。
隨機(jī)森林也存在一些不足,如最大葉節(jié)點(diǎn)數(shù)(max leaf nodes)的設(shè)定,如果節(jié)點(diǎn)過少,會(huì)導(dǎo)致擬合不足;如果過多,甚至不對(duì)最大葉結(jié)點(diǎn)數(shù)進(jìn)行限定,則容易導(dǎo)致過擬合,使模型難以泛化。目前主要采用每棵樹都使用一個(gè)訓(xùn)練樣本子集和一個(gè)隨機(jī)選擇的特征子集進(jìn)行訓(xùn)練,之后將這些單獨(dú)訓(xùn)練的子集組合在一起,從而提高模型的泛化能力[29]。另外就是采用剪枝處理,主要分為預(yù)剪枝和后剪枝[30]。預(yù)剪枝主要是指在訓(xùn)練中對(duì)節(jié)點(diǎn)劃分前后的泛化性進(jìn)行評(píng)估,如果此節(jié)點(diǎn)不能提升泛化性,則將此節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn),通過這種方法對(duì)節(jié)點(diǎn)進(jìn)行篩選,降低過擬合的風(fēng)險(xiǎn),也在一定程度上降低了訓(xùn)練所需的計(jì)算量,但可能會(huì)導(dǎo)致欠擬合;后剪枝則是在決策樹訓(xùn)練結(jié)束后,對(duì)訓(xùn)練出的非葉節(jié)點(diǎn)泛化性進(jìn)行驗(yàn)證,從而選擇是否將子樹替換成葉節(jié)點(diǎn),后剪枝訓(xùn)練出的模型一般會(huì)保留更多的節(jié)點(diǎn),同時(shí)其擬合程度也會(huì)更高,但其需要的算力也遠(yuǎn)高于預(yù)剪枝[31]。
如前文所述,Heo等的研究中,其隨機(jī)森林模型就出現(xiàn)了過擬合以至于泛化水平下降的現(xiàn)象,在測(cè)試集中,隨機(jī)森林模型的AUC為0.810,而logistic回歸模型達(dá)到了0.842[22]。此外,隨機(jī)森林還存在運(yùn)算量較大等問題,但隨著計(jì)算能力和相關(guān)研究的不斷進(jìn)展,問題正在逐步解決。
深度學(xué)習(xí)(deep learning),是目前應(yīng)用最廣泛的一類機(jī)器學(xué)習(xí)算法,其主要原理是通過構(gòu)造多層(通常大于3層)人工神經(jīng)網(wǎng)絡(luò)來模擬大腦運(yùn)行的方式,實(shí)現(xiàn)識(shí)別、分類、預(yù)測(cè)等功能[32]。
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN),簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)(neural network,NN),可以被認(rèn)為是機(jī)器學(xué)習(xí)的一個(gè)擴(kuò)展,其善于捕獲輸入變量和輸出變量之間復(fù)雜的非線性關(guān)系,可以解決傳統(tǒng)統(tǒng)計(jì)分析的一些限制。在神經(jīng)網(wǎng)絡(luò)中,結(jié)果和輸入變量的關(guān)聯(lián)是使用一個(gè)或多個(gè)隱含層進(jìn)行計(jì)算的,每個(gè)隱含層包含一系列的算法(節(jié)點(diǎn)),其從前一節(jié)點(diǎn)獲取信息并輸出新的數(shù)據(jù)為下一節(jié)點(diǎn)提供數(shù)據(jù),這一過程類似于大腦的學(xué)習(xí)過程,因此稱為神經(jīng)網(wǎng)絡(luò)。其可以運(yùn)用大型標(biāo)注數(shù)據(jù)集,對(duì)節(jié)點(diǎn)和隱含層進(jìn)行迭代訓(xùn)練(數(shù)千到數(shù)百萬(wàn)次迭代)以對(duì)算法特征進(jìn)行調(diào)整(如超參數(shù)等),從而得到最佳的預(yù)測(cè)模型[33]。
前文所述Heo等人進(jìn)行的研究,采用ANN模型所得出的算法,其AUC為0.888,優(yōu)于基于SVM、隨機(jī)森林及傳統(tǒng)logistic分析所得出的模型[22]。譚英等分別利用ANN模型和logistic回歸,通過對(duì)474 患者基本情況、實(shí)驗(yàn)室檢查結(jié)果及就診醫(yī)院等其他相關(guān)因素進(jìn)行分析,建立了預(yù)測(cè)模型;代入115例測(cè)試樣本后,其中隱層節(jié)點(diǎn)定義為9的ANN算法在準(zhǔn)確率、靈敏度、約登指數(shù)上均優(yōu)于logistic回歸模型,其AUC為0.787,高于logistic回歸模型的0.729[34]。
但深度學(xué)習(xí)對(duì)數(shù)據(jù)的分析一般采用非線性處理,且其過程中會(huì)經(jīng)過多層神經(jīng)網(wǎng)絡(luò)處理,運(yùn)算過程作為一個(gè)“黑箱”,其運(yùn)算量大,同時(shí)很難對(duì)結(jié)果進(jìn)行解釋。在樣本量不足的情況下,深度學(xué)習(xí)的過擬合現(xiàn)象嚴(yán)重,這也導(dǎo)致了自上個(gè)世紀(jì)八十年代神經(jīng)網(wǎng)絡(luò)算法出現(xiàn)后,一直未受到廣泛的應(yīng)用,直到近幾年才開始頻繁出現(xiàn)在人們視野中[5]。隨著當(dāng)前大數(shù)據(jù)技術(shù)的興起,數(shù)據(jù)量在不斷擴(kuò)大;同時(shí)算法的革新,使得神經(jīng)網(wǎng)絡(luò)過擬合的問題正在逐步被解決;硬件的發(fā)展,也使得算力有了大幅度的提升,解決了以上問題后,以神經(jīng)網(wǎng)絡(luò)算法為基礎(chǔ)的深度學(xué)習(xí)迅速發(fā)展起來,目前在科研中廣泛應(yīng)用。
機(jī)器學(xué)習(xí)為解決當(dāng)前腦卒中診療過程中存在的問題提供了新的思路,但其并非是一個(gè)完美的解決方案,仍存在以下問題和局限性。
1.結(jié)果缺乏可理解性:傳統(tǒng)統(tǒng)計(jì)學(xué)方法中,對(duì)于輸入值的每一步處理都具有相對(duì)明確而簡(jiǎn)單的關(guān)系。而絕大多數(shù)機(jī)器學(xué)習(xí)算法被認(rèn)為是“黑箱”,尤其是深度學(xué)習(xí),復(fù)雜的網(wǎng)狀結(jié)構(gòu)和龐大的參數(shù)及超參數(shù)數(shù)量保證了運(yùn)算的準(zhǔn)確性,也使得輸入值和輸出值之間的關(guān)系難以解釋。
2.對(duì)數(shù)據(jù)量要求較大:正如前文所述深度學(xué)習(xí)在創(chuàng)造之初不能被廣泛應(yīng)用的情況相同,機(jī)器學(xué)習(xí)做出的預(yù)測(cè)模型需要不斷使用大量醫(yī)療數(shù)據(jù)進(jìn)行訓(xùn)練以保證其持續(xù)有效。但當(dāng)前的醫(yī)療環(huán)境并不利于醫(yī)療數(shù)據(jù)的高效共享,目前正在對(duì)其進(jìn)行改革以促進(jìn)醫(yī)療信息交換的可行性并加強(qiáng)對(duì)此類交換的監(jiān)管[35-36],希望在今后的發(fā)展中逐步解決這一問題。
3.臨床效果有待驗(yàn)證:對(duì)算法最終的評(píng)價(jià)標(biāo)準(zhǔn)并不應(yīng)該是這些理論上的準(zhǔn)確性,而應(yīng)是這些工具能夠多大程度上輔助臨床實(shí)踐。臨床效果的大小不僅取決于這些預(yù)測(cè)模型的準(zhǔn)確程度,同時(shí)也取決于在這些臨床實(shí)踐中,怎樣安全有效地使用這些工具,以使其最終為患者發(fā)揮有益作用。目前這類工具在臨床上的研究和應(yīng)用仍處于起步階段,未來幾十年的應(yīng)用將證實(shí)機(jī)器學(xué)習(xí)能否為臨床實(shí)踐提供有益的幫助。
4.相關(guān)知識(shí)普及不夠:目前機(jī)器學(xué)習(xí)正在飛速發(fā)展,但多數(shù)醫(yī)療人員對(duì)其了解并不深入,在臨床應(yīng)用中也不夠?qū)I(yè)。隨著機(jī)器學(xué)習(xí)融入日常醫(yī)學(xué)實(shí)踐的進(jìn)程不斷推進(jìn),我們應(yīng)該推薦醫(yī)療人員接受相關(guān)訓(xùn)練,從而更好地分析、整合信息并在相關(guān)算法的輔助下做出臨床決策。因此,在可預(yù)見的未來,醫(yī)學(xué)的發(fā)展需要對(duì)相關(guān)從業(yè)者進(jìn)行技術(shù)、方法、數(shù)據(jù)科學(xué)背景知識(shí)和預(yù)測(cè)分析倫理學(xué)問題等方面的培訓(xùn)。
5.倫理問題逐漸凸顯:隨著機(jī)器學(xué)習(xí)的廣泛應(yīng)用,其為傳統(tǒng)臨床科研帶來的變化也逐步涉及倫理問題,并帶來一系列難以解決且復(fù)雜的倫理困境。關(guān)于患者隱私、數(shù)據(jù)歧視等倫理問題已經(jīng)顯而易見。同時(shí),算法應(yīng)用中出現(xiàn)誤判帶來的損失由誰(shuí)承擔(dān)等一系列問題,在將來的研究和臨床實(shí)踐中會(huì)逐漸凸顯出來[37]。在機(jī)器學(xué)習(xí)應(yīng)用的其他領(lǐng)域,倫理學(xué)的挑戰(zhàn)已經(jīng)較為明顯,故我們需要在生物倫理學(xué)上做進(jìn)一步研究以促進(jìn)機(jī)器學(xué)習(xí)可持續(xù)發(fā)展和應(yīng)用[35],臉書和劍橋分析的失敗就是對(duì)臨床相關(guān)機(jī)器學(xué)習(xí)以及預(yù)測(cè)分析的一個(gè)重要提醒。如今的醫(yī)療設(shè)備和可穿戴設(shè)備幾乎可以收集人類行為的所有數(shù)據(jù),因此這些數(shù)據(jù)可以創(chuàng)建每個(gè)個(gè)體獨(dú)特的“數(shù)據(jù)指紋”,并對(duì)其之后的行為進(jìn)行預(yù)測(cè),這就難免會(huì)對(duì)患者的隱私有一定的侵犯。更重要的是,它可以不斷地將個(gè)體“推到”預(yù)設(shè)的行為路徑上去,使人做出規(guī)定的行為,這一問題顯然已經(jīng)超出了當(dāng)前倫理問題的范疇[33]。因此,一些倡導(dǎo)者呼吁研究人員和機(jī)構(gòu)盡快探討和采用新的人工智能和機(jī)器學(xué)習(xí)道德準(zhǔn)則,避免因?yàn)閭惱韺W(xué)問題損害患者利益。
在應(yīng)用中最大的障礙之一,是當(dāng)前機(jī)器學(xué)習(xí)算法的復(fù)雜性,使得不具備Python或其他編程語(yǔ)言技能等相關(guān)計(jì)算機(jī)科學(xué)知識(shí)的醫(yī)療人員,很難理解并加以應(yīng)用。近幾年,隨著相關(guān)研究的深入,不少醫(yī)療工作者開始學(xué)習(xí)相關(guān)知識(shí),同時(shí),機(jī)器學(xué)習(xí)社區(qū)也正在努力設(shè)計(jì)更簡(jiǎn)易的機(jī)器學(xué)習(xí)工具(如Keras或Lasagne等簡(jiǎn)單接口),使其對(duì)研究者的編程能力要求更低,而基于用戶界面的圖形工具(如英偉達(dá)公司的DIGITS深度學(xué)習(xí)工具),可以使不具備編程語(yǔ)言基礎(chǔ)的用戶實(shí)現(xiàn)深度學(xué)習(xí)的基本功能,更加降低了機(jī)器學(xué)習(xí)的入門門檻。
由于篇幅原因,還有一些已有應(yīng)用的機(jī)器學(xué)習(xí)算法,如樸素貝葉斯分類器[38]、算法梯度提升樹[39]等,未能做詳細(xì)描述,有興趣的讀者可參閱相關(guān)文獻(xiàn)。目前機(jī)器學(xué)習(xí)已廣泛應(yīng)用于腦卒中的診療過程中,并在疾病診斷、趨勢(shì)預(yù)測(cè)等方面取得了較好的成績(jī)。未來的醫(yī)學(xué)研究,將會(huì)更加注重多種來源數(shù)據(jù)的整合分析,其數(shù)據(jù)量更大、數(shù)據(jù)結(jié)構(gòu)更復(fù)雜,從而導(dǎo)致對(duì)分析方法的要求也更高。機(jī)器學(xué)習(xí)在處理這些類型數(shù)據(jù)中具備傳統(tǒng)統(tǒng)計(jì)學(xué)方法不具備的優(yōu)勢(shì),正逐步成為醫(yī)療科研中不可或缺的一部分,未來也將在腦卒中防治領(lǐng)域發(fā)揮更大的作用。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年3期