吳靜潔,楊麗黎
1.浙江大學(xué)醫(yī)學(xué)院,浙江杭州 310029;2.浙江大學(xué)醫(yī)學(xué)院附屬邵逸夫醫(yī)院,浙江杭州 310016
據(jù)世界衛(wèi)生組織(WHO)報(bào)道,截至2015年,全球約有11.3億人患有高血壓,其中2/3分布在中低收入國家[1]。高血壓會(huì)增加心、腦、腎及其他疾病的風(fēng)險(xiǎn),是導(dǎo)致全球人口過早死亡的一個(gè)主要原因,給醫(yī)療和社會(huì)事業(yè)帶來巨大的經(jīng)濟(jì)損失[1-3]。盡早識(shí)別個(gè)體患高血壓的風(fēng)險(xiǎn)并對(duì)其進(jìn)行針對(duì)性的疾病預(yù)防,在促進(jìn)個(gè)體健康和減少醫(yī)療護(hù)理負(fù)擔(dān)方面格外重要。機(jī)器學(xué)習(xí)是一種使用迭代識(shí)別數(shù)據(jù)模式自動(dòng)分析數(shù)據(jù)并從中學(xué)習(xí)的算法[4-5],在篩選糖尿病視網(wǎng)膜病變及相關(guān)眼病[6],預(yù)測急性腎損傷[7]、心血管疾病[8-9]等方面被證實(shí)具有良好的性能。本文通過對(duì)國內(nèi)外高血壓領(lǐng)域中采用機(jī)器學(xué)習(xí)構(gòu)建風(fēng)險(xiǎn)預(yù)測模型相關(guān)研究進(jìn)行綜述,以期為深入開展高血壓防治研究提供借鑒。
機(jī)器學(xué)習(xí)特點(diǎn)為從經(jīng)驗(yàn)中學(xué)習(xí),并隨著學(xué)習(xí)提高技能[5]。與傳統(tǒng)統(tǒng)計(jì)學(xué)方法相比,現(xiàn)代的機(jī)器學(xué)習(xí)使用大量數(shù)學(xué)運(yùn)算來更好地定義預(yù)測因子與結(jié)果間的復(fù)雜關(guān)系。根據(jù)學(xué)習(xí)種類可分為三種類型:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)[10]。目前,國內(nèi)外研究中應(yīng)用于高血壓風(fēng)險(xiǎn)預(yù)測模型構(gòu)建的機(jī)器學(xué)習(xí)算法均屬于監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是指計(jì)算機(jī)從環(huán)境中獲取信息,由環(huán)境提供對(duì)錯(cuò)指示并告知最終答案的過程[10],最終目的是使計(jì)算機(jī)根據(jù)在學(xué)習(xí)過程中獲得的經(jīng)驗(yàn),對(duì)沒有學(xué)習(xí)過的問題也可做出正確解答。
數(shù)據(jù)集又稱為資料集、數(shù)據(jù)集合或資料集合,是一種由數(shù)據(jù)所組成的集合。模型構(gòu)建前將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、調(diào)整集和驗(yàn)證集。訓(xùn)練集用于開發(fā)機(jī)器學(xué)習(xí)模型,通過迭代更新參數(shù)直至得到最適合該集合的模型;調(diào)整集用于調(diào)整模型參數(shù);驗(yàn)證集用于模型進(jìn)行臨床應(yīng)用前評(píng)估性能[11]。建模步驟一般為:先通過Logistic回歸分析等統(tǒng)計(jì)學(xué)方法或機(jī)器學(xué)習(xí)算法篩選出對(duì)結(jié)局變量具有顯著效應(yīng)的自變量,成為模型的預(yù)測因子;再根據(jù)數(shù)據(jù)集特征選擇合適的機(jī)器學(xué)習(xí)算法,由算法自動(dòng)分析訓(xùn)練集數(shù)據(jù)后構(gòu)建出風(fēng)險(xiǎn)預(yù)測模型;最終以診斷疾病的金標(biāo)準(zhǔn)對(duì)預(yù)測結(jié)果進(jìn)行驗(yàn)證,得出模型的敏感度、特異度、接收者操作特征曲線下面積(AUC)等統(tǒng)計(jì)學(xué)指標(biāo),進(jìn)而判斷模型性能。
算法是指用系統(tǒng)的方法解決問題的系列策略機(jī)制[12]。機(jī)器學(xué)習(xí)有多種分類算法,包括Boost算法(分為Logitboost、Real Adaboost、Gental Adaboost等)、支持向量機(jī)、決策樹(包括分類樹和回歸樹)、隨機(jī)化森林、貝葉斯(包括樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、增強(qiáng)樸素貝葉斯、局部加權(quán)樸素貝葉斯等)、人工神經(jīng)網(wǎng)絡(luò)等。Boost算法的本質(zhì)在于通過多個(gè)簡單的弱分類器,構(gòu)建出準(zhǔn)確率很高的強(qiáng)分類器[13]。支持向量機(jī)使用鉸鏈損失函數(shù)計(jì)算經(jīng)驗(yàn)風(fēng)險(xiǎn),并在求解系統(tǒng)中加入了正則化項(xiàng)以優(yōu)化結(jié)構(gòu)風(fēng)險(xiǎn),是一類對(duì)數(shù)據(jù)進(jìn)行二元分類的廣性分類器[14]。決策樹利用歸納算法生成可讀的規(guī)則和決策樹,然后使用決策對(duì)新數(shù)據(jù)進(jìn)行分析,本質(zhì)上是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程[15-16]。隨機(jī)化森林是由多個(gè)決策樹模型組成的組合分類模型,在給定數(shù)據(jù)集下,每個(gè)決策樹分類模型都有1票投票來選擇最優(yōu)的分類結(jié)果,根據(jù)投票結(jié)果來決定最終分類[15]。貝葉斯依據(jù)條件獨(dú)立性假設(shè),通過計(jì)算目標(biāo)先驗(yàn)概率,采用貝葉斯定理求出其后驗(yàn)概率,也就是該對(duì)象屬于某類的概率,對(duì)后驗(yàn)概率進(jìn)行比較,完成決策分類[17]。人工神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型,結(jié)構(gòu)包括輸入層、隱層和輸出層,原理是把上層節(jié)點(diǎn)的值加權(quán)平均到下層節(jié)點(diǎn),最終到輸出層節(jié)點(diǎn),然后誤差大小反饋回前面的層,再重新加權(quán)平均,如此反復(fù)訓(xùn)練,直到誤差在允許范圍之內(nèi)[15]。
Pei等[18]以北京某社區(qū)衛(wèi)生服務(wù)中心1 200例高血壓患者及健康人群的數(shù)據(jù),采用支持向量機(jī)算法建模并分析其性能。通過Logistic回歸納入9個(gè)環(huán)境因子(身高、體質(zhì)量、性別、年齡、職業(yè)、吸煙史、酗酒史、家族高血壓史、家族心血管病史)和12個(gè)基因遺傳因子,構(gòu)建出正確率80.1%,敏感度63.3%,特異度86.7%,AUC為0.886的高性能模型。研究表明,使用支持向量機(jī)算法建模時(shí),選用合適函數(shù)對(duì)模型性能尤為重要,且綜合多方面預(yù)測因子的模型相較于單方面預(yù)測因子的模型具有更佳性能。Nimmala等[19]應(yīng)用印度某醫(yī)療中心1 000例高血壓患者及健康人群的數(shù)據(jù),采用決策樹、隨機(jī)化森林、樸素貝葉斯算法建模并分析其性能,納入年齡、憤怒、焦慮、肥胖、總膽固醇水平共5個(gè)預(yù)測因子,結(jié)果顯示,使用隨機(jī)化森林(正確率87.5%)、決策樹(正確率83.3%)的模型均有良好性能。Golino等[20]應(yīng)用巴西某州私立大學(xué)、年齡16~63歲不等的400例學(xué)生的數(shù)據(jù),采用決策樹算法構(gòu)建高血壓風(fēng)險(xiǎn)預(yù)測模型并分析其性能,納入體質(zhì)指數(shù)(BMI)、腰圍、臀圍和腰臀比共4個(gè)肥胖相關(guān)因子,研究結(jié)果顯示,在肥胖指標(biāo)中,BMI是高血壓最佳的預(yù)測因子,綜合BMI、腰圍和腰臀比3項(xiàng)指標(biāo)可提高女性模型的性能(敏感度80.86%,特異度81.22%),綜合BMI、腰圍、臀圍和腰臀比4項(xiàng)指標(biāo)可提高男性模型的性能(敏感度72%,特異度86.25%)。由此可見,機(jī)器學(xué)習(xí)是作為構(gòu)建風(fēng)險(xiǎn)預(yù)測模型有效且可靠的方法之一,年齡、性別、肥胖、血生化指標(biāo)、家族史、精神因素、不良嗜好是高血壓風(fēng)險(xiǎn)模型中常見的預(yù)測因子,綜合多方面預(yù)測因子可提高模型性能。
Sakr等[21]應(yīng)用1991年至2009年在亨利·福特健康機(jī)構(gòu)進(jìn)行跑步機(jī)運(yùn)動(dòng)壓力測試并進(jìn)行10年隨訪的23 095例患者的數(shù)據(jù),采用Logitboost、貝葉斯網(wǎng)絡(luò)、局部加權(quán)樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和隨機(jī)化森林這6種機(jī)器學(xué)習(xí)算法建模并對(duì)比分析其性能,納入了年齡、跑步消耗能量值、靜息收縮壓、峰值舒張壓、靜息舒張壓、冠狀動(dòng)脈疾病、測試原因、糖尿病史、高脂血癥史、心率、種族、阿司匹林使用、高血壓反應(yīng)在內(nèi)的共13個(gè)環(huán)境和運(yùn)動(dòng)因子,結(jié)果顯示,隨機(jī)化森林在6種算法中的綜合性能最佳(敏感度75.0%,特異度86.2%,AUC為0.89),支持向量機(jī)的敏感度(28.2%)在6種算法中最差,貝葉斯網(wǎng)絡(luò)的特異度在6種算法中最差(79.8%)。說明機(jī)器學(xué)習(xí)算法的復(fù)雜性和預(yù)測精度間未必呈正相關(guān),關(guān)鍵是選擇最合適的算法。
針對(duì)機(jī)器學(xué)習(xí)算法和統(tǒng)計(jì)學(xué)方法預(yù)測性能優(yōu)劣問題,尚存爭議。楊洋[22]應(yīng)用遼寧省某農(nóng)村4 126例原發(fā)性高血壓患者流行病學(xué)調(diào)查資料,對(duì)人工神經(jīng)網(wǎng)絡(luò)算法和Logistic回歸在高血壓風(fēng)險(xiǎn)預(yù)測中的性能進(jìn)行對(duì)比分析。通過Logistic回歸納入膽固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、血糖、血清鈣、年齡、性別、體質(zhì)量、父母高血壓、父母腦卒中、父母冠心病、每月進(jìn)鹽量、吸煙與否、吸煙量、吸煙年限、飲酒與否、飲酒量、飲酒年限、血壓差、BMI、民族共22個(gè)預(yù)測因子,結(jié)果顯示,對(duì)于高血壓,人工神經(jīng)網(wǎng)絡(luò)(正確率80.30%,敏感度76.16%,特異度84.48%,AUC為0.800)的預(yù)測能力略優(yōu)于Logistic回歸(正確率78.42%,敏感度76.62%,特異度80.45%,AUC為0.782),因此在高血壓風(fēng)險(xiǎn)預(yù)測中,人工神經(jīng)網(wǎng)絡(luò)可以作為Logistic回歸的必要補(bǔ)充。Nimmala等[19]對(duì)比分析了決策樹、隨機(jī)化森林、樸素貝葉斯算法和Logistic回歸在高血壓風(fēng)險(xiǎn)預(yù)測中的性能,發(fā)現(xiàn)使用隨機(jī)化森林算法(正確率87.5%)比Logistic回歸(正確率71.0%)更具優(yōu)勢(shì)。然而,Heo等[23]應(yīng)用第6次韓國國民健康與營養(yǎng)調(diào)查中8 212例高血壓患者和健康人群的數(shù)據(jù),采用Logistic回歸及樸素貝葉斯、決策樹算法構(gòu)建高血壓風(fēng)險(xiǎn)預(yù)測模型,納入人口測量學(xué)、血生化指標(biāo)、肺活量3個(gè)方面預(yù)測因子,結(jié)果表明,使用Logistic回歸的模型具有最佳性能(Logistic回歸的男性AUC為0.777、女性AUC為0.845,樸素貝葉斯的男性AUC為0.748、女性AUC為0.833,決策樹的男性AUC為0.698、女性AUC為0.796)。Xu等[24]的研究發(fā)現(xiàn),采用人工神經(jīng)網(wǎng)絡(luò)(AUC為0.767)構(gòu)建高血壓風(fēng)險(xiǎn)預(yù)測模型的性能優(yōu)于Cox回歸(AUC為0.765),但并非所有機(jī)器學(xué)習(xí)算法性能都優(yōu)于Cox回歸。目前,絕大多數(shù)研究證明機(jī)器學(xué)習(xí)算法構(gòu)建模型的性能優(yōu)于或略優(yōu)于統(tǒng)計(jì)學(xué)方法,部分導(dǎo)致機(jī)器學(xué)習(xí)算法構(gòu)建模型性能劣于統(tǒng)計(jì)學(xué)方法的原因可能是算法或預(yù)測因子選擇不當(dāng)或不全、數(shù)據(jù)來源存在偏倚、樣本量不足等。
現(xiàn)有研究證明,轉(zhuǎn)變生活方式[25]和規(guī)律藥物治療[2,26]可有效預(yù)防高血壓及心血管病。因此,在臨床應(yīng)用風(fēng)險(xiǎn)預(yù)測模型以評(píng)估和預(yù)警健康人群的高血壓發(fā)病風(fēng)險(xiǎn)顯得非常有意義[27-28]。機(jī)器學(xué)習(xí)可通過計(jì)算機(jī)輔助增強(qiáng)臨床工作者的決策[28],且相較傳統(tǒng)統(tǒng)計(jì)學(xué)方法,具有強(qiáng)大的解決共線性效應(yīng)和變量間交互作用的能力[8,22],是建模有效且可靠的方法之一。有學(xué)者在美國緬因州分別收集823 627名個(gè)體和680 810名個(gè)體的血壓信息用于回顧性和前瞻性研究,用機(jī)器學(xué)習(xí)算法開發(fā)出一個(gè)高性能的高血壓風(fēng)險(xiǎn)預(yù)測模型(回顧性研究中AUC為0.917,前瞻性研究中AUC為0.870),目前已用于緬因州的高血壓防控中,并有望提高當(dāng)?shù)氐母哐獕鹤o(hù)理水平[29]。
機(jī)器學(xué)習(xí)具有強(qiáng)大的數(shù)據(jù)處理和結(jié)局預(yù)測能力,是構(gòu)建各類疾病風(fēng)險(xiǎn)預(yù)測模型有效且可靠的方法。目前,國內(nèi)外已開展了選用不同機(jī)器學(xué)習(xí)算法構(gòu)建高血壓風(fēng)險(xiǎn)預(yù)測模型的多項(xiàng)研究,綜合多方面預(yù)測因子及選擇合適算法對(duì)提高模型性能至關(guān)重要,現(xiàn)已篩選并驗(yàn)證了年齡、性別、肥胖、血生化指標(biāo)、家族史、精神心理、不良嗜好等預(yù)測因子,以及隨機(jī)化森林和人工神經(jīng)網(wǎng)絡(luò)等具有良好性能的機(jī)器學(xué)習(xí)算法。由于機(jī)器學(xué)習(xí)算法和傳統(tǒng)統(tǒng)計(jì)學(xué)方法間的性能比較尚存爭議,仍需對(duì)兩種方法進(jìn)行深入研究。目前開展的研究重視風(fēng)險(xiǎn)預(yù)測模型的構(gòu)建,相對(duì)缺乏模型應(yīng)用方面的討論,考慮與臨床工作者缺乏機(jī)器學(xué)習(xí)知識(shí)有關(guān),建議醫(yī)院科教部門開設(shè)相關(guān)培訓(xùn)課程,以便臨床工作者能正確篩選、驗(yàn)證并應(yīng)用模型。