王蘇淮 李晶潔,2
(1.哈爾濱醫(yī)科大學(xué)附屬第一醫(yī)院,黑龍江 哈爾濱 150000; 2.哈爾濱醫(yī)科大學(xué)附屬第一醫(yī)院心內(nèi)科,黑龍江 哈爾濱 150000)
人工智能(artificial intelligence,AI)是研究計(jì)算機(jī)模擬人的思維過程和智能行為的學(xué)科,已在多個(gè)領(lǐng)域得到了廣泛應(yīng)用。機(jī)器學(xué)習(xí)(machine learning,ML)作為AI的核心,不僅涉及信息技術(shù)領(lǐng)域,目前也逐漸成為醫(yī)學(xué)領(lǐng)域的重要研究手段[1-6]。
1.2.1 ML算法分類
ML主要分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。目前臨床醫(yī)學(xué)最常用的是監(jiān)督學(xué)習(xí)算法,通過學(xué)習(xí)一組包含輸入對(duì)象(通常為矢量)和期望的輸出值(也稱為監(jiān)督信號(hào))的標(biāo)簽數(shù)據(jù)集,產(chǎn)生具有推斷功能的模型,然后將模型應(yīng)用于未知數(shù)據(jù)集,達(dá)到分類或回歸的目標(biāo)(當(dāng)目標(biāo)變量是分類變量時(shí),完成分類;當(dāng)目標(biāo)變量是連續(xù)性數(shù)值時(shí),完成回歸)。常用的監(jiān)督學(xué)習(xí)算法包括K-近臨(KNN)、支持向量機(jī)(SVM)、決策樹、隨機(jī)森林(RF)、邏輯性回歸、提升法(Boosting)和人工神經(jīng)網(wǎng)絡(luò)(ANN)等[7-8]。無監(jiān)督學(xué)習(xí)是在無標(biāo)簽的輸入數(shù)據(jù)集中發(fā)現(xiàn)其自然關(guān)系和分組。常用的無監(jiān)督學(xué)習(xí)算法包括K均值聚類、分層聚類和主成分分析等。
1.2.2 ML的一般流程
ML的一般流程主要包括以下幾個(gè)方面:(1)數(shù)據(jù)采集;(2)數(shù)據(jù)預(yù)處理;(3)特征提??;(4)特征選擇;(5)根據(jù)數(shù)據(jù)特征選擇不同ML算法;(6)構(gòu)建ML模型并評(píng)估其性能[5]。輸入的數(shù)據(jù)集通常被劃分為訓(xùn)練、驗(yàn)證和測(cè)試集:訓(xùn)練集包含大量變量,用于模型的開發(fā);驗(yàn)證集用于微調(diào)模型的超參數(shù);測(cè)試集則輸入到構(gòu)建的ML模型中,用于性能的評(píng)估[9]。
在臨床醫(yī)學(xué)領(lǐng)域,ML主要通過分析患者的復(fù)雜多維數(shù)據(jù)(如電子病歷記錄[10-11]、實(shí)驗(yàn)室指標(biāo)[12]和輔助檢查成像[13-16]等),以非線性和高度交互的方式組合變量,對(duì)疾病進(jìn)行診斷分類[11,17]、預(yù)測(cè)[10,18-19]和構(gòu)建風(fēng)險(xiǎn)模型[9,20-21]以輔助醫(yī)生決策[22-23]。
近幾年關(guān)于ML與心血管疾病的研究成為熱點(diǎn),以下將對(duì)心血管病學(xué)中應(yīng)用ML的幾個(gè)領(lǐng)域進(jìn)行闡述。
心電圖(electrocardiography,ECG)信號(hào)是評(píng)估心臟功能最常用的臨床工具之一,其優(yōu)點(diǎn)是無創(chuàng)且價(jià)格低廉。臨床實(shí)踐中,ECG信號(hào)通常由專業(yè)的電生理學(xué)家來判讀,耗時(shí)且高度依賴于個(gè)人經(jīng)驗(yàn)。在新的技術(shù)醫(yī)療時(shí)代,ML可對(duì)ECG信號(hào)進(jìn)行有效量化和分析,最大程度地從心電圖數(shù)據(jù)集中提取信息以幫助臨床醫(yī)生評(píng)估患者風(fēng)險(xiǎn)[24]。
ML通過對(duì)ECG信號(hào)進(jìn)行處理、分割、特征提取和學(xué)習(xí)分析,達(dá)到心律分類或預(yù)測(cè)疾病的目的,最常用的ML算法是ANN和SVM。如Li等[25]分析了MIT-BIH公共數(shù)據(jù)庫的360組ECG數(shù)據(jù)集,通過小波包分解統(tǒng)計(jì)方法提取了48個(gè)ECG特征,然后使用遺傳算法結(jié)合反向傳播神經(jīng)網(wǎng)絡(luò)的ML方法,將心律分為六類:正常搏動(dòng)(N)、左束支傳導(dǎo)阻滯(L)、右束支傳導(dǎo)阻滯(R)、房性期前收縮(A)、起搏心律(P)和室性期前收縮(V)。分類準(zhǔn)確率為97.8%,敏感性為97.9%,特異性為99.5%,陽性預(yù)測(cè)值為97.8%。Yildirim等[26]也分析了MIT-BIH數(shù)據(jù)庫中45例患者的1 000個(gè)ECG片段,把原始ECG信號(hào)輸入到16層深度卷層神經(jīng)網(wǎng)絡(luò)算法中,將心律分為17種,分類精度為91.3%,分類時(shí)間為0.015 s。近年來的研究多采用離散小波變化的方法對(duì)ECG信號(hào)進(jìn)行形態(tài)特征的提取,如Qin等[27]利用此方法提取了MIT-BIH數(shù)據(jù)庫中107 049次ECG搏動(dòng)的形態(tài)特征,結(jié)合ECG信號(hào)的時(shí)域特征,使用優(yōu)化后的SVM算法,完成了同上所述的六種心律分類:N、L、R、A、P和V,分類敏感性為99.1%,特異性為99.8%。
此外,除了心律分類外,也有研究通過分析ECG信號(hào)進(jìn)行疾病的預(yù)測(cè)。如Mjahad等[28]將ECG時(shí)頻圖像數(shù)據(jù)直接輸入到四種ML分類器(邏輯性回歸、ANN、SVM和裝袋法),以預(yù)測(cè)心室顫動(dòng)和室性心動(dòng)過速的發(fā)生,心室顫動(dòng)預(yù)測(cè)的敏感性為95.6%,特異性為98.8%;室性心動(dòng)過速預(yù)測(cè)的敏感性為88.8%,特異性為99.5%。Ebrahimzadeh等[29]則從心房顫動(dòng)預(yù)測(cè)數(shù)據(jù)庫中選取了53對(duì)ECG記錄的106個(gè)信號(hào),對(duì)心率變異性信號(hào)進(jìn)行了特征提取,結(jié)合四種ML算法預(yù)測(cè)心房顫動(dòng)的發(fā)生,其中最優(yōu)的混合專家分類法預(yù)測(cè)敏感性、特異性和準(zhǔn)確性分別為100%、95.6%和98.2%。同時(shí),ECG在冠心病方面的應(yīng)用也逐漸增加。如Park等[30]選取了歐洲ST-T數(shù)據(jù)庫中90個(gè)ECG記錄的367個(gè)缺血性ST段,提取了3個(gè)特征,使用核密度估計(jì)和SVM算法預(yù)測(cè)心肌缺血,其中最優(yōu)性能SVM的敏感性和特異性分別為94.1%和92.3%。另有Simjanoska等[31]首次提出應(yīng)用ECG信號(hào)特征結(jié)合七種ML算法預(yù)測(cè)收縮壓、舒張壓和平均動(dòng)脈壓;Sengupta等[32]利用信號(hào)處理過的心電圖提取特征,輸入至RF分類器中預(yù)測(cè)心肌異常松弛,預(yù)測(cè)敏感性和特異性分別為80.0%和84.0%,曲線下面積(AUC)為0.91(95%CI0.86~0.95)。以上研究都說明了ECG結(jié)合ML算法在心血管疾病領(lǐng)域擁有著廣泛的應(yīng)用前景。
圖片成像作為心血管疾病診斷和指導(dǎo)治療的輔助工具在臨床上無處不在,ML算法與檢查成像的結(jié)合進(jìn)一步提高了診療的準(zhǔn)確性和及時(shí)性。
Narula等[33]使用斑點(diǎn)超聲心動(dòng)圖數(shù)據(jù),結(jié)合三個(gè)ML算法(SVM、RF和ANN)構(gòu)建模型以鑒別肥厚型心肌病和運(yùn)動(dòng)員生理性肥厚。研究納入139例男性受試者,77例生理性和62例肥厚型心肌病患者,使用信息增益進(jìn)行特征選擇,確定左心室容積,左心室中段縱向應(yīng)變、平均縱向應(yīng)變和左心室中段徑向應(yīng)變?yōu)樽罴杨A(yù)測(cè)指標(biāo)。Khamis等[34]證明采用時(shí)空特征提取和監(jiān)督字典學(xué)習(xí)方法可提高心臟超聲圖的分類精度。作者研究了309個(gè)由專家標(biāo)記過的心臟超聲圖,使用ML算法對(duì)心尖二腔室圖,心尖四腔室圖和心尖長(zhǎng)軸室圖的分類準(zhǔn)確率分別為97.0%、91.0%和97.0%。
此外,Mannil等[35]開發(fā)了基于心臟計(jì)算機(jī)斷層攝影成像數(shù)據(jù)的ML模型以預(yù)測(cè)心肌梗死,使用紋理分析的方法對(duì)圖像數(shù)據(jù)進(jìn)行量化,采用KNN算法得到了最佳效能(敏感性69.0%,特異性85.0%,假陽性率15.0%,AUC值0.78)。Arsanjani等[36]則通過結(jié)合臨床數(shù)據(jù)和心肌灌注斷層顯像的定量圖像數(shù)據(jù)作為特征,輸入到Boosting算法中預(yù)測(cè)疑似冠心病患者的血運(yùn)重建,預(yù)測(cè)敏感性為73.6%±4.3%,特異性為74.7%±4.2%,AUC為0.81±0.02。
ML與多種輔助檢查成像的結(jié)合使用,可幫助初學(xué)者做出更精準(zhǔn)的臨床診斷并有望應(yīng)用到醫(yī)療資源緊缺的地方。
因ML使用的非線性和交叉學(xué)習(xí)模式彌補(bǔ)了傳統(tǒng)分析線性和主觀選擇特征的不足,已被廣泛應(yīng)用于構(gòu)建臨床風(fēng)險(xiǎn)預(yù)測(cè)模型。在心血管疾病領(lǐng)域,ML主要致力于預(yù)測(cè)患者的死亡率、再入院率和不良臨床事件的發(fā)生率。如Motwani等[21]研究了10 030例疑似冠心病患者的25個(gè)臨床和44個(gè)冠狀動(dòng)脈CT血管成像參數(shù),進(jìn)行信息增益法則排名,選取重要特征,然后輸入至Boosting集成算法預(yù)測(cè)患者5年全因死亡率,ML預(yù)測(cè)模型的AUC為0.79,優(yōu)于傳統(tǒng)的弗雷明漢風(fēng)險(xiǎn)評(píng)分等評(píng)估方法。Barrett等[37]從重癥監(jiān)護(hù)醫(yī)學(xué)信息中心(MIMIC-Ⅲ)數(shù)據(jù)庫中獲取了5 037例由急性心肌梗死收入ICU的患者數(shù)據(jù)表,結(jié)合邏輯回歸模型預(yù)測(cè)了患者一年死亡率,預(yù)測(cè)準(zhǔn)確度為85.1%,AUC為0.90。Frizzell等[38]對(duì)56 477例心力衰竭患者數(shù)據(jù)進(jìn)行變量選擇后,使用了貝葉斯網(wǎng)絡(luò)、RF、梯度增強(qiáng)、邏輯性回歸和LASSO回歸五種ML算法,預(yù)測(cè)心力衰竭患者30 d再入院率,預(yù)測(cè)的C統(tǒng)計(jì)量分別為0.62、0.61、0.61、0.62和0.62,與傳統(tǒng)的預(yù)測(cè)模型相比無明顯優(yōu)勢(shì)。Wu等[20]篩選了508例年輕高血壓患者的58個(gè)變量,通過遞歸特征消除法選擇11個(gè)重要變量,結(jié)合極端梯度增強(qiáng)法構(gòu)建了預(yù)測(cè)臨床不良后果事件的ML模型,并將模型的性能與傳統(tǒng)Cox回歸和弗雷明漢風(fēng)險(xiǎn)評(píng)分模型相比,C統(tǒng)計(jì)量分別是0.76(95%CI0.66~0.85)、0.72(95%CI0.64~0.81)和0.53(95%CI0.40~0.66)。
ML通過分析大量豐富的臨床變量來評(píng)估患者風(fēng)險(xiǎn),往往能收獲性能更優(yōu)的預(yù)測(cè)模型,這對(duì)于臨床醫(yī)生決策和改善患者預(yù)后都具有重要意義。
盡管ML在醫(yī)學(xué)上得到了廣泛應(yīng)用,但其仍有局限性。首先,ML需大量數(shù)據(jù),在醫(yī)學(xué)中獲取大量標(biāo)簽數(shù)據(jù)可能具有挑戰(zhàn)性;其次,ML算法使用人類收集和標(biāo)記的數(shù)據(jù)進(jìn)行訓(xùn)練,由于人為的主觀選擇性可能出現(xiàn)選擇偏倚;最后,許多ML算法如RF,工作時(shí)像一個(gè)“黑匣子”,計(jì)算過程難以被全面理解,導(dǎo)致醫(yī)生難以完全相信基于ML推薦的意見,也很難發(fā)現(xiàn)其錯(cuò)誤的推薦[39]。
合理高效地使用ML可實(shí)現(xiàn)高精度的自動(dòng)診斷以及預(yù)測(cè)疾病轉(zhuǎn)歸,以此輔助臨床醫(yī)生決策,在節(jié)省大量時(shí)間的同時(shí)可降低臨床錯(cuò)診率。因此,在醫(yī)療系統(tǒng)中對(duì)ML的需求勢(shì)必會(huì)繼續(xù)增長(zhǎng)。