殷民月, 朱錦舟, 劉 璐, 高靜雯, 林嘉希, 許春芳
蘇州大學附屬第一醫(yī)院消化內科, 江蘇 蘇州 215000
急性胰腺炎(acute pancreatitis,AP)作為一種常見的、需要住院治療的消化系統(tǒng)疾病,其發(fā)病率逐年升高,根據(jù)全球疾病負擔研究數(shù)據(jù)庫統(tǒng)計,2019 年全球范圍內胰腺炎發(fā)病率約為36.38/10 萬,死亡率約為1.49/10 萬[1]。根據(jù)2012 年修訂版的亞特蘭大分類標準,大部分AP 呈自限性,稱為輕癥AP(mild acute pancreatitis,MAP),約20%的AP 患者可進展為中度重癥AP(moderate severe acute pancreatitis,MSAP)和重癥AP(severe acute pancreatitis,SAP)。MSAP定義為一過性(≤48 h)器官衰竭或局部并發(fā)癥,包括急性胰周液體積聚、胰腺假性囊腫、急性壞死物積聚等,或全身并發(fā)癥,包括膿毒癥、急性呼吸窘迫綜合征、腹腔內高壓等。SAP定義為持續(xù)性(>48 h)器官衰竭,包括呼吸、心血管、腎臟等器官衰竭[2]。研究[3]表明,相較于MAP,MSAP 和SAP病死率可高出十倍左右。因此,早期(<24 h)評估嚴重程度、識別預后相關高危因素將影響胰腺炎患者的病情進展、重癥監(jiān)護管理、多學科會診等干預時機和處理措施,但是,這在臨床上面臨較大挑戰(zhàn)。
傳統(tǒng)評分系統(tǒng)(如APACHE-Ⅱ、Ranson、BISAP 評分)通過結合臨床特征(年齡、昏迷狀態(tài)等)和實驗室檢查(如谷丙轉氨酶、空腹血糖水平等),預測AP 嚴重程度[4]。隨后又出現(xiàn)基于CT影像特征的CTSI、MCTSI評分,范圍0~10 分,≥4 分提示MSAP 或SAP[5]。近年來,也有研究[6]提出了一些新型評分系統(tǒng),如PASS,這是依據(jù)患者腹痛癥狀、器官衰竭、全身炎癥反應綜合征、阿片類藥物需求以及口服耐受性五個指標來動態(tài)監(jiān)測胰腺炎患者不同階段的臨床反應,通過了基于德爾菲法的專家共識。這些評分系統(tǒng)雖在臨床上得到很多應用,但仍存在一些局限性。傳統(tǒng)評分系統(tǒng)如APACHE-Ⅱ評分涉及復雜參數(shù)、測量難度較大,如Ranson 評分需要測量入院后24 h和48 h的臨床變量,實現(xiàn)不了動態(tài)評估;基于CT 影像特征評分與放射科醫(yī)生的經(jīng)驗水平相關,準確性波動較大;PASS 評分所需指標并不適用于所有醫(yī)院,泛化能力較低。
作為人工智能的分支之一,機器學習憑借其強大的計算能力和學習能力被廣泛應用于醫(yī)學領域。研究[7-10]表明,機器學習在構建醫(yī)學模型方面取得了顯著成就,包括疾病診斷、臨床預后、生存分析等。本文就近年來AP 機器學習模型的研究進展進行綜述,主要闡述機器學習在預測AP 嚴重程度、并發(fā)癥、死亡等方面的應用,為人工智能協(xié)助AP 臨床診療的進一步應用提供理論依據(jù)和新思路。
機器學習是計算機模擬人類大腦進行數(shù)據(jù)學習的一門科學技術,它能夠從已知的大量且復雜數(shù)據(jù)中學習并總結規(guī)律,從而預測未知的結果或趨勢。機器學習主要包括監(jiān)督學習、無監(jiān)督學習。監(jiān)督學習的目標是預測一個已知的輸出,如心電圖的自動解讀、肺結節(jié)的自動識別等,監(jiān)督學習的特點是使機器學習的表現(xiàn)無限接近甚至超越訓練有素的醫(yī)生的表現(xiàn)。無監(jiān)督學習則相反,它沒有可以預測的輸出,而是嘗試在海量數(shù)據(jù)中找到自然而然的分類模式,這種學習方式往往會獲得識別新疾病機制的機會[11]。例如,有研究[12]發(fā)現(xiàn)淋巴細胞減少是抗MDA5陽性皮肌炎患者預后的獨立預測因子,并利用無監(jiān)督學習歸納出了淋巴細胞減少程度與疾病嚴重程度和疾病預后的相關性,為臨床醫(yī)生理解抗MDA5陽性皮肌炎疾病的臨床特點和表型提供可靠依據(jù),有助于該病的診療及管理。
機器學習的基本步驟包括:(1)數(shù)據(jù)準備:預測結局以及一系列與該結局存在潛在關系的變量;(2)數(shù)據(jù)預處理:對原始數(shù)據(jù)進行清洗、轉換、離散、歸約等處理,以確保數(shù)據(jù)的完整性和規(guī)范化;隨后將數(shù)據(jù)隨機劃分為訓練集、驗證集和測試集;(3)模型選擇:根據(jù)既定任務,選擇對應模型,例如分類任務,可選擇回歸模型;(4)模型訓練:模型基于訓練集數(shù)據(jù)進行訓練,學習規(guī)律;(5)參數(shù)調整:根據(jù)模型在驗證集上的性能,選擇適當?shù)膮?shù)調整,以進一步提升模型的表現(xiàn);(6)模型評估:訓練及調整好的模型在測試集上進行性能評估,主要指標包括敏感度、特異度、召回率、精確度、F1 值等;(7)模型預測:將模型運用到新的任務中,呈現(xiàn)預測結果。
目前,機器學習在AP 中應用廣泛,監(jiān)督學習任務主要包括預測嚴重程度、并發(fā)癥和死亡,無監(jiān)督學習任務主要為識別炎癥因子表型。具體特點見表1。
表1 機器學習在AP中應用研究的基本特點Table 1 Characteristics of studies on application of machine learning in acute pancreatitis
1.1 監(jiān)督學習
1.1.1 預測AP 嚴重程度 Pearce 團隊[13]在2006 年首次利用機器學習基于APACHE-Ⅱ評分和C反應蛋白指標建模以提升SAP預測性能,他們在邏輯回歸基礎上引入核函數(shù),以去除冗余特征、識別相關特征,最終模型的AUC 為0.82,敏感度為0.87,特異度為0.71,優(yōu)于傳統(tǒng)評分系統(tǒng)APACHE-Ⅱ評分(AUC=0.74)。Sun等[14]開發(fā)了APSAVE 模型對AP 患者進行風險分層,通過隨機森林算法對92個臨床變量(包括65個靜脈血結果、17個動脈血結果和9個尿檢結果)進行分析,最后得出AUC 為0.73,此外,APSAVE 聯(lián)合Ranson 評分可以提高模型性能至0.79。Langmead 等[15]發(fā)現(xiàn)新的細胞因子譜(由5 個細胞因子組成)能準確預測AP 患者持續(xù)性器官衰竭,并且在獨立的、前瞻的133個患者隊列里驗證其性能,該作者通過隨機森林算法建模,模型AUC 為0.91,準確性為0.89,陽性預測值為0.89,陰性預測值為0.90。
近年來,隨著機器學習在醫(yī)學領域發(fā)揮的顯著作用,越來越多的算法被開發(fā),醫(yī)學研究者不再局限于個別算法,而是比較多種算法尋求最優(yōu)解,同時探索新的算法來擴增樣本從而解決真實世界中樣本量小、數(shù)據(jù)質量差、分類不平衡的問題。Thapa 團隊[16]回顧性分析61 894例AP患者入院12 h內的臨床指標,利用邏輯回歸、XGBoost 和神經(jīng)網(wǎng)絡算法訓練模型,得出三個模型的AUC分別為0.780、0.921和0.811,經(jīng)典評分系 統(tǒng)BISAP 和HAPS 評 分 的AUC 為0.682 和0.533。Kui等[17]設計了一個基于XGBoost 算法的簡易版應用程序,以早期識別SAP 高危患者,該研究是一項多中心、多國家、前瞻性的觀察性研究,該模型納入的六個重要變量包括性別、年齡、體溫、呼吸頻率、腹肌反射和血糖水平,預測準確性達89.1%,平均AUC 為0.81。Yuan 團隊[18]通過對5 460 例AP 患者的臨床數(shù)據(jù)進行分析,采用五種機器學習算法,包括XGBoost、三種不同核的支持向量機以及邏輯回歸算法,結果提示基于XGBoost 算法的模型在外部測試集上獲得最高的AUC,該模型包括年齡、合并癥、神志狀態(tài)、肺部浸潤、降鈣素原、中性粒細胞百分比、谷丙轉氨酶/谷草轉氨酶、白蛋白/球蛋白、膽堿酯酶、尿素、血糖、谷草轉氨酶和血清總膽固醇。土耳其有項研究[19]基于梯度提升算法回顧性分析1 334 例AP 患者的臨床變量和CTSI 評分,并采用上采樣方法增加訓練集中的小分類樣本,預測AP嚴重程度,結果提示聯(lián)合CTSI評分可提升模型準確性。Luo 等[20]利用五種機器學習算法(隨機森林、K 近鄰算法、樸素貝葉斯、神經(jīng)網(wǎng)絡和分類樹)構建SAP 的預測模型,并與經(jīng)典評分系統(tǒng)(BISAP、Ranson 和GCS 評分)進行比較,結果表明,基于隨機森林算法的模型性能最佳,其AUC達0.961。
研究[21]表明,10%~20%的AP 容易進展為急性壞死性胰腺炎,從而進一步增加病死率(約15%),當合并感染時,病死率增加至少2 倍,可達30%~39%。Kiss等[22]利用XGBoost算法基于血糖、C反應蛋白、性別、白細胞等臨床變量預測急性壞死性胰腺炎,經(jīng)過交叉驗證之后,AUC 達0.757,且隨著樣本量的增加,AUC也不斷提高。
1.1.2 預測AP 并發(fā)癥 多器官功能衰竭同樣會增加AP 患者的病死率,呼吸系統(tǒng)、心血管系統(tǒng)和腎臟系統(tǒng)最容易發(fā)生衰竭。Fei團隊[23]利用神經(jīng)網(wǎng)絡和邏輯回歸算法對217 例SAP 患者建模,評估SAP 并發(fā)急性肺損傷風險,兩種模型的AUC 分別為0.859±0.048 和0.701±0.041。Xu 等[8]開展了一項多中心、回顧性研究,利用六種機器學習算法(邏輯回歸、樸素貝葉斯、支持向量機、AdaBoost、二次判別分析和反向傳播網(wǎng)絡)預測MSAP 和SAP 患者的多器官功能衰竭,最終AdaBoost模型性能最佳(AUC=0.826)。
研究表明,AP 后新發(fā)糖尿病的風險相較于無AP患者高2 倍以上。Zhang 等[24]利用一系列機器學習算法建模以預測AP 后糖尿病的發(fā)生,包括支持向量機、CatBoost、隨機森林、邏輯回歸、神經(jīng)網(wǎng)絡,結果表明,邏輯回歸模型獲得最高的AUC(0.819)和F1值(0.357)。
1.1.3 預測AP 死亡 臨床上關于AP 患者死亡預測模型的研究有限,主要原因包括:(1)樣本量小,數(shù)據(jù)質量差;(2)分類不均衡。Hameed等[25]通過擴增三個公開數(shù)據(jù)庫(MIMIC-Ⅲ、MIMIC-Ⅳ、EICU)中AP 患者的數(shù)據(jù),并通過上采樣、下采樣等方式平衡分類(生存和死亡),最終利用隨機森林、決策樹、XGBoost、邏輯回歸、多層感知器和深度神經(jīng)網(wǎng)絡算法預測死亡,結果表明經(jīng)擴增后,基于MIMIC-Ⅲ所得到的最高AUC是0.748(基于多層感知器),基于MIMIC-Ⅳ的最高AUC為0.958(基于深度神經(jīng)網(wǎng)絡),基于EICU的最高AUC 為0.702(基于深度神經(jīng)網(wǎng)絡),基于三個數(shù)據(jù)集的最高AUC為0.944(基于XGBoost)。
1.2 無監(jiān)督學習 AP 的特征之一是細胞因子風暴,其通過誘發(fā)全身炎癥反應綜合征導致胰腺和其他器官功能障礙甚至衰竭。針對這一現(xiàn)象,Kimita 等[26]首先利用隨機森林區(qū)分AP患者和健康人群的細胞因子/趨化因子,兩組人群中共22 個細胞因子/趨化因子存在顯著差異。接著,基于這22 個細胞因子/趨化因子對胰腺炎患者進行聚類分析,結果分為2類,其中1類含75例患者,2類含32例患者。與1類患者相比,2類患者的抑胃肽(P=0.001)、多肽YY(P=0.017)、胃饑餓素(P=0.014)、胰島素(P=0.001)水平顯著升高,而鐵調素(P=0.016)水平顯著降低。這一發(fā)現(xiàn)有助于對胰腺炎患者進行早期風險分層,給予靶向抗炎藥物和診療方案,實現(xiàn)精準醫(yī)療。
無監(jiān)督學習應用于AP 的研究非常有限,但上述研究揭示了無監(jiān)督學習可觀的、潛在的臨床意義,值得進一步探究。
近年來,隨著人工智能的快速發(fā)展,深度學習在醫(yī)學領域的應用愈發(fā)廣泛,尤其是計算機視覺領域,主要包括分類[27-29]、目標檢測[30-32]和語義分割[33-35]等任務。性能最佳、應用最廣泛的深度學習框架為卷積神經(jīng)網(wǎng)絡,類似人類大腦神經(jīng)網(wǎng)絡的架構,基于圖像和圖像相應結局成對形式的數(shù)據(jù)集進行訓練,充分且深層地學習影像特征,并不斷迭代更新,縮小誤差,屬于監(jiān)督學習范疇[36]。Tong 等[37]基于超聲增強圖像鑒別胰腺導管腺癌和慢性胰腺炎,首先由放射科醫(yī)生單獨診斷,然后利用ResNet框架提取深度特征構建模型,讓放射科醫(yī)生根據(jù)模型結果再次診斷,最后比較前后兩次診斷的準確性,結果表明,模型性能優(yōu)于第一次放射科醫(yī)生診斷,并且在模型的幫助下,放射科醫(yī)生的診斷敏感度和特異度都得到明顯改善。Chen 等[38]歸納了人工智能(深度學習和影像組學)在胰腺疾病中的應用,包括胰腺癌檢測、胰腺病變鑒別、胰腺癌預后和治療效果以及胰腺神經(jīng)內分泌瘤和囊性病變的診斷,反映了人工智能在醫(yī)學影像中的良好前景。
因此,深度學習憑借其基于特定任務自動學習自適應特征的能力以及豐富復雜的超參數(shù),能反映更高階的成像模式,并捕獲更多的成像異質性。而目前關于深度學習在AP 中的研究有限,這一研究方向具有一定的探索意義和臨床價值。
現(xiàn)代化醫(yī)療信息常依賴多種模態(tài)的信息數(shù)據(jù),包括圖像像素信息、結構化實驗室檢查、非結構化敘述性文本和語音信息等[39],多模態(tài)信息的整合有利于臨床醫(yī)生做出全面的鑒別診斷,指導臨床診治工作,對醫(yī)療行業(yè)的發(fā)展至關重要。
隨著機器學習和深度學習的快速發(fā)展,多模態(tài)融合的理念已取得初步成效[40-43]。Wang 等[44]將臨床變量和影像組學特征結合起來,構建了一個列線圖以預測接受立體定向治療的肝細胞癌患者的總生存期,結果表明該列線圖的性能優(yōu)于單獨臨床模型和單獨影像組學模型(C 指數(shù):0.76~0.84 vs 0.72~0.75 vs 0.66~0.77)。Huang 等[45]在預測胰腺神經(jīng)內分泌瘤的疾病進展任務中,分別基于超聲增強圖像、臨床變量以及兩者結合的特征構建多因素邏輯回歸模型,結果表明,多模態(tài)模型效果優(yōu)于單獨的深度學習模型和臨床模型(AUC:0.85 vs 0.81 vs 0.78)。
綜上,多模態(tài)融合可以提升模型的性能,從復雜、海量的數(shù)據(jù)中提取充分信息并排除冗余信息,以達到最佳的預測作用。但目前尚未有關于多模態(tài)模型在AP中應用的研究,這一研究方向值得深入探究。
隨著人工智能技術的發(fā)展,大多數(shù)基于臨床變量的AP預測模型研究正在不斷克服樣本量小、分類不均衡、信息偏倚等問題,模型性能也因此不斷提升。此外,在臨床變量的基礎上,加入影像組學和深度學習的應用,既符合真實世界臨床診療數(shù)據(jù)多模態(tài)來源的特點,又能進一步提升模型性能,為臨床決策提供更準確的幫助。但是,機器學習在AP中的應用仍存在一些局限性。首先,數(shù)據(jù)準備方面仍有提高空間,例如對于缺失值、異常值的清洗方式,對于不平衡數(shù)據(jù)集的預處理方式,以及對于小樣本多變量的共線性問題等,都需要被合理、科學地解決。其次,在模型部署方面尚有欠缺,大部分研究構建的模型未能實現(xiàn)日常應用,缺乏臨床實踐性。此外,需要開展多中心、前瞻性研究以解決部分數(shù)據(jù)異質性問題和提高模型泛化能力。
利益沖突聲明:本文不存在任何利益沖突。
作者貢獻聲明:殷民月、朱錦舟負責課題設計,撰寫、修改論文;劉璐、高靜雯、林嘉希參與文獻檢索與歸納;許春芳負責指導撰寫文章并最后定稿。