李 陽 陳曉泓 王一梅 胡家昌 沈子妍 沈 波 林 靜 丁小強
(復(fù)旦大學(xué)附屬中山醫(yī)院腎內(nèi)科 上海 200032)
21 世紀(jì)以來,隨著靶向藥物和腫瘤干細胞治療等新型治療技術(shù)的發(fā)展,惡性腫瘤患者的中位生存時間在過去數(shù)十年間已有所改善。與此同時,越來越多的患者出現(xiàn)了腫瘤或腫瘤治療相關(guān)的腎臟疾病,進一步加重了全球疾病負擔(dān)[1]。急性腎損傷(acute kidney injury,AKI)是惡性腫瘤患者中最常見的并發(fā)癥之一,主要表現(xiàn)為腎功能突然下降,進而導(dǎo)致尿素和其他含氮廢物潴留以及細胞外液容量和電解質(zhì)失調(diào)。據(jù)估計,全球腫瘤相關(guān)AKI 的發(fā)病率約為21.3%[2]。惡性腫瘤相關(guān)AKI 的發(fā)生是腫瘤直接損傷、化療藥物腎毒性、腫瘤治療并發(fā)癥和其他致病因素等共同作用的結(jié)果[3]。復(fù)雜的發(fā)病機制使得腫瘤相關(guān)AKI 的病因識別困難,進一步加重了臨床預(yù)防和診治的難度。與此同時,上述眾多的危險因素彼此存在交互作用,以Logistic 回歸為主的傳統(tǒng)統(tǒng)計分析方法并不適用,亟待開發(fā)以大數(shù)據(jù)處理和人工智能分析為基礎(chǔ)的優(yōu)化統(tǒng)計方法。貝葉斯網(wǎng)絡(luò)(Bayesian network)是基于概率的不確定性推理方法,通過構(gòu)建有向無環(huán)圖直觀反映多因素間的潛在關(guān)系,利用條件概率分布表反映關(guān)系強度[4]。套 索(least absolute shrinkage and selection operator,LASSO)回歸方法通過構(gòu)造懲罰函數(shù)得到較為精煉的模型,在處理存在多重共線性的樣本數(shù)據(jù)時有明顯的優(yōu)勢[5]。因此,本研究利用LASSO 回歸和貝葉斯網(wǎng)絡(luò)分析方法,構(gòu)建適合腫瘤患者AKI發(fā)病風(fēng)險的貝葉斯網(wǎng)絡(luò)預(yù)測模型,為早期識別高危人群,制訂AKI 精準(zhǔn)預(yù)防策略,有效提升抗腫瘤治療效果和患者預(yù)后提供科學(xué)依據(jù)。
研究對象納入標(biāo)準(zhǔn):2014 年10 月1 日至2015年9 月日30 在復(fù)旦大學(xué)附屬中山醫(yī)院就診的經(jīng)病理學(xué)確診的惡性腫瘤住院患者。排除標(biāo)準(zhǔn):年齡未滿18 周歲,住院時間小于24 h;慢性腎臟病4~5 期患者和接受腎透析或腎移植者。
數(shù)據(jù)收集本研究所用數(shù)據(jù)資料摘錄于上述患者的病案記錄和入院體檢數(shù)據(jù)。在數(shù)據(jù)提取和分析前,患者個人身份識別信息用編碼代替,以保護個人隱私。本研究納入分析的變量有27 個:年齡、性別、體重指數(shù)(body mass index,BMI)、既往疾?。ǜ哐獕?、糖尿病、心臟病、中風(fēng)和心力衰竭)、癌癥類型和分期、入院情況、治療方式、基礎(chǔ)肝功能[(丙氨酸轉(zhuǎn)氨酶(alanine aminotransferase,ALT)、天門冬氨酸轉(zhuǎn)氨酶(aspartate aminotransferase,AST)和總膽紅素(total bilirubin,TBiL)]、基礎(chǔ)腎功能[血清肌酐值(serum creatinine,SCr)、腎小球濾過率(estimated glomerular filtration rate,eGFR)和血尿酸]、生化指標(biāo)(白蛋白、血紅蛋白和白細胞計數(shù))以及電解質(zhì)數(shù)據(jù)(鈉、鉀、氯、鈣、鎂和磷)。
惡性腫瘤診斷和AKI 定義惡性腫瘤的診斷標(biāo)準(zhǔn)參照國際疾病分類ICD-10,并將其分為28 個小類[6]。根據(jù)腫瘤的不同部位和分期,又將其進一步分為血液系統(tǒng)腫瘤、實體瘤、原發(fā)腫瘤和轉(zhuǎn)移腫瘤。AKI 診斷參照“改善全球腎臟病預(yù)后組織KDIGO”標(biāo) 準(zhǔn)[7]:48 h 內(nèi)血清 肌 酐水平升 高≥0.3 mg/dL(≥26.5 μmol/L)或超過基礎(chǔ)值的1.5 倍及以上,且明確或經(jīng)推斷上述情況發(fā)生在7 天之內(nèi);或持續(xù)6 h 尿量<0.5 mL·kg-1·h-1。本研究經(jīng)復(fù)旦大學(xué)附屬中山醫(yī)院倫理委員會批準(zhǔn)(編號:B2018-175)。
LASSO 回歸方法LASSO 方法的原理是在最小二乘基礎(chǔ)上增加了一個懲罰項來對估計參數(shù)進行壓縮,當(dāng)參數(shù)縮小到小于一個閾值時,令它變?yōu)?,從而選擇出對因變量影響較大的自變量并計算出相應(yīng)的回歸系數(shù),常用于處理存在多重共線性的樣本數(shù)據(jù)。LASSO 回歸復(fù)雜度調(diào)整的程度由參數(shù)λ 控制,λ 越大則模型復(fù)雜度的懲罰力度越大。通過LASSO 回歸,可使最終納入模型的變量均為與因變量顯著相關(guān)(P<0.05)且考慮變量共線性問題的自變量集合。模型篩選的方法主要包括lambda.min和lambda.1se。lambda.min 是指得到最小目標(biāo)參量均 值的λ 值;而lambda.1se 是 指 在lambda.min 一 個方差se 范圍內(nèi)得到最簡單模型的λ 值。由于λ 值到達一定值之后,繼續(xù)增加模型自變量個數(shù)并不能很顯著地提高模型性能,因此lambda.1se 可以給出一個具備優(yōu)良性能但是自變量個數(shù)最少的模型。
貝葉斯網(wǎng)絡(luò)模型基本原理貝葉斯網(wǎng)絡(luò)是一種應(yīng)用概率傳播原理進行不確定性信息的推理和數(shù)據(jù)分析的統(tǒng)計學(xué)方法。它通過構(gòu)建一個有向無環(huán)圖G=(V,A,P)來構(gòu)建反映變量間的交互作用和概率依賴關(guān)系。有向無環(huán)圖主要由表示隨機變量的節(jié)點vi∈X和描述變量間概率關(guān)系的有向邊aij∈A兩部分構(gòu)成。節(jié)點間的概率依賴關(guān)系則由條件概率分布表來呈現(xiàn):P(X)=P(Xi|ΠXi;ΘXi),其中ΘXi表示節(jié)點變量Xi的模型參數(shù),ΠXi表示節(jié)點變量Xi的父節(jié)點集合。貝葉斯網(wǎng)絡(luò)分析結(jié)合了概率論和圖論的優(yōu)勢,可以在分析影響因素的同時進一步直觀地描述自變量之間的相互作用以及其與因變量之間的復(fù)雜網(wǎng)絡(luò),這有助于全面探討疾病因果聯(lián)系和發(fā)現(xiàn)未知或潛在的危險因素。
統(tǒng)計學(xué)分析采用SPSS 20.0 軟件進行統(tǒng)計描述和單因素分析,檢驗水準(zhǔn)均取0.05?;贚ASSO回歸的變量選擇在R 3.3.1 軟件的glmnet package 中完成。分類變量在納入模型前先進行啞變量形式進行轉(zhuǎn)化(27 個自變量轉(zhuǎn)為43 個候選變量)。最終納入模型的啞變量按照成組變量“同進同出”的原則全部選入分類變量。貝葉斯網(wǎng)絡(luò)分析借助于R 3.3.1 軟 件中的bnleam package:(1)禁忌搜 索算法(tabu 函數(shù))進行網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí);(2)極大似然估計法(bn.fit_MLE 函 數(shù))進 行 網(wǎng) 絡(luò) 參 數(shù) 學(xué) 習(xí);(3)cpquery 函數(shù)進行貝葉斯網(wǎng)絡(luò)推理和條件概率分布表計算。貝葉斯網(wǎng)絡(luò)圖形繪制在Netica 32.0 軟件內(nèi)完成。在Weka3.8.0 平臺評價AKI 貝葉斯網(wǎng)絡(luò)預(yù)測模型預(yù)測效能,此外本研究將完整數(shù)據(jù)集按照4∶1的比例隨機劃分為訓(xùn)練集和測試集,用訓(xùn)練集重新估計貝葉斯網(wǎng)絡(luò)參數(shù),并以測試集來驗證在既定網(wǎng)絡(luò)模型結(jié)構(gòu)下外部預(yù)測一致性。
人口學(xué)和臨床特征共納入26 914人,平均年齡(58.7±12.5)歲,男性占比66.7%。3 326 名(12.4%)患者在住院期間被診斷為AKI,其中腎癌(27.3%)、多發(fā)性骨髓瘤(24.1%)和急性粒細胞白血?。?3.9%)患者的AKI 發(fā)病率最高。隨著年齡增加,腫瘤相關(guān)AKI 發(fā)病率由9.5%升至19.4%(P<0.001);男性腫瘤患者AKI 發(fā)病率略高于女性(12.7%vs.11.6%);BMI與AKI發(fā)生呈負相關(guān)(圖1)。
腫瘤相關(guān)AKI 發(fā)病相關(guān)臨床危險因素分析由表1 可知,共患高血壓、糖尿病和既往發(fā)生過心力衰竭的腫瘤患者住院期間發(fā)生AKI 的風(fēng)險顯著增加;血液系統(tǒng)腫瘤、存在腫瘤遠處轉(zhuǎn)移和急診入院的患者AKI 發(fā)病率更高,未校正OR 值(crude odds ratio,cOR)依次為1.33、1.14 和1.64。與未治療/姑息治療相比,接受手術(shù)治療和化學(xué)治療者更容易發(fā)生AKI(cOR=3.86 和2.09)?;A(chǔ)肝腎功能異常與AKI的發(fā)生亦顯著相關(guān),eGFR≤59 mL·min-1·1.73 m-2和血尿酸水平≥481 μmol/L 的住院患者發(fā)生AKI 的風(fēng)險最高(cOR=16.40 和5.74)。在生化指標(biāo)方面,低白蛋白血癥和貧血患者更容易在住院期間出現(xiàn)AKI(cOR=2.26 和3.05)。此外,各種類型的電解質(zhì)紊亂均與AKI 的發(fā)生相關(guān),其中入院時已出現(xiàn)低鈉和高鉀的患者AKI 發(fā)生風(fēng)險為血鈉/鉀正常者的3.11 和10.33 倍。
表1 癌癥患者腫瘤相關(guān)AKI 發(fā)病臨床相關(guān)危險因素單因素分析Tab 1 Clinical factors and univariate analysis for AKI incidence among cancer patients (n=26 914)
(續(xù)表1)
基于LASSO 回歸的預(yù)測模型變量選擇在研究初期納入的27 個變量在啞變量轉(zhuǎn)換后(43 個候選變量),通過LASSO 模型回歸最終篩選出22 個與AKI 發(fā)生相關(guān)性最顯著的變量,包括年齡、性別、BMI、糖尿病史、腫瘤類型、腫瘤分期、治療方式、血鈉、血鉀、血氯、血鈣、血鎂、血磷、ALT、AST、TBiL、eGFR、SCr、血尿酸、白蛋白、血紅蛋白和白細胞計數(shù)。圖2 為選用10 倍交叉驗證擬合不同變量組合下的模型,并用接收者操作特征曲線(receiver operating characteristic curve,ROC)下面積(area under the curve,AUC)與參數(shù)λ 的Log 值作圖。按照lambda.1se 變量篩選準(zhǔn)則,最終在λ 取值0.000 4[log(λ)=-5.34]時獲得具備優(yōu)良性能但是自變量個數(shù)最少的模型。
貝葉斯網(wǎng)絡(luò)模型構(gòu)建按照LASSO 回歸篩選的變量,構(gòu)建含有23 個節(jié)點、43 條有向邊的腫瘤相關(guān)AKI 貝葉斯網(wǎng)絡(luò)發(fā)病預(yù)測模型,并獲得各節(jié)點的條件概率。從圖3 網(wǎng)絡(luò)可見,年齡、性別、BMI、既往病史、腫瘤類型/治療、基礎(chǔ)肝腎功能、生化和電解質(zhì)指標(biāo)等變量通過復(fù)雜的網(wǎng)絡(luò)關(guān)系與AKI 建立聯(lián)系:血紅蛋白、eGFR、血氯和血磷與AKI 的發(fā)生有直接聯(lián)系;節(jié)點治療方式通過影響血鈉、白蛋白等中間節(jié)點聯(lián)系,間接地影響AKI 的發(fā)生;糖尿病和性別通過節(jié)點血尿酸間接相連eGFR,而后者是AKI 的父節(jié)點;白蛋白、ALT 和白細胞計數(shù)等通過影響血氯和血磷水平,間接與AKI 建立聯(lián)系,而AKI 的發(fā)生又進一步成為血鉀和血鎂的父節(jié)點,這提示電解質(zhì)紊亂與AKI 的發(fā)生存在伴隨關(guān)系,通過早期評估基礎(chǔ)腎功能和電解質(zhì)水平可以有效預(yù)防AKI 發(fā)生。
貝葉斯網(wǎng)絡(luò)模型推理圖4 為血紅蛋白和eGFR 不同水平與腫瘤相關(guān)AKI 發(fā)病情況之間的條件概率分布。在其他條件一致的情況下,貧血和eGFR≤59 mL·min-1·1.73 m-2的患者發(fā)生AKI 的概率最高(55.7%);與之相比,上述指標(biāo)均正常者AKI發(fā)病率最低(3.0%)。這提示基礎(chǔ)腎功能和血紅蛋白在腫瘤相關(guān)AKI 的發(fā)生和發(fā)展中可能存在伴隨關(guān)系。與此同時,已知任意節(jié)點組合信息都可以通過上述貝葉斯模型估計AKI 的發(fā)生概率。例如年齡75 歲、接受手術(shù)治療、入院時存在貧血、低鈉和高尿酸血癥的男性患者發(fā)生AKI 的概率為34.3%;此時如果及時糾正貧血、血鈉和尿酸情況,其發(fā)生AKI 的概率可降至9.6%(圖5)。
貝葉斯網(wǎng)絡(luò)預(yù)測效能評價Weka 模型評價發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò)模型的分類準(zhǔn)確率為88.8%,AUC 值為0.806(表2);10 倍交叉驗證評價顯示AUC 值亦保持在0.802 的水平。在既定貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)下,本研究將數(shù)據(jù)集按照4∶1 的比例進一步隨機劃分為訓(xùn)練集和測試集,用訓(xùn)練集來重新訓(xùn)練網(wǎng)絡(luò)參數(shù),并以測試集來驗證模型外部預(yù)測準(zhǔn)確性。結(jié)果顯示測試集內(nèi)AKI 預(yù)測準(zhǔn)確性為88.4%,AUC 值為0.789(95%CI:0.769~0.808),提示模型具有良好的外部一致性。
本研究發(fā)現(xiàn)惡性腫瘤患者中,急性腎損傷的發(fā)生概率為12.4%,這一比率亦略低于國內(nèi)外其他文獻 結(jié) 果:法 國(16.9%)[8],日 本(17.9%)[9],美 國(12.0%)[10],中國大陸(18.6%)[11]和中國臺灣地區(qū)(23.3%)[12]。AKI 發(fā)病率的差異一方面可能與調(diào)查人群臨床特征和地區(qū)差異等選擇偏倚有關(guān);另一方面,部分患者缺乏持續(xù)性肌酐檢測也可能會低估當(dāng)前的AKI 發(fā)病率。國內(nèi)另一項研究也顯示超七成患者社區(qū)獲得性AKI 存在漏診和診斷延誤,僅有28.3%可以及時獲得診斷[13]。這提示有必要研究影響AKI 發(fā)生的主要危險因素,并以此構(gòu)建風(fēng)險預(yù)測模型以早期識別和預(yù)防腫瘤相關(guān)AKI。
癌癥患者中AKI 的病因通常是多因素相互作用且錯綜復(fù)雜的。除年齡、既往高血壓和糖尿病等一般已知危險因素外,本研究發(fā)現(xiàn)接受手術(shù)治療、化學(xué)治療和介入治療等也是AKI 發(fā)生的主要危險因素(cOR:1.67~3.86)。手術(shù)治療由于涉及血流動力學(xué)改變,術(shù)后發(fā)生AKI 的風(fēng)險顯著增加。很多化療藥物已經(jīng)被證實存在潛在腎毒性:Darmon 等[14]研究發(fā)現(xiàn)超過80%的腫瘤患者曾服用非甾體抗炎藥、雙磷酸鹽和甲氨蝶呤等。它們可以通過多種影響腎小球、腎小管節(jié)段、間質(zhì)組織和/或腎微血管系統(tǒng)的機制觸發(fā)腎損傷。介入治療中靜脈輸注造影劑或大劑量甲氨蝶呤等導(dǎo)致的結(jié)晶也可引起腎小管內(nèi)梗阻。
貝葉斯網(wǎng)絡(luò)模型有助于揭示影響腫瘤相關(guān)AKI 發(fā)病的各危險因素之間的復(fù)雜網(wǎng)絡(luò)關(guān)系。除eGFR 和血紅蛋白等與AKI 直接聯(lián)系以外,治療方式、腫瘤類型等變量是通過與血鈉、血氯和血磷等電解質(zhì)異常聯(lián)系,也可以間接影響AKI 的發(fā)生,而AKI 有本身又是血鎂和血鉀的父節(jié)點。這提示電解質(zhì)紊亂與AKI 的發(fā)生存在伴隨關(guān)系,通過入院時早期監(jiān)測電解質(zhì)水平有助于早期識別AKI,尤其是社區(qū)獲得性AKI 的發(fā)生。英國衛(wèi)生署報告也表示通過入院及時監(jiān)測電解質(zhì)水平、早期識別危險因素并實施系統(tǒng)管理可以避免約1/5 的AKI 發(fā)生[15]。
在AKI 風(fēng)險預(yù)測方面,本研究發(fā)現(xiàn)基于LASSO 回歸聯(lián)合貝葉斯網(wǎng)絡(luò)分析構(gòu)建的風(fēng)險預(yù)測模型的分類準(zhǔn)確率88.8%,ROC 曲線下面積為0.806。與傳統(tǒng)Logistic 回歸相比,該模型具有較好的預(yù)測效果和合理性。在臨床研究領(lǐng)域,醫(yī)學(xué)數(shù)據(jù)變量間存在復(fù)雜的交互作用,此時使用以變量獨立性為條件的多因素Logistic 回歸分析時往往會因為變量間的多重共線問題而錯誤估計變量效應(yīng)。因此,如何在海量變量中選擇出性能參數(shù)最好的變量且避免模型過度擬合是大數(shù)據(jù)分析的關(guān)鍵問題之一。LASSO 回歸的特點是在擬合廣義估計方程的同時進行變量篩選和復(fù)雜度調(diào)整,從而有效解決變量共線性問題并最終獲得精簡的統(tǒng)計模型。Huang等[16]利用LASSO 從150 多個臨床指標(biāo)中篩選出24個關(guān)鍵指標(biāo)并以此開發(fā)并驗證了影像組學(xué)聯(lián)合CT和臨床危險因素列線圖模型,用于預(yù)測結(jié)直腸癌術(shù)前淋巴結(jié)轉(zhuǎn)移的風(fēng)險。在數(shù)據(jù)間交互作用方面,Logistic 分析只能揭示出AKI 發(fā)病的幾個獨立影響因素,而貝葉斯網(wǎng)絡(luò)模型可以通過變量間網(wǎng)絡(luò)圖進一步描述各因素間的相互作用及其對AKI 的影響。這一特點有助于全面深入發(fā)掘因素間的內(nèi)部調(diào)控關(guān)系,進而發(fā)現(xiàn)識別關(guān)鍵因素和探索潛在因素具有一定的意義。本研究的局限性在于:(1)以醫(yī)院為基礎(chǔ)的單中心觀察性研究,惡性腫瘤住院患者分布可能不具有人群代表性,在今后的研究中將聯(lián)合多家醫(yī)療機構(gòu)進行研究,以提高樣本代表性,并驗證外部適用性。(2)本研究納入的變量有限,尚未納入腎毒性藥物等其他關(guān)鍵變量,這勢必會影響模型的預(yù)測準(zhǔn)確性,在今后的研究將盡可能前瞻性地收集更多的變量信息以提高模型預(yù)測準(zhǔn)確性。
綜上所述,AKI 是惡性腫瘤患者中常見并發(fā)癥,致病因素眾多且彼此存在紛繁復(fù)雜交互作用。入院及時監(jiān)測電解質(zhì)水平、識別危險因素和避免腎毒性藥物使用等有助于早期預(yù)防和診斷AKI?;贚ASSO 回歸聯(lián)合貝葉斯網(wǎng)絡(luò)分析構(gòu)建的風(fēng)險預(yù)測模型在影響因素分析中更符合實際理論,在AKI發(fā)病風(fēng)險預(yù)測方面具有較好的臨床應(yīng)用價值。
表2 腫瘤相關(guān)AKI 貝葉斯網(wǎng)絡(luò)風(fēng)險預(yù)測模型評價Tab 2 Model evaluation for Bayesian network of AKI