陳磊,陳蓉,張紅星,華木星,王芳
隨著我國人民生活水平不斷提升和老齡化問題日趨嚴(yán)重,心血管疾病發(fā)病率和死亡率逐年上升,尤其是農(nóng)村和貧困地區(qū)[1]。低密度脂蛋白膽固醇(LDL-C)濃度增高是動脈粥樣硬化發(fā)生發(fā)展的重要危險因素[2],但是我國的血脂異常管理不容樂觀,且患病率持續(xù)增高[3],普及LDL-C 濃度測定對預(yù)防以動脈粥樣硬化為主的心血管疾病有積極意義。測量LDL-C 濃度的方法包括直接測定法和公式法。直接測定法結(jié)果較為準(zhǔn)確,但會增加一定醫(yī)療開支。公式法計算LDL-C 濃度不受血清狀態(tài)影響,適合非空腹或高脂血癥人群估計LDL-C 濃度,且能節(jié)約一定醫(yī)療資源,但傳統(tǒng)公式法計算LDL-C 濃度尤其在高甘油三酯(TG)和低LDL-C 水平時計算值與實測值差異較大[4],并且國際上常用的傳統(tǒng)公式都是基于歐美人群數(shù)據(jù),在我國應(yīng)用有一定局限性。人工智能是以高等數(shù)學(xué)為基礎(chǔ)、利用計算機的優(yōu)勢解決此類用一個或幾個復(fù)雜公式尚不能完全概括其結(jié)論的問題,其預(yù)測結(jié)果往往優(yōu)于單純經(jīng)驗或單一數(shù)學(xué)公式推導(dǎo)的結(jié)論。本研究選用人工智能中的極限樹回歸(ETR)模型推導(dǎo)LDL-C 濃度,與指南推薦方法進行比較,旨在尋找適合預(yù)測LDL-C 濃度的最佳方法。
研究對象:收集云南省阜外心血管病醫(yī)院自2017 年9 月至2021 年11 月期間,測定過血清總膽固醇(TC)、TG、LDL-C、高密度脂蛋白膽固醇(HDL-C)的118 449 例樣本。樣本由住院和體檢患者組成,男性居多,包含各型高脂血癥患者和表觀健康人。刪除有缺失值數(shù)據(jù)條目。因TC 呈正態(tài)分布,以TC 為基準(zhǔn),計算TC 均數(shù)和標(biāo)準(zhǔn)差后隨機抽取均數(shù)±1×標(biāo)準(zhǔn)差范圍內(nèi)2/3 的數(shù)據(jù)、重復(fù)采集均數(shù)±2×標(biāo)準(zhǔn)差至均數(shù)±3×標(biāo)準(zhǔn)差內(nèi)數(shù)據(jù)4 遍、重復(fù)采集均數(shù)±3×標(biāo)準(zhǔn)差以外的數(shù)據(jù)6 遍用以調(diào)整數(shù)據(jù)權(quán)重,最后獲得106 989 例樣本。本研究采用的試驗符合國家制定的涉及人的生物醫(yī)學(xué)研究倫理標(biāo)準(zhǔn)和世界醫(yī)學(xué)協(xié)會最新修訂的《赫爾辛基宣言》的要求。
血脂測定:所有樣本均嚴(yán)格按照說明書要求和標(biāo)準(zhǔn)操作規(guī)程采用生化分析儀(貝克曼庫爾特AU680,美國)和配套原裝試劑進行測定。TC 用酶法,HDL-C 用直接法,LDL-C 用直接法,TG 用甘油磷酸氧化酶-過氧化物酶法。獲取數(shù)據(jù)期間所有試劑未更換品牌。
LDL-C 濃度計算公式:將血脂由mmol/L 轉(zhuǎn)換為mg/dl(TC、HDL-C 和LDL-C:1 mmol/L=38.66 mg/dl;TG:1 mmol/L=88.60 mg/dl)進行分析,計算結(jié)果采用單精度浮點數(shù);分別用Friedewald 公式(LDL-F公式)[5]、Martin/Hopkins 公式(LDL-M 公式)[6]、Sampson 公式(LDL-S 公式)[7]計算LDL-C 濃度,計算方法見表1。
表1 LDL-C 濃度計算公式
模型構(gòu)建:用Python 3.9 語言,調(diào)用sklearn 庫。將最后獲得的106 989 例樣本,以80%(85 591 例樣本)隨機數(shù)據(jù)集作為訓(xùn)練集構(gòu)建預(yù)測LDL-C 濃度的ETR 模型(LDL-ETR 模型),剩下20%(21 398例樣本)數(shù)據(jù)作為測試集測試模型性能,并用于與其他公式進行對比。輸入模型的參數(shù)包括:年齡、性別及上述試劑實際測定的TG、TC 和HDL-C 濃度值;輸出參數(shù)為實際測定的LDL-C 濃度值。用網(wǎng)格搜索尋找最佳超參數(shù)(交叉驗證5 次,用擬合優(yōu)度作為評分標(biāo)準(zhǔn)),為避免過擬合,盡量控制極限樹數(shù)目小于100;最后獲得擬合優(yōu)度得分較高的、較好的超參數(shù)組合為:最大特征數(shù)=0.99,最大葉子節(jié)點數(shù)=32 767.00,極限樹子樹數(shù)量=96.00。結(jié)果中的比較數(shù)據(jù)均來源于測試集(共計21 398 例數(shù)據(jù))。
統(tǒng)計學(xué)方法:采用SPSS 26.0 軟件進行統(tǒng)計分析。正態(tài)分布的定量資料用均數(shù)±標(biāo)準(zhǔn)差表示,非正態(tài)分布的定量資料用中位數(shù)(P25,P75)表示,定性資料用率表示。LDL-ETR 模型或LDL-M、LDL-S、LDL-F 公式的計算值與LDL-C 實測值的相關(guān)性用Pearson 相關(guān)性分析評估。按TG 濃度分層,LDL-ETR模型與LDL-M、LDL-S、LDL-F 公式之間的邏輯錯誤比較和一致性比較用卡方檢驗,模型或公式的計算值與LDL-C 實測值的差值比較用隨機區(qū)組設(shè)計的方差分析,兩兩比較用t檢驗。P<0.05為差異有統(tǒng)計學(xué)意義。
共入選118 449 例樣本,所有樣本對應(yīng)患者中位年齡為48.25(36.00,61.00)歲,男性66 582 例(56.21%),TG、TC、HDL-C 及LDL-C 濃度見表2。
表2 樣本臨床資料(n=118 449)
用擬合優(yōu)度來表示擬合好壞,不確定度用標(biāo)準(zhǔn)差表示預(yù)測值與實測值相比變異的大小,結(jié)果顯示LDL-ETR 模型的擬合優(yōu)度和不確定度均優(yōu)于3 個公式法(表3)。
表3 LDL-ETR 模型與3 個公式法的擬合優(yōu)度和不確定度比較
對LDL-ETR 模型預(yù)測值和實測值進行相關(guān)性分析,同時與3 個公式法進行比較,結(jié)果顯示LDL-ETR 模型和3 個公式法計算值與實測值均有良好的相關(guān)性,相關(guān)性由高到低依次為LDL-ETR 模型(r=0.9970)、LDL-M 公式(r=0.9907)、LDL-S 公式(r=0.9776)、LDL-F 公式(r=0.9615),P均<0.001(圖1)。
圖1 LDL-ETR 模型預(yù)測值及3 個公式法計算值與LDL-C 濃度實測值的相關(guān)性
LDL-ETR 模型回歸曲線與原始樣本回歸曲線高度重合,相關(guān)度最高,能較好地預(yù)測LDL-C 濃度;LDL-M 公式僅次于LDL-ETR 模型,在LDL-C濃度約小于189.30 mg/dl 時,LDL-C 殘留風(fēng)險較大;LDL-S 公式和LDL-F 公式在LDL-C 濃度分別小于210.77 mg/dl 和288.30 mg/dl 時,低估了LDL-C 濃度,且估計值精度較差。
按不同TG 濃度分層(TG 濃度范圍0.89~885.11 mg/dl),對LDL-ETR 模型預(yù)測值和LDL-C 實測值的相關(guān)性做了比較。結(jié)果顯示,當(dāng)TG <400 mg/dl 時,LDL-ETR 模型預(yù)測值和實測值相關(guān)性較優(yōu),具體見圖2。
圖2 不同TG 濃度下LDL-ETR 模型預(yù)測值與LDL-C 濃度實測值的相關(guān)性
LDL-ETR 模型預(yù)測值與LDL-C 濃度實測值的差值為(-0.00±3.50)mg/dl,優(yōu)于LDL-M 公式[(-5.41±7.43)mg/dl]、LDL-S 公式[(-6.80±10.91)mg/dl]和LDL-F 公式[(-10.06±13.90)mg/dl],F(xiàn)>4.67、P均<0.001。
按不同TG 濃度分層(TG 濃度范圍0.89~885.11 mg/dl),比較LDL-ETR 模型預(yù)測值及3 個公式法計算值與LDL-C 濃度實測值差值大?。簾o論在TG≥50 mg/dl 時 或TG<50 mg/dl 時,LDL-ETR 模型的差值均是優(yōu)于3 個公式。3 個公式間比較,當(dāng)TG<50 mg/dl 時,LDL-F 公式最優(yōu),當(dāng)TG≥50 mg/dl時,LDL-M 公式最優(yōu)。具體見表4。
表4 不同TG 濃度下LDL-ETR 模型預(yù)測值及3 個公式法計算值與LDL-C 濃度實測值差值的比較
為觀察不同TG 濃度對模型或公式的干擾情況,繪制模型或公式的差值分布圖(圖3)。通過對圖3比較,可以發(fā)現(xiàn)TG 對LDL-ETR 模型基本無干擾;高TG 濃度對LDL-S 公式,尤其是LDL-F 公式計算產(chǎn)生負(fù)干擾。
圖3 不同TG 濃度下LDL-ETR 模型預(yù)測值及3 個公式法計算值與LDL-C 濃度實測值差值分布圖
將LDL-C 濃度實測值正負(fù)6.8%(基于生物學(xué)變異的總允許誤差的最佳限)范圍內(nèi)的計算值標(biāo)記為“一致”,超過該范圍標(biāo)記為“高估”,低于該范圍標(biāo)記為“低估”。
按不同TG 濃度分層(TG 濃度范圍0.89~885.11 mg/dl),比較LDL-ETR 模型預(yù)測值及3 個公式法計算值與LDL-C 濃度實測值的一致性。相同TG 濃度分層下模型與公式之間一致性兩兩比較差異均有統(tǒng)計學(xué)意義(χ2>17.08,P<0.001,α=0.0083),具體見表5。
表5 不同TG 濃度下LDL-ETR 模型預(yù)測值及3 個公式法計算值與LDL-C 濃度實測值的一致性比較[例(%)]
在測試集總體21 398 例樣本中,LDL-ETR 模型中有20 101 例樣本(93.94%)與實測值一致,459例樣本(2.15%)被低估,838 例樣本(3.92%)被高估;LDL-M 公式、LDL-S 公式和LDL-F 公式低估了近一半的樣本(43.02%、46.85%和54.42%),具體見圖4。
圖4 LDL-ETR 模型預(yù)測值及3 個公式法計算值與LDL-C濃度實測值的一致性比較
表6 LDL-ETR 模型與3 個公式法預(yù)測LDL-C 濃度的邏輯錯誤率比較[例(%)]
如果(HDL-C 濃度+LDL-C 濃度)>TC 濃度,稱之為邏輯錯誤,是計算LDL-C 中不可避免的錯誤。我們對LDL-ETR 模型和三種公式法LDL-C 濃度預(yù)測值的邏輯錯誤進行了比較,結(jié)果顯示LDL-ETR模型邏輯錯誤率較低,為0.04%,僅次于LDL-M公式的0.02%,二者差異無統(tǒng)計學(xué)意義(χ2=1.92,P=0.17,α=0.0083);LDL-F 公式邏輯錯誤率最高。
為了進一步評價LDL-ETR 模型的預(yù)測效果,我們通過繪制學(xué)習(xí)曲線(圖5),觀察不同訓(xùn)練集大小下擬合優(yōu)度得分情況,發(fā)現(xiàn)測試集曲線和訓(xùn)練集曲線隨數(shù)據(jù)量增加逐漸收斂,二者擬合優(yōu)度得分均較高,訓(xùn)練集曲線相對穩(wěn)定;因此,LDL-ETR 模型預(yù)測結(jié)果適用于相同檢驗系統(tǒng)的其他樣本。
圖5 學(xué)習(xí)曲線
本研究通過一種基于人工智能的建模方法成功建立了一種全新的推導(dǎo)LDL-C 濃度的方法(LDLETR 模型),結(jié)果顯示,相比傳統(tǒng)的公式法,LDLETR 模型能更好地預(yù)測LDL-C 濃度,幾乎不受TG干擾,與LDL-C 濃度實測值一致性較好,邏輯錯誤率較低;通過學(xué)習(xí)曲線繪圖,證明該模型對除建模數(shù)據(jù)外的其它患者LDL-C 濃度也具有相似的預(yù)測能力,模型適用性強。
ETR 模型是基于人工智能技術(shù)的建模方法之一。自1966 年Hunt 等[8]提出了決策樹算法后,該算法不斷完善,進而產(chǎn)生了隨機森林樹和ETR 等模型。ETR 模型的特點在于使用全樣本隨機分配權(quán)重隨機分割,采用信息熵尋找最優(yōu)劃分;此模型依賴于計算機和計算機程序。而諸如LDL-F 的公式法,公式組成相對較為簡單;LDL-M 公式在LDL-F 公式基礎(chǔ)上進行了相對較為復(fù)雜的分類討論,但是相對于計算機模型而言,復(fù)雜度有限。本研究在模型構(gòu)建過程中共納入118 449 例樣本,建模前調(diào)整高TC和低TC 的權(quán)重,建模過程中以TC 作為重要分類變量,HDL-C、TG、年齡、性別依次作為次要分類變量,通過預(yù)測LDL-C 濃度的概率,對可能的LDL-C 濃度求均值,實現(xiàn)對LDL-C 的濃度預(yù)測;該方法為國內(nèi)外首次報道使用。Singh 等[9]用隨機森林樹建立Weill Cornell 模型預(yù)測LDL-C,也證明了人工智能技術(shù)在預(yù)測LDL-C 方面的優(yōu)勢,但與Singh 等研究不同的是,本研究納入了性別和年齡,而且,訓(xùn)練樣本量(106 989 例;初始樣本量:118 449 例)遠(yuǎn)大于Weill Cornell 模型初始樣本量(17 500 例)。此外,數(shù)據(jù)集調(diào)整權(quán)重后才導(dǎo)入模型進行訓(xùn)練,使得預(yù)測結(jié)果與LDL-C 實測值擬合程度更佳,這也正是本研究所用LDL-ETR 模型的優(yōu)勢。
LDL-F 公式自1972 年Friedewald 推導(dǎo)后,至今仍在國外廣泛應(yīng)用,國內(nèi)部分醫(yī)院也以該方法作為參考或直接出具報告,但因高TG 對該公式影響較為明顯,限制了其在非空腹和高脂血癥人群中的應(yīng)用。此后,我國的吳秀茹等[10]、張林等[11]和胡柏成 等[12]及國外的Martin 等[6]、Sampson 等[7]和Singh 等[9]先后提出了新的修正公式或模型計算LDL-C 濃度。《歐洲心臟病學(xué)會臨床實踐中心血管疾病預(yù)防指南》[13]推薦:在TG ≥50 mg/dl 且TG<400 mg/dl 時使用LDL-F 公式來計算LDL-C,而該范圍之外的LDL-C 應(yīng)該采用LDL-M 公式或LDL-S 公式。但是,這類公式在我國應(yīng)用較為局限:一方面,以我國學(xué)者為代表的LDL-C 計算公式未經(jīng)大量樣本驗證(研究樣本不超過200 例),且修正公式建立時間較久遠(yuǎn),而以LDL-S 公式為代表的公式較新,缺乏公式性能評價;另一方面,以LDL-M 公式為代表的公式需要單獨寫程序調(diào)用調(diào)整因子表;最重要的是,目前國內(nèi)外許多公式尚不能較好地避免高TG 對LDL-C 計算結(jié)果的影響。本研究建立的LDL-ETR 模型直接用Python 編寫,準(zhǔn)備好環(huán)境可以直接調(diào)用,與實驗室信息系統(tǒng)通信方便;當(dāng)TG 為0.89~885.11 mg/dl 濃度范圍內(nèi),模型對LDL-C 濃度的預(yù)測效果都優(yōu)于目前的公式法,致LDL-C 殘留風(fēng)險最低;訓(xùn)練模型樣本量大于除LDL-M 公式以外的其它公式。
此外,我們也對常用公式法在本研究中的表現(xiàn)與現(xiàn)有研究進行比較,結(jié)果顯示LDL-M 公式低估LDL-C 濃度的風(fēng)險較低(共計43.02%的樣本被低估),在TG ≥50 mg/dl 和TG<400 mg/dl 優(yōu)于其他公式,與Sajja 等[14]、Kang 等[15]和蔡紅軍等[16]的研究一致,而且在TG ≥400 mg/dl 時,仍然是僅次于LDL-ETR 的最佳公式,該結(jié)果與Rees 等[17]的研究一致。而當(dāng)TG<50 mg/dl 時,本研究顯示LDL-F 公式優(yōu)于其他公式,但LDL-F 公式預(yù)測LDL-C 相關(guān)性較低、不確定度較高,LDL-C 殘留風(fēng)險較大,與Ga?ko[18]的研究、歐洲指南基本一致。
本研究的不足之處在于,樣本數(shù)據(jù)主要來自云南地區(qū)且為單中心研究,不同中心可能因民族、海拔和儀器、試劑品牌不同導(dǎo)致該模型預(yù)測結(jié)果與實測結(jié)果有差異。將來,如能進一步擴大血脂數(shù)據(jù)集進行多中心研究,將會進一步提高LDL-ETR 模型的可靠性,擴大LDL-ETR 模型的適用范圍,為臨床應(yīng)用提供可能。
綜上所述,本研究基于云南地區(qū)人群建立了一種以人工智能技術(shù)推導(dǎo)LDL-C 濃度的新方法,該模型的應(yīng)用可以節(jié)約LDL-C 濃度檢測費用;當(dāng)然,對于有疑問的LDL-C 濃度實測值結(jié)果,例如LDL-C濃度測定受儀器、試劑、標(biāo)本狀態(tài)影響時,通過與該模型預(yù)測值進行對照,可以提醒檢驗人員注意對異常結(jié)果進行解釋或重測。本研究建立的模型能節(jié)約一定醫(yī)療資源,同時不影響動脈硬化性心血管疾病的診斷,適合較為廣泛地應(yīng)用。
利益沖突:所有作者均聲明不存在利益沖突