高豪俊,蔣思清,吳 健*
(1.浙江大學醫(yī)學院,浙江 杭州 310058 ;2.浙江大學睿醫(yī)人工智能研究中心,浙江 杭州 310000)
糖尿病已成為當今時代最嚴重和最常見的慢性病之一。2021 年全球糖尿病患者數量超過5 億人,估計患病率超過10%,預計到2045 年患者數將超過7億[1]。隨著病情的發(fā)展,糖尿病將引起諸多并發(fā)癥,影響患者的生存質量,縮短其預期壽命,給其家庭和社會帶來巨大的經濟負擔[2-3]。由于此病早期通常沒有癥狀,患者往往不能及時發(fā)現(xiàn)自身的疾病[4]。而通過相關早期篩查、及時干預可有效預防或延緩其并發(fā)癥的出現(xiàn)[5-6]。因此,需要開發(fā)一種簡單有效的篩查方法。目前已經有許多研究采用機器學習算法來預測糖尿病,如隨機森林、支持向量機、決策樹等,并且展現(xiàn)出了優(yōu)秀的區(qū)分能力[7-10]。但這些研究對于飲酒、運動量、家族史等危險因素均是以分類變量的形式作為模型進行輸入。而此類信息在現(xiàn)實電子病歷系統(tǒng)中通常是以自由文本的形式保存,且由于內容復雜,難以直接轉換為分類變量。通過模型直接利用這些文本信息更符合現(xiàn)實場景的需求。深度學習作為機器學習的一個分支,近年來飛速發(fā)展,在文本、圖像、語音等非結構化數據的處理上有著出色的表現(xiàn)[11-12]。Transformer 是目前自然語言處理領域的主流架構[13]。本文利用體檢數據中的結構化和非結構化文本數據在Transformer 架構的基礎上構建多模態(tài)糖尿病預測模型,并與其他僅能使用結構化數據的模型進行對比?,F(xiàn)報道如下。
數據來源為杭州市每天健康體檢與健康管理服務平臺的多家醫(yī)院健康體檢數據。這項研究獲得了浙江大學公共衛(wèi)生學院醫(yī)學倫理委員會的倫理審批(倫理審查編號ZGL202107-4)。所有患者信息均已完成去標識化處理。我們納入2011 年至2020 年有進行過葡萄糖耐量試驗的體檢記錄,排除了病史中帶糖尿病描述的記錄,最終納入6 家醫(yī)院的共17 976 份體檢記錄。我們選擇其中一家醫(yī)院構成數據集Ⅱ,作為外部驗證集,剩余5 家醫(yī)院共同構成數據集Ⅰ,用作模型的訓練和內部驗證。
我們依據糖尿病診斷標準將數據分為兩類(0 為未患病,1 為患?。?,診斷依據包括:空腹血糖≥7.0 mmol/L、葡萄糖耐量試驗中餐后2 小時血糖≥11.1 mmol/L 或糖化血紅蛋白≥6.5%。
我們采用空腹血糖和既往糖尿病預測模型常用的危險因素來搭建模型,包括性別、年齡、體重指數、甘油三酯、收縮壓、舒張壓、腰圍、體重、家族史、病史、煙酒史。其中家族史、病史和煙酒史為文本數據。
我們參照FT-Transformer 的方法對數值型和分類型變量進行嵌入處理[14],轉換為d 維向量表示。對于文本變量,我們采用中文預訓練的BERT 模型進行語義提取[15],再通過一層全連接層轉變?yōu)閐 維向量,同嵌入處理后的其他變量拼接后輸入Transformer 模型進行分類預測。Transformer 模型采用2 層編碼器結構。得益于Transformer 在多個領域的通用性,該模型可擴展其他類型的數據,我們將其命名為可拓展的糖尿病預測模型(extensible diabetes prediction model, EDPM)。
本文采用既往研究中表現(xiàn)較好的MLP、邏輯回歸、隨機森林、支持向量機和XGBoost 進行對比[16-17]。所有模型均在數據集Ⅰ上進行10 折交叉驗證,并在數據集Ⅱ上進行外部驗證。由于類別存在明顯的不平衡,我們采用準確率、F1 分數、受試者工作特征曲線下面積(AUC)來評估模型性能。
各模型在內外部驗證集上的表現(xiàn)如表1 所示。只采用結構化數據的情況下,傳統(tǒng)機器學習模型的表現(xiàn)最優(yōu),多數AUC 均達到0.94。引入本文數據后,EDPM 的表現(xiàn)相較無文本有了明顯提升,在外部驗證集上的AUC(0.93)超過了其他所有模型,但在內部驗證集上的表現(xiàn)僅與最佳的機器學習模型相當(AUC=0.94)。
表1 各模型在驗證集上的表現(xiàn)
實驗結果表明,在只采用結構化數據的情況下,傳統(tǒng)機器學習算法依舊是當下最優(yōu)的選擇。深度學習算法在結構化數據上的表現(xiàn)要略差于傳統(tǒng)機器學習模型??赡苁怯捎诒砀駭祿膬热菀呀浭墙涍^人為篩選得出的,等同于已經經過了一次特征工程,所以不像圖像和文本數據那樣擁有豐富的特征供模型學習,而且實驗特征數量較少,使得深度學習無法發(fā)揮其在高維復雜數據上的強大學習能力。
加入文本后,EDPM 的AUC 有了明顯的提升。可見EDPM 是能夠從文本數據中學習到與糖尿病相關的信息的。飲酒、體力活動少、紅肉攝入量高等作為糖尿病的重要風險因素[18],由于種類復雜,難以形成較為簡單統(tǒng)一的記錄方式。自由文本可攜帶的信息更豐富,對于醫(yī)護人員臨床工作的開展也更友好,是當下對此類信息最好的記錄方式。EDPM 可以在不改變臨床醫(yī)護人員工作習慣的條件下,提高對糖尿病患者預測的準確性。EDPM 還具有傳統(tǒng)機器學習所不具備的拓展能力,只要在模型輸入端加上特征提取模塊,就可以實現(xiàn)不同類型數據的多模態(tài)融合。此外,臨床上還有許多文本類型的數據,如主訴、檢查報告等。這些都有望成為輔助決策的參考因素,進一步提高預測的準確性。
當然,我們的研究也有一定的局限性。由于進行葡萄糖耐量試驗的人群大部分是糖尿病高風險人群,導致我們的數據中糖尿病患者比例要遠高于正常人群,分布情況和實際篩查情況相差較大,可能對模型的表現(xiàn)造成一定的影響。盡管深度學習模型可以產生準確的預測,但其可解釋性差,常被視為黑盒模型。臨床醫(yī)生通常會因為推理過程不明確而不愿意接受機器建議[19]。這是未來深度學習需要改善的一個痛點。