劉迷迷,蔡永銘
?
基于多層感知神經(jīng)網(wǎng)絡的糖尿病并發(fā)癥預測研究
劉迷迷1,蔡永銘2,3*
(1. 廣東藥科大學 公共衛(wèi)生學院,廣東 廣州 510006;2. 廣東藥科大學 醫(yī)藥信息工程學院,廣東 廣州 510006; 3. 廣東省中醫(yī)藥精準醫(yī)學大數(shù)據(jù)工程技術研究中心,廣東 廣州 510006)
糖尿病并發(fā)癥患者的死亡率高于僅患糖尿病患者的死亡率,預測糖尿病并發(fā)癥有重要意義,以輔助臨床早發(fā)現(xiàn)和早治療糖尿病并發(fā)癥,降低糖尿病患者死于并發(fā)癥的風險。本研究目的是根據(jù)糖尿病患者的尿常規(guī)檢查、生化檢查和糖化檢查信息,構建預測糖尿病并發(fā)癥的多層感知神經(jīng)網(wǎng)絡(Multilayer Perceptron,MLP)模型,并篩選對糖尿病并發(fā)癥預測影響較大的指標,以期提高糖尿病并發(fā)癥的診斷篩查。依據(jù)《實用內科學》中關于糖尿病及其并發(fā)癥的診斷術語規(guī)范診斷結果的糖尿病并發(fā)癥種類。分別以尿常規(guī)檢查、生化檢查和糖化檢查的各項指標為自變量,以糖尿病并發(fā)癥種類為因變量,應用MLP算法建立糖尿病并發(fā)癥預測模型,并以Boosting方法提高MLP模型預測準確率,同時與統(tǒng)計模型Logistic回歸對比分析。MLP模型篩選出對糖尿病并發(fā)癥預測影響較大的4項尿常規(guī)和6項生化檢查指標,其中影響最大的是患者的年齡。尿常規(guī)檢查和生化檢查的MLP模型準確率較高,分別為87.56%、67.94%,且收益圖曲線上凸明顯,接近理想曲線。糖化信息的MLP模型準確率低僅39.31%,收益圖曲線呈鋸齒狀上升,遠離理想曲線。Logistic回歸模型的準確率都較低,收益圖曲線均遠離理想曲線?;谔悄虿』颊叩哪虺R?guī)檢查、生化檢查和糖化檢查等信息,構建的尿常規(guī)檢查和生化檢查的MLP模型預測效果較好,并篩選出對糖尿病并發(fā)癥預測影響較大指標,結果可用于輔助臨床醫(yī)生優(yōu)化診斷和治療糖尿病并發(fā)癥。MLP模型比Logistic回歸模型準確率更高、收益更好,更適用于糖尿病并發(fā)癥的預測。
糖尿病;并發(fā)癥;多層感知神經(jīng)網(wǎng)絡;MLP;Logistic回歸
糖尿病是目前影響全球人類健康的最重要的慢性非傳染性疾病之一,據(jù)國際糖尿病聯(lián)盟(IDF)統(tǒng)計,2014年全球糖尿病患者人數(shù)達3.87億,預計到2035年全球糖尿病患者人數(shù)將增長55%,接近6億[1]。糖尿病病程長,是目前醫(yī)學界公認并發(fā)癥最多的疾病,不僅給患者自身肉體和精神帶來傷害,使患者壽命縮短,還給患者家庭、社會和國家?guī)沓林氐慕?jīng)濟負擔。許多研究發(fā)現(xiàn),糖尿病并發(fā)癥患者的死亡率明顯比只患糖尿病患者的死亡率高[2]。因此,對于糖尿病并發(fā)癥的預測研究具有重要意義,以實現(xiàn)并發(fā)癥的早預防、早發(fā)現(xiàn)和早治療,協(xié)助臨床醫(yī)生優(yōu)化診斷和治療,從而降低糖尿病并發(fā)癥的死亡率。本研究擬根據(jù)糖尿病患者的尿常規(guī)檢查、生化檢查和糖化檢查等信息預測糖尿病并發(fā)癥,構建糖尿病并發(fā)癥的多層感知神經(jīng)網(wǎng)絡(Multilayer Perceptron,MLP)模型。MLP是一種模式分類的神經(jīng)網(wǎng)絡模型,與單層感知神經(jīng)網(wǎng)絡相比,MLP可解決復雜線性不可分的多分類問題,適用于醫(yī)療數(shù)據(jù)分析,例如,在肝硬化、高血壓等疾病的預測研究中效果甚好[3-5]。同時本研究利用MLP計算各檢查指標對預測糖尿病并發(fā)癥的重要性,篩選出對糖尿病并發(fā)癥預測影響較大的指標,在一定程度上輔助臨床決策。對比MLP和傳統(tǒng)Logistic回歸兩種模型對糖尿病并發(fā)癥的預測效果。
本研究資料來自于國家臨床醫(yī)學科學數(shù)據(jù)中心提供的《糖尿病數(shù)據(jù)集》,利用其中的尿常規(guī)信息表、生化信息表和糖化信息表。共有399例糖尿病患者的尿常規(guī)檢查資料,499例糖尿病患者的生化檢查資料和443例糖尿病患者的糖化檢查資料,三個信息表包含患者性別、年齡和各檢查對應的眾多指標。
對尿常規(guī)檢查、生化檢查和糖化檢查的各項指標進行數(shù)據(jù)清洗、預處理和糾正非法值:刪除主題詞、申請序號、就診時間等無關或全部為空值的列數(shù)據(jù);分類型檢查指標規(guī)范類標號;刪除糖尿病并發(fā)癥診斷結果為空值或“待查”的患者數(shù)據(jù);刪除檢查指標值為非法值的患者數(shù)據(jù);糖尿病并發(fā)癥診斷若有多種結果,為了充分揭示原始數(shù)據(jù)信息,復制該例患者數(shù)據(jù),確保每例患者數(shù)據(jù)只有一種診斷結果。經(jīng)上述預處理后,402例糖尿病患者尿常規(guī)檢查的各項指標定義及賦值見表1,524例糖尿病患者生化檢查的各項指標定義及賦值見表2,496例糖尿病患者糖化檢測的各項指標定義及賦值見表3。依據(jù)《實用內科學》中關于糖尿病及其并發(fā)癥的診斷術語對尿常規(guī)檢查、生化檢查和糖化檢查的診斷結果進行規(guī)范,本研究不區(qū)分1型和2型糖尿病,規(guī)范為糖尿病,規(guī)范后尿常規(guī)檢查、生化檢查和糖化檢查的診斷結果分別有14種、17種和 14種。
本研究應用MLP算法,對患者尿常規(guī)檢查、生化檢查和糖化檢查數(shù)據(jù)分別構建糖尿病并發(fā)癥預測模型。因為尿常規(guī)檢查、生化檢查和糖化檢查的診斷結果種類較多,且各類樣本量較少,創(chuàng)建標準的MLP模型預測準確率很低,分別為18.91%、18.70%和33.27%,所以本研究采用Boosting方法創(chuàng)建整體模型,由其生成多個模型序列以提高神經(jīng)網(wǎng)絡模型預測準確率[6]。Boosting方法創(chuàng)建多個模型,用加權投票方式整合多個模型的預測,對樣本進行整體地分類預測。防止模型過度擬合,在內部將樣本劃分為模型構建樣本集和防止過度擬合樣本集,后者作為獨立的樣本集,用于跟蹤訓練過程中的錯誤,以防止MLP對數(shù)據(jù)中的幾率變異進行建模,本研究指定30%的樣本為防止過度擬合樣本集。插補缺失值,并計算各項指標對預測糖尿病并發(fā)癥種類的重要性。按以上參數(shù)設置對MLP模型進行訓練。
表1 尿常規(guī)檢查的各項指標定義及賦值
Tab.1 Definition and assignment of indicators of urinalyses
表2 生化檢查的各項指標定義及賦值
Tab.2 Definition and assignment of indicators of biochemical examination
表3 糖化檢查的各項指標定義及賦值
Tab.3 Definition and assignment of indicators of saccharification examination
根據(jù)糖尿病并發(fā)癥種類隨機分配樣本70%訓練集和30%測試集,分別用于訓練和測試Logistic回歸模型。因為患者尿常規(guī)檢查、生化檢查和糖化檢查診斷結果有多個種類,所以建立多項式Logistic回歸模型,并用逐步法分步構建方程,保證模型納入的是對糖尿病并發(fā)癥預測重要的指標。指定糖尿病性肺部疾病為建模的參考種類,其他參數(shù)為默認值,按以上參數(shù)設置對Logistic回歸模型進行訓練。最后,以分類準確率和收益圖評價模型的預測效果。本研究構建和評價上述兩類模型均在IBM SPSS Modeler 18.1軟件中實現(xiàn)。
按照《實用內科學》中糖尿病及其并發(fā)癥的診斷術語對糖尿病患者尿常規(guī)檢查、生化檢查和糖化檢查的診斷結果規(guī)范后,統(tǒng)計三類檢查診斷結果的糖尿病并發(fā)癥分布,見表4。糖尿病患者中,除未患并發(fā)癥的患者外,糖尿病合并心臟病的患者比例最高,其次是糖尿病性腎病、肝膽疾病和高血壓等。
表4 糖尿病并發(fā)癥的統(tǒng)計分布
Tab.4 Statistical distribution of diabetic complications
MLP計算各項檢查指標對預測糖尿病并發(fā)癥種類的重要性,按重要性降序排列,前10個指標及其重要性見表5。每個MLP模型的指標重要性之和為1.0,尿常規(guī)檢查中年齡、尿蛋白、性別和尿比重是尿常規(guī)檢查中對糖尿病并發(fā)癥預測影響最大的4項指標。生化檢查中對糖尿病并發(fā)癥預測影響較大的指標有年齡、肌酐、血清白蛋白、性別、直接膽紅素和總膽紅素,但各指標的重要性區(qū)分度不大。糖化檢查的MLP模型預測效果不佳,由該模型計算的指標重要性的參考價值可能不大??偟膩砜矗挲g是對糖尿病并發(fā)癥預測影響最大的指標。
表5 預測糖尿病并發(fā)癥的重要指標
Tab.5 Important indicators for predictions of diabetic complications
本研究用分類準確率,即正確分類的樣本例數(shù)占總的樣本例數(shù)的百分比,以及收益圖評價模型的分類效果,其中收益圖以各模型預測糖尿病性肺部疾病的收益圖為例。尿常規(guī)檢查、生化檢查和糖化檢查的MLP模型準確率分別為87.56%、67.94%和39.31%,各MLP模型預測糖尿病性肺部疾病的收益圖見圖1(曲折上升的曲線即收益圖曲線)。尿常規(guī)檢查的MLP模型有很高的準確率,并且收益圖曲線上凸明顯,迅速上升達到100%收益后平穩(wěn),十分接近理想曲線,模型預測效果好。生化檢查的MLP模型有較高的準確率,收益圖曲線部分呈鋸齒狀上升,比較接近理想曲線,模型預測效果較好。糖化檢查的MLP模型準確率低,收益圖曲線呈鋸齒狀上升,遠離理想曲線,模型預測效果不好。因此,尿常規(guī)檢查和生化檢查的MLP模型預測效果較好,可用于糖尿病并發(fā)癥的預測。
尿常規(guī)檢查、生化檢查和糖化檢查的Logistic回歸模型準確率分別為24.38%、23.85%和33.06%,各模型預測糖尿病性肺部疾病的收益圖見圖2(曲折上升的曲線即收益圖曲線)。各Logistic回歸模型準確率都很低,收益圖曲線呈鋸齒狀上升,遠離理想曲線,模型預測效果很差,不適用于糖尿病并發(fā)癥的預測。
圖1 MLP模型預測糖尿病性肺部疾病收益圖
圖2 Logistic回歸模型預測糖尿病性肺部疾病收益圖
本研究用MLP分別篩選出對糖尿病并發(fā)癥預測影響較大4項尿常規(guī)檢查和6項生化檢查指標,臨床醫(yī)生預測或診斷患者糖尿病并發(fā)癥時可重點考慮患者的這幾項指標,以便快速評估患者患某種糖尿病并發(fā)癥可能。年齡是尿常規(guī)檢查和生化檢查MLP模型最重要的指標,醫(yī)生和患者應重視年齡因素,以往的流行病學調查和回顧性分析的結果均發(fā)現(xiàn)年齡與糖尿病發(fā)病率密切相關[7,8]。評估糖尿病并發(fā)癥的獨立危險因素研究的結果顯示,隨著患者年齡的增長,糖尿病并發(fā)癥的發(fā)生風險會隨之增加[9]。
本研究采用MLP構建神經(jīng)網(wǎng)絡模型,可以處理較為復雜的關系,且預測能力好,適用于疾病預測研究。Boosting 方法產(chǎn)生一系列“成分模型”,其中每個模型在整個數(shù)據(jù)集上構建,在構建后續(xù)成分模型時考慮了前一成分模型的結果,逐步生成多個模型序列的整體模型,該整體模型采用組合規(guī)則對新樣本進行分類預測,提高了模型的準確率[10]。
MLP等神經(jīng)網(wǎng)絡模型是模擬人類大腦處理信息方式的簡化模型,通常包含輸入層、隱藏層和輸出層三個部分,不容易對模型進行解釋。傳統(tǒng)的統(tǒng)計模型更容易解釋因變量與自變量之間的關系,例如Logistic回歸模型,是一組用于在給定一組預測變量值的情況下推導出目標類別概率的回歸方程,可以用于估計新樣本屬于某個類別的概率。本研究糖尿病性肺部疾病被視為基準類別,Logistic回歸模型給出其他類別相對于基準類別的對數(shù)優(yōu)勢比,每個類別的預測概率根據(jù)這些對數(shù)優(yōu)勢比推導得出。但是傳統(tǒng)的統(tǒng)計模型處理自變量類型多樣、變量間關系復雜的問題時,效果很差,本研究使用Logistic回歸模型預測糖尿病并發(fā)癥的準確率和收益圖不如MLP模型[11-13]。綜上,本研究的目的是更準確地預測糖尿病并發(fā)癥種類,模型的可解釋性不是最重要的,因此建立MLP模型以獲得良好的預測。
目前已用于預測糖尿病并發(fā)癥的研究方法主要有Logistic回歸、COX回歸、支持向量機、分類與決策樹模型和神經(jīng)網(wǎng)絡模型,以及結合Logistic回歸等統(tǒng)計方法進行特征篩選再利用神經(jīng)網(wǎng)絡算法建立預測模型[14]。其中利用神經(jīng)網(wǎng)絡算法構建的糖尿病并發(fā)癥預測模型準確率較高,例如BP神經(jīng)網(wǎng)絡和學習向量量化神經(jīng)網(wǎng)絡[15-16]。但未見利用針對非線性復雜多分類問題的MLP算法預測糖尿病并發(fā)癥的研究,且以往的研究大多只對一種糖尿病并發(fā)癥進行預測,最多的也只有7種,本研究依據(jù)《實用內科學》中關于糖尿病及其并發(fā)癥的診斷術語,全面規(guī)范了糖尿病并發(fā)癥的種類,然后建立模型對更多種糖尿病并發(fā)癥同時預測。
本研究根據(jù)糖尿病患者的尿常規(guī)檢查、生化檢查和糖化檢查等信息構建糖尿病并發(fā)癥預測模型,其中尿常規(guī)檢查和生化檢查的MLP模型預測效果較好,可用于輔助臨床診斷糖尿病并發(fā)癥,進而改善患者生活質量,降低糖尿病并發(fā)癥死亡率。同時篩選出對糖尿病并發(fā)癥預測影響較大4項尿常規(guī)檢查和6項生化檢查指標,影響最大的是患者的年齡,醫(yī)生可重點考慮這幾項指標,在一定程度上輔助臨床決策,優(yōu)化診斷和治療糖尿病并發(fā)癥。與傳統(tǒng)的統(tǒng)計模型Logistic回歸對比,MLP模型對自變量類型多樣、變量間關系復雜的糖尿病并發(fā)癥預測有更高的準確率和更好的收益,更適用于預測糖尿病并發(fā)癥。
[1] International Diabetes Federation. IDF Diabetes Atlas Sixth editionposter update 2014[EB/OL]. http://www.Idf.Org/ diabetesatlas/update-2014. [2014-11-10].
[2] 王會奇, 何松明, 李東升. 2型糖尿病患者181例社區(qū)跟蹤十年并發(fā)癥和合并癥及治療情況變化分析[J]. 中國全科醫(yī)學, 2012, 15(12C) : 4212-4215.
[3] 韓玲. 基于人工神經(jīng)網(wǎng)絡——多層感知器(MLP)的遙感影像分類模型[J]. 測繪通報, 2004, (9): 29-30+42.
[4] Semra I, Sad?k K, Ays G. Comparison of multilayer perceptron training algorithms for portal venous doppler signals in the cirrhosis disease[J]. Expert Systems with Applications, 2006, (31): 406-413.
[5] Wang A, An N, et al. Predicting hypertension without measurement: A non-invasive, questionnaire-based approach[J]. Expert Systems with Applications, 2015, (42): 7601-7609.
[6] Schwenk H, Beng Y, et al. Boosting neural networks[J]. Neural Computation, 2000, 12( 8): 1869-1887.
[7] Chew B H, Ghazali S S, et al. Age≥60 years was aninde-pendent risk factor for diabetes-related complications despite goodcontrol of cardiovascular risk factors in patients with type 2 diabetesmellitus[J]. Exp Gerontol, 2013, 48(5): 485-491.
[8] Farshchi A, Esteghamati A, et al. The cost of diabeteschronic complications among Iranian people with type 2 diabete-smellitus[J]. J Diabetes Metab Disord, 2014, 13 (1): 42.
[9] 李偉芳, 李華, 董捷, 王鵬. 老年2型糖尿病慢性并發(fā)癥發(fā)病時間及危險因素分析[J]. 中國全科醫(yī)學, 2015, 18 (14): 1632 -1636.
[10] Zhou Z H, Wu J X, et al. Ensembling neural networks: Many could be better than all[J]. Artifical Intelligence, 2002, 137(1-2): 239-263.
[11] 馬莉雅. 基于決策樹、邏輯回歸和改進神經(jīng)網(wǎng)絡的幾種慢性病的危險因素分析研究(英文)[J]. 軟件, 2014, 35 (12): 58-65.
[12] Kurt I, Ture M, et al. Comparing performances of logistic regression, classification and regression tree, and neural networks for predicting coronary artery disease[J]. Expert Systems with Applications, 2008, 34(1): 366-374.
[13] 田興國, 陳江濤, 呂建秋. 基于數(shù)據(jù)挖掘的獸藥質量風險預測[J]. 現(xiàn)代食品科技, 2017, 33(11): 212-218.
[14] 李攀. 基于神經(jīng)網(wǎng)絡的2型糖尿病并發(fā)癥預測模型的研究[D]. 2016, 廣州中醫(yī)藥大學.
[15] 崔純純. 基于神經(jīng)網(wǎng)絡的糖尿病并發(fā)癥預測系統(tǒng)研究[D]. 2018, 北京交通大學.
[16] 李戈靳, 立忠. 基于學習向量量化網(wǎng)絡建立糖尿病并發(fā)癥預測模型[J]. 中國自然醫(yī)學雜志, 2006, 12(8): 254-258.
Predictions of Diabetic Complications Based on MLP
LIU Mi-mi1, CAI Yong-ming2,3*
(1. School of Public Health, Guangdong Pharmaceutical University , Guangzhou, 510006, China; 2. College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006, China; 3. Guangdong Chinese medicine big data engineering research center, Guangzhou 510006, China)
Objective The mortality of patients with diabetic complications is higher than that of patients with only diabetes, and it is of great significance to predict diabetic complications, so as to assist the early detection and early treatment of diabetic complications in clinical practice and reduce the risk of diabetes patients dying from complications. The aim of the present study was to according to the examinations information of diabetes patients, such as urinalyses, biochemical examination and saccharification examination, build multilayer perception neural networks (MLP) models for predicting the diabetic complications, and screen the important indicators for predictions of diabetic complications, to improve the diagnosis and screening of diabetic complications further. Methods The type of diabetic complications is standardized according to the diagnostic terminology of diabetes and its complications in. By the indicators of urinalyses, biochemical examination and saccharification examination as independent variables respectively, the type of diabetic complications as dependent variable, MLP algorithm was used to establish prediction models of diabetic complications, and Boosting method was applied to improve the predictive accuracy of MLP models. In addition, the MLP models were compared with the traditional statistical models (i.e., the Logistic regression models). Results The MLP models screened out four indicators of urinalyses and six indicators of biochemical examination that have great effects on prediction of diabetic complications, one of which most affected is age. The accuracy of the MLP model of urinalyses and biochemical examination was as high as 87.56% and 67.94% respectively, and in their gain charts, the practical curves were obviously convex close to the ideal curves. However, the accuracy of the saccharification information MLP model was only 39.31%, and in its gain chart the curve was jagged and away from the ideal curve. The Logistic regression models had low accuracy, and curves of those gain charts were away from the ideal curves. Conclusions The MLP models based on urinalyses and biochemical examination of diabetes patients have good prediction effects, and the examination indicators that have a great influence on the prediction of diabetic complications are screened out. These results can be used to assist clinicians in optimizing the diagnosis and treatment of diabetic complications. The MLP models have higher accuracy and better gains than the Logistic regression models, they are more suitable for the prediction of diabetic complications.
Diabetes mellitus; Complications; Multilayer perceptron; MLP; Logistic regression
TP311.5
A
10.3969/j.issn.1003-6970.2018.10.007
廣東省自然科學基金項目(項目編號:2014A030313585);2016年廣東省創(chuàng)新強校項目“廣東省高?;谠朴嬎愕木珳梳t(yī)學大數(shù)據(jù)工程技術研究中心”
劉迷迷(1993-),女,研究生,研究方向為健康信息數(shù)據(jù)挖掘。
蔡永銘(1975-),男,教授,研究方向為衛(wèi)生信息系統(tǒng)集成、醫(yī)學信息處理,中國計算機學會(CCF)會員(會員號:20517M)。
劉迷迷,蔡永銘. 基于多層感知神經(jīng)網(wǎng)絡的糖尿病并發(fā)癥預測研究[J]. 軟件,2018,39(10):30-35