呂航+杜漸+劉媛+王昊
摘要:目的 探討多層感知器(MLP)模型在中醫(yī)人格、體質(zhì)預測糖尿病性冠心病患病風險中的預測效能,為該病客觀化預測提供新方法。方法 采用單因素Logistic回歸進行變量篩選,篩選有統(tǒng)計學意義的中醫(yī)人格、體質(zhì)類型指標,作為MLP及多因素Logistic回歸的分析變量,以構(gòu)建中醫(yī)人格、體質(zhì)對糖尿病性冠心病患病風險的預測模型。采用受試者工作特征曲線(ROC曲線)比較2種模型的預測效能。結(jié)果 MLP預測模型的靈敏度OR95%CI=0.915(0.862,0.968)、特異度OR95%CI=0.846(0.793,0.912)、AUC OR95%CI=0.913(0.806,0.987),均優(yōu)于Logistic回歸預測模型[靈敏度OR95%CI=0.834(0.695,0.953)、特異度OR95%CI=0.762(0.623,0.901)、AUC OR95%CI=0.869(0.730,0.941)]。結(jié)論 在中醫(yī)人格、體質(zhì)對糖尿病性冠心病患病風險的客觀化預測中,MLP模型較Logistic回歸模型具有更好的預測效能。
關(guān)鍵詞:糖尿病性冠心?。恢嗅t(yī)人格;中醫(yī)體質(zhì);多層感知器模型;人工神經(jīng)網(wǎng)絡;預測模型
DOI:10.3969/j.issn.1005-5304.2017.12.022
中圖分類號:R2-05;R259.871 文獻標識碼:A 文章編號:1005-5304(2017)12-0088-04
Study on Application of Multilayer Perceptron Model in Prediction of the Risk of Diabetes Mellitus Complicated with Coronary Heart Disease by TCM Personality and Constitutions LV Hang1, DU Jian2, LIU Yuan3, WANG Hao2 (1. Nanjing University of Chinese Medicine, Nanjing 210023, China; 2. China Academy of Chinese Medical Sciences, Beijing 100700, China; 3. Jiangsu Provice Hospital on Integration of Chinese and Western Medicine, Nanjing 210028, China)
Abstract: Objective To explore the prediction efficiency of multilayer perception (MLP) model in prediction of diabetes mellitus (DM) complicated with coronary heart disease (CHD) by TCM personality and constitutions; To provide a new method for objective prediction. Methods This research utilized single factor logistic regression to filter out variables, which were significant factors of TCM personality and constitutions as analytic variables for MLP and multivariate logistic regression to establish TCM prediction model of personality and constitutions for DM complicated with CHD. The prediction efficiency of the above models were tested by receiver operating characteristic curve (ROC curve). Results The sensitivity, specificity and AUC of MLP were 0.915 (0.862, 0.968), 0.846 (0.793, 0.912) and 0.913 (0.806, 0.987) respectively, which was better than the logistic regression, while these indexes of logistic regression were 0.834 (0.695, 0.953), 0.762 (0.623, 0.901), and 0.869 (0.730, 0.941) respectively. Conclusion The MLP model is better than logistic regression model in prediction of DM complicated with CHD by TCM personality and constitutions.
Key words: diabetes mellitus complicated with coronary heart disease; TCM personality; TCM constitutions; multilayer perception model; artificial neural network; prediction model
基金項目:國家自然科學基金青年基金(81403501);北京市自然科學基金面上項目(7172249);北京市自然科學基金預探索項目(7163236);北京中醫(yī)藥科技發(fā)展資金項目(JJ2015-50);中國中醫(yī)科學院中醫(yī)藥“一帶一路”合作專項(ZZ-10-018-04)endprint
通訊作者:王昊,E-mail:wanghao.gomes@163.com
《靈樞·通天》及《靈樞·陰陽二十五人》以陰陽五行學說為基礎,將中醫(yī)人格的內(nèi)涵界定為包括個體內(nèi)外傾向、情緒體驗急緩、認知速度快慢、意志強弱等心理特征及行動急緩、動作隱顯、表現(xiàn)形式等行為表現(xiàn)。中醫(yī)人格、體質(zhì)為個體心身特征的具體表現(xiàn),其與疾病的發(fā)生、發(fā)展及轉(zhuǎn)歸密切相關(guān)[1],故可通過辨識人格、體質(zhì)類型預測疾病的患病風險。但兩者間常表現(xiàn)為復雜的非線性映射關(guān)系,且多具有錯雜性。因此,要實現(xiàn)中醫(yī)人格、體質(zhì)對疾病的預測,應用的建模方法應能實現(xiàn)對多變量間錯雜相互作用的非線性分析。糖尿病合并冠心病是具有高危害性的心身疾病,情志及體質(zhì)等因素均為其病因[2],因而探討中醫(yī)人格、體質(zhì)對該病的預測作用具有重要意義。
多層感知器(MLP)屬多層前饋式人工神經(jīng)網(wǎng)絡,具有高度的非線性全局作用、良好的容錯性及強大的網(wǎng)絡自身學習能力,已被證實在糖尿病等慢病病因預測中相較傳統(tǒng)線性模型具有方法學優(yōu)勢[3-4],但MLP模型是否同樣適用于中醫(yī)人格、體質(zhì)對慢病風險的預測分析卻鮮有報道。本研究探討MLP模型在中醫(yī)人格、體質(zhì)預測糖尿病性冠心病風險評估中的預測效能,并與Logistic回歸模型的預測結(jié)果比較,為中醫(yī)人格、體質(zhì)對慢病的客觀化預測提供新方法。
1 資料與方法
1.1 數(shù)據(jù)來源
選取2016年2月-2017年2月江蘇省中西醫(yī)結(jié)合醫(yī)院內(nèi)分泌代謝病院區(qū)收治的2型糖尿病患者135例。其中男61例,女74例,平均年齡(54.7±12.1)歲,平均病程(7.3±5.4)年,合并冠心病109例,單純2型糖尿病26例。
1.2 納入與排除標準
納入標準:2型糖尿病診斷標準參照《糖尿病中醫(yī)防治指南》[5];冠心病診斷標準參照《實用內(nèi)科學》[2];五態(tài)人格測驗中掩飾(L)量表評分≥5;簽署知情同意書。排除標準:臨床資料不全;患有嚴重精神及神經(jīng)疾病或認知功能障礙患者;合并其他并發(fā)癥患者;糖尿病急性并發(fā)癥者;其他非糖尿病相關(guān)性心臟病患者;伴發(fā)其他疾病者。
1.3 數(shù)據(jù)采集
臨床資料通過回顧性電子病歷獲取,全部患者均已進行詳細病史采集、常規(guī)血生化檢查、心臟超聲檢查、冠狀動脈造影(CAG)等。CAG采用Judkins法,經(jīng)2位心血管介入專業(yè)醫(yī)師共同診斷。
1.4 數(shù)據(jù)規(guī)范
中醫(yī)人格、體質(zhì)類型辨識按薛崇成、楊秋莉編制的自陳量表進行。其中“五態(tài)人格測驗”將人格分為太陽、少陽、陰陽和平、少陰、太陰[6];“五五體質(zhì)檢測”將體質(zhì)分為平人質(zhì)、陽熱質(zhì)、陰寒質(zhì)、陽虛質(zhì)、陰虛質(zhì)、偏濕質(zhì)、多痰質(zhì)、偏風質(zhì)、偏燥質(zhì)、氣虛質(zhì)、血虛質(zhì)、氣滯質(zhì)和血瘀質(zhì)13種類別[1]。
1.5 數(shù)據(jù)分析
1.5.1 單因素Logistic回歸模型篩選變量 將五態(tài)人格變量及五五體質(zhì)變量按江蘇地區(qū)常模進行轉(zhuǎn)換和賦值,見表1。通過單因素Logistic回歸,篩選出有統(tǒng)計學意義的人格、體質(zhì)類型指標作為MLP及多因素Logistic回歸的分析變量。
1.5.2 多層感知器神經(jīng)網(wǎng)絡模型 ①數(shù)據(jù)預處理。采用隨機數(shù)字生成器設置隨機數(shù)種子,并對數(shù)據(jù)進行歸一化處理,使處理后的輸入、輸出變量均為在(-1,1)區(qū)間的實數(shù)。將單因素Logistic回歸篩選出的分析變量作為輸入層向量,實現(xiàn)對冗余數(shù)據(jù)的清洗。②訓練集及檢驗集的設置。使用分區(qū)變量將135例樣本分配至訓練集(106例)及檢驗集(29例),前者用于建立預測模型,后者用于模型的檢驗及評估。
采用SPSS19.0實現(xiàn)MLP模型的網(wǎng)絡構(gòu)建及檢驗。建立包含輸入層、隱藏層及輸出層3層網(wǎng)絡結(jié)構(gòu)的MLP模型。其中隱藏層及輸出層的激活函數(shù)分別為雙曲正切及Softmax。
對建立的MLP模型的驗證采用五折交叉驗證法,即對檢驗集樣本進行交叉驗證,并選取均方誤差最小的模型為最優(yōu)預測模型。
1.5.3 多因素Logistic回歸模型 以單因素Logistic回歸篩選出的對冠心病可能具有易感性的中醫(yī)人格、體質(zhì)變量作為輸入自變量,采用向前Wald法進行逐步回歸分析,建立糖尿病性冠心病患病風險的多因素非條件Logistic回歸預測模型。
1.5.4 模型比較 通過檢驗集樣本進行預測效果評估并繪制ROC曲線,比較MLP模型及Logistic回歸模型的預測效能。
2 結(jié)果
2.1 單因素Logistic回歸分析
采用向前Wald法,從18項中醫(yī)人格、體質(zhì)因素中篩選出10項可能對糖尿病性冠心病具有易患性的因素,差異有統(tǒng)計學意義,見表2。
2.2 多層感知器預測模型
將單因素Logistic回歸篩選出的少陰、陰寒質(zhì)、陽虛質(zhì)、偏濕質(zhì)、多痰質(zhì)、偏燥質(zhì)、氣虛質(zhì)、血虛質(zhì)、氣滯質(zhì)、血瘀質(zhì)10個因素作為輸入向量,以是否合并冠心病為輸出層向量建立的MLP模型中,輸入層包含10個輸入神經(jīng)元、隱藏層數(shù)為1,包含6個神經(jīng)元、輸出層包含1個神經(jīng)元;模型采用由隨機初始點出發(fā)的調(diào)整的共軛梯度算法進行訓練,參數(shù)的初始值取[-0.5,0.5]區(qū)間均勻分布的隨機數(shù),培訓錯誤的最小相對變化為0.000 1,培訓錯誤率的最小相對變化為0.001;錯誤函數(shù)為交叉熵錯誤,中止使用的規(guī)則為已超過的最大時程數(shù)(100)。4個最重要的可用于預測糖尿病性冠心病患病風險的影響因素依次為陰寒質(zhì)、偏燥質(zhì)、血瘀質(zhì)及少陰人格,見圖1。
2.3 多因素Logistic 回歸預測模型
將單因素Logistic回歸篩選出的10個因素為自變量,以α=0.05為入選變量標準,α=0.1為剔除變量標準,采用向前Wald法進行逐步回歸分析,最終篩選出4個影響因素建構(gòu)了多因素非條件Logistic回歸模型,見表3。endprint
2.4 模型預測效能比較
將檢驗集樣本分別代入MLP模型及多因素Logistic回歸模型,繪制ROC曲線,比較2種模型的預測效能。MLP預測模型的靈敏度、特異度及AUC均優(yōu)于Logistic回歸預測模型。見表4、圖2。
3 討論
本研究表明,MLP網(wǎng)絡模型在中醫(yī)人格、體質(zhì)對糖尿病性冠心病患病風險預測中有較好的預測效能,根據(jù)檢驗樣本,建立模型預測的靈敏度、特異度、AUC均優(yōu)于Logistic回歸模型的相應指標。MLP模型適用于對多變量間錯雜相互作用的非線性分析,并對數(shù)據(jù)分布形態(tài)沒有嚴苛要求,較Logistic回歸模型具有方法學優(yōu)勢,由此在疾病預測中表現(xiàn)出更好的預測效能,這與近年研究結(jié)論一致[7-8]。
MLP模型揭示出對糖尿病性冠心病具有易患性的4種最重要的中醫(yī)人格、體質(zhì)類型依次為陰寒質(zhì)、偏燥質(zhì)、血瘀質(zhì)及少陰人格,與多因素Logistic回歸分析結(jié)果相一致,并符合中醫(yī)學對該病病因及病機的認識。中醫(yī)學認為該病病因多與寒邪內(nèi)侵、情志失節(jié)等因素有關(guān),其病機可概括為“陽微陰弦”,即胸陽不振、寒凝血瘀、痹阻心脈;燥熱偏盛體現(xiàn)了消渴癥對病患體質(zhì)的影響;少陰者多情志不暢,其典型人格特征為心有深思不外露、多疑郁怒。故少陰者易因肝氣郁結(jié)、傷脾生痰、痹阻心脈而提升合并冠心病的風險。此外,MLP模型揭示出10種易患人格、體質(zhì)類型,也體現(xiàn)了該病以氣血陰陽虧虛為本,以氣滯、痰濁、寒凝、血瘀為標的特點[5]。對比2種模型揭示出的易患人格、體質(zhì)因素,可發(fā)現(xiàn)MLP模型提供的信息更豐富。
傳統(tǒng)線性模型難于實現(xiàn)對多變量間復雜相互作用的非線性映射,因此相關(guān)研究偏于探討中醫(yī)人格、體質(zhì)與疾病的相關(guān)性[9-10],而較少進行預測分析。MLP模型因具有較強的解決多變量間共線性效應及交互作用的能力,可以為中醫(yī)人格、體質(zhì)對疾病的客觀化預測提供新的方法。目前,已有研究偏于探討MLP模型在慢病病因?qū)W預測中的應用[11],但尚未涉及中醫(yī)人格、體質(zhì)對疾病的預測分析,本研究有助于拓展MLP模型的應用范圍。
本研究所采用的方法存在一定局限性,如輸入變量過多會導致網(wǎng)絡訓練時間延長,甚至出現(xiàn)“過擬合”現(xiàn)象,因此需要采用Logistic回歸等其他模型對變量進行篩選;此外,模型的預測效能隨網(wǎng)絡參數(shù)、激活函數(shù)、初始值及隱層神經(jīng)元節(jié)點數(shù)的不同設置而異,但上述設置的主觀經(jīng)驗性較強,而缺少相應的理論依據(jù)。因此,為獲得穩(wěn)定的預測效能,應綜合運用多種數(shù)據(jù)挖掘技術(shù),并對MLP神經(jīng)網(wǎng)絡模型的參數(shù)設置、隱層神經(jīng)元節(jié)點數(shù)的選擇等問題開展后續(xù)研究。
參考文獻:
[1] 王昊,王克勤,薛崇成,等.中醫(yī)人格體質(zhì)論的內(nèi)涵探析[J].中醫(yī)雜志, 2013,54(7):551-554.
[2] 陳灝珠,林果為.實用內(nèi)科學[M].13版.北京:人民衛(wèi)生出版社,2010:1043-1044.
[3] 曹文君,徐勇勇,譚志軍,等.基于人工神經(jīng)網(wǎng)絡模型的多個慢性病主要危險因素篩查研究[J].中國全科醫(yī)學,2015,18(25):3050-3053, 3058.
[4] 馬夢羽,沈璐,文天才,等.數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應用[J].中國中醫(yī)藥信息雜志,2016,23(7):132-136.
[5] 中華中醫(yī)藥學會.糖尿病中醫(yī)防治指南[M].北京:中國中醫(yī)藥出版社, 2007:7,47.
[6] 薛崇成,楊秋莉.五態(tài)人格測驗量表與艾森克人格問卷的對比探討[J].中華中西醫(yī)臨床研究,2003,1(7):3-11.
[7] 郭奕瑞,李玉倩,王高帥,等.人工神經(jīng)網(wǎng)絡模型在2型糖尿病患病風險預測中的應用[J].鄭州大學學報:醫(yī)學版,2014,49(2):180-183.
[8] VOSS R, CULLEN P, SCHULTE H, et al. Prediction of risk of coronary events in middle-aged men in the Prospective Cardiovascular Münster Study (PROCAM) using neural networks [J]. Int J Epidemiol, 2002,31(6):1253-1262.
[9] 田錦鷹,魏東,馬祖,等.糖尿病發(fā)病與中醫(yī)體質(zhì)的相關(guān)性研究[J].中國中醫(yī)急癥,2013,22(10):1693-1694.
[10] 郜紅.從體質(zhì)因素探討糖尿病的中醫(yī)防治[J].江蘇中醫(yī)藥,2009, 41(8):63-64.
[11] 魏戎,謝雁鳴,田峰,等.病證結(jié)合構(gòu)建慢病風險預測模型的思路與方法[J].中國中醫(yī)基礎醫(yī)學雜志,2017,23(2):180-183.
(收稿日期:2017-06-25)
(修回日期:2017-07-24;編輯:向宇雁)endprint