曹文君,徐勇勇,譚志軍,王庸晉
?
·論著·
基于人工神經(jīng)網(wǎng)絡(luò)模型的多個(gè)慢性病主要危險(xiǎn)因素篩查研究
曹文君,徐勇勇,譚志軍,王庸晉
目的 探討基于人工神經(jīng)網(wǎng)絡(luò)(ANN)模型的多個(gè)慢性病主要危險(xiǎn)因素篩查。方法 選取2008年1月—2010年12月參加北京某健康管理中心體檢的年齡45歲及以上人群6 938例。采用逐步回歸和遺傳算法相結(jié)合的方法確定ANN輸入變量,嘗試構(gòu)建高血壓、糖尿病、冠心病及慢性病患者預(yù)測(cè)模型,并采用受試者工作特征(ROC)曲線評(píng)價(jià)預(yù)測(cè)模型的準(zhǔn)確性。結(jié)果 6 938例體檢人群中高血壓患者1 665例(24.0%),糖尿病患者609例(8.8%),冠心病患者443例(6.4%)。年齡、體質(zhì)指數(shù)、胸圍、腰臀比、總膽固醇、高密度脂蛋白膽固醇、尿酸、性別、尿糖、高血壓家族史、糖尿病家族史、心血管疾病家族史是慢性病患者的主要危險(xiǎn)因素,其中以年齡對(duì)慢性病患病的影響最大,作用效應(yīng)為25.3%。高血壓、糖尿病、冠心病及慢性病ANN預(yù)測(cè)模型ROC曲線下面積分別為0.80、0.87、0.81、0.78,預(yù)測(cè)高血壓、糖尿病、冠心病、患任一慢性病的準(zhǔn)確性分別為75.1%、91.2%、93.7%、75.2%。結(jié)論 利用ANN模型篩選出多個(gè)慢性病主要危險(xiǎn)因素,可為慢性病的有效預(yù)防提供科學(xué)依據(jù)。
人工神經(jīng)網(wǎng)絡(luò);慢性病;危險(xiǎn)因素
曹文君,徐勇勇,譚志軍,等.基于人工神經(jīng)網(wǎng)絡(luò)模型的多個(gè)慢性病主要危險(xiǎn)因素篩查研究[J].中國(guó)全科醫(yī)學(xué),2015,18(25)3050-3053,3058.[www.chinagp.net]
Cao WJ,Xu YY,Tan ZJ,et al.Identification of major risk factors for multiple chronic diseases based on artificial neural network[J].Chinese General Practice,2015,18(25):3050-3053,3058.
第四次國(guó)家衛(wèi)生服務(wù)總調(diào)查結(jié)果顯示,我國(guó)居民慢性病患病率高達(dá)20.0%,在過去10年中,平均每年新增慢性病病例1 000萬[1]。國(guó)家衛(wèi)生計(jì)生委2011年統(tǒng)計(jì),慢性病死亡率達(dá)85%以上,是主要疾病負(fù)擔(dān)[2]?!吨袊?guó)心血管病報(bào)告2011》顯示我國(guó)心血管疾病的發(fā)病率約17.7%,多發(fā)于45歲及以上中老年人群(約占95%),其中高血壓和糖尿病是心血管疾病的主要危險(xiǎn)因素[3]。大多研究探索的是單一疾病發(fā)生的風(fēng)險(xiǎn)因素[4-5],而同時(shí)關(guān)注多種疾病的研究較少。然而,生理指標(biāo)的異常通常同時(shí)與多種疾病相關(guān)。因此,篩選慢性病的共同危險(xiǎn)因素也很重要。多個(gè)危險(xiǎn)因素的聯(lián)合作用導(dǎo)致了疾病的發(fā)生,通過構(gòu)建慢性病預(yù)測(cè)模型有效識(shí)別高危人群,并進(jìn)行針對(duì)性干預(yù),不僅有助于疾病治療,而且同時(shí)可避免不必要的過度治療,提高醫(yī)療資源的利用率。另外,影響慢性病發(fā)生的危險(xiǎn)因素并不相互獨(dú)立,它們之間往往存在復(fù)雜的非線性關(guān)系。人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)可以更好地揭示這些變量間的關(guān)系,它通過計(jì)算機(jī)技術(shù)同時(shí)分析多個(gè)變量對(duì)結(jié)果變量的作用大小[6]。用神經(jīng)網(wǎng)絡(luò)進(jìn)行研究分兩個(gè)階段:訓(xùn)練階段和驗(yàn)證階段,其中訓(xùn)練階段的任務(wù)是通過輸入輸出數(shù)據(jù)來構(gòu)建關(guān)系函數(shù);而驗(yàn)證階段則是驗(yàn)證訓(xùn)練階段構(gòu)建的函數(shù),往往通過輸入一組已知輸出結(jié)果的數(shù)據(jù)作為輸入數(shù)據(jù)。為此,本研究基于ANN同時(shí)構(gòu)建高血壓、糖尿病、冠心病及慢性病(包括高血壓、糖尿病、心腦血管疾病)的預(yù)測(cè)模型,以便采取有效的干預(yù)措施。
1.1 研究對(duì)象 選取2008年1月—2010年12月參加北京某健康管理中心體檢的年齡45歲及以上人群6 938例,均知情同意且自愿參加本研究。
1.2 研究方法 冠心病患者需出具二級(jí)以上醫(yī)院診斷證明。糖尿病患者指符合WHO1999年糖尿病診斷標(biāo)準(zhǔn)[7],有糖尿病史,目前正在服用治療藥物者。高血壓患者指有高血壓史或篩查結(jié)果陽性,即收縮壓≥140 mm Hg(1 mm Hg=0.133 kPa)和/或舒張壓≥90 mm Hg。本研究共調(diào)查62項(xiàng)臨床、實(shí)驗(yàn)室等體檢指標(biāo),包括全血細(xì)胞分析、尿液常規(guī)分析、肝功能、血脂分析、腎功能等。為確定本研究中所使用的變量,分別對(duì)中、老年組各慢性病進(jìn)行單變量分析,剔除P>0.25的變量[8]。
1.3 統(tǒng)計(jì)學(xué)方法 采用逐步回歸和遺傳算法相結(jié)合的方法確定ANN輸入變量,嘗試構(gòu)建高血壓、糖尿病、冠心病及慢性病患者預(yù)測(cè)模型,并采用受試者工作特征(receiver operator characteristic,ROC)曲線評(píng)價(jià)預(yù)測(cè)模型的準(zhǔn)確性。本研究嘗試構(gòu)建3種不同算法的神經(jīng)網(wǎng)絡(luò)模型:包含一個(gè)隱藏層的多層神經(jīng)網(wǎng)絡(luò)(multi-layer perceptron,MLP)、概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network,PNN)和徑向基函數(shù)網(wǎng)絡(luò)(radial basis function,RBF)[6]。在評(píng)價(jià)預(yù)測(cè)模型準(zhǔn)確性時(shí),利用伯努利函數(shù)隨機(jī)選擇約70%的樣本作為訓(xùn)練集,約30%作為驗(yàn)證集,為避免過度擬合,從訓(xùn)練集中再次抽取約20%作為測(cè)試集。最終得到訓(xùn)練樣本3 925例(占樣本總量的56.6%)、測(cè)試樣本948例(占樣本總量的13.7%)和驗(yàn)證樣本2 065例(占樣本總量的29.8%)。
2.1 體檢人群患慢性病情況 6 938例體檢人群中高血壓患者1 665例(24.0%),糖尿病患者609例(8.8%),冠心病患者443例(6.4%)。其中45~59歲5 711例,包括高血壓患者1 139例(19.9%),糖尿病患者417例(7.3%),冠心病患者223例(3.9%);60歲及以上1 227例,包括高血壓患者526例(42.9%),糖尿病患者192例(15.6%),冠心病患者220例(17.9%),其他疾病患病率均低于5%。
2.2 篩選慢性病主要危險(xiǎn)因素 表1中列出了以高血壓、糖尿病、冠心病和慢性病為輸出變量時(shí),由逐步回歸和遺傳算法相結(jié)合的方法確定的ANN輸入變量。與高血壓相關(guān)的危險(xiǎn)因素有:年齡、體質(zhì)指數(shù)、胸圍、腰臀比、空腹血糖、三酰甘油、總膽固醇、低密度脂蛋白膽固醇、白細(xì)胞計(jì)數(shù)、γ-谷氨酰轉(zhuǎn)移酶、高血壓家族史;與糖尿病相關(guān)的危險(xiǎn)因素有:年齡、體脂肪率、腰臀比、收縮壓、高密度脂蛋白膽固醇、膽固醇/高密度脂蛋白膽固醇(CHOL/HDLC)、中性粒細(xì)胞比例、性別、尿糖、糖尿病家族史;與冠心病相關(guān)的危險(xiǎn)因素有:年齡、體質(zhì)指數(shù)、腰臀比、三酰甘油、總膽固醇、低密度脂蛋白膽固醇、紅細(xì)胞計(jì)數(shù)、尿蛋白、心血管疾病家族史、腦血管疾病家族史、高血壓史、糖尿病史;與慢性病相關(guān)的危險(xiǎn)因素有:年齡、體質(zhì)指數(shù)、胸圍、腰臀比、總膽固醇、高密度脂蛋白膽固醇、尿酸、性別、尿糖、高血壓家族史、糖尿病家族史、心血管疾病家族史。
2.3 慢性病主要危險(xiǎn)因素的重要性排序 本研究嘗試構(gòu)建3種不同算法的神經(jīng)網(wǎng)絡(luò)模型:MLP、PNN和RBF,其中以包含一個(gè)隱藏層的MLP神經(jīng)網(wǎng)絡(luò)模型擬合效果最好。圖1~4分別列出不同輸出變量構(gòu)建的MLP神經(jīng)模型的預(yù)測(cè)結(jié)果。圖1展示ANN輸入變量在預(yù)測(cè)高血壓事件中的重要性排序,模型隱藏層包含5個(gè)節(jié)點(diǎn),圖中分別顯示各輸入變量對(duì)結(jié)果變量的效應(yīng)和標(biāo)準(zhǔn)化效應(yīng),其中以年齡作用效應(yīng)最大,為18.9%,其次為體質(zhì)指數(shù)、低密度脂蛋白膽固醇、γ-谷氨酰轉(zhuǎn)移酶等。在以糖尿病為輸出結(jié)果的ANN模型中,隱藏層包含6個(gè)節(jié)點(diǎn),其中以糖尿病家族史對(duì)結(jié)果的影響最大,作用效應(yīng)為18.1%,其次為收縮壓、腰臀比、中性粒細(xì)胞比例等(見圖2)。以冠心病為輸出結(jié)果的MLP模型中,隱藏層包含6個(gè)節(jié)點(diǎn),其中以年齡對(duì)結(jié)果的影響最大,作用效應(yīng)為31.2%,其次為總膽固醇、紅細(xì)胞計(jì)數(shù)、尿蛋白等(見圖3)。以是否患慢性病為結(jié)果變量,篩選合適的ANN輸入變量,發(fā)現(xiàn)年齡對(duì)慢性病患病的影響最大,作用效應(yīng)為25.3%,其次為高密度脂蛋白膽固醇、胸圍、體質(zhì)指數(shù)等(見圖4)。所有變量對(duì)結(jié)果重要性的百分比之和為1,變量越多,各變量的重要性相對(duì)越小,所以本研究更關(guān)注的是各輸入變量對(duì)結(jié)果影響的順位。觀察各輸入變量,發(fā)現(xiàn)許多變量是共同危險(xiǎn)因素,比如年齡、體質(zhì)指數(shù)、腰臀比、家族史在預(yù)測(cè)模型中占重要位置。
2.4 危險(xiǎn)因素預(yù)測(cè)慢性病準(zhǔn)確性評(píng)價(jià) ROC曲線下面積描述模型預(yù)測(cè)各慢性病的準(zhǔn)確性。其中高血壓、糖尿病、冠心病及慢性病預(yù)測(cè)模型ROC曲線下面積分別為0.80、0.87、0.81、0.78,各預(yù)測(cè)模型ROC曲線下面積均位于0.80附近,說明模型預(yù)測(cè)性良好。各慢性病MLP預(yù)測(cè)模型在預(yù)測(cè)疾病時(shí)的特異度高于靈敏度,預(yù)測(cè)高血壓的準(zhǔn)確性為75.1%,預(yù)測(cè)糖尿病的準(zhǔn)確性為91.2%,預(yù)測(cè)冠心病的準(zhǔn)確性為93.7%,預(yù)測(cè)患任一慢性病的準(zhǔn)確性為75.2%。本研究中為避免數(shù)據(jù)擬合過度,分別設(shè)置了訓(xùn)練集、驗(yàn)證集和檢驗(yàn)集,從靈敏度和特異度等指標(biāo)結(jié)果可以看到,訓(xùn)練集與檢驗(yàn)集結(jié)果接近,說明不存在訓(xùn)練集過度擬合的現(xiàn)象。
眾所周知,人類疾病的決定因素有很多,包括不良的生活方式、家族遺傳等,它們?cè)谌梭w內(nèi)常表現(xiàn)為相互作用的、復(fù)雜的非線性關(guān)系,錯(cuò)綜復(fù)雜的關(guān)系增加了研究者進(jìn)行疾病評(píng)估的難度。通常,采用臨床評(píng)價(jià)得到的預(yù)測(cè)規(guī)則含有較多的主觀成分,結(jié)論很難統(tǒng)一。因此利用統(tǒng)計(jì)學(xué)方法進(jìn)行疾病預(yù)測(cè)已成為醫(yī)學(xué)領(lǐng)域重要課題,如最為典型的美國(guó)Framingham研究中心采用Logistic逐步回歸預(yù)測(cè)受試者患冠心病的風(fēng)險(xiǎn)[9],他們的研究為疾病預(yù)測(cè)提供了更為可靠的信息。Logistic回歸分析是疾病預(yù)測(cè)常用的多元統(tǒng)計(jì)方法,但此方法在進(jìn)行參數(shù)估計(jì)時(shí)要求變量間相互獨(dú)立,而許多疾病危險(xiǎn)因素間存在著不同程度的依賴關(guān)系,這樣容易造成分析結(jié)果的不穩(wěn)定。ANN比較靈活,對(duì)數(shù)據(jù)要求較傳統(tǒng)統(tǒng)計(jì)方法低,分析時(shí)利用大量的參數(shù)解釋變量間復(fù)雜的非線性關(guān)系,且構(gòu)建的模型預(yù)測(cè)性高,能較準(zhǔn)確估計(jì)危險(xiǎn)因素。Voss等[8]用不同的統(tǒng)計(jì)技術(shù)預(yù)測(cè)中年男性患冠心病的風(fēng)險(xiǎn),文中主要比較MLP、PNN兩種神經(jīng)網(wǎng)絡(luò)模型和Logistic回歸模型預(yù)測(cè)疾病的準(zhǔn)確性。通過比較ROC曲線下面積得知,構(gòu)建的兩種神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果優(yōu)于Logistic回歸方法,而MLP模型又好于PNN模型[8]。此后,神經(jīng)網(wǎng)絡(luò)廣泛用于各類疾病預(yù)測(cè)。Shanthi等[10]研究ANN在預(yù)測(cè)血栓栓塞病中的應(yīng)用,提出一種神經(jīng)網(wǎng)絡(luò)功能模型以補(bǔ)充現(xiàn)有的診斷方法。作者采用反向傳播(back propagation,BP)算法對(duì)樣本進(jìn)行訓(xùn)練,并用于預(yù)測(cè)卒中的分類。這項(xiàng)研究工作表明,ANN在疾病預(yù)測(cè)方面具有良好的性能,它作為卒中的預(yù)測(cè)工具可明顯提高疾病診斷的準(zhǔn)確率。Pradhan等[11]研究不同神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法預(yù)測(cè)糖尿病的準(zhǔn)確性。雖然ANN得到了較為廣泛的應(yīng)用,但是其結(jié)果解釋性較Logistic回歸模型差,且在進(jìn)行效應(yīng)分析時(shí)不能給出區(qū)間估計(jì)。因此,作者在數(shù)據(jù)分析時(shí)一定要結(jié)合數(shù)據(jù)特征選擇正確的方法。
表1 高血壓、糖尿病、冠心病和慢性病ANN模型輸入變量的選擇
注:ANN=人工神經(jīng)網(wǎng)絡(luò),CHOL/HDLC=膽固醇/高密度脂蛋白膽固醇
注:ANN=人工神經(jīng)網(wǎng)絡(luò)
圖1 ANN輸入變量在預(yù)測(cè)高血壓事件中的重要性排序
Figure 1 Importance ranking of ANN input variables in predicting hypertension events
圖2 ANN輸入變量在預(yù)測(cè)糖尿病事件中的重要性排序
Figure 2 Importance ranking of ANN input variables in predicting diabetic events
圖3 ANN輸入變量在預(yù)測(cè)冠心病事件中的重要性排序
Figure 3 Importance ranking of ANN input variables in predicting CHD events
注:家族史包括高血壓家族史、糖尿病家族史、心血管疾病家族史
圖4 ANN輸入變量在預(yù)測(cè)慢性病事件中的重要性排序
Figure 4 Importance ranking of ANN input variables in predicting chronic disease events
由于中老年(≥45歲)是慢性病的主要受害人群,因此本研究嘗試篩選發(fā)病率最高的3種慢性病(高血壓、糖尿病、心腦血管疾病)的危險(xiǎn)因素,同時(shí)探討任一慢性病的危險(xiǎn)因素,以篩選出的慢性病共同危險(xiǎn)因素作為慢性病預(yù)測(cè)的測(cè)量指標(biāo)。并通過計(jì)算ROC曲線下面積評(píng)價(jià)各慢性病預(yù)測(cè)模型的準(zhǔn)確性,提示可通過研究中篩選出的主要危險(xiǎn)因素對(duì)相應(yīng)慢性病進(jìn)行干預(yù),以有效降低慢性病的發(fā)生。
[1]中華人民共和國(guó)國(guó)家衛(wèi)生和計(jì)劃生育委員會(huì).衛(wèi)生部公布第四次國(guó)家衛(wèi)生服務(wù)調(diào)查主要結(jié)果[EB/OL].(2009-02-07) [2015-03-23].http://www.moh.gov.cn/mohbgt/s3582/200902/39201.shtml.
[2]王世勇.中國(guó)慢性病報(bào)告及國(guó)際慢性疾病防控最新進(jìn)展[R].第六屆中國(guó)健康傳播大會(huì),2011.
[3]Lim SS,Vos T,Flaxman AD,et al.A comparative risk assessment of burden of disease and injury attributable to 67 risk factors and risk factor clusters in 21 regions,1990—2010:a systematic analysis for the Global Burden of Disease Study 2010 [J].Lancet,2012,380(9859):2224-2260.
[4]Xu XQ,Xu YF,Zhu MJ,et al.Short-term prediction of the masles based on BP neural network[J].Chinese General Practice,2013,16(10):3488-3490.(in Chinese) 徐學(xué)琴,徐玉芳,朱明軍,等.基于逆?zhèn)鞑ド窠?jīng)網(wǎng)絡(luò)的麻疹短期發(fā)病預(yù)測(cè)研究[J].中國(guó)全科醫(yī)學(xué),2013,16(10):3488-3490.
[5]Liu YT,Mo Y,Huang SG.Diabetic cardiovascular autonomic function test comparison analysis[J].Practical Journal of Cardiac Cerebral Pneumal and Vascular Disease,2012,20(3):407-408.(in Chinese) 劉宇田,莫軼,黃思光.糖尿病心血管自主神經(jīng)功能檢查法比較分析[J].實(shí)用心腦肺血管病雜志,2012,20(3):407-408.
[6]張良均,曹晶,蔣世忠.神經(jīng)網(wǎng)絡(luò)實(shí)用教程[M].北京:機(jī)械工業(yè)出版社,2008:31-36.
[7]葉任高,陸再英.內(nèi)科學(xué)[M].北京:人民衛(wèi)生出版社,2004:787-820.
[8]Voss R,Cullen P,Schulte H,et al.Prediction of risk of coronary events in middle-aged men in the Prospective Cardiovascular Munster Study(PROCAM) using neural networks [J].Int J Epidemiol,2002,31(6):1253-1262.
[9]D′Agostino RB,Vasan RS,Pencina MJ,et al.General cardiovascular risk profile for use in primary care:the Framingham Heart Study [J].Circulation,2008,117(6):743-753.
[10]Shanthi D,Sahoo G,Saravanan N.Designing an Artificial Neural Network Model for the prediction of thrombo-embolic stroke[J].International Journals of Biometric and Bioinformatics,2009,3(1):10-18.
[11]Pradhan M,Sahu RK.Predict the onset of diabetes disease using Artificial Neural Network(ANN)[J].International Journal of Computer Science & Emerging Technologies,2011,2(2):303-311.
(本文編輯:崔沙沙)
Identification of Major Risk Factors for Multiple Chronic Diseases Based on Artificial Neural Network
CAOWen-jun,XUYong-yong,TANZhi-jun,etal.
InstituteforCardiovascularDisease,ChangzhiMedicalCollege,Changzhi046000,China
Objective To discuss the identification of major risk factors for multiple chronic diseases based on artificial neural network(ANN).Methods We enrolled 6 938 subjects aged 45 or older than 45 who received physical examination in a health management center in Beijing from January 2008 to December 2010.Stepwise regression combined with genetic algorithm was used to determine the input variables of artificial neural network(ANN).We tried to build the prediction models for hypertension,diabetes mellitus,coronary heart disease and chronic diseases and then evaluated the accuracy of these models by receiver operator characteristic(ROC) curve.Results Among 6 938 subjects,1 665(24.0%) had hypertension,609(8.8%) had diabetes mellitus,and 443(6.4%)had coronary heart disease.Age,body mass index(BMI),chest circumference,waist-hip ratio,total cholesterol,HDL-C,uric acid,gender,urine sugar,family history of hypertension,family history of diabetes mellitus and family history of cardiovascular disease are major risk factors for chronic diseases,among which age had the greatest influence on chronic diseases with an effect rate of 25.3%.Moreover,the areas under ROC curves of ANN prediction models for blood pressure,diabetes,coronary heart disease and chronic disease were 0.80,0.87,0.81 and 0.78 respectively.The accuracy rates in the prediction for hypertension,diabetes,coronary disease and chronic disease were 75.1%,91.2%,93.7% and 75.2%.Conclusion Main risk factors for multiple chronic diseases could be identified by ANN model,which could provide scientific references for effective prevention of chronic diseases.
Artificial neural network;Chronic disease;Risk factors
國(guó)家自然科學(xué)基金資助項(xiàng)目(81302518)
046000山西省長(zhǎng)治市,長(zhǎng)治醫(yī)學(xué)院心血管病研究所(曹文君,王庸晉);第四軍醫(yī)大學(xué)軍事預(yù)防醫(yī)學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室(徐勇勇,譚志軍)
王庸晉,046000山西省長(zhǎng)治市,長(zhǎng)治醫(yī)學(xué)院心血管病研究所;E-mail:yongjinwang2008@sohu.com
R 195.4
A
10.3969/j.issn.1007-9572.2015.25.011
2015-05-07;
2015-07-08)