亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進深度神經(jīng)網(wǎng)絡(luò)的心血管疾病預(yù)測

        2022-06-23 00:35:42劉玉航徐英豪朱習(xí)軍
        計算機與現(xiàn)代化 2022年6期
        關(guān)鍵詞:特征模型

        劉玉航,曲 媛,徐英豪,朱習(xí)軍,于 巖

        (1.青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島 266061; 2.青島市海潤自來水集團有限公司東部分公司,山東 青島 266000)

        0 引 言

        據(jù)《中國心血管病報告》(概要)統(tǒng)計,中國心血管病患者數(shù)量高達(dá)2.9億人,約占中國人口的20.7%,且其中約有43.81%的人口死于心血管病[1]。心血管病包括多種患病形態(tài),如腦卒中、冠心病、心力衰竭等[2]。導(dǎo)致引發(fā)心血管病的多個重要因素是可控的,例如高血壓、肥胖、吸煙等[3],盡早預(yù)防是目前治療心血管疾病最有效的途徑。

        隨著智慧醫(yī)療興起,深度學(xué)習(xí)目前成為了疾病預(yù)測、輔助診斷至關(guān)重要的方法[4]。由于心血管病成因及種類繁多,因此在使用機器學(xué)習(xí)方法對其預(yù)測時需要對數(shù)據(jù)進行預(yù)處理。王曼怡等[5]使用Logistic模型對心血管病患病風(fēng)險進行預(yù)測,蔡勛瑋[6]采用SVM與DS結(jié)合的方式預(yù)測心血管病,杜珍珍[7]采用XGBoost算法構(gòu)建冠心病患病風(fēng)險預(yù)測模型,他們所做的工作多是基于已有模型進行相關(guān)預(yù)測。文獻(xiàn)[8-9]則是基于深度學(xué)習(xí)模型進行臨床診斷,他們所做的研究是應(yīng)用于臨床診斷,而非進行常態(tài)化的預(yù)測。上文提到,誘發(fā)心血管病的大多數(shù)因素都是可控的,以此為依據(jù)進行常態(tài)化預(yù)測和診斷同樣關(guān)鍵,本文提出一種可以評估引發(fā)疾病特征并對患病風(fēng)險進行預(yù)測的基于深度學(xué)習(xí)的模型。

        在數(shù)據(jù)集方面,Kaggle提供開源的心血管病數(shù)據(jù)集,其中包含約62000條可用數(shù)據(jù),數(shù)據(jù)集中人體特征字段為體檢結(jié)果信息采集,而主觀因素如吸煙、酗酒等為被采集者主觀提供,心血管病患病與否則是由醫(yī)學(xué)確診后寫入數(shù)據(jù)集。

        由于實驗過程中發(fā)現(xiàn)傳統(tǒng)DNN模型存在泛化性差、易過擬合等問題,本文將在文獻(xiàn)[10]的基礎(chǔ)上改進并優(yōu)化模型結(jié)構(gòu),提高其泛化能力,并進一步保證模型魯棒性。

        1 相關(guān)工作

        本文旨在通過優(yōu)化DNN模型實現(xiàn)對心血管病的準(zhǔn)確預(yù)測,因此本章將重點介紹所使用的網(wǎng)絡(luò)模型及其相關(guān)優(yōu)化。

        1.1 深度神經(jīng)網(wǎng)絡(luò)預(yù)測模型

        由于實驗是針對心血管病患病與否,所以網(wǎng)絡(luò)模型實質(zhì)為二分類模型。數(shù)據(jù)集進行預(yù)處理后傳遞給神經(jīng)網(wǎng)絡(luò)[11]。對模型進行訓(xùn)練后,將待預(yù)測樣本輸入模型,即可得到結(jié)果,網(wǎng)絡(luò)模型處理流程如圖1所示。

        圖1 神經(jīng)網(wǎng)絡(luò)處理流程圖

        考慮到堆疊全連接層會導(dǎo)致參數(shù)量過大,本文曾嘗試使用多種模型結(jié)構(gòu),包括對模型增加循環(huán)神經(jīng)層[12]等,但模型訓(xùn)練結(jié)果并不樂觀,多番嘗試后本文選擇使用DNN作為心血管病預(yù)測的基礎(chǔ)模型。

        1.2 Batch Normalization

        批歸一化層(Batch Normalization, BN)是深度學(xué)習(xí)領(lǐng)域的重要研究成果之一[13]。利用心血管病數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,若輸入層獲取的數(shù)據(jù)分布不一致,則傳遞數(shù)據(jù)時模型中其他層為了匹配輸入數(shù)據(jù)變化需要不斷進行調(diào)整[14]。為了加快模型收斂速度,同時緩解模型梯度彌散問題,從而更高效、更穩(wěn)定訓(xùn)練模型,需要引入BN層。

        BN層可有效解決模型內(nèi)數(shù)據(jù)分布問題,其原理是計算批數(shù)據(jù)的均值及方差,對所求均值及方差進行歸一化操作,最后進行尺度變化與偏移[15],步驟如式(1)~式(4)所示。

        (1)

        (2)

        (3)

        (4)

        BN層的核心是式(4)的尺度變化與偏移,即讓xi乘以γ來調(diào)整值大小,將結(jié)果與偏移量β相加得到y(tǒng)i。其中,γ和β稱作尺度因子和平移因子[16],這2項參數(shù)均是通過網(wǎng)絡(luò)訓(xùn)練過程中自我學(xué)習(xí)的結(jié)果。

        另外,BN層可以有效地使梯度變得更加平緩[17],如圖2所示。

        圖2 添加BN層可以有效使梯度變平緩

        1.3 Targeted Dropout

        為防止訓(xùn)練過程中過擬合現(xiàn)象發(fā)生,Srivastava等[18]在2014年提出了經(jīng)典算法Dropout。Dropout能夠防止模型過擬合現(xiàn)象發(fā)生是通過每輪訓(xùn)練時隨機摒棄部分網(wǎng)絡(luò)神經(jīng)元,這些被摒棄的神經(jīng)元在正向傳播的過程中無法對下游網(wǎng)絡(luò)層造成影響,而且反向傳播時其權(quán)重也無法得到迭代和更新,如圖3所示。

        圖3 經(jīng)過Dropout后部分神經(jīng)元被摒棄

        盡管Dropout算法是解決過擬合問題的有效方式,但由于Dropout過程隨機性太強,權(quán)重較高的神經(jīng)元同樣也會被摒棄[19],而由于本文數(shù)據(jù)是對心血管病患者特征的一般采樣,若直接在模型中應(yīng)用Dropout層會導(dǎo)致訓(xùn)練后模型中各個神經(jīng)元的權(quán)重趨于一致,難以選擇模型最佳子網(wǎng)絡(luò),無法保障模型剪枝工作的有效性。

        為解決傳統(tǒng)Dropout算法存在的不足,Google Brain的Gomez等[20]進一步提出了Targeted Dropout,即定向正則化思想。Target Dropout旨在解決傳統(tǒng)Dropout存在的可能丟失關(guān)鍵神經(jīng)元的問題,是一種能夠基于重要性進行剪枝的算法。該算法結(jié)合了權(quán)重Dropout與神經(jīng)元Dropout,如式(5)和式(6)分別為它們對輸出值的計算公式,其中X代表輸入張量、W代表權(quán)重矩陣、Y代表輸出張量、M代表全連接層。

        Y=(X?M)W

        (5)

        Y=X(W?M)

        (6)

        Targeted Dropout通過結(jié)合上述2種方式的Dropout,通過式(7)和式(8)來進行基于權(quán)重的剪枝和基于神經(jīng)元的剪枝。

        (7)

        (8)

        Targeted Dropout正則化不像傳統(tǒng)的Dropout一樣直接對神經(jīng)元摒棄,因為被摒棄的神經(jīng)元有可能在后續(xù)的訓(xùn)練中顯現(xiàn)出它們的重要性。由此一來,Targeted Dropout在考慮到了影響較高的大數(shù)神經(jīng)元的同時,又兼顧了小數(shù)神經(jīng)元潛在的作用。

        本文實驗中將傳統(tǒng)DNN模型中的Dropout替換為本節(jié)所講的Targeted Dropout,并將在后文中對比采用2種不同正則化方法所產(chǎn)生的的實驗結(jié)果。

        2 數(shù)據(jù)處理與實驗設(shè)計

        2.1 數(shù)據(jù)集

        本文所使用數(shù)據(jù)集為Kaggle開源心血管病數(shù)據(jù)集,其中共包含約62000條可用數(shù)據(jù),其中共11項基本特征和1個目標(biāo)變量,如表1所示。特征來源可分為主觀聲明和客觀檢測2種類型,主觀聲明是受試者自身生活習(xí)慣,客觀檢測為醫(yī)學(xué)檢測過程中獲取的客觀數(shù)據(jù)。

        表1 數(shù)據(jù)集特征描述

        數(shù)據(jù)集中,患病樣本與未患病樣本大致相等,如圖4所示。

        圖4 患病人數(shù)分布

        2.2 特征選擇

        在上節(jié)所提到的特征中,沒有包含受試者的身體質(zhì)量指數(shù)(BMI),然而,BMI過高也是誘發(fā)心血管病的因素之一,并且是更為直觀的特征[22]。依據(jù)現(xiàn)有受試者特征,可根據(jù)式(9)計算出受試者的BMI。

        (9)

        通過繪制特征相關(guān)性熱力圖可以對數(shù)據(jù)集特征進行更直觀的觀測,如圖5所示。

        圖5 特征相關(guān)性熱力圖

        熱力圖能夠直觀表示特征間的相關(guān)性程度[23]。圖5中2個特征相交的矩陣色塊越深,代表這2個特征的皮爾遜相關(guān)系數(shù)越大,進而它們的關(guān)聯(lián)度也就越大。該數(shù)據(jù)集中,與目標(biāo)變量患病與否相交的特征色塊均大于基礎(chǔ)值,證明所選特征可以用來對該數(shù)據(jù)集進行預(yù)測。

        2.3 實驗設(shè)計

        實驗使用本文第1章提出的方法對深度神經(jīng)網(wǎng)絡(luò)進行優(yōu)化。在原有的網(wǎng)絡(luò)基礎(chǔ)上,對每個模塊額外添加BN層用以處理輸入值,并添加Targeted Dropout層實現(xiàn)定向正則化,其中Drop_rate和Target_rate值分別設(shè)置為0.6和0.7。每個模塊均采取Leaky ReLU作為激活函數(shù),最終輸出層使用Sigmoid函數(shù)作為計算二分類的預(yù)測結(jié)果函數(shù)。實驗具體預(yù)測模型架構(gòu)如圖6所示。

        圖6 神經(jīng)網(wǎng)絡(luò)模型架構(gòu)圖

        處理后的數(shù)據(jù)集以8∶2的比例劃分訓(xùn)練集和測試集并訓(xùn)練200個Epoch,同時記錄了在每個Epoch上的val_loss值和val_acc值,使用訓(xùn)練后的模型在驗證集上進行驗證,選擇準(zhǔn)確率、召回率、特異度、精確率作為疾病預(yù)測模型的評價指標(biāo)。

        3 實驗結(jié)果及分析

        通過對原始的DNN模型引入BN層以及定向正則化層后,發(fā)現(xiàn)原始DNN模型在驗證集上的準(zhǔn)確率變化情況與TR-DNN模型在前40個Epoch中存在顯著差異,而100個訓(xùn)練周期結(jié)束后兩者準(zhǔn)確率都在78%左右,如圖7所示。

        圖7 2種模型在驗證集上的準(zhǔn)確率變化

        3.1 評價標(biāo)準(zhǔn)

        為了評估TR-DNN及其它模型的實際效果,本文將準(zhǔn)確率(Accuracy)、召回率(Recall)、特異度(Specificity)、精確率(Precision)作為模型的評價指標(biāo)。

        其中,準(zhǔn)確率、召回率、特異度、精確率分別使用公式(10)-公式(13)進行表示。

        (10)

        (11)

        (12)

        (13)

        上述公式中,TP代表正例預(yù)測正確的個數(shù);FP代表負(fù)例預(yù)測錯誤的個數(shù);TN代表負(fù)例預(yù)測正確的個數(shù);FN代表正例預(yù)測錯誤的個數(shù)。

        3.2 結(jié)果與分析

        在進行200個訓(xùn)練周期的訓(xùn)練后,本文采集了TR-DNN模型與傳統(tǒng)DNN模型以及SVM、RF、XGBoost模型在測試集上的評價標(biāo)準(zhǔn)數(shù)據(jù),并在表2中將這些數(shù)據(jù)列出。

        表2 不同模型的評價標(biāo)準(zhǔn)結(jié)果

        通過表2可以得出,在準(zhǔn)確率方面,TR-DNN模型高于其它3種傳統(tǒng)機器學(xué)習(xí)模型,比SVM模型提高了14.57個百分點,比RF模型提高了5.75個百分點,比XGBoost模型提高了3.15個百分點,且與同為深度學(xué)習(xí)的傳統(tǒng)DNN模型相比,準(zhǔn)確率依然有著1.5個百分點的提高;在召回率方面,TR-DNN模型在對比其他傳統(tǒng)對照模型有著更好結(jié)果的同時,與傳統(tǒng)的DNN模型對比,TR-DNN模型的召回率仍然提高了1.57%;在特異度方面,TR-DNN模型依然有著最好的結(jié)果,并且比傳統(tǒng)DNN模型提高了2.54個百分點;在精確率方面,TR-DNN模型比SVM模型提高了14.54個百分點,比RF模型提高了6.07個百分點,比XGBoost模型提高了3.08個百分點,比DNN模型提高了1.51個百分點。

        可以發(fā)現(xiàn),通過對傳統(tǒng)DNN模型增加BN層以及Target-Dropout層可以有效地提高模型的性能。同時,由于在模型中原本獨立的網(wǎng)絡(luò)層之間加入了歸一化層,不同層之間的數(shù)據(jù)得到了歸一化,從而能夠進一步降低模型的訓(xùn)練時間。

        4 結(jié)束語

        本文研究了通過對傳統(tǒng)DNN模型進行添加BN層與定向正則化層,將模型優(yōu)化為TR-DNN模型,并訓(xùn)練此模型以進行預(yù)測心血管病的任務(wù)。通過實驗可以發(fā)現(xiàn),TR-DNN模型在準(zhǔn)確率、召回率、特異度、精確率等評價指標(biāo)方面均高于其它的對照模型,其中包括傳統(tǒng)的DNN模型,這表明優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)模型可以應(yīng)用于心血管疾病的預(yù)測任務(wù)。但由于數(shù)據(jù)集并非專業(yè)臨床電子病歷,準(zhǔn)確率方面相較其它模型雖有提升,但不能完全作為醫(yī)療診斷依據(jù)。針對這一問題,需要對模型進一步改進,使其能夠真正應(yīng)用于醫(yī)學(xué)輔助診斷領(lǐng)域,同時進一步提高預(yù)測準(zhǔn)確率。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产三级精品三级在线观看| 日本国产精品高清在线| 中文字幕中文字幕777| 久久人人爽av亚洲精品| 国产在线观看www污污污| 国产激情视频在线观看首页 | 亚洲中文字幕日产无码| 国产精品成人观看视频| 中文字幕久无码免费久久 | 亚洲天堂av在线免费观看| 欧洲熟妇色| 国产在线精品一区二区不卡| 波多吉野一区二区三区av| 国产免费操美女逼视频| 国产免费无遮挡吸奶头视频| 国产麻无矿码直接观看| 亚洲图片第二页| 99国产精品久久一区二区三区| 手机福利视频| 亚洲国产区男人本色| 亚洲乱色视频在线观看| 日本最新一区二区三区在线| 少妇性饥渴无码a区免费| 亚洲欧美日韩国产色另类| 国产精品99久久不卡二区| 中国久久久一级特黄久久久| 亚洲精品第一国产综合亚av| 国产亚洲精品日韩综合网| 在线视频自拍视频激情| 日韩av高清在线观看| 久久久久久av无码免费看大片| 胳膊肘上有白色的小疙瘩| 丰满人妻中文字幕一区三区| 国产精品无码久久久久成人影院| 国产精品无码片在线观看| 亚洲专区一区二区三区四区五区| 国产欧美日韩中文久久| 99久久免费精品高清特色大片| 日韩女优一区二区视频| 真实夫妻露脸爱视频九色网 | 精品日本一区二区视频|