亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)深度置信網(wǎng)絡(luò)在醫(yī)療分類問題中的研究

2021-11-30 09:31:52蔡莉莉侯珂珂

現(xiàn)代計(jì)算機(jī) 2021年29期

關(guān)鍵詞：分類模型

蔡莉莉，侯珂珂

（1.中山大學(xué)新華學(xué)院生物醫(yī)學(xué)工程學(xué)院，廣州510520；2.中山大學(xué)新華學(xué)院健康學(xué)院，廣州510520）

0 引言

分類問題作為數(shù)據(jù)挖掘和模式識別領(lǐng)域的重要問題之一，一直以來受到眾多科研學(xué)者的廣泛關(guān)注。在我們的生活實(shí)際應(yīng)用中常常會遇到分類問題，最常見的如基于醫(yī)療數(shù)據(jù)集的疾病診斷問題，它是一種典型的分類問題。根據(jù)醫(yī)療儀器設(shè)備獲取的疾病的生理指標(biāo)數(shù)據(jù)，采用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法可以構(gòu)建出分類決策模型，從而實(shí)現(xiàn)對疾病類型的分類和診斷。

隨著智慧醫(yī)療概念的提出，越來越多的人工智能算法技術(shù)被應(yīng)用于醫(yī)療分類問題的研究中，用以輔助醫(yī)生臨床疾病診斷。杜權(quán)等人分別采用支持向量機(jī)、隨機(jī)森林算法和1維卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練出心律失常檢測模型，檢測心律失常準(zhǔn)確率高達(dá)97.17%［1］。苗豐順等人提出了一種基于Cat?Boost算法的糖尿病診斷模型，取得了較為優(yōu)異的預(yù)測結(jié)果［2］。神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的非線性映射能力，常用于分類問題研究中。吳燎將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于中醫(yī)疾病診斷中，實(shí)現(xiàn)了對高血壓、胃病和冠心病的高效預(yù)測。王增輝構(gòu)建出基于人工神經(jīng)網(wǎng)絡(luò)的心臟病預(yù)測模型，模型的分類準(zhǔn)確率達(dá)到85.7%［3］。

醫(yī)療數(shù)據(jù)分類預(yù)測模型準(zhǔn)確率的提高非常依賴模型能否有效挖掘出數(shù)據(jù)內(nèi)在特征，將數(shù)據(jù)集的有效特征提取出來進(jìn)行建模有助于改善模型分類精度。受限玻爾茲曼機(jī)（restricted boltzmann ma?chine，RBM）因?yàn)榫哂休^為顯著的特征表達(dá)能力，被廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)中作為特征提取的有效手段［4］。2006年，Hinton提出由堆疊多個RBM構(gòu)成的深度置信網(wǎng)絡(luò)（deep belief network，DBN）架構(gòu)，并將其應(yīng)用于圖像分類問題研究中，深度學(xué)習(xí)的概念由此被提出［5，6］。本文利用RBM強(qiáng)大的特征提取能力，在深度置信網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上進(jìn)行改進(jìn)，提出一種基于回歸權(quán)的深度置信網(wǎng)絡(luò)結(jié)構(gòu)，并將其應(yīng)用于醫(yī)療數(shù)據(jù)分類問題研究中。實(shí)驗(yàn)部分針對3個醫(yī)療數(shù)據(jù)集，分別利用改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)和傳統(tǒng)DBN網(wǎng)絡(luò)進(jìn)行預(yù)測，以驗(yàn)證其有效性。

1 改進(jìn)深度置信網(wǎng)絡(luò)結(jié)構(gòu)

神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)算法一般使用反向傳播算法，即BP算法。BP算法是一種經(jīng)典的有監(jiān)督學(xué)習(xí)算法，訓(xùn)練過程極度依賴有標(biāo)簽的樣本數(shù)據(jù)。并且使用BP算法在訓(xùn)練過程中，其參數(shù)初始值通常采用隨機(jī)初始化的方式獲得，這種隨機(jī)初始值很容易使得梯度下降尋優(yōu)過程中陷入局部極值，導(dǎo)致結(jié)果較差。Hinton提出的深度置信網(wǎng)絡(luò)是利用多個玻爾茲曼機(jī)進(jìn)行堆疊形成的一種生成模型，利用RBM使用無監(jiān)督算法訓(xùn)練的優(yōu)勢，不僅可以有效保留其優(yōu)秀的特征提取能力，且預(yù)訓(xùn)練獲得的參數(shù)可以作為BP參數(shù)尋優(yōu)的初始值，從而提高收斂速度［6］。圖1為RBM結(jié)構(gòu)圖，圖2為由兩個RBM堆疊形成的DBN示意圖。

圖1 RBM網(wǎng)絡(luò)結(jié)構(gòu)

圖2 2個RBM構(gòu)造的DBN結(jié)構(gòu)

從圖1中可以看出，RBM共包含兩層：可見層和隱含層。觀察RBM的網(wǎng)絡(luò)結(jié)構(gòu)可以發(fā)現(xiàn)，其層內(nèi)節(jié)點(diǎn)間無連接，層間節(jié)點(diǎn)為全連接。圖1中ai、bi分別表示可見層節(jié)點(diǎn)和隱含層節(jié)點(diǎn)的偏置，W為層間節(jié)點(diǎn)的連接權(quán)。可見層作為數(shù)據(jù)輸入，可以為二進(jìn)制數(shù)據(jù)或者實(shí)數(shù)型。RBM采用基于對比散度學(xué)習(xí)算法訓(xùn)練可見層和隱含層之間的連接權(quán)和偏置，使得RBM可以最大概率表征輸入數(shù)據(jù)的分布特征［7］。圖2描述了兩個RBM堆疊構(gòu)建DBN網(wǎng)絡(luò)的過程。核心是將第1個RBM的隱含層的輸出作為第2個RBM的輸入層，通過逐個訓(xùn)練RBM內(nèi)部層之間的連接權(quán)，就獲得了權(quán)值的初始化參數(shù)。此種訓(xùn)練算法稱為逐層貪婪預(yù)訓(xùn)練算法［8］。

為了在DBN網(wǎng)絡(luò)基礎(chǔ)上實(shí)現(xiàn)分類的目的，往往需要在網(wǎng)絡(luò)后新增一個輸出決策層，用于輸出分類結(jié)果。一般情況下，輸出層與上一層的連接權(quán)默認(rèn)采用常數(shù)權(quán)。在此基礎(chǔ)上，本文考慮將回歸權(quán)系數(shù)作為最后輸出層與上一層的連接權(quán)，而其他層的權(quán)值仍為常數(shù)權(quán)形式，在少量增加網(wǎng)絡(luò)訓(xùn)練復(fù)雜度的情況下，以提高網(wǎng)絡(luò)的泛化能力，如圖3所示。

圖3 基于回歸權(quán)的改進(jìn)DBN結(jié)構(gòu)

假設(shè)輸入x=(x1,x2,…,xn)，隱層2的節(jié)點(diǎn)個數(shù)為l，其第k個節(jié)點(diǎn)的輸出值為Hk。則有回歸權(quán)系數(shù)表達(dá)式如（1）所示，決策層的輸出如式（2）所示。

這里aki(i=1,2,…,n)表示各回歸權(quán)值的系數(shù)因子。

針對上述改進(jìn)網(wǎng)絡(luò)的學(xué)習(xí)算法包括如下兩步：

（1）基于訓(xùn)練數(shù)據(jù)使用逐層貪婪預(yù)訓(xùn)練算法逐個訓(xùn)練RBM，獲得DBN網(wǎng)絡(luò)權(quán)值的初始化參數(shù)。

（2）在初始化參數(shù)的基礎(chǔ)上，利用BP算法進(jìn)行全局調(diào)優(yōu)，其中輸出層的回歸權(quán)系數(shù)因子使用最小二乘法計(jì)算，其他各層的權(quán)值參數(shù)尋優(yōu)使用梯度下降算法調(diào)整。

2 基于改進(jìn)DBN結(jié)構(gòu)的醫(yī)療數(shù)據(jù)建模

2.1 數(shù)據(jù)集介紹

本文選用UCI機(jī)器學(xué)習(xí)庫中常用于分類研究的三個醫(yī)療數(shù)據(jù)集進(jìn)行建模分析。他們分別是Wisconsin Breast Cancer數(shù)據(jù)集、Heart Disease數(shù)據(jù)集以及Mammographic masses數(shù)據(jù)集。其中Wis?consin Breast Cancer數(shù)據(jù)集和Mammographic mass?es數(shù)據(jù)集均為乳腺腫瘤圖像樣本數(shù)據(jù)集，可用于預(yù)測乳腺腫瘤的良惡性類別。Heart Disease數(shù)據(jù)集是一組病人體質(zhì)數(shù)據(jù)，可用于預(yù)測患者是否患有心臟病。

Wisconsin Breast Cancer數(shù) 據(jù) 集共有569個樣本數(shù)據(jù)，無缺失數(shù)據(jù)，其中良性樣本357例，惡性樣本212例。該數(shù)據(jù)集具有32個屬性，其中前兩個字段為病例編號和腫瘤良惡性標(biāo)簽值。本文中用于建模的特征為30個，記錄了腫瘤病灶組織細(xì)胞核半徑、周長、面積、平滑性等10個特征量的平均值、標(biāo)準(zhǔn)差和最差值。Mammographic masses數(shù)據(jù)集共有961條數(shù)據(jù)，樣本中含有缺失數(shù)據(jù)，剔除缺失數(shù)據(jù)樣本后，共有830條數(shù)據(jù)。該數(shù)據(jù)集提供了X射線照射乳腺腫瘤組織影像獲取的腫瘤形狀、密度、BI-RADS評級標(biāo)準(zhǔn)值以及病人年齡等5個輸入特征，最后一列記錄了良惡性類別。該樣本集共包含良性樣本427例，惡性樣本403例。Heart Disease數(shù)據(jù)集含有303條數(shù)據(jù)，無缺失值，包含患病樣本138例，未患病樣本165例。每個輸入樣本記錄了病人的年齡、性別、血壓、血糖、膽固醇及心電圖相關(guān)的數(shù)據(jù)共計(jì)13個。針對各數(shù)據(jù)集中包含的值域比較分散的屬性，在下文進(jìn)行建模時分別進(jìn)行了歸一化的操作。

2.2 模型構(gòu)建

為了對比改進(jìn)DBN網(wǎng)絡(luò)結(jié)構(gòu)是否能有效改善分類模型的泛化能力，針對以上三個醫(yī)療樣本數(shù)據(jù)集，分別構(gòu)建出普通DBN結(jié)構(gòu)預(yù)測模型和回歸權(quán)DBN結(jié)構(gòu)模型進(jìn)行對比分析。網(wǎng)絡(luò)結(jié)構(gòu)均采用由兩個RBM堆疊形成，各層網(wǎng)絡(luò)節(jié)點(diǎn)個數(shù)通過粒子群優(yōu)化算法確定。參數(shù)初始化階段訓(xùn)練RBM采用對比散度快速學(xué)習(xí)算法，這里的學(xué)習(xí)率設(shè)定為0.1，迭代次數(shù)為50次。全局參數(shù)調(diào)整階段使用梯度下降算法進(jìn)行調(diào)優(yōu)，損失函數(shù)為均方誤差。學(xué)習(xí)速率設(shè)定為0.1，迭代次數(shù)為500次。

模型評價指標(biāo)采用分類模型常用指標(biāo)，包括分類準(zhǔn)確率、查準(zhǔn)率、查全率和F1分?jǐn)?shù)，定義公式如式（3）—式（6）所示［9］。

這里，TP表示樣本真實(shí)類別為正例，且預(yù)測為正例的樣本個數(shù)，TN表示樣本真實(shí)類別為負(fù)例且預(yù)測為負(fù)例的樣本個數(shù)；FN表示樣本真實(shí)類別為正例但被錯判為負(fù)例的樣本個數(shù)；FP表示樣本真實(shí)類別為負(fù)例但被錯判為正例的樣本數(shù)。

本文中為了方便對比，將良性類別記為P，惡性類別用N表示。

3 實(shí)驗(yàn)與分析

針對以上3個醫(yī)療數(shù)據(jù)集，分別構(gòu)建出基于常數(shù)權(quán)的DBN網(wǎng)絡(luò)和基于回歸權(quán)的DBN網(wǎng)絡(luò)分類模型。實(shí)驗(yàn)中訓(xùn)練集和測試集的數(shù)據(jù)劃分比例均為7∶3。另外，為了減少訓(xùn)練隨機(jī)性對模型性能的影響，性能指標(biāo)皆取10次仿真結(jié)果的平均值。由此得到三個數(shù)據(jù)集中各測試集的性能指標(biāo)結(jié)果分別如表1、表2、表3所示。

表1 Wisconsin Breast Cancer實(shí)驗(yàn)結(jié)果對比

表2 Heart Disease實(shí)驗(yàn)結(jié)果對比

表3 Mammographic masses實(shí)驗(yàn)結(jié)果對比

由表1—表3的仿真結(jié)果可以看出，采用改進(jìn)回歸權(quán)的DBN網(wǎng)絡(luò)構(gòu)建的分類模型在分類準(zhǔn)確率和F1分?jǐn)?shù)上較之原始DBN網(wǎng)絡(luò)結(jié)構(gòu)均有一定提升。且各分類模型的性能指標(biāo)值均達(dá)到80%以上，其中在Wisconsin Breast Cancer數(shù)據(jù)集上的分類準(zhǔn)確率高達(dá)96.7%，取得了較好的預(yù)測效果。

4 結(jié)語

本文在原始DBN網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上，提出一種改進(jìn)回歸權(quán)的DBN網(wǎng)絡(luò)結(jié)構(gòu)用于實(shí)現(xiàn)對醫(yī)療數(shù)據(jù)分類問題研究。借助于RBM強(qiáng)大的特征提取能力，實(shí)現(xiàn)對高維醫(yī)療數(shù)據(jù)特征的有效挖掘，從而構(gòu)建出性能較為優(yōu)異的決策模型。在三個醫(yī)療數(shù)據(jù)集上的仿真結(jié)果表明，改進(jìn)權(quán)值的DBN網(wǎng)絡(luò)結(jié)構(gòu)較之原始DBN結(jié)構(gòu)在各性能指標(biāo)上均有一定程度提升。因此，未來將考慮進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和模型參數(shù)，并將該模型應(yīng)用于更多的醫(yī)療數(shù)據(jù)建模問題中，為臨床醫(yī)生提供輔助決策。