亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)的支持向量機(jī)在心臟病預(yù)測(cè)中的研究

        2022-04-02 05:28:02王成武郭志恒晏峻峰
        關(guān)鍵詞:分類優(yōu)化模型

        王成武,郭志恒,晏峻峰

        (湖南中醫(yī)藥大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙 410208)

        0 引 言

        心臟病是日常生活中一種比較常見(jiàn)的循環(huán)系統(tǒng)疾病。根據(jù)《中國(guó)心血管健康與疾病報(bào)告(2019)》,心血管病的死亡率在中國(guó)人群所有死亡原因中位居于榜首,農(nóng)村居民心血管病占死因的45.91%,城市居民占43.56%[1],它不僅會(huì)給患者的生活質(zhì)量帶來(lái)十分嚴(yán)重的影響,也給患者和國(guó)家?guī)?lái)了繁重的經(jīng)濟(jì)負(fù)擔(dān)。

        如何及時(shí)地預(yù)測(cè)出潛在心臟病患者并對(duì)其進(jìn)行相應(yīng)的診療具有十分重要的意義,但是傳統(tǒng)的心臟病檢測(cè)技術(shù)存在著各種各樣的弊端,以至于心臟病的預(yù)測(cè)不能夠很好的進(jìn)行[2]。目前,支持向量機(jī)(support vector machines,SVM)在疾病診斷上的應(yīng)用已經(jīng)有了很多,例如吳辰文等人[3]提出一種改進(jìn)的SVM算法應(yīng)用在乳腺癌診斷方面,預(yù)測(cè)Random Forest模型下的基尼指數(shù)特征加權(quán)的支持向量機(jī)在乳腺癌診斷中的結(jié)果;張麗娜等人[4]提出一種基于支持向量機(jī)的急性出血性腦卒中早期預(yù)后模型的建立與評(píng)價(jià),研究表明其效果優(yōu)于邏輯回歸,同時(shí),肝病、紅斑鱗狀皮膚病及糖尿病等疾病[5-7]也都基于支持向量機(jī)建立了相應(yīng)的疾病診斷模型,并且取得了非常好的實(shí)驗(yàn)效果,充分地表明了支持向量機(jī)(SVM)模型在當(dāng)今疾病診斷領(lǐng)域的應(yīng)用具有廣闊的前景。

        該文將利用SVM建立心臟病分類預(yù)測(cè)模型,并通過(guò)網(wǎng)格搜索對(duì)SVM的懲罰因子C和核參數(shù)g進(jìn)行初步優(yōu)化,縮小參數(shù)尋優(yōu)范圍,再使用粒子群優(yōu)化算法PSO對(duì)SVM的懲罰因子C和核參數(shù)g進(jìn)行優(yōu)化,得到最優(yōu)參數(shù)組合,從而提高SVM模型的分類準(zhǔn)確率。

        1 基本原理及方法

        1.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)中所選用的是UCI機(jī)器學(xué)習(xí)庫(kù)里面的心臟病數(shù)據(jù)集。該數(shù)據(jù)集是由美國(guó)克利夫蘭心臟病臨床基金會(huì)提供的,包含心臟病檢查患者的部分體質(zhì)數(shù)據(jù),一共有303個(gè)樣本,其中陽(yáng)性樣本的個(gè)數(shù)是164,陰性樣本的個(gè)數(shù)是139,數(shù)據(jù)集包含13個(gè)特征屬性和1個(gè)類屬性,分別是age(年齡)、sex(性別)、cp(胸痛類型)、trestbps(靜息血壓)、chol(血清膽汁)、fbs(空腹血糖)、restecg(靜息心電圖)、thalach(最大心率)、exang(運(yùn)動(dòng)性心絞痛)、oldpeak(運(yùn)動(dòng)引起的相對(duì)于休息的ST抑郁)、slope(最高運(yùn)動(dòng)ST段的斜率)、ca(螢光顯色的主要血管數(shù)目)、thal(一種稱為地中海貧血的血液疾病)、target(分類類別)。

        1.2 基本原理

        1.2.1 支持向量機(jī)

        支持向量機(jī)是Cortes和Vapnik在1995年提出來(lái)的,它是在統(tǒng)計(jì)學(xué)理論的VC維(Vapnic-Chervonenkis Dimension)和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上所提出的一種機(jī)器學(xué)習(xí)算法[8-10]。其最終目的是要在樣本空間中找到一個(gè)最優(yōu)的劃分超平面,該平面產(chǎn)生的分類效果的魯棒性和泛化能力是最優(yōu)的。支持向量機(jī)算法具有很多獨(dú)特的優(yōu)勢(shì),在實(shí)驗(yàn)過(guò)程中通常可以獲得比其他分類器更好的效果,在應(yīng)對(duì)線性不可分問(wèn)題的時(shí)候,可以采用帶有諸如徑向基核函數(shù)的支持向量機(jī),這樣可以擴(kuò)大特征空間,從而解決非線性可分問(wèn)題。

        假設(shè)訓(xùn)練樣本集D={(x1,y1),(x2,y2),…,(xn,yn)},其中yi∈{-1,+1}分別表示健康人群和心臟病患者。在d維空間中,劃分超平面對(duì)應(yīng)模型可表示為:

        f(x)=ωTφ(x)+b

        (1)

        式中,φ(x)表示將x映射后的特征空間,ω和b是模型的參數(shù)。由軟間隔最大化可得原始最優(yōu)分類問(wèn)題為:

        (2)

        式中,ξi為松弛變量,C為懲罰因子。式(2)本身是一個(gè)凸二次規(guī)劃問(wèn)題[11],引入拉格朗日函數(shù):

        (3)

        式中,αi,μi是拉格朗日乘子。

        原始問(wèn)題轉(zhuǎn)換為對(duì)應(yīng)的對(duì)偶問(wèn)題:

        (4)

        求解式(4)可得模型為:

        (5)

        SVM常用的核函數(shù)有以下幾種:

        線性核函數(shù):

        K(xi,xj)=xixj

        (6)

        多項(xiàng)式核函數(shù):

        K(xi,xj)=(xixj+1)d

        (7)

        徑向基核函數(shù):

        (8)

        拉普拉斯核函數(shù):

        (9)

        Sigmoid核函數(shù):

        K(xi,xj)=tanh[β(xixj-θ)]

        (10)

        該文選擇徑向基核函數(shù)(RBF)。

        1.2.2 粒子群優(yōu)化算法

        粒子群優(yōu)化算法(particle swarm optimization,PSO)是Eberhart和Kennedy于1995年推出,它是以鳥(niǎo)群捕食行為為來(lái)源而產(chǎn)生的[12-13],屬于一種進(jìn)化算法。根據(jù)搜索過(guò)程中群體的消息共享進(jìn)行更新,使得整個(gè)群體向著最優(yōu)解的方向移動(dòng)。粒子群中的每個(gè)粒子都代表優(yōu)化問(wèn)題所對(duì)應(yīng)的一個(gè)可能的解,假設(shè)在d維空間中有一群粒子,粒子的位置表示為:

        Xi=(Xi1,Xi2,…,XiD)

        (11)

        粒子的速度表示為:

        Vi=(Vi1,Vi2,…,ViD)

        (12)

        粒子的位置和速度更新公式如下:

        (14)

        1.2.3 PSO-SVM模型

        該文利用PSO算法對(duì)支持向量機(jī)的參數(shù)進(jìn)行尋優(yōu),建立PSO-SVM算法模型,粒子群中的每個(gè)粒子由{C,g}組成,支持向量機(jī)參數(shù)選擇的適應(yīng)度函數(shù)使用K折交叉驗(yàn)證分類準(zhǔn)確率。

        基于PSO-SVM算法的心臟病預(yù)測(cè)步驟如下:

        步驟1:初始化粒子群及參數(shù)。對(duì)粒子群規(guī)模m、局部搜索能力c1、全局搜索能力c2、最大進(jìn)化數(shù)量k、慣性權(quán)重w、懲罰因子C的取值范圍,核參數(shù)g的取值范圍進(jìn)行初始化;

        步驟2:利用5折交叉驗(yàn)證來(lái)計(jì)算訓(xùn)練集分類準(zhǔn)確率,以此作為當(dāng)前種群中每個(gè)粒子的適應(yīng)度值,得到最初的個(gè)體最優(yōu)適應(yīng)度值、全局最優(yōu)適應(yīng)度值和對(duì)應(yīng)的參數(shù)(C,g);

        步驟3:每一次迭代中,利用式(13)和式(14)更新粒子的位置和速度;

        步驟4:使用適應(yīng)度函數(shù)對(duì)粒子群中所有粒子的適應(yīng)度值進(jìn)行計(jì)算;

        步驟5:將粒子的適應(yīng)度函數(shù)值及其出現(xiàn)過(guò)的最優(yōu)適應(yīng)度值進(jìn)行比較,若更優(yōu),則更新個(gè)體最優(yōu)適應(yīng)度值,以便于下一次迭代過(guò)程的比較;

        步驟6:將粒子的適應(yīng)度值和整個(gè)種群中出現(xiàn)過(guò)的最優(yōu)適應(yīng)度函數(shù)值進(jìn)行比較,若更優(yōu),則對(duì)全局最優(yōu)適應(yīng)度值進(jìn)行更新,以便于下一次迭代過(guò)程的比較;

        步驟7:判斷是否達(dá)到終止條件,如果達(dá)到就終止迭代,否則回到步驟3;

        步驟8:得到SVM模型的最優(yōu)參數(shù)組合(C,g),對(duì)心臟病測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè),計(jì)算心臟病分類準(zhǔn)確率。

        2 實(shí)驗(yàn)過(guò)程與分析

        網(wǎng)格搜索[14-15]進(jìn)行SVM參數(shù)尋優(yōu)是通過(guò)遍歷以懲罰因子C和核參數(shù)g組成的二維網(wǎng)格,并采用K折交叉驗(yàn)證計(jì)算參數(shù)組合(C,g)下訓(xùn)練集的分類準(zhǔn)確率,找出二維網(wǎng)格中準(zhǔn)確率最高的點(diǎn),即為參數(shù)優(yōu)化的結(jié)果[16]。若參數(shù)所設(shè)定的取值范圍很大,足以包含參數(shù)尋優(yōu)的最優(yōu)解,并且網(wǎng)格遍歷的步長(zhǎng)足夠小,這樣就能夠找到全局最優(yōu)參數(shù)組合,但是步長(zhǎng)較小的話,對(duì)整個(gè)網(wǎng)格進(jìn)行遍歷就會(huì)耗費(fèi)很多的時(shí)間。因此,先采用網(wǎng)格搜索在較大的參數(shù)取值范圍內(nèi)使用較大的步長(zhǎng)進(jìn)行粗略搜索,確定懲罰因子C和核參數(shù)g的大致范圍,然后使用粒子群優(yōu)化算法PSO在較小取值范圍內(nèi)對(duì)參數(shù)組合進(jìn)行進(jìn)一步的精確搜索,得到最優(yōu)參數(shù)組合。

        該心臟病預(yù)測(cè)模型的運(yùn)行環(huán)境是Windows系統(tǒng)下的MATLAB R2020a平臺(tái)。抽取70%的心臟病數(shù)據(jù)集作為訓(xùn)練集,剩下的30%作為測(cè)試集,根據(jù)測(cè)試集分類結(jié)果對(duì)模型進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)一共包含兩個(gè)部分:實(shí)驗(yàn)1,利用網(wǎng)格搜索與交叉驗(yàn)證對(duì)SVM的懲罰因子C和核參數(shù)g進(jìn)行優(yōu)化選擇,確定最優(yōu)參數(shù)的粗略范圍;實(shí)驗(yàn)2,在實(shí)驗(yàn)1的基礎(chǔ)上,利用PSO算法對(duì)支持向量機(jī)的參數(shù)C和g進(jìn)行進(jìn)一步的尋優(yōu),計(jì)算測(cè)試數(shù)據(jù)集的分類準(zhǔn)確率。

        2.1 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)集共有13個(gè)特征屬性,其中age,trestbpd,chol,thalach,oldpeak為數(shù)值型,sex,fbs,exang,target為二值型,cp,restecg,slope,ca,thal為多分類數(shù)值,例如胸痛類型包含四個(gè)值(0:典型心絞痛,1:非典型心絞痛,2:非心絞痛,3:無(wú)癥狀),使用one-hot編碼[17]對(duì)多分類數(shù)值進(jìn)行處理,編碼過(guò)程如圖1所示。

        為規(guī)避不同變量之間的量綱差異,提高支持向量機(jī)(SVM)模型的預(yù)測(cè)效果,將樣本數(shù)據(jù)集進(jìn)行歸一化處理,歸一化公式為:

        (15)

        令ymin為0,ymax為1,使得最終的數(shù)據(jù)都落在 [0,1]區(qū)間內(nèi),得:

        (16)

        2.2 網(wǎng)格搜索優(yōu)化SVM參數(shù)

        通過(guò)網(wǎng)格搜索與交叉驗(yàn)證相結(jié)合的方法確定模型的參數(shù)C和g。具體步驟如下:

        步驟1:設(shè)定懲罰因子C和核參數(shù)g的大致取值范圍分別是:C∈[2-10,210],g∈[2-10,210],步長(zhǎng)設(shè)置為2,對(duì)C值為橫坐標(biāo)、g值為縱坐標(biāo)的二維網(wǎng)格進(jìn)行搜索;

        步驟2:一個(gè)坐標(biāo)點(diǎn)代表參數(shù)(C,g)的取值,利用5折交叉驗(yàn)證計(jì)算訓(xùn)練集的分類準(zhǔn)確率,記錄該準(zhǔn)確率的值以及對(duì)應(yīng)的參數(shù)取值,不斷重復(fù)此步驟,直至遍歷完整個(gè)網(wǎng)格;

        步驟3:將分類準(zhǔn)確率最高的點(diǎn)對(duì)應(yīng)的參數(shù)(C,g)作為最優(yōu)參數(shù)取值。

        經(jīng)過(guò)對(duì)二維網(wǎng)格的初步搜索,由圖2可知,5折交叉驗(yàn)證最佳分類準(zhǔn)確率CVAccuracy為87.559 8%,其對(duì)應(yīng)的最佳參數(shù)組合(C,g)分別為C=4,g=0.25。

        2.3 PSO算法優(yōu)化SVM參數(shù)

        通過(guò)網(wǎng)格搜索進(jìn)行參數(shù)的初步尋優(yōu)后,將參數(shù)的取值范圍縮小,在本次實(shí)驗(yàn)中,PSO優(yōu)化算法的參數(shù)設(shè)置為:粒子群數(shù)量N=20,慣性權(quán)重ω=0.7,參數(shù)局部搜索因子c1=1.49,參數(shù)全局搜索因子c2=1.49,最大迭代次數(shù)Kmax=100,懲罰因子C∈[0.1,30],核函數(shù)參數(shù)g∈[0.1,30]。利用5折交叉驗(yàn)證計(jì)算心臟病訓(xùn)練集分類準(zhǔn)確率的平均值,并記錄與此對(duì)應(yīng)的參數(shù)組合(C,g),根據(jù)最終的分類結(jié)果選出模型最優(yōu)的參數(shù)組合。

        優(yōu)化結(jié)果如圖3所示。

        由圖3可知,隨著迭代次數(shù)的增加,群體中最佳個(gè)體適應(yīng)度(即分類準(zhǔn)確率)增加至89%左右,并基本保持不變,其對(duì)應(yīng)的最優(yōu)參數(shù)組合(C,g)分別為C=0.771 15,g=0.1。

        2.4 模型結(jié)果分析

        模型的評(píng)估指標(biāo)有很多,由于該文是關(guān)于疾病分類預(yù)測(cè)的研究,所以選用準(zhǔn)確率、靈敏度和特異度作為模型的評(píng)估指標(biāo),三個(gè)指標(biāo)的計(jì)算公式如下:

        (17)

        (18)

        (19)

        其中,真正例TP為測(cè)試集中陽(yáng)性樣本預(yù)測(cè)結(jié)果也是陽(yáng)性的個(gè)數(shù);偽反例FN為測(cè)試集中陽(yáng)性樣本預(yù)測(cè)為陰性的個(gè)數(shù);偽正例FP為測(cè)試集中陰性樣本預(yù)測(cè)為陽(yáng)性的個(gè)數(shù);真反例TN為測(cè)試集中陰性樣本預(yù)測(cè)結(jié)果也是陰性的個(gè)數(shù);Acc為測(cè)試集的分類準(zhǔn)確率;Sen為靈敏度,代表識(shí)別真陽(yáng)性的能力;Spec為特異度,代表排除真陰性的能力。對(duì)比經(jīng)過(guò)網(wǎng)格參數(shù)尋優(yōu)、粒子群優(yōu)化算法(PSO)尋優(yōu)后的SVM模型和原始SVM模型,原始模型隨機(jī)選取的參數(shù)為C=1,g=1,結(jié)果如表1所示。

        表1 SVM分類模型結(jié)果對(duì)比 %

        通過(guò)對(duì)最終實(shí)驗(yàn)結(jié)果的比較可以看出,未經(jīng)優(yōu)化的模型的懲罰因子C和核參數(shù)g按照人為的經(jīng)驗(yàn)進(jìn)行設(shè)置,在測(cè)試集上的分類準(zhǔn)確率為80.851 1%,經(jīng)網(wǎng)格搜索和交叉驗(yàn)證相結(jié)合的方法對(duì)參數(shù)進(jìn)行初步的優(yōu)化,得到最佳參數(shù)組合C=4,g=0.25,此時(shí)分類準(zhǔn)確率提升到82.978 7%,在此基礎(chǔ)上,縮小參數(shù)優(yōu)化范圍,使用PSO對(duì)SVM參數(shù)再次進(jìn)行優(yōu)化,得到的最佳參數(shù)組合為C=0.771 15,g=0.1,分類準(zhǔn)確率進(jìn)一步提升到84.042 6%,如圖4~圖6所示。

        同時(shí),靈敏度和特異度也得到提升,支持向量機(jī)模型在測(cè)試集上的靈敏度從89.090 9%提升到了92.727 3%,特異度也從69.230 8%提升到71.794 9%,可見(jiàn)經(jīng)優(yōu)化后模型的效果得到了提高。

        2.5 優(yōu)化的SVM與其他分類模型的比較

        K-最近鄰算法(KNN)、線性判別分析(LDA)和分類與回歸樹(shù)(CART)在分類預(yù)測(cè)中的應(yīng)用較多,選用這三種常用的機(jī)器學(xué)習(xí)算法來(lái)構(gòu)建心臟病分類預(yù)測(cè)模型,將其分類結(jié)果與經(jīng)過(guò)參數(shù)尋優(yōu)后支持向量機(jī)在測(cè)試集上預(yù)測(cè)的結(jié)果進(jìn)行比較分析。結(jié)果如表2所示,CART分類準(zhǔn)確率最差,KNN和線性判別分析的分類準(zhǔn)確率和CART相比有所提高,分類準(zhǔn)確率最高的為文中進(jìn)行參數(shù)優(yōu)化后的支持向量機(jī)。

        表2 優(yōu)化的SVM與其他分類模型結(jié)果對(duì)比 %

        3 結(jié)束語(yǔ)

        選取UCI機(jī)器學(xué)習(xí)庫(kù)中的心臟病數(shù)據(jù)集,建立了基于SVM的心臟病預(yù)測(cè)模型,可以為醫(yī)生在心臟病輔助診斷中提供一定的幫助。首先結(jié)合網(wǎng)格搜索與交叉驗(yàn)證對(duì)模型的最優(yōu)參數(shù)組合進(jìn)行初步尋優(yōu),接著縮小參數(shù)范圍,利用粒子群優(yōu)化算法進(jìn)行參數(shù)尋優(yōu),確定模型的最優(yōu)懲罰因子C和核參數(shù)g。與基于傳統(tǒng)SVM建立的心臟病預(yù)測(cè)模型相比,參數(shù)優(yōu)化后的SVM的準(zhǔn)確率、靈敏度和特異度都得到了提升,驗(yàn)證了實(shí)驗(yàn)的有效性。

        猜你喜歡
        分類優(yōu)化模型
        一半模型
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        分類算一算
        一道優(yōu)化題的幾何解法
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        国产三级不卡在线观看视频| 亚洲网站地址一地址二| 一本一本久久久久a久久综合激情| 美腿丝袜美腿国产在线| 91精品久久久中文字幕| 国产两女互慰高潮视频在线观看 | 亚洲精品第一国产综合精品| 日本又黄又爽gif动态图| 麻豆密入视频在线观看| 白色月光免费观看完整版| а天堂中文在线官网在线| 好吊色欧美一区二区三区四区| 日韩熟妇精品视频一区二区| 中文字幕一区二区三区综合网| 国产无遮挡aaa片爽爽| 国产一线二线三线女| 精品久久杨幂国产杨幂| 日本办公室三级在线观看| 97se亚洲国产综合在线| 精品久久久久久久中文字幕| 无码高潮少妇毛多水多水免费 | 无码人妻久久一区二区三区免费| 国产成人久久精品区一区二区| 日本成人在线不卡一区二区三区| 日本一区二区三级在线观看 | 国产一区二区三区杨幂| 久久99精品国产麻豆| 天天鲁在视频在线观看| 日日摸日日碰人妻无码老牲| 久久精品国产亚洲av成人网| 亚洲狠狠婷婷综合久久久久| 激情 人妻 制服 丝袜| 久久久久久久久久91精品日韩午夜福利| 久久亚洲中文字幕伊人久久大| 熟女少妇内射日韩亚洲| 欧美理论在线| 亚洲成生人免费av毛片| 国产 精品 自在 线免费| 精品香蕉久久久午夜福利| 亚洲综合色婷婷七月丁香| 中文字日产幕码三区国产|