亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于變分自編碼器的異常頸動(dòng)脈早期識(shí)別和預(yù)測

        2021-11-05 01:30:26黃曉祥胡詠梅任力杰
        計(jì)算機(jī)應(yīng)用 2021年10期
        關(guān)鍵詞:頸動(dòng)脈分類樣本

        黃曉祥,胡詠梅,吳 丹,任力杰

        (1.山東大學(xué)控制科學(xué)與工程學(xué)院,濟(jì)南 250061;2.中國科學(xué)院深圳先進(jìn)技術(shù)研究院,廣東深圳 518055;3.深圳市第二人民醫(yī)院神經(jīng)內(nèi)科,廣東深圳 518028)

        0 引言

        腦卒中是一種急性腦血管疾病,也是全球第二大致死和第一大致殘疾病,它是由腦部血管突然破裂或因血管阻塞導(dǎo)致血液不能流入大腦而引起腦組織損傷的一組疾病,它的發(fā)病率在發(fā)展中國家仍不斷上升[1]。由于它更多的是造成殘疾,因此病人需要更長的住院時(shí)間和更多的照顧,這對(duì)個(gè)人和家庭也是一種沉重的負(fù)擔(dān)[2]。據(jù)世界衛(wèi)生組織統(tǒng)計(jì),全球每年約有1 500 萬人患腦卒中,預(yù)計(jì)到2030 年,這一數(shù)字還將增加340 萬[3]。大量研究表明,頸動(dòng)脈病變,如頸動(dòng)脈內(nèi)中膜厚度增加(Carotid Intima Media Thickness,CIMT)或頸動(dòng)脈斑塊等是動(dòng)脈粥樣硬化性心血管疾?。ˋtheroSclerotic CardioVascular Disease,ASCVD)的亞臨床病理表現(xiàn),進(jìn)而導(dǎo)致缺血性卒中的發(fā)生[4-6]。頸動(dòng)脈壁增厚與一些可改變的危險(xiǎn)因素,如高血壓、抽煙、飲酒和缺乏體育鍛煉等有關(guān)[7]。因此,早期發(fā)現(xiàn)頸動(dòng)脈異常不僅能夠識(shí)別易患腦卒中的人群,而且通過預(yù)防干預(yù)也可以延緩和避免急性臨床事件的發(fā)生。

        在臨床實(shí)踐中,B 超是診斷和評(píng)估頸動(dòng)脈異常包括CIMT、頸動(dòng)脈斑塊和頸動(dòng)脈狹窄等的有效工具之一[8-9]。然而,受制于有限的醫(yī)療資源,頸動(dòng)脈超聲檢查在大規(guī)模的腦卒中篩查中是耗時(shí)且昂貴的,特別是在欠發(fā)達(dá)國家和發(fā)展中國家的偏遠(yuǎn)地區(qū)。因此,有必要利用人工智能技術(shù)建立一種簡單的基于生理檢查和電子病歷(Electronic Medical Record,EMR)的頸動(dòng)脈異常早期識(shí)別方法,這不僅有助于早期篩查腦卒中,同時(shí)也能促進(jìn)數(shù)字化醫(yī)學(xué)的發(fā)展?,F(xiàn)有的包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等在內(nèi)的人工智能技術(shù)都是以數(shù)據(jù)為基礎(chǔ)的,因此,建立可靠的模型需要足夠的、完整的數(shù)據(jù)集。然而醫(yī)學(xué)數(shù)據(jù)的獲取又是不易的,而且由于系統(tǒng)性、偶然性或是人為過失等緣故,數(shù)據(jù)總是不可避免會(huì)出現(xiàn)缺失。粗略地去除含有缺失值的數(shù)據(jù)將減少樣本容量,并最終影響所建模型的效果。因此,如何處理缺失數(shù)據(jù)也是衛(wèi)生信息學(xué)研究中另一個(gè)常見而又具有挑戰(zhàn)性的問題。

        本文以容易獲得的個(gè)體體格信息、常規(guī)體檢信息和家族病史作為特征屬性,以頸動(dòng)脈超聲檢查結(jié)果作為標(biāo)簽建立識(shí)別和預(yù)測異常頸動(dòng)脈的模型,初步確定頸動(dòng)脈病變,包括CIMT、頸動(dòng)脈狹窄和斑塊等頸動(dòng)脈異常情況,進(jìn)而輔助腦卒中的早期篩查。

        K近鄰(K-Nearest Neighbors,KNN),均值和眾數(shù)常被用來填補(bǔ)缺失數(shù)據(jù),而VAE 常用來生成新樣本數(shù)據(jù)。為了處理缺失值,本文提出了兩種缺失數(shù)據(jù)填補(bǔ)方法:一是KNN、均值和眾數(shù)混合的方法(Mixture of mean,mode andKNN,MKNN);二是改進(jìn)的變分自編碼器(Variational AutoEncoder,VAE),分別運(yùn)用這兩種方法對(duì)樣本中含有的缺失值進(jìn)行填補(bǔ)。利用遺傳算法(Genetic Algorithm,GA)[10]對(duì)樣本含有的屬性特征進(jìn)行篩選并結(jié)合邏輯回歸(Logistic Regression,LR)[11]、支持向量機(jī)(Support Vector Machine,SVM)[12]、隨機(jī)森林(Random Forest,RF)[13]和極限梯度提升樹(eXtreme Gradient Boosting Tree,XGBT)[14]四種有監(jiān)督學(xué)習(xí)方法建立異常頸動(dòng)脈分類模型,評(píng)估MKNN和改進(jìn)的VAE兩種數(shù)據(jù)填補(bǔ)方法的效果。最后建立基于改進(jìn)的VAE的半監(jiān)督異常頸動(dòng)脈預(yù)測模型。

        本文的主要工作包括以下幾個(gè)方面:

        1)運(yùn)用MKNN 以及改進(jìn)的VAE 分別對(duì)含有缺失值的樣本數(shù)據(jù)進(jìn)行填補(bǔ)。

        2)運(yùn)用多種方法對(duì)特征進(jìn)行分析并排序。

        3)運(yùn)用不同的分類方法結(jié)合GA 對(duì)缺失值填補(bǔ)前后的數(shù)據(jù)進(jìn)行建模,發(fā)現(xiàn)基于改進(jìn)的VAE的半監(jiān)督模型性能最好。

        1 相關(guān)工作

        目前關(guān)于腦卒中的研究,大都致力于探尋卒中風(fēng)險(xiǎn)因子,或是對(duì)預(yù)后腦卒中發(fā)展情況進(jìn)行預(yù)測。文獻(xiàn)[7]基于統(tǒng)計(jì)學(xué)方法,通過線性回歸系數(shù)來衡量與腦卒中關(guān)系密切的風(fēng)險(xiǎn)因素和疾病。文獻(xiàn)[15-16]通過顯著性檢驗(yàn)、皮爾森相關(guān)系數(shù)等建立線性風(fēng)險(xiǎn)評(píng)分模型,預(yù)測干預(yù)后卒中的死亡和致殘情況。在腦卒中的早期預(yù)測方面,文獻(xiàn)[17]提出了Framingham 風(fēng)險(xiǎn)評(píng)分模型來預(yù)測未來10 年腦卒中發(fā)病風(fēng)險(xiǎn),它是通過多年大量的研究,針對(duì)5 個(gè)危險(xiǎn)因子建立的分層表。文獻(xiàn)[18]中基于國內(nèi)實(shí)際情況建立了心血管風(fēng)險(xiǎn)預(yù)測方法——China-PAR(Prediction for ASCVD Risk in China),這是一種預(yù)測10 年內(nèi)腦卒中發(fā)病風(fēng)險(xiǎn)的模型,與國際上的Framingham 風(fēng)險(xiǎn)評(píng)分模型類似,不過它加入了體現(xiàn)中國人群腦卒中風(fēng)險(xiǎn)特征的因素,因此更適合預(yù)測中國人的情況。然而,這些方法都是基于數(shù)理統(tǒng)計(jì)方法建立的線性分析模型,未能很好地探索存在的非線性關(guān)系;并且預(yù)測的是10 年期的發(fā)病風(fēng)險(xiǎn),時(shí)間范圍太大。這些都將不同程度地影響模型的性能。

        近年來,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)方法越來越多地應(yīng)用于疾病診斷和預(yù)測方面,如糖尿病的預(yù)測[19]、癌癥的診斷和預(yù)測[20]、風(fēng)濕病的研究[21]、慢性肝病的預(yù)測[22]等。2017 年,文獻(xiàn)[23]指出機(jī)器學(xué)習(xí)算法相較于傳統(tǒng)線性模型可以提高心血管疾病風(fēng)險(xiǎn)預(yù)測的準(zhǔn)確性。隨后,許多研究者致力于在機(jī)器學(xué)習(xí)方法如RF 和SVM 的基礎(chǔ)上進(jìn)行更準(zhǔn)確的預(yù)測或分類。本文主要解決兩個(gè)問題:一是缺失值的填補(bǔ);二是利用容易獲得的調(diào)查信息和體格檢查,建立異常頸動(dòng)脈識(shí)別和預(yù)測模型,間接達(dá)到大規(guī)模腦卒中初步篩查的目的。

        2 本文方法

        本章主要介紹缺失數(shù)據(jù)填補(bǔ)、特征排序、GA、有監(jiān)督學(xué)習(xí)模型以及模型評(píng)估方法。重點(diǎn)闡述了改進(jìn)的變分自編碼器的原理和具體實(shí)現(xiàn)過程。

        2.1 數(shù)據(jù)填補(bǔ)方法

        2.1.1 MKNN

        考慮到男性和女性不同的生理特征,對(duì)不同性別分別處理,過程如下:

        1)將數(shù)據(jù)集按照性別分為兩類,分別處理每一類。

        2)對(duì)數(shù)據(jù)進(jìn)行歸一化,轉(zhuǎn)化到區(qū)間[0,1]上。

        3)對(duì)于腰圍,根據(jù)身高和體重,采用KNN 來尋找最近值,然后填補(bǔ),設(shè)置K=1。

        4)對(duì)于連續(xù)變量,使用平均值來填充;對(duì)于離散變量,使用眾數(shù)進(jìn)行填補(bǔ)。

        5)將處理后的兩個(gè)類合并,作為填補(bǔ)所得數(shù)據(jù)集。

        2.1.2 改進(jìn)的VAE

        文獻(xiàn)[24]首次提出VAE,它是一種深層生成模型,基于的原理是:對(duì)于任意一個(gè)n維的隨機(jī)變量X,總是可以用n個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量Z通過一個(gè)足夠復(fù)雜的函數(shù)去逼近它。該方法的分布可以表示為:

        其中:P(X)為隨機(jī)變量X的分布函數(shù),P(Z)為標(biāo)準(zhǔn)正態(tài)分布,P(X|Z)為變量X的后驗(yàn)分布。根據(jù)這個(gè)后驗(yàn)分布進(jìn)行采樣,就能夠得到與變量X類似的生成變量,即達(dá)到了數(shù)據(jù)生成的目的。P(X|Z)即可認(rèn)為是上面提到的所謂的足夠復(fù)雜的函數(shù),它由稱為解碼器的神經(jīng)網(wǎng)絡(luò)計(jì)算所得。這種方法被廣泛應(yīng)用于圖像、文本、視頻和人機(jī)交互[25-27]等各個(gè)方面。該算法能夠有效模擬大型高維度數(shù)據(jù)集的分布情況,生成與原始真實(shí)數(shù)據(jù)相似的新數(shù)據(jù),但不能直接適用于混合有連續(xù)和離散值并且包含缺失值的數(shù)據(jù)。

        文獻(xiàn)[28]提出了一種可以處理異質(zhì)(同時(shí)存在連續(xù)值和離散值)不完整數(shù)據(jù)的變分自編碼器,它不僅能夠處理連續(xù)值,而且也能夠處理分類值、計(jì)數(shù)值和序數(shù)值等離散值,同時(shí)也能夠補(bǔ)全不完整的數(shù)據(jù)。本文對(duì)該變分自編碼器進(jìn)行了優(yōu)化,包括超參數(shù)的調(diào)整、dropout 層的使用以及目標(biāo)函數(shù)的改進(jìn),結(jié)果表明改進(jìn)的VAE 對(duì)于本實(shí)驗(yàn)的樣本集效果更好。首先,由編碼器構(gòu)建一個(gè)混合高斯分布,代表離散值和連續(xù)值的后驗(yàn)概率分布;然后,據(jù)此采樣兩個(gè)隱變量;其次,由解碼器假設(shè)兩個(gè)先驗(yàn)分布,對(duì)于連續(xù)變量構(gòu)建標(biāo)準(zhǔn)正態(tài)分布,對(duì)于離散變量構(gòu)建均勻分布;同時(shí),解碼器還包括兩個(gè)似然函數(shù)模型,這兩個(gè)似然函數(shù)根據(jù)采樣的隱變量產(chǎn)生與原始樣本近似的生成樣本。優(yōu)化函數(shù)包括兩個(gè)部分:一是重構(gòu)誤差,它度量了生成樣本和原始樣本之間的差異,用均方誤差來計(jì)算;另一個(gè)是后驗(yàn)分布與先驗(yàn)分布之間的差異。用交叉熵(cross entropy)來度量離散變量分布之間的差異,用KL(Kullback-Leibler)散度[29]度量連續(xù)變量分布之間的差異。優(yōu)化函數(shù)的計(jì)算不包括缺失部位的數(shù)據(jù)。具體設(shè)計(jì)步驟如下:

        1)編碼器構(gòu)建在X條件下的高斯混合后驗(yàn)分布q(S|X)和q(Z|S,X),依此進(jìn)行采樣得到隱變量S和Z,并將之輸入到解碼器用來生成新樣本。S代表獨(dú)熱編碼向量空間,包含了混合高斯分布的均值和方差信息,Z代表隱變量空間,用來生成新數(shù)據(jù)。

        2)解碼器創(chuàng)建高斯混合先驗(yàn)分布p(S)和p(Z|S),并根據(jù)p(X,Z,S)采樣生成新樣本。對(duì)于連續(xù)數(shù)據(jù),假設(shè)高斯似然分布p(X|Z);對(duì)于分類數(shù)據(jù),使用多項(xiàng)式p(x=r|Z)來表示每個(gè)類別的概率分布,r為離散值。H代表隱藏層的輸出。

        3)批處理數(shù)據(jù)歸一化(Batch Normalization,BN)和逆歸一化(Batch De-Normalization,B-DN),防止某些特征主導(dǎo)訓(xùn)練過程,并防止KL散度消失。dropout層用來避免過擬合。

        4)優(yōu)化函數(shù)下界(Evidence Lower BOund,ELBO),優(yōu)化編碼器和解碼器的參數(shù)。KL(·)表示KL 散度計(jì)算公式,EN(·)代表交叉熵計(jì)算公式,a、b∈[0,1],代表權(quán)重系數(shù)。本文設(shè)置a=1,b=0.5。

        圖1 展示了改進(jìn)的VAE 模型的流程。N1 是一個(gè)創(chuàng)建離散分布的全連接深度神經(jīng)網(wǎng)絡(luò)和BN 層;Sm是一個(gè)采樣的獨(dú)熱編碼向量;N2 是一個(gè)神經(jīng)網(wǎng)絡(luò)和dropout 層,產(chǎn)生均值和方差來創(chuàng)建一個(gè)產(chǎn)生潛在變量的高斯分布;Zm是采樣所得的隱向量,并服從標(biāo)準(zhǔn)高斯分布;N3 是一個(gè)創(chuàng)建高斯先驗(yàn)分布的softmax層;L-hood是生成新樣本的似然函數(shù)層,它可以生成連續(xù)值和離散值;N4 是B-DN 層,將數(shù)據(jù)返回到原始的數(shù)值范圍;Input 是輸入的數(shù)據(jù)集;Output 為改進(jìn)的VAE 生成的新數(shù)據(jù)集。

        圖1 改進(jìn)的VAE的流程Fig.1 Flowchart of improved VAE

        2.2 遺傳算法

        GA是一種通過模擬自然進(jìn)化過程來搜索最優(yōu)解的方法,它被廣泛應(yīng)用于路徑優(yōu)化、最優(yōu)值查找和特征篩選[30-31]等方面。本文用GA來進(jìn)行特征選擇。具體如下:

        1)初始化。設(shè)置最大進(jìn)化次數(shù)T和初始群體S(0),S(0)包括若干個(gè)體,每個(gè)個(gè)體具有不同的染色體。在本文中,染色體長度設(shè)為L,代表不同的基因(特征屬性),用長度為L的一維數(shù)組來表示,數(shù)組只包含0 和1,0 代表不含有該位置的特征,1表示含有該對(duì)應(yīng)位置的特征。

        2)計(jì)算適應(yīng)度。計(jì)算群體S(t)中每個(gè)個(gè)體的適應(yīng)度。本文中,每個(gè)個(gè)體代表一個(gè)特征集合,對(duì)僅包含這個(gè)特征集合的數(shù)據(jù)集進(jìn)行建模,以模型5 折交叉驗(yàn)證的分類準(zhǔn)確率作為每個(gè)個(gè)體(所選特征)的適應(yīng)度值。

        3)遺傳。將適應(yīng)度高的個(gè)體遺傳到下一代。本文以輪盤賭的方式在群體中選擇個(gè)體進(jìn)行遺傳,將適應(yīng)度高的特征集合保留下來。適應(yīng)度越高,個(gè)體保留下來的概率也越高。

        4)交叉。在群體中對(duì)染色體進(jìn)行交叉,實(shí)現(xiàn)特征集合的變化。本文每兩個(gè)染色體進(jìn)行部分交換,以[0,1]上的隨機(jī)數(shù)模擬概率,當(dāng)滿足交叉概率Pc時(shí),在某個(gè)點(diǎn)位處將兩個(gè)染色體的后半部分交換,否則不進(jìn)行交叉。

        5)變異。對(duì)群體中每個(gè)染色體進(jìn)行基因突變,實(shí)現(xiàn)特征集合的改變。本文中,當(dāng)滿足變異概率Pm時(shí),在某個(gè)點(diǎn)位進(jìn)行突變,即原來的1變?yōu)?,原來的0變?yōu)?;否則不發(fā)生突變。

        6)判斷。滿足條件終止計(jì)算,并輸出具有最大適應(yīng)度的個(gè)體。當(dāng)不滿足終止條件時(shí),依次重復(fù)步驟2)~6)。本文中,當(dāng)進(jìn)化次數(shù)超過T時(shí),算法終止。

        2.3 有監(jiān)督學(xué)習(xí)

        LR、SVM、RF 和XGBT 是在醫(yī)學(xué)、經(jīng)濟(jì)和環(huán)境等許多領(lǐng)域廣泛應(yīng)用于分類和預(yù)測任務(wù)的有監(jiān)督機(jī)器學(xué)習(xí)算法。

        1)LR 是一個(gè)廣義線性模型,是在線性回歸的基礎(chǔ)上加入了非線性(sigmoid 函數(shù))映射,與線性回歸不同的是,LR 輸出的是離散值,所以解決的是分類問題。

        2)SVM是一種二分類模型。它首先定義一個(gè)在特征空間上間隔最大的線性分類器,當(dāng)數(shù)據(jù)線性不可分時(shí),先利用核函數(shù)將特征空間的數(shù)據(jù)進(jìn)行映射,再求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且使得幾何間隔最大的超平面,所以SVM 是一種非線性分類器。

        3)RF 是一種集成學(xué)習(xí)模型,是為了解決單個(gè)決策樹模型的不足,從而整合起更多的決策樹來避免局限性。對(duì)于分類問題,整合每一棵樹的結(jié)果進(jìn)行投票。首先對(duì)樣本和特征同時(shí)進(jìn)行有放回隨機(jī)采樣,生成若干個(gè)訓(xùn)練集;然后對(duì)每個(gè)訓(xùn)練集構(gòu)造一棵決策樹;最后整合所有樹的結(jié)果,輸出模型分類結(jié)果。由于同時(shí)對(duì)樣本和特征進(jìn)行了采樣,所以RF可以很好地避免過擬合。

        4)XGBT 也是一種集成學(xué)習(xí)模型,它也是整合若干個(gè)弱學(xué)習(xí)器的結(jié)果,然后輸出最終的結(jié)果。不同于RF 的是,這些弱學(xué)習(xí)器是依次建立的。首先,定義損失函數(shù);然后,基于損失函數(shù)的負(fù)梯度進(jìn)行學(xué)習(xí),也稱為基于偽殘差的學(xué)習(xí)。在具體實(shí)現(xiàn)時(shí),XGBT 對(duì)損失函數(shù)進(jìn)行二階泰勒展開,以一階導(dǎo)數(shù),二階導(dǎo)數(shù)和正則化來訓(xùn)練回歸樹,迭代生成若干個(gè)基學(xué)習(xí)器,相加輸出分類結(jié)果。

        2.4 評(píng)估指標(biāo)

        本文采用的是平衡數(shù)據(jù)集,即正樣本(標(biāo)簽為1)和負(fù)樣本(標(biāo)簽為0)數(shù)量相同。定義混淆矩陣:正樣本被預(yù)測為正樣本的數(shù)量(True Positive,TP),正樣本被預(yù)測為負(fù)樣本的數(shù)量(False Negative,F(xiàn)N),負(fù)樣本被預(yù)測為正樣本的數(shù)量(False positive,F(xiàn)P),負(fù)樣本被預(yù)測為負(fù)樣本的數(shù)量(True Negative,TN)。為了評(píng)估分類模型性能,采用如下指標(biāo):

        1)靈敏度(Sensitivity,Sen),反映了對(duì)正樣本的識(shí)別能力,值越高,說明模型越能夠識(shí)別出患病的樣本,漏診的概率就越低。計(jì)算公式為:

        2)特異性(Specificity,Spe),反映了對(duì)負(fù)樣本的識(shí)別能力,值越高,說明模型將負(fù)樣本識(shí)別為正樣本的概率越小,誤診的概率就越低。計(jì)算公式為:

        3)F1 值,是精確率P和召回率R的調(diào)和平均值,它也是衡量模型性能的一個(gè)重要指標(biāo)。計(jì)算公式為:

        4)分類準(zhǔn)確率(Accuracy,Acc),準(zhǔn)確率越高,說明模型預(yù)測的越準(zhǔn)確。計(jì)算公式為:

        運(yùn)用皮爾森系數(shù)(Pearson)的絕對(duì)值分析特征與目標(biāo)之間的線性關(guān)系。皮爾森相關(guān)系數(shù)定義為:

        利用最大互信息系數(shù)(Maximum Mutual Information,MIC)[32]度量特征與目標(biāo)之間的非線性關(guān)系。最大互信息系數(shù)定義為:

        其中:|X|、|Y|表示對(duì)數(shù)據(jù)進(jìn)行網(wǎng)格化處理時(shí)的分段個(gè)數(shù);B為劃分方格總數(shù)的限定值,可根據(jù)實(shí)際情況進(jìn)行設(shè)定。

        3 實(shí)驗(yàn)和結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        數(shù)據(jù)來源于深圳市第二人民醫(yī)院腦卒中篩查與預(yù)防項(xiàng)目(倫理審批號(hào):20200116002)。受試者為年齡超過40 歲的本地居民,共入組2 626名,建立了含有缺失值的原始數(shù)據(jù)集,包括34 項(xiàng)特征和1 項(xiàng)標(biāo)簽,缺失數(shù)據(jù)分布情況如表1 所示。34個(gè)特征說明如表2 所示。同時(shí),通過去除含有缺失值的樣本,得到另一組數(shù)據(jù)集(完整數(shù)據(jù)集),共2 049個(gè)樣本。這些特征屬性包括問卷調(diào)查、實(shí)驗(yàn)室檢查和體格檢查。另外,本文將頸動(dòng)脈超聲檢查結(jié)果作為分類目標(biāo):頸動(dòng)脈正常(標(biāo)簽0)和異常(標(biāo)簽1)。頸動(dòng)脈超聲檢查結(jié)果異常包括CIMT、頸動(dòng)脈狹窄或出現(xiàn)斑塊;相反,檢查結(jié)果正常代表頸動(dòng)脈無異常。為了避免數(shù)據(jù)不平衡問題,隨機(jī)選取最大數(shù)量的正常樣本,得到兩個(gè)平衡數(shù)據(jù)集Dx和Dc。Dc不含缺失數(shù)據(jù),Dx包含缺失數(shù)據(jù),且每個(gè)樣本缺失值個(gè)數(shù)不超過5。使用MKNN 和改進(jìn)的VAE對(duì)數(shù)據(jù)集Dx 分別進(jìn)行填補(bǔ),得到兩個(gè)完整的數(shù)據(jù)集Dm 和Dv,如圖2所示。

        表1 缺失值分布情況Tab.1 Distribution of missing value

        表2 特征變量說明Tab.2 Description of feature variables

        圖2 數(shù)據(jù)處理過程Fig.2 Data processing process

        圖2顯示了數(shù)據(jù)的處理過程。其中使用改進(jìn)的VAE的具體步驟為:先對(duì)含有缺失值的數(shù)據(jù)集進(jìn)行預(yù)填充,即用每個(gè)對(duì)應(yīng)屬性中已經(jīng)出現(xiàn)的任意一個(gè)數(shù)值來填充缺失部位的值,得到預(yù)填補(bǔ)后的數(shù)據(jù)集,這樣做僅僅是為了能夠進(jìn)行數(shù)學(xué)計(jì)算;再將預(yù)填充的數(shù)據(jù)集作為改進(jìn)的VAE 的輸入(Input),經(jīng)過處理得到輸出(Output);然后保持原始數(shù)據(jù)集中真實(shí)數(shù)值不變,用Output中的數(shù)據(jù)填補(bǔ)缺失值,即得到填補(bǔ)后的數(shù)據(jù)集。

        3.2 實(shí)驗(yàn)設(shè)置

        所有實(shí)驗(yàn)均在一臺(tái)本地工作站(Intel Core I5-6500 CPU 3.20 GHz,內(nèi)存20 GB)上操作運(yùn)行。用Python3.7 來處理數(shù)據(jù)集,并進(jìn)行模型建立和分析。VAE 部分,使用Tensorflow 框架來建立深度學(xué)習(xí)模型。

        數(shù)據(jù)集按照7∶3 的比例劃分為訓(xùn)練集和測試集,并保證訓(xùn)練集和測試集的正負(fù)樣本數(shù)量保持平衡。模型建立之前先對(duì)特征作歸一化處理,以免因數(shù)據(jù)范圍的不同而影響模型的性能。每個(gè)實(shí)驗(yàn)重復(fù)5次,得到平均結(jié)果。

        本文首先進(jìn)行特征分析的實(shí)驗(yàn),對(duì)特征進(jìn)行排序;接著對(duì)數(shù)據(jù)集Dc、Dm 和Dv 分別運(yùn)用遺傳算法進(jìn)行特征篩選并建立有監(jiān)督模型,以此評(píng)估數(shù)據(jù)填補(bǔ)方法的性能;然后,建立半監(jiān)督模型;最后,對(duì)比所有模型結(jié)果。設(shè)置遺傳算法L=34,Pc=0.6,Pm=0.2,T=300。

        3.3 實(shí)驗(yàn)結(jié)果

        利用Pearson、MIC、遞推特 征消除(Recursive Feature Elimination,RFE)法、RF 與XGBT 內(nèi)置的屬性重要度法來確定所有特征的重要性,每種方法都將結(jié)果歸一化到區(qū)間[0,1]。綜合這6 種分析的結(jié)果,對(duì)特征進(jìn)行排序??紤]到結(jié)果的可靠性,本文對(duì)不含缺失值的數(shù)據(jù)集Dc進(jìn)行特征分析,圖3顯示了特征排序的結(jié)果,LR_REF 和SVM_REF 表示基于LR和SVM 建模的遞推特征消除法。可以看出,不同的方法得到的結(jié)果具有很大程度的一致性,這說明所得的特征排序能夠反映特征與目標(biāo)之間的關(guān)系。腰圍、年齡、卒中家族史、脈壓、同型半胱氨酸等特征的重要性比較高,表明它們與頸動(dòng)脈異常的發(fā)生關(guān)系密切,也暗示著腦卒中的風(fēng)險(xiǎn)。

        圖3 特征排序Fig.3 Feature rank

        3.3.1 監(jiān)督模型性能

        為了評(píng)估MKNN 和改進(jìn)的VAE 兩種方法填補(bǔ)缺失值的效果,采用LR、SVM、RF和XGBT 這四種有監(jiān)督學(xué)習(xí)方法結(jié)合GA分別對(duì)Dc、Dm 和Dv建立分類模型,其中基于數(shù)據(jù)集Dc所建的模型作為本實(shí)驗(yàn)的基線模型。表3 顯示了各個(gè)模型的性能指標(biāo),從中可以得出三個(gè)方面的結(jié)果:

        表3 不同模型的各項(xiàng)指標(biāo)對(duì)比Tab.3 Comparison of indices of different models

        1)對(duì)于用同種方法填補(bǔ)所得的數(shù)據(jù)集,不論是否進(jìn)行特征篩選,集成方法XGBT 明顯取得了最好的效果,集成方法RF在測試數(shù)據(jù)集上也取得了良好的結(jié)果;而在以往的大多數(shù)分類任務(wù)中被廣泛使用的LR 和SVM 模型,表現(xiàn)并不好。這說明,常見的監(jiān)督模型中,XGBT 模型更加適合用來對(duì)本文的數(shù)據(jù)進(jìn)行建模。

        2)對(duì)于不同數(shù)據(jù)集,不論是否進(jìn)行特征篩選,使用同種方法進(jìn)行建模時(shí),基于Dm 所得模型準(zhǔn)確率與Dc 的模型相當(dāng)或是提高2%左右;基于Dv 所得模型準(zhǔn)確率與Dc 的模型相比提高1%~4%;基于數(shù)據(jù)集Dv 構(gòu)建的分類模型的各項(xiàng)指標(biāo)均比對(duì)應(yīng)的由Dm 建立的模型提高2%以上。這說明對(duì)本實(shí)驗(yàn)數(shù)據(jù)集而言,MKNN和改進(jìn)的VAE都是不錯(cuò)的數(shù)據(jù)填補(bǔ)方法;而對(duì)于兩種填補(bǔ)方法而言,改進(jìn)的VAE的性能明顯優(yōu)于MKNN,這表明改進(jìn)的VAE是一種填補(bǔ)缺失值的更好方法。

        3)對(duì)比特征篩選前后的模型,可以發(fā)現(xiàn)運(yùn)用GA 進(jìn)行特征篩選后模型各項(xiàng)指標(biāo)都有所提升。這說明,使用GA 進(jìn)行特征篩選是得當(dāng)?shù)?,得到更少的特征?shù)量,使得模型復(fù)雜度降低,同時(shí)也使得模型性能得到提升。

        由于本文使用的是正負(fù)樣本數(shù)量相同的平衡數(shù)據(jù)集,所以對(duì)于每單個(gè)模型可以發(fā)現(xiàn)它的F1值和準(zhǔn)確率是相等的。

        對(duì)于數(shù)據(jù)集Dv,在XGBT 模型中,GA 篩選出了24 個(gè)特征。它們編號(hào)分別為(1,2,3,4,5,7,8,9,10,11,13,14,16,17,18,20,22,23,25,27,28,32,33,34),參考表2。

        3.3.2 基于改進(jìn)的變分自編碼器的半監(jiān)督模型性能

        由3.3.1 節(jié)知,改進(jìn)的VAE 是一種能夠填補(bǔ)不完全數(shù)據(jù)的較好的方法??紤]到它可以填補(bǔ)類型為離散值的特征,本文設(shè)想它也可以處理目標(biāo)中的值?;诖怂枷?,建立了一個(gè)分類模型。具體過程如下:首先隱藏一些標(biāo)簽,將目標(biāo)值轉(zhuǎn)換為含有缺失值的數(shù)據(jù);然后利用改進(jìn)的VAE 對(duì)不完整數(shù)據(jù)進(jìn)行估計(jì);再將估算的標(biāo)簽值與真實(shí)值進(jìn)行比較,并計(jì)算敏感度、特異性、F1 值和準(zhǔn)確率。同時(shí)參考3.3.1 節(jié),為了方便對(duì)比,也使用XGBT 模型中運(yùn)用的24 個(gè)特征。隨機(jī)刪除30%的標(biāo)簽來訓(xùn)練生成模型,這意味著訓(xùn)練集和測試集的比例為7∶3。重復(fù)5次實(shí)驗(yàn),取平均結(jié)果,見表4。

        表4 不同模型的結(jié)果對(duì)比Tab.4 Comparison of results of different models

        表4 實(shí)驗(yàn)結(jié)果表明,將特征進(jìn)行篩選之后,使用基于改進(jìn)的VAE 的分類方法所建立的模型各個(gè)分類指標(biāo)都有了明顯的提升。同時(shí),對(duì)比表2 和表3 的結(jié)果,發(fā)現(xiàn)基于改進(jìn)的VAE+GA 的方法(敏感性為0.893 8,特異性為0.927 2,F(xiàn)1 值為0.910 5,準(zhǔn)確性為0.910 5)在所有指標(biāo)中均獲得最佳結(jié)果。與常用的監(jiān)督模型相比,此方法所得模型各項(xiàng)指標(biāo)都提高了6%以上,同時(shí)對(duì)比本文的基線(基于平衡的完整數(shù)據(jù)集Dc 所建模型),可以發(fā)現(xiàn)基于改進(jìn)的VAE+GA 的半監(jiān)督模型性能提升明顯。

        4 結(jié)語

        利用醫(yī)療數(shù)據(jù),本文提出基于改進(jìn)的變分自編碼器的半監(jiān)督模型來識(shí)別和預(yù)測異常頸動(dòng)脈,進(jìn)而間接達(dá)到腦卒中大規(guī)模初步篩查的目的。它是一種簡單的分類模型,僅僅依靠常規(guī)的體檢和家族病史信息;同時(shí)該方法還能夠填補(bǔ)丟失的數(shù)據(jù),使得數(shù)據(jù)集可以在更廣泛的分類算法中得以運(yùn)用。另外,分析了每個(gè)特征屬性與目標(biāo)值之間的關(guān)聯(lián),尤其是篩選出來的24 個(gè)使得模型效果最好的特征屬性,可以在日常生活中重點(diǎn)關(guān)注,這對(duì)預(yù)防和風(fēng)險(xiǎn)控制提供了參考。

        在未來的工作中,我們可能會(huì)收集更多的樣本和特征屬性來建立更有說服力的模型;對(duì)特征屬性進(jìn)行更為細(xì)致的分析和篩選,在探究特征屬性與卒中的關(guān)系的同時(shí),使得模型更加簡潔;此外,篩選一部分年齡不太大的個(gè)體,對(duì)其進(jìn)行長期跟蹤,以此來評(píng)估和改進(jìn)提出的模型。同時(shí),本文提出的半監(jiān)督模型也可以轉(zhuǎn)化為安裝在移動(dòng)設(shè)備上的應(yīng)用程序,用于腦卒中的早期自我篩查。

        猜你喜歡
        頸動(dòng)脈分類樣本
        分類算一算
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        分類討論求坐標(biāo)
        推動(dòng)醫(yī)改的“直銷樣本”
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        村企共贏的樣本
        三維超聲在頸動(dòng)脈內(nèi)膜剝脫術(shù)前的應(yīng)用價(jià)值
        腦微出血與頸動(dòng)脈狹窄的相關(guān)性分析
        国产一区二区三区三区四区精品| 麻豆国产巨作AV剧情老师| 九九精品国产99精品| 亚洲av色香蕉一区二区三区潮| 99久久精品免费看国产一区二区三区| 欧美怡红院免费全部视频| 国产爆乳乱码女大生Av| 都市激情亚洲综合一区| 日本一区二区三区视频国产| 成人网站免费看黄a站视频| 欧美中文在线观看| 国产一区二区三区经典| 国产高清一区二区三区四区色| 亚洲精品成人网线在线播放va| 色yeye免费视频免费看| 国产精品农村妇女一区二区三区 | 国产伦精品一区二区三区免费| 91视频爱爱| 小黄片免费在线播放观看| 好大好湿好硬顶到了好爽视频| 日韩精品中文字幕无码一区| 色综合999| 亚洲中文字幕精品久久a| 亚洲a∨无码一区二区三区| chinesefreexxxx国产麻豆| 亚洲毛片av一区二区三区| 日韩中文字幕在线观看一区| 99精品国产在热久久| 亚洲色成人WWW永久在线观看| 91精品蜜桃熟女一区二区| 永久天堂网av手机版| 国产第19页精品| av东京热一区二区三区| 91丝袜美腿亚洲一区二区| 久久人与动人物a级毛片| 久久中文字幕日韩无码视频| 国产一品二品三区在线观看| 最新日本一道免费一区二区| 伊人久久大香线蕉免费视频| 国内偷拍第一视频第一视频区 | 精品人妻午夜一区二区三区四区 |