亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LSTM-SVM模型和SNP遺傳信息的帕金森疾病識(shí)別問(wèn)題研究

        2021-12-17 11:18:58劉寶民汪健冬郭志佳喬夢(mèng)茹
        電子測(cè)試 2021年22期
        關(guān)鍵詞:特征模型

        劉寶民,汪健冬,郭志佳,喬夢(mèng)茹

        (1.魯東大學(xué)物理學(xué)院,山東煙臺(tái),264025;2.魯東大學(xué)數(shù)學(xué)與統(tǒng)計(jì)科學(xué)學(xué)院,山東煙臺(tái),264025)

        0 引言

        帕金森病(Parkinson’s disease, PD)是繼阿茨海默病之后的第二大類神經(jīng)系統(tǒng)變性疾病, 常發(fā)于中老年人群。目前全球PD患病率約405/10萬(wàn),預(yù)計(jì)至2030年我國(guó)患病人數(shù)將達(dá)到494萬(wàn)人[1],因此準(zhǔn)確診斷PD越具有重要意義。

        國(guó)內(nèi)對(duì)于深度學(xué)習(xí)與帕金森疾病診斷的研究,根據(jù)研究的內(nèi)容,大致可分為兩個(gè)方面:深度學(xué)習(xí)在醫(yī)學(xué)影像上的應(yīng)用,如王洋等人[2],根據(jù)卷積神經(jīng)網(wǎng)絡(luò)對(duì)于MRI圖像進(jìn)行研究、并進(jìn)行反卷積處理,張巧麗等人[3]使用深度學(xué)習(xí)方法實(shí)現(xiàn)對(duì)帕金森疾病、多系統(tǒng)萎縮癥和健康人群的診斷;深度學(xué)習(xí)在患者行為表現(xiàn)方面的識(shí)別,如張穎等人[4]提取聲紋特征、DNN識(shí)別并分類的方法用于區(qū)分PD患者和健康人,焦嘉烽[5]提出深度學(xué)習(xí)與聲譜圖的帕金森癥檢測(cè)方法,王金甲等人[6]基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)并識(shí)別出步態(tài)凍結(jié),李彥琳等人[7]設(shè)計(jì)了一種基于DCNN的步態(tài)識(shí)別方法,用于PD患者的步態(tài)分類和嚴(yán)重程度等級(jí)評(píng)定。

        盡管有了很多卓有成效的研究,但是結(jié)合深度學(xué)習(xí),在遺傳基因方面對(duì)于帕金森疾病的研究并不常見(jiàn),缺乏遺傳學(xué)角度對(duì)帕金森疾病成因的分析。因此,本文在使用LSTM網(wǎng)絡(luò)提取SNP數(shù)據(jù)特征的基礎(chǔ)上,使用不同的分類器,對(duì)于提取后的特征進(jìn)一步分類,實(shí)現(xiàn)對(duì)于基因數(shù)據(jù)在帕金森疾病診斷上的應(yīng)用。

        1 基于LSTM-SVM的SNP數(shù)據(jù)診斷帕金森疾病模型

        1.1 模型概述

        首先對(duì)于SNP數(shù)據(jù)進(jìn)行預(yù)處理:質(zhì)量控制、獨(dú)熱編碼、時(shí)間序列化處理。在對(duì)數(shù)據(jù)預(yù)處理之后,我們對(duì)于基因數(shù)據(jù)使用LSTM提取特征。對(duì)于LSTM提取出的特征分別使用LSTM(Linear Classifier)、XGBoost算法、LightGBM算法、SVM算法、隨機(jī)森林分類器對(duì)結(jié)果進(jìn)行對(duì)比,如圖1所示。腳本使用Python編程語(yǔ)言開(kāi)發(fā),仿真在Intel Core i5 2.3 GHz處理器、12Gb隨機(jī)存取存儲(chǔ)器(RAM)和2核的機(jī)器上執(zhí)行。

        圖1 LSTM-SVM算法流程圖

        1.2 LSTM原理

        長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)是改進(jìn)后的循環(huán)神經(jīng)網(wǎng)絡(luò),它在原有RNN的基礎(chǔ)上,增加了三個(gè)門(mén)控單元,用于控制信息傳遞,有效解決了長(zhǎng)序列在輸入RNN后的梯度消失或爆照缺陷[8]。由于遺傳基因具有一定的時(shí)序性,即前面的數(shù)據(jù)對(duì)后面的數(shù)據(jù)有影響,而LSTM利用專門(mén)進(jìn)行記憶的存儲(chǔ)單元,保存記憶的同時(shí)避免了梯度消失與爆炸的現(xiàn)象,較為適合時(shí)間序列化的基因數(shù)據(jù)的特征提取。

        1.3 SVM原理

        根據(jù)輸入數(shù)據(jù),將數(shù)據(jù)所在的特征空間的超平面作為決策邊界,可以把學(xué)習(xí)目標(biāo)分為兩類,同時(shí)使任意樣本點(diǎn)到超平面距離大于1[9]。通過(guò)求解最大邊距超平面,結(jié)合約束條件,將硬邊界SVM轉(zhuǎn)化為二次凸優(yōu)化問(wèn)題求解。其中,LSTM提取出的特征,作為輸入數(shù)據(jù)X,進(jìn)行訓(xùn)練。

        2 數(shù)據(jù)集與預(yù)處理

        2.1 數(shù)據(jù)來(lái)源

        本文中的SNP數(shù)據(jù)來(lái)自PPMI(Parkinson’s Progression Markers Initiative)數(shù)據(jù)庫(kù)(ida.loni.usc.edu),共選取了533個(gè)測(cè)試對(duì)象,包含167位正常人和366位患者。測(cè)試對(duì)象共有349位男性,184位女性,年齡分布為31歲至85歲,

        2.2 數(shù)據(jù)預(yù)處理

        基因數(shù)據(jù)預(yù)處理包括質(zhì)量控制、獨(dú)熱編碼與時(shí)間序列化處理。本文獲取的SNP數(shù)據(jù)記錄每個(gè)測(cè)試對(duì)象位于各條染色體上某一位點(diǎn)發(fā)生突變的情況。在對(duì)基因數(shù)據(jù)做相關(guān)分析時(shí),需要對(duì)其進(jìn)行質(zhì)量控制:首先,統(tǒng)計(jì)533個(gè)測(cè)試對(duì)象發(fā)生變異的位點(diǎn),對(duì)其計(jì)數(shù)共6851個(gè)位點(diǎn);其次,進(jìn)行純雜合處理,對(duì)SNP數(shù)據(jù)重編碼,記隱形純合(即0/0)為1,雜合(即0/1)為 2,顯性純合(即 1/1)為 3,存在個(gè)別情況(即 1/2)記為4,染色體上出現(xiàn)位點(diǎn)信息缺失記為0;然后,對(duì)測(cè)試對(duì)象與SNP基因位點(diǎn)的檢測(cè)和篩選,如果出現(xiàn)5%測(cè)試對(duì)象中同時(shí)缺失某個(gè)SNP位點(diǎn),那么就去掉該SNP位點(diǎn),如果某個(gè)測(cè)試對(duì)象缺失5% SNP位點(diǎn),那么就去掉該測(cè)試對(duì)象;最終,保留533個(gè)樣本對(duì)象,76個(gè)SNP位點(diǎn)。

        由于后續(xù)處理使用LSTM網(wǎng)絡(luò)提取特征,需要對(duì)獨(dú)熱編碼后的基因數(shù)據(jù)進(jìn)行時(shí)間序列化處理。對(duì)于j個(gè)特征的樣本,這里將每一個(gè)樣本的基因特征都轉(zhuǎn)化為長(zhǎng)為m的序列,序列中每一元素的特征維度是n,滿足m*n=j。

        3 實(shí)驗(yàn)與結(jié)果

        3.1 設(shè)計(jì)LSTM-SVM結(jié)構(gòu)與優(yōu)化

        由于預(yù)處理后的基因數(shù)據(jù)維度j=256,維度不大,設(shè)置hidden_size=256,num_layers=3。為了增強(qiáng)特征提取的可操作性,設(shè)置兩層全連接層,第一層用于特征提取,第二層用于LSTM模型準(zhǔn)確率判斷。時(shí)間序列化的m切割份數(shù)與輸出特征維度作為超參數(shù)進(jìn)行調(diào)節(jié)。在使用SVM對(duì)提取的特征進(jìn)行分類時(shí),同樣需要對(duì)超參數(shù)進(jìn)行調(diào)節(jié)。這里使用網(wǎng)格搜索來(lái)確定最佳參數(shù),以準(zhǔn)確率作為參數(shù)調(diào)節(jié)依據(jù)。

        3.2 實(shí)驗(yàn)與結(jié)果

        本文使用十折交叉驗(yàn)證進(jìn)行診斷任務(wù)的評(píng)估。其中,隨機(jī)抽取10%的受試者作為測(cè)試樣本,其余受試者作為訓(xùn)練樣本。以平均準(zhǔn)確率作為最終模型的表現(xiàn)結(jié)果。

        為了評(píng)估模型性能,引入了多個(gè)經(jīng)典分類器:XGBoost算法、LightGBM算法、隨機(jī)森林算法,作為對(duì)比,構(gòu)建LSTMXGBoost、LSTM-LightGBM、LSTM-RF三個(gè)模型。同時(shí)直接使用LSTM進(jìn)行分類,作為對(duì)照組。我們還引入了PCA算法,作為特征處理的另一類方式,用于比較,對(duì)于該方法,我們對(duì)SNP基因數(shù)據(jù)進(jìn)行質(zhì)量控制與獨(dú)熱編碼處理,跳過(guò)時(shí)間序列化處理,直接進(jìn)行數(shù)據(jù)降維,與分類器結(jié)合,形成:PCA-XGBoost、PCA-LightGBM、PCA-SVM、PCA-RF四個(gè)模型。

        根據(jù)圖2可知,本文使用的模型方法表現(xiàn)最優(yōu),準(zhǔn)確率達(dá)到了0.73。對(duì)于同一特征提取方法而言,SVM分類效果最好,這可能與SVM能夠求解凸優(yōu)化問(wèn)題的全局最小值、是一個(gè)小樣本學(xué)習(xí)方法有關(guān);根據(jù)圖2可知,對(duì)于同一方法而言,LSTM對(duì)基因數(shù)據(jù)特征提取比PCA特征降維的表現(xiàn)更好。

        圖2 不同模型準(zhǔn)確率間的比較

        4 結(jié)論

        本文中我們?cè)O(shè)計(jì)了新的帕金森疾病診斷深度學(xué)習(xí)框架,該框架能夠?qū)W習(xí)基因數(shù)據(jù)的潛在特征;潛在特征的提取后,SVM進(jìn)行分類?;赑PMI數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,LSTM-SVM算法診斷帕金森疾病的準(zhǔn)確率高于使用PCA-SVM、LSTM-RF等方法。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        中文字幕无码人妻丝袜| 曰韩无码av一区二区免费| 无码国内精品久久人妻| 色婷婷久久综合中文久久蜜桃av| 免费看奶头视频的网站| 日韩精品免费一区二区中文字幕 | 日韩免费小视频| 日本福利视频免费久久久| 精品人妻69一区二区三区蜜桃| 最近中文字幕国语免费| 毛茸茸的中国女bbw| 欧美v日韩v亚洲综合国产高清| 免费观看在线视频播放| 久久人人爽人人爽人人片av高请| 午夜精品久久久久久| 97中文字幕在线观看| 青青草成人免费播放视频| 蜜臀av在线观看| 人人玩人人添人人澡| 亚洲综合色婷婷久久| 亚洲国产一区二区网站| 国产激情艳情在线看视频| 国产精品区一区第一页| AV无码专区亚洲AVL在线观看| 国产在线精品成人一区二区三区| 国产a国产片国产| 毛片免费在线播放| 日产精品一区二区在线| 人妻少妇中文字幕在线观看| 亚洲午夜无码av毛片久久| 欧美色色视频| 成人影院羞羞的视频免费观看 | 天天躁夜夜躁狠狠躁2021a2| 欧美视频二区欧美影视| 国产亚洲精品成人av在线| 日本一区二区三区高清在线视频| 99久久人妻精品免费二区| 无码人妻精品一区二区三区下载 | 国内精品免费一区二区三区| 亚洲国产美女精品久久久| 国产在线视频h|