亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Convolutional-LSTM的蛋白質(zhì)亞細胞定位研究*

        2019-06-19 12:34:16王春宇徐珊珊郭茂祖劉曉燕
        計算機與生活 2019年6期
        關(guān)鍵詞:特征實驗方法

        王春宇,徐珊珊,郭茂祖,2+,車 凱,劉曉燕

        1.哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,哈爾濱 150001

        2.北京建筑大學(xué) 電氣與信息工程學(xué)院,北京 100044

        1 引言

        細胞是一個高度有序的結(jié)構(gòu),其內(nèi)部包含多種細胞器,諸如細胞核、細胞壁、核糖體、線粒體、高爾基體等,這些細胞器統(tǒng)稱為亞細胞位置。蛋白質(zhì)是細胞最重要的組成物質(zhì)之一。一種蛋白質(zhì)只有處于特定的亞細胞位置,其功能才能正常表達,否則生物體就會發(fā)生嚴(yán)重功能缺失或紊亂。因此,蛋白質(zhì)的亞細胞定位,是藥物設(shè)計、蛋白質(zhì)組學(xué)、細胞生物學(xué)的基本目標(biāo)之一[1-4]。

        生命科學(xué)研究進入后基因組時代以來,基因組學(xué)和蛋白質(zhì)組學(xué)的高速發(fā)展使得生物信息的信息量膨脹極為迅速。采用生化實驗的方法,進行蛋白質(zhì)亞細胞定位,耗時費物,遠不能適應(yīng)蛋白質(zhì)數(shù)據(jù)海量增長的現(xiàn)狀。因此,探索自動化處理大規(guī)模生物信息方法的重要性顯得愈加突出[5]。

        最近提出的性能優(yōu)良的亞細胞定位方法大多使用基因本體論(gene ontology,GO)來構(gòu)造特征向量進行分類。盡管這些預(yù)測器的性能都很好,它們的預(yù)測結(jié)果卻很難解釋,因為其中涉及到了大量的GO注釋。本文不再使用GO數(shù)據(jù),選擇最原始氨基酸序列數(shù)據(jù)作為問題輸入,這既保留了蛋白質(zhì)的序列信息,又降低了預(yù)處理大規(guī)模蛋白質(zhì)數(shù)據(jù)集時難度。

        本文把蛋白質(zhì)亞細胞定位問題看成一個分類問題??紤]到領(lǐng)域移植的便捷性和人工構(gòu)造特征的諸多不便,采用端到端的深度學(xué)習(xí)方法。首先嘗試基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法。該方法能自動從氨基酸序列中抽取隱含的特征,從而進行蛋白質(zhì)亞細胞定位,但是CNN模型對氨基酸序列空間序列關(guān)系的刻畫能力不強。因此,為了能更好地挖掘氨基酸序列的時序關(guān)系,使用LSTM(long short-term memory network)學(xué)習(xí)分段后的氨基酸序列,但LSTM比較依賴氨基酸的分段方法,即每個時刻輸入的序列片段?;谏鲜銮闆r,根據(jù)任務(wù)和氨基酸序列的特殊性,結(jié)合了CNN和LSTM的優(yōu)點,構(gòu)建了一種基于卷積的長短期記憶網(wǎng)絡(luò)(Convolutional-LSTM,ConvLSTM),使用CNN從氨基酸序列中抽取特征信息,隨后對特征信息進行重新組合,使用LSTM學(xué)習(xí)重新組合后的特征,得到分類結(jié)果。該網(wǎng)絡(luò)兼顧了氨基酸序列的隱含特征信息和序列中氨基酸之間的時序關(guān)系。

        2 相關(guān)工作

        蛋白質(zhì)的亞細胞位置決定了它的生物學(xué)功能。目前,利用實驗手段進行亞細胞定位的方法大致分為以下三種:(1)熒光顯微法;(2)電子顯微法;(3)超速離心分離法。但是,這些技術(shù)既費時,又不易于推廣到大規(guī)模蛋白質(zhì)亞細胞定位中去。隨著蛋白質(zhì)相關(guān)數(shù)據(jù)庫數(shù)據(jù)量的快速增長,為了更好地研究蛋白質(zhì)的結(jié)構(gòu)和功能,越來越多的機器學(xué)習(xí)方法被應(yīng)用到蛋白質(zhì)亞細胞定位的研究中[6-7]。

        一般來說,亞細胞定位方法包括以下三個步驟:

        (1)蛋白質(zhì)特征信息的提取。從蛋白質(zhì)相關(guān)數(shù)據(jù)庫中搜尋蛋白質(zhì)的特征信息,或者根據(jù)蛋白質(zhì)的序列特征(如:不同氨基酸的親水和疏水指標(biāo))建立蛋白質(zhì)的特征向量作為蛋白質(zhì)亞細胞定位預(yù)測的輸入。特征信息的選取不同對于亞細胞定位預(yù)測的精度有較大的影響。

        (2)選擇合適的機器學(xué)習(xí)算法,根據(jù)提取的特征信息對蛋白質(zhì)定位進行預(yù)測。算法是影響亞細胞定位預(yù)測精度的重要因素之一,目前主要的方法有支持向量機(support vector machine,SVM)、K階最近鄰(K-nearest neighbor,KNN)和神經(jīng)網(wǎng)絡(luò)。

        (3)選用不同的檢驗方法(如Jackknife檢驗和獨立樣本檢驗)對預(yù)測結(jié)果進行評價。

        本文為了與前人方法進行更好的對比,選用一種經(jīng)典的方法——基于SVM的MultiLoc方法,作為基線方法[8]。

        如圖1所示,MultiLoc是一種基于SVM方法。該方法將蛋白質(zhì)序列數(shù)據(jù)作為輸入,分別輸入到第一層的四種預(yù)測方法SVMTarget、SVMSA、SVMaac和MotifSearch中,得到包含每個蛋白質(zhì)特征的信息向量PPV(protein profile vector);然后將PPV作為輸入,使用一種1對1的SVM方法——TargetLoc,根據(jù)概率估計進行分類。

        3 蛋白質(zhì)亞細胞定位算法

        3.1 基于卷積神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)亞細胞定位

        CNN模型已被證實在圖像識別、文本分類等任務(wù)中具有良好表現(xiàn)[9-11]。亞細胞定位問題實質(zhì)上是一個分類問題,因此嘗試使用基于CNN模型的亞細胞定位。CNN模型由輸入層、卷積層、特征組合層和Softmax層組成。

        (1)輸入層

        對于給定長度為n的氨基酸系列,使用xi∈Rk代表氨基酸序列中第i個氨基酸經(jīng)過獨熱編碼后的向量,整個氨基酸序列可以表示成x1:n∈Rn×k,由每一個氨基酸向量連接而成,如式(1)所示:

        其中,⊕代表將氨基酸向量依次進行連接操作。

        (2)卷積層

        卷積操作可以看作是基于滑動窗口的特征提取,主要用來捕捉氨基酸之間的局部信息。在生物學(xué)上,由多個氨基酸組成的多肽才能行使功能,因此選用1-D的卷積核,將若干個氨基酸一起卷積,抽象其特征。

        本文定義了兩步卷積操作。首先,對于輸入的氨基酸序列進行卷積,定義1-D卷積核的長度為hk,大小為ω∈R1×(hk),即窗口中有h個長度為k的氨基酸。卷積核通過式(2)所示的操作得到一個特征表示:

        該卷積核依次對氨基酸序列中所有的窗口{x1:h,x2:h+1,x3:h+2,…,xn-h+1:n}進行滑動卷積,得到一個feature mapF∈Rn-h+1,如式(3)所示:

        Fig.1 Method of MultiLoc圖1 MultiLoc方法

        定義m個卷積核,得到m個F。

        隨后設(shè)定不同長度的1-D卷積核對初步卷積后的氨基酸局部信息再卷積,得到不同的抽象特征。

        (3)特征組合

        將卷積操作后得到的所有feature map依次拼接在一起,保留所有的局部特征,將其作為全連接層的輸入。

        (4)Softmax層

        針對本文使用的數(shù)據(jù),輸出類別數(shù)即蛋白質(zhì)亞細胞位置數(shù)。比如針對使用的動物蛋白,該模型的Softmax層輸出維度為9。Softmax之所以適用于本問題的場景,在于它的輸出可以解釋成條件概率,根據(jù)條件概率的值可以確定蛋白質(zhì)被分到哪一類亞細胞結(jié)構(gòu)中去。

        3.2 基于長短期記憶網(wǎng)絡(luò)的蛋白質(zhì)亞細胞定位

        基于CNN的蛋白質(zhì)亞細胞定位方法雖然對蛋白質(zhì)進行深層特征抽取得到了亞細胞定位,但在特征抽取的過程中沒有考慮到氨基酸的時序信息。氨基酸的先后信息,即其排列方式一定會對其功能的表達產(chǎn)生影響,因此為了更好地對氨基酸的時序信息建模,考慮采用LSTM模型。

        LSTM由Hochreiter等人于1997年提出,是一種時間遞歸神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)長期依賴信息[12]。LSTM模型由輸入層、長短期記憶層和Softmax分類層組成,LSTM層由一系列重復(fù)的Cell組成,最后一個Cell的輸出為送入Softmax層。

        (1)輸入層

        由于實際的實驗設(shè)置中,氨基酸序列中包含1 000個氨基酸,每個氨基酸向量長度為20,若以每個氨基酸向量作為一個時刻的輸入,那么每個時刻得到的信息過少,不能很好地發(fā)揮LSTM的效果。因此在這部分實驗中,將每10個或每20個連續(xù)的氨基酸連接在一起,作為一個時刻的輸入,確保每個時刻的輸入能包含足夠多的信息。按照順序依次將氨基酸片段送入對應(yīng)的Cell,以保證氨基酸序列的時序性。

        (2)長短期記憶層

        Fig.2 Cell of LSTM圖2LSTM的Cell

        長短期記憶層由一系列重復(fù)的Cell組成,如圖2所示。每個Cell接受上一時刻的隱層輸出ht-1以及當(dāng)前時刻的輸入xt。每個Cell由輸入門it、遺忘門ft和輸出門ot組成,對于LSTM中的每個Cell,其工作方式如下:

        遺忘門用于控制清除或保留現(xiàn)有信息的程度,其中σ為sigmoid激活函數(shù)。

        輸入門用于控制當(dāng)前輸入xt和上一層隱層輸出ht-1中哪些新的信息將被輸入。

        tanh層用于Cell的更新變換,計算什么新信息將被存放在cell狀態(tài)中,其中tanh為激活函數(shù)。

        計算新的候選值,即下一個時刻的狀態(tài),更新舊Cell狀態(tài)。

        輸出門用于確定Cell狀態(tài)哪部分能輸出:

        最終的隱層輸出:

        (3)Softmax層

        與CNN中的Softmax層相同。

        3.3 基于卷積長短期記憶網(wǎng)絡(luò)的蛋白質(zhì)亞細胞定位

        ConvLSTM模型是Sainath等人[13]于2015年首次提出的,并在語音、圖像等領(lǐng)域有了一些應(yīng)用[14-15]。

        本文將該模型應(yīng)用到蛋白質(zhì)細胞定位的問題上:首先,為了增強特征表達,使用多層的卷積神經(jīng)網(wǎng)絡(luò)特征代替?zhèn)鹘y(tǒng)的手工特征。多層卷積特征融合了低層局部信息和高層功能信息,能夠捕獲豐富的空間信息。然后,將提取到的卷積特征經(jīng)過特征組合后輸入LSTM層。最后,通過Softmax層得到最后的分類結(jié)果。結(jié)構(gòu)如圖3所示,包含了輸入層、卷積層、特征組合層、長短期記憶層和Softmax層。

        Fig.3 Model of ConvLSTM圖3ConvLSTM模型

        與前人工作的不同在于卷積的方式和特征組合的方式,為了能使卷積更有意義,使用上述CNN方式中敘述的卷積方式,獲取特征表達;特征組合層的每個向量將卷積后的每個feature map的第i維對應(yīng)的元素順序相連,如式(10)所示:

        這樣將向量根據(jù)卷積的先后順序進行重新組合,保證了LSTM層輸入的時序性。

        4 實驗結(jié)果分析

        4.1 實驗數(shù)據(jù)

        使用SWISS-PROT數(shù)據(jù)庫,數(shù)據(jù)庫中包含了5 959個蛋白質(zhì)的氨基酸序列數(shù)據(jù),分別被注釋為11種亞細胞位置:葉綠體蛋白(chloroplast proteins)、細胞質(zhì)蛋白(cytoplasmic proteins)、內(nèi)質(zhì)網(wǎng)蛋白質(zhì)(exndoplasmic reticulum(ER)proteins)、胞外蛋白(extracellular proteins)、高爾基體蛋白(Golgi apparatus proteins)、溶酶體蛋白(lysosomal proteins)、線粒體蛋白(mitochondrial proteins)、核蛋白(nuclear proteins)、過氧化氫酶蛋白(peroxisomal proteins)、膜蛋白(plasma membrane proteins)、空泡蛋白(vacuolar proteins)[7]。每個亞細胞位置的蛋白質(zhì)含量如表1所示。

        Table1 SWISS-PROT dataset表1 SWISS-PROT數(shù)據(jù)集

        數(shù)據(jù)下載地址為http://abi.inf.uni-tuebingen.de/Services/MultiLoc2。

        不同的物種所包含的蛋白質(zhì)種類也有不同:動物包含細胞質(zhì)蛋白、內(nèi)質(zhì)網(wǎng)蛋白質(zhì)、胞外蛋白、高爾基體蛋白、溶酶體蛋白、線粒體蛋白、核蛋白、過氧化氫酶蛋白、膜蛋白這9類蛋白,其中經(jīng)過細胞膜的有除去細胞質(zhì)蛋白及胞外蛋白以外的7類;真菌也包含9類蛋白,分別是細胞質(zhì)蛋白、內(nèi)質(zhì)網(wǎng)蛋白質(zhì)、胞外蛋白、高爾基體蛋白、線粒體蛋白、核蛋白、過氧化氫酶蛋白、膜蛋白、空泡蛋白;而植物只包含葉綠體蛋白和細胞質(zhì)蛋白兩類蛋白。因此,實驗過程中,也將數(shù)據(jù)集中的蛋白質(zhì)數(shù)據(jù)按物種劃分,重新組合成4組數(shù)據(jù)。

        由于支持向量機等模型不能自然地處理不等長的序列,因此需要手動提取特征作為模型輸入。在以往的實驗中,大多使用GO數(shù)據(jù)進行蛋白質(zhì)特征提取,然后應(yīng)用機器學(xué)習(xí)模型進行分類。這個提取特征的過程非常復(fù)雜,耗時耗力。由于蛋白質(zhì)的性質(zhì)是由其上的氨基酸排列、蛋白質(zhì)的空間結(jié)構(gòu)決定的,在實驗中直接使用氨基酸序列作為輸入,既省去了手工提取特征的工作,又保留了序列信息。

        4.2 性能評價

        本文采用10重交叉驗證對分類器性能進行評估:將樣本分成10份,每次取出其中1份作為測試集,剩余9份作為訓(xùn)練集,于是得到10組相對應(yīng)的訓(xùn)練集和測試集。對于每組數(shù)據(jù),使用訓(xùn)練集訓(xùn)練模型,計算模型在對應(yīng)測試集上的準(zhǔn)確率(accuracy,ACC)。準(zhǔn)確率為被正確識別樣本占總體的比例,可以表示為:

        其中,tp(i)是第i類樣本被正確識別的數(shù)量(稱真陽數(shù)),N是測試樣本的數(shù)量,k是樣本的類別數(shù)。

        該方法的總體準(zhǔn)確率Totalaccuracy為:

        4.3 實驗結(jié)果分析

        4.3.1 三種模型在不同物種數(shù)據(jù)集上的實驗結(jié)果

        為了減少計算時間,該部分實驗中,將蛋白質(zhì)序列長度減少到1 000。根據(jù)分選信號進行刪減:選擇包含N端分選信號的蛋白質(zhì)片段,即保留從氨基酸序列左側(cè)開始的1 000位氨基酸,不夠1 000位的在右側(cè)尾端填充0。

        對于所選用的數(shù)據(jù)集,其中包含了20種氨基酸,因此獨熱編碼后,每個氨基酸向量的長度k=20。即,使用20位的01字符串,表示該氨基酸的位編碼為1,其他位全部為0。

        CNN實驗中,第一層1-D卷積核長度為3×20,個數(shù)為100個;第二層設(shè)置6種不同大小的1-D卷積核,長度分別為1、3、5、9、15、21,每種20個;全連接層節(jié)點數(shù)為400。卷積部分的激活函數(shù)全部選用ReLU激活函數(shù)。

        LSTM中,設(shè)置兩種不同的氨基酸分段方法,輸入長度分別為10×20和20×20,對應(yīng)的time step為100和50,全連接層節(jié)點數(shù)N為400。同時設(shè)置一個普通的CNN作為對比,輸入層為整個氨基酸序列,節(jié)點數(shù)為1 000×20,隱藏層400個節(jié)點。

        ConvLSTM中全連接節(jié)點數(shù)1 000,其余參數(shù)與上述二者相同。

        其他參數(shù)設(shè)置:batch size為50,學(xué)習(xí)率為0.001,迭代30次。實驗結(jié)果如表2所示。

        Table2 Accuracy of 3 models on different species datasets表2 三種模型在不同物種數(shù)據(jù)集上的準(zhǔn)確率

        通過對比MultiLoc方法,可以看出CNN、LSTM的方法對蛋白質(zhì)亞細胞定位問題有一定效果,但在真菌和動物蛋白質(zhì)數(shù)據(jù)集上,結(jié)果并不比傳統(tǒng)方法好;ConvLSTM的方法可以達到優(yōu)于傳統(tǒng)方法的準(zhǔn)確率,效果明顯好于單獨的CNN與LSTM。

        ConvLSTM方法中,將卷積后的特征Fi重新組合為Gi作為LSTM層的輸入對結(jié)果有很大提升:使用Gi作為LSTM每一時刻的輸入能使網(wǎng)絡(luò)達到0.788 6的準(zhǔn)確率;但在相同的實驗參數(shù)下,使用Fi作為LSTM層的輸入,準(zhǔn)確率只有0.290 3,可以說該網(wǎng)絡(luò)對于分類預(yù)測沒有意義。

        4.3.2 數(shù)據(jù)選擇對實驗結(jié)果的影響

        上述實驗人為地將蛋白質(zhì)片段的長度規(guī)定為1 000,那么取不同長度蛋白質(zhì)片段是否對實驗結(jié)果有影響?不同位置的片段是否對分類結(jié)果有著不同的影響?

        在動物蛋白質(zhì)亞細胞定位數(shù)據(jù)集上,分別取從N端及C端開始的長度分別為100、200、300、400、500的蛋白質(zhì)片段作為訓(xùn)練集,用于驗證不同長度的蛋白質(zhì)片段對分類結(jié)果的影響,實驗結(jié)果如表3所示。

        可以看出序列長度為500時CNN和ConvLSTM的實驗結(jié)果為0.765 1和0.789 2,而序列長度為1 000時CNN和ConvLSTM的實驗結(jié)果分別為0.728 3、0.788 6,更長的序列并沒有帶來更好的結(jié)果,卻花費了更多的訓(xùn)練時間。

        Table3 Classification accuracy of different lengths protein表3 不同長度的蛋白質(zhì)片段的分類準(zhǔn)確率

        為探究不同空間位置上的蛋白質(zhì)片段對實驗結(jié)果的影響,將長度為1 000蛋白質(zhì)序列等分為5段,分別訓(xùn)練,實驗結(jié)果如表4所示。

        Table4 Classification accuracy of different locations protein表4 不同空間位置蛋白質(zhì)片段的分類準(zhǔn)確率

        由于并不是所有蛋白質(zhì)的長度都在1 000以上,因此部分蛋白質(zhì)在后面部分的片段可能由全0組成,不包含有用信息。但依然可以從實驗結(jié)果看出,蛋白質(zhì)兩端包含著更多與亞細胞定位有關(guān)的信息。故可以做出假設(shè),由N、C兩端組合而成的氨基酸序列能得到更好的分類結(jié)果。

        于是有了如下實驗:從N、C兩端截取不同長度的氨基酸序列片段組合在一起,使用CNN、ConvLSTM兩種模型進行亞細胞定位實驗。從表5可以看出從兩端分別取片段進行拼接得到的結(jié)果會更好,驗證了猜想。

        Table5 Classification accuracy of combined amino acid sequence表5 組合氨基酸序列分類準(zhǔn)確率

        4.3.3 實驗總結(jié)

        通過上述實驗可以看出,從N、C兩端各取500為氨基酸組合成新的序列能獲得更好的實驗結(jié)果。對于各物種蛋白質(zhì)數(shù)據(jù)集分別實驗,得到如表6所示結(jié)果。

        Table6 Accuracy comparison of different protein subcellular localization表6 各物種蛋白質(zhì)亞細胞定位準(zhǔn)確率對比

        在植物、真菌、動物蛋白質(zhì)數(shù)據(jù)集上,使用重組后的數(shù)據(jù)在ConvLSTM模型下獲得結(jié)果最好。

        5 結(jié)束語

        本文使用了CNN、LSTM、ConvLSTM的方法對蛋白質(zhì)數(shù)據(jù)進行了亞細胞定位。與目前主流方法最大的不同是沒有使用GO數(shù)據(jù)作為輸入,直接從氨基酸序列上提取特征。這降低了面對大規(guī)模蛋白質(zhì)數(shù)據(jù)集時預(yù)處理數(shù)據(jù)的難度,也更易于推廣。

        三種方法在亞細胞定位問題上均比傳統(tǒng)方法有所提升,ConvLSTM方法在多組實驗中都取得了最好的結(jié)果。通過實驗可以看出,直接使用氨基酸序列預(yù)測蛋白質(zhì)亞細胞定位是可行的,且蛋白質(zhì)序列N、C兩端的序列對預(yù)測結(jié)果起著比較重要的影響。

        猜你喜歡
        特征實驗方法
        記一次有趣的實驗
        如何表達“特征”
        做個怪怪長實驗
        不忠誠的四個特征
        抓住特征巧觀察
        可能是方法不對
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产黄在线观看免费观看不卡| 亚洲一品道一区二区三区| 国产欧美高清在线观看| 女人喷潮完整视频| 99久久综合精品五月天| 白色月光在线观看免费高清| 偷拍视频网址一区二区| 各种少妇正面着bbw撒尿视频| 亚洲人成网站免费播放| 亚洲av色香蕉一区二区蜜桃| 国产精品成人av大片| 国产a国产片国产| 精品欧美一区二区在线观看| 亚洲夫妻性生活视频网站| 日本中文字幕精品久久| 亚洲乱码一区av春药高潮 | 亚洲地址一地址二地址三| 日本五十路熟女在线视频| 国产不卡在线视频观看| 久久99久久99精品中文字幕| 久久久久国产一级毛片高清版A| 久久精品国语对白黄色| 日韩精品人成在线播放| 手机在线看永久av片免费| 亚洲国产成a人v在线观看| 日韩在线不卡一区三区av| 国产乱子伦| 亚洲自偷自拍另类图片小说| 亚洲国产成人精品一区刚刚| 日本强伦姧人妻一区二区| 波多野结衣乳巨码无在线| 高清国产亚洲va精品| 亚洲一品道一区二区三区| 性高朝大尺度少妇大屁股| 国产精品亚洲专区无码web| 日韩产的人妻av在线网| 97久人人做人人妻人人玩精品| 97久久久久人妻精品专区| 日韩精品不卡一区二区三区| 婷婷色婷婷开心五月四| 午夜一区欧美二区高清三区|