亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合CNN和Bi-LSTM的miRNA-lncRNA互作關(guān)系預(yù)測模型

        2019-07-30 11:15:04石文浩劉嬋娟
        計算機(jī)研究與發(fā)展 2019年8期
        關(guān)鍵詞:卷積向量特征

        石文浩 孟 軍 張 朋 劉嬋娟

        (大連理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 遼寧大連 116023)

        隨著對非編碼RNA研究的深入,人們發(fā)現(xiàn)長非編碼RNA(long non-coding RNA, lncRNA)和微小RNA(microRNA, miRNA)具有調(diào)節(jié)生物生命活動的重要作用,它們在細(xì)胞生長、分化和增殖等方面起著重要的調(diào)節(jié)作用[1].研究表明:lncRNA可與miRNA競爭性結(jié)合mRNA或以誘餌方式吸附miRNA來調(diào)控miRNA[2].反之,miRNA通過與lncRNA的3’UTR不完全匹配進(jìn)行負(fù)性調(diào)節(jié),從而直接作用于lncRNA[3].另外,由于兩者調(diào)節(jié)網(wǎng)絡(luò)的重疊或位置的關(guān)系影響其相互作用,miRNA也可間接作用于lncRNA.

        目前,研究lncRNA-miRNA-mRNA的相互調(diào)控網(wǎng)絡(luò)是新熱點[4].由于lncRNA通過與mRNA競爭miRNA的靶基因結(jié)合位點來實現(xiàn)對mRNA的調(diào)控,故研究miRNA是否靶向lncRNA是研究miRNA調(diào)控功能的突破口.現(xiàn)有鑒定miRNA靶基因的方法主要分為生物實驗和計算預(yù)測方法2類.生物實驗一方面鑒定代價高耗時長,另一方面不適合大批量的鑒定.傳統(tǒng)計算預(yù)測方法則是利用機(jī)器學(xué)習(xí)算法建立預(yù)測模型,通過提取miRNA靶基因的序列特征和結(jié)構(gòu)特征作為輸入數(shù)據(jù),構(gòu)建分類器模型,但機(jī)器學(xué)習(xí)方法涉及了過多的人工干預(yù)且特征提取過程復(fù)雜.為克服兩者的弊端,利用深度學(xué)習(xí)方法可自動學(xué)習(xí)特征的特點來實現(xiàn)分類預(yù)測是一個突破點.

        對于miRNA與lncRNA相互調(diào)控機(jī)制的研究大多集中在動物和人類癌癥方面,植物方面的研究相對較少.為深入探索植物miRNA與lncRNA的互作關(guān)系.本文借鑒miTarget[5]方法,利用“LLLLLL”將有互作關(guān)系的miRNA與lncRNA序列連接成單鏈序列,使用基因組學(xué)中生物序列的連續(xù)表示方式[6],對單鏈序列進(jìn)行編碼后作為輸入數(shù)據(jù),并提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[7]和雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory network, Bi-LSTM)[8]的深度學(xué)習(xí)模型.該模型結(jié)合CNN充分提取特征和Bi-LSTM兼顧上下文信息的特點,充分地學(xué)習(xí)了序列數(shù)據(jù)的特征,實現(xiàn)對miRNA-lncRNA互作關(guān)系的分類預(yù)測.

        本文利用5折交叉檢驗方法,通過與傳統(tǒng)的機(jī)器學(xué)習(xí)方法、單一模型的比較和對多個物種數(shù)據(jù)集進(jìn)行獨(dú)立測試,對在玉米、馬鈴薯和小麥數(shù)據(jù)集上的實驗結(jié)果進(jìn)行了分析.結(jié)果表明:本文提出的模型具有良好的分類效果和泛化能力.

        本文的貢獻(xiàn)主要有3個方面:

        1) 借鑒miTarget方法,將miRNA與lncRNA利用“LLLLLL”連接成單鏈序列,從而方便使用深度學(xué)習(xí)模型;

        2) 借鑒自然語言處理中分詞思想,利用基因組學(xué)中生物序列的連續(xù)表示方式,對生物序列進(jìn)行編碼,使每條序列映射成一個n維的數(shù)字向量,適用于LSTM的輸入格式;

        3) 提出了一種融合CNN和Bi-LSTM的深度學(xué)習(xí)模型實現(xiàn)對miRNA-lncRNA互作關(guān)系的分類預(yù)測.

        1 相關(guān)工作

        目前,對miRNA,lncRNA和mRNA之間調(diào)控機(jī)制方面的研究大多使用生物鑒定和計算預(yù)測方法[9-10].如使用高通量RNA-seq測序技術(shù)構(gòu)建lncRNA-miRNA-mRNA共表達(dá)網(wǎng)絡(luò)來研究乳腺癌中關(guān)鍵基因,以期達(dá)到治療癌癥的目的[9];通過提取lncRNA的序列特征、二級結(jié)構(gòu)等特征,使用傳統(tǒng)機(jī)器學(xué)習(xí)方法來識別lncRNA,進(jìn)而預(yù)測其功能[10].機(jī)器學(xué)習(xí)方法較之生物鑒定代價低耗時少,但涉及過多人工干預(yù)和特征提取過程繁雜.

        自2006年Hinton等人[11]在《Science》上提出深度學(xué)習(xí),自動學(xué)習(xí)特征、學(xué)習(xí)能力好等優(yōu)點使之被各個領(lǐng)域廣泛應(yīng)用.CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[12]和LSTM等模型也已很好解決了生物信息方面的問題.

        2016年Tripathi等人[13]提出使用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)模型,利用多層神經(jīng)網(wǎng)絡(luò)層反饋調(diào)節(jié),逐層學(xué)習(xí)lncRNA的特征,達(dá)到更好識別lncRNA的目的.2018年,Junghwan等人[14]提出一種基于深度學(xué)習(xí)方法lncRNANet,該方法將用于RNA序列建模的RNNs和檢測密碼子的CNNs進(jìn)行結(jié)合,從而更好地學(xué)習(xí)了lncRNA特征,實現(xiàn)對lncRNA的鑒別.

        CNN是一種通過卷積操作提取特征,再利用池化層學(xué)習(xí)數(shù)據(jù)的局部特征的前饋神經(jīng)網(wǎng)絡(luò),它無需對輸入數(shù)據(jù)進(jìn)行大量預(yù)處理,且可以學(xué)習(xí)大量的特征信息.RNN具有內(nèi)部記憶特點,且在處理元間既有內(nèi)部反饋連接又可前饋調(diào)節(jié),故對于處理序列信息具有良好的效果.但對于序列數(shù)據(jù),CNN只考慮連續(xù)序列之間的相關(guān)性而忽略非連續(xù)序列之間的相關(guān)性.RNN雖適合處理序列數(shù)據(jù),但很難處理信息長期依賴的問題,且存在梯度下降和梯度爆炸問題.LSTM是RNN的擴(kuò)展,專門用來處理無法長期依賴信息的問題,它雖考慮長距離詞的相關(guān)性,但提取特征不夠充分,且單向LSTM不能處理下文單詞信息.而雙向LSTM(Bi-LSTM)有正反LSTM,正向LSTM捕獲上文特征信息,反向LSTN捕獲下文特征信息,故相較于單向LSTM,能夠更有效地處理句子中單詞間的長距離影響.結(jié)合CNN與Bi-LSTM的優(yōu)勢,既可以充分地提取特征,又考慮了序列間信息長期依賴和上下信息間的關(guān)系,故能充分地學(xué)習(xí)序列特征信息實現(xiàn)更好地分類預(yù)測.

        本文提出了一種融合CNN和Bi-LSTM的深度學(xué)習(xí)模型,不僅避免機(jī)器學(xué)習(xí)特征提取時的人工干預(yù),而且利用了兩者的優(yōu)勢,充分考慮了miRNA-lncRNA序列間連續(xù)數(shù)據(jù)和非連續(xù)數(shù)據(jù)的相關(guān)性,克服了無法長期依賴信息和充分提取特征的弊端,從而更好地實現(xiàn)對miRNA-lncRNA互作關(guān)系的預(yù)測.

        2 數(shù)據(jù)預(yù)處理

        在本節(jié)中,主要介紹對生物序列的數(shù)據(jù)預(yù)處理過程和對序列進(jìn)行分詞編碼的步驟.

        2.1 數(shù)據(jù)集構(gòu)建

        文中所用的玉米、馬鈴薯和小麥3個物種的lncRNA和miRNA數(shù)據(jù)分別是下載于GreeNC(http://greenc.sciencedesigners.com/wiki/)[15]和miRBase(http://mirbase.org/)[16]數(shù)據(jù)庫.首先,將每個物種去重后的lncRNA和miRNA數(shù)據(jù)分別上傳到在線軟件psRNATarget(https://plantgrn.noble.org/psRNATarget/analysis)[17]上對應(yīng)位置,得出miRNA-lncRNA互作關(guān)系對中對應(yīng)的miRNA和lncRNA名稱,根據(jù)名稱從原始的miRNA和lncRNA序列中提取序列.對于互作關(guān)系對的序列,如圖1所示,其處理步驟為:

        1) 為方便序列編碼,先將miRNA序列中U替換為T;

        2) 借鑒miTarget方法,為區(qū)分miRNA和lncRNA連接處,利用“LLLLLL”將對應(yīng)的miRNA與lncRNA序列連接成單鏈序列;

        3) 對每個互作關(guān)系對重復(fù)以上步驟.

        Fig. 1 Sequence connection mode圖1 序列連接方式

        對psRNATarget軟件得出的所有互作關(guān)系對經(jīng)上述處理并去重后,將其作為正樣本.

        由于lncRNA序列長度遠(yuǎn)遠(yuǎn)大于miRNA,在整合序列中l(wèi)ncRNA占比重大,故將總lncRNA分為參與互作關(guān)系和未參與互作關(guān)系的lncRNA,并采用Needleman-Wunsch算法將未參與互作關(guān)系的lncRNA與正樣本中l(wèi)ncRNA進(jìn)行相似性對比,去除相似性高于80%的lncRNA樣本[18],最后,將去相似性后的未參與互作關(guān)系的lncRNA與所有miRNA進(jìn)行隨機(jī)組合,并進(jìn)行如圖1所示的處理,從而得到負(fù)集樣本庫.為保證正負(fù)樣本均衡,采用隨機(jī)抽樣方法,從中抽取與正樣本數(shù)量相當(dāng)?shù)臉颖咀鳛樨?fù)集.

        2.2 序列編碼

        對于整合后的miRNA-lncRNA序列,利用基因組學(xué)中的生物序列的連續(xù)表示方式,類似于自然語言處理中的分詞[19],將每條序列分成多個子序列(生物單詞),即每3個連續(xù)的堿基作為一個子序列,子序列間不重疊.對正負(fù)樣本中所有序列進(jìn)行分詞處理后,統(tǒng)計得出一個大小為4×4×4=64的生物單詞表,按照單詞在生物序列中出現(xiàn)的概率,從大到小進(jìn)行編碼,則可將每條序列樣本嵌入到一個n維向量中,即為模型的輸入格式,具體編碼方式如圖2所示:

        Fig. 2 Sequence coding mode圖2 序列編碼方式

        如圖2所示,將輸入序列S=(TATACGTGT…TGCAACCAG),按上述方案,每3個連續(xù)堿基為一個詞,進(jìn)行分詞處理,再按詞頻大小進(jìn)行編碼,最終經(jīng)程序運(yùn)行后,即可將S編碼為一個固定長度的向量SC=(59,55,41,…,18,52,16),即編碼向量SC為模型的最終輸入格式.

        3 CNN和Bi-LSTM融合模型

        提出的模型主要由嵌入階段、卷積階段和雙向LSTM階段組成.

        3.1 嵌入階段

        嵌入階段主要是將輸入序列映射成矩陣向量的形式,每一列對應(yīng)一個字.即將輸入序列中的每一個數(shù)字映射成一個具有固定長度的向量,則輸入序列被映射成m×n的矩陣形式,其中,m為嵌入向量維度,n為序列長度.嵌入層作用是將一些關(guān)鍵的特征放大或把一些籠統(tǒng)的特征分開,把數(shù)字序列映射成卷積層易處理的矩陣向量形式,便于之后的卷積層充分提取特征.例如設(shè)編碼向量為SC=(19,2,30,42,28),經(jīng)嵌入層作用后,即可映射為一個矩陣

        本實驗中嵌入層參數(shù)為輸入維度是66,輸出維度是128,輸出長度是2 840.即經(jīng)嵌入層后每條序列可映射成一個128×2 840向量,作為卷積層的輸入.

        3.2 卷積階段

        由于1維卷積(Convolution1D)主要用于自然語言處理上,2維卷積(Convolution2D)常用于計算機(jī)視覺上[20],故實驗?zāi)P途矸e層選用Convolution1D函數(shù).實驗卷積階段主要由2個卷積層構(gòu)成.此外,為防止過擬合,在嵌入層和卷積層之間添加一個Dropout層,其參數(shù)為0.5.

        第1層卷積層是利用64個長度為10的過濾器進(jìn)行卷積,即相當(dāng)于利用64個10×128卷積核去探測經(jīng)嵌入層映射的矩陣.即利用卷積核W對矩陣進(jìn)行卷積操作:

        (1)

        由于RELU函數(shù)比sigmoid函數(shù)具有便于稀疏化及有效減少梯度似然值的優(yōu)勢[21],故卷積層的激活函數(shù)選用RELU函數(shù):

        RELU(x)=max(0,x).

        (2)

        經(jīng)卷積操作后,可提取尺寸為64×2831特征映射.再選用pool_length為2的MaxPooling對卷積出來的特征進(jìn)行采樣處理,即對卷積出的特征的局部區(qū)域取最大值,提取最重要的特征信息.故第1次卷積后輸出維度為64×1415,作為下一卷積層的輸入.

        例如使用3個5×5的卷積核對64×64的矩陣進(jìn)行卷積操作,得到3個60×60的特征映射,再使用2×2的池化窗口進(jìn)行下采樣,即得到3個30×30的特征映射矩陣,具體卷積階段流程如圖3所示:

        Fig. 3 Flow of convolution operation圖3 卷積操作流程

        模型的第2個卷積層利用64個長度為5的過濾器卷積,即等同于用5×64卷積核對上層提取的特征再次卷積,則提取出特征映射尺寸為64×1 411,再經(jīng)最大池化采樣后,即可得尺寸為64×705的特征映射.將其作為雙向LSTM層的輸入.

        3.3 Bi-LSTM階段

        LSTM是RNN的變體,它通過設(shè)置輸入門、遺忘門、輸入門和記憶細(xì)胞來解決RNN梯度消失和梯度爆炸以及長期依賴缺失的問題,但單向LSTM只能處理序列上一個方向的信息,而無法處理另一個方向的信息.雙向RNN(bidirecrional recurrent neural network)[22]能同時捕獲序列正反方向信息,從而更好學(xué)習(xí)序列信息特征.Bi-LSTM則是為解決LSTM只能處理單一方向信息而做的進(jìn)一步擴(kuò)展,其借鑒雙向RNN的方法,將雙向RNN中循環(huán)單元替換為LSTM單元,則Bi-LSTM等同于在每個訓(xùn)練序列的前后各連著一個單向LSTM,且這2個單向LSTM都連接同一個層,從正、反2個方向提取特征信息,可以充分地學(xué)習(xí)更多的特征.圖4是個雙向循環(huán)神經(jīng)網(wǎng)絡(luò)[19].

        Fig. 5 The overall structure of model圖5 模型整體結(jié)構(gòu)

        Fig. 4 Bidirectional recurrence neural network圖4 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)

        其中,自左向右循環(huán)神經(jīng)網(wǎng)絡(luò)層的更新公式為

        (3)

        自右向左循環(huán)神經(jīng)網(wǎng)絡(luò)層的更新公式為

        (4)

        前后2層循環(huán)神經(jīng)網(wǎng)絡(luò)層疊加后輸出為

        (5)

        其中,t表示時間序列;ht表示時刻t時隱層向量,其上箭頭表示方向;xt表示時刻t的輸入;yt表示時刻t的輸出;Wxh表示輸入-隱層的權(quán)重矩陣;Whh表示隱層-隱層的權(quán)重矩陣;Why表示隱層-輸出層的權(quán)重矩陣;bh為隱層偏置向量;by為輸出層偏置向量;H為隱層激活函數(shù),這里選取sigmoid函數(shù).

        Bi-LSTM模型則是將圖4中信息處理單元變換為LSTM模型單元,利用LSTM的記憶細(xì)胞來處理長期依賴缺失,并結(jié)合正反方向互補(bǔ)的信息,更充分地學(xué)習(xí)序列數(shù)據(jù)的特征.其中,本實驗Bi-LSTM的隱層神經(jīng)元個數(shù)為64,dropout參數(shù)設(shè)為0.3.

        3.4 模型實現(xiàn)

        實驗?zāi)P褪窃赪indows10系統(tǒng)下,利用Python 3.6.5語言編寫的一個基于TensorFlow 1.12.0的Keras框架,模型主要由7層組成.

        模型首先利用嵌入層將輸入序列映射成一個128×2 840的矩陣向量,方便進(jìn)行卷積操作;緊跟著使用參數(shù)為0.5的Dropout層來防止過擬合;通過2個卷積層進(jìn)行卷積操作,并使用最大池化操作過濾出重要的局部特征信息,經(jīng)RELU函數(shù)激勵后,則將矩形向量轉(zhuǎn)變成一個64×705維特征映射作為Bi-LSTM層輸入;利用Bi-LSTM結(jié)合上下文信息的優(yōu)勢,充分學(xué)習(xí)特征之間的依賴關(guān)系,將卷積階段輸出的特征映射向量變?yōu)橐粋€128維向量;最后,使用參數(shù)為1的密集層Dense層將Bi-LSTM輸出的特征向量映射成一個具體數(shù)字,并使用sigmoid函數(shù)將該數(shù)字映射在[0,1]之間,即得出預(yù)測結(jié)果.根據(jù)真實值和預(yù)測值間的損失,通過BP算法逐層計算,更新參數(shù),完成一輪訓(xùn)練.其模型的整體結(jié)構(gòu)如圖5所示.

        4 實驗與結(jié)果

        基于玉米(zeamays)、馬鈴薯(solanumtuberosum)和小麥(triticumaestivum)數(shù)據(jù)集,通過對傳統(tǒng)機(jī)器學(xué)習(xí)方法和不同物種進(jìn)行測試來驗證提出的模型對miRNA-lncRNA互作關(guān)系的預(yù)測能力和泛化能力.

        4.1 驗證方法與評價標(biāo)準(zhǔn)

        實驗采用5折交叉驗證法來驗證模型的性能.5折交叉驗證思想是將數(shù)據(jù)集均分為5份,輪流取其中一份作為驗證集,其余4份作為訓(xùn)練集,5次結(jié)果的均值作為最終評估值.實驗選取準(zhǔn)確值(accuracy,Acc)、精確率(precision,P)、召回率(recall,R)和F1分?jǐn)?shù)(F1_score,F1)作為評價指標(biāo):

        (6)

        (7)

        (8)

        (9)

        其中,TP,FP,TN,FN的含義如表1所示:

        Table 1 Meaning of Classification Results表1 分類結(jié)果含義

        4.2 數(shù)據(jù)集

        按照第1節(jié)介紹方法從GreeNC和miRBase數(shù)據(jù)庫中下載了玉米、馬鈴薯和小麥的相關(guān)數(shù)據(jù),并進(jìn)行第2節(jié)的數(shù)據(jù)預(yù)處理過程.首先采用玉米數(shù)據(jù)集,用傳統(tǒng)機(jī)器學(xué)習(xí)方法、單一模型與提出的模型進(jìn)行對比實驗,從而驗證提出方法的有效性;另外,采用馬鈴薯和小麥為數(shù)據(jù)集,用提出模型分別對兩者進(jìn)行獨(dú)立測試來驗證提出模型的泛化能力.為保證正負(fù)樣本均衡,從負(fù)集樣本庫中隨機(jī)抽取與正集相同數(shù)目的樣本作為負(fù)集.各物種數(shù)據(jù)集具體數(shù)據(jù)如表2所示:

        Table 2 Datasets of Each Species表2 各物種數(shù)據(jù)集

        4.3 特征提取

        基于傳統(tǒng)的miRNA與lncRNA的提取方法[23],分別提取玉米miRNA,lncRNA相關(guān)特征,并將兩者特征組成多維特征集作為機(jī)器學(xué)習(xí)的特征向量.

        首先,利用ViennaRNA[24]中RNAfold軟件得到lncRNA序列形成二級結(jié)構(gòu)時釋放的自由能MFE和其二級結(jié)構(gòu)的點括號形式[25],并從中提取配對堿基數(shù)、(C+G)堿基含量和G,C的比例,即可得到最小自由能MFE、配對堿基數(shù)n_pairs、(C+G)含量CG_content和GC_ratio四個特征,融合后特征記為Feature1:

        CG_content=(C_num+G_num)L,

        (10)

        GC_ratio=G_numC_num,

        (11)

        Feature1=[MFE,n_pairs,CG_content,
        GC_ratio],

        (12)

        其中,C_num為序列中堿基C的數(shù)目;G_num為序列中堿基G的數(shù)目;L為序列的長度.

        此外,還提取lncRNA的k-mers特征.一個k-mers由k個堿基組成,則1-mer={A,T,C,G}有4種,2-mer={AA,AT,AC,AG,…},每個堿基可以是A,T,C或G,故有4×4=16種,實驗中k=1,2.k-mers提取方法為:沿lncRNA序列使用長度為k的滑動窗口以步長為1堿基進(jìn)行滑動匹配,則有:

        (13)

        sk=l-k+1,k=1,2;

        (14)

        (15)

        其中,wk為權(quán)重;sk為匹配總數(shù);l為序列長度;mi為每個k-mers的匹配數(shù);hi為每個k-mers的頻率,則可得到lncRNA的4+16=20個k-mers特征,記為Feature2:

        Feature2=[h1,h2,h3,…,h20].

        (16)

        對miRNA序列提取特征為序列長度m_l和miRNA的k-mers特征,其中k=1,2,則可得1+4+16=21個miRNA的特征,記為Feature3:

        Feature3=[m_l,m_h1,m_h2,m_h3,…,m_h20].

        (17)

        最終將lncRNA的特征Feature1,Feature2和miRNA的特征Feature3組成一個4+20+21=45維的特征集,將其作為傳統(tǒng)機(jī)器學(xué)習(xí)的特征向量Feature:

        Feature=(Feature1,Feature2,Feature3).

        (18)

        4.4 基于不同方法的分類結(jié)果

        為驗證提出方法的有效性和優(yōu)勢,實驗以玉米為數(shù)據(jù)集,按照3.3節(jié)方法對miRNA和lncRNA的特征進(jìn)行提取后融合,并使用樸素貝葉斯(Naive Bayes, NB)[26]、梯度提升決策樹(gradient boosting decision tree, GBDT)[27]、隨機(jī)森林(random forest, RF)[28]和決策樹(decision tree, DT)[29]方法進(jìn)行分類預(yù)測,進(jìn)行對比實驗,5折交叉檢驗的實驗結(jié)果如表3所示:

        Table 3 Classification Results Based on Different Methods表3 基于不同方法的分類結(jié)果 %

        Note: ① a,b,c,d,e:same letter means difference inAccis not significant,otherwise, it is significant

        ②SD: Standard deviation

        從表3可看出,較之于傳統(tǒng)機(jī)器學(xué)習(xí)方法,提出方法在準(zhǔn)確率、精確率、召回率和F1值4個指標(biāo)上性能都具有明顯的優(yōu)勢;其中,在準(zhǔn)確率上比NB,GBDT,RF和DT方法分別高出17.35%,7.15%,6.56%和3.19%,說明提出方法在預(yù)測miRNA-lncRNA有無互作關(guān)系上具有良好的分類能力.同時,與單一模型CNN和Bi-LSTM相比,融合模型兼顧兩者優(yōu)勢,既能提取豐富的特征,又可解決長距離信息依賴缺失問題,比單一模型性能略有提升.此外,從最小顯著性差異法(LSD)分析結(jié)果看,提出方法顯著優(yōu)于其他方法且準(zhǔn)確率的標(biāo)準(zhǔn)差(SD)僅為0.60%,表明模型的穩(wěn)定性較好.

        圖6描繪出在玉米測試集上,不同方法下的ROC曲線.從結(jié)果可看出,較之于機(jī)器學(xué)習(xí)模型與單一模型,融合模型的ROC曲線下面積最大,其面積即AUC值高達(dá)0.99以上幾乎接近于1,十分接近真實情況,表明模型的分類效果十分顯著.

        Fig. 6 ROC curves of different methods on test sets圖6 不同方法在測試集上的ROC曲線

        4.5 基于不同物種的分類結(jié)果

        為證明提出方法的泛化能力,選用馬鈴薯和小麥數(shù)據(jù)集作為獨(dú)立測試集,進(jìn)行模型測試,通過2個不同物種的實驗結(jié)果,證明提出方法泛化能力好且適合于大多數(shù)物種.5折交叉檢驗的實驗結(jié)果如表4所示:

        Table 4 Classification Results Based on Different Species表4 基于不同物種的分類結(jié)果 %

        從表4結(jié)果可看出,提出方法在預(yù)測馬鈴薯和小麥的miRNA-lncRNA有無互作關(guān)系上各方面性能指標(biāo)都較好,表明模型具有良好泛化能力,適合大多數(shù)物種.此外,兩者的方差都較小,說明不同物種數(shù)據(jù)下,模型的穩(wěn)定性也較好.

        5 結(jié)束語

        文中提出一種融合CNN和Bi-LSTM的深度學(xué)習(xí)模型,兼顧C(jī)NN和Bi-LSTM的優(yōu)勢,充分考慮了序列數(shù)據(jù)間的相關(guān)性和較好地結(jié)合了上下文信息,從而充分地提取特征.實驗結(jié)果表明:模型與傳統(tǒng)機(jī)器學(xué)習(xí)、單一模型對比,取得了優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)和單一模型的分類效果;此外,在馬鈴薯和小麥數(shù)據(jù)集上進(jìn)行獨(dú)立測試,也取得良好的分類效果,驗證了提出模型具有不錯的泛化能力,適合于大多數(shù)物種測試.

        未來將會嘗試使用更多的模型,如膠囊網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)等來進(jìn)一步改善對miRNA-lncRNA互作關(guān)系的預(yù)測;另外,結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法,提高預(yù)測性能也是將來的研究方向.

        猜你喜歡
        卷積向量特征
        向量的分解
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        聚焦“向量與三角”創(chuàng)新題
        如何表達(dá)“特征”
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠的四個特征
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        抓住特征巧觀察
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        国产成人亚洲综合色婷婷| 丰满少妇av一区二区三区 | 综合亚洲二区三区四区在线 | 亚洲av色福利天堂久久入口| 午夜人妻中文字幕福利| 蜜桃视频羞羞在线观看| 亚洲人成欧美中文字幕| 欧美丰满大屁股ass| 亚洲中文字幕每日更新| 激情文学人妻中文字幕| 日本亚洲中文字幕一区| 国产精品vⅰdeoxxxx国产| 久久亚洲av永久无码精品| 久久久久久99精品| 中文无字幕一本码专区| 亚洲av不卡无码国产| 三年片免费观看大全国语| 久久精品成人免费观看97| 免费人成黄页网站在线观看国产| 亚洲av迷人一区二区三区| 亚洲中文字幕成人无码| 午夜精品久久久久久中宇| 国产视频网站一区二区三区| 丰满人妻被公侵犯的视频| 免费国产黄网站在线观看视频| 久久99精品国产99久久6男男| 亚洲日本无码一区二区在线观看| 中文字幕久区久久中文字幕| 久久精品亚洲熟女av蜜謦 | 少妇又色又爽又高潮在线看| 天堂新版在线资源| 国产综合色在线视频| 久久99久久久精品人妻一区二区| 欧美牲交a欧美牲交aⅴ免费下载| 丰满老熟妇好大bbbbb| 99在线国产视频| 亚洲视频在线观看一区二区三区| 女人被狂躁高潮啊的视频在线看| 亚洲动漫成人一区二区| 久亚洲一线产区二线产区三线麻豆| 国产无夜激无码av毛片|