亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于表示學習和深度森林的長鏈非編碼RNA編碼短肽預測模型

        2022-01-05 02:32:08紀騰其趙思遠胡鶴還
        計算機應用 2021年12期
        關鍵詞:堿基級聯(lián)擬南芥

        紀騰其,孟 軍,趙思遠,胡鶴還

        (大連理工大學計算機科學與技術學院,遼寧大連 116024)

        (?通信作者電子郵箱mengjun@dlut.edu.cn)

        0 引言

        長鏈非編碼RNA(long non-coding RNA,lncRNA)作為非編碼RNA(non-coding RNA,ncRNA),能夠調節(jié)動物[1]與植物[2]的生長、發(fā)育、疾病等一系列生命活動。然而,最近有研究表明一些lncRNA 中含有長度不超過300 bp 的小開放閱讀框(small Open Reading Frames,sORFs),具有編碼蛋白的能力[3],能翻譯一類長度不超過100個氨基酸的短肽[4]。這類由lncRNA 上的sORFs 區(qū)域編碼的短肽(sORFs-encoded short peptides,SEPs)在生物的各種生命活動中發(fā)揮重要作用[5-6]。

        SEPs 的發(fā)現(xiàn)打破了人們以是否編碼區(qū)分mRNA 與ncRNA的標準,顯著地擴大了蛋白質組的范圍和多樣性,隨著越來越多的短肽及其功能的發(fā)現(xiàn),人們也開始將視線集中到對短肽的分析識別上[7]。

        基于機器學習的計算預測方法在各種領域中都有出彩的表現(xiàn),在生物信息領域中的lncRNA 識別和功能預測[8]、lncRNA-蛋白質相互作用[9]和lncRNA-miRNA 相互作用[10]等多個研究方向都取得了不錯的成效。許多研究工作利用機器學習算法構建預測模型,通過將序列特征、結構特征或者其他方式的編碼作為輸入數(shù)據(jù),構建分類器模型。

        目前,植物lncRNA 編碼短肽的識別與研究尚屬新興的研究領域,對于植物lncRNA 中的sORFs 以及對應的SEPs 的結構信息、理化特性的分析還不充分,而擬南芥作為經典的模式植物,經常被用于生物研究中[11],具有代表性,因此,以擬南芥的編碼序列(Coding Sequences,CDS)和非編碼序列(Non-Coding Sequences,NCDS)為切入點,對sORFs 序列的特征進行系統(tǒng)性分析,考慮到sORFs特征不鮮明、數(shù)據(jù)樣本不足的性質,提出一種自編碼器(AutoEncoder,AE)與深度森林(Deep Forest,DF)結合的方法,實現(xiàn)lncRNA編碼短肽的識別預測。

        本文的主要工作如下:

        1)使用多個生物信息學軟件獲取擬南芥中的sORFs,對結果取交集以提高結果可信度;

        2)提取CDS 與NCDS 候選sORFs 序列在多種特征編碼方式下的特征表達結果,對特征進行融合,并通過機器學習算法分析二者的差異;

        3)結合AE非監(jiān)督表示學習思想,提出一種DF預測模型,實現(xiàn)sORFs編碼短肽的識別預測。

        1 相關工作

        對植物lncRNA 編碼短肽的識別本質上是識別植物lncRNA 中sORFs 是否具有編碼能力,目前已有一些生物信息學工具可以用于挖掘sORFs[12-13]。如ORF finder[12]通過執(zhí)行六個可讀框的翻譯,分析所有可能的ORFs 區(qū)域;sORF finder[13]基于六聚體組成偏差來實現(xiàn)對sORFs的識別。

        目前對于SEPs 的研究大多通過生信工具獲取到候選sORFs 作為數(shù)據(jù)支撐,通過生物實驗、計算方法等進行分析與研究[5,14]。如Fesenko 等[5]通過質譜數(shù)據(jù)注釋苔蘚lncRNA 中的候選sORFs,使用BLAST 工具搜索具有同源序列的保守sORFs,并通過生物實驗得到高可信度的SEPs,驗證生物學功能。Zhu 等[14]為避免繁雜的生物實驗,根據(jù)sORFs 序列差異性,使用邏輯回歸模型完成SEPs 的識別,該機器學習方法代價低耗時少,但由于數(shù)據(jù)及特征表達不全面,無法有效預測較長的SEPs。

        AE 是一種通過無監(jiān)督學習學到主要特征并依據(jù)主要特征重構輸入數(shù)據(jù)的人工神經網絡,基于AE的表示學習能夠有效地獲取輸入數(shù)據(jù)的高效表示[15],在各個領域得到了廣泛應用[16],也能夠很好地解決生物信息領域的問題[17]。近年來,深度神經網絡(Deep Neural Network,DNN)在自然語言處理、視覺識別和生物信息等領域取得巨大成功[18],但伴隨著訓練數(shù)據(jù)量和超參數(shù)調優(yōu)技能的高要求,而DF 作為DNN 的有效替代方法[19],只需較少的超參數(shù),在解決生物信息問題上取得了較好的成果[20]。

        本文提出了一種基于AE 表示學習和DF 的預測模型,不僅避免了無法充分提取特征的弊端,也不受到當前SEPs研究中有效數(shù)據(jù)量不足的影響,實現(xiàn)了對SEPs的有效識別預測。

        2 數(shù)據(jù)預處理

        本章將介紹數(shù)據(jù)集構建和特征編碼方式,并對特征進行系統(tǒng)性分析。

        2.1 數(shù)據(jù)集構建

        由于經過生物實驗驗證的SEPs 數(shù)據(jù)稀少,無法滿足機器學習的需求,因此通常采取特定方式合理構建數(shù)據(jù)集。從公共數(shù)據(jù)庫Phytozome[21](https://phytozome.jgi.doe.gov/pz/portal.html)下載擬南芥CDS 數(shù)據(jù)和NCDS 數(shù)據(jù),分別作為正集和負集的數(shù)據(jù)源。

        對CDS使用sORF finder(http://hanadb01.bio.kyutech.ac.jp/sORFfinder/)和ORF finder(https://www.ncbi.nlm.nih.gov/orffinder/)獲取sORFs,并對兩種工具的結果取交集,之后通過CD-HIT[22]工具,去除相似度高于80%的序列[23],得到候選的正集sORFs 數(shù)據(jù)(圖1(a))。由于sORF finder 尋找的是有編碼能力的sORFs,因此對NCDS 只使用ORF finder 工具獲取其中的sORFs,得到的結果通過相同的去冗余處理(圖1(b))??紤]到目前發(fā)現(xiàn)能夠編碼的sORFs序列通常以堿基組合ATG 作為起始密碼子,因此從去冗余后的結果中篩選出起始密碼子為ATG 的sORFs 作為候選的負集sORF 數(shù)據(jù)。獲取候選sORF的流程如圖1所示。

        圖1 候選sORFs的獲取流程Fig.1 Process of obtaining candidate sORFs

        經過以上處理得到CDS 和NCDS 的sORFs 數(shù)據(jù)分布差異較大,為了得到相似的正負集數(shù)據(jù),對兩部分數(shù)據(jù)進行了同分布取樣,最終得到sORFs正負集數(shù)據(jù)各4 800條。

        2.2 特征編碼

        考慮到SEPs獨有特征不鮮明,本文采用傳統(tǒng)的RNA特征提取方法提取了sORFs序列的相關特征。

        序列的原始表達具有生物學意義,基于原始表達可以提取序列長度L、(G+C)堿基含量GC_content與GC 堿基的比例GC_ratio三個特征,融合后特征記為Feature1:

        其中,G_num和C_num分別為序列中堿基G和堿基C的數(shù)目。

        密碼子是遺傳物質編碼的信息規(guī)則,CDS 與NCDS 的密碼子保守性表現(xiàn)有所不同,因此提取k-mer特征作為密碼子頻率的近似表達,k代表序列中相鄰的堿基數(shù),k個相鄰堿基有4k種組合。由于sORFs序列較短,因此取k=1,2,3。提取方法為沿sORFs 序列使用長度為k、步長為1 的滑動窗口進行滑動匹配,為避免3-mer 與1-mer 計算時因使用出現(xiàn)次數(shù)而導致較大差異,為每個k-mer特征分配權重,則有:

        其中:wk為權重;sk為滑動次數(shù);mi為每個k-mer 出現(xiàn)次數(shù);fi為每個k-mer 經過歸一化的頻率,最終得到84 個k-mer 特征,記為Feature2。

        k-mer特征僅考慮連續(xù)堿基的性質,然而不連續(xù)堿基也可能存在差異,采取短序列模體(Short Sequence Motifs,SSM)特征作為補充,相隔1 個堿基的堿基組成記為N*M,相隔2 個堿基的堿基組成記為N**M,N 與M 可以為A、T、C、G 中的任意一個堿基,每組短序列模體都有42維特征表達,提取N*M、N**N與N***M三組短序列模體特征:

        其中:vk為滑動次數(shù);ni為每個短序列模體出現(xiàn)次數(shù);SSMi即為每個短序列模體的出現(xiàn)頻率,最終得到48 個SSM 特征,記為Feature3。

        信噪比的大小能夠表示CDS 和NCDS 中堿基使用的偏向性[24],通過堿基在密碼子三個相位的分布計算sORFs 三分之一處的功率譜計算信噪比R:

        其中:xi、yi、zi為堿基i的一種在三個相位出現(xiàn)的頻數(shù)的一行三列的數(shù)組;P(L/3)表示L/3處的功率譜。

        最終,將上述特征組成136 維的特征集,將其作為AE 的輸入向量Feature:

        2.3 特征可視化分析

        為驗證特征編碼的有效性,對其中維數(shù)較多且占比較大的k-mer 和SSM 特征進行了可視化分析,結果如圖2 所示,可視化分析方法分別選取了主成分分析(Principal Component Analysis,PCA)、核主成分分析(Kernel Principal Component Analysis,KPCA)、t-分布鄰域嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)和奇異值分解(Singular Value Decomposition,SVD)。從圖2 中可以看出,降維之后的k-mer特征與SSM 特征較為明顯地分布于不同的區(qū)域,說明CDS 與NCDS中sORFs存在一定的差異,也驗證了上述特征編碼方式的有效性。

        圖2 不同特征編碼方式的特征可視化結果Fig.2 Feature visualization results for different feature encoding methods

        3 基于自編碼器的深度森林模型

        本文模型由特征編碼、AE和DF三個階段組成。

        3.1 自編碼器表示學習階段

        AE是典型的無監(jiān)督機器學習方法,使用大量函數(shù)和神經網絡結構產生高維輸入的低維表示,由編碼器與解碼器兩部分組成。AE的流程如圖3所示。

        圖3 AE流程Fig.3 Flowchart of AutoEncoder

        AE 接收輸入的數(shù)據(jù)向量x后,經過編碼器的多個隱藏層對其進行線性變換,在激活函數(shù)的作用下得到編碼向量y,之后該向量經過解碼器的多個隱藏層的變換后,得到重構之后的輸出向量z,通過對比x與z,求出預測誤差并反向傳遞,反復迭代得到最優(yōu)權重:

        其中:fθ是參數(shù)為θ={W,b}的編碼層線性函數(shù);gθ′是參數(shù)為θ′={W′,b′}的解碼層線性函數(shù);W是一個d′×d的權重矩陣,W′是W的轉置,b和b′則是偏倚向量;s是激活函數(shù)。

        由于ReLU 函數(shù)具有便于稀疏化和能夠有效減小梯度似然值的優(yōu)勢,因此在編碼與解碼過程中都選擇ReLU 函數(shù)作為激活函數(shù)。

        編碼器設置了3 個隱藏層,每層的神經元數(shù)量逐層減少;解碼器設置了3 個隱藏層,每層的神經元數(shù)量逐層增加;選取AE 的中間隱藏層的輸出作為最終的表示學習結果。考慮到不同維數(shù)的表示學習結果對于分類器性能的影響也不同,因此,通過改變中間隱藏層神經元數(shù)量來尋找較優(yōu)的表示學習結果,不同維數(shù)的表示學習結果訓練得到的分類器以準確率為評價指標,結果如圖4 所示。從圖中可以看出,在表示學習結果維數(shù)為75時,性能相對更優(yōu)。

        圖4 不同維數(shù)特征的分類準確率Fig.4 Classification accuracy of features with different dimension

        3.2 深度森林訓練階段

        DF 是隨機森林(Random Forest,RF)[25]的擴展算法,借鑒神經網絡的特性,具有高效率、低數(shù)據(jù)量和低超參數(shù)要求等優(yōu)勢,由多粒度掃描和級聯(lián)森林組成[19]。

        在多粒度掃描階段,DF 采用不同大小的滑動窗口對輸入數(shù)據(jù)進行采樣,以此作為級聯(lián)森林的輸入。經實驗最終選取長度分別為2 和4 的滑動窗口進行采樣,挖掘更加全面的信息。

        在級聯(lián)森林階段,第一層級聯(lián)以多粒度掃描中的第一個滑動窗口掃描得到的結果作為輸入,通過多個RF 進行訓練,產生增強特征,并將增強特征與經過轉換的多粒度掃描中第二個滑動窗口得到的特征向量拼接并傳遞給下一層級聯(lián),下一層級聯(lián)以拼接向量作為輸入,重復上述過程。在每一層級聯(lián)產生新的增強向量后,都在驗證集上進行驗證,如果驗證得到準確率有所提升,則將增強向量繼續(xù)傳遞給下一層的級聯(lián),產生新的拼接向量;如果沒有提升,則終止訓練。級聯(lián)森林階段每一層級聯(lián)由4個RF組成,每個RF包含1 000棵決策樹。

        3.3 模型實現(xiàn)

        本文模型由特征編碼、AE 和DF 三部分組成。首先通過提取sORFs 相關特征完成編碼;緊接著將結果輸入到AE 中,經過ReLU 函數(shù)激活,完成表示學習過程;最后將表示學習得到的特征向量輸入到DF 中,經過自適應的層數(shù)完成訓練,獲得每一維增強特征對應的分類概率,通過argmax 函數(shù)得到最終的分類結果,完成預測。模型的具體結構如圖5所示。

        圖5 模型整體結構Fig.5 Overall structure of model

        4 實驗與結果

        用擬南芥數(shù)據(jù)集對比不同方法的性能,驗證模型的預測能力,并在大豆和玉米數(shù)據(jù)上進行測試,驗證模型的泛化能力。

        4.1 評價指標

        實驗以準確率ACC(Accuracy)、精確率P(Precision)、召回率R(Recall)和F1 值F1(F1_score)作為評價指標。四種評價指標的計算公式如下:

        其中TP、FP、TN、FN的含義如表1所示。

        表1 分類結果含義Tab.1 Meaning of classification results

        4.2 對比傳統(tǒng)機器學習模型的分類結果

        在擬南芥數(shù)據(jù)集上將提出方法與樸素貝葉斯(Naive Bayes,NB)[26]、決策樹(Decision Tree,DT)[27]、隨機森林(RF)、自編碼器(AE)與三種模型結合的組合模型以及DF 進行比較。實驗結果如表2 所示。可以看出,本文模型在準確率、精確率、召回率和F1 值四個指標都優(yōu)于其他傳統(tǒng)機器學習模型,說明本文模型在預測SEPs 上具有良好的分類性能。在準確率方面分別比AE+NB,AE+DT,AE+RF 模型高15.31、5.72、4.58 個百分點,說明DF 模型的性能優(yōu)于其他模型。同時,本文模型的準確率也較使用單一DF作為分類模型提高了4.16 個百分點,驗證了AE 表示學習的有效性,能夠學習到的特征以更少的維數(shù)取得了更高的性能。此外,從最小顯著性差異法分析結果可以看出,本文模型顯著優(yōu)于傳統(tǒng)機器學習模型且準確率的標準差SD(Standard Deviation)僅為1.2%,表明模型的穩(wěn)定性較好。

        表2 本文模型與傳統(tǒng)機器學習模型及其組合模型以及DF在擬南芥數(shù)據(jù)集上的結果比較Tab.2 Result comparison of the proposed model with traditional machine learning models,their combined models and DF on Arabidopsis thaliana dataset

        4.3 對比深度學習模型的分類結果

        除了與傳統(tǒng)機器學習模型進行對比,還將本文模型在擬南芥數(shù)據(jù)集上與深度學習模型進行對比,如卷積神經網絡(Convolutional Neural Network,CNN)[28]、遞歸神經網絡(Recurrent Neural Network,RNN)[29]以及AE 與它們相結合的組合模型,實驗結果如表3 所示。從表3 中可以看出,與深度學習模型相比,本文模型在準確率方面分別比CNN、AE+CNN、RNN 和AE+RNN 模型高1.66、1.04、2.29 和2.08 個百分點,說明本文模型具有良好的分類性能;同時,本文模型以DF作為訓練模型,具有低數(shù)據(jù)量與低超參數(shù)調優(yōu)技能要求的優(yōu)勢。

        表3 本文模型與深度學習模型及其組合模型在擬南芥數(shù)據(jù)集上的結果比較Tab.3 Result comparison of the proposed model with deep learning models and their combined models on Arabidopsis thaliana dataset

        4.4 不同物種上的分類結果

        為了驗證模型的泛化能力,在其他物種數(shù)據(jù)集上也對本文模型進行了測試[10]。從Phytozome 數(shù)據(jù)庫下載大豆(Glycine max)和玉米(Zea mays)的CDS 與NCDS 數(shù)據(jù),并進行與擬南芥數(shù)據(jù)集相同的預處理,并從處理完畢的數(shù)據(jù)集中隨機選取與擬南芥數(shù)據(jù)集具有相似分布的大豆和玉米數(shù)據(jù)作為獨立測試數(shù)據(jù)集。實驗結果如表4 所示,可以看出,本文模型在玉米和大豆lncRNA 編碼短肽預測方面各個指標都較好,說明該模型具有良好的泛化能力,能夠適用于其他物種。

        表4 本文模型在大豆和玉米數(shù)據(jù)集上的分類結果Tab.4 Classification results of the proposed model on Glycine max and Zea mays datasets

        5 結語

        通過多種特征編碼處理序列,結合特征降維方法,對擬南芥CDS 與NCDS 中的sORF 進行可視化分析,證明特征編碼的有效性。綜合考慮sORFs 特征不鮮明且相關數(shù)據(jù)偏少的特點,提出一種基于自編碼器(AE)和深度森林(DF)的SEPs 識別模型。實驗結果表明,與多種模型相比,本文模型具有更優(yōu)的性能;此外,在大豆與玉米數(shù)據(jù)集上進行獨立測試,也取得了良好的效果,驗證了該模型良好的泛化能力,能夠適用于其他物種。未來將嘗試使用更多的方法進行更深入的表示學習來進一步改善對lncRNA編碼短肽的預測能力。

        猜你喜歡
        堿基級聯(lián)擬南芥
        擬南芥:活得粗糙,才讓我有了上太空的資格
        應用思維進階構建模型 例談培養(yǎng)學生創(chuàng)造性思維
        中國科學家創(chuàng)建出新型糖基化酶堿基編輯器
        生命“字母表”迎來4名新成員
        科學24小時(2019年5期)2019-06-11 08:39:38
        生命“字母表”迎來4名新成員
        尿黑酸對擬南芥酪氨酸降解缺陷突變體sscd1的影響
        兩種LED光源作為擬南芥生長光源的應用探究
        級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
        電子制作(2016年15期)2017-01-15 13:39:09
        擬南芥干旱敏感突變體篩選及其干旱脅迫響應機制探究
        基于級聯(lián)MUSIC的面陣中的二維DOA估計算法
        亚洲蜜芽在线精品一区| 久久亚洲色www成人欧美| 国产精品卡一卡二卡三| 亚洲性69影视| 久久中文字幕av一区二区不卡| 国产一区二区三区毛片| 卡一卡二卡三无人区| 日韩AV无码一区二区三区不卡毛片| 激情视频在线观看国产中文| 喷水白浆视频在线观看| 狼人青草久久网伊人 | 91精彩视频在线观看| 男女性搞视频网站免费| 人妻熟女翘屁股中文字幕| 久久青青草原亚洲av无码麻豆| 亚洲精品国产综合一线久久| 福利一区二区三区视频在线| 国产国拍精品亚洲av在线观看| 亚欧免费无码aⅴ在线观看| 国产精品视频牛仔裤一区| 亚洲一码二码在线观看| 国内自拍速发福利免费在线观看 | 天堂在线观看av一区二区三区| 美腿丝袜视频在线观看| 手机看黄av免费网址| 国产精品国产三级国av| 手机在线中文字幕国产| 论理视频二区三区四区在线观看| 亚洲一区自拍高清亚洲精品| 国产98在线 | 免费| 国产精品三级av一区二区| 激情文学婷婷六月开心久久| 免费人成视频xvideos入口| 国产免费av片在线观看播放| 久久精品国产亚洲av专区| 亚洲一区二区三区尿失禁| ā片在线观看| 国产三级伦理视频在线| 亚洲中文字幕午夜精品| 爱情岛永久地址www成人| 亚洲综合国产成人丁香五月小说|