亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多視角和多標簽學習的RNA 結合蛋白識別

        2021-11-17 08:26:26楊海濤鄧趙紅王士同
        計算機與生活 2021年11期
        關鍵詞:二肽分類器標簽

        楊海濤,鄧趙紅,王士同

        江南大學 人工智能與計算機學院,江蘇 無錫214122

        核糖核酸(ribonucleic acid,RNA),存在于生物細胞以及部分病毒、類病毒的遺傳信息載體之中,在生命體中主要發(fā)揮調(diào)控編碼基因表達的作用,同時也擔任基因轉(zhuǎn)錄后合成蛋白質(zhì)的模板角色,是生命體中不可缺少的成分。一條RNA想要順利發(fā)揮其功能,一般需要借助RNA 結合蛋白(RNA-binding protein,RBP)進行介導,因此缺少某種RBP 可能會導致某類RNA 無法發(fā)揮其調(diào)控或翻譯的功能,使生命體的某些重要蛋白質(zhì)缺失或異常增殖,影響自身機能。

        RNA 結合蛋白(RBP)是翻譯過程的關鍵參與者,它們結構域的多功能性與結構靈活性使得RBP能夠控制大量轉(zhuǎn)錄物的代謝。RBP 幾乎涉及翻譯調(diào)控層的所有步驟,它們與其他蛋白質(zhì)以及編碼和非編碼RNA 建立高度動態(tài)的相互作用,產(chǎn)生稱為核糖核蛋白復合物的功能單元,調(diào)節(jié)RNA 剪切、多腺苷酸化、穩(wěn)定性、定位、翻譯和退化[1-2]。研究發(fā)現(xiàn),某些特定RBP 具有調(diào)節(jié)RNA 合成癌蛋白和腫瘤抑制蛋白的功效,因此破譯RBP 與癌癥相關RNA 靶標之間錯綜復雜的結合關系網(wǎng)絡將為腫瘤生物學提供更好的研究方向,并可能發(fā)現(xiàn)治療癌癥的新方法[3-4]。

        在大數(shù)據(jù)和測序技術高度發(fā)展的背景下,醫(yī)療條件無法對每對RNA 和RBP 進行結合性檢測,因此涌現(xiàn)了很多利用機器學習模型從RNA 序列中識別RBP 結合位點[5]的算法。例如:Maticzka 等人提出了GraphProt[6]方法,其從高通量實驗數(shù)據(jù)中學習RBP序列和結構的結合偏好,設計出獨特的計算框架;Corrado 等人提出RNACommender[7],一種預測結合位點的方法,能夠通過可用的相互作用信息,考慮蛋白質(zhì)結構和RNA 的模擬二級結構,向未探索的RBP推薦RNA 靶點;由Zhang 等人提出的HOCNNLB[8]使用高階核苷酸編碼來作為初始特征,預測某段給定的RNA 是否是結合位點。這些方法的關注點在于利用原始RNA 序列的特征預測結合位點[9-10],忽視了RNA 與RBP 已有的結合信息對預測的助力。針對此,Pan 等人提出了iDeepM[11]方法,其利用多標簽分類和深度學習法預測一條RNA 與多種RBP 的結合情況,成功達到多標簽分類的預期效果。但iDeepM也存在如下的不足:其使用的RNA 序列單視角數(shù)據(jù)雖然對分類具有一定的有效性,但受限于RNA 序列的信息量不足,導致預測精度較低;另外該方法使用的卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡未能充分學習到標簽之間的關聯(lián),同樣對預測精度產(chǎn)生影響。

        本文針對iDeepM方法面臨的挑戰(zhàn),在Pan等人工作的基礎上進行了改進,提出了RRMVL(RNA-RBP multiview learning)方法。RRMVL 融合了多視角深度特征學習、多標簽特征學習和最優(yōu)多標簽鏈式學習技術來進行RBP 識別。首先,在最初的RNA 序列數(shù)據(jù)基礎上,提取了氨基酸序列視角數(shù)據(jù)、多間隙二肽成分視角數(shù)據(jù)和RNA 序列語義視角數(shù)據(jù);然后,針對不同視角的數(shù)據(jù)結構,設計各自視角的深度神經(jīng)網(wǎng)絡模型進行深度特征學習;接著,融合提取到的各個視角的深度特征,使用邏輯回歸原理學習每個視角的每一維特征對每一個標簽的貢獻權重;最后,將深度特征向量與各自標簽對應的權重系數(shù)相乘,輸入至改進后的CC 多標簽分類器中訓練,實現(xiàn)最優(yōu)多標簽鏈式學習,進一步提高RNA 與RBP 結合的預測精度。本文的實驗研究表明使用基于多視角的最優(yōu)多標簽鏈式學習的方法在預測精度方面有了明顯的提升。

        本文主要貢獻可歸納如下:(1)使用Word2Vec 技術訓練6 聚體RNA 語義模型,提取出RNA 序列的序列語義視角數(shù)據(jù)用于識別RNA 結合蛋白;(2)使用多間隙二肽成分表示法構建RNA 序列的成分視角,其包含更豐富的成分信息;(3)設計獨立的網(wǎng)絡模型,學習本文提出的RNA 序列視角、氨基酸序列視角、多間隙二肽成分視角和RNA 序列語義視角中每一維深度特征對每個標簽的貢獻權重,實現(xiàn)多標簽特征學習;(4)改進現(xiàn)有的CC 多標簽鏈式分類器,將多標簽特征學習后的加權特征向量應用于多標簽學習中,最大化提升了CC 多標簽分類器對每個標簽的學習能力,達到最優(yōu)多標簽鏈式學習的效果;(5)研究了類樣本不均衡對預測RNA 和RBP 結合精度的影響。

        1 相關工作

        1.1 RNA 序列與氨基酸序列的相互轉(zhuǎn)化

        自然界中存在五種堿基A、C、G、U、T,其中前四者是構成RNA 的主要成分。RNA 序列和氨基酸序列可以通過翻譯和逆翻譯機制[12]相互轉(zhuǎn)化。因為氨基酸序列是由20 種氨基酸構成的蘊含一定上下文信息的序列,其信息量遠比RNA 序列豐富[13],因此在以RNA 為研究主體的生物信息學領域,通常將RNA 序列轉(zhuǎn)化為氨基酸序列進行特征提取與分析。將RNA序列翻譯成氨基酸序列是單向且唯一的,但是由于一種氨基酸可對應多種堿基組合,用普通的翻譯方法得到的氨基酸序列無法還原至原始RNA 序列,這會造成信息丟失和信息曲解的后果。例如堿基組合GCA 可翻譯得到固定的氨基酸A,但是氨基酸A 卻可以表示為GCA、GCC、GCG、GCU。為了處理這個問題,本文使用三種方式將RNA 序列翻譯為氨基酸序列:(1)從頭開始翻譯RNA 序列;(2)跳過RNA 序列第一個堿基開始翻譯;(3)跳過RNA 序列第一和第二個堿基開始翻譯。用此方法可將長度為m的RNA序列轉(zhuǎn)化為3 條長度為1/3m的氨基酸序列,這三種形態(tài)的氨基酸序列可以通過序列信息互補還原原始RNA 序列信息。如上述的堿基組合GCA,可使用三種形態(tài)序列對應位置的氨基酸R、A、H 來唯一確定。三種形態(tài)拼接起來的長度為m的氨基酸序列能夠完全繼承原始RNA 序列的序列信息,且具有更加豐富的表現(xiàn)形式。

        1.2 多間隙二肽成分表示法

        二肽是氨基酸序列特有的一種結構[14],任意兩個氨基酸的組合稱為二肽。因為二肽對左右氨基酸的排列敏感[15-16],所以20 種天然氨基酸可以組成400 種不同的二肽。多間隙二肽成分表示法(g-gap dipeptide composition)[17]是一種描述氨基酸序列中二肽成分信息的方法。這種方法不僅包含了兩個氨基酸在序列上的相關性,還描述了由于蛋白質(zhì)二級結構中的氫鍵作用,序列上距離遠的兩個氨基酸,在三維空間上卻可能相鄰。因此使用多間隙二肽成分表示法可以為機器學習提供更多氨基酸序列和RNA 序列的成分信息,通常將氨基酸序列中多間隙二肽的種類及數(shù)量映射為一條特征向量作為初始特征使用。多間隙(g-gap)中的g表示某種中間間隔了g個氨基酸的二肽,取值范圍為0 到9。

        1.3 基于Word2Vec方法的語義模型

        在大數(shù)據(jù)為背景的信息時代,涌現(xiàn)出眾多形式的信息,其中文本信息是最傳統(tǒng)也是信息量最大的一種表現(xiàn)形式。如何將文字量化為可以提取特征的數(shù)字形式,即自然語言處理(natural language processing,NLP),成為機器學習領域一個重要的研究方向。Onehot 是目前較為流行的編碼技術[18-19],其原理是將由n種元素組成的長度為m的文字序列構建為n×m的矩陣,其中把每種元素轉(zhuǎn)化為n維標準正交基向量填充至m長度中的對應位置。但這種方法構建的初始特征矩陣受限于維度過大,且使用機器學習方法提取稀疏矩陣特征的效果不理想,因此one-hot 并不適用于大型詞庫的文本處理。

        Word2Vec[20-22]是NLP 領域常用的方法,其原理是通過訓練獨特的網(wǎng)絡模型,將詞庫中的每個詞映射為k維實數(shù)向量,使用詞的實數(shù)向量來構建文本樣本的初始特征矩陣。詞向量模型的訓練過程如下:(1)對文本樣本進行分詞操作,構造詞典,統(tǒng)計詞頻,依照詞語出現(xiàn)概率構造哈夫曼樹,生成每個詞語的二進制碼;(2)構建一個3 層結構的網(wǎng)絡模型,將相鄰詞語的二進制碼分別作為特征和標簽輸入至模型進行訓練;(3)獲取模型隱含層參數(shù),計算詞庫中每個單詞的詞向量。基于詞頻的哈夫曼編碼可以讓詞頻相似的詞在隱藏層激活的內(nèi)容基本一致,且單詞出現(xiàn)的頻率越高,它們激活的隱藏層節(jié)點數(shù)目就越少,有效通過較低的計算復雜度學習到單詞在高維空間中的距離分布。通過此方法訓練出來的詞向量不僅具有維度低的優(yōu)點,而且包含了其在文本樣本中的上下文信息,可以為特征提取提供良好的幫助。

        1.4 多標簽學習

        不同于多分類問題,多標簽分類[23]是一種更普遍且更具有挑戰(zhàn)的問題,它描述了一個樣本可以對應多個類的情況。現(xiàn)處理這類問題的方法有兩種:一種是問題轉(zhuǎn)化法,即把多標簽問題中的多個標簽通過一定形式的組合,變?yōu)槿舾蓸撕灱?,將標簽集合看作特殊的標簽,間接把問題轉(zhuǎn)化為普通的單標簽學習問題。經(jīng)典的算法有BR(binary relevance)[24]、LP(label powerset)[25]和CC(classifier chains)[26]。BR 算法設計若干分類器,有效學習到每個類別的特征,卻忽略了標簽之間的相關性;LP 算法雖然考慮到標簽之間的聯(lián)系,但是該算法的時間和空間復雜度比較高;CC 算法利用多個分類器構造鏈式結構,可以有效學習到標簽之間錯綜復雜的關系。另一種做法是改進現(xiàn)有的單標簽學習法來適應多標簽分類,使其具有處理多標簽問題的能力。比較常見的有基于Boosting的算法AMH(AdaBoost.MH)和AMR(AdaBoost.MR)[27],以及基于決策樹的算法。其中AMH 是以Hamming Loss作為損失函數(shù)來構建學習模型;AMR算法以Ranking Loss 作為損失函數(shù);Clare 等人對經(jīng)典的單標簽決策樹學習模型進行了改進,提出算法C4.5[28],其原理是通過計算訓練樣本的信息增益來訓練分類器。改進后的算法中,葉節(jié)點不再是一個類,而是一個標簽集合。但這些算法沒有充分考慮標簽間的關聯(lián)性。

        2 多視角多標簽識別RNA 結合蛋白

        2.1 總覽

        本文把探索一條RNA 與多種RNA 結合蛋白(RBP)結合的問題轉(zhuǎn)化為機器學習中的多標簽分類問題。RNA 序列作為研究主體,RBP 作為類別。不同于現(xiàn)有方法,本文利用分子生物學原理,把原始RNA 序列轉(zhuǎn)化為氨基酸序列,統(tǒng)計氨基酸序列的0-gap 二肽和1-gap 二肽數(shù)量,組成多間隙二肽成分,利用Word2Vec 技術構建6 聚體RNA 詞向量,由此得到RNA 序列視角、氨基酸序列視角、多間隙二肽成分視角和RNA 序列語義視角的初始數(shù)據(jù)。然后使用深度卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)分別提取4 個視角的深度特征,將其拼接并投入至多標簽特征學習模型中訓練,通過此模型的處理,可以獲取每個標簽相關的加權特征向量。接著將加權特征向量投入多標簽分類器CC 模型學習標簽之間的關聯(lián)性。最后使用上述CC 模型訓練出來的分類器,預測一條未探索的RNA 序列與多種RBP 的結合情況。本文方法的整體框架如圖1 所示,它包含4 個部分:獲取初始多視角數(shù)據(jù)、多視角深度特征學習、多標簽特征學習和多標簽學習。

        Fig.1 Optimal multi-label chain learning method framework based on multi-view learning圖1 基于多視角的最優(yōu)多標簽鏈式學習方法框架

        2.2 多視角初始特征提取

        在大數(shù)據(jù)時代,數(shù)據(jù)量增多的同時,數(shù)據(jù)的表示形式也越來越多樣化,對樣本進行多視角數(shù)據(jù)提取成為一種趨勢。利用多視角數(shù)據(jù)間相容、互補的性質(zhì)對其進行更有效的分析成為很多領域的必然需求。本文從4 個角度對RNA 序列進行數(shù)據(jù)提取工作,分別為包含次序信息的RNA 序列視角、氨基酸序列視角,包含成分信息的多間隙二肽成分視角和包含語義信息的RNA 序列語義視角。

        2.2.1 RNA 序列one-hot編碼

        RNA 序列是由4 種堿基組成的文字序列。許多方法將其作為特征提取的主體,利用one-hot 編碼技術將文字序列轉(zhuǎn)化為數(shù)值矩陣,再投入至機器學習模型中去訓練。One-hot會為一條長度為m的RNA序列構造一個4×m大小的空白矩陣,將每種堿基轉(zhuǎn)化為4維正交基向量,填充至序列的對應位置,如圖2所示。

        Fig.2 One-hot encoding of RNA sequence圖2 RNA 序列one-hot編碼

        圖2 中行標題為一條具體的RNA 序列,實際長度為2 700。對照列中堿基所在的位置,可以把序列中的堿基A 表示為向量(1,0,0,0)T,堿基C 表示為向量(0,1,0,0)T,堿基G 表示為(0,0,1,0)T,堿基U 表示為(0,0,0,1)T,以此類推。由于數(shù)據(jù)集中RNA 序列的長度不統(tǒng)一,規(guī)定了一個固定的長度2 700,使用堿基B 來補齊每條不足2 700 位的RNA 序列,這里統(tǒng)一用向量(0.25,0.25,0.25,0.25)T來表示。

        2.2.2 氨基酸序列one-hot編碼

        上述方法構建的初始矩陣雖然對提取特征有幫助,但缺點是信息量較少。氨基酸序列由20 種氨基酸構成,其信息量遠比RNA 序列豐富,因此使用氨基酸序列轉(zhuǎn)化得到的one-hot 編碼矩陣會為特征提取提供更好的效果。利用基于codon[29]的三種翻譯方式,可將長度為m的RNA 序列轉(zhuǎn)化為3 條長度為1/3m的氨基酸序列,拼接三種形態(tài)的氨基酸序列,能夠完全繼承原始RNA 序列的序列信息,且具有更加豐富的表現(xiàn)形式。對拼接的長鏈進行one-hot 編碼,原理同RNA 序列,可得到20×m大小的初始特征矩陣,如圖3 所示,即為本文所提出的氨基酸視角數(shù)據(jù)。圖中行標題為一條具體的氨基酸序列,實際長度為2 700。對照列標題中氨基酸所在的位置,可以將行序列中的所有氨基酸表示為20 維的標準正交基向量,其中i表示氨基酸α在圖中列標題所在位置,如氨基酸A 可以表示為氨基酸H 可以表示為氨基酸M可以表示為以此類推。由于RNA 序列存在終止密碼子,且部分RNA 序列含有臨時堿基B,這里使用字母O 來表示它們,向量值全部設為0.05。

        2.2.3 提取序列成分構造多間隙二肽柱狀圖

        上述提到的RNA 視角和氨基酸視角數(shù)據(jù)偏向于對序列次序提取特征,而序列除了次序外,其組成成分同樣重要。因為0-gap 二肽偏向于二維序列的成分組成,而1-gap 二肽帶有三維結構成分信息,所以使用0-gap 二肽和1-gap 二肽提取成分信息效果最佳,本文采用它們的組合形式構成多間隙二肽成分視角。二肽對左右氨基酸排列是敏感的,對于本文中21 種氨基酸(20 種天然氨基酸和本文增加的臨時氨基酸O),共有21×21×2 個多間隙二肽種類,由于OO 和O*O 的組合對本文的研究無太多意義,被舍棄。統(tǒng)計這880 種二肽出現(xiàn)的次數(shù)得到特征向量,可以有效地捕獲序列成分信息和空間成分信息。由于880 維的特征向量是一維的,用于提取深度特征的效果不理想,將其轉(zhuǎn)化為二維柱狀圖,可以更有效地提取深度特征,如圖4 所示。圖中上部分表格的橫坐標為二肽種類,其中“AA”表示左右都是丙氨酸的0-gap二肽,18 代表其在樣本序列中的數(shù)量;“A*D”表示左側為丙氨酸,中間間隔任意一個氨基酸,右側為天冬氨酸的1-gap 二肽。圖4 只列舉了12 種二肽,實際數(shù)量為880 種。下部分圖表為轉(zhuǎn)化后的柱狀圖,每種二肽數(shù)量的上限設為30,因此取30×880 大小的矩陣作為此條序列的多間隙二肽初始數(shù)據(jù)。

        2.2.4 使用RNA 詞向量構建語義矩陣

        自然語言處理(natural language processing,NLP)是計算機科學領域與人工智能領域中的一個重要研究方向,從初始數(shù)據(jù)的角度來看,生物信息學與NLP的研究數(shù)據(jù)具有相同的形式[30]。因此,可以使用NLP的方法來解決生物信息學中對文本的編碼及初始特征構建。本文使用6 聚體RNA 構建語義詞庫,6 聚體RNA 為6 個連續(xù)堿基組成的結構,詞庫共由46種6 聚體RNA組成。本文使用現(xiàn)流行的Word2Vec技術構建語義模型,其原理如圖5 所示?;诒疚乃脭?shù)據(jù)集中的92 102 條RNA 序列,逐條對它們進行以下操作:(1)使用6 位堿基為大小的滑動窗口,獲取RNA 序列中6 聚體RNA 的排列順序;(2)對每個6 聚體RNA 進行編碼,即它在4 096種形態(tài)中的位置(以“AAAAAA”為1,“UUUUUU”為4 096 的規(guī)則);(3)將相鄰的2 個6 聚體RNA 分別作為特征X和標簽Y,投入至語義模型中訓練;(4)從訓練完的語義模型中提取4 096種6 聚體RNA 的詞向量結果;(5)使用詞向量替代RNA 序列中每個6 聚體RNA,構建RNA 序列語義矩陣。由6 聚體RNA 詞向量構成的RNA 序列語義矩陣不僅具有較小的維度,而且包含了以6 位堿基為基序的RNA 序列次序和上下文結構信息,可以更好地進行深度特征學習。

        Fig.5 Process of generating RNA sequence semantic matrix圖5 RNA 序列語義矩陣生成過程

        2.3 建立深度卷積網(wǎng)絡模型提取深度特征

        基于上述4 個視角得到的初始特征數(shù)據(jù),構建了4 個不同的深度卷積神經(jīng)網(wǎng)絡模型,來獲取這4 個視角的深度特征。深度卷積神經(jīng)網(wǎng)絡(CNN)是一類包含卷積計算且具有深度結構的前饋神經(jīng)網(wǎng)絡,處理對象主要為圖像數(shù)據(jù),其具有強大的表征學習能力,能夠按其階層結構對輸入信息進行平移不變分類[31-33],因此也被稱為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡”。4 個視角的模型很相似,輸入層之后統(tǒng)一附加卷積層,經(jīng)過池化、扁平化、dropout 后使用2 個全連通層進行橋接。利用這樣的模型所得到的深度特征不僅比原始特征具有更小的維數(shù),而且具有更好的判別能力,增強了后續(xù)分類工作的泛化性。圖6 中的(1)~(4)分別是提取RNA 序列視角、氨基酸序列視角、多間隙二肽成分視角和RNA 序列語義視角深度特征的CNN 模型圖。圖中公式k@m×n表示網(wǎng)絡各層的特征圖數(shù)量及大小,k表示該層的特征圖數(shù)量,m×n表示該特征圖的大?。痪矸e核的大小表示為k×m×n,其中k代表卷積核的數(shù)量,m×n代表卷積核的大小,卷積步長默認為1。整個模型的輸入為上文提到的各個視角的原始數(shù)據(jù)矩陣,經(jīng)過模型處理后得到68 維的特征向量,對應68 個類別(67 種RBP 和不屬于任何一類的負類)。CNN 網(wǎng)絡最后一層網(wǎng)絡采用的激活函數(shù)為“Sigmoid”函數(shù),該函數(shù)會將最后的全連通層數(shù)據(jù)映射到0~1 之間,因此最后的特征向量值均為小數(shù),代表RNA 序列隸屬于這68 個類的概率分布。網(wǎng)絡最后一層只是為了使本文的模型達到擬合數(shù)據(jù)的目的,深度特征數(shù)據(jù)經(jīng)過該層和Sigmoid 函數(shù)激活已經(jīng)有了明顯的分類趨勢,不利于訓練接下來的多標簽特征學習模型,因此采用倒數(shù)第二層202 維的深度特征作為模型的輸出結果。

        Fig.6 4 views'deep feature extraction network model圖6 4 個視角深度特征提取網(wǎng)絡模型

        圖6模型中,除了最后一層全連通層使用“Sigmoid”激活函數(shù)外,其他網(wǎng)絡層的激活函數(shù)均為“ReLU”。因為“ReLU”函數(shù)比“Sigmoid”具有更小的計算量,且有一定的防止梯度消失的作用。由于最后一層要將特征向量與標簽相關聯(lián),使用“Sigmoid”函數(shù)比較合適?!癛eLU”函數(shù)和“Sigmoid”函數(shù)的公式定義如下:

        因為多標簽分類問題可以看成是由若干個二分類問題所組成,所以使用二分類的損失函數(shù)來處理多分類問題。上述4 個CNN 模型均采用二進制交叉熵(binary_crossentropy)作為損失函數(shù),定義如下:

        其中,p(xi)和q(xi)都代表序列x對于類別i的隸屬度,p代表實標簽值,即1 或0,q代表預測值,在這里因為經(jīng)過“Sigmoid”函數(shù)激活,所以q∈[0,1]。

        2.4 基于多視角的最優(yōu)多標簽鏈式學習算法

        CC 算法是一種可以高效學習標簽之間關聯(lián)的多標簽分類算法,其原理是構建若干個二分類器來預測對應的若干標簽,每訓練完一個二分類器,算法都會將該分類器預測的對應標簽結果附加到初始特征之后,作為下一個二分類器訓練的輸入特征,直至所有分類器訓練完畢。然而CC 算法存在三種弊端:其一,每次為新標簽訓練分類器時,盡管加入了部分已預測的標簽值作為新特征,然而輸入的初始特征始終不變,無法最大化利用標簽關聯(lián)性訓練新標簽分類器;其二,CC 算法過于依賴標簽排列順序,最初的標簽分類器性能直接影響了后續(xù)新標簽分類器的訓練效果;其三,現(xiàn)有的CC 算法無法應用于多視角數(shù)據(jù)場景下的多標簽學習。

        鑒于此,本文改進了現(xiàn)有CC 鏈式分類器,將其應用到多視角場景。利用多標簽特征學習技術,把多視角數(shù)據(jù)的優(yōu)勢附加到CC 算法中,同時最大化提升了分類器對每個標簽的學習能力,使之可以更好地學習標簽之間的關聯(lián),達到最優(yōu)多標簽鏈式學習的效果,具體原理如圖7 所示。

        Fig.7 Principle of optimal multi-label chain learning based on multi-view learning圖7 基于多視角的最優(yōu)多標簽鏈式學習原理

        算法分兩部分:多標簽特征學習和多標簽學習。首先從上游的CNN 模型獲取各個視角的深度特征向量,將它們拼接并投入至多標簽特征學習網(wǎng)絡模型中訓練。該模型的輸入為808 維特征向量,輸出為68維結果,對應68 個標簽。通過該模型的學習,可以獲取68 組808 維的權重系數(shù),對應輸入向量的每一維特征對預測每個標簽的貢獻權重。將808 維特征向量依次與這68 組權重系數(shù)相乘,獲得68 組加權特征向量,用于訓練下游的CC 多標簽分類器。本實驗的CC 多標簽分類器由68 個二分類器組成,用于預測一條RNA 對68 個標簽的隸屬情況。鑒于CC 多標簽分類器對標簽順序具有依賴性,根據(jù)訓練集中各標簽樣本數(shù)量的差異對標簽分類器的訓練進行預排序,使得樣本數(shù)量較多的標簽分類器始終處于優(yōu)先訓練的狀態(tài)。根據(jù)此訓練次序,從多標簽特征學習模塊獲得加權特征向量x1,并將其用作輸入特征開始訓練第一個二分類器。由它預測的第一個標簽值被附加到加權特征向量x2末尾,用以訓練第二個二分類器。重復該過程,直至最后一個二分類器訓練完畢。不同于傳統(tǒng)的CC 多標簽分類器,本文提出的最優(yōu)CC 多標簽分類器,其特點在于,當訓練完第i個二分類器后,將目前預測的所有標簽值附加到與下個標簽關聯(lián)的加權特征向量xi+1的末尾,進行第i+1 個二分類器的訓練。這樣不僅保留了CC 算法學習標簽關聯(lián)性的能力,而且最大化提升了CC 多標簽分類器對每個標簽的學習能力,把多視角和多標簽算法的優(yōu)勢結合在一起,形成最優(yōu)多標簽鏈式學習。訓練和預測算法如算法1、算法2 所示。

        算法1 最優(yōu)CC 多標簽分類器訓練過程(基于L個標簽和與L個標簽相關聯(lián)的加權特征向量數(shù)據(jù)集DL)

        算法2最優(yōu)CC 多標簽分類器預測過程(基于樣本X的L組權重特征)

        3 實驗研究

        3.1 數(shù)據(jù)集

        本文使用的數(shù)據(jù)來源于AURA 網(wǎng)站[34]。本文從該網(wǎng)站上獲取了137 003 條RNA 序列信息,1 264 種調(diào)控因子信息以及2 549 510 個它們之間的結合位點信息,如圖8 所示,紅色整圓部分代表RNA 序列庫,結合位點信息和調(diào)控因子信息屬于綁定關系,因此使用藍色半圓和綠色半圓分別表示它們,圖中各顏色數(shù)值代表對應部分的信息數(shù)量。調(diào)控因子又稱反式作用因子,是轉(zhuǎn)錄模板上游基因編碼的一類蛋白調(diào)節(jié)因子,包括激活因子和阻遏因子等。常見的調(diào)控因子有RBP、miRNA、轉(zhuǎn)錄因子。因本文是研究RBP 結合關聯(lián)性問題,且上述結合位點信息中涉及的RNA 不全包含在137 003 條序列中,所以最終本文選取了67 種RBP,73 681 條RNA 序列信息和550 386個它們之間的結合位點信息,如圖8 中雙圓的交叉部分所示。除此之外,本課題加入了18 421 條沒有任何結合位點信息的RNA 序列并入數(shù)據(jù)集,作為負樣本使用。

        Fig.8 AURA database composition圖8 AURA 數(shù)據(jù)庫組成

        3.2 性能指標

        本文采用AUC 面積和F1 得分兩種評價指標來評價模型的分類性能和預測性能。AUC 被定義為ROC 曲線下面積,ROC 曲線是反映敏感性和特異性連續(xù)變化的綜合指標[35],AUC 值越大,模型的分類性能越好。在多標簽分類問題中,類別樣本不均衡會導致性能指標偏差過大,因此本文引入常用的Macro、Micro 和Weight 約束條件。Macro-AUC通過給每個類設置相同的權重,計算各個類的AUC 求和均值得到,當小類很重要時該數(shù)值會偏低。Micro-AUC 是將每個類的敏感性和特異性分別求和,得出的結果繪制成ROC 曲線,求得的AUC,當大類很重要時該數(shù)值會偏低。Weighted-AUC 根據(jù)每個類的樣本數(shù)量,計算出每個類的權重,再對這些類的AUC 進行加權求和。除了評價模型分類性能外,還將對模型的預測性能進行F1-score 的計算,F(xiàn)1 值是準確率和召回率的調(diào)和平均數(shù),和AUC 指標相同,也為F1 增加了Macro、Micro 和Weight的約束條件。

        3.3 本文算法預測效果

        為探究一條未知RNA 與多種RBP 的結合情況,Pan 等人使用多標簽技術,利用卷積神經(jīng)網(wǎng)絡和長短時記憶網(wǎng)絡建立了iDeepM[11]預測模型,本文在相同數(shù)據(jù)集的基礎上對提出的方法RRMVL 以及RRMVL下各個視角的單視角模型進行五折交叉驗證測試。同時,為了驗證深度學習在基于長樣本RNA 序列上的學習優(yōu)勢,本文構造了編碼整條RNA 序列作為特征進行訓練的決策樹分類模型,以此與深度學習模型進行對比,結果如表1 所示。k折交叉驗證在確保一致的數(shù)據(jù)分布的基礎上,將數(shù)據(jù)劃分為大小相同的k個子集。每次將其中一個子集作為測試集,其他子集作為訓練集。獲取k個測試結果的平均值作為最終結果。這種驗證方法有效避免了試驗樣品的取樣偏差,從而獲得了更有說服力的試驗結果。

        從表1 可以看出,使用深度學習的iDeepM 模型和RRMVL 模型效果均優(yōu)于決策樹模型,證明深度學習在提取長樣本特征上的優(yōu)勢明顯。RRMVL 方法下個任意視角模型預測值均優(yōu)于iDeepM 模型,體現(xiàn)了本文方法的有效性。同時,所有視角模型整合下的RRMVL 方法在AUC 數(shù)值和F1 數(shù)值上均比任意單視角模型高,體現(xiàn)了多視角數(shù)據(jù)之間的信息互補性,同時也說明數(shù)據(jù)的多視角化在生物信息學領域可以取得較好的效果。從單視角來看,多間隙二肽成分視角取得了最好的效果,這是因為多間隙二肽不僅包含序列次序信息,而且包含了序列成分和結構信息,是信息量最豐富的視角。RNA 序列語義單視角的效果相比初始RNA 序列視角略低,這是由于通常訓練一個好的語義模型需要百萬級的樣本數(shù)據(jù),而本文的數(shù)據(jù)集僅包含92 102 條RNA 序列,不足以訓練出效果理想的6 聚體RNA 詞向量,因此預測性能效果不佳。總體而言,在3 種對比算法中,本文提出的RRMVL 方法取得了3 項AUC 和3 項F1 的最佳效果,由此證明基于多視角的最優(yōu)多標簽鏈式學習方法在識別RNA 結合蛋白的問題上達到了預期效果。

        3.4 多標簽特征學習和多標簽學習有效性分析

        為檢驗本文使用的多標簽特征學習和最優(yōu)多標簽鏈式學習效果,本文在AURA 數(shù)據(jù)集上對RRMVL及其變體方法進行了雙重對比實驗,分別為使用基于多視角投票的集成學習RRMVL 方法與使用多標簽特征學習RRMVL 方法對比,以及未使用多標簽學習的RRMVL 方法和使用多標簽學習的RRMVL 方法對比。因基于多視角投票的集成學習模型不是一種分類器,所以沒有AUC 指標,其余方法的五折交叉驗證結果如表2 所示。

        Table 1 Performance of algorithms on AURA dataset表1 各算法在AURA 數(shù)據(jù)集上的性能

        Table 2 Effect comparison of multi-label feature learning and multi-label learning表2 多標簽特征學習、多標簽學習效果對比

        Fig.9 Line charts of methods'performance comparison for single class dataset圖9 單個類數(shù)據(jù)集的方法性能對比折線圖

        從表2 可以看出,對于多視角數(shù)據(jù)而言,在對其使用多標簽特征學習后,模型的預測性能始終比基于投票的集成學習突出,說明多標簽特征學習充分利用了多視角數(shù)據(jù)的優(yōu)勢。另一方面,在處理多標簽分類問題上,使用多標簽分類器的方法始終優(yōu)于未使用多標簽技術的方法,證明了標簽之間的關聯(lián)對預測產(chǎn)生了不可忽視的作用。結合多標簽特征學習和多標簽學習,即本文提出的最優(yōu)多標簽鏈式學習,其性能優(yōu)于使用集成學習的傳統(tǒng)CC 算法,證明本文對傳統(tǒng)CC 算法的改進富有成效。值得注意的是進行多標簽學習后,RRMVL 的AUC 指標有所下降,這是由于多標簽CC 分類器的分類性能與神經(jīng)網(wǎng)絡最后一層的“Sigmoid”網(wǎng)絡分類能力略有差距。對于三項F1 指標,基于最優(yōu)多標簽鏈式學習方法RRMVL取得了最好效果,再次證明本文方法能夠較為準確地判別某條未探索的RNA 與多種RBP 的結合情況。

        3.5 類樣本不均衡影響分析

        為研究類樣本數(shù)量對實驗效果的影響,本文使用RRMVL 對68 個類數(shù)據(jù)集進行單獨實驗,對比iDeepM 的五折交叉驗證結果折線圖如圖9所示。圖9為準確度、召回率和F1 指數(shù)的折線圖,按照類樣本數(shù)量遞增的次序進行繪圖。

        從圖9 可以看出,兩種對比算法中,RRMVL 在大部分類的預測精度取得了最佳效果,兩個方法隨著類樣本數(shù)量的逐漸提升,各指標都呈現(xiàn)逐漸提高并趨于平緩的趨勢。當樣本數(shù)量低于5 000 時,各項指標的起伏較大,這是由于類樣本數(shù)量過少導致模型無法準確地學習這些類樣本的深度特征。對比兩條曲線,iDeepM 方法在低樣本環(huán)境下的學習能力不如RRMVL,表現(xiàn)為動蕩幅度更劇烈,間接體現(xiàn)多視角數(shù)據(jù)在小樣本學習下的優(yōu)勢??傮w而言,本文方法在各個類數(shù)據(jù)集上達到了預期效果。

        4 結論和展望

        本文提出一種基于多視角的最優(yōu)多標簽鏈式學習法來對一條未探索的RNA 進行RBP 結合性識別,通過實驗數(shù)據(jù)可以發(fā)現(xiàn),本研究提出的多視角深度特征提取法對比傳統(tǒng)的特征提取,獲得了更好的效果。并且使用多標簽特征學習和最優(yōu)多標簽鏈式學習的算法進一步提高了預測精度。可以發(fā)現(xiàn)以多間隙二肽成分視角為首的多視角數(shù)據(jù)以及多視角多標簽的學習方法對識別RBP 具有較大的價值。

        雖然研究的效果得到了提升,但是該研究還有一些不足和值得進一步深入研究的地方。比如RNA序列語義性視角的性能略低,沒有達到預期的效果。隨著測序工作的進行,未來基于大數(shù)據(jù)下的語義模型能夠更好地學習到6 聚體RNA 的詞向量分布,該視角的預測精度可以得到一定的提升。此外,本文所用數(shù)據(jù)集中不同類別的樣本數(shù)量相差過大,屬于典型的類不平衡問題,對模型的學習效果和分類效果產(chǎn)生較大影響。未來如何構造更適合類不平衡場景下的RBP 識別方法也將是一個重要的研究方向。

        猜你喜歡
        二肽分類器標簽
        大型海藻中環(huán)二肽類抑藻活性化合物的分離純化
        海洋通報(2022年6期)2023-01-07 02:49:22
        左旋多巴與脯氨酸或谷氨酸構成的環(huán)二肽的合成及其DPPH自由基清除活性測試
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        電化學發(fā)光分析法測定糖尿病相關二肽
        分析化學(2017年12期)2017-12-25 12:24:55
        二肽的生物合成及應用研究進展
        加權空-譜與最近鄰分類器相結合的高光譜圖像分類
        結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        標簽化傷害了誰
        国产精品流白浆喷水| 天天碰免费上传视频| 乌克兰少妇xxxx做受野外| 国产一极毛片| av二区三区在线观看| 久久中文字幕人妻淑女| 国语对白嫖老妇胖老太| 国产精品搭讪系列在线观看| 亚洲国产精品亚洲高清| 自由成熟女性性毛茸茸应用特色| 亚洲乱亚洲乱妇| 成年人黄视频大全| 一区二区三区四区在线观看视频| 蜜桃av人妻精品一区二区三区| 又色又爽又高潮免费视频观看| 国产国拍亚洲精品mv在线观看| 国产粉嫩美女一区二区三| 日韩av毛片在线观看| 国产午夜精品一区二区三区嫩草| 国产成人啪精品| 亚洲一区二区三区高清视频| 免费a级毛片高清在钱| 国产成人精品日本亚洲11| 亚洲aⅴ久久久噜噜噜噜| 国产成人精品一区二区三区av| 国产精品av在线| 国产精品一区二区暴白浆| 国产女主播福利一区在线观看| 人妻少妇不满足中文字幕| 97人人模人人爽人人喊电影 | 人人妻人人澡人人爽超污| 少妇邻居内射在线| 亚洲一区二区观看网站| 草逼短视频免费看m3u8| 免费观看性欧美大片无片| 亚洲精品亚洲人成在线播放| 伊人久久亚洲精品中文字幕| 熟女少妇内射日韩亚洲| 一区二区三区日韩亚洲中文视频| 国产午夜精品av一区二区三| 国产精品女同久久久久电影院|