劉立偉,劉鐵暉
(大連交通大學(xué)理學(xué)院,遼寧 大連 116028)
一種新的RNA二級(jí)結(jié)構(gòu)三維圖形表示及其應(yīng)用
劉立偉*,劉鐵暉
(大連交通大學(xué)理學(xué)院,遼寧 大連 116028)
本研究提出了一種新的RNA二級(jí)結(jié)構(gòu)的圖形表示方法,這種方法不同于以往的表示方式。根據(jù)所提出的RNA二級(jí)結(jié)構(gòu)的圖形表示,將對(duì)9種病毒的RNA二級(jí)結(jié)構(gòu)進(jìn)行圖形表示,構(gòu)建系統(tǒng)進(jìn)化樹(shù),進(jìn)行序列間相似性的比較和分析。根據(jù)最終結(jié)果,可以很清晰地發(fā)現(xiàn),AVII與LRMV兩種病毒是最為相似的,另外,較大的距離值出現(xiàn)在了APMV與ALMV;PDV與AVII中,這說(shuō)明這幾種RNA二級(jí)結(jié)構(gòu)明顯不相似。這一研究結(jié)果與前人相似性分析的結(jié)果是十分相似的,同時(shí),所采取的方法更加簡(jiǎn)單易于區(qū)分觀察且得到的結(jié)果又是十分可靠的,因此,這些更加證明了該方法是有效的。
RNA二級(jí)結(jié)構(gòu);圖形表示;系統(tǒng)進(jìn)化樹(shù);相似性
近期,隨著生命科學(xué)和計(jì)算機(jī)科學(xué)的快速發(fā)展,生物信息學(xué)作為一個(gè)新興的交叉學(xué)科非常活躍。它通過(guò)綜合利用生物學(xué),計(jì)算機(jī)科學(xué),應(yīng)用數(shù)學(xué)和信息技術(shù)而揭示大量而復(fù)雜的生物數(shù)據(jù)所賦有的生物學(xué)奧秘。RNA在生命過(guò)程中起著非常重要的作用。許多實(shí)驗(yàn)已證實(shí)RNA的功能依賴于它本身的結(jié)構(gòu),從RNA結(jié)構(gòu)的角度探索RNA的功能是一個(gè)十分重要的研究課題,因此RNA二級(jí)結(jié)構(gòu)的相似性比較成為了這個(gè)課題的熱點(diǎn)問(wèn)題。隨著基因組學(xué)和表觀遺傳學(xué)的發(fā)展,RNA在生命活動(dòng)中所扮演的角色更加被科學(xué)家重視。通過(guò)對(duì)RNA結(jié)構(gòu)相似性的分析,進(jìn)而能夠幫助我們了解RNA一些新的生物功能。同時(shí),廖波、張屹和曹志等[1-3]在RNA二級(jí)結(jié)構(gòu)比較上都做出了相應(yīng)的貢獻(xiàn)。
Liao等[1]給出了一種RNA二級(jí)結(jié)構(gòu)的二元編碼方法。文獻(xiàn)[1]的做法是減少一個(gè)RNA二級(jí)結(jié)構(gòu)分為三個(gè)二進(jìn)制數(shù)字,并根據(jù)RNA二級(jí)結(jié)構(gòu)的理化性質(zhì)將編碼的堿基分為三類,在提出編碼規(guī)則的基礎(chǔ)上進(jìn)行操作,將X1異或X2用X1⊕X2表示。結(jié)合所提出的編碼規(guī)則,得到兩個(gè)特征序列所對(duì)應(yīng)的兩個(gè)RNA公共子序列二級(jí)結(jié)構(gòu),最終得到最優(yōu)的對(duì)齊方式,通過(guò)這種方式可以判斷堿基之間或者堿基對(duì)和堿基對(duì)之間的突變,并容易進(jìn)行序列比對(duì)。Zhang等[2]比較RNA二級(jí)結(jié)構(gòu)相似性并進(jìn)行分類,提出了一種三維(3D)的RNA二級(jí)結(jié)構(gòu)的圖形表示,基于核酸的化學(xué)性質(zhì),把其中一個(gè)RNA二級(jí)結(jié)構(gòu)首先轉(zhuǎn)化為一個(gè)特征序列,然后構(gòu)造一個(gè)動(dòng)態(tài)的三維圖的特征序列,最后用三維圖的數(shù)值特征化代表RNA二級(jí)結(jié)構(gòu)。進(jìn)行RNA二級(jí)結(jié)構(gòu)相似性分析。還有Cao等[3]提出了一種有效的方法。在突變分析的基礎(chǔ)上進(jìn)行引入的表示,減少一個(gè)二級(jí)結(jié)構(gòu)為三個(gè)二進(jìn)制數(shù)字序列,根據(jù)所提出的三維立方體表示,將介紹一個(gè)擴(kuò)展的二進(jìn)制編碼方法的RNA二級(jí)結(jié)構(gòu)進(jìn)行調(diào)整,通過(guò)轉(zhuǎn)換的結(jié)構(gòu)比對(duì)到序列比對(duì)。之前,Yao等[4]在不同病毒圖形表示的基礎(chǔ)上,將RNA二級(jí)結(jié)構(gòu)的相似性進(jìn)行了一系列定量的比較。通過(guò)之前一些學(xué)者的經(jīng)驗(yàn)理論,提出了一種新的表示方法。
本文主要介紹的是RNA二級(jí)結(jié)構(gòu)的圖形表示,并詳細(xì)分析了RNA結(jié)構(gòu)的表示方法,利用其特點(diǎn)提出了RNA結(jié)構(gòu)的表示方法---距離矩陣表示法,在此基礎(chǔ)上提出了基于距離矩陣表示法的相似性比對(duì)算法。主要內(nèi)容包括如下幾個(gè)方面:
(1)介紹了生物信息學(xué)中一些最基本和最熱點(diǎn)的問(wèn)題。初步對(duì)RNA二級(jí)結(jié)構(gòu)相似性問(wèn)題有個(gè)大概的了解,同時(shí)對(duì)現(xiàn)階段生物信息學(xué)的研究進(jìn)展進(jìn)行簡(jiǎn)單的分析。
(2)提出一種新的RNA二級(jí)結(jié)構(gòu)三維的圖形表示方法。
(3)根據(jù)定義的圖形表示的性質(zhì),提取了九維特征向量代表選取的RNA二級(jí)結(jié)構(gòu)序列。然后將算法運(yùn)用到RNA相似性分析上,同時(shí)進(jìn)行進(jìn)化樹(shù)分析,比較其相似性。
RNA二級(jí)結(jié)構(gòu)是一組單堿基和堿基對(duì)通過(guò)氫鍵之間A-U,G-C的相互配對(duì),相互作用形成一條RNA序列。根據(jù)RNA二級(jí)結(jié)構(gòu)的特點(diǎn),可以將一條RNA序列用堿基表示出來(lái)。圖1所示為本研究選取的九種病毒的RNA二級(jí)結(jié)構(gòu)[5]。
以其中一條為例,表示方法如下:
ALMV:AUGCUC’A’U’G’C’A’AAACU’G’C’A’U’G’A’AUGC’C’C’CUAAG’G’G’AUGC
從5’開(kāi)始,A表示5’端開(kāi)始,U為第二個(gè)堿基,依次類推,U’表示配對(duì)的堿基。根據(jù)這種規(guī)則可以得到一條用字母表示的RNA二級(jí)結(jié)構(gòu)序列[6]。
RNA序列片段用這種方式表示后,選擇三種表示方法將每一個(gè)堿基放在三維結(jié)構(gòu)里進(jìn)行定義,將每個(gè)堿基給予它一個(gè)點(diǎn)坐標(biāo)。
圖1 九種病毒的RNA二級(jí)結(jié)構(gòu) Fig.1 RNA secondary structures of 9 viruses
根據(jù)以往Qi等[7]所提出的DNA序列三維圖形表示,也相類似的進(jìn)行RNA序列三維圖形表示:將A,A’, C,C’, G,G’, U,U’分別置于+X軸、-X軸、+Y軸和-Y軸上,而特征曲線也是沿著+Z軸延伸。因此,依照以上分類方法,每條RNA序列都會(huì)得到三種不同的表示形式,用數(shù)學(xué)形式表示如下:設(shè)Y=y1y2...yn為任意的RNA序列,則存在三個(gè)映射fj,j=1,2,3,fj(Y)=fj(y1)fj(y2)…fj(yn).因此:
(1)
(ⅱ
(2)
(ⅲ
(3)
按照以上映射原則應(yīng)用數(shù)學(xué)軟件所畫出的ALMV三維圖(見(jiàn)圖2).
圖2 RNA二級(jí)結(jié)構(gòu)三維表示圖(以ALMV的子結(jié)構(gòu)為例)Fig.2 3-D graphical representation of RNA secondary structures (Substructure of ALMV.)
將RNA二級(jí)結(jié)構(gòu)圖形表示結(jié)束以后,進(jìn)行相似性比較。通過(guò)上述方法得到這些點(diǎn)坐標(biāo)之后,下一步,將計(jì)算這些點(diǎn)之間的距離。同時(shí),當(dāng)在計(jì)算各點(diǎn)之間的距離時(shí)也選取了三種方法,分別是:E矩陣,M/M矩陣和L/L矩陣[8]。計(jì)算方法如下:
(1)E矩陣:E中的元素eij即為曲線中的點(diǎn)i與點(diǎn)j之間的歐氏距離。
(4)
(2)M/M矩陣:其中(i,j)元由曲線上兩個(gè)基對(duì)應(yīng)點(diǎn)的歐式距離與它們之間存在的圖論距離之比(即|i-j|)得到。
(5)
(3)L/L矩陣:其中(i,j)元由曲線上兩個(gè)基對(duì)應(yīng)點(diǎn)的歐式距離與兩點(diǎn)之間的距離總和之比得到。
(6)
通過(guò)這三種方法,會(huì)得到三個(gè)最大特征值。因?yàn)殚_(kāi)始進(jìn)行RNA序列表示時(shí)就選取了三種表示方法,此時(shí)又選取了三種計(jì)算點(diǎn)之間距離的方法,所以,此刻會(huì)得到九個(gè)距離矩陣,因此就會(huì)有九個(gè)距離矩陣的最大特征值。
其中一個(gè)計(jì)算結(jié)果如下:
ALMV:E矩陣向量(533.4072,533.5630,533.2587)
M/M矩陣向量(40.2139,40.5043,40.2078)
L/L矩陣向量(9.9845,8.6573,9.9938)
之后,將這些最大特征值組成一個(gè)向量,計(jì)算各向量間距離。向量之間的相似性,通過(guò)向量間的歐式距離進(jìn)行計(jì)算,很明顯,距離值越小,RNA二級(jí)結(jié)構(gòu)序列的相似性就越高。計(jì)算結(jié)果見(jiàn)表1。
表1 E矩陣的上三角矩陣Table 1 Upper triangular matrix of E matrix
根據(jù)以上的結(jié)果,如果兩條序列片段距離越小則越相似。最小距離法是在最小進(jìn)化原理的基礎(chǔ)上,構(gòu)造一個(gè)距離矩陣來(lái)表示物種之間的進(jìn)化距離。然后,通過(guò)這個(gè)距離矩陣,采用有效的方法將物種進(jìn)行分類。然后進(jìn)行系統(tǒng)進(jìn)化樹(shù)的構(gòu)建,觀察結(jié)果是否一致。在構(gòu)建系統(tǒng)進(jìn)化樹(shù)時(shí)選取的是Neighbor-Joining方法。綜上所述得出以下的結(jié)果,利用Phylip及MEGA軟件描繪出系統(tǒng)進(jìn)化樹(shù)。三種方法得到三棵進(jìn)化樹(shù)如圖3所示。
通過(guò)以上得到的三棵系統(tǒng)進(jìn)化樹(shù)之后,發(fā)現(xiàn)這三棵進(jìn)化樹(shù)并不完全一致,因此,有必要從這三棵進(jìn)化樹(shù)中提取它們的公共部分,也就是構(gòu)建這三棵系統(tǒng)進(jìn)化樹(shù)的最大一致樹(shù)(見(jiàn)圖4),這樣能綜合三種圖形表示方法的信息。Jansson等[9-10]在這方面開(kāi)發(fā)出了很多算法,在這里應(yīng)用多數(shù)一致樹(shù)(Majority consensus tree)建立最大一致樹(shù)。
從這個(gè)系統(tǒng)進(jìn)化樹(shù)的圖形表示中可以很清晰地看出,LRMV與AVII距離最近,說(shuō)明這2種病毒RNA二級(jí)結(jié)構(gòu)最為相似;同理,AVII與CVV相似性次之,等等。反之,APMV與ALMV的距離最遠(yuǎn),則這兩條序列相似性最弱。由此可見(jiàn)這九種病毒RNA二級(jí)結(jié)構(gòu)的相似性程度。所采用的方法更為簡(jiǎn)便且直觀。且與以往Liao等[11-12]的研究成果相似。文獻(xiàn)[11-12]的研究結(jié)果表明:AVII,LRMV,EMV是最為相似的;同時(shí),APMV,PDV與其他RNA二級(jí)結(jié)構(gòu)之間是存在差異性的。由此可見(jiàn),這一結(jié)果與本研究所得到的結(jié)果是相類似的。
圖3 根據(jù)進(jìn)化距離所構(gòu)建的系統(tǒng)進(jìn)化樹(shù)Fig.3 Phylogenetic trees constructed according to the distance
圖4 根據(jù)三棵系統(tǒng)進(jìn)化樹(shù)構(gòu)建的最大一致樹(shù)Fig.4 Maximum agreement tree is constructed by the three phylogenetic trees
對(duì)RNA二級(jí)結(jié)構(gòu)與功能地研究是如今生物信息學(xué)一個(gè)十分重要的研究課題,但是對(duì)RNA結(jié)構(gòu)相似性的預(yù)測(cè)分析仍然是很困難的。隨著RNA結(jié)構(gòu)相似性預(yù)測(cè)方法的日益發(fā)展,RNA數(shù)據(jù)庫(kù)的不斷增多,RNA結(jié)構(gòu)預(yù)測(cè)的軟件也日益增多。本文提出了一種新的RNA二級(jí)結(jié)構(gòu)的圖形表示方法。重點(diǎn)介紹了圖形表示的構(gòu)造,系統(tǒng)進(jìn)化樹(shù)的構(gòu)建方法以及RNA二級(jí)結(jié)構(gòu)序列間相似性的比較。根據(jù)所選取的圖形表示方法,可以得到關(guān)于距離的特征值。隨后,在這些距離特征值的基礎(chǔ)上再利用預(yù)測(cè)軟件構(gòu)建系統(tǒng)進(jìn)化樹(shù),基于這種方法,成功地提取了RNA二級(jí)結(jié)構(gòu)相似性的一些基本信息??梢?jiàn)所選取的這種方法是可行的。
References)
[1]LIAO B, CHEN W, SUN X, et al. A binary coding method of RNA secondary structure and its application[J]. Journal of Computational Chemistry, 2009, 30(14):2205-2212.DOI: 10.1002/jcc.21227.
[2]ZHANG Y, HUANG H, DONG X, et al. A dynamic 3D graphical representation for RNA structure analysis and its application in non-coding RNA classification[J]. Plos One, 2016, 11(5):e0152238.DOI: 10.1371/journal.pone.0152238.
[3]CAO Z, LIAO B, LI R, et al. RNA secondary structure alignment based on an extended binary coding method[J]. International Journal of Quantum Chemistry,2011,111(5):978-982.DOI: 10.1002/qua.22464.
[4]YAO Y, NAN X, WANG T. A class of 2D graphical representations of RNA secondary structures and the analysis of similarity based on them[J]. Journal of Computational Chemistry, 2005, 26(13):1339-1346.DOI: 10.1002/jcc.20271.
[5]LI Ying, DUAN Ming, LIANG Yanchun.Multi-scale RNA comparison based on RNA triple vector curve representation[J]. BMC Bioinformatics, 2012,13(1):280.DOI:10.1186/1471-2105-13-280.
[6]LIU Liwei, WANG Tianming. On 3D graphical representation of RNA secondary structures and their applications[J]. Journal of Mathematical Chemistry, 2007, 42(3):595-602.DOI: 10.1007/s10910-006-9135-4.
[7]QI Zhaohui, FAN Tongrang. PN-curve: A 3D graphical representation of DNA sequences and their numerical characterization[J]. Chemical Physics Letters, 2007, 442(4-6):434-440.DOI:10.1016/j.cplett.2007.06.029.
[8]袁春欣. 核酸序列的圖形表示理論及應(yīng)用[D]. 大連:大連理工大學(xué), 2007.
YUAN Chunxin.Theory and application of graphical representation of nucleic acid sequences[D]. Dalian:Dalian University of Technology,2007.
[9]JANSSON J , SHEN C, SUNG W. Improved algorithms for constructing consensus trees[J]. Journal of the ACM, 2013, 63(3):1800-1813.
[10]JANSSON J, SHEN C, SUNG W. Algorithms for the majority rule (+) consensus tree and the frequency difference consensus tree[J]. Algorithms in Bioinformatics. Springer Berlin Heidelberg, 2013(8126):141-155.DOI:10.1007/978-3-642-40453-5_12.
[11]LIAO B, WANG T M. A 3D graphical representation of RNA secondary structures[J]. Journal of Biomolecular Structure & Dynamics, 2004, 21(6):827-32.DOI: 10.1080/07391102.2004.10506972.
[12]LIAO B, WANG T , DING K. On a six-dimensional representation of RNA secondary structures[J]. Journal of Biomolecular Structure & Dynamics, 2005, 22(4):1063-1071.DOI:10.1080/08927020500371332.
A new 3-D graphical representation of RNA secondary structure and its application
LIU Liwei*,LIU Tiehui
(Dalianjiaotonguniversityschoolofscience,DalianLiaoning116028,China)
Recently, we propose a new 3D graphical representation of RNA secondary structures. Based on this graph representation, we will construct the phylogenetic tree of the 9 viruses, and compare and analyze the similarity between the RNA secondary structures.According to the final results, we clearly find that Pair AVII and LRMV are the most similar。In addition, the larger distance values appear in the APMV and ALMV, PDV and AVII, indicating that these RNA secondary structure sequence has obvious difference. The results of this study are very similar to previous published results one. At the same time,the used method is more simple and easy to identify what we see, while the results is very reliable. Therefore, these results demonstrate the effectivity of our methed.
RNA secondary structure;Graphical representation;Phylogenetic trees;Similarity
2016-08-13;
2016-09-25.
遼寧省教育廳科學(xué)研究一般項(xiàng)目(No.L 2015093)。
10.3969/j.issn.1672-5565.2017.01.201608001
Q522
A
1672-5565(2017)01-055-04
*通信作者:劉立偉,男,副教授,研究方向:計(jì)算數(shù)學(xué);E-mail:liutree80@163.com.