王 淮,楊健康
大理大學基礎(chǔ)醫(yī)學院,云南省大理市雪人路大理大學下關(guān)校區(qū) 671000
轉(zhuǎn)錄后RNA 發(fā)生的堿基增加、丟失或轉(zhuǎn)換等現(xiàn)象被稱為RNA 編輯,RNA 編輯如果發(fā)生在mRNA 上會使密碼子發(fā)生改變,是mRNA 前體的一種加工方式[1]。迄今為止,真核生物的tRNA、rRNA和mRNA中均發(fā) 現(xiàn)了RNA編輯的現(xiàn)象,該現(xiàn)象在細胞核和細胞器如線粒體中均有發(fā)生[2]。
RNA 編輯在生物學上具有重要意義,在高等植物體內(nèi),RNA 編輯大多發(fā)生于線粒體和葉綠體中。非編碼區(qū)上的RNA 編輯在mRNA 剪接中起著重要作用[3],而基因編碼區(qū)上的RNA 編輯會引起氨基酸的變化并影響蛋白的功能[4]。在高等植物線粒體中,RNA 編輯是線粒體產(chǎn)生功能蛋白必不可少的步驟,RNA 編輯的異常會影響線粒體功能,導致植株生長緩慢。編碼區(qū)的RNA 編輯常發(fā)生在密碼子的前2 個堿基中,主要是胞嘧啶(C)轉(zhuǎn)換為尿嘧啶(U),且氨基酸的親疏水性常發(fā)生變化[5]。在高等植物線粒體基因中,RNA 編輯是普遍存在的現(xiàn)象[6]。不同植物的線粒體RNA 編輯位點數(shù)量差異較大。目前,在綠藻中尚未發(fā)現(xiàn)RNA編輯位點,而在苔蘚植物中發(fā)現(xiàn)了2 000 多個位點[7],在裸子植物中約有500 個位點[8],在被子植物中發(fā)現(xiàn)了200 到700 個位點[9-10]。
煙草(Nicotiana tobacum)是一種重要的經(jīng)濟作物,可作為煙草工業(yè)的原料,同時也是分子生物學和基因工程研究的模式植物[11]。對煙草RNA 編輯的研究有助于深化對RNA 編輯生物學功能的認識,有益于利用RNA 編輯調(diào)控基因表達以改進煙草的農(nóng)藝性狀,對拓寬煙草育種途徑有著重要意義。煙草線粒體基因組大小為430 kb 左右,含180 個基因。其中超過150 個基因均是編碼蛋白質(zhì)或開放閱讀框的基因,也包括少量編碼tRNA 的基因。通過一代、二代測序技術(shù),發(fā)現(xiàn)了煙草線粒體中的633 個RNA 編輯位點[12]。目前,關(guān)于利用多器官RNA-seq 測序數(shù)據(jù)鑒定煙草線粒體RNA 編輯位點的研究鮮見報道。為此,本研究中以煙草K326 品種的花、葉、根3 種器官的轉(zhuǎn)錄組和基因組測序數(shù)據(jù)為基礎(chǔ),系統(tǒng)鑒定煙草線粒體基因組中胞嘧啶轉(zhuǎn)換為尿嘧啶的RNA 編輯位點,旨在比較不同器官RNA 編輯位點的差異,為進一步研究RNA 編輯在煙草中的生物學功能提供借鑒。
煙草線粒體基因組參考序列、RNA-seq 測序數(shù)據(jù)和基因組測序數(shù)據(jù)均下載于美國國家生物技術(shù)信息中心(NCBI)網(wǎng)站。煙草線粒體基因組參考序列號為NC_006581.1,長430 597 bp,包含180 個基因。RNA-seq 測序數(shù)據(jù)和基因組測序數(shù)據(jù)來源于Sierro 等[13]基于二代測序的煙草基因組研究,研究對象為煙草品種K326,在NCBI 的編號為SRP029184。
使用FASTQC 軟件對煙草基因組和RNA-seq測序數(shù)據(jù)進行質(zhì)量控制,評估測序數(shù)據(jù)質(zhì)量,去除質(zhì)量差的堿基序列,同時使用NGS QC Toolkit 軟件去除接頭序列[14]。使用GSNAP 軟件進行RNA-seq 和基因組測序數(shù)據(jù)與線粒體參考基因組的比對,確定測序序列在線粒體基因組中的位置[15]。使用Samtools 軟件對比對結(jié)果做進一步分析,并利用Samtools 將sam 轉(zhuǎn)換為bam 文件[16]。使用Picard 軟件將比對到基因組相同位置的重復測序序列標記出來。為保證比對準確,減少比對導致的假陽性RNA 編輯位點,用REDItools 軟件的REDItoolBlatCorrection.py 腳本進行比對,檢測可能比對到多個位置的序列,這些序列可導致后續(xù)RNA 編輯位點鑒定錯誤[17]。最后用這些序列與GSNAP 軟件的比對結(jié)果進行比較,校正GSNAP軟件的比對結(jié)果。
使用REDItools 軟件中的REDItoolDnaRna.py腳本以及RNA 和DNA 測序數(shù)據(jù)的比對結(jié)果識別C-U 型RNA 編輯位點,參數(shù)設(shè)置為:-n 0.1(RNA 編輯位點的編輯效率),-v 2(支持變異堿基的RNA測序序列數(shù)量),-c 10,10(分別是DNA 和RNA 的位點測序覆蓋度閾值),其他參數(shù)采用默認值。為提高RNA 編輯位點鑒定的準確性,得到結(jié)果后還需要去除每個位點的平均質(zhì)量得分低于30 的RNA 編輯位點,以及在基因組DNA 上存在SNP 位點的RNA 編輯位點。分別使用花、葉、根的數(shù)據(jù)鑒定RNA 編輯位點。使用軟件包Annovar 對RNA編輯位點進行注釋,將位點注釋到基因上,并判斷氨基酸是否改變[18]。通過GeneCards 網(wǎng)站(https://www.genecards.org/)查詢RNA 編輯位點所在基因的功能。
由圖1 可見,共鑒定出4 212 個RNA 編輯位點,其中464 個位點已被報道,其余為本研究中新發(fā)現(xiàn)的位點。根中共鑒定出2 368 個RNA 編輯位點,位點的平均測序深度為32×;花和葉中分別發(fā)現(xiàn)2 155 個和2 923 個RNA 編輯位點,每個位點的平均測序深度分別為30×和41×。在全部RNA編輯位點中,1 274 個位點(占所有位點的30.2%)位于99 個蛋白編碼或開放閱讀框基因上(表1),其中產(chǎn)生新的終止密碼子(無義突變)或?qū)е陆K止密碼子丟失的位點共計62 個(表2);40 個位點(占所有位點的1.0%)位于8 個RNA 基因(tRNA)(表1);2 898 個位點位于基因間區(qū),占所有位點的68.8%。在線粒體編碼的153 個蛋白編碼基因中,99 個基因(占所有蛋白編碼基因的64.7%)存在RNA 編輯位點;線粒體編碼的27 個RNA 基因中在8 個基因(占所有RNA 基因的29.6%)上發(fā)現(xiàn)了RNA 編輯位點。蛋白編碼基因ccmFN、mat-R、rps3 分布的RNA 編輯位點最多,分別有84、61、48 個;發(fā)現(xiàn)RNA 編輯位點最多的RNA 基因為trnY(gua)、trnS(gcu)、trnH(gug),分別有9、7、7 個。
表1 線粒體基因上的RNA 編輯位點Tab.1 RNA editing sites in mitochondrial genes
表1 (續(xù))
表2 無義突變或終止密碼子丟失的RNA 編輯位點Tab.2 RNA editing sites for nonsense mutations or stop codon loss
圖1 RNA 編輯位點在煙草線粒體基因組上的分布Fig.1 Distributions of RNA editing sites in mitochondrial genome of tobacco
1 274 個RNA 編輯位點位于99 個蛋白編碼或開放閱讀框基因,占所有RNA 編輯位點的30.2%。其中,非同義變異826 個,同義變異448個,非同義位點是同義位點的1.8 倍。同義位點中,427 個是密碼子的第3 位發(fā)生編輯,21 個是密碼子的第1 位發(fā)生編輯。非同義位點中,375 個是密碼子的第1 位發(fā)生編輯,451 個是密碼子的第2位發(fā)生編輯。
非同義位點中,脯氨酸(Pro)轉(zhuǎn)變?yōu)榱涟彼幔↙eu)和絲氨酸(Ser)轉(zhuǎn)變?yōu)榱涟彼幔↙eu)的占比最大(圖2)。直接由親水氨基酸變?yōu)槭杷被岬挠?44 個,直接由疏水氨基酸變?yōu)橛H水氨基酸的有33 個;在親水氨基酸內(nèi)轉(zhuǎn)變方面,親水性增加的有79 個,疏水性增加的有190 個,親疏水性不變的有16 個;在疏水氨基酸內(nèi)轉(zhuǎn)變方面,疏水性增加的有55 個,親水性增加的有47 個。非同義變異中疏水性增加的共計589 個(占非同義變異的77%),親水性增加的共計159 個。
圖2 非同義RNA 編輯位點氨基酸的轉(zhuǎn)變Fig.2 Conversion of amino acids at non-synonymous RNA editing sites
葉中發(fā)現(xiàn)了2 923 個RNA 編輯位點,其中887個位點位于86 個蛋白編碼基因,22 個位點位于6個RNA 基因,剩下的2 014 個位點位于基因間區(qū)。葉的全部RNA 編輯位點中,918 個位點為葉的特異位點。這些特異位點中,222 個位點位于57個蛋白編碼基因,12個位點位于5個RNA 基因,其余的684 個位點位于基因間區(qū)。在葉的所有特異位點中,10 個位點是產(chǎn)生新終止密碼子的無義突變,導致9 個基因mat-R、cob、rpl5、orf152、ccmFN、orf103c、orf131b、orf103d、orf159b 編碼的蛋白成為截短蛋白。
花中鑒定出了2 155 個RNA 編輯位點,其中746 個位點位于78 個編碼蛋白的基因,20 個位點位于5 個RNA 基因,另外1 389 個位點定位于基因間區(qū)。花的全部RNA 編輯位點中,464 個位點為花的特異位點。這些特異位點中,13 個位點位于5 個RNA 基因,136 個位點位于40 個蛋白編碼基因,余下的315 個位點位于基因間區(qū)?;ǖ奶禺愇稽c中,11個位點是產(chǎn)生新終止密碼子的無義突變,導致11個基因mat-R、orf215、ccmC、rps14、orf132、orf130a、ccmFN、cox1、orf274、rps4、orf125f 翻譯過早終止。
根中發(fā)現(xiàn)了2 368 個RNA 編輯位點,其中4 個RNA 基因上有13 個位點,82 個蛋白編碼基因上有735 個位點,另外基因間區(qū)有1 620 個位點。根的全部RNA 編輯位點中,679 個位點為根的特異位點。這些特異位點中,4 個位點位于2 個RNA 基因,208 個位點位于57 個蛋白編碼基因,還有467個位點定位于基因間區(qū)。679 個根的特異位點中有7 個是產(chǎn)生新終止密碼子的無義突變,導致7個 基 因atp6、cob、orf25、orf132、ccmFN、orf111b、orf122b 編碼的蛋白截短;4 個是導致終止密碼子丟失的編輯位點,導致4 個基因orf171a、orf160、rps4、orf166b 的翻譯不在原位置停止,得到肽鏈更長的蛋白質(zhì)。
比較煙草根、葉、花的RNA 編輯位點,發(fā)現(xiàn)不同煙草器官的RNA 編輯位點存在很大差異?;ǖ腞NA 編輯位點最少(2 155 個),其次為根(2 368個),葉的RNA 編輯位點最多(2 923 個),3 種器官共有的位點有1 083 個。葉的特異位點918 個,其中無義突變的位點有10 個;花的特異位點464 個,其中無義突變的位點有11 個;根的特異位點679個,無義突變或?qū)е陆K止密碼子丟失的位點有11個(表2)。葉的特異位點里存在10 個無義突變,共影響了mat-R、cob、rpl5、orf152、ccmFN、orf103c、orf131b、orf103d、orf159b 9 個基因,因此得到截短的蛋白;花的特異編輯位點里有11 個無義突變,分別位于mat-R、orf215、ccmC、rps14、orf132、orf130a、ccmFN、cox1、orf274、rps4、orf125f 11 個基因;根的特異編輯位點里有11 個無義突變或?qū)е陆K止密碼子丟失的位點,共影響了atp6、cob、orf25、orf132、ccmFN、orf111b、orf122b、orf171a、orf160、rps4、orf166b 11 個基因。比較3 種器官的特異無義突變的RNA 編輯位點,發(fā)現(xiàn)其所在基因參與了氧化呼吸鏈的電子傳遞、蛋白合成等生物功能。
以二代測序為代表的高通量測序可發(fā)現(xiàn)部分編輯的位點。本研究中通過對煙草基因組和轉(zhuǎn)錄組基于二代測序得到的數(shù)據(jù)進行分析,將檢測閾值設(shè)定為10%,共鑒定出煙草線粒體基因組的4 212 個RNA 編輯位點,是傳統(tǒng)的一代測序無法實現(xiàn)的。此外,研究結(jié)果表明RNA 編輯是煙草線粒體上的一種常見現(xiàn)象,線粒體上64.7%的蛋白編碼基因存在RNA 編輯位點,而RNA 基因中只有29.6%的基因存在RNA 編輯位點,表明RNA 編輯位點的分布不均衡,這一現(xiàn)象與煙草葉綠體的研究結(jié)果類似[19]。
位于蛋白編碼基因的RNA 編輯位點中,同義變異448 個,非同義變異826 個,非同義變異所占比例更大。研究發(fā)現(xiàn),一些非同義變異的RNA 編輯會改變氨基酸性質(zhì),使親水性氨基酸變?yōu)槭杷园被?,疏水性氨基酸的增多可以使蛋白質(zhì)結(jié)構(gòu)更加穩(wěn)定[20]。本研究中發(fā)現(xiàn)非同義變異中疏水性增加的有589 個,親水性增加的有159 個,疏水性增加的位點占比為77.1%,與前人的研究結(jié)果一致。其中,兩種氨基酸轉(zhuǎn)變占比最大,分別是脯氨酸(Pro)轉(zhuǎn)變?yōu)榱涟彼幔↙eu)和絲氨酸(Ser)轉(zhuǎn)變?yōu)榱涟彼幔↙eu)。本研究中發(fā)現(xiàn)8 個tRNA 基因也存在RNA 編輯位點,這可能會導致tRNA 二級結(jié)構(gòu)發(fā)生變化,影響轉(zhuǎn)運氨基酸的功能[20]。
在高等植物線粒體中,編碼區(qū)的RNA 編輯常發(fā)生于密碼子的前2 個堿基[6]。本研究中編碼區(qū)上的RNA 編輯位點發(fā)生在密碼子的第1 和第2 個堿基所占的比例為66.5%,這與前人的研究結(jié)果一致。此外,將編碼區(qū)上的RNA 編輯位點分為同義位點與非同義位點分別統(tǒng)計,非同義位點中,375個是密碼子第1 位發(fā)生編輯,451 個是第2 位發(fā)生編輯,RNA 編輯100%均發(fā)生在密碼子的第1 和第2 個堿基上。同義位點中,427 個是密碼子的第3位發(fā)生編輯,21 個是密碼子的第1 位發(fā)生編輯,RNA 編輯95.3%發(fā)生在密碼子的第3 位堿基上。由于非同義位點在編碼區(qū)編輯位點中所占比例超過2/3,故整體來看RNA 編輯位點常發(fā)生于密碼子第1、第2 位。
編碼蛋白的基因中,ccmFN、mat-R、rps3 的RNA 編輯位點最多,分別為84、61、48 個。這3 個基因具有不同的功能,ccmFN 基因編碼的是細胞色素C 成熟蛋白亞基,mat-R 基因編碼類成熟酶,rps3 基因參與核糖體小亞基的裝配。其中,ccmFN在其他植物,如楊柳科楊屬植物里也是RNA 編輯位點最多的基因[21]。研究中發(fā)現(xiàn),EMP7 蛋白參與ccmFN 基因部分位點的編輯,而這些位點的編輯對于細胞色素C 蛋白正常發(fā)揮功能和維持線粒體的氧化磷酸化作用都是必需的[22]。
通過比較煙草根、花、葉中的RNA 編輯位點,發(fā)現(xiàn)不同煙草器官的RNA 編輯位點差異很大。葉有2 923 個RNA 編輯位點,是擁有最多位點的器官;其次為根,有2 368 個位點;最少的為花,有2 155 個位點。其中,無義突變的RNA 編輯位點更為重要,這些位點會導致蛋白質(zhì)翻譯提前結(jié)束,得到截短的蛋白。根、花、葉中含有無義突變的RNA 編輯位點幾乎全部為部分被編輯,僅影響部分表達的蛋白,這可能也是轉(zhuǎn)錄后調(diào)控的方式之一。本研究中還發(fā)現(xiàn),部分基因存在多個無義突變的RNA 編輯位點,如mat-R 基因和ccmFN 基因中均存在4 個無義RNA 編輯位點,這表明利用無義突變的RNA 編輯可調(diào)控基因的表達,同時無義突變位點相互之間有協(xié)同作用。葉的特異無義突變?yōu)?0 個,花的特異無義突變?yōu)?1 個,而根除了7個無義突變還有導致終止密碼子丟失的4 個RNA編輯位點。查詢這些位點所在基因的功能,發(fā)現(xiàn)其參與了氧化呼吸鏈的電子傳遞、蛋白合成等生物過程。同時很多位點位于開放閱讀框基因上,說明這些開放閱讀框基因是可被轉(zhuǎn)錄的[14],有些開放閱讀框基因可能也參與了線粒體某些功能的完成。
本研究中系統(tǒng)鑒定了煙草花、葉、根3 種器官的線粒體基因組RNA 編輯位點,比較不同器官RNA 編輯位點的差異,有助于深入了解RNA 編輯在煙草中不同器官的生物學功能,從而為煙草育種中利用RNA 編輯作為工具調(diào)控重要基因的表達奠定基礎(chǔ)。
通過分析煙草根、花、葉的基因組及轉(zhuǎn)錄組測序數(shù)據(jù),鑒定了煙草線粒體中從胞嘧啶(C)到尿嘧啶(U)轉(zhuǎn)換的RNA 編輯位點。3 種器官中共發(fā)現(xiàn)4 212 個RNA 編輯位點,其中葉的RNA 編輯位點最多。全部RNA 編輯位點中,僅有30.2%的位點位于蛋白編碼基因,其中非同義的RNA 編輯位點所占比例(64.8%)最大。非同義的RNA 編輯增加了疏水性氨基酸的數(shù)量,其中疏水性增加的位點占77.1%。62 個RNA 編輯位點會導致終止密碼子的新增或丟失,這些位點所在基因參與了氧化呼吸鏈的電子傳遞、蛋白合成等生物過程。