趙志新,張 蒙
(1.商洛學院生物醫(yī)藥與食品工程學院,陜西 商洛 726000;2.福建農(nóng)林大學生命科學學院,福建 福州 350000)
【研究意義】克萊門柚(Citrusclementina) 別名“文旦”,為蕓香科柑橘屬植物[1]。果皮甚厚而光滑,果肉酸甜可口,維生素C含量豐富,兼營養(yǎng)、食用、藥用、加工等多種功效,是南方重要的經(jīng)濟熱帶水果,主產(chǎn)于福建省漳州、廈門,我國柚類種植面積和產(chǎn)量居世界首位[2]。【前人研究進展】克萊門柚作為蕓香科植物,其單倍體基因組為301.37 Mbp,遺傳背景復雜,一直以來很難建立精確的物理圖譜[3]。DNA重復序列包括串聯(lián)重復序列、散在重復序和片段重復序列。串聯(lián)重復序列(Tandem repeats, TRs),通常指1~200 bp的重復DNA單元組成,重復單元之間首尾依次相連成串排列[4]。根據(jù)重復單元和重復次數(shù)分為衛(wèi)星、小衛(wèi)星和微衛(wèi)星等[5]?!颈狙芯壳腥朦c】對重復序列的深入研究能進一步了解重復序列在基因組進化中的作用,及其在基因組中的生物學功能等[6-7]?!緮M解決的關鍵問題】本實驗通過研究串聯(lián)重復序列在克萊門柚全基因組的密度及模體特征,以便闡明重復序列在克萊門柚基因組中可能的生物學功能。
從植物基因組數(shù)據(jù)庫Phytozome (http//www.Phytozome.net/)下載克萊門柚(C.clementina)的全基因數(shù)據(jù)及基因組注解(Gene annotation)數(shù)據(jù),得到其全基因組(whole genome size)大小為301.37 Mbp。
真核生物的基因結構包括啟動子,轉錄起始點,增強子,編碼區(qū),終止子及上下游區(qū)域。為了便于對克萊門柚基因組中串聯(lián)重復序列的分析,本研究依據(jù)圖1的真核基因結構對每個區(qū)域分別進行分析,主要包括基因內區(qū)域(intragenic regions)和基因間區(qū)域(intergenic regions),其中基因內區(qū)域包括5′UTR(非翻譯區(qū))、CDS(編碼區(qū))、intron(內含子)和 3′UTR(非翻譯區(qū))。串聯(lián)重復序列的密度(density)被定義為,每兆堿基對含有的串聯(lián)重復序列的堿基對數(shù)(bp/Mbp),表示串聯(lián)重復序列長度在總檢測序列長度中所占的比例。依據(jù)圖1,分別計算、分析克萊門柚基因組UI1000、UI500、UI200、5′UTR、CDS、Intron、3′UTR、DI200、DI500、DI1000區(qū)域中的串聯(lián)重復序列特征。
為了對健全和不完善的串聯(lián)重復序列的檢測,利用串聯(lián)重復序列的搜索工具(Phobos version 3.3.12)??紤]所需處理的基因組的計算資源和執(zhí)行時間,采用1~50 bp作為重復單位的大小,所需檢測重復的的最小長度被設定為12。對于循環(huán)的串聯(lián)重復序列,按照字母表的順序只有一個基序被選擇為代表[6-7],例如AAG、AGA和GAA為(AAG)n的重復單元,但只有AAG被選擇為代表的重復序列。此外,串聯(lián)重復序列以及它的反向互補序列(例如,AAG和CTT)應該分別檢測,這是因為基因注解在不同的鏈上(正鏈和負鏈),最近有大量報道許多基因的正義和反義轉錄[8],強調在基因組注解基因定位的重要性,類似的策略已經(jīng)被他人采用[9]。
圖2顯示,在克萊門柚基因組中,從上游序列UI1000到5′UTR,重復密度緩慢上升,5′UTR處出現(xiàn)最高值7958 bp/Mbp,至CDS處出現(xiàn)最低值1628 bp/Mbp,其次3′UTR中密度也較低,為3737 bp/Mbp;在基因下游區(qū)域,重復密度在6500 bp/Mbp左右?,F(xiàn)在就重復序列的密度做以下分析。
圖3表示,在整個克萊門柚基因組(301.37 Mb)中,1~50 bp 串聯(lián)重復序列密度排在前7位從高到低分別是單堿基、二堿基、六堿基、三堿基、七堿基、四堿基、22堿基。其中單堿基、二堿基和六堿基為主要的重復單元(每種堿基的重復密度大于5 %)。單堿基、二堿基和六堿基的重復密度分別為33.13 %、9.50 %、6.66 %。單核苷酸重復單元以A及其互補模體T為主,占總重復模體的90.68 %。G及其互補模體C密度最小,占總重復模體的9.32 %。
圖1 串聯(lián)重復序列分析的基因Fig.1 The gene in TR analysis
圖2 克萊門柚基因組不同區(qū)域串聯(lián)重復序列密度Fig.2 The densities of TRs in different regions in C.clementina genome
圖3 克萊門柚基因組中1~50 bp串聯(lián)重復序列密度Fig.3 The densities of 1-50 bp TRs in C.clementina genome
2.2.1 串聯(lián)重復序列1~50 bp在5′UTR中的密度分布 圖4顯示,單堿基、二堿基、六堿基、三堿基串聯(lián)重復序列密度較高,分別為2289、1238、1080和904 bp/Mbp。單堿基重復單元以A(1305 bp/Mbp)及其互補模體T(870 bp/Mbp)為主,占95.02 %。二堿基重復單元以CT(697 bp/Mbp)及其互補模體AG(291 bp/Mbp)為主,占79.94 %。六堿基中以CTTTTT(50 bp/Mbp)最高,以AAGATC(15 bp/Mbp)最低。三堿基重復單元以CTT(180 bp/Mbp)及其互補模體AAG(150 bp/Mbp)為主,占37.02 %,CGG最低(3 bp/Mbp)。5′UTRs的重復序列可能與啟動子區(qū)的識別有關,轉錄起始點上游TATA區(qū)與CAAAT區(qū)(CAAT box)結合RNA聚合酶啟動轉錄。
2.2.2 串聯(lián)重復序列1~50 bp在CDS中的密度分布 CDS (coding sequence),即編碼區(qū),包含相間排列的Intron(內含子)和Exon(外顯子),兩者均可轉錄,轉錄后內含子經(jīng)加工剪切,外顯子連接后翻譯出蛋白質[4]。因此內顯子突變,對生物無意義,生物主要靠外顯子起作用,因此不能輕易突變,否則對生物將會產(chǎn)生不可預測的影響。圖5顯示,三堿基和六堿基串聯(lián)重復密度最大,分別是414和337 bp/Mbp,在總密度的比例分別為25.43 %和20.71 %;其次就是三堿基倍數(shù)的重復單元密度較高,如9-bp (79 bp/Mbp),12-bp (70 bp/Mbp),33-bp (64 bp/Mbp)等。三堿基重復單元以AAG密度最高(57 bp/Mbp),占13.80 %。六堿基中ACCGTG密度最高(14 bp/Mbp)。
圖4 5′UTR中1~50 bp串聯(lián)重復序列密度Fig.4 The densities of 1-50 bp TRs in 5′UTR s
圖5 CDS中1~50 bp串聯(lián)重復序列密度Fig.5 The densities of 1-50 bp TRs in CDS
2.2.3 串聯(lián)重復序列1~50 bp在內含子中的密度分布 Intron為內含子,即翻譯生成蛋白時需要被剪切掉的部分。單堿基和二堿基串聯(lián)重復密度最大,分別為2319和557 bp/Mbp,占總重復序列的42.06 %和10.10 % (圖6)。單堿基重復以T(1401 bp/Mbp)及其互補模體A(524 bp/Mbp)為主。二堿基重復中以AT(154 bp/Mbp)和CT最高(146 bp/Mbp), CG最低(4 bp/Mbp)。
圖6 內含子中1~50 bp串聯(lián)重復序列密度Fig.6 The densities of 1-50 bp TRs in introns
圖7 3′UTR中1~50 bp串聯(lián)重復序列密度Fig.7 The densities of 1-50 bp TRs in 3′UTRs
(A)UI200, (B)UI500, (C)UI1000圖8 上游基因間隔區(qū)1~50 bp串聯(lián)重復序列密度Fig.8 The densities of 1-50 bp TRs in upstream intergenic regions
2.2.4 串聯(lián)重復序列1~50 bp在3′UTR中的密度分布 3′UTR為結構基因的3′-端非編碼區(qū),包括促使轉錄終止的終止子序列和真核生物的加尾序信號[4]。單堿基串聯(lián)重復密度高達1337 bp/Mbp,其次為二堿基(350 bp/Mbp)、六堿基(261 bp/Mbp)和七堿基(248 bp/Mbp)重復(圖7)。單堿基重復單元以T(846 bp/Mbp)及其互補模體A(391 bp/Mbp)為主,占總的92.45 %。這可能與3′UTR末端聚腺苷酸化形成poly(A)尾巴有關。
2.3.1 串聯(lián)重復序列1~50 bp在基因上游區(qū)域的密度分布 在基因上游UI200、UI500和UI1000區(qū)域內,單堿基串聯(lián)重復序列密度都是最高(>2400 bp/Mbp),其次為2~7 bp的重復序列,相比較而言五堿基重復序列密度在這些微衛(wèi)星中則最低(<300 bp/Mbp)(圖8)。
(A)DI200, (B)DI500, (C)DI1000圖9 下游基因間隔區(qū)1~50 bp串聯(lián)重復序列密度 Fig.9 The densities of 1-50 bp TRs in downstream intergenic regions
在UI200區(qū)域中(圖8-A),單堿基和二堿基串聯(lián)重復密度最大,分別是2532 bp/Mbp和1256 bp/Mbp。單堿基重復單元以A(1424 bp/Mbp)及其互補模體T(859 bp/Mbp)為主,占總的90.13 %。二堿基中以AT為最高(424 bp/Mbp),占總的33.76 %。
UI500區(qū)域中(圖8-B),單堿基和二堿基密度最大,分別為2686和805 bp/Mbp。單堿基重復單元以A(1267 bp/Mbp)及其互補模體T(1206 bp/Mbp)為主,占總的92.07 %。二堿基中以AT為最高(287 bp/Mbp),占總重復模體的35.65 %。
UI1000區(qū)域中(圖8-C),單堿基和二堿基密度最大,分別是2415 bp/Mbp和712 bp/Mbp。單堿基重復單元以A(1123 bp/Mbp)及其互補模體T(1090 bp/Mbp)為主,占總的91.64 %。二堿基中以AT為最高(316 bp/Mbp),占總的44.38 %。
2.3.2 串聯(lián)重復序列1~50 bp在基因下游區(qū)域的密度分布 類似于基因上游區(qū)域,在基因下游(DI200、DI500和DI1000)區(qū)域,單堿基密度最高(>2200 bp/Mbp),其次為2~7 bp重復序列,而五堿基重復序列密度在這些微衛(wèi)星中則最低(<200 bp/Mbp)(圖9)。
在DI200區(qū)域中(圖9-A),單堿基和二堿基串聯(lián)重復密度最大,分別為2695和937 bp/Mbp。單堿基重復以T(1428 bp/Mbp)及其互補模體A(1078 bp/Mbp)為主,占總的92.99 %。二堿基中以AT和CT最高,分別是300和256 bp/Mbp,占總的59.34 %。
在DI500區(qū)域中(圖9-B),單堿基和二堿基串聯(lián)重復密度最大,分別是2439和722 bp/Mbp。單堿基重復單元以T(1130 bp/Mbp)及其互補模體A(1090 bp/Mbp)為主,占總的90.98 %。二堿基中以AT為最高(287 bp/Mbp),占總的39.56 %。
在DI1000區(qū)域中(圖9-C),單堿基和二單堿基串聯(lián)重復密度最大,分別是2211和505 bp/Mbp, 占總的34.15 %。單堿基重復單元以A(1075 bp/Mbp)及其互補模體T(969 bp/Mbp)為主,占總重復模體的92.49 %。
在克萊門柚的基因組中,本文主要研究的特征區(qū)域包括UI1000、UI500、UI200、5′UTR、CDS、Intron、3′UTR、DI200、DI500和DI1000等。數(shù)據(jù)顯示克萊門柚基因組串聯(lián)重復序列高密度的主要為短序列重復單元(1~7 bp),主要重復類別是單堿基、二堿基、六堿基、三堿基、七堿基、四堿基、22堿基等,且主要以A和T重復為主。研究顯示,克萊門柚基因組中最高和次高的串聯(lián)重復序列密度在5′UTR和它的直接上游區(qū)域,即UI500和UI200區(qū),而這個區(qū)域通常為轉錄起始調控區(qū)域,大量重復序列的存在有利于保證轉錄起始的穩(wěn)定性[10]。5′UTR被認為是串聯(lián)重復序列的熱點區(qū)域,之前的研究表明,5′UTR中的串聯(lián)重復序列可參與轉錄或翻譯的調控[6-7,11];而在家蠶基因組中,5′UTR區(qū)域卻擁有最少的SSR數(shù)量[12],這可能是物種差異造成的。CDS中串聯(lián)重復序列的密度最低,低密度的重復序列會降低蛋白質的復雜性從而增強其保守度,已經(jīng)證實CDS的突變會導致蛋白功能改變,功能喪失和蛋白截短[13];同時CDS中主要以3n模體 (如3、9、12 bp等)作為主要的重復單元,應該與翻譯的三聯(lián)體密碼子有關,以避免框移。3′UTR和內含子中的串聯(lián)重復序列密度也較低,可能暗示重復序列在這些區(qū)域保守度高,參與的生物學功能也可能較少[7];3′UTR重復序列變異將會導致轉錄提前終止或延后[4]。
本文研究串聯(lián)重復序列在克萊門柚基因組不同區(qū)域的特征,結果顯示重復序列在基因不同區(qū)域具有明顯的數(shù)量(密度)及模體類型差異,說明重復序列很可能參與克萊門柚不同區(qū)域基因表達與調控。生物能夠穩(wěn)定遺傳和進化與串聯(lián)重復序列的存在有很重要的關系,而克萊門柚中串聯(lián)重復序列具體的生物學功能還有待進一步研究。