亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        串聯(lián)重復序列在高粱基因組中的特征及分布

        2018-08-20 08:06:20趙志新李春鑫李雨嬌
        河南農(nóng)業(yè)科學 2018年7期
        關鍵詞:模體堿基高粱

        趙志新,李春鑫,李雨嬌

        (1.商洛學院 生物醫(yī)藥與食品工程學院,陜西 商洛 726000;2.河南省農(nóng)業(yè)科學院 小麥研究所 分子育種研究室,河南 鄭州 450002)

        高粱[Sorghumbicolor(L) Moench]為禾本科高粱族高粱屬植物,是一種綜合利用價值高的糧食、飼料等多用途的農(nóng)作物[1]。高粱適應能力強,具有較強的抗旱、耐寒、耐鹽堿等特性,在干旱和半干旱農(nóng)業(yè)生產(chǎn)中占有極其重要的地位,因此,從基因組角度研究重復序列在高粱中的特征及基因調(diào)控機制對高粱分子育種及抗性特征分析具有重要的借鑒意義[2]。

        串聯(lián)重復序列(Tandem repeat,TRs),主要指1~200 bp的核心重復單位的重復序列,其廣泛存在于真核生物和一些原核生物的基因組中,并表現(xiàn)出種屬、堿基組成等的特異性[3]。在同一物種基因組中,串聯(lián)重復序列在編碼區(qū)和非編碼區(qū)都有分布,并且在非編碼區(qū)大量存在[4]。隨著計算技術的進步及高通量數(shù)據(jù)分析的出現(xiàn),重復序列研究已不僅僅局限于微衛(wèi)星等短重復序列(通常指1~10 bp),中等重復序列(>10 bp)也已經(jīng)被廣泛研究,并且研究顯示,這些重復序列在植物及綠藻的基因轉(zhuǎn)錄及翻譯調(diào)控中扮演著重要的作用[5]。

        本研究利用Phytozome數(shù)據(jù)庫,下載高粱全基因組及基因組注解數(shù)據(jù),然后使用Phobos軟件分析1~50 bp重復單元在基因間和基因內(nèi)的密度和分布特征,以便闡明重復序列在高粱基因組中的特征及可能的生物學功能。

        1 材料和方法

        1.1 高粱基因組數(shù)據(jù)的獲得

        從Phytozome數(shù)據(jù)庫(http//www.Phytozome.net/)下載高粱(Sorghumbicolorv2.1)的全基因組及基因注解數(shù)據(jù)。其全基因組為738.54 Mb,有效基因組為697.58 Mb,這里的有效基因組指測序中可測的A、T、G、C 4種核苷酸。

        依據(jù)真核基因結構圖(圖1),本研究中每個基因分為基因內(nèi)區(qū)域[包括5′UTR、CDS(基因編碼區(qū))、Intron(內(nèi)含子)和 3′UTR]和基因間區(qū)域(包括上游基因間隔區(qū)和下游基因間隔區(qū)),主要研究串聯(lián)重復序列密度及串聯(lián)重復序列分布[5]特征。

        1.2 串聯(lián)重復序列的檢測和分析

        為了搜索完美匹配和不完美匹配的串聯(lián)重復序列,使用全基因組串聯(lián)重復序列的搜索工具(Phobos version 3.3.12)[6]??紤]所需處理高粱基因組的計算資源和執(zhí)行時間,采用1~50 bp作為重復單位的大小,檢測重復序列的最小長度被設定為12 bp。對于循環(huán)的串聯(lián)重復序列,按照字母順序只有一個序列模體被選擇為代表[5],例如AAG、AGA和GAA都是(AAG)n的重復單元。此外,分別檢測串聯(lián)重復序列以及它的反向互補序列(例如,AAG和CTT),這是因為正鏈和負鏈上的基因涉及到正義和反義轉(zhuǎn)錄[7],因此需要強調(diào)基因定位(正鏈或負鏈)的重要性,類似的策略已經(jīng)被他人采用[8]。

        串聯(lián)重復序列的密度被定義為每兆堿基對(Mb)含有的串聯(lián)重復序列的堿基對數(shù)(bp/Mb),表示串聯(lián)重復序列長度在總檢測序列長度中所占的比例。為了研究串聯(lián)重復序列在不同區(qū)域的分布數(shù)量,首先將所研究的基因內(nèi)和基因間區(qū)域長度規(guī)定為0~99(即百分化),然后切分為0~9、10~19、……、90~99共10個子區(qū)域,分別計算串聯(lián)重復序列在每一個子區(qū)域出現(xiàn)的頻數(shù),這樣所有基因間和基因內(nèi)區(qū)域的串聯(lián)重復序列數(shù)目就具有可比性[5]。

        2 結果與分析

        2.1 高粱基因組中1~50 bp串聯(lián)重復序列的密度分析

        在整個高粱基因組中(697.58 Mb),5′UTR中的串聯(lián)重復序列密度最高,為25 655 bp/Mb,其次為UI200(16 761 bp/Mb)和UI500(10 718 bp/Mb),3′UTR中的串聯(lián)重復序列密度最低,為5 710 bp/Mb,其余則為6 000 bp/Mb左右。5′UTR和UI200中的串聯(lián)重復序列密度最高,這可能與啟動子的保護和RNA聚合酶對啟動子的識別有關(圖2)。

        圖2 基因不同區(qū)域串聯(lián)重復序列密度

        全基因組中1~50 bp串聯(lián)重復序列密度排在前7位的依次是二堿基(1 123 bp/Mb)、三堿基(996 bp/Mb)、六堿基(650 bp/Mb)、二十一堿基(510 bp/Mb)、四堿基(438 bp/Mb)、五堿基(278 bp/Mb)和單堿基(253 bp/Mb),其中除了二十一堿基,其余全是微衛(wèi)星DNA(圖3)。二堿基和三堿基為主要的重復單元,其密度分別占總密度的17.04%和15.12%。二堿基重復類別中,密度最大為AT (746 bp/Mb),CG (9 bp/Mb)密度最小。三堿基重復類別中,重復密度較大的為ATT (108 bp/Mb)和AAT (107 bp/Mb),密度較小的為GAT (21 bp/Mb)和GGT (20 bp/Mb)。

        圖3 高粱基因組中1~50 bp串聯(lián)重復序列密度

        2.2 基因內(nèi)不同區(qū)域1~50 bp串聯(lián)重復序列的密度分析

        真核基因結構主要包括5′UTR、CDS、Intron和3′UTR等區(qū)域,這些區(qū)域與DNA的轉(zhuǎn)錄(如開放閱讀框,ORF)、翻譯密切相關。

        2.2.1 串聯(lián)重復序列1~50 bp的重復單元在5′UTR中的密度 如圖4所示,5′UTR中重復密度從高到低主要為三堿基(8 949 bp/Mb)、二堿基(4 064 bp/Mb)、五堿基(3 897 bp/Mb)、六堿基(3 773 bp/Mb)和四堿基(2 821 bp/Mb),它們占總密度的91.62%。其中三堿基重復密度最大,占總密度的34.88%,且CCG(3 127 bp/Mb)為最高的重復模體。在二堿基重復單元中,AG(1 702 bp/Mb)、CT(1 585 bp/Mb)重復模體最高,GT(72 bp/Mb)最小??梢?,在5′UTR中,重復序列主要為短的2~6 bp的微衛(wèi)星重復,且主要為富含CG的重復模體。

        圖4 5′UTR中不同重復單元的密度

        2.2.2 串聯(lián)重復序列1~50 bp的重復單元在CDS中的密度 由圖5知,CDS中重復序列最高的為三堿基重復(3 334 bp/Mb),占總重復序列的53.96%,其次為六堿基重復(1 599 bp/Mb),占總的25.87%,二者合計高達79.83%。在三堿基重復模體中,CGG(800 bp/Mb)和CCG(673 bp/Mb)最高,而AAT和GTT最低,均為1 bp/Mb。六堿基重復模體與三堿基重復類似,最高的為富含CG的CCGGCG (113 bp/Mb)。其余的重復單元主要為十二堿基(127 bp/Mb)、九堿基(96 bp/Mb)、十八堿基(92 bp/Mb)等,它們均為3 bp的倍數(shù)。由于CDS是蛋白質(zhì)的編碼序列,這可能與三聯(lián)體密碼子的翻譯有關。

        圖5 CDS中不同重復單元的密度

        2.2.3 串聯(lián)重復序列1~50 bp的重復單元在Intron中的密度 高粱基因組Intron中,1~50 bp的重復單元主要是二堿基(1 613 bp/Mb)、單堿基(759 bp/Mb)、三堿基(654 bp/Mb)、四堿基(603 bp/Mb)、五堿基(440 bp/Mb)和六堿基(433 bp/Mb)等微衛(wèi)星DNA(圖6)。其中二堿基占總密度的24.40%,單堿基為11.48%,二者合計占總密度的35.88%。在二堿基重復單元中,AT重復模體密度最高(821 bp/Mb),AG、GT、AC重復密度相近(200 bp/Mb),CG重復密度最小(14 bp/Mb)。故可知,Intron中主要為富含AT的微衛(wèi)星序列重復(1~6 bp),其他長堿基的重復單元較少。

        圖6 Intron中不同重復單元的密度

        2.2.4 串聯(lián)重復序列1~50 bp的重復單元在3′UTR中的密度 3′UTR區(qū)為非翻譯區(qū),與基因序列中5′UTR相對,它含有編碼一段蛋白質(zhì)的終止信號和Poly(A)信號,這一區(qū)域主要負責基因轉(zhuǎn)錄的終止。由圖7知,在3′UTR中,重復堿基的主要類別是三堿基(1 148 bp/Mb)、二堿基(1 104 bp/Mb)、四堿基(863 bp/Mb)和五堿基(582 bp/Mb),合計占總密度的64.75%。在三堿基重復單元中,重復密度最大為GCT(163 bp/Mb)和GTT(141 bp/Mb),最小為ATC(11 bp/Mb)和ACC(8 bp/Mb);在二堿基重復單元中,AT(404 bp/Mb)和GT(349 bp/Mb)為優(yōu)勢重復堿基,AG(38 bp/Mb)和CG(26 bp/Mb)為弱勢堿基。可見,3′UTR 類似于5′UTR,重復序列主要為富含GT的2~5 bp的微衛(wèi)星重復。

        圖7 3′UTR中不同重復單元的密度

        2.3 基因間不同區(qū)域1~50 bp串聯(lián)重復序列的密度分析

        基因間序列指基因編碼區(qū)的上游序列和下游序列,它們含有轉(zhuǎn)錄調(diào)節(jié)的元件,如增強子、啟動子、弱化子、沉默子等屬于非編碼區(qū),目前對它們的研究不多,但是在非編碼區(qū)中存在大量重復序列。

        2.3.1 串聯(lián)重復序列1~50 bp的重復單元在上游序列中的密度 基因序列的上游區(qū)分為3個區(qū),UI200(5′UTR之前的200 nt,指1~200 nt)、UI500(5′UTR之前500 nt,指201~700 nt)、UI1000(5′UTR之前1 000 nt,指701~1 700 nt)。該區(qū)域一般含有調(diào)控轉(zhuǎn)錄的元件,如啟動子等。

        在UI200中,二堿基(3 612 bp/Mb)和三堿基(3 437 bp/Mb)重復密度占總重復密度的42.05%。在二堿基重復單元中,優(yōu)勢模體為AT (1 170 bp/Mb)和CT (1 075 bp/Mb),弱勢模體為GC (73 bp/Mb);在三堿基重復單元中,優(yōu)勢模體是CCG (627 bp/Mb)和CCT (565 bp/Mb) ,弱勢模體為AAC (6 bp/Mb)(圖8A)。可知,二堿基重復主要為富含AT的模體,而三堿基則為富含CG的模體。

        在UI500中,二堿基(2 757 bp/Mb)和三堿基(1 395 bp/Mb)重復密度占總重復密度的38.74%。在二堿基重復單元中,AT (1 504 bp/Mb)為優(yōu)勢模體,而CG(35 bp/Mb)屬于弱勢模體;在三堿基重復單元中,ATT (173 bp/Mb )為優(yōu)勢模體,弱勢模體是GTT (10 bp/Mb)(圖8B)??芍赨I500中,二堿基和三堿基重復均為富含AT的模體。

        類似于UI500,在UI1000中,二堿基(2 184 bp/Mb)和三堿基(1 153 bp/Mb)重復密度占總重復密度的38.59%。在二堿基重復單元中,優(yōu)勢模體為AT (1 336 bp/Mb),弱勢模體為CG (14 bp/Mb);在三堿基重復單元中,優(yōu)勢模體為ATT (188 bp/Mb),弱勢模體為GGT (22 bp/Mb)(圖8C)??芍赨I1000中,二堿基和三堿基重復均為富含AT的模體。

        在基因上游3個不同區(qū)域中,高重復密度的單元主要為1~7 bp,屬于微衛(wèi)星序列,其他重復單元較低。與UI500和UI1000相比, UI200重復單元的種類較少(只有30種),但密度較大,這或許與UI200和5′UTR位置較近有關系,此位置主要為啟動子的調(diào)控區(qū)域,可能與轉(zhuǎn)錄起始及調(diào)控有關。

        2.3.2 串聯(lián)重復序列1~50 bp的重復單元在下游序列中的密度 基因序列的下游區(qū)分為3個區(qū),DI200(3′UTR之后200 nt,指1~200 nt)、DI500(3′UTR之后500 nt,指201~700 nt)、DI1000(3′UTR之后1 000 nt,指701~1 700 nt)。該區(qū)域一般含有調(diào)控轉(zhuǎn)錄的終止元件,如Poly(A)位點等。

        在DI200中,二堿基(856 bp/Mb)和三堿基(684 bp/Mb)重復密度占總重復密度的24.41%。在二堿基重復單元中,優(yōu)勢模體為AG (293 bp/Mb)和AT (215 bp/Mb),弱勢模體為AC (25 bp/Mb);在三堿基重復單元中,優(yōu)勢模體是ATT (106 bp/Mb)和CGG (100 bp/Mb),弱勢模體為ATC (5 bp/Mb)和GAT (5 bp/Mb)(圖9A)??芍A基和三堿基重復沒有明顯的偏向性。

        在DI500中,二堿基(848 bp/Mb)重復為主要的重復單元,占總重復密度的13.29%。在二堿基重復單元中,AT (295 bp/Mb)為優(yōu)勢模體,而CG(13 bp/Mb)屬于弱勢模體(圖9B)??芍赨I500中,二堿基重復主要為富含AT的模體。

        在DI1000中,三堿基(717 bp/Mb)和二堿基(701 bp/Mb)重復密度占總重復密度的22.67%。在三堿基重復單元中,優(yōu)勢模體為CGG (90 bp/Mb)和CCG (90 bp/Mb),弱勢模體為GAT (3 bp/Mb);在二堿基重復單元中,AT (241 bp/Mb)為優(yōu)勢模體,而CG(25 bp/Mb)屬于弱勢模體(圖9C)??芍贒I1000中,三堿基為富含CG的模體,而二堿基重復主要為富含AT的模體。

        不同于基因上游區(qū)域,在高粱基因組下游區(qū)域中,雖然1~7 bp的重復單元密度較高,但其密度的絕對值(150~850 bp/Mb)遠小于基因上游區(qū)域(250~3 600 bp/Mb)。與上游區(qū)域相比,下游區(qū)域大于10 bp重復單元的重復密度明顯較高。

        圖8 基因上游序列不同重復單元的密度

        圖9 基因下游序列不同重復單元的密度

        2.4 高粱基因組串聯(lián)重復序列在各個特征序列的分布

        2.4.1 串聯(lián)重復序列在基因內(nèi)的分布 圖10顯示1~50 bp串聯(lián)重復序列在基因內(nèi)不同區(qū)域的分布情況。在5′UTR和CDS中,串聯(lián)重復序列較均勻地分布于除兩端以外的區(qū)域(>9.83%),兩端分布較低(<9.14%),特別是在5′UTR中。在Intron中,兩端的串聯(lián)重復序列分布較多(10%左右),而中間60~69部位則最低(9.17%),由于Intron的兩端緊靠著CDS,這可能與Intron的識別、剪接有關。與Intron相反,在3′UTR中,重復序列主要分布于中間,特別是在60~69部位最高(12.84%),兩端則較低(接近9%)。

        圖10 串聯(lián)重復序列頻率在基因內(nèi)的分布

        2.4.2 串聯(lián)重復序列在基因間的分布 在上游基因間隔區(qū)中,如圖11,在UI200、UI500、UI1000中,距離基因5′UTR端越遠,串聯(lián)重復序列數(shù)量越少。在UI200和UI500中表現(xiàn)尤為明顯,其最大與最小值分別相差2.55倍(UI200, 12.32/4.83)和1.72倍(UI500, 12.62/7.32)。

        圖11 串聯(lián)重復序列頻率在上游基因間隔區(qū)的分布

        類似于上游基因間隔區(qū),在下游基因間隔區(qū)內(nèi),距離基因3′UTR端越遠,串聯(lián)重復序列數(shù)量也越少(圖12)。特別是在3′UTR下游1~700 bp內(nèi)(DI200和DI500),靠近3′UTR端串聯(lián)重復序列分布較高,遠離3′UTR端其分布逐漸降低,其最大與最小值相差1.99倍(DI200,13.02/6.54)和1.57倍(DI500,11.63/7.39)。而在DI1000區(qū)域內(nèi),串聯(lián)重復序列分布逐漸降低的趨勢則不明顯,可能揭示此區(qū)域與3′UTR轉(zhuǎn)錄終止相關性已較弱。

        圖12 串聯(lián)重復序列頻率在下游基因間隔區(qū)的分布

        3 結論與討論

        3.1 串聯(lián)重復序列在高粱基因組中的密度

        在不同區(qū)域微衛(wèi)星重復單元類別中(1~6 bp),主要是二堿基和三堿基等微衛(wèi)星,占總密度的30%以上,而單堿基重復單元密度不高,同時部分長堿基的重復單元密度也不低,說明高粱基因組中重復單元的出現(xiàn)不是隨機的,而是有一定的自然選擇性,這與他人的研究結果相一致[3,5-6]。

        已知重復序列在5′UTR、UI200和UI500中的密度較高,其余區(qū)域密度差別不大。就區(qū)域基因組大小而言,UI200基因組為2.73 Mb、5′UTR基因組為2.06 Mb,但其微衛(wèi)星(1~6 bp)的重復密度高達80%以上,而Intron基因組為43.56 Mb,其微衛(wèi)星重復密度只有35.88%。顯然微衛(wèi)星重復密度與基因組大小沒有明顯關系,可能與它所在位置的功能有關[3]。

        本研究顯示,高粱基因組中最高和次高的串聯(lián)重復序列密度在5′UTR和它的直接上游區(qū)域,即UI200區(qū),而這個區(qū)域通常為啟動子區(qū)域。5′UTR被認為是串聯(lián)重復序列的熱點區(qū)域,之前的研究表明,5′UTR中的串聯(lián)重復序列可參與轉(zhuǎn)錄或翻譯的調(diào)控[5-6,9]。CDS中串聯(lián)重復序列的密度較低,低密度的重復序列會降低蛋白質(zhì)的復雜性從而增強其保守度,已經(jīng)證實CDS的突變會導致蛋白質(zhì)功能改變,功能喪失和蛋白質(zhì)截短[10]。3′UTR和內(nèi)含子中的串聯(lián)重復序列密度也較低,可能暗示重復序列在這些區(qū)域保守度高,參與的生物學功能也可能較少[5]。

        3.2 串聯(lián)重復序列在高粱基因組中的位置分布

        從重復序列在高粱基因內(nèi)及基因間的分布可以看出,重復序列在整個基因組中的位置也并非隨機存在,這與此前研究相一致[3]。基因間隔區(qū)的串聯(lián)重復序列的分布明顯偏向于靠近基因兩端(5′UTR和3′UTR),串聯(lián)重復序列已經(jīng)被定位到基因和基因調(diào)節(jié)區(qū),并參與轉(zhuǎn)錄和翻譯的調(diào)控[11],本研究顯示,串聯(lián)重復序列偏向基因調(diào)節(jié)區(qū),也支持了這一觀點。另外,Intron兩端的串聯(lián)重復序列分布較高,考慮到可能與內(nèi)含子剪接有關[9],也可對與其相鄰的CDS起到保護的作用。

        本研究顯示,串聯(lián)重復序列在基因不同區(qū)域具有顯著的特征差異,并且重復序列的區(qū)域分布與基因調(diào)控具有緊密的聯(lián)系,同時本研究將有助于對串聯(lián)重復序列進化及在基因表達中調(diào)控作用的理解。但由于計算資源的局限性(如CPU、內(nèi)存和運算時間),本研究只探究了1~50 bp重復序列,而對于更長的重復序列(>50 bp)進行研究或許能揭示更多潛在的重復序列功能。

        猜你喜歡
        模體堿基高粱
        我終于認識高粱了
        高粱名稱考釋
        高粱紅了
        青年文學家(2022年1期)2022-03-11 12:27:39
        基于Matrix Profile的時間序列變長模體挖掘
        應用思維進階構建模型 例談培養(yǎng)學生創(chuàng)造性思維
        中國科學家創(chuàng)建出新型糖基化酶堿基編輯器
        生命“字母表”迎來4名新成員
        科學24小時(2019年5期)2019-06-11 08:39:38
        生命“字母表”迎來4名新成員
        植入(l, d)模體發(fā)現(xiàn)若干算法的實現(xiàn)與比較
        基于網(wǎng)絡模體特征攻擊的網(wǎng)絡抗毀性研究
        国产成a人亚洲精品无码樱花| 秋霞国产av一区二区三区| 精品人妻一区二区视频| 国产精品国产三级国产av品爱| 亚洲精品国产av天美传媒| 国产乱视频| 亚洲av一二三又爽又爽又色| 日本久久精品中文字幕| 一本久久伊人热热精品中文字幕| 欧美日韩国产色综合一二三四| 亚洲av永久久无久之码精| 人妻制服丝袜中文字幕| 我把护士日出水了视频90分钟| 久久久久这里只有精品网| 日本一区二区三深夜不卡| 国产亚洲成人精品久久| 黄网站欧美内射| 精品无码久久久九九九AV| 久久偷拍国内亚洲青青草| 久久久久99人妻一区二区三区| 人人爽人人爽人人爽| 亚洲香蕉毛片久久网站老妇人 | 亚洲日韩av无码一区二区三区人 | 欧美午夜a级精美理论片| 91亚洲国产成人久久精品网站| 一个少妇的淫片免费看| 97在线观看| 国产精品欧美韩国日本久久| 一区二区精品天堂亚洲av| 亚洲av永久无码一区二区三区| 久久99精品久久久久久野外| 国产精品一区二区三区色| 亚洲字幕中文综合久久| 好日子在线观看视频大全免费动漫| 日本在线观看不卡| 一个人午夜观看在线中文字幕 | 福利视频一二区| 一区二区三区日本视频| 久久久免费精品re6| 亚洲va在线va天堂va手机| 日韩中文字幕一区二十|