王平 叢玲 王春語 朱振興 A Ashok Kumar 張麗霞 陸曉春
(1. 遼寧省農(nóng)業(yè)科學(xué)院高粱研究所,沈陽 110161;2. 國際熱帶半干旱地區(qū)作物研究所,帕坦奇魯 印度502324)
細(xì)胞質(zhì)雄性不育系(Cytoplasmic male sterility,CMS)的發(fā)現(xiàn)和利用,在作物遺傳育種研究和雜種優(yōu)勢利用等方面發(fā)揮了至關(guān)重要的作用,為作物雜交育種和雜交種子的生產(chǎn)提供了簡便、高效的途徑。
在主要糧食作物中,水稻細(xì)胞質(zhì)雄性不育系的選育、應(yīng)用及研究是最深入的[1]。目前,水稻主要有9種CMS不育系,包括野敗(WA)型、K型、矮?。―A)型、D型、岡(GA)型、印尼水田(ID)型、紅蓮(HL)型、包臺(BT)型和滇(DT)型,其中,WA型、HL型和BT型是生產(chǎn)上應(yīng)用較多的CMS,對于其細(xì)胞質(zhì)雄性不育和育性恢復(fù)的分子機(jī)制基本闡明[2-4]。CMS-WA不育系中線粒體不育基因WA352在特定時期的花藥絨氈層細(xì)胞中大量積累,與核基因編碼的線粒體蛋白COX11相互作用,抑制COX11在過氧化物代謝中的功能,促進(jìn)絨氈層細(xì)胞的過早程序性死亡和降解,引起花粉敗育[2]。不同的細(xì)胞質(zhì)雄性不育表型是由于不同的線粒體基因組重排產(chǎn)生嵌合基因,擾亂了正?;虻墓δ埽瑢?dǎo)致雄性配子體異常發(fā)育。通過比較分析不育系、保持系和恢復(fù)系中線粒體基因組特異的嵌合基因以及其轉(zhuǎn)錄產(chǎn)物的差異,鑒定出細(xì)胞質(zhì)雄性不育的線粒體基因,如水稻orf79[5-6]、orfH79[7]、WA352[2]和orf182[8]、甜菜orf129[9]、辣椒orf456[10]、芥菜orf220[11]和油菜orf288[12]等。
Stephens于1929年在甜蘇丹草中發(fā)現(xiàn)了第一個高粱雄性不育材料,但由于是細(xì)胞核控制的雄性不育系,沒能大面積應(yīng)用于雜交高粱的商業(yè)化生產(chǎn),經(jīng)過多年的努力,直到1954年,育成了生產(chǎn)上可以利用的第一個高粱細(xì)胞質(zhì)雄性不育系Tx3197A,拉開了高粱雜交育種的帷幕,高粱選育常規(guī)品種轉(zhuǎn)入優(yōu)良“三系”及其雜交種,極大地提高了高粱的單產(chǎn)[13-14]。根據(jù)細(xì)胞質(zhì)類型的不同,目前將高粱核質(zhì)互作雄性不育系主要分為8種,包括A1、A2、A3、A4、A5、A6、9E 和 KS[15]。張福耀等[16]和侯荷亭等[17]開展了不同類型細(xì)胞質(zhì)不育系育性測交鑒定試驗,結(jié)果表明,7種(A1、A2、A3、A4、A5、A6、9E)核質(zhì)互作不育系雜交的F1育性反應(yīng)各不相同。
關(guān)于高粱線粒體基因組研究以及高粱細(xì)胞質(zhì)雄性不育系中線粒體基因組中不育基因的報道比較少,只在高粱CMS-A3不育系中發(fā)現(xiàn)了一個導(dǎo)致細(xì)胞質(zhì)雄性不育的嵌合基因orf107,是由atp9的5'末端和水稻orf79的3'末端共同組成的,能夠轉(zhuǎn)錄一個18.8 kD的多肽[18]。目前,在生產(chǎn)中應(yīng)用較多的是CMS-A1和CMS-A2型不育系,但是這兩種不育系細(xì)胞質(zhì)和細(xì)胞核基因如何互作以及分別由幾對基因調(diào)控都未知[19-20],其相關(guān)的分子遺傳調(diào)控機(jī)制至今還不清楚。
Tx623A是遼寧省農(nóng)業(yè)科學(xué)院1979年從美國得克薩斯農(nóng)業(yè)和機(jī)械大學(xué)引進(jìn)的細(xì)胞質(zhì)雄性不育系,具有A1型細(xì)胞質(zhì),以它作為母本選育出了一批高產(chǎn)、優(yōu)質(zhì)、高抗絲黑穗病的雜交種。保持系Tx623B是高粱參考基因組測序的品種,在NCBI數(shù)據(jù)庫中只有Tx623B的線粒體基因組序列(https://www.ncbi.nlm.nih.gov/search/all/? term=DQ984518), 而 沒 有Tx623A線粒體基因組序列。
本研究以CMS-A1型不育系Tx623A和其保持系Tx623B為材料,利用二代結(jié)合三代測序技術(shù)組裝不育系和保持系線粒體基因組,進(jìn)一步分析不育系和保持系線粒體基因組的差異以及基因組結(jié)構(gòu)的變異。旨在為A1型細(xì)胞質(zhì)雄性不育基因克隆奠定基礎(chǔ),也為與其他類型細(xì)胞質(zhì)雄性不育系的比較提供了基因組信息。
Tx623A為CMS-A1型,Tx623B是其對應(yīng)的保持系。Tx623A和Tx623B均來自遼寧省農(nóng)業(yè)科學(xué)院高粱研究所。
1.2.1 Tx623A和Tx623B全基因組提取 選取籽粒飽滿、均勻一致的種子約100粒,放在墊有三層濾紙的發(fā)芽盒中,加入一定量的無菌水,置于人工氣候箱(國產(chǎn)MGC-350HP-2型),16 h光照/8 h黑暗,25℃培養(yǎng),待兩片子葉完全展開后用于基因組的提取。取大約100 mg新鮮葉片,采用TIANGEN公司植物基因組DNA提取試劑盒(目錄號:DP305)提取總DNA,詳細(xì)步驟參考試劑盒操作說明書。
1.2.2 基因組測序及數(shù)據(jù)質(zhì)控 使用Illumina Hiseq X測序平臺對樣品進(jìn)行PE150測序,產(chǎn)生的原始數(shù)據(jù)(Raw Data)存在一定比例低質(zhì)量數(shù)據(jù),為了使得后續(xù)分析的結(jié)果更加準(zhǔn)確可靠,會對原始的測序數(shù)據(jù)進(jìn)行如下處理:(1)去除reads中的adapter序列;(2)去除5'端含有非AGCT的堿基;(3)去除測序質(zhì)量較低的reads末端(測序質(zhì)量值小于Q20);(4)去除含N的比例達(dá)到10%的reads;(5)舍棄adapter及質(zhì)量修剪后長度小于75 bp的小片段。
1.2.3 線粒體基因組組裝 (1)利用blasR將有效數(shù)據(jù)(Clean data)比對Pacbio三代數(shù)據(jù),根據(jù)比對結(jié)果對單分子測序數(shù)據(jù)進(jìn)行一次矯正與糾錯,目的在于減少單分子長序列中單堿基插入缺失的錯誤;最后利用糾正過的單分子測序數(shù)據(jù)與二代數(shù)據(jù)進(jìn)行混合組裝,使用的軟件是SPAdes-3.10.1;挑選覆蓋深度足夠高且組裝長度較長的序列作為候選序列,比對NCBI確認(rèn)線粒體基因組的Contig序列。(2)將clean reads比對回組裝獲得的Contig,根據(jù)reads的paired-end和overlap關(guān)系,對組裝結(jié)果進(jìn)行局部組裝和優(yōu)化,并確定Contig的順序和方向。然后使用Gap Closer(v1.12,http://soap.genomics.org.cn/soapdenovo.htm)軟件對組裝結(jié)果進(jìn)行內(nèi)洞修補,得到最終的線粒體基因組序列。
1.2.4 線粒體基因組注釋 使用tRNAscan-SE(http://lowelab.ucsc.edu/tRNAscan-SE) 和 Artemis(http://www.sanger.ac.uk/Software/Artemis)識別線粒體的tRNA和ORFs。以高粱線粒體基因組(https://www.ncbi.nlm.nih.gov/search/all/? term=DQ984518)為參考基因組,對蛋白編碼基因和rRNA基因進(jìn)行同源比對預(yù)測,使用的軟件是BLAST+2.7.1,參數(shù)默認(rèn)。然后對同源比對結(jié)果去冗余,人工校正基因的首尾及外顯子/內(nèi)含子邊界,獲得高準(zhǔn)確性的基因集。
1.2.5 基因比對數(shù)據(jù)庫 線粒體的基因蛋白序列,與已知的蛋白數(shù)據(jù)庫進(jìn)行blastp比對。由于每一條序列比對結(jié)果可能超過一條,為保證其生物學(xué)意義,只保留一條最優(yōu)比對結(jié)果作為該基因的數(shù)據(jù)庫比對信息。常用的數(shù)據(jù)庫包括:NR(http://www.ncbi.nlm.nih.gov/)、Swiss-Prot(http ://www.ebi.ac.uk/uniprot/)、eggNOG(http://eggnogdb.embl.de/)、KEGG(http://www.genome.jp/kegg/) 和 GO(http ://geneontology.org/)。
1.2.6 全基因組共線性分析 使用MUMmerv3.23(http://mummer.sourceforge.net/)軟件對目標(biāo)基因組和參考基因組進(jìn)行比對,確定基因組間的大范圍共線性關(guān)系。然后使用LASTZ v1.03.54(http://www.bx.psu.edu/miller_lab/dist/README.lastz-1.02.00/)對區(qū)域間進(jìn)行比對,確認(rèn)局部位置排列關(guān)系,并從中查找易位(Translocation/Trans),倒置(Inversion/Inv)和易位+倒置(Trans+Inv)的區(qū)域。
為了獲得更加完整、準(zhǔn)確的線粒體基因組序列,采用二代和三代測序結(jié)合的方法對Tx623A和Tx623B核基因組進(jìn)行測序,將2次測序數(shù)據(jù)進(jìn)行混合組裝,完成對2個樣品線粒體基因組的高質(zhì)量拼接(表1),Tx623A和Tx623B線粒體基因組大小分別為449 727和452 772 bp,預(yù)測到的線粒體基因分別為163個和159個。根據(jù)預(yù)測Tx623A和Tx623B線粒體編碼基因總長度分別為102 003 bp和99 180 bp,分別占Tx623A和Tx623B線粒體基因組的22.68%和21.91%。
表1 Tx623A和Tx623B線粒體基因組組裝數(shù)據(jù)統(tǒng)計
為了探明2個樣品中線粒體基因組的區(qū)別,對Tx623A和Tx623B樣品線粒體基因組之間存在的SNP(Single nucleotide polymorphism)和 InDel標(biāo)記(Insertion and deletion marker)進(jìn)行比較(表2),在基因內(nèi)造成同義突變的SNP有9個,非同義突變的SNP有7個;在非基因區(qū)間內(nèi)有差異的SNP共有82個。Tx623B線粒體基因組與Tx623A線粒體基因組相比,在CDS區(qū)內(nèi),存在InDel差異的有3個;在非基因區(qū)域內(nèi),存在InDel差異的有6個。
同時也對2個樣品的預(yù)測基因進(jìn)行了詳細(xì)的分析比較。在Tx623A中預(yù)測的163個線粒體基因中,其中16個基因是兩個拷貝的重復(fù)基因,由于在染色體的重復(fù)位置不同,故而計為2個基因。除去重復(fù)基因,Tx623A線粒體基因組共編碼147個ORFs。Tx623B線粒體基因組中有14個重復(fù)基因,因此,Tx623B線粒體基因組共編碼145個ORFs(圖1-A)。通過分析比較Tx623A和Tx623B線粒體基因組中的重復(fù)基因,發(fā)現(xiàn)其中13個基因是兩者共有的,3個重復(fù)基因是Tx623A特有的,1個重復(fù)基因是Tx623B特有的(圖1-B)。通過比較分析Tx623A和Tx623B線粒體基因組編碼的147個和145個ORFs,發(fā)現(xiàn)139個ORFs是兩者共有的,8個ORFs是Tx623A特有的,6個ORFs是Tx623B特有的(圖1-C)。
表2 以Tx623A線粒體基因組為參考序列的SNP和InDel類型統(tǒng)計
圖1 Tx623A和Tx623B線粒體基因組比較
根據(jù)前人研究報道,細(xì)胞質(zhì)雄性不育與線粒體基因組易位有關(guān),為此,使用MUMmer v3.23軟件對Tx623A和Tx623B線粒體基因組進(jìn)行共線性分析,發(fā)現(xiàn)Tx623A和Tx623B線粒體基因組中存在基因組結(jié)構(gòu)變異(SV)區(qū)間(圖2)。其中267 095-324 127(57 032 bp)為Tx623A和Tx623B線粒體基因組中存在的易位區(qū)間,該區(qū)間共含有22個ORFs(表3)。
圖2 Tx623A和Tx623B線粒體基因組共線性分析
植物線粒體基因組大部分由非編碼的DNA序列組成,包含大量重復(fù)序列和非編碼RNA插入,研究一直受測序技術(shù)發(fā)展水平桎梏。近年來,隨著第三代單分子實時測序技術(shù)的興起并不斷改進(jìn),超長讀長和無偏好性等優(yōu)勢給植物線粒體基因組組裝提供了新技術(shù)支撐。本研究沒有提取高粱線粒體基因組直接測序組裝,而是利用已有的高粱線粒體基因組序列,通過二代和三代測序相結(jié)合的方法測核基因組序列來組裝線粒體基因組,為植物線粒體基因組測序組裝提供了新方法。高粱線粒體NCBI上組裝大小為468 628 bp(DQ984518),而利用核基因組測序組裝的線粒體基因組大小為450 kb左右,它們之間相差19 kb左右,這些大小差異主要是非編碼區(qū)的差異,更多的是重復(fù)序列組裝造成的,編碼區(qū)都很保守,而且2個基因組的組裝均成環(huán)。水稻線粒體參考基因組在NCBI上公布的由于品種不同,線粒體基因組序列有20多個,大小從400-600 kb均可見,可能都是重復(fù)序列造成的差異。
從完成測序的植物線粒體基因組特征來看,高粱與玉米、水稻等線粒體基因組大小較為相近,但高粱含有的基因數(shù)與玉米和水稻差別較大,高粱線粒體基因數(shù)目為150個左右,而玉米和水稻等植物線粒體基因數(shù)目為52-60個[21-22],而差別的基因多體現(xiàn)在ORFs基因類型上,其他基因類型保守,即使在不育系Tx623A和其保持系Tx623B線粒體基因組也存在ORFs基因類型的差異。高等植物線粒體基因組結(jié)構(gòu)變化很快,重排率比葉綠體基因組高得多,甚至不同亞種之間的線粒體基因組結(jié)構(gòu)差別也很大,存在明顯的分子間和分子內(nèi)重組。已有研究表明,植物細(xì)胞質(zhì)雄性不育主要是線粒體易位造成的,因此本研究鑒定的易位區(qū)間將為高粱A1型細(xì)胞質(zhì)雄性不育基因克隆提供線粒體基因組信息。
對于水稻CMS-WA型不育系如何與核編碼的線粒體蛋白相互作用,導(dǎo)致不育以及如何與CMS的恢復(fù)基因相互作用恢復(fù)育性等分子機(jī)制已經(jīng)清晰[23-24]。高粱細(xì)胞質(zhì)雄性不育的理論研究遠(yuǎn)遠(yuǎn)落后于生產(chǎn)應(yīng)用,雄性不育早在1954年就在高粱雜交育種生產(chǎn)中得到了廣泛應(yīng)用,目前,關(guān)于細(xì)胞質(zhì)雄性不育的研究仍不夠深入,具體不育機(jī)理的研究仍很滯后。高粱不同類型CMS的不育機(jī)理以及恢復(fù)育性機(jī)理是否相同,還需要進(jìn)行深入的研究。本研究高粱A1型細(xì)胞質(zhì)雄性不育系Tx623A及其保持系Tx623B的線粒體基因組比較,為將來解析高粱細(xì)胞質(zhì)雄性不育分子機(jī)制奠定了良好的基礎(chǔ)。
表3 Tx623A和Tx623B線粒體基因組結(jié)構(gòu)變異分析
通過對高粱CMS-A1型的不育系Tx623A和其保持系Tx623B線粒體基因組比較分析,鑒定出與高粱細(xì)胞質(zhì)雄性不育有關(guān)的易位結(jié)構(gòu)區(qū)間,具體結(jié)論如下。
測序數(shù)據(jù)組裝拼接后Tx623A和Tx623B線粒體基因組大小分別為449 727 bp和452 772 bp。
Tx623A和Tx623B線粒體基因組分別預(yù)測到147個和145個ORFs,其中2個樣品中分別含有特異基因8個和6個。
以Tx623A線粒體基因組為參考序列,Tx623B線粒體基因組中,在基因內(nèi)造成同義突變的SNP有9個,非同義突變的SNP有7個;82個SNP位于非基因區(qū)間內(nèi)。3個InDel位于CDS區(qū)內(nèi),6個InDel位于非基因區(qū)域內(nèi)。
Tx623A和Tx623B線粒體基因組中存在57 kb大小的易位結(jié)構(gòu)變異區(qū)間,這些結(jié)構(gòu)變異可能是導(dǎo)致Tx623A細(xì)胞質(zhì)雄性不育性的原因。