李國良, 張鴻, 林趙淼, 許泳清, 許國春, 李華偉,紀(jì)榮昌, 羅文彬, 邱永祥, 邱思鑫, 湯浩
福建省農(nóng)業(yè)科學(xué)院 作物研究所/農(nóng)業(yè)農(nóng)村部南方薯類觀測實驗站,福州 350013
葉綠體是綠色植物進(jìn)行光合作用最重要的細(xì)胞器, 是許多基本物質(zhì)和次生代謝物合成的重要場地[1]. 葉綠體蛋白雖然絕大多數(shù)是由核基因編碼, 但也有100多種蛋白是由葉綠體基因組(cpDNA)編碼的. cpDNA序列長度為130~150 kb, 具有典型的雙鏈環(huán)狀結(jié)構(gòu), 由1個大單拷貝區(qū)(LSC), 1個小單拷貝區(qū)(SSC)和兩個反向重復(fù)區(qū)(IR)組成. 大多數(shù)的cpDNA是母系遺傳, 但也有一部分植物是父系遺傳或雙親遺傳. 相對于核基因組的復(fù)雜多樣性, cpDNA結(jié)構(gòu)簡單, 序列高度保守, 不同物種或同一物種不同個體間僅存在著局部區(qū)域的序列變異, 因此cpDNA 更易解析, 更有利于研究植物的分類與進(jìn)化[2-4].
甘薯是我國重要的糧食作物、 飼料作物和食品加工業(yè)、 化工業(yè)的原料作物[5]. 葉菜型甘薯是一類以鮮幼嫩莖葉作蔬菜用的甘薯品種, 與普通甘薯相比, 其莖葉產(chǎn)量較高[6]. 葉綠體基因組的完整解析是準(zhǔn)確研究植物系統(tǒng)進(jìn)化關(guān)系、 發(fā)掘基因功能的更有效而可靠的手段[7]. 葉菜型甘薯的父本或母本往往來源于普通甘薯, 其葉綠體基因組序列與普通甘薯有什么差別目前尚未清楚, 甘薯種間葉綠體基因組之間存在多少堿基差異目前也不清楚. 本研究以葉菜型甘薯‘福菜薯18號’為材料, 通過序列拼接獲得完整的葉綠體基因組, 并利用生物信息學(xué)方法進(jìn)行分析, 為葉菜型甘薯的親緣關(guān)系和甘薯種間關(guān)系奠定基礎(chǔ).
以葉菜型甘薯‘福菜薯18號’為試驗材料, 其嫩梢幼葉于2021年7月采自‘福菜薯18號’甘薯組培苗.
利用DNA提取試劑盒(南京諾維贊生物科技有限公司)提取甘薯組織總DNA[8], 用1.5%瓊脂糖凝膠電泳和Nanodrop 2000檢測甘薯總DNA的質(zhì)量和完整性, DNA質(zhì)量合格后進(jìn)行上機測試.
二代測序?qū)嶒灹鞒贪凑誃GISEQ-500的標(biāo)準(zhǔn)程序執(zhí)行, 樣品基因組DNA檢測合格后, 用超聲波法將DNA片段化, 然后對片段化的DNA進(jìn)行純化, 末端修復(fù), 3′端加A, 連接測序接頭, 構(gòu)建測序文庫, 文庫質(zhì)檢合格后用BGISEQ-500平臺進(jìn)行測序.
三代測序采用Oxford Nanopore Technologies公司的建庫試劑盒進(jìn)行測序文庫構(gòu)建, 文庫檢驗合格后上機測序.
使用Fastp 軟件對原始數(shù)據(jù)進(jìn)行過濾, 去除其中的接頭序列及低質(zhì)量序列, 獲取高質(zhì)量的序列數(shù)據(jù), 按參考物種的葉綠體基因組序列進(jìn)行組裝, 得到葉綠體基因組序列組裝結(jié)果[9]. 使用minimap2將三代測序reads比對NCBI旋花科所有葉綠體基因組數(shù)據(jù), 提取比對長度大于5 000 bp的reads用于后續(xù)組裝[10]. 使用bowtie2將二代測序reads比對廣州佰數(shù)生物科技有限公司自建的葉綠體基因組數(shù)據(jù)庫, 將比對上的reads用于后續(xù)組裝[11]. 組裝軟件使用Unicycler version: v 0.4.8, 將上述提取到的葉綠體候選三代和二代reads用于葉綠體基因組組裝[12].
使用GeSeq軟件對葉綠體基因序列進(jìn)行注釋[13]; 利用tRNAscan-SE在線網(wǎng)站對tRNA進(jìn)行注釋[14], 利用 RNAmmer 1.2 Server(http: //www.cbs.dtu.dk/services/RNAmmer/)對 rRNA進(jìn)行注釋, 經(jīng)人工修正后獲得最終的注釋結(jié)果; 最后使用OGDRAW(https: //chlorobox.mpimp-golm.mpg.de/OGDraw.html)軟件生成基因組物理圖譜[15].
根據(jù)Sharp等[16]計算方法對組裝好的葉菜型甘薯葉綠體基因組序列進(jìn)行密碼子偏好性(Relative Synonymous Codon Usage, RSCU)值統(tǒng)計和分析. 采用 MISA 軟件(http: //pgrc.ipk-gatersleben.de/misa/)對組裝好的葉菜型甘薯葉綠體基因組序列進(jìn)行微衛(wèi)星掃描[17], 利用 Tandem repeats finder v 4.04 軟件檢測串聯(lián)重復(fù)序列, 默認(rèn)參數(shù)參考文獻(xiàn)[18].
由于葉綠體基因組組裝過程中發(fā)現(xiàn)有兩種類型的葉綠體, 即葉綠體基因組在SSR區(qū)域具有正反兩種方向的結(jié)構(gòu), 因此利用dottup軟件對兩種類型的葉綠體基因組進(jìn)行共線性分析[19].
從NCBI 數(shù)據(jù)庫下載番薯屬Ipomoeatrifida(NC_034670),Ipomoeacordatoteiloba(NC_041204),Ipomoealacunosa(NC_037912),Ipomoeacynanchifolia(NC_041203)和Ipomoearamosissima(NC_041205) 等 45個種植物葉綠體基因組序列與葉菜型甘薯進(jìn)行聚類分析, 利用其與兩個外群物種全葉綠體序列構(gòu)建進(jìn)化樹. 使用軟件mafft(默認(rèn)參數(shù))進(jìn)行序列比對[20], 而后利用fasttree軟件構(gòu)建ML進(jìn)化樹[21].
從NCBI數(shù)據(jù)庫下載8個甘薯葉綠體基因組數(shù)據(jù), 將9個基因組序列用mafft對比后, 以‘福菜薯18號’葉綠體基因組為參考序列進(jìn)行SNP和Indel分析.
葉菜型甘薯的cpDNA序列全長為161 387 bp, 由大單拷貝區(qū)域(LSC, 87 597 bp), 小單拷貝區(qū)域(SSC, 12 052 bp)及兩個反向重復(fù)區(qū)域(IRA和IRB, 30 869 bp)4個部分構(gòu)成(圖1). 組裝注釋好的葉綠體基因序列提交至 GenBank, 獲得序列登錄號OM808940. 基因注釋結(jié)果表明: 葉菜型甘薯cpDNA具有132個功能基因, 包括87個蛋白編碼基因、 8個rRNA基因和37個tRNA基因. 其中, 18個基因在IR區(qū)域復(fù)制, 包括7個蛋白編碼基因(ycf1,ycf2,ycf15,ndhB,ndhH,rps7和rps15), 7個tRNA基因(trnI-CAU,trnL-CAA,trnV-GAC,trnI-GAU,trnA-UGC,trnR-ACG和trnN-GUU)和4個rRNA基因(rrn4.5,rrn5,rrn16和rrn23). 葉菜型甘薯cpDNA總的GC質(zhì)量分?jǐn)?shù)為 37.54%, AT質(zhì)量分?jǐn)?shù)為62.46%.
經(jīng)過統(tǒng)計分析, 葉菜型甘薯cpDNA中20個基因包含內(nèi)含子, 其中, 11個蛋白編碼基因和7個tRNA基因含有1個內(nèi)含子, 2個蛋白編碼基因(pafI和clpP)含有2個內(nèi)含子(表1).rps12有2個拷貝, 每個拷貝具有3個外顯子, 且兩個拷貝共享第1個外顯子, 第1個外顯子位于LSC區(qū)域, 另外2個外顯子位于IR區(qū)域.
表1 甘薯葉綠體基因組注釋基因列表
對于不同的生物體蛋白質(zhì)結(jié)構(gòu)組成, 即使編碼氨基酸的密碼子相同, 但是對于氨基酸的同義密碼子使用頻率卻是不相等的, 這種同義密碼子使用頻率的不相等就是密碼子偏好性(RSCU). 葉菜型甘薯cpDNA中RSCU值大于1.00的密碼子為32個, 其中大多數(shù)以A或T結(jié)尾, 僅3個以G結(jié)尾(ATG, TTG, TGG). 編碼亮氨酸(Leu)的密碼子數(shù)量最多, 為2 950個, 占比10.35%; 半胱氨酸(Cys)出現(xiàn)的次數(shù)最少, 為332, 占比1.16%(表2). 這與大多數(shù)被子植物葉綠體基因組密碼子使用偏好一致.
表2 葉菜型甘薯各氨基酸同義密碼子偏好性
SSR(Simple Sequence Repeats) 是一類由1~6個核苷酸為重復(fù)單位組成的長達(dá)幾十個核苷酸的串聯(lián)重復(fù)序列, 每個SSR兩側(cè)的序列一般是相對保守的單拷貝序列. 從葉菜型甘薯葉綠體基因組中共鑒定到54個SSR位點, 其中, 單核苷酸、 二核苷酸、 三核苷酸、 四核苷酸、 五核苷酸和六核苷酸重復(fù)分別有32, 4, 3, 11, 2和2個(表3), 且32個單核苷酸重復(fù)均由A或T組成.
表3 54個cpDNA在葉菜型甘薯葉綠體基因組上的分布
從NCBI上下載旋花科甘薯近緣種植物的葉綠體基因組序列, 對全基因組序列的共有蛋白編碼基因進(jìn)行聚類分析, 并以Distimakequinquefolius和Operculinamacrocarpa為外類群. 結(jié)果顯示, 葉菜型甘薯與普通甘薯‘clm’和甘薯四倍體野生種Ipomoeatabascana聚為一類, 普通甘薯‘徐薯18號’和甘薯二倍體野生種Ipomoeatrifida聚為一類, 同時聚為一個大類. 旋花科的黃毛銀背藤也與番薯屬植物聚為一類, 兩個外群植物Distimakequinquefolius和Operculinamacrocarpa聚為一類, 與番薯屬植物分為兩個進(jìn)化支(圖2).
圖2 基于蛋白編碼基因構(gòu)建45個物種的系統(tǒng)進(jìn)化樹
由于葉綠體基因組組裝過程中發(fā)現(xiàn)有兩種類型的葉綠體, 即葉綠體基因組在SSR區(qū)域具有正反兩種方向的結(jié)構(gòu), 利用dottup軟件對兩種類型的葉綠體基因組進(jìn)行共線性分析, 其中藍(lán)色是正向共線性, 紫紅色是反向共線性(圖3).
右下角的藍(lán)色為共同的IRA序列, 左上角的長藍(lán)色為共同的LSC+IRB序列, gap部分為反向共線性的SSR, 由于IRA和IRB本身是反向共線性的, 所有兩種結(jié)構(gòu)的葉綠體呈現(xiàn)IRA-SSC-IRB反向共線性(紅色).圖3 兩種類型葉綠體dotplot圖
以‘福菜薯18號’為對照, 對甘薯品種間葉綠體基因組進(jìn)行種內(nèi)SNP分析, 發(fā)現(xiàn)有199個SNP位點, 其中有118個位點位于編碼區(qū)中, 編碼區(qū)包含matK,rpoC2,psaB,accD,psbL,rps8,ycf1,ycf2,ndhB,ndhC,ndhE,ndhF,ndhH等基因,ycf1和ycf2具有較多的SNP位點, 其余位于非編碼區(qū)中. ‘福菜薯18號’葉綠體基因組與其他甘薯相比, 有121個片段缺失, 其中有37個屬于SSR位點缺失; 有146個片段插入, 其中有66個屬于SSR位點插入; 另外還有7個長片段替換(數(shù)據(jù)略).
20世紀(jì)70年代末, 雙脫氧終止法標(biāo)志著第一代測序技術(shù)的誕生, 實現(xiàn)了對DNA序列的測序與分析, 由于這種方法測序通量低、 自動化水平差等缺點, 限制了其在轉(zhuǎn)錄組學(xué)和基因組學(xué)的發(fā)展. 第二代測序是邊合成邊測序, 通過捕捉末端新合成的堿基來獲得待測DNA片段的序列, 實現(xiàn)了高通量和自動化測定, 極大地提高了測序速度, 但由于二代測序包含PCR擴增等過程, 可能會引入模板遷移等假陽性, 而且二代測序讀長普遍較短, 也限制了其應(yīng)用. 三代測序技術(shù)以PacBio公司的單分子實時測序技術(shù)(Single Molecule Real Time Sequencing, SMRT-seq)和Oxford Nanopore Technologies的納米孔單分子測序技術(shù)為代表, 與前兩代測序技術(shù)相比, 其最大的特點就是單分子實時測序, 測序過程無需進(jìn)行PCR擴增, 可以實現(xiàn)長片段序列測定, 但缺點是通量相對較小, 測序成本較高[22-23]. 本文為提高葉菜型甘薯葉綠體基因組測定序列的準(zhǔn)確性, 采用了二代和三代測序數(shù)據(jù)相結(jié)合, 克服了測序技術(shù)本身的不足, 保證序列拼接組裝的準(zhǔn)確性.
甘薯屬于旋花科番薯屬植物, 本研究從NCBI上下載了45個番薯屬植物的葉綠體基因組數(shù)據(jù), 包括普通甘薯‘徐薯18號’等葉綠體基因組數(shù)據(jù)并進(jìn)行序列對比, 并以Distimakequinquefolius和Operculinamacrocarpa為外類群構(gòu)建系統(tǒng)進(jìn)化樹, 結(jié)果顯示, 葉菜型甘薯與甘薯四倍體野生種Ipomoeatabascana和甘薯二倍體野生種Ipomoeatrifida聚為一類. Srisuwan等[24]通過細(xì)胞遺傳學(xué)方法認(rèn)為甘薯栽培種與野生種Ipomoeatrifida具有更為密切關(guān)系,Ipomoeatrifida是甘薯栽培種和四倍體Ipomoeatabascana的祖先, 與葉綠體基因組進(jìn)化相一致. 有研究表明, 番薯屬植物Ipomoeapurpurea與其近緣種Ipomoeaalba和Ipomoeanil在花青素合成基因中有約1%的核苷酸多態(tài)性, 符合分子進(jìn)化的標(biāo)準(zhǔn)中性模型[25]. 甘薯種內(nèi)SNP分析結(jié)果表明, 甘薯葉綠體基因組總長度有所差異, ‘徐薯18號’的葉綠體基因組長度為161 303 bp[26], 甘薯‘clm’及其對照分別為161 393 bp和161 429 bp[27], 甘薯葉綠體基因中存在單核苷酸突變, 也存在長片段替換、 缺失和插入, 這些堿基差異有些是位于編碼區(qū)基因matK,rpoC2,psaB,accD,rbcL中, 其中matK和rbcL是植物DNA條形碼的核心序列[28], 另外一些編碼基因是否可以成為番薯屬的DNA條形碼有待更多數(shù)據(jù)的支持.