李佳彬,黃 蕾,張雅楠,賈媛媛,田蕓蕓,張 雷,黨振華
(1. 內(nèi)蒙古大學(xué)生態(tài)與環(huán)境學(xué)院 / 蒙古高原生態(tài)與資源利用教育部重點實驗室 / 內(nèi)蒙古草地生態(tài)學(xué)重點實驗室,內(nèi)蒙古 呼和浩特010021;2. 內(nèi)蒙古大學(xué)生命科學(xué)學(xué)院 / 牧草與特色作物生物技術(shù)教育部重點實驗室,內(nèi)蒙古 呼和浩特 010021;3. 內(nèi)蒙古自治區(qū)林業(yè)科學(xué)研究院,內(nèi)蒙古 呼和浩特 010010;4. 內(nèi)蒙古大青山森林生態(tài)系統(tǒng)定位觀測研究站,內(nèi)蒙古 呼和浩特 010010)
剛毛檉柳(Tamarix hispida)是中亞的廣布木質(zhì)鹽生植物,是檉柳科(Tamaricaceae)檉柳屬(Tamarix)最耐鹽堿的種類之一,常分布于我國荒漠或半荒漠地帶的鹽土或低濕沙區(qū)[1]。它不僅在水土保持、防風(fēng)固沙和綠化造林方面具有重要的生態(tài)價值,豐富的營養(yǎng)與化學(xué)成分還賦予其很高的藥用和經(jīng)濟價值[2-3]。目前對剛毛檉柳的研究主要集中在形態(tài)解剖[4]、群落生態(tài)[5]、生理生態(tài)[6-7]、植物化學(xué)[8]、分子生態(tài)[9-10]等方面。然而,作為荒漠地區(qū)的主要資源樹種,對其適應(yīng)生境的內(nèi)在分子基礎(chǔ)還知之甚少,亟需深入了解和研究,以進一步挖掘蘊藏在該物種中的特有遺傳資源。
SSR (simple sequence repeat),即簡單序列重復(fù),指重復(fù)基序為1~6 個核苷酸的串聯(lián)重復(fù)序列,廣泛分布于真核生物基因組中,每隔10~15 kb 就存在1 個SSR 位點[11]。目前,SSR 分子標(biāo)記已被用于遺傳圖譜的構(gòu)建、遺傳多樣性分析、品種鑒定及分子育種等研究領(lǐng)域[12-14]。依據(jù)SSR 在基因組中的分布,可將其分為基因組SSR 和表達序列標(biāo)簽SSR(EST-SSR)[15]。基因組SSR 位于基因組非編碼區(qū),通常情況下,等位基因數(shù)目及多態(tài)性均相對較高,而EST-SSR 由于位于基因編碼序列內(nèi)部,具有相對保守的特點。大量研究表明,EST-SSR 的變異能改變基因的活性或調(diào)節(jié)基因表達,故常與基因的功能密切相關(guān),可影響相關(guān)的生物和細胞過程,如蛋白質(zhì)結(jié)構(gòu)、傳感和信號傳遞及基因轉(zhuǎn)錄等[16-17]。例如,編碼區(qū)(CAG/CTG)n 重復(fù)的擴增或減縮可導(dǎo)致蛋白質(zhì)錯誤折疊或基因表達異常[18];(CCTG/CAGG)n 重復(fù)與復(fù)制起點的距離可能在決定這些重復(fù)序列的遺傳不穩(wěn)定性方面發(fā)揮重要作用[19];(GAA/TTC)n 重復(fù)可形成三聚體,相關(guān)結(jié)構(gòu)被稱為“粘性DNA”,在模板上捕獲RNA 聚合酶,從而阻斷轉(zhuǎn)錄延伸[20-21]。因此,EST-SSR 可能是生物體適應(yīng)環(huán)境變化的分子裝置[22],鑒定和深入分析多態(tài)EST-SSRs 的功能可為探索植物適應(yīng)性進化機制提供新見解[23-24]。
CandiSSR 是一款近年開發(fā)的多態(tài)性微衛(wèi)星識別軟件,可同時比較相同或近緣物種多個樣本的基因組或轉(zhuǎn)錄組序列,進行大規(guī)模多態(tài)性SSR 的識別及分析[25]。本研究通過轉(zhuǎn)錄組測序構(gòu)建了5 個不同樣地剛毛檉柳的基因序列集,利用CandiSSR 軟件系統(tǒng)識別了該物種多態(tài)EST-SSR 位點;隨后對所識別多態(tài)SSR 的數(shù)目、類型、出現(xiàn)頻率、基因中的位置及關(guān)聯(lián)基因的功能進行了全面分析;經(jīng)驗證,從15 個隨機挑選的SSR 中共開發(fā)出13 個多態(tài)性SSR 標(biāo)記。本研究可為進一步鑒定由EST-SSRs 變異驅(qū)動的該物種生境適應(yīng)機制提供素材,為開展其遺傳多樣性評價和種植資源開發(fā)奠定基礎(chǔ)。
2019 年9 月,在內(nèi)蒙古阿拉善盟額濟納旗采集了5 個樣地剛毛檉柳(Tamarix hispida)的幼嫩葉片,詳細采樣地點的地理信息如表1 所列。每個樣地中每隔5~10 m 采集20~24 個個體。樣本采集后裝入凍存管,并迅速置于液氮速凍,帶回實驗室備用。
1.2.1 總RNA 提取及質(zhì)量檢測
每個樣地選擇1 株植物用于總RNA 的提取。使用RNA plant plus 植物總RNA 提取試劑(DP437,天根生化科技有限公司,北京)進行。利用1%瓊脂糖電泳和超微量紫外分光光度計(NanoDrop 2000c,賽默飛世爾,美國)檢測總RNA 的質(zhì)量。檢測合格后的RNA 樣本置于干冰中寄送至安諾基因(安諾優(yōu)達基因科技有限公司,北京)。
表 1 5 個剛毛檉柳種群的地理位置信息Table 1 Location information for five Tamarix hispida populations
1.2.2 cDNA 文庫構(gòu)建及轉(zhuǎn)錄組測序
利用安捷倫2100 RNA Nano 6000 Assay Kit (Agilent Technologies, 美國) 對RNA 樣本進行完整性檢測,RNA 完整值(RNA integrity number,RIN)達到7.0 以上。然后由測序公司進行測序文庫構(gòu)建,簡要流程為:用帶有Oligo(dT) 的磁珠富集mRNA,向得到的mRNA 中加入片段緩沖液使其成為短片段,再以片斷后的mRNA 為模板,用六堿基隨機引物合成cDNA第一鏈。構(gòu)建好的文庫利用Illumina HiSeqTM4000測序平臺進行測序。
1.2.3 轉(zhuǎn)錄組de novo 組裝及注釋
對原始序列進行過濾得到質(zhì)量較高的Clean Reads,隨后采用Trinity (v2.4.0)分別對5 個樣本的Clean Reads 進行de novo 組裝,得到每個樣本轉(zhuǎn)錄組的Unigenes,然后進一步將各轉(zhuǎn)錄組Unigenes 進行拼接和去冗余,得到非冗余All-Unigenes。通過Blast、HmmScan、SignalP、TmHMMP 等 工 具 對All-Unigenes 進行功能注釋,采用Trinotate (v3.0.2)整合功能注釋信息。利用TransDecoder (v3.0.1)對unigene的編碼區(qū)進行鑒定,確定蛋白質(zhì)編碼序列(CDS)。
1.2.4 多態(tài)SSR 位點識別與定位
利 用 CandiSSR (https://github.com/xiaenhua/CandiSSR)識別5 個剛毛檉柳轉(zhuǎn)錄組中的多態(tài)性SSRs[25]。篩選標(biāo)準:包含2、3、4、5、6 重復(fù)單元的SSR 至少出現(xiàn)次數(shù)分別是6、5、5、4 和4 次。對于具有全長CDSs 的Unigenes,可根據(jù)SSRs 與相應(yīng)基因起始(ATG) 和終止(TAA、TAG、TGA) 密碼子的相對位置來分析SSRs 的位置。對于組裝為非全長CDSs 的Unigenes,通 過BLAST(http://blast.ncbi.nlm.nih.gov/Blast.cgi)識別Genbank 中的全長同源基因,然后根據(jù)其在查詢序列中的位置預(yù)測SSRs 的位置。對于識別出的SSR,采用Primer 3.0 進行引物批量設(shè)計,設(shè)計原則:①引物長度18~24 bp;②退火溫度在53~62 ℃;③PCR 產(chǎn)物長度100~200 bp;④GC含量在40%~60%。
1.2.5 DNA 提取及多態(tài)SSR 標(biāo)記開發(fā)
利用植物基因組DNA 試劑盒(DP305,天根生化科技有限公司,北京)從30 個剛毛檉柳樣本中提取基因組DNA,并用1% 瓊脂糖凝膠電泳和NanoDrop 2000c (賽默飛世爾,美國)進行DNA 質(zhì)量及濃度的檢測。隨機挑選15 個多態(tài)SSR 位點進行驗證,PCR 擴增引物由擎科新業(yè)生物技術(shù)有限公司(北京)合成。
使用ABI2720 PCR 儀進行PCR 擴增,選擇25 μL反應(yīng)體系:50 ng·μL-1DNA 模板1 μL,12.5 μL Premix Taq (寶生物工程有限公司,大連),上、下游引物各0.5 μL(10 μmol·L-1),10.5 μL 的ddH2O。PCR 擴增程序:94 ℃預(yù)變性5 min;94 ℃變性30 s,退火30 s,72 ℃延伸30 s,30 個循環(huán);72 ℃ 10 min 終止反應(yīng)。擴增產(chǎn)物用2% 瓊脂糖檢測。對于擴增成功的引物,在5′端加入3 種熒光染料(6-carboxy-fluorescine,hexachloro-6-carboxy-fluorescine,6-carboxy-X-rhodamine)中的一種進行標(biāo)記,然后用相同的PCR 程序?qū)λ袡z測個體再次擴增,結(jié)果在ABI 3 730 DNA 分析儀(Applied Biosystems,北京) 上分析,毛細管電泳的內(nèi)標(biāo)為GS500LIZ。從上述驗證成功的引物中,選擇5 對引物(TR25868、TR19384、TR18283、TR23634、TR23597)的PCR 產(chǎn)物,依次進行2% 瓊脂糖凝膠電泳、凝膠回收及DNA 片段純化(愛思進生物技術(shù)有限公司,杭州),將回收產(chǎn)物與pMD19-T 載體(寶生物工程有限公司,大連)連接并轉(zhuǎn)化大腸桿菌(全式金生物技術(shù)有限公司,北京),經(jīng)菌液PCR 鑒定后,選取陽性克隆送至擎科新業(yè)生物技術(shù)有限公司(北京)進行測序。
1.2.6 數(shù)據(jù)處理
采用GeneMarker (v2.6)對毛細管電泳峰圖進行基因型判讀及基因型統(tǒng)計,每個位點用GenAlEx(v6.5)對等位基因數(shù)(Na)、觀測雜合度(Ho)和期望雜合度(He)進行計算,然后用PowerMarker (v3.0)測量多態(tài)性信息含量(PIC)。通過GenePop (v4.7)查看各位點是否偏離哈迪-溫伯格平衡和連鎖不平衡。
經(jīng)測序,5 個樣本的Clean Reads 最小為44 180 102條,最大47 575 708 條,平均Q30為93.13%。對上述Clean Reads 進行組裝后,每個個體分別獲得超過31 000 條Unigenes,平均長度范圍在1 043.24~1 139.67 bp,平均N50為1 913~1 970 bp (表2)。進一步組裝和去冗余后,共得到72 661 條All-Unigenes,總長度為65 674 878 個核苷酸,平均長度為903.85 bp,平均GC 含量為40.62%,N50長度為1 578 bp。
在5 個剛毛檉柳轉(zhuǎn)錄組中,共鑒定到1 187 個多態(tài)性SSRs 位于1 123 個基因序列中,共有154 個SSR 重復(fù)單元類型,二、三、四、五、六核苷酸重復(fù)出現(xiàn)頻率有較大差異(圖1)。最常見的SSRs 是三核苷酸重復(fù)類型,共646 個(54.42%),最豐富的重復(fù)序列類型有AGC/GCT(105,16.25%)、AAT/ATT(89,13.78%)、AAG/CTT (85,13.16%)等;其次是二核苷酸重復(fù),有447 個(37.66%),主要基元以AG/CT (217,48.55%)和AT/AT(177,39.60%)為主;四、五、六核苷酸重復(fù)類型的數(shù)量較少,占總SSRs 的7.92%,3 種重復(fù)類型分別以ATAA/TTAT(8,22.86%)、AAATA/TATTT(8,33.33%)、CCCTCT/AGAGGG (5,14.29%)為主。
表 2 測序數(shù)據(jù)產(chǎn)出與組裝結(jié)果Table 2 Sequencing outputs and assembly results
圖 1 SSR 重復(fù)類型及頻率示意圖Figure 1 Diagram of SSRs' motif types and frequencies
在多態(tài)SSR 對應(yīng)的Unigene 中,有856 個與公共數(shù)據(jù)庫中的已知蛋白質(zhì)有同源比對結(jié)果。887 個SSRs 分別位于829 個Unigenes 的編碼區(qū)(CDSs)和非翻譯區(qū)(UTRs) 內(nèi)。其中500 個位于CDSs 中,176 個位于3′UTRs,211 個位于5′UTRs。三核苷酸重復(fù)序列(91.40%)多位于CDSs 區(qū),AGC/GCT 相對豐富;二核苷酸多位于UTRs,在3′UTRs 中占61.93%,其中AT/AT 相對豐富;5′UTRs 中占62.56%,AG/CT相對豐富(圖2)。
圖 2 SSR 分布分析圖Figure 2 Simple sequence repeat distribution analysis diagram
GO 功 能 注 釋 顯 示,含685 個SSRs 的635 條Unigenes 與GO 數(shù)據(jù)庫中的5 582 個功能基因有比對結(jié)果(圖3)。它們被劃分為3 大類,分別為2 428個生物過程(43.50%)、1 253 個細胞組分(22.44%)和1 901 個分子功能(34.06%)。進一步將三大功能細分為1 248 種亞類。其中,生物過程包括743 個功能亞類。“調(diào)節(jié)轉(zhuǎn)錄”(regulation of transcription)類別在3′UTRs 與5′UTRs 內(nèi)含有SSR 的Unigene 中所占比例最大,分別占GO 注釋總Unigene 的5.82%和8.27%;“轉(zhuǎn) 錄”(transcription) 類 別 在CDSs 含 有SSR 的Unigene 中最多(占10.17%);細胞組分包括161 個功能亞類,代表性功能為“細胞核”(nucleus),分別在3′UTRs、5′UTRs、CDSs 中 含 有SSR 的Unigene 中占20.59%、19.01%和29.77%;分子功能包括344 個功能亞類。“轉(zhuǎn)錄因子活性”(transcription factor activity)類別在3′UTRs (10.63%)及CDSs (13.99%)含有SSR的Unigene 中 最 多,“ATP 結(jié) 合”(ATP binding)在5′UTRs (8.80%)含有SSR 的Unigene 中最多。
KEGG 注釋分析顯示,120 條含有多態(tài)SSR 的Unigenes 參與到110 個通路中。對于包含多態(tài)SSR的5′UTRs、CDSs 和3′UTRs,參與最多的是“代謝途徑”(metabolic pathways),分別在5′UTRs、CDSs 和3′UTRs 含有SSR 的Unigene 中占13.08%、12.60%和11.76%。其次是“植物激素信號轉(zhuǎn)導(dǎo)”(plant hormone signal transduction),分別在5′UTRs、CDSs 和3′UTRs含有SSR 的Unigene 中占8.41%、11.02%和7.06%。
利用1 187 個多態(tài)SSRs 的側(cè)翼序列,成功為1 182 個SSRs 設(shè)計出了PCR 擴增引物。在隨機選取的15 個多態(tài)SSRs 引物中,13 個成功擴增出多態(tài)位點(表3)。為進一步驗證多態(tài)SSR 的可信度,選擇上述成功擴增的5 個位點,分別進行了SSR 片段的回收、克隆及測序。結(jié)果如圖4 所示,測序結(jié)果(圖4C)與基于高通量測序組裝的基因序列(圖4A)完全吻合,且利用CandiSSR 識別到的SSR 重復(fù)單元變異與毛細管電泳檢測到的多態(tài)性一致(圖4B)。同時發(fā)現(xiàn),個別SSR重復(fù)內(nèi)存在堿基替換事件,例如:TH7_DN13421、TR_25868_G7:A→C(圖4A);TR_25868_G16:G→C(圖4C)。
圖 3 含有多態(tài)SSR 位點基因序列的GO 功能注釋結(jié)果Figure 3 Results of the gene ontology function annotation of the polymorphic SSR-containing sequence
在這些SSR 中,共檢測到73 個等位基因,每個位點得到3~8 個等位基因(平均5.615 個)。期望雜合度(He) 的范圍為0.301~0.786,觀測雜合度(Ho)的范圍為0.133~0.800,均值分別為0.619 和0.476。多態(tài)性信息含量(PIC)值范圍為0.283~0.744,平均值為0.565 (表3),所有位點均符合哈迪-溫伯格平衡(P > 0.05),且未檢測到連鎖不平衡現(xiàn)象。
高通量測序技術(shù)極大推進了獲得非模式物種基因序列的速度。利用這些數(shù)據(jù),再結(jié)合一些生物信息學(xué)軟件(MISA[26]和SSR Finder[27]等),研究人員可快速識別出相應(yīng)物種數(shù)以千計的SSR 位點。無論開展種群遺傳學(xué)研究還是對特定SSR 的功能進行分析,首先都要得到一組多態(tài)性的SSR 標(biāo)記。然而,對基于高通量測序數(shù)據(jù)的海量SSR 鑒定多態(tài)性,仍然是該標(biāo)記技術(shù)應(yīng)用和研究的瓶頸[24]。本研究通過構(gòu)建相同物種不同分布區(qū)個體的轉(zhuǎn)錄組數(shù)據(jù)集,利用CandiSSR 在5 個剛毛檉柳轉(zhuǎn)錄組中共識別出1 187個多態(tài)性SSRs,隨機挑選的15 對引物中有13 個為多態(tài)性SSR 標(biāo)記,成功率近87%,大大提高了該物種多態(tài)性SSR 標(biāo)記開發(fā)的效率。遺傳參數(shù)分析表明,這些SSR 的平均PIC 為0.565,平均He 為0.619,平均Ho 為0.476,呈現(xiàn)高度多態(tài)性,可用于該物種后續(xù)的種群遺傳學(xué)和適應(yīng)進化研究。同時,本研究所識別的SSR 數(shù)目高于用相同軟件鑒定的南北兩地區(qū)銀縷梅(Parrotia subaequalis)的497 個SSRs[28]、四合木(Tetraena mongolica)的881 個SSRs[29],低于茶樹(Camellia)鑒定的1 663 個SSRs[30],一定程度反映了該物種SSR 變異相對豐富及不同物種SSR 含量的差異。當(dāng)然,這一差異也可能是因檢測個體數(shù)、識別參數(shù)不同造成。在剛毛檉柳多態(tài)SSR 中,三核苷酸出現(xiàn)頻率最高(46.93%),且91.40%的三核苷酸重復(fù)位于CDSs 中,這與荔枝(Litchi chinensis)和刺梨(Rosa roxburghii)的研究結(jié)果相符[31-32]。這可能是因為密碼子由3 個核苷酸構(gòu)成,若在編碼區(qū)發(fā)生突變,將引起最輕的蛋白質(zhì)序列突變[33]。在本研究中,CDSs 中的SSRs 表現(xiàn)出對三核苷酸的強烈偏倚性,最豐富的三核苷酸重復(fù)為AGC/GCT,其次是AGG/
CCT、ACC/GGT、ATC/GAT 和AAG/CTT。這與Sonah等[34]認為的AAG、AAC、ATC、AGC、AGG 和ACG重復(fù)是雙子葉植物外顯子中最常見SSR 類型的觀點一致,一定程度反映了本研究SSR 頻率分析的正確性。
表 3 開發(fā)多態(tài)EST-SSR 標(biāo)記的信息Table 3 Detailed information of the developed polymorphic EST-SSR markers
剛毛檉柳生態(tài)幅較廣,不同分布區(qū)的水分、溫度、地形、土壤屬性等均存在較大差異,不同生境下的種群很可能進化出不同的適應(yīng)機制。張娟等[35]用隨機擴增多態(tài)性DNA (random amplified polymorphic DNA, RAPD)方法描述了分布在新疆的9 個剛毛檉柳居群的遺傳分化及遺傳結(jié)構(gòu);張道遠等[5]分析了剛毛檉柳在不同干旱情況下脯氨酸及可溶性糖含量的不同。EST-SSR 可能是生物快速適應(yīng)外界環(huán)境變化的分子裝置[36]。本研究共鑒定出1 187 個多態(tài)SSR 分布在1 123 個轉(zhuǎn)錄本,它們可能在剛毛檉柳局部適應(yīng)過程中發(fā)揮重要作用。在含有SSR 的序列中,267 個Unigenes 與公共數(shù)據(jù)庫中的已知基因沒有比對結(jié)果,可能代表了該物種獨有的遺傳資源。編碼區(qū)SSR 的變異可引起基因功能的獲得或喪失,5′UTRs 中SSR 的變異可影響基因的轉(zhuǎn)錄和翻譯,3′UTR 的SSR 則影響mRNA 的剪接[37]。對剛毛檉柳含EST-SSR 基因的GO 和KEGG 功能注釋發(fā)現(xiàn),它們主要歸類于“調(diào)節(jié)轉(zhuǎn)錄”、“轉(zhuǎn)錄因子活性”、“序列特異性DNA 結(jié)合”等GO 條目,“代謝途徑”和“植物激素信號轉(zhuǎn)導(dǎo)”等KEGG 代謝通路,一定程度反映了該植物在適應(yīng)不同生境時,眾多生物過程和代謝通路的基因很可能發(fā)生了較高頻率的變異或表達的調(diào)節(jié),且EST-SSRs 的變異可能在這一過程中發(fā)揮重要作用。