李健玲,秦 波,黃 欣,蔣日紅,孫 苗,梁圣華,黃耀恒,韋廣綏
(1.廣西壯族自治區(qū)林業(yè)科學(xué)研究院,廣西特色經(jīng)濟(jì)林培育與利用重點(diǎn)實(shí)驗(yàn)室,廣西 南寧530002;2.北京林業(yè)大學(xué),國(guó)家花卉工程技術(shù)研究中心,北京 100083;3.廣西國(guó)有高峰林場(chǎng),廣西 南寧 530025)
海菜花(Ottelia acuminata)屬水鱉科水車前屬多年生沉水植物,為中國(guó)特有種,國(guó)家二級(jí)保護(hù)植物。該植物對(duì)水質(zhì)要求較高,是一種環(huán)境指示性植物,主要分布區(qū)域?yàn)閺V東、海南、廣西、四川、貴州、云南等地[1]。海菜花是一種典型的高鉀低鈉型蔬菜,含有鈣、鐵、蛋白質(zhì)、抗壞血酸、酚類等豐富的營(yíng)養(yǎng)物質(zhì),具有較高的食用價(jià)值;其中酚類物質(zhì)是天然的抗氧化劑,對(duì)DNA 損傷有良好的修復(fù)作用。另一方面,海菜花還能富集重金屬元素鉛,具有一定的生態(tài)修復(fù)價(jià)值[2-3]。目前,關(guān)于海菜花的研究多集中在栽培[4-5]、進(jìn)化和遺傳學(xué)分析[6-7]、化學(xué)成分分析[3]等方面,其分子水平的研究?jī)H有葉綠體基因組的報(bào)道[8]。
分子生物學(xué)技術(shù)在植物領(lǐng)域尤其是農(nóng)作物方面應(yīng)用的較早且深入,但是在水生植物及藥用植物上的研究報(bào)道仍然有限。高通量轉(zhuǎn)錄組作為初步掌握代謝通路和生物合成基因信息的一個(gè)手段,在許多物種中已經(jīng)得到了廣泛的應(yīng)用。為了彌補(bǔ)海菜花轉(zhuǎn)錄組上的空白,研究對(duì)海菜花葉片進(jìn)行轉(zhuǎn)錄組測(cè)序,挖掘其重要基因和調(diào)控信息,以期為海菜花功能基因和遺傳多樣性分析及分子育種奠定基礎(chǔ)。
采集新鮮的海菜花葉片,并立即投入液氮中保存。
使用Trizol 法對(duì)海菜花的RNA 進(jìn)行提取。利用Illumina TruSeqTM RNA sample prep Kit(Illumina,美國(guó))方法構(gòu)建海菜花的RNA 文庫(kù),首先使用帶有Oligo(dT)的磁珠對(duì)帶有polyA 尾巴的mRNA 進(jìn)行富集,并用超聲波將mRNA 進(jìn)行片段化打斷。加入隨機(jī)寡核苷酸為引物,在M-MuLV 逆轉(zhuǎn)錄酶體系下反轉(zhuǎn)合成第一條鏈的cDNA,之后用RNaseH 清除反應(yīng)中的RNA,在DNA polymerase I 體系下,以dNTPs 為原料進(jìn)行cDNA 第二條鏈的合成。對(duì)合成后的雙鏈cDNA 進(jìn)行純化、末端修復(fù)、加A 尾以及連接測(cè)序接頭,利用AMPure XP beads 對(duì)處理過(guò)的雙鏈cDNA 進(jìn)行篩選,挑出200 bp 左右的片段進(jìn)行擴(kuò)增,之后對(duì)得到的PCR 產(chǎn)物進(jìn)行純化,最終產(chǎn)物即為文庫(kù)。
利用瓊脂糖凝膠電泳、NanoPhotometer spectrophotometer、Qubit2.0 Fluorometer、Agilent 2100 bioanalyzer 對(duì)RNA 的質(zhì)量進(jìn)行檢驗(yàn),樣品合格后進(jìn)行測(cè)序。在測(cè)序的flow cell 中加入不同標(biāo)記的4 種dNTP 以及DNA 聚合酶和接頭引物,當(dāng)測(cè)序鏈在延伸互補(bǔ)的時(shí)候,每個(gè)dNTP 會(huì)發(fā)出相應(yīng)的熒光,從而被測(cè)序儀捕捉獲得序列信息。
海菜花的RNA 提取、文庫(kù)構(gòu)建及測(cè)序均由上海凌恩生物科技有限公司完成。
使用Trimmomatic 對(duì)原始測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控,Trinity 進(jìn)行轉(zhuǎn)錄組拼接,并使用Salmon 進(jìn)行拼接數(shù)據(jù)的比對(duì),之后使用Diamond 對(duì)測(cè)序數(shù)據(jù)進(jìn)行NR數(shù)據(jù)庫(kù)、KEGG 數(shù)據(jù)庫(kù)、Swiss-Port 數(shù)據(jù)庫(kù)的注釋,利用eggNOG-mapper 進(jìn)行eggNOG 數(shù)據(jù)庫(kù)和GO 數(shù)據(jù)庫(kù)的注釋。
對(duì)海菜花的葉片進(jìn)行轉(zhuǎn)錄組測(cè)序,共檢測(cè)到26 658 026 條reads,共計(jì)3 998 703 900 個(gè)堿基。對(duì)原始數(shù)據(jù)進(jìn)行質(zhì)控進(jìn)一步去除reads 中的接頭序列、質(zhì)量較低的堿基以及短序列后,得到clean data 的reads 有 26 497 174 條,共計(jì)3 961 376 102 個(gè)堿基,其中Q20%高達(dá)98.90%,Q30%高達(dá)96.19%,GC含量占比為50.57%,表明海菜花轉(zhuǎn)錄組數(shù)據(jù)質(zhì)量較高,可以開展后續(xù)的數(shù)據(jù)分析。
由于海菜花沒(méi)有參考基因組,因此利用Trinity(2.8.6)對(duì)clean data 進(jìn)行從頭組裝,得到組裝后的unigene 有27 040 條,長(zhǎng)度為27 761 688 bp,最長(zhǎng)的unigene 有12 094 bp,N50 為1 340 bp,平均unigene 為1 026.69 bp,其中N50 高于平均長(zhǎng)度說(shuō)明組裝效果較好。同時(shí),將測(cè)序獲得的高質(zhì)量序列與拼接序列進(jìn)行比對(duì),比對(duì)率達(dá)到86.89%,也表明拼接效果較好。在得到的unigene 中,401~600 bp 的序列長(zhǎng)度占比最大,達(dá)到7 134 條(26.38%),序列長(zhǎng)度分布見圖1。
圖1 海菜花unigene 長(zhǎng)度分布
將獲得的27 040 條unigene 分別與不同數(shù)據(jù)庫(kù)進(jìn)行比對(duì),結(jié)果如圖2 所示。有18 910 條unigene分別被NR、GO、COG、KEGG、SWISS 這5 大數(shù)據(jù)庫(kù)注釋到,占unigene 總數(shù)的69.93%。其中,NR數(shù)據(jù)庫(kù)比對(duì)到的unigene 最多,有18 874 條,占總數(shù)的69.80%;其次是SWISS 數(shù)據(jù)庫(kù),比對(duì)到14 020條unigene,占總數(shù)的51.85%;第三是COG 數(shù)據(jù)庫(kù),比對(duì)到13 531 條unigene,占總數(shù)的50.04%;KEGG 數(shù)據(jù)庫(kù)比對(duì)到的unigene 數(shù)量最少,為7 552條,占總數(shù)的27.93%;在所有數(shù)據(jù)庫(kù)中均比對(duì)到的unigene 有4 819 條,占總數(shù)的17.82%,推測(cè)為新基因。
圖2 海菜花unigene 在各數(shù)據(jù)庫(kù)的注釋結(jié)果
NR數(shù)據(jù)庫(kù)的功能注釋能夠了解海菜花轉(zhuǎn)錄組中序列與哪些物種有同源分布。由圖3 可知,海菜花與搖蚊(Clunio marinus)比對(duì)到的同源序列最多,為2 622 條,占所有比對(duì)到序列的13.89%;其次是油棕(Elaeis guineensis),達(dá)到2 062 條,占10.93%;海棗(Phoenix dactylifera)中比對(duì)到1 646條,占8.72%;另外,芋(Colocasia esculenta)、大葉藻(Zostera marina)、蓮(Nelumbo nucifera)、鳳梨(Ananas comosus)、小果野蕉(Musa acuminatasubsp.malaccensis)、沉水樟變型(Cinnamomum micranthumf.kanehirae)、石刁柏(Asparagus officinalis)中 分 別 比 對(duì) 到1 435、947、750、637、570、570、544 條,分別占比7.60%、5.02%、3.97%、3.38%、3.02%、3.02%、2.88%;而其他物種中比對(duì)到的序列數(shù)均低于500 條,總數(shù)達(dá)7 091 條,占比為37.57%。
圖3 海菜花unigene 在NR 數(shù)據(jù)庫(kù)中比對(duì)到的同源序列排名前10 的物種
由圖4 可知,海菜花轉(zhuǎn)錄組數(shù)據(jù)在COG 數(shù)據(jù)庫(kù)中共比對(duì)到unigene 13 531 條,但功能未知的基因占多數(shù),排在KOG 預(yù)測(cè)的第1 位,表明海菜花中有許多序列還未得到有效的驗(yàn)證和研究;其中,轉(zhuǎn)錄后修飾、蛋白質(zhì)轉(zhuǎn)換、伴侶蛋白(O:Posttranscriptional modification,protein turnover,chaperones),信號(hào)傳導(dǎo)機(jī)制(T:Signal transduction mechanisms),翻譯、核糖體結(jié)構(gòu)與生物發(fā)生(J:Translation,ribosome structure and biogenesis),RNA轉(zhuǎn)錄和修飾(A:RNA processing and modification)分別排在KOG 預(yù)測(cè)的第2~5 位,代表了海菜花生長(zhǎng)發(fā)育和信號(hào)轉(zhuǎn)導(dǎo)中基本過(guò)程活動(dòng)比較活躍。
圖4 海菜花葉片轉(zhuǎn)錄組COG 功能注釋
在GO 注釋中,海菜花共注釋到10 505 條unigene,分為生物過(guò)程(biological process)、細(xì)胞組分(cellular component)和分子功能(molecular function)3 個(gè)大類和43 個(gè)功能亞類(圖5)。生物過(guò)程注釋到的unigene 最多,亞類中細(xì)胞進(jìn)程和代謝過(guò)程中unigene 數(shù)量最多,而碳利用和生物礦化所占比例最少。在分子功能中,催化活性和結(jié)合比對(duì)到的unigene 數(shù)量最多,蛋白標(biāo)簽、運(yùn)貨受體活性、養(yǎng)分庫(kù)活性和小分子傳感器活性比對(duì)到的數(shù)量較少。在細(xì)胞組分中包括了4 個(gè)亞類,最高的為細(xì)胞解刨學(xué)實(shí)體,最少的為其他器官部分。
圖5 海菜花葉片轉(zhuǎn)錄組GO 注釋結(jié)果
為了研究基因具體的功能,對(duì)海菜花轉(zhuǎn)錄組中的unigene 進(jìn)行KEGG 通路分析,共分為5 大類和20 個(gè)亞類(圖6)。第1 大類代謝過(guò)程中比對(duì)到的unigene 數(shù)量最多,包括11 個(gè)亞類,全局和概述圖譜比對(duì)到的數(shù)量最多,達(dá)4 678 條unigene,其次是碳水化合物代謝,比對(duì)上1 047 條unigene,氨基酸代謝、能量代謝、酯類代謝分別比對(duì)到587、498、486 條,表明在細(xì)胞過(guò)程中關(guān)于代謝的基因較多。第2 大類是遺傳信息處理,包括5 個(gè)亞類,翻譯過(guò)程中比對(duì)到的unigene 最多,達(dá)到784 條,其次是折疊、分類和降解,比對(duì)到662 條,病毒信息中比對(duì)到的數(shù)量最少,為46 條。第3 大類為環(huán)境信息處理,包括2 個(gè)亞類,分別為信號(hào)轉(zhuǎn)導(dǎo)(比對(duì)到309條)和膜轉(zhuǎn)運(yùn)(比對(duì)到25 條)。第4 大類為細(xì)胞過(guò)程,包括2 個(gè)亞類,為運(yùn)輸和分解代謝(比對(duì)到427 條)和細(xì)胞運(yùn)動(dòng)(比對(duì)到84 條)。最后1 類為有機(jī)系統(tǒng),僅包含1 個(gè)亞類,為環(huán)境適應(yīng),比對(duì)到200 條unigene。
圖6 海菜花葉片轉(zhuǎn)錄組KEGG 注釋分類統(tǒng)計(jì)
在海菜花轉(zhuǎn)錄組中共檢索到4 217 個(gè)SSR 位點(diǎn),包含了6 種核苷酸重復(fù)類型,具體情況如圖7 所示。單核苷酸重復(fù)數(shù)量最多,為1 518 個(gè),占比為36.00%,A/T 重復(fù)比例最高;其次為三核苷酸重復(fù),有1 437 個(gè),占比為34.08%,且類型較多;雙核苷酸重復(fù)為1 214 個(gè),占比為28.79%,以AG/CT 類型比例最高;四核苷酸位點(diǎn)重復(fù)有34 個(gè),占比為0.81%;六核苷酸位點(diǎn)重復(fù)有9 個(gè),占比為0.21%;五核苷酸位點(diǎn)重復(fù)數(shù)最少,僅5 個(gè),占比0.11%。
圖7 海菜花葉片轉(zhuǎn)錄組SSR 分布情況
海菜花在景觀營(yíng)造、食用和藥用方面有很高的開發(fā)利用價(jià)值。目前,對(duì)水生植物轉(zhuǎn)錄組的研究種類較少,包括圓海鏈藻(Thalassiosira rotula)[9]、蓮(Nelumbo nucifera)[10-11]、齒葉睡蓮(Nymphaea lotus)[12]、東方澤瀉(Alisma orientale)[13]、芡實(shí)(Euryale feroxSalisb.ex Konig et Sims)[14]等,通過(guò)轉(zhuǎn)錄組測(cè)序技術(shù)對(duì)其次生代謝物的合成、花開放規(guī)律、脅迫響應(yīng)和遺傳標(biāo)記等進(jìn)行了深入研究。海菜花在生態(tài)適應(yīng)性上對(duì)環(huán)境的要求較高,且有不同的生態(tài)適應(yīng)類群,次生代謝物豐富,對(duì)其進(jìn)行分子層面的深入研究具有重要意義。
該研究在高通量轉(zhuǎn)錄組測(cè)序技術(shù)的支持下,對(duì)海菜花葉片的轉(zhuǎn)錄組信息進(jìn)行解讀,共檢測(cè)到unigene 27 040 條,其中有18 910 條unigene 在數(shù)據(jù)庫(kù)中比對(duì)上了,獲得了海菜花中大量的基因信息。在NR 數(shù)據(jù)庫(kù)得到了最多的基因注釋,共18 874 個(gè),與植物同源基因比對(duì)最多的是油棕,另外包括芋、大葉藻、蓮和鳳梨等,這些植物類型均屬于濕生環(huán)境,表明海菜花可能在轉(zhuǎn)錄調(diào)控和生態(tài)適應(yīng)方面與濕生植物有相似的基因調(diào)控類型。在KOG 數(shù)據(jù)庫(kù)中,海菜花與已知基因比對(duì)上最多的基因涉及轉(zhuǎn)錄后修飾、蛋白質(zhì)轉(zhuǎn)換、伴侶蛋白等方面。對(duì)基因通路進(jìn)行KEGG 分析,共比對(duì)到7 552 個(gè)unigene,以細(xì)胞過(guò)程比對(duì)到的unigene 最多,且與代謝途徑密切相關(guān);另外,在GO注釋中,生物過(guò)程注釋到的unigene最多,表明在海菜花葉片中新陳代謝活動(dòng)較為旺盛。SSR分析中單核苷酸、雙核苷酸和三核苷酸重復(fù)是主要類型,占比達(dá)98.87%,這些位點(diǎn)的發(fā)現(xiàn)對(duì)海菜花的分子標(biāo)記開發(fā)和利用具有重要價(jià)值,能為植物鑒定、遺傳育種和藥理研究提供直接的證據(jù)。
通過(guò)對(duì)海菜花葉片進(jìn)行高通量轉(zhuǎn)錄組測(cè)序,獲得了大量的基因序列信息和注釋信息,為海菜花的功能基因和遺傳多樣性分析及分子育種奠定了基礎(chǔ),也為海菜花的生態(tài)適應(yīng)性、食用和藥用價(jià)值的進(jìn)一步開發(fā)利用提供了依據(jù)。