賴瑞聯(lián) 沈朝貴 馮新 陳義挺 韋曉霞 吳如健
關(guān)鍵詞:橄欖;轉(zhuǎn)錄組;簡(jiǎn)單重復(fù)序列;單核苷酸多態(tài)性;插入缺失標(biāo)記
中圖分類(lèi)號(hào):S667.5 文獻(xiàn)標(biāo)識(shí)碼:A
橄欖(Canarium album)是我國(guó)熱帶亞熱帶地區(qū)特色果樹(shù),其果實(shí)富含多種營(yíng)養(yǎng)和藥用成分,在我國(guó)福建、廣東、四川、廣西等地區(qū)廣泛栽培。福州市是我國(guó)橄欖最主要的產(chǎn)地之一,“福州橄欖”品牌于2011 年獲得農(nóng)業(yè)部地理標(biāo)志保護(hù)品牌,2017 年品牌價(jià)值評(píng)估達(dá)20.80 億元人民幣,入選全國(guó)農(nóng)產(chǎn)品百?gòu)?qiáng)[1]。福州市傳統(tǒng)栽培的橄欖品種主要包括長(zhǎng)營(yíng)、惠圓、檀香、自來(lái)圓等。其中,長(zhǎng)營(yíng)和惠圓的果實(shí)性狀存在明顯差異,長(zhǎng)營(yíng)可食率約為78.40%,可供鮮食或加工,在長(zhǎng)營(yíng)基礎(chǔ)上選育出了一系列鮮食品種,例如福欖1 號(hào)(光甜)[2]、清欖1 號(hào)[3]、福欖2 號(hào)[4]等;惠圓可食率約為85.20%,因鮮食品質(zhì)較差,主要以加工為主,通過(guò)惠圓選育出了惠圓1 號(hào)[5]、惠圓3 號(hào)[6]等橄欖加工品種。作為我國(guó)特色果樹(shù)產(chǎn)業(yè),品質(zhì)性狀提升是橄欖科研創(chuàng)新的重要命題。目前,在橄欖品種選育[2, 7]、性狀評(píng)價(jià)[8-9]、品質(zhì)模型[10]、遺傳背景[11]等方面都開(kāi)展了大量研究。值得注意的是,橄欖童期較長(zhǎng),開(kāi)發(fā)果實(shí)性狀相關(guān)分子標(biāo)記用于育種材料初步篩選可有效提高種質(zhì)創(chuàng)新和育種效率。而現(xiàn)階段,橄欖果實(shí)性狀形成分子機(jī)制研究及相關(guān)標(biāo)記的開(kāi)發(fā)仍處于空白,限制了橄欖分子輔助育種進(jìn)程。
DNA 分子標(biāo)記鑒定是植物分子輔助育種重要技術(shù)手段,尤其是具有高靈敏度、高特異性的簡(jiǎn)單重復(fù)序列標(biāo)記(simple sequence repeats, SSR)和單核苷酸多態(tài)性標(biāo)記(single nucleotide polymorphism,SNP)在許多植物中得到了有效應(yīng)用。?AHIN 等[12] 篩選了抗霜霉病相關(guān)的向日葵(Helianthus annuus)SSR 標(biāo)記并成功應(yīng)用于向日葵輔助育種;GHARSALLAH 等[13]結(jié)合表型和SSR 標(biāo)記挖掘了番茄(Lycopersicon esculentum)品種耐鹽特性相關(guān)位點(diǎn),有效提高了番茄耐鹽脅迫育種效率;TERAKAMI 等[14]采用SSR 標(biāo)記對(duì)中國(guó)梨(Pyrus ussuriensis)黑斑病易感基因進(jìn)行了定位,為梨抗黑斑病輔助育種提供了重要途徑。
在SNP 開(kāi)發(fā)相關(guān)研究中,TAN 等[15]開(kāi)發(fā)了小麥(Triticum aestivum)抗黑森癭蚊基因的SNP 標(biāo)記,可用于進(jìn)一步指導(dǎo)小麥育種;KIM 等[16]通過(guò)轉(zhuǎn)錄組測(cè)序挖掘了蘿卜(Raphanus sativus)SNP標(biāo)記用于蘿卜種子的鑒定、純度檢測(cè)和親本組合的調(diào)整;FROUIN 等[17]鑒定了水稻(Oryza sativa)預(yù)防砷吸收和積累相關(guān)的SNP 位點(diǎn),為水稻相關(guān)育種提供了參考依據(jù)。目前,橄欖轉(zhuǎn)錄組測(cè)序相關(guān)研究也取得了一定進(jìn)展,為分子標(biāo)記開(kāi)發(fā)奠定了良好的基礎(chǔ)[18]。在前期研究基礎(chǔ)上,本研究基于轉(zhuǎn)錄組數(shù)據(jù)對(duì)具有不同性狀的橄欖品種長(zhǎng)營(yíng)和惠圓的果實(shí)進(jìn)行SSR 和SNP/InDel 特征分析,以期為橄欖果實(shí)性狀相關(guān)分子標(biāo)記開(kāi)發(fā)提供數(shù)據(jù)基礎(chǔ)。
1 材料與方法
1.1 材料
供試材料為長(zhǎng)營(yíng)和惠圓橄欖品種的果實(shí),取自福建省農(nóng)業(yè)科學(xué)院果樹(shù)研究所橄欖種質(zhì)資源圃(26° 07′40″N,119°20′16″E)。以孔祥佳等[19]建立橄欖果實(shí)成熟度評(píng)價(jià)體系為參考標(biāo)準(zhǔn),采集不同品種成熟、健康、無(wú)機(jī)械病蟲(chóng)損傷的果實(shí),充分洗凈后用液氮速凍,并置于超低溫冰箱中保存?zhèn)溆谩?/p>
1.2 方法
1.2.1 RNA提取與檢測(cè) 采用植物多糖多酚試劑盒E.Z.N.A.TM Plant RNA Kit 提取果實(shí)總RNA,采用1.0%瓊脂糖凝膠電泳和Agilent 2100 bioanalyzer(Agilent Technologies, USA)檢測(cè)總RNA的完整性, 隨后利用NanoPhotometer spectrophotometer(IMPLEN, USA)檢測(cè)總RNA 的純度。
1.2.2 文庫(kù)構(gòu)建與質(zhì)檢 取1 μg 橄欖果實(shí)總RNA,采用NEBNext? UltraTM RNA Library Kit試劑盒(Illumina, USA)進(jìn)行建庫(kù)。首先使用Oligo(dT)磁珠富集帶有polyA 尾的mRNA,使用二價(jià)陽(yáng)離子在高溫下在NEBNext 第一鏈合成反應(yīng)緩沖液(5×)中進(jìn)行裂解,使用隨機(jī)寡核苷酸引物和M-MuLV 逆轉(zhuǎn)錄酶體系合成cDNA 第一鏈。隨后使用RNaseH 酶降解RNA 鏈,再通過(guò)DNA 聚合酶I 合成cDNA 第二鏈。純化后的cDNA 進(jìn)行末端修復(fù)、加A 尾、連接測(cè)序接頭,隨后使用AMPure XPbeads 篩選長(zhǎng)度為250~300 bp 的cDNA片段,經(jīng)PCR擴(kuò)增后進(jìn)行PCR 產(chǎn)物純化,最終獲得文庫(kù)。采用Qubit 2.0 Fluorometer(Invitrogen,USA)和Agilent2100 bioanalyzer 進(jìn)行文庫(kù)質(zhì)量檢測(cè),隨后采用qRT-PCR 對(duì)文庫(kù)進(jìn)行定量,篩選有效濃度高于2.0 nmol/L 的文庫(kù)后用于后續(xù)測(cè)序。
1.2.3 RNA 測(cè)序與數(shù)據(jù)組裝 采用TruSeq PECluster Kit v3 cBot HS(Illumina, USA)對(duì)樣本進(jìn)行聚類(lèi),隨后在Illumina Novaseq 平臺(tái)上對(duì)制備的文庫(kù)進(jìn)行測(cè)序,并產(chǎn)生150 bp 配對(duì)末端讀數(shù)。測(cè)序片段的圖像數(shù)據(jù)經(jīng)CASAVA 轉(zhuǎn)化為fastq 格式的序列數(shù)據(jù)文件,去除帶測(cè)序接頭、無(wú)法確定堿基信息以及低質(zhì)量的reads,最終獲得高質(zhì)量的clean reads。隨后采用TRINITY 軟件[20]將cleanreads 拼接成transcripts,再采用CORSET 軟件[21]進(jìn)行層次聚類(lèi)后得到最長(zhǎng)cluster 序列作為unigene用于后續(xù)分析。每個(gè)樣本進(jìn)行3 次生物學(xué)重復(fù)。
1.2.4 SSR 位點(diǎn)鑒定 采用MISA 1.0 軟件[22]篩選和識(shí)別unigene,并對(duì)轉(zhuǎn)錄組SSR 位點(diǎn)進(jìn)行分析,鑒定出單堿基重復(fù)、雙堿基重復(fù)、三堿基重復(fù)、四堿基重復(fù)、五堿基重復(fù)和六堿基重復(fù)等類(lèi)型的橄欖果實(shí)SSR。采用Microsoft Excel 2013 軟件進(jìn)行數(shù)據(jù)分析和圖表制作。
1.2.5 SNP/InDel 分型與特征分析 采用Picardtoolsv1.41 和Samtools v0.1.18 軟件進(jìn)行排序并刪除重復(fù)數(shù)據(jù),同時(shí)合并每個(gè)樣本的校準(zhǔn)結(jié)果,并采用GATK3 軟件v3.4 版本[23]默認(rèn)參數(shù)進(jìn)行SNP位點(diǎn)檢測(cè)和數(shù)據(jù)統(tǒng)計(jì)。
2 結(jié)果與分析
2.1 橄欖果實(shí)的SSR 位點(diǎn)檢測(cè)
2.1.1 SSR 位點(diǎn)數(shù)量 通過(guò)長(zhǎng)營(yíng)和惠圓橄欖品種果實(shí)轉(zhuǎn)錄組測(cè)序, 6 個(gè)測(cè)序樣本平均獲得22 813 726 bp 的raw reads,過(guò)濾后的clean reads為22 019 057 bp,原始數(shù)據(jù)過(guò)濾后的平均堿基數(shù)為6.61 Gb,整體測(cè)序錯(cuò)誤率約為0.02%,Q20 和Q30 分別為98.11%和94.19%,說(shuō)明測(cè)序結(jié)果較好,可用于后續(xù)分析。拼接后,共獲得125 021條轉(zhuǎn)錄本和44 062 條unigenes,這些unigenes 包含54 735 280 bp 核苷酸。采用MISA1.0 對(duì)獲得的unigenes 進(jìn)行SSR 位點(diǎn)鑒定,總共在10 124 條unigenes 上鑒定到13 935 個(gè)SSR 位點(diǎn),發(fā)生頻率為22.98%,平均每1 kb 序列出現(xiàn)0.25 個(gè)SSR 位點(diǎn)。這些SSR 分布的unigenes 中,2657 條序列包含1 個(gè)以上的SSR 位點(diǎn),1072 條序列包含復(fù)合型SSR 位點(diǎn)??梢?jiàn),橄欖果實(shí)轉(zhuǎn)錄組中廣泛分布SSR 位點(diǎn)。
2.1.2 SSR 重復(fù)基元類(lèi)型 橄欖果實(shí)SSR 位點(diǎn)的重復(fù)基元類(lèi)型如表1 所示。SSR 重復(fù)基元類(lèi)型較為豐富,除了含有單堿基重復(fù)到六堿基重復(fù)6 種類(lèi)型,還包含977 種復(fù)雜重復(fù)類(lèi)型。對(duì)單堿基重復(fù)到六堿基重復(fù)的SSR 類(lèi)型進(jìn)一步分析發(fā)現(xiàn),單堿基重復(fù)的SSR 類(lèi)型最多,達(dá)到9308 個(gè),占全部SSR 位點(diǎn)的66.80%,隨著重復(fù)基元堿基數(shù)的增加,類(lèi)型數(shù)量逐漸減少,六堿基重復(fù)的SSR 類(lèi)型僅有65 個(gè),占全部SSR 位點(diǎn)的0.47%。從SSR位點(diǎn)的出現(xiàn)頻率和分布距離來(lái)看,單堿基重復(fù)的SSR 位點(diǎn)類(lèi)型分別為21.12%和5.88 kb,而六堿基重復(fù)的SSR 位點(diǎn)類(lèi)型分別為0.15%和842.08 kb。結(jié)果可見(jiàn),不同重復(fù)基元類(lèi)型的SSR 位點(diǎn)數(shù)目和分布存在較大差異。
2.1.3 SSR 序列長(zhǎng)度分布 不同重復(fù)基元的橄欖果實(shí)SSR 類(lèi)型的序列長(zhǎng)度為10~320 bp,平均長(zhǎng)度為36.19 bp。對(duì)其中單堿基重復(fù)基元到六堿基重復(fù)基元的SSR 序列進(jìn)一步分析發(fā)現(xiàn)(表2),整體上序列長(zhǎng)度為10~72 bp,平均長(zhǎng)度為14.34 bp。其中,長(zhǎng)度差異最大的是單堿基重復(fù)的SSR 類(lèi)型,介于10~64 bp 之間,平均長(zhǎng)度為12.85 bp;差異最小的為五堿基重復(fù)的SSR類(lèi)型,介于25~30 bp之間,平均長(zhǎng)度為25.68 bp。
2.1.4 SSR 優(yōu)勢(shì)重復(fù)基元分布特征 橄欖果實(shí)SSR 位點(diǎn)基元數(shù)量統(tǒng)計(jì)分析結(jié)果如圖1 所示。分布頻率最高的基元分別是A/T(9290個(gè),占比66.67%)、AG/CT(1304 個(gè),占比9.36)、AT/AT(857 個(gè),占比6.15%)、AAT/ATT(421 個(gè),占比3.02%)、AAG/CTT(392 個(gè),占比2.81%)。對(duì)不同SSR 重復(fù)基元類(lèi)型的出現(xiàn)頻數(shù)進(jìn)行分析發(fā)現(xiàn),所有SSR 位點(diǎn)共出現(xiàn)105 種重復(fù)基元,單堿基到六堿基重復(fù)的基元類(lèi)型分別為2、4、10、21、29、39 種。單堿基重復(fù)基元到六堿基重復(fù)基元中的優(yōu)勢(shì)重復(fù)基元分別為A/T、AG/CT、AAT/ATT、AAAT/ATTT ( 65 個(gè), 占比0.47% )、AAGAG/CTCTT (10個(gè), 占比0.07% ) 和AGATGG/ATCTCC(5 個(gè),占比0.04%)。
2.1.5 SSR 各基元類(lèi)型重復(fù)次數(shù) 橄欖果實(shí)SSR位點(diǎn)不同基元類(lèi)型的重復(fù)次數(shù)統(tǒng)計(jì)結(jié)果如圖2 所示。其中,單堿基重復(fù)基元的重復(fù)次數(shù)主要分布在9~12 和13~16 之間,分別占SSR 位點(diǎn)總數(shù)的41.69%和17.22%,占單堿基重復(fù)基元總數(shù)的62.42%和25.77%;雙堿基到六堿基重復(fù)基元的重復(fù)次數(shù)均主要集中在5~8,分別占對(duì)應(yīng)重復(fù)基元總數(shù)的68.67%、93.55%、98.30%、100%和98.46%。不同重復(fù)基元類(lèi)型的SSR 位點(diǎn)數(shù)量隨著重復(fù)次數(shù)的增多呈遞減趨勢(shì)。
2.2 橄欖果實(shí)的SNP/InDel 的特征分析
基于轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行不同性狀橄欖品種果實(shí)SNP/InDel 挖掘。共獲得284 992 個(gè)SNP 位點(diǎn),平均每1 kb 序列含有5.21 個(gè)。其中,轉(zhuǎn)換類(lèi)型的SNP 位點(diǎn)共166 162 個(gè),C/T 和A/G 發(fā)生頻率相近,每1 kb 序列分別含有1.51 個(gè)和1.52 個(gè)。顛換類(lèi)型的SNP 位點(diǎn)共118 830 個(gè),每1 kb 序列中A/T、A/C、T/G 和C/G 的平均個(gè)數(shù)分別為0.63、0.53、0.54 和0.47。轉(zhuǎn)換類(lèi)型的SNP 位點(diǎn)(3.03個(gè))的發(fā)生頻率明顯高于顛換類(lèi)型(2.18 個(gè))。其中,第1、2 和3 位上發(fā)生SNP 突變的密碼子數(shù)量分別為51 513、25 378 和50 306。在這些SNP 位點(diǎn)中,4479 條unigenes 包含1 個(gè)SNP 位點(diǎn),3096 條unigenes 包含2 個(gè)SNP 位點(diǎn),2419條unigenes 包含3 個(gè)SNP 位點(diǎn),隨著SNP 位點(diǎn)數(shù)增多,unigenes 的數(shù)量逐漸減少(圖3A)。值得注意的是,其中的14 條unigenes 包含有100個(gè)以上的SNP 位點(diǎn)(表3),其中的9 條unigenes得到了功能注釋?zhuān)杂? 條unigenes 在所有數(shù)據(jù)庫(kù)中未得到有效比對(duì),這些存在高頻SNP 變異的unigenes 可能在果實(shí)性狀差異形成過(guò)程中發(fā)揮了重要功能。
基于轉(zhuǎn)錄組測(cè)序數(shù)據(jù),共獲得18 548 個(gè)InDel位點(diǎn),平均每1 kb 序列含有2.95 個(gè),其分布變化趨勢(shì)與SNP 相似(圖3B),unigenes 中含有1 個(gè)InDel 位點(diǎn)的數(shù)量最多,達(dá)到7853 條。InDel 位點(diǎn)最多的是Cluster-4594.16496,達(dá)到24 個(gè)InDel位點(diǎn),通過(guò)比對(duì)預(yù)測(cè),其可能是胼胝質(zhì)合成酶。
3 討論
3.1 轉(zhuǎn)錄組測(cè)序可有效開(kāi)發(fā)橄欖SSR 和SNP/InDel 標(biāo)記
轉(zhuǎn)錄組測(cè)序是植物SSR 和SNP/InDel 標(biāo)記開(kāi)發(fā)有效的技術(shù)手段。VIDYA 等[24]從生姜(Zingiberofficinale)轉(zhuǎn)錄組中挖掘了16 790 個(gè)EST-SSR 位點(diǎn),其中4597 個(gè)SSR 位點(diǎn)分布在已預(yù)測(cè)的編碼基因中;ZHOU 等[25]從楠木(Phoebe bournei)轉(zhuǎn)錄組中鑒定了40 853 個(gè)SSR 位點(diǎn),并對(duì)其中23個(gè)多態(tài)性EST-SSR 標(biāo)記進(jìn)行應(yīng)用;TULSANI 等[26]從芫荽(Coriandrum sativum)轉(zhuǎn)錄組中鑒定到了9746 個(gè)SSR 位點(diǎn),為其轉(zhuǎn)錄組草圖和基因標(biāo)記提供了重要信息;XU 等[27]基于轉(zhuǎn)錄組測(cè)序從草珊瑚(Sarcandra glabra)中挖掘了726 476 個(gè)SNP位點(diǎn)和42 939 個(gè)InDel 位點(diǎn),為其資源開(kāi)發(fā)奠定了基礎(chǔ)。本研究采用Illumina Novaseq 測(cè)序平臺(tái),從不同性狀的橄欖果實(shí)中分別挖掘了13 935 個(gè)SSR 位點(diǎn)、284 992 個(gè)SNP 位點(diǎn)和18 548 個(gè)InDel位點(diǎn),為后續(xù)橄欖分子標(biāo)記開(kāi)發(fā)和應(yīng)用奠定了數(shù)據(jù)基礎(chǔ)。
3.2 橄欖果實(shí)中存在豐富多樣的SSR位點(diǎn)
SSR 標(biāo)記具有多態(tài)性高、分辨率高、通用性好、穩(wěn)定性強(qiáng)等優(yōu)點(diǎn),是物種種質(zhì)資源鑒定、遺傳連鎖圖譜構(gòu)建、基因定位、數(shù)量性狀基因位點(diǎn)分析、分子標(biāo)記輔助育種等研究的重要技術(shù)手段[28]。本研究通過(guò)轉(zhuǎn)錄組高通量測(cè)序,在10 124條unigenes 上鑒定到13 935 個(gè)SSR 位點(diǎn),發(fā)生頻率為22.98%。其中,單堿基重復(fù)基元類(lèi)型的SSR位點(diǎn)最多并且單堿基重復(fù)是橄欖果實(shí)的優(yōu)勢(shì)重復(fù)基元,隨著重復(fù)堿基數(shù)量的增加,SSR 位點(diǎn)出現(xiàn)頻率下降,與油梨(Persea americana)[29]、甜柿(Diospyros kaki)[30]、香椿(Toona sinensis) [31]等物種的規(guī)律一致。橄欖果實(shí)中的優(yōu)勢(shì)重復(fù)基元主要包括A/T 、AG/CT 、AT/AT 、AAT/ATT、AAG/CTT 等,尤其A/T 的比例達(dá)到66.67%,與甜柿[30]、龍眼(Dimocarpus longan)[32]、油梨[29]等其他物種存在一定的相似性,但仍有差異,可見(jiàn)SSR 位點(diǎn)分布存在物種特異性。此外,橄欖果實(shí)SSR 位點(diǎn)中也發(fā)現(xiàn)了6 個(gè)CG/CG 和29 個(gè)CCG/CGG 重復(fù)基元,其在雙子葉植物中較為少見(jiàn)[30],可能在橄欖進(jìn)化過(guò)程中發(fā)揮特殊的生物學(xué)功能。從多態(tài)性上看,通常認(rèn)為長(zhǎng)度大于20 bp的SSR 位點(diǎn)具有較高的多態(tài)性[33],橄欖果實(shí)中四堿基、五堿基和六堿基重復(fù)的SSR 位點(diǎn)長(zhǎng)度均在20 bp 以上,具有更高的多態(tài)性,可能具有較高的應(yīng)用價(jià)值。
3.3 橄欖果實(shí)中廣泛分布SNP/InDel位點(diǎn)
SNP/InDel 具有高效性、準(zhǔn)確性,并且與作物性狀密切相關(guān)。本研究基于轉(zhuǎn)錄組測(cè)序,共檢測(cè)到橄欖果實(shí)284 992 個(gè)SNP 位點(diǎn),平均每1 kb 序列含有5.21 個(gè)SNP 位點(diǎn)。其中,轉(zhuǎn)換和顛換類(lèi)型的比例為1.398,與理論值0.500 存在較大偏差,說(shuō)明橄欖進(jìn)化過(guò)程中對(duì)不同類(lèi)型的選擇并非隨機(jī)而可能存在偏向性[34]。此外,本研究共獲得橄欖果實(shí)18 548 個(gè)InDel 位點(diǎn),每1 kb 序列平均包含2.95 個(gè)InDel 位點(diǎn)。后續(xù)還應(yīng)進(jìn)一步針對(duì)SNP/InDel位點(diǎn)進(jìn)行深入研究,開(kāi)發(fā)橄欖果實(shí)性狀相關(guān)的特異性分子標(biāo)記,為橄欖種質(zhì)資源鑒定和分子輔助育種提供技術(shù)支撐。