葛宇 徐梓寧 馬蔚紅 劉遠征 王步天 劉毅
(1. 云南農(nóng)業(yè)大學(xué)熱帶作物學(xué)院 云南普洱 665099; 2. 中國熱帶農(nóng)業(yè)科學(xué)院科技信息研究所海南???571101;3. 中國熱帶農(nóng)業(yè)科學(xué)院海口實驗站 海南???571101;4. 云南天然橡膠產(chǎn)業(yè)集團江城有限公司 云南普洱 665909)
油梨(Perseaamericana Mill.)是世界上重要的亞熱帶/熱帶經(jīng)濟作物之一,其原產(chǎn)于中美洲和墨西哥[1]。油梨遺傳多樣性豐富,迥異的生長環(huán)境最終演化出了不同的油梨生態(tài)型[2]。園藝學(xué)家廣泛認為,油梨有3種生態(tài)型,墨西哥生態(tài)型(P.americanavar.dryifolia)、危地馬拉生態(tài)型(P.americanavar.guatemala)和西印度群島生態(tài)型(P. americanavar.guatemala)[3]。這3種生態(tài)型無論在形態(tài)、園藝性狀還是生理性狀上均可以區(qū)分開[4]。墨西哥生態(tài)型被廣泛認為起源于墨西哥中部,適應(yīng)相對寒冷的氣候,而危地馬拉生態(tài)型被認為主要分布在危地馬拉山脈的中高海拔地區(qū),同樣也具有一定的耐寒性[3]。西印度群島生態(tài)型起源于南美洲中部和北部,直到哥倫布時代后才被引入西印度群島,其生長環(huán)境為溫暖和潮濕的熱帶低地[3]。由于油梨雌雄花開花時間錯開,無法自交結(jié)實,只能通過自然雜交方式繁殖后代,并且3種生態(tài)型之間不存在生殖隔離,因此,世界上大多數(shù)廣泛種植的油梨栽培品種都是雜交種[5]。
前人對油梨3種生態(tài)型的進化關(guān)系研究并未理清其遺傳關(guān)系,有些結(jié)果還存在互相矛盾。有些研究人員采用形態(tài)性狀和不同分子標記將危地馬拉和西印度生態(tài)型聚在一起[6-8]。然而,另一些研究人員利用同工酶和分子標記可以區(qū)分這兩種生態(tài)型[8-13]。Ashworth等[11]認為,與墨西哥生態(tài)型相比,危地馬拉與西印度群島生態(tài)型的親緣關(guān)系更密切,而Gross-German等[13]研究認為,危地馬拉和墨西哥生態(tài)型之間的親緣關(guān)系更密切。課題組前期通過特異長度擴增片段測序(SLAF-Seq)簡化基因組及二代轉(zhuǎn)錄組對3種油梨純生態(tài)型及兩種油梨雜交生態(tài)型品種分別測序,試驗結(jié)果表明,相對于西印度群島生態(tài)型,危地馬拉和墨西哥生態(tài)型之間的親緣關(guān)系更緊密[14]。進一步,課題組對3種油梨純生態(tài)型的6份品種葉綠體基因組測序并進行進化分析。結(jié)果表明,墨西哥生態(tài)型最先從鱷梨種中分化出來,然后是危地馬拉生態(tài)型,最后,也是最新分化出的,是西印度群島生態(tài)型[15]。
隨著越來越多具有高經(jīng)濟價值的作物的基因組被測序公布,人們采用全基因組重測序技術(shù)可在全基因組范圍內(nèi)篩選到大量的單核苷酸多態(tài)性位點(single nucleotide polymorphisms, SNP)與插入缺失位點(insertion/deletion, InDel),這些結(jié)構(gòu)變異可能是導(dǎo)致作物遺傳進化變異的主要決定因素,對作物進化分析及分子輔助育種研究具有重要的作用[16-18]。本研究首次對3種油梨純生態(tài)型和1種油梨雜交種共4個油梨品種進行全基因組重測序,對其SNP和Small Indel進行深度挖掘,全面揭示不同油梨生態(tài)型在基因組水平上的變異基因,并進一步確認不同油梨生態(tài)型之間的進化關(guān)系。本試驗結(jié)果將為后續(xù)的油梨育種研究提供參考。
供試材料Choquette為危地馬拉與西印度群島生態(tài)型油梨雜交品種,Donnie為西印度群島生態(tài)型油梨品種,Walter Hole墨西哥型生態(tài)型油梨品種,上述3份品種選育地均在美國;Nabal為危地馬拉型生態(tài)型油梨品種,選育地在危地馬拉(表1)。
表1 四份油梨品種來源及其生態(tài)型
1.2.1 基因組DNA提取及重測序 采集4份油梨品種幼嫩葉片,采用CTAB法進行DNA提取,3株混樣進行全基因組重測序。樣品基因組DNA檢測合格后,用超聲波法將DNA片段化,進而對處理后的DNA進行純化、末端修復(fù)、3′端加A、連接測序接頭。而后采用瓊脂糖凝膠電泳選擇片段大小,進而采用PCR形成測序文庫,構(gòu)建完畢的文庫首先開展文庫質(zhì)檢,合格后采用Illumina開展測序。
1.2.2 基因組變異檢測與注釋 首先采用bwa軟件[19]將Clean reads與參考基因組序列(https://genomevolution.org/coge//GenomeInfo.pl?gid=29302)[20]進行比對。其次,基于Clean Reads在油梨參考基因組的定位結(jié)果,使用Picard軟件(http://sourceforge.net/projects/picard/)過濾冗余的reads,保證檢測結(jié)果準確。而后采用GATK軟件[21]開展SNP與Indel 檢測,采用 SnpEff[22]軟件對SNP與Indel進行注釋。
1.2.3 數(shù)據(jù)分析 采用NTSYS 2.1對數(shù)據(jù)進行聚類分析。
利用 Illumina 高通量技術(shù)分別對西印度群島生態(tài)型油梨品種Donnie、墨西哥型生態(tài)型油梨品種Walter Hole、危地馬拉型生態(tài)型油梨品種Nabal與危地馬拉型與西印度群島生態(tài)型油梨雜交品種Choquette進行全基因組重測序,得到原始測序數(shù)據(jù),然后過濾獲得114.86 Gb的Clean Data,平均Q30達到93.07%。4份樣品與參考基因組危地馬拉與墨西哥型生態(tài)型油梨雜交品種Hass平均比對率為97.85%,平均覆蓋深度為26×,平均基因組覆蓋度為89.39%(表2)。
表2 四份不同生態(tài)型油梨品種測序數(shù)據(jù)評估及與參考基因組Hass比對結(jié)果
對4份不同生態(tài)型油梨進行SNP檢測,SNP數(shù)量3 854 384~6 290 629個,其中在轉(zhuǎn)換和顛換中,最高的SNP數(shù)量均來自于危地馬拉與西印度群島生態(tài)型油梨雜交品種Choquette,最少的SNP數(shù)量均來自于危地馬拉型生態(tài)型油梨品種Nabal(表3)。4份不同生態(tài)型油梨雜合型SNP數(shù)量2 071 788~4 403 582個,雜合率35.34%~77.09%。除了西印度群島生態(tài)型油梨品種Donnie的雜合率最低,為35.34%,剩下3份油梨品種的雜合率均超過70%。對4份不同生態(tài)型油梨進行SNP注釋,發(fā)生在編碼區(qū)內(nèi)的SNP位點數(shù)量51 565~126 799,其中同義突變39 652~61 541,占比48.29%~48.61%,非同義突變40 940~63 790,占比50.19%~50.49%(表4)。危地馬拉與西印度群島生態(tài)型油梨雜交品種Choquette在除了終止密碼子獲得與終止密碼子丟失這兩種統(tǒng)計指標之外的其它14種統(tǒng)計指標中,SNP數(shù)量均為最高,而西印度群島生態(tài)型油梨品種Donnie在終止密碼子獲得類型中,SNP數(shù)量最高,墨西哥型生態(tài)型油梨品種Walter Hole在終止密碼子丟失類型中,SNP數(shù)量最高。
表3 四份不同生態(tài)型油梨品種的SNP統(tǒng)計
表4 四份不同生態(tài)型油梨品種的SNP注釋結(jié)果
對4份不同生態(tài)型油梨進行Small InDel檢測發(fā)現(xiàn),全基因組范圍的Small Indel總數(shù)為1 432 406~1 707 608個,編碼區(qū)Small Indel總數(shù)12 148~14 027個,編碼區(qū)插入突變?yōu)?0 211~11 113個,編碼區(qū)缺失突變?yōu)? 937~2 914個,在這4種統(tǒng)計指標中,最高的Small Indel數(shù)量均來自于危地馬拉型西印度群島生態(tài)型油梨雜交品種Choquette,最少的Small Indel數(shù)量均來自于危地馬拉型生態(tài)型油梨品種Nabal(表5)。4份不同生態(tài)型油梨編碼區(qū)雜合型Small Indel數(shù)量為3 353~7 704個,雜合率24.71%~59.76%。除了西印度群島生態(tài)型油梨品種Donnie的編碼區(qū)雜合型Small Indel雜合率最低,為24.71%,剩下3份油梨品種的Small Indel雜合率均超過47%。采用SnpEff軟件對4份不同生態(tài)型油梨全基因組Small Indel進行注釋(表6),危地馬拉與西印度群島生態(tài)型油梨雜交品種Choquette在除了剪切供體突變(外顯子前2BP內(nèi))、非密碼子邊界上的3的整數(shù)倍的刪除與終止密碼子獲得這3種統(tǒng)計指標之外的其它15種統(tǒng)計指標中,Small Indel數(shù)量均為最高,而墨西哥型生態(tài)型油梨品種Walter Hole在其它3種統(tǒng)計指標中Small Indel數(shù)量均為最高。根據(jù)4份不同生態(tài)型油梨在編碼區(qū)和全基因組范圍的Small Indel長度進行統(tǒng)計(圖1),在編碼區(qū)域存在較多的+1、–1、+3、–3類型突變,全基因組范圍+1、–1、+2、–2類型突變相對占比較多。
圖1 全基因組和編碼區(qū)Small Indels長度分布
表5 四份不同生態(tài)型油梨品種的Small Indels統(tǒng)計
表6 四份不同生態(tài)型油梨品種的Small Indels注釋結(jié)果
通過尋找參考基因組與4份不同生態(tài)型油梨間發(fā)生非同義突變SNP、編碼區(qū)發(fā)生Small InDel的基因,尋找4份不同生態(tài)型油梨與參考基因組危地馬拉與墨西哥型生態(tài)型油梨雜交品種Hass之間可能存在功能差異的基因。與參考基因組危地馬拉與墨西哥型生態(tài)型油梨雜交品種Hass相比,危地馬拉與西印度群島生態(tài)型油梨雜交品種Choquette發(fā)生非同義突變基因數(shù)量為18 143個。發(fā)生Small InDel的基因數(shù)量為7 958個。GO分析表明,生物過程中的代謝過程(4 325個基因)、細胞組件中的細胞組分(2 071個基因)和分子功能中的催化活性(3 580個基因)存在最多的變異基因(圖2-A)。KEGG分析表明,淀粉和蔗糖的代謝(144個基因)與植物激素信號轉(zhuǎn)導(dǎo)(144個基因)存在最多的變異基因(圖2-B)。與參考基因組危地馬拉與墨西哥型生態(tài)型油梨雜交品種Hass相比,西印度群島生態(tài)型油梨品種Donnie發(fā)生非同義突變基因數(shù)量為17 616個,發(fā)生Small InDel的基因數(shù)量為7 405個。GO分析表明,生物過程中的代謝過程(4 214個基因)、細胞組件中的細胞組分(2 001個基因)和分子功能中的催化活性(3 487個基因)存在最多的變異基因(圖2-C)。KEGG分析表明,淀粉和蔗糖的代謝(144個基因)存在最多的變異基因(圖2-D)。與參考基因組危地馬拉與墨西哥型生態(tài)型油梨雜交品種Hass相比,墨西哥型生態(tài)型油梨品種Walter Hole發(fā)生非同義突變基因數(shù)量為17 701個,發(fā)生Small InDel的基因數(shù)量為7 768個。GO分析表明,生物過程中的代謝過程(4 206個基因)、細胞組件中的細胞組分(2 008個基因)和分子功能中的催化活性(3 487個基因)存在最多的變異基因(圖2-E)。KEGG分析表明,淀粉和蔗糖的代謝(145個基因)存在最多的變異基因(圖2-F)。與參考基因組危地馬拉與墨西哥型生態(tài)型油梨雜交品種Hass相比,危地馬拉型生態(tài)型油梨品種Nabal發(fā)生非同義突變基因數(shù)量為13 864個,發(fā)生Small InDel的基因數(shù)量為6 935個。GO分析表明,生物過程中的代謝過程(3 477個基因)、細胞組件中的細胞組分(1 669個基因)和分子功能中的催化活性(2 872個基因)存在最多的變異基因(圖2-G)。KEGG分析表明,淀粉和蔗糖的代謝(119個基因)存在最多的變異基因(圖2-H)。
圖2 四個不同生態(tài)型油梨變異基因GO和KEGG注釋分類圖
基于油梨3份純生態(tài)型及1份危地馬拉與西印度群島生態(tài)型品種全基因組重測序數(shù)據(jù)及作為參考基因組的危地馬拉與墨西哥型生態(tài)型品種基因組數(shù)據(jù),對5份不同生態(tài)型油梨進行聚類分析。如圖3所示,5份不同生態(tài)型油梨品種可劃分為2組:其中一組包含墨西哥型生態(tài)型油梨品種Walter Hole、危地馬拉型生態(tài)型油梨品種Nabal和危地馬拉與墨西哥型生態(tài)型油梨雜交品種Hass;另外一組包含西印度群島生態(tài)型油梨品種Donnie和危地馬拉與西印度群島生態(tài)型油梨雜交品種Choquette。聚類分析表明,相對于西印度群島生態(tài)型,危地馬拉和墨西哥生態(tài)型油梨品種親緣關(guān)系更近。
圖3 基于全基因組重測序的不同生態(tài)型油梨聚類分類圖
本研究選取了油梨3份純生態(tài)型及1份危地馬拉與西印度群島生態(tài)型品種進行全基因組重測序,外加參考基因組的危地馬拉與墨西哥型生態(tài)型品種,均具有一定的代表性,能在一定程度上反映不同生態(tài)型油梨在基因組水平的差異?;谕ㄟ^和參考基因組對比獲得的雜合型SNP數(shù)量,西印度群島生態(tài)型油梨品種Donnie的雜合率最低,為35.34%(若按照913 MB計算,雜合度為2.27%),剩下墨西哥型生態(tài)型油梨品種Walter Hole(若按照1.06 G計算,雜合度為4.66%)、危地馬拉型生態(tài)型油梨品種Nabal(若按照913 MB計算,雜合度為3.26%)與危地馬拉與西印度群島生態(tài)型油梨雜交品種Choquette(若按照913 MB計算,雜合度為4.82%)的雜合率均超過70%。不同生態(tài)型油梨普遍較高的雜合度與油梨屬于異花授粉作物這一自身特性有關(guān)。此外,本研究表明,相對于西印度群島生態(tài)型,危地馬拉和墨西哥生態(tài)型油梨品種雜合度更高?;谇捌诤喕蚪M測序分析,課題組同樣發(fā)現(xiàn),危地馬拉和墨西哥生態(tài)型油梨品種比西印度群島生態(tài)型油梨品種具有更高的遺傳多樣性,雜合度也較高[14]。Schnell等[12]也發(fā)現(xiàn),墨西哥和危地馬拉生態(tài)型油梨品種是高度雜合的,而西印度群島生態(tài)型油梨品種則相對于更加純合?;谌蚪M重測序,聚類分析表明,相對于西印度群島生態(tài)型,危地馬拉和墨西哥生態(tài)型油梨品種親緣關(guān)系更近。前期課題組選取21份不同生態(tài)型油梨進行SLAF簡化基因組重測序,基于來自于簡化基因組的701 352個SNP進行聚類分析[14],相關(guān)試驗結(jié)果與本研究聚類分析結(jié)果一致。
本研究對4份不同生態(tài)型油梨進行重測序,與參考基因組危地馬拉與墨西哥型生態(tài)型油梨雜交品種Hass相比,獲得3 854 384~6 290 629個SNP和1 432 406~1 707 608個Small Indels,這些突變導(dǎo)致了13 864~18 143個基因的變異。KEGG分析表明,淀粉和蔗糖的代謝通路存在最多的變異基因。這些基因變異可能導(dǎo)致不同生態(tài)型油梨碳代謝的變化,最終導(dǎo)致從糖轉(zhuǎn)化成的脂肪酸含量差異。前人研究表明,墨西哥型生態(tài)型油梨脂肪酸含量普遍較高,危地馬拉型生態(tài)型油梨脂肪酸含量其次,西印度群島生態(tài)型油梨脂肪酸含量最低[12]。此外,針對這些突變位點,開發(fā)相應(yīng)標記,挖掘優(yōu)異基因,可為分子標記輔助育種提供重要的標記資源。進一步揭示不同生態(tài)型油梨基因組組成,對油梨育種研究具有重要的指導(dǎo)意義,能夠有效提升油梨育種的指向性,推動油梨產(chǎn)業(yè)發(fā)展。