江 彪,閆晉強(qiáng),晏石娟,謝大森,劉文睿,王 敏
(1.廣東省農(nóng)業(yè)科學(xué)院蔬菜研究所/廣東省蔬菜新技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510640;2.廣東省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)生物基因研究中心,廣東 廣州 510640)
葫蘆科(Cucurbitaceae)是世界上最重要的食用植物科之一,有95 個(gè)屬900 多個(gè)種,其重要性僅次于禾本科、豆科和茄科,位居植物界第四。據(jù)聯(lián)合國(guó)糧食及農(nóng)業(yè)組織(Food and Agriculture Organization of the United Nations,F(xiàn)AO)2019 年統(tǒng)計(jì)顯示,世界葫蘆科作物的栽培面積約400 萬(wàn)hm2,年產(chǎn)值約3 000 億元。葫蘆科包含許多重要作物,包括黃瓜(Cucumis sativus)、甜瓜(Cucumis meloL.)、西瓜(Citrullus lanatus)、南瓜(Cucurbitaspp.)、冬瓜(Benincasa hispida)、絲瓜(Luffa aegyptiaca)、苦瓜(Momordica charantiaL.)等常見(jiàn)的蔬菜和瓜果,在農(nóng)業(yè)生產(chǎn)和人民生活中均占有舉足輕重的地位[1-2]。葫蘆科作物不僅是人們重要的飲食來(lái)源,許多還具有獨(dú)特的食療保健價(jià)值。冬瓜富含丙醇二酸,可抑制人體內(nèi)糖轉(zhuǎn)化為脂肪,能有效防止體內(nèi)脂肪堆積,對(duì)于腎病、高血壓、浮腫患者大有益處[3]??喙细缓碥眨哂忻黠@的降血糖、減肥、抗氧化等多種藥理作用[4-7]。
全基因組測(cè)序,就是一次性測(cè)定一個(gè)生物體基因組全部DNA 序列的過(guò)程。自2004 年以來(lái),以Illumina 邊合成邊測(cè)序?yàn)榇淼母咄繙y(cè)序技術(shù)逐漸發(fā)展成熟,測(cè)序通量大幅提升、成本急劇下降,其大規(guī)模商業(yè)化應(yīng)用促成數(shù)以千計(jì)的生物體完成了全基因組測(cè)序[8]。近年來(lái),以Pacific Biosciences 單分子實(shí)時(shí)測(cè)序和Nanopore 納米孔測(cè)序?yàn)榇淼拈L(zhǎng)讀長(zhǎng)測(cè)序技術(shù)得到快速發(fā)展,為基因組從頭組裝以及結(jié)構(gòu)變異檢測(cè)、泛基因組學(xué)研究等提供了極大便利[9]。
基因組從頭組裝(de novo assembly)是指在不需要任何參考序列的情況下,將生物體基因組測(cè)序產(chǎn)生的序列進(jìn)行拼接、組裝,從而繪制該生物體的全基因組序列信息?;蚪M從頭組裝過(guò)程,可簡(jiǎn)單描述為測(cè)序片段(reads)組裝形成重疊群(contig)、重疊群連接產(chǎn)生支架片段(scaffold),最后再借助遺傳圖譜、光學(xué)圖譜等進(jìn)行錨定產(chǎn)生染色體(chromosome)?;蚪M從頭組裝的核心算法主要可以分為幾類:基于貪婪算法(Greedyextention)、基于Overlap-Layout-Consensus(OLC)、基于de Bruijn Graph,以及上述兩種或多種算法的組合[10]。在這些算法的基礎(chǔ)上,大量研究者開(kāi)發(fā)出多種適用于不同測(cè)序平臺(tái)的組裝軟件和流程,如適用于Illumina 測(cè)序平臺(tái)的Velvet、SOAPdenovo、ABySS 等[11],以及針對(duì)長(zhǎng)讀長(zhǎng)測(cè)序或者混合測(cè)序數(shù)據(jù)的Canu、Flye、Hifiasm 等[12]。隨著測(cè)序技術(shù)、組裝算法的不斷發(fā)展,組裝質(zhì)量也不斷提升,越來(lái)越多的生物體基因組測(cè)序?qū)崿F(xiàn)了染色體水平組裝。截至目前,葫蘆科作物中的黃瓜、甜瓜、西瓜、南瓜、苦瓜、葫蘆、冬瓜、絲瓜、蛇瓜、佛手瓜等均完成了全基因組測(cè)序(表1),顯著提升了葫蘆科作物基因組學(xué)、系統(tǒng)進(jìn)化和分子生物學(xué)等領(lǐng)域的研究水平[13-14]。本文簡(jiǎn)要回顧了葫蘆科主要作物的全基因組測(cè)序進(jìn)展,并總結(jié)歸納了全基因組測(cè)序在葫蘆科作物起源與進(jìn)化關(guān)系、重要農(nóng)藝性狀基因挖掘等方面的實(shí)際應(yīng)用,旨在為葫蘆科作物基因組學(xué)相關(guān)研究提供重要的參考依據(jù)。
表1 已測(cè)序葫蘆科作物基因組列表Table 1 List of genome-sequenced Cucurbitaceae crops
1.1.1 栽培黃瓜 黃瓜(Cucumis sativus,2n=2x=14)起源于喜馬拉雅南麓的熱帶雨林地區(qū),是國(guó)際上最重要的蔬菜作物之一,也是分子生物學(xué)研究的重要模式作物。在葫蘆科作物中,黃瓜的染色體數(shù)最少,其基因組大小約376 Mb[15]。2007年初,中國(guó)農(nóng)業(yè)科學(xué)院蔬菜花卉研究所發(fā)起國(guó)際黃瓜基因組計(jì)劃,這是我國(guó)發(fā)起并主導(dǎo)的第一個(gè)大型植物基因組計(jì)劃。該研究利用Sanger 測(cè)序方法對(duì)華北密刺類型黃瓜高代自交系9930 進(jìn)行全基因組測(cè)序,測(cè)序深度為72.2×,組裝獲得的基因組為243.5 Mb,約占其基因組的66.3%。在黃瓜基因組中共預(yù)測(cè)26 682 個(gè)蛋白編碼基因,每個(gè)基因的長(zhǎng)度平均為1 046 bp,其中20 000 多個(gè)基因被定位到染色體上[16]?;?930 參考基因組,Qi 等[17]從世界范圍內(nèi)3 342 份黃瓜種質(zhì)資源中篩選出115 份核心種質(zhì),并對(duì)其進(jìn)行深度重測(cè)序,構(gòu)建了一張包含360 多萬(wàn)個(gè)位點(diǎn)的全基因組遺傳變異圖譜;在遺傳變異圖譜中共鑒定到112 個(gè)假定的馴化區(qū)段,其中1 個(gè)區(qū)段含有1 個(gè)與果實(shí)苦味丟失有關(guān)的基因,丟失苦味是黃瓜重要的馴化特征。此外,通過(guò)研究栽培群體之間的基因組差異,Qi 等[17]在β-胡蘿卜素羥化酶基因中發(fā)現(xiàn)1 個(gè)自然變異,可用于培育營(yíng)養(yǎng)價(jià)值更高的黃瓜品種。
隨后,學(xué)者們陸續(xù)完成不同品系黃瓜的基因組測(cè)序。美國(guó)威斯康星大學(xué)麥迪遜分校以典型北美加工類型黃瓜品系Gy14 為材料,利用Roche 454 平臺(tái),采用從頭測(cè)序策略進(jìn)行基因組測(cè)序,測(cè)序深度為36×,組裝獲得4 219 個(gè)scaffolds,其基因組序列總長(zhǎng)為203.0 Mb[18]。Wóyciki 等[19]以北歐Borszczagowski 品種B10 為材料,利用Sanger 測(cè)序方法進(jìn)行全基因組測(cè)序,組裝獲得247 Mb 的基因組序列。為提高Gy14 基因組質(zhì)量,Yang 等[20]將173.1 Mb 的Gy14 基因組和193.3 Mb 的9930 基因組掛載到同一個(gè)遺傳圖譜上,利用9930 基因組的scaffold 填補(bǔ)Gy14 基因組中相鄰scaffolds 間的空隙,最終獲得192.6 Mb 的Gy14基因組(占基因組的53.0%),其中19.5 Mb 的序列來(lái)源于9930 的基因組序列。
1.1.2 哈氏黃瓜 哈氏黃瓜(C.sativusvar.hardwickii,2n=2x=14)是目前公認(rèn)的栽培黃瓜的野生祖先,具有較好的抗逆和抗病蟲(chóng)能力[21]。Qi等[17]以哈氏黃瓜PI183967(CG0002)為材料,利用Illumina 測(cè)序技術(shù)進(jìn)行從頭測(cè)序,共組裝獲得204.8 Mb 基因組序列,其scaffold N50 為4.2 Mb,并預(yù)測(cè)了23 836 個(gè)蛋白編碼基因。通過(guò)與9930基因組進(jìn)行對(duì)比,共鑒定到21 021 個(gè)直系同源基因[17]。
1.1.3 酸黃瓜 酸黃瓜(C.hystrixChakr.,2n=2x=24)是黃瓜的野生近緣種,具有耐低溫弱光、高抗霜霉病、抗線蟲(chóng)等優(yōu)良性狀[22-25]。酸黃瓜基因組約為416 Mb,大于黃瓜基因組,但小于甜瓜基因組[26]。Qin 等[26]利用Illumina 測(cè)序平臺(tái)完成酸黃瓜全基因組測(cè)序,組裝獲得的基因組約為289 Mb,預(yù)測(cè)了23 864 個(gè)蛋白編碼基因。通過(guò)全面的比較基因組分析發(fā)現(xiàn),與甜瓜相比,酸黃瓜在系統(tǒng)發(fā)育上與黃瓜更為接近,為酸黃瓜與黃瓜成功雜交奠定了分子基礎(chǔ)。此外,Qin 等[26]還發(fā)現(xiàn)酸黃瓜基因組中富含“防御響應(yīng)”基因,共有104 個(gè)編碼抗病基因類似物的核苷酸結(jié)合位點(diǎn)。
1.1.4 刺角瓜 刺角瓜(C.metuliferus,2n=2x=24)又名非洲角黃瓜,是黃瓜屬野生種,具有較強(qiáng)的抗病蟲(chóng)害能力。刺角瓜基因組約368 Mb,Ling等[27]以CM27(PI482460)為材料,利用PacBio SMART 測(cè)序平臺(tái)進(jìn)行全基因組從頭測(cè)序,測(cè)序深度為93×,組裝獲得329 Mb 的基因組序列,其N50 序列長(zhǎng)度為2.9 Mb,共預(yù)測(cè)了29 214 個(gè)蛋白編碼基因。隨后,通過(guò)Hi-C 組裝和人工校正,共有316.82 Mb 的CM27 基因組序列被掛載到12條染色體上[27]。系統(tǒng)發(fā)育分析結(jié)果表明,刺角瓜與甜瓜的分化時(shí)間在1 780 萬(wàn)年以前,通過(guò)刺角瓜與甜瓜基因組之間的比較,發(fā)現(xiàn)這兩個(gè)物種的8 條染色體存在較大的結(jié)構(gòu)變異[27]。
甜瓜(Cucumis meloL .)是第二個(gè)完成基因組測(cè)序的葫蘆科作物,其染色體數(shù)目為2n=2x=24,基因組大小約為450 Mb[28]。2012年,西班牙農(nóng)業(yè)基因組研究中心以甜瓜雙單倍體DHL92 為材料,采用羅氏454 平臺(tái)進(jìn)行全基因組測(cè)序,測(cè)序深度為13.52×,組裝獲得1 594 個(gè)scaffolds,序列總長(zhǎng)為375.0 Mb(v3.5.1)[29]。其scaffold N50 為4.68 Mb,且最長(zhǎng)的78 個(gè)scaffolds序列總長(zhǎng)占組裝基因組的90%,表明該基因組的質(zhì)量較好。該基因組共預(yù)測(cè)27 427 個(gè)蛋白編碼基因,每個(gè)基因的平均長(zhǎng)度為2 776 bp、外顯子為5.85 個(gè)[24]。隨著生物信息學(xué)技術(shù)的不斷發(fā)展,Ruggieri 等[30]對(duì)DHL92基因組進(jìn)行重新組裝和注釋,發(fā)布了序列信息更完整、注釋信息更全面的參考基因組v3.6.1 版本,新基因組在基因結(jié)構(gòu)完整性、UTR 區(qū)域界線等方面均得到明顯提升。
2019 年,韓國(guó)學(xué)者發(fā)布了薄皮甜瓜(C.meloL.var.makuwa)Chang Bougi 和SW3 的基因組序列[31]。其中Chang Bougi 是韓國(guó)地方甜瓜品種,組裝的基因組為344 Mb,scaffold N50 為1.0 Mb,預(yù)測(cè)了36 235 個(gè)蛋白編碼基因。SW3 是來(lái)源于農(nóng)友生物公司(NongWoo Bio Company)的高品質(zhì)材料,其組裝的基因組為354 Mb,scaffold N50 達(dá)到1.6 Mb,預(yù)測(cè)了38 173 個(gè)蛋白編碼基因[31]。此外,Ling 等[27]以北京薄皮甜瓜地方種IVF77 為材料,組裝獲得染色體水平的參考基因組,其測(cè)序深度為84×,組裝獲得364 Mb 的基因組,其中339.72 Mb 的基因組掛載到12 條染色體上,并預(yù)測(cè)了27 073 個(gè)蛋白編碼基因。薄皮甜瓜參考基因組的繪制,為其果實(shí)發(fā)育、抗病機(jī)理及品種選育等研究奠定了基礎(chǔ)。
為探明甜瓜的遺傳基礎(chǔ)和馴化歷史,中國(guó)農(nóng)業(yè)科學(xué)院鄭州果樹(shù)研究所聯(lián)合國(guó)內(nèi)外單位,構(gòu)建了世界上第一個(gè)甜瓜全基因組變異圖譜[32]。該研究分析了1 175 份甜瓜種質(zhì)資源的基因組變異,共鑒定了560 萬(wàn)個(gè)SNP;在此基礎(chǔ)上,發(fā)現(xiàn)甜瓜可能發(fā)生過(guò)3 次獨(dú)立的馴化事件,一次發(fā)生在非洲地區(qū),另外兩次發(fā)生在亞洲地區(qū),并分別產(chǎn)生厚皮甜瓜和薄皮甜瓜兩個(gè)栽培亞種;同時(shí),通過(guò)全基因組關(guān)聯(lián)分析(Genome wide association study,GWAS)等手段,定位了200 余個(gè)與甜瓜苦味、酸味、果實(shí)大小、果肉顏色等性狀相關(guān)的候選基因和位點(diǎn)[32]。東北農(nóng)業(yè)大學(xué)甜瓜團(tuán)隊(duì)進(jìn)一步研究發(fā)現(xiàn),同為栽培類型的地方品種和改良品種在群體結(jié)構(gòu)和進(jìn)化方面存在明顯差異,提出野生材料-地方品種-改良品種的“Two-step”獨(dú)立馴化模式,并結(jié)合選擇壓力分析和全基因組關(guān)聯(lián)分析鑒定到8 個(gè)影響果實(shí)性狀的改良位點(diǎn)[33]。
西瓜(Citrullus lanatus)是世界性重要水果之一,其染色體數(shù)目為2n=2x=22,基因組大小約為425 Mb[28]。Guo 等[34]以東亞西瓜品種97103為材料,利用Illumina 測(cè)序技術(shù)獲得46.18 Gb 的高質(zhì)量基因組,測(cè)序深度達(dá)到108.6×,通過(guò)從頭組裝產(chǎn)生353.5 Mb 的基因組(97103v1),占其基因組的83.2%,共預(yù)測(cè)了23 440 個(gè)蛋白編碼基因。組裝的基因組由1 793 個(gè)scaffolds 構(gòu)成,其scaffold N50 長(zhǎng)度為2.38 Mb,其中234 個(gè)scaffolds掛載到西瓜11 條染色體上,其序列總長(zhǎng)約為330 Mb(占組裝基因組的93.5%)。通過(guò)對(duì)3 個(gè)不同西瓜亞種的20 份種質(zhì)進(jìn)行重測(cè)序,獲得多個(gè)單倍型,確定了西瓜種質(zhì)的遺傳多樣性和種群結(jié)構(gòu),并鑒定了在馴化過(guò)程中有限選擇的基因組區(qū)域[34]。
Guo 等[35]進(jìn)一步利用PacBio 測(cè)序平臺(tái)對(duì)西瓜品種97103 進(jìn)行長(zhǎng)讀長(zhǎng)測(cè)序,結(jié)合BioNano 光學(xué)圖譜和Hi-C 染色體構(gòu)象捕獲技術(shù),繪制了全新一代西瓜高質(zhì)量基因組精細(xì)圖譜(97103v2)。組裝的基因組大小為365.1 Mb,scaffold N50 為21.9 Mb,預(yù)測(cè)了22 596 個(gè)蛋白編碼基因。其中31 個(gè)scaffolds 構(gòu)成11 條染色體,共362.7 Mb,覆蓋西瓜組裝基因組的99.3%。同時(shí),Guo 等[35]還對(duì)414 份代表西瓜屬所有現(xiàn)存物種的材料進(jìn)行全基因組重測(cè)序,通過(guò)系統(tǒng)進(jìn)化分析首次明確西瓜7 個(gè)種之間的進(jìn)化關(guān)系,發(fā)現(xiàn)野生黏籽西瓜是與現(xiàn)代栽培西瓜親緣關(guān)系最近的種群;該研究同時(shí)發(fā)現(xiàn)了利用野生西瓜進(jìn)行抗性改良的基因組痕跡,獲得與果實(shí)含糖量、瓤色、形狀等性狀關(guān)聯(lián)的43 個(gè)信號(hào)位點(diǎn),并鑒定了關(guān)鍵候選基因[35]。
為補(bǔ)充現(xiàn)有參考基因組(97103),Wu 等[36]以美國(guó)西瓜栽培種Charleston Gray 為材料,利用Illumina 測(cè)序技術(shù)進(jìn)行全基因組測(cè)序,測(cè)序深度為228×,組裝獲得396.4 Mb 基因組序列,約占其基因組的94.6%。進(jìn)一步對(duì)美國(guó)國(guó)家植物種質(zhì)資源系統(tǒng)中保存的1 365 份西瓜種質(zhì)進(jìn)行測(cè)序分型(Genotyping-by-Sequencing,GBS),將其分為栽培西瓜、黏籽西瓜和飼用西瓜3 個(gè)物種,并從GBS 數(shù)據(jù)中獲得大約25 000 個(gè)高質(zhì)量SNPs[36]。此外,為深入了解從祖先到馴化西瓜的遺傳變化,Renner 等[37]以Kordofan melon 為材料,利用PacBio 測(cè)序結(jié)合Illumina 測(cè)序以及Hi-C 繪圖技術(shù)進(jìn)行全基因組測(cè)序,測(cè)序深度約388.8×,組裝的基因組包含86 個(gè)contigs,總長(zhǎng)度為367.9 Mb,N50 為9.34 Mb,并預(yù)測(cè)了23 043 個(gè)蛋白編碼基因。在Kordofan melon 和栽培西瓜97103 之間共檢測(cè)到15 824 個(gè)基因組結(jié)構(gòu)變異(Structure Variantions,SVs),并在超過(guò)400 份西瓜種質(zhì)中定位到這些SVs,揭示了等位基因在進(jìn)化過(guò)程中的頻率變化[37]。
然而,以上參考基因組仍然有許多缺口。2022 年,北京大學(xué)現(xiàn)代農(nóng)業(yè)研究院等單位以小果型西瓜自交系G42 為材料,利用PacBio HiFi 和ONT 數(shù)據(jù),結(jié)合多種組裝策略,完成了端粒到端粒(Telomere-to-Telomere,T2T)無(wú)缺口的高質(zhì)量基因組圖譜[38]。組裝的基因組總長(zhǎng)度為369.3 Mb,預(yù)測(cè)了24 205 個(gè)蛋白編碼基因,解析了全部22 個(gè)端粒和11 個(gè)著絲粒序列信息,同時(shí)填補(bǔ)了97103v2 參考基因組所有的220 個(gè)缺口[38]。
南瓜(2n=2x=40)原產(chǎn)于墨西哥到中美洲一帶,在世界范圍內(nèi)普遍種植,包括中國(guó)南瓜(Cucurbita maxima)、印度南瓜(C.moschata)、西葫蘆(C.pepo)等栽培種[39]。2017 年,中國(guó)國(guó)家蔬菜工程技術(shù)研究中心和美國(guó)博伊斯湯普森研究所(BTI)專家合作完成了中國(guó)南瓜(基因組約372.0 Mb)和印度南瓜(基因組約386.8 Mb)的全基因組從頭測(cè)序,測(cè)序深度分別為215×和283×,分別組裝獲得269.9 Mb 和271.4 Mb 的基因組序列,其scaffold N50 分別為4.0 Mb 和3.7 Mb,蛋白編碼基因?yàn)?2 205 和32 076 個(gè)[40]。通過(guò)與其他瓜類的基因組序列進(jìn)行進(jìn)化比較,發(fā)現(xiàn)其他瓜類在形成四倍體后會(huì)失去部分祖輩基因、重新回到二倍體狀態(tài),而南瓜卻仍保留四倍體,比較完整地保存了兩種祖輩的基因,因此其染色體對(duì)數(shù)幾乎是其他瓜類的2 倍[40]。隨后,Montero-Pau 等[41]利用全基因組鳥(niǎo)槍測(cè)序方法完成西葫蘆(基因組約為283 Mb)全基因組從頭測(cè)序,組裝獲得263 Mb 基因組,其scaffold N50 為1.8 Mb,蛋白編碼基因共有27 870 個(gè)。盡管西葫蘆基因組較小,但是其基因組的形成經(jīng)歷了全基因組復(fù)制過(guò)程[41]。
銀籽瓜(C.argyrosperma)是南瓜屬另一種重要作物,其基因組約238 Mb[42]。2019 年,墨西哥學(xué)者利用Illumina HiSeq2000、Illumina MiSeq和PacBio RS II 等3 個(gè)測(cè)序平臺(tái)完成了銀籽瓜的全基因組從頭測(cè)序,Illumina 和PacBio 的測(cè)序深度分別為120×和31×,組裝的基因組為228.8 Mb,其蛋白編碼基因共有28 298 個(gè)[43]。葫蘆科作物的蛋白編碼基因比較和長(zhǎng)鏈非編碼RNA(Long non-coding RNA,lincRNA)分析結(jié)果表明,南瓜全基因組復(fù)制是通過(guò)復(fù)制基因的新功能化而加快其基因家族的進(jìn)化速度[43]。
苦瓜(Momordica charantiaL.,2n=2x=22)是一種重要的蔬菜和藥用植物,因果實(shí)富含具有特殊苦味的三萜化合物而命名[44]。苦瓜基因組約339 Mb,Urasaki 等[45]以苦瓜自交系OHB3-1為材料,通過(guò)Illumina 測(cè)序,測(cè)序深度為110×,從頭組裝了285.5 Mb 的苦瓜基因組,其scaffold N50 為1.1 Mb,基因組覆蓋率約84%。在組裝的苦瓜基因組中,共鑒定到45 859 個(gè)蛋白編碼基因,其數(shù)量遠(yuǎn)高于黃瓜、甜瓜、西瓜等其他葫蘆科作物[16,29,34,45]。
隨后,Cui 等[46]完成了對(duì)苦瓜栽培種Dali-11(基因組約為300 Mb)和野生材料TR(基因組約為300 Mb)的全基因組從頭測(cè)序,測(cè)序深度分別為251×和185×,從頭組裝的基因組大小分別是293.6 Mb(scaffold N50 為3.3 Mb)和296.3 Mb(scaffold N50 為0.6 Mb)。預(yù)測(cè)的蛋白編碼基因分別為26 427 個(gè)(Dali-11)和28 827 個(gè)(TR),其數(shù)量與黃瓜、西瓜、甜瓜等葫蘆科作物的蛋白編碼基因相近,但遠(yuǎn)少于苦瓜OHB3-1 基因組中的數(shù)量[16,29,34,45-46]。進(jìn)一步對(duì)從全球16 個(gè)國(guó)家收集到的187 份苦瓜種質(zhì)進(jìn)行重測(cè)序,通過(guò)基因組遺傳多樣性分析,發(fā)現(xiàn)以TR為代表的21 份野生苦瓜與166 份栽培苦瓜具有顯著的遺傳分化,推測(cè)大果型栽培苦瓜charantia 來(lái)源于小果型栽培苦瓜muricata,而不是來(lái)源于野生苦瓜macroloba[46]。
2022 年10 月,F(xiàn)u 等[47]利用Illumina 測(cè)序平臺(tái)完成苦瓜變種金鈴子的基因組測(cè)序,測(cè)序深度為74.31×,組裝獲得295.6 Mb 的基因組序列。本次組裝的金鈴子基因組是一個(gè)具有高完整性和準(zhǔn)確性的端粒至端粒的高質(zhì)量基因組,其scaffold N50 達(dá)到25.4 Mb,蛋白編碼基因?yàn)?9 895 個(gè)。在金鈴子苦瓜11 條染色體中,有8 條均無(wú)gap 存在,其中6 條同時(shí)檢測(cè)到兩段的端粒信號(hào)[47]。結(jié)合轉(zhuǎn)錄組和代謝組分析,進(jìn)一步揭示金鈴子果實(shí)色素積累與葫蘆素生物合成機(jī)制[47]。
葫蘆(Lagenaria siceraria,2n=2x=22)起源于撒哈拉沙漠以南的非洲地區(qū),是葫蘆科重要作物,因具有較好的抗病性和耐冷性而常被用作砧木[48-49]。葫蘆的基因組約334 Mb[50],Wu 等[51]以葫蘆高代自交系USVL1VR-Ls 為材料,利用Illumina HiSeq2500 測(cè)序平臺(tái)進(jìn)行全基因組從頭測(cè)序,測(cè)序深度為395×,組裝獲得313.4 Mb 的基因組序列,其N50 為8.7 Mb,共預(yù)測(cè)到22 472 個(gè)蛋白編碼基因。Wu 等[51]基于比較基因組學(xué)分析確定了葫蘆與其他葫蘆科作物直接的線性關(guān)系以及譜系特異性基因家族的擴(kuò)增特點(diǎn),并通過(guò)重建葫蘆科最新共同祖先的基因組,揭示葫蘆科祖先的核型由12 個(gè)原染色體和18 534 個(gè)原基因組成,且這12 個(gè)原染色體大部分保留在目前的甜瓜基因組中,而其他葫蘆科作物的基因組則經(jīng)歷了不同程度的重排事件。
冬瓜(Benincasa hispidaCogn.,2n=2x=24)起源于我國(guó)南部和印度,廣泛分布于亞洲的熱帶、亞熱帶及溫帶地區(qū),是我國(guó)最重要的北運(yùn)菜和度淡蔬菜之一。冬瓜是目前已知葫蘆科中基因組最大的作物,達(dá)到1.03 Gb[52]。2019 年,廣東省農(nóng)業(yè)科學(xué)院蔬菜研究所聯(lián)合中國(guó)農(nóng)業(yè)科學(xué)院蔬菜花卉研究所等國(guó)內(nèi)外單位,以黑皮冬瓜自交系B227 為材料,利用Illumina 和單分子實(shí)時(shí)(Singlemolecular real-time,SMAT)測(cè)序技術(shù)完成冬瓜全基因組從頭測(cè)序,測(cè)序深度為50×,組裝獲得913 Mb 的基因組序列,其scaffold N50 為3.4 Mb,最長(zhǎng)scaffold 為14.5 Mb,并預(yù)測(cè)了27 467 個(gè)蛋白編碼基因[52]。通過(guò)6 個(gè)葫蘆科作物的基因組比較分析,揭示冬瓜基因組代表了最古老的核型,并預(yù)測(cè)祖先基因組擁有15 條始祖染色體。進(jìn)一步完成146份核心資源的重測(cè)序,將其分成野生種(W)、地方種(L)和栽培種(C)等不同類群,其中栽培種又分黑皮冬瓜(C1)和粉皮冬瓜(C2)亞群。同時(shí),構(gòu)建了一張包含1 600 萬(wàn)個(gè)SNP 的基因組變異圖譜,發(fā)現(xiàn)冬瓜果實(shí)變大經(jīng)歷了從野生種到地方種、再到栽培種的兩步進(jìn)化歷程[52]。
為豐富冬瓜參考基因組,Luo 等[53]以粉皮冬瓜自交系pf3 為材料,利用PacBio Sequel II 和Illumina NovaSeq-6000 測(cè)序平臺(tái)完成從頭測(cè)序,測(cè)序深度為230×,組裝的基因組大小為975.6 Mb,其scaffold N50 高達(dá)70.97 Mb,共預(yù)測(cè)到37 092 個(gè)蛋白編碼基因,其中85.05%的基因具有功能注釋。
絲瓜(2n=2x=26)起源于印度,是一種重要的蔬菜作物,廣泛分布于溫帶和熱帶地區(qū)[54]。我國(guó)絲瓜共有2 種,即普通絲瓜(Luff a cylindrica)和有棱絲瓜(L.acutangula)。2020年,河南農(nóng)業(yè)大學(xué)以普通絲瓜(基因組約為737 Mb)為材料,結(jié)合單分子實(shí)時(shí)測(cè)序(SMRT)、Illumina 測(cè)序和Hi-C 等方法,獲得74 Gb 的高質(zhì)量序列,組裝的基因組大小為669 Mb,其contig N50 和scaffold N50 分別為5 Mb 和53 Mb,并預(yù)測(cè)到31 661 個(gè)蛋白編碼基因[55]。同年,廣東省農(nóng)業(yè)科學(xué)院蔬菜研究所以普通絲瓜高代自交系P93075 為材料,利用PacBio、Illumina 和Hi-C 技術(shù)進(jìn)行基因組測(cè)序,組裝的基因組為656.2 Mb,其scaffold N50 為48.76 Mb,共有25 508 個(gè)蛋白編碼基因[56]。許多與生物和非生物脅迫相關(guān)的基因在絲瓜基因組中進(jìn)行擴(kuò)增(絲瓜基因組共有462 個(gè)NBS-LRR 基因,遠(yuǎn)多于其他葫蘆科作物),該結(jié)果與絲瓜的高抗性相一致[56]。
蛇瓜(Trichosanthes anguinaL.,20=2x=22)原產(chǎn)于印度,世界各地普遍栽培,是集觀賞、食用和藥用價(jià)值于一身的重要葫蘆科作物[15,57-58]。Ma 等[59]采用Illumina 測(cè)序平臺(tái)完成蛇瓜基因組從頭測(cè)序,測(cè)序深度為108.5×,并利用Hi-C 技術(shù)組裝獲得919.8 Mb 的基因組,被掛載到11 條染色體上。蛇瓜基因組共注釋到22 874 個(gè)蛋白編碼基因,而重復(fù)序列占整個(gè)基因組的80.0%[59]。系統(tǒng)發(fā)育分析結(jié)果表明絲瓜與蛇瓜的近緣關(guān)系最為密切,可能于3 300 萬(wàn)~4 700 萬(wàn)年前由它們的共同祖先分化而來(lái)[59]。
佛手瓜(Sechium edule,2n=2x=28)原產(chǎn)于墨西哥,是一種藥食兼用型蔬菜作物。佛手瓜基因組大小為710.23 Mb,F(xiàn)u 等[60]利用Nanopore三代測(cè)序技術(shù)完成基因組從頭測(cè)序,測(cè)序深度為151×,進(jìn)一步利用Hi-C 技術(shù)組裝獲得606.4 Mb 的基因組序列,被掛載到14 條染色體上,其scaffold N50 為46.56 Mb,基因組共含有28 237 個(gè)蛋白質(zhì)編碼基因。通過(guò)與其他物種基因家族比較,發(fā)現(xiàn)佛手瓜與蛇瓜的進(jìn)化關(guān)系最為密切,并可能于2 700 萬(wàn)~4 500 萬(wàn)年前由它們的共同祖先分化而來(lái),同時(shí)研究發(fā)現(xiàn)佛手瓜在2500(±400)萬(wàn)年間發(fā)生過(guò)一次全基因組復(fù)制事件,是葫蘆科內(nèi)的第三次全基因組復(fù)制事件,為佛手瓜的基因進(jìn)化研究提供了理論依據(jù)[60]。
在基因組測(cè)序開(kāi)展之前,葫蘆科作物的共同原始祖先具有什么特征,不同物種之間的進(jìn)化關(guān)系如何尚不清楚。隨著黃瓜、甜瓜、西瓜、南瓜和葫蘆參考基因組的陸續(xù)發(fā)布,人們推測(cè)葫蘆科作物的祖先含有12條染色體,與甜瓜最為接近[51]。冬瓜基因組測(cè)序后,Xie 等[52]發(fā)現(xiàn)冬瓜比甜瓜更為保守,是迄今發(fā)現(xiàn)擁有最古老基因組的葫蘆科作物,并推斷它們起源于一個(gè)擁有15 條染色體的祖先基因組,經(jīng)過(guò)染色體多次斷裂和融合等事件形成目前豐富多樣的葫蘆科大家族。Guo 等[13]以葫蘆科52 個(gè)屬136 個(gè)物種的轉(zhuǎn)錄組與基因組數(shù)據(jù)為基礎(chǔ),確認(rèn)了葫蘆科作物屬以上的親緣關(guān)系(圖1),揭示葫蘆科最近共同祖先起源于白堊紀(jì)晚期,推測(cè)基因組加倍事件是促使葫蘆科作物起源后快速分化的原因。
圖1 葫蘆科作物親緣關(guān)系[13]Fig.1 Relationship between Cucurbitacea crops[13]
參考基因組是挖掘與農(nóng)藝性狀緊密關(guān)聯(lián)基因的基石??辔妒怯绊扅S瓜商品性的重要農(nóng)藝性狀,在黃瓜參考基因組的基礎(chǔ)上,結(jié)合黃瓜變異組圖譜、傳統(tǒng)的基因定位方法、生物化學(xué)與分子生物學(xué)等技術(shù)手段進(jìn)行系統(tǒng)分析,發(fā)現(xiàn)9個(gè)控制黃瓜果實(shí)苦味物質(zhì)葫蘆素的合成基因以及2 個(gè)參與調(diào)控苦味物質(zhì)合成的調(diào)控因子Bl和Bt[16-17,61],其中Bl調(diào)控葉片苦味、而B(niǎo)t調(diào)控果實(shí)苦味[61]。
全基因組關(guān)聯(lián)分析(GWAS)是研究基因組序列變異與目標(biāo)性狀關(guān)聯(lián)程度、挖掘候選基因的重要方法。在葫蘆科作物基因組測(cè)序的基礎(chǔ)上,基于核心種質(zhì)資源或自交系材料的重測(cè)序開(kāi)展全基因組關(guān)聯(lián)分析,挖掘到許多控制重要農(nóng)藝性狀的候選基因。Zhao 等[32]通過(guò)1 067 份甜瓜資源的全基因組關(guān)聯(lián)分析,除鑒定到已報(bào)道的性別決定基因CmACS-7、果肉顏色基因CmOr、果皮顏色基因CmKFB和酸度基因CmPH外,還分別獲得76、29 和99 個(gè)與產(chǎn)量、果實(shí)品質(zhì)和外觀性狀相關(guān)的基因位點(diǎn)。基于146 份冬瓜核心種質(zhì)資源的重測(cè)序和全基因組關(guān)聯(lián)分析結(jié)果,Yan等[62]和Luo 等[63]進(jìn)一步通過(guò)基于遺傳圖譜的基因定位,初步明確編碼跨膜O-酰基轉(zhuǎn)移酶和YABBY 轉(zhuǎn)錄因子的基因分別控制冬瓜果實(shí)表面蠟粉和種子籽型形成的候選基因。Du 等[64]在全基因組關(guān)聯(lián)分析基礎(chǔ)上,進(jìn)一步通過(guò)基因定位推斷一個(gè)編碼AGAMOUS MADS-box 轉(zhuǎn)錄因子的MELO3C019694.2為決定甜瓜果實(shí)表面棱溝有無(wú)的候選基因。
葫蘆科不同物種參考基因組的繪制,顯著促進(jìn)了該領(lǐng)域分子生物學(xué)研究水平。然而,前期的Roche 454、Sanger 和Illumina 測(cè)序平臺(tái)的讀長(zhǎng)相對(duì)較短(100~150 bp),且依賴于遺傳圖譜輔助組裝,高重復(fù)區(qū)域或著絲粒區(qū)域存在大量的gap 區(qū)域,限制了其在后續(xù)研究中的應(yīng)用。隨著測(cè)序技術(shù)的發(fā)展,三代測(cè)序讀長(zhǎng)顯著提升(如Nanopore 讀長(zhǎng)可達(dá)150 kb),可以填補(bǔ)基因組中大片段的gap。近年來(lái),基于PacBio HiFi、Hi-C 及Nanopore ultralong 測(cè)序技術(shù),構(gòu)建端粒到端粒(T2T)基因組逐漸成為研究熱點(diǎn)。T2T 基因組具有高度準(zhǔn)確性、連續(xù)性、完整性,有助于深入研究基因組中高重復(fù)序列區(qū)域,為研究著絲粒區(qū)域或未知高重復(fù)區(qū)域的變異特征提供了契機(jī)。在葫蘆科作物中,西瓜[38]和苦瓜[47]T2T 參考基因組已有報(bào)道,其基因組的連續(xù)性和完整性得到顯著提高。因此,對(duì)其他參考基因組質(zhì)量相對(duì)不太完善的葫蘆科作物,組裝T2T 高質(zhì)量參考基因組可能將為新功能基因鑒定和物種遺傳變異分析奠定基礎(chǔ)。
葫蘆科作物同一物種內(nèi)遺傳變異豐富,單一或少數(shù)幾個(gè)參考基因組不能完整呈現(xiàn)這些資源中的所有遺傳變異,以單一參考基因組進(jìn)行基因組學(xué)研究容易出現(xiàn)偏差或錯(cuò)誤。構(gòu)建來(lái)自多個(gè)個(gè)體的高質(zhì)量泛基因組,不僅能在基因組水平上更全面地解析物種間的遺傳變異,探明不同個(gè)體表型差異的遺傳基礎(chǔ),而且可通過(guò)對(duì)多個(gè)物種、亞種間基因組比較分析,挖掘其特有基因和變異位點(diǎn),為功能基因研究和全基因組設(shè)計(jì)育種奠定基礎(chǔ)。目前,黃瓜、西瓜、甜瓜已完成多個(gè)參考基因組和大量核心資源基因組重測(cè)序,并利用全基因組關(guān)聯(lián)分析挖掘了多個(gè)重要性狀的關(guān)鍵候選基因。然而,其他葫蘆科作物雖然組裝了參考基因組,但是基因組深入分析與利用不足。因此,泛基因組構(gòu)建及應(yīng)用將成為今后葫蘆科作物基因組學(xué)研究的熱點(diǎn)。