李雪松,劉紹雄,孫達(dá)鋒,張俊波,馬 明,羅孝坤,岳萬松,華 蓉**
(1.云南云菌(集團(tuán))有限公司,云南 昆明 650221;2.云南省食用菌產(chǎn)業(yè)發(fā)展研究院,云南 昆明 650221;3.中華全國(guó)供銷合作總社昆明食用菌研究所,云南 昆明 650221)
大球蓋菇(Stropharia rugosoannulata Farl. ex Murrill) 別名皺環(huán)球蓋菇、酒紅色球蓋菇、皺球蓋等,商品名為赤松茸[1-2],是一種營(yíng)養(yǎng)豐富、味道鮮美的食用菌,也是極具開發(fā)潛力的藥用真菌[3-4]。大球蓋菇多糖對(duì)大鼠的精神疲勞、運(yùn)動(dòng)疲勞和免疫力、抗氧化、抗病毒等方面有積極影響,同時(shí)對(duì)癌細(xì)胞有極顯著的抑制作用[5-8]。此外,大球蓋菇凝集素對(duì)肝癌Hep-G2細(xì)胞和白血病L1210 細(xì)胞均有抗增殖活性[9-10]。
大球蓋菇的市場(chǎng)需求在逐年擴(kuò)大,現(xiàn)在普遍售賣的品種菌蓋為紅褐色至葡萄酒紅色,或暗褐色品種。金黃色大球蓋菇品種“中菌金球蓋1 號(hào)”是大球蓋菇新品種,具有菌蓋顏色鮮艷、菌褶顏色淺、產(chǎn)量高等優(yōu)良性狀,市場(chǎng)潛力巨大[11]。目前對(duì)大球蓋菇的研究,主要集中于其化學(xué)成分、胞外酶、生物學(xué)特性、原生質(zhì)體再生和單核化、栽培、加工方法等方面[12]。對(duì)于大球蓋菇各栽培種之間的遺傳關(guān)系,不同品種的產(chǎn)量、顏色、出菇溫度等具有較大差異的性狀的控制基因,以及這些基因的遺傳機(jī)理的相關(guān)研究尚未見報(bào)道[13]。
基因組是一個(gè)細(xì)胞或一個(gè)生物體的所有遺傳信息的集合,這些信息可以闡明生物有機(jī)體與其所處環(huán)境之間的協(xié)調(diào)機(jī)制,讓研究者可以通過某一物種特定的遺傳背景上直接去分析相關(guān)的生物學(xué)問題。目前,隨著高通量測(cè)序技術(shù)的快速發(fā)展,在大型真菌中已有近323 種(其中315 種分屬于70 個(gè)科,另外有8 個(gè)種不確定科別) 已完成或部分完成基因組測(cè)序和基因組大小評(píng)估[14]。通過高通量測(cè)序技術(shù),對(duì)金黃色大球蓋菇品種“中菌金球蓋1 號(hào)”(ZJJQG001) 的基因組大小、雜和率、(G+C) 含量及等信息進(jìn)行評(píng)估,為后續(xù)大球蓋菇全基因組的測(cè)序策略以及高質(zhì)量完整基因組圖譜的繪制打下基礎(chǔ),同時(shí)對(duì)大球蓋菇顏色調(diào)控基因的挖掘、菌株篩選等研究具有重要意義。
試驗(yàn)材料為金黃色大球蓋菇“中菌金球蓋1號(hào)”。樣品于2021 年6 月采自中華全國(guó)供銷合作總社昆明食用菌研究所寶峰基地實(shí)驗(yàn)大棚,帶回實(shí)驗(yàn)室后取組織塊放置于凍存管內(nèi),液氮速凍30 min 以上,后置于-80℃超低溫冰箱保存,備用。
采用改良CTAB 法提取基因組DNA,使用德國(guó)Qiagen Q13343 試劑盒純化。用NanoDrop 檢測(cè)儀和Qubit 檢測(cè)儀檢測(cè)濃度和純度。采用0.7%瓊脂糖凝膠脈沖電泳檢測(cè),Marker 使用日本寶生物公司(TaKaRa) 15 kb DNA Marker 和λDNA /HindIII。
隨機(jī)打斷大球蓋菇的DNA 樣品,構(gòu)建1 個(gè)片段大小為500 bp 的文庫。構(gòu)建好的文庫通過武漢希望組生物科技有限公司的MGI PE150 測(cè)序平臺(tái)進(jìn)行雙末端測(cè)序。
原始數(shù)據(jù)需要進(jìn)行質(zhì)控處理,過濾低質(zhì)量序列。首先利用軟件fastp 對(duì)原始數(shù)據(jù)進(jìn)行過濾,過濾標(biāo)準(zhǔn)包括:去掉reads 接頭序列;截掉reads 兩端測(cè)序不準(zhǔn)確的左右各5 個(gè)堿基;去除當(dāng)中含有N 的reads;當(dāng)一條reads 中超過20%的堿基質(zhì)量分?jǐn)?shù)小于20%,則舍棄該reads 所對(duì)應(yīng)的一對(duì)reads。然后使用軟件FastQC 對(duì)有效數(shù)據(jù)(clean data) 進(jìn)行質(zhì)控,若質(zhì)控合格,則進(jìn)行后續(xù)分析。
隨機(jī)取100 000 條質(zhì)控后的reads,利用BLASTN 將其與NT 數(shù)據(jù)庫進(jìn)行比對(duì)[15],統(tǒng)計(jì)reads在NT 庫中的具體比對(duì)物種及分布比例,以此來判斷數(shù)據(jù)的污染情況。
利用findGSE 軟件[16]對(duì)序列文件中長(zhǎng)度為k 的短序列(K-mer) 進(jìn)行計(jì)數(shù)和統(tǒng)計(jì);隨后,使用python 的scipy 包,根據(jù)擬南芥的基因組測(cè)序數(shù)據(jù),模擬目標(biāo)序列對(duì)應(yīng)深度下的雜合度,預(yù)估基因組大小和雜合度。
采用K-mer=17 構(gòu)建Contigs 和Scaffold,利用高質(zhì)量數(shù)據(jù)進(jìn)行SOAP de novo[17]組裝,得到Scaffold 序列后用SOAP 將過濾后的reads 比對(duì)到該組裝序列上直接拼接,獲得原始基因組序列及堿基深度[15]。對(duì)組裝的基因組序列以5 kb 為窗口,無重復(fù)計(jì)算片段的平均(G+C) 含量和平均深度并作圖,可以根據(jù)此圖判斷出測(cè)序數(shù)據(jù)的(G+C) 偏向性和存在污染等問題。
金黃色大球蓋菇“中菌金球蓋1 號(hào)”的子實(shí)體經(jīng)過基因組DNA 提取后,獲得107 uL 的提取液。經(jīng)NanoDrop 檢 測(cè) 質(zhì) 量 濃 度 為447.1 ng·μL-1,OD260/280 比值為1.89,OD260/230 比值為2.32;Qubit 檢測(cè)質(zhì)量濃度為326.0 ng·μL-1,DNA 總量為34.9 ng。提取的基因組DNA 的Nc/Qc(NanDrop 檢測(cè)質(zhì)量濃度/Qubit 檢測(cè)質(zhì)量濃度) 的比值為1.37,說明提取DNA 質(zhì)量較好。
采用0.7%瓊脂糖凝膠脈沖電泳檢測(cè)。樣本DNA主帶在20 000 bp 以上,輕微斷裂,輕微降解,點(diǎn)樣孔中有輕微殘留,滿足建庫測(cè)序所需質(zhì)量要求。
提取的基因組DNA 測(cè)序獲得7.87 Gb 的原始數(shù)據(jù)(raw data),經(jīng)過質(zhì)控后得到約7.25 Gb 的有效數(shù)據(jù)(clean data)。正、反向測(cè)序數(shù)據(jù)分別為read1、read2,數(shù)據(jù)質(zhì)量良好,可用于后續(xù)基因組大小估計(jì)、contigs 序列構(gòu)建等分析。測(cè)序產(chǎn)出的原始read(raw read) 為52 442 796 條,過濾后的有效read(clean read) 為52 173 844 條,Q30 值為91.63%、(G+C)含量為47.25%。經(jīng)過分析獲得金黃色球蓋菇的基因組的測(cè)序深度為140×。
在開展進(jìn)一步分析前,可通過4 個(gè)堿基的含量與平均(G+C) 含量分布,初步判斷數(shù)據(jù)的質(zhì)量。質(zhì)控后堿基含量分布見圖1,平均(G+C) 含量分布見圖2。
圖2 平均(G+C) 含量分布圖Fig.2 Distribution diagram of average (G+C) content
如圖1 所示,由于第二代高通量測(cè)序技術(shù)本身特性的限制,導(dǎo)致測(cè)序的前十幾個(gè)堿基含量會(huì)有一定的波動(dòng)。但在十幾個(gè)堿基以后,A 與T、G 與C含量基本一致,表明數(shù)據(jù)堿基含量合格。平均(G+C) 含量分布是否符合正態(tài)分布是判斷測(cè)序數(shù)據(jù)污染或部分reads 構(gòu)成子集偏差的重要標(biāo)準(zhǔn)之一。如圖2所示,所得質(zhì)控?cái)?shù)據(jù)的平均(G+C) 含量分布曲線形狀接近正態(tài),說明數(shù)據(jù)質(zhì)量良好。
隨機(jī)取100 000 條質(zhì)控后的reads,利用BLASTN將其與NT 數(shù)據(jù)庫進(jìn)行比對(duì),統(tǒng)計(jì)reads 在NT 庫中的具體比對(duì)物種及分布比例[15],結(jié)果見表1。
由表1 中可以看出,質(zhì)控后的數(shù)據(jù)有93%未在數(shù)據(jù)庫中找到對(duì)應(yīng)序列,但比對(duì)匹配到的物種都是與試驗(yàn)材料近緣的大型真菌。其中,可以匹配上的數(shù)據(jù)中有一半以上都能比對(duì)到大球蓋菇的片段,表明測(cè)序數(shù)據(jù)無污染,獲得的數(shù)據(jù)就是大球蓋菇的基因組數(shù)據(jù)。
果然,當(dāng)我推開家里的門時(shí),穎春正站在門口像迎接貴賓一樣等著我,而且,屋子里擺滿了鮮花。穎春笑瞇瞇地對(duì)我說,歡迎孫局長(zhǎng)回家。我卻沒好氣地說,現(xiàn)在,你該滿意了吧?穎春一把擁住我說,怎么能說滿意呢?那不是一般的滿意,而是相當(dāng)?shù)臐M意。我卻推開了她說,穎春,可能要讓你失望了,今天下午,我已經(jīng)找周書記辭職了。穎春聽了,像看著一個(gè)癲子一樣看著我,然后,便哭著一枝枝地撕碎了那些擺在屋子里的鮮花。
表1 物種比對(duì)統(tǒng)計(jì)Tab.1 Species comparison statistics
用K-mer=17 進(jìn)行分析時(shí)使用的是質(zhì)控后的有效數(shù)據(jù)(7.25 Gb),獲得了1 548 216 004 個(gè)K-mer,深度為140×,得出其頻率分布詳見圖3。
圖3 金黃色大球蓋基因組K-mer 為17 的分布曲線及雜合率模擬曲線Fig.3 The frequency distribution of K-mer=17 and simulation curves of heterozygosity in S. rugosoannulat(golden yellow)
從圖3 可以看出,深度為29×?xí)r出現(xiàn)的頻率最高,分布曲線成峰的情況較好,即在29×附近有個(gè)主峰值?;蚪M中雜合子和重復(fù)序列的存在影響了K-mer 深度分布[18]。在最高峰值的一半左右會(huì)出現(xiàn)一個(gè)小峰,因此判斷大球蓋菇基因組具有一定的雜合率。利用KMC 進(jìn)行評(píng)估,并利用模式物種擬南芥(雜合率0.80%) 的基因組模擬對(duì)應(yīng)深度的短片段數(shù)據(jù),在雜合率不同梯度組合情況下進(jìn)行K-mer 曲線擬合來估計(jì)大球蓋菇的雜合率[15],最終得到其雜合率為0.80%。
根據(jù)Survey 分析的結(jié)果,在深度為29×附近是主峰值,通過公式計(jì)算得到金黃色大球蓋菇的初步基因組大小為53.39 Mb 左右。
金黃色大球蓋菇基因組組裝分析結(jié)果見表2。
表2 金黃色大球蓋基因組組裝結(jié)果統(tǒng)計(jì)Tab.2 Genome assembly results of S. rugosoannulata(golden yellow) genome
如表2 所示,初步組裝后的金黃色大球蓋菇基因組大小為55.20 Mb,Contig N50 和Scaffold N50 為14 943 bp;scaffold 長(zhǎng)度為55 195 731.00 bp,scaffold 數(shù)量為25 802.00 條;contig 長(zhǎng)度為55 195 731.00 bp,contig 數(shù)量為25 802.00 條,其中最長(zhǎng)為361 801 bp,總長(zhǎng)為55 195 731 bp。金黃色大球蓋菇的基因組信息顯示該基因組為具有一定雜合率的復(fù)雜基因組,后續(xù)的測(cè)序和組裝需要考慮采用更長(zhǎng)的測(cè)序讀長(zhǎng)和更精確的測(cè)序方法來克服基因組的雜合問題。
金黃色大球蓋菇的(G+C) 含量和覆蓋深度見圖4。
由圖4 可知,大球蓋菇的基因組堿基深度主要分布在50×~80×和100×~160×;基因平均(G+C)含量主要分布在40%~60%?;蚪M(G+C) 含量無明顯分離的聚團(tuán)現(xiàn)象,基因組堿基深度有少量分離,說明基因組中無明顯其他外源污染,大球蓋菇為高雜合的物種。
如表3 所示,目前球蓋菇屬已有1 種紅色大球蓋菇[19]完成了全基因組測(cè)序,基因組大小為50.41 Mb,(G+C) 含量為47.8%。本研究中,基于第二代高通量測(cè)序技術(shù)的金色大球蓋菇的基因組大小為55.20 Mb,與紅色大球蓋菇的基因組大小相近,比其略大,在整個(gè)科的基因組中屬于中等大小。
表3 大球蓋菇基因組組裝結(jié)果與12 個(gè)球蓋菇科基因組比較Tab.3 Comparison of Stropharia rugosoannulata assembly results with twelve Strophariaceae genomes
同時(shí),結(jié)合圖4 可知,金黃色大球蓋菇基因組的(G+C) 含量為47.25%,與目前已測(cè)的球蓋菇科近緣物種基因組的含量相近[20-23]。雖然,球蓋菇科的各個(gè)物種的(G+C) 含量存在一定的差異,但(G+C)含量都位于46%~51%之間,沒有明顯的過高或過低的現(xiàn)象。本次測(cè)序獲得的數(shù)據(jù)的覆蓋度為140×,在整個(gè)球蓋菇科物種中屬于高覆蓋度的物種,僅次于紅韌黑傘(Hypholoma sublateritium)[24]和古巴光蓋傘(Psilocybe cubensis),結(jié)果是較為準(zhǔn)確和可靠的。
圖4 金黃色大球蓋菇的(G+C) 含量和覆蓋深度Fig.4 (G+C) content and average depth of Stropharia rugosoannulata
菌類在自然界中占據(jù)重要的生態(tài)位,同時(shí)又是人類的食用和藥用資源的重要來源[13];同時(shí),具有豐富的生物多樣性,包括物種多樣性、遺傳多樣性和生態(tài)多樣性。但在我國(guó)食用菌產(chǎn)業(yè)的高速發(fā)展過程中,也出現(xiàn)了許多的科學(xué)問題[25],其中一些問題需要運(yùn)用遺傳學(xué)的方法來進(jìn)行解答。目前隨著高通量測(cè)序、遺傳轉(zhuǎn)化、基因編輯等分子生物學(xué)技術(shù)廣泛、成功地運(yùn)用于遺傳學(xué)多個(gè)方面的研究,食用菌遺傳學(xué)正在成為一個(gè)研究熱點(diǎn)領(lǐng)域[25]。
通過對(duì)金黃色大球蓋菇品種“中菌金球蓋1號(hào)”進(jìn)行全基因組調(diào)查,獲得了7.87 Gb 的高通量測(cè)序數(shù)據(jù),基于K-mer 為17 進(jìn)行Survey 分析。金黃色球蓋菇的基因組大小約為55.20 Mb ,GC 含量為47.25%,雜合率為0.80%,與球蓋菇屬的多脂鱗傘、磚紅韌黑傘[23]、古巴光蓋傘等物種的基因組特征相似。但由于大球蓋菇的雜合度為0.80%,后續(xù)考慮采用三代測(cè)序(Nanopore) 結(jié)合二代測(cè)序(Illumina) 以及光學(xué)圖譜(Bio-NANO) 的策略來獲得高質(zhì)量的基因組精細(xì)圖,甚至是染色體級(jí)別的基因組完成圖。
上述研究得到的金黃色大球蓋菇Survey 分析結(jié)果,將為高質(zhì)量基因組完成圖譜的繪制提供重要的科學(xué)依據(jù)。同時(shí),為下一步金黃色球蓋菇的顏色調(diào)控等遺傳機(jī)理研究和菌株篩選等提供了一定的理論基礎(chǔ)。