王桂瑤,常延斌,郭建華,郭 超,奚家勤,胡利偉,蔡憲杰,宋紀(jì)真*
1.中國(guó)煙草總公司鄭州煙草研究院,鄭州高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū)楓楊街2號(hào) 450001 2.廣東省糧食科學(xué)研究所,廣州市越秀區(qū)越秀北路222號(hào) 510050 3.上海煙草集團(tuán)有限責(zé)任公司,上海市楊浦區(qū)長(zhǎng)陽(yáng)路717號(hào) 200082
煙草粉螟[Ephestia elutella(Hübner)],屬鱗翅目(Lepidoptera)螟蛾科(Pyralidae),又名煙草粉斑螟、煙草螟蛾等,是一種世界性倉(cāng)貯害蟲(chóng)[1]。煙草粉螟廣泛分布于熱帶及溫帶地區(qū),其幼蟲(chóng)可為害貯存期煙草、咖啡、可可和干果等,尤其喜食含糖多、含煙堿少的中高等級(jí)烤煙[1-4],給煙草行業(yè)造成巨大的經(jīng)濟(jì)損失。
隨著測(cè)序技術(shù)的不斷進(jìn)步和生物信息學(xué)的持續(xù)發(fā)展,轉(zhuǎn)錄組、基因組、蛋白組和代謝組等組學(xué)研究手段被越來(lái)越多地應(yīng)用于昆蟲(chóng)學(xué)研究,為昆蟲(chóng)學(xué)研究提供了新的機(jī)遇[5-6]。昆蟲(chóng)基因組學(xué)研究是當(dāng)前的研究熱點(diǎn),目前,已有1 219項(xiàng)昆蟲(chóng)基因組測(cè)序計(jì)劃在NCBI注冊(cè),其中有401種昆蟲(chóng)完成了基因組拼接,為昆蟲(chóng)分子生物學(xué)研究提供了豐富的數(shù)據(jù)資源[5-7]。例如,晉家正等[8]對(duì)藥用美洲大蠊(Periplaneta americana)全基因組進(jìn)行測(cè)序分析,為美洲大蠊藥用基因資源挖掘奠定基礎(chǔ)。二化螟(Chilo suppressalis)基因組研究揭示了二化螟耐寒性的遺傳基礎(chǔ)[9]。張屾[10]鑒定了棉鈴蟲(chóng)(Helicoverpa armigera)基因組中與食性相關(guān)的基因家族,闡述了其多食性的分子機(jī)制,為棉鈴蟲(chóng)的綠色防控奠定基礎(chǔ)。然而,由于目前煙草粉螟基因組信息的匱乏,國(guó)內(nèi)外有關(guān)煙草粉螟的研究主要集中在生物學(xué)特性、生態(tài)學(xué)特性、抗藥性及生物防治等方面[11-21],而關(guān)于煙草粉螟遺傳、進(jìn)化、生長(zhǎng)、發(fā)育和繁殖等分子水平的研究還較少。因此,對(duì)煙草粉螟基因組進(jìn)行研究有助于從系統(tǒng)生物學(xué)層面闡述其爆發(fā)成災(zāi)的分子機(jī)制,篩選鑒定其潛在的生物防治或化學(xué)防治靶基因,從而為開(kāi)發(fā)綠色、安全的新型害蟲(chóng)防治策略奠定理論基礎(chǔ)。
昆蟲(chóng)基因組具有高雜合和高重復(fù)的特點(diǎn),研究特定物種基因組,首先要對(duì)其進(jìn)行初步研究,評(píng)估其基因組大小、雜合度和重復(fù)序列,為全基因組測(cè)序和組裝提供重要依據(jù)[22]。昆蟲(chóng)基因組大小評(píng)估常使用兩種方法,一是通過(guò)流式細(xì)胞儀分析得到染色體組型信息并推斷其基因組大小,另一種是通過(guò)基因組調(diào)查分析預(yù)測(cè)基因組大小、重復(fù)序列和雜合度等[7,22]。昆蟲(chóng)之間基因組大小差異顯著,目前動(dòng)物基因組大小數(shù)據(jù)庫(kù)(Animal genome size database)提供了超過(guò)1 300條昆蟲(chóng)基因組大小數(shù)值,其中最大的是直翅目的斑腿蝗(Podisma pedestris,約16.6 Gb),基因組最小的為海濱搖蚊(Clunio tsushimensis,約68.5 Mb)[22]。基因組大小是研究基因組進(jìn)化、結(jié)構(gòu)和功能的重要參數(shù)之一,而重復(fù)序列數(shù)量、基因間隔區(qū)長(zhǎng)度和平均內(nèi)含子大小是決定昆蟲(chóng)基因組大小的主要因素[6,22-23]。另外,昆蟲(chóng)基因組大小是不斷變化的,堿基的插入和缺失、轉(zhuǎn)座子轉(zhuǎn)座和染色體變異等是個(gè)體水平基因組大小進(jìn)化的原動(dòng)力[22]。
本研究中基于低深度高通量測(cè)序?qū)煵莘勖蚪M進(jìn)行初步研究,采用K-mer法預(yù)測(cè)煙草粉螟基因組大小、雜合度和重復(fù)序列等信息,利用SOAPde novo軟件對(duì)煙草粉螟測(cè)序數(shù)據(jù)進(jìn)行初步組裝,旨在為后續(xù)測(cè)序提供合理方案,并為煙草粉螟基因組的深度測(cè)序和組裝提供參考。
煙草粉螟采集于中國(guó)煙草總公司鄭州煙草研究院煙草倉(cāng)貯實(shí)驗(yàn)室,并用人工飼料(小麥∶燕麥片∶全麥粉=7∶7∶1)飼養(yǎng)多代形成穩(wěn)定種群。飼養(yǎng)條件:30℃±1℃,相對(duì)濕度70%±5%,全暗。挑選個(gè)頭較大的煙草粉螟蛹0.5 g,去除體表附著的雜質(zhì),液氮速凍后,-70℃保存?zhèn)溆谩?/p>
利用DNA提取試劑盒(Insect gDNA Isolation Kit,美國(guó)Biomiga公司)提取煙草粉螟基因組DNA。首先利用瓊脂糖凝膠電泳定量對(duì)基因組DNA進(jìn)行初步檢測(cè),待檢測(cè)合格后,再利用Qubit Fluorometer(Invitrogen Qubit 2.0,美國(guó)Thermo Fisher Scientific公司)進(jìn)行DNA濃度測(cè)定,利用瓊脂糖凝膠電泳(膠濃度1%,電壓180 V)進(jìn)行DNA的完整性、純度和片段大小檢測(cè),確保DNA質(zhì)量達(dá)到建庫(kù)測(cè)序要求。
煙草粉螟基因組調(diào)查由北京諾禾致源科技股份有限公司完成。檢測(cè)合格的DNA樣品通過(guò)超聲波破碎隨機(jī)打斷成小片段(250 bp、500 bp),經(jīng)末端修復(fù)、加A尾、加測(cè)序接頭、純化、PCR擴(kuò)增等步驟完成整個(gè)文庫(kù)制備。構(gòu)建好的文庫(kù),通過(guò)Illumina Hiseq 2000測(cè)序平臺(tái)進(jìn)行PE150雙末端測(cè)序。測(cè)序得到的原始序列(Raw reads)必須進(jìn)行精細(xì)過(guò)濾,去除其中帶接頭的、低質(zhì)量的Reads,得到Clean reads。
取全部Raw reads,統(tǒng)計(jì)測(cè)序Reads數(shù)量、數(shù)據(jù)產(chǎn)量、測(cè)序錯(cuò)誤率、Q20含量、Q30含量和GC含量等。高通量測(cè)序中,每測(cè)一個(gè)堿基會(huì)產(chǎn)生一個(gè)相應(yīng)的質(zhì)量值,其中,Q20和Q30表示質(zhì)量值大于等于20或30的堿基所占百分比,主要是用來(lái)衡量測(cè)序準(zhǔn)確度的。測(cè)序數(shù)據(jù)質(zhì)量分布在Q30(≥80%)以上才能保證后續(xù)分析正常進(jìn)行。測(cè)序錯(cuò)誤率分布檢查用于檢測(cè)在測(cè)序長(zhǎng)度范圍內(nèi),有無(wú)異常的堿基位置存在高錯(cuò)誤率。一般情況下,每個(gè)堿基位置的測(cè)序錯(cuò)誤率都應(yīng)低于1%。GC含量分布檢查用于檢測(cè)有無(wú)AT、GC分離現(xiàn)象。
基于Clean reads,采用K-mer法對(duì)煙草粉螟基因組大小進(jìn)行估計(jì)[7,22]。當(dāng)K值為17時(shí),統(tǒng)計(jì)Kmer頻數(shù)分布,作K-mer分布曲線,計(jì)算K-mer的深度分布,并確定深度分布的峰值[24-25],使用SOAPde novo軟件得到K-mer總數(shù)。根據(jù)公式(基因組大小=K-mer總數(shù)/峰深度)估算煙草粉螟基因組大小。通過(guò)排除錯(cuò)誤K-mer帶來(lái)的誤差影響,修正基因組大小。通過(guò)計(jì)算序列中雜合位點(diǎn)的比例得到基因組雜合度。根據(jù)主峰后1.8倍的K-mer總數(shù)占所有K-mer數(shù)的百分比計(jì)算序列重復(fù)率。
使用SOAPde novo軟件對(duì)不同片段大小的序列進(jìn)行拼接[26],基本過(guò)程如下:首先利用Reads之間的重疊關(guān)系,并在重復(fù)邊界位置進(jìn)行剪切,得到Contigs序列,其次根據(jù)大片段數(shù)據(jù)的Pair-end關(guān)系,構(gòu)建Scaffolds序列,最后用Reads對(duì)Scaffolds的空隙區(qū)域進(jìn)行填補(bǔ)。
將本研究中獲得的煙草粉螟基因組信息(基因組大小、GC含量和Contig N50)與NCBI上已公布的其他鱗翅目昆蟲(chóng)基因組(https://www.ncbi.nlm.nih.gov/genome)進(jìn)行比較。
Qubit檢測(cè)DNA濃度為198 ng/μL,A260/280=1.81,A260/230=1.69,提取的DNA質(zhì)量較好。瓊脂糖凝膠電泳檢測(cè)顯示(圖1),樣本DNA主帶在48 000 bp以上,輕微斷裂,輕微降解,滿足建庫(kù)測(cè)序質(zhì)量要求。
圖1 瓊脂糖凝膠電泳檢測(cè)結(jié)果Fig.1 Test results of agarose gel electrophoresis
本研究中共獲得小片段文庫(kù)測(cè)序15 Gb的原始數(shù)據(jù)量,覆蓋深度大約26.9×,獲得煙草粉螟Reads數(shù)量為52 552 733條。測(cè)序錯(cuò)誤率為0.04%,Q20=97.48%,Q30=92.73%,說(shuō)明堿基測(cè)序準(zhǔn)確度較高,滿足后續(xù)數(shù)據(jù)分析要求。煙草粉螟基因組測(cè)序數(shù)據(jù)中A與T、C與G的互補(bǔ)堿基數(shù)基本一致,位置堿基N基本為零,但由于前幾個(gè)堿基測(cè)序質(zhì)量值較低以及DNA模板擴(kuò)增偏差等原因,常會(huì)導(dǎo)致每個(gè)Read前幾個(gè)堿基有較大波動(dòng),屬于正常情況(圖2)。
圖2 GC含量分布結(jié)果Fig.2 Results of GC content distribution
通過(guò)K-mer分析方法預(yù)測(cè)煙草粉螟基因組大小、雜合度和重復(fù)序列等基因組特征(表1)。當(dāng)取K=17時(shí),SOAPde novo軟件預(yù)測(cè)得到的K-mer數(shù)為11 715 804 970個(gè)。根據(jù)K-mer深度分布(圖3),利用公式估算出煙草粉螟修正基因組大小為546.4 Mb,基因組雜合度為1.93%,重復(fù)序列比率為48.59%。
表1 K-mer分析所得基因組特征統(tǒng)計(jì)分析Tab.1 Genomic characteristics by K-mer analysis
圖3 深度和K-mer頻率分布圖Fig.3 Depth and K-mer frequency distribution
利用SOAPde novo軟件對(duì)煙草粉螟測(cè)序數(shù)據(jù)進(jìn)行初步組裝(表2)。由于其基因組重復(fù)性較高,選擇K=41作為初步組裝的K-mer大小,首先組裝成Contigs,組裝得到的Contigs數(shù)量為3 192 823條,序列總長(zhǎng)為713 127 860 bp,最長(zhǎng)的序列長(zhǎng)度為59 643 bp,N50為244 bp。而后將Contigs組裝成Scaffolds,組裝得到的Scaffolds數(shù)量為3 054 965條,序列總長(zhǎng)為725 456 026 bp,最長(zhǎng)的序列長(zhǎng)度為162 813 bp,N50為288 bp。
表2 基因組組裝結(jié)果Tab.2 Results of genome assembly
目前已有13種鱗翅目昆蟲(chóng)(7種蛾類(lèi)和6種蝶類(lèi))的基因組被發(fā)表(表3),其中,蛾類(lèi)基因組大小介于為337~824 Mb之間,蝶類(lèi)基因組大小介于為227~389 Mb之間,最大的是二化螟(824 Mb),最小的是玉帶鳳蝶(Papilio polytes,227 Mb),而煙草粉螟(546 Mb)基因組大小介于它們之間。煙草粉螟基因組GC含量為36.9%,與已知鱗翅目昆蟲(chóng)相近。煙草粉螟Contig N50最小,組裝質(zhì)量低,主要是由于煙草粉螟的基因組測(cè)序深度低,只對(duì)其進(jìn)行了初步組裝。
表3 鱗翅目14種昆蟲(chóng)基因組信息Tab.3 Genomic information of 14 species of Lepidoptera
鱗翅目分為蛾類(lèi)和蝶類(lèi),是昆蟲(chóng)綱中的第二大目,但目前已發(fā)表的鱗翅目昆蟲(chóng)基因組仍然較少[7]。另外,與流式細(xì)胞儀分析法相比,基因組調(diào)查分析是一種更精確的分析未知基因組特征的方法[24],二化螟[9]和小菜蛾[27]等鱗翅目昆蟲(chóng)均采用基因組調(diào)查分析的方法評(píng)估基因組大小。通過(guò)對(duì)鱗翅目昆蟲(chóng)基因組大小進(jìn)行比較,發(fā)現(xiàn)大多數(shù)蛾類(lèi)基因組比蝶類(lèi)基因組大,而重復(fù)序列是導(dǎo)致不同昆蟲(chóng)基因組產(chǎn)生巨大差異的主要原因之一[22]。本研究中通過(guò)基因組調(diào)查分析預(yù)測(cè)煙草粉螟基因組大小為546.4 Mb,比大多數(shù)已知的蛾類(lèi)基因組大,推測(cè)可能原因是煙草粉螟基因組具有相對(duì)較多的重復(fù)序列。另外,基因組調(diào)查分析結(jié)果表明煙草粉螟基因組雜合度很高(1.93%),重復(fù)片段多(重復(fù)率為48.59%),屬于復(fù)雜昆蟲(chóng)基因組,組裝難度較大。因此,一方面通過(guò)自交對(duì)煙草粉螟種群進(jìn)行不斷純化,從而降低種群雜合度,另一方面通過(guò)構(gòu)建煙草粉螟二代、三代文庫(kù),采用二代和三代相結(jié)合的測(cè)序策略,輔以Hi-C技術(shù)輔助基因組組裝,有望獲得高質(zhì)量染色體水平的煙草粉螟全基因組圖譜。
目前,二化螟[9]、棉鈴蟲(chóng)[10]和小菜蛾[27]等多種鱗翅目害蟲(chóng)的基因組已被公開(kāi),研究人員利用基因組信息通過(guò)生物信息學(xué)方法鑒定了解毒代謝、嗅覺(jué)感受和食性等相關(guān)的關(guān)鍵基因,進(jìn)而通過(guò)分子生物學(xué)和基因編輯驗(yàn)證這些基因的功能,為開(kāi)發(fā)綠色的新型害蟲(chóng)防治策略提供理論依據(jù)[10]。然而,目前僅報(bào)道了煙草粉螟線粒體基因組序列[28],其全基因組還未見(jiàn)報(bào)道,制約了煙草粉螟生理習(xí)性和生長(zhǎng)發(fā)育等分子機(jī)理的研究。本研究中利用低深度測(cè)序?qū)煵莘勖蚪M進(jìn)行初步研究,由于測(cè)序深度較低,組裝質(zhì)量較差,仍需進(jìn)行煙草粉螟基因組的深度測(cè)序和組裝。對(duì)煙草粉螟全基因組進(jìn)行研究,進(jìn)而利用生物信息學(xué)篩選鑒定一些與煙草粉螟生理習(xí)性相關(guān)的基因,或者潛在的生物防治或化學(xué)防治的靶基因,可為煙草粉螟新型綠色殺蟲(chóng)劑的研制奠定基礎(chǔ)[29]。例如,利用煙草粉螟基因組鑒定其表皮幾丁質(zhì)降解酶基因和幾丁質(zhì)合成酶基因等昆蟲(chóng)表皮發(fā)育關(guān)鍵基因,通過(guò)基因編輯等方式研究其功能,從而篩選驗(yàn)證高致死率靶基因,有助于推動(dòng)煙草粉螟新型綠色殺蟲(chóng)劑的研制[29]。另外,利用煙草粉螟基因組鑒定其中的嗅覺(jué)基因,通過(guò)開(kāi)展嗅覺(jué)基因功能研究,利用反向化學(xué)生態(tài)學(xué)方法,有助于設(shè)計(jì)更高效安全的煙草粉螟引誘劑及交配干擾劑,從而為煙草粉螟的監(jiān)測(cè)和綠色防控提供理論依據(jù)和應(yīng)用指導(dǎo)[30]。
通過(guò)對(duì)煙草粉螟進(jìn)行全基因組調(diào)查分析,預(yù)測(cè)其基因組大小為546.4 Mb,雜合度為1.93%,重復(fù)序列比例為48.59%,GC含量為36.9%,屬于復(fù)雜昆蟲(chóng)基因組。由于測(cè)序深度低,采用K-mer 41進(jìn)行初步組裝,得到的Contigs總長(zhǎng)為713 127 860 bp,其N(xiāo)50為244 bp,Scaffolds總長(zhǎng)為725 456 026 bp,其N(xiāo)50為288 bp,組裝質(zhì)量較低。