尹傳林,李美珍,賀 康,丁思敏,郭殿豪,席 羽,李 飛
(浙江大學(xué)昆蟲科學(xué)研究所,杭州310058)
昆蟲基因組及數(shù)據(jù)庫研究進(jìn)展
尹傳林,李美珍,賀 康,丁思敏,郭殿豪,席 羽,李 飛*
(浙江大學(xué)昆蟲科學(xué)研究所,杭州310058)
基因組序列為昆蟲分子生物學(xué)研究提供豐富的數(shù)據(jù)資源,推動(dòng)系統(tǒng)生物學(xué)在古老的昆蟲學(xué)中蓬勃發(fā)展。昆蟲基因組學(xué)研究已經(jīng)成為當(dāng)前的研究熱點(diǎn),目前在NCBI登錄注冊(cè)的昆蟲基因組測(cè)序計(jì)劃有494項(xiàng),其中已提交原始測(cè)序數(shù)據(jù)的昆蟲有225種,完成基因組拼接的有215種,具有基因注釋的有65種,公開發(fā)表的昆蟲基因組有43篇。本文綜述了測(cè)序技術(shù)發(fā)展的歷史及其對(duì)昆蟲基因組研究的推動(dòng)作用、昆蟲基因組的組裝和注釋及其存在的問題、昆蟲基因組測(cè)序進(jìn)展、昆蟲基因組數(shù)據(jù)庫的發(fā)展及基因數(shù)據(jù)挖掘利用的基本思路和對(duì)策,以及昆蟲基因大數(shù)據(jù)在害蟲防治和資源昆蟲利用中的應(yīng)用前景。
昆蟲基因組;組裝與注釋;數(shù)據(jù)挖掘與分析;基因組數(shù)據(jù)庫;害蟲防治;資源昆蟲利用
昆蟲是生物界種類數(shù)量最多、最古老的類群之一,距今3.5億年的古生代泥盆紀(jì)就已出現(xiàn),大約構(gòu)成所有生物種類的50%左右 (Robinson,etal., 2011),目前已經(jīng)被描述鑒定的昆蟲種類有一百萬多種。作為重要的活化石,昆蟲的進(jìn)化研究可以探秘生命的起源以及地球環(huán)境的變更。昆蟲與人類的活動(dòng)息息相關(guān),既有令人煩惱的農(nóng)業(yè)害蟲和衛(wèi)生害蟲,也有讓人賞心悅目的觀賞昆蟲。農(nóng)業(yè)生態(tài)系統(tǒng)離不開昆蟲,地球上75%以上的開花植物都依靠昆蟲來授粉 (Robinsonetal., 2011)。昆蟲學(xué)作為一門獨(dú)立的分支進(jìn)入科學(xué)領(lǐng)域,迄今已有300多年歷史。
隨著測(cè)序技術(shù)的快速發(fā)展,在生物大數(shù)據(jù)的潮流下,古老的昆蟲學(xué)逐漸邁入基因組時(shí)代。昆蟲學(xué)者利用各種組學(xué)研究手段如基因組、轉(zhuǎn)錄組、蛋白組、代謝組等產(chǎn)生了大量的生物數(shù)據(jù),從系統(tǒng)生物學(xué)的角度來解決昆蟲學(xué)研究中的問題,為昆蟲學(xué)研究帶來了新的視角,煥發(fā)了新的生機(jī)。本文圍繞昆蟲基因組學(xué)研究中的組裝、注釋、數(shù)據(jù)挖掘和基因數(shù)據(jù)庫等方面進(jìn)行了綜述,對(duì)目前存在的問題進(jìn)行了總結(jié),對(duì)未來的發(fā)展趨勢(shì)進(jìn)行了展望。
昆蟲基因組學(xué)研究得益于測(cè)序技術(shù)的巨大進(jìn)步和生物信息學(xué)的逐漸普及。測(cè)序技術(shù)根據(jù)其發(fā)展的歷史可以分為三個(gè)不同的時(shí)代:以鏈終止法或鏈降解法為原理的一代測(cè)序技術(shù)(如Sanger測(cè)序技術(shù))、以邊合成(邊鏈接)邊測(cè)序?yàn)樵淼亩鷾y(cè)序技術(shù)(主要包括ABI公司的SOLiD技術(shù)、Illumina公司的Solexa技術(shù)和Roche公司的454技術(shù)等),以及單分子測(cè)序的三代測(cè)序技術(shù)(如PacBio公司的SMRT技術(shù)和Oxford Nanopore公司的納米孔單分子測(cè)序技術(shù)等)(Heatheretal., 2016)(圖1)。
1975年由桑格(Sanger)和考爾森(Coulson)發(fā)明的鏈終止法 (Sangeretal., 1975),以及1976年由馬克西姆(Maxam)和吉爾伯特(Gilbert)發(fā)明的鏈降解法 (Maxametal., 1977),開啟了核酸測(cè)序的新紀(jì)元。利用第一代測(cè)序技術(shù),測(cè)定了噬菌體X174的基因組序列,全長(zhǎng)5375個(gè)堿基,這是首個(gè)生命體的基因組序列 (Sangeretal., 1977)。2001年,利用Sanger測(cè)序技術(shù)完成了人類基因組計(jì)劃 (Venteretal., 2001)。果蠅是第一個(gè)被測(cè)序的昆蟲 (Adamsetal., 2000),之所以被優(yōu)先選擇進(jìn)行基因組測(cè)序,是因?yàn)楣壱恢北灰暈樯茖W(xué)研究中最重要的模式生物之一。但其實(shí)更重要的原因,是果蠅基因組比較小(僅180 Mb左右),可以用來檢測(cè)全基因組鳥槍法(Whole Geome Shotgun, WGS)在人類基因組測(cè)序中的可行性。在沒有其他測(cè)序技術(shù)可供選擇情況下,第一代Sanger測(cè)序技術(shù)是唯一的技術(shù)主角,其具有明顯的優(yōu)勢(shì),讀長(zhǎng)最高可達(dá)1000 bp,準(zhǔn)確性高達(dá)99.999%。然而,其缺點(diǎn)也十分明顯,測(cè)序成本過高,通量低,無法實(shí)現(xiàn)真正的大規(guī)模應(yīng)用。
在科研需求和市場(chǎng)利潤(rùn)的雙重驅(qū)動(dòng)下,催生了3個(gè)重要的二代測(cè)序技術(shù)(SOLiD技術(shù)、Solexa技術(shù)和454技術(shù))。在人類基因組測(cè)序計(jì)劃要驚動(dòng)各國(guó)領(lǐng)導(dǎo)人的時(shí)代,美國(guó)NIH啟動(dòng)了“1000美元基因組計(jì)劃”,資助2億美金來推動(dòng)測(cè)序技術(shù)的進(jìn)步。正是這種前瞻性的資助計(jì)劃,改寫了生命科學(xué)研究的進(jìn)程,也是當(dāng)前生命科學(xué)各個(gè)研究領(lǐng)域的基因組計(jì)劃發(fā)展如火如荼的重要基礎(chǔ)。第二代測(cè)序技術(shù)極大地降低了測(cè)序成本,提高了測(cè)序通量和測(cè)序速度,同時(shí)保持了高準(zhǔn)確性。在啟動(dòng)人類基因組計(jì)劃時(shí),預(yù)計(jì)要花費(fèi)30億美金、歷經(jīng)15年才能完成,而二代測(cè)序技術(shù)可在一個(gè)星期內(nèi)完成,僅需1000美元。Solexa技術(shù)和454技術(shù)是基于連合成邊測(cè)序的原理,而SOLiD技術(shù)是基于邊連接邊測(cè)序和雙色法的原理。如前所述,二代測(cè)序技術(shù)的優(yōu)點(diǎn)非常明顯,但其缺點(diǎn)是在PCR擴(kuò)增中增加了測(cè)序的錯(cuò)誤率,具有明顯的系統(tǒng)偏向性,讀長(zhǎng)較短(早期僅70多bp,最新技術(shù)也只有200多bp)。其中,讀長(zhǎng)較短給基因組的拼接帶來了困難,雖然開發(fā)了大量的生物信息學(xué)算法用于二代基因組數(shù)據(jù)的拼接,但對(duì)于高雜合物種,仍然沒有滿意的解決途徑,而絕大部分昆蟲具有高雜合性。二代測(cè)序技術(shù)目前仍是市場(chǎng)上的主流技術(shù),其中Illunima公司的Solexa技術(shù)因其技術(shù)優(yōu)勢(shì)占據(jù)了市場(chǎng)的半壁江山。
技術(shù)的進(jìn)步是無止境的。近年來,測(cè)序技術(shù)又有了新的突破,其中主要以PacBio公司的SMRT和Oxford Nanopore Technologies公司的納米孔單分子測(cè)序技術(shù)為代表,被稱為第三代測(cè)序技術(shù)。第三代測(cè)序技術(shù)的特點(diǎn)是單分子測(cè)序,無需進(jìn)行PCR擴(kuò)增,能有效避免因PCR偏好性而導(dǎo)致的系統(tǒng)誤差,同時(shí)顯著提高了讀長(zhǎng),并保持了二代測(cè)序技術(shù)高通量的優(yōu)點(diǎn)。雖然三代測(cè)序技術(shù)已經(jīng)開始走向了市場(chǎng),但其準(zhǔn)確性仍然有待高。
科研人員產(chǎn)生數(shù)據(jù)的能力明顯地增強(qiáng),海量生物數(shù)據(jù)不斷積累,因此對(duì)數(shù)據(jù)管理和分析提出了更高的要求,生物信息學(xué)即在此基礎(chǔ)上誕生。當(dāng)時(shí)生物學(xué)家第一次面臨超出想象的基因組數(shù)據(jù),有點(diǎn)無所適從,不知所措,生物信息學(xué)儼然以“救世主”身份拯救了人類基因組計(jì)劃。最被廣泛接受的生物信息學(xué)定義是,綜合利用生物學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等多學(xué)科的理論與技術(shù),產(chǎn)生和創(chuàng)造生物數(shù)據(jù),管理和存儲(chǔ)生物數(shù)據(jù),以及挖掘和分析生物數(shù)據(jù),揭示生物數(shù)據(jù)蘊(yùn)含的生物學(xué)意義。近年來,生物信息學(xué)得到了空前的充分
發(fā)展,并被不斷普及。早期的生物信息研究和算法開發(fā)主要針對(duì)普遍存在的科學(xué)問題,而現(xiàn)在各種衍生的生物信息學(xué)算法和軟件層出不窮,針對(duì)單個(gè)學(xué)科的具體科學(xué)問題進(jìn)行了優(yōu)化和提高,這極大地帶動(dòng)了大數(shù)據(jù)時(shí)代的生物信息學(xué)研究 (Ouzounisetal., 2003)。
依據(jù)研究方向,生物信息學(xué)可分為3個(gè)主要部分:(1)研發(fā)有效利用和管理數(shù)據(jù)的新工具,構(gòu)建新平臺(tái),例如構(gòu)建各種各樣的生物信息學(xué)數(shù)據(jù)庫;(2)新算法的開發(fā),例如各類基因組測(cè)序數(shù)據(jù)的拼接和比對(duì)算法等;(3)生物數(shù)據(jù)的挖掘與分析,從海量生物數(shù)據(jù)中挖掘和發(fā)現(xiàn)規(guī)律,幫助生物學(xué)家從“大海撈針”變?yōu)椤俺靥翐启~”,為揭示生物表型的分子機(jī)制提供有益的參考。前兩個(gè)研究方向偏“信息”,而第三個(gè)研究方向偏“生物”,這與計(jì)算機(jī)科學(xué)的“偏硬”和“偏軟”兩個(gè)方向有異曲同工之處。生物學(xué)家更加熟悉和倚重”生物數(shù)據(jù)挖掘與分析”這一方向。但必須強(qiáng)調(diào)的是,數(shù)據(jù)平臺(tái)和算法開發(fā)是生物信息學(xué)重要的基礎(chǔ),沒有準(zhǔn)確的數(shù)據(jù),沒有合適的算法,生物學(xué)意義的挖掘就無從談起,甚至?xí)灰铃e(cuò)誤的方向。
2.1 昆蟲基因組組裝
基因組鳥槍法是將DNA隨機(jī)打斷成較短的序列,構(gòu)建測(cè)序載體進(jìn)行測(cè)序,獲得了大量的小片段序列。因此,基因組組裝是基因組測(cè)序中最為關(guān)鍵的一步。尤其困難的是,基因組組裝算法需要根據(jù)測(cè)序平臺(tái)、文庫構(gòu)建策略和測(cè)序讀長(zhǎng)等進(jìn)行優(yōu)化(Richardsetal., 2015)。由于測(cè)序策略的設(shè)計(jì)缺陷或優(yōu)化不足,往往導(dǎo)致昆蟲基因組拼接失敗,這樣的例子并不鮮見。
根據(jù)是否有參考序列,可把基因組拼接分為從頭拼接(De novo assembly)和比較拼接(comparative assembly)兩大類(Wajidetal., 2012)。從頭組拼接指完全依賴 reads間的重疊信息拼接出基因組序列,而比較拼接綜合了reads間的重疊信息和 reads在參考序列中的位置信息,相比而言,從頭拼接更難更復(fù)雜。按照算法的原理,從頭拼接大致可以分以下幾類:第一類是overlap/layout/Consensus(OLC)法,這類組裝算法有CABOG、Newbler、Shorty、Edena、Celera等,其適應(yīng)于讀長(zhǎng)較長(zhǎng)的測(cè)序數(shù)據(jù),如Sanger法測(cè)序和第三代測(cè)序技術(shù),果蠅基因組的組裝采用的就是Celera軟件;第二類是De Bruijn Graph (DBG)法,一種基于圖論的算法,軟件有SOAPdenovo、Euler、Velvet等,這類算法需要不斷調(diào)整k-mer的值來達(dá)到一個(gè)最佳的組裝效果;第三類是Greey graph alogorithms法,這類算法有SSAKE、SHARCGS、VCAKE等(Wajidetal., 2012)。
已發(fā)表的昆蟲基因組組裝算法主要使用了CABOG(Milleretal., 2008)、SOAPdenove(Luoetal., 2012)、ALLPATH-LG(Butleretal., 2008)、ABySS(Simpsonetal., 2009)等方法。SOAPdenove是華大基因開發(fā)的基因短序列拼接,運(yùn)行速度快,依賴于搜索k-mer來尋求最優(yōu)解。ALLPATH-LG近年來使用率越來越高,特別適合于讀長(zhǎng)100-200 bp、覆蓋倍數(shù)200X左右的測(cè)序策略。和SOAPdenove比,不需要設(shè)定K-mer值。但是由于其依賴窮舉法,因此對(duì)硬件要求很高,運(yùn)行時(shí)間非常長(zhǎng)。
生物信息學(xué)發(fā)展至今,不斷誕生了新的軟件。然而,基因組組裝一直都面臨著巨大的挑戰(zhàn),無法取得理想的效果。分析認(rèn)為,影響昆蟲基因組拼接質(zhì)量的主要原因有,一是重復(fù)序列,基因組中含有大量的重復(fù)序列,對(duì)拼接造成非常大的干擾,而昆蟲基因組有可能產(chǎn)生了大量新的重復(fù)序列,產(chǎn)生了明顯的影響;二是物種雜合度,當(dāng)來自父本或母本染色體DNA之間的差異大時(shí),后代可能具有更大的環(huán)境適應(yīng)性優(yōu)勢(shì),但給拼接造成了困難。昆蟲基因組拼接困難的解決,一方面依賴于測(cè)序技術(shù)的繼續(xù)進(jìn)步,另一方面也依賴于算法的不斷優(yōu)化和提高。
2.2 昆蟲基因組質(zhì)量評(píng)估
目前,主要從完整性、正確性、拼接長(zhǎng)度等幾個(gè)方面進(jìn)行基因組組裝結(jié)果的評(píng)價(jià)(Wajidetal., 2012)。
(1)組裝序列的完整性
組裝序列的完整性指組裝得到的基因組大小與實(shí)際基因組大小之間的差異,通常采用兩者的比值來衡量。檢測(cè)基因組大小的常用方法有流式細(xì)胞儀技術(shù)和K-mer分析法。
(2)拼接正確性
拼接正確性反應(yīng)了組裝結(jié)果和真實(shí)基因組的一致性。通常采用已知大片段序列來檢測(cè)組裝結(jié)果的正確性。如果沒有大片段序列,可把paired-end或者mate-pair序列比對(duì)到組裝結(jié)果上,檢查序列在組裝上的位置以及兩者間的距離,以此評(píng)估拼接正確性。
(3)N50
N50是衡量基因組拼接質(zhì)量的重要標(biāo)準(zhǔn),其計(jì)算方法是,把所有序列按照從長(zhǎng)到短進(jìn)行排序,并對(duì)序列長(zhǎng)度進(jìn)行累加,當(dāng)累加值達(dá)到基因組序列總數(shù)的一半時(shí)所對(duì)應(yīng)的序列長(zhǎng)度即為N50。通過計(jì)算組裝基因組的contigs和scaffolds 的N50,可以非常直觀的評(píng)價(jià)拼接質(zhì)量。
(4)CEGMA評(píng)估
CEGMA(Parraetal., 2007)是目前使用最廣泛的評(píng)估基因組甚至是轉(zhuǎn)錄組拼接質(zhì)量的方法,其首先確定了真核生物中極其保守的248個(gè)核心基因(CEG),然后在基因組Scaffold序列中搜尋這些CEG基因,計(jì)算具有全長(zhǎng)序列的CEG百分比、僅有部分片段的CEG百分比和完全缺失的CEG百分比,以此來判斷基因組的拼接質(zhì)量。
(5)BUSCO評(píng)估
BUSCO(Simaoetal., 2015)是在CEGMA上進(jìn)行更新的新算法。BUSCO的其本原理與CEGMA類似并進(jìn)行了優(yōu)化,其按照不同的大類群選取不同的直系同源基因集,在節(jié)肢動(dòng)物中挑選了2647個(gè)直系同源基因,通過檢索缺失率來反映基因組質(zhì)量。
2.3 昆蟲基因組的注釋
基因組注釋是指對(duì)基因組特征進(jìn)行描述,包括結(jié)構(gòu)注釋和功能注釋。結(jié)構(gòu)注釋主要包括預(yù)測(cè)基因組重復(fù)序列、非編碼RNA和蛋白編碼基因;功能注釋是根據(jù)基因序列信息預(yù)測(cè)基因的功能。
(1)重復(fù)序列注釋
重復(fù)序列識(shí)別方法分為序列比對(duì)和從頭預(yù)測(cè)兩大類。序列比對(duì)法是根據(jù)相似性程度在基因組中識(shí)別同源的重復(fù)序列。該方法預(yù)測(cè)的結(jié)果往往比較可靠,但不全面。目前廣泛使用的比對(duì)預(yù)測(cè)軟件有Repeatmasker(Tarailo-Graovacetal., 2009)。從頭預(yù)測(cè)方法利用重復(fù)序列的結(jié)構(gòu)特征在基因組中進(jìn)行預(yù)測(cè),這種方法對(duì)結(jié)構(gòu)特征明確的重復(fù)序列具有非常好的預(yù)測(cè)效果,比如MITEs、LTR等,常見的從頭預(yù)測(cè)方法有Recon(Baoetal., 2002),Piler(Edgaretal., 2005),Repeatscout(Priceetal., 2005),LTR-finder(Xuetal., 2007)等。一般而言,采用同源比對(duì)和從頭預(yù)測(cè)兩者相結(jié)合的方法進(jìn)行重復(fù)序列識(shí)別,比較可靠全面(劉金定, 2014)。
(2)非編碼RNA的識(shí)別
非編碼RNA指不生成蛋白產(chǎn)物、以RNA形式發(fā)揮功能的RNA基因,如tRNA、rRNA、piRNA、miRNA、snoRNA、rasiRNA等。非編碼RNA沒有蛋白質(zhì)編碼基因的典型特征,因此一般對(duì)其二級(jí)結(jié)構(gòu)序列和特征進(jìn)行預(yù)測(cè),常用的軟件有miRdeep(Friedlanderetal., 2008)、RNAstructure(Bellaousovetal., 2013)、TripletSVM(Xueetal., 2005)等,常用的非編碼RNA 數(shù)據(jù)庫有RNAdb(Pangetal., 2007)、NONCODE(Zhaoetal., 2016)、Rfam、miRBase(Kozomaraetal., 2014)和snoRNABase等(陳勇等, 2014)。
(3)編碼基因組注釋
蛋白編碼基因的識(shí)別是基因組注釋中最為重要的部分。常見的編碼基因預(yù)測(cè)方法有基于基因模型的從頭預(yù)測(cè)方法、基于比對(duì)的蛋白同源預(yù)測(cè)方法以及基于轉(zhuǎn)錄組比對(duì)的表達(dá)證據(jù)方法等。這3類方法各有優(yōu)點(diǎn)和缺點(diǎn):從頭預(yù)測(cè)方法理論上可以覆蓋全面基因集,但假陽性高;同源比對(duì)方法預(yù)測(cè)結(jié)果準(zhǔn)確,但局限于物種間保守基因;轉(zhuǎn)錄組比對(duì)方法直接來自表達(dá)證據(jù),但受限于轉(zhuǎn)錄組的數(shù)據(jù)質(zhì)量和數(shù)量。研究人員通過整合多種預(yù)測(cè)結(jié)果來提高編碼基因注釋的準(zhǔn)確性,比如Glean(Elsiketal., 2007)、Evigan(Liuetal., 2008)、PASA(Xuetal., 2006)、MAKER(Cantareletal., 2008)、jigsaw(Allenetal., 2006)等。雖然多證據(jù)整合方法可以提高編碼基因注釋可靠性,但是仍然也存在一些問題需要解決,比如新測(cè)序物種缺少必要數(shù)量的可靠基因用于從頭預(yù)測(cè)軟件訓(xùn)練,難以獲得足夠的表達(dá)證據(jù)等。真核生物廣泛存在可變剪接和多個(gè)轉(zhuǎn)錄起始位點(diǎn),導(dǎo)致編碼基因預(yù)測(cè)更加復(fù)雜。
(4)功能注釋
基因組功能注釋是依據(jù)“序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能”的基本原理,利用序列相似性來推斷基因的功能。基因功能預(yù)測(cè)是利用序列同源比對(duì)軟件如Blast等搜索序列相似的已知基因,再利用已知基因的功能進(jìn)行注釋。常用于基因功能注釋的基因集有NCBI的非冗余蛋白序列數(shù)據(jù)庫(Non-redundant protein sequences, NR)、參考蛋白數(shù)據(jù)庫(refseq protein)、SWISS-PROT數(shù)據(jù)庫等,這些數(shù)據(jù)庫中蛋白序列一般都帶有注釋信息。
2.4 比較昆蟲基因組分析
比較基因組學(xué)是對(duì)近緣物種和同一物種的不同個(gè)體的基因組序列,從基因結(jié)構(gòu)、共線性及基因家族等方面進(jìn)行分析,揭示不同物種之間的基因家族擴(kuò)增與丟失、基因的起源及進(jìn)化等,協(xié)助闡明重要性狀的分子機(jī)制。比較基因組可分為種間比較基因組和種內(nèi)比較基因組,種間比較基因組是近緣物種之間的基因組比較,重點(diǎn)研究基因家族和基因進(jìn)化;種內(nèi)比較基因組比較的是同一個(gè)物種之間不同個(gè)體的遺傳差異性,通過將重測(cè)序序列與參考基因組序列進(jìn)行比較后,進(jìn)行關(guān)聯(lián)性分析,挖掘可能與重要性狀關(guān)聯(lián)的單核苷酸多態(tài)性和結(jié)構(gòu)差異,為分子機(jī)制研究奠定基礎(chǔ)(陳勇等, 2014)。
2.5 直系同源和共線性分析
直系同源基因具有相似的生物學(xué)功能,確定直系同源基因是功能基因鑒定、比較基因組、功能基因分類、信號(hào)通路預(yù)測(cè)等的基礎(chǔ)。預(yù)測(cè)直系同源基因的方法大致可分為3類: 一是比較序列相似性來識(shí)別直系同源基因;二是通過構(gòu)建系統(tǒng)發(fā)育樹來識(shí)別直系同源關(guān)系;三是混合利用序列相似性和系統(tǒng)發(fā)育樹的方法。
基因共線性(synteny)是指基因在染色體上排列順序的一致性。在進(jìn)化過程中,由于轉(zhuǎn)座、插入、染色體重排、區(qū)段加倍和缺失等原因,會(huì)發(fā)現(xiàn)基因序列的重排,進(jìn)化距離越遠(yuǎn)的物種,基因共線性越差。通過比較物種間同源基因的相對(duì)位置,可以確定不同物種間基因組的共線性,揭示所比較物種間基因結(jié)構(gòu)以及基因順序的異同。
2.6 基因家族的擴(kuò)張和收縮
基因家族是來源于同一個(gè)祖先,由一個(gè)基因通過基因重復(fù)而產(chǎn)生兩個(gè)或更多的拷貝而構(gòu)成的一組基因,它們?cè)诮Y(jié)構(gòu)和功能上具有明顯的相似性,編碼相似的蛋白質(zhì)產(chǎn)物,同一家族基因可以緊密排列在一起,形成一個(gè)基因簇(gene cluster)。但多數(shù)時(shí)候,它們分散在同一染色體的不同位置,或者分布于不同染色體上,各自具有不同的表達(dá)調(diào)控模式。在長(zhǎng)期進(jìn)化過程中,基因家族會(huì)有擴(kuò)張和收縮,這通常與物種的性狀密切相關(guān)。
3.1 i5k計(jì)劃
i5k計(jì)劃由Gene Robinson等人(2011)在Science上發(fā)文提出,倡議在2020年前后完成5000種節(jié)肢動(dòng)物基因組的測(cè)序和分析工作,建議選定的物種應(yīng)該廣泛分布于各種生態(tài)系統(tǒng),對(duì)世界范圍的農(nóng)業(yè)、食品安全、藥物研究、能源再生、模式生物研究等有著非常重要的影響,能夠作為昆蟲分類各分支上的代表物種,有助于全面理解節(jié)肢動(dòng)物的進(jìn)化歷程和系統(tǒng)發(fā)育關(guān)系。我國(guó)昆蟲學(xué)者積極響應(yīng)i5k全球性計(jì)劃,以我國(guó)昆蟲學(xué)者為主導(dǎo),先后完成了家蠶、小菜蛾、蝗蟲、褐飛虱、榕小蜂、二化螟等昆蟲的基因組測(cè)序。迄今已經(jīng)召開了兩屆國(guó)際昆蟲基因組學(xué)學(xué)術(shù)會(huì)議,分別為2013年12月15日在中國(guó)科學(xué)院動(dòng)物研究所舉辦了“首屆中國(guó)昆蟲基因組學(xué)及國(guó)際i5k計(jì)劃研討會(huì)”,及于2015年9月18日在重慶召開了“第二屆國(guó)際昆蟲基因大會(huì)”,從基因組測(cè)序、功能基因組學(xué)、比較和進(jìn)化基因組學(xué)、生物信息學(xué)技術(shù)等多個(gè)方面討論了昆蟲基因組學(xué)的發(fā)展及發(fā)展趨勢(shì),探討了基因組學(xué)在害蟲防治、資源昆蟲利用、藥物靶點(diǎn)開發(fā)及進(jìn)化生物學(xué)等方面的應(yīng)用前景。
3.2 已經(jīng)完成的昆蟲基因組測(cè)序
截至2016年11月1日,從美國(guó)國(guó)立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI) BioProject數(shù)據(jù)庫統(tǒng)計(jì),共有494種昆蟲的基因組測(cè)序項(xiàng)目在開展,覆蓋了幾乎所有目的昆蟲。在這些的基因組測(cè)序項(xiàng)目中,有215個(gè)基因組完成組裝并且數(shù)據(jù)已經(jīng)提交到NCBI數(shù)據(jù)庫,占總提交昆蟲基因組測(cè)序項(xiàng)目的43.5%。這些物種共涵蓋了15目的昆蟲(圖2A),包括捻翅目Strepsiptera、蜻蜓目Odonata、蜚蠊目Blattodea、直翅目Orthoptera、毛翅目Trichoptera、虱目Phthiraptera、纓翅目Thysanoptera、襀翅目Plecoptera、等翅目Isoptera、內(nèi)華達(dá)古白蟻Zootermopsisnevadensis,蜉蝣目Ephemeroptera、鞘翅目Coleoptera、半翅目Hemiptera、鱗翅目Lepidoptera、膜翅目Hymenoptera和雙翅目Diptera(表1)。從目的分布來看,47.17%的物種為雙翅目昆蟲(達(dá)100種),膜翅目占21.86%,鱗翅目占11.63%,半翅目占9.30%,鞘翅目占4.18%,其他目?jī)H有1-2種昆蟲。在雙翅目昆蟲中,主要為模式昆蟲黑腹果蠅及其近緣種,醫(yī)學(xué)昆蟲蚊子等;在膜翅目昆蟲中,主要為螞蟻、蜂等;鱗翅目昆蟲主要為重要農(nóng)業(yè)害蟲和蝶類。其中,果蠅、蚊子、螞蟻等三類昆蟲占70%以上,表明目前昆蟲基因組測(cè)序仍主要為模式生物和醫(yī)學(xué)昆蟲等。
圖2B顯示了215種昆蟲基因組完成測(cè)序或提交序列的時(shí)間。統(tǒng)計(jì)結(jié)果表明,2002-2010年期間的昆蟲基因組測(cè)序進(jìn)展緩慢。2010年后,在二代測(cè)序技術(shù)帶動(dòng)下,昆蟲基因組測(cè)序的物種數(shù)大幅增長(zhǎng),這些“舊時(shí)王謝堂前燕”,已經(jīng)“飛入了尋常百姓家”,不再是“高門檻”的項(xiàng)目,越來越多的實(shí)驗(yàn)室獨(dú)立開展了昆蟲基因組測(cè)序分析(張傳溪, 2015)。
圖2 已發(fā)布昆蟲基因組統(tǒng)計(jì)Fig.2 The statistics of insect genomes have been released
從昆蟲基因組數(shù)據(jù)分析來看,由于早期基因組測(cè)序是一項(xiàng)艱難的任務(wù),需要龐大的人力和財(cái)力投入,基因組工作多限于數(shù)據(jù)的獲得和初步分析,為分子生物學(xué)研究提供序列數(shù)據(jù)。在早期測(cè)序物種較少的情況下,比較基因組學(xué)難以展開,基因組學(xué)數(shù)據(jù)的威力一時(shí)難以完全發(fā)揮。近年來,測(cè)序物種越來越多,比較基因組分析得以深入開展,從而發(fā)現(xiàn)了傳統(tǒng)思路無法發(fā)現(xiàn)的規(guī)律,基因組數(shù)據(jù)得到了更加充分的挖掘,為解決重要的生物學(xué)問題提供了有力的支撐。例如,對(duì)褐飛虱基因組的研究揭示了胰島受體基因在褐飛虱翅型分化中的調(diào)控作用。
值得注意的是,在NCBI數(shù)據(jù)庫注冊(cè)的昆蟲數(shù)要遠(yuǎn)多于提交序列的昆蟲數(shù)量,而基因組數(shù)據(jù)公開發(fā)表的數(shù)量則更少。其中最為主要的原因之一,是許多昆蟲的基因組拼接質(zhì)量較差,還不適宜于發(fā)表。絕大多數(shù)昆蟲具有非常高的雜合度,導(dǎo)致無法組裝出高質(zhì)量的基因組,影響了基因注釋和后續(xù)的基因家族分析等。
3.3 重要昆蟲的基因組測(cè)序及分析
如前所述,目前公開發(fā)表的昆蟲基因組文章43篇涉及物種46個(gè),昆蟲基因組測(cè)序及數(shù)據(jù)分析的思路大同小異,涉及基因組拼接、注釋、基因家族分析等,但針對(duì)不同昆蟲的特異性表型,不同物種的分析結(jié)果各有千秋。在此,選擇了一些重要的昆蟲并對(duì)其基因組測(cè)序結(jié)果進(jìn)行簡(jiǎn)要介紹。
3.3.1 家蠶基因組
家蠶Bomyxmori基因組于2004年完成,是繼果蠅、岡比亞按蚊之后的第3個(gè)昆蟲基因組,具有歷史性意義。對(duì)家蠶Dazao品系進(jìn)行了全基因組鳥槍法測(cè)序,基因組大小為428.7 Mb,拼接后基因組的contig N50為12.9 kb,scaffold N50為26.9 kb,共注釋了18510個(gè)基因。基因組分析結(jié)果發(fā)現(xiàn),家蠶基因組中含有大量的轉(zhuǎn)座子插入,導(dǎo)致家蠶的某些基因比果蠅中的同源基因更大。在家蠶絲腺中發(fā)現(xiàn)了87個(gè)神經(jīng)肽激素、激素受體、激素調(diào)節(jié)相關(guān)基因。在家蠶中還發(fā)現(xiàn)了69個(gè)與免疫相關(guān)的基因,包括moricin、cecropins、lysozymes、hemolin、lectins、prophenoloxidases等。2008年,國(guó)際家蠶基因組聯(lián)盟對(duì)家蠶基因組進(jìn)行了更新,提高了測(cè)序覆蓋度,基因組contig N50提高為15.5 kb,scaffold N50提高到3.7 Mb,87% 的scaffold被定位于28條染色體上,預(yù)測(cè)發(fā)現(xiàn)了14623個(gè)基因。對(duì)新版本的基因組進(jìn)行分析,發(fā)現(xiàn)基因組中含大量轉(zhuǎn)座子,包括LINEs和SINEs兩種主要類型,分別占全基因組的14.5%和13.3%。3223個(gè)家蠶特有基因在其他昆蟲和脊椎動(dòng)物中沒有發(fā)現(xiàn)同源基因。研究還發(fā)現(xiàn),轉(zhuǎn)運(yùn)Gly、 Ala和Ser的tRNA基因數(shù)目明顯多于其他氨基酸t(yī)RNA,這與蠶絲蛋白中各類氨基酸含量相一致;基因Ser1、Ser2、Ser3分別編碼蠶絲的不同位置和不同結(jié)構(gòu)的絲膠成分;家蠶在進(jìn)化過程中通過水平基因轉(zhuǎn)移從細(xì)菌中獲得呋喃果糖苷酶基因,得以降解桑葉中的D-AB1、DNJ等對(duì)其他昆蟲有毒的生物堿類物質(zhì),這是家蠶能夠?qū)R蝗∈成H~的重要原因(Xiaetal., 2004)。
表 1 已發(fā)表的昆蟲基因組
續(xù)上表
物種Species基因組大小(Mb)Genomesize測(cè)序平臺(tái)Sequencingplatform染色體ChromosomescaffoldsN50(Kb)基因數(shù)Genenumber來源文獻(xiàn)References松甲蟲Dendroctonusponderosae246IlluminaHiseq818862813456GenomeBiol.,2013,14(3):R27 隧蜂Lasioglossumalbipes350Illumina431761613448GenomeBiol.,2013,14(12):R142 小菜蛾P(guān)lutellaxylostella383IlluminaHiseq2000181973718072NatureGenetics,2013,45(2):220-225 榕小蜂Ceratosolensolmsi268IlluminaHiseq20002457955813200GenomeBiol.,2013,14(12):R141 南極蠓Antarcticmidge99Illumina35899813517NatCommun,2014,54611無性生殖行軍蟻Cerapachysbiroi206IlluminaHiseq20004579135026315CurrBiol.,2014,24(4):451-458家蠅Muscadomestica728Illumina2048722620165GenomeBiol.,2014,15(10):466 竹節(jié)蟲Stickinsect1027Illumina1421131223083Science,2014,344(6185):738-742濕木白蟻Zootermopsisnevadensis472IlluminaHiseq20003162275114610NatCommun.,2014,53636蝗蟲Locustamigratoria6300IlluminaHiseq2000-32017307NatCommun.,2014,52957褐飛虱Nilaparvatalugens1324IlluminaHiseq20004527936036723GenomeBiol.,2014,15(12):521草地貪夜蛾Spodopterafrugiperda358Illumina3724353711595Genomics,2014,104(2):134-143麥雙尾蚜Diuraphisnoxia421IlluminaHiseq2000564139719097BMCGenomics,2015,16(1):429 咖啡果小蠹Hypothenemushampei163IlluminaHiseq20008684844719222Rep,2015,512525銅綠蠅Luciliacuprina458Illumina-ALLPATHS-LG462574414554NatCommun,2015,67344冬尺蠖蛾Operophterabrumata638IlluminaMiseq2580165616912GenomeBiolEvol,2015,7(8):2321-2332溫帶臭蟲Cimexlectularius650Illumina-ALLPATHS-LG1402717214220NatCommun,2016,710165地中海實(shí)蠅Ceratitiscapitata479Illumina1806406014547GenomeBiol.,2016,17(1):192
3.3.2 蜜蜂基因組
蜜蜂Apismellifera基因組由The Honeybee Genome Sequencing Consortium團(tuán)隊(duì)于2006年完成。文章先后注釋了六版基因組數(shù)據(jù),將contig N50從19 kb提高到41 kb,scaffold N50從223 kb提高到362 kb?;蚪M大小236 Mb?;蚪M注釋獲得了10157個(gè)基因,比果蠅和庫蚊少25%左右。蜜蜂基因組為AT-rich,高達(dá)到67%, 而黑腹果蠅Drosophilamelanogaster僅為58%, 庫蚊僅為56%。在蜜蜂基因組AT豐富區(qū)中,基因分布反而較多,這與脊椎動(dòng)物明顯不同。蜜蜂基因組中的轉(zhuǎn)座子明顯比其他昆蟲更少。蜜蜂和果蠅只有10%同源基因,遠(yuǎn)少于人和雞之間有85%同源基因的比例, 表明昆蟲的進(jìn)化速度很快。蜜蜂有163個(gè)氣味受體基因,遠(yuǎn)多于果蠅(62)和庫蚊(79),顯示蜜蜂化學(xué)感受能力增強(qiáng), 用來探測(cè)外激素、辨別同伴和花香等。與此相反,蜜蜂的味覺基因只有10個(gè),少于其他昆蟲的50-76個(gè)。與預(yù)期相反,蜜蜂免疫和抗病基因明顯變少,只有71個(gè)與免疫和抗病相關(guān)的基因,遠(yuǎn)少于庫蚊的209 和果蠅的196個(gè),分析認(rèn)為這與蜜蜂的清潔行為、蜂王漿和蜂膠的抗細(xì)菌特性, 以及蜂群像城堡一樣的結(jié)構(gòu)等有關(guān)。研究還發(fā)現(xiàn),與果蠅不同,蜜蜂有完整的DNA甲基化酶系,包括Dnmt1、Dnmt2和Dnmt3,DNA甲基化在蜜蜂不同蜂型的分化中具有重要的功能(Consortium, 2006)。
3.3.3 體虱基因組
體虱Pediculushumanus基因組于2010年完成,其基因組大小僅為108 Mb,拼接獲得的基因組scaffold N50為488 kb。預(yù)測(cè)發(fā)現(xiàn)了10773個(gè)蛋白編碼基因和57個(gè)microRNAs。與其他昆蟲基因組相比,體虱具有更少的與環(huán)境感知和響應(yīng)相關(guān)的基因,包括那些嗅覺和味覺感受器以及解毒酶編碼的基因等。同時(shí),還對(duì)體虱Riesia菌的基因組進(jìn)行了測(cè)序。Riesia菌是體虱消化道中的一種關(guān)鍵細(xì)菌,它分泌營(yíng)養(yǎng)物質(zhì)作為人血的補(bǔ)充物質(zhì),Riesia細(xì)菌缺乏抵抗抗生素的基因。比較基因組學(xué)分析顯示,人類體虱是從頭虱進(jìn)化而來的,基因組分析有助于利用體虱的獨(dú)特基因?qū)傩匀缙溆邢薜男嵊X能力等,開發(fā)出體虱控制的新方法(Kirknessetal., 2010)。
3.3.4 豌豆蚜基因組
豌豆蚜Acyrthosiphonpisum由國(guó)際蚜蟲基因組聯(lián)盟于2010年完成。作者利用單個(gè)雌蟲的個(gè)體后代進(jìn)行測(cè)序,流式細(xì)胞儀估測(cè)基因組大小為517 Mb,測(cè)序組裝獲得的基因組為464 Mb,基因組contig N50為10.8 kb,scaffold N50為88.5 kb,注釋獲得了34604個(gè)基因,遠(yuǎn)多于其他昆蟲的15000-20000個(gè),其中2459個(gè)基因家族中發(fā)現(xiàn)大量的基因復(fù)制,等義距離評(píng)估表明在該物種形成初期已經(jīng)存在了基因復(fù)制現(xiàn)象,涉及功能包括染色質(zhì)修飾、miRNA合成和糖轉(zhuǎn)運(yùn)等。豌豆蚜基因組丟失了IMD(免疫缺陷)免疫通路、硒蛋白利用、嘌呤補(bǔ)救途徑及鳥氨酸循環(huán)等通路的基因。通過與蚜蟲初級(jí)內(nèi)共生菌Buchneraaphidicola基因組比較分析,發(fā)現(xiàn)兩者具有代謝系統(tǒng)的互補(bǔ)性。豌豆蚜基因組中具有明顯的基因橫向轉(zhuǎn)移現(xiàn)象,部分基因與細(xì)菌基因具有共同起源,其線粒體基因亦有部分在基因組中重復(fù)。基因組中發(fā)現(xiàn)了12個(gè)新的dynamin基因,可能與病毒運(yùn)輸、轉(zhuǎn)胞等過程相關(guān)。豌豆蚜基因組中胚胎發(fā)育相關(guān)基因存在特異性的缺失,可能與其發(fā)育多型性有關(guān)。基因組中鋅指結(jié)構(gòu)蛋白的擴(kuò)增,以及保幼激素合成酶、降解酶的hexamerin的缺失可能與豌豆蚜發(fā)育可塑性有關(guān)。
3.3.5 麗蠅蛹集金小蜂基因組
麗蠅蛹集金小蜂Nasoniavitripennis是雙翅目蠅類的重要寄生蜂,其基因組測(cè)序完成于2010年。 作者采用了Sanger測(cè)序法獲得26605條contigs (N50=18.5 kb),6181條Scaffolds(N50=709 kb),基因組大小約295 Mb。同時(shí)對(duì)另兩種近緣寄生蜂N.giraultiandN.longicornis采用了Sanger測(cè)序技術(shù)和Illumina測(cè)序平臺(tái)進(jìn)行測(cè)序,得用N.vitripennis基因組做為參考,分別有62% and 62.6%的reads比對(duì)到N.vitripennis基因組上,有84.7% 和86.3%的蛋白編碼區(qū)域。在N.vitripennis基因組中,注釋到17279個(gè)基因,并預(yù)測(cè)了52個(gè)miRNA基因。研究發(fā)現(xiàn),金小蜂具有完整的DNA甲基化“工具包”,即含有三種DNA甲基化基因,并且Dnmt1具有3個(gè)拷貝。N.vitripennis基因組的Toll通路中發(fā)現(xiàn)大量的基因復(fù)制。在N.vitripennis基因組中,性別決定相關(guān)基因如yellow/major、royal、jelly基因等,表現(xiàn)出大量的復(fù)制;N.vitripennis基因組具有與細(xì)菌Wolbachia基因相似的保守域,表明細(xì)菌基因被整合宿主基因組中,發(fā)生了基因轉(zhuǎn)移現(xiàn)象;麗蠅蛹集金小蜂的毒液蛋白基因受到很高的進(jìn)化壓力。作者分析還發(fā)現(xiàn),3種金小蜂線粒體基因在不同的世代受到了比較顯著的進(jìn)化壓力(Werrenetal., 2010)。
3.3.6 帝王蝶基因組
帝王蝶Danausplexippus基因組于2011年完成,是目前唯一一篇發(fā)表于Cell雜志的昆蟲基因組。帝王蝶具有遷徙和不遷徙兩種類型,最早起源于美國(guó)南部和墨西哥北部的是遷徙型,大約兩萬年前數(shù)量增長(zhǎng)開始遷移,向南進(jìn)入南美,直到近期北美類群又分為跨太平洋和跨大西洋兩個(gè)方向分布于全球各地。作者利用二代測(cè)序平臺(tái)通過全基因組鳥槍法測(cè)序得到了14.7 Gb的Illumina reads,經(jīng)拼接得到了273 Mb的帝王蝶基因組,注釋發(fā)現(xiàn)了16866個(gè)蛋白編碼基因。對(duì)12種昆蟲和2種哺乳動(dòng)物基因組進(jìn)行了同源分析,結(jié)果表明鱗翅目是目前為止進(jìn)化最快的昆蟲;帝王蝶和家蠶在直系同源數(shù)量、微共線性、蛋白家族大小等方面具有明顯的相似性。通過對(duì)帝王蝶基因組的分析,更深入地破解了其遷飛的分子機(jī)制。在帝王蝶基因組中發(fā)現(xiàn)了可能與處理光信號(hào)和太陽羅盤結(jié)構(gòu)有關(guān)的多種蛋白和神經(jīng)遞質(zhì),并注釋了39個(gè)與定位功能相關(guān)的基因,其中2個(gè)功能未知的基因可能是帝王蝶特有的。位于帝王蝶觸角的生物鐘在遷徙活動(dòng)中具有重要作用,分析發(fā)現(xiàn)帝王蝶除了具有大量和果蠅相同的生物鐘關(guān)鍵基因外,還具有CRY2基因,而果蠅只含有CRY1基因。保幼激素的生物合成在帝王蝶雌雄中具有兩態(tài)性,表現(xiàn)為在雌性上調(diào)、雄性下調(diào)。研究還發(fā)現(xiàn),miR-1、miR-7、miR-14在內(nèi)的27種miRNA在遷徙和非遷徙蝴蝶中的表達(dá)量有差異,可能對(duì)遷飛起調(diào)節(jié)作用。獨(dú)特的P型鈉鉀泵構(gòu)成了帝王蝶防御機(jī)制的分子基礎(chǔ),而Ors、Grs、IRs等化學(xué)感受器在遷飛過程中也有潛在的作用。
此后,該團(tuán)隊(duì)采集了不同地區(qū)的101個(gè)帝王蝶基因組進(jìn)行了重測(cè)序分析。在與遷徙相關(guān)的5 Mb序列中,有大約21 kb的異常序列,這段序列包含3個(gè)基因,其中Collagen IV α-1在遷徙和非遷徙群體之間具有明顯的不同,從而影響了2種類型蝴蝶的體型、飛行肌以及飛行特點(diǎn)的不同。相比之下,遷徙蝴蝶飛行代謝率低,飛行效率高;高代謝率更有利于非遷徙蝴蝶的生存。帝王蝶特有的警戒色被發(fā)現(xiàn)與肌球蛋白基因DPOGS206617有密切關(guān)系,表明翅色并非由色素分子的產(chǎn)生決定而是由色素的運(yùn)輸來決定(Zhanetal., 2011)。
3.3.7 小菜蛾基因組
小菜蛾P(guān)lutellaxylostella是世界性的重要害蟲,食性廣,危害嚴(yán)重,容易對(duì)農(nóng)藥形成抗性,基因組大小僅為343 Mb,但其雜合度高,導(dǎo)致測(cè)序困難,其基因組于2013年完成測(cè)序,是第一個(gè)成功測(cè)序的高雜合度昆蟲基因組。作者利用Illumina Genome Analyzer IIx和HiSeq2000平臺(tái),采用Fosmid-to-Fosmid結(jié)合WGS的測(cè)序策略,最終獲得了1819條scaffold序列,N50為737 kb?;蚪M注釋獲得了18071個(gè)基因和781 ncRNA。比較基因組學(xué)分析發(fā)現(xiàn),小菜蛾基因組中有1412個(gè)特有基因,參與感知和解毒代謝的基因家族發(fā)生了明顯的擴(kuò)張?;蚪M數(shù)據(jù)分析發(fā)現(xiàn)了在幼蟲階段偏好表達(dá)的354個(gè)基因,部分基因參與硫酸鹽代謝及硫酸酯酶修飾因子基因。其中,硫代葡萄糖苷硫酸酯酶(GSS)通過催化硫代葡萄糖苷防御化合物轉(zhuǎn)化為脫硫葡萄糖苷酸酯,使得小菜蛾能夠在廣泛的十字花科植物上進(jìn)食,從而防止毒性水解產(chǎn)物的形成。分析認(rèn)為,小菜蛾硫代葡萄糖苷硫酸酯酶(GSS)基因和硫酸酯酶修飾因子基因1(SUMF1)在幼蟲時(shí)期的協(xié)同表達(dá)是決定小菜蛾能夠取食十字花科蔬菜的關(guān)鍵。除細(xì)胞色素 (P450)、谷胱甘肽轉(zhuǎn)移酶(GST)和羧基酯酶(COE)這三大代謝水解酶家族外,ABC轉(zhuǎn)運(yùn)蛋白家族也出現(xiàn)了明顯的擴(kuò)張,進(jìn)一步解釋了小菜蛾容易產(chǎn)生抗性的基因組學(xué)特性(Youetal., 2013)。
3.3.8 榕小蜂基因組
榕小蜂Ceratosolensolmsi在長(zhǎng)期進(jìn)化過程中,與榕屬植物形成了一種密切的共生關(guān)系,是榕屬植物重要的傳粉媒介,以回報(bào)榕屬植物為其提供棲身場(chǎng)所和營(yíng)養(yǎng)來源。榕小蜂基因組于2013年完成測(cè)序和發(fā)表,其基因組大小278 Mb,scaffold數(shù)量7397。值得一提的是由于其基因組中富含AT(69.6%),重復(fù)序列只有9.85%,因此組裝完成后scaffold N50值競(jìng)達(dá)到9.558 Mb,是目前測(cè)序昆蟲中最高的。通過從頭預(yù)測(cè)、同源搜索、轉(zhuǎn)錄組覆蓋等方法,共注釋獲得蛋白質(zhì)編碼基因11412個(gè)。
通過比較基因組分析,發(fā)現(xiàn)榕小蜂的基因組進(jìn)化相比于其他昆蟲更快。由于榕小蜂基本上大部分時(shí)間都棲息在榕樹,其基因組中ORs、GRs、IR、OBPs、CSPs等化學(xué)感受基因家族出現(xiàn)明顯的收縮。由于榕樹已為榕小蜂提供了安全的場(chǎng)所和營(yíng)養(yǎng)來源,因此其P450s、GSTs、CCEs等解毒代謝基因家族基因也明顯減少,以及在Toll、imd、JAK/STAT、JNK等免疫通路中很多基因退化。為了了解榕小蜂雌雄異型的分子機(jī)制,通過轉(zhuǎn)錄組測(cè)序技術(shù)研究了其雌雄個(gè)體中基因的表達(dá)情況,發(fā)現(xiàn)了很多與基因在雌雄個(gè)體中出現(xiàn)差異表達(dá),推測(cè)與其這種兩性差異有關(guān)。榕小蜂在長(zhǎng)期與腸道共生菌協(xié)同進(jìn)化過程中,通過基因組數(shù)據(jù)證實(shí)其可以從細(xì)菌和病毒中獲得一些基因片段或完整基因,總共在榕小蜂基因組鑒定出12個(gè)水平轉(zhuǎn)移基因(Xiaoetal., 2013)。
3.3.9 蝗蟲基因組
蝗蟲Locustamigratoria是世界范圍的具有嚴(yán)重危害性的昆蟲,其周期性的大爆發(fā),具有長(zhǎng)距離遷飛和兩型變化的習(xí)性?;认x基因組達(dá)6.52 Gb,是迄今為止最大的昆蟲基因組,因此完成測(cè)序極其困難,來自中國(guó)科學(xué)院動(dòng)物所康樂院士所帶領(lǐng)的團(tuán)隊(duì)于2014年首次解開了蝗蟲的遺傳密碼,破解了這一難題?;认x基因組scaffold N50為323 kb,通過從頭預(yù)測(cè)、同源預(yù)測(cè)以及表達(dá)證據(jù)共獲得17307個(gè)蛋白質(zhì)編碼基因?;蚪M分析發(fā)現(xiàn),蝗蟲的基因組之所以如此之大,主要體現(xiàn)在重復(fù)序列增多,占基因組60%以上,蝗蟲基因內(nèi)含子的長(zhǎng)度是其他昆蟲的10倍左右,這也是造成其基因組變大的一個(gè)重要因素。
通過比較基因組學(xué)研究,發(fā)現(xiàn)了大量與變態(tài)發(fā)育相關(guān)的調(diào)控基因,蝗蟲進(jìn)化獲得了55個(gè)新的基因家族,共有25個(gè)基因家族顯著擴(kuò)增,參與解毒代謝、化學(xué)感受、營(yíng)養(yǎng)代謝等?;认x具有Dnmt1兩個(gè)以及Dnmt2和Dnmt3完整的DNA甲基化基因家族,基因組中約有1.6%的胞嘧啶被甲基化,重復(fù)序列區(qū)高度甲基化。與基他昆蟲不同的是,基因內(nèi)含子區(qū)甲基化高于外顯子區(qū)。為了適應(yīng)長(zhǎng)距離遷飛,蝗蟲進(jìn)化出一套高效的能量?jī)?chǔ)存和代謝的機(jī)制,其主要能源物質(zhì)為脂類,基因組中與脂類運(yùn)輸和抗氧化保護(hù)以及脂質(zhì)降解有關(guān)的基因家族顯著擴(kuò)增,如基因組中perilipins、fatty-acid-bindingprotein、Prdx6s、sigmaGST、enoyl-CoAhydratase、acetyl-CoAacyltransferase2等基因出現(xiàn)多拷貝?;认x基因組中OBPs、ORs、GRs、IRs等基因家族出現(xiàn)顯著的擴(kuò)增,可能與其食性很廣有關(guān),同時(shí)UGTs和carboxyl/cholineesterases基因家族也出現(xiàn)顯著擴(kuò)增,以幫助其降解不同食物中的化學(xué)成分。
3.3.10 家蠅基因組
家蠅Muscadomestica是生活中常見的昆蟲,幼蟲以動(dòng)物排泄物等為食,成蟲能夠攜帶100多種病原菌,對(duì)人類和動(dòng)物的健康帶來極大的威脅,其基因組測(cè)序于2014年完成。家蠅基因組大小691 Mb,重復(fù)序列含量較高,Scaffold數(shù)為20487,N50值為226 kb,基因組注釋獲得蛋白質(zhì)編碼基因14180個(gè)。在家蠅基因組中共發(fā)現(xiàn)771與免疫相關(guān)的基因,具有完整的Toll、imd、JAK/STAT和JNK免疫通路,這與家蠅長(zhǎng)期生活在富含動(dòng)物病原體腐爛性環(huán)境有關(guān)。先后從基因組找到146個(gè)P450s、11個(gè)P450 pseudogenes、33個(gè)GSTs、92個(gè)脂酶基因,顯示家蠅基因組中解毒代謝相關(guān)的基因家族出現(xiàn)了明顯擴(kuò)張,以應(yīng)對(duì)生境中各種有害物質(zhì)。家蠅基因組中CysLGIC超基因家族具有23個(gè)基因,為抗藥性研究和農(nóng)藥新靶點(diǎn)開發(fā)提供了參考。家蠅的味覺受體基因家族顯著出現(xiàn)擴(kuò)增,推測(cè)與家蠅需要通過味覺來識(shí)別不同的有害物質(zhì)有關(guān)(Scottetal., 2014)。
3.3.11 南極蠓基因組
南極蠓Belgicaantarctica是唯一生活在南極的一種地方性昆蟲,需要適應(yīng)極端溫度、結(jié)冰、脫水、滲透壓平衡、紫外線輻射以及環(huán)境產(chǎn)生的其他各種選擇壓力,其基因組測(cè)序于2014年完成。南極蠓基因組大小89.6 Mb,是目前最小的昆蟲基因組。其Contig序列為5003條,N50值為98.2 kb。雖然拼接質(zhì)量不高,CEGMA基因組評(píng)估和比較基因組學(xué)研究表明南極蠓的基因組數(shù)據(jù)可以用于后續(xù)數(shù)據(jù)分析,預(yù)測(cè)得到蛋白質(zhì)編碼基因13517個(gè)。相比于其他昆蟲,重復(fù)序列含量的大幅減少,內(nèi)含子長(zhǎng)度變短,這是其南極蠓基因組明顯變小的主要原因。通過基因組個(gè)體雜合度分析發(fā)現(xiàn),由于其基因組比較小,南極蠓受到的選擇壓力非常大,因此雜合度相對(duì)其他昆蟲低。基因家族分析顯示南極蠓OBP基因出現(xiàn)明顯的收縮,推測(cè)與其生活環(huán)境、食物相對(duì)單一,活動(dòng)范圍也較小等習(xí)性有關(guān)(Kelleyetal., 2014)。
3.3.12 褐飛虱基因組
褐飛虱Nilapavatalugens是水稻上的重要害蟲,具有遷飛習(xí)性和翅二型現(xiàn)象,其基因組測(cè)序完成于2014年。作者采用HiSeq2000測(cè)序技術(shù),利用單對(duì)交配純化13代的褐飛虱,使用與小菜蛾相似的測(cè)序策略,得到了共1.14 Gb的褐飛虱基因組序列,基因組Scaffold N50為356.6 kb,注釋得到27571個(gè)蛋白編碼基因。通過對(duì)褐飛虱和其它14個(gè)節(jié)肢動(dòng)物基因組的比較分析,發(fā)現(xiàn)褐飛虱等半翅目的3個(gè)物種基因數(shù)目、特異基因數(shù)目都比其他昆蟲多,顯示出半翅目物種的基因擴(kuò)張現(xiàn)象。 褐飛虱的OR和GR基因家族收縮,這與褐飛虱只以水稻韌皮汁液為食的嚴(yán)格單食性特性相符;研究還發(fā)現(xiàn)褐飛虱中解毒和消化相關(guān)基因存在著基因丟失現(xiàn)象,如P450、GST基因數(shù)目很少,淀粉降解必須的alpha-淀粉酶缺失,幾丁質(zhì)合成酶CHS2缺失,這些特點(diǎn)也可能與褐飛虱專一食性有關(guān);褐飛虱與真菌YLS和細(xì)菌A.nilaparvatae組成了共生系統(tǒng),通過對(duì)真菌YLS和細(xì)菌A.nilaparvatae測(cè)序并組裝注釋,分析三者的共生關(guān)系,發(fā)現(xiàn)褐飛虱缺少10種必需氨基酸合成能力,而在YLS中能找到對(duì)應(yīng)的氨基酸合成基因;還發(fā)現(xiàn)YLS能夠利用尿酸,跟褐飛虱共同形成了氮素循環(huán)的完整途徑;YLS能合成酵母甾醇中間產(chǎn)物,褐飛虱參與利用酵母甾醇中間產(chǎn)物進(jìn)一步合成膽固醇,從而形成完整的膽固醇合成途徑;YLS和褐飛虱在維生素生物合成途徑上都有缺陷,但A.nilaparvatae帶有完整的維生素B合成途徑,可能為褐飛虱提供維生素(Xue,etal., 2014)。
3.3.13 臭蟲基因組
臭蟲Cimexlectularius是與人類健康密切相關(guān)的皮外寄生物,其基因組于2016年完成。作者首先臭蟲對(duì)經(jīng)過6代近交純化,然后采用二代Illumina Solexa平臺(tái)測(cè)序,基因組大小為650.47 Mb,拼接得到1402條scaffold序列, scaffold N50為7.17 Mb,MAKER軟件預(yù)測(cè)和手工注釋共獲得14220個(gè)蛋白質(zhì)編碼基因?;蚪M分析表明,為了適應(yīng)臭蟲獨(dú)特的生態(tài)環(huán)境和生活習(xí)性,很多基因或基因家族出現(xiàn)了丟失或擴(kuò)張。與臭蟲專性寄生習(xí)性相關(guān),在黑暗環(huán)境生存使得CRY1與JET感光基因退化,氣味受體、味覺受體、離子受體等化學(xué)感受基因以及免疫通路相關(guān)基因均出現(xiàn)了顯著的基因家族收縮;臭蟲的專性吸血習(xí)性使得其唾液蛋白家族擴(kuò)增,以阻止在吸食過程中的寄主血液凝固,水通道蛋白(AQP)的擴(kuò)增可以快速去除血液中大量的水分;臭蟲具有皮下受精交配習(xí)性,在基因組中節(jié)肢彈性蛋白基因大量擴(kuò)增,使得雌蟲可以最大限度地免于交配產(chǎn)生的創(chuàng)傷或修復(fù)創(chuàng)傷。臭蟲抗藥性發(fā)展迅速,基因組分析發(fā)現(xiàn)臭蟲的電壓門控鈉通道基因出現(xiàn)了多個(gè)點(diǎn)突變使得靶標(biāo)不敏感;差異表達(dá)分析發(fā)現(xiàn)P450、羧酸酯酶、谷胱甘肽-S-轉(zhuǎn)移酶等代謝酶基因的表達(dá)增強(qiáng),ABC轉(zhuǎn)運(yùn)蛋白基因家族擴(kuò)增,CPR家族基因擴(kuò)增等均是造成了臭蟲日趨嚴(yán)重抗性的原因。通過微生物和寄主分析,發(fā)現(xiàn)了臭蟲與其體內(nèi)walbacia菌形成營(yíng)養(yǎng)共生關(guān)系,在臭蟲基因組發(fā)現(xiàn)了805個(gè)潛在的水平轉(zhuǎn)移基因。臭蟲基因組使得從分子機(jī)制水平研究和解釋臭蟲的寄生習(xí)性、嗜血習(xí)性、抗藥性等科學(xué)問題成為可能,為研究吸血昆蟲、共生關(guān)系以及寄生行為等提供了新的模式材料(Benoit,etal., 2016)。
3.3.14 地中海實(shí)蠅
地中海實(shí)蠅Ceratitiscapitata是世界性的入侵害蟲,其基因組大小為479 Mb,基因組測(cè)序完成于2016年。作者先后采用454平臺(tái)和Illumina HiSeq2000平臺(tái)進(jìn)行測(cè)序,利用單對(duì)純化后的個(gè)體DNA進(jìn)行測(cè)序以提高數(shù)據(jù)質(zhì)量,將contig N50從3.1 kb提高到45.8 kb,Scaffold N50從29.4 kb提高到4.1 Mb?;蚪M注釋獲得14547個(gè)基因,23075個(gè)CDS。與其它14個(gè)節(jié)肢動(dòng)物的基因組進(jìn)行同源分析,確定了26212個(gè)同源組。地中海實(shí)蠅中有1608條推定的氨基酸序列沒有分到任何同源組內(nèi),推測(cè)是最近才進(jìn)化的新基因。利用地中海實(shí)蠅的唾液腺多線染色體,通過克隆基因和微衛(wèi)星序列(Medflymic)的原位雜交,將克隆基因和微衛(wèi)星序列所在的43個(gè)scaffold定位到5條常染色體上(染色體2-6號(hào)),1個(gè)scaffold定位到X性染色體上。與黑腹果蠅和家蠅基因組進(jìn)行比較分析,發(fā)現(xiàn)多個(gè)基因/基因家族的擴(kuò)張現(xiàn)象可能導(dǎo)致地中海實(shí)蠅較高的適應(yīng)性和入侵性,包括IR和GR味覺受體基因家族、性誘劑受體、細(xì)胞色素P450基因和CYP6亞家族、免疫系統(tǒng)基因(Toll和sp?tzle家族)、TWDL和CPLCA表皮蛋白家族、水通道蛋白基因以及特異的ceratotoxin基因。對(duì)各基因家族的分析表明,可利用化學(xué)感受分子作為種群監(jiān)測(cè)或誘捕的引誘劑或驅(qū)避劑,視蛋白o(hù)psin指導(dǎo)最佳陷阱顏色的選擇,RHG促細(xì)胞凋亡基因(reaper、grim)、精液蛋白SFP等用于SIT昆蟲不育技術(shù)(Papanicolaouetal., 2016)。
隨著測(cè)序技術(shù)的突破性發(fā)展,海量的生物數(shù)據(jù)在不斷累積,每14個(gè)月就會(huì)增長(zhǎng)一倍,如何進(jìn)行數(shù)據(jù)的管理、存儲(chǔ)、展示、共享,變成了非常迫切的問題(Baxevanisetal., 2015, Stephensetal., 2015)。為了最大化地體現(xiàn)數(shù)據(jù)的價(jià)值和提高數(shù)據(jù)的利用率,數(shù)據(jù)庫在管理和維護(hù)、共享與挖掘生物大數(shù)據(jù)中發(fā)揮著重要作用。
依據(jù)數(shù)據(jù)資源分類,生物數(shù)據(jù)庫可以分為三類。第一類是大型綜合存儲(chǔ)型數(shù)據(jù)庫。這類數(shù)據(jù)庫的特點(diǎn)就是,大而雜地收錄了大量的數(shù)據(jù),數(shù)據(jù)之間層次和質(zhì)量良莠不齊,且僅僅是接近原始版的堆積,更新、修改和管理較為困難,而且數(shù)據(jù)庫比較大,維護(hù)的成本很高,主要是發(fā)揮數(shù)據(jù)倉庫的作用。這類數(shù)據(jù)庫以美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)、歐洲生物信息研究所(EBI)和日本核酸數(shù)據(jù)庫(DDBJ)國(guó)際上公認(rèn)的三大生物信息數(shù)據(jù)庫為代表,這三個(gè)數(shù)據(jù)庫各具特色。第二類是單一類群的基因組數(shù)據(jù)庫。這類數(shù)據(jù)庫是圍繞某一個(gè)研究類群的基因組數(shù)據(jù)庫,數(shù)據(jù)量較第一類數(shù)據(jù)庫明顯縮小,數(shù)據(jù)之間的層次和質(zhì)量比較接近,且質(zhì)量有所保證,數(shù)據(jù)也經(jīng)過了加工,維護(hù)者管理起來也比較方便,使用者用起來也可以很快的掌握。VectorBase (Giraldo-Calderonetal., 2015)是這類型數(shù)據(jù)的經(jīng)典代表,其中收錄了與眾多與疾病媒介傳播有關(guān)物種的基因組數(shù)據(jù)。第三類是小型的單個(gè)物種或單一屬的物種數(shù)據(jù)庫,圍繞單一物種的數(shù)據(jù)構(gòu)建數(shù)據(jù)庫,數(shù)據(jù)質(zhì)量很高,數(shù)據(jù)加工很精細(xì),功能很齊全,維護(hù)和更新迅速和簡(jiǎn)便,使用便捷。這類數(shù)據(jù)庫目前有膜翅目數(shù)據(jù)庫Hymenoptera Genome Database(Munoz-Torresetal., 2011)、農(nóng)業(yè)害蟲數(shù)據(jù)庫Agripestbase、小菜蛾數(shù)據(jù)庫(中國(guó))DBM-DB(Tangetal., 2014)、小菜蛾數(shù)據(jù)庫(日本)KONAGAbase(Jourakuetal., 2013)、帝王蝶數(shù)據(jù)庫MonarchBase(Zhanetal., 2013)、蚜蟲數(shù)據(jù)庫APHIDBASE(Legeaietal., 2010)、家蠶數(shù)據(jù)庫(中國(guó))SilkDB(Duanetal., 2010, Wangetal., 2005)、家蠶數(shù)據(jù)庫(日本)KAIKObase(Shimomuraetal., 2009)、詩神袖蝶數(shù)據(jù)庫Heliconius Genome Project、二化螟數(shù)據(jù)庫ChiloDB(Yinetal., 2014)和WaspAtlas金小峰數(shù)據(jù)庫(Daviesetal., 2015)。
目前昆蟲基因組數(shù)據(jù)主要存儲(chǔ)于大型綜合存儲(chǔ)型數(shù)據(jù)庫中。NCBI共收錄了215個(gè)昆蟲的基因組拼接數(shù)據(jù),Ensemble上收錄了31個(gè),這兩個(gè)公共數(shù)據(jù)庫涵蓋了大部分的昆蟲基因組數(shù)據(jù)。由于NCBI等大型數(shù)據(jù)庫并不是單一地為昆蟲領(lǐng)域服務(wù),主要集中在醫(yī)學(xué)、模式生物領(lǐng)域。目前NCBI基本沒有針對(duì)昆蟲基因組數(shù)據(jù)進(jìn)行挖掘和數(shù)據(jù)注釋等,僅僅只是數(shù)據(jù)倉庫服務(wù)。為此,這么多昆蟲基因組研究者紛紛建立了單個(gè)類群或單個(gè)個(gè)體的基因組數(shù)據(jù)庫(表2),在眾多的昆蟲基因組數(shù)據(jù)庫,涌現(xiàn)了2個(gè)綜合型的昆蟲基因組數(shù)據(jù)庫,i5k workspace@NAL(Poelchauetal., 2015)和InsectBase(Yinetal., 2016)。
4.1 i5k Workspace@NAL
i5k Workspace@NAL數(shù)據(jù)庫是由美國(guó)農(nóng)業(yè)部主導(dǎo)構(gòu)建的節(jié)肢動(dòng)物基因組學(xué)服務(wù)型數(shù)據(jù)庫,共收錄昆蟲基因組46個(gè),數(shù)據(jù)庫提供基因組數(shù)據(jù)的瀏覽、下載、數(shù)據(jù)提交、序列比對(duì)、基因組可視化及在線基因組手工注釋平臺(tái),以及HMMER、CLUSTAL兩個(gè)在線工具(Poelchauetal., 2015)。隨著i5k計(jì)劃的提出,越來越多的節(jié)肢動(dòng)物基因組被測(cè)序。在此背景下,美國(guó)農(nóng)業(yè)部相關(guān)科學(xué)家希望在紛亂無章的測(cè)序潮流中推出一套基因組測(cè)序、組裝、注釋、維護(hù)、共享的標(biāo)準(zhǔn)化流程和平臺(tái),因此構(gòu)建了i5k Workspace@NAL數(shù)據(jù)庫。然而事與愿違,在目前基因組數(shù)據(jù)依舊是稀缺資源的環(huán)境下,大多數(shù)研究人員沒有遵從i5k Workspace@NAL提出的共享數(shù)據(jù)標(biāo)準(zhǔn)。目前,i5k Workspace@NAL主要收錄了美國(guó)農(nóng)業(yè)部主導(dǎo)的一些節(jié)肢動(dòng)物基因組測(cè)序數(shù)據(jù),其他國(guó)家科學(xué)幾乎沒有提交數(shù)據(jù)。
4.2 InsectBase
InsectBase昆蟲基因組與轉(zhuǎn)錄組數(shù)據(jù)庫旨在有效的解決目前昆蟲基因組數(shù)據(jù)庫的紛亂雜陳的現(xiàn)狀,構(gòu)建一個(gè)綜合的全能化的昆蟲領(lǐng)域的生物信息數(shù)據(jù)庫,為廣大研究者提供方便快捷的后基因組時(shí)代基因組、轉(zhuǎn)錄組等數(shù)據(jù)服務(wù)和交流合作平臺(tái)(Yinetal., 2016)。
InsectBase昆蟲基因組數(shù)據(jù)庫(http://www.insect-genome.com/)的總數(shù)據(jù)存儲(chǔ)量達(dá)120 G。InsectBase通過篩選和質(zhì)量過濾共收集了155種昆蟲基因組(隸屬于16個(gè)目),其中61個(gè)基因組具有注釋信息(Official Gene Set, OGS),116個(gè)轉(zhuǎn)錄組數(shù)據(jù),237個(gè)物種的EST序列,69個(gè)物種的7544條miRNA序列,2個(gè)物種的83262條piRNA序列,構(gòu)建了78個(gè)物種的22536個(gè)信號(hào)通路,116個(gè)昆蟲的UTR序列和CDS序列。針對(duì)61個(gè)有OGS注釋的昆蟲,開展了數(shù)據(jù)挖掘。
InsectBase對(duì)研究較多的36個(gè)基因家族開展了系統(tǒng)分析,運(yùn)用OrthoMCL直系同源算法發(fā)現(xiàn)了7個(gè)物種中的直系同源基因,共找到1 ∶1 ∶1直系同源基因973個(gè)。InsectBase昆蟲基因組數(shù)據(jù)庫提供序列查詢、序列比對(duì)、基因組可視化、信號(hào)通路和注釋、進(jìn)化分析和進(jìn)化樹構(gòu)建等功能服務(wù),所有基因數(shù)據(jù)均可下載。從PubMed中下載了94758條昆蟲研究相關(guān)文獻(xiàn),通過數(shù)據(jù)挖掘,建立了昆蟲學(xué)領(lǐng)域的關(guān)系網(wǎng)絡(luò)平臺(tái)iFacebook,初步實(shí)現(xiàn)“基因-研究者-昆蟲物種”等三者之間的關(guān)系網(wǎng)絡(luò),便于促進(jìn)學(xué)術(shù)交流。InsectBase是綜合型的生物信息學(xué)數(shù)據(jù)庫,數(shù)據(jù)種類齊全、功能全面、用戶使用方便,有利于昆蟲學(xué)研究者對(duì)基因數(shù)據(jù)的獲得、整理和分析,促進(jìn)昆蟲分子生物學(xué)研究。自2015年8月上線以來,到目前已經(jīng)累計(jì)有來自全世界86個(gè)國(guó)家的研究學(xué)者近10萬次的訪問,其中最活躍的當(dāng)屬中國(guó)和美國(guó),中國(guó)的訪問量占到86.23%。
表 2 昆蟲基因組數(shù)據(jù)庫統(tǒng)計(jì)
隨著測(cè)序費(fèi)用的急劇下降,昆蟲基因組測(cè)序計(jì)劃如雨后春筍般地涌現(xiàn)。由于昆蟲基因組雜合度高導(dǎo)致的拼接困難等問題,在2020年前完成5000種昆蟲測(cè)序的目標(biāo)也許很難實(shí)現(xiàn),但隨著技術(shù)的進(jìn)步,這些困難最終會(huì)得到徹底解決。對(duì)948種昆蟲基因組大小進(jìn)行統(tǒng)計(jì)分析,結(jié)果顯示平均大小為1.15 Gb,按1000美元完成人基因組(3 Gb)測(cè)序來計(jì)算,完成一個(gè)昆蟲基因組的測(cè)序僅需不到400美元。相信在不久的將來,昆蟲基因組測(cè)序和重測(cè)序?qū)⒊蔀槿粘?shí)驗(yàn)設(shè)計(jì)的一部分。
組學(xué)數(shù)據(jù)的大量積累,將會(huì)對(duì)昆蟲學(xué)研究起巨大的推動(dòng)作用。首先,系統(tǒng)生物學(xué)的研究思路將占據(jù)昆蟲分子生物學(xué)研究的高地,研究人員不僅僅將基因組作為數(shù)據(jù)倉庫在使用,而且可以從組學(xué)角度尋找重要科學(xué)問題的答案,才是功能基因組學(xué)研究時(shí)代的突破性飛躍。其次,生物數(shù)據(jù)的積累對(duì)生物信息學(xué)提出了更高的要求。目前,數(shù)據(jù)分析工作主要依賴于公司的技術(shù)人員完成,但是常規(guī)的通用分析流程將越來越不能勝任具有針對(duì)性的數(shù)據(jù)分析需求,生物信息學(xué)技術(shù)將如同上世紀(jì)90年代末的分子生物學(xué)技術(shù)一樣,成為每一個(gè)實(shí)驗(yàn)室的重要技術(shù)平臺(tái)。因此,昆蟲學(xué)研究中應(yīng)該注重培養(yǎng)既懂昆蟲學(xué)問題也熟悉生物信息學(xué)分析的兩棲人才。最后,基因組重測(cè)序、轉(zhuǎn)錄組、蛋白組和代謝組等將成為功能基因組時(shí)代的四駕馬車,將DNA、RNA、蛋白質(zhì)和代謝產(chǎn)物4個(gè)不同層次的大數(shù)據(jù)充分整合,是功能基因組時(shí)代的重要研究手段。
在昆蟲基因組學(xué)研究中,還應(yīng)當(dāng)注意和明確的是,數(shù)據(jù)和技術(shù)應(yīng)該為科學(xué)問題服務(wù)。昆蟲基因組數(shù)據(jù)的大量堆積,數(shù)據(jù)質(zhì)量良莠不齊,需要提高和發(fā)展;技術(shù)層面上的問題重重,需要實(shí)現(xiàn)突破。他山之石,可以攻玉。昆蟲基因組研究可以并應(yīng)當(dāng)借鑒醫(yī)學(xué)研究領(lǐng)域的領(lǐng)先技術(shù)和思路,但技術(shù)的突破和數(shù)據(jù)的提高,應(yīng)該緊密圍繞昆蟲科學(xué)問題,服務(wù)于害蟲防治和益蟲利用的最終目標(biāo)。
References)
Adams MD, Celniker SE, Holt RA,etal. The genome sequence of Drosophila melanogaster [J].Science, 2000, 287(5461): 2185-95.
Allen JE, Majoros WH, Pertea M,etal. JIGSAW, GeneZilla, and GlimmerHMM: Puzzling out the features of human genes in the ENCODE regions [J].GenomeBiol., 2006, 7(S9):1-13.
Bao Z, Eddy SR. Automated de novo identification of repeat sequence families in sequenced genomes [J].GenomeRes., 2002, 12(8): 1269-1276.
Baxevanis AD, Bateman A. The importance of biological databases in biological discovery [J].CurrProtocBioinformatics, 2015, 50111-50118.
Bellaousov S, Reuter JS, Seetin MG,etal. RNAstructure: Web servers for RNA secondary structure prediction and analysis [J].NucleicAcidsRes., 2013, 41(Web Server issue): W471-474.
Benoit JB, Adelman ZN, Reinhardt K,etal. Unique features of a global human ectoparasite identified through sequencing of the bed bug genome [J].Nat.Commun., 2016, 710165.
Butler J, MacCallum I, Kleber M,etal. ALLPATHS: De novo assembly of whole-genome shotgun microreads [J].GenomeRes., 2008, 18(5): 810-820.
Cantarel BL, Korf I, Robb SM,etal. MAKER: An easy-to-use annotation pipeline designed for emerging model organism genomes [J].GenomeRes., 2008, 18(1): 188-196.
Chen Y,Liu YS,Zeng JG,etal. Progresses on plant genome sequencing profile [J].LifeScienceResearchFeb.,2014(1): 66-74.
Consortium HGS. Insights into social insects from the genome of the honeybeeApismellifera[J].Nature, 2006, 443(7114): 931.
Davies NJ, Tauber E. WaspAtlas: A Nasonia vitripennis gene database and analysis platform [J].Database(Oxford), 2015.
Duan J, Li R, Cheng D,etal. SilkDB v2.0: A platform for silkworm (Bombyxmori)genome biology [J].NucleicAcidsRes., 2010, 38(Database issue): 453-456.
Edgar RC, Myers EW. PILER: Identification and classification of genomic repeats [J].Bioinformatics, 2005, 21(Suppl):152-158.
Elsik CG, Mackey AJ, Reese JT,etal. Creating a honey bee consensus gene set [J].GenomeBiol., 2007, 8(1): R13.
Friedlander MR, Chen W, Adamidi C,etal. Discovering microRNAs from deep sequencing data using miRDeep [J].Nat.Biotechnol., 2008, 26(4): 407-415.
Giraldo-Calderon GI, Emrich SJ, MacCallum RM,etal. VectorBase: An updated bioinformatics resource for invertebrate vectors and other organisms related with human diseases [J].NucleicAcidsRes., 2015, 43(Database issue): 707-713.
Heather JM, ChainB. The sequence of sequencers: The history of sequencing DNA[J].Genomics, 2016, 107(1): 1-8.
Jouraku A, Yamamoto K, Kuwazaki S,etal. KONAGAbase: A genomic and transcriptomic database for the diamondback moth,Plutellaxylostella[J].BMCGenomics, 2013: 14464.
Kelley JL, Peyton JT, Fiston-Lavier AS,etal. Compact genome of the Antarctic midge is likely an adaptation to an extreme environment [J].Nat.Commun., 2014, 54611.
Kirkness EF, Haas BJ, Sun W,etal. Genome sequences of the human body louse and its primary endosymbiont provide insights into the permanent parasitic lifestyle [J].ProceedingsoftheNationalAcademyofSciences, 2010, 107(27): 12168-12173.
Kozomara A, Griffiths-Jones S. miRBase: Annotating high confidence microRNAs using deep sequencing data [J].NucleicAcidsRes., 2014, 42(Database issue): 68-73.
Legeai F, Shigenobu S, Gauthier JP,etal. AphidBase: A centralized bioinformatic resource for annotation of the pea aphid genome [J].InsectMol.Biol., 2010, 19(Suppl):25-12.
Liu JD,Improvement of Insect Genome Annotation Method and Analysis of Two Insect Genomes [D]. Nanjing Agricultural University,2014.
Liu Q, Mackey AJ, Roos DS,etal. Evigan: A hidden variable model for integrating gene evidence for eukaryotic gene prediction [J].Bioinformatics, 2008, 24(5): 597-605.
Luo R, Liu B, Xie Y,etal. SOAPdenovo2: An empirically improved memory-efficient short-read de novo assembler [J].Gigascience, 2012, 1(1): 18.
Maxam AM, Gilbert W. A new method for sequencing DNA [J].Proc.Natl.AcadSci.USA, 1977, 74(2): 560-564.
Miller JR, Delcher AL, Koren S,etal. Aggressive assembly of pyrosequencing reads with mates [J].Bioinformatics, 2008, 24(24): 2818-2824.
Munoz-Torres MC, Reese JT, Childers CP,etal. Hymenoptera Genome Database: Integrated community resources for insect species of the order Hymenoptera [J].NucleicAcidsRes., 2011, 39(Database issue): 658-662.
Ouzounis C A, Valencia A. Early bioinformatics: The birth of a discipline—a personal view [J].Bioinformatics, 2003, 19(17): 2176-2190.
Pang KC, Stephen S, Dinger ME,etal. RNAdb 2.0—An expanded database of mammalian non-coding RNAs [J].NucleicAcidsRes., 2007, 35(Database issue): 178-182.
Papanicolaou A, Schetelig MF, Arensburger P,etal. The whole genome sequence of the Mediterranean fruit fly,Ceratitiscapitata(Wiedemann), reveals insights into the biology and adaptive evolution of a highly invasive pest species [J].GenomeBiol., 2016, 17(1): 192.
Parra G, Bradnam K, Korf I. CEGMA: A pipeline to accurately annotate core genes in eukaryotic genomes [J].Bioinformatics, 2007, 23(9): 1061-1067.
Poelchau M, Childers C, Moore G,etal. The i5k Workspace@NAL—enabling genomic data access, visualization and curation of arthropod genomes [J].NucleicAcidsRes, 2015, 43(Database issue): 714-719.
Price AL, JonesNC, Pevzner PA. De novo identification of repeat families in large genomes [J].Bioinformatics, 2005, 21(Suppl.):351-358.
Richards S, Murali SC. Best Practices in Insect Genome Sequencing: What Works and What Doesn’t [J].Curr.Opin.Insect.Sci., 2015, 71-77.
Robinson GE, Hackett KJ, Purcell-Miramontes M,etal. Creating a buzz about insect genomes [J].Science, 2011, 331(6023): 1386-1386.
Sanger F, Coulson AR. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase [J].J.Mol.Biol., 1975, 94(3): 441-448.
Sanger F, Air GM, Barrell BG,etal. Nucleotide sequence of bacteriophage phi X174 DNA [J].Nature, 1977, 265(5596): 687-695.
Scott JG, Warren WC, Beukeboom LW,etal. Genome of the house fly,MuscadomesticaL., a global vector of diseases with adaptations to a septic environment [J].GenomeBiol., 2014, 15(10): 466.
Shimomura M, Minami H, Suetsugu Y,etal. KAIKObase: An integrated silkworm genome database and data mining tool [J].BMCGenomics, 2009, 10486.
Simao FA, Waterhouse RM, Ioannidis P,etal. BUSCO: Assessing genome assembly and annotation completeness with single-copy orthologs [J].Bioinformatics, 2015, 31(19): 3210-3212.
Simpson JT, Wong K, Jackman SD,etal. ABySS: A parallel assembler for short read sequence data [J].GenomeRes., 2009, 19(6): 1117-1123.
Stephens ZD, Lee SY, Faghri F,etal. Big Data: Astronomical or Genomical?[J].PLoSBiol., 2015, 13(7): e1002195.
Tang W, Yu L, He W,etal. DBM-DB: The diamondback moth genome database [J].Database(Oxford), 2014.
Tarailo-Graovac M, Chen N. Using RepeatMasker to identify repetitive elements in genomic sequences [J].Curr.Protoc.Bioinformatics, 2009, Chapter 4Unit 4 10.
Venter JC, Adams MD, Myers EW,etal. The sequence of the human genome [J].Science, 2001, 291(5507): 1304-1351.
Wajid B, Serpedin E. Review of general algorithmic features for genome assemblers for next generation sequencers [J].GenomicsProteomicsBioinformatics, 2012, 10(2): 58-73.
Wang J, Xia Q, He X,etal. SilkDB: A knowledgebase for silkworm biology and genomics [J].NucleicAcidsRes., 2005, 33(Database issue): 399-402.
Wang X, Fang X, Yang P,etal. The locust genome provides insight into swarm formation and long-distance flight [J].Nat.Commun., 2014: 52957.
Werren JH, Richards S, Desjardins CA,etal. Functional and evolutionary insights from the genomes of three parasitoidNasoniaspecies[J].Science, 2010, 327(5963): 343-348.
Xia Q, Zhou Z, Lu C,etal. A draft sequence for the genome of the domesticated silkworm (Bombyxmori)[J].Science, 2004, 306(5703): 1937-1940.
Xiao JH, Yue Z, Jia LY,etal. Obligate mutualism within a host drives the extreme specialization of a fig wasp genome [J].GenomeBiol., 2013, 14(12): R141.
Xu Y, Wang X, Yang J,etal. PASA—a program for automated protein NMR backbone signal assignment by pattern-filtering approach [J].J.Biomol.NMR, 2006, 34(1): 41-56.
Xu Z, Wang H. LTR_FINDER: An efficient tool for the prediction of full-length LTR retrotransposons [J].NucleicAcidsRes., 2007, 35(Web Server issue): 265-268.
Xue C, Li F, He T,etal. Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machine [J].BMCBioinformatics, 2005:6310.
Xue J, Zhou X, Zhang CX,etal. Genomes of the rice pest brown planthopper and its endosymbionts reveal complex complementary contributions for host adaptation [J].GenomeBiol., 2014, 15(12): 521.
Yin C, Liu Y, Liu J,etal. ChiloDB: A genomic and transcriptome database for an important rice insect pestChilosuppressalis[J].Database(Oxford), 2014.
Yin C, Shen G, Guo D,etal. InsectBase: A resource for insect genomes and transcriptomes [J].NucleicAcidsRes., 2016, 44(D1): 801-807.
You M, Yue Z, He W,etal. A heterozygous moth genome provides insights into herbivory and detoxification [J].NatureGenetics, 2013, 45(2): 220-225.
Zhan S, Merlin C, Boore J L,etal. The monarch butterfly genome yields insights into long-distance migration [J].Cell, 2011, 147(5): 1171-1185.
Zhan S, Reppert S M. MonarchBase: The monarch butterfly genome database [J].NucleicAcidsRes., 2013, 41(Database issue): 758-763.
Zhang CX,Current research status and prospects of genomes of insects important to agriculture in China [J].ScientiaAgriculturaSinica,2015(17): 3454-3462.
Zhao Y, Li H, Fang S,etal. NONCODE 2016: An informative and valuable data source of long non-coding RNAs [J].NucleicAcidsRes., 2016, 44(D1): 203-208.
Chen Y,Liu YS,Zeng JG.Progresses on plant genome Sequencing profile[J].LifeScienceResearch,2014,18(1):66-74.[陳勇, 柳亦松, 曾建國(guó). 植物基因組測(cè)序的研究進(jìn)展[J]. 生命科學(xué)研究, 2014,18(1): 66-74]
Liu JD.Improlement of insect genome annotation method and analysis of two insect geomes[D].Nanjing Agriculture University,2014.[劉金定. 昆蟲基因組注釋方法改進(jìn)及兩種昆蟲基因組分析[D].南京農(nóng)業(yè)大學(xué), 2014]
Zhang CX.Current research status and prospects of genomes of insect important to agriculture in China[J].ScientiaAgricutturaSinica,48(17):3454-3462.[張傳溪. 中國(guó)農(nóng)業(yè)昆蟲基因組學(xué)研究概況與展望[J]. 中國(guó)農(nóng)業(yè)科學(xué), 2015,48(17): 3454-3462]
The progress of insecg genomic research and the gene database
YIN Chuan-Lin, LI Mei-Zhen, HE Kang, DING Si-Min, GUO Dian-Hao, XI Yu, LI Fei*
(Institute of Inesct Science, Zhejiang University,Hangzhou 310058, China)
With huge amount of insect genome sequencing data was generated, entomology has entered a new era of systematic biology. Up to now, 467 insect genome projects have been registered on NCBI, among which 225 have submitted with sequencing raw reads, 215 have been assemblied, 65 have been annotated and 43 have been published. Here, we reviewed the development of different sequence technologies, methods and problems of genome assembly, genome annotation and analysis, and important achievements in the field of insect genome projects. In addition, we summarized the development of insect genome databases. Insect genomics is now a hotspot of scientific study, which has wide applications in pest control and utilization of the resource insects.
Insect genome; genome database; big DATA; biological databases
特邀稿件InvitedReview
國(guó)家重點(diǎn)研發(fā)計(jì)劃“主要入侵生物的生物學(xué)特性分析”重大課題(2016YFC1200602)
尹傳林,男,1989年生,博士研究生,研究方向?yàn)槔ハx基因組學(xué),E-mail: yincl2013@126.com
*通信作者Author for correspondence, E-mail: lifei18@zju.edu.cn
Q963; S43
A
1674-0858(2017)01-0001-18
Received:2016-12-10;接收日期 Accepted:2016-12-20
尹傳林,李美珍,賀康,等.昆蟲基因組及數(shù)據(jù)庫研究進(jìn)展[J].環(huán)境昆蟲學(xué)報(bào),2017,39(1):1-18.