陸紫云,查雙龍,劉江崟,馬羊帥,肖力婷,楊慧林
(江西師范大學(xué)生命科學(xué)學(xué)院,江西省亞熱帶植物資源保護(hù)與利用重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330022)
嗜熱微生物是指可在溫度較高的環(huán)境中生存并繁殖的一類微生物群體,它們在火山、溫泉等自然棲息地和堆肥、工業(yè)生產(chǎn)等人為環(huán)境中都有一定的分布.許多嗜熱微生物具有適于生物技術(shù)和商業(yè)應(yīng)用的特性[1](如具有多種熱穩(wěn)定酶[2]),可用于工業(yè)應(yīng)用,對某些礦物具有特殊的浸溶能力[3]及生物修復(fù)能力[4].
Geobacillus菌屬是在2001年被T.N. Nazina等[5]提出從Bacillus菌屬中分離出來作為一個(gè)新的菌屬,該菌屬內(nèi)成員專性嗜熱,是典型的嗜熱微生物組群.迄今為止,該菌屬在油田、火山口、溫泉等自然環(huán)境和人為高溫環(huán)境中都有發(fā)現(xiàn),且該菌屬物種在許多中溫或低溫地區(qū)也被分離得到[6].該菌屬在生物技術(shù)和工業(yè)領(lǐng)域中具有重要應(yīng)用.近年來,Geobacillus菌屬受到研究者的廣泛研究.R.E. Cripps等[7]利用代謝工程方法對2株Geobacillus嗜熱菌進(jìn)行改造,最后得到高效生產(chǎn)乙醇的菌株;A. Verma等[8]純化和表征菌種GeobacillusthermocatenulatusMS5中的漆酶,能夠在紡織工業(yè)中廣泛有效地去除對環(huán)境造成污染的染料,在合成染料的生物修復(fù)中發(fā)揮著重要作用;唐赟等[9]發(fā)現(xiàn)可使苯酚降解的菌株;S. Bilge等[10]從嗜熱菌中純化和表征出耐高溫淀粉酶等多種熱穩(wěn)定酶.
自從2004年T. Hideto等[11]提出第1個(gè)完整的嗜熱桿菌相關(guān)物種GeobacilluskaustophilusHTA426的基因組序列至今,已經(jīng)有大約200個(gè)該菌屬物種的基因組序列被進(jìn)行高通量測序.目前,基于生物信息學(xué)技術(shù)對基因組序列進(jìn)行分析已成為人們廣泛認(rèn)可的分析方式.依托計(jì)算機(jī)學(xué)科和數(shù)學(xué)學(xué)科對基因組序列進(jìn)行分析已成為普遍的分析方式[12],生物信息學(xué)研究從發(fā)展至今已為許多科學(xué)研究提供了一個(gè)探索方向[13].在利用生物信息數(shù)據(jù)研究生物的遺傳密碼以及物種進(jìn)化的內(nèi)容中[14],對基因組的分析是提供關(guān)于細(xì)菌如何應(yīng)對高溫的信息的重要一步,通過對基因組分析確定在其基因組中是否存在熱相關(guān)蛋白,為微生物適應(yīng)高溫提供相關(guān)見解[15].有研究者將Geobacillus菌屬物種與其他嗜中溫細(xì)菌基因組進(jìn)行對比分析發(fā)現(xiàn)其部分特有基因塑造了其對溫度的某種耐受性[11],這也說明對于全基因組的測定并在進(jìn)行比較基因分析中挖掘出有用的信息是非常必要的,這些獨(dú)特基因?qū)ξ⑸镞m應(yīng)極端環(huán)境至關(guān)重要.
本文研究的Geobacillus菌株是在工業(yè)管道中發(fā)現(xiàn)的1株嗜熱菌,它能夠在55 ℃下生長繁殖.為了獲得該嗜熱菌的分子信息,初步了解其嗜熱機(jī)制,本文利用NGS技術(shù)測定該菌株的全基因組序列,同時(shí)利用生物信息學(xué)軟件預(yù)測菌株的功能基因,對其基因功能進(jìn)行進(jìn)一步分析,為挖掘其潛在的生物學(xué)意義提供基礎(chǔ).
將菌株YHL接至LB培養(yǎng)基中于55 ℃條件下培養(yǎng)2 d,然后在超凈工作臺(tái)中取出樣品,在低溫(4 ℃)條件下離心后棄上清、收集菌體,基因組提取參照文獻(xiàn)[16]的方法,在獲得高質(zhì)量基因組后送至測序公司進(jìn)行高通量測序.
在提取基因組DNA后,對其進(jìn)行質(zhì)量鑒定,利用Qubit 3.0對提取的DNA濃度進(jìn)行測定,當(dāng)質(zhì)量達(dá)標(biāo)后測定菌株的全基因組,測序平臺(tái)為Illumina Hiseq 2000.在測序完成后,利用拼接軟件Velevt 1.2.10[17]優(yōu)化Kmer值,將測定的序列進(jìn)行組裝.然后利用軟件Glimmer 3.02[18]對菌株進(jìn)行基因預(yù)測,得到的蛋白質(zhì)通過與COG數(shù)據(jù)庫、NR數(shù)據(jù)庫、Swiss-prot數(shù)據(jù)庫、Interpro數(shù)據(jù)庫、KEGG和GO數(shù)據(jù)庫進(jìn)行比對來獲得相應(yīng)的注釋信息.最后利用多種繪圖工具對注釋信息進(jìn)行匯總.全基因組序列數(shù)據(jù)已提交到NCBI,登錄號(hào)為JAEIGB000000000.
將16s rRNA序列的contigs進(jìn)行拼接,基于16s rRNA的同源序列在EZbio上比對其同源序列,選取其親緣關(guān)系較近的18株菌,使用MAGEX軟件對共19株菌的16s rDNA序列構(gòu)建Neighbor-joining(NJ)系統(tǒng)進(jìn)化樹.
采用次級代謝產(chǎn)物合成基因簇在線預(yù)測軟件antiSMASH(https://antismash.secondarymetabolites.org)[19]對菌株次級代謝產(chǎn)物進(jìn)行預(yù)測,獲得代謝產(chǎn)物的預(yù)測結(jié)果.
在通過高通量測序?qū)昊蚪M進(jìn)行測序后,使用Velvet 1.2.10軟件對測序的片段進(jìn)行拼接,最終得到47個(gè)contigs,N50的長度為145 810 bp,N90長度為42 680 bp.基因序列全長為3 426 484 bp,GC含量為52.35%,包含了9個(gè)rRNA和85個(gè)tRNA.利用Glimmer預(yù)測軟件對編碼基因預(yù)測,預(yù)測得到編碼基因3 609個(gè),占總基因組的86.19%,總長度為2 953 284 bp,平均總長度為818.31 bp.基因組圈圖如圖1所示.
注:在YHL菌株基因組圈圖中,最外圈為基因大小; 第2、第3圈分別為正、負(fù)鏈上的CDS;第4圈為rRNA和tRNA;第5圈為GC含量,指向外圈表示其GC含量高于平均水平;第6圈為GC-skew值.
基于16s rRNA基因序列信息,使用MAGE X軟件構(gòu)建鄰接(NJ)系統(tǒng)進(jìn)化樹(見圖2),以證明該菌株在譜系中的地位.根據(jù)進(jìn)化樹的分支距離可以發(fā)現(xiàn):實(shí)驗(yàn)菌株和高溫烷烴地芽孢桿菌GeobacillusthermoleovoransKCTC 3570(T)具有較高的同源性,分布在同一個(gè)系統(tǒng)分支上.
圖2 Geobacillus sp. YHL鄰接系統(tǒng)進(jìn)化樹
目前在NCBI上可查詢到的屬于Geobacillus屬的全基因組測序的菌株有100多株,對目前已完成全基因組序列的屬于Geobacillus屬的31株菌進(jìn)行統(tǒng)計(jì)分析,結(jié)果如表1所示.從表1可以看出它們的基本信息大致相似.菌株全基因序列大小相似,GC含量均在52%左右.本文研究的菌株GC含量為52.35%.同時(shí),基于16s rRNA基因構(gòu)建系統(tǒng)發(fā)育樹可以初步確定菌株YHL歸類為Geobacillus屬.本文研究菌株命名為Geobacillussp. YHL.
利用Glimmer軟件對YHL菌株的蛋白基因數(shù)進(jìn)行預(yù)測,共獲得3 609個(gè);接著對上述的蛋白序列進(jìn)行COG注釋,將注釋結(jié)果與COG數(shù)據(jù)庫進(jìn)行比對,設(shè)定其Evalue≤1×10-5,最終得到3 051個(gè)蛋白注釋(見圖3).從圖3可以看出:在YHL菌株的COG聚類中所有的假設(shè)基因和部分編碼功能未知蛋白的基因?qū)τ诨蚪M預(yù)測基因總數(shù)的占比最大.此外,預(yù)測得到的基因集中在氨基酸轉(zhuǎn)運(yùn)和代謝,碳水化合物轉(zhuǎn)運(yùn)和代謝,能量生產(chǎn)和轉(zhuǎn)換,轉(zhuǎn)錄、復(fù)制、重組以及修復(fù)5個(gè)方面,它們分別對應(yīng)圖3中的E、G、C、K、L.這也反映出菌株需要不斷修復(fù)DNA和蛋白質(zhì)來應(yīng)對極端環(huán)境以確保自身的生存.
圖3 Geobacillus sp. YHL蛋白質(zhì)COG聚類分析
表1 部分已完成全基因組測序的地芽孢菌屬基本特征比較分析
表1(續(xù))
基于上述預(yù)測結(jié)果,利用GO注釋對預(yù)測結(jié)果進(jìn)行注釋,同時(shí)通過在線工具WEGO(http://wego.genomics.org.cn/cgi-bin/wego/index.pl)對預(yù)測的蛋白結(jié)果進(jìn)行GO功能分類圖的繪制(見圖4(a)),GO功能分類(細(xì)胞組分、生物過程、分子功能)占據(jù)優(yōu)勢的基因數(shù)量主要是氧化還原過程(oxidation-reduction process)、膜的整體組成部分(integral component of membrane)、細(xì)胞質(zhì)(cytoplasm)、細(xì)胞質(zhì)膜(plasma membrane)、ATP結(jié)合(ATP binding)、DNA結(jié)合(DNA binding).數(shù)量眾多的基因注釋到細(xì)胞膜和DNA方面.同GO注釋一樣,將預(yù)測蛋白與KEGG數(shù)據(jù)庫進(jìn)行比對(見圖4(b)),KEGG生物通路主要分布在代謝(metabolism)、基因信息加工(genetic information processing)和環(huán)境信息過程(environmental information processing)中.在代謝途徑通路中基因顯著富集的有糖代謝(carbohydrate metabolism)、global and overview maps、氨基酸代謝(amino acid metabolism)、輔助因子和維生素的代謝(metabolism of cofactors and vitamins)、能量代謝(energy metabolism).而在環(huán)境信息過程中基因富集的有膜轉(zhuǎn)運(yùn)(membrane transport).在基因信息加工途徑中基因富集的有翻譯(translation).
(a)蛋白質(zhì)GO聚類分析 (b)KEGG生物通路分析注:為簡化圖示,圖(a)中立柱從左至右分別以1~42表示,其含義如下:1為氧化還原過程;2為轉(zhuǎn)錄調(diào)控,DNA模板;3為轉(zhuǎn)運(yùn);4為蛋白質(zhì)水解;5為磷脂酶信號(hào)轉(zhuǎn)導(dǎo)系統(tǒng);6為代謝過程;7為磷酸化;8為翻譯;9為跨膜轉(zhuǎn)運(yùn);10為碳水化合物代謝過程;11為核酸磷酸二酯鍵水解;12為甲基化;13為細(xì)胞分裂;14為蛋白質(zhì)磷酸化的信號(hào)轉(zhuǎn)導(dǎo);15為細(xì)胞質(zhì)膜組成成分;16為細(xì)胞質(zhì);17為細(xì)胞質(zhì)膜;18為胞內(nèi);19為核糖體;20為細(xì)胞膜組成成分;21為細(xì)胞;22為膜;23為病毒衣殼;24為ABC結(jié)合盒轉(zhuǎn)運(yùn)體復(fù)合物;25為胞外區(qū)域;26為細(xì)菌型鞭毛基體;27為染色體;28為核糖體大亞基;29為ATP結(jié)合;30為DNA結(jié)合;31為金屬離子結(jié)合;32為水解酶活性;33為轉(zhuǎn)錄因子活性,序列特異性DNA結(jié)合;34為鎂離子結(jié)合;35為轉(zhuǎn)運(yùn)活性;36為ATP酶活性;37為鋅離子結(jié)合;38為氧化還原酶;39為轉(zhuǎn)移酶活性;40為核糖體結(jié)構(gòu)成分;41為RNA結(jié)合;42為黃素腺嘌呤二核苷酸結(jié)合.圖4 Geobacillus sp. YHL蛋白質(zhì)GO聚類分析和KEGG生物通路分析
次級代謝產(chǎn)物是指微生物培養(yǎng)到生長后期通過代謝產(chǎn)生的物質(zhì),它往往具有一定的應(yīng)用價(jià)值,對人類的生產(chǎn)、生活具有一定意義.因此通過antiSMASH軟件對YHL菌株進(jìn)行預(yù)測,獲得該菌株在基因組中基因簇分布情況,共預(yù)測到5個(gè)次級代謝產(chǎn)物合成相關(guān)的基因簇(見表2),包括聚酮(PKS)、萜類(terpene)、鐵載體類(siderophore)、細(xì)菌素類(bacteriocin).
表2 YHL次級代謝產(chǎn)物合成基因簇預(yù)測
在菌株YHL基因組中發(fā)現(xiàn)了與溫度應(yīng)激相關(guān)的基因,包括熱休克蛋白、冷休克蛋白和相關(guān)分子伴侶的基因,結(jié)果如表3所示.從表3可以發(fā)現(xiàn):其中熱休克蛋白Hsp20有較多基因數(shù)量.該蛋白屬于一種小的熱休克蛋白,也有研究發(fā)現(xiàn)Hsp20蛋白可能參與了低溫和高溫保護(hù)蛋白質(zhì)的伴隨過程,Hsp20是一個(gè)重要的氧化應(yīng)激和溫度應(yīng)激反應(yīng)基因[20],這或許幫助菌株YHL細(xì)胞在高溫中維持蛋白的穩(wěn)定.Hsp100家族對于蛋白質(zhì)聚集物有清除功能.最新研究發(fā)現(xiàn)在Hsp100家族中的成員之一的依賴ATP酶活性的分子伴侶ClpB可通過拉動(dòng)作用將蛋白鏈從蛋白聚集物中單個(gè)拉出.而當(dāng)分子伴侶ClbB被去除以后,之前被拉出的蛋白鏈又可以重新進(jìn)行折疊,同時(shí)恢復(fù)原有的功能[21].這對于由在高溫影響下菌株YHL的蛋白質(zhì)的錯(cuò)誤折疊所產(chǎn)生的異常蛋白質(zhì)的清除起到重要作用.在高溫刺激后的蛋白質(zhì)聚集物的再活化對于修復(fù)菌體自身機(jī)能有著重要的意義,這可以節(jié)省再翻譯的時(shí)間以及避免消耗眾多的能量.蛋白質(zhì)聚集物的再活化需要1~2個(gè)協(xié)同作用的伴侶系統(tǒng).在原核生物中,由伴侶蛋白DnaK、共伴侶DnaJ、GrpE和Hsp100伴侶蛋白ClpB組成.伴侶間的協(xié)同工作是細(xì)菌應(yīng)對環(huán)境的重要功能.這或許是菌株YHL應(yīng)對高溫的重要策略之一.在冷相關(guān)蛋白(如冷休克蛋白Csp家族)中的冷休克蛋白CspB富含polyU的5′UTR以高親和力結(jié)合富含T的單鏈DNA(ssDNA),這可防止在溫度下降時(shí)mRNA 2級結(jié)構(gòu)的形成,從而穩(wěn)定mRNA結(jié)構(gòu),有助于翻譯的啟動(dòng)[22-23].這些基因?qū)τ诰闥HL應(yīng)對溫度波動(dòng)以維持細(xì)胞活力有重要作用.
表3 菌株YHL溫度應(yīng)激相關(guān)蛋白基因
在工業(yè)上,通過微生物優(yōu)化發(fā)酵或重組DNA技術(shù)來克隆嗜熱菌酶基因異源表達(dá)是獲得工業(yè)酶的重要手段[24].在菌株YHL中預(yù)測到多種編碼酶基因,這表明YHL是個(gè)多酶編碼菌.YHL能夠編碼糖苷水解酶、葡糖苷酶、木聚糖酶、淀粉酶、新型普魯蘭酶和脂肪酶.此外,編碼多銅多酚氧化酶(漆酶)和抗癌酶谷氨酰胺酶(見表4),這些酶可用于食品、化學(xué)、制藥和環(huán)境生物技術(shù)行業(yè).α-淀粉酶和支鏈淀粉酶的組合在淀粉加工產(chǎn)業(yè)中扮演重要角色,淀粉酶的熱穩(wěn)定性對伴隨高溫的糖化過程非常重要.脂肪酶廣泛應(yīng)用于皮革、乳制品和生物柴油生產(chǎn)工業(yè)中[25].來自嗜熱細(xì)菌GeobacillusthermocatenulatusKCTC 3921的脂解酶基因在大腸桿菌中異源表達(dá)出具有對長鏈脂肪酸有強(qiáng)脂解活性的熱穩(wěn)定脂肪酶[26].L-谷氨酰胺酶可以對抗腫瘤細(xì)胞,它可將L-谷氨酰胺水解為L-谷氨酸和氨,通過阻斷從頭蛋白質(zhì)合成和通過促進(jìn)癌細(xì)胞死亡的氧化應(yīng)激增加超氧化物水平來選擇性地抑制腫瘤生長,是治療癌癥的有效藥物[27-28].
表4 菌株YHL編碼酶基因
表4(續(xù))
本文對1株嗜熱菌進(jìn)行全基因組測序,獲得47個(gè)contigs,基于16s rRNA,將其歸類為Geobacillus屬,對于確定到種,還需結(jié)合生理生化實(shí)驗(yàn)來確定.COG聚類分析結(jié)果表明其主要代謝途徑為氨基酸轉(zhuǎn)運(yùn)和代謝(E)、碳水化合物轉(zhuǎn)運(yùn)和代謝(G)2個(gè)方面.這表明其在高溫環(huán)境中的基礎(chǔ)生理活動(dòng)代謝旺盛.在KEGG分析中菌株YHL主要集中在代謝方面,在代謝條目下的子條目和數(shù)量都是最多的,這說明YHL具有旺盛的初級代謝過程,其中主要包括與機(jī)體提供能量和能源的糖代謝、為生命提供物質(zhì)基礎(chǔ)的氨基酸代謝、維持機(jī)體健康和促進(jìn)生長的維生素的代謝以及輔助因子.菌株YHL與D.N. Singh等[2]研究的菌株RL有高相似的COG聚類情況;菌株RL是一種嗜熱多酶編碼細(xì)菌,在降解木質(zhì)纖維素和廢水脫色等方面有廣泛作用;在YHL中也被證實(shí)含有多種碳水化合物酶基因,菌株YHL具有基因工程的可操作性和工業(yè)應(yīng)用潛能.菌株YHL在COG聚類分析中發(fā)現(xiàn)有高達(dá)999個(gè)蛋白未能進(jìn)行歸類,由此可推測因其中含有某些獨(dú)特的基因而塑造了YHL耐高溫的特點(diǎn),菌株YHL的功能仍有待挖掘.
鐵載體是微生物攝取在環(huán)境中的鐵元素而形成的對鐵離子高親和的化合物.目前關(guān)于鐵載體生物合成的方式主要包括2種:(i)由非核糖體肽合成酶(non-ribosomal peptide synthetases,NRPSs)的模塊化多酶家族指導(dǎo)合成;(ii)不依賴于NRPS(NRPS-independent,NIS)指導(dǎo)合成.以NIS合成途徑合成的鐵載體涉及一個(gè)由Iuc酶為主導(dǎo)的新合成酶家族,主要由2種鐵載體合成酶IucA和IucC來催化形成關(guān)鍵酰胺鍵,而IucA和IucC這2個(gè)合成酶也成為NIS生物合成途徑的重要標(biāo)志[29-32].目前,有關(guān)NIS的鐵載體生物合成途徑的研究仍處于起步階段,需要進(jìn)一步研究來了解NIS合成酶的底物特異性和產(chǎn)物控制的分子機(jī)制.在YHL基因組中預(yù)測到的鐵載體基因簇中發(fā)現(xiàn)了鐵載體生物合成蛋白IucA,這說明菌株YHL對在環(huán)境中鐵元素的攝取是通過NIS合成途徑來完成的.眾多研究表明:由NIS途徑產(chǎn)生的鐵載體是病原菌的毒力因子,可增強(qiáng)菌株致病性.徐水寶等[33]研究發(fā)現(xiàn)由NIS途徑合成的Aerobactin可增強(qiáng)高毒力肺炎克雷伯菌的毒力.聯(lián)系到Y(jié)HL菌株是在工業(yè)生產(chǎn)中發(fā)現(xiàn)的1株菌,可嘗試以開發(fā)途徑所涉及的通路蛋白抑制劑的方法來抑制該菌株,以達(dá)到在工業(yè)上有效清除雜菌的目的.
微生物基因組分析為人們提供由生活在熱環(huán)境中的嗜熱細(xì)菌遺傳組成的信息.菌株YHL含有許多編碼熱應(yīng)激相關(guān)蛋白質(zhì)基因,這些蛋白質(zhì)可能對細(xì)菌適應(yīng)高溫具有重要意義.基因組數(shù)據(jù)分析對確定微生物與溫度適應(yīng)相關(guān)的基因功能很重要.研究表明:細(xì)菌通過上調(diào)熱休克蛋白、增強(qiáng)蛋白質(zhì)合成和降低碳分解代謝來抵抗高溫[34].在YHL中發(fā)現(xiàn)了許多熱休克蛋白基因和蛋白質(zhì)分子伴侶,并且發(fā)現(xiàn)了和其他菌株的熱應(yīng)激不同基因,在菌株YHL中存在CspB,而在其他的菌株(如Geobacillussp. TFV3)中存在CspD,它們同為Csp蛋白家族的一員,但CspB是冷激誘導(dǎo)的[35],而CspD則由其他條件誘導(dǎo)產(chǎn)生(如出現(xiàn)在大腸桿菌營養(yǎng)缺乏時(shí)期)[36].這說明不同的菌株對抗外界環(huán)境的作用模式不完全相似.
菌株YHL編碼白色生物技術(shù)需要水解酶糖苷水解酶、葡糖苷酶、木聚糖酶、淀粉酶、新普魯蘭酶、支鏈淀粉酶和脂肪酶的混合物.此外,編碼綠色生物催化劑多銅多酚氧化酶(漆酶)和抗癌酶谷氨酰胺酶的基因的存在分別反映了菌株YHL對于灰色和紅色生物技術(shù)的潛力.克隆重組第1步要獲得編碼酶基因,而基因來源宿主的特性是選擇的重要指標(biāo).通過對嗜熱菌來源的遺傳操作來獲得具有熱穩(wěn)定性的酶,這是常用的手段.隨著嗜熱菌等極端微生物的特性越來越被重視,越來越需要研究和遺傳改造這些物種,并在各種生物技術(shù)和工業(yè)應(yīng)用中利用它們的特性.
對菌株YHL進(jìn)行全基因組測序而獲得其相關(guān)信息是有必要的,完整的基因組研究可能帶來新的見解(如此類細(xì)菌代謝的差異以及各種蛋白質(zhì)和酶在分子水平上的功能和熱穩(wěn)定性),并將提供許多與嗜熱細(xì)菌細(xì)胞各方面相關(guān)的信息,同時(shí)也可豐富Geobacillus屬的物種遺傳信息,為后續(xù)遺傳操作提供基礎(chǔ).