王雪竹,羅曉霞,張利莉*
(1塔里木大學生命科學與技術學院,新疆 阿拉爾 843300)
(2塔里木盆地生物資源保護利用兵團重點實驗室,新疆 阿拉爾 843300)
學者們從放線菌、其他細菌和真菌中發(fā)現的天然產物對人類醫(yī)學、動物健康和植物保護有著重要的貢獻[1],然而使用傳統挖掘抗生素的方法已經無法滿足日益增長的藥物需求,因此學者們將注意力轉向了兩個具有吸引力的天然產物發(fā)現來源:極端環(huán)境中未開發(fā)的放線菌的生物合成途徑以及放線菌基因組中隱藏的生物合成途徑[2]。生物基因組數據包含了其主要遺傳信息,全基因組測序有助于加深對微生物生命活動的認知。近年來,隨著高通量測序技術的不斷發(fā)展,微生物基因組測序的成本不斷降低,這使得大部分科研工作者利用基因組學的方法對微生物進行功能預測、進化分析及代謝產物挖掘等方面的研究[3]。
婁徹氏鏈霉菌是一種極為重要的微生物資源,可以產生諸多結構新穎、生物活性好的次級代謝產物,應用于工業(yè)、農業(yè)、醫(yī)藥及環(huán)境污染治理等多個方面,具有進一步深入研究和開發(fā)的潛力。本研究以一株分離自塔克拉瑪干沙漠駱駝蓬的婁徹氏鏈霉菌TRM65215和一株分離自胡楊濕地的婁徹氏鏈霉菌TRM68008為研究對象,采用平板對峙的方法發(fā)現兩株菌均對多種動植物病原菌具有拮抗活性,且兩株菌的拮抗病原菌種類及拮抗活性存在差異,分析可知具有潛在的研究價值,因此通過對兩株菌進行基因組測序,分析其代謝潛能及差異。
菌株TRM65215分離自塔克拉瑪干沙漠駱駝蓬,菌株TRM68008分離自胡楊濕地,菌株于實驗室?80℃冰箱甘油管中保存。
1.2.1 全基因組測序、組裝
菌株測序由上海派森諾生物科技有限公司采用全基因組鳥槍法完成,采用A5-MiSeq和SPAdes對去除接頭序列的測序數據進行從頭拼裝得到contig和scaffold。
1.2.2 系統發(fā)育分析
采用San Prep柱式質粒DNA抽提試劑盒提取菌株DNA,使用引物27F和1492R擴增菌株16S rRNA基因片段并進行測序。利用SeqMan軟件對序列進行拼接,EzBioCloud[4](https://www.ezbiocloud.net/identify)對16S rRNA基因序列進行多序列比對及計算序列相似性水平。使用MEGA 7[5]軟件鄰接法(neighbor-joining,NJ)構建16S rRNA基因系統發(fā)育進化樹及全基因組系統發(fā)育進化樹。
1.2.3 基因組功能注釋
使用 GO[6]、COG[7]和 KEGG[8]數據庫對菌株蛋白編碼基因功能進行注釋。
1.2.4 次級代謝產物預測
采用antiSMASH 5.0[9]軟件預測菌株次級代謝產物生物合成基因簇,并對次級代謝產物生物合成基因簇進行分析。
1.2.5 基因組同源分析
通過 NCBI網站(http://www.ncbi.nlm.nin.gov)下載3株婁徹氏鏈霉菌全基因組序列,Streptomyces rochei7434AN4(NZAP018517.1/AP018517.1)、StreptomycesrocheiNS1(JAJIRV000000000.1)和Streptomyces rocheiSID8161(JAAGMZ000000000.1)。將S.rochei7434AN4、S.rocheiNS1、S.rocheiSID8161和TRM65215、TRM68008全基因組序列上傳至 OrthoVenn2[10]數據庫進行直系同源基因分析,通過交互式維恩圖顯示所選物種之間集群的分離和交叉的功能注釋和總結。
TRM65215及TRM68008基因組特征如表1所示。TRM65215的基因組大小為6 844 901 bp,DNA(G+C)mol%值為72.67%,共編碼5 947個基因,通過序列拼接獲得54個contings,非編碼RNA中含有1個 5S rRNA、1個 16S rRNA、1個 23S rRNA、79個tRNA以及1個tmRNA。
表1 基因組特征描述
TRM68008的基因組全長為8 408 383 bp,DNA(G+C)mol%值為72.45%,共編碼7 420個基因,通過序列拼接獲得121個contings,非編碼RNA中含有1個 5S rRNA、1個16S rRNA、1個23S rRNA、86個tRNA以及1個tmRNA。
通過對TRM65215和TRM68008進行16S rRNA基因鑒定,兩株菌均與Streptomyces rocheiNRRL B-2410為同種。使用鄰接法對TRM65215和TRM68008的16S rRNA基因序列構建系統發(fā)育進化樹,如圖1所示;對TRM65215和TRM68008的全基因組構建系統發(fā)育進化樹,如圖2所示。
圖1 基于16S rRNA基因鄰接法系統發(fā)育進化樹
圖2 基于全基因組鄰接法系統發(fā)育進化樹
2.3.1 TRM65215基因注釋
使用GO、COG和KEGG數據庫對菌株TRM65215蛋白編碼基因功能進行注釋,注釋統計結果如表2所示。
表2 TRM 65215基因組蛋白編碼基因功能的數據統計
菌株TRM65215的全基因組序列的GO注釋如圖3所示。在菌株TRM65215的全基因組序列的GO注釋中,與生物進程(biological process)相關的GO注釋結果最多,有3 987個,占GO注釋總數的50.23%;與分子功能(molecular function)相關的GO注釋結果有3 262個,占GO注釋總數的41.09%;其中與細胞組件(cellular component)相關的GO注釋結果有689個,占總體的8.68%。
圖3 TRM65215的GO功能注釋分類圖
菌株TRM65215的全基因組序列的COG注釋如圖4所示。在TRM65215的全基因組COG注釋中,COG數據庫將編碼的蛋白分為22類,與轉錄(transcription)相關的蛋白編碼基因最多,有503個,占COG注釋基因總數的11.45%;其次為碳水化合物的運輸和代謝(carbohydrate transport and metabolism)相關的蛋白編碼基因,有475個,占COG注釋基因總數的10.81%;與氨基酸轉運與代謝(amino acid transport and metabolism)相關蛋白編碼基因有386條,占COG注釋基因總數的8.78%。
圖4 TRM65215的COG功能注釋分類圖
菌株TRM65215的全基因組序列的KEGG注釋如圖5所示。TRM65215的KEGG注釋共包括39種,大致可分為6大類:與代謝(metabolism)相關的基因有1 896個,占KEGG注釋基因的67.67%;與環(huán)境信息處理(environmental information processing)相關的基因有256個,占KEGG注釋基因的9.14%;與遺傳信息處理(genetic information processing)相關的基因有245個,占KEGG注釋基因的8.74%;與細胞過程(cellular processes)相關的基因有171個,占KEGG注釋基因的6.10%;與生物系統(organismal systems)相關的基因有123個,占KEGG注釋基因的4.39%;與人類疾?。╤uman diseases)相關的基因有111個,占KEGG注釋基因的3.96%。
圖5 TRM65215的KEGG功能注釋分類圖
2.3.2 TRM68008基因注釋
使用GO、COG和KEGG數據庫對菌株TRM68008蛋白編碼基因功能進行注釋,注釋統計結果如表3所示。
表3 TRM68008基因組蛋白編碼基因功能的數據統計
菌株TRM68008的全基因組序列的GO注釋如圖6所示。在菌株TRM68008的全基因組GO注釋結果中,與生物進程(biological process)相關的GO注釋結果最多,有4 689個,占GO注釋總數的50.56%;與分子功能(molecular function)相關的GO注釋結果有3 816個,占GO注釋總數的41.15%;其中與細胞組件(cellular component)相關的GO注釋結果有769個,約占總體的8.29%。
圖6 TRM68008的GO功能注釋分類圖
菌株TRM68008的全基因組序列的COG注釋如圖7所示。在TRM68008的全基因組COG注釋結果中,COG數據庫將編碼的蛋白分為22類,與轉錄(transcription)相關蛋白編碼基因最多,有607個,占COG注釋基因總數的11.65%;其次為碳水化合物的運輸和代謝(carbohydrate transport and metabolism)相關蛋白編碼基因,有539個,占COG注釋基因總數的10.35%;與氨基酸轉運與代謝(amino acid transport and metabolism)相關蛋白編碼基因有423條,占COG注釋基因總數的8.12%。
圖7 TRM68008的COG功能注釋分類圖
菌株TRM68008的全基因組序列的KEGG注釋如圖8所示。在TRM68008的全基因組序列中,TRM68008的KEGG注釋共包括40種,大致可分為6大類:與代謝(metabolism)相關的基因有2 149個,占KEGG注釋基因的68.44%;與環(huán)境信息處理(environmental information processing)相關的基因有272個,占KEGG注釋基因的8.66%;與遺傳信息處理(genetic Iinformation processing)相關的基因有256個,占KEGG注釋基因的8.15%;與細胞過程(cellular processes)相關的基因有187個,占KEGG注釋基因的5.96%;與生物系統(organismal systems)相關的基因有145個,占KEGG注釋基因的4.62%;與人類疾?。╤uman diseases)相關的基因有131個,占KEGG注釋基因的4.17%。
圖8 TRM68008的KEGG功能注釋分類圖
通過antiSMASH對TRM65215次級代謝潛能分析,TRM65215基因組中含有30個潛在天然產物生物合成基因簇。TRM65215合成基因簇包括6個非核糖體肽合成酶(non-ribosomal peptide synthetase,NRPS)基因簇,3個Ⅰ型聚酮合酶(polyketide synthase,PKSⅠ)基因簇,2個Ⅱ型聚酮合酶(PKSⅡ)基因簇,1個Ⅲ型聚酮合酶(PKSⅢ)基因簇,4個萜烯(terpene)基因簇,1個Ⅰ型羊毛硫肽(lanthipeptideclassⅠ)基因簇,2個Ⅲ型套羊毛硫肽(lanthipeptideclassⅢ)基因簇,1個Ⅴ型羊毛硫肽(lanthipeptideclassⅤ)基因簇。TRM65215的7個基因簇(cluster 1、cluster 5、cluster 7、cluster 8、cluster 15、cluster 22、cluster 24)與已知基因簇(albaflavenone、SapB、coelibactin、coelichelin、geosmin、hopene、ectoine)的相似度為100%,表明TRM65215具有完整的合成基因簇,具有產生這7種代謝產物的能力。TRM65215中的4個基因簇(cluster 6、cluster 15、cluster 16、cluster 19)未比對到已知的基因簇,具有產生結構新穎的次級代謝產物的潛能。
通過antiSMASH對TRM68008次級代謝潛能分析,TRM68008基因組中含有36個潛在天然產物生物合成基因簇。TRM68008合成基因簇包括6個非核糖體肽合成酶基因簇,3個Ⅰ型聚酮合酶基因簇,1個Ⅱ型聚酮合酶(PKSⅡ)基因簇,1個Ⅲ型聚酮合酶(PKSⅢ)基因簇,6個萜烯(terpene)基因簇,2個Ⅰ型羊毛硫肽基因簇,2個Ⅲ型套羊毛硫肽基因簇,1個Ⅴ型羊毛硫肽基因簇。TRM68008的 8個基因簇(cluster 1、cluster 5、cluster 9、cluster 15、cluster 21、cluster 23、cluster 34、cluster 35)與已知基因簇(ectoine、hopene、coelichelin、geosmin、streptothricin、albaflavenone、7-prenylisatin)的相似度為100%,表明TRM68008具有完整的合成基因簇,具有產生這8種代謝產物的能力。TRM68008中的7個基因簇(cluster 2、cluster 7、cluster 10、cluster 12、cluster 16、cluster 17、cluster 21)未比對到已知的基因簇,可能會產生結構新穎的次級代謝產物。
直系同源基因聚類分析結果如圖9所示。使用OrthoVenn2比較和注釋5株婁徹氏鏈霉菌之間的直系同源基因簇,該物種形成7 135個簇,3 274個直系同源簇(至少包含兩個物種)和3 861個單拷貝基因簇。TRM65215和TRM68008共有5 686個直系同源簇,TRM65215有2個特有的基因簇,TRM68008有19個特有的基因簇。
圖9 直系同源基因聚類分析
本研究通過16S rRNA基因比對發(fā)現TRM65215、TRM68008與Streptomyces rocheiNRRL B-2410 16S rRNA基因序列相似度均為100%,然而通過對TRM65215和TRM68008全基因組測序及系統發(fā)育進化分析可知,TRM65215和TRM68008基因組仍存在較大差異。通過比較TRM65215及TRM68008全基因組測序及注釋信息可知,TRM65215和TRM68008作為放線菌均具有非常高的DNA(G+C)mol%含量,TRM68008的全基因組大小、編碼蛋白數量及非編碼RNA數量均比TRM65215多。
兩株菌全基因組測序后經COG預測發(fā)現其蛋白功能主要集中在轉錄、碳水化合物和氨基酸轉運和代謝方面,KEGG預測表明代謝通路中與代謝相關的蛋白占比例較高,GO預測與生物進程相關的蛋白最多。在TRM68008基因組蛋白編碼基因功能注釋數量均比TRM65215基因組注釋數量多,GO注釋比其結果多551個蛋白編碼基因,COG注釋比其結果多816個蛋白編碼基因,KEGG注釋比其結果多338個蛋白編碼基因。TRM65215和TRM68008共有5 686個直系同源簇,TRM65215有2個特有的同源基因簇,TRM68008有19個特有的同源基因簇。
TRM65215與TRM68008有20個相似的基因簇,在這20個相似基因簇中有12個基因簇的基因是完全相同的,除了相似的基因簇,TRM65215還具有合成鋅離子載體coelibactin(cluster 7)、versipelostatin(cluster 10)、克拉維烷類化合物alanylclavam/2-hydroxymethylclavam/2-formyloxymethylclavam(cluster 17)及大環(huán)內酰胺類抗生素vicenistatin(cluster 25)的潛力,TRM68008則具有5-異戊烯吲哚-3-羧酸β-D-糖苷酯 5-isoprenylindole-3-carboxylate β-D-glycosylester(cluster 19)、異胡蘿卜素isorenieratene(cluster 20)、大環(huán)內酯類抗生素阿扎霉素azalomycinF3a(cluster 25)、溶血脂質lysolipin I(cluster 26)、30元環(huán)多醇大環(huán)內酯 aculeximycin(cluster 28)、moomysin(cluster 30)、抗霉素antimycin(cluster 32)、異海綿烯isorenieratene(cluster 33)及異戊烯吲哚類化合物7-prenylisatin(cluster 34)的潛能。
TRM65215和TRM68008雖然在16S rRNA基因序列分析中與Streptomyces rocheiNRRL B-2410相似度為100%,但通過對兩株菌的基因組測序分析,TRM68008與TRM65215在基因組大小、非編碼RNA數量、編碼蛋白數量及次級代謝產物合成基因簇等多個方面均存在差異,TRM68008基因組較大,編碼了更多的蛋白,能夠產生與TRM65215不同的生物特性。
由于基因組測序技術的快速發(fā)展,大規(guī)模的基因組測序不斷揭示著微生物中蘊藏的豐富天然產物資源,微生物的生物合成潛力被大大低估,使得微生物天然產物挖掘進入“基因組時代”[11]?;蚪M挖掘更善于合理利用生物信息學分析工具對次級代謝基因簇進行預測從而實現產物的定向挖掘,目前是藥物發(fā)現工作的重要組成部分[12],結合基因組挖掘方法可以有效提高天然產物的成功率,從而加快藥物的開發(fā)。同時,菌株的基因組信息對探究菌株的進化、反應及環(huán)境的適應機理有著重要意義[13]。
傳統Sanger測序技術由于耗時較長且費用較高,因此研究人員在對未知菌種鑒定時通常采用更加高效且經濟的16S rRNA基因序列測序,然而這種方法是以犧牲分類分辨率為代價的,通過保守的16S rRNA基因引物來檢測細菌,僅能檢測出菌株與微生物群落中的其他成員(如真菌、病毒和原生動物)是沒有同源性的,對于同種間的差異卻難以鑒定[14],通過16S rRNA基因對菌株進行鑒定只能初步判斷菌株種屬,存在一定的局限性,因此對于菌株的鑒定仍需要更多的鑒定方法及手段[15]。
本研究對兩株婁徹氏鏈霉菌TRM65215及TRM68008進行了全基因組測序、組裝及功能基因注釋,TRM65215基因組大小為6 844 901 bp,GO功能注釋蛋白編碼基因2 993個,COG功能注釋蛋白編碼基因4 394個,KEGG功能注釋蛋白編碼基因2 802個;TRM68008基因組大小為8 408 383 bp,GO功能注釋蛋白編碼基因3 544個,COG功能注釋蛋白編碼基因5 210個,KEGG功能注釋蛋白編碼基因3 140個,研究表明兩株16S rRNA基因序列完全相同的菌株在基因功能等多方面仍存在差異。預測兩株婁徹氏鏈霉菌次級代謝產物合成基因簇,TRM65215基因組中含有30個潛在天然產物生物合成基因簇,TRM68008基因組中含有36個潛在天然產物生物合成基因簇,TRM65215及TRM68008均具有產生新型抗生素的潛能且均含有對方不具備的天然產物生物合成基因簇,進一步驗證了兩株菌的代謝差異,并為后續(xù)挖掘菌株次級代謝產物提供了理論依據。