李柏良,丁秀云,2,靳 妲,劉 飛,蒙月月,李 娜,趙 莉,霍貴成,*
(1.東北農(nóng)業(yè)大學 乳品科學教育部重點實驗室,黑龍江 哈爾濱 150030;2.廣州基迪奧生物科技有限公司,廣東 廣州 510000)
嗜熱鏈球菌是“公認安全性(GRAS)”菌株,廣泛應用于發(fā)酵乳制品的工業(yè)生產(chǎn)中,是第二重要的工業(yè)用乳酸菌菌種,市場價值約400億 美元[1]。嗜熱鏈球菌具有快速產(chǎn)酸的能力,可以縮短發(fā)酵乳制品的凝乳時間,改善質地,同時提高營養(yǎng)價值[2-4]。
隨著測序技術逐漸成熟和價格降低,微生物基因組測序基本普遍。2004年首次完成了嗜熱鏈球菌LMG 18311與嗜熱鏈球菌CNRZ1066的全基因組測序工作[1]。截至2017年2月,已有15 株嗜熱鏈球菌的基因組已經(jīng)完成測序?;蚪M序列分析可以更加深入研究一些代謝途徑的遺傳結構,如氨基酸合成[5]、蛋白水解系統(tǒng)[5]、抗噬菌體[6]、葉酸的生物合成及生物膜的形成[7]。
乳酸菌因缺乏必要的氨基酸代謝途徑,不能從頭合成生長所需的某些氨基酸。因此,乳酸菌需要從外界環(huán)境中獲取相應的活性物質。乳酸菌可以利用蛋白水解系統(tǒng)水解牛乳中的酪蛋白供應生理代謝需要的肽類與氨基酸,同時部分氨基酸的代謝可進一步轉化為醛類、醇類等風味物質,對發(fā)酵乳制品的風味物質形成有重要作用[8]。
酪蛋白水解過程分為3 個階段。首先,胞外蛋白酶將乳制品中的酪蛋白水解成肽類物質;其次,通過ABC型寡肽轉運系統(tǒng)(Opp)將肽類物質轉運至胞內;最后,在胞內豐富的肽酶,如二肽酶、羧肽酶及內肽酶等的作用下形成游離的氨基酸,可以進入代謝途徑或者用于合成蛋白質以供菌體需求。其中Opp系統(tǒng)是蛋白水解系統(tǒng)的重要組成部分,由1 個負責膜連接寡肽結合蛋白(OppA),2個負責轉運的跨膜蛋白(OppB、OppC)和2個ATP結合蛋白(OppD、OppF)構成[8-9]。
嗜熱鏈球菌KLDS SM是本實驗室從內蒙古牧民家庭以傳統(tǒng)方法自制的酸奶中分離鑒定得到的。前期實驗研究發(fā)現(xiàn)該菌株具有快速產(chǎn)酸和高產(chǎn)黏的特性。為更加深入分析該菌株的性能,本研究采用二代與三代測序結合的策略對該菌株進行全基因組測序,基于生物信息學分析該菌株蛋白質水解系統(tǒng)關鍵控制基因及氨基酸合成途徑的基因分布情況,同時利用比較基因組學分析該菌株與其他菌株在氨基酸合成方面上的差異。為該菌株后續(xù)更加合理的應用提供了理論依據(jù),具有一定指導意義。
M17肉湯培養(yǎng)基 青島高科園海博生物技術有限公司;細菌基因組提取試劑盒 北京天根生物技術有限公司;其他試劑均為國產(chǎn)分析純。
嗜熱鏈球菌KLDS SM由東北農(nóng)業(yè)大學乳品科學教育部重點實驗室工業(yè)微生物菌種保藏中心(KLDSDICC)提供,且通過16S rRNA測序鑒定。選擇已完成測序的14 株嗜熱鏈球菌進行比較基因組學分析,序列從NCBI(https://www.ncbi.nlm.nih.gov/genome/genomes/420?)下載。14 株菌株信息:菌株LMG 18311(CP000023)、菌株CNRZ1066(CP000024)、菌株LMD-9(CP000419、CP000420、CP000421)、菌株ND03(CP002340)、菌株MN-ZLW-002(CP003499)、菌株ASCC 1275(CP006819)、菌株MN-BM-A02(CP010999)、菌株SMQ-301(CP011217)、菌株MNBM-A01(CP012588)、菌株S9(CP013939)、菌株JIM 8232(FR875178)、菌株CS8(CP016439)、菌株KLDS 3.1003(CP016877)與菌株ND07(CP016394)[1,10-18]。
LDZF-50KB-II立式蒸汽滅菌器 上海申安醫(yī)療器械廠;CJ-2D超凈工作臺 天津泰斯特儀器有限公司;DHP-927型電熱恒溫培養(yǎng)箱 上海一恒科技有限公司;GL-20G-II離心機 上海安亭科學儀器廠;DYY-10C電泳儀 北京六一儀器廠;PL2002電子天平 梅特勒-托利多儀器(上海)有限公司。
1.3.1 菌株的活化及基因組提取
將甘油保藏的菌株KLDS SM以2%的體積分數(shù)接種于M17液體培養(yǎng)基,42 ℃培養(yǎng)24 h,轉接2 次,16 h后用于基因組提取。
菌株KLDS SM基因組提取按照細菌基因組提取試劑盒說明書進行。取5 μL基因組DNA樣品進行1%瓊脂糖凝膠電泳,檢測提取的質量及完整性。
1.3.2 全基因組測序及組裝
采用二代Illumina Hiseq 2500(500 bp,PE125)平臺與三代Pacbio RSII(20 K)平臺聯(lián)合測序。過濾Hiseq數(shù)據(jù)除去低質量、去除接頭、N含量過高的reads;過濾Pacbio的polymerase reads數(shù)據(jù)除去低質量reads、接頭序列,并將polymerase reads轉換為subreads。對每個ZMW(zero-mode waveguides)中的subreads去冗余等處理得到CCS(circular consensus sequences)序列,對CCS做自糾正并組裝序列。使用SMRT Analysis v2.3.0流程中的RS_HGAP_Assembly3[19]軟件將PacBio序列組裝成完整的連續(xù)的contig,根據(jù)contig兩端是否已經(jīng)有Overlap判斷基因組是否成環(huán)?;贗llumina Hiseq 2500數(shù)據(jù)利用兩輪分析方法對contig進行單堿基糾錯,即采用GATK分析流程對Contig進行第1輪糾錯分析,采用軟件SOAPsnp v1.05[20]與SOAPindel v1.08[21]對第1輪的糾錯結果進行第2輪糾錯分析。
1.3.3 基因組注釋
組裝成環(huán)的基因組序列提交到NCBI。采用NCBI原核基因組注釋流程PGAP[22]及RAST Server[23]進行全基因組注釋。注釋結果及序列從NCBI(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/001/663/795/GCA_001663795.1_ASM166379v1/)下載。基因組中蛋白序列通過WebMGA網(wǎng)站[24]進行COG(cluster of orthologous group)注釋(RPSBLAST,e-value<1e-5);在KAAS網(wǎng)站[25],采用BBH(bi-directional best hit)方法對基因組中的蛋白編碼基因進行KEGG(Kyoto encyclopedia of genes and genomes)在線注釋,生物選擇“eco,bsu,sau,lmo,lla,spy,spn,ste,lpl,lpj,ljo,ljf,lac,lsa,lsl,ldb,lbu,lbr,lca,lcb,lga,lre,lrf,lhe,lfe,lrh,lrl,stc,stl”[26]。
1.3.4 生物信息分析
采用CGView Server[27]繪制基因組圈圖;蛋白質水解與氨基酸合成代謝途徑參照KEGG通路數(shù)據(jù)庫(http://www.genome.jp/kegg/pathway.html)進行挖掘;蛋白質序列從Uniprot數(shù)據(jù)庫[28]下載;使用本地BLASTP(2.2.31+)確認各基因在該基因組中存在情況,取最優(yōu)比對結果。
2.1.1 組裝結果
經(jīng)Illumina Hiseq 2500(500 bp,PE125)平臺測序得到467 Mb原始數(shù)據(jù),過濾后獲得401 Mb Clean Data。Pacbio RSII(20 K)平臺測序得到38 403 條polymerase reads,平均長度14 976 bp,共643 231 812 bp;過濾后獲得63 855 條subreads,平均長度8 972 bp,共572 949 237 bp。經(jīng)組裝、糾錯、成環(huán)判斷等過程獲得一條長為1 856 787 bp完整、連續(xù)且成環(huán)的contig。
2.1.2 基因組的基本特征
圖1 菌株KLDS SM基因組圈圖Fig. 1 Circular genome map of strain KLDS SM
菌株KLDS SM的全基因組序列已提交到GenBank數(shù)據(jù)庫,登錄號為:CP016026?;蚪M圖譜可以直觀體現(xiàn)基因組功能注釋結果和GC偏移情況,圖1為菌株KLDS SM全基因組圈圖,說明菌株KLDS SM全基因組測序已經(jīng)達到完成圖水平,且該基因組為雙鏈環(huán)狀分子。
表1 嗜熱鏈球菌基因組基本信息比較Table 1 Comparison of genomic features of Streptococcus thermophilus
如表1所示,同絕大多數(shù)已測序的嗜熱鏈球菌一樣,菌株KLDS SM基因組中不存在質粒,僅由一條環(huán)狀的染色體組成,全長1 856 787 bp,平均GC含量為39.08%。在基因組中共預測1 732 個蛋白質編碼基因(protein coding genes,CDS),其中129 個(6.9%)基因發(fā)生突變?yōu)榧倩?,CDS總長1 559 226 bp,占全基因組序列的83.97%,基因的平均長度為838 bp。此外,基因組包含6 個完整的rRNA基因操縱元,其中一個操縱元與DNA復制的方向相反,67 個tRNA基因及4 個ncRNA。比較發(fā)現(xiàn),菌株KLDS SM有較多的rRNA基因操縱子、tRNA基因及ncRNA,較少的假基因。
2.1.3 COG注釋
通過WebMGA網(wǎng)站對菌株KLDS SM基因組中具有生物學功能的蛋白編碼基因進行COG注釋。結果表明共有1 400 個蛋白編碼基因注釋到COG數(shù)據(jù)庫。如圖2所示,分別有41、16、181、73、81、56、31、142、89、154、79、6、49、82、10、175、130、47、23、43 個基因注釋到分類C~V。其中注釋到氨基酸轉運和代謝(12.9%),翻譯、核糖體結構和生物合成(10.1%),復制、重組和修復(11%),一般功能(12.5%)及具有潛在功能的假定蛋白(9.3%)5 種分類的基因數(shù)較多。另有332 個(19.2%)具有潛在生物學功能的基因未被注釋到數(shù)據(jù)庫中。
圖2 菌株KLDS SM基因組蛋白編碼基因的COG功能分類Fig. 2 COG functional classification of protein-encoding genes in strain KLDS SM genome
2.2.1 胞外蛋白水解
牛乳中的氮源多以酪蛋白的形式存在,很少存在游離的氨基酸。菌株KLDS SM基因組中存在一個完整的編碼錨定細胞壁的絲氨酸蛋白酶PrtS的基因A9497_00420。PrtS是降解牛乳中酪蛋白最重要的蛋白酶,由1 618 個氨基酸組成且高度保守,與豬鏈球菌編碼的PrtS的氨基酸序列有96%的一致性。如圖3所示,該蛋白從N-末端至C-末端依次為YSIRK_signal、Peptidases_S8_C5a_Peptidase、PA_C5a_like、fn3_5、FIVAR與Gram_pos_anchor結構域,其中N-末端35 個氨基酸為信號肽序列。
圖3 菌株KLDS SM的 PrtS結構Fig. 3 PrtS architecture of strain KLDS SM
2.2.2 轉運系統(tǒng)
如表2所示,菌株KLDS SM基因組中存在兩個Opp系統(tǒng),且二者結構上有所不同。其中一個Opp長約10 kb,由6 個基因組成(A9497_03140~A9497_03160,A9497_03170),由2 個oppA與oppB、oppC、oppD、oppF各1 個組成,且在oppA與oppB之間相反鏈上有一編碼轉座酶的基因。序列比對發(fā)現(xiàn)2 個oppA僅有86%的一致性。另一個Opp長約4 kb,同樣以oppA、oppB、oppC、oppD、oppF順序依次排列,僅有一個oppA,但該系統(tǒng)每個基因都發(fā)生了不同程度的突變,如oppA與oppB序列截短,oppC與oppD序列發(fā)生多處移碼,oppF則因突變提前終止。因此這個Opp不具有轉運功能。
表2 菌株KLDS SM的肽與氨基酸轉運系統(tǒng)Table 2 Peptide and amino acid transport systems of strain KLDS SM
同時,基因組中還存在許多編碼轉運氨基酸的基因,以供菌體生理代謝的需求。L-谷氨酰胺ABC型轉運系統(tǒng)由1 個谷氨酰胺轉運系統(tǒng)底物結合蛋白(GlnH)、1 個滲透酶蛋白(GlnP)及1 個ATP結合蛋白(GlnQ)組成,菌株KLDS SM基因組上存在完整的編碼轉運L-谷氨酰胺的ABC型轉運系統(tǒng)的基因,并且每個基因都有2~3 個拷貝。支鏈氨基酸為亮氨酸、異亮氨酸與纈氨酸的總稱,其ABC型轉運系統(tǒng)由1 個支鏈氨基酸轉運系統(tǒng)底物結合蛋白(LivK)及相應的2 個滲透酶蛋白(LivH、LivM)、2 個ATP結合蛋白(LivG、LivF)組成,該菌基因組中同樣具有一個完整的該轉運系統(tǒng)的編碼基因。該菌可以通過蛋氨酸ABC型轉運系統(tǒng)轉運蛋氨酸,該系統(tǒng)同樣由3 個蛋白構成,即蛋氨酸ABC型轉運系統(tǒng)底物結合蛋白(MetQ)與相應的滲透酶蛋白(MetI)、ATP結合蛋白(MetN)。菌株可以轉運亞精胺/腐胺,該轉運系統(tǒng)由1 個亞精胺/腐胺ABC型轉運系統(tǒng)底物結合蛋白(PotD)、2 個滲透酶蛋白(PotB、PotC)與ATP結合蛋白(PotA)構成,其中編碼PotD的基因有兩個拷貝?;蚪M中缺失編碼賴氨酸ABC型轉運系統(tǒng)的滲透酶蛋白(LysX2),因此該菌無法轉運賴氨酸。除此之外,該菌株可以編碼一些滲透酶及電化學勢驅動轉運體轉運相應的氨基酸供菌體使用。
2.2.3 胞內肽酶
如表3所示,在菌株KLDS SM基因組中共預測出21 個肽酶編碼基因,其中3 個基因編碼胞外肽酶參與細胞壁的形成,剩余的18 個基因均編碼胞內肽酶。這些胞內肽酶包括8 個氨肽酶、1 個羧肽酶、3 個二肽酶與4 個內肽酶,且僅有一個編碼二肽酶PepD的基因因突變失去功能,其余的肽酶均具有生物學功能。
菌株KLDS SM的20 種氨基酸生物合成途徑注釋結果如圖4所示,菌株KLDS SM有完整的組氨酸、色氨酸、絲氨酸、半胱氨酸、甘氨酸、纈氨酸、亮氨酸與丙氨酸生物合成途徑,因此該菌具有合成這8 種氨基酸的能力。此外,基因組中缺失編碼芳香族氨基酸轉氨酶的基因,無法將谷氨酸的氨基轉移到苯丙酮酸及4-羥基苯丙酮酸上,即無法合成酪氨酸與苯丙氨酸。缺失編碼丙酮酸羧化酶PC(EC:6.4.1.1)的基因,不能將丙酮酸合成草酰乙酸,缺失編碼TCA循環(huán)中的多種酶的基因不能為天冬氨酸的合成提供草酰乙酸,并且缺失編碼天冬氨酸氨基轉移酶(EC:2.6.1.1)的基因,無法轉氨合成天冬氨酸。具有編碼將游離的結合到天冬氨酸形成天冬酰胺的天冬氨酸-氨連接酶的基因A9497_08040(asnA,EC:6.3.1.1)。具有催化天冬氨酸轉化成天冬氨酸-β-半醛,合成蘇氨酸、異亮氨酸主鏈、甲硫氨酸及二氨基庚二酸主鏈及甲硫氨酸的酶的編碼基因,但因缺失編碼D-檸蘋酸合成酶的基因無法為異亮氨酸、二氨基庚二酸的合成提供相應的側鏈,因此不能合成異亮氨酸、賴氨酸。該菌具有編碼由草酰乙酸合成α-酮戊二酸以及由α-酮戊二酸合成谷氨酸、谷氨酰胺、精氨酸與脯氨酸的一系列酶的編碼基因。
圖4 菌株KLDS SM的氨基酸生物合成Fig. 4 Amino acid biosynthesis in strain KLDS SM
比較基因組分析發(fā)現(xiàn),15 株嗜熱鏈球菌中氨基酸合成情況相對保守。除了菌株LMG 18311、菌株CNRZ1066、菌株S9與菌株CS8因缺失編碼組氨酸途徑的多種酶的基因而無法合成組氨酸外,15 株菌株合成氨基酸的能力相似。組氨酸的酶促合成有9 種酶參與反應,即由5-磷酸核糖-1-焦磷酸作為底物,在酶ATP磷酸核糖轉移酶、焦磷酸水解酶、磷酸核糖-AMP環(huán)化水解酶、磷酸核糖亞氨甲基-5-氨基咪唑-4-羧酰胺核苷酸同分異構酶、谷氨酰胺氨基轉移酶、咪唑甘油磷酸脫水酶、L-組氨醇磷酸氨基轉移酶、L-組氨醇磷酸磷酸酶及組氨醇脫氫酶的作用下合成L-組氨酸。而這9 種酶的編碼基因在菌株KLDS SM(A9497_02145~A9497_02190,GC含量42.6%)及另外10 株菌的基因組中常常成簇存在。
嗜熱鏈球菌常與保加利亞乳桿菌一起作為發(fā)酵劑,廣泛應用于酸奶、奶酪和其他乳制品的工業(yè)生產(chǎn)中[29]。嗜熱鏈球菌具蛋白水解酶活性,快速增長,產(chǎn)生胞外多糖、細菌素、風味物質及抗噬菌體等特點,直接或間接影響著發(fā)酵乳制品的質量[2-4]。其中蛋白水解酶活性與風味物質的產(chǎn)生能力是篩選生產(chǎn)菌株的關鍵特性。風味是決定乳制品的可接受性的關鍵因素,嗜熱鏈球菌蛋白水解系統(tǒng)降解酪蛋白是風味物質的重要前體,并且水解活性與產(chǎn)酸能力緊密相關[3]。
由于分子生物學研究手段的限制,傳統(tǒng)的乳酸菌研究多集中于根據(jù)生理生化實驗及常規(guī)的分子生物學實驗探究乳酸菌的特性,只能以單個基因和途徑為目標,很難對多基因及代謝網(wǎng)絡進行深入研究[30]。隨著基因組測序技術的發(fā)展,研究人員可以利用生物信息學的手段充分挖掘乳酸菌基因組信息,2004年,Bolotin等[1]通過比較基因組分析,證明了由于嗜熱鏈球菌長期在乳生態(tài)位中生長,其有害基因已經(jīng)失活或丟失;2009年,Pastink等[31]基于全基因組構建了嗜熱鏈球菌LMG18311的代謝模型;2013年,F(xiàn)lahaut等[32]構建了乳酸乳球菌MG1363的代謝模型,并應用于風味形成途徑分析;2017年,Veronica等[33]對8 株已完成基因組測序的嗜熱鏈球菌進行了比較基因組學和生理學研究?;诖?,本研究從遺傳水平上分析了菌株KLDS SM在蛋白質水解和氨基酸生物合成2 個方面相關的一系列基因。菌株KLDS SM基因組中有2 個轉運寡肽的Opp系統(tǒng),其中一個完整的Opp系統(tǒng),而且該系統(tǒng)有兩個oppA,這或許與更加有效地捕捉底物有關,但另一個Opp系統(tǒng)中的每個基因發(fā)生了不同程度的缺失、移碼突變及無義突變,說明該轉運系統(tǒng)較早開始退化。除此之外,該菌株還可以通過ABC型轉運系統(tǒng)轉運L-谷氨酰胺(每個基因具有2 個拷貝)、支鏈氨基酸、蛋氨酸、亞精胺/腐胺(底物結合蛋白2 個拷貝),以及一些滲透酶及電化學勢驅動轉運體轉運相應的氨基酸供菌體使用。
本研究共預測了18 個編碼胞內肽酶基因,包括氨肽酶、羧肽酶、二肽酶與內肽酶,且僅有2 個基因發(fā)生突變。與大多數(shù)乳酸菌不同的是,嗜熱鏈球菌基因組中編碼肽酶的基因并不形成操縱子,而且也不位于編碼氨基酸/肽類轉運的基因的附近,這點與Goh等[34]分析的結果一致。此外,該菌株基因組中具有編碼合成8 種氨基酸組氨酸、色氨酸、絲氨酸、半胱氨酸、甘氨酸、纈氨酸、亮氨酸和丙氨酸所需酶的基因,其中纈氨酸、亮氨酸和色氨酸為人體必需氨基酸。而在某些氨基酸合成路徑中,如酪氨酸、苯丙氨酸、異亮氨酸與賴氨酸,僅因基因組中缺失某個催化酶的編碼基因而無法合成。比較基因組分析發(fā)現(xiàn),15 株嗜熱鏈球菌中氨基酸合成情況相對保守,僅在組氨酸合成途徑存在較大的差異。
菌株KLDS SM的基因組由一個1 856 787 bp環(huán)狀染色體組成,GC含量為39.08%,含有1 732 個CDS。從基因組水平分析,菌株KLDS SM具有完整的蛋白水解系統(tǒng),并可以合成組氨酸、色氨酸、絲氨酸、半胱氨酸、甘氨酸、纈氨酸、亮氨酸和丙氨酸8 種氨基酸。比較基因組分析發(fā)現(xiàn),不同嗜熱鏈球菌菌株間的氨基酸合成能力較為保守,僅在組氨酸合成途徑存在較大的差異。