楊琛
上海生命科學(xué)研究院植物生理生態(tài)研究所 中國科學(xué)院合成生物學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 200032
基于比較基因組學(xué)重構(gòu)細(xì)菌的代謝途徑和調(diào)控網(wǎng)絡(luò)
楊琛
上海生命科學(xué)研究院植物生理生態(tài)研究所 中國科學(xué)院合成生物學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 200032
微生物基因組學(xué)的迅速發(fā)展為從功能基因與蛋白、網(wǎng)絡(luò)及其調(diào)控等不同的角度,全面理解與認(rèn)識微生物的代謝過程、構(gòu)建細(xì)胞工廠,提供了豐富的背景信息?;诨蚪M序列進(jìn)行代謝網(wǎng)絡(luò)重構(gòu),有助于發(fā)現(xiàn)新的代謝功能基因、調(diào)控元件、甚至新的代謝途徑,從而優(yōu)化設(shè)計細(xì)胞內(nèi)從原料到產(chǎn)品的生物合成路線。然而,目前公共數(shù)據(jù)庫平臺中代謝途徑基因的功能注釋,許多是錯誤或不完整的。以下著重介紹了近年來出現(xiàn)的一些用于代謝途徑和調(diào)控網(wǎng)絡(luò)重構(gòu)的新型比較基因組學(xué)技術(shù),并以近期的丙酮丁醇梭菌中木糖代謝途徑的重構(gòu)工作為例來說明其應(yīng)用。
比較基因組學(xué),代謝途徑重構(gòu),調(diào)控網(wǎng)絡(luò)重構(gòu),基因組上下文分析
隨著FASTA和BLAST等搜索工具的發(fā)展、及一些公共數(shù)據(jù)庫平臺 (如 GenBank、Swiss-Prot等)的不斷完善,基于序列同源比對來推斷基因功能是當(dāng)前普遍使用的基因組注釋方法[3]。一些模式微生物 (如大腸桿菌、枯草芽胞桿菌、釀酒酵母等) 的功能基因組學(xué)研究的不斷深入發(fā)展也為此做出了重要貢獻(xiàn)。雖然序列同源比對的方法在很多時候是成功的,但是在一些情況下 (如被非同源基因所取代時)這種方法不能推測基因的功能,或只能給出不準(zhǔn)確甚至錯誤的功能注釋。這種情況給基于基因組序列的代謝網(wǎng)絡(luò)重構(gòu)造成了困難。由于單純基于序列相似性的方法存在著局限性,近年來出現(xiàn)了一些比較基因組學(xué)的新技術(shù),通過盡量發(fā)掘、綜合基因組中蘊(yùn)藏的相關(guān)重要信息,如基因簇[4]、調(diào)節(jié)位點(diǎn)共享[5]等,以準(zhǔn)確預(yù)測基因的功能,有效解決缺失基因問題 (Missing genes,即代謝元件應(yīng)該存在卻還沒有找到對應(yīng)基因)[2];在此基礎(chǔ)上,設(shè)計實(shí)驗(yàn)以驗(yàn)證重要的基因功能預(yù)測,最終實(shí)現(xiàn)代謝網(wǎng)絡(luò)的重構(gòu)。這種有機(jī)結(jié)合濕實(shí)驗(yàn) (Wet experiment,指通常的實(shí)驗(yàn)室實(shí)驗(yàn)) 與干實(shí)驗(yàn) (Dry experiment,指生物信息學(xué)分析) 的方法,一方面通過實(shí)驗(yàn)驗(yàn)證使基因的功能分析更加準(zhǔn)確可靠;另一方面能夠大大減輕實(shí)驗(yàn)工作量、提高工作效率。不少研究表明,使用這種方法,能夠顯著提高基因功能注釋和代謝網(wǎng)絡(luò)重構(gòu)的質(zhì)量,并且發(fā)現(xiàn)新的功能基因[6-8]、甚至新的代謝途徑[9-11]。
本文將對用于代謝途徑和調(diào)控網(wǎng)絡(luò)重構(gòu)的若干新型比較基因組學(xué)技術(shù)進(jìn)行介紹,并舉例說明它們的應(yīng)用。本文的主要目的之一是鼓勵實(shí)驗(yàn)工作者利用這些技術(shù)來解決所感興趣的代謝途徑中存在的缺失基因問題,發(fā)現(xiàn)新的代謝功能基因和調(diào)控元件,從而加強(qiáng)對代謝過程的理解和應(yīng)用。
基于微生物基因組的信息解析代謝網(wǎng)絡(luò),識別和表征底物利用與產(chǎn)物合成的關(guān)鍵功能基因和蛋白,是進(jìn)行代謝途徑優(yōu)化和改造的基礎(chǔ)。雖然目前一些公共數(shù)據(jù)庫平臺 (如KEGG http://www.genome. jp/kegg/等) 已經(jīng)注釋了不少代謝基因,包括結(jié)構(gòu)基因和調(diào)節(jié)基因,但是由于這些數(shù)據(jù)庫往往僅根據(jù)序列同源性來推斷基因的功能,因此存在著許多問題。例如許多梭菌 (如丙酮丁醇梭菌等) 的木糖代謝途徑在KEGG中的注釋是不完整的,甚至存在著相當(dāng)多的錯誤。造成這種情況的原因是在生物轉(zhuǎn)化過程中起重要作用的反應(yīng)酶 (如糖激酶) 往往存在多個同源蛋白,它們在不同微生物中可能具有不同的生理功能,服務(wù)于不同的代謝過程,因此如果僅僅基于序列同源比對,就只能給出不準(zhǔn)確或不完整的基因功能注釋。此外,已有研究表明,即使與模式菌親緣關(guān)系相近的種類,它們的代謝途徑也常常存在著不同,如不同的營養(yǎng)物質(zhì)攝入機(jī)制[12]、反應(yīng)酶被非同源蛋白所取代[7]等,在這些情況下序列對比的方法就不能推測出基因的功能。針對這些問題,近年來出現(xiàn)了基因組上下文分析方法 (Genome context analysis),通過盡量發(fā)掘、綜合基因組中蘊(yùn)藏的相關(guān)重要信息,以準(zhǔn)確預(yù)測基因的功能[2,13],并且通過實(shí)驗(yàn)加以驗(yàn)證,有效解決缺失基因問題,實(shí)現(xiàn)代謝途徑的重構(gòu) (圖 1)。以下將對代謝途徑重構(gòu)的各個步驟進(jìn)行說明。
1.1.1 代謝途徑的初步構(gòu)建
基于微生物的完全基因組序列信息,利用SEED (http://theseed.uchicago.edu/FIG/index.cgi)、KEGG等公共數(shù)據(jù)庫平臺,在先驗(yàn)知識框架下初步構(gòu)建代謝途徑。系統(tǒng)地分析所涉及的各個酶、轉(zhuǎn)運(yùn)蛋白和調(diào)控蛋白,找到對應(yīng)的編碼基因;根據(jù)一條途徑上各步反應(yīng)的連續(xù)性,發(fā)現(xiàn)那些理應(yīng)存在的代謝元件、但尚未找到對應(yīng)基因的缺失基因問題。SEED中包含大量經(jīng)專家分析注釋過的代謝途徑數(shù)據(jù)庫,覆蓋了大部分的微生物代謝網(wǎng)絡(luò),如包括枯草芽胞桿菌等模式微生物中幾乎所有的生化和運(yùn)輸反應(yīng),此外還提供了一個基因組功能注釋和分析的良好平臺。
1.1.2 預(yù)測基因功能、填補(bǔ)代謝途徑缺口
利用基因組上下文分析方法,結(jié)合基因簇[4,14-15]、結(jié)構(gòu)域融合[16-17]、基因系統(tǒng)發(fā)育譜[18]以及調(diào)節(jié)位點(diǎn)共享[5,19]等多種重要的基因組信息,推斷有關(guān)基因的功能關(guān)聯(lián)性,進(jìn)而準(zhǔn)確預(yù)測基因的功能,有效地解決缺失基因問題、填補(bǔ)途徑缺口,重構(gòu)出完整的代謝途徑 (圖2)。
圖1 基于比較基因組學(xué)重構(gòu)代謝途徑和調(diào)控網(wǎng)絡(luò)Fig. 1 Comparative genomic reconstruction of regulatory and metabolic networks.
圖2 基因組上下文分析技術(shù)Fig. 2 Techniques of genome context analysis.
基因簇——由于原核微生物染色體上功能相關(guān)的基因往往會聚集在一起,基因簇是推測不同基因功能耦合的重要依據(jù)。
結(jié)構(gòu)域融合 (Protein fusion)——一個微生物中的兩個不同基因在另一個微生物中融合成一個基因,預(yù)示著基因的功能相關(guān)。
基因系統(tǒng)發(fā)育譜 (Phylogenetic profiling)——基于同一個代謝途徑上的基因在不同微生物中往往會同時存在或同時缺失,考察多個基因組上的基因存在規(guī)律可以提供功能耦合的依據(jù)。
調(diào)節(jié)位點(diǎn)共享 (Shared regulatory sites)——分析基因上游的調(diào)控區(qū)序列 (具體方法見1.2),找出共享調(diào)節(jié)位點(diǎn)的所有基因,即被一個調(diào)控因子所控制、同屬一個調(diào)節(jié)單元 (Regulon) 的基因。基因的共調(diào)節(jié)是推測不同基因功能關(guān)聯(lián)的重要依據(jù)。
對于上述比較基因組學(xué)研究產(chǎn)生的重要功能預(yù)測 (如新的功能基因),將用實(shí)驗(yàn)來加以驗(yàn)證。
長期進(jìn)化的結(jié)果使得微生物的代謝功能具有為自身服務(wù)的本能,其代謝過程處于最經(jīng)濟(jì)的狀態(tài),一般不會過量積累不必要的代謝產(chǎn)物。同時微生物能夠根據(jù)外界環(huán)境條件的改變對自身的生理和代謝功能進(jìn)行適當(dāng)調(diào)整,以適應(yīng)環(huán)境的變化。這種控制是在轉(zhuǎn)錄水平、翻譯水平和酶活性等不同層面上調(diào)節(jié)的復(fù)雜過程,構(gòu)成了一個精密的分子調(diào)控網(wǎng)絡(luò)。細(xì)胞工廠要求微生物細(xì)胞能夠定向、高效地生產(chǎn)人類所需要的目標(biāo)化合物,這就必須去有目的地干擾、改變微生物原有的調(diào)控體系。如果不了解代謝途徑的分子調(diào)控機(jī)制,就難以實(shí)現(xiàn)對細(xì)胞功能的理性調(diào)節(jié)。
細(xì)菌主要通過在轉(zhuǎn)錄水平和翻譯水平上進(jìn)行調(diào)節(jié)、改變相關(guān)基因的表達(dá)來適應(yīng)外界環(huán)境的變化。其中轉(zhuǎn)錄因子 (包括全局調(diào)控因子和途徑特異性調(diào)控因子) 具有非常重要的作用,它們通過特異性地結(jié)合順式調(diào)控DNA序列 (轉(zhuǎn)錄因子結(jié)合位點(diǎn)) 來激活或抑制基因的轉(zhuǎn)錄過程。此外細(xì)菌中還有各種RNA調(diào)節(jié)系統(tǒng) (如核開關(guān) Riboswitch) 控制基因的表達(dá)。隨著大量的原核微生物的基因組得以破譯,基于這些序列信息利用比較基因組學(xué)技術(shù)預(yù)測順式調(diào)節(jié)元件 (轉(zhuǎn)錄因子結(jié)合位點(diǎn)和 RNA元件),使得我們可以重構(gòu)各個調(diào)節(jié)單元,即由一個轉(zhuǎn)錄因子或調(diào)節(jié)RNA調(diào)控的所有操縱子,在此基礎(chǔ)上進(jìn)而構(gòu)建細(xì)胞內(nèi)的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)[5]。這將為基因功能預(yù)測提供重要證據(jù) (見1.1),同時將闡明對代謝途徑起重要調(diào)控作用的轉(zhuǎn)錄因子以及代謝物和轉(zhuǎn)錄因子之間、不同轉(zhuǎn)錄因子之間的相互作用關(guān)系,從而顯著提高對代謝調(diào)控的理解和認(rèn)識,指導(dǎo)以基因操作來調(diào)控代謝途徑及代謝功能。
然而,一個轉(zhuǎn)錄因子在不同基因上的結(jié)合位點(diǎn)具有一定的保守性,又不完全相同,這給識別轉(zhuǎn)錄因子結(jié)合位點(diǎn) (Transcription factor-binding sites) 的工作帶來了困難,使得預(yù)測結(jié)果普遍存在假陽性率偏高的問題。近年來出現(xiàn)了一些比較基因組學(xué)的新技術(shù),通過發(fā)掘、分析基因的上游調(diào)控區(qū)序列,可以準(zhǔn)確預(yù)測轉(zhuǎn)錄因子結(jié)合位點(diǎn),實(shí)現(xiàn)調(diào)節(jié)單元的重構(gòu)[5,20-22]。以下將對調(diào)節(jié)單元重構(gòu)的各個步驟進(jìn)行說明。
1.2.1 轉(zhuǎn)錄因子結(jié)合位點(diǎn)模型的建立
對于某一轉(zhuǎn)錄因子,分析哪些基因組上含有其編碼基因;根據(jù)模式菌中受該轉(zhuǎn)錄因子調(diào)控的靶基因的信息,在一定進(jìn)化距離內(nèi)、并且含有該轉(zhuǎn)錄因子基因的一組基因組中找出靶基因的同源基因;結(jié)合代謝途徑重構(gòu)的結(jié)果 (見1.1),獲得這些基因在基因組上的分布情況。分析這些基因集合的上游調(diào)控區(qū)序列,找出在多個基因上游出現(xiàn)的DNA回文序列或者串聯(lián)的重復(fù)序列,即是可能的轉(zhuǎn)錄因子結(jié)合位點(diǎn);選取信息容量最大的一組DNA序列,即其與轉(zhuǎn)錄因子結(jié)合的概率最大,構(gòu)建其位置權(quán)重矩陣模型(Position weight matrix)[20]。
1.2.2 轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別、調(diào)節(jié)單元的重構(gòu)
利用獲得的位置權(quán)重矩陣模型在全基因組范圍內(nèi)進(jìn)行搜索,找出更多的該轉(zhuǎn)錄因子的結(jié)合位點(diǎn),獲得相應(yīng)的靶基因信息。在多物種間比較獲得的靶基因,利用系統(tǒng)發(fā)育足跡分析法 (Phylogenetic footprinting) 去除其中的假陽性結(jié)果。這種方法是基于轉(zhuǎn)錄因子結(jié)合位點(diǎn)在進(jìn)化上相對保守的基本假設(shè),即由于轉(zhuǎn)錄因子結(jié)合位點(diǎn)有調(diào)控功能,在進(jìn)化速度上要慢于其他沒有功能的非編碼序列[5,23]。通過有機(jī)結(jié)合“共調(diào)控”和“進(jìn)化上保守”這兩種信息,能夠大幅提高轉(zhuǎn)錄因子結(jié)合位點(diǎn)和靶基因預(yù)測的準(zhǔn)確性。這樣獲得在各個微生物中該轉(zhuǎn)錄因子所調(diào)控的基因集合,即調(diào)節(jié)單元。
對于上述比較基因組學(xué)研究產(chǎn)生的重要功能預(yù)測 (如新的轉(zhuǎn)錄因子與 DNA特異性結(jié)合序列),將用實(shí)驗(yàn)來加以驗(yàn)證。
上述的比較基因組學(xué)研究將產(chǎn)生一組代謝途徑上基因功能的預(yù)測,包括新的功能基因 (如酶、轉(zhuǎn)運(yùn)蛋白、調(diào)控蛋白的編碼基因) 以及新的調(diào)控元件(如轉(zhuǎn)錄因子特異性結(jié)合的DNA序列)。這些基因功能預(yù)測可以通過傳統(tǒng)的或高通量的實(shí)驗(yàn)技術(shù)來加以驗(yàn)證。
對于酶或轉(zhuǎn)運(yùn)蛋白等功能預(yù)測,可以通過傳統(tǒng)的基因功能鑒定方法來進(jìn)行驗(yàn)證。例如,對編碼基因進(jìn)行敲除,研究關(guān)鍵酶活性或轉(zhuǎn)運(yùn)能力對代謝功能的影響,分析該基因的生理學(xué)功能;考察功能基因能否在相應(yīng)的模式菌突變株中實(shí)現(xiàn)功能互補(bǔ),即該基因的表達(dá)能否使模式菌突變株缺失的功能得以恢復(fù);提取粗酶液,或者分離純化關(guān)鍵酶,測定相應(yīng)的酶活性,分析該酶的生化學(xué)功能。
對于轉(zhuǎn)錄因子或調(diào)控元件等功能預(yù)測,可以通過傳統(tǒng)的或高通量的實(shí)驗(yàn)技術(shù)來加以驗(yàn)證。例如,對轉(zhuǎn)錄因子的編碼基因進(jìn)行敲除,研究該轉(zhuǎn)錄因子的缺失對重要靶基因轉(zhuǎn)錄水平的影響;利用融合蛋白報告系統(tǒng) (Reporter fusion) 分析轉(zhuǎn)錄因子在體內(nèi)對靶基因調(diào)控區(qū)序列的作用;利用凝膠遷移率(Electrophoretic mobility shifts) 或DNase I足跡法(DNase I footprinting) 實(shí)驗(yàn)確認(rèn)轉(zhuǎn)錄因子與預(yù)測的轉(zhuǎn)錄因子結(jié)合位點(diǎn)的結(jié)合情況。近年來也出現(xiàn)了一些高通量的轉(zhuǎn)錄組和蛋白質(zhì)組的分析方法,如染色質(zhì)免疫沉淀技術(shù)與基因芯片相結(jié)合的 ChIP-on-chip技術(shù)被越來越廣泛地用于研究在全基因組上的轉(zhuǎn)錄因子結(jié)合位點(diǎn)[24]。
丙酮丁醇梭菌 Clostridium acetobutylicum是丁醇發(fā)酵工業(yè)的主要生產(chǎn)菌株,也是產(chǎn)溶劑梭菌研究中的模式菌。該菌能夠利用木質(zhì)纖維素中最主要的五碳糖——木糖,然而對于哪些基因編碼木糖途徑的關(guān)鍵酶和轉(zhuǎn)運(yùn)蛋白、以及這些基因表達(dá)的調(diào)控機(jī)制,目前還不清楚,從而難以通過代謝工程改造來提高丙酮丁醇梭菌的木糖代謝能力。
細(xì)菌中木糖的代謝大多是在木糖異構(gòu)酶和木酮糖激酶的作用下生成5-磷酸-木酮糖,進(jìn)入磷酸戊糖途徑 (Pentose phosphate pathway)。然而,通過同源序列比對的方法在丙酮丁醇梭菌 ATCC824的基因組上無法找到編碼木糖異構(gòu)酶的同源基因,而且存在若干個編碼木酮糖激酶的同源基因,同時丙酮丁醇梭菌中木糖代謝途徑的調(diào)控機(jī)制仍不清楚。
針對上述問題,我們利用比較基因組學(xué)方法分析了梭菌綱和芽胞桿菌綱微生物的基因組序列信息,重構(gòu)了它們的木糖和木寡聚糖利用的代謝途徑和調(diào)節(jié)單元 (圖 3)[25]。通過分析基因簇和調(diào)節(jié)位點(diǎn)共享,我們發(fā)現(xiàn)在丙酮丁醇梭菌及其他一些梭菌中存在一個新的編碼木糖異構(gòu)酶的基因,其與目前已知的木糖異構(gòu)酶編碼基因不具備同源性;預(yù)測了木糖代謝途徑上的其他基因,包括編碼木酮糖激酶、木糖轉(zhuǎn)運(yùn)蛋白、木糖調(diào)控因子的基因、以及木寡聚糖利用相關(guān)的基因。這些基因功能預(yù)測通過分子生物學(xué)和生物化學(xué)的實(shí)驗(yàn)技術(shù)在丙酮丁醇梭菌中進(jìn)行了驗(yàn)證。此外,通過基因調(diào)控區(qū)域序列的比較分析,重構(gòu)了木糖調(diào)控因子的調(diào)節(jié)單元,發(fā)現(xiàn)丙酮丁醇梭菌及其他一些梭菌中具有新的特異性結(jié)合木糖調(diào)控因子的DNA序列,其不同于目前已知的枯草芽胞桿菌中的木糖調(diào)控因子 DNA結(jié)合序列,該預(yù)測已通過實(shí)驗(yàn)得以證實(shí)。
本文對用于代謝途徑和調(diào)控網(wǎng)絡(luò)重構(gòu)的一些新型比較基因組學(xué)技術(shù)進(jìn)行了介紹,并舉例說明了它們的應(yīng)用。運(yùn)用這些技術(shù)能夠有效地解決缺失基因問題、準(zhǔn)確地預(yù)測基因的功能,為實(shí)驗(yàn)分析提供指導(dǎo),從而大大減輕實(shí)驗(yàn)工作量,提高工作效率。文中引用的一些成功實(shí)例表明,將這些新型比較基因組學(xué)技術(shù)與濕實(shí)驗(yàn)進(jìn)行有機(jī)結(jié)合,能夠顯著提高基因功能注釋和代謝網(wǎng)絡(luò)重構(gòu)的質(zhì)量,并且發(fā)現(xiàn)新的代謝功能基因、調(diào)控元件、甚至新的代謝途徑。本文的主要目的之一是希望實(shí)驗(yàn)工作者能夠從這些成功范例中了解這類新型比較基因組學(xué)技術(shù)的重要性,從而利用這些技術(shù)來解決所關(guān)心的代謝途徑中存在的缺失基因問題。
圖3 厚壁菌門細(xì)菌木糖代謝途徑的重構(gòu). (A) 木糖和木寡聚糖代謝相關(guān)基因的分布及特點(diǎn);“+”表示基因存在;相同背景顏色表示基因在染色體上成簇存在;圓圈表示基因上游有轉(zhuǎn)錄因子XylR的DNA結(jié)合位點(diǎn);(B) 基因組上下文分析;相同顏色的箭頭表示同源基因;紅色圓圈表示XylR的DNA結(jié)合位點(diǎn);(C) 丙酮丁醇梭菌和枯草芽孢桿菌中的XylR特異性結(jié)合DNA序列Fig. 3 Reconstruction of xylose utilization pathway and regulons in Firmicutes. (A) Occurrence and features of genes involved in xylose and xyloside utilization pathway. The presence of genes for the respective functional roles is shown by “+”. Genes clustered on the chromosome are marked by the same background color. Candidate XylR regulon members are circled. (B) Genomic context analysis. Homologous genes are marked by matching colors. Candidate regulatory sites of XylR are shown by red circles. (C) DNA recognition motifs of XylR from Clostridium acetobutylicum and Bacillus subtilis.
隨著多種原核生物的全基因序列得以破譯,這些大量的信息為基因組上下文分析技術(shù)的應(yīng)用提供了很好的數(shù)據(jù)背景。用于分析的基因組的數(shù)目和多樣性往往決定了這些技術(shù)能否得以成功應(yīng)用。例如,在一組非常相近的基因組上 (如同一種類的不同菌株) 基因間的序列往往也是相同的,那么這些基因組就不能用于轉(zhuǎn)錄因子結(jié)合位點(diǎn)的預(yù)測分析;另一方面,如果用于分析的微生物的親緣關(guān)系相差很遠(yuǎn)(如革蘭氏陽性厚壁菌門細(xì)菌和革蘭氏陰性變形菌門細(xì)菌),調(diào)控元件在這些基因組上并不保守,那么也很難得到準(zhǔn)確的轉(zhuǎn)錄因子結(jié)合位點(diǎn)模型。雖然基因簇、調(diào)節(jié)位點(diǎn)共享和基因系統(tǒng)發(fā)育譜分析只適用于原核生物的基因組,但是大量的原核生物基因組信息顯示,大多數(shù)的真核生物中代謝酶都可以在一組原核生物中找到功能對等的蛋白質(zhì)。因此,這些新型比較基因組學(xué)技術(shù)也將間接地為真核生物基因組以及元基因組數(shù)據(jù)的準(zhǔn)確功能注釋提供重要的幫助。
REFERENCES
[1] Overbeek R, Begley T, Butler RM, et al. The subsystems approach to genome annotation and its use in the project to annotate 1000 genomes. Nucleic Acids Res, 2005, 33: 5691?5702.
[2] Osterman A, Overbeek R. Missing genes in metabolic pathways: a comparative genomics approach. Curr Opin Chem Biol, 2003, 7: 238?251.
[3] Koonin EV, Galperin MY. Sequence–Evolution–Function. Computational Approaches in Comparative Genomics. Boston: Kluwer Academic Publishers, 2002.
[4] Overbeek R, Fonstein M, D’Souza M, et al. The use of gene clusters to infer functional coupling. Proc Natl Acad Sci USA, 1999, 96: 2896?2901.
[5] Rodionov DA. Comparative genomic reconstruction of transcriptional regulatory networks in bacteria. Chem Rev, 2007, 107: 3467?3497.
[6] Pinchuk GE, Rodionov DA, Yang C, et al. Genomic reconstruction of Shewanella oneidensis MR-1 metabolism reveals a previously uncharacterized machinery for lactate utilization. Proc Natl Acad Sci USA, 2009, 106: 2874?2879.
[7] Yang C, Rodionov DA, Li X, et al. Comparative genomics and experimental characterization of N-acetylglucosamine utilization pathway of Shewanella oneidensis. J Biol Chem, 2006, 281: 29872?29885.
[8] Yang C, Rodionov DA, Rodionova IA, et al. Glycerate 2-kinase of Thermotoga maritima and genomic reconstruction of related metabolic pathways. J Bacteriol, 2008, 190: 1773?1782.
[9] Rodionov DA, Kurnasov OV, Stec B, et al. Genome identification and in vitro reconstitution of a complete biosynthetic pathway for the osmolyte di-myo-inositolphosphate. Proc Natl Acad Sci USA, 2007, 104: 4279?4284.
[10] Sorci L, Martynowski D, Rodionov DA, et al. Nicotinamide mononucleotide synthetase is the key enzyme for an alternative route of NAD biosynthesis in Francisella tularensis. Proc Natl Acad Sci USA, 2009, 106: 3083?3088.
[11] Piskur J, Schnackerz KD, Andersen G, et al. Comparative genomics reveals novel biochemical pathways. Trends Genet, 2007, 23: 369?372.
[12] Rodionov DA, Gelfand MS. Comparative genomics and functional annotation of bacterial transporters. Phys Life Rev, 2008, 5: 22?49.
[13] Wolf YI, Rogozin IB, Kondrashov AS, et al. Genome alignment, evolution of prokaryotic genome organization, and prediction of gene function using genomic context. Genome Res, 2001, 11: 356?372.
[14] Galperin MY, Koonin EV. Whos’s your neighbor? New computational approaches for functional genomics. Nat Biotechnol, 2000, 18: 609?613.
[15] Snel B, Bork P, Huynen MA. The identification of functional modules from the genomic association of genes. Proc Natl Acad Sci USA, 2002, 99: 5890?5895.
[16] Enright AJ, Iiopoulos I, Kyrpides NC, et al. Protein interaction maps for complete genomes based on gene fusion events. Nature, 1999, 402: 86?90.
[17] Marcotte EM, Pellegrini M, Ng HL, et al. Detecting protein function and protein-protein interactions from genome sequences. Science, 1999, 285: 751?753.
[18] Pellegrini M, Marcotte EM, Thompson MJ, et al. Assigning protein functions by comparative genome analysis: protein phylogenetic profiles. Proc Natl Acad Sci USA, 1999, 96: 4285?4288.
[19] Manson McGuire A, Church GM. Predicting regulons and their cis-regulatory motifs by comparative genomics. Nucleic Acids Res, 2000, 28: 4523?4530.
[20] Gelfand MS, Koonin EV, Mironov AA. Prediction of transcription regulatory sites in Archaea by a comparative genomic approach. Nucleic Acids Res, 2000, 28: 695?705.
[21] Tan K, McCue LA, Stormo GD. Making connections between novel transcription factors and their DNA motifs. Genome Res, 2005, 15: 312?320.
[22] Tan K, Moreno-Hagelsieb G, Collado-Vides J, et al. A comparative genomics approach to prediction of new members of regulons. Genome Res, 2001, 11: 566?584.
[23] Blanchette M, Tompa M. Discovery of regulatory elements by a computational method for phylogenetic footprinting. Genome Res, 2002, 12: 739?748.
[24] Grainger DC, Lee DJ, Busby SJ. Direct methods for studying transcription regulatory proteins and RNA polymerase in bacteria. Curr Opin Microbiol, 2009, 12: 531?535.
[25] Gu Y, Ding Y, Ren C, et al. Reconstruction of xylose utilization pathway and regulons in Firmicutes. BMC Genomics, 2010, 11: 255.
Comparative genomic reconstruction of regulatory and metabolic networks in bacteria
Chen Yang
Key Laboratory of Synthetic Biology, Institute of Plant Physiology and Ecology, Shanghai Institutes for Biological Sciences, Chinese Academy of Sciences, Shanghai 200032, China
A large and growing number of complete genomes from diverse species open tremendous opportunities for getting deep insights into cell metabolism. This increased understanding strongly supports engineering of cell metabolism for microbial production. In spite of the recent progress, a large fraction of genes in most of the available genomes remain incorrectly or imprecisely annotated. In this paper we review some of the new comparative genomics techniques used to reconstruct regulatory and metabolic networks from genomic data, reveal gaps in current knowledge, and identify previously uncharacterized genes. The application will be discussed by using a recent example–reconstruction of xylose utilization pathway in Clostridium acetobutylicum.
comparative genomics, reconstruction of metabolic pathways, reconstruction of transcriptional regulatory networks, genome context analysis
自上個世紀(jì)末以來微生物基因組學(xué)的發(fā)展突飛猛進(jìn),迄今為止國際上已經(jīng)公布了超過 1 000組完整的原核微生物基因組序列 (http://www.ncbi.nlm. nih.gov/genomes/lproks.cgi)。這為從功能基因與蛋白、網(wǎng)絡(luò)及其調(diào)控等不同的角度,全面理解與認(rèn)識微生物的代謝過程、構(gòu)建細(xì)胞工廠,提供了豐富的背景信息[1]?;诨蚪M序列進(jìn)行代謝網(wǎng)絡(luò)重構(gòu),不僅能夠發(fā)掘模式菌的新的代謝特性,而且能夠預(yù)測我們了解甚少的某些微生物的代謝潛能,發(fā)現(xiàn)新的代謝功能基因、調(diào)控元件、以及新的代謝途徑[2]。這些都有助于我們優(yōu)化設(shè)計細(xì)胞內(nèi)從原料到產(chǎn)品的生物合成路線,重新組裝部分代謝和調(diào)控元件,進(jìn)而構(gòu)建具有定向的轉(zhuǎn)化和合成能力的細(xì)胞工廠。
June 4, 2010; Accepted: August 11, 2010
Supported by:One-hundred People Program of Chinese Academy of Sciences (No. KSCX2-YW-G-029), National Basic Research Program of China (973 Program) (No. 2007CB707802).
Chen Yang. Tel: +86-21-54924152; E-mail: chenyang@sibs.ac.cn
中國科學(xué)院項目百人計劃 (No. KSCX2-YW-G-029),國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃 (973計劃) (No. 2007CB707802) 資助。