張震,曾雪城,秦磊,李春,2
(1清華大學(xué)化學(xué)工程系生物化工研究所/工業(yè)生物催化教育部重點實驗室,北京 100084;2清華大學(xué)合成與系統(tǒng)生物學(xué)研究中心,北京 100084)
“碳達峰、碳中和”作為我國的戰(zhàn)略發(fā)展規(guī)劃,對社會各行各業(yè)的發(fā)展將產(chǎn)生深遠影響,其中對于制造業(yè)而言,生物制造基于生物催化過程可生產(chǎn)各種高附加值產(chǎn)品,且以可再生的生物質(zhì)為原料,是未來制造業(yè)可持續(xù)發(fā)展的重要方向。微生物細胞工廠通過在微生物底盤細胞中表達異源生物合成途徑來生產(chǎn)目標(biāo)化合物,是綠色生物制造的重要實現(xiàn)形式。當(dāng)下結(jié)構(gòu)已報道的天然產(chǎn)物超過了30萬種,目前利用微生物細胞工廠實現(xiàn)了生物合成途徑已知的青蒿酸[1]、1,3-丙二醇[2]、法尼烯[3]、甘草次酸[4]、PHA[5]、1,3-丁二醇[6]等多種高附加值化合物的生產(chǎn),產(chǎn)品廣泛應(yīng)用于化工、醫(yī)藥、能源、食品等領(lǐng)域。然而,生物合成途徑完全解析的天然產(chǎn)物只有不到3萬種,尚有大量天然產(chǎn)物的生物合成途徑未解析,嚴(yán)重阻礙了微生物細胞工廠的發(fā)展[7]。傳統(tǒng)微生物細胞工廠的設(shè)計和構(gòu)建方式通量小、效率低,亟需自動化的設(shè)計工具代替?zhèn)鹘y(tǒng)依賴經(jīng)驗和試錯的設(shè)計構(gòu)建方式,以加速未知途徑化合物生物合成途徑的解析及其微生物細胞工廠的合成設(shè)計。
設(shè)計-構(gòu)建-測試-學(xué)習(xí)(design-build-testlearn,DBTL)循環(huán)是開發(fā)微生物細胞工廠的基本研究思路,使用遞歸循環(huán)的方式使設(shè)計的微生物細胞工廠逐漸提高得率、速率及產(chǎn)量等生產(chǎn)目標(biāo)。設(shè)計(design)是DBTL循環(huán)的第一步,對細胞工廠能否成功構(gòu)建產(chǎn)生重要影響?;谟袡C化學(xué)和生物化學(xué)的專業(yè)知識、文獻報道及自身實踐經(jīng)驗繪制潛在的生物合成途徑的設(shè)計方法通常僅適用于化學(xué)結(jié)構(gòu)簡單的目標(biāo)化合物。此外,當(dāng)前微生物細胞工廠中所設(shè)計途徑與合成調(diào)控元件的組合較為盲目或隨機,只能逐次對元件進行優(yōu)化,而且設(shè)計出的途徑不能很好與底盤細胞適配。這些因素導(dǎo)致傳統(tǒng)微生物細胞工廠的設(shè)計和構(gòu)建通量小、效率低,且驗證過程周期長,例如,阿米瑞斯生物技術(shù)公司(Amyris Biotechnologies)構(gòu)建微生物細胞工廠生產(chǎn)抗瘧疾前體青蒿素花費了十年時間、150人年的工作量,實現(xiàn)微生物生產(chǎn)法尼烯花費了四年時間、130~575人年;杜邦公司(DuPont)和杰能科公司(Genencor)分別花費約15和575來實現(xiàn)微生物細胞工廠生產(chǎn)1,3-丙二醇[8]。然而,組學(xué)時代的到來和生物數(shù)據(jù)資源的爆炸式增長已經(jīng)改變了生物制造領(lǐng)域的研究模式,為生物制造和微生物細胞工廠設(shè)計提供了新的發(fā)展機遇。因此,在大數(shù)據(jù)基礎(chǔ)上的智能化微生物細胞工廠設(shè)計方法成為加速微生物細胞工廠設(shè)計構(gòu)建的關(guān)鍵。
借鑒電子設(shè)計自動化(electronic design automation,EDA,指利用計算機輔助設(shè)計軟件,來完成超大規(guī)模集成電路芯片的功能設(shè)計、驗證、物理設(shè)計等流程的設(shè)計方式)的概念,微生物細胞工廠的智能設(shè)計可采用生物設(shè)計自動化(biological design of automation,BDA)的形式,立足于生物數(shù)據(jù)庫中的豐富資源,通過一系列算法完成細胞工廠的自動化設(shè)計,實現(xiàn)生物合成途徑的預(yù)測與篩選、調(diào)控元件的設(shè)計、途徑與元件組裝設(shè)計、設(shè)計途徑與底盤代謝網(wǎng)絡(luò)適配等功能。通過生物合成途徑的預(yù)測與篩選,對途徑未知化合物提供可靠性較強、效率較高的候選途徑方案,輔助途徑設(shè)計,此外,從全局出發(fā)預(yù)測潛在的分支途徑,以實現(xiàn)對實驗中可能出現(xiàn)的副產(chǎn)物進行快速定位,進而指導(dǎo)細胞工廠的構(gòu)建。通過調(diào)控元件的設(shè)計及元件與途徑的組合設(shè)計,進一步提高預(yù)測途徑與底盤菌株的適配性及可靠性,為細胞工廠后續(xù)的構(gòu)建、測試和學(xué)習(xí)指明方向。
化合物生物合成途徑的設(shè)計主要采用生物逆合成算法,其思想來源于化學(xué)逆合成,分為生物逆合成途徑的預(yù)測和途徑篩選兩個環(huán)節(jié)。在逆合成途徑預(yù)測階段,通過使用一組在原子水平上描述底物和產(chǎn)物分子之間化學(xué)轉(zhuǎn)化模式的生化反應(yīng)規(guī)則,推測合成目標(biāo)化合物的反應(yīng)及催化該步反應(yīng)的酶,實現(xiàn)將輸入化合物(即目標(biāo)化合物)轉(zhuǎn)化為一系列中間化合物,并最終轉(zhuǎn)化為前體化合物的過程。生物逆合成算法按預(yù)測中間化合物的方式不同可分為兩大類:一是在數(shù)據(jù)庫中檢索已知代謝反應(yīng)并預(yù)測反應(yīng)和中間化合物,所預(yù)測的中間化合物種類受到化合物數(shù)據(jù)庫規(guī)模的限制,如FMM、DESHARKY和Metabolic tinker等工具;二是基于泛化的生化反應(yīng)規(guī)則來預(yù)測新反應(yīng)且可產(chǎn)生數(shù)據(jù)庫中不存在的新化合物,如XTMS[9]、RetroPath[10]、RetroPath2.0[11]、RetroPath RL[12]、novoPathFinder[13]等工具(表1),這一類基于反應(yīng)規(guī)則的算法在生物逆合成預(yù)測中具有更大的應(yīng)用潛力,因此下述生物逆合成預(yù)測流程主要介紹基于反應(yīng)規(guī)則的預(yù)測算法。
表1 生物逆合成工具Table1 Retrobiosynthesis tools
生物合成途徑由多步生化反應(yīng)級聯(lián)組合而成,后一步反應(yīng)的前體化合物作為前一步反應(yīng)的目標(biāo)產(chǎn)物,相當(dāng)于多個特殊的單步反應(yīng)的組合,因此生物合成途徑的預(yù)測關(guān)鍵在于對某一指定化合物的單步生物合成反應(yīng)的預(yù)測。單步生物合成反應(yīng)的預(yù)測以普遍酶具有底物雜泛性的假設(shè)條件為前提,即認為酶可以催化與底物具有相似化學(xué)結(jié)構(gòu)的化合物,因此可借鑒已報道生化反應(yīng)的轉(zhuǎn)化模式及相應(yīng)的酶序列來預(yù)測與底物具有相似結(jié)構(gòu)化合物發(fā)生的新生化反應(yīng)。同時存在一些計算工具可對酶的底物雜泛性進行預(yù)測,如EPP-HMCNF[23]可根據(jù)BRENDA數(shù)據(jù)庫中酶-底物的互作預(yù)測可催化給定查詢化合物的不同種類的酶?;谏鲜黾僭O(shè)單步反應(yīng)的預(yù)測流程可以概括為,對于目標(biāo)化合物Q(query),在化合物數(shù)據(jù)庫中檢索與之結(jié)構(gòu)相似的化合物M1、M2(match),在生化反應(yīng)數(shù)據(jù)庫中檢索M1、M2的相關(guān)反應(yīng)R1、R2(reaction),提取相應(yīng)的反應(yīng)規(guī)則及酶序列,將其應(yīng)用在目標(biāo)化合物Q上,從而得到目標(biāo)化合物Q的生成反應(yīng)、催化該步反應(yīng)的酶序列及直接前體化合物Q11、Q21(圖1,步驟1~5)。
通過對預(yù)測前體迭代應(yīng)用單步預(yù)測反應(yīng),可逐步延伸預(yù)測途徑的長度,直至達到規(guī)定的終止條件。通常以預(yù)測途徑達到規(guī)定步長、預(yù)測的前體化合物為指定化合物或指定底盤宿主內(nèi)源化合物等易于計算的指標(biāo)作為終止條件。由于化合物相關(guān)合成反應(yīng)并不單一,因此預(yù)測出的合成反應(yīng)通常具有許多分支,從而使得最終的逆合成途徑通常以樹的形式呈現(xiàn),被稱為逆合成網(wǎng)絡(luò)(圖1,步驟6~7),其中目標(biāo)化合物為根節(jié)點、中間化合物為子節(jié)點、指定起始化合物或底盤宿主可內(nèi)源合成的化合物為葉子結(jié)點,生化反應(yīng)及催化該步反應(yīng)的酶序列為連接節(jié)點的邊?;谀婧铣删W(wǎng)絡(luò)的樹形特點,一些同樣呈現(xiàn)為樹形的人工智能算法被應(yīng)用到逆合成網(wǎng)絡(luò)的生成中,如RetroPath RL[12]利用蒙特卡洛樹搜索算法(Monte Carlo tree search)的選擇-擴展-隨機模擬-反向傳播四個過程對預(yù)測途徑進行延伸,最終生成逆合成網(wǎng)絡(luò)。
圖1 生物逆合成途徑預(yù)測流程圖Fig.1 Workflow of retrobiosynthesis
在生物合成途徑的預(yù)測中生化數(shù)據(jù)庫為預(yù)測算法的實現(xiàn)奠定了基礎(chǔ),所需要的生化數(shù)據(jù)庫包括化合物數(shù)據(jù)庫、生化反應(yīng)數(shù)據(jù)庫、代謝數(shù)據(jù)庫、酶數(shù)據(jù)庫及細胞模型。KEGG[24]、KNApSAcK[25]等化合物數(shù)據(jù)庫及天然產(chǎn)物詞典(Dictionary of Natural Products,DNP)(https://dnp.chemnetbase.com)和Super NaturalⅡ[26]等天然產(chǎn)物數(shù)據(jù)庫可被用于相關(guān)反應(yīng)已有文獻報道的相似化合物的搜索。生化反應(yīng)數(shù)據(jù)庫用于提取反應(yīng)規(guī)則,如ATLAS[27]數(shù)據(jù)庫中收錄了超過14萬條反應(yīng),ATLASx[22]數(shù)據(jù)庫中包含超過500萬個預(yù)測反應(yīng)。基于代謝途徑中反應(yīng)間的級聯(lián)關(guān)系可將反應(yīng)規(guī)則構(gòu)建為反應(yīng)規(guī)則網(wǎng)絡(luò),為長途徑的預(yù)測提供可能。常用的代謝途徑數(shù)據(jù)庫包括:KEGG PATHWAY、MetaCyc、Reactome和UM-BBD等。酶數(shù)據(jù)庫將提供催化生化反應(yīng)可用的酶序列,如BRENDA是一個綜合酶信息數(shù)據(jù)庫,包含了酶促反應(yīng)和相關(guān)的代謝通路。細胞模型為基因組規(guī)模代謝網(wǎng)絡(luò)模型(genome-scale metabolic model,GEM),GEM模型可提供底盤宿主中存在的化合物、生化反應(yīng)等信息,并可對代謝途徑產(chǎn)量進行模擬計算、為預(yù)測途徑的優(yōu)化提供手段。大腸桿菌、釀酒酵母等常用模式生物均發(fā)展了系列GEM模型。目前也創(chuàng)建了一些綜合數(shù)據(jù)庫,如biochem4j圖數(shù)據(jù)庫中包含36765條反應(yīng)信息、19735條化合物信息、245704條酶序列和8431個細胞模型。
生物合成途徑由一系列基于可進行酶催化轉(zhuǎn)化的化合物組成,化學(xué)結(jié)構(gòu)式是這些化合物的基礎(chǔ)表示方式,可表示所有原子通過化學(xué)鍵與其相鄰原子連接的原子鍵合環(huán)境信息。在生物逆合成途徑預(yù)測中通常采用化學(xué)模式語言和分子指紋兩種方式對化合物的結(jié)構(gòu)式進行數(shù)字化編碼,以滿足后續(xù)提取反應(yīng)規(guī)則及搜索結(jié)構(gòu)相似性化合物的需求。
1.3.1 化學(xué)模式語言 在化學(xué)信息學(xué)中,SMILES(simplified molecular-input line-entry system)和SMARTS(smiles arbitrary target specification)是兩種已有明確定義的化學(xué)模式語言,其中SMILES可以將化合物的二維結(jié)構(gòu)式表示為ASCⅡ字符串,主要由原子和化學(xué)鍵兩種基本符號組成;SMARTS是SMILES的延伸,允許使用通配符表示原子和化學(xué)鍵,如SMARTS中符號[C,N]表示該原子是碳(C)或氮(N),符號~可匹配任何化學(xué)鍵[28-30][圖2(a)],這兩種化學(xué)模式語言在生物逆合成算法中常被用于表示化學(xué)反應(yīng)中反應(yīng)物和產(chǎn)物的結(jié)構(gòu)變化[9,11,13,15]。
圖2 化學(xué)模式語言與分子指紋Fig.2 Chemical model language and molecular fingerprints
1.3.2 分子指紋 通過預(yù)定義KEGG原子類型[31]、官能團等子結(jié)構(gòu)將化合物結(jié)構(gòu)分解為一個個子結(jié)構(gòu)的累積,并將化合物中子結(jié)構(gòu)的數(shù)量和各種物理化學(xué)特性編碼為二進制變量的位串,形成化合物的分子指紋??梢允褂肦DKit和PaDEL-descriptor等軟件包來生成分子指紋,RDkit[32]是一個用于化學(xué)信息學(xué)的開源工具包,可以生成RDKit指紋、Morgan指紋、Avalon指紋和MACCS指紋四種分子指紋,例如MACCS指紋可表示為長度為166位的向量,每一位對應(yīng)一個分子特征,當(dāng)化合物中存在此類特征時該位數(shù)值為1,否則為0[圖2(b)]。PaDEL-descriptor[33]可 生 成PubChem指 紋、CDK指紋、CDKextend指紋、子結(jié)構(gòu)指紋和GraphOnly指紋五種分子指紋。這些指紋一方面可基于Tonimoto等相似性算法用于從化合物數(shù)據(jù)庫中快速搜索與查詢化合物具有相似結(jié)構(gòu)的化合物,另一方面可用作相似性搜索、分類和回歸等各種機器學(xué)習(xí)任務(wù)的輸入。
反應(yīng)規(guī)則(也稱為反應(yīng)描述符)為產(chǎn)物描述符與底物描述符之間的凈差,通過底物結(jié)構(gòu)式與產(chǎn)物結(jié)構(gòu)式間的原子-原子映射比對而得到,描述了底物向產(chǎn)物轉(zhuǎn)化時反應(yīng)中心原子的鍵合環(huán)境變化(圖3)。目前對反應(yīng)規(guī)則的研究多以反應(yīng)中某一個主要的反應(yīng)物向相應(yīng)產(chǎn)物的一對一轉(zhuǎn)化模式為主。反應(yīng)規(guī)則可作為一種模塊化操作,適用于與底物結(jié)構(gòu)相似的化合物上,可預(yù)測目標(biāo)產(chǎn)物的合成反應(yīng)及相應(yīng)前體化合物。反應(yīng)規(guī)則可以從已知反應(yīng)的數(shù)據(jù)庫中自動提取[34-35],也可以通過手動輸入生產(chǎn)精簡的專家反應(yīng)規(guī)則集[36]。
1.4.1 基于生化反應(yīng)數(shù)據(jù)庫的反應(yīng)規(guī)則 反應(yīng)規(guī)則的自動提取需要經(jīng)歷(1)反應(yīng)物-產(chǎn)物對的識別;(2)原子-原子映射;(3)反應(yīng)中心原子、反應(yīng)基團及保守基團的識別和(4)提取反應(yīng)規(guī)則四個過程。PathPred中將每個反應(yīng)中反應(yīng)對(反應(yīng)物-產(chǎn)物對)中的匹配區(qū)和非匹配區(qū)之間的邊界原子分別定義為反應(yīng)中心R原子、差異區(qū)域D原子和匹配區(qū)域M原子,引入了R-D-M原子模式。KEGG為反應(yīng)對提供了基于原子映射的結(jié)構(gòu)對齊信息,并構(gòu)建了KEGG RPAIR數(shù)據(jù)庫。上述反應(yīng)規(guī)則表示了反應(yīng)物-產(chǎn)物間的最大結(jié)構(gòu)差異,而XTMS[9]基于SMILES化學(xué)模式語言描述化學(xué)反應(yīng),同時將原子映射編號附加到反應(yīng)物和產(chǎn)物側(cè)的相應(yīng)原子上,以反映原子身份并跟蹤反應(yīng)中原子的轉(zhuǎn)移;通過調(diào)整反應(yīng)中心原子周圍環(huán)境的大?。粗睆絛)可獲得不同泛化水平的反應(yīng)規(guī)則,當(dāng)d=0時僅包括反應(yīng)中心原子,d=1時包括反應(yīng)中心原子及與之直接相鄰的化學(xué)鍵及原子,如此類推,可見隨著直徑d的增加,反應(yīng)規(guī)則變得更加具體(圖3)。該方法中反應(yīng)規(guī)則的泛化水平是逆合成途徑預(yù)測的關(guān)鍵技術(shù)之一,過于具體的規(guī)則會限制預(yù)測新路線的潛力,而過于籠統(tǒng)的規(guī)則可能會使預(yù)測偏離實際[37]。RetroRules[34]反應(yīng)規(guī)則數(shù)據(jù)庫按照SMARTS標(biāo)準(zhǔn)格式收錄了超過40萬條包含立體化學(xué)信息的反應(yīng)規(guī)則,且每條反應(yīng)規(guī)則均可以不同雜泛水平呈現(xiàn)。
圖3 反應(yīng)規(guī)則的提取Fig.3 The extraction of reaction rules
1.4.2 專家反應(yīng)規(guī)則集 自動提取的反應(yīng)規(guī)則通常存在大量冗余,將降低途徑延伸時的預(yù)測計算效率,且使產(chǎn)生的化合物和反應(yīng)的數(shù)量呈現(xiàn)指數(shù)增長,造成組合爆炸問題。此時可通過人工精簡產(chǎn)生規(guī)模較小但更精確的專家反應(yīng)規(guī)則集,以限制途徑延伸時反應(yīng)的數(shù)量且減少網(wǎng)絡(luò)規(guī)模,有利于提高途徑延伸的計算效率及反應(yīng)規(guī)則覆蓋所有可能轉(zhuǎn)換的全面性。RetroBioCat[37]人工構(gòu)建了由83個反應(yīng)組成的反應(yīng)規(guī)則集,使用107個反應(yīng)的SMARTS編碼進行描述。Broadbelt[38]從基于原子映射的MetaCyc反應(yīng)中自動提取反應(yīng)規(guī)則,并通過人工精簡獲得最小但全面的1224條通用反應(yīng)規(guī)則,經(jīng)驗證可唯一地覆蓋所有常見的酶促轉(zhuǎn)化,且能夠重現(xiàn)KEGG和BRENDA數(shù)據(jù)庫中超過85%的所有反應(yīng),有利于探索已知酶促轉(zhuǎn)化的更大空間,加速生物合成途徑的設(shè)計。
1.4.3 反應(yīng)規(guī)則網(wǎng)絡(luò) 代謝途徑是生物體內(nèi)的級聯(lián)反應(yīng),基于代謝途徑數(shù)據(jù)庫可以將從數(shù)據(jù)庫中學(xué)習(xí)到的所有反應(yīng)規(guī)則按照反應(yīng)規(guī)則網(wǎng)絡(luò)(reaction rule network,RRN)的形式進行整合[16]。將各個反應(yīng)規(guī)則均視為節(jié)點,若兩個規(guī)則在已知途徑上呈級聯(lián)狀態(tài)或具有形成級聯(lián)反應(yīng)的潛力,則在兩個規(guī)則間添加邊來連接,最終形成反應(yīng)規(guī)則網(wǎng)絡(luò)并將其應(yīng)用在長途徑化合物的預(yù)測上。例如,ReactionMiner[16]基于反應(yīng)規(guī)則網(wǎng)絡(luò)對衣康酸酯、柚皮素、1,3-丙二醇、木糖醇等高附加值化合物的生物逆合成途徑進行了預(yù)測,發(fā)現(xiàn)可復(fù)原這些化合物的已知途徑或預(yù)測出更短且生物學(xué)上更合理的逆合成途徑。
化學(xué)催化和生物催化的主要區(qū)別在于生物催化采用酶作為催化劑,同樣的,生物逆合成區(qū)別于化學(xué)逆合成的關(guān)鍵在于生物逆合成需要為預(yù)測的反應(yīng)提供可能的催化該步反應(yīng)的酶序列。然而,許多預(yù)測的新反應(yīng)沒有相關(guān)酶報道,預(yù)測與反應(yīng)規(guī)則相關(guān)聯(lián)、可催化新反應(yīng)且與底盤宿主進化親緣較近的酶的計算方法可大大加快生物合成途徑的開發(fā)。
EC號是國際生物化學(xué)與分子生物學(xué)聯(lián)盟(International Union of Biochemistry and Molecular Biology,IUBMB)中酶學(xué)委員會(Enzyme Commission)根據(jù)每種酶所催化的化學(xué)反應(yīng)為分類基礎(chǔ)制定的一套由四個級別組成的編號分類法,而反應(yīng)規(guī)則同樣體現(xiàn)了酶催化的功能,因此反應(yīng)規(guī)則與EC號間存在關(guān)聯(lián),并通過查詢EC號對應(yīng)的酶序列可將反應(yīng)規(guī)則與酶序列相關(guān)聯(lián),為預(yù)測出的新反應(yīng)提供酶催化數(shù)據(jù)。
反應(yīng)同源性是預(yù)測催化目標(biāo)反應(yīng)候選酶序列的基礎(chǔ),且不同酶序列預(yù)測工具在反應(yīng)相似性矩陣的計算及反應(yīng)的輸入格式上有所區(qū)別。Yamanishi等[39]采用KEGG化合物ID作為輸入內(nèi)容,通過比較化合物間的轉(zhuǎn)化模式,構(gòu)建了E-zyme工具,可對化學(xué)反應(yīng)分配EC號前三位數(shù)字。Goto等[40]對E-zyme工具進行了拓展并設(shè)計了E-zyme2工具,可基于RDM模式對底物-產(chǎn)物對進行全結(jié)構(gòu)比對,當(dāng)已知的相似反應(yīng)與至少一個基因序列相鏈接時,可為輸入的查詢反應(yīng)分配催化相似反應(yīng)的酶序列。此外,Thornton等[41]開發(fā)了EC-BLAST工具,采用KEGG反應(yīng)ID、SMIRKS反應(yīng)規(guī)則和EC號作為輸入內(nèi)容,利用最大公共子圖算法(maximal common subgraph,MCS)進行原子-原子比對(atom-atom mapping,AAM),并根據(jù)鍵的變化、反應(yīng)中心及結(jié)構(gòu)相似性從KEGG REACTION數(shù)據(jù)庫中查詢相似反應(yīng),以此為新反應(yīng)分配前三位EC號,但EC-BLAST不能輸出酶序列。Faulon等[42]開發(fā)了Selenzyme工具,采用SMIRKS化學(xué)模式語言作為輸入內(nèi)容,基于biochem4j圖數(shù)據(jù)庫,通過綜合考慮序列相似性、酶序列的物理化學(xué)性質(zhì)、酶來源物種與底盤宿主間的種群發(fā)生距離等方面來選擇最優(yōu)的候選酶序列。
BridgIT[43]考慮了輔因子在反應(yīng)機制中的關(guān)鍵作用,是目前唯一可以區(qū)分不同酶催化反應(yīng)機制且可預(yù)測從頭設(shè)計反應(yīng)的關(guān)聯(lián)酶序列的方法。BridgIT采用SMILES表示的化學(xué)反應(yīng)及BNICE.ch反應(yīng)規(guī)則作為輸入內(nèi)容,可基于Daylight分子指紋計算目標(biāo)反應(yīng)與天然反應(yīng)的Tanimoto相似性,并從KEGG中獲取相似天然反應(yīng)及其對應(yīng)的酶EC號,進而提供一個候選酶EC號名單。對于KEGG(2011)中未注釋酶序列且在KEGG(2018)中補充了注釋的反應(yīng),BridgIT對其中90%的反應(yīng)能夠正確預(yù)測其相應(yīng)的酶三級EC號。
基于以上工具,一些報道將酶數(shù)據(jù)庫與反應(yīng)數(shù)據(jù)庫相結(jié)合,構(gòu)建出反應(yīng)規(guī)則-酶相互關(guān)聯(lián)的綜合數(shù)據(jù)庫,方便生物逆合成算法的計算,如EnzyMine[34]將酶催化反應(yīng)的特征與酶序列和結(jié)構(gòu)注釋相聯(lián)系,構(gòu)建了包含7767個EC號、267345條蛋白序列和9831個反應(yīng)的綜合酶-反應(yīng)規(guī)則關(guān)聯(lián)數(shù)據(jù)庫。Fenner等[44]將從化學(xué)污染物生物轉(zhuǎn)化反應(yīng)數(shù)據(jù)庫Eawag-BBD和KEGG數(shù)據(jù)庫中獲取的泛化生物轉(zhuǎn)化規(guī)則與前三位EC號相關(guān)聯(lián),建立了具有316條反應(yīng)規(guī)則-酶分類鏈接的enviLink數(shù)據(jù)庫。
逆合成網(wǎng)絡(luò)中包含了大量預(yù)測途徑,但并非所有預(yù)測途徑都能夠?qū)崿F(xiàn)目標(biāo)催化功能,目前已開發(fā)的工具所預(yù)測的途徑假陽性過高,使得生物逆合成工具的應(yīng)用仍不夠普及,因此提高生物逆合成途徑預(yù)測的準(zhǔn)確率和可靠性是促進逆合成算法廣泛應(yīng)用的關(guān)鍵。從大量預(yù)測途徑中推薦最佳候選途徑,需要基于一些評價指標(biāo)對預(yù)測途徑進行評價、排序及篩選,目前已經(jīng)報道的一些途徑評價指標(biāo),主要從途徑的理論可行性和與底盤宿主的適配性兩方面對途徑進行評價(圖1,步驟8)。
在途徑篩選中,首先需要采用如底物相似性、熱力學(xué)可行性、酶序列、途徑長度等定量指標(biāo),對一些理論上不可行的途徑進行排除。
2.1.1 底物相似性 考慮到生物逆合成算法采用酶-底物雜泛性假設(shè),選擇與已知底物結(jié)構(gòu)相似性較高的輸入化合物將更有可能被相應(yīng)的已知酶催化;相反,若輸入的查詢化合物與化合物數(shù)據(jù)庫中已知化合物的結(jié)構(gòu)相似度較低,則相關(guān)聯(lián)的已知酶對該查詢化合物成功催化的可能性同樣較低?;诨衔锩枋龇?,可以通過Tanimoto相似性等算法對預(yù)測的中間化合物與數(shù)據(jù)庫中已知化合物間的結(jié)構(gòu)相似性系數(shù)進行計算,從而在化合物數(shù)據(jù)庫中檢索結(jié)構(gòu)相似化合物[7,12]。
2.1.2 熱力學(xué)可行性 吉布斯自由能變化ΔG可表示反應(yīng)的熱力學(xué)勢能變化,決定了酶促反應(yīng)的方向性和效率,是檢測和選擇預(yù)測途徑熱力學(xué)可行性及評估生物合成途徑熱力學(xué)驅(qū)動力的重要手段。一些生物逆合成預(yù)測工具基于數(shù)據(jù)庫中的反應(yīng)吉布斯自由能數(shù)據(jù)或熱力學(xué)計算工具檢測途徑的熱力學(xué)可行性并對途徑進行篩選,如Metabolic tinker基于CHEBi和RHEA數(shù)據(jù)庫,使用此前報道的基于基團貢獻(group contribution,GC)的熱力學(xué)計算工具計算并評估途徑的可行性[45];XTMS[9]基于MetaCyc database數(shù)據(jù)庫提供的反應(yīng)吉布斯自由能數(shù)據(jù)來評價途徑可行性。此外,OptMDFpathway[46]利用基于約束的模型以途徑的最大最小驅(qū)動力(max-min driving force)為優(yōu)化目標(biāo),通過混合整數(shù)線性規(guī)劃來識別具有最高熱力學(xué)驅(qū)動力的途徑,這類途徑具有較高的代謝通量且對酶的表達強度要求較小。eQuilibrator3.0[47]可利用組分貢獻(component contribution,CC)工具計算反應(yīng)的生化平衡常數(shù)和ΔG,同時給出衡量預(yù)測不確定性的協(xié)方差矩陣用于基于約束的熱力學(xué)模型計算。dGPredictor[48]基于KEGG數(shù)據(jù)庫可利用基團貢獻工具計算不同pH和離子強度下的代謝途徑中酶催化反應(yīng)的ΔG,且考慮了化合物結(jié)構(gòu)中的立體化學(xué)信息,增加了熱力學(xué)預(yù)測的精準(zhǔn)度。
2.1.3 酶序列可行性 有無催化目標(biāo)反應(yīng)的酶序列對于預(yù)測途徑的實現(xiàn)十分重要,尤其是對于基于反應(yīng)規(guī)則預(yù)測的新反應(yīng)。在延伸預(yù)測途徑時可能一些反應(yīng)規(guī)則不存在相關(guān)聯(lián)的酶序列,此時預(yù)測出的新反應(yīng)需要依靠人工查詢文獻以尋找酶序列,降低了設(shè)計的效率,因此在選擇反應(yīng)規(guī)則時應(yīng)當(dāng)增加與酶序列相關(guān)聯(lián)的反應(yīng)規(guī)則的權(quán)重,提高酶催化反應(yīng)的可行性。
2.1.4 途徑長度 途徑長度是最直接的篩選指標(biāo),長途徑意味著在底盤宿主中引入了更多的酶,從而使代謝負擔(dān)增加,而結(jié)構(gòu)復(fù)雜化合物需要經(jīng)歷多種后修飾過程,需要較長的生物合成途徑才能完成修飾作用,因此需要對途徑長度進行合理篩選。目前一些算法直接利用途徑長度對預(yù)測途徑進行打分和排序,而基于圖論的生物逆合成預(yù)測工具通常采用混合整數(shù)線性規(guī)劃等基于約束計算方法尋找底物到目標(biāo)產(chǎn)物的前k條最短基元模式分析(elementary flux mode,EFM)[49]、最 短 碳 流 量 途 徑(carbon flux path,CFP)[50]及最短活性途徑(active pathway)[51]。例如,NICEpath[52]將反應(yīng)物-產(chǎn)物對中保守的原子數(shù)量作為反應(yīng)權(quán)重結(jié)合k-最短圖搜索(k-shortest graph search)算法可實現(xiàn)KEGG中途徑的篩選。PATHcre8[53]構(gòu)建了包含可逆反應(yīng)的雙向圖,采用Yen算法與PathLinker算法相結(jié)合的前K條無環(huán)最短路徑算法篩選目標(biāo)途徑。
由于預(yù)測途徑在底盤宿主中的實現(xiàn)會受到內(nèi)源化合物及調(diào)控網(wǎng)絡(luò)影響,從而呈現(xiàn)出偏離預(yù)測的現(xiàn)象,因此為了合理設(shè)計一個高效的異源生物合成細胞工廠,必須考慮外源反應(yīng)在底盤宿主中特定內(nèi)源性代謝網(wǎng)絡(luò)影響下的穩(wěn)定性,需要對預(yù)測途徑與底盤宿主的適配性進行評價,以增加預(yù)測途徑的可行性。OptStrain[54]、DESHARKY[55]、FMM[49]、Metabolic tinker[45]、GEM-Path[56]、XTMS[9]、MRE[57]、RetroPath2.0[11]等生物逆合成預(yù)測工具均對途徑與大腸桿菌、酵母、藍細菌等底盤宿主的適配性進行了探討。
2.2.1 化合物毒性 中間化合物對細胞的毒性將妨礙途徑中的酶在底盤宿主中正常表達,因此需要對化合物毒性進行預(yù)測,避免預(yù)測途徑中包含高毒性中間化合物。通常采用化合物的半數(shù)抑制濃度(the half inhibitory concentration,IC50)作為化合物毒性的評價指標(biāo),表示一半細胞種群的生長受到抑制時的化合物濃度[58]。目前有一些收錄了化合物毒性的 數(shù) 據(jù) 庫,如TOXNET[59]、DSSTox[60]、T3DB[61]以 及RTECS[62]等,但其中的毒性數(shù)據(jù)多以動物細胞為對象,缺少對微生物細胞的毒性數(shù)據(jù)。目前已報道可預(yù)測化合物對微生物底盤宿主毒性的軟件較少,其中EcoliTox[63]可基于化學(xué)結(jié)構(gòu)與活性的定量關(guān)系預(yù)測中間化合物在大腸桿菌中的毒性,在多種逆合成工具中均有應(yīng)用[9,11-12,64-65]。此外Toxicity Estimation Software Tool(TEST)工具也可實現(xiàn)對化合物毒性的預(yù)測。
2.2.2 代謝負擔(dān) 代謝途徑中引入的異源途徑將增加細胞的代謝負擔(dān),從而妨礙細胞的生長和生產(chǎn)。DESHARKY[55]使用蒙特卡洛啟發(fā)式算法對生物合成途徑進行預(yù)測,同時對大腸桿菌中細胞資源和內(nèi)源代謝情況進行建模,基于對核糖體和RNA聚合酶的消耗量計算異源代謝途徑對底盤宿主的負擔(dān),從而可選取對宿主產(chǎn)生較小代謝負擔(dān)的途徑。
2.2.3 理論產(chǎn)量 通過構(gòu)建包含底盤菌株內(nèi)源化合物及預(yù)測途徑相關(guān)化合物相對應(yīng)的化學(xué)計量矩陣來構(gòu)建GEM模型,并利用流量平衡分析(flux balance analysis,FBA)及基于約束的混合整數(shù)線性規(guī)劃算法可計算途徑在目標(biāo)底盤宿主中化合物的理論產(chǎn)量,且常以產(chǎn)量最大化為優(yōu)化目標(biāo)來選擇途徑,這類生物逆合成預(yù)測工具包括OptStrain[54]、DESHARKY[55]、FMM[49]、GEM-Path[56]及XTMS[9]等。需要注意的是基于FBA的工具在評估途徑時需要提供豐富的信息來為給定底盤細胞模型設(shè)定嚴(yán)格的反應(yīng)通量邊界,因而僅適用于大腸桿菌、釀酒酵母等經(jīng)過充分研究的模式微生物。
2.2.4 內(nèi)源起始化合物 底盤宿主內(nèi)結(jié)構(gòu)更簡單的起始化合物通常具有更大的代謝通量,有利于增加目標(biāo)產(chǎn)物的產(chǎn)量。SCScore[66]是一項衡量分子復(fù)雜性的指標(biāo),基于大量合成化學(xué)反應(yīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)對化合物分子的結(jié)構(gòu)復(fù)雜性進行評分,從而有利于指導(dǎo)生物逆合成途徑選擇更簡單的起始化合物。此外化合物官能團與反應(yīng)中心碳原子之間的相對位置,將影響官能團的電子構(gòu)型變化以及酶活性位點與底物的結(jié)合,進而影響化學(xué)反應(yīng)的可行性。Lee等[67]基于ChemAxon Reactor工具通過比較所選氨基酸前體中官能團(氨基和羧基)與L-纈氨酸、L-亮氨酸和L-異亮氨酸的相對位置,為短鏈伯胺生物合成途徑選擇了最佳的氨基酸前體。
2.2.5 內(nèi)源競爭途徑 底盤宿主內(nèi)源代謝網(wǎng)絡(luò)可能會對異源生物合成途徑產(chǎn)生競爭作用,進而影響目標(biāo)化合物的生產(chǎn)。MRE[57]將預(yù)測出的異源生物合成途徑整合到底盤宿主內(nèi)源代謝網(wǎng)絡(luò)中,并基于熱力學(xué)可行性確定代謝網(wǎng)絡(luò)中反應(yīng)的方向,形成有向圖,基于標(biāo)準(zhǔn)化的Boltzmann因子計算可對內(nèi)源前體化合物(節(jié)點)進行轉(zhuǎn)化的內(nèi)源和異源競爭反應(yīng)(邊)的概率分布并由此進行賦權(quán),以考慮特定底盤宿主中內(nèi)源代謝反應(yīng)對異源途徑的競爭作用。
在實際情況中,常使用不同指標(biāo)的加權(quán)組合來對途徑進行綜合評價,且一些基于綜合評價獲得的預(yù)測途徑已被實驗驗證并用于微生物細胞工廠的構(gòu)建。
XTMS[9]對食品工業(yè)中使用的昂貴風(fēng)味成分樹莓酮的生物合成途徑進行了預(yù)測,并利用通量平衡分析(FBA)根據(jù)熱力學(xué)可行性(吉布斯自由能)、酶性能(基因評分)、途徑可行性(反應(yīng)步驟的數(shù)量)、中間化合物的毒性及目標(biāo)化合物產(chǎn)量等指標(biāo)對預(yù)測途徑進行了綜合評價和排序,恢復(fù)了以香豆酰輔酶A為底物合成樹莓酮的兩步天然合成途徑,同時考慮到作為底盤宿主的大腸桿菌中不存在香豆酰輔酶A,XTMS給出了從內(nèi)源性化合物到樹莓酮的生物合成途徑。
PATHcre8可選擇藍藻為底盤宿主[53],預(yù)測從乙酰乙酰輔酶A到IPP、從甲羥戊酸到異戊二烯的生物合成途徑及從可卡因到偽雌二醇輔酶A(pseudoecgonyl-CoA)的生物降解途徑,并根據(jù)反應(yīng)熱力學(xué)可行性、途徑中的潛在毒性產(chǎn)物(化合物毒性)、競爭反應(yīng)消耗的途徑中的中間產(chǎn)物(產(chǎn)物消耗)以及拷貝數(shù)等指標(biāo)對途徑進行綜合評價,結(jié)果顯示從乙酰乙酰輔酶A到IPP的天然途徑在預(yù)測的前15條候選途徑之中,經(jīng)實驗驗證的基于磷酸異戊烯酯的(R)-甲羥戊酸到異戊二烯途徑在候選途徑中排名靠前,所預(yù)測的可卡因生物降解途徑為尚未經(jīng)過實驗測試的潛在異源降解途徑。
Ahsanul Islam等[68]利用ReactPRED和RetroPath2.0兩種工具對苯、苯酚和1,2-丙二醇的生物途徑進行預(yù)測,結(jié)合底物可行性和熱力學(xué)可行性兩個篩選指標(biāo),最終共獲得49條生產(chǎn)苯、苯酚和1,2-丙二醇的預(yù)測途徑,包含了從乙酸鹽、葡萄糖和丙酮酸鹽起始到苯、苯酚和1,2-丙二醇的106個反應(yīng),且25條預(yù)測途徑完全由新反應(yīng)組成,表明生物逆合成預(yù)測加速了潛在新反應(yīng)的發(fā)現(xiàn)。
BioNavi-NP[7]對倍半萜類衍生物Sterhirsutin J和戊二酸的生物合成途徑進行了預(yù)測,并結(jié)合底物相似性和途徑長度兩個指標(biāo)對候選途徑進行篩選,所得戊二酸的新生物合成途徑已被實驗驗證[69]。Lee等[67]利用Park等[70]報道的工具對短鏈伯胺的生物合成途徑進行了預(yù)測,結(jié)合底物相似性、反應(yīng)位點相似性、熱力學(xué)可行性、路徑距離及酶與底盤的適配性五個評價指標(biāo)對預(yù)測途徑進行排序,所預(yù)測異丁胺生物合成途徑在大腸桿菌中產(chǎn)量最高達到10.6 7g/L。Smolke等[71]利用BNICE.ch對那可丁衍生物的生物合成途徑進行了預(yù)測,通過化合物引用次數(shù)、相關(guān)專利數(shù)對候選衍生物進行篩選,并結(jié)合熱力學(xué)可行性、底物相似性、候選衍生物的生理功能對候選產(chǎn)物的預(yù)測途徑進行評價,最終得到了(S)-四氫巴馬汀、(S)-armepavine、(S)-laudanine和(S)-nandinine四種衍生物的候選途徑,并在釀酒酵母中成功地進行了途徑構(gòu)建。
微生物細胞工廠的設(shè)計不僅包括生物合成途徑的設(shè)計,途徑中所需的編碼基因在底盤宿主中表達時還需要一系列必要的轉(zhuǎn)錄和翻譯調(diào)節(jié)元件。這些元件將在一定程度上決定途徑中酶的表達活性,并進一步影響菌株的生長和目標(biāo)化合物的產(chǎn)量。因此需要對調(diào)節(jié)元件進行設(shè)計和優(yōu)化,以精確控制酶活性且提供途徑與底盤宿主的適配性,而人工智能的出現(xiàn)加速了元件從頭設(shè)計的研究,并使人工定制遺傳元件成為可能。由于真核生物轉(zhuǎn)錄和翻譯調(diào)控十分復(fù)雜,對調(diào)控元件的研究集中在原核生物,尤其是大腸桿菌表達體系。
啟動子是在轉(zhuǎn)錄水平調(diào)控基因表達的關(guān)鍵元件,可驅(qū)動對基因表達的調(diào)控。先前尋找新啟動子的研究主要集中在通過誘變或調(diào)控元件組合對已知啟動子進行改造并形成啟動子文庫,結(jié)合人工智能手段對啟動子的強度進行預(yù)測,以實現(xiàn)為細胞工廠提供不同轉(zhuǎn)錄強度的啟動子元件(圖4)。
圖4 啟動子的設(shè)計Fig.4 The design of the promoter
在大腸桿菌的啟動子設(shè)計研究中,SelProm[72]將擁有120個質(zhì)粒的BglBrick文庫中的誘導(dǎo)型啟動子替換為組成型啟動子,構(gòu)建了10種不同表達強度水平的組成型表達質(zhì)粒,覆蓋的表達強度水平中最弱為未誘導(dǎo)的PlacUV5的1/5.6 ,最強比誘導(dǎo)的Ptrc高4.3 倍,最強與最弱表達強度水平之差為156倍,以良好的分辨率提供了廣泛的表達水平?;谠摂?shù)據(jù),SelProm利用偏最小二乘回歸(partial least squares regression)算法建立了預(yù)測選擇模型,可對不同的質(zhì)粒成分參數(shù)(啟動子、抗性基因)下誘導(dǎo)型和組成型質(zhì)粒的表達強度水平進行預(yù)測,并推薦目標(biāo)表達強度水平相應(yīng)的誘導(dǎo)型和組成型啟動子,實驗結(jié)果驗證了啟動子推薦工具的有效性。此外,Deng等[73]基于易錯PCR技術(shù)對pTrc99a質(zhì)粒上的Ptrc啟動子進行誘變,產(chǎn)生了由3665個突變體組成的大腸桿菌人工啟動子文庫,所跨越的表達強度水平超過兩個數(shù)量級,最強的啟動子是1mmol/L IPTG誘導(dǎo)的PT7強度的1.52 倍。使用該合成啟動子庫作為輸入數(shù)據(jù)集,構(gòu)建并優(yōu)化了基于XGBOOST機器學(xué)習(xí)算法的啟動子強度預(yù)測模型,可對所設(shè)計的人工啟動子的轉(zhuǎn)錄強度水平進行預(yù)測,且經(jīng)比較發(fā)現(xiàn),理性設(shè)計的一百個人工啟動子的預(yù)測強度和實際強度十分接近(R2=0.88 ),從而驗證了XgBoost模型在啟動子表達強度的預(yù)測上的可靠性。
隨著啟動子突變體文庫的增多,越來越多的啟動子序列及其表達強度數(shù)據(jù)被公開報道,同時結(jié)合合成生物學(xué)及生物信息學(xué)領(lǐng)域的快速發(fā)展,啟動子的從頭設(shè)計成為可能。Wang等[74]基于生成對抗網(wǎng)絡(luò)(generative adversarial networks,GANs)從大腸桿菌天然啟動子中學(xué)習(xí)關(guān)鍵特征(k-mer頻率、-10和-35基序及其間距限制),以捕獲不同位置的核苷酸之間的相互作用,從而建立了大腸桿菌啟動子的從頭設(shè)計方法。人工啟動子可基于大腸桿菌中的啟動子活性和預(yù)測模型進行優(yōu)化,兩輪優(yōu)化后高達70.8%人工啟動子被實驗驗證了其調(diào)控轉(zhuǎn)錄水平的功能,且多數(shù)人工啟動子與大腸桿菌基因組在序列上具有正交性。此外,其中一些人工啟動子顯示出與大多數(shù)天然啟動子及其最強突變體相當(dāng)甚至更高的活性,表明深度學(xué)習(xí)的方法可以為細胞工廠的設(shè)計提供更廣泛的遺傳元件來源。
真核生物的啟動子設(shè)計研究報道較少,且集中于釀酒酵母表達體系,主要通過從釀酒酵母內(nèi)源啟動子中獲取保守的模體(motif),并對模體之間的間隔序列進行設(shè)計,得到大型人工啟動子文庫,并結(jié)合人工智能算法建立啟動子的預(yù)測模型。如Smolke等[75]以酵母內(nèi)源TDH3啟動子為研究對象,獲取了TDH3啟動子中轉(zhuǎn)錄因子結(jié)合位點、TATA框、轉(zhuǎn)錄起始位點等保守序列,對保守序列之間的間隔序列進行隨機設(shè)計,得到超過675000條基于TDH3啟動子的酵母人工啟動子文庫,測量了其中327000條序列的基因表達活性,并利用卷積神經(jīng)網(wǎng)絡(luò)算法建立了具有較高預(yù)測準(zhǔn)確性的人工啟動子表達強度預(yù)測模型。
對于原核生物而言,在翻譯水平上的調(diào)控主要通過核糖體結(jié)合位點(ribosome binding sit,RBS)的設(shè)計來實現(xiàn)。RBS Calculator[76]、RBSDesigner[77]、RedLibs[78]、PartsGenie[79]等工具可預(yù)測RBS序列的翻譯起始速率以估計給定mRNA序列的蛋白質(zhì)表達水平,并被用于設(shè)計符合所需翻譯起始速率的RBS序列。
例如,RBS Calculator[76]基于翻譯啟動階段關(guān)鍵分子相互作用的吉布斯自由能建立了平衡統(tǒng)計熱力學(xué)模型,通過將熱力學(xué)模型與隨機優(yōu)化方法相結(jié)合,可設(shè)計具有特定的翻譯起始速率或使得編碼序列具有盡可能高的翻譯起始速率的RBS序列,此外RBS Calculator還可以通過手動設(shè)計或復(fù)制強大的自然序列來設(shè)計比以前更強大的人工RBS序列。RedLibs[78]基于RBS Calculator可生成全局優(yōu)化的簡并RBS文庫,以減少RBS文庫中的冗余元件,且在文庫規(guī)模盡量小的情況下包括更多中等或高強度的RBS序列,所得的兼并RedLibs文庫中的核糖體結(jié)合位點樣本能夠以線性方式均勻覆蓋整個翻譯起始速率(rates for translation initiation,TIR)空間,充分滿足不同強度RBS序列的選擇需求。
此外,Ding等[80]將RBS的設(shè)計與生物傳感器相結(jié)合,利用DNA微陣列構(gòu)建了包含12000個RBS的葡萄糖酸生物傳感器,通過熒光激活細胞分選(FACS)檢測了生物傳感器中綠色熒光蛋白的熒光強度,利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對其中7053個RBS的七個特征(RBS的GC頻率,堿基A、T、C、G的頻率,SDn的GC頻率及SDm的GC頻率)進行訓(xùn)練,建立了可預(yù)測RBS序列表達強度的神經(jīng)網(wǎng)絡(luò)模型CLM-RDR,能夠快速確定與RBS序列對應(yīng)的生物傳感器的平均動態(tài)表達范圍及其序列特征(圖5)。
圖5 核糖體結(jié)合位點的設(shè)計Fig.5 The design of the RBS
在微生物細胞工廠的設(shè)計階段需要確定所構(gòu)建基因線路中啟動子、終止子、標(biāo)簽、整合位點、載體等元件的組合方式,使目標(biāo)途徑能夠發(fā)揮正常功能。在傳統(tǒng)實驗設(shè)計中由于不同特性的元件使得元件-途徑的組合空間變得十分巨大,組合優(yōu)化將使得實驗量呈現(xiàn)指數(shù)級增加,在缺乏高通量構(gòu)建平臺的情況下難以實現(xiàn),因此通常只能一次對某一類元件進行優(yōu)化(one factor/one variable at a time,OFAT or OVAT),但元件間的內(nèi)在聯(lián)系和約束使所獲取的組合方式只能達到局部最優(yōu)。實驗設(shè)計(design of experiments,DoE)是在生物工藝工程中廣泛應(yīng)用的高效探索大規(guī)模設(shè)計空間的系統(tǒng)方法,可以對組合空間進行優(yōu)化、壓縮,得到精簡的組合空間,進而為獲取全局組合優(yōu)化提供了可能。在代謝工程及生物制造領(lǐng)域,DoE被用于優(yōu)化實驗條件以提高目標(biāo)化合物產(chǎn)量(圖6)。
圖6 實驗設(shè)計Fig.6 Design of experiments
DoE可以對有不同取值(levels)的因子(factors)的組合空間進行評價,并通過一些代表性實驗來高效探索設(shè)計空間。DoE包括識別相關(guān)因子和對相關(guān)因子的取值組合優(yōu)化兩個過程。在微生物細胞工廠構(gòu)建過程中,啟動子、拷貝數(shù)、抗生素抗性等遺傳相關(guān)變量以及碳源、氮源、添加物等培養(yǎng)基相關(guān)變量均可以作為具有不同取值的因子。而與預(yù)測途徑及底盤宿主相關(guān)因子的識別和選擇依賴于先驗知識,其中在DBTL循環(huán)的早期階段,先驗知識較為匱乏,需要考慮較多的因子,并通過盡量少的DBTL的循環(huán)對設(shè)計空間進行精簡。不同因子組合要實現(xiàn)的典型優(yōu)化目標(biāo)包括目標(biāo)化合物產(chǎn)量的最大化(如增加得率、速率和產(chǎn)量)、使中間化合物毒性最小化等。
Carbonell等[81-82]基于R程序包planor和DoE.base先后采用了以啟動子強度、途徑中基因位置次序及質(zhì)粒拷貝數(shù)為因子和以底盤菌株和培養(yǎng)基組成為因子的方式對大腸桿菌中黃酮化合物(2S)-喬松素的產(chǎn)量進行優(yōu)化,將(2S)-喬松素的產(chǎn)量提高了500倍。Singleton等[83]結(jié) 合DoE軟件JMP Pro(SAS Institute Inc.USA)和人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN),在搖瓶和96孔板兩種生長環(huán)境條件下,將碳源、氮源、磷酸、維生素、氨基酸濃度等培養(yǎng)基相關(guān)變量作為因子,對熱葡糖苷土芽孢桿菌(Geobacillus thermoglucosidans)的發(fā)酵培養(yǎng)基組分進行優(yōu)化,實現(xiàn)熱葡糖苷土芽孢桿菌利用己糖單糖和二糖進行生長,并可產(chǎn)生乳酸或乙酸鹽。Radivojevi?等[84]結(jié)合機器學(xué)習(xí)和貝葉斯概率模型建立了自動推薦工具(Automated Recommendation Tool,ART),輸入組學(xué)數(shù)據(jù)或啟動子的組合可預(yù)測最終產(chǎn)量各種可能值的概率分布情況,同時基于逆向設(shè)計可提供使得目標(biāo)化合物產(chǎn)量最高的候選組學(xué)數(shù)據(jù)或啟動子組合,從而指導(dǎo)下一輪DBTL循環(huán)的實驗設(shè)計,但ART目前僅支持單目標(biāo)優(yōu)化。Jensen等[85]將上述ART算法與釀酒酵母GEM、機器學(xué)習(xí)算法相結(jié)合,以啟動子為因子對色氨酸(tryptophan)的生產(chǎn)進行優(yōu)化,最終滴度和產(chǎn)量分別提高74%和43%。
生物制造作為制造業(yè)可持續(xù)發(fā)展的重要方向受到人們越來越多的關(guān)注,而微生物細胞工廠是生物制造的有力手段。當(dāng)前持續(xù)積累的生物大數(shù)據(jù)極大地促進了計算機輔助設(shè)計工具的發(fā)展,對微生物細胞工廠的智能化設(shè)計將起到革命性的作用。本文依據(jù)細胞工廠在實際構(gòu)建中的先后次序?qū)毎S中生物逆合成途徑的預(yù)測與篩選、轉(zhuǎn)錄水平和翻譯水平上遺傳調(diào)控元件的設(shè)計、途徑與元件的組合優(yōu)化三個環(huán)節(jié)相關(guān)的智能設(shè)計工具進行了綜述。
在生物合成途徑的預(yù)測與篩選環(huán)節(jié),生物逆合成算法基于泛化的反應(yīng)規(guī)則擴展逆合成網(wǎng)絡(luò),并利用多種指標(biāo)對預(yù)測途徑的途徑可行性和底盤適配性進行綜合評價,給出最具實際可行性的推薦途徑,幫助人們進行已知途徑化合物的途徑優(yōu)化及提產(chǎn)和未知途徑化合物的途徑預(yù)測及設(shè)計。此外,蒙特卡洛樹等人工智能算法的引入為生物逆合成算法的發(fā)展提供了新的思路。但值得注意的是,當(dāng)前生物逆合成工具預(yù)測途徑的假陽性率仍然較高,其主要原因在于途徑評價算法不能充分模擬底盤宿主對途徑的選擇,如不能精確計算化合物對指定微生物宿主的毒性、未考慮化合物及酶的區(qū)室化對途徑表達的影響以及缺乏酶催化底物雜泛性數(shù)據(jù)等。目前AlphaFold2[86]和RoseTTAFold[87]的出現(xiàn)可實現(xiàn)基于序列預(yù)測蛋白質(zhì)晶體結(jié)構(gòu),為酶與底物的適配性問題提供了解決思路。
在遺傳調(diào)控元件設(shè)計環(huán)節(jié),主要研究對象是原核生物的啟動子和核糖體結(jié)合位點設(shè)計。對原核啟動子的設(shè)計主要從對已有啟動子進行改造(誘變、易錯PCR等)或從頭設(shè)計兩種手段獲取新啟動子,并基于啟動子調(diào)控的熒光蛋白的表達強度數(shù)據(jù)建立預(yù)測模型及人工啟動子庫,為所需表達強度提供推薦的啟動子序列。由于大腸桿菌等原核生物中啟動子的長度較短,一般小于150bp,而酵母等真核生物的啟動子較長,通常為數(shù)百個核苷酸,且調(diào)控機制更為復(fù)雜,因此開發(fā)適用于真核生物啟動子設(shè)計和表達強度精準(zhǔn)預(yù)測工具是遺傳調(diào)控元件設(shè)計的重要挑戰(zhàn)。此外,原核生物核糖體結(jié)合位點的設(shè)計主要基于熱力學(xué)模型,可計算RBS序列的翻譯起始效率,并提供推薦的RBS序列。值得注意的是,對這兩種遺傳調(diào)控元件進行設(shè)計的工具均很少考慮目標(biāo)序列的實際表達環(huán)境參數(shù)(菌株、pH、質(zhì)粒類型、標(biāo)簽等),減少了推薦的遺傳元件可靠性。
在途徑與元件組合優(yōu)化環(huán)節(jié),DoE方法簡化了遺傳元件與途徑的組合空間,可以在多輪迭代設(shè)計中優(yōu)化途徑表達及目標(biāo)產(chǎn)物的產(chǎn)量,但DoE方法難以充分考慮途徑設(shè)計及構(gòu)建中的相關(guān)因子,如底盤宿主中可能影響途徑表達的干擾因子,使得DoE推薦的組合方案具有一定的局限性。
此外,目前微生物細胞工廠相關(guān)的設(shè)計工具只能相對獨立地進行特定環(huán)節(jié)的設(shè)計,不能實現(xiàn)微生物細胞工廠的一站式自動化設(shè)計“流水線”,需要靠人力來完成各部分設(shè)計工具間的連接,因而不能有效地提高細胞工廠的設(shè)計效率,通過整合現(xiàn)有工具資源或創(chuàng)制新的工具、統(tǒng)一接口、建立標(biāo)準(zhǔn)化的自動化設(shè)計工作站,將是微生物細胞工廠智能設(shè)計的重要發(fā)展方向。