袁姚夢,邢新會,2,張翀
(1 工業(yè)生物催化教育部重點實驗室,清華大學化工系生物化工研究所,清華大學合成與系統(tǒng)生物學研究中心,北京100084; 2 清華大學深圳國際研究生院生物醫(yī)藥與健康工程研究院,廣東 深圳 518055)
以石油等不可再生化石資源為原料的傳統(tǒng)制造業(yè)面臨著“高能耗、高污染、高排放”等嚴峻挑戰(zhàn),亟需通過生產原料、加工過程和產品創(chuàng)制的綠色變革,實現(xiàn)未來的可持續(xù)發(fā)展。綠色生物制造以可再生資源為原料,利用生物催化和轉化過程,實現(xiàn)高附加值產品的綠色制造,由于其能夠實現(xiàn)工業(yè)制造模式從“末端治理”到“源頭控制”、從“低端產品”到“高值化轉化”的轉變,成為推動生物經濟發(fā)展的重要路徑之一。
微生物細胞工廠(microbial cell factories,MCFs)是綠色生物制造的核心環(huán)節(jié)。利用微生物強大且多樣的生化反應網絡,通過對代謝路徑的重塑和工程化,可以將微生物細胞改造為能夠以低價值可再生資源為原料生產各類產品的MCFs。從青霉素[1]、谷氨酸[2]、乙醇、1,3-丙二醇[3]、法尼烯[4]到阿片類藥物[5]等生物合成 MCFs 的成功開發(fā),展示了MCFs 合成高附加值化學品的巨大潛力。迄今為止,MCFs 已能夠生產抗生素、氨基酸、重組蛋白、生物能源[6]、生物塑料乃至“人造肉”,被廣泛應用于制藥、食品、能源和農業(yè)等領域[7-12]。
MCFs 的構建策略經歷了不同的歷史階段。在20 世紀90 年代之前,主要通過天然微生物的篩選和非理性誘變育種技術獲得目標產物高產菌株。這種將隨機突變和定向篩選相結合的策略在工業(yè)菌株的開發(fā)上已經有諸多經典成功案例[13-15]。然而,由于突變過程的隨機性,這種策略往往花費時間長、工作量大,是一種典型的“以時間(人力)換水平”的策略。盡管如此,由于其具有應用歷史悠久、操作簡單、適用范圍廣、屬于非轉基因操作等優(yōu)勢,非理性誘變育種策略至今仍然是微生物育種研究和產業(yè)應用的常用平臺技術。
20 世紀90 年代以來,隨著分子生物學、基因工程技術的逐步引入,代謝工程學科正式創(chuàng)立[16-17]。代謝工程利用重組DNA 技術對生物體中已知的代謝途徑進行有目的的設計,以更好地理解和利用細胞途徑,并對細胞內的基因網絡和調節(jié)過程進行調控和優(yōu)化,構建具有特定功能的MCFs,例如,提高現(xiàn)有產品的產率,生產新的產品和擴大可用的底物范圍[16-18]。按照代謝工程的理論框架,所構建的MCFs 需要滿足[19]:第一,通過對代謝網絡物質流和能量流的設計,實現(xiàn)底物消耗和目標產物生產的最優(yōu)化;第二,改造后的MCFs 能夠適應工業(yè)生產環(huán)境,滿足工業(yè)生產需求。
隨著分子生物學和反向遺傳工程手段的發(fā)展,人們對于微生物代謝網絡及其調控機制的認識得到了巨大的進步,然而,由于微生物系統(tǒng)的復雜性,仍然不能完全理性地設計滿足工業(yè)需求的MCFs。目前,利用代謝工程策略開發(fā)MCFs 的流程主要依靠“設計-構建-測試-學習”(design-buildtest-learning, DBTL)循環(huán)[20],通常從MCFs概念設計(proof of concept)到滿足實際應用,需要50~300人年和數(shù)億美元的投入[21],耗時耗力、投入高。在代謝工程MCFs 創(chuàng)制的DBTL 循環(huán)中,“理性設計”始終是人們的理想目標,也由此應運而生諸多代謝網絡模型和設計策略。然而,經典代謝工程指導的設計方法大多都基于已知的生物學知識,由于微生物代謝網絡中存在諸多可能對目標表型產生影響的未知因素,或稱為“生命暗物質”,這一手段仍然存在諸多局限[22-25]。生物信息學和各種組學技術的快速發(fā)展,使得研究者逐漸有能力從系統(tǒng)代謝工程的層次思考MCFs的快速創(chuàng)制,例如,基于全基因組改組技術[26]、新型誘變技術[27]、單敲除庫篩選技術[25]、基因組文庫共存/共表達(coexisting/coexpressing genomic libraries, CoGeLs)[28]等技術,結合組學和生物信息學手段獲取生物學知識,以進一步指導MCFs 的設計。這一理性/半理性結合的策略為突破知識局限,獲取更為高效的MCFs 提供了重要的手段,然而,系統(tǒng)代謝工程手段獲取知識的效率不高,MCFs 改造過程仍然需要耗費大量的時間和精力。
近年來,合成生物學的進步使得MCFs構建和測試的能力得到顯著提升,為提高構建效率以滿足市場快速變化和多樣的需求提供了重要的機遇。另一方面,二代測序(next generation sequencing,NGS)和基因組編輯的技術飛躍,使得從全基因組層次設計和構建MCFs成為可能。利用高通量研究技術,目前已經可以從全基因組層次并行研究微生物特定表型與基因型的關系,從而獲得大規(guī)模的基因型-表型關聯(lián)(genotype phenotype associations,GPA)數(shù)據(jù)集[29]。如果能夠利用這些大規(guī)模GPA 數(shù)據(jù)集,基于數(shù)據(jù)科學手段從全基因組范圍深度挖掘傳統(tǒng)分子生物學手段無法發(fā)現(xiàn)的未知關聯(lián)基因及其位點,將有可能從數(shù)據(jù)(學習)的角度繞開理性設計的知識瓶頸,為提高MCFs設計和創(chuàng)建效率提供全新的研究范式。此外,由于上述數(shù)據(jù)驅動的全基因組規(guī)模定制工程策略基因型搜索范圍更寬(全基因組),不依賴于現(xiàn)有知識(數(shù)據(jù)驅動),將有可能探索之前理性/半理性所無法達到的表型“高地”,獲得生產效率更為高效、生產性能更加優(yōu)越的下一代定制化MCFs。
本文將結合實際案例對MCFs的設計及構建策略進行綜述,首先回顧傳統(tǒng)誘變育種和代謝工程指導的理性/半理性設計策略,接著探討如何突破代謝工程經典框架限制,利用全基因組規(guī)模定制工程實現(xiàn)全基因組水平定制化MCFs的快速構建,最后將對這一新的MCFs 構建范式的未來進行展望(圖1)。
圖1 微生物細胞工廠(MCFs)設計和構建發(fā)展歷程及未來展望Fig.1 Development and future prospects of MCFs design and construction
誘變育種(mutation breeding)是在人為條件下,利用物理、化學、生物因素,誘發(fā)生物體產生突變,從中選擇、培育植物和微生物新品種的方法,長期以來在科學研究和生物產業(yè)中得到廣泛應用。誘變育種手段通常包括物理誘變、化學誘變和生物誘變[30](表1)。物理誘變主要采用電離輻射和非電離輻射等物理因素誘發(fā)變異;化學誘變主要利用烷化劑、堿基類似物、移碼誘變劑、脫氨劑和羥化劑等化學物質誘發(fā)變異;生物誘變主要包括噬菌體、質粒、DNA 轉座子誘變和原生質體融合、DNA 改組、基因組重排等能夠顯著提高基因重組頻率的誘變技術。誘變產生的突變隨機性大、且在全基因組范圍分布稀疏,存在大量的無義突變,因此,采用誘變育種技術獲得理想性狀的微生物往往花費時間長、工作量大,是一種典型的“以時間(人力)換水平”的策略。盡管如此,由于誘變育種技術采用非理性的手段,理論上不需要任何先驗的微生物代謝網絡結構及其調控的知識,對于沒有基因操作手段的微生物,或者具有非轉基因(non-GMO)需求的應用領域(如食品),在20世紀90年代之前一直被作為MCFs開發(fā)的最重要的手段,目前也仍然是微生物技術科研和發(fā)酵產業(yè)最為常用的育種手段之一。一個典型的例子是青霉素菌株的選育,1943年,研究者從霉甜瓜中分離得到一株產黃青霉NRRL-1951,其青霉素產量為60 mg/L,在長達50年的人工選育后,產黃青霉的青霉素產量已經達到70 g/L[31]。
近年來,多種新型誘變技術的發(fā)展也為誘變育種注入了新的活力。例如離子注入誘變、等離子體誘變等[30](表1),這些新的誘變技術具有突變率高、變異范圍廣、變異穩(wěn)定等優(yōu)點。離子注入誘變要求嚴格的真空環(huán)境和安全防護措施[30],其推廣使用受到一定程度的限制。近年來新發(fā)展起來的常壓室溫等離子體誘變技術(ARTP)作為新型物理誘變方法,具有突變率高、突變速度快、突變庫容大、安全性高、可控性好、操作簡單等優(yōu)點,在微生物誘變育種中得到廣泛的應用[27]。
20 世紀90 年代,隨著分子生物學的發(fā)展,微生物代謝網絡的物質流、能量流以及復雜的調控機制得到了更為深入的研究,基于生物學知識的理性設計作為代謝工程指導的經典設計策略逐漸被應用于 MCFs 構建領域。James E.Bailey[16]最早提出對代謝網絡進行理性設計,并利用基因工程的手段對其進行改造以實現(xiàn)代謝流量分布的優(yōu)化和目標產物產量的提升的設想。Stephanopoulos[17-18]進一步指出,微生物的代謝網絡中具有諸多“剛性”節(jié)點,能夠通過復雜的調控機制抵抗遺傳擾動帶來的通量變化。從代謝網絡分析的角度看,代謝網絡的理性設計面臨三個挑戰(zhàn)[18]:
表1 常見物理、化學、生物誘變技術匯總Tab.1 Summary of mutagenesis technologies
(1)識別代謝網絡中流量分配顯著影響產品合成的關鍵節(jié)點。多數(shù)工作僅調控位于產物合成途徑末端的反應,取得的成就十分有限。事實上,來源于中心代謝的合成前體、輔因子和能量供應對產物合成也具有重要的作用,識別其中的關鍵節(jié)點是顯著提高優(yōu)化效率的基礎。
(2)確定關鍵節(jié)點處最合適的基因改造類型。包括過表達目標產物合成途徑、抑制副產物生成酶活性、解除剛性關鍵節(jié)點的調控機制等。代謝網絡的流量分布需要嚴格而小心的調控,確定合適的流量調控類型和程度,是優(yōu)化MCFs的必要步驟。
(3)優(yōu)化中心代謝流量分布之后。需要識別產品合成途徑中所有的代謝控制位點并對其進行精準調控,同時對潛在競爭途徑中的酶活性加以平衡,以獲得產量提升、性能穩(wěn)定的MCFs。
在經典代謝工程領域,多種代謝網絡分析和設計方法的不斷提出和完善為代謝網絡的理性設計提供了理論和技術支撐(表2)。這些分析方法主要包括:動力學分析法,可用于細胞內酶促反應動力學模型的建立和分析;代謝網絡分析方法,可用于確定某一目標函數(shù)下代謝通量的唯一解或進行途徑分析,包括代謝通量分析、通量平衡分析和代謝途徑分析三類分析方法;整合了熱力學的代謝網絡分析,即以熱力學第二定律對所有代謝反應加以約束,例如網絡嵌入的熱力學分析(NET)。隨著計算技術的進步和更多代謝模型的建立,多種應變優(yōu)化算法及軟件得到逐步開發(fā)和應用,例如基于約束的重構與分析(COBRA)。
在此基礎上,研究者逐步闡明了大腸桿菌、谷氨酸棒桿菌、釀酒酵母等微生物的核心代謝網絡,并提出了一系列可用于通量平衡分析的化學計量學模型。早期代謝工程領域的代謝途徑設計幾乎都基于核心代謝網絡模型,隨著系統(tǒng)生物學的發(fā)展,基因組規(guī)模代謝重構(genome-scale metabolic reconstruction, GSMR)的概念最先在大腸桿菌中被提出[50],隨后,基因組規(guī)模代謝模型(genome-scale metabolic model,GSMM)的概念進一步推動了大量基因組規(guī)模實驗數(shù)據(jù)與數(shù)學建模的結合,增進了人們對于基因組規(guī)模代謝的理解[51-52],MCFs 的代謝模型構建規(guī)模也逐漸從核心代謝規(guī)模上升到基因組規(guī)模。Nielsen 和Palsson課題組首次提出了釀酒酵母的代謝模型,這也是真核生物第一個基因組規(guī)模代謝模型[53]。隨著NGS 技術、組學分析技術的快速發(fā)展,越來越多的微生物代謝模型被不斷提出和完善(表3)。
代謝網絡全基因模型及其計算機優(yōu)化模擬算法的開發(fā)極大地提高了人們對代謝網絡的設計和分析能力,這種從系統(tǒng)層次對微生物代謝網絡進行理性設計的系統(tǒng)代謝工程方法論逐漸成為MCFs改造領域的研究熱點。2011 年,Becker 等[73]通過基因組規(guī)模的計算模擬,僅通過12 處基因改造就將谷氨酸棒桿菌內的代謝流重新定向為合成L-賴氨酸的最優(yōu)途徑,該基因工程改造菌LYS-12 生產的L-賴氨酸滴度達到120 g/L,轉化率為0.55 g氨基酸/g葡萄糖,產率達到4.0 g/(L·h),以上指標均達到了過去50多年通過誘變育種獲得的最高水平,是第一個可與已有工業(yè)生產菌株競爭的基因工程設計的L-賴氨酸高產菌。然而由于模型預測準確性還亟待提高,基于該方法論的菌株開發(fā)策略仍然依賴于“設計-構建-測試-學習”的循環(huán)迭代(試錯)流程[20](圖2):首先利用系統(tǒng)生物學工具建立微生物的代謝模型,確定MCFs改進目標;接著利用基因工程手段進行菌株構建;對菌株進行表征,并結合高通量分析或組學分析等手段對目標參數(shù)進行評估;根據(jù)分析結果,對模型進行改進;重復迭代,直至獲得滿足需求性狀的目的MCFs。需要注意的是由于生物系統(tǒng)的多層次網絡結構及復雜性,基于系統(tǒng)層次的代謝網絡模型進行MCFs開發(fā)必須依賴已有的生物學知識。Sang Yup Lee 等[74]主張將進化代謝工程方法論也納入系統(tǒng)代謝工程方法論體系,通過將理性設計和非理性的隨機突變或適應性進化相結合,利用比較組學手段可以獲取與微生物代謝網絡結構及其調控相關的未知信息,從而進一步提高MCFs設計效率和性能。
表2 用于代謝網絡設計的分析方法Tab.2 Analytical methods for metabolic network design
理性/非理性設計指導的MCF 代謝工程改造策略在實際應用中已經取得巨大成功,表4匯總了其中一些代表性案例。然而,由于生物系統(tǒng)的復雜性和“生命暗物質”的普遍存在,目前代謝工程主流采用的“設計-構建-測試-學習”迭代試錯流程,通常從MCFs 概念設計(proof of concept)到滿足實際應用需求,需要50~300人年和數(shù)億美元的投入。近年來,市場快速變化且多種多樣的需求給MCFs 的開發(fā)效率提出了更高的要求。另外,基于理性/非理性的設計策略主要基于已知生物學知識,難以達到某些未知的表型“高地”,從而制約MCFs性能的進一步提升。因此,亟需開發(fā)更為高效的工程化策略以滿足未來快速定制化創(chuàng)制MCFs的需求。
表3 常見的微生物代謝模型匯總Tab.3 Summary of microbial metabolism models
微生物代謝及其控制是一個非線性復雜網絡系統(tǒng),細胞依靠其精巧的基因線路以及嚴格的調控機制來維持各項代謝活動的穩(wěn)定。按照“設計-構建-測試-學習”的框架,基于已有的知識,利用基因、啟動子、核糖體結合位點等分子元件能夠自下而上地在微生物細胞中進行基因線路的設計和構建,從而可望開發(fā)出具有特定功能的MCFs。然而,由于已有生物學知識的局限性,生物系統(tǒng)存在極高的不可預測性,導致設計的基因線路在實際體系中難以達到理想的目標。
事實上,隨著生物信息學和各種組學技術的快速發(fā)展,基因組范圍內大量的未知功能基因位點逐漸被人們所認知,包括潛在的別構調節(jié)區(qū)域[22]、復雜的轉錄調節(jié)網絡[23]、功能未知的基因[24-25]等。這些未知因素及其背后的生物學機制限制了現(xiàn)有基于知識的理性/半理性設計的MCFs工程化策略的進一步發(fā)展。為了在MCFs基因組范圍內挖掘對目標表型有重要影響的基因位點,系統(tǒng)代謝工程領域常利用非理性誘變及篩選手段獲得缺陷型菌株,再人為選定目的基因并對其測序,從而找到關鍵位點。同時,隨著分子生物學技術的發(fā)展,亦可通過單敲除庫篩選[25]、基因組文庫共存/共表達[28]、全基因組ORF表達水平調節(jié)[86]等技術的發(fā)展使得人們能夠挖掘基因組上功能未知的基因位點。例如,目前已經在大腸桿菌[87]、枯草芽孢桿菌[88]等模式微生物中對所有基因進行逐一敲除,形成包含數(shù)千個不同突變體的單基因敲除菌株陣列(single-gene knockout mutants array),為全基因組范圍的功能基因組學研究提供了黃金標準。然而,這些技術往往耗時耗力,成本高昂,且僅能研究全基因范圍內少數(shù)基因與目標表型的關聯(lián)(genotype phenotype associations,GPA),亟需通過新技術的引入大幅提升未知功能基因挖掘的效率。
圖2 菌株理性工程化的試錯流程Fig.2 Ⅰterative trial-and-error cycle of rational engineering of strains
表4 代謝工程指導的經典設計策略的商業(yè)化應用案例Tab.4 Commercial application of classic design strategies guided by metabolic engineering
為了更為高效地設計和構建MCFs,必須快速高效地挖掘基因組范圍內與目標表型相關聯(lián)的未知基因及其位點。近年來,高通量基因編輯技術和表型篩選技術的發(fā)展有可能為未來MCFs的構建范式帶來革命性的變革。在基因型方面,首先利用基因型高通量構建技術實現(xiàn)模式微生物全基因組范圍內基因的高效編輯、突變和表達水平調節(jié);在表型方面,利用表型高通量表征及篩選技術實現(xiàn)目標表型的高效表征和篩選;結合基因型高通量構建和表型表征/篩選獲得的大容量混合文庫樣本,利用新一代測序和數(shù)據(jù)統(tǒng)計分析手段,建立特定表型關聯(lián)基因及其位點GPA 數(shù)據(jù)集;最后,利用大規(guī)模GPA 數(shù)據(jù)集,結合深度學習等數(shù)據(jù)科學手段,基于數(shù)據(jù)科學手段從全基因組范圍深度挖掘傳統(tǒng)分子生物學手段無法發(fā)現(xiàn)的未知關聯(lián)基因及其位點,將有可能從數(shù)據(jù)(學習)的角度繞開現(xiàn)有理性設計的知識局限性,進一步指導高效MCFs 的構建,為提高MCFs 設計和創(chuàng)建效率提供全新的研究范式。以下將對這一研究范式涉及的不同技術環(huán)節(jié)進行概要介紹。
微生物的基因組改造(敲入、敲除和引入突變)最早是基于同源重組技術實現(xiàn)的。最為廣泛應用的Red/ET 同源重組技術利用單鏈DNA(singlestrand DNA,ssDNA)的重組實現(xiàn)基因組的改造,然而由于重組效率的限制,這一方法僅限于對單個基因進行串行操作,通量低,遠不能滿足全基因組范圍大量基因編輯的需求。2009 年,George M.Church 團隊提出了多重自動化基因組工程(multiplex automated genome engineering,MAGE)技術[89],通過對Red/ET 同源重組的參數(shù)進行優(yōu)化并提出一套自動化裝置,將單次ssDNA 重組效率提高到約30%。利用這一技術同時將靶向基因組上多個位點的ssDNA 文庫轉入細胞中,能夠實現(xiàn)基因型的大規(guī)模并行改造。2010 年,Ryan T. Gill 團隊提出了可追蹤多重重組技術(trackable multiplex recombineering,TRMR)[90],通過在引入的 DNA中插入特異性標簽(barcode),在實現(xiàn)基因組改造的同時,還可通過后續(xù)的標簽測序反向追蹤特定基因型。盡管MAGE 和TRMR 的出現(xiàn)極大地提高了微生物功能基因組學研究的通量,然而,高效同源重組工具只存在于少數(shù)模式微生物中,難以推廣到更多具有應用價值的非模式微生物中。
近年來,CRⅠSPR 基因編輯技術的飛速發(fā)展為更為便捷的基因組編輯帶來了新的機遇。CRⅠSPR-Cas 系統(tǒng)中的sgRNA 能夠特異性靶向目標DNA 序列,根據(jù)不同需要引入Cas 蛋白(及其突變體或具有特定功能的融合蛋白),就能夠實現(xiàn)目標基因的切割[91]、抑制[92]、激活[93]、編輯[94]和突變[95]。這類技術的可推廣性遠遠高于前述的同源重組技術,目前已經被證明適用于包括古細菌在內的十余種重要的模式微生物[96-104]。由于sgRNA 只有20 bp 長,其本身就可以作為目標基因的特異性標簽,實現(xiàn)混合文庫中特定基因型的反向追蹤。利用這一特性,結合DNA 合成和NGS 技術,能夠實現(xiàn)sgRNA 文庫的定制化合成和后續(xù)基于NGS 的低成本擴增子測序,從而極大地提高了功能基因組學研究的通量和便捷性。表5列舉了近年來開發(fā)的不同類型基因組高通量編輯技術及其應用特性。
盡管基于CRⅠSPR-Cas 系統(tǒng)的高通量基因組編輯技術極大地提高了基因型的構建能力,在表型關聯(lián)方面,現(xiàn)有研究主要以生長限制因素、耐藥性、溶劑耐受性等為篩選條件,基于不同基因型微生物生長適應性(fitness)的差異,通過連續(xù)傳代實現(xiàn)目的表型的篩選[29,86,90,108-110,114]。由于采用傳統(tǒng)的搖瓶或孔板培養(yǎng)進行傳代培養(yǎng),將會耗費大量的時間和成本,限制了基因型-表型關聯(lián)研究的效率。近年新發(fā)展起來的高通量微生物進化培養(yǎng)系統(tǒng)大幅提高了傳代效率,例如,Wong 等[115]開發(fā)的eⅤOLⅤER設備能夠同時大規(guī)模培養(yǎng)16種不同的微生物,其硬件、軟件和濕件的高度模塊化能夠實現(xiàn)配置的快速更改,以適應更多高通量、自動化連續(xù)培養(yǎng)實驗。本團隊自主開發(fā)的基于液滴微流控技術的“微生物微液滴培養(yǎng)儀”(microdroplet microbial culture,MMC),結合微流控技術和光電傳感與控制及自動化技術,可以實現(xiàn)微升級微生物液滴平行培養(yǎng)、生長曲線測定和適應性進化(通量102~104),對于典型的模式微生物如大腸桿菌、釀酒酵母、乳酸桿菌等,可實現(xiàn)穩(wěn)定傳代100代,大大提升了微生物底物利用能力、溶劑耐受性等表型樣本獲取的效率[116]。
表5 基因組高通量編輯技術Tab.5 High-throughput genotype construction technologies
除了基于耐受性的表型高通量篩選模型,近年來,還發(fā)展了一系列代謝物產量高通量篩選技術與裝備。代謝物細胞傳感器作為一類重要的合成生物學工具,能夠通過特定的轉錄因子、核糖體開關等識別元件響應細胞內特定代謝物的濃度,并將其轉化為熒光、抗逆生長等特定的輸出信號,在代謝物濃度表型表征方面得到廣泛應用。通過對天然識別元件進行鑒定或工程化改造,目前已經開發(fā)了不同的生物傳感器[117-120]。代謝物細胞傳感器與熒光激活細胞分選技術(FACS)相結合,可以將胞內代謝物濃度轉換為易于檢測的熒光信號,利用流式細胞儀可實現(xiàn)細胞的高通量表征及分選,目前已有諸多成功案例。然而,基于FACS的高通量代謝物檢測技術僅局限于胞內代謝物濃度的檢測,無法實現(xiàn)胞外代謝物的高通量檢測。為了解決這些問題,研究者提出了基于液滴微流控的高通量表型篩選方法,將微生物包覆在一個液滴之中進行培養(yǎng),再以液滴為單位進行胞外代謝物高產菌株的高通量篩選,表6列舉了具有代表性的代謝物高通量表型表征/篩選技術,包括熒光激活液滴分選(FADS)、基于液滴的熒光激活細胞分選(Droplet-FACS)、基于凝膠微液滴的熒光激活細胞分選(Gel FACS)、拉曼活化液滴分選(RADS)等。
需要注意的是,目前的表型高通量表征/篩選技術仍然局限于特定時間點的單一表型快照(snapshot)。如果能夠利用近年來快速發(fā)展的單細胞RNA 測序[128]、微生物原位高精度熒光顯微定位追蹤[129-131]等技術,使表型端能夠輸出高密度的時間序列信息,進一步結合合成基因線路[132],將輸出表型擴展為單細胞水平異質性等更為重要和豐富的類型,將進一步推動表型高通量表征和篩選技術的發(fā)展,大幅度提升MCFs 的工程化能力。
不同于陣列方法(array)對每個基因進行逐一敲除或過表達并進行單獨研究的策略,基于混合文庫篩選的方法通過高度平行化的實驗,對基因組范圍內的基因位點進行大規(guī)模的擾動,并檢測特定篩選條件下的表型變化,能夠實現(xiàn)功能基因的快速篩選。以基于CRⅠSPR 體系的混合文庫篩選方法為例,其基本原理是利用定制化設計和合成的sgRNA 文庫產生混合基因型文庫,并在特定的篩選條件下進行篩選,隨后利用NGS 技術對sgRNA 進行擴增子測序,根據(jù)測序結果分析篩選前后sgRNA 豐度的變化,從而獲得特定基因型與篩選條件的關系,進而繪制全基因組規(guī)模的GPA圖譜,實現(xiàn)未知功能基因位點的深度挖掘。
表6 微生物代謝物高通量表征/篩選技術Tab.6 High-throughput selection/screening technologies in single-cell level
目前,這一策略已經被逐漸引入到代謝工程領域并用于菌株工程化改造,其中的典型代表團隊是美國科羅拉多大學的Ryan T.Gill團隊。例如,他們利用CREATE 技術在大腸桿菌中針對19 個基因構建了庫容為16 300 的混合文庫,以賴氨酸類似物的競爭性抑制作為致死篩選條件,對賴氨酸代謝相關的基因進行了深度掃描,確定了lysP、argT和cadB等與類似物競爭性相關的基因[133]。利用類似的策略,該團隊先后實現(xiàn)了異丙醇[134]、3-羥基丙酸[135]、苯乙烯[136]等高產菌株的構建。本團隊利用CRⅠSPRi 技術首次在大腸桿菌中構建了靶向全基因組范圍的sgRNA 文庫,結合混合文庫篩選的策略CRⅠSPRi-seq,實現(xiàn)了大腸桿菌全基因組(4000 余個基因)范圍內必需基因、代謝網絡結構、與糠醛和異丁醇耐受性相關基因的快速篩選和鑒定[29]。對于CREATE 技術,其突變位點挖掘的分辨率在堿基層次,由于數(shù)據(jù)密度極高,受限于建庫和測序成本,目前只能實現(xiàn)部分基因的突變位點關聯(lián)分析,相比之下,本團隊開發(fā)的CRⅠSPRi-seq 方法分辨率在單基因層次,能夠實現(xiàn)全基因組范圍功能基因的高效挖掘。
如前所述,快速發(fā)展的NGS 技術和基因型-表型關聯(lián)技術使得目前能夠以較低的成本快速獲得大量GPA數(shù)據(jù)?;诖笠?guī)模并行實驗表征獲取的GPA數(shù)據(jù)集(103以上)為機器學習提供了高質量的注釋樣本,如何利用數(shù)據(jù)科學手段學習基因型-表型數(shù)據(jù)背后隱藏的“機制”或“規(guī)律”成為研究者日益關注的重要方向。目前,計算生物學領域已經發(fā)展了多種對不同層次的組學數(shù)據(jù)進行分析、挖掘和學習的算法[137]。結合豐富的組學數(shù)據(jù),機器學習算法被成功應用于通路動力學的預測[138]、酵母5′非翻譯區(qū)調控序列的研究[139]等。如果能夠充分利用大規(guī)模GPA數(shù)據(jù)集,依托數(shù)據(jù)科學手段從全基因組范圍深度挖掘傳統(tǒng)分子生物學手段無法發(fā)現(xiàn)的大量的未知關聯(lián)基因及其位點,將有可能從數(shù)據(jù)(學習)的角度繞開目前理性設計的知識瓶頸,實現(xiàn)定制化MCFs的快速、高效創(chuàng)制。
目前,機器學習手段在GPA數(shù)據(jù)的學習和利用方面還剛剛起步,相關研究還比較少。本團隊嘗試了小規(guī)模GPA數(shù)據(jù)在酵母MCFs構建中的應用。為了實現(xiàn)釀酒酵母中異源代謝途徑表達水平的快速優(yōu)化,我們提出了一種與酵母體內生物標準元件組裝策略相結合的機器學習工作流程(machine-learning workflow in conjunction with YeastFab assembly,MiYA)[140],應用人工神經網絡(artificial neural network,ANN)模型,以組合空間中2%~5%的數(shù)據(jù)為訓練集,成功預測了具有最優(yōu)表達水平組合的β-
胡蘿卜素和紫色桿菌素合成途徑。類似地,機器學習策略已經被用于指導構建生產特定風味物質的啤酒酵母[141]和色氨酸高產釀酒酵母菌株[142],展現(xiàn)出重要的應用潛力。此外,結合高通量基因組編輯和篩選技術,本團隊還報道了迄今為止在大腸桿菌中規(guī)模最大的sgRNA活性數(shù)據(jù)集,并利用機器學習手段建立了sgRNA序列影響活性的數(shù)學模型,可用于預測并優(yōu)化CRⅠSPR-Cas系統(tǒng)在大腸桿菌中的工作性能[143]。
MCFs 的設計和構建最終目標都是實際應用,市場需求快速多樣的變化對MCFs構建效率和性能的提升提出嚴苛的要求。如圖3所示,早期的誘變育種采取非理性手段進行MCFs 改造,是典型的“以時間(人力)換水平”的策略。隨著生物學知識的積累,經典代謝工程的發(fā)展使得對生物代謝網絡進行理性/半理性設計成為可能,以DBTL 循環(huán)為基本流程,MCFs 改造效率得到顯著提升。系統(tǒng)代謝工程的建立進一步使得研究者能夠結合組學和生物信息學手段獲取生物學知識,從系統(tǒng)層次進行MCFs 的設計,進一步加快MCFs 的構建效率。然而,由于微生物代謝網絡結構及其調控機制的復雜性和“生命暗物質”的廣泛存在,基于上述策略進行MCFs設計和構建的過程仍然需要耗費大量的時間和精力,且由于搜索的基因組空間有限,難以滿足工業(yè)生產不斷增長的表型“高地”需求。隨著高通量研究技術的發(fā)展,由數(shù)據(jù)驅動的全基因組規(guī)模定制工程化有望克服這些難題,通過將高通量技術在全基因組范圍基因型空間的挖掘與改造相結合,有望以更低的開發(fā)成本、更短的研發(fā)周期獲得生產效率更為高效、生產性能更加優(yōu)越的下一代定制化MCFs。
全基因組規(guī)模定制工程化MCFs作為全新的研究領域和范式,目前還處于萌芽階段。為了實現(xiàn)MCFs的定制化設計與構建,亟需解決如下兩個重要問題:
第一,高通量高質量GPA 數(shù)據(jù)的產生。基因型端的基因組編輯技術、測序技術發(fā)展較為成熟,而在表型端,由于測試目標和測試條件的復雜性,目前還無法彌補與大規(guī)?;蛐蜆颖局g的數(shù)據(jù)鴻溝。自動化技術和高通量新型表型表征技術的引入是解決這一問題的重要發(fā)展方向。近年來,國內外基于自動化機器人的BioFoundry 平臺建設方興未艾,單細胞質譜、單細胞RNA 測序等技術也在迅速發(fā)展,這些都將為跨越基因型-表型數(shù)據(jù)鴻溝,實現(xiàn)高通量高質量GPA數(shù)據(jù)供給提供重要機遇。
圖3 微生物細胞工廠設計和構建策略效率以及性能對比Fig.3 Comparison of MCFs construction efficiency and performance in different stages
第二,數(shù)據(jù)管理和學習。高通量和自動化技術在極大地提升數(shù)據(jù)獲取能力的同時將不可避免地帶來數(shù)據(jù)爆炸,這為數(shù)據(jù)存儲、數(shù)據(jù)標準化和數(shù)據(jù)共享帶來了挑戰(zhàn)。為了實現(xiàn)不同數(shù)據(jù)的共享和集成,迫切需要建立可查找、可訪問、可相互操作和可重復使用的工程生物學數(shù)據(jù)庫。此外,在如何利用GPA數(shù)據(jù)集指導定制化MCFs的設計和構建方面,亟需系統(tǒng)創(chuàng)建性能更優(yōu)的生物數(shù)據(jù)分析、挖掘、學習算法和工具,以充分發(fā)揮大規(guī)模數(shù)據(jù)的效力。近年來基于卷積神經網絡的深度學習算法、基于生成對抗網絡的生成學習算法都被逐漸應用到生物系統(tǒng)領域,需要加快這些算法在GPA數(shù)據(jù)集學習和利用方面的探索和應用。
生物產業(yè)是我國國民經濟的重要支柱,菌種是生物產業(yè)命脈所系,然而,我國菌種長期面臨國外技術壟斷、專利封鎖的困境,近年更是頻繁出現(xiàn)生物發(fā)酵產業(yè)核心菌種的國際知識產權糾紛。我們期待,如果能夠抓住全基因組規(guī)模定制工程化發(fā)展機遇,提升我國MCFs創(chuàng)新能力,將有可能在未來日益激烈的國際競爭中占領菌種創(chuàng)制的戰(zhàn)略制高點,實現(xiàn)我國生物產業(yè)的跨越式發(fā)展。
符號說明
BNICE——生化網絡集成計算瀏覽器(biochemical net?work integrated computational explorer)
COBRA——基于約束的重構與分析(constraint-based reconstruction and analysis)
CREATE——基于CRISPR 的可追蹤基因組工程(CRIS?PR-enabled trackable genome engineering)
CRISPR——規(guī)律成簇的間隔短回文重復(clustered reg?ularly interspaced short palindromic repeats)
CRISPRa——CRISPR激活(CRISPR activation)
CRISPRi——CRISPR干擾(CRISPR interference)
FACS——熒光激活細胞分選(fluorescence-activated cell sorting)
FADS——熒光激活液滴分選(fluorescence-activated drop sorting)
FBA——通量平衡分析(flux balance analysis)
GPA——基因型-表型關聯(lián)(genotype-phenotype asso?ciations)
GSMM——全基因組代謝模型(genome-scale metabolic model)
GSMR——基因組規(guī)模代謝重構(genome-scale meta?bolic reconstruction)
MAGE——多重自動化基因組工程(multiplex automat?ed genome engineering)
MCA——代謝控制分析(metabolic control analysis)
MFA——代謝通量分析(metabolic flux analysis)
MMC——液滴微流控培養(yǎng)(microdroplet microbial culture)
MOMA——最小化代謝調節(jié)(minimization of the meta?bolic adjustment)
MPA——代謝途徑分析(metabolic pathway analysis)
NET——網絡嵌入的熱力學分析(network-embedded thermodynamic analysis)
NGS——二代測序(next generation sequencing)
ODE——常微分方程(ordinary differential equation)
PHA——聚羥基鏈烷酸酯(polyhydroxyalkanoate)
RADS——拉曼活化液滴分選(raman-activated droplet sorting)
ROOM——開/關最小化調節(jié)(regulatory on/off minimi?zation)
sgRNA——向導RNA(single-guide RNA)
ssDNA——單鏈DNA(single-strand DNA)
TAM——靶向AID 介導的誘變(targeted AID-mediated mutagenesis)
TMFA——基于熱力學的代謝通量分析(thermodynamicsbased metabolic flux analysis)
TRMR——可追蹤多重重組(trackable multiplex recom?bineering)
YOGE——酵母寡核苷酸介導的基因組工程(yeast oligomediated genome engineering)