王晟,王澤琛,2,陳威華,陳珂,彭向達,歐發(fā)芬,鄭良振,,孫瑨原,4,沈濤,趙國屏
(1 上海智峪生物科技有限公司,上海 200030; 2 山東大學,山東 濟南250100; 3 中國科學院深圳先進技術研究院,廣東 深圳 518055; 4 中國科學院微生物研究所,北京 100101)
合成生物學是利用工程學原理和技術來設計、構建和優(yōu)化新的生物系統(tǒng),從而實現(xiàn)具有特定功能和性能的人工生物體系。在合成生物學中,人工智能(artificial intelligence, AI)與計算生物學(computational biology)是兩個重要的研究領域,它們可以為合成生物學提供強大的分析工具和模擬方法。下面是針對這些研究領域在合成生物學中的應用進行的系統(tǒng)分類和分析:
①元件設計和優(yōu)化 在合成生物學中,元件設計和優(yōu)化是非常重要的任務。元件設計可以通過人工智能或計算生物學加以實現(xiàn),從而實現(xiàn)更好的生物表達和更高的生產(chǎn)效率。例如,可以使用AI算法來設計優(yōu)化啟動子序列,從而提高目標基因的表達水平、降低副反應等等。同時,計算生物學方法也可以用來模擬和預測酶在不同環(huán)境下的表達水平和功能。
②代謝工程和合成途徑設計 代謝工程是利用基因工程技術來改造生物代謝途徑,從而實現(xiàn)高效的生產(chǎn)過程。人工智能可以通過分析大量代謝數(shù)據(jù),從而發(fā)現(xiàn)代謝網(wǎng)絡中的關鍵酶和代謝路徑。計算生物學方法也可以用來模擬和預測代謝途徑在不同條件下的表現(xiàn),從而幫助優(yōu)化代謝工程的設計。
③模擬和預測生物系統(tǒng) 人工智能和計算生物學方法可以用來模擬和預測生物系統(tǒng)的行為和表現(xiàn)。例如,可以使用AI算法來預測基因調控網(wǎng)絡的行為,并確定基因調控因子對基因表達的影響。計算生物學方法也可以用來模擬代謝途徑的運行和產(chǎn)物生成。
④感知和控制 合成生物學中的感知和控制是指設計和構建生物感知器和生物控制器,以便實現(xiàn)對環(huán)境的感知和對生物行為的控制。人工智能和計算生物學方法可以用來設計和優(yōu)化這些生物感知器和生物控制器。綜上所述,人工智能和計算生物學在合成生物學中扮演了非常重要的角色,它們可以用來設計、優(yōu)化和控制生物系統(tǒng),以實現(xiàn)特定的功能和性能。這些技術的應用有助于推動生物技術和生物醫(yī)藥領域的發(fā)展。本文將重點集中討論人工智能與計算生物學在合成生物學元件設計中的應用。
生物元件是合成生物學中基本要素之一,是合成生物學的基石[1]。生物元件是指遺傳系統(tǒng)中最簡單、最基本的生物積塊(BioBrick),是具有特定功能的氨基酸或者核苷酸序列,可以在更大規(guī)模的設計中與其他元件進一步組合成具有特定生物學功能的生物學裝置(device)。目前標準生物元件既包括啟動子、終止子、轉錄單元、質粒骨架、接合轉移元件、轉座子、蛋白質編碼區(qū)等DNA序列,也包括核糖體結合位點等RNA序列以及蛋白質結構域。目前,生物元件的挖掘鑒定和改造是合成生物學領域的一個重要研究方向(圖1)。
圖1 基于人工智能和計算生物學的合成生物學元件設計Fig.1 Design for synthetic biology components based on artificial intelligence and computational biology
隨著計算生物學方法,尤其是相關人工智能技術的快速發(fā)展,在合成生物學領域中,使用計算方法進行合成生物學元件設計已經(jīng)成為常用的工程設計思路[2]。人工智能技術基于海量數(shù)據(jù)的持續(xù)學習能力和在未知空間的智能探索能力,有效地契合了當前合成生物學工程化元件設計的需求。盡管生命體很復雜并且未被完全理解,但是人工智能技術可以找到很多突破口,顯著改變合成生物學工程的效能[3]。計算生物學技術在合成生物學領域已經(jīng)有廣泛的應用:在催化元件設計領域,其應用主要包括酶的從頭設計、酶的選擇性改造、酶的穩(wěn)定性改造;在感應元件設計領域,包括酶、多肽蛋白、抗體、適配體等的設計[4];在調控元件領域,則包括一系列RNA調控元件(基于天然元件改造或人工構造的RNA調控元件)、DNA順式調控元件(主要包括啟動子、增強子、終止子、沉默子、絕緣子等)、DNA反式調控元件(編碼轉錄因子的序列)等[5]。本文綜述了近年來基于AI與計算生物學的不同類型的元件設計前沿進展,在此基礎上提煉歸納AI與合成生物學兩大領域交叉融合所面臨的挑戰(zhàn),并對未來基于AI和計算生物學的合成生物學元件設計進行展望,有望為未來基于AI和生物計算的合成生物元件設計提供借鑒。
酶催化了生物體內的化學反應,對生命的關鍵過程如DNA復制、蛋白質合成、物質代謝和能量供給都至關重要。酶往往以催化元件的形式出現(xiàn)在合成生物學中。獲取新酶是構建生命體中新反應、組合新途徑進而合成新生命的基礎。同時改造酶的選擇性和穩(wěn)定性是合成生物學在工業(yè)和醫(yī)療相關領域應用的迫切需求。隨著基于AI與計算生物學的催化元件設計獲得的突破性進展,合成生物學中催化元件的獲取方式將發(fā)生根本性的變革。本節(jié)從酶的從頭設計、選擇性改造和穩(wěn)定性改造三個方面,分別綜述了傳統(tǒng)計算生物學方法和基于人工智能(AI)方法的新進展。
傳統(tǒng)的計算生物學和生物物理方法主要包括分子對接、分子動力學(molecular dynamics simulation,MD)、以Rosetta[6]為代表的計算工具,以及基于進化信息的統(tǒng)計方法,被廣泛用于蛋白質設計和酶工程。針對合成生物學中重要的催化元件(例如酶),利用這些方法已經(jīng)發(fā)展了一些設計策略,成功進行了酶的從頭設計、酶的選擇性改造和穩(wěn)定性提升。由于發(fā)展較早,已經(jīng)有一些成熟的方法被開發(fā)成可公開使用的在線服務(表1)。
表1 基于計算生物工具的在線服務器Table 1 Online servers based on computational biology tools
1.1.1 從頭設計
從頭設計可以得到催化自然界尚未觀察到的生化反應的酶,這對擴展合成生物學的化學反應邊界有重要的意義。天然酶可能會受到代謝網(wǎng)絡進化產(chǎn)生的一些調控,從頭設計這些酶也可以將其與底盤細胞解耦合。Kemp消除作為從碳上轉移一個質子的模式反應[圖2(a)],其過程中被廣泛研究。然而并沒有發(fā)現(xiàn)一種能夠催化該反應的酶,因此也被作為了一個從頭設計酶催化劑的目標。針對Kemp消除酶的設計,David Baker課題組[14]首先設計了兩套活性中心,分別使用天冬氨酸或谷氨酸作為廣義堿,或使用組氨酸作為廣義堿(與天冬氨酸形成二聯(lián)體)作為催化位點。另外設計氫鍵供體來穩(wěn)定中間體的酚羥基負電,額外設計了π-π堆積來形成電子離域,進一步穩(wěn)定整個體系,利用量子力學(QM)計算優(yōu)化了催化位點的構象,作為理論酶。在獲得理論酶結構后,使用RosettaMatch計算工具,對PDB數(shù)據(jù)庫中挑選出的部分適合作為骨架的蛋白嘗試基于幾何的骨架匹配,在完成匹配之后進行序列設計,進一步優(yōu)化嫁接了活性位點后蛋白的序列,穩(wěn)定催化構象,最終獲得了8個具有可檢測活性的Kemp消除酶[14]。這種先設計活性位點后設計骨架蛋白的方法被稱為“inside-out”策略。使用這一策略,Baker課題組還針對非天然底物4-羥基-4-(6-甲氧基-2-萘基)-2-丁酮設計了催化Retro-Aldo反應的酶[圖2(b)]。Retro-Aldo作為碳碳成鍵的關鍵反應,其催化過程較為復雜,但是使用“inside-out”策略仍然在72設計的序列中獲得了32個具有可檢測活性的酶[15]。
圖2 基于計算生物學的催化元件設計(a)Kemp消除反應機制;(b)Retro-Aldo反應機制;(c)分支酸變位酶催化機制;(d)檸檬烯環(huán)氧水解的兩種不同的近攻擊態(tài)構象示意圖,左側為pro-RR,右側為pro-SS,結構示意圖修改自文獻[17];(e)能量不利的未飽和氫鍵供體示意圖,結構為IsPETase(PDB ID:5XJH),一個水分子和W159已經(jīng)占據(jù)了H237的羰基可以形成的氫鍵(圖中黃色虛線),T183的側鏈羥基距離更遠,難以形成氫鍵;(f)分組貪婪疊加策略示意圖Fig.2 Design of the catalytic components based on computational biology(a) Kemp elimination reaction mechanism.(b) Retro-Aldo reaction mechanism.(c) Mechanism of branching acid translocase catalysis.(d) Schematic diagram of two different near-attack state conformations of limonene epoxide hydrolysis with pro-RR on the left and pro-SS on the right, which were modified from reference [17]with permission.(e) Schematic diagram of the energetically unfavorable unsaturated hydrogen bond donor with the structure of IsPETase (PDB ID: 5XJH), where a water molecule and W159 already occupy the hydrogen bond that can be formed by the carbonyl group of H237 (yellow dashed line in the figure), and the side chain hydroxyl group of T183 is much further away and difficult to form a hydrogen bond.(f) Schematic diagram of the grouped greedy stacking strategy
除了inside-out策略,Ranganathan課題組[16]還發(fā)展了基于統(tǒng)計模型的酶從頭設計方法,設計了分支酸變位酶[圖2(c)]。利用序列數(shù)據(jù)庫中的天然分支酸變位酶序列的MSA進行直接耦合分析(direct coupling analysis, DCA),基于統(tǒng)計模型生成了一系列人工設計的序列,這些序列中有部分可以達到和天然酶相當?shù)拇呋阅堋?/p>
1.1.2 選擇性改造
在當下的合成生物學應用中,根據(jù)需求恰當改造已有天然酶成為底盤中合適的催化元件是一個重要的需求?;谟嬎惴椒ǖ母脑炜梢越o出較小的突變體庫,減少篩選的數(shù)量和時間,同時還可以實現(xiàn)較大的功能躍遷,也可以避免定向進化中可能出現(xiàn)的局部最優(yōu)解。Janssen課題組[17]結合RosettaDesign、分子動力學模擬和對水分子進攻構象的限制[圖2(d)],實現(xiàn)了對檸檬烯環(huán)氧化物水解酶催化立體選擇性的精確設計[17]。在計算的過程中,首先針對期望得到的立體選擇性,放置底物在活性口袋內的靜態(tài)的結構,使用RosettaDesign進行一輪序列設計來穩(wěn)定活性中心的期望結構,再利用分子動力學模擬,增加對構象的采樣,利用接近催化構象的幾何構象出現(xiàn)頻率定量預測立體選擇性,最終獲得了(R,R)和(S,S)對映體過量分別為85.5%和90.2%的突變體。天冬氨酸裂解酶(AspB)是已知選擇性最嚴謹?shù)拿钢?,天然功能只能催化天冬氨酸的脫氨,也可催化其逆反應以富馬酸和氨作為底物的氫胺化。吳邊課題組[18]結合RosettaDesign針對不同底物設計序列和分子動力學模擬采樣近似攻擊態(tài)頻率作為進一步的篩選條件,重新設計了天冬氨酸裂解酶AspB的底物譜,通過改造底物天冬氨酸的主鏈氨基結合區(qū)域,實現(xiàn)了針對多種不飽和酸的β-氫胺化反應[18]。
在此基礎上,進一步改造了氨的結合口袋,獲得了可以利用多種氨基供體和受體的一系列氫胺化酶[19]。Fleishman課題組[9]利用進化信息和Rosetta能量函數(shù)的打分提出了Funclib策略,實現(xiàn)了多樣化的酶庫設計。該方法利用MSA中獲得的口袋位點保守性限制,作為序列組合的采樣庫,使用Rosetta能量函數(shù)對所有組合進行打分,選取打分能量穩(wěn)定的進行實驗表征,獲得了能水解一系列神經(jīng)毒素的酶庫,且活性和可溶性表達相比于作為親本的野生型均有提升。
1.1.3 穩(wěn)定性改造
在和工業(yè)生物催化相關的應用和抗體等治療性蛋白的應用中,往往需要蛋白質滿足一定的穩(wěn)定性。但是天然進化的酶往往不能夠耐受高溫、高鹽或高濃度的有機溶劑,因此迫切需要快速提升穩(wěn)定性且不損失其活性的方法。同時,改造酶的選擇性等性質往往也需要一個穩(wěn)定的骨架來容忍活性提升突變帶來的可能的穩(wěn)定性損失[20]。
計算設計通過給出少量的突變體庫,易于表征,且往往能夠通過少量突變大幅度提升溫度穩(wěn)定性。Damborsky課題組[21]提出了FireProt策略結合MSA中的保守性打分和Rosetta能量函數(shù)打分來設計更加穩(wěn)定的組合突變體,成功將鹵代烷脫鹵酶的熔融溫度(melting temperature,Tm)提升了25 ℃,將γ-六氯環(huán)己烷脫氯化氫酶的Tm提升了21 ℃。Janssan課題組[22]提出了FRESCO策略,通過利用FoldX[23]和Rosetta的ddg_monomer計算單點突變的折疊自由能變的差值(ΔΔG),同時結合YASARA軟件設計二硫鍵,隨后利用MD檢查突變前后突變區(qū)域的柔性,排除柔性顯著增加的位點,將檸檬烯環(huán)氧化物水解酶的Tm提升了35 ℃,將肽酰胺水解酶的Tm提升了23 ℃,且大幅度提高了有機溶劑耐受性[24]。吳邊課題組[25]通過結合三種基于結構的ΔΔG計算工具(FoldX、Rosetta、ABACUS)和基于高溫同源序列的保守性分析,輔助基于經(jīng)驗規(guī)則的突變結構目檢,例如,不能在蛋白質非表面區(qū)域引入不參與氫鍵的氫鍵供體[圖2(e)],以排除計算結果中不合理的突變設計,設計了可能提高Tm的71個突變體,獲得了21個Tm提升超過1.5 ℃的突變體,并且提出了分組貪婪疊加策略[圖2(f)],找到了可規(guī)避突變體中的負上位效應的疊加方法,成功改造了PET塑料水解酶IsPETase的溫度穩(wěn)定性,將Tm提升了31 ℃,大幅度延長了中溫條件下塑料降解酶的半衰期[25]。此外,在另一個名為PROSS的算法中,研究人員通過在維持突變位點的共進化規(guī)律的同時通過Rosetta計算降低蛋白質ΔΔG的情況下,可以有效提升蛋白質的熱穩(wěn)定性和可溶性[8]。以上這些研究指出了共進化信息和基于計算的折疊自由能變的差值對于設計提升酶的熱穩(wěn)定性和其他性質有非常好的指導意義。
機器學習和深度學習方法已經(jīng)被廣泛用于計算生物學領域,在蛋白質折疊、RNA結構預測、復合體親和力預測以及各種生物圖像分析中均有廣泛應用。機器學習算法利用已有數(shù)據(jù)總結規(guī)律并對未知標簽數(shù)據(jù)進行預測,例如貝葉斯模型、邏輯回歸、支持向量機、隨機森林等算法也被廣泛應用于生物數(shù)據(jù)建模。在已有數(shù)據(jù)(表2)的支持下,機器學習算法已經(jīng)應用于合成生物學中催化元件的生成與改造。深度學習模型往往對大規(guī)模生物數(shù)據(jù)建模具有更大的優(yōu)勢,而且在合成生物學元件設計領域應用方興未艾。
表2 可用于機器學習模型訓練的數(shù)據(jù)庫Table 2 Databases available for machine learning model training
1.2.1 從頭生成
深度學習模型在生成式任務上有一定的優(yōu)勢,在圖像、語音、文本的合成上有廣泛應用。對抗生成網(wǎng)絡(generative adversarial network, GAN)作為一種生成式模型,通過同時訓練生成樣本的生成器和判別樣本真假的判別器來達到生成以假亂真的樣本的效果。Zelezniak課題組[35]提出了基于GAN的ProteinGAN模型,生成器和判別器均使用了卷積神經(jīng)網(wǎng)絡,利用注意力機制和膨脹卷積來捕捉序列的長距離依賴關系。將ProteinGAN在細菌來源的蘋果酸脫氫酶序列數(shù)據(jù)上進行了訓練,通過選取生成序列中與天然序列相似度為40%~100%的候選序列進行實驗表征,鑒定了16條具有蘋果酸脫氫酶活性的序列。相比于生成同家族的序列,按功能需求生成全新的酶更具有挑戰(zhàn)性也有更廣闊的應用空間。Baker課題組[36]結合在結構預測領域獲得成功的RoseTTAFold,提出了RFjoint方法,即利用結構預測模型同時生成序列和結構。RFjoint提供了兩種生成策略:第一種以隨機序列為出發(fā)點,預測結構后計算和目標結構片段的損失函數(shù),利用梯度更新序列或者利用蒙特卡洛采樣序列,這種方式稱為幻想(hallucination);第二種通過在結構預測的訓練任務上額外添加序列補全的任務,RFjoint能夠在給定部分結構片段的情況下生成完整的蛋白質結構,這個過程稱為修復(inpainting)。由于給定活性中心(幾個氨基酸)生成完整的骨架(幾百個氨基酸),導致了包含側鏈構象的損失函數(shù)產(chǎn)生了過于崎嶇的采樣空間,使用“修復”和“幻想”方法均不能夠很好地直接生成結構,因此采取了分步設計的策略,先借助不建模側鏈的結構預測工具trRosetta生成主鏈空間[37],再使用具有側鏈生成能力的AlphaFold2生成了完整的序列和結構。作者測試了碳酸酐酶和Δ5-3-酮類固醇異構酶,在結構預測測試中均顯示了設計和預測結構的一致性。在已有的主鏈結構上,通過固定活性位點的氨基酸類型,以Baker課題組提出的ProteinMPNN為代表的序列生成模型也可以用于全新的催化元件設計[38],這類方法生成的酶序列在AlphaFold的結構預測的測試上表現(xiàn)出較高的成功率。深度學習模型在催化元件的從頭生成展現(xiàn)出了巨大的潛力,但是在未來的一段時間仍然需要更多的實驗驗證。
1.2.2 選擇性改造
酶的選擇性改造涉及酶蛋白和底物分子的相互作用,基于力場的方法往往能夠捕捉局部的相互作用,做出正確的設計,然而為了減小計算量,力場通常會設置相互作用的截斷半徑,超過范圍的突變產(chǎn)生的影響會被忽略,但是已經(jīng)有大量的定向進化實驗證明,遠距離的突變能夠顯著影響選擇性和活性,因此利用機器學習模型建模高階相互作用的能力改造選擇性能夠克服傳統(tǒng)方法的弊端。Shimizu課題組[39]提出了一種利用邏輯回歸和系統(tǒng)發(fā)育分析來估計每個氨基酸殘基對底物特異性貢獻的方法,以大腸桿菌的蘋果酸脫氫酶作為模式酶,證明這種方法能夠改變蘋果酸脫氫酶對輔因子NAD+和NADP+的選擇性。司同課題組[40]結合機器學習模型和貝葉斯優(yōu)化,開發(fā)了BO-EVO,通過迭代的自動化實驗與機器學習,高效搜索蛋白質組合突變空間,理論上將實驗量大大降低。通過應用BO-EVO方法,將鼠李糖酯合酶RhlA對含有C8底物的特異性提升了4.8倍。隨著蛋白質-小分子相互作用模型的逐漸完善,可以期待機器學習模型未來在選擇性改造上可以更好地利用目前大量的高精度蛋白質結構數(shù)據(jù)。
1.2.3 穩(wěn)定性改造
目前有大量基于機器學習的蛋白質突變穩(wěn)定性預測方法被開發(fā)出來,有部分算法已經(jīng)接受了實驗的檢驗并且獲得了顯著的成果。Ellington實驗室[41]開發(fā)了基于3D卷積神經(jīng)網(wǎng)絡的MutCompute算法用于單點突變預測。MutCompute將三維空間劃分為20×20×20的體素(voxel),用蛋白質的全原子模型填充體素對應的通道并將中心氨基酸排除在輸入特征之外,訓練模型預測輸入中缺少的中心氨基酸的類型。Alper課題組[42]利用MutCompute改造了塑料降解酶PETase,改造后的Fast-PETase可以在50 ℃下48 h內將未經(jīng)處理的PET包裝盒幾乎完全降解,并且實現(xiàn)了廢棄塑料的降解后重新聚合。由于依賴結構的穩(wěn)定性改造方法優(yōu)于基于序列的方法,F(xiàn)leishmank課題組[43]利用基于深度學習的trRosetta預測了過氧化物酶的結構,基于預測的結構應用前期開發(fā)的PROSS策略穩(wěn)定且功能多樣的多功能過氧化物酶。目前已經(jīng)有比較多的基于深度學習和機器學習的穩(wěn)定性預測模型,其中很多在一些數(shù)據(jù)集上接近或者超過了Rosetta和FoldX的ΔΔG預測精度,但是這些算法在未知蛋白質熱穩(wěn)定性預測上的穩(wěn)健性仍需要驗證。
基于機器學習與計算生物學的合成生物學催化元件設計仍面臨許多挑戰(zhàn)。機器學習主要面臨數(shù)據(jù)數(shù)量不足的問題:由于生化表征的昂貴性,目前可用于催化元件設計的數(shù)據(jù)量有限,需要利用高通量的實驗方法獲取更多的數(shù)據(jù)。此外,現(xiàn)有數(shù)據(jù)可能存在噪聲和偏差,需要進行適當?shù)念A處理和清洗。計算生物學主要面臨結構的多尺度計算問題:酶對催化的影響是多尺度的,分子力場通常只能描述到原子水平,對電子水平的影響是無法表現(xiàn)的。量子化學計算方法的計算代價過大,難以用于大量突變體的預先計算。
隨著數(shù)據(jù)集和計算資源的不斷增加,機器學習和計算生物學方法將成為合成生物學催化元件設計的有力工具。針對數(shù)據(jù)數(shù)量的問題,利用高通量實驗增加數(shù)據(jù)量或利用預訓練模型降低對數(shù)據(jù)量的需求。針對結構多尺度計算的問題,目前基于機器學習的分子動力學方法有望解決速度與精度的取舍問題[44]。這將促進催化元件的設計和合成,以實現(xiàn)更高效、更可持續(xù)和更具針對性的生物工程應用。
基因調控是基因表達時控制表達的基因類別及表達的時間、位置和表達量的過程。通過基因調控機制,功能上相關但表達方式各異的一組基因得以協(xié)調一致、共同表達。在生命體生長發(fā)育全過程中,這種協(xié)調表達能使生物更好地適應環(huán)境,維持生長發(fā)育。基因調控可以通過對DNA分子本身的修飾,以及對轉錄和翻譯過程的控制來實現(xiàn)。天然基因調控機制復雜,涉及不同分子類型的多種元件,如啟動子、增強子等DNA元件,以各種轉錄因子為代表的蛋白質元件,在某些機制中還涉及RNA元件,例如抑制翻譯的反義RNA[45]和激活翻譯的小RNA[46]。
DNA相關的調控元件可以分為順式調控元件與反式調控元件。前者涉及啟動子、增強子、終止子、絕緣子、沉默子等DNA元件;后者主要涉及轉錄因子。
2.1.1 DNA順式調控元件
人類基因組包括2萬個蛋白質編碼基因,基因突變會導致疾病的產(chǎn)生。然而,基因在人類基因組中的比重不到2%,基因組的大多數(shù)區(qū)域不編碼蛋白質。曾經(jīng)很長一段時間內,人們認為基因組的非編碼區(qū)域是無用的,現(xiàn)在我們知道基因組的大部分非編碼區(qū)域包含著不同的非編碼調控元件(non-coding regulatory element,NCRE)。據(jù)統(tǒng)計,超過90%的疾病相關序列變異位于基因組的非編碼部分,這表明了NCRE對細胞正常生理活動的重要性[47]。NCRE控制著基因的轉錄,目前一般認為,轉錄的起始階段是基因表達全過程調控中最重要的環(huán)節(jié)。
DNA順式調節(jié)模塊(cis-regulatory module,CRM)是一段長度為100~1000個堿基對、可影響自身基因表達活性的DNA序列。CRM本身不參與任何蛋白質的編碼,而是通過與轉錄因子結合來調節(jié)基因轉錄。它們包括啟動子、增強子、終止子、沉默子、絕緣子以及其他參與調控基因表達的片段(圖3)。由于它們通常與控制的基因位于同一DNA鏈上,因此被稱為順式調控元件。
圖3 順式調控元件Fig.3 Cis-regulatory elements
隨著基因組學技術的發(fā)展,研究者對順式調控元件的探索逐漸深入,并逐步豐富調控元件的功能注釋,表3中展示了一些收集順式調控元件的數(shù)據(jù)庫。
表3 順式調控元件相關的數(shù)據(jù)庫Table 3 Databases for cis-regulatory elements
然而,人類對基因組的探索仍然處于起步階段。對于順式調控元件在合成生物學中的應用而言,相比于從頭設計,在天然細胞中對天然順式作用元件的識別仍然是探索新調控元件的主要途徑。通過實驗識別調控元件序列、監(jiān)測其活性強度及作用機制需要較高的時間和經(jīng)濟成本。由于DNA序列特征的高度多樣性和轉錄調控的組織特異性,通過計算手段精確識別調控元件也是一項具有挑戰(zhàn)性的任務[59]。2020年,Zrimec等[60]構建了一個深度學習網(wǎng)絡,直接從天然DNA序列中預測基因表達水平,在7種生物體中實現(xiàn)了較高的準確性,表明了在原核生物和真核生物中,基因表達水平不是由單獨的編碼區(qū)域和順式調控元件決定,而是由整個基因調控結構共同決定的。2021年,Umarov等提出了ReFeaFi方法,該方法包含兩個深度學習模型,第一個模型用于掃描基因組并識別假定的調控區(qū)域,另一個模型確定轉錄起始位點,展現(xiàn)了深度學習在全基因組調控元件預測的潛力。2022年,Zrimec等[61]又設計了一個生成對抗網(wǎng)絡(GAN)來生成預先指定的mRNA水平的DNA調控元件。值得肯定的是,機器學習尤其是深度學習在基因組學和合成生物學領域的應用,為調控元件的識別、活性強度預測、元件從頭設計等方面提供了新思路。
啟動子(promoter)序列是RNA聚合酶執(zhí)行基因轉錄起始位置的DNA序列,啟動子的強度或活性在調節(jié)基因轉錄中起著關鍵作用。當前,活細胞已經(jīng)進化出許多具有一系列強度的啟動子來微調關鍵基因的表達,從而實現(xiàn)特定的生理功能[62]。隨著合成生物學的發(fā)展,人們開始依靠更強大的工具來控制轉錄過程,其中啟動子是最基本的組成部分?;虮磉_的精確控制是發(fā)展從合成生物學到治療學等多種應用的必要技術。盡管基因表達受到許多因素的控制,但啟動子仍是基因轉錄的基本驅動因素。細胞工程通常會改造或設計啟動子元件來控制基因表達[63]。在此過程中,對啟動子活性的準確預測是進行成功設計的重要因素。設計準確的計算方法來預測啟動子活性將為實驗生物學家的研究提供指導。Meng等[62]基于人工神經(jīng)網(wǎng)絡和支持向量機設計了預測大腸桿菌DNA序列中啟動子強度的機器學習模型;2019年,Oubounyt等[64]基于卷積神經(jīng)網(wǎng)絡(CNN)和長短期記憶網(wǎng)絡(LSTM)構建了一個魯棒的深度學習模型DeepPromoter,用于分析短真核啟動子序列的特征,并準確識別人體和小鼠啟動子序列;2020年,Wang等[65]提出了一個基于人工智能的大腸桿菌從頭啟動子設計框架,該模型以從天然啟動子中學習到的序列特征為指導,可以捕獲不同位置的核苷酸之間的相互作用,進而在計算機中設計新的啟動子;2021年,Sudheer等[66]提出了一種新的計算模型,通過深度學習與偽二核苷酸(pseudo-dinucleotide)組成來識別原核啟動子并預測其強度。
增強子(enhancer)是指導特定種類細胞轉錄的重要基因組調控元件[67]。當被轉錄因子結合時,其會增強相關基因的轉錄。增強子序列作用于同一DNA分子上的基因,但其具體位置通常不確定。比如,增強子序列可以位于距被調節(jié)基因的轉錄起始位點數(shù)千個堿基對的位置,但由于DNA在細胞核中折疊和盤繞,增強子實際上可能位于折疊狀態(tài)下的轉錄起始位點附近。此外,增強子發(fā)揮作用與其序列的正反方向無關。在基因組學技術的推動下,人們意識到增強子和啟動子之間有一些共同的特征和功能[68]。比如,它們的染色質和序列結構非常相似[69],有的啟動子還會有增強子活性[70],有的增強子能夠通過自身在其邊界上驅動局部轉錄起始[71]。
增強子在發(fā)育和疾病過程中起著關鍵作用。由于人類基因組中的增強子控制著基因在特定種類細胞中的表達,因此其導致的變異存在引起疾病的風險[72-73]。由于對DNA序列和調控活性之間的關系知之甚少,增強子的從頭設計一直具有挑戰(zhàn)性。長期以來,識別增強子位置及其活性一直是科學研究的焦點。
2020年,Khanal等[74]基于word2vec和CNN從原始DNA序列中提取增強子的特征,開發(fā)了一個準確預測增強子活性的計算工具iEnhancer-CNN;2021年,Min等[75]設計了一個包含CNN和雙向門控遞歸單元(Bi-GRU)的混合神經(jīng)網(wǎng)絡,僅使用DNA序列作為輸入,實現(xiàn)了增強子-啟動子相互作用預測;2022年,Almeida等[76]從黑腹果蠅S2細胞的DNA序列出發(fā),結合深度學習算法構建了一個預測增強子活性的模型DeepSTAR。DeepSTARR在40 000個野生型和突變型的果蠅和人類增強子上進行了測試,證明其可推廣到人類增強子的預測,最后,作者從頭設計了特定活性的增強子并得到了驗證[76]。
終止子(terminator)是位于基因編碼區(qū)下游,能夠給予RNA聚合酶轉錄終止信號的DNA序列。轉錄終止是基因表達的一個重要調控步驟。如果沒有終止子,轉錄就不會停止,從而導致基因表達異常。根據(jù)作用機制,終止子可分為Rho因子依賴性和非Rho因子依賴性。非Rho因子依賴性終止子富含GC堿基的反向重復序列,其轉錄出的mRNA可形成莖環(huán)結構,可以阻止RNA聚合酶的前進。Rho因子依賴的終止子沒有形成強的莖環(huán)結構,因而不能自發(fā)終止轉錄,需要借助Rho因子來實現(xiàn)轉錄終止。Rho因子通過其解鏈酶的活性,強行解開轉錄泡上的RNA/DNA形成的雜交雙螺旋,使RNA轉錄物得到釋放,從而終止轉錄。
準確識別轉錄終止子在轉錄調控的研究和合成生物學應用中非常重要。2019年,F(xiàn)eng等[77]基于支持向量機(SVM)開發(fā)了一種識別轉錄終止子的預測模型iTerm-PseKNC,并在大腸桿菌和枯草芽孢桿菌的終止子上進行測試,證明了該模型可以成為細菌終止子識別的有力工具。
在真核生物基因組中,絕緣子(insulator)既是一種邊界元件,又是一種控制基因表達的調控元件。絕緣子本身并不直接作用于基因的表達,其作用僅僅是不讓其他調控元件對基因表達產(chǎn)生影響。隨著生物的進化,DNA序列變得越來越復雜,絕緣子的出現(xiàn)能夠將DNA序列劃分為不同的區(qū)域,只有區(qū)域內的順式作用元件可以調控該區(qū)域基因的表達,區(qū)域外的順式作用元件則不能控制該區(qū)域內的基因表達。因此,絕緣子的出現(xiàn)能夠保障基因免受無關調控元件的干擾。比如,當絕緣子位于增強子和啟動子之間時,其可以保護啟動子免受上游增強子的影響。此外,絕緣子具有阻斷增強子與細胞癌基因調控元件相互作用的潛力,將有效抑制腫瘤的發(fā)生。這將為基因治療方法在癌癥、遺傳病的應用提供重要啟示。相比于對其他調控元件,絕緣子的識別和設計尚未成為研究的熱點。
沉默子(silencer)是一段能夠與轉錄調控因子結合的DNA序列,當抑制劑蛋白與DNA的沉默子區(qū)域結合時,將會阻止RNA聚合酶轉錄,從而阻止基因被表達為蛋白質。為保證細胞進行正常的生理活動,所有基因表達的激活和沉默必須保持微妙的平衡。盡管沉默子是非編碼調節(jié)元件,但失去它們會導致發(fā)育缺陷,比如可能導致胚胎死亡。這也強調了基因組非編碼區(qū)域的調節(jié)多功能性,并更好地解釋了沉默子在基因調節(jié)框架中的重要性。此外,發(fā)現(xiàn)基因沉默的機制也可能為抑制腫瘤基因表達提供新視角,從而促進抗腫瘤領域的研究。但是,目前人們對沉默子的識別表征和作用規(guī)律的研究遠遠不及其他調控元件[47]。
2.1.2 DNA反式調控元件
不同于順式調控元件,反式調控元件(transregulatory element,TRE)可位于基因組的任何地方。反式調控元件通過反式作用因子(trans-acting factor)介導實現(xiàn)對基因表達的干預,而反式作用因子通過與順式調節(jié)元件相互作用以實現(xiàn)對結構基因表達的調節(jié)作用。盡管TRE突變影響基因表達,但它也是進化的主要驅動力。
反式作用因子又稱轉錄因子(transcription factor,TF),是指能直接或間接地識別或結合在各類順式作用元件核心序列上參與調控結構基因轉錄效率的蛋白質。反式作用因子通過與順式作用元件相互作用,來參與基因表達的調控。真核生物中,按照反式作用因子的功能特性,可將其分為基本轉錄因子(general transcription factor)和特異轉錄因子(special transcription factor)。基本轉錄因子是RNA聚合酶結合啟動子所必需的一組蛋白質因子,決定著三種RNA的轉錄類別。特異轉錄因子為個別基因轉錄所必需,決定該基因的時間、空間特異性表達。在不同類型的組織細胞中,會出現(xiàn)不同的特異轉錄因子。能夠使某些基因表達增強的稱為轉錄激活因子,比如增強子結合蛋白與增強子結合,使基因轉錄增強;使某些基因表達減弱的稱為轉錄抑制因子,比如沉默子結合蛋白與沉默子結合,使某些基因的表達減弱。
隨著基因組技術的發(fā)展,轉錄因子的實驗數(shù)據(jù)庫在不斷擴展,并成為準確的計算方法開發(fā)的基礎。表4展示了轉錄因子相關的數(shù)據(jù)庫。
表4 轉錄因子相關的數(shù)據(jù)庫Table 4 Databases for transcription factor
當前合成生物學相關方向對轉錄因子的研究尚集中于轉錄因子的識別和結合位點預測,這些工作是未來進行轉錄因子設計的基礎和重要組成部分。近年來,越來越多的基于深度學習的方法被提出用于預測轉錄因子的結合位點,并獲得了驚人的預測性能。比如2020年,F(xiàn)u等[90]開發(fā)了一個深度學習預測框架scFAN,該框架不僅能預測轉錄因子的結合基序,還可用于分析單細胞表觀基因組學和預測細胞類型;2021年,Kim等[91]提出了一個深度學習方法DeepTFactor,來預測蛋白質是否為轉錄因子;同年,Zhang等[92]應用CNN設計了一個預測轉錄因子結合位點的方法FCNA;Zheng等[93]提出了一個機器學習框架AgentBind,用于預測基因組中某個轉錄因子基序在特定的細胞類型中是否結合,并識別關鍵的上下游堿基。這些方法的提出,也表明了機器學習和深度學習在當今大數(shù)據(jù)時代中,在解決生物問題上具有巨大潛力。
人們基于天然RNA調控元件設計了一些人工RNA調控元件,比較典型的有基于反義RNA,增強了結構穩(wěn)定性的PTRNA元件[94],以及源自大腸桿菌系統(tǒng),利用結合蛋白Hfq穩(wěn)定的基因抑制RNA元件[95]。這些調控元件使用模塊化的結構,基于可變序列與目標mRNA的堿基互補配對實現(xiàn)對目標mRNA的特異性抑制。基于此原理的調控元件設計時序列自由度有限,但其序列特性(如靶向mRNA的位置及互補配對數(shù)的多少)可以和抑制效率形成一定的相關性。計算模型可用于評估這種相關性,以實現(xiàn)精細的抑制調控[96]。此外,還有另一種不依賴目標序列的RNA調控元件設計思路:在目標序列的適當位置引入人工的開/關模塊,此等模塊通常包含一段順式感應序列和一段反式調控序列,基于感應序列和調控序列的特異性結合進行調控,典型例子有翻譯激活調控的Toehold開關[97]和轉錄激活調控的STAR系統(tǒng)[98-100]。由于不依賴于目標序列,這一思路下調控元件的序列設計自由度很高,利用NUPACK[101]等基于最小自由能算法的RNA二級結構預測模型可以設計出高度正交的順/反序列對。在大型的基因調控網(wǎng)絡和復雜的合成生物電路中,元件的高正交、低串擾特性具有尤其重要的意義。
2.2.1 Toehold開關
Toehold開關由一對順/反互補RNA序列組成,其中順式的mRNA序列用于在目標mRNA的5'-UTR區(qū)引入人工發(fā)卡結構,并將目標mRNA的核糖體結合位點(RBS)包含在發(fā)卡結構的環(huán)區(qū)。未激活狀態(tài)下,該人工結構阻止核糖體結合,抑制目標mRNA的翻譯,因此順式序列稱為順式抑制mRNA(cis-repressed mRNA, crRNA)。相應的反式互補序列則稱為反式激活RNA(transactivating RNA, taRNA),它特異性地與順式抑制mRNA形成雙鏈,使RBS暴露從而激活目標mRNA的翻譯。利用RNA二級結構和自由能預測算法,Toehold 開關的設計團隊已經(jīng)設計出了多組互相高度正交的低串擾組合,其中有18個組合的串擾低于2%,26個組合的串擾低于12%[97]。
2.2.2 STAR系統(tǒng)
STAR系統(tǒng)也包括一對順反序列,不同于Toehold開關,STAR系統(tǒng)的順式感應序列位于目標mRNA的RBS上游,在轉錄時,這一段序列形成轉錄終止子,直接阻止目標mRNA的轉錄。而反式序列(稱為STAR,small transcription activating RNA)與順式終止子發(fā)卡的5'端及其上游序列互補。反式序列的配對會打開終止子發(fā)卡并允許轉錄延伸至下游的mRNA,從而實現(xiàn)目標mRNA的轉錄激活[99]。STAR系統(tǒng)的表現(xiàn)與反式STAR序列對順式終止子發(fā)卡5'端上游線性單鏈的識別呈密切相關,在終止子發(fā)卡結構不變的情況下,改變該線性單鏈的序列即可改變STAR系統(tǒng)的泄露率和激活倍數(shù)[98]。STAR系統(tǒng)的激活倍數(shù)還和線性單鏈的二級結構程度呈反相關[98]。因此,RNA二級結構和自由能預測算法同樣可以用來設計STAR系統(tǒng)[98]。
調控元件一直是生物學研究的重要方向,獲諾貝爾獎表彰的乳糖操縱子模型即其中開創(chuàng)性和代表性的研究成果,2000年發(fā)表的合成生物學基因電路開關的設計和表征工作也得益于DNA調控元件的成功運用[102]。由于生物調控元件固有的復雜性,傳統(tǒng)的生物信息學方案表征的成功率有限。不過隨著大量與調控元件相關的實驗數(shù)據(jù)的積累,特別是算法的飛速進展,在處理復雜性問題上表現(xiàn)優(yōu)越的深度學習算法在DNA順式調控元件的識別、設計以及功能活性預測等方面都取得了長足的進步。計算方法能以極高的效率篩選極其龐大的序列空間,可以針對無法跨越細胞膜或具有細胞毒性的配體設計核糖開關,也可以利用生成式人工智能算法發(fā)展新的設計思路,這些算法的實現(xiàn)將彌補實驗成本高、耗時長的局限,跨越式提升合成生物學工程化改造生物系統(tǒng)的能力。
值得關注的是,近年來RNA調控元件設計方面亦有較快進展,利用計算方法進行RNA調控元件設計也可以大大加快RNA調控元件的開發(fā)?;赗NA二級結構和自由能預測的計算模型已經(jīng)在Toehold開關和STAR系統(tǒng)等人工調控系統(tǒng)的元件設計中有了成功的應用。由于當前計算領域對RNA結構和生物學屬性認識的局限,目前的計算方法還只能基于RNA的序列和有限的二級結構開展設計,且可設計部分集中于模塊化結構組裝體的可變序列部分。未來隨著計算領域對RNA三維結構特性的進一步理解,利用RNA的更高級結構可以設計出更加多樣化的元件庫,結合利用機器學習等方法建立調控效果的直接預測模型,RNA元件的計算設計將能發(fā)揮更加強大的威力。
生物傳感器(又稱為感應元件)是一種用于檢測被分析物的分析設備。顧名思義,生物傳感器就是把生物成分和物理化學檢測器結合在一起的一種設備,是由固定化的各種生物敏感材料作識別元件、適當?shù)睦砘瘬Q能器(如氧電極、光敏管、場效應管、壓電晶體等等)及信號放大裝置構成的分析工具,其目的就是為了把待分析物質的種類、濃度等性質通過一系列的信號轉化為能夠容易被人們檢測的量化數(shù)據(jù),便于分析[103]。生物傳感器與物理/化學傳感器的主要區(qū)別在于生物傳感器的識別元件是生物物質或者是仿生物物質。
生物傳感器被廣泛運用在醫(yī)療健康、食物質量檢測、環(huán)境監(jiān)測等方面(圖4),特別適合用在需要經(jīng)濟有效的檢測工具的場景。設計具有新功能特性或者新配體的生物傳感器已快速發(fā)展成為一個新的生物醫(yī)學和生物技術的分支領域。根據(jù)生物敏感元件制備來源的不同,生物傳感器的特點各異。
圖4 傳感器設計Fig.4 Design of biosensor
基于酶的生物傳感器被認為是最適用的生物傳感器分析工具之一,酶能夠催化廣泛不同的目標化合物的變化,目標化合物也可以通過抑制或者改變酶的催化活性而被檢測到。這些基于酶的生物傳感器具有獨特的優(yōu)點,如高特異性、選擇性、可重復使用、低成本、易于制備和易于小型化。然而,它們也存在一些缺陷,如在苛刻的實驗條件下不可恢復的酶的變性、儲存困難、對樣品基質的敏感性以及對溫度和pH變化的敏感性[104]。
多肽和蛋白也是非常好的設計生物傳感器的起始材料,因為它們在與目標分子相互作用的時候有著巨大的結構多樣性,基于肽的生物傳感器具有優(yōu)異的水溶性和生物相容性,使它們能夠檢測各種目標。不過,也有一些缺陷限制了它們的應用,例如耐久性低、靈敏度有限、在惡劣條件下會降解[105]。
基于抗體的生物傳感器也常常用于檢測多種目標,而且具有很高的靈敏度。但是基于抗體的生物傳感器不耐溫度變化,溫度變化的時候容易降解變性失活。另外,抗體分子量較高,合成和修飾抗體是一個相對耗時的過程。需要用實驗動物來產(chǎn)生篩選抗體,這增加了基于抗體的生物傳感器的成本[106]。
核酸適配體是另外一種廣泛應用的生物傳感器。核酸適配體由單鏈核酸構成,對廣泛的目標化合物(小到金屬離子大到蛋白分子)都有很好的識別效果。與基于抗體的生物傳感器相比,核酸適配體的優(yōu)勢在這些方面表現(xiàn)突出。核酸適配體可以通過體外的方式產(chǎn)生和進化,這樣就不像抗體那樣需要實驗動物。核酸適配體分子量較小,這樣生產(chǎn)和修飾相對容易。核酸適配體在廣泛的溫度和pH范圍內都可以發(fā)揮功能,而且還可以在變性后容易重新折疊復性成有功能的狀態(tài)。甚至有的時候它們可以在變性條件下發(fā)揮其功能,比如在高尿素的環(huán)境中[107]。核酸適配體一般經(jīng)過SELEX的實驗過程產(chǎn)生,隨機核酸文庫通過重復的結合、選擇、擴增的過程得到親和力越來越高的適配體。SELEX技術開發(fā)核酸適配體已經(jīng)獲得了很多成功案例,不過一般需要幾周甚至幾月的時間來進行富集篩選,多輪次的篩選工作也使得這項技術復雜和花費不少,而且有時候篩選到的適配體還要進行修飾來提高適配體的效率。另外為了提高SELEX技術的篩選效率,有時候需要準備一系列的不同類型的配體。這項技術的成功也依賴于初始文庫的表示比例,有時候最高親和力的適配體會因為不完整的文庫而在篩選的過程中丟失[108]。
有各種實驗技術方案可以將生物傳感器的信號轉化成可儀器測量的數(shù)據(jù)。這些技術包括表面等離子體共振(SPR)、熒光共振能量轉移(FRET)、小角度X射線散射(SAXS)、電化學發(fā)光(ECL)、表面增強拉曼光譜(SERS)和光電化學(PEC)[103]。在過去的十年中,液晶(LC)在材料、化學和生物科學領域被廣泛應用,因為它們有獨特的物理和光學優(yōu)勢,對外部刺激的高反應性能、敏感的定向反應和光學各向異性[109-110]。生物傳感器的液晶顯示有如下顯著的優(yōu)勢:容易制作,靈敏度高,反應快,成本低而且無需標記。它的缺陷是不能在高溫環(huán)境中使用,也不適合在高光亮的環(huán)境中使用[111]。
除了實驗方法外,包括量子力學(quantum mechanics,QM)、分子動力學(MD)和分子對接等在內的一系列計算方法被用于設計和研究生物傳感器。生物傳感器設計的計算機方法一般需要準確的生物傳感器片段的結構預測、熱穩(wěn)定性和分子間相互作用的精確描述。
量子力學方法可以在電子結構尺度上研究化學反應的熱力學或動力學機理的方法。該方法可分為從頭計算、密度泛函理論(DFT)和半經(jīng)驗算法等。由于研究對象是分子內的電子結構和運動,QM計算可以描述生物或化學分子的化學鍵的形成斷裂、電荷轉移等[112]。此能力是當前MD或分子對接等其他計算方法所不具備的。在生物傳感器設計方面,使用QM的一個重要切入點是計算量子電導,其大小與生物傳感器的選擇性有著重要關聯(lián)[113-114]。另外,由于QM方法具有高度的準確性,基于QM的相互作用能計算和溶劑化計算也被用于開發(fā)各種生物或化學傳感器[115]。
限制QM方法在生物傳感器領域大范圍應用的主要因素是其高昂的計算成本。為了提高計算效率,人們開發(fā)了基于分子力場類的方法。分子力場假設分子的能量是分子內或分子間各個原子相對位置的函數(shù)。這些函數(shù)是經(jīng)驗性的,通常來自對QM結合和實驗結果的擬合,其計算量要比QM類方法小數(shù)個數(shù)量級,但在適當?shù)姆秶鷥?,比如不涉及化學反應的大分子復雜體系,計算精度與QM是可比較的。以分子力場為基礎的上層算法包括分子動力學模擬、蒙特卡洛方法、分子對接等等。
分子動力學(MD)是使用最為廣泛的分子力場類方法,它通過迭代牛頓運動方程來模擬體系的構象在分子力場下隨著時間的運動變化,以提供原子水平的簡介。在足夠的模擬時間和采樣下,模擬產(chǎn)生的構象集合可用于機理分析[116],幾何形狀、能量和許多物理化學特性的統(tǒng)計計算。配體和受體的結合能計算是生物傳感器重要基礎,基于MD技術開發(fā)的多種結合能計算方法已經(jīng)在該領域取得了令人矚目的進展,包括但不限于直接自由能計算[117]、平均力勢(the potential mean force,PMF)方法[118]、MM-GBSA或MM-PBSA方法[119-122]??煽康哪M結果往往需要高質量的采樣,比如有人使用steered MD(SMD)研究生物受體與其靶標親和力[123]。Thyparambil等[124-125]使用metadynamics類MD模擬設計了基于肽的霉菌毒素生物傳感器。
分子對接(molecular docking)是一種通過搜索分子之間的空間匹配和能量匹配來預測配體與生物受體最可能匹配模式的方法。分子對接對配體-受體之間潛在相互作用的預測對于生物傳感器準確性和特異性的改進是非常有幫助的[126]。相對于傳統(tǒng)的MD方法,簡化的勢能函數(shù)和采樣策略讓分子對接具有高效的計算效率。分子對接可以用于篩選不同靶標或者不同的構象異構體[127],也可以通過突變分析或位點飽和誘變(SSM)尋找甚至構建關鍵相互作用[128],以實現(xiàn)高效的生物傳感器。虛擬篩選(virtual screening)技術建立在分子對接技術的基礎上,它將包含大量化合物的庫與目標的三維模型進行對接。虛擬篩選既可以基于配體(ligand-based virtual screening)又可以基于受體(receptor-based virtual screening),已經(jīng)被廣泛應用于不同的生物系統(tǒng)[129],包括篩選具有高結合親和力的化合物用于生物傳感器設計[130],或者設計用作氣態(tài)傳感器的肽分子[131-132]。
上述各個方法均有著自己的優(yōu)缺點和適用范圍,表5中對各種方法進行了優(yōu)缺點的總結,根據(jù)不同的問題,將不同方法組合起來可以更為有效地設計生物傳感器。比如:分子對接可以為MD提供結合位點和結合模擬,MD則給出更精確的結合能計算[133-137];QM和分子力場(MM)的結合(QM/MM)則可以用來計算核心區(qū)域的化學反應或電荷轉移,MM的引入大大降低了QM的計算成本[138],而QM/MM可提供更為準確的配合和受體之間的相互作用并評估[139-142]。該方法還可以應用于基于FRET的生物傳感器的計算設計[143]。此外,上述計算方法與SELEX等實驗技術的聯(lián)用也取得了成功[144-146],為設計生物傳感器提供了有效策略。
表5 計算方法比較Table 5 Comparison of the computation methods
隨著合成生物學的快速發(fā)展,生物傳感器受到了越來越多的關注,應用場景也在不斷拓展。合成生物學里面的DBTL(Design—Build—Test—Learn)循環(huán)中的測試環(huán)節(jié)需要更高通量的檢測方案,生物傳感器實時快速檢測的特點使其在合成基因回路、酶工程、代謝工程等領域中得到廣泛關注[147-148]。別構轉錄因子來源的生物傳感器在生物體內原本是發(fā)揮感受分子信號的功能作用,被開發(fā)研究得比較多[149-151]。同時,別構轉錄因子來源的生物傳感器也可以像傳統(tǒng)生物傳感器那樣在體外進行樣品檢測,CRISPR分子診斷技術與別構轉錄因子的結合使用是一個很有用的技術平臺[152]。計算方法輔助生物傳感器的設計方面,蛋白設計技術的進步,使得基于經(jīng)典的四螺旋束蛋白框架的生物傳感器的設計也取得了一些有應用價值的進展[153],電荷基團導致的大規(guī)模結構相變原理上與別構轉錄因子的信號轉化功能作用相似。可以預計的是,合成生物學的快速發(fā)展以及DBTL循環(huán)中對生物傳感器的應用需求會導致越來越多有應用價值的技術方案和成功案例的出現(xiàn)。在經(jīng)歷了前期的各種有意義的生物學的技術方案的積累和發(fā)展后,計算機輔助的生物傳感器的設計方案將會扮演越來越重要的角色。
目前,AI與計算生物學在合成生物學中的應用十分廣泛,本文著重介紹了催化元件、調控元件和生物傳感器的挖掘和設計中與AI和計算生物學結合的內容。受益于計算化學領域的前期發(fā)展,針對蛋白質、有機小分子的力場和采樣工具都比較成熟,因此在設計和改造催化元件時,取得了較為顯著的應用成果。機器學習方法的發(fā)展時間較短,一些方法還沒有經(jīng)受實驗的廣泛檢驗,但是也已經(jīng)取得了一些成果,例如成功改造FASTPETase用于塑料降解。針對特定的功能或性質,直接生成全新的酶或設計高階突變體將是未來AI用于催化元件設計的發(fā)展方向之一。同時,受益于自動化實驗設施的發(fā)展,AI將可以嵌入合成生物學的DBTL循環(huán),進一步促進合成生物的整體發(fā)展。
隨著基因組學技術的發(fā)展,對DNA序列非編碼區(qū)域的功能研究不斷深入,逐漸闡明了一些調控元件的功能和作用機制。這些調控元件雖然不直接參與基因的表達,但是對基因表達起調控作用。由于調控元件的突變會導致基因表達的變化,進而引起疾病的產(chǎn)生。因此,對于人類體內調控元件的識別、分類以及轉錄因子結合位點的分析,可以極大地促進人們對調控元件在基因表達、疾病產(chǎn)生中的作用的認識,為實驗提供參考依據(jù)。隨著調控元件實驗數(shù)據(jù)的積累以及深度學習算法的開發(fā),深度學習已經(jīng)被應用于調控元件的識別、設計以及功能活性預測,而開發(fā)更有效的機器學習算法必將使現(xiàn)有基因組數(shù)據(jù)更豐富,促進基因組學的發(fā)展。
盡管取得了很大的成就,但在合成生物學中,人工智能和計算生物學的應用面臨一些挑戰(zhàn)和難點。下面是其中一些關鍵問題:
①復雜性和可擴展性。合成生物學中的生物系統(tǒng)往往非常復雜,包括多個基因、酶和代謝途徑。這使得優(yōu)化這些系統(tǒng)的設計和控制變得非常困難。同時,需要考慮生物系統(tǒng)的可擴展性,因為在實際應用中需要生產(chǎn)大量的產(chǎn)品,需要保證系統(tǒng)能夠擴展到大規(guī)模生產(chǎn)。
②數(shù)據(jù)處理和模型構建。人工智能和計算生物學需要大量的數(shù)據(jù)支持,但生物學數(shù)據(jù)通常非常復雜,需要處理大量的噪聲和變異。同時,需要建立準確的模型來描述生物系統(tǒng)的行為和功能,這需要對生物系統(tǒng)的深入理解和對建模技術的掌握。
③生物實驗和數(shù)據(jù)采集:合成生物學需要進行大量的生物實驗和數(shù)據(jù)采集,以測試和驗證生物系統(tǒng)的性能。這需要大量的時間和資源,同時還需要考慮如何最大限度地減少實驗成本和提高實驗效率。
④安全和規(guī)范:合成生物學中的新生物系統(tǒng)可能對環(huán)境和人類健康造成潛在威脅,因此需要制定相關的安全規(guī)范和評估方法,以確保生物系統(tǒng)的安全性和可控性。
因此,人工智能和計算生物學需要解決上述難點和關鍵問題,以實現(xiàn)合成生物學的進一步發(fā)展和應用。這需要多個學科領域之間的緊密合作和交叉創(chuàng)新,同時需要不斷發(fā)展和完善相關技術和方法。