伍克煜,劉峰江,許 浩,張浩天,王貝貝,2*
(1.電子科技大學 生命科學與技術(shù)學院,成都 611731;2. 電子科技大學 信息生物學研究中心,成都 611731)
合成生物學最初在1980年提出來的,用來表述基因重組技術(shù),之后2000年在美國化學年會上重新提出來,涉及生物、化學、物理、工程,計算機和信息技術(shù)多個領(lǐng)域。隨著計算機、生物信息,基因合成與基因測序等技術(shù)的快速發(fā)展,合成生物學結(jié)合各領(lǐng)域成果得到了突飛猛進地發(fā)展[1-3, 6-7]。全基因乃至染色體人工合成等原來只能停留人腦中的想法一個一個被實現(xiàn)[4-5, 8-10]。目前合成生物學已成為科學界大力研究發(fā)展的學科,被廣泛應(yīng)用于各個領(lǐng)域,比如癌癥治療、環(huán)境治理等,其思路也被廣泛借鑒與應(yīng)用在各種完全不同的領(lǐng)域中(例如系統(tǒng)科學與自動通訊技術(shù)),有望成為21世紀引領(lǐng)生命科學領(lǐng)域乃至整個科學領(lǐng)域的重要學科[11-12]。
合成生物學的實驗流程包含設(shè)計、構(gòu)建和測試三個步驟。目前,基因回路的設(shè)計還是主要以手動設(shè)計為主,但隨著合成生物學的發(fā)展,其應(yīng)用范圍也飛速的拓展,對基因回路的需求規(guī)模不斷地擴大,這種“訂制”式的設(shè)計方式不再能滿足合成生物學研究人員的需求,亟需一款類似于機械工程師或電工程師使用的自動計算機輔助設(shè)計系統(tǒng)(CAD或者EAD)的基因線路設(shè)計軟件工具。但是機械或者電子的研究對象為非生命體,嚴格按照力學和電學原理,而生命體的復(fù)雜性遠遠高于非生命體,目前對于生命體的認識還遠遠不如非生命體那么清晰。比如基因回路的設(shè)計到底應(yīng)該遵循什么原理?可以用那些合適的數(shù)學形式描述生物呢?這些問題使得自動計算機輔助基因設(shè)計系統(tǒng)發(fā)展緩慢[13]。
基因回路的設(shè)計目前常用的線路設(shè)計工具有:Cello[14]、j5[15],GenoCAD[16]和iBioSim[17]等。Cello是一個基于Verilog語言的基因線路設(shè)計環(huán)境,根據(jù)用戶指定的功能提供所需的核酸序列,并預(yù)測性能的好壞,目前主要用于大腸桿菌。其他幾種工具:j5、GenoCAD和iBioSim,都需要用戶提供回路相關(guān)信息,也不能預(yù)測其性能??梢娔壳暗幕蚧芈吩O(shè)計工具的功能還非常有限,遠遠不及CAD或者EAD。其主要原因之一就是目前的標準生物部件(Biobricks)還非常有限。在這種背景下,iGEM誕生了。
國際遺傳工程機器競賽(International Genetically Engineered Machine Competition,iGEM)由麻省理工學院于2003年創(chuàng)辦,2005年發(fā)展成為國際性學術(shù)競賽,是合成生物學領(lǐng)域的最高國際性學術(shù)競賽。iGEM的目的,就是希望通過學術(shù)競賽的模式,實現(xiàn)生物學的系統(tǒng)化、工程化,促進生物工具的開源化、透明化發(fā)展,幫助構(gòu)建一個可以安全、有效地應(yīng)用生物技術(shù)的工程體系,推動合成生物學及相關(guān)領(lǐng)域的科學發(fā)展。設(shè)計、建模和模擬是合成生物學必不可少的環(huán)節(jié), iGEM針對此問題開設(shè)軟件設(shè)計比賽項目,希望結(jié)合計算機技術(shù),簡化或優(yōu)化合成生物學方面的活動或?qū)嶒灒沟煤铣缮飳W研究者達到更高的效率。
iGEM舉辦至今,每年會誕生不少優(yōu)秀的合成生物學基因回路設(shè)計軟件,雖然由于種種原因,比如iGEM的參賽隊伍大部分是本科生,沒有很好的延續(xù)性,很多項目并沒有被很好的維護,這些軟件實際應(yīng)用到科學研究中的案例并不多,但是這些項目設(shè)計中好的思路和想法可以被運用到更系統(tǒng)的基因設(shè)計軟件中。所以在這里,詳細總結(jié)了往屆優(yōu)秀的軟件設(shè)計參賽項目,試圖從中學習他人的獨特思路,總結(jié)現(xiàn)今科研過程中亟待解決的問題,找出其發(fā)展趨勢。發(fā)現(xiàn)近幾年的iGEM軟件設(shè)計參賽項目主要有以下四個設(shè)計思路。
輔助設(shè)計類型的項目著眼于改進基因回路的設(shè)計與測試,使生物工程更具預(yù)測性(見表1)。合成生物學家常采用重建的方法,即通過構(gòu)建具有相似功能的遺傳回路,來深入了解自然回路的潛在機制。例如Gardner等[18]在2000年報道了一種撥動開關(guān)的設(shè)計。這種設(shè)計可以用作“框架”,或用作用戶使用不同生物部件設(shè)計撥動開關(guān)的指南(見圖1)。2014年SYSU-Software(http://2014.igem.org/Team:SYSU-Software)開發(fā)了一款基于框架的遺傳回路設(shè)計軟件FLAME。當選擇理想的框架時,F(xiàn)LAME會提供幾種解決方案,每種解決方案的機制和效率都不相同。根據(jù)每個解決方案的性能,用戶可以選擇其中一個微調(diào)電路的細節(jié),并通過軟件仿真功能模擬其性能。
表1 輔助設(shè)計類軟件對比Table 1 Comparison of softwares for auxiliary design
圖1 撥動開關(guān)圖示[6]Fig.1 A scheme for genetic toggle switch[6]
SYSU-Software通過軟件構(gòu)建了一個IPTG控制GFP的表達的基因電路,從而控制熒光強度的簡單電路,并且通過濕實驗驗證了其模擬的結(jié)果。這一設(shè)計是令人興奮的,尤其是對于合成生物學家來說,軟件可以在短時間內(nèi)設(shè)計出想要的遺傳回路。對于初學者來說他們不需要自己構(gòu)建框架只需向框架中添加生物磚即可。這極大提高了合成生物學家的工作效率。但對于有較深造詣的合成生物學家來說,他們想要的可能更多是新的未發(fā)掘的框架,不同的遺傳回路組成方式,這一點是這個軟件可以加以改進的地方。
到目前為止,相當數(shù)量的合成生物磚(Biobricks)和裝置已被表征和標準化。于是,一種基于標準化生物磚數(shù)據(jù)庫的輔助設(shè)計方法出現(xiàn)了。2014-SJTU-Software(http://2014.igem.org/Team:SJTU-Software)創(chuàng)造了以生物磚為核心的軟件Easy BBK,他們在iGEM官方提供的數(shù)據(jù)源的基礎(chǔ)上搭建了新的生物磚數(shù)據(jù)庫,還加入了生物磚更多信息以衡量每一個生物磚在實驗中的可靠程度,并通過打分評估生物磚的優(yōu)良程度。用戶可通過搜索引擎獲得所需并且已按優(yōu)良排序的生物磚,并組成所需遺傳回路。通過軟件讓用戶了解每一塊生物磚的性能,快速選擇遺傳回路所需的每一部分,不必通過查閱大量文獻或是實驗了解每一個生物磚,極大的提高了用戶設(shè)計的效率。但是該軟件缺乏模擬仿真功能,對于設(shè)計出來的遺傳回路,用戶不知道其性能究竟如何,不得不采用實驗驗證。而且由該軟件推薦的若干優(yōu)質(zhì)的生物磚組成的遺傳回路也未必能在實驗中有好的表現(xiàn),低分的生物磚在特定的遺傳回路中可能發(fā)揮著重要的作用。
SYSU-Software同樣注意到了遺傳回路中生物磚的重要性。他們在2017年開發(fā)了一款名為S-Din的軟件(http://2017.igem.org/Team:SYSU-Software, 見圖2),在S-Din的數(shù)據(jù)庫中建立并存儲關(guān)鍵字,項目和零件數(shù)據(jù)之間的網(wǎng)絡(luò)分析關(guān)系。用戶搜索關(guān)鍵字時S-Din將提供有關(guān)生物磚、零件數(shù)據(jù)及項目。當用戶在搜索產(chǎn)生靈感時可立即在平臺中設(shè)計,通過自由組合不同的生物磚來形成全新的遺傳回路,并在數(shù)學上模擬遺傳回路的動態(tài)表現(xiàn)。設(shè)計完成后可將其轉(zhuǎn)化為質(zhì)粒以便合成。
為了驗證該軟件,他們在S-Din中搜索“UV detection”,找到了之前相關(guān)項目——2012年ETH_Zurich的參賽項目(http://2012.igem.org/Team:ETH_Zurich),并提供了項目相關(guān)信息。根據(jù)S-Din的結(jié)果,刪除了ETH_Zurich設(shè)備的一些額外部件后在軟件中運行數(shù)學模型并通過濕實驗驗證了其設(shè)計結(jié)果(見圖3)。這表示軟件的仿真性能很好。相較于SJTU-Software來說SYSU-Software給出了更多生物磚的信息并且能為設(shè)計模擬仿真,用戶能很快了解所設(shè)計的遺傳回路的大致性能。對于合成生物學家來說這是一個不錯的喜訊。
受到自然進化規(guī)律的啟發(fā),2016-SYSU-Software開發(fā)了一款名為CRAFT的軟件(http://2016.igem.org/Team:SYSU-Software)。用戶可以輸入多個目標并設(shè)計限制條件來模擬自然選擇條件。CRAFT可以枚舉所有可能的解決方案,模擬生物變化,制造某種在自然環(huán)境下最適合保存的合成生物學系統(tǒng)。CRAFT將在后端自動生成調(diào)節(jié)元件?;谶@些限制,每一個解決方案系統(tǒng)都包含一系列由CRAFT推薦的表達元件,用戶可以通過操作拖動條來改變元件的強度,并且軟件將估算用適當?shù)脑鎿Q以前的元件的效果。
圖2 S-Din搜索結(jié)果頁面 Fig.2 S-Din webpage of search engine results (http://2017.igem.org/wiki/images/3/33/T--SYSU-Software--project-wetlab.png)
圖3 模型驗證結(jié)果Fig.3 Results of model verification(http://2017.igem.org/wiki/images/e/ed/T--SYSU-Software--project_simulation-result.png)
這一設(shè)計為其他iGEM軟件設(shè)計者提供了一個全新的想法,模擬自然選擇,生成的解決方案更可靠,更容易讓人接受。這種方法不僅新穎而且成為軟件輔助設(shè)計的另一突破口,也能給其他iGEMers不少啟發(fā)。但通過人為模擬自然環(huán)境得到的遺傳設(shè)計是否能適應(yīng)善變的環(huán)境發(fā)生有效的變異仍是未知的,值得探索。
輔助設(shè)計類軟件因其對實驗效率及方向指導的高貢獻性受到科學家的青睞,在科研中也常被參考使用,各種軟件側(cè)重方向的不同也提高了對不同研究的問題的適應(yīng)性。但由于目前數(shù)據(jù)仍不夠豐富,且軟件仿真并沒有足夠的可靠性和適應(yīng)各類問題的能力,這類軟件的表現(xiàn)與預(yù)期效果相去甚遠,在科研中無法滿足科研人員的要求,因此使用率及關(guān)注度提高困難。
目前輔助合成生物學家設(shè)計遺傳回路的軟件越來越多,方式各不相同,但在復(fù)雜、易變的生物環(huán)境中仍顯得不夠成熟。創(chuàng)造一款更加智能的軟件,可以在用戶搜索相關(guān)設(shè)計的同時不斷自主學習,智能的產(chǎn)生一種新的人們未發(fā)掘的遺傳回路也許是下一階段要努力去實現(xiàn)的。
整合共享類型項目旨在通過構(gòu)建或整合相關(guān)數(shù)據(jù)庫和搜索引擎,以期提高iGEM和合成生物學現(xiàn)有成果的透明度和可重復(fù)性(見表2)。有相當一部分iGEM軟件隊在他們設(shè)計的軟件功能中包含了對已有成果的整合以及共享功能。通過構(gòu)建相關(guān)數(shù)據(jù)庫和搜索引擎,以提高iGEM和合成生物學現(xiàn)有成果的透明度和可重復(fù)性。合成生物學實驗可重復(fù)性低是一個當下合成生物學領(lǐng)域遇到的令人頭痛的問題。為了解決因?qū)嶒灧桨副硎霾磺澹襟E缺失等因素而造成的實驗不可重復(fù)等問題, 2014年密歇根大學iGEM軟件隊Michigan_Software構(gòu)建了一個用于清晰地記錄并儲存實驗方案的數(shù)據(jù)庫(http://2014.igem.org/Team:Michigan_Software,見圖4),供科研人員下載并查看,使用此數(shù)據(jù)庫的科研人員都可以上傳數(shù)據(jù)并維護自己的實驗方案,其他人可以復(fù)制并生成自己的實驗方案版本。2017年,Michigan_Software進一步開發(fā)了一個工具,可以調(diào)用現(xiàn)有的保存實驗方案的數(shù)據(jù)庫protocal.io的API,來導入protocal.io的實驗方案,進一步加強了在這方面的資源整合程度。這一項工作也使得他們在2017年iGEM比賽中拿到了金牌。
表2 資料整合共享類軟件對比Table 2 Comparison of softwares for data sharing
圖4 軟件設(shè)計架構(gòu)Fig.4 Software design architecture(http://2014.igem.org/wiki/images/2/2d/Concept_map.png)
與之類似的還有很多項目,如USTC-Software 2014年的項目(http://2014.igem.org/Team:USTC-Software)。在他們的項目的數(shù)據(jù)共享部分,允許使用者把自己設(shè)計的生物部件上傳到主數(shù)據(jù)庫,供他人使用。這一類的設(shè)計大同小異,主要功能是允許用戶上傳自己的數(shù)據(jù)到數(shù)據(jù)庫中,經(jīng)由數(shù)據(jù)庫整合后供所有人使用。但是這一類設(shè)計最大的問題在于初期數(shù)據(jù)量小的時候,并不能很好地發(fā)揮它的作用。
除此以外,還有另一類的設(shè)計不需要用戶上傳數(shù)據(jù),而是整合網(wǎng)絡(luò)上已有的數(shù)據(jù),來提高現(xiàn)有項目的透明度和利用率。如SJTU-Software 2014年的項目(http://2014.igem.org/Team:SJTU-Software)就建立了一個整合現(xiàn)有生物磚的數(shù)據(jù)庫,其數(shù)據(jù)主要來源于iGEM官網(wǎng)上保存的每年注冊的部件的Registry?;谶@個數(shù)據(jù)庫,用戶可以搜索高質(zhì)量的生物磚,或比較生物磚的質(zhì)量。同時,用戶也可根據(jù)一定的標準去上傳自己的生物磚。類似的,還有SJTU-Software 2016年的項目IMAP,整合并優(yōu)化了iGEM官網(wǎng)上的信息,并放在他們的軟件中,供iGEMer瀏覽。通過整合這些資料,使得iGEMer可以更好地了解iGEM和使用iGEM網(wǎng)站上的信息。
合作交流類項目則旨在加強iGEM團隊和合成生物學家間的交流合作,以提高工作效率和項目效果(見表3)。有一點不能忽略的是,越來越多的隊伍注意到,用戶之間的交流與合作可以顯著的提高工作效率和產(chǎn)品效果,所以很多隊伍在他們設(shè)計的軟件中添加了社區(qū)功能,用戶可以在社區(qū)中發(fā)布自己的設(shè)計,以尋求他人的改進意見;或者是在社區(qū)中尋求幫助或合作,以求解決當下研究中遇到的障礙。
表3 合作交流類軟件對比Table 3 Comparison of softwares for cooperation and communication
SJTU-Software 2016年的項目就實現(xiàn)了交流的功能。每個團隊都有自己的小組,每個成員都有自己的主頁。在團隊頁面中,每個團隊成員的聯(lián)系信息將被顯示以方便溝通,而且可以在軟件中直接發(fā)送消息(見圖5)。Michigan軟件隊在2017年(http://2017.igem.org/Team:Michigan_Software)推出的protocat4.0中提出的群組賬號、收藏夾以及聊天功能,這些提供了一個可供合作團隊進行交流分享的平臺。但其功能還是局限于普通聊天軟件所能提供的功能,沒能在輔助iGEM設(shè)計上更進一步。這一點上,其他隊伍提供了更好的思路和設(shè)計。USTC在2017年推出的Biohub2.0中(http://2017.igem.org/Team:USTC-Software)給出的功能插件系統(tǒng),除了平臺自身提供的一些功能插件以外,用戶可以上傳自己設(shè)計的功能插件在社區(qū)中共享。這樣,用戶不僅可以享受到更多的功能,還可以在共享中發(fā)現(xiàn)問題和改善插件。還有SYSU在2015推出的CORE(http://2015.igem.org/Team:SYSU-Software)中提出的CORE bank和CORE design功能。用戶可以將自己的設(shè)計上傳到CORE bank當中,還可以通過CORE design功能對CORE bank中已有的設(shè)計提出意見,或者進行改進升級,然后再次上傳到CORE bank中覆蓋原有的舊版本。與此同時,CORE還提供了用戶評分系統(tǒng)(見圖6),來甄別相同功能的不同設(shè)計的優(yōu)劣。但用戶評分系統(tǒng)如今還并不完善,存在諸多問題。如果用戶數(shù)目不夠多,用戶評分的可信度就會大大降低;而且沒有一個統(tǒng)一的評價標準,僅僅憑借用戶的經(jīng)驗進行評分也會對評價產(chǎn)生偏差。這點上,USTC在2015的BioBLESS(http://2015.igem.org/Team:USTC-Software)中提出了另一種思路。就是在用戶評分的同時,系統(tǒng)輔助評分。在評價基因電路的功能時,系統(tǒng)會根據(jù)多個標準對電路進行綜合評價,最后根據(jù)基因電路在各個標準上的表現(xiàn)情況進行最后評分。雖然這個評分系統(tǒng)目前只能針對軟件自身生成的基因電路,但它提供了一種系統(tǒng)提供統(tǒng)一標準進行評分的思路。或許未來可以將這種思路和用戶評分系統(tǒng)相結(jié)合,在注重客戶的個人體驗的同時,也增加統(tǒng)一的標準,這樣的評分就變得更加科學也不失人性化。
圖5 社區(qū)交流頁面Fig.5 Webpage for communication(http://2016.igem.org/wiki/images/6/62/SJTUsoftware-tutorial12.jpg)
圖6 Biohub的用戶評價系統(tǒng)Fig.6 User rating system of Biohub(http://2017.igem.org/wiki/images/a/a6/Forum-pop.png)
數(shù)據(jù)分析類的項目主要是通過設(shè)計算法來解析和格式化生物數(shù)據(jù),以便更好地使用。從歷年的項目中我們看到,基因序列分析、挖掘,也是合成生物學中相當重要的且極具分析價值的研究方向。對基因序列這類生物數(shù)據(jù)的巧妙處理,可以讓它服務(wù)于記錄、追蹤整個合成生物學領(lǐng)域的數(shù)據(jù)變化;同時,這樣的工作也有可能對其他領(lǐng)域的發(fā)展提供新的思考方向。2014年Vanderbilt_Software制作了軟件Darwin(http://2014.igem.org/Team:Vanderbilt_Sof-ware),可以系統(tǒng)的追蹤基因序列細微變化,并記錄到數(shù)據(jù)庫。每次追蹤到的新改變又通過算法更新數(shù)據(jù)庫,從而生成更高效和安全的跟蹤系統(tǒng)。這種設(shè)計將在未來避免合成生物學家陷入令人困擾的邏輯復(fù)雜性中。2016年,UESTC-Software(http://2016.igem.org/Team:UESTC-software)提出基于DNA的文件編輯技術(shù),首次將生物信息轉(zhuǎn)化成計算機信息。他們以0、1兩個數(shù)字的不同組合定義DNA的四種堿基,使一段DNA序列成為一長串計算機二進制代碼來儲存信息。DNA作為信息存儲介質(zhì),具有高容量(每克DNA相當于重量超過151公斤的14千張50 GB藍光光盤或233 x 3 TB硬盤),低維護,自我復(fù)制,在數(shù)千年后仍然可讀等優(yōu)點。這個項目的提出是合成生物學在其他領(lǐng)域的開創(chuàng)性嘗試,也是其他領(lǐng)域發(fā)展的新方向。
分析了近幾年的iGEM軟件隊項目,總結(jié)出iGEM的軟件設(shè)計項目主要以輔助設(shè)計、資料整合、合作交流、數(shù)據(jù)分析為設(shè)計方向,幫助合成生物學家更合理的設(shè)計回路、更高效的尋找資源、更便捷的交流探討。也有一些隊伍著眼于合成生物學某一方面的問題,提出優(yōu)化的方案并設(shè)計出工具。無論角度如何,他們的工作都踐行著iGEM的目標,促進了生物工具的開源化、透明化發(fā)展,推動著合成生物學及相關(guān)領(lǐng)域的發(fā)展和普及。我們希望本篇綜述通過總結(jié)以往項目的設(shè)計思路和發(fā)展趨勢,能為今后參加軟件隊的iGEMer提供參考的構(gòu)思想法及立題方向;或者在此基礎(chǔ)上延伸思考,激發(fā)出更好的創(chuàng)新與靈感,為合成生物學的發(fā)展做出貢獻。