吳 迪 美國(guó)梅奧醫(yī)學(xué)中心生化與分子生物學(xué)系研究專(zhuān)員,博士
生命科學(xué)研究中的不確定性可以讓生物學(xué)研究涌現(xiàn)新發(fā)現(xiàn);源源不斷產(chǎn)生的數(shù)據(jù)可以驅(qū)動(dòng)算法的產(chǎn)生,揭秘或預(yù)測(cè)生物學(xué)研究中的未知空間。
生命科學(xué)在技術(shù)研究上的突飛猛進(jìn)使許多生物學(xué)問(wèn)題有了通用的解決方案,也使人們認(rèn)識(shí)到生命科學(xué)基礎(chǔ)理論的巨大未知空間。如何從復(fù)雜多變的生物現(xiàn)象中整理出若干基本的原理?生命科學(xué)能否像物理學(xué)那樣成為精密科學(xué)?實(shí)際上,生命中存在多種不確定性和多樣性。不確定性的存在增加了生命科學(xué)研究的難度,但是它也可以轉(zhuǎn)變?yōu)閺?qiáng)大的工具,讓生物學(xué)研究不斷涌現(xiàn)新發(fā)現(xiàn)。同時(shí),源源不斷產(chǎn)生的數(shù)據(jù)給生物學(xué)研究帶來(lái)了巨大的未知空間。那么,這種空間背后的奧秘如何揭曉就需要引入對(duì)應(yīng)的算法。
計(jì)算結(jié)構(gòu)生物學(xué)研究如何通過(guò)肽鏈的氨基酸序列推斷出蛋白質(zhì)的空間構(gòu)象,從而設(shè)計(jì)出有新功能的蛋白質(zhì)。蛋白質(zhì)的空間構(gòu)象是由其原子間的相互作用產(chǎn)生的,而原子間的相互作用可以通過(guò)物理學(xué)計(jì)算。但是,當(dāng)?shù)鞍踪|(zhì)中的原子數(shù)量較多時(shí),通過(guò)精確計(jì)算去預(yù)測(cè)和設(shè)計(jì)蛋白質(zhì)的功能將會(huì)極為困難。倘若通過(guò)人工分子進(jìn)化模擬自然進(jìn)化過(guò)程,有可能在合理的時(shí)間內(nèi)得到有目標(biāo)功能的突變蛋白質(zhì)。這種方法是在天然蛋白質(zhì)的編碼基因中引入隨機(jī)突變,每種突變對(duì)蛋白質(zhì)功能的影響是不確定的,其中個(gè)別蛋白質(zhì)突變體可能會(huì)產(chǎn)生類(lèi)似于目標(biāo)功能的突變蛋白質(zhì)。之后,通過(guò)功能富集得到這類(lèi)蛋白質(zhì)的突變體,并在此基礎(chǔ)上進(jìn)行新一輪蛋白質(zhì)的隨機(jī)突變和篩選。如此反復(fù)迭代,使突變蛋白質(zhì)的功能逐漸接近目標(biāo)功能的蛋白質(zhì)。綠色熒光蛋白質(zhì)的進(jìn)化為其中一個(gè)典型的例子。
蛋白質(zhì)突變的引入都是隨機(jī)的,沒(méi)有任何預(yù)設(shè)目標(biāo)。一旦有了預(yù)設(shè)目標(biāo),就會(huì)遺漏那些可能更加重要的突變。這種方法論實(shí)際上是一種無(wú)序的窮舉法,利用隨機(jī)性在搜索空間中進(jìn)行均勻分布的取樣嘗試。此外,這種方法還要結(jié)合一種反饋機(jī)制,即對(duì)每一次嘗試的結(jié)果進(jìn)行打分。例如,人工分子的進(jìn)化是對(duì)突變蛋白質(zhì)的功能打分,得高分者勝出,得低分者則被淘汰——馬太效應(yīng)。
面對(duì)復(fù)雜的多因素系統(tǒng),利用算法有時(shí)能快速取得成功。其中,人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的應(yīng)用已經(jīng)說(shuō)明,由數(shù)據(jù)驅(qū)動(dòng)的算法確實(shí)可以解決很多實(shí)際問(wèn)題。美國(guó)博德研究所(Broad Institute)的癌癥依賴(lài)性基因圖譜計(jì)劃(The cancer dependency map)假設(shè),每種癌細(xì)胞都有自己的弱點(diǎn),那就是它的生長(zhǎng)可能會(huì)比正常細(xì)胞更加依賴(lài)于某一類(lèi)基因的表達(dá),所以找到這一類(lèi)基因并且抑制它們就有可能特異性地殺傷這種癌細(xì)胞。目前,這一計(jì)劃的初步結(jié)果已經(jīng)發(fā)布。從這些結(jié)果來(lái)看,不同癌細(xì)胞確實(shí)有著不同的基因依賴(lài)性,某些依賴(lài)性可能與癌細(xì)胞已有的突變背景有關(guān),但是還未能總結(jié)出規(guī)律。這似乎說(shuō)明癌癥的分子機(jī)制確實(shí)難以用同一個(gè)模型進(jìn)行概括。因此,盡可能多地搜集不同癌細(xì)胞的基因依賴(lài)性特征才可能發(fā)展出針對(duì)不同腫瘤的個(gè)性化治療方案。這項(xiàng)計(jì)劃揭示了癌細(xì)胞的異質(zhì)性和復(fù)雜性,肯定了數(shù)據(jù)驅(qū)動(dòng)研究的優(yōu)勢(shì)。