Sean O’Neill
Senior Technology Writer
2020年11月下旬,谷歌母公司Alphabet旗下子公司DeepMind Technologies(總部位于倫敦,專注于研究人工智能)宣布其AlphaFold系統(tǒng)在僅憑基因序列預(yù)測(cè)蛋白質(zhì)的復(fù)雜形狀方面已達(dá)到“無與倫比的精準(zhǔn)度”(unparalleled levels of accuracy)[1]。這一壯舉遇到生物學(xué)50年來的一個(gè)重大挑戰(zhàn),即預(yù)測(cè)蛋白質(zhì)如何折疊。該挑戰(zhàn)的成功破解預(yù)計(jì)會(huì)對(duì)藥物研發(fā)以及蛋白質(zhì)設(shè)計(jì)的新興領(lǐng)域產(chǎn)生重大影響,甚至可能有助于我們應(yīng)對(duì)新冠病毒肺炎疫情[2],特別是如今迅速出現(xiàn)的多種嚴(yán)重急性呼吸綜合征冠狀病毒2(SARS-CoV-2)變異株[3]。
DeepMind創(chuàng)始人兼時(shí)任首席執(zhí)行官Demis Hassabis表示:“蛋白質(zhì)折疊是生物學(xué)領(lǐng)域中的一個(gè)圣杯問題。我們一直推測(cè)人工智能應(yīng)有助于更快實(shí)現(xiàn)這些重大科學(xué)突破?!?/p>
蛋白質(zhì)是復(fù)雜的大分子,在生物界的各個(gè)方面都起著關(guān)鍵作用。蛋白質(zhì)形狀決定了其功能:血紅蛋白運(yùn)輸營(yíng)養(yǎng)物質(zhì),酶催化化學(xué)反應(yīng),膠原蛋白提供結(jié)構(gòu),胰島素調(diào)節(jié)血糖,抗體提供免疫力。這些蛋白質(zhì)以及其他所有蛋白質(zhì)均由標(biāo)準(zhǔn)遺傳密碼中同一組20種氨基酸以長(zhǎng)鏈相連的方式組成。
蛋白質(zhì)是由生物體或合成過程所產(chǎn)生的氨基酸構(gòu)成,自然扭曲并折疊在一起,形成復(fù)雜形狀,呈彎曲結(jié)構(gòu)、螺旋結(jié)構(gòu)和折疊結(jié)構(gòu)。例如,抗體蛋白質(zhì)為“Y”形,這使其能夠鎖定且有助于中和引起疾病的細(xì)菌或病毒。相反,有害基因突變會(huì)導(dǎo)致產(chǎn)生錯(cuò)誤折疊的非功能性蛋白質(zhì),如囊性纖維化的蛋白質(zhì)。
產(chǎn)生蛋白質(zhì)的密碼包含在脫氧核糖核酸(DNA)內(nèi)。不過,盡管DNA測(cè)序揭示了給定蛋白質(zhì)所包含的氨基酸序列,但是并不能說明它們?nèi)绾握郫B成最終形狀。蛋白質(zhì)序列越大,就越難預(yù)測(cè)其形狀。理論上,典型蛋白質(zhì)分子鏈可折疊成的構(gòu)象是一個(gè)天文數(shù)字,因此使用蠻力去預(yù)測(cè)其形狀幾乎是不可能的[4]。
蛋白質(zhì)折疊問題始于1972年,當(dāng)時(shí),獲得諾貝爾化學(xué)獎(jiǎng)的美國(guó)生物化學(xué)家Christian Anfinsen宣稱蛋白質(zhì)氨基酸序列應(yīng)足以確定其在特定環(huán)境中的折疊形狀[5]。然而,幾十年來,準(zhǔn)確確定靶蛋白形狀的方法只有核磁共振和X射線晶體分析,以及最近的冷凍電子顯微鏡等技術(shù),但是這些方法往往價(jià)格高昂且費(fèi)時(shí)。此類實(shí)驗(yàn)工作可能需要數(shù)年時(shí)間才能描繪出單個(gè)蛋白質(zhì)的形狀,而且無法保證成功。
1994年,為聚集全球科學(xué)家共同解決此問題,美國(guó)馬里蘭大學(xué)細(xì)胞生物學(xué)與分子遺傳學(xué)教授John Moult及其同事開展了一項(xiàng)大型實(shí)驗(yàn),旨在評(píng)估生成蛋白質(zhì)結(jié)構(gòu)的計(jì)算方法[6]。這項(xiàng)工作成為兩年一次的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估(Critical Assessment of Structure Prediction, CASP)活動(dòng),Hassabis稱之為“蛋白質(zhì)折疊領(lǐng)域的奧林匹克競(jìng)賽”。
CASP競(jìng)賽分為三個(gè)滾動(dòng)階段:①收集約100個(gè)靶蛋白,近期實(shí)驗(yàn)室工作已揭露其形狀,但至關(guān)重要的是,尚未發(fā)布成果;②向世界各地的研究團(tuán)隊(duì)提供這些靶蛋白的基因序列,然后使用軟件系統(tǒng)開展工作以預(yù)測(cè)其形狀;③對(duì)提交的預(yù)測(cè)形狀進(jìn)行盲審。CASP主要使用稱為“全局距離測(cè)試”(global distance test, GDT)的度量標(biāo)準(zhǔn)(范圍介于0~100)來判斷預(yù)測(cè)形狀的精準(zhǔn)度。Moult表示,GDT分?jǐn)?shù)在90分左右,即可視為與人類通過實(shí)驗(yàn)方法獲取的結(jié)果相當(dāng)。
自1994年以來,研究進(jìn)展一直穩(wěn)定但緩慢,直到2018年第13屆CASP競(jìng)賽,DeepMind團(tuán)隊(duì)首次參賽并提出早期版本的AlphaFold系統(tǒng) [7]。該團(tuán)隊(duì)以相當(dāng)大的優(yōu)勢(shì)獲勝,在CASP競(jìng)賽中一鳴驚人,但AlphaFold系統(tǒng)預(yù)測(cè)的形狀仍與靶蛋白的實(shí)際結(jié)構(gòu)相去甚遠(yuǎn),其GDT中位數(shù)評(píng)分為59分(圖1)。
然而,在2020年第14屆CASP競(jìng)賽中,DeepMind團(tuán)隊(duì)帶來了經(jīng)過全面改進(jìn)的AlphaFold系統(tǒng),這次結(jié)果驚人。Moult表示:“簡(jiǎn)直不可思議。當(dāng)你看到一個(gè)令人驚訝的預(yù)測(cè)時(shí),你會(huì)想,‘這是怎么回事?’。當(dāng)你擁有三個(gè)或四個(gè)令人難以置信的準(zhǔn)確的結(jié)構(gòu)預(yù)測(cè)時(shí),你就會(huì)意識(shí)到發(fā)生了非常重要的事情?!?/p>
AlphaFold系統(tǒng)在最困難類別中獲得的GDT評(píng)分為87分,在所有靶蛋白中的GDT中位數(shù)評(píng)分為92.4分(圖2)[8]。該系統(tǒng)的平均誤差約為0.16 nm——大約為一個(gè)原子的寬度。為解決這一問題,DeepMind團(tuán)隊(duì)開發(fā)了一種新型的基于注意力的神經(jīng)網(wǎng)絡(luò)系統(tǒng)[9]。在機(jī)器學(xué)習(xí)中,注意力系指模仿人類注意力的設(shè)計(jì),即系統(tǒng)識(shí)別出數(shù)據(jù)的關(guān)鍵方面并賦予這些方面更多權(quán)重,而對(duì)那些它認(rèn)為不太重要的數(shù)據(jù)很少關(guān)注。有關(guān)該深度學(xué)習(xí)系統(tǒng)的具體技術(shù)細(xì)節(jié)尚待分享,但預(yù)計(jì)2021年晚些時(shí)候會(huì)對(duì)相關(guān)論文進(jìn)行同行評(píng)議。AlphaFold系統(tǒng)(圖3)[1]已通過使用蛋白質(zhì)數(shù)據(jù)庫(kù)(PDB)的公開數(shù)據(jù)進(jìn)行了訓(xùn)練,該數(shù)據(jù)庫(kù)包含大約175 000種蛋白質(zhì)結(jié)構(gòu),此外還有包含未知結(jié)構(gòu)蛋白質(zhì)序列的其他大型數(shù)據(jù)庫(kù)。根據(jù)Deep-Mind團(tuán)隊(duì)的說法,訓(xùn)練期需要大約16臺(tái)谷歌TPUv3協(xié)處理器(相當(dāng)于100~200個(gè)圖形處理器)運(yùn)行“數(shù)周”,單個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)計(jì)“在幾天內(nèi)”即可完成[1]。
圖1. 在兩年一度的CASP競(jìng)賽中,獲勝團(tuán)隊(duì)在最困難類別(自由建模類別)中使用GDT預(yù)測(cè)的中位數(shù)精準(zhǔn)度。DeepMind團(tuán)隊(duì)的Alpha-Fold系統(tǒng)在2018年和2020年競(jìng)賽中均排名第一。圖片來源:Deep-Mind,經(jīng)許可。
圖2. AlphaFold系統(tǒng)在第14屆CASP競(jìng)賽中預(yù)測(cè)的幾種蛋白質(zhì)結(jié)構(gòu)(藍(lán)色)與由實(shí)驗(yàn)確定的結(jié)構(gòu)(綠色)相重疊。兩種預(yù)測(cè)結(jié)果高度匹配。RNA:核糖核酸。圖片來源:DeepMind,經(jīng)許可。
圖3. AlphaFold結(jié)構(gòu)概述。DeepMind團(tuán)隊(duì)尚未提供其系統(tǒng)的相關(guān)細(xì)節(jié),但描述了“折疊蛋白質(zhì)如何被認(rèn)為是‘空間圖’的問題,其中氨基酸殘基為節(jié)點(diǎn),并且邊緣將殘基緊密相連”[1]。MSA:多序列比對(duì);3D:三維。圖片來源:DeepMind,經(jīng)許可。
Moult曾聽說,神經(jīng)網(wǎng)絡(luò)是被美化的模式識(shí)別,然而他表示:“AlphaFold系統(tǒng)能夠從其訓(xùn)練中獲得原子級(jí)認(rèn)知的水平是驚人的。其達(dá)到的抽象層次意義深遠(yuǎn)。仿佛這臺(tái)機(jī)器已經(jīng)學(xué)會(huì)了物理學(xué)。在任何涉及蛋白質(zhì)結(jié)構(gòu)的情況中,其可在原子層面得到正確結(jié)果。然而,僅通過識(shí)別訓(xùn)練數(shù)據(jù)中的一組模式無法實(shí)現(xiàn)這一點(diǎn)?!?/p>
該項(xiàng)突破為整個(gè)生物學(xué)領(lǐng)域帶來了機(jī)遇,但其最直接的影響可能是藥物發(fā)現(xiàn)。大多數(shù)藥物通過與體內(nèi)蛋白質(zhì)相結(jié)合而起效,從而觸發(fā)其功能變化。采用諸如AlphaFold這樣的機(jī)器學(xué)習(xí)系統(tǒng),能夠迅速算出靶蛋白的形狀,然后設(shè)計(jì)藥物(或重新利用現(xiàn)有藥物)以有效結(jié)合這些蛋白質(zhì)。
例如,隨著2020年年初新冠病毒肺炎疫情規(guī)模擴(kuò)大,以及后來在第14屆CASP競(jìng)賽中,DeepMind團(tuán)隊(duì)提取了構(gòu)成SARS-CoV-2的幾種蛋白質(zhì)的基因序列,并提供了結(jié)構(gòu)預(yù)測(cè),這些預(yù)測(cè)后來基本都通過實(shí)驗(yàn)得到證實(shí)10]。此類工作有可能加快可阻遏這種疾病的藥物設(shè)計(jì)。實(shí)際上,蛋白質(zhì)設(shè)計(jì)是形狀預(yù)測(cè)的另一方面:一旦機(jī)器對(duì)支撐蛋白質(zhì)折疊的原子過程具有深刻了解,那么設(shè)計(jì)能夠折疊成所需形狀的蛋白質(zhì)就變得更加容易。
美國(guó)華盛頓大學(xué)的蛋白質(zhì)設(shè)計(jì)研究所所長(zhǎng)David Baker表示:“我們一直使用現(xiàn)有蛋白質(zhì)設(shè)計(jì)方法來開發(fā)看起來非常具有前景且已進(jìn)行或即將進(jìn)行臨床試驗(yàn)的新冠病毒肺炎治療劑、疫苗和檢測(cè)裝置。通過改進(jìn)的蛋白質(zhì)設(shè)計(jì),我們應(yīng)該能夠做得更好、更快?!盌avid Baker領(lǐng)導(dǎo)的團(tuán)隊(duì)在第14屆CASP競(jìng)賽上名次僅次于DeepMind團(tuán)隊(duì)[11]。
諸如AlphaFold系統(tǒng)之類的技術(shù)還可用于探索分解工業(yè)廢物或舊塑料的蛋白質(zhì)和酶,如有效吸收大氣中的碳。馬里蘭大學(xué)生物化學(xué)教授及第14屆CASP競(jìng)賽的蛋白質(zhì)結(jié)構(gòu)貢獻(xiàn)者Osnat Herzberg表示:“對(duì)結(jié)構(gòu)生物學(xué)領(lǐng)域的直接影響是巨大的。這些方法會(huì)產(chǎn)生重要醫(yī)學(xué)應(yīng)用,并帶來我們目前無法想象的技術(shù)進(jìn)步?!?/p>
倫敦大學(xué)學(xué)院生物信息學(xué)教授兼生物信息學(xué)團(tuán)隊(duì)負(fù)責(zé)人David Jones的看法則更為謹(jǐn)慎。Jones表示:“這樣的結(jié)果使人們意識(shí)到,機(jī)器學(xué)習(xí)可在機(jī)器視覺和自然語言處理的領(lǐng)域之外產(chǎn)生巨大影響。但我并不相信僅僅因?yàn)槲覀儸F(xiàn)在可以比以往任何時(shí)候能更精確地對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行建模,我們就會(huì)有新的疾病治療方法。重要的是,在能夠確定其能力或局限性之前,我們需要在許多不同條件下對(duì)諸如這樣復(fù)雜的系統(tǒng)進(jìn)行測(cè)試?!?/p>