謝天謝地,今年10月上旬頒布的諾貝爾文學獎未給到ChatGPT—在今年諾獎科學獎的角逐里,AI已經(jīng)出盡了風頭。
10月8日,“AI教父”斬獲物理學獎,輿論嘩然;9日,化學獎評選委員會再接再厲,將獎項頒發(fā)給AI在解析蛋白質(zhì)結(jié)構(gòu)和設(shè)計中的顛覆性應(yīng)用。
諾貝爾化學獎一半授予美國生物化學家、華盛頓大學蛋白設(shè)計所主任David Baker,他開發(fā)一種算法,從頭開始設(shè)計全新的蛋白質(zhì),堪比創(chuàng)造生物的“上帝之手”;另一半授予谷歌DeepMind首席執(zhí)行官Demis Hassabis和谷歌DeepMind高級研究科學家John M. Jumper,他們應(yīng)用AlphaFold,從氨基酸序列預(yù)測幾乎所有已知的2億種蛋白質(zhì)的三維結(jié)構(gòu),作為兩位AI工業(yè)界人士,達成了生物化學家們50多年來的夙愿。
網(wǎng)友戲言,這屆諾獎科學獎,人類一敗涂地。不是“組委會真的太懂流量”,是通過計算和人工智能“給家人們把時間和價格打下來”,極大提升蛋白質(zhì)研究的效率,這對人類來說是最大的福祉。
在“下一步,經(jīng)濟學獎給黃仁勛,格萊美給Suno,奧斯卡給Sora”的調(diào)侃聲里,我們的確持續(xù)見證著AI改變世界的浪潮。
讀過高中生物的朋友們都知道,一切生命活動都離不開蛋白質(zhì),它們通常由20種氨基酸組成,氨基酸以存儲在DNA中的信息作為藍圖,在細胞中“組合”“連接”成長鏈。
接下來就是見證蛋白質(zhì)奇跡的時刻:氨基酸鏈會扭曲并折疊成獨特的三維結(jié)構(gòu),正是這種結(jié)構(gòu)賦予了蛋白質(zhì)特異的生物功能,使其成為生命的基本單元。
有些蛋白質(zhì)可以構(gòu)建肌肉、角或羽毛,有些則可能成為激素或抗體,還有蛋白質(zhì)會形成酶,或在細胞表面充當其與其周圍環(huán)境間的信號傳遞通道。
19世紀以來,化學家們就意識到蛋白質(zhì)對生命的重要性,但直到20世紀50年代,化學工具才足夠精確,此后蛋白質(zhì)結(jié)構(gòu)研究成為諾獎“頂流”領(lǐng)域。
借助X射線晶體學(X-ray crystallography)方法于50年代末首次呈現(xiàn)出蛋白質(zhì)的三維模型的成就,劍橋的科學家于1962年獲頒諾貝爾化學獎。但這種方法相當耗時,此后研究人員付出了大量努力,繪制出了約20萬種不同蛋白質(zhì)的圖像。
同期,美國科學家Christian Anfinsen通過各種化學技巧,成功使一個現(xiàn)有蛋白質(zhì)展開然后再次折疊起來。有趣的是,蛋白質(zhì)每次都呈現(xiàn)出完全相同的形狀。
1961年他得出結(jié)論,蛋白質(zhì)的三維結(jié)構(gòu)完全由氨基酸序列決定,這項發(fā)現(xiàn)使他在1972年獲得了諾貝爾化學獎。
但另一位美國科學家Cyrus Levinthal提出了質(zhì)疑:即使一個蛋白質(zhì)只由100個氨基酸組成,理論上該蛋白質(zhì)至少可以呈現(xiàn)10×47種不同的三維結(jié)構(gòu)。如果氨基酸鏈是隨機折疊的,找到正確結(jié)構(gòu)的時間會比宇宙年齡還要長,但這在細胞中僅需幾毫秒。
那么氨基酸鏈究竟是如何折疊的呢?Anfinsen的發(fā)現(xiàn)和Levinthal的質(zhì)疑共同指向了一個事實:氨基酸鏈折疊是一個預(yù)定的過程,更重要的是,關(guān)于蛋白質(zhì)如何折疊的所有信息,一定存在于氨基酸序列中。
這意味著,如果化學家知道蛋白質(zhì)的氨基酸序列,就應(yīng)該能夠預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。一旦如此,他們就不必使用繁瑣的X射線晶體學來預(yù)測蛋白質(zhì)結(jié)構(gòu)了,畢竟過去,弄清一個晶體結(jié)構(gòu)往往都會消耗一個博士生的整個求學生涯。這可以節(jié)省大量時間,還能夠為不適用X射線晶體學的蛋白質(zhì)生成結(jié)構(gòu)。
1994年起,蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估(CASP)項目應(yīng)運而生,變成一場比賽。每隔一年,研究人員都可以獲得結(jié)構(gòu)剛被測定的蛋白質(zhì)的氨基酸序列,挑戰(zhàn)是基于已知的氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)。
但多年來,研究人員的預(yù)測準確性最高只有40%,直到2018年,國際象棋天才、深度學習“元老”、AlphaGo親爹Demis Hassabis下場參賽了。
闖入“蛋白質(zhì)奧運會”前,Hassabis已經(jīng)在棋盤、游戲和創(chuàng)投領(lǐng)域大殺四方。
他4歲開始學國際象棋,8歲用國際象棋比賽獎金買來的電腦編程開發(fā)了棋盤游戲奧賽羅(Othello),13歲時就成為這個年齡組的世界第二,17歲時負責的游戲項目《主題公園》爆火。
過去,弄清一個晶體結(jié)構(gòu)往往都會消耗一個博士生的整個求學生涯。
他一直在思索“大腦是如何學會掌握復(fù)雜任務(wù)的”“電腦也能做到同樣程度嗎”,在2015年的采訪中他表示:“事實上我的整個職業(yè)生涯,包括我開發(fā)游戲的時候,都是為了最終成立AI公司。少年的時候我就決定,AI會是最有趣和最重要的事業(yè)。”
2010年,他共同創(chuàng)立了DeepMind,2014年被谷歌收購,2016至2017年,AlphaGo擊敗人類圍棋世界冠軍,更是使Hassabis的深度學習事業(yè)聲名大噪。
其實Hassabis19歲才開始學圍棋,目前水平也只是“剛?cè)腴T”的業(yè)余1段,圍棋只是他開發(fā)更好人工智能模型的手段。2018年,他的團隊攜第一代AlphaFold以近60%的準確率獲得第13屆CASP冠軍。
這是意想不到的進步,但要投入實際應(yīng)用,預(yù)測必須達到90%準確率。Hassabis遭遇技術(shù)瓶頸之時,一位2017年入職Deepmind的新員工John Jumper提出了對AlphaFold改進的突破性想法。
John Jumper原本基于對宇宙的迷戀鉆研物理和數(shù)學,2008年,他在D.E. Shaw Research找到一份工作,負責開發(fā)用于蛋白質(zhì)模擬的超級計算機。帶著對蛋白質(zhì)的新興趣,他于2011年開始攻讀理論物理博士學位。因為學校供應(yīng)的計算機配置不足,他開始開發(fā)更簡單巧妙的方法做蛋白質(zhì)模擬。
2017年博士畢業(yè)時,他聽說谷歌DeepMind在高度保密的情況下做蛋白質(zhì)結(jié)構(gòu)預(yù)測,便提交了工作申請。那時他應(yīng)該很難想象,這一決定會帶他博士畢業(yè)七年速通諾獎,成為諾獎歷史上首位“80后”得主。
團隊停滯不前后,Jumper和Hassabis共同領(lǐng)導了AlphaFold2的開發(fā)。得益于算法革新,AlphaFold2不再沿用AlphaFold中的卷積神經(jīng)網(wǎng)絡(luò),而是采取Transformer架構(gòu),在所有已知蛋白質(zhì)結(jié)構(gòu)和氨基酸序列的龐大數(shù)據(jù)庫中訓練,將未知結(jié)構(gòu)的氨基酸序列輸入AlphaFold2,在迭代中細化序列分析和氨基酸彼此之間的距離圖。
生物化學領(lǐng)域50年來在蛋白質(zhì)折疊問題上的挑戰(zhàn)結(jié)束了。
在2020年的CASP,研究人員將實驗方法得到的蛋白質(zhì)結(jié)構(gòu)疊加在AlphaFold2的結(jié)構(gòu)上,組成蛋白質(zhì)主鏈骨架的疊加原子之間的距離中位數(shù)(95%的覆蓋率)為0.96埃(0.096納米)。這意味著,預(yù)測的蛋白質(zhì)結(jié)構(gòu)能達到原子水平的準確度—生物化學領(lǐng)域50年來在蛋白質(zhì)折疊問題上的挑戰(zhàn)結(jié)束了。
2021年7月,DeepMind向全世界開源了AlphaFold2。AlphaFold能夠“在幾秒或幾分鐘內(nèi)相當準確地預(yù)測蛋白質(zhì)的結(jié)構(gòu)”,Hassabis在接受美聯(lián)社采訪時表示,這為研究人員省去了“可能需要數(shù)年才能完成的繁瑣實驗工作”。
AlphaFold2能夠預(yù)測幾乎所有已知的2億種蛋白質(zhì)的結(jié)構(gòu)。目前,來自190個國家的200多萬人都用上了AlphaFold2,相當一批資金有限的科研者也有了機會借助工具分析數(shù)據(jù)并從中發(fā)現(xiàn)模式和結(jié)構(gòu),參與到高水平的科研中。
今年5月,AlphaFold3再登《自然》雜志,基于Diffusion架構(gòu),將技術(shù)延伸到蛋白質(zhì)折疊之外,能以原子級精度準確預(yù)測蛋白質(zhì)、DNA、RNA、配體等生命分子的結(jié)構(gòu)及相互作用。
Hassabis在獲獎后透露:“我們即將完成AlphaFold3的代碼清理工作,并計劃將其向?qū)W術(shù)界開放,供自由使用,之后我們將繼續(xù)前行。”
2020年12月4日,AlphaFold2在CASP取得爆炸性突破,CASP創(chuàng)始人之一John Moult在比賽結(jié)束時發(fā)問“接下來呢?”
與兩位人工智能研究者分享諾獎的另一位CASP參與者David Baker,正在蛋白質(zhì)結(jié)構(gòu)預(yù)測“反向操作”的道路上行走。
當Baker開始在哈佛大學學習時,他選擇了哲學和社會科學。然而一本《細胞分子生物學》第一版改變了他的人生方向。他對蛋白質(zhì)結(jié)構(gòu)產(chǎn)生了濃厚的興趣,開發(fā)了預(yù)測蛋白質(zhì)結(jié)構(gòu)的計算機軟件Rosetta,并借助Rosetta在1998年首次參加CASP比賽時,領(lǐng)先于其他參與者。
Baker的團隊意識到,使用Rosetta,他們應(yīng)該能夠輸入蛋白質(zhì)空間結(jié)構(gòu)的“設(shè)計圖紙”,讓計算機反推出對應(yīng)的氨基酸序列,按照序列進行合成就可以得到人們想要的、具有特定功能的新蛋白質(zhì)。
過去科學家們無法憑空設(shè)計一種新蛋白質(zhì),只能改造自然界已經(jīng)存在的蛋白質(zhì),Baker想要從頭開始創(chuàng)造。他表示:“如果你想制造飛機,你不會從修改鳥開始,而是基于對空氣動力學基本原理的理解,制造飛行機器?!?/p>
2003年時,Baker首次利用軟件創(chuàng)造出了一個與天然蛋白質(zhì)截然不同的新蛋白質(zhì)Top7。Rosetta搜索了所有已知蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)庫,尋找與所需結(jié)構(gòu)相似的短片段,優(yōu)化并提出一個氨基酸序列,經(jīng)X射線晶體學方法比對,其開發(fā)的蛋白質(zhì)Top7幾乎與他們設(shè)計的結(jié)構(gòu)完全一致。
此后,他們不斷從頭創(chuàng)造出新的富有想象力的蛋白質(zhì),催生新的納米材料、藥物、疫苗、微型傳感器和更環(huán)保的化學工業(yè)。獲獎當天,諾獎委員會聯(lián)系到了Baker,他認為自己是站在巨人肩膀上取得了這些成果,AI已經(jīng)為科學進步做出了巨大的貢獻。
“Demis和John在蛋白質(zhì)結(jié)構(gòu)預(yù)測上的突破,真正讓我們看到了人工智能的巨大潛力,”Baker說道,“這也促使我們開始將人工智能方法應(yīng)用于蛋白質(zhì)設(shè)計?!?/p>
預(yù)測和設(shè)計的兩組科學家相互借鑒了對方的成果。諾獎新聞發(fā)布會上,Hassabis和Jumper表示,他們的研究只是人工智能輔助技術(shù)的開端,這種技術(shù)可以將醫(yī)療手段的開發(fā)周期從數(shù)年縮短至幾個月,同時幫助研究人員理解生物學中的基本機制。
“我認為人工智能有潛力成為加速科學研究和知識發(fā)展的終極工具,希望AlphaFold是第一個樣例?!盚assabis在與諾獎官方通話中表示,“最好的科學家和這類工具將能夠做出令人難以置信的成果?!?/p>
通話中,Jumper視自己為計算生物學家,并稱:“我們需要計算來解決生物學的問題。我只是很高興它開始奏效了,我簡直不敢相信我們這么快就得到了認可?!?/p>
好在,諾獎也怕錯過,果斷將AI在蛋白質(zhì)結(jié)構(gòu)與設(shè)計上的突破進展趕早收入囊中。
AI for Science的時代,交叉學科爆發(fā),基礎(chǔ)科學接納并認可了機器學習這一潛能無限同時伴隨著發(fā)散和不確定性的領(lǐng)域,新的科研范式正在形成并將帶來深遠的影響。
頒獎前,Jumper覺得自己只有10%的獲獎概率,他原本的計劃是睡個懶覺,等醒來那刻便知道自己是否獲獎,但這個計劃并未成功,“因為睡那么久實在很難熬”。
他在線看了化學獎直播,并自拍錄下了自己的歡呼:“真高興你們都跟上了!”
責任編輯 向由 吳陽煜 wyy@nfcmag.com