張?zhí)锟?/p>
7月15日,《自然》和《科學》兩本國際頂尖學術雜志同時刊發(fā)研究結果證明:人工智能軟件對蛋白質(zhì)結構進行測序既快又精確。其中,英國“深度思維”公司研發(fā)的阿爾法折疊(Alpha Fold)在2020年就有驚人成就,現(xiàn)在又升級到阿爾法折疊2,按理說應當足以讓人類為之歡呼鼓舞,然而,遺憾的是,絕大多數(shù)人并不知道阿爾法折疊為何物。
簡單地說,把阿爾法折疊看成阿爾法狗(Alpha Go)的升級版,及其在生命科學中的應用,或者稱其為阿爾法狗的“后浪”,也許讓人更容易理解。阿爾法狗暴得大名是因為2016年戰(zhàn)勝了韓國頂尖職業(yè)圍棋手李世石,以及在2017年戰(zhàn)勝了世界第一圍棋手中國的柯潔。但是,阿爾法折疊的成就可能要假以時日才能為世人所知。
阿爾法折疊也是一個人工智能(AI)軟件,其最大的作用是,既快又準確地測定蛋白質(zhì)的形狀,尤其是3D形狀。
生命的本質(zhì)是蛋白質(zhì),蛋白質(zhì)又是由氨基酸按一定順序結合而成的多肽鏈組成,而且,它們的結構從一維(氨基酸序列)、二維(距離),再到三維(坐標),以無數(shù)方式,折疊成各種精致的形狀,才能完成各種功能和發(fā)揮重要作用。
大量的疾病與蛋白質(zhì)的折疊形狀有千絲萬屢的聯(lián)系。例如,新冠病毒的棘突蛋白(S蛋白)的折疊形式,決定了它入侵人體細胞的速度和致病能力。類似地,普里昂蛋白的折疊形式,也決定了對包括人在內(nèi)的哺乳動物的傳染性海綿狀腦病的致病力和致命性。
從理論上看,一個蛋白質(zhì)從一維到三維,有無數(shù)的折疊方式。早在1969年,美國分子生物學家利文索爾就指出,由于蛋白質(zhì)在未折疊的多肽鏈中有極大的自由度,任何蛋白分子都具有天文數(shù)量的可能構象,其數(shù)量是3的300次方到10的143次方個構型。再加上變異,一些蛋白的構型就更多,如新冠病毒S蛋白的變異。
認識和精確測定蛋白質(zhì)的構型,既要耗費大量的時間和精力,同時也不一定能測得準,這也造成了藥物、疫苗的研發(fā)和疾病治療總要付出艱苦的努力。例如,現(xiàn)在新冠肺炎盡管有了疫苗,但病毒蛋白質(zhì)變異頻繁,如果不能準確認知蛋白的變異結構,就難以再研發(fā)新的疫苗,也很難獲得有效的藥物。迄今,還沒有有效治療新冠肺炎的藥物,原因也在于對病毒蛋白結構認知不清。
既然如此,讓AI來幫助人們認識和精確測定蛋白質(zhì)的結構,就具有重大意義,而且非常實用。雖然人類已經(jīng)測算出人和其他物種的數(shù)10億計的蛋白質(zhì)的氨基酸序列,但截至目前,僅有其中的約10萬個蛋白質(zhì)的結構已經(jīng)用實驗方法得到了解析。
在2020年的5月至7月舉行的第14屆“蛋白質(zhì)結構預測關鍵評估”(CASP14)大賽上,阿爾法折疊2就大放異彩。該比賽要求參賽團隊根據(jù)蛋白質(zhì)的氨基酸序列解析其結構。比賽用的蛋白質(zhì)會先用實驗方法解析出來,具體結果不公開——這聽起來有點兒像阿爾法狗與李世石或柯潔的比賽。
結果,阿爾法折疊2測定的大部分蛋白質(zhì)的結構非常準確,不僅與實驗方法測得的蛋白質(zhì)結構的精確度相同,而且遠超解析新蛋白質(zhì)結構的其他方法。阿爾法折疊2測定的組成蛋白質(zhì)主鏈骨架的疊加原子之間的距離中位數(shù)(95%的覆蓋率)為0.96埃(0.096納米),而成績排第二的方法只能達到2.8埃的準確度。
這意味著,阿爾法折疊2戰(zhàn)勝了所有其他的測定蛋白質(zhì)結構的方式。而且,阿爾法折疊2的神經(jīng)網(wǎng)絡,能在幾分鐘內(nèi)預測出一個典型蛋白質(zhì)的結構,并能夠在幾天內(nèi)生成高精度的結構。
阿爾法折疊2準確測定蛋白質(zhì)結構當然來源于訓練和深度學習。訓練數(shù)據(jù)來自大約17萬個蛋白質(zhì)結構,以及包含未知結構的蛋白質(zhì)序列的大型數(shù)據(jù)庫和神經(jīng)網(wǎng)絡模型結構。其中,模型對蛋白質(zhì)序列以及氨基酸殘基對進行操作,在兩種表征之間迭代傳遞信息以生成結構。因此,阿爾法折疊2如同阿爾法狗一樣,需要深度學習,才能準確測定蛋白質(zhì)結構。
不過,阿爾法折疊2比阿爾法狗更有優(yōu)勢的是,這類AI軟件已經(jīng)形成了集團作戰(zhàn),有更多新技術品種。例如,美國華盛頓大學醫(yī)學院研發(fā)的玫瑰折疊。正如本文開頭所提到的,阿爾法折疊2近期首先在《自然》雜志發(fā)表其成果;同時,玫瑰折疊則在《科學》雜志上發(fā)表。
玫瑰折疊利用深度學習,僅憑有限的信息就能在普通游戲軟件上快速而準確地預測蛋白質(zhì)結構,在短時間內(nèi)就能構建出復雜的生物組建模型。玫瑰折疊是一個“三軌”神經(jīng)網(wǎng)絡,能夠兼顧蛋白質(zhì)序列模式、氨基酸如何相互作用以及蛋白質(zhì)三維結構的可能性。在這種模板中,蛋白質(zhì)的信息在一維、二維和三維之間來回流動,從而推斷蛋白質(zhì)化學部分與折疊結構之間的關系。
比較起來,玫瑰折疊預測蛋白質(zhì)3D結構與阿爾法折疊2的水平幾乎相當,而且速度更快、所需計算機處理能力更低,因此可能更實用。華盛頓大學的研究團隊已經(jīng)用玫瑰折疊計算出了數(shù)百種新的蛋白質(zhì)結構,其中包括許多鮮為人知的人類基因組蛋白,如與脂質(zhì)代謝問題、炎癥紊亂和癌細胞生長相關的蛋白質(zhì)結構。
人體蛋白質(zhì)有成千上萬種,其他物種的蛋白質(zhì)更是多達幾十億種,包括細菌和病毒的蛋白質(zhì)。過去,人類只能用冷凍電鏡(CryoEM)、磁共振(MR)和X射線晶體學等手段,來測定蛋白質(zhì)結構,而且要經(jīng)過大量試錯,才能最終確定蛋白質(zhì)的結構。有些蛋白質(zhì)結構還測不出來,如在蛋白質(zhì)數(shù)據(jù)庫(PDB)中,有4種蛋白質(zhì)無法用磁共振測定結構,包括牛屬甘氨酸N-?;D(zhuǎn)移酶、細菌氧化還原酶、細菌表面層蛋白(SLP)和來自真菌平革菌屬金孢子菌屬的分泌蛋白。
現(xiàn)在,有了阿爾法折疊2和玫瑰折疊,測定蛋白質(zhì)結構就輕松多了。這也為揭開生命現(xiàn)象和本質(zhì),以及研發(fā)無數(shù)戰(zhàn)勝疾病的藥物、疫苗和療法,提供了尖端武器。隨著時間的推移,阿爾法折疊2和玫瑰折疊將比阿爾法狗對人類有更大的貢獻,讓我們有更強大的手段去了解生命的本質(zhì)。