EvolutionaryScale(一家AI新銳公司)的蛋白質(zhì)語言模型ESM3是生物學(xué)領(lǐng)域最大的AI模型之一,已創(chuàng)造出新型熒光蛋白。這一進(jìn)展贏得了市場(chǎng)積極的關(guān)注。
科學(xué)家已經(jīng)使用一個(gè)“能講蛋白質(zhì)語言”的人工智能(AI)模型——它是迄今為止生物學(xué)領(lǐng)域開發(fā)的最大模型之一——生成新式熒光分子。
2024年7月,位于紐約市的EvolutionaryScale宣布了這個(gè)原理驗(yàn)證示范成果,同時(shí)宣布新籌得1.42億美元的資金,未來將把該模型應(yīng)用于藥物開發(fā)、可持續(xù)發(fā)展和其他科研方向。這家公司由之前在科技巨擘Meta公司工作過的幾位科學(xué)家創(chuàng)立,是日益擁擠的研究領(lǐng)域的最新成員。該領(lǐng)域正在將針對(duì)語言和圖像進(jìn)行訓(xùn)練的前沿機(jī)器學(xué)習(xí)模型應(yīng)用于生物數(shù)據(jù)。
“我們想要構(gòu)造能讓生物學(xué)編程成為可能的工具。” EvolutionaryScale的首席科學(xué)家亞歷克斯 · 里夫斯(Alex Rives)說道。他參與了Meta公司將AI應(yīng)用于生物數(shù)據(jù)的科研工作。
EvolutionaryScale的AI工具名叫ESM3,是一種被稱為蛋白質(zhì)語言模型的東西??茖W(xué)家利用超過27億個(gè)蛋白質(zhì)序列和結(jié)構(gòu)以及這些蛋白質(zhì)功能有關(guān)的信息來訓(xùn)練這個(gè)模型。它可以按照用戶提供的規(guī)格生成蛋白質(zhì),類似于ChatGPT之類的聊天機(jī)器人生成文本。
“它將會(huì)成為人人關(guān)注的生物學(xué)AI模型之一?!蓖箍敌谴髮W(xué)麥迪遜分校的計(jì)算生物學(xué)家安東尼 · 吉特(Anthony Gitter)說道。
煥發(fā)光彩
里夫斯和他的同事在Meta公司時(shí)研究了ESM模型更早期的迭代,但在Meta公司終止這個(gè)領(lǐng)域的研究工作之后,他們決定單干。他們此前曾使用ESM-2模型創(chuàng)建了一個(gè)包含6億個(gè)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的免費(fèi)數(shù)據(jù)庫。自那時(shí)起,其他團(tuán)隊(duì)已經(jīng)使用ESM-1的不同版本來設(shè)計(jì)對(duì)抗包括SARS-CoV-2在內(nèi)的病原體時(shí)具有更好活性的抗體,并通過基因工程技術(shù)重新設(shè)計(jì)出“抗CRISPR”蛋白質(zhì),從而提高基因編輯工具的效率。
2024年,另一家生物學(xué)AI公司——位于加州伯克利的Profluent公司——使用自身的蛋白質(zhì)語言模型創(chuàng)造出全新的、由CRISPR激發(fā)的基因編輯蛋白質(zhì),并使其中一個(gè)蛋白質(zhì)可以免費(fèi)獲取使用。
為了展示最新模型,里夫斯的團(tuán)隊(duì)著手徹底革新生物科技中廣泛使用的另一個(gè)工具:綠色熒光蛋白(GFP)。
GFP能夠吸收藍(lán)光,發(fā)出綠光。研究者在20世紀(jì)60年代從水晶水母(Aequorea victoria)中分離出GFP。后來的研究工作——隨著這一發(fā)現(xiàn)獲得諾貝爾獎(jiǎng)——揭示了GFP如何在顯微鏡下標(biāo)記其他蛋白質(zhì),解釋了其發(fā)出熒光的分子基礎(chǔ),還開發(fā)出了發(fā)光更亮、顏色不同的GFP合成版本。
自那時(shí)起,研究者已經(jīng)確定其他有著類似形狀的熒光蛋白質(zhì),這些蛋白質(zhì)都有一個(gè)能吸收光線、發(fā)出光線的“發(fā)色團(tuán)”核心,核心外面包圍著一層桶形支架。里夫斯的團(tuán)隊(duì)要求ESM3生成類似GFP、含有一組在GFP的發(fā)色團(tuán)中找到的關(guān)鍵氨基酸的蛋白質(zhì)實(shí)例。
研究者人工合成出其中88個(gè)最具希望的設(shè)計(jì)對(duì)象,測(cè)量它們發(fā)出熒光的能力。大多數(shù)設(shè)計(jì)都失敗了,但其中一個(gè)設(shè)計(jì)對(duì)象與已知的熒光蛋白質(zhì)不太相似,能發(fā)出淡淡的熒光——大約只有天然形態(tài)的GFP的熒光亮度的1/50。研究者使用這個(gè)分子的序列作為起點(diǎn),再給ESM3派下改進(jìn)工作的命令。等到研究者在得到的設(shè)計(jì)對(duì)象中選出大約100個(gè)合成為蛋白質(zhì)后,發(fā)現(xiàn)其中有好幾個(gè)蛋白質(zhì)的亮度可媲美天然的GFP,但這仍舊比實(shí)驗(yàn)室用基因工程修改得到的變體晦暗了許多。
ESM3設(shè)計(jì)出的最亮的蛋白質(zhì)之一,被命名為esmGFP,被預(yù)測(cè)擁有一種類似天然熒光蛋白質(zhì)的結(jié)構(gòu)。然而,它的氨基酸序列極為不同,與訓(xùn)練數(shù)據(jù)集中最為相近的熒光蛋白質(zhì)的氨基酸序列匹配度不到60%。在bioRxiv服務(wù)器上張貼的一篇預(yù)印本論文中,里夫斯和同事們說,根據(jù)自然突變速率,這種程度的序列差異需要“超過5億年的進(jìn)化”才能實(shí)現(xiàn)。
但是,吉特?fù)?dān)心這種比較是一種毫無意義而且有可能誤導(dǎo)他人的方式,不該這樣來描述前沿AI模型產(chǎn)品。他說:“當(dāng)你把AI和加速進(jìn)化放在一起考慮,這聽上去就很恐怖。我感覺,夸張地宣傳一個(gè)模型做了些什么,可能會(huì)傷害該研究領(lǐng)域,對(duì)于公眾也可能是危險(xiǎn)的?!?/p>
ESM3通過迭代各種不同序列而生成新的蛋白質(zhì),在里夫斯眼中,這個(gè)過程與進(jìn)化類似?!按笞匀粫?huì)需要什么來生成類似這樣的物質(zhì)?我們認(rèn)為,從這個(gè)角度來做思考挺有意思的?!彼a(bǔ)充道。
風(fēng)險(xiǎn)閾值
2023年的一項(xiàng)美國(guó)總統(tǒng)行政命令要求,AI模型在訓(xùn)練時(shí)使用的算力達(dá)到一定閾值,開發(fā)方就要通知美國(guó)政府,并報(bào)告風(fēng)險(xiǎn)緩解措施,而ESM3是第一批被要求這么做的生物學(xué)AI模型之一。EvolutionaryScale表示,公司已經(jīng)聯(lián)系了美國(guó)科學(xué)與技術(shù)政策辦公室。
該版本的ESM3超過了這一閾值,包含將近1000億個(gè)參數(shù)(即模型用來代表序列之間關(guān)系的變量),是無法公開獲取的。對(duì)于較小規(guī)模的開源版本,某些序列(譬如來自病毒的序列,以及來自一份美國(guó)政府列出的、令人憂慮的病原體和毒素清單的序列)被排除在訓(xùn)練數(shù)據(jù)之外。對(duì)外發(fā)布的ESM3-open是無論哪兒的科學(xué)家都能下載和獨(dú)立運(yùn)行的,但無法對(duì)其進(jìn)行升級(jí)并讓它生成那些危險(xiǎn)的蛋白質(zhì)。
馬丁 · 帕斯薩(Martin Pacesa)是瑞士洛桑聯(lián)邦理工學(xué)院的一位結(jié)構(gòu)生物學(xué)家,他對(duì)于開始用ESM3來做研究感到興奮。他指出,ESM3是第一批允許研究者使用自然語言描述蛋白質(zhì)的性質(zhì)與功能、進(jìn)行個(gè)性化設(shè)計(jì)的生物學(xué)模型之一。他也迫不及待地想看到這些特色功能在實(shí)驗(yàn)中表現(xiàn)如何。
EvolutionaryScale發(fā)布了一個(gè)ESM3的開源版本,還清晰地描述最大型版本的ESM3是如何訓(xùn)練的,這些給帕斯薩留下深刻印象。但是,獨(dú)立開發(fā)最大型AI模型需要龐大的計(jì)算資源。他說:“沒有一家大學(xué)實(shí)驗(yàn)室具有復(fù)制它的能力?!?/p>
里夫斯渴望將ESM3應(yīng)用于其他設(shè)計(jì)。帕斯薩參與的一支研究團(tuán)隊(duì)使用另一種蛋白質(zhì)語言模型制造出新的CRISPR蛋白質(zhì),他說在ESM3上做同樣的事會(huì)很有趣。里夫斯希望能把ESM3應(yīng)用于可持續(xù)性發(fā)展(公司網(wǎng)站上的一個(gè)視頻顯示了能蠶食塑料的酶的設(shè)計(jì)方案)、抗體和其他基于蛋白質(zhì)的藥物研發(fā)方面。他說:“它確實(shí)是一個(gè)前沿模型?!?/p>
資料來源 Nature