李亞玲,包芊穎,黃成鳳
1.之江實(shí)驗(yàn)室發(fā)展戰(zhàn)略與合作中心,浙江 杭州 3111212;2.之江實(shí)驗(yàn)室智能社會(huì)治理實(shí)驗(yàn)室 (浙江省哲學(xué)社會(huì)科學(xué)試點(diǎn)實(shí)驗(yàn)室),浙江 杭州 311121)
科研范式是科技創(chuàng)新的基本理論和方法,是特定歷史時(shí)期科學(xué)共同體進(jìn)行科學(xué)研究的方式,與科技創(chuàng)新的內(nèi)在規(guī)律要求相適應(yīng)[1]。傳統(tǒng)科研范式經(jīng)歷了以下四個(gè)階段的演化發(fā)展歷程[2]:第一階段為經(jīng)驗(yàn)范式,主要通過(guò)實(shí)驗(yàn)描述自然現(xiàn)象;第二階段為理論范式,主要通過(guò)模型或歸納法進(jìn)行科學(xué)研究;第三階段為計(jì)算范式,是指使用計(jì)算機(jī)進(jìn)行仿真模擬來(lái)解決各個(gè)學(xué)科中的問(wèn)題;第四階段為數(shù)據(jù)范式,也稱(chēng)為數(shù)據(jù)密集型科學(xué),是指通過(guò)大數(shù)據(jù)分析研究事物內(nèi)在的因果關(guān)系和相關(guān)關(guān)系,從而得到結(jié)論。在科學(xué)發(fā)展的特定時(shí)期,通常由一種范式主導(dǎo)。隨著主導(dǎo)范式被廣泛接受和長(zhǎng)期應(yīng)用,往往會(huì)出現(xiàn)當(dāng)前范式難以解釋的科學(xué)發(fā)現(xiàn)。當(dāng)主導(dǎo)范式難以解決的問(wèn)題逐漸積累到引發(fā)質(zhì)變時(shí),新的科研范式呼之欲出,并逐漸取代舊范式[3]。科研范式發(fā)生變革時(shí)新舊范式更迭,從而推動(dòng)科學(xué)理論實(shí)現(xiàn)跨越式發(fā)展。科研范式的轉(zhuǎn)換往往伴隨著科學(xué)革命,即科學(xué)技術(shù)的核心理論發(fā)生全局性、根本性、顛覆性變革。新的概念、理論取代原有的概念和理論,用來(lái)指導(dǎo)科學(xué)實(shí)踐,進(jìn)而引發(fā)社會(huì)生活領(lǐng)域的革命性改變。
隨著人工智能技術(shù)和現(xiàn)代科學(xué)的發(fā)展,人工智能技術(shù)在科學(xué)研究中的應(yīng)用逐漸進(jìn)入爆發(fā)期。背后推動(dòng)契機(jī)既包括原有科研范式發(fā)展瓶頸積累的需求,也得益于人工智能在數(shù)據(jù)、算法和算力基礎(chǔ)設(shè)施上的全面突破。
其一,需求基礎(chǔ)。原有科研范式難以解決數(shù)據(jù)爆炸背景下的科學(xué)問(wèn)題求解,隨著數(shù)據(jù)量的增長(zhǎng),數(shù)據(jù)不確定性、數(shù)據(jù)復(fù)雜性、數(shù)據(jù)維度爆炸、數(shù)據(jù)尺度邊界等問(wèn)題日益突出。上述困境亟需智能技術(shù)的引入,將人的決策與機(jī)器智能相融合,從而有效結(jié)合數(shù)據(jù)科學(xué)和計(jì)算智能,形成廣泛的人機(jī)協(xié)同決策機(jī)制。
其二,數(shù)據(jù)基礎(chǔ)。隨著科研管理的數(shù)字化轉(zhuǎn)型,科研數(shù)據(jù)的積累初具規(guī)模,在部分領(lǐng)域形成了可供智能技術(shù)分析和應(yīng)用的科研大數(shù)據(jù)集。以生物學(xué)為例,開(kāi)源蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù) (Protein Data Bank,PDB)中包含20.3萬(wàn)個(gè)蛋白結(jié)構(gòu)和106.8萬(wàn)個(gè)計(jì)算模型;病毒基因數(shù)據(jù)庫(kù)GISAID中已包含超過(guò)1660萬(wàn)個(gè)病毒基因組序列 (截至2024年3月12日);ZINC化合物數(shù)據(jù)庫(kù)包含14億個(gè)分子。
其三,算法基礎(chǔ)。人工智能技術(shù)在以ChatGPT為代表的大型自然語(yǔ)言處理模型領(lǐng)域的技術(shù)爆發(fā),給科研工作提供了新的輔助工具。例如,目前已出現(xiàn)基于ChatGPT的論文自動(dòng)閱讀和重點(diǎn)提煉工具、科技論文潤(rùn)色、實(shí)驗(yàn)流程設(shè)計(jì)等輔助工具。
其四,算力基礎(chǔ)。隨著集成電路產(chǎn)業(yè)的迅速發(fā)展,芯片先進(jìn)制造技術(shù)在不斷突破,過(guò)去數(shù)十年來(lái),CPU的性能按照摩爾定律逐漸逼近物理極限。GPU、TPU等新型計(jì)算芯片層出不窮,高性能GPU成為構(gòu)建大規(guī)模生成式預(yù)訓(xùn)練模型的重要基礎(chǔ)設(shè)施,為人工智能技術(shù)的進(jìn)一步應(yīng)用提供了基礎(chǔ)條件。
數(shù)字時(shí)代開(kāi)啟以來(lái),以深度學(xué)習(xí)為代表的智能技術(shù)為科學(xué)研究帶來(lái)了新的方法和通用工具,正驅(qū)動(dòng)科研范式發(fā)生新的變革。例如,AlphaFold 2模型成功預(yù)測(cè)了98.5%的人類(lèi)蛋白質(zhì)結(jié)構(gòu),具有原子級(jí)準(zhǔn)確度,與復(fù)雜結(jié)構(gòu)生物學(xué)實(shí)驗(yàn)的結(jié)果相媲美;DeePMD-kit模型結(jié)合機(jī)器學(xué)習(xí)、高性能計(jì)算和物理建模,在保持高精度的同時(shí)將分子動(dòng)力學(xué)推向10億個(gè)原子的極限;FourCastNet模型基于新型算子學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將天氣預(yù)報(bào)提速了45000倍。上述實(shí)踐表明,人工智能技術(shù)能夠顯著加速科學(xué)發(fā)現(xiàn)和科技創(chuàng)新的過(guò)程,但其具體作用機(jī)制仍不清晰。為了闡明智能技術(shù)驅(qū)動(dòng)科研范式變革的具體機(jī)制和路徑,國(guó)內(nèi)外學(xué)者展開(kāi)了一些研究。孫蒙鴿等[4]提出科學(xué)研究的 “第五范式”,將人的決策與數(shù)據(jù)分析相融合,從而結(jié)合數(shù)據(jù)科學(xué)和計(jì)算智能。胡志剛等[5]提出將商業(yè)智能技術(shù)引入科研管理,以賦能科技政策的制定和科研事務(wù)管理。張?zhí)m等[6]提出智能科研助手的概念,用于科技信息深度挖掘、學(xué)科知識(shí)拓展發(fā)現(xiàn)、科研假設(shè)輔助生成、科研實(shí)驗(yàn)智能控制、研究成果智能整合,以提高科研效能。Berens等[7]提出人工智能技術(shù)對(duì)科研范式的變革潛力源于其跨學(xué)科的通用性,通過(guò)融合智能技術(shù)和領(lǐng)域?qū)I(yè)知識(shí)實(shí)現(xiàn)人機(jī)協(xié)作。Van Dis 等[8]探討了ChatGPT對(duì)科學(xué)研究的賦能方式,并提出確保ChatGPT被負(fù)責(zé)任地使用的若干舉措。Berdejo-Espinola等[9]指出,人工智能技術(shù)提供了高質(zhì)量、易觸達(dá)的科研工具,如英語(yǔ)編輯工具,從而有助于促進(jìn)科學(xué)公平??傮w而言,現(xiàn)有研究多集中于科研數(shù)字化層次,聚焦科研流程的特定環(huán)節(jié),或局限于特定學(xué)科技術(shù)層面的綜述研究,人工智能技術(shù)驅(qū)動(dòng)科研范式變革的具體機(jī)制和路徑仍有待闡明和提出。
人工智能技術(shù)驅(qū)動(dòng)科研范式變革的具體路徑主要有三個(gè)層面,一是通過(guò)重塑知識(shí)生產(chǎn)過(guò)程,加速知識(shí)產(chǎn)生的速度;二是通過(guò)再造科學(xué)研究的工作流程,提高科研流程的效率;三是通過(guò)加速交叉融合創(chuàng)新,激發(fā)創(chuàng)新活力。
隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜等一系列關(guān)于知識(shí)工程的技術(shù)或算法的出現(xiàn),智能技術(shù)逐漸被用于知識(shí)發(fā)現(xiàn)和生產(chǎn)過(guò)程。智能算法從大量數(shù)據(jù)集中學(xué)習(xí)形成知識(shí)或是由機(jī)器感知外部環(huán)境獲取數(shù)據(jù)來(lái)發(fā)現(xiàn)知識(shí),逐漸顛覆了人類(lèi)傳統(tǒng)知識(shí)創(chuàng)造依靠經(jīng)驗(yàn)、認(rèn)知乃至直覺(jué)的方式。在數(shù)據(jù)與技術(shù)的雙重推動(dòng)下,知識(shí)生產(chǎn)主體和知識(shí)生產(chǎn)方式都發(fā)生了巨大變化。
在知識(shí)生產(chǎn)主體層面,知識(shí)生產(chǎn)主體不再限于人類(lèi),呈現(xiàn)人、智能機(jī)器和人機(jī)協(xié)同三者共生的形態(tài)。智能機(jī)器延展了知識(shí)生產(chǎn)的視野,使得知識(shí)生產(chǎn)主體不再局限于科學(xué)界精英所組成的科學(xué)共同體,甚至不限于人類(lèi),而是擴(kuò)展到機(jī)器。人類(lèi)不再是唯一的知識(shí)生產(chǎn)和擁有者,智能機(jī)器也具有同樣的能力。例如,麻省理工學(xué)院的研究團(tuán)隊(duì)完全依靠深度學(xué)習(xí)網(wǎng)絡(luò),從超過(guò) 1.07 億種分子中識(shí)別出強(qiáng)大的新型抗生素分子halicin,可對(duì)抗多種細(xì)菌[10]。DeepMind團(tuán)隊(duì)的最新研究成果表明,人工智能可以用于協(xié)助數(shù)學(xué)家發(fā)現(xiàn)數(shù)學(xué)研究前沿的定理和猜想[11],甚至能夠通過(guò)強(qiáng)化學(xué)習(xí)從頭開(kāi)始發(fā)現(xiàn)增強(qiáng)的排序算法[12]。
在知識(shí)生產(chǎn)方式層面,從依靠推理和感知獲取知識(shí)轉(zhuǎn)變?yōu)橹悄芗夹g(shù)支撐下的大數(shù)據(jù)知識(shí)發(fā)現(xiàn)與生產(chǎn)方式。傳統(tǒng)的知識(shí)生產(chǎn)方式一般有以下三種:一是演繹法,由人腦的演繹和綜合推理獲得理性知識(shí);二是歸納法,由感知經(jīng)驗(yàn)歸納和總結(jié)形成知識(shí);三是演繹法和歸納法結(jié)合,將感知經(jīng)驗(yàn)作為認(rèn)知基礎(chǔ),結(jié)合演繹、歸納和類(lèi)比形成知識(shí)。隨著數(shù)字時(shí)代的發(fā)展,人類(lèi)社會(huì)已有的知識(shí)乃至人類(lèi)社會(huì)化行為都可以被智能技術(shù)數(shù)字化、符號(hào)化為數(shù)據(jù)表達(dá),并能被智能算法學(xué)習(xí)和靈活應(yīng)用。例如,AlphaGO在機(jī)器學(xué)習(xí)算法支持下從預(yù)置的大量人類(lèi)棋手棋局模板中學(xué)習(xí)圍棋知識(shí),實(shí)現(xiàn)了人機(jī)較量; “微軟小冰”通過(guò)學(xué)習(xí)人類(lèi)已經(jīng)廣泛流傳的詩(shī)歌、音樂(lè)和美術(shù)等作品實(shí)現(xiàn)藝術(shù)創(chuàng)作,甚至舉辦了畫(huà)展、出版了個(gè)人繪畫(huà)作品集。數(shù)據(jù)成為新的知識(shí)生產(chǎn)原料,打破了傳統(tǒng)以主觀經(jīng)驗(yàn)為主導(dǎo)的知識(shí)生產(chǎn)局限,走向以客觀數(shù)據(jù)為主導(dǎo)的規(guī)律探索與知識(shí)發(fā)現(xiàn)方式。智能技術(shù)參與知識(shí)生產(chǎn),加速了群智協(xié)同的分布式知識(shí)創(chuàng)造進(jìn)程。人工智能的介入使得知識(shí)生產(chǎn)得以自動(dòng)化,知識(shí) “生成”的速度和效率均獲得極大提升。
新時(shí)代的科學(xué)研究離不開(kāi)人工智能的輔助,人工智能將成為繼計(jì)算機(jī)之后的新生產(chǎn)工具,帶來(lái)效率的顯著提升。人工智能伴隨科研的全流程,從假設(shè)、實(shí)驗(yàn)到歸納總結(jié),有效提高了科研工作效率,大大縮短了科研流程 (見(jiàn)表1)。
表1 人工智能賦能科研工作流程的三大環(huán)節(jié)
一是實(shí)驗(yàn)設(shè)計(jì)環(huán)節(jié)。在文獻(xiàn)查找環(huán)節(jié),人工智能可用于文獻(xiàn)自動(dòng)查找和摘要抽取,從而大幅節(jié)省文獻(xiàn)閱讀時(shí)間。通過(guò)對(duì)文獻(xiàn)主題分布、學(xué)者合作網(wǎng)絡(luò)的深度分析,可以進(jìn)一步把握特定領(lǐng)域的研究熱點(diǎn),以輔助科研工作者確定研究方向。以ChatGPT為例,通過(guò)與ChatGPT的對(duì)話,科學(xué)家可以得到關(guān)于實(shí)驗(yàn)設(shè)計(jì)的新穎想法及潛在問(wèn)題的預(yù)測(cè),甚至可以在設(shè)計(jì)過(guò)程中發(fā)現(xiàn)之前未考慮的因素,這將有助于科學(xué)家更好地提出科學(xué)假設(shè),規(guī)劃實(shí)驗(yàn)并提高實(shí)驗(yàn)的效率和準(zhǔn)確性。此外,在實(shí)驗(yàn)方案設(shè)計(jì)環(huán)節(jié),人工智能可用于輔助設(shè)計(jì)實(shí)驗(yàn)方案,確定實(shí)驗(yàn)參數(shù)和實(shí)驗(yàn)變量。
二是數(shù)據(jù)分析環(huán)節(jié)??茖W(xué)研究往往涉及大量的數(shù)據(jù)收集和分析,隨著分析測(cè)試工具的進(jìn)步,科研數(shù)據(jù)的規(guī)模已達(dá)到人力分析難以企及的體量。例如,目前全球新冠病毒基因數(shù)據(jù)庫(kù)GISAID已積累了超過(guò)1660萬(wàn)個(gè)新冠病毒基因組序列,而單個(gè)新冠病毒基因組又包含約3萬(wàn)個(gè)核苷酸序列。人工智能可以作為一種數(shù)據(jù)分析工具,輔助科學(xué)家處理龐大、復(fù)雜的科學(xué)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行標(biāo)注、去噪等精加工處理,發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的隱藏趨勢(shì)和規(guī)律,從中獲得新的發(fā)現(xiàn)和見(jiàn)解。此外,在部分?jǐn)?shù)據(jù)稀缺的領(lǐng)域,人工智能還可用于生成訓(xùn)練數(shù)據(jù),以彌補(bǔ)訓(xùn)練數(shù)據(jù)的不足。人工智能還可用于自動(dòng)生成數(shù)據(jù)分析代碼,提供數(shù)據(jù)分析的方法和技巧,間接作用于數(shù)據(jù)分析過(guò)程。
三是成果形成環(huán)節(jié)。人工智能可用于輔助論文寫(xiě)作、論文潤(rùn)色修改、科研繪圖等領(lǐng)域。有研究表明,人工智能技術(shù)為非英語(yǔ)母語(yǔ)的科研工作者提供了高質(zhì)量、易觸達(dá)的英語(yǔ)編輯工具,從而有助于促進(jìn)科學(xué)公平[9]。人工智能技術(shù)還可用于科研成果的分發(fā)和精準(zhǔn)推送,從而幫助科研工作者及時(shí)接受領(lǐng)域?qū)W術(shù)熱點(diǎn),促進(jìn)學(xué)術(shù)交流和成果傳播。在學(xué)術(shù)出版領(lǐng)域,人工智能能夠重構(gòu)學(xué)術(shù)出版流程,實(shí)現(xiàn)選題策劃便捷化、編輯出版自動(dòng)化、生產(chǎn)印刷按需化、營(yíng)銷(xiāo)發(fā)行精準(zhǔn)化,進(jìn)而加速整個(gè)學(xué)術(shù)傳播過(guò)程[13]。
當(dāng)今,受自然、技術(shù)和人類(lèi)社會(huì)等相關(guān)聯(lián)的系統(tǒng)跨時(shí)間、跨空間尺度上相互作用的影響,科學(xué)問(wèn)題變得愈加復(fù)雜和充滿(mǎn)挑戰(zhàn)。人類(lèi)面臨的諸多重大問(wèn)題,如生命健康、能源缺乏、環(huán)境污染等,往往涉及多個(gè)學(xué)科的交叉融合。亟需開(kāi)發(fā)新的工具和方法,以分析、揭示和解決上述復(fù)雜系統(tǒng)的重要命題。人工智能技術(shù)由于具有跨學(xué)科的廣泛適用性,是推動(dòng)跨領(lǐng)域研究的絕佳工具。通過(guò)匯集人工智能和其他領(lǐng)域的專(zhuān)業(yè)知識(shí),將機(jī)器知識(shí)和領(lǐng)域知識(shí)相結(jié)合,進(jìn)而實(shí)現(xiàn)交叉學(xué)科的技術(shù)進(jìn)步和創(chuàng)新突破。以深度學(xué)習(xí)為代表的人工智能技術(shù)在生物、物理、氣象等領(lǐng)域已展示出巨大的應(yīng)用潛力,驅(qū)動(dòng)科研范式發(fā)生新的變革。隨著以ChatGPT為代表的認(rèn)知智能技術(shù)突破,未來(lái)人工智能技術(shù)對(duì)其他研究領(lǐng)域的賦能作用將進(jìn)一步擴(kuò)大。人工智能技術(shù)對(duì)其他研究領(lǐng)域的賦能,同時(shí)也是不同學(xué)科間交叉融合的過(guò)程。人工智能技術(shù)的應(yīng)用有望消除學(xué)科間的壁壘,激發(fā)學(xué)科交叉領(lǐng)域這一創(chuàng)新 “策源地”。
人工智能技術(shù)作為分析高維數(shù)據(jù)的通用技術(shù),其在不同學(xué)科領(lǐng)域的應(yīng)用和滲透速度與領(lǐng)域內(nèi)高質(zhì)量數(shù)據(jù)的積累程度息息相關(guān)。在傳統(tǒng)實(shí)驗(yàn)技術(shù)和現(xiàn)代先進(jìn)測(cè)序技術(shù)的共同作用下,生物學(xué)率先在DNA和RNA序列、蛋白質(zhì)結(jié)構(gòu)、小分子結(jié)構(gòu)等領(lǐng)域形成規(guī)??捎^的數(shù)據(jù)集,這些數(shù)據(jù)是人工智能技術(shù)尤其是深度學(xué)習(xí)技術(shù)得以應(yīng)用的最重要基礎(chǔ)。藥物發(fā)現(xiàn),蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)以及傳染病的預(yù)測(cè)、演變和控制這三個(gè)領(lǐng)域已初步積累了大量、高質(zhì)量的數(shù)據(jù)集,如ZINC化合物數(shù)據(jù)庫(kù)、開(kāi)源蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù) (PDB)、病毒基因數(shù)據(jù)庫(kù)GISAID等,因而成為人工智能技術(shù)率先應(yīng)用的演練場(chǎng)。
藥物發(fā)現(xiàn)通常是個(gè)緩慢且昂貴的過(guò)程,制造一種小分子藥物平均需要大約15年時(shí)間和20億美元。在藥物發(fā)現(xiàn)早期,如果能找到更為快速、便捷的方法,以改善靶點(diǎn)預(yù)測(cè)、先導(dǎo)化合物優(yōu)化等環(huán)節(jié),是縮短藥物開(kāi)發(fā)時(shí)間和降低開(kāi)發(fā)成本的重要途徑。隨著結(jié)構(gòu)生物學(xué)的發(fā)展、化合物篩選庫(kù)的快速增長(zhǎng)和新興計(jì)算方法的突破,人工智能技術(shù)用于藥物發(fā)現(xiàn)過(guò)程逐漸成為現(xiàn)實(shí)。近年來(lái)的最新案例表明,人工智能技術(shù)的應(yīng)用能夠大大加速和改進(jìn)藥物發(fā)現(xiàn)過(guò)程。例如,Exscientia公司開(kāi)發(fā)了一種用于治療強(qiáng)迫癥的候選藥物 DSP-1181,該藥物使用 AI 方法在構(gòu)思后不到 12 個(gè)月就進(jìn)入 1 期臨床試驗(yàn);Benevolent AI 公司借助生物醫(yī)學(xué)知識(shí)網(wǎng)絡(luò)圖譜分析與識(shí)別,確定了一種可能的藥物巴瑞替尼 (Baricitinib),可以抑制COVID-19感染并減少炎癥損傷。
藥物發(fā)現(xiàn)中常用的人工智能算法有多層感知機(jī) (MLP)、卷積神經(jīng)網(wǎng)絡(luò) (CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)、變分自動(dòng)編碼器 (VAEs)、生成對(duì)抗網(wǎng)絡(luò) (GANs)、圖神經(jīng)網(wǎng)絡(luò) (GNNs)、Transformer、強(qiáng)化學(xué)習(xí)等。通過(guò)結(jié)合化學(xué)信息、生物信息中的大量數(shù)據(jù),上述算法在藥物靶標(biāo)預(yù)測(cè)、化合物高通量篩選、化合物性質(zhì)預(yù)測(cè)、藥物從頭設(shè)計(jì)、藥物性質(zhì)預(yù)測(cè)等多個(gè)重要環(huán)節(jié)發(fā)揮作用,改變藥物研發(fā)進(jìn)程,提升藥物研發(fā)效率。
靶點(diǎn)識(shí)別是藥物發(fā)現(xiàn)的基礎(chǔ),傳統(tǒng)的靶點(diǎn)識(shí)別過(guò)程主要依靠濕實(shí)驗(yàn),根據(jù)親和力、基因修飾篩選和比較分析來(lái)篩選可能的靶點(diǎn),整個(gè)過(guò)程耗時(shí)、昂貴且充滿(mǎn)風(fēng)險(xiǎn)。識(shí)別正確的藥物靶點(diǎn)對(duì)于藥物開(kāi)發(fā)至關(guān)重要,人工智能方法可以顯著提高藥物靶點(diǎn)識(shí)別的準(zhǔn)確率,從而提高藥物開(kāi)發(fā)效率。例如,Yang等[14]引入深度學(xué)習(xí)方法用于小分子靶點(diǎn)的預(yù)測(cè),新靶點(diǎn)有望指導(dǎo)擴(kuò)張性心肌病的新療法開(kāi)發(fā)。
化合物篩選是從大量候選化合物中選擇對(duì)特定靶點(diǎn)具有較高化合物的過(guò)程,傳統(tǒng)實(shí)驗(yàn)手段涉及大量的人力物力。人工智能方法通過(guò)整合已有化合物數(shù)據(jù)庫(kù)的信息,預(yù)測(cè)化合物和靶點(diǎn)結(jié)合的有效性,可以提高命中率,降低研發(fā)成本。Singh等[15]提出一種用于藥物-靶標(biāo)相互作用預(yù)測(cè)的機(jī)器學(xué)習(xí)方法ConPLex,該方法基于預(yù)訓(xùn)練的蛋白質(zhì)語(yǔ)言模型的信息表示和對(duì)比學(xué)習(xí)思想,實(shí)現(xiàn)了對(duì)潛在候選藥物的快速篩選。ConPLex的實(shí)驗(yàn)驗(yàn)證產(chǎn)生了 63% 的命中率 (12/19),證明了 ConPLex 作為一種準(zhǔn)確、高度可擴(kuò)展的計(jì)算機(jī)篩選工具的價(jià)值。Liu等[16]將神經(jīng)網(wǎng)絡(luò)用于新窄譜抗生素的發(fā)現(xiàn),以7500個(gè)在體外抑制鮑曼不動(dòng)桿菌 (Acinetobacter baumannii)生長(zhǎng)的分子圖結(jié)構(gòu)數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),預(yù)測(cè)了一種有可能的先導(dǎo)化合物。進(jìn)一步實(shí)驗(yàn)結(jié)果表明,該先導(dǎo)化合物具有針對(duì)鮑曼不動(dòng)桿菌的靶向活性。Tebon等[17]將生物打印、高速活細(xì)胞干涉測(cè)量法 (HSLCI)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,實(shí)現(xiàn)了在單類(lèi)器官分辨率下的藥物篩選。
人工智能方法還可用于預(yù)測(cè)藥物性質(zhì)。例如,Bannigan等[18]對(duì)比了11種不同機(jī)器學(xué)習(xí)算法預(yù)測(cè)長(zhǎng)效注射劑藥物釋放曲線的準(zhǔn)確性,結(jié)果表明,基于研究中采用的數(shù)據(jù)集,光梯度增強(qiáng)機(jī) (LGBM0)模型的預(yù)測(cè)準(zhǔn)確性最好,該模型有望用于指導(dǎo)新型長(zhǎng)效注射劑的設(shè)計(jì),以減少藥物開(kāi)發(fā)相關(guān)的時(shí)間與成本。已有研究將人工智能方法用于構(gòu)建藥物發(fā)現(xiàn)的全流程服務(wù)平臺(tái),Huang等[19]推出一個(gè)開(kāi)放訪問(wèn)平臺(tái) (TDC),平臺(tái)為藥物開(kāi)發(fā)的全流程各階段提供了數(shù)據(jù)管理、算法設(shè)計(jì)及性能評(píng)估等集合功能。截至目前,平臺(tái)已包含66個(gè)數(shù)據(jù)集,任務(wù)涵蓋靶點(diǎn)識(shí)別、互補(bǔ)位和表位預(yù)測(cè)、分子生成、藥物反應(yīng)和協(xié)同預(yù)測(cè)等。除此之外,人工智能方法也已用于指導(dǎo)藥物合成和生產(chǎn)。例如,ANGELLO等[20]設(shè)計(jì)了一個(gè)機(jī)器學(xué)習(xí)輔助通用性工作流程,用于指導(dǎo)有機(jī)小分子的自動(dòng)化合成,利用數(shù)據(jù)引導(dǎo)矩陣向下選擇、不確定性最小化機(jī)器學(xué)習(xí)和機(jī)器人實(shí)驗(yàn)來(lái)改善反應(yīng)條件,在實(shí)際應(yīng)用中取得了產(chǎn)量翻倍的效果。
總之,人工智能在藥物發(fā)現(xiàn)中最具價(jià)值的應(yīng)用可能在于對(duì)傳統(tǒng)濕實(shí)驗(yàn)環(huán)節(jié)的部分替代和優(yōu)化,從而大幅降低藥物研發(fā)的成本和時(shí)間,為市場(chǎng)價(jià)值較小的藥物如 “孤兒藥”研發(fā)提供更多方案。
蛋白質(zhì)由20種天然氨基酸組成,并通過(guò)原子間相互作用形成穩(wěn)定的三維構(gòu)象。蛋白質(zhì)結(jié)構(gòu)復(fù)雜,同時(shí)執(zhí)行著精密的功能。根據(jù)蛋白質(zhì)的氨基酸序列來(lái)準(zhǔn)確測(cè)定蛋白質(zhì)的三維結(jié)構(gòu),對(duì)理解其功能非常重要。由于蛋白質(zhì)折疊方式的可能性過(guò)多,以及細(xì)胞內(nèi)微環(huán)境復(fù)雜,蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測(cè)一直是生物學(xué)領(lǐng)域長(zhǎng)期存在的挑戰(zhàn)。傳統(tǒng)的結(jié)構(gòu)預(yù)測(cè)方法如晶體衍射、核磁共振、冷凍電鏡等存在耗時(shí)長(zhǎng)、計(jì)算復(fù)雜、成功率低等缺點(diǎn)。早在20世紀(jì)70年代,科學(xué)家就開(kāi)始嘗試建立計(jì)算機(jī)模型以預(yù)測(cè)給定的蛋白質(zhì)如何折疊,但只能局限于較小的蛋白質(zhì)分子或部分短片段。人工智能技術(shù)可以從同家族蛋白的演化關(guān)系中學(xué)習(xí)并預(yù)測(cè)殘基間的相互作用關(guān)系,對(duì)于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域起到非常關(guān)鍵的作用。隨著人工智能技術(shù)的應(yīng)用,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的效率和準(zhǔn)確率得以大幅提升。
近年來(lái),蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的重大突破源于谷歌旗下DeepMind的AlphaFold系列模型[21-22]。2018年,AlphaFold被首次提出,并在CASP13中排名第一,其準(zhǔn)確度比上一年度的最佳水平提升了50%。2020年,改進(jìn)版本AlphaFold2以巨大優(yōu)勢(shì)贏得CASP14,其預(yù)測(cè)精確度達(dá)到原子級(jí)別,中值誤差小于1埃,與實(shí)驗(yàn)方法相當(dāng)。隨后,DeepMind與歐洲分子生物學(xué)實(shí)驗(yàn)室合作推出了AlphaFold DB數(shù)據(jù)庫(kù),將蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)數(shù)據(jù)量擴(kuò)展到超過(guò)2億個(gè),涉及約100萬(wàn)個(gè)物種,幾乎涵蓋了地球上所有已知蛋白質(zhì),這一突破將為生物醫(yī)學(xué)領(lǐng)域的基礎(chǔ)科學(xué)帶來(lái)全新革命。從技術(shù)上看,AlphaFold本質(zhì)上是一個(gè)幾何深度學(xué)習(xí)模型,其核心思想是對(duì)氨基酸與氨基酸在空間上的幾何聯(lián)系進(jìn)行建模,進(jìn)而預(yù)測(cè)蛋白質(zhì)在空間上的三維結(jié)構(gòu)。該模型將原子半徑、化學(xué)鍵角度等因素納入考慮,并放棄了傳統(tǒng)算法的線性接近性原則,更加注重氨基酸的三維關(guān)系。此外,該模型在計(jì)算過(guò)程中能夠不斷調(diào)整以避免早期錯(cuò)誤的積累,從而逐步完善結(jié)構(gòu)預(yù)測(cè)結(jié)果。研究人員采用14萬(wàn)PDB序列以及35萬(wàn)個(gè)序列/結(jié)構(gòu)對(duì),作為訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行了訓(xùn)練,以提高其預(yù)測(cè)準(zhǔn)確度。盡管AlphaFold模型的預(yù)測(cè)精度已達(dá)到較高水平,但仍存在一些局限性。例如,它提供的是蛋白質(zhì)分子的靜態(tài)圖片,無(wú)法對(duì)蛋白質(zhì)結(jié)構(gòu)的動(dòng)態(tài)變化情況進(jìn)行建模,或是模擬蛋白質(zhì)與其他分子間的相互作用。此外,從頭開(kāi)始設(shè)計(jì)全新的蛋白質(zhì)來(lái)完成特定的任務(wù)仍充滿(mǎn)挑戰(zhàn)。
除了DeepMind團(tuán)隊(duì)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面的進(jìn)展外,華盛頓大學(xué)David Baker研究團(tuán)隊(duì)一直深耕蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和生成研究。Baker團(tuán)隊(duì)最早采取的是能量方程路線,基于蛋白質(zhì)的生物物理特性,將序列設(shè)計(jì)視為能量?jī)?yōu)化問(wèn)題,尋找對(duì)于給定輸入結(jié)構(gòu)具有最低能量的氨基酸特性和構(gòu)象的組合。隨著氨基酸數(shù)量和種類(lèi)增加,計(jì)算復(fù)雜程度會(huì)顯著上升,因而局限性明顯。2021年7月,Baker團(tuán)隊(duì)開(kāi)發(fā)出一種 “三軌”神經(jīng)網(wǎng)絡(luò)RoseTTAFold[23],能在十幾分鐘內(nèi)解析給定蛋白質(zhì)序列的三維結(jié)構(gòu)。這種架構(gòu)采用三軌注意力機(jī)制,同時(shí)考慮了一維氨基酸序列、二維氨基酸殘基—?dú)埢嚯x和方向以及三維原子坐標(biāo)信息,三個(gè)維度間的信息能夠互相交流,使得神經(jīng)網(wǎng)絡(luò)能夠綜合所有信息,推理出蛋白質(zhì)的化學(xué)部分與其折疊結(jié)構(gòu)之間的關(guān)系。盡管RoseTTAFold模型在CASP14中的表現(xiàn)略遜色于AlphaFold2,但仍是迄今為止最準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)算法之一 。RoseTTAFold有力推動(dòng)了蛋白結(jié)構(gòu)預(yù)測(cè)模型的免費(fèi)和全開(kāi)源,并探索了蛋白結(jié)構(gòu)預(yù)測(cè)在輔助實(shí)驗(yàn)蛋白結(jié)構(gòu)測(cè)定、致病突變位點(diǎn)和功能位點(diǎn)預(yù)測(cè)、蛋白-蛋白復(fù)合物結(jié)構(gòu)預(yù)測(cè)等領(lǐng)域的拓展應(yīng)用。
除了蛋白結(jié)構(gòu)預(yù)測(cè)外,Baker團(tuán)隊(duì)在蛋白質(zhì)的從頭設(shè)計(jì)領(lǐng)域也做了一系列探索。2022年9月,Baker 團(tuán)隊(duì)將深度學(xué)習(xí)引入蛋白質(zhì)設(shè)計(jì),發(fā)布了深度學(xué)習(xí)算法 ProteinMPNN,可根據(jù)給出的蛋白質(zhì)三維結(jié)構(gòu)在幾秒鐘內(nèi)快速 “逆推”出可能的氨基酸序列[24]。已有研究表明,在天然蛋白質(zhì)骨架上,ProteinMPNN 的序列恢復(fù)率達(dá)到52.4% (Rosetta為32.9%)。除了大幅提高的準(zhǔn)確率外,相比以前的工具,ProteinMPNN只需要用戶(hù)輸入少量信息,速度提升了 200 多倍。在最新的研究中,Baker 研究團(tuán)隊(duì)又將強(qiáng)化學(xué)習(xí)引入蛋白質(zhì)復(fù)合體的從頭設(shè)計(jì)中。通過(guò)開(kāi)發(fā)一種 “自上而下”的基于強(qiáng)化學(xué)習(xí)的蛋白質(zhì)復(fù)合體設(shè)計(jì)策略[25],從最終蛋白質(zhì)復(fù)合體的結(jié)構(gòu)和功能入手,反向推出構(gòu)成復(fù)合體的亞基應(yīng)該具有什么樣的結(jié)構(gòu)特征,再根據(jù)這些特征去設(shè)計(jì)蛋白亞基,為疫苗設(shè)計(jì)和藥物開(kāi)發(fā)帶來(lái)了新的突破。
總之,以AlphaFold2為代表的人工智能方法在蛋白結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的突破對(duì)生物醫(yī)學(xué)及相關(guān)領(lǐng)域產(chǎn)生了巨大影響。通過(guò)應(yīng)用人工智能方法,研究人員可以重新設(shè)計(jì)具備特定功能的蛋白質(zhì),對(duì)藥物設(shè)計(jì)、基因治療、疫苗開(kāi)發(fā)、酶工程等應(yīng)用領(lǐng)域影響深遠(yuǎn)。
2019年末新冠病毒疫情暴發(fā)以來(lái),已在全球造成數(shù)億人感染和數(shù)百萬(wàn)人死亡。人工智能技術(shù)在疫情預(yù)測(cè)、演變和控制中發(fā)揮著不可替代的作用,主要包括以下四個(gè)方面。
一是識(shí)別和預(yù)測(cè)病毒新譜系,為疫苗設(shè)計(jì)和藥物開(kāi)發(fā)提供參考。SARS-CoV-2大流行以具有更高適應(yīng)度的病毒新譜系出現(xiàn)驅(qū)動(dòng)疫情反復(fù)暴發(fā)為特點(diǎn),因此,快速識(shí)別新譜系并準(zhǔn)確預(yù)測(cè)其動(dòng)態(tài),對(duì)于制定疫情應(yīng)對(duì)策略至關(guān)重要。通過(guò)引入人工智能算法,可以預(yù)測(cè)出未來(lái)可能會(huì)占據(jù)主導(dǎo)地位的變異毒株,以及可能會(huì)發(fā)生變異的病毒基因位點(diǎn)。Fritz Obermeyer等[26]開(kāi)發(fā)了一種貝葉斯分層回歸模型PyR0,可以推斷一定地理區(qū)域內(nèi)所有病毒譜系的相對(duì)流行率,檢測(cè)流行率增加的譜系,并識(shí)別與適應(yīng)性相關(guān)的突變。研究表明,PyR0模型能提供早期預(yù)警,并幫助識(shí)別值得關(guān)注的變異株 (VoC),從而為公共衛(wèi)生政策的制定和疫苗開(kāi)發(fā)提供參考。
二是疫情局部暴發(fā)風(fēng)險(xiǎn)監(jiān)測(cè)。隨著測(cè)序成本的降低、準(zhǔn)確性的提高以及測(cè)序儀器變得更加便攜,實(shí)時(shí)病毒監(jiān)測(cè)和分子流行病學(xué)將成為應(yīng)對(duì)傳染病的重要工具。Ward等[27]采用空間集成長(zhǎng)短期記憶算法 (SI-LSTM),為決策者提供COVID-19在部分地區(qū)局部暴發(fā)的早期指標(biāo)監(jiān)測(cè)框架,并在小空間尺度上預(yù)測(cè)SARS-CoV-2病毒傳播和臨床風(fēng)險(xiǎn),以指導(dǎo)疫情應(yīng)對(duì)和流行病管理。該方法結(jié)合一系列高分辨空間數(shù)據(jù),如Google Trends術(shù)語(yǔ)相對(duì)搜索量、谷歌移動(dòng)數(shù)據(jù)、電信移動(dòng)數(shù)據(jù)、國(guó)家衛(wèi)生服務(wù)119呼叫數(shù)據(jù)和網(wǎng)站測(cè)試數(shù)據(jù),能夠在評(píng)估的時(shí)間段內(nèi)準(zhǔn)確識(shí)別一個(gè)月或更長(zhǎng)時(shí)間的熱點(diǎn)位置,準(zhǔn)確度超過(guò)99%。
三是輔助疾病快速診斷和臨床風(fēng)險(xiǎn)評(píng)估。在新冠疫情防控期間,醫(yī)療資源不足的情況在國(guó)內(nèi)外均有發(fā)生。因而,疾病的快速診斷對(duì)于實(shí)施分級(jí)診療、優(yōu)化醫(yī)療資源分配尤為重要。人工智能技術(shù)主要用于CT、X光、病理組織等醫(yī)學(xué)圖像識(shí)別領(lǐng)域,用于輔助疾病快速診斷。Jin等[28]提出一種基于胸部CT圖像快速檢測(cè)COVID-19的深度卷積神經(jīng)網(wǎng)絡(luò)算法,在包含COVID-19在內(nèi)的五種疾病的多分類(lèi)診斷任務(wù)中AUC達(dá)到97.81%,在CC-CCII和MosMedData兩個(gè)公開(kāi)數(shù)據(jù)集上的AUC更是高達(dá)92.99%和93.25%。預(yù)測(cè)住院人數(shù)或者住院率對(duì)于國(guó)家或區(qū)域?qū)用娴尼t(yī)療資源分配具有指導(dǎo)意義。在臨床風(fēng)險(xiǎn)預(yù)測(cè)方面,Gao等[29]引入統(tǒng)計(jì)力學(xué)中用于估計(jì)晶格位點(diǎn)自旋構(gòu)型的Ising動(dòng)力學(xué),提出一種深度學(xué)習(xí)時(shí)空預(yù)測(cè)模型HOIST,用來(lái)準(zhǔn)確預(yù)測(cè)COVID-19大流行期間的住院人數(shù)。由于模型結(jié)合了美國(guó)各地保險(xiǎn)索賠信息、人口普查信息、醫(yī)療資源使用信息等數(shù)據(jù),因而具有更好的可解釋性。模型預(yù)測(cè)結(jié)果表明,將疫苗接種率提高10%可以使當(dāng)前全域住院病例數(shù)平均減少15%;加強(qiáng)農(nóng)村地區(qū)的疫苗接種推廣工作有利于顯著減輕政府的醫(yī)療財(cái)政負(fù)擔(dān)。
四是指導(dǎo)疫情防控措施的制定。預(yù)先了解哪些人群需要重點(diǎn)關(guān)注,對(duì)于針對(duì)性地制定恰當(dāng)?shù)姆揽卮胧⒔档鸵咔閭鞑ワL(fēng)險(xiǎn)非常重要。例如,Monod等[30]的研究表明,2020年美國(guó)COVID-19疫情卷土重來(lái)與20—49歲年齡段人口的流動(dòng)息息相關(guān)。由此建議在新型、高傳播性SARS-CoV-2譜系尚未建立的地區(qū),對(duì)20—49歲的人口進(jìn)行額外干預(yù),以減少疫情傳播風(fēng)險(xiǎn)。疫情措施的制定還需要考慮到防控措施對(duì)經(jīng)濟(jì)社會(huì)的影響,與防疫效果之間的平衡。因此,需要考察不同防控措施的有效性,進(jìn)而尋找對(duì)經(jīng)濟(jì)社會(huì)影響較小同時(shí)防控效果較好的防控措施組合。Haug等[31]將人工智能技術(shù)用于量化評(píng)估79個(gè)國(guó)家或地區(qū)實(shí)施的非藥物干預(yù)措施 (NPI)對(duì)降低SARS-CoV-2病毒傳播風(fēng)險(xiǎn)的影響,以預(yù)測(cè)其有效性。研究結(jié)果表明,適當(dāng)?shù)姆撬幬锔深A(yù)措施組合可以有效遏制病毒傳播,減輕對(duì)醫(yī)療衛(wèi)生系統(tǒng)的壓力。最有效的非藥物干預(yù)措施包括宵禁、封鎖、限制聚集等,風(fēng)險(xiǎn)溝通策略、對(duì)弱勢(shì)群體的援助和支持計(jì)劃等侵入性較小、成本較高的干預(yù)措施也同樣有效。這些研究結(jié)果可為政府選擇非藥物干預(yù)措施的種類(lèi)和時(shí)機(jī)提供參考。
通過(guò)對(duì)人工智能技術(shù)在生物學(xué)中的三個(gè)典型領(lǐng)域,即藥物發(fā)現(xiàn),蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)以及傳染病的預(yù)測(cè)、演變和控制的應(yīng)用梳理,可以進(jìn)一步總結(jié)得到人工智能技術(shù)驅(qū)動(dòng)生物學(xué)科研范式變革的機(jī)制。從總體路線來(lái)說(shuō),傳統(tǒng)方法采取的是自下而上的解決思路。當(dāng)變量較少、科學(xué)問(wèn)題復(fù)雜度較低時(shí),這種思路便于根據(jù)第一性原理構(gòu)建求解方程,計(jì)算量可控,可以較為順利地解決問(wèn)題。然而,生物領(lǐng)域的科學(xué)問(wèn)題往往是涉及眾多層次和維度的復(fù)雜問(wèn)題,求解復(fù)雜度隨著數(shù)據(jù)維度出現(xiàn)指數(shù)式上升,傳統(tǒng)實(shí)驗(yàn)和計(jì)算方法求解對(duì)資源的需求量已遠(yuǎn)超現(xiàn)實(shí)可及范圍。在數(shù)據(jù)驅(qū)動(dòng)的人工智能方法下,解決問(wèn)題的思路通常是自上而下的,可以將高維空間的問(wèn)題通過(guò)降維、近似后實(shí)現(xiàn)求解,能夠?qū)ふ业脚c現(xiàn)實(shí)問(wèn)題直接相關(guān)的影響因素,從而形成解決科學(xué)問(wèn)題的新范式 (見(jiàn)圖1)。從具體機(jī)制而言,可以總結(jié)為以下三個(gè)方面。
圖1 傳統(tǒng)方法與人工智能方法解決科學(xué)問(wèn)題的路線對(duì)比
一是輔助驗(yàn)證科學(xué)假設(shè),節(jié)省迭代成本。傳統(tǒng)的科學(xué)假設(shè)往往依靠研究者通過(guò)提出猜想、生成假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、實(shí)驗(yàn)驗(yàn)證或推翻假設(shè)的過(guò)程來(lái)不斷迭代,直到形成符合實(shí)驗(yàn)結(jié)果和科學(xué)規(guī)律的初步發(fā)現(xiàn)。這一過(guò)程往往涉及大量的濕實(shí)驗(yàn)環(huán)節(jié),需要耗費(fèi)大量的時(shí)間和精力。經(jīng)過(guò)模擬訓(xùn)練的人工智能算法對(duì)于分析和預(yù)測(cè)分子結(jié)構(gòu)、蛋白結(jié)構(gòu)以及基因序列非常高效,能夠大大簡(jiǎn)化假設(shè)驗(yàn)證過(guò)程,使其更具成本效益和時(shí)間效益。例如,AlphaFold系列算法對(duì)蛋白質(zhì)結(jié)構(gòu)的高效、準(zhǔn)確預(yù)測(cè),可大大節(jié)省蛋白質(zhì)相關(guān)領(lǐng)域的研究進(jìn)度,使研究者得以關(guān)注更多有待解決的難題。
二是融合多維度數(shù)據(jù),提出科學(xué)新發(fā)現(xiàn)、新觀點(diǎn)。傳統(tǒng)的科學(xué)研究往往僅涉及同類(lèi)數(shù)據(jù)的分析和處理,但科學(xué)發(fā)現(xiàn)和科學(xué)規(guī)律往往隱藏在不同維度的數(shù)據(jù)或數(shù)據(jù)關(guān)聯(lián)中。例如,在預(yù)測(cè)疫情傳播趨勢(shì)時(shí),需要結(jié)合不同來(lái)源的數(shù)據(jù)進(jìn)行分析,從而實(shí)現(xiàn)對(duì)多空間尺度疫情暴發(fā)風(fēng)險(xiǎn)指標(biāo)的預(yù)測(cè)。人工智能技術(shù)可以通過(guò)將不同來(lái)源的數(shù)據(jù)轉(zhuǎn)化為向量表示,進(jìn)而學(xué)習(xí)數(shù)據(jù)內(nèi)在的關(guān)聯(lián),形成有意義的數(shù)據(jù)表示。相對(duì)而言,機(jī)器學(xué)習(xí)算法更適用于處理特征明確、規(guī)律簡(jiǎn)單的數(shù)據(jù),而深度學(xué)習(xí)算法卻可以用于處理規(guī)模龐大、內(nèi)在規(guī)律未知的數(shù)據(jù)。2006年深度學(xué)習(xí)算法的突破,以及2017年Transformer架構(gòu)的提出,使得人工智能技術(shù)取得了長(zhǎng)足發(fā)展,并得以在不同領(lǐng)域?qū)崿F(xiàn)應(yīng)用上的突破。
三是作為輔助科研工具,提高科研全流程效率。除了在實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)分析環(huán)節(jié)的應(yīng)用外,人工智能技術(shù)作為通用的辦公工具,可以賦能文獻(xiàn)檢索、文獻(xiàn)管理、文獻(xiàn)追蹤、論文寫(xiě)作、論文潤(rùn)色、科研繪圖等諸多領(lǐng)域,從而實(shí)現(xiàn)科研全流程的效率提升。
盡管人工智能在藥物發(fā)現(xiàn)、蛋白結(jié)構(gòu)預(yù)測(cè)、傳染病防控等領(lǐng)域獲得了多個(gè)重大突破,正引發(fā)生物學(xué)領(lǐng)域研究手段和研究方式的變革。但在具體應(yīng)用過(guò)程中,仍存在高質(zhì)量數(shù)據(jù)集缺乏、隱私泄露、模型可解釋性差等風(fēng)險(xiǎn),阻礙了人工智能技術(shù)在生物學(xué)領(lǐng)域的進(jìn)一步滲透和應(yīng)用。
目前,在生物種類(lèi)、空間和時(shí)間維度上對(duì)生物系統(tǒng)進(jìn)行綜合測(cè)量的高質(zhì)量共享數(shù)據(jù)集較為缺乏。盡管已有部分細(xì)分領(lǐng)域建立起了開(kāi)放、共享的數(shù)據(jù)集,但仍有相當(dāng)多的細(xì)分領(lǐng)域可用的高質(zhì)量數(shù)據(jù)集非常缺乏。例如,蛋白質(zhì)相互作用的可靠數(shù)據(jù)較難獲得,這種結(jié)果往往給科學(xué)研究帶來(lái)以下挑戰(zhàn)。一方面,可用數(shù)據(jù)量較少時(shí)會(huì)對(duì)研究手段和方法產(chǎn)生限制。當(dāng)只有少量數(shù)據(jù) (數(shù)百或數(shù)千個(gè)示例)可用時(shí),研究者往往只能被迫采用更為傳統(tǒng)的機(jī)器學(xué)習(xí)方法,以產(chǎn)生可靠的預(yù)測(cè)。當(dāng)可用數(shù)據(jù)的數(shù)量較多時(shí),研究者可以考慮更高參數(shù)化的模型,如深度神經(jīng)網(wǎng)絡(luò)。另一方面,數(shù)據(jù)質(zhì)量不一、注釋信息缺失導(dǎo)致數(shù)據(jù)可用性較差,有必要形成數(shù)據(jù)收集和治理的統(tǒng)一標(biāo)準(zhǔn)和框架以提高數(shù)據(jù)的可用性??傊?,大型、高質(zhì)量、可用于對(duì)生物學(xué)中的人工智能應(yīng)用進(jìn)行基準(zhǔn)測(cè)試的高質(zhì)量參考數(shù)據(jù)集至關(guān)重要。通過(guò)透明的數(shù)據(jù)共享,有利于形成共創(chuàng)共享的研究生態(tài),不同國(guó)家和地區(qū)的研究者可利用共享數(shù)據(jù)用于建立假設(shè)、驗(yàn)證理論和技術(shù)分享。
在生物學(xué)研究中采用的數(shù)據(jù)多涉及個(gè)體的基本信息、生物醫(yī)學(xué)特征等敏感信息。例如,人類(lèi)基因組數(shù)據(jù)和商業(yè)敏感的藥物數(shù)據(jù)均包含個(gè)人隱私信息。自歐盟 《通用數(shù)據(jù)保護(hù)條例》出臺(tái)以來(lái),生物醫(yī)學(xué)數(shù)據(jù)中的隱私保護(hù)問(wèn)題愈加凸顯。在數(shù)據(jù)挖掘和分析過(guò)程中的隱私泄露問(wèn)題將會(huì)給生物學(xué)發(fā)展帶來(lái)風(fēng)險(xiǎn)和隱患,并對(duì)科學(xué)研究的社會(huì)公信產(chǎn)生沖擊。目前,已有一些技術(shù)手段可在確保數(shù)據(jù)安全的前提下開(kāi)展數(shù)據(jù)共享和機(jī)器學(xué)習(xí)模型的分布式訓(xùn)練,如聯(lián)邦學(xué)習(xí)算法等,也可以通過(guò)創(chuàng)建真實(shí)的合成數(shù)據(jù)集的方式來(lái)規(guī)避隱私問(wèn)題。該合成數(shù)據(jù)集包含原始數(shù)據(jù)集的復(fù)雜性特征,如分布、非線性關(guān)系和噪聲,但剔除了患者信息,從而避免識(shí)別個(gè)人身份。
模型的可解釋性是指模型結(jié)果推理過(guò)程能夠被人類(lèi)理解的程度??茖W(xué)研究中采用的人工智能算法多為數(shù)據(jù)驅(qū)動(dòng)的算法,主要采用深度神經(jīng)網(wǎng)絡(luò)技術(shù),算法核心部分是通過(guò)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)學(xué)習(xí)而自動(dòng)生成,難以人為干預(yù),具備很強(qiáng)的黑箱屬性。在大多數(shù)情況下,研究中采用的深度學(xué)習(xí)模型無(wú)法解釋其生物學(xué)意義,其模型預(yù)測(cè)結(jié)果很難讓傳統(tǒng)的實(shí)驗(yàn)科學(xué)家信服。相比于精確建模而言,生物學(xué)家往往對(duì)模型的具體輸出機(jī)制和影響因素更加感興趣。例如,模型具體響應(yīng)輸入數(shù)據(jù)的哪些特征、如何響應(yīng),以及為什么模型在某些情況下有效,但在另一些情況下無(wú)效。由于模型中往往存在大量輸入特征和參數(shù),對(duì)其具體機(jī)制進(jìn)行解釋顯得十分困難。此外,缺乏可解釋性也使得模型在測(cè)試數(shù)據(jù)上表現(xiàn)不佳時(shí)難以進(jìn)行故障排除。為了解決上述問(wèn)題,可以在構(gòu)建模型時(shí)采用事后解釋技術(shù)。此外,基于圖的神經(jīng)網(wǎng)絡(luò)也可以提高深度學(xué)習(xí)模型的可解釋性。
展望未來(lái),人工智能技術(shù)有望在生物學(xué)領(lǐng)域的應(yīng)用將持續(xù)不斷深入,驅(qū)動(dòng)智能生物學(xué)不斷發(fā)展。具體而言,有以下兩個(gè)發(fā)展方向。一是人工智能驅(qū)動(dòng)的生物知識(shí)挖掘。目前研究者主要通過(guò)文獻(xiàn)搜索、篩選和數(shù)據(jù)搜集來(lái)確定研究方向和關(guān)注領(lǐng)域。隨著已發(fā)表文獻(xiàn)和數(shù)據(jù)量的持續(xù)增長(zhǎng),這種以人工為主導(dǎo)的過(guò)程變得越來(lái)越難以持續(xù)。未來(lái),人工智能技術(shù)驅(qū)動(dòng)的數(shù)據(jù)生成和分析模式將有望改善這個(gè)問(wèn)題,賦予生物學(xué)領(lǐng)域?qū)<抑R(shí)的定制版ChatGPT將成為能夠挖掘已知和預(yù)測(cè)生物學(xué)知識(shí)的下一代搜索引擎。二是多模態(tài)生成式預(yù)訓(xùn)練大模型在藥物發(fā)現(xiàn)、蛋白預(yù)測(cè)等領(lǐng)域的深度應(yīng)用。生物學(xué)領(lǐng)域的數(shù)據(jù)往往是多模態(tài)、異構(gòu)性的,多種數(shù)據(jù)模式有望提供互補(bǔ)視角,使得模型預(yù)測(cè)結(jié)果更加可靠。未來(lái),如何將多樣化、異構(gòu)的生物數(shù)據(jù)和多模態(tài)生成式預(yù)訓(xùn)練大模型相結(jié)合,將是智能生物學(xué)的一個(gè)重點(diǎn)發(fā)展方向。