鄭明月,蔣華良,2
(1. 中國科學(xué)院上海藥物研究所,上海 201210;2. 上海科技大學(xué)免疫化學(xué)研究所,上海 201210)
新藥研發(fā)是一項投資大、周期長、風(fēng)險高的高技術(shù)產(chǎn)業(yè)。一個藥物從最初的發(fā)現(xiàn)到上市,再到進(jìn)入臨床為患者帶來生存獲益,都要經(jīng)歷大量、嚴(yán)格的數(shù)據(jù)驗證,通常需要花費10 ~ 20年時間,投入金額高達(dá)5億 ~ 26億美元。新藥研發(fā)一般包括5個階段:制定研究計劃和制備新化合物階段、藥物臨床前研究階段、藥物臨床研究階段、藥品的申報與審批階段和新藥監(jiān)測階段。
近年來,隨著基因組學(xué)、蛋白質(zhì)組學(xué)和生物信息學(xué)等現(xiàn)代分子生物學(xué)科的迅速發(fā)展,高通量與高內(nèi)涵篩選、大數(shù)據(jù)、人工智能(artificial intelligence,AI)等高新技術(shù)的涌現(xiàn),以及產(chǎn)業(yè)政策、資本市場的強力支持,新藥研發(fā)呈現(xiàn)出前所未有的繁榮局面,醫(yī)藥創(chuàng)新迎來“黃金時代”。然而,與快速發(fā)展并行而來的,是日趨殘酷而激烈的競爭局面。當(dāng)今社會,腫瘤、糖尿病、脂肪肝等慢性復(fù)雜性疾病流行,針對這些疾病的新藥研發(fā)難度越來越高,制藥企業(yè)需要投入更多的資金、人力、物力才能產(chǎn)出和以前相當(dāng)?shù)摹癴irst-in-class”藥物,新藥研發(fā)面臨著成本高和收益率下降的“雙重困境”。很顯然,如何提高藥物研發(fā)效率和降低研發(fā)成本是目前制藥企業(yè)新藥研發(fā)面臨的主要挑戰(zhàn)。
新藥研發(fā)的漫漫長路歷來都是“九死一生”,任何環(huán)節(jié)的失敗都可能導(dǎo)致前期投入付諸東流。從18世紀(jì)至今,新藥研發(fā)大致經(jīng)歷了從自然界發(fā)現(xiàn)(18—19世紀(jì))、實驗室合成(20世紀(jì)前20年)、隨機篩選(20世紀(jì)30—50年代)、基于結(jié)構(gòu)的理性分子設(shè)計(20世紀(jì)60—80年代),到基于靶點的新藥發(fā)現(xiàn)(20世紀(jì)80年代至今)這幾個時代??梢钥吹剑滤幯邪l(fā)的發(fā)展史也是新藥研發(fā)技術(shù)的變革史,新技術(shù)的出現(xiàn)給新藥研發(fā)注入了新活力,不斷沖破新藥研發(fā)效率的“天花板”。當(dāng)前,國際新藥研發(fā)競爭主要集中在藥物靶點的研究上,以至于有了“一個靶點成就一個產(chǎn)業(yè)”的說法。
隨著大數(shù)據(jù)時代的來臨,AI技術(shù)在新藥研發(fā)中應(yīng)用越來越廣泛,其中靶點發(fā)現(xiàn)和化合物篩選便是AI提效的兩大重要應(yīng)用場景。制藥巨頭藥明康德、先聲藥業(yè),科技巨頭谷歌、騰訊、百度、華為等紛紛布局AI+新藥研發(fā)賽道,加速了國內(nèi)新藥研發(fā)。新藥研發(fā)涉及從前期的藥物發(fā)現(xiàn)、臨床前研究到臨床研究各個階段的數(shù)據(jù),這些數(shù)據(jù)的總量是龐大的,形式也是多種多樣的,例如圖片、電子刊物、紙質(zhì)刊物等等。醫(yī)藥大數(shù)據(jù)的研究從來不是一件容易的事情,如何在海量研發(fā)原始數(shù)據(jù)中快速獲取真正有參考價值的“有效數(shù)據(jù)”,是新藥研發(fā)過程中的一大挑戰(zhàn)。
得益于化合物特性數(shù)據(jù)規(guī)模的不斷擴大和各類化合物篩選項目的順利推進(jìn),深度學(xué)習(xí)在機器學(xué)習(xí)算法的基礎(chǔ)上快速崛起,并在新藥研發(fā)領(lǐng)域得到了廣泛應(yīng)用。例如,2019年Nature Biotechnology報道了利用變分自編碼器與強化學(xué)習(xí)組合的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對受體酪氨酸激酶DDR1新型抑制劑的快速開發(fā)。從數(shù)據(jù)收集、化合物合成到模型驗證,整個新藥研發(fā)過程僅僅用了46天,深刻展現(xiàn)了深度生成模型在藥物結(jié)構(gòu)設(shè)計過程中帶來的“加速度”。然而不可忽略的是,DDR1激酶本身是一個已經(jīng)得到詳盡研究的藥物靶點,在開發(fā)新的抑制劑方面有豐富的前體信息。對于缺乏充分研究的分子靶點,深度學(xué)習(xí)模型能否達(dá)到同樣顯著的效果有待進(jìn)一步考察。分子圖像翻譯技術(shù)也是大數(shù)據(jù)與AI應(yīng)用于藥物研發(fā)領(lǐng)域的一個重要板塊。“分子翻譯”的本質(zhì)是化學(xué)結(jié)構(gòu)式圖像識別(OCSR),關(guān)鍵步驟是圖片矢量化后將線條和節(jié)點解釋為鍵和原子,其中涉及圖像分割、圖像細(xì)化等技術(shù)。由于真實世界中的化學(xué)結(jié)構(gòu)圖像不僅大小、格式各異,還可能存在各種噪聲,例如掃描文檔普遍存在的失真問題。如何處理諸如模糊、部分缺失、扭曲變形等問題是OCSR技術(shù)的難點。筆者所在的中科院上海藥物所研究團(tuán)隊開發(fā)的分子翻譯算法能夠從帶有噪聲的圖像中精準(zhǔn)地提取化合物結(jié)構(gòu)信息,用于新藥研發(fā)工作者對化學(xué)、藥學(xué)文獻(xiàn)以及專利數(shù)據(jù)的自動挖掘和分析。這對于當(dāng)代生物醫(yī)藥和化學(xué)大數(shù)據(jù)的構(gòu)建以及后續(xù)AI算法的開發(fā)具有積極意義。
大數(shù)據(jù)與AI在新藥研發(fā)的各個環(huán)節(jié)都有非常大的應(yīng)用潛力,從新藥研發(fā)的不同環(huán)節(jié)來看有以下幾點。1)在靶點的篩選與發(fā)現(xiàn)方面,AI通過深度學(xué)習(xí)技術(shù)快速發(fā)現(xiàn)隱藏的藥物與疾病、疾病與基因之間的連接關(guān)系,可以縮短靶點發(fā)現(xiàn)周期。2)在化合物合成方面,AI通過模擬小分子化合物的藥物特性,在更短的時間內(nèi)挑選出最佳模擬化合物進(jìn)行合成試驗,大幅提高化學(xué)合成路線設(shè)計速度,以降低操作成本。3)臨床試驗階段是目前AI應(yīng)用的“卡脖子”環(huán)節(jié),其背后原因主要是生物學(xué)復(fù)雜性帶來的數(shù)據(jù)和AI建模兩方面的挑戰(zhàn):數(shù)據(jù)方面,臨床數(shù)據(jù)目前難以實現(xiàn)標(biāo)準(zhǔn)化、數(shù)字化,涉及患者隱私問題也限制了臨床數(shù)據(jù)的靈活運用;AI建模方面,化合物與人體靶點反應(yīng)過程非常復(fù)雜,數(shù)據(jù)穩(wěn)定性和可重復(fù)性差,從而影響了AI建模。當(dāng)前雖然有一些更具臨床相關(guān)性的模型,但可用AI進(jìn)行挖掘的數(shù)據(jù)依然相對較少。4)在真實世界研究方面,我國尚未形成真正意義上的大數(shù)據(jù)中心,依然面臨患者在用藥各階段數(shù)據(jù)收集不全、樣本收集困難等問題,而AI技術(shù)是新藥研發(fā)發(fā)展的一大突破口,將為整合、挖掘有價值的研究數(shù)據(jù)提供便利。
總體來看,大數(shù)據(jù)與AI技術(shù)在新藥研發(fā)領(lǐng)域的前景是光明的,不過受限于生物學(xué)的復(fù)雜性和臨床數(shù)據(jù)庫的缺乏,這些技術(shù)的應(yīng)用主要集中在藥物發(fā)現(xiàn)階段。谷歌和斯坦福大學(xué)學(xué)者共同發(fā)表的一項研究提到,深度學(xué)習(xí)技術(shù)在新藥研發(fā)領(lǐng)域大有可為,而且與生物反應(yīng)有關(guān)的數(shù)據(jù)量越大,發(fā)現(xiàn)新藥的可能性就越大。未來,只有對有價值的臨床數(shù)據(jù)進(jìn)行不斷挖掘、積累、完善,進(jìn)一步開發(fā)AI模型,大數(shù)據(jù)和AI技術(shù)才能更多地在臨床研究和真實世界研究中發(fā)揮價值,對新藥研發(fā)提速起到更有力的推動作用。
本期“大數(shù)據(jù)與人工智能賦能新藥研發(fā)”專題,邀請產(chǎn)業(yè)界與學(xué)術(shù)界多位專家,從不同層面和角度,系統(tǒng)闡述了大數(shù)據(jù)與AI在新藥研發(fā)中的應(yīng)用現(xiàn)狀與未來發(fā)展趨勢。
由深圳晶泰科技有限公司馬健博士與生物島實驗室陳紅明博士攜團(tuán)隊撰寫的《人工智能算法在全新藥物結(jié)構(gòu)設(shè)計中的應(yīng)用進(jìn)展》,系統(tǒng)介紹了AI算法中的分子深層算法在新藥研發(fā)領(lǐng)域中的研究進(jìn)展,重點總結(jié)了不同的分子表征形式及神經(jīng)網(wǎng)絡(luò)架構(gòu)的技術(shù)細(xì)節(jié)及優(yōu)缺點等。文章還指出,分子深層算法擁有從大量數(shù)據(jù)中學(xué)習(xí)的能力,以及超越化學(xué)直覺的從頭藥物設(shè)計的潛力,然而要想使其發(fā)揮充分作用,還有很多工作要做:首先,從頭生成算法的綜合可及性是此類工作的基本挑戰(zhàn)之一;其次,輔助分子生成的逆合成分析、活性預(yù)測、藥物的吸收、分布、代謝、排泄和毒性(ADMET)性質(zhì)預(yù)測等的AI方法也需要來自實驗數(shù)據(jù)的精確反饋。
吉林大學(xué)基礎(chǔ)醫(yī)學(xué)院朱迅教授與火石創(chuàng)造創(chuàng)始人兼CEO楊紅飛先生攜團(tuán)隊撰寫了2篇綜述,其中《人工智能在新藥發(fā)現(xiàn)中的應(yīng)用進(jìn)展》聚焦新藥發(fā)現(xiàn),詳細(xì)闡述了AI在藥物發(fā)現(xiàn)(包括藥物靶點識別、化合物高通量篩選、預(yù)測藥物分子動力學(xué)指標(biāo)、蛋白結(jié)構(gòu)及蛋白配體相互作用預(yù)測這4個環(huán)節(jié))中的應(yīng)用及優(yōu)勢。此外特別指出未來需要更多的高質(zhì)量化合物數(shù)據(jù)進(jìn)行AI研究,包括化合物的體外活性/毒性指數(shù),正確劑量/藥代動力學(xué)數(shù)據(jù)等,以最大化其應(yīng)用價值?!度斯ぶ悄茉谛滤幯邪l(fā)中的應(yīng)用現(xiàn)狀與挑戰(zhàn)》重點總結(jié)了AI在新藥研發(fā)領(lǐng)域的應(yīng)用場景和企業(yè)實踐,并探究我國AI賦能新藥研發(fā)面臨的主要挑戰(zhàn),包括數(shù)據(jù)獲取的挑戰(zhàn)、高質(zhì)量數(shù)據(jù)制約以及政策法規(guī)制定的滯后等,這也是未來AI技術(shù)更有效應(yīng)用于新藥研發(fā)需要突破的地方。
由中國藥科大學(xué)理學(xué)院廖俊教授攜團(tuán)隊撰寫的《真實世界研究在醫(yī)藥領(lǐng)域的應(yīng)用及研究方法》一文,指出真實世界研究與隨機對照試驗并行發(fā)展、互為補充,大大提高了患者的生命質(zhì)量和健康水平。然而,真實世界數(shù)據(jù)量級大,格式類型復(fù)雜,偏倚和混雜控制難,這需要強大的技術(shù)支持協(xié)助完成數(shù)據(jù)清洗和分析過程。
總體來看,以上4篇綜述全面闡述了大數(shù)據(jù)與AI在新藥研發(fā)領(lǐng)域的應(yīng)用現(xiàn)狀與未來展望。雖然角度與關(guān)注點各異,但殊途同歸,在肯定大數(shù)據(jù)與AI用于新藥研發(fā)是大勢所趨、臨床所需的同時,也為這些新興技術(shù)在新藥研發(fā)中更好地發(fā)揮其價值提供了具體而有前瞻性的建議,對于從事大數(shù)據(jù)、AI在醫(yī)藥領(lǐng)域落地工作的相關(guān)科研技術(shù)人員的工作開展具有重要參考和借鑒意義。
生物醫(yī)藥產(chǎn)業(yè)正進(jìn)入創(chuàng)新跨越新階段,大數(shù)據(jù)和AI技術(shù)已逐漸滲透到新藥研發(fā)的各個環(huán)節(jié),在提升新藥研發(fā)效率、改善患者獲益方面貢獻(xiàn)了不可忽視的力量,成為我國醫(yī)藥加速創(chuàng)新轉(zhuǎn)型的重要驅(qū)動力,推動我國臨床醫(yī)學(xué)及其研究步入“大數(shù)據(jù)時代”。其中,數(shù)據(jù)、算法和算力是AI技術(shù)發(fā)展的基礎(chǔ)要素,而AI又高度依賴于高質(zhì)量有標(biāo)識的大數(shù)據(jù)。近年來,AI在算法和算力方面突飛猛進(jìn),發(fā)展前景良好,但也面臨著一些挑戰(zhàn),其中數(shù)據(jù)是限制AI技術(shù)進(jìn)一步發(fā)展的“卡脖子”環(huán)節(jié)。
未來,如何有效提取和整合可用于AI建模的高質(zhì)量數(shù)據(jù)是亟待解決的問題。當(dāng)前藥物研發(fā)數(shù)據(jù)依然依賴于擁有龐大數(shù)據(jù)庫的各大醫(yī)藥公司,如果能夠加大企業(yè)間數(shù)據(jù)庫的分享力度,有助于實現(xiàn)合作共贏,然而藥物研發(fā)數(shù)據(jù)的高壁壘、高成本、高機密性影響了制藥企業(yè)對數(shù)據(jù)貢獻(xiàn)的積極性。此外,基于AI學(xué)科的天然優(yōu)勢,進(jìn)行多學(xué)科交叉與融合,也有助于新藥研發(fā)取得更大的創(chuàng)新和突破。
總體來看,技術(shù)迭代升級、數(shù)據(jù)資源共享、學(xué)科交叉融合是未來新藥研發(fā)領(lǐng)域發(fā)展的重要方向。道阻且長,行則將至,AI+新藥研發(fā)未來可期。