李風雷,胡喬宇,熊若凡,白芳
上??萍即髮W 免疫化學研究所,上海 201210
隨著科學技術的不斷進步,藥物研發(fā)已經從“偶然發(fā)現(xiàn)”模式逐漸轉型為“理性設計”模式。特別是計算機輔助藥物設計(computer aided drug design,CADD)方法的出現(xiàn),極大地豐富了“理性設計”技術,作為與實驗技術互補的關鍵手段,不斷推動著創(chuàng)新藥物的研發(fā)進程。
藥物研發(fā)過程可簡化為4個主要階段:靶標的鑒定、先導化合物的發(fā)現(xiàn)與優(yōu)化、臨床前研究以及臨床研究。首先,基于特定的疾病類型,通過遺傳學、組學以及生物信息學等方法,發(fā)現(xiàn)和鑒定與該疾病的發(fā)生、發(fā)展以及惡化過程直接相關的分子靶標,通過一系列評估確定藥物靶標。其次,基于已知的藥物靶標,結合結構生物學、計算機輔助藥物設計、藥物化學、分子生物化學、藥理評價等方法,尋找先導化合物,再通過不斷修飾化學結構,優(yōu)化其在有機體內的吸收、分布、代謝、排泄和毒性等性質。再次,對于具有良好成藥性和體外實驗中有效的先導化合物,進一步開展臨床前研究,在實驗動物、人體類器官上驗證先導化合物的藥效和藥代動力學性質,這一過程通常是由學術界和工業(yè)界合作完成的。最后,經過系統(tǒng)評估,只有在臨床前研究中藥效與安全性均佳的候選化合物,才能被推向臨床研究與評估。臨床研究通常也分為4個階段:主要測試藥物安全性的臨床I期;在相對較小的樣本上測試藥物有效性的臨床II期;在大樣本上測試藥物有效性的臨床III期;以及上市后長期觀察的臨床IV期。
近年來,生物制藥行業(yè)的蓬勃發(fā)展,產生并積累了越來越多的藥物研發(fā)數(shù)據(jù),這為人工智能技術在藥物研發(fā)行業(yè)的滲入鋪平道路。傳統(tǒng)的CADD在藥物研發(fā)的整個周期特別是臨床前研究中具有重要的作用。20世紀90年代以后,大量藥物設計計算方法不斷被提出,助力著藥物研發(fā)的各個階段。生物醫(yī)學大數(shù)據(jù)的涌現(xiàn)和人工智能技術的革新,無疑將進一步促進CADD方法的發(fā)展。本文將針對人工智能技術(主要是深度學習算法)在藥物設計方法開發(fā)中的應用,進行簡要回顧和總結,以期為藥物設計提供更多的思路和方法。
人工智能(artificial intelligence,AI),是指人工制造的機器系統(tǒng)所表現(xiàn)出來的智能。該詞語最早由麻省理工學院的約翰·麥卡錫于1956年在達特茅斯(Dartmouth)會議上提出。人工智能的發(fā)展跌宕起伏,并于近年開始加速。特別是大數(shù)據(jù)的出現(xiàn)、并行計算能力的提升和先進算法的提出,使得人工智能的發(fā)展進入前所未有的炙熱局面。
機器學習是實現(xiàn)人工智能的一種方式,是人工智能的子領域。機器學習基于已有的數(shù)據(jù)、知識或者經驗,自動識別和解析(“學習”)數(shù)據(jù),總結有意義的模式,并以此在相似的環(huán)境里做出預測或決策。機器學習可分為:有訓練標簽的監(jiān)督學習(supervised learning)、無訓練標簽的無監(jiān)督學習(unsupervised learning)、通過觀察環(huán)境做出動作并獲得環(huán)境獎勵的強化學習(reinforcement learning)、有部分訓練標簽的半監(jiān)督學習(semi-supervised learning)、交互式獲得標簽的主動學習(active learning),以及學習如何學習的元學習(meta learning)等。
深度學習(deep learning)是機器學習的關鍵技術之一。近10年來,深度學習技術一路高歌猛進,在機器視覺、自然語言處理、機器翻譯和路徑規(guī)劃等領域均取得了令人矚目的成績。人工智能作為引領未來的戰(zhàn)略性技術,在生命科學特別是藥物設計領域的應用得到逐步推廣,對藥物設計方法的研究起著重要的推動作用。本文將簡要介紹一些重要的深度學習算法,以及這些算法在藥物設計計算方法中的應用。
神經網絡算法是深度學習的一個重要的代表性算法,設計靈感來自生物神經網絡。神經網絡算法從信息處理角度對生物神經元網絡進行抽象,建立神經元之間的通信網絡,神經元間的不同連接方式組成不同的學習網絡。神經元將輸入的“信號”處理并逐層傳遞,最終獲得輸出。以下介紹幾種簡單的神經網絡形式。
多層感知機(multi-layer perceptron,MLP)是由一個輸入層(input layer)、一個或多個隱藏層(hidden layer)和一個輸出層(output layer)構成的全連接網絡(圖1)。全連接網絡中每個神經元都與前一層的神經元相連接,且連接均具有權重。因此,每個神經元可由前一層的所有神經元計算得出,公式如下:
圖1 多層感知機
其中,xj是輸入層的神經元,hi是隱藏層的神經元,ok是輸出層的神經元。為了避免網絡輸入與輸出間線性依賴的局限性,感知機的神經元中還可引入非線性激勵函數(shù)(如Sigmoid、tanh和Softplus等),使得神經元的輸入以非線性的形式映射到輸出端。
卷積神經網絡(convolution neural network,CNN)一般由卷積層和池化層組成。卷積計算作為CNN中最重要的部分,可有效地減少神經網絡中的參數(shù)。如圖2所示的網絡由兩層卷積層構成,每一層中的每一步操作均為一個卷積,用公式表示為:
圖2 卷積神經網絡
其中,f為輸入數(shù)據(jù),g為卷積核。該公式為數(shù)學定義的卷積,且是一維形式,而在深度學習中,往往用到的是高維的形式,并且在實現(xiàn)的時候會做一些修改。一層的卷積操作即是一個卷積層。增加卷積的層數(shù)、使用殘差網絡和池化等操作,可進一步優(yōu)化卷積神經網絡(如VGG、Resnet等)。
循環(huán)神經網絡(recurrent neural network,RNN)是考慮時間前饋的神經網絡。RNN考慮了輸入的序列性,即每一次輸入都考慮到之前輸出的信息,體現(xiàn)出“記憶功能”,是進行實踐序列分析最好的選擇(圖3)。其模型表示為:
圖3 循環(huán)神經網絡
其中,xi是輸入層的神經元,hi是隱藏層的神經元,oi是輸出層的神經元。對當前學習之前的信息有選擇性地輸入,可提高RNN的效果,如長短期記憶(long short-term memory,LSTM)、門控循環(huán)單元(gated recurrent unit,GRU)等。
圖是一種具有點和邊的結構數(shù)據(jù)。圖神經網絡(graph neural network,GNN)則是一類基于深度學習的處理具有圖信息的方法(圖4),由于其較好的性能與可解釋性,已經成為一種應用廣泛的圖分析方法。圖神經網絡的數(shù)學模型可表示為:
圖4 圖神經網絡
第i個點的特征hi是通過與其相鄰的所有xj點的特征、xi本身的特征和其與xj間的邊ei,j的性質綜合得出的。f 和f'是可微函數(shù),g通常為求和、求均值或求最大值函數(shù)等。通過將狀態(tài)hi與特征ei,j傳遞給g函數(shù),來計算GNN的輸出oi。
注意力機制(attention mechanism)源自人類視覺和大腦處理信號的機制。在認知中,人類往往會因為信息龐大而選擇性地關注其中高價值的一部分而忽略其他信息,即注意力機制。處理數(shù)據(jù)時,注意力機制模型對數(shù)據(jù)構成元素引入了查詢(query)、鍵(key)和值 (value)構成數(shù)據(jù)對,通過計算查詢與鍵之間的相關性或者相似性,得到鍵對應于值的權重系數(shù)(圖5)。注意力機制可描述為:
圖5 注意力機制
其中:q(query)在匹配ki(key)后與vi(value)結合,從而增加需要“注意力”部分的權重;α是注意力打分函數(shù),不同的打分函數(shù)有不同的效果。在注意力機制模型基礎上,衍生出Transformer[1]、Bert[2]等更高級的網絡結構。
目前已有多種深度學習框架,如PyTorch、TensorFlow、Paddle和Keras等,為神經網絡的搭建提供了平臺,給開發(fā)基于深度學習的應用模型帶來極大便利。截至目前,已有多個基于深度學習算法的工具包,如DeepChem[3]、DeepPurpose[4]和OpenChem[5]等,在此基礎上結合簡單的深度學習算法的成功建立,為用戶采用新的數(shù)據(jù)集進行訓練提供了直接的工具。
藥物研發(fā)過程主要包括藥物靶標發(fā)現(xiàn)、先導化合物的發(fā)現(xiàn)與優(yōu)化、候選藥物的確定和成藥性優(yōu)化等步驟。近年來,深度學習在藥物研發(fā)中的應用日漸廣泛,以下將分別介紹深度學習算法在藥物研發(fā)各步驟中的應用現(xiàn)狀。
藥物靶標發(fā)現(xiàn)是現(xiàn)代藥物研發(fā)模式中的第一步,也是決定新藥研發(fā)成功與否的關鍵步驟。傳統(tǒng)的藥物靶標發(fā)現(xiàn)方法,主要是通過分析基因組學、蛋白質組學數(shù)據(jù)尋找疾病相關的潛在靶標。這些靶標可能是蛋白質、核酸(DNA、RNA)或其他生物大分子。隨后,研究者使用細胞生物學、遺傳學以及分子生物學的方法來驗證潛在靶點的可成藥性,包括靶標的功能機制、靶標與疾病的相關性和藥物分子可設計性等,進而確定藥物靶標。已經報道的藥物靶標發(fā)現(xiàn)的計算方法主要分為兩類:①基于反向分子對接的策略(如IdTarget[6]和TarFishDock[7]),該類方法計算量大,且受限于候選靶點結構的準確性,對于結構未知的體系無法準確預測;②以相似化合物具有相似的作用靶點為前提,通過比較發(fā)現(xiàn)的活性化合物與已知靶點的活性化合物的結構相似性,建立化合物與靶點之間間接關聯(lián)網絡,從而揭示候選藥物靶點的方法(如ChemMapper[8]、PharmMapper[9]和SwissTargetPrediction[10]等),該類方法依賴于小分子-靶標信息的數(shù)據(jù),因此在化學結構新穎的小分子上效果較差。除此之外,還有針對潛在靶點的成藥性位點發(fā)現(xiàn)與評價方法(如Fd-DCA[11]等)也存在一定的局限性?;谏疃葘W習的算法可以有效地綜合來自多種數(shù)據(jù)集的信息,進而給出更加準確的預測,如DeepDTnet[12]根據(jù)構建的藥物-基因-疾病網絡就使用了圖表示學習來進行靶標識別。通過采用該方法,研究者預測發(fā)現(xiàn)了Topotecan是ROR-γt(retinoic-acid-receptor-related orphan receptor-γt)的抑制劑,并得到實驗的驗證。這些方法的出現(xiàn),無疑加速了藥物靶點的發(fā)現(xiàn)與評價進程。
蛋白質-蛋白質相互作用是一類重要的藥物靶點,已經有多種針對蛋白質-蛋白質相互作用的藥物成功上市。然而,預測蛋白質-蛋白質相互作用仍富有挑戰(zhàn)性。2019年,David Baker等[13]利用蛋白氨基酸序列作用位點的共進化理論與分子對接相結合的方法,通過發(fā)展計算方法成功預測了1 618組大腸桿菌蛋白對和384組未見報道的結核桿菌蛋白質-蛋白質相互作用對。然而,對于包括人類在內的真核生物而言,共進化分析所具有的同源序列信息較少。因此,基于統(tǒng)計算法的共進化分析方法的預測準確性便受到了極大的限制。深度學習方法對該領域的發(fā)展起到一定的推動作用(如DPPI[14]使用了卷積、隨機投影和全連接預測3個模塊構成的神經網絡),通過對蛋白質-蛋白質作用對的序列氨基酸組成、順序以及互作結構域序列的共同性特征等進行學習,發(fā)展了只依賴于氨基酸序列預測蛋白質-蛋白質互作的計算模型,在測試中其精度-回歸曲線auPR得分約41%(人源測試集)。另外,如MaSIF[15]使用了幾何神經網絡(geometric neural network),將蛋白質表面的幾何特征、化學特征與生物大分子間的互作關系相聯(lián)系,建立了蛋白質-蛋白質互作以及蛋白質-小分子互作位點的預測方法,在蛋白質-蛋白質互作位點預測上每個蛋白的ROC AUC的中位數(shù)為0.81。
傳統(tǒng)的蛋白質功能預測方式基于相似序列具有相似功能的進化理論,利用蛋白質之間的序列相似性,通過尋找與靶標蛋白序列相似,且功能明確的同源蛋白來間接推測其功能(如BLAST[16]、PSI-BLAST[17]、HMMER[18]等)。近年來,一些研究開始通過綜合學習序列信息和已知的蛋白質結構,發(fā)展預測模型來預測蛋白質的功能。在2019—2020年蛋白功能預測大賽(critical assessment of functional annotation,CAFA)中,DeepGO[19]對蛋白序列編碼后使用卷積神經網絡獲得潛在編碼,并通過STRING[20]數(shù)據(jù)庫中的蛋白-蛋白互作網絡為每個蛋白生成圖嵌入編碼,隨后將這兩種編碼合并后送入分類層,從而預測功能。TALE[21]使用基于自注意力(selfattention)Transformer來捕捉序列中的全局特征,進一步提高了對蛋白質功能預測準確性(其精度-回歸曲線下面積AuPRC在不同的測試集和GO的不同子類中均比DeepGO高)。特別地,作者聲稱該方法對于同源序列信息缺乏的體系具有一定的優(yōu)勢。
藥物設計中,先導化合物的發(fā)現(xiàn)途徑主要分為基于配體和基于靶標受體的兩種藥物設計方法?;谂潴w的藥物設計,認為具有相同理化性質或結構的化合物應具有相同或相似的作用靶點及活性。因此,該方法策略是基于已知的活性化合物配體的結構及其活性信息,通過建立其結構與藥效關系模型,來預測和評價新化學結構的相關生物學活性。其中,定量構效關系(quantitative structure-activity relationship,QSAR)是基于配體藥物設計的主要方法之一,以配體(藥物)的化學結構標識符和活性作為輸入,通過多元線性回歸、偏最小二乘回歸和小波核偏最小二乘回歸等方法,建立化學結構標識符與配體活性之間的關系。傳統(tǒng)的QSAR方法依賴于大量的配體-活性關系數(shù)據(jù),同時受限于已知活性配體的化學結構空間。因此,傳統(tǒng)的QSAR方法具有較大的改進空間。近年來,深度學習的發(fā)展顯著提高了QSAR方法的準確性和魯棒性。Ma等[22]使用全連接的深度神經網絡作為構建QSAR模型的方法。之后,他們又改進為多任務深度神經網絡,通過訓練不同任務的組合,他們發(fā)現(xiàn),如果輔助任務的訓練集與主任務的測試集的分子有較大的相似性,且兩個任務的目標有生物活動關聯(lián)性時可以提高主任務的預測,若沒有關聯(lián)則會降低預測,而若兩個任務的數(shù)據(jù)集不同時對主任務的影響不大。
除基于配體的藥物設計策略之外,基于結構的藥物設計也是藥物研發(fā)中的重要策略之一。該策略的傳統(tǒng)的流程為:獲取藥物靶標的三維結構—確定藥物靶標結構中的活性位點—使用分子對接等方法進行化合物的虛擬篩選。
隨著結構生物學的發(fā)展,獲得藥物靶標三維空間結構的方法已經日漸成熟。如,AlphaFold[24]使用殘差卷積神經網絡,進行多序列比對(multiple sequence alignment,MSA)求出殘基之間的距離矩陣,據(jù)此求出勢能并通過Rosetta[25]獲得結構。TrRosetta[26]在氨基酸距離矩陣的基礎上,引入氨基酸構象角度矩陣,進一步提高結構的預測準確度。近日,AlphaFold2[27]的出現(xiàn),實現(xiàn)了蛋白質結構領域的極大突破,并在CASP14(critical assessment of techniques for protein structure prediction 14)上的表現(xiàn)一騎絕塵,在一些較難體系中,其全局距離測試得分(global distance test score)為90,而其他隊伍僅為75分左右!
RNA的結構預測一般集中在二級結構預測上,如MXfold2[28]使用卷積雙向LSTM等網絡層,輸入RNA序列,輸出相對堿基處于4種不同折疊狀態(tài)的得分,然后使用動態(tài)規(guī)劃預測最優(yōu)二級結構。SPOT-RNA[29]與MXfold2的輸入和網絡相似,不同之處是其網絡結構使用了遷移學習,輸出為堿基與其他堿基形成氫鍵的可能性。而SPOT-RNA2的輸入加上了經過LinearPartition[30]和RNAcmap[31]處理后的特征,且簡化了網絡。還有針對RNA結構的穩(wěn)定性評判的計算方法,如RNA3DCNN[32]使用神經網絡訓練了基于知識的打分函數(shù),可用于評價RNA三維結構的合理性。
與獲得靶標三維結構相比,確定藥物靶標結構中的活性位點同樣重要。對于無已知活性化合物的藥物靶標,需要通過可藥性結合位點的預測方法來預測藥物設計位點。傳統(tǒng)的方法是使用探針分子,通過分子對接模擬的方法或靶標空腔(cavity)掃描等方法(如FTMap[33]和Fd-DCA[11]),尋找探針小分子集中結合的位點,作為預測的可藥性位點。近日,一些基于深度學習算法的可藥性位點的預測方法先后被報道。BiteNet[34]采用三維卷積神經網絡通過對小分子-蛋白質復合物結構體系進行學習,從而建立藥物設計位點的預測模型,該模型在GPCR、EGFR等體系都進行了應用測試,在精度與計算速度方面均表現(xiàn)出一定優(yōu)勢。PointSite[35]將蛋白質三維結構轉換為點云,采用基于U-Net的子流形卷積(submanifold sparse convolution)方法進行分割,通過結合原子級表示和增強學習的手段,發(fā)展了可在原子水平預測蛋白質上小分子結合位點的算法。
當確定藥物靶標的活性位點之后,便可采用分子對接的方法進行小分子化合物的虛擬篩選,即先導化合物的發(fā)現(xiàn)工作。傳統(tǒng)的分子對接方法主要包括兩個重要的模塊,分子構象搜索與打分函數(shù)。打分函數(shù)是評價小分子與藥物靶標親和力的函數(shù),是指導分子三維構象優(yōu)化的目標函數(shù),是決定分子對接方法效率的關鍵因素。然而,傳統(tǒng)的分子對接打分函數(shù)基于力場和經驗參數(shù),在不同的藥物靶標中很難同時取得良好的效果。因此,在先導化合物的發(fā)現(xiàn)過程中,仍然十分依賴藥物化學家的經驗判斷。深度學習的方法直接從已有的復合物結構以及化合物-蛋白質的實驗結合親和力數(shù)據(jù)來建立預測藥物-靶標結合親和力模型。DeepDTA[36]使用了蛋白質殘基序列,小分子結構SMILES(simplified molecular input line entry specification)編碼,采用卷積神經網絡,訓練蛋白質、小分子與結合親和力間的相關性的深度學習模型。另外,OnionNet[37]使用CNN網絡,通過同時考慮蛋白質-小分子局部互作模式以及非局部互作模式,發(fā)展了小分子-蛋白質親和力預測方法。在測試中,其結合親和力預測值與實驗值的相關性可達73%。除此之外,基于深度學習算法發(fā)展的小分子-蛋白質親和力算法還有KDEEP[38]、RosENet[39]和DeepGS[40]等。鑒于篇幅所限,在此不一一贅述。
藥物的化學合成是制約新藥研發(fā)速度的關鍵過程。早期有機化學研究積累了大量的化合物數(shù)據(jù)以及合成路線信息,為設計新化合物并預測其可合成性提供了重要的學習信息。然而,對于真實的化學空間而言,人類目前所能成功合成的化學結構只是冰山一角。因此,設計具有新穎化學結構的化合物,并準確評價其可合成性的方法,將有力地推動新藥研發(fā)的進程。針對上述問題,已有眾多基于深度學習算法發(fā)展的用于類藥性分子生成和有機分子的逆合成分析的方法被報道。對于分子生成方法,Méndez-Lucio等[41]使用生成式對抗網絡[42](generative adversarial networks,GAN),在對SMILES編碼時,使用了基于GRU的編碼器和解碼器,依賴于L1000數(shù)據(jù)庫中小分子與基因表達差異的影響數(shù)據(jù),建立了小分子與其對基因表達間的深度學習模型。該模型可根據(jù)某個基因敲除的基因表達圖譜,生成具有特定調控基因表達功能的全新小分子。此外,ReLeaSE[43]使用了強化學習算法(其中網絡部分使用到Stack-RNN)生成具有特定性質的分子。使用分子的圖結構信息發(fā)展的分子生成方法,如DeepGraphMolGen[44]使用了基于圖卷積神經網絡的強化學習算法,生成具有類藥性和可合成性的分子。
對于有機化學分子的逆合成分析,Liu等[45]使用了具有Attention機制的RNN,輸入已有目標分子的SMILES和特定的化學反應類型,建立可預測反應產物的深度學習模型。此外,G2Gs[46]以一種圖到圖的框架,同樣以上述信息作為學習數(shù)據(jù),建立了預測模型來預測合成反應產物。
藥物的吸收(absorption)、分布(distribution)、代謝(metabolism)、排泄(excretion)和毒性(toxicity)等性質,合稱ADMET性質,決定了藥物在臨床研究中的成功率。其中,藥物毒性的評價對于臨床前研究至關重要。使用機器學習方法預測藥物的ADMET性質已被廣泛報道。2012年,唐赟課題組報道了基于機器學習技術發(fā)展的ADMET性質預測方法admetSAR[47],之后通過進一步豐富數(shù)據(jù)庫,加入網絡算法升級到admetSAR2.0版本[48]。此外,如Chemi-net[49]將分子轉為圖結構,并使用圖卷積來預測ADMET性質。Wenzel等[50]使用全連接的深度神經網絡發(fā)展了ADMET預測模型。ADMET預測模型是藥物設計領域中機器學習算法最先介入后的研究成果。截至目前,基于AI算法而發(fā)展的預測模型也極其豐富,鑒于篇幅所限不再一一展開。
本文以介紹重要的深度學習算法為切入點,沿著藥物研發(fā)主線,回顧了多種深度學習算法在藥物研發(fā)初期的幾個關鍵環(huán)節(jié)中的應用進展。深度學習算法在蛋白質結構預測與分子生成等諸多領域已經取得顯著的成功。然而,仍有以下幾個方面有待進一步探索:①數(shù)據(jù)集的數(shù)量和質量是改進深度學習的必要條件,如何有效產生、高效收集和準確處理數(shù)據(jù)將是進一步基于深度學習的藥物設計關鍵問題;②如何設計和開發(fā)更高效且適宜于藥物設計的深度學習算法,是進一步改進藥物設計方法的另一關鍵;③如何針對藥物設計中的不同問題,合理設計和提取學習特征,是彌補輸入數(shù)據(jù)不足或網絡學習能力不佳的關鍵手段。綜上,鑒于深度學習算法在藥物設計方法發(fā)展方面已經取得的成績,以及生物醫(yī)藥行業(yè)技術的不斷革新,我們對AI驅動的藥物設計的未來充滿信心,相信將有更多高效、高質量的藥物設計方法被開發(fā)出來并推廣應用。