羅 佳,許小青,王煒祺,張 威
(江蘇衛(wèi)生健康職業(yè)學(xué)院 藥學(xué)院,南京 211800)
新藥研發(fā)長期受研發(fā)周期長、資金耗費(fèi)巨大、成果回報(bào)率低等因素的困擾,世界主流藥企一直都在努力嘗試通過技術(shù)創(chuàng)新來加快新藥研發(fā)速度,提高成功率和降低成本,以期能更好地滿足日益增長的用藥需求。隨著以深度學(xué)習(xí)為代表的人工智能技術(shù)的蓬勃發(fā)展,在新藥研發(fā)產(chǎn)業(yè)鏈中交叉引入人工智能理論成為了當(dāng)下的研究熱點(diǎn),新藥研發(fā)產(chǎn)業(yè)鏈具有高度密集的可用數(shù)據(jù)集[1],深度學(xué)習(xí)理論具有強(qiáng)大的密集數(shù)據(jù)集隱性特征自感知屬性,為人工智能在新藥研發(fā)領(lǐng)域的應(yīng)用提供了先天優(yōu)勢(shì)。深度學(xué)習(xí)理論可以應(yīng)用于新藥研發(fā)的各個(gè)階段,在藥物發(fā)現(xiàn)及臨床前研究階段[2],主要應(yīng)用在靶點(diǎn)發(fā)現(xiàn)、先導(dǎo)化合物篩選等,在臨床試驗(yàn)階段主要應(yīng)用在制劑研發(fā)、試驗(yàn)優(yōu)化等,在審批上市階段,主要應(yīng)用在產(chǎn)品優(yōu)化與學(xué)術(shù)推廣等。深度學(xué)習(xí)理論不僅能夠挖掘出不易被發(fā)現(xiàn)的隱性關(guān)系,構(gòu)建藥物、疾病和基因之間的深層次關(guān)系,同時(shí),可對(duì)候選化合物進(jìn)行虛擬篩選,更快地篩選出具有較高活性的化合物,為后期臨床試驗(yàn)做準(zhǔn)備。
基于人工智能和大數(shù)據(jù)的精準(zhǔn)藥物設(shè)計(jì)技術(shù)開發(fā)目前已經(jīng)逐漸成為學(xué)術(shù)界的研究熱點(diǎn),國內(nèi)外諸多新藥研發(fā)領(lǐng)域的專家學(xué)者進(jìn)行了大量工作并取得了豐碩成果,具有較大影響且代表人工智能藥物研發(fā)領(lǐng)域最新研究現(xiàn)狀的學(xué)術(shù)成果介紹如下。2018 年7 月,來自美國北卡羅來納大學(xué)藥物分子模擬實(shí)驗(yàn)室的Alexander 等[3]在Science Advances 等人雜志上發(fā)文,系統(tǒng)闡述了利用深度強(qiáng)化學(xué)習(xí)方法從頭設(shè)計(jì)特定藥物活性的分子的技術(shù)路線及可行性,給出了一種用于從頭設(shè)計(jì)具有所需特性的分子的新型計(jì)算策略,稱為ReLeaSE(結(jié)構(gòu)演化的增強(qiáng)學(xué)習(xí))并完成了仿真驗(yàn)證[4];2019 年9月,藥物研發(fā)人工智能公司Insilico Medicine 與藥明康德聯(lián)合在Nature Biotechnology 報(bào)道了基于人工智能設(shè)計(jì)DDR1 抑制劑的成功案例,從靶點(diǎn)選擇到活性分子篩選和驗(yàn)證,總時(shí)長耗費(fèi)46 d,信息收集及數(shù)據(jù)整理7 d,建立深度學(xué)習(xí)模型12 d,優(yōu)化2 d,合成及動(dòng)物實(shí)驗(yàn)25 d。2019 年12 月,來自瑞士蘇黎世聯(lián)邦理工大學(xué)的Jose 等[5]在Nature 雜志上發(fā)文,詳細(xì)闡述了人工智能在活性小分子藥物發(fā)現(xiàn)中的重要作用,明確指出深度學(xué)習(xí)算法優(yōu)化和機(jī)器學(xué)習(xí)領(lǐng)域之間的交叉可能會(huì)導(dǎo)致藥物研發(fā)領(lǐng)域更快的發(fā)展;2020 年1 月,來自中科院上海藥物研究所的Yang 等[6]在Journal of Medicinal Chemistry(JMC)雜志上發(fā)文,通過深度學(xué)習(xí)技術(shù)發(fā)現(xiàn)P300/CBP 組蛋白乙酰轉(zhuǎn)移酶先導(dǎo)化合物,然后通過結(jié)構(gòu)改造發(fā)現(xiàn)活性最強(qiáng)的抑制劑,可作為潛在的臨床開發(fā)候選藥物進(jìn)行廣泛的臨床前研究。
雖然基于人工智能和大數(shù)據(jù)的精準(zhǔn)藥物設(shè)計(jì)技術(shù)開發(fā)已經(jīng)取得了令人矚目的成績,但是在學(xué)術(shù)研究、技術(shù)革新、落地產(chǎn)業(yè)化等層面還存在諸多問題,很大程度上制約了人工智能理論在新藥研發(fā)領(lǐng)域真正的落地開花,結(jié)合基于人工智能和大數(shù)據(jù)的精準(zhǔn)藥物設(shè)計(jì)技術(shù)在國內(nèi)外的最新研究現(xiàn)狀,從技術(shù)壁壘、研發(fā)理念、產(chǎn)業(yè)化布局等角度簡單總結(jié)當(dāng)前人工智能藥物研發(fā)領(lǐng)域存在的主要問題。
1)技術(shù)壁壘角度:人工智能理論發(fā)揮效能的催化劑是格式一致的有效密集數(shù)據(jù)集,但目前國內(nèi)外主流藥企具有很強(qiáng)的封閉性,新藥研發(fā)涉及到數(shù)據(jù)集大多作為商業(yè)秘密,導(dǎo)致訓(xùn)練數(shù)據(jù)集格式多樣且共享性較差,為基于人工智能理論構(gòu)建統(tǒng)一規(guī)范的藥物研發(fā)隱性規(guī)律感知機(jī)制造成了困境。
2)研發(fā)理念角度:雖然國內(nèi)外主流藥企均已積極布局人工智能藥物研發(fā)領(lǐng)域的研究,由于長期受傳統(tǒng)藥物研發(fā)理念的束縛,國內(nèi)外主流藥企仍然把傳統(tǒng)藥物研發(fā)作為重點(diǎn)布局對(duì)象,對(duì)基于人工智能和大數(shù)據(jù)的精準(zhǔn)藥物設(shè)計(jì)技術(shù)開發(fā)仍持觀望態(tài)度,在資金投入、政策扶持、人才引進(jìn)等方面存在壁壘。
3)產(chǎn)業(yè)化布局角度:人工智能藥物研發(fā)領(lǐng)域的核心成果目前大多局限于學(xué)術(shù)領(lǐng)域,成果適用范圍往往局限在理想環(huán)境下的藥物實(shí)驗(yàn)室,真正意義上的新藥成果極少。截至目前,還沒有一款人工智能藥物研發(fā)產(chǎn)品批準(zhǔn)上市,因此,在大部分初創(chuàng)企業(yè)需要面對(duì)產(chǎn)出成果不足或者不優(yōu)而導(dǎo)致財(cái)務(wù)狀況堪憂的現(xiàn)狀下,企業(yè)需要合理地定位產(chǎn)業(yè)鏈角色,選擇適合的創(chuàng)新商業(yè)模式進(jìn)行產(chǎn)業(yè)化布局,人工智能藥物研發(fā)的初創(chuàng)企業(yè)要積極跟學(xué)術(shù)界和產(chǎn)業(yè)龍頭合作,獲得優(yōu)質(zhì)數(shù)據(jù)是立足之本。
基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究整體的目標(biāo)是開發(fā)一種先驗(yàn)活性需求下的面向數(shù)以百萬計(jì)的小分子化合物最優(yōu)組合的人工智能算法,實(shí)現(xiàn)具有某種生物活性和特定化學(xué)結(jié)構(gòu)的先導(dǎo)化合物自主感知及優(yōu)化策略生成?;谏疃葘W(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究擬解決的關(guān)鍵問題包括分子結(jié)構(gòu)字符化、特征自主提取及感知、分子結(jié)構(gòu)優(yōu)化策略生成等[7]。其中,分子結(jié)構(gòu)字符化主要實(shí)現(xiàn)二維或者三維分子模型的字符化,便于人工智能算法進(jìn)行精準(zhǔn)特征的提取與學(xué)習(xí);特征自主提取及感知主要對(duì)以SMILES 字符串形式表達(dá)的分子庫進(jìn)行特征提取與學(xué)習(xí),完成深度可分離卷積神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練,以生成化學(xué)結(jié)構(gòu)合理的SMILES 字符串,并使用預(yù)測(cè)模型來預(yù)測(cè)生成的化合物相關(guān)屬性;分子結(jié)構(gòu)優(yōu)化策略生成主要實(shí)現(xiàn)對(duì)自主生成的SMILES 字符串表達(dá)形式的分子結(jié)構(gòu)進(jìn)行優(yōu)化擴(kuò)展,優(yōu)化擴(kuò)展的依據(jù)可以是模型新學(xué)習(xí)到的經(jīng)驗(yàn),也可以是目前已經(jīng)報(bào)道及具有潛在活性的先驗(yàn)先導(dǎo)化合物。
基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究整體涉及分子結(jié)構(gòu)字符化子模型、特征自主感知子模型、分子優(yōu)化策略生成子模型3 個(gè)子模型。其中,分子結(jié)構(gòu)字符化子模型采用長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法(LSTM)對(duì)ChEMBL 數(shù)據(jù)庫中的150 萬個(gè)分子進(jìn)行特征訓(xùn)練,選擇SMILES 作為分子表現(xiàn)形式,以此訓(xùn)練分子結(jié)構(gòu)字符化子模型,使其學(xué)習(xí)自主生成SMILES 字符串的規(guī)則,以便生成合理的SMILES 字符串;特征自主感知子模型利用深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法(DSC)對(duì)ChEMBL 數(shù)據(jù)庫中所有人源蛋白靶標(biāo)的活性小分子進(jìn)行迭代預(yù)訓(xùn)練,構(gòu)建先導(dǎo)化合物活性與結(jié)構(gòu)之間的物理映射關(guān)系,實(shí)現(xiàn)先導(dǎo)化合物活性與結(jié)構(gòu)之間隱性知識(shí)的自主感知,利用特征自主感知子模型對(duì)分子結(jié)構(gòu)字符化子模型生成的SMILES 字符串進(jìn)行活性預(yù)測(cè),篩選符合特定活性的化合物庫;分子優(yōu)化策略生成子模型利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)算法(RNN)實(shí)現(xiàn)分子優(yōu)化策略的自主生成,使用SMILES 字符串作為輸入向量來計(jì)算分子的相關(guān)屬性,并基于學(xué)習(xí)到的新經(jīng)驗(yàn)(目前已經(jīng)報(bào)道及具有潛在活性的先驗(yàn)先導(dǎo)化合物對(duì)模型等)對(duì)自主感知子模型預(yù)測(cè)的SMILES字符串進(jìn)行活性優(yōu)化。
為了實(shí)現(xiàn)先導(dǎo)化合物自主感知及優(yōu)化策略生成,針對(duì)模型分子結(jié)構(gòu)字符化子模型,利用基于RDKit 的Python 腳本實(shí)現(xiàn)分子結(jié)構(gòu)SDF 格式與SMILES 格式的相互轉(zhuǎn)換,利用特定編輯軟件還原成二維圖形或分子的三維模型;針對(duì)模型自主感知子模型,利用ChEMBL數(shù)據(jù)庫中所有人源蛋白靶標(biāo)的活性小分子對(duì)深度可分離卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代預(yù)訓(xùn)練,構(gòu)建先導(dǎo)化合物活性與結(jié)構(gòu)之間的物理映射關(guān)系,實(shí)現(xiàn)先導(dǎo)化合物活性與結(jié)構(gòu)之間隱性知識(shí)的自主感知,初步實(shí)現(xiàn)自主生成特定先驗(yàn)活性的先導(dǎo)化合物;針對(duì)模型優(yōu)化策略生成子模型,提供具有良好人機(jī)交互的擴(kuò)展API 接口,利用目前已經(jīng)報(bào)道及具有潛在活性的先驗(yàn)先導(dǎo)化合物對(duì)模型進(jìn)行優(yōu)化調(diào)整,為進(jìn)一步獲得可用于合成及后續(xù)生物活性實(shí)驗(yàn)的性質(zhì)較好先導(dǎo)化合物,通過若干特定規(guī)則對(duì)生成的先導(dǎo)化合物庫進(jìn)行排序和篩選。模型設(shè)計(jì)完成并經(jīng)過系統(tǒng)性整合后,完成已知小分子活性環(huán)境下的效能仿真驗(yàn)證。
聚焦基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究擬解決的關(guān)鍵問題針對(duì)開展研究過程中各個(gè)子階段的特點(diǎn),采用差異化研究方法,以研究目標(biāo)及擬解決的關(guān)鍵問題為導(dǎo)向,針對(duì)基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究整體涉及的3 個(gè)子模型分別采用貼切的研究方法,簡述如下。針對(duì)分子結(jié)構(gòu)字符化子模型采用數(shù)學(xué)建模、軟件編程實(shí)現(xiàn)的研究方法,具體利用長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法(LSTM)對(duì)ChEMBL 數(shù)據(jù)庫中的150 萬個(gè)分子進(jìn)行模型訓(xùn)練,實(shí)現(xiàn)有效分子結(jié)構(gòu)的的自主生成;針對(duì)特征自主感知子模型采用數(shù)學(xué)建模、軟件編程實(shí)現(xiàn)、仿真驗(yàn)證的研究方法,具體利用深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法(DSC)對(duì)ChEMBL 數(shù)據(jù)庫中所有人源蛋白靶標(biāo)的活性小分子進(jìn)行迭代預(yù)訓(xùn)練,實(shí)現(xiàn)對(duì)分子結(jié)構(gòu)字符化子模型生成的SMILES 字符串進(jìn)行活性預(yù)測(cè);針對(duì)分子優(yōu)化策略生成子模型采用數(shù)學(xué)建模、軟件編程實(shí)現(xiàn)、仿真驗(yàn)證、試驗(yàn)驗(yàn)證的研究方法,利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)算法(RNN)實(shí)現(xiàn)分子活性優(yōu)化策略的自主生成,進(jìn)一步獲得可用于合成及后續(xù)生物活性試驗(yàn)的性質(zhì)較好的先導(dǎo)化合物。
針對(duì)基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究3 項(xiàng)擬解決的關(guān)鍵問題分別給出便于計(jì)算機(jī)仿真及試驗(yàn)驗(yàn)證的具體技術(shù)路線。針對(duì)擬解決的關(guān)鍵問題一,選取ChEMBL 數(shù)據(jù)庫中的大約150萬個(gè)類藥分子作為分子結(jié)構(gòu)訓(xùn)練數(shù)據(jù)源,利用基于RDKit 的Python 腳本實(shí)現(xiàn)分子結(jié)構(gòu)SDF 格式與SMILES 格式的相互轉(zhuǎn)換,利用特定編輯軟件還原成二維圖形或分子的三維模型[8],實(shí)現(xiàn)分子結(jié)構(gòu)訓(xùn)練數(shù)據(jù)源轉(zhuǎn)換為SMILES 字符串分子表現(xiàn)形式,利用SMILES 字符串分子表現(xiàn)形式對(duì)長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法(LSTM)進(jìn)行迭代訓(xùn)練,其中,長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法(LSTM)采用多維網(wǎng)絡(luò)結(jié)構(gòu),包含4 個(gè)LSTM層、2 個(gè)Dropout 層、2 個(gè)TimeDistributed 層和1 用于激活過程的Softmax 函數(shù);針對(duì)擬解決的關(guān)鍵問題二,對(duì)ChEMBL 數(shù)據(jù)庫中所有人源蛋白靶標(biāo)的活性小分子對(duì)深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法(DSC)進(jìn)行深度預(yù)訓(xùn)練,構(gòu)建先導(dǎo)化合物活性與結(jié)構(gòu)之間的物理映射關(guān)系,對(duì)分子結(jié)構(gòu)字符化子模型生成的SMILES 字符串進(jìn)行活性預(yù)測(cè),其中深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法(DSC)屬于深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其由一個(gè)擴(kuò)展嵌入層、2 個(gè)可分離卷積層和2 個(gè)密集層組成,該網(wǎng)絡(luò)利用SMILES字符串作為輸入向量來預(yù)測(cè)分子的相關(guān)活性;針對(duì)擬解決的關(guān)鍵問題三,采用目前最新報(bào)道及具有潛在活性的先驗(yàn)先導(dǎo)化合物對(duì)深度循環(huán)神經(jīng)網(wǎng)絡(luò)算法(RNN)進(jìn)行循環(huán)訓(xùn)練,向DSC 網(wǎng)絡(luò)添加額外的權(quán)重,保證在DSC 網(wǎng)絡(luò)始終可以循環(huán)獲取最新經(jīng)驗(yàn),實(shí)現(xiàn)分子活性優(yōu)化策略的自主生成,進(jìn)一步獲得可用于合成及后續(xù)生物活性試驗(yàn)的性質(zhì)較好的先導(dǎo)化合物。
聚焦以深度學(xué)習(xí)為代表的人工智能技術(shù)在新藥研發(fā)領(lǐng)域的廣闊應(yīng)用前景,選擇藥物早期發(fā)現(xiàn)階段的先導(dǎo)化合物發(fā)現(xiàn)及結(jié)構(gòu)優(yōu)化為切入點(diǎn),開展了基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究。分析了基于人工智能和大數(shù)據(jù)的精準(zhǔn)藥物設(shè)計(jì)技術(shù)在國內(nèi)外的最新研究現(xiàn)狀及發(fā)展趨勢(shì),從技術(shù)壁壘、研發(fā)理念、產(chǎn)業(yè)化布局等角度簡單總結(jié)了當(dāng)前人工智能藥物研發(fā)領(lǐng)域存在的主要問題,總結(jié)了基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究分子結(jié)構(gòu)字符化、特征自主提取及感知、分子結(jié)構(gòu)優(yōu)化策略生成3 個(gè)擬解決的關(guān)鍵問題。與基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究擬解決的關(guān)鍵問題相對(duì)應(yīng),設(shè)計(jì)了分子結(jié)構(gòu)字符化子模型、特征自主感知子模型、分子優(yōu)化策略生成3 個(gè)子模型,在此基礎(chǔ)上,給出了詳細(xì)科學(xué)的研究方法及技術(shù)路線,為人工智能藥物研發(fā)領(lǐng)域提供系統(tǒng)性研究案例借鑒。