亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究

2023-08-29 11:38:05許小青王煒祺

科技創(chuàng)新與應(yīng)用 2023年22期

羅佳，許小青，王煒祺，張威

（江蘇衛(wèi)生健康職業(yè)學(xué)院藥學(xué)院，南京 211800）

新藥研發(fā)長期受研發(fā)周期長、資金耗費(fèi)巨大、成果回報(bào)率低等因素的困擾，世界主流藥企一直都在努力嘗試通過技術(shù)創(chuàng)新來加快新藥研發(fā)速度，提高成功率和降低成本，以期能更好地滿足日益增長的用藥需求。隨著以深度學(xué)習(xí)為代表的人工智能技術(shù)的蓬勃發(fā)展，在新藥研發(fā)產(chǎn)業(yè)鏈中交叉引入人工智能理論成為了當(dāng)下的研究熱點(diǎn)，新藥研發(fā)產(chǎn)業(yè)鏈具有高度密集的可用數(shù)據(jù)集[1]，深度學(xué)習(xí)理論具有強(qiáng)大的密集數(shù)據(jù)集隱性特征自感知屬性，為人工智能在新藥研發(fā)領(lǐng)域的應(yīng)用提供了先天優(yōu)勢(shì)。深度學(xué)習(xí)理論可以應(yīng)用于新藥研發(fā)的各個(gè)階段，在藥物發(fā)現(xiàn)及臨床前研究階段[2]，主要應(yīng)用在靶點(diǎn)發(fā)現(xiàn)、先導(dǎo)化合物篩選等，在臨床試驗(yàn)階段主要應(yīng)用在制劑研發(fā)、試驗(yàn)優(yōu)化等，在審批上市階段，主要應(yīng)用在產(chǎn)品優(yōu)化與學(xué)術(shù)推廣等。深度學(xué)習(xí)理論不僅能夠挖掘出不易被發(fā)現(xiàn)的隱性關(guān)系，構(gòu)建藥物、疾病和基因之間的深層次關(guān)系，同時(shí)，可對(duì)候選化合物進(jìn)行虛擬篩選，更快地篩選出具有較高活性的化合物，為后期臨床試驗(yàn)做準(zhǔn)備。

1 國內(nèi)外研究現(xiàn)狀

基于人工智能和大數(shù)據(jù)的精準(zhǔn)藥物設(shè)計(jì)技術(shù)開發(fā)目前已經(jīng)逐漸成為學(xué)術(shù)界的研究熱點(diǎn)，國內(nèi)外諸多新藥研發(fā)領(lǐng)域的專家學(xué)者進(jìn)行了大量工作并取得了豐碩成果，具有較大影響且代表人工智能藥物研發(fā)領(lǐng)域最新研究現(xiàn)狀的學(xué)術(shù)成果介紹如下。2018 年7 月，來自美國北卡羅來納大學(xué)藥物分子模擬實(shí)驗(yàn)室的Alexander 等[3]在Science Advances 等人雜志上發(fā)文，系統(tǒng)闡述了利用深度強(qiáng)化學(xué)習(xí)方法從頭設(shè)計(jì)特定藥物活性的分子的技術(shù)路線及可行性，給出了一種用于從頭設(shè)計(jì)具有所需特性的分子的新型計(jì)算策略，稱為ReLeaSE（結(jié)構(gòu)演化的增強(qiáng)學(xué)習(xí)）并完成了仿真驗(yàn)證[4]；2019 年9月，藥物研發(fā)人工智能公司Insilico Medicine 與藥明康德聯(lián)合在Nature Biotechnology 報(bào)道了基于人工智能設(shè)計(jì)DDR1 抑制劑的成功案例，從靶點(diǎn)選擇到活性分子篩選和驗(yàn)證，總時(shí)長耗費(fèi)46 d，信息收集及數(shù)據(jù)整理7 d，建立深度學(xué)習(xí)模型12 d，優(yōu)化2 d，合成及動(dòng)物實(shí)驗(yàn)25 d。2019 年12 月，來自瑞士蘇黎世聯(lián)邦理工大學(xué)的Jose 等[5]在Nature 雜志上發(fā)文，詳細(xì)闡述了人工智能在活性小分子藥物發(fā)現(xiàn)中的重要作用，明確指出深度學(xué)習(xí)算法優(yōu)化和機(jī)器學(xué)習(xí)領(lǐng)域之間的交叉可能會(huì)導(dǎo)致藥物研發(fā)領(lǐng)域更快的發(fā)展；2020 年1 月，來自中科院上海藥物研究所的Yang 等[6]在Journal of Medicinal Chemistry（JMC）雜志上發(fā)文，通過深度學(xué)習(xí)技術(shù)發(fā)現(xiàn)P300/CBP 組蛋白乙酰轉(zhuǎn)移酶先導(dǎo)化合物，然后通過結(jié)構(gòu)改造發(fā)現(xiàn)活性最強(qiáng)的抑制劑，可作為潛在的臨床開發(fā)候選藥物進(jìn)行廣泛的臨床前研究。

2 存在的主要問題

雖然基于人工智能和大數(shù)據(jù)的精準(zhǔn)藥物設(shè)計(jì)技術(shù)開發(fā)已經(jīng)取得了令人矚目的成績，但是在學(xué)術(shù)研究、技術(shù)革新、落地產(chǎn)業(yè)化等層面還存在諸多問題，很大程度上制約了人工智能理論在新藥研發(fā)領(lǐng)域真正的落地開花，結(jié)合基于人工智能和大數(shù)據(jù)的精準(zhǔn)藥物設(shè)計(jì)技術(shù)在國內(nèi)外的最新研究現(xiàn)狀，從技術(shù)壁壘、研發(fā)理念、產(chǎn)業(yè)化布局等角度簡單總結(jié)當(dāng)前人工智能藥物研發(fā)領(lǐng)域存在的主要問題。

1）技術(shù)壁壘角度：人工智能理論發(fā)揮效能的催化劑是格式一致的有效密集數(shù)據(jù)集，但目前國內(nèi)外主流藥企具有很強(qiáng)的封閉性，新藥研發(fā)涉及到數(shù)據(jù)集大多作為商業(yè)秘密，導(dǎo)致訓(xùn)練數(shù)據(jù)集格式多樣且共享性較差，為基于人工智能理論構(gòu)建統(tǒng)一規(guī)范的藥物研發(fā)隱性規(guī)律感知機(jī)制造成了困境。

2）研發(fā)理念角度：雖然國內(nèi)外主流藥企均已積極布局人工智能藥物研發(fā)領(lǐng)域的研究，由于長期受傳統(tǒng)藥物研發(fā)理念的束縛，國內(nèi)外主流藥企仍然把傳統(tǒng)藥物研發(fā)作為重點(diǎn)布局對(duì)象，對(duì)基于人工智能和大數(shù)據(jù)的精準(zhǔn)藥物設(shè)計(jì)技術(shù)開發(fā)仍持觀望態(tài)度，在資金投入、政策扶持、人才引進(jìn)等方面存在壁壘。

3）產(chǎn)業(yè)化布局角度：人工智能藥物研發(fā)領(lǐng)域的核心成果目前大多局限于學(xué)術(shù)領(lǐng)域，成果適用范圍往往局限在理想環(huán)境下的藥物實(shí)驗(yàn)室，真正意義上的新藥成果極少。截至目前，還沒有一款人工智能藥物研發(fā)產(chǎn)品批準(zhǔn)上市，因此，在大部分初創(chuàng)企業(yè)需要面對(duì)產(chǎn)出成果不足或者不優(yōu)而導(dǎo)致財(cái)務(wù)狀況堪憂的現(xiàn)狀下，企業(yè)需要合理地定位產(chǎn)業(yè)鏈角色，選擇適合的創(chuàng)新商業(yè)模式進(jìn)行產(chǎn)業(yè)化布局，人工智能藥物研發(fā)的初創(chuàng)企業(yè)要積極跟學(xué)術(shù)界和產(chǎn)業(yè)龍頭合作，獲得優(yōu)質(zhì)數(shù)據(jù)是立足之本。

3 擬解決的關(guān)鍵問題

基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究整體的目標(biāo)是開發(fā)一種先驗(yàn)活性需求下的面向數(shù)以百萬計(jì)的小分子化合物最優(yōu)組合的人工智能算法，實(shí)現(xiàn)具有某種生物活性和特定化學(xué)結(jié)構(gòu)的先導(dǎo)化合物自主感知及優(yōu)化策略生成?；谏疃葘W(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究擬解決的關(guān)鍵問題包括分子結(jié)構(gòu)字符化、特征自主提取及感知、分子結(jié)構(gòu)優(yōu)化策略生成等[7]。其中，分子結(jié)構(gòu)字符化主要實(shí)現(xiàn)二維或者三維分子模型的字符化，便于人工智能算法進(jìn)行精準(zhǔn)特征的提取與學(xué)習(xí)；特征自主提取及感知主要對(duì)以SMILES 字符串形式表達(dá)的分子庫進(jìn)行特征提取與學(xué)習(xí)，完成深度可分離卷積神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練，以生成化學(xué)結(jié)構(gòu)合理的SMILES 字符串，并使用預(yù)測(cè)模型來預(yù)測(cè)生成的化合物相關(guān)屬性；分子結(jié)構(gòu)優(yōu)化策略生成主要實(shí)現(xiàn)對(duì)自主生成的SMILES 字符串表達(dá)形式的分子結(jié)構(gòu)進(jìn)行優(yōu)化擴(kuò)展，優(yōu)化擴(kuò)展的依據(jù)可以是模型新學(xué)習(xí)到的經(jīng)驗(yàn)，也可以是目前已經(jīng)報(bào)道及具有潛在活性的先驗(yàn)先導(dǎo)化合物。

基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究整體涉及分子結(jié)構(gòu)字符化子模型、特征自主感知子模型、分子優(yōu)化策略生成子模型3 個(gè)子模型。其中，分子結(jié)構(gòu)字符化子模型采用長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法（LSTM）對(duì)ChEMBL 數(shù)據(jù)庫中的150 萬個(gè)分子進(jìn)行特征訓(xùn)練，選擇SMILES 作為分子表現(xiàn)形式，以此訓(xùn)練分子結(jié)構(gòu)字符化子模型，使其學(xué)習(xí)自主生成SMILES 字符串的規(guī)則，以便生成合理的SMILES 字符串；特征自主感知子模型利用深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法（DSC）對(duì)ChEMBL 數(shù)據(jù)庫中所有人源蛋白靶標(biāo)的活性小分子進(jìn)行迭代預(yù)訓(xùn)練，構(gòu)建先導(dǎo)化合物活性與結(jié)構(gòu)之間的物理映射關(guān)系，實(shí)現(xiàn)先導(dǎo)化合物活性與結(jié)構(gòu)之間隱性知識(shí)的自主感知，利用特征自主感知子模型對(duì)分子結(jié)構(gòu)字符化子模型生成的SMILES 字符串進(jìn)行活性預(yù)測(cè)，篩選符合特定活性的化合物庫；分子優(yōu)化策略生成子模型利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)算法（RNN）實(shí)現(xiàn)分子優(yōu)化策略的自主生成，使用SMILES 字符串作為輸入向量來計(jì)算分子的相關(guān)屬性，并基于學(xué)習(xí)到的新經(jīng)驗(yàn)（目前已經(jīng)報(bào)道及具有潛在活性的先驗(yàn)先導(dǎo)化合物對(duì)模型等）對(duì)自主感知子模型預(yù)測(cè)的SMILES字符串進(jìn)行活性優(yōu)化。

為了實(shí)現(xiàn)先導(dǎo)化合物自主感知及優(yōu)化策略生成，針對(duì)模型分子結(jié)構(gòu)字符化子模型，利用基于RDKit 的Python 腳本實(shí)現(xiàn)分子結(jié)構(gòu)SDF 格式與SMILES 格式的相互轉(zhuǎn)換，利用特定編輯軟件還原成二維圖形或分子的三維模型；針對(duì)模型自主感知子模型，利用ChEMBL數(shù)據(jù)庫中所有人源蛋白靶標(biāo)的活性小分子對(duì)深度可分離卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代預(yù)訓(xùn)練，構(gòu)建先導(dǎo)化合物活性與結(jié)構(gòu)之間的物理映射關(guān)系，實(shí)現(xiàn)先導(dǎo)化合物活性與結(jié)構(gòu)之間隱性知識(shí)的自主感知，初步實(shí)現(xiàn)自主生成特定先驗(yàn)活性的先導(dǎo)化合物；針對(duì)模型優(yōu)化策略生成子模型，提供具有良好人機(jī)交互的擴(kuò)展API 接口，利用目前已經(jīng)報(bào)道及具有潛在活性的先驗(yàn)先導(dǎo)化合物對(duì)模型進(jìn)行優(yōu)化調(diào)整，為進(jìn)一步獲得可用于合成及后續(xù)生物活性實(shí)驗(yàn)的性質(zhì)較好先導(dǎo)化合物，通過若干特定規(guī)則對(duì)生成的先導(dǎo)化合物庫進(jìn)行排序和篩選。模型設(shè)計(jì)完成并經(jīng)過系統(tǒng)性整合后，完成已知小分子活性環(huán)境下的效能仿真驗(yàn)證。

4 研究方法及技術(shù)路線

聚焦基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究擬解決的關(guān)鍵問題針對(duì)開展研究過程中各個(gè)子階段的特點(diǎn)，采用差異化研究方法，以研究目標(biāo)及擬解決的關(guān)鍵問題為導(dǎo)向，針對(duì)基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究整體涉及的3 個(gè)子模型分別采用貼切的研究方法，簡述如下。針對(duì)分子結(jié)構(gòu)字符化子模型采用數(shù)學(xué)建模、軟件編程實(shí)現(xiàn)的研究方法，具體利用長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法（LSTM）對(duì)ChEMBL 數(shù)據(jù)庫中的150 萬個(gè)分子進(jìn)行模型訓(xùn)練，實(shí)現(xiàn)有效分子結(jié)構(gòu)的的自主生成；針對(duì)特征自主感知子模型采用數(shù)學(xué)建模、軟件編程實(shí)現(xiàn)、仿真驗(yàn)證的研究方法，具體利用深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法（DSC）對(duì)ChEMBL 數(shù)據(jù)庫中所有人源蛋白靶標(biāo)的活性小分子進(jìn)行迭代預(yù)訓(xùn)練，實(shí)現(xiàn)對(duì)分子結(jié)構(gòu)字符化子模型生成的SMILES 字符串進(jìn)行活性預(yù)測(cè)；針對(duì)分子優(yōu)化策略生成子模型采用數(shù)學(xué)建模、軟件編程實(shí)現(xiàn)、仿真驗(yàn)證、試驗(yàn)驗(yàn)證的研究方法，利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)算法（RNN）實(shí)現(xiàn)分子活性優(yōu)化策略的自主生成，進(jìn)一步獲得可用于合成及后續(xù)生物活性試驗(yàn)的性質(zhì)較好的先導(dǎo)化合物。

針對(duì)基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究3 項(xiàng)擬解決的關(guān)鍵問題分別給出便于計(jì)算機(jī)仿真及試驗(yàn)驗(yàn)證的具體技術(shù)路線。針對(duì)擬解決的關(guān)鍵問題一，選取ChEMBL 數(shù)據(jù)庫中的大約150萬個(gè)類藥分子作為分子結(jié)構(gòu)訓(xùn)練數(shù)據(jù)源，利用基于RDKit 的Python 腳本實(shí)現(xiàn)分子結(jié)構(gòu)SDF 格式與SMILES 格式的相互轉(zhuǎn)換，利用特定編輯軟件還原成二維圖形或分子的三維模型[8]，實(shí)現(xiàn)分子結(jié)構(gòu)訓(xùn)練數(shù)據(jù)源轉(zhuǎn)換為SMILES 字符串分子表現(xiàn)形式，利用SMILES 字符串分子表現(xiàn)形式對(duì)長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法（LSTM）進(jìn)行迭代訓(xùn)練，其中，長短期記憶人工神經(jīng)網(wǎng)絡(luò)算法（LSTM）采用多維網(wǎng)絡(luò)結(jié)構(gòu)，包含4 個(gè)LSTM層、2 個(gè)Dropout 層、2 個(gè)TimeDistributed 層和1 用于激活過程的Softmax 函數(shù)；針對(duì)擬解決的關(guān)鍵問題二，對(duì)ChEMBL 數(shù)據(jù)庫中所有人源蛋白靶標(biāo)的活性小分子對(duì)深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法（DSC）進(jìn)行深度預(yù)訓(xùn)練，構(gòu)建先導(dǎo)化合物活性與結(jié)構(gòu)之間的物理映射關(guān)系，對(duì)分子結(jié)構(gòu)字符化子模型生成的SMILES 字符串進(jìn)行活性預(yù)測(cè)，其中深度可分離卷積神經(jīng)網(wǎng)絡(luò)算法（DSC）屬于深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，其由一個(gè)擴(kuò)展嵌入層、2 個(gè)可分離卷積層和2 個(gè)密集層組成，該網(wǎng)絡(luò)利用SMILES字符串作為輸入向量來預(yù)測(cè)分子的相關(guān)活性；針對(duì)擬解決的關(guān)鍵問題三，采用目前最新報(bào)道及具有潛在活性的先驗(yàn)先導(dǎo)化合物對(duì)深度循環(huán)神經(jīng)網(wǎng)絡(luò)算法（RNN）進(jìn)行循環(huán)訓(xùn)練，向DSC 網(wǎng)絡(luò)添加額外的權(quán)重，保證在DSC 網(wǎng)絡(luò)始終可以循環(huán)獲取最新經(jīng)驗(yàn)，實(shí)現(xiàn)分子活性優(yōu)化策略的自主生成，進(jìn)一步獲得可用于合成及后續(xù)生物活性試驗(yàn)的性質(zhì)較好的先導(dǎo)化合物。

5 結(jié)束語

聚焦以深度學(xué)習(xí)為代表的人工智能技術(shù)在新藥研發(fā)領(lǐng)域的廣闊應(yīng)用前景，選擇藥物早期發(fā)現(xiàn)階段的先導(dǎo)化合物發(fā)現(xiàn)及結(jié)構(gòu)優(yōu)化為切入點(diǎn)，開展了基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究。分析了基于人工智能和大數(shù)據(jù)的精準(zhǔn)藥物設(shè)計(jì)技術(shù)在國內(nèi)外的最新研究現(xiàn)狀及發(fā)展趨勢(shì)，從技術(shù)壁壘、研發(fā)理念、產(chǎn)業(yè)化布局等角度簡單總結(jié)了當(dāng)前人工智能藥物研發(fā)領(lǐng)域存在的主要問題，總結(jié)了基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究分子結(jié)構(gòu)字符化、特征自主提取及感知、分子結(jié)構(gòu)優(yōu)化策略生成3 個(gè)擬解決的關(guān)鍵問題。與基于深度學(xué)習(xí)理論的藥物先導(dǎo)化合物自主感知及優(yōu)化策略研究擬解決的關(guān)鍵問題相對(duì)應(yīng)，設(shè)計(jì)了分子結(jié)構(gòu)字符化子模型、特征自主感知子模型、分子優(yōu)化策略生成3 個(gè)子模型，在此基礎(chǔ)上，給出了詳細(xì)科學(xué)的研究方法及技術(shù)路線，為人工智能藥物研發(fā)領(lǐng)域提供系統(tǒng)性研究案例借鑒。