亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        神經(jīng)網(wǎng)絡(luò)的深度與寬度對(duì)藥物分子pKa預(yù)測(cè)性能影響的研究

        2021-05-08 09:13:49謝良旭薛亮亮李峰
        關(guān)鍵詞:深度學(xué)習(xí)人工智能

        謝良旭 薛亮亮 李峰

        摘? ? 要:pKa(解離常數(shù))關(guān)系到藥物分子在生物體內(nèi)的吸收、代謝等過程。近年來,基于機(jī)器學(xué)習(xí)模型預(yù)測(cè)藥物分子性質(zhì)在藥物篩選中獲得廣泛應(yīng)用,神經(jīng)網(wǎng)絡(luò)可通過在深度與寬度兩個(gè)方向上的擴(kuò)展來增強(qiáng)模型的學(xué)習(xí)能力。以神經(jīng)網(wǎng)絡(luò)在藥物分子pKa預(yù)測(cè)中的應(yīng)用為例,比較了神經(jīng)網(wǎng)絡(luò)的深度與寬度對(duì)預(yù)測(cè)結(jié)果的影響。通過分析預(yù)測(cè)結(jié)果的均方差以及預(yù)測(cè)值與真實(shí)值之間的相關(guān)系數(shù),系統(tǒng)地評(píng)估了模型的深度與寬度對(duì)預(yù)測(cè)性能的影響?;诙康谋容^結(jié)果,提出了組合的神經(jīng)網(wǎng)絡(luò)模型計(jì)算方案。計(jì)算結(jié)果表明:深度神經(jīng)網(wǎng)絡(luò)模型在使用組合MACCS和ECFP指紋時(shí),預(yù)測(cè)準(zhǔn)確性超過了單一的寬度或深度神經(jīng)網(wǎng)絡(luò)。

        關(guān)鍵詞:人工智能;神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);定量構(gòu)效關(guān)系;藥物發(fā)現(xiàn);pKa

        中圖分類號(hào):TP183? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? 文章編號(hào):2095-7394(2021)02-0001-08

        pKa(解離常數(shù))反映了藥物分子重要的物理化學(xué)性質(zhì),是衡量藥物分子在生物體內(nèi)吸收、分布、代謝、毒性等藥物代謝的重要指標(biāo)。如何準(zhǔn)確評(píng)估藥物分子的pKa是藥物設(shè)計(jì)領(lǐng)域需要解決的關(guān)鍵問題之一。生物體內(nèi)的細(xì)胞都在穩(wěn)定的pKa范圍內(nèi)活動(dòng),通過蛋白、磷酸鹽、碳酸鹽等提供適合的緩沖體系;因此,藥物分子的pKa需要適用于所處的細(xì)胞環(huán)境。通過精準(zhǔn)分析藥物分子在不同環(huán)境中的pKa,可提前摒除不適合成藥的分子,縮小藥物篩選的范圍。然而,通過實(shí)驗(yàn)測(cè)定分子的pKa費(fèi)時(shí)費(fèi)力,尤其是藥物分子在體內(nèi)環(huán)境中的pKa數(shù)值難以測(cè)定,而在理論計(jì)算方面,也尚未有成熟的開源計(jì)算軟件[1];因此,亟需在研發(fā)過程中準(zhǔn)確預(yù)測(cè)藥物的pKa,從而有效降低藥物研發(fā)的風(fēng)險(xiǎn),控制藥物研發(fā)成本。

        pKa與藥物分子結(jié)構(gòu)相關(guān),基于分子結(jié)構(gòu)預(yù)測(cè)藥物分子性質(zhì),是近幾十年來生物信息學(xué)領(lǐng)域研究的熱點(diǎn)。比如,早期的定量構(gòu)效關(guān)系(Quantitative structure-activity relationship, QSAR)方法[2],使用數(shù)學(xué)模型建立分子的結(jié)構(gòu)與物理化學(xué)性質(zhì)以及生物活性之間的關(guān)系。QSAR是人類在藥物發(fā)現(xiàn)領(lǐng)域使用最早的合理的藥物設(shè)計(jì)方法,它不僅提供了一種預(yù)測(cè)藥物分子性質(zhì)的方法,而且為后續(xù)研究提供了重要的基本假設(shè):藥物分子的結(jié)構(gòu)決定了該分子的物理、化學(xué)和生物等方面的信息,這些理化性質(zhì)又決定了該分子在生物體內(nèi)的生物活性[3]。從早期的回歸分析、遺傳算法,到現(xiàn)在熱門的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等,基于分子結(jié)構(gòu)預(yù)測(cè)其物理化學(xué)性質(zhì)的假設(shè),在藥物設(shè)計(jì)等領(lǐng)域獲得廣泛采用[4-5]。近年來,人工智能方法成為藥物設(shè)計(jì)領(lǐng)域中的熱門技術(shù),特別是深度學(xué)習(xí)方法興起[6]。通過對(duì)數(shù)據(jù)集的訓(xùn)練,深度學(xué)習(xí)方法顯著提高了預(yù)測(cè)結(jié)果的準(zhǔn)確性和可靠性。人工智能方法提升了對(duì)分子溶解度、logD等物理性質(zhì)的預(yù)測(cè)準(zhǔn)確性[7-8];然而,對(duì)于藥物分子pKa的計(jì)算,目前尚缺少系統(tǒng)的研究。

        采用人工智能技術(shù)預(yù)測(cè)藥物分子性質(zhì)所面臨的關(guān)鍵問題在于:如何將藥物分子的分子結(jié)構(gòu)轉(zhuǎn)變?yōu)闄C(jī)器學(xué)習(xí)和深度學(xué)習(xí)可以直接識(shí)讀和處理的文件格式?CHUANG K V[9]等人強(qiáng)調(diào),有效的表征分子將直接影響到機(jī)器學(xué)習(xí)算法的準(zhǔn)確性。而如何將藥物分子的結(jié)構(gòu)轉(zhuǎn)變?yōu)閿?shù)字形式,是連接藥物化學(xué)與機(jī)器學(xué)習(xí)之間的橋梁。在化學(xué)信息學(xué)和生物信息學(xué)研究領(lǐng)域,一般采用分子描述符將分子結(jié)構(gòu)編碼為有用的化學(xué)信息。目前,應(yīng)用較廣泛的分子描述符是MACCS密鑰[10]與拓展聯(lián)通指紋ECFP[11]。MACCS密鑰通過檢索分子中是否存在字典中規(guī)定的子結(jié)構(gòu),將整個(gè)分子轉(zhuǎn)變?yōu)槎M(jìn)制的化學(xué)信息。ECFP通過對(duì)每個(gè)原子周圍的鍵連關(guān)系,搜索指定半徑內(nèi)的亞分子結(jié)構(gòu),并對(duì)所得到的亞分子分配一個(gè)數(shù)字符,以獲得相同的編碼序列,然后將數(shù)字符進(jìn)行哈希化處理,從而得到一串特定長度的編碼數(shù)字序列。ECFP密鑰具有獨(dú)一性,每個(gè)分子可編碼為獨(dú)特的數(shù)字串,因此也被稱為ECFP指紋。MACCS密鑰與ECFP指紋在之前的藥物定量構(gòu)效關(guān)系和機(jī)器學(xué)習(xí)中獲得了廣泛的應(yīng)用,如用于藥物分子相似性尋找、藥物構(gòu)效關(guān)系預(yù)測(cè)[12]以及對(duì)蛋白結(jié)合口袋的編碼等[13]。

        伴隨著新的計(jì)算方法,深度神經(jīng)網(wǎng)絡(luò)在處理非線性的大數(shù)據(jù)挖掘問題中嶄露頭角[14-15]。深度神經(jīng)網(wǎng)絡(luò)具有廣泛的應(yīng)用性,尤其是隨著計(jì)算機(jī)軟硬件性能的提升,神經(jīng)網(wǎng)絡(luò)進(jìn)入了高速發(fā)展的時(shí)期[16],目前所能處理的深度和寬度也得到了極大提升。當(dāng)前研究的熱點(diǎn)問題主要是神經(jīng)網(wǎng)絡(luò)在不同深度和寬度上的表現(xiàn)。一般而言,深度神經(jīng)網(wǎng)絡(luò)比淺層神經(jīng)網(wǎng)絡(luò)表現(xiàn)出更好的學(xué)習(xí)能力。圖靈獎(jiǎng)得主Yann LeCun提出,深度學(xué)習(xí)模型不能被簡單的淺層模型所取代[17];而網(wǎng)絡(luò)的深度對(duì)深度學(xué)習(xí)模型的性能起到了關(guān)鍵的作用。相比于深度神經(jīng)網(wǎng)絡(luò),寬度神經(jīng)網(wǎng)絡(luò)由于沒有多層連接,因此在網(wǎng)絡(luò)層與層之間沒有耦合,從而大大提高了網(wǎng)絡(luò)計(jì)算速度[18]。增加神經(jīng)網(wǎng)絡(luò)的深度與寬度都能增加可學(xué)習(xí)參數(shù)的個(gè)數(shù),進(jìn)而可以增強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)研究問題的擬合能力。然而,針對(duì)一些具體的問題,如:深度與寬度如何影響學(xué)習(xí)能力?如何選擇合適的神經(jīng)網(wǎng)絡(luò)的深度與寬度?如何平衡網(wǎng)絡(luò)深度與寬度的數(shù)目?目前仍未有系統(tǒng)性的評(píng)價(jià)。

        本文以神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)藥物分子的pKa為例,通過對(duì)藥物分子進(jìn)行編碼,系統(tǒng)比較神經(jīng)網(wǎng)絡(luò)的寬度與深度對(duì)預(yù)測(cè)結(jié)果準(zhǔn)確性的影響,從而為神經(jīng)網(wǎng)絡(luò)對(duì)藥物分子其他性質(zhì)的預(yù)測(cè)提供指導(dǎo)。

        1? ? 材料和方法

        1.1? 數(shù)據(jù)集整理

        選取藥物分子數(shù)據(jù)庫DrugBank進(jìn)行數(shù)據(jù)整理。DrugBank數(shù)據(jù)庫是對(duì)藥物數(shù)據(jù)收集比較全面的數(shù)據(jù)庫,目前收集了11 895種可能的藥物分子[19]。利用腳本語言從數(shù)據(jù)庫中抽取藥物分子的結(jié)構(gòu)和每個(gè)分子所對(duì)應(yīng)的pKa數(shù)值,構(gòu)建一個(gè)包含藥物分子pKa的本地?cái)?shù)據(jù)庫。通過數(shù)據(jù)整理清洗發(fā)現(xiàn):有8 656個(gè)藥物分子包含pKa數(shù)值。為實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與驗(yàn)證,將輸入數(shù)據(jù)按照8:2的比例分為訓(xùn)練集和測(cè)試集。將訓(xùn)練集中的數(shù)據(jù)用于超參數(shù)的優(yōu)化過程,并在優(yōu)化過程中隨機(jī)選取20%的數(shù)據(jù)作為驗(yàn)證集;測(cè)試集中的分子是神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中未見過的分子,用于表征所訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的泛化性能。

        1.2? 分子描述符

        藥物分子可以通過不同的化學(xué)式表示:分子式表示該化合物所包含的元素種類與含量;結(jié)構(gòu)式表示該化合物的結(jié)構(gòu)以及不同原子間的鍵連關(guān)系。MACCS密鑰由166個(gè)描述符組成,每個(gè)描述符采用0或1來表示分子中是否包含相應(yīng)的原子種類、成鍵信息、原子周圍的環(huán)境等。ECFP因?yàn)榘朔肿觾?nèi)的亞分子結(jié)構(gòu)及聯(lián)接關(guān)系,因此,在藥物設(shè)計(jì)中發(fā)揮了獨(dú)特的作用。本研究選取MACCS密鑰與ECFP指紋對(duì)藥物分子進(jìn)行編碼,并應(yīng)用于藥物分子的pKa預(yù)測(cè)中。采用RDKit軟件將所選取的分子結(jié)構(gòu)進(jìn)行編碼,對(duì)ECFP的指紋編碼通過DeepChem軟件實(shí)現(xiàn),ECFP編碼過程中的分子半徑設(shè)置為2,哈?;癁? 024個(gè)鍵值。如圖1所示,以SIRT1的抑制劑分子為例,將藥物分子結(jié)構(gòu)轉(zhuǎn)變?yōu)樯窠?jīng)網(wǎng)絡(luò)易于處理的分子描述符。1.3? 所研究的神經(jīng)網(wǎng)絡(luò)架構(gòu)

        針對(duì)本次研究的數(shù)據(jù)預(yù)測(cè)和回歸問題,通過神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)藥物分子的pKa。神經(jīng)網(wǎng)絡(luò)包含輸入層、隱藏層和輸出層,深度神經(jīng)網(wǎng)絡(luò)和寬度神經(jīng)網(wǎng)絡(luò)的架構(gòu)如圖2。輸入層神經(jīng)元的數(shù)目與輸入數(shù)據(jù)的維度一致。寬度神經(jīng)網(wǎng)絡(luò)隱藏層的神經(jīng)元數(shù)目分別為8、16、32、64、128、256、512、1 024、2 048和4 096。深度神經(jīng)網(wǎng)絡(luò)隱藏層的層數(shù)設(shè)置為1、2、4、8、16,神經(jīng)元數(shù)目設(shè)置為32、64、128、256、512。神經(jīng)網(wǎng)絡(luò)的其他參數(shù)通過GridSearchCV超參數(shù)優(yōu)化步驟獲得,激活函數(shù)選擇“relu”,優(yōu)化器函數(shù)選擇為“Adam”。在輸出層之前使用dropout降低過擬合,根據(jù)參數(shù)優(yōu)化結(jié)果將dropout的比例設(shè)置為0.5。

        2? ? 結(jié)果

        2.1? 寬度神經(jīng)網(wǎng)絡(luò)與神經(jīng)元數(shù)目的關(guān)系

        增加神經(jīng)網(wǎng)絡(luò)的深度與寬度都能增加模型的學(xué)習(xí)能力,那么,是否模型越寬、越深,其學(xué)習(xí)能力就越強(qiáng)呢?以預(yù)測(cè)藥物分子的pKa為例,通過計(jì)算模型在不同寬度與深度情況下的擬合結(jié)果,能夠分析模型的寬度與深度對(duì)結(jié)果的影響。

        在使用MACCS密鑰與ECFP指紋兩種情況下,測(cè)試寬度神經(jīng)網(wǎng)絡(luò)的性能。如圖3所示,為預(yù)測(cè)值與數(shù)據(jù)庫中真實(shí)值的散點(diǎn)圖。神經(jīng)網(wǎng)絡(luò)在測(cè)試集上的表現(xiàn)可通過計(jì)算神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)值與數(shù)據(jù)庫中真實(shí)值之間的Pearson相關(guān)系數(shù)定量比較,Pearson系數(shù)衡量了預(yù)測(cè)值與真實(shí)值之間的線性相關(guān)性。圖4展示了使用不同的神經(jīng)元數(shù)目時(shí)所計(jì)算的Pearson系數(shù)??梢园l(fā)現(xiàn):當(dāng)增加寬度神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)目時(shí),預(yù)測(cè)的結(jié)果逐漸達(dá)到平臺(tái)值;當(dāng)神經(jīng)元的數(shù)目為2 048時(shí),使用MACCS密鑰與ECFP指紋所能達(dá)到的最佳擬合結(jié)果分別為0.864與0.816,即MACCS密鑰能得到更好的擬合結(jié)果。MACCS密鑰更容易達(dá)到模型學(xué)習(xí)能力的平臺(tái),當(dāng)隱藏層神經(jīng)元的數(shù)目為256時(shí)即達(dá)到了相對(duì)較好的預(yù)測(cè)結(jié)果;而在使用ECFP指紋時(shí),需要隱藏層的神經(jīng)元數(shù)目為2 048。MACCS密鑰使用了166個(gè)鍵值;而ECFP使用了1 024個(gè)鍵值。由此可見,所需要的神經(jīng)網(wǎng)絡(luò)的寬度與輸入的數(shù)據(jù)維度相關(guān)。為使寬度神經(jīng)網(wǎng)絡(luò)達(dá)到較好的預(yù)測(cè)能力,所使用的神經(jīng)元數(shù)目要高于輸入數(shù)據(jù)的維度。

        2.2? 深度神經(jīng)網(wǎng)絡(luò)與網(wǎng)絡(luò)層數(shù)的關(guān)系

        從以上對(duì)不同寬度神經(jīng)網(wǎng)絡(luò)的評(píng)測(cè)中發(fā)現(xiàn),預(yù)測(cè)結(jié)果與所使用的神經(jīng)元數(shù)目相關(guān),當(dāng)神經(jīng)元數(shù)目少于32個(gè)時(shí),預(yù)測(cè)結(jié)果的誤差范圍較廣,預(yù)測(cè)結(jié)果的穩(wěn)定性難以達(dá)到計(jì)算要求;因此,在衡量神經(jīng)網(wǎng)絡(luò)的層數(shù)對(duì)結(jié)果的影響時(shí),分別選取神經(jīng)元的數(shù)目為32、64、128、256和512。神經(jīng)網(wǎng)絡(luò)層數(shù)與預(yù)測(cè)能力的關(guān)系如圖5所示。寬度神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)所使用的神經(jīng)元的數(shù)目都不能低于32,否則會(huì)引起較大的預(yù)測(cè)誤差。不同于寬度神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力隨著所使用的隱藏層的數(shù)目先升后降,在網(wǎng)絡(luò)層數(shù)為4時(shí),Pearson系數(shù)達(dá)到預(yù)測(cè)結(jié)果的峰值。在使用MACCS密鑰與ECFP指紋時(shí),最佳的預(yù)測(cè)結(jié)果為0.861和0.837。通常,加深網(wǎng)絡(luò)的層數(shù)更容易帶來優(yōu)化問題,但由于深度網(wǎng)絡(luò)中存在梯度不穩(wěn)定的問題,因此,當(dāng)使用的層數(shù)超過4時(shí),預(yù)測(cè)結(jié)果反而出現(xiàn)了下降??梢?,在進(jìn)行特定任務(wù)的學(xué)習(xí)時(shí),需要將網(wǎng)絡(luò)使用的層數(shù)作為一個(gè)超參數(shù)進(jìn)行優(yōu)化。

        2.3? 神經(jīng)網(wǎng)絡(luò)寬度與深度對(duì)預(yù)測(cè)準(zhǔn)確性影響的對(duì)比

        進(jìn)一步比較寬度與深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程的損失與預(yù)測(cè)結(jié)果的準(zhǔn)確性。為更合理地比較預(yù)測(cè)結(jié)果,選取神經(jīng)元數(shù)目為2 048時(shí)的寬度神經(jīng)網(wǎng)絡(luò),與層數(shù)為4、神經(jīng)元數(shù)目為512時(shí)的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行比較。兩種網(wǎng)絡(luò)使用了相同的神經(jīng)元數(shù)目,不同神經(jīng)網(wǎng)絡(luò)中的損失函數(shù)結(jié)果如圖6所示。

        從損失函數(shù)上可以得出兩個(gè)結(jié)論:(1)ECFP指紋比MACCS密鑰容易帶來過擬合的問題,ECFP指紋雖然在訓(xùn)練集上表現(xiàn)較好,但是在驗(yàn)證集上出現(xiàn)了較高誤差。在預(yù)測(cè)藥物分子pKa方面,MACCS密鑰比ECFP指紋表現(xiàn)出更好的適用性。(2)深度神經(jīng)網(wǎng)絡(luò)在損失上的性能優(yōu)于寬度神經(jīng)網(wǎng)絡(luò),在訓(xùn)練集和驗(yàn)證集上的損失數(shù)值均低于寬度神經(jīng)網(wǎng)絡(luò)。

        為比較預(yù)測(cè)結(jié)果的準(zhǔn)確性,進(jìn)一步計(jì)算預(yù)測(cè)結(jié)果與真實(shí)值之間的相對(duì)誤差RMSE以及誤差的統(tǒng)計(jì)分區(qū),如表1。RMSE在0~0.5范圍內(nèi)的分類為“可接受區(qū)”(acceptable),在0.5~1.0范圍內(nèi)的分類為“可商榷區(qū)”(disputable),在大于1.0的分類為“不可接受區(qū)”(unacceptable)。分析RMSE和分類統(tǒng)計(jì)結(jié)果發(fā)現(xiàn):深度神經(jīng)網(wǎng)絡(luò)在“可接受區(qū)”表現(xiàn)最佳,比例超過34%,說明深度神經(jīng)網(wǎng)絡(luò)比寬度神經(jīng)網(wǎng)絡(luò)獲得了更好的準(zhǔn)確性;雖然使用了相同的神經(jīng)元數(shù)目,但是深度神經(jīng)網(wǎng)絡(luò)的表達(dá)能力遠(yuǎn)高于寬度神經(jīng)網(wǎng)絡(luò);在使用2 048個(gè)神經(jīng)元時(shí),寬度神經(jīng)網(wǎng)絡(luò)的可組合形式為2 048個(gè),而4層的深度神經(jīng)網(wǎng)絡(luò)的可組合形式為5124。因此,在預(yù)測(cè)藥物分子pKa的實(shí)驗(yàn)中,深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力高于寬度神經(jīng)網(wǎng)絡(luò),尤其是MACCS密鑰在使用深度神經(jīng)網(wǎng)絡(luò)時(shí)獲得最小的RMSE。

        由此可見,網(wǎng)絡(luò)的寬度和深度需要根據(jù)所研究的問題進(jìn)行初步的訓(xùn)練與優(yōu)化,神經(jīng)元的數(shù)目或者所使用的網(wǎng)絡(luò)層數(shù)與輸入數(shù)據(jù)的尺度、所學(xué)習(xí)任務(wù)的復(fù)雜性相關(guān)。當(dāng)使用的神經(jīng)元寬度或者深度超過問題所需要的參數(shù)數(shù)目時(shí),只會(huì)在訓(xùn)練中引入更多的噪聲。

        2.4? 組合神經(jīng)網(wǎng)絡(luò)對(duì)預(yù)測(cè)性能的影響

        通過增加單層神經(jīng)網(wǎng)絡(luò)的寬度或者網(wǎng)絡(luò)的層數(shù),可以獲得更好的學(xué)習(xí)能力,從而提升神經(jīng)網(wǎng)絡(luò)的擬合能力;然而,擴(kuò)大神經(jīng)網(wǎng)絡(luò)的規(guī)模會(huì)帶來訓(xùn)練的問題,比如寬度神經(jīng)網(wǎng)絡(luò)出現(xiàn)了飽和,深度神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)層數(shù)較多時(shí)梯度不穩(wěn)定。顯然,不同模型各具優(yōu)勢(shì),那么,能否使用組合的網(wǎng)絡(luò)預(yù)測(cè)結(jié)果來提高模型的預(yù)測(cè)能力呢?借鑒集成學(xué)習(xí)的方法,可通過組合輸入指紋或者組合網(wǎng)絡(luò)模型的方式,獲得多個(gè)差異化模型,并將不同模型的結(jié)果進(jìn)行平均,從而完成對(duì)模型的組合計(jì)算。為此,本研究分別訓(xùn)練了MACCS與ECPF的組合指紋、深度與寬度的組合神經(jīng)網(wǎng)絡(luò)模型,通過模型融合策略中的平均法,分別計(jì)算4種組合情況下的Pearson系數(shù)。

        計(jì)算結(jié)果如圖7所示:4種組合所得到的Pearson系數(shù)均超過了相對(duì)應(yīng)的單一神經(jīng)網(wǎng)絡(luò)模型的方法;MACCS密鑰和ECFP指紋在使用4層神經(jīng)網(wǎng)絡(luò)、每層512個(gè)神經(jīng)元網(wǎng)絡(luò)架構(gòu)時(shí)的預(yù)測(cè)結(jié)果優(yōu)于其他3種組合方式;兩種不同的指紋輸入方式所訓(xùn)練出的網(wǎng)絡(luò)模型能較好地改善泛化誤差,尤其是MACCS密鑰與ECFP指紋在深度神經(jīng)網(wǎng)絡(luò)組合的情況下,Pearson系數(shù)為0.88,達(dá)到了最佳的計(jì)算結(jié)果??梢姡谑褂孟嗤纳窠?jīng)元數(shù)目時(shí),兩種模型的組合獲得了比單獨(dú)使用寬度或深度神經(jīng)網(wǎng)絡(luò)更好的預(yù)測(cè)能力。

        組合模型方法因其具有高度的靈活性和較強(qiáng)的適用性,近年來得到了廣泛的應(yīng)用。研究結(jié)果表明:組合模型方法可以抵消不同網(wǎng)絡(luò)模型的方差,有利于提高模型的預(yù)測(cè)準(zhǔn)確性,并且,組合模型的計(jì)算結(jié)果超過了任意單一的模型。Gao Y等人[20]在近期的綜述中,進(jìn)一步分析了組合模型方法的應(yīng)用領(lǐng)域以及存在的機(jī)遇與挑戰(zhàn),為組合模型在生物信息領(lǐng)域的發(fā)展指明了方向。在今后的研究中,將進(jìn)一步深入地組合神經(jīng)網(wǎng)絡(luò)模型以實(shí)現(xiàn)模型的互補(bǔ),消除計(jì)算結(jié)果的偏差,從而獲得更好的預(yù)測(cè)結(jié)果。

        3? ? 結(jié)語

        本研究探討了神經(jīng)網(wǎng)絡(luò)不同的寬度和深度對(duì)預(yù)測(cè)藥物分子pKa的影響。通過系統(tǒng)地計(jì)算比較,發(fā)現(xiàn)在一定范圍內(nèi)增加神經(jīng)網(wǎng)絡(luò)的寬度或者網(wǎng)絡(luò)的層數(shù)可以獲得更好的學(xué)習(xí)能力;在使用相同神經(jīng)元數(shù)目時(shí),深度神經(jīng)網(wǎng)絡(luò)可以獲得更高的準(zhǔn)確性。然而,寬度神經(jīng)網(wǎng)絡(luò)模型會(huì)隨著寬度增加而出現(xiàn)飽和,深度神經(jīng)網(wǎng)絡(luò)存在最適網(wǎng)絡(luò)層數(shù)問題;因此,為進(jìn)一步提升預(yù)測(cè)結(jié)果,提出了一種通過平均法組合使用MACCS密鑰與ECFP指紋的深度神經(jīng)網(wǎng)絡(luò)計(jì)算方法,使得預(yù)測(cè)的Pearson系數(shù)達(dá)到0.88,超過了單一神經(jīng)網(wǎng)絡(luò)、單一分子描述符的預(yù)測(cè)能力。本研究提出的神經(jīng)網(wǎng)絡(luò)的寬度、深度以及組合策略,也為將來進(jìn)一步應(yīng)用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)藥物的其他性質(zhì)提供了有益的嘗試。

        參考文獻(xiàn):

        [1] MANSOURI K, CARIELLO N F, KOROTCOV A,et al. Open-source QSAR models for pKa prediction using multiple machine learning approaches[J]. Journal of Cheminformatics,2019,11(1):60.

        [2] DANISHUDDIN, KHAN A U. Descriptors and their selection methods in QSAR analysis: paradigm for drug design [J].? Drug Discov Today,2016,21(8):1291-1302.

        [3] CHERKASOV A, MURATOV E N, FOURCHES D, et al. QSAR modeling: where have you been? where are you going to?[J]. Journal of Medicinal Chemistry,2014,57(12):4977-5010.

        [4] WENZEL J, MATTER H, SCHMIDT F. Predictive multitask deep neural network models for ADME-Tox properties: Learning from large data sets[J]. Journal of Chemical Information and Modeling,2019,59(3):1253-1268.

        [5] MIYAO T,KANEKO H,F(xiàn)UNATSU K. Inverse QSPR/? ? ? ? ?QSAR analysis for chemical structure generation (from Y to X)[J]. Journal of Chemical Information and Modeling,2016,56(2):286.

        [6] JING Y, BIAN Y, HU Z, et al. Deep learning for drug design: an artificial intelligence paradigm for drug discovery in the big data era[J]. AAPS Journal,2018,20(3):58.

        [7] WU Z, RAMSUNDAR B, FEINBERG EVAN N,et al. MoleculeNet: a benchmark for molecul AR machine learning [J]. Chemical Science,2018,9(2):513-530.

        [8] FU L,LIU L,YANG Z J,et al. Systematic modeling of log D(7.4) based on ensemble machine learning, group contribution, and matched molecular pair analysis[J]. Journal of Chemical Information and Modeling,2020,60(1):63-76.

        [9] CHUANG K V, GUNSALUS L M, KEISER M J. Learning molecular representations for medicinal chemistry[J]. Journal of Medicinal Chemistry,2020.DOI:10.1021/acs.jmedchem.0c00385.

        [10] DUAN J, DIXON S L, LOWRIE J F,et al. Analysis and comparison of 2D fingerprints: insights into database screening performance using eight fingerprint methods[J]. Journal of Molecular Graphics & Modelling,2010,29(2):157-170.

        [11] ROGERS D,HAHN M. Extended-connectivity fingerprints[J]. Journal of Chemical Information and Modeling,2010,50(5):742-754.

        [12] PRASAD S, BROOKS B R. A deep learning approach for the blind LogP prediction in SAMPL6 challenge[J]. Journal ofComputer-aided Molecular Design,2020,34(5):535-542.

        [13] LI L,KOH C C,REKER D,et al. Predicting protein-ligand interactions based on bow-pharmacological space and Bayesian additive regression trees[J]. Scientific Reports ,2019,9(1):7703.

        [14] XU Y,YAO H,LIN K. An overview of neural networks for drug discovery and the inputs used[J]. Expert Opin Drug Discovery,2018,13:1091.

        [15] 孫志遠(yuǎn),魯成祥,史忠植,等. 深度學(xué)習(xí)研究與進(jìn)展[J]. 計(jì)算機(jī)科學(xué),2016,43(2): 1-8.

        [16] CHEN H, ENGKVIST O,WANG Y,et al. The rise of deep learning in drug discovery[J]. Drug Discovery Today,2018,23(6):1241-1250.

        [17] BENGIO Y,LECUN Y. Scaling learning algorithms towards AI[C]// Large-Scale Kernel Machines,2007.

        [18] CHEN C L P, LIU Z. Broad learning system: an effective and efficient incremental learning system without the need for deep architecture[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018,29(1):10-24.

        [19] WISHART D S, FEUNANG Y D, GUO A C,et al. DrugBank 5.0: a major update to the DrugBank database for 2018[J]. Nucleic Acids Research,2018,46(D1):1074-1082.

        [20] CAO Y,GEDDES T A,YANG J Y H,et al. Ensemble deep learning in bioinformatics[J]. Nature Machine Intelligence,2020,2(9): 500-508.

        責(zé)任編輯? ? 盛? ? 艷

        猜你喜歡
        深度學(xué)習(xí)人工智能
        我校新增“人工智能”本科專業(yè)
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        国内专区一区二区三区| 大香焦av一区二区三区| 4455永久免费视频| 婷婷色香五月综合缴缴情| 乱子伦在线观看| 波多野结衣免费一区视频| 精品国产亚洲一区二区在线3d| 国内自拍偷拍亚洲天堂| 午夜日韩视频在线观看| 日韩日本国产一区二区| 亚洲av高清一区二区三区| 亚洲 另类 小说 国产精品| 18禁黄久久久aaa片| 欧美日韩国产一区二区三区地区| 久久精品这里就是精品| av在线免费观看麻豆| 国产69精品久久久久app下载| 亚洲国产综合精品 在线 一区| 国内精品久久久久影院优| 美女被插到高潮嗷嗷叫| 激情五月婷婷一区二区| 精品国产一区二区三区免费| 男女真实有遮挡xx00动态图| 中文字幕无码日韩欧毛| 亚洲高清在线观看免费视频| 刚出嫁新婚少妇很紧很爽| 夹得好湿真拔不出来了动态图 | 激情一区二区三区视频| 手机在线观看免费av网站| 久久久久亚洲av片无码| 久久天天躁狠狠躁夜夜爽| 国产一区二区亚洲av| 极品粉嫩小仙女高潮喷水网站| 中文日韩亚洲欧美制服| 精品人伦一区二区三区蜜桃麻豆| 亚洲av综合av国一区二区三区| 午夜免费观看日韩一级视频| 欧洲精品免费一区二区三区| 国产高清国内精品福利99久久| 自拍偷区亚洲综合第一页| 久久精品www人人爽人人|