亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的語言模型和循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)化新藥設(shè)計

        2023-09-24 05:33:00
        現(xiàn)代計算機 2023年13期
        關(guān)鍵詞:單詞實驗模型

        陳 相

        (武漢科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,武漢 430070)

        0 引言

        作為一個全球性的學(xué)術(shù)和商業(yè)過程,藥物發(fā)現(xiàn)是藥物設(shè)計過程的第一步。然而,大規(guī)模探索新的化學(xué)空間在支持藥物發(fā)現(xiàn)方面一直是一項艱巨的任務(wù)和挑戰(zhàn)。在過去的幾十年里,機器學(xué)習(xí)越來越多地被用于制造有意義的分子[1-2]。通過從零開始生成分子,從頭開始藥物設(shè)計可以更好地表達整個化學(xué)空間,包括深度強化學(xué)習(xí)(deep reinforcement learning,DRL)在內(nèi)的機器學(xué)習(xí)已成功用于從頭開始藥物設(shè)計方法的開發(fā)[3-4],從而達到小化學(xué)空間搜索范圍的目的,使研究人員能夠?qū)W⒂诟信d趣的領(lǐng)域。

        1 優(yōu)化模型的整體框架

        1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的結(jié)構(gòu)可以很好地利用序列與時序之間的關(guān)系以及數(shù)據(jù)中的語義信息,是處理序列特性數(shù)據(jù)的有效方法。因此,在分子信息學(xué)領(lǐng)域,RNN成功地解決了機器學(xué)習(xí)任務(wù),被廣泛應(yīng)用于計算分子生成。在最近的一系列實驗中[5-7],基于簡化分子輸入行輸入系統(tǒng)(simplified molecular input line entry systems,SMILES)的具有長短期記憶(long short-term memory,LSTM)細胞的RNN在捕獲蛋白質(zhì)分子的結(jié)構(gòu)和功能以及產(chǎn)生預(yù)測類似性質(zhì)的分子方面取得了很好的結(jié)果。使用SMILES 將大量已知的活性化合物編碼為SMILES 字符串序列。LSTM 模型基于自然語言處理,使用SMILES 字符序列(“標記”)作為輸入,根據(jù)給定的一系列先前字符和概率估計學(xué)習(xí)預(yù)測下一個SMILES 字符。實驗表明,該方法在生成高質(zhì)量的新分子方面是非常有效的。

        1.2 自然語言處理

        在使用自然語言處理方法的過程中,主要工作是表征學(xué)習(xí)[8],自然語言處理中最常用的符號化方法之一是詞向量[9]。最早的詞向量采用獨熱編碼,將詞轉(zhuǎn)化為一個很長的稀疏向量。向量的維度等于詞匯表的大小,向量中只有一個維度為1,其他維度均為0。這種編碼方法簡潔,但一個重要的缺陷是忽略了文本中單詞的順序,編碼中所有的單詞向量都是相互正交的,沒有體現(xiàn)單詞之間的相似關(guān)系。受分布式假設(shè)(即相似環(huán)境中的單詞通常具有相似的含義)的啟發(fā),Word2Vec 模型[10]采用分布式表示有效地解決了獨熱編碼問題,其思路是通過訓(xùn)練將原本由獨熱編碼的每個單詞映射成更短的單詞向量,這樣就可以輕松地分析單詞之間的關(guān)系,使NLP 問題更容易解決。圖1 展示了本實驗?zāi)P偷暮唵瘟鞒?,Word2Vec 語言模型作為預(yù)訓(xùn)練模型,用于訓(xùn)練由SMILES 編碼的文本詞匯表的表示向量。并將它們整合到循環(huán)神經(jīng)網(wǎng)絡(luò)中,以訓(xùn)練和產(chǎn)生新的分子。

        圖1 實驗?zāi)P土鞒?/p>

        知識蒸餾的過程是將一個大型、表現(xiàn)良好的模型(教師模型)的知識轉(zhuǎn)移給一個較小的模型(學(xué)生模型),可以看作是模型壓縮的一種形式,其中學(xué)生模型被訓(xùn)練成模仿教師模型的行為[11-13]。通過利用教師模型預(yù)測中編碼的豐富知識,學(xué)生模型可以從其優(yōu)越的性能中受益,同時保持緊湊的大小,允許學(xué)生模型更好地泛化。

        在本研究中,為了提高蛋白質(zhì)表達能力,將SMILES 編碼的氨基酸序列劃分為單詞(k-gram),輸入到Word2Vec 模型中,得到單詞的分布式表示向量。實驗結(jié)果表明,通過對Word2Vec 模型和LSTM 模型進行優(yōu)化和調(diào)整,改進后的模型能夠更好地從蛋白質(zhì)特征空間中學(xué)習(xí)特征,與傳統(tǒng)模型相比取得了優(yōu)異的性能,生成的有效分子百分比比傳統(tǒng)模型提高了15 個百分點,分子質(zhì)量相比于傳統(tǒng)模型大大提高,并且在微調(diào)訓(xùn)練模型時,我們通過知識蒸餾利用少量數(shù)據(jù)實現(xiàn)大模型到小模型的知識遷移,結(jié)果表明,小模型可以很好地學(xué)習(xí)到大模型的能力,達到較好的效果。

        2 方法

        2.1 數(shù)據(jù)預(yù)處理

        我們從開源的CHEMBL 數(shù)據(jù)集中組裝一個分子的訓(xùn)練數(shù)據(jù)集,并用SMILES 編碼表示分子,通過對數(shù)據(jù)集進行預(yù)處理去除重復(fù)的化學(xué)信息,并過濾我們采用的化學(xué)空間之外的分子,最終得到近500000 個分子的數(shù)據(jù)集。為便于RNN 模型訓(xùn)練,我們用‘G’(GO)和‘ ’(換行)作為每個SMILES 分子開始和結(jié)束的標記符,所有分子長度在35~75 個字符之間,最終產(chǎn)生一個共53個獨特字符的詞匯表W。

        2.2 預(yù)訓(xùn)練模型

        Word2Vec 是一種廣泛應(yīng)用于自然語言處理的語言模型,一種以大型本文數(shù)據(jù)作為輸入,從大量文本中以無監(jiān)督方式學(xué)習(xí)語義知識的模型。對詞匯表中的任意一個單詞w,可以生成一個固定長度的實值向量V(w),所有的詞向量可看作空間中的一個點,它們之間的語義相似度可以通過點之間的“距離”來判斷。我們希望模型訓(xùn)練的結(jié)果能夠讓相似語義的單詞具有相似的表征向量,近年來,這種表示能夠在藥物設(shè)計等問題上帶來很好的結(jié)果,例如藥物-靶標相互作用預(yù)測特征表示SPVec[14]、從上下文感知中學(xué)習(xí)分子表示Mol2Context-vec[15]。訓(xùn)練Word2Vec 的常用方法有連續(xù)詞袋(Continuous Bag-of-Words,CBOW)模型和跳躍圖模型(Skip-Gram)[16]。圖2 使用谷歌的開源嵌入投影儀工具將詞匯表W 的詞向量映射到三維空間,并輸出與字符距離最近的十個字符。

        圖2 詞向量的空間分布

        我們將經(jīng)過預(yù)處理的分子數(shù)據(jù)集作為無監(jiān)督訓(xùn)練語料,由于標準的SMILES 具有唯一性,每個SMILES 編碼能夠?qū)?yīng)唯一一個化學(xué)結(jié)構(gòu),如圖3 所示。因此將每一條SMILES 字符串作為“句子”,將其劃分成一系列的單詞(k-grams)。結(jié)合RNN 模型訓(xùn)練數(shù)據(jù)的特征,經(jīng)過實驗對比,最后可以得到當k為1 時,可以最大程度地保證氨基酸分子的化學(xué)特征。

        圖3 分子示例及其SMILES表示

        我們使用負采樣優(yōu)化方法的Skip-Grams模型來訓(xùn)練Word2Vec 模型,它的算法在于給定中心詞的情況下,預(yù)測它的上下文單詞,相比于CBOW 模型單詞之間有更多的訓(xùn)練機會[17]。經(jīng)典的Skip-Gram 模型由輸入層、投影層、輸出層三部分組成。如圖4 所示,輸入層以(w,Postive(w),Negtive(w))作為一個樣本輸入,其中w是選定的中心詞,Postive(w)由中心詞w前后C個詞組成,C是模型上下文窗口大小。Negtive(w)是w的K個負例,它是以單詞出現(xiàn)的頻率為權(quán)重通過負采樣的方式隨機生成的,正例與負例統(tǒng)稱為背景詞。我們將Skip-Gram 模型的超參數(shù)設(shè)置為上下文窗口C=5,負采樣比例a= 10 (K=a*C),嵌入矩陣維度D= 100,樣本每次以B= 128 大小的批次輸入網(wǎng)絡(luò)。將中心詞w的獨熱向量乘以權(quán)矩陣W1,得到中心詞w向量表達式U。

        圖4 Skip-Gram 模型

        同樣,將中心詞w選取的背景詞的獨熱向量乘以權(quán)矩陣W2,得到背景詞樣本V的向量表達式。

        接下來,輸出Y表示從中心詞w預(yù)測每個背景詞的概率,其值范圍為(-1,1)。

        在這個模型中,隱層不使用任何激活函數(shù),但在輸出層我們改變傳統(tǒng)的sigmoid 函數(shù),使用tanh 激活函數(shù)將輸出向量的所有值映射到(-1, 1),同時定義一個向量label 作為標簽,其中正例為1,負例為-1。則有:

        針對單個輸出,p(wj|w)表示模型輸出為wj的概率,模型的損失函數(shù)對于所有的正例和負例的輸出值,輸出正確的概率P為:

        這里是yj對應(yīng)向量label 中的標簽,最大化輸出單詞概率P,即最小化損失函數(shù)L:

        可以使用隨機梯度下降技術(shù)來最小化損失函數(shù)。經(jīng)過100 次迭代訓(xùn)練后,我們將訓(xùn)練得到的詞嵌入矩陣放入LSTM 模型中作為輸入分子的初始化權(quán)重。

        2.3 LSTM模型

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以對輸入的序列數(shù)據(jù)建模,給定時間步長為t的序列X=x1x2x3…xt和對應(yīng)的輸出序列Y=y1y2y3…yt,模型訓(xùn)練過程由一個字符預(yù)測下一個字符,因此定義yi=xi+1。任一時間步長的xi,RNN 通過一系列的門返回輸出概率,并將隱藏狀態(tài)hi傳遞給下一個單元。由此可見由前i個時間步長的序列共同決定。

        LSTM 是為了解決因序列較長而導(dǎo)致訓(xùn)練過程中產(chǎn)生的梯度消失和梯度爆炸問題而提出的一種特殊RNN 模型,引入門控的選擇性機制,如圖5 所示,每個LSTM 單元都有稱為遺忘門、輸入門、輸出門的神經(jīng)網(wǎng)絡(luò)層,能夠有選擇性地遺忘和保留訓(xùn)練中的信息。

        圖5 LSTM的內(nèi)部機制和相關(guān)參數(shù)

        如圖6 所示,本文模型由三個LSTM 層組成,每個層的隱藏狀態(tài)向量為512,并使用dropout 進行正則化。LSTM 層前面是一層嵌入層,其權(quán)重是在Word2Vec 模型中訓(xùn)練得到的詞嵌入矩陣,后面是一層密集輸出層和一個Softmax激活函數(shù)的神經(jīng)元。模型以75 為時間步長,128批次輸入,序列經(jīng)過嵌入層獲取詞向量后進入LSTM 單元。前向傳播過程中,我們將一個序列最后時間步長的單元格狀態(tài)和隱藏狀態(tài)直接作為下一序列的初始化單元格和隱藏狀態(tài),每128 批次的序列只初始化一次LSTM的隱藏狀態(tài),后面的序列可以使用前面序列訓(xùn)練過程中保存下來的信息。應(yīng)用密集層以產(chǎn)生輸出logits,然后通過Softmax 層將其轉(zhuǎn)換為概率。利用交叉熵損失函數(shù)和Adam優(yōu)化算法進行性能優(yōu)化。

        圖6 LSTM模型訓(xùn)練流程

        2.4 分子評估與模型微調(diào)

        藥物設(shè)計過程中我們需要對生成的分子特性[18]進行評估,確定滿足我們特性需求的藥物分子,以便進行下一步的研究。本實驗在分子評估過程中借鑒Yasonik[5]進行優(yōu)化后的三法則(RO3),即辛醇-水分配系數(shù)logP≤3、分子量≤480 g/mol、≤3 個氫鍵供體、≤3 個氫鍵受體、≤3 個可旋轉(zhuǎn)鍵,使用化學(xué)信息學(xué)庫RDKit實現(xiàn)分子評估,并使用Fonseca 和Fleming 的非支配排序算法來比較模型根據(jù)RO3 的標準生成的分子。對LSTM 網(wǎng)絡(luò)進行訓(xùn)練生成有效的SMILES 字符串后,我們需要再選定一個較小的數(shù)據(jù)集進一步訓(xùn)練模型來對模型進行微調(diào),使模型調(diào)整為能夠生成與有效分子集具有更高相似性的SMILES 字符串,這一過程實際上使用遷移學(xué)習(xí)方法,能夠用較少的數(shù)據(jù)集優(yōu)選分子特定屬性。實驗中,我們將基于優(yōu)化后的RO3 的五個約束的非支配排序算法選擇在生成的有效分子中最好的一半作為新的數(shù)據(jù)集對模型進行微調(diào),選定的分子被輸入LSTM 模型,再次訓(xùn)練并生成新的有效分子。每一次微調(diào)后都會對新生成的有效分子進行評估并再選取最好的一半做下一次微調(diào)。最后,我們用大模型作為教師模型,指導(dǎo)只有一層LSTM 的學(xué)生模型訓(xùn)練生成有小分子,可以看到在少量數(shù)據(jù)訓(xùn)練后,學(xué)生模型在生成獨特且新穎的有效分子方面有很好的效果。

        3 實驗結(jié)果分析

        將50 萬個分子的數(shù)據(jù)集輸入模型進行訓(xùn)練,從訓(xùn)練后的LSTM 網(wǎng)絡(luò)中生成100 萬個SMILES 字符,在迭代微調(diào)之前,模型共產(chǎn)生了21294個分子。我們將最終實驗結(jié)果與Yasonik[5]中的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練生成的分子比較。結(jié)果表明,相比于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)模式,使用優(yōu)化后的Word2Vec 模型與LSTM 模型結(jié)合可以有效提高藥物分子生成的能力。如圖7 所示。我們用RDKIT 評估分子的有效性和相關(guān)特征,能夠從三個方面證明其高效性:①有效分子百分比提高,從傳統(tǒng)模型中采樣的100 萬個SMILES 字符,生成的19722 個分子中,77%是有效的,本實驗改進模型后,有效分子百分比提高至92%;②獨特且新穎的有效分子數(shù)提高,傳統(tǒng)模型產(chǎn)生的有效分子過濾無效和重復(fù)的分子后留下了9415 個獨特、新穎和有效的分子,本實驗?zāi)P妥罱K獨特、新穎和有效的分子達到了12850 個;③訓(xùn)練效率提高,由于詞向量能將序列編碼為更緊湊的向量,降低內(nèi)存的占用,模型訓(xùn)練的時間大大減少,本實驗?zāi)P陀?xùn)練的總時間不到傳統(tǒng)模型的三分之一。

        圖7 實驗?zāi)P拖啾扔趥鹘y(tǒng)模型的高效性

        為了進一步比較實驗?zāi)P团c傳統(tǒng)模型之間的差異,我們對生成的藥物分子做更詳細的評估,為此,我們從50 萬個分子的數(shù)據(jù)集中截取5萬個分子,同時輸入實驗的優(yōu)化模型和傳統(tǒng)模型中訓(xùn)練,并對模型進行迭代微調(diào),每次訓(xùn)練結(jié)束后都從模型中采樣100 萬個SMILES 字符,對生成的分子進行評估。

        我們對模型進行了迭代微調(diào),從圖8 可以發(fā)現(xiàn)模型在第三次迭代時,改進后的模型能夠以85%左右的穩(wěn)定效率生成分子,新穎獨特的有效分子數(shù)量從5600 個增加到11700 個,與傳統(tǒng)模型相比,效果明顯提高。

        圖8 模型迭代結(jié)果

        根據(jù)RO3 評價標準,從兩種模型生成的有效分子中選出最優(yōu)的5000 個分子,再次通過PCA進行分子性質(zhì)可視化,如圖9和圖10所示。

        圖9 改良模型的分子更多滿足RO3的評估標準

        圖10 傳統(tǒng)模型和改良模型的屬性分布

        隨后,我們從生成的有效分子中精選出8000 條獨特且新穎的有效分子,用改進的模型作為教師模型,訓(xùn)練具有一層LSTM 的學(xué)生模型生成有效分子,學(xué)生模型可以接近三層LSTM 模型的能力,并在生成獨立且新穎的有效分子上超越了三層LSTM 模型,達到模型壓縮的效果。在實驗中,我們將傳統(tǒng)模型中的sigmoid 函數(shù)替換為tanh 函數(shù)作為輸出層的激活函數(shù),并對參數(shù)進行了優(yōu)化,調(diào)整了損失函數(shù)和模型反向傳播。從圖11 的結(jié)果可以看出,這種改進對模型的優(yōu)化起到了很大的作用。

        圖11 sigmoid函數(shù)的傳統(tǒng)模型和tanh函數(shù)改進模型對比

        基于RO3 評估分子,我們也用PCA 可視化兩個模型生成的分子中最優(yōu)的5000 個分子的屬性,如圖12 和圖13,并分別可視化5 個屬性??梢钥闯鍪褂胻anh 函數(shù)的模型生成的分子有更高的質(zhì)量。

        圖12 tanh激活函數(shù)模型的分子更多滿足RO3評估標準

        圖13 sigmoid和tanh激活函數(shù)模型分子的屬性分布(續(xù))

        圖13 sigmoid和tanh激活函數(shù)模型分子的屬性分布

        4 結(jié)語

        本文將詞向量模型與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,將蛋白質(zhì)分子中隱含的特征緊密聯(lián)系在一起,Word2Vec 嵌入矩陣可視化很好地說明了具有相似特性的SMILES 字符向量緊密地位于向量空間中。通過對Word2Vec 和LSTM 模型反復(fù)優(yōu)化,包括模型權(quán)重、超參數(shù)、輸入序列、損失函數(shù)等結(jié)構(gòu)進行多次調(diào)整和比較,最終分析一組最佳的組合能夠使模型在藥物生成實驗中達到最高效的水平。

        最初,LSTM 模型使用獨熱編碼方法處理輸入序列,把SMILES 字符轉(zhuǎn)化成一個很長的稀疏向量,與獨熱編碼方法相比,Word2Vec 模型通過訓(xùn)練語言模型將輸入序列編碼為更緊湊的數(shù)字向量,既有更佳的表達能力,又能減小內(nèi)存的使用。實驗最終證明這一事實,將Word2Vec作為預(yù)訓(xùn)練模型為LSTM 模型的訓(xùn)練數(shù)據(jù)集做第一步訓(xùn)練,使得LSTM 模型在訓(xùn)練時間和生成分子有效性方面都有大幅度的優(yōu)化,并通過知識蒸餾可以對模型進行壓縮,而不損失模型的效果。

        總而言之,我們認為類似Word2Vec 的自然語言處理方法和知識蒸餾技術(shù)在新藥物設(shè)計上有相當廣泛的運用空間,在降低與藥物開發(fā)相關(guān)的成本和時間上存在巨大的潛力。如今自然語言處理方法正得到迅速的發(fā)展,更多優(yōu)于Word2Vec 的語言模型蘊含極大的能力,將其運用到從頭藥物設(shè)計的道路中,或許能使探索自動化藥物發(fā)現(xiàn)的前景更加可觀。

        猜你喜歡
        單詞實驗模型
        一半模型
        記一次有趣的實驗
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        單詞連一連
        做個怪怪長實驗
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實驗的改進
        欧美精品偷自拍另类在线观看| 中文字幕av熟女中文av| 中文有码亚洲制服av片| 丰满少妇a级毛片野外| 精品乱码卡1卡2卡3免费开放| 98精品国产高清在线xxxx | 亚洲国产成人av毛片大全| 成 人色 网 站 欧美大片在线观看| 欧美在线 | 亚洲| 亚洲国产成人精品福利在线观看| 精品国产亚洲av成人一区| 二区免费在线视频观看| 久久99精品久久水蜜桃| 国产黄页网站在线观看免费视频| 久久99精品久久久久久国产人妖| 亚洲午夜精品第一区二区| 女人被男人爽到呻吟的视频| 疯狂做受xxxx高潮欧美日本| 亚洲成a人网站在线看| 一本色道88久久加勒比精品| 国产av久久久久精东av| 最近中文字幕完整版| 亚洲最稳定资源在线观看| 精品私密av一区二区三区| 午夜免费视频| 亚洲妇女水蜜桃av网网站| 日韩极品视频在线观看免费| 国产亚洲精品在线视频| 中文无码一区二区不卡av| 日本久久久| 国产精品av网站在线| 免费a级毛片高清在钱| 免费a级毛片无码无遮挡| 国产精品入口蜜桃人妻| 青青青爽在线视频免费播放| 亚洲国产成人精品无码区在线秒播 | 国产乱妇无乱码大黄aa片| 国产成人免费a在线视频| 新久久久高清黄色国产| 国产农村妇女精品一区| 少妇无码太爽了不卡视频在线看|