蟻佳才,張小琛,劉丹(國(guó)防科技大學(xué)計(jì)算機(jī)學(xué)院,長(zhǎng)沙 410073)
科研工作者通常將經(jīng)過(guò)大量實(shí)驗(yàn)收集的化學(xué)知識(shí)轉(zhuǎn)化為文獻(xiàn)中的圖文描述,這些海量的知識(shí)是化合物重新發(fā)現(xiàn)及藥物發(fā)現(xiàn)研究的巨大財(cái)富。文獻(xiàn)中的化合物結(jié)構(gòu)是藥物發(fā)現(xiàn)的核心,而這些結(jié)構(gòu)信息在大多數(shù)情況下是以圖像的形式呈現(xiàn),這些有價(jià)值的信息對(duì)于機(jī)器來(lái)說(shuō)是非結(jié)構(gòu)化且不可讀的。因此,自動(dòng)化地將化學(xué)結(jié)構(gòu)由圖像轉(zhuǎn)換成人類(lèi)或機(jī)器可讀的格式,對(duì)于從大量文獻(xiàn)中挖掘知識(shí)是非常重要的,該過(guò)程被稱(chēng)為化學(xué)結(jié)構(gòu)識(shí)別(chemical structure recognition,CSR)。
對(duì)于機(jī)器可讀的分子結(jié)構(gòu),目前采用廣泛的包括國(guó)際通用技術(shù)和統(tǒng)一標(biāo)準(zhǔn)的線性碼簡(jiǎn)化分子線性輸入系統(tǒng)(simplified molecular input line entry system,SMILES)以及分子的三維表示,如圖、矩陣或連接表等。SMILES可以減少存儲(chǔ)空間,提升檢索效率,并且可以很方便地編碼分子結(jié)構(gòu)、性質(zhì)信息以及轉(zhuǎn)換成其他三維表示,因此被廣泛應(yīng)用于各種與化合物分子相關(guān)的研究中。在CSR中,其目標(biāo)是將化學(xué)結(jié)構(gòu)圖像轉(zhuǎn)換為相應(yīng)的SMILES字符串,即圖像到文本的轉(zhuǎn)換。圖1展示了阿司匹林(aspirin)的化學(xué)結(jié)構(gòu)以及相應(yīng)的SMILES,從圖中可以直觀地看出,除了識(shí)別出圖像中相應(yīng)的元素以外,還需要根據(jù)相應(yīng)重構(gòu)算法將這些元素的符號(hào)組合成有效的SMILES。
圖1 化學(xué)結(jié)構(gòu)識(shí)別示意圖Fig 1 Diagram of chemical structure recognition
本文采用深度學(xué)習(xí)的方法,基于編碼器-解碼器架構(gòu),融合注意力機(jī)制和分子指紋先驗(yàn)知識(shí),構(gòu)建了一個(gè)深度學(xué)習(xí)模型——基于指紋預(yù)訓(xùn)練的化學(xué)結(jié)構(gòu)識(shí)別(chemical structure recognition based on fingerprint pre-train,CSRFP),現(xiàn)報(bào)道如下。
20世紀(jì)90年代初,第一個(gè)完整的化學(xué)結(jié)構(gòu)識(shí)別系統(tǒng)Kekulé發(fā)布了。Kekulé是一個(gè)基于規(guī)則的工具,通過(guò)將單一化學(xué)結(jié)構(gòu)圖進(jìn)行分割、向量化、圖像分塊、圖像腐蝕、圖像膨脹以及光學(xué)字符識(shí)別等一系列步驟,最終將化學(xué)結(jié)構(gòu)圖轉(zhuǎn)換為新的分子圖表示。隨后,越來(lái)越多的研究人員開(kāi)始關(guān)注這一領(lǐng)域,研發(fā)出了各種開(kāi)源軟件。Rajan等總結(jié)了該領(lǐng)域的研究進(jìn)展,并比較了3個(gè)基于規(guī)則的開(kāi)源軟件OSRA、MolVec和Imago,為未來(lái)的深入研究提供了參考。傳統(tǒng)的分子圖像識(shí)別方法在很大程度上依賴(lài)于專(zhuān)家知識(shí),并且需融合新的待檢測(cè)圖像特征,費(fèi)時(shí)費(fèi)力。另外,這些工具通常步驟繁瑣,導(dǎo)致計(jì)算時(shí)間較長(zhǎng)。具體來(lái)說(shuō),大多數(shù)基于規(guī)則的方法往往包括以下步驟:① 掃描,即掃描包含化學(xué)結(jié)構(gòu)圖的頁(yè)面區(qū)域,并將其從頁(yè)面中分割出來(lái);② 矢量化,即將位圖轉(zhuǎn)換為矢量圖;③ 搜索虛線和楔形線,即使用專(zhuān)門(mén)的算法來(lái)識(shí)別立體化學(xué)信息,如虛線鍵和楔形鍵;④ 光學(xué)字符識(shí)別,即使用光學(xué)字符識(shí)別(optical character recognition,OCR)算法識(shí)別原子和常規(guī)鍵。并結(jié)合一些工具使用規(guī)則來(lái)糾正OCR引擎不能正確識(shí)別的原子或原子組;⑤ 圖編譯,即將原子視為節(jié)點(diǎn),將化學(xué)鍵視為邊,并通過(guò)圖重構(gòu)算法將其編譯成分子圖;⑥ 后處理,例如將一些超原子轉(zhuǎn)化為原來(lái)的原子序列。
近年來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了較大突破,如圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割以及圖像字幕等。CSR可以視為特殊的圖像字幕任務(wù),與自然語(yǔ)言文本生成不同,CSR的條件更為嚴(yán)苛,例如其生成的元素字符往往出現(xiàn)多個(gè)重復(fù)元素,并且上下文信息聯(lián)系更加緊密,且元素字符具有唯一性,而自然語(yǔ)言往往可以使用多種同義詞進(jìn)行替換?;谏疃葘W(xué)習(xí)的方法的優(yōu)點(diǎn)在于它們不需要制訂復(fù)雜的規(guī)則,模型可以自動(dòng)擬合學(xué)習(xí)高維特征空間,并且具有更好的泛化能力等。
目前基于深度學(xué)習(xí)的方法主要包括MSEDUDL、Chemgrapher以及DECIMER。其中,MSE-DUDL主要研究如何將文獻(xiàn)中的化學(xué)結(jié)構(gòu)進(jìn)行分割并識(shí)別成機(jī)器可讀的形式。其使用一個(gè)類(lèi)似U-Net的分割網(wǎng)絡(luò)從文獻(xiàn)中分割出化學(xué)結(jié)構(gòu)圖,并使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)進(jìn)行預(yù)測(cè)。作為兩階段模型的代表,Chemgrapher則使用一個(gè)分割網(wǎng)絡(luò)來(lái)識(shí)別每個(gè)像素的類(lèi)型,包括原子、鍵和電荷,并使用一個(gè)預(yù)測(cè)網(wǎng)絡(luò)預(yù)測(cè)每個(gè)被識(shí)別的像素的類(lèi)型,包括原子、鍵和電荷類(lèi)型。兩階段模型可以有效地減少分子圖像識(shí)別的噪聲,但它們可能會(huì)受到與優(yōu)化有關(guān)的問(wèn)題的影響,如誤差傳播。DECIMER使用一個(gè)預(yù)訓(xùn)練好的Inception V3模型作為特征提取器,提取圖像特征后進(jìn)行RNN解碼。而這種方式下,特征提取器和RNN沒(méi)有進(jìn)行聯(lián)動(dòng)學(xué)習(xí),模型不能學(xué)習(xí)到有價(jià)值的化學(xué)圖像表征,導(dǎo)致模型的識(shí)別率較低。目前,基于深度學(xué)習(xí)的方法有的對(duì)計(jì)算資源要求極高,有的標(biāo)記數(shù)據(jù)集難以獲得,而有的識(shí)別精度則較低。
融合先驗(yàn)知識(shí)的方法在許多任務(wù)中都展現(xiàn)出了非常好的效果。在本研究中,我們首先構(gòu)建了一個(gè)預(yù)訓(xùn)練模型來(lái)學(xué)習(xí)化學(xué)圖像的指紋表示,并將該訓(xùn)練好的模型作為下游任務(wù)的編碼器進(jìn)行微調(diào)。分子指紋是一種人工編碼,其包含分子的子結(jié)構(gòu)信息、性質(zhì)信息等。因此,通過(guò)預(yù)訓(xùn)練,模型可以學(xué)習(xí)到某些片段的潛在表征,有助于下游任務(wù),如結(jié)構(gòu)識(shí)別任務(wù)的特征提取。這種方法在訓(xùn)練數(shù)據(jù)不足的情況下能增強(qiáng)模型的泛化性,例如在本文的模型訓(xùn)練中,CSR-FP用60萬(wàn)張化學(xué)結(jié)構(gòu)圖像進(jìn)行訓(xùn)練,其在用Indigo生成的數(shù)據(jù)集的效果[SMILES序列準(zhǔn)確率(SSA)值約為84.29%]與使用6900萬(wàn)張訓(xùn)練圖像的MSE-DUDL效果(SSA值為82%)相當(dāng)。并且,本文在CSRFP的解碼器中引入了注意力機(jī)制,這使得模型具有更好的可解釋性。最終,本文選取了OSRA、MolVec以及DECIMER作為基線方法,在兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行評(píng)估,CSR-FP均取得了非常大的改進(jìn)。
本文提出的CSR-FP的工作流示意圖如圖2所示。所有的數(shù)據(jù)都經(jīng)過(guò)統(tǒng)一的預(yù)處理,處理后的數(shù)據(jù)首先進(jìn)行預(yù)訓(xùn)練。通過(guò)一個(gè)基于指紋預(yù)訓(xùn)練的編碼器(pre-trained encoder based on fingerprint pre-train,PE-FP)模型學(xué)習(xí)先驗(yàn)知識(shí)表征,然后在PE-FP模型后連接一個(gè)全連接層作為CSR-FP的編碼器,學(xué)習(xí)圖像的高維特征,再經(jīng)過(guò)LSTM解碼得到標(biāo)準(zhǔn)SMILES。
圖2 CSR-FP工作流示意圖Fig 2 Diagram of CSR-FP workflow
為了獲得有價(jià)值且具代表性的數(shù)據(jù),本文選 擇ZINC 20數(shù) 據(jù) 庫(kù)(https://zinc20.docking.org/)作為本研究的數(shù)據(jù)源。該數(shù)據(jù)庫(kù)包含超過(guò)7.5億個(gè)可購(gòu)買(mǎi)的化合物和超過(guò)2.3億個(gè)可購(gòu)買(mǎi)的可對(duì)接的化合物。如圖2所示,使用RDKit化學(xué)工具包將所有原始SMILES,標(biāo)準(zhǔn)化得到標(biāo)準(zhǔn)SMILES,然后對(duì)轉(zhuǎn)換后的SMILES進(jìn)行去重,得到唯一SMILES,最后對(duì)數(shù)據(jù)集進(jìn)行分割,按照8∶1∶1的比例獲取訓(xùn)練數(shù)據(jù)集,并驗(yàn)證和測(cè)試數(shù)據(jù)集。另外,本研究中使用的化學(xué)結(jié)構(gòu)圖像采用Indigo化學(xué)工具包生成,并對(duì)圖像進(jìn)行歸一化和縮放,所有的圖像分辨率重置為256×256。對(duì)于PE-FP模型的標(biāo)簽處理,使用RDKit生成預(yù)訓(xùn)練化學(xué)結(jié)構(gòu)圖像的擴(kuò)展連通性指紋(extended connectivity fingerprint,ECFP4)指紋,該指紋維度為256。而對(duì)于CSR-FP模型的標(biāo)簽處理,則簡(jiǎn)單地計(jì)算所有SMILES字符并添加到標(biāo)簽字典中。為了識(shí)別字符串的開(kāi)始,結(jié)束以及填充位,在字典中添加<sos>、<eos>和<pad>標(biāo)記。最終,本文選取從ZINC 20數(shù)據(jù)庫(kù)中隨機(jī)分層采樣的600 000張化學(xué)結(jié)構(gòu)圖像作為CSR-FP模型訓(xùn)練的數(shù)據(jù)集。
為了與其他工具進(jìn)行比較,本研究采用不同方法,分別為標(biāo)準(zhǔn)化學(xué)結(jié)構(gòu)圖像數(shù)據(jù)集(Standard-CSI)和噪聲圖像數(shù)據(jù)集(NI)上進(jìn)行測(cè)試。兩個(gè)數(shù)據(jù)集均包含10 000張化學(xué)結(jié)構(gòu)圖像。其中Standard-CSI數(shù)據(jù)集的圖像使用Indigo工具包生成。NI數(shù)據(jù)集模擬了真實(shí)世界情況下的化學(xué)結(jié)構(gòu)圖像,即圖像中會(huì)隨機(jī)出現(xiàn)不同比例的圖像噪聲。模型的訓(xùn)練數(shù)據(jù)集與兩個(gè)基準(zhǔn)數(shù)據(jù)集沒(méi)有重復(fù)樣本,所有的基線方法在基準(zhǔn)數(shù)據(jù)集上進(jìn)行測(cè)試,該過(guò)程重復(fù)10次。
編碼-解碼的思維最早在機(jī)器翻譯中被廣泛應(yīng)用,后來(lái)由于其強(qiáng)大的特征空間探索能力,許多基于人工智能的方法均采用此架構(gòu)。CSR-FP模型在編碼器-解碼器架構(gòu)的基礎(chǔ)上,融合了預(yù)訓(xùn)練模型PE-FP和注意力機(jī)制,增強(qiáng)了模型的特征提取能力和可解釋性。CSR-FP和PE-RP的模型架構(gòu)如圖3所示,其中紅色方框中的部分連接256個(gè)二分類(lèi)分類(lèi)器進(jìn)行分子指紋學(xué)習(xí),本研究利用長(zhǎng)度為256的ECFP4指紋作為預(yù)訓(xùn)練的標(biāo)簽。隨后,通過(guò)去除分類(lèi)器并且連接一個(gè)簡(jiǎn)單的線性轉(zhuǎn)換器,將得到的隱式向量轉(zhuǎn)換為隱式矩陣,輸入到解碼器中。這里,CSR-FP模型的編碼器輸出的特征圖大小是8×8,其通道為512。圖中紫色方框中的內(nèi)容為CSR-FP的解碼器,解碼器在每次迭代中都會(huì)生成一個(gè)SMILES字符。在訓(xùn)練過(guò)程中,生成字符時(shí),模型對(duì)于前一個(gè)時(shí)間步生成的內(nèi)容是可見(jiàn)的,而驗(yàn)證時(shí)則不可見(jiàn)。從圖中還可以看出,CSR-FP的編碼器中使用了多個(gè)殘差連接,其是一個(gè)類(lèi)ResNet的模型,通過(guò)殘差連接,可以更好地解決網(wǎng)絡(luò)退化問(wèn)題。
圖3 模型架構(gòu)示意圖Fig 3 Diagram of the model architecture
假設(shè)模型預(yù)測(cè)的結(jié)果為其中N
是SMILES的長(zhǎng)度,V
是字典的大小。模型的損失函數(shù)可以表示為:s
個(gè)預(yù)測(cè)字符中,下標(biāo)為y
的預(yù)測(cè)值。另外,CSR-FP在解碼器中加入了注意力機(jī)制,在生成SMILES字符時(shí),計(jì)算特征矩陣與前一時(shí)間步的隱含向量之間的注意力分?jǐn)?shù)。這種機(jī)制可以有效克服RNN長(zhǎng)期依賴(lài)造成的梯度消失和爆炸問(wèn)題,在提升模型特征提取能力的同時(shí),還可以增加模型的可解釋性。
本研究使用ECFP4指紋作為預(yù)訓(xùn)練的訓(xùn)練標(biāo)簽。其中,ECFP4指紋是一串由“0”和“1” 位比特組成的256長(zhǎng)度的向量。因此,在訓(xùn)練過(guò)程中,設(shè)置256個(gè)分類(lèi)器分別進(jìn)行二分類(lèi)學(xué)習(xí)。在本研究中,我們使用了100萬(wàn)個(gè)化合物分子進(jìn)行指紋預(yù)訓(xùn)練。
ECFP指紋又稱(chēng)為Morgan指紋,是一種擴(kuò)展連通性指紋。具體來(lái)說(shuō),ECFP4是以半徑為2,計(jì)算每個(gè)原子的圓形區(qū)域的化學(xué)環(huán)境標(biāo)識(shí)符。因此,該指紋包含了分子中多個(gè)片段的結(jié)構(gòu)信息,在QSAR/QSPR任務(wù)中有著廣泛的應(yīng)用。
為了更全面、更嚴(yán)格地評(píng)估模型的性能,本文采用了以下三個(gè)指標(biāo)進(jìn)行評(píng)估:
SMILES序列的準(zhǔn)確率(SSA):在該指標(biāo)下,只有當(dāng)生成的SMILES序列與原始序列完全相同時(shí)才被認(rèn)為是正確的結(jié)果。該指標(biāo)從分子水平上宏觀分析模型的識(shí)別精度。
ATS:本文使用Tanimoto系數(shù)來(lái)衡量生成的分子的Morgan指紋和原始分子的Morgan指紋之間的相似性。
Tanimoto相 似 度1.0系 數(shù)(TS@1.0):該指標(biāo)是指生成的分子指紋與原始分子指紋之間Tanimoto相似度為1.0的比例。TS@1.0和ATS為從分子相似度層面上進(jìn)行分析,這些指標(biāo)可以為下游任務(wù),例如分子性質(zhì)的預(yù)測(cè)等奠定基礎(chǔ)。
S
之前的迭代(S
,S
,…,S
)生成的SMILES字符信息。在解碼器的每個(gè)時(shí)間步中,模型輸出一個(gè)隱藏向量h
和一個(gè)單元向量c
,其中初始向量h
和c
是將編碼器的特征向量輸入全連接層得到的。每個(gè)時(shí)間步中注意力分?jǐn)?shù)的計(jì)算方式可以簡(jiǎn)單地形式化為:L
是一個(gè)線性轉(zhuǎn)換,F
是特征矩陣,h
是解碼器第t
個(gè)時(shí)間步的隱式向量。為了提升模型的泛化能力,在進(jìn)行指紋預(yù)訓(xùn)練時(shí),多樣性更高、應(yīng)用域更廣的數(shù)據(jù)對(duì)于提升預(yù)訓(xùn)練模型的學(xué)習(xí)能力是非常重要的。針對(duì)該問(wèn)題,我們?cè)诓杉A(yù)訓(xùn)練樣本時(shí),利用分子骨架多樣性對(duì)分子多樣性進(jìn)行度量,采集骨架多樣性高的樣本進(jìn)行訓(xùn)練。預(yù)訓(xùn)練數(shù)據(jù)集的分子骨架分析以及原子數(shù)目分布結(jié)果,見(jiàn)圖4。
由圖4A可知,分子骨架數(shù)量平均值為1.154,且數(shù)據(jù)主要分布在最小值1處。小部分樣本分布在2和3中。從圖4C中可以看出,小于3的分子骨架數(shù)量占比為97.76%。這些數(shù)據(jù)說(shuō)明了該預(yù)訓(xùn)練數(shù)據(jù)集的分子結(jié)構(gòu)多樣性非常豐富。從圖4B可以看出,原子數(shù)目大部分集中在20~40,比較符合高成藥性化合物的特點(diǎn)??偠灾?,通過(guò)該數(shù)據(jù)集學(xué)習(xí)到的化學(xué)空間表征是更有效的。
圖4 預(yù)訓(xùn)練數(shù)據(jù)集統(tǒng)計(jì)圖Fig 4 Statistical diagram of pre-trained dataset
為了驗(yàn)證本文提出的模型的有效性,本文將CSR-FP模型與一些現(xiàn)有的模型和工具進(jìn)行了比較。其中,基于規(guī)則的工具有OSRA和MolVec,基于深度學(xué)習(xí)的工具有DECIMER和CSR-FP。評(píng)估指標(biāo)的統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表1。
表1 模型性能對(duì)比結(jié)果
Tab 1 Model performance
數(shù)據(jù)集 方法 SSA/% ATS/% TS@1.0/%Standard-CSIOSRA 22.05±0.22 54.15±0.36 36.92±0.62 Standard-CSI MolVec 17.18±0.41 50.59±0.24 31.18±0.23 Standard-CSIDECIMER 38.19±0.34 87.52±0.21 47.54±0.22 Standard-CSICSR-FP 84.29±0.12 92.14±0.13 87.49±0.16 NI OSRA 19.52±0.46 51.41±0.37 32.02±0.19 NI MolVec 8.714±0.37 34.79±0.19 18.01±0.35 NI DECIMER 17.42±0.27 68.46±0.29 22.16±0.38 NI CSR-FP 82.19±0.17 88.19±0.18 84.86±0.21
對(duì)于以上三個(gè)評(píng)估數(shù)據(jù),我們主要關(guān)注SSA值。從表1中可以看出,CSR-FP在兩個(gè)數(shù)據(jù)集上均取得了具有競(jìng)爭(zhēng)力的結(jié)果。具體來(lái)說(shuō),兩個(gè)基于規(guī)則的工具在兩個(gè)數(shù)據(jù)集上的效果均不理想,例如OSRA和MolVec在Standard-CSI數(shù)據(jù)集上的SSA值只有22.05%和17.18%,而DECIMER和CSR-FP則為38.19%和84.29%。這說(shuō)明相對(duì)于基于深度學(xué)習(xí)的方法,基于規(guī)則的方法泛化能力較差。而對(duì)于帶有噪聲的圖像,前三者的識(shí)別精度均低于20%,可能是因?yàn)榛谝?guī)則的方法沒(méi)有加入降噪的規(guī)則。DECIMER則是直接使用一個(gè)特征提取器而沒(méi)有和解碼器進(jìn)行聯(lián)動(dòng)學(xué)習(xí),這會(huì)大大降低模型的特征學(xué)習(xí)能力??傮w來(lái)說(shuō),CSR-FP通過(guò)融合分子指紋預(yù)訓(xùn)練以及注意力機(jī)制,大大提升了模型的特征提取能力。
在CSR-FP模型中,編碼器的輸出為一個(gè)512通道的8×8特征圖,在解碼器生成字符時(shí),模型計(jì)算特征圖與隱式向量的注意力分?jǐn)?shù)。因此,本文隨機(jī)選取了一個(gè)正確識(shí)別的分子并將其每個(gè)字符生成時(shí)模型對(duì)64個(gè)圖像塊的注意力分?jǐn)?shù)進(jìn)行了可視化。如圖5所示,第一個(gè)和最后一個(gè)子圖分別表示原始的分子圖片與所有字符疊加的注意力權(quán)重圖。從最后一個(gè)子圖可以看出,模型能夠大致識(shí)別整個(gè)圖片中的分子區(qū)域。從中間的字符權(quán)重子圖也可以看出,模型關(guān)注的區(qū)域與相關(guān)原子的位置有所重合。雖然某些字符的關(guān)注權(quán)重可能有所偏差,但是模型可以利用注意力信息,整合上下文信息以提升解碼能力。未來(lái),我們將通過(guò)擴(kuò)大特征圖以細(xì)化模型對(duì)分子圖像塊的信息抽取能力。
圖5 注意力機(jī)制示例圖Fig 5 Example diagram of attentional mechanisms
針對(duì)CSR,本文構(gòu)建了一個(gè)基于編碼器-解碼器架構(gòu)的模型CSR-FP。該模型能較好地學(xué)習(xí)分子圖像的表征,并且具備良好的可解釋性。兩個(gè)基準(zhǔn)數(shù)據(jù)集測(cè)試結(jié)果表明該模型在目前已有的工具和方法中取得了具有競(jìng)爭(zhēng)力的效果。具體來(lái)說(shuō),本文的貢獻(xiàn)主要包括三個(gè)方面:
第一,構(gòu)建了一個(gè)基于編碼器-解碼器架構(gòu)的模型CSR-FP,該模型能較好地學(xué)習(xí)分子圖像空間表征,與其他工具及方法相比取得了具有競(jìng)爭(zhēng)力的效果。該工作可在如下鏈接獲?。篽ttps://github.com/Jiacai-Yi/CSR-FP。
第二,采用了深度學(xué)習(xí)的方法,融合了分子指紋知識(shí),即模型在學(xué)習(xí)分子圖像空間時(shí)能結(jié)合
預(yù)訓(xùn)練學(xué)習(xí)到的分子結(jié)構(gòu)信息和性質(zhì)信息,對(duì)于生成更有效的空間表征具有指導(dǎo)意義。
第三,解碼器融合了注意力機(jī)制,使模型在解碼每個(gè)SMILES字符時(shí)都與編碼形成的特征圖做注意力計(jì)算,不僅提升了模型的特征提取能力,同時(shí)讓模型具有更好的可解釋性。
后續(xù)工作中,我們將深入探討化學(xué)結(jié)構(gòu)圖像內(nèi)在特征對(duì)模型性能的影響,并且構(gòu)建與該任務(wù)更匹配的模型。并且,由于我們最終的目標(biāo)是在大量文獻(xiàn)中分割并識(shí)別準(zhǔn)確的分子結(jié)構(gòu),因此,未來(lái)還需要在排除文本干擾、準(zhǔn)確識(shí)別R-基團(tuán)以及識(shí)別復(fù)雜的立體異構(gòu)分子等問(wèn)題上進(jìn)行深入研究。