孫 婕, 李子昊, 張書(shū)宇
(上海交通大學(xué) 化學(xué)化工學(xué)院,上海 200240)
近年來(lái),科研工作者一直在尋找能夠快速、簡(jiǎn)捷、高效發(fā)現(xiàn)藥物、催化劑、蛋白質(zhì)等新材料和新反應(yīng)途徑的自動(dòng)化合成系統(tǒng).人工智能(Artificial Intelligence, AI)和機(jī)器學(xué)習(xí)(Machine Learning, ML)的出現(xiàn)使實(shí)現(xiàn)這一目標(biāo)成為可能.ML是AI和計(jì)算機(jī)科學(xué)的一個(gè)重要分支,它研究和構(gòu)建的是一種特殊算法而非某一個(gè)特定的算法,能夠讓計(jì)算機(jī)自身從數(shù)據(jù)中學(xué)習(xí)并進(jìn)行下一步預(yù)測(cè)[1].ML算法能夠從大量化學(xué)數(shù)據(jù)中尋找規(guī)律和聯(lián)系,幫助科研工作者做出更合理的判斷和決策, 加快研究過(guò)程.ML在化學(xué)合成領(lǐng)域[2-3]的應(yīng)用已經(jīng)取得許多令人矚目的成果,如分析化學(xué)反應(yīng)進(jìn)行反應(yīng)優(yōu)化[4-6]、逆合成分析尋找產(chǎn)物的最佳合成路徑[7-8]、比較藥物活性輔助藥物設(shè)計(jì)[9]等.ML正在成為除分子模擬之外的計(jì)算化學(xué)的新范式.ML為化學(xué)合成領(lǐng)域的發(fā)展帶來(lái)無(wú)限生機(jī)的同時(shí),也為合成研究帶來(lái)了新的難題與挑戰(zhàn).
ML為計(jì)算機(jī)系統(tǒng)提供自動(dòng)學(xué)習(xí)和增強(qiáng)經(jīng)驗(yàn)的能力,并且無(wú)需專門(mén)編程,被稱為第四次工業(yè)革命中最流行的技術(shù)[10-11].ML通過(guò)訓(xùn)練算法查找數(shù)據(jù)之間的相關(guān)性,并根據(jù)該分析做出最佳決策和預(yù)測(cè).基本思路是將實(shí)際問(wèn)題抽象成數(shù)學(xué)模型,利用數(shù)學(xué)方法對(duì)模型進(jìn)行求解,最后采用指標(biāo)對(duì)模型進(jìn)行評(píng)估.因此,可以將ML在化學(xué)合成領(lǐng)域的應(yīng)用簡(jiǎn)化為如圖1所示的4個(gè)步驟:建立反應(yīng)數(shù)據(jù)集、特征化數(shù)據(jù)、訓(xùn)練模型和分析結(jié)果.
圖1 在化學(xué)科學(xué)中應(yīng)用ML算法的工作流程
ML模型需要海量數(shù)據(jù)作為支撐,借助數(shù)據(jù)進(jìn)行模型訓(xùn)練.一般而言,可以借助當(dāng)前已公開(kāi)的化學(xué)數(shù)據(jù)庫(kù)如SciFinder、Reaxys、USPTO等[12]進(jìn)行初步篩選,但科研工作者無(wú)法直接獲得批量數(shù)據(jù).可用數(shù)據(jù)集往往需要耗費(fèi)一定時(shí)間進(jìn)行篩選、匯總和整理,科研工作者需將其按照7∶3或8∶2的比例進(jìn)行劃分,訓(xùn)練集數(shù)據(jù)占多數(shù).需要注意的是不能使用所有數(shù)據(jù)進(jìn)行模型訓(xùn)練,也不能使用訓(xùn)練集數(shù)據(jù)對(duì)模型進(jìn)行評(píng)估.但允許所有數(shù)據(jù)進(jìn)行特征化之后再進(jìn)行數(shù)據(jù)集劃分.
輸入數(shù)據(jù)的形式往往影響ML的效果,常見(jiàn)的輸入數(shù)據(jù)形式主要有向量、矩陣和圖像3種.由于化學(xué)數(shù)據(jù)的特殊性,絕大多數(shù)數(shù)據(jù)無(wú)法直接作為模型的輸入,需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換.將原始數(shù)據(jù)轉(zhuǎn)換成更適合算法處理的格式,這一過(guò)程稱為特征化或特征工程.在化學(xué)領(lǐng)域中,使用分子描述符對(duì)分子信息進(jìn)行描述表示.分子描述符是指分子在某一方面性質(zhì)的度量,既可以是分子的物理化學(xué)性質(zhì),也可以是根據(jù)不同算法推導(dǎo)出來(lái)的與分子結(jié)構(gòu)相關(guān)的數(shù)值指標(biāo).選擇出與研究對(duì)象最密切相關(guān)的描述符對(duì)整個(gè)ML過(guò)程而言十分重要,表1總結(jié)了常見(jiàn)的分子描述符.
表1 常見(jiàn)的分子描述符總結(jié)(以苯酚乙酯為例)
其中,需要特別注意量子化學(xué)描述符,這類描述符一般通過(guò)Gaussian、NWChem等軟件計(jì)算獲得,能夠較準(zhǔn)確地描述分子的化學(xué)和物理性質(zhì),計(jì)算結(jié)果具有較高的可靠性.此類描述符不僅是ML的輸入數(shù)據(jù)形式之一,而且能夠作為化學(xué)實(shí)驗(yàn)結(jié)果的佐證工具,如張書(shū)宇等[15]總結(jié)了密度泛函理論(Density Functional Theory, DFT)計(jì)算驗(yàn)證軸向手性苯乙烯合成的機(jī)理和方法.首先,他們發(fā)現(xiàn)鎳催化對(duì)映選擇性三分量自由基傳遞烯烴還原偶聯(lián)可以實(shí)現(xiàn)軸向手性苯乙烯的合成,可以借助DFT計(jì)算尋找反應(yīng)中的過(guò)渡態(tài)對(duì)整個(gè)反應(yīng)機(jī)理進(jìn)行佐證[17].其次,使用DFT計(jì)算非常規(guī)遠(yuǎn)程雜芳基遷移對(duì)非活性烯烴進(jìn)行異芳基氟烷基化過(guò)程中雜芳基遷移后氫原子轉(zhuǎn)移(Hydrogen Atom Transfer, HAT)的溶劑化自由能,計(jì)算結(jié)果與實(shí)驗(yàn)數(shù)據(jù)吻合,與反應(yīng)機(jī)理相印證[18].
數(shù)據(jù)特征和算法性能決定了ML的有效性和正確率,不同的ML算法產(chǎn)生的結(jié)果不同,甚至同一種ML算法結(jié)果也會(huì)因數(shù)據(jù)特征而異.算法是ML過(guò)程的關(guān)鍵,選擇時(shí)需從實(shí)際問(wèn)題出發(fā),多方面綜合考慮.目前,根據(jù)算法特征將ML分為4類[19]:監(jiān)督學(xué)習(xí)(Supervised Learning, SL)、無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning, UL)、半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning, SSL)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL).
SL是目前使用最廣泛的ML方法,用于學(xué)習(xí)從輸入映射到輸出的函數(shù)f(x),f(x)為每個(gè)輸入x產(chǎn)生的輸出y或給定x的y上的概率分布[1, 20].當(dāng)訓(xùn)練數(shù)據(jù)為離散型數(shù)據(jù)時(shí)采用分類算法,為連續(xù)型數(shù)據(jù)時(shí)采用回歸算法.SL要求訓(xùn)練數(shù)據(jù)為帶有“標(biāo)簽”的數(shù)據(jù),常見(jiàn)算法包括支持向量機(jī)(Support Vector Machine, SVM)[21-23]、K-均值聚類(K-means Clustering)[24]、線性回歸( Linear Regression, LR)[25]、邏輯回歸( Logistic Regression, LR)[26]等.
UL訓(xùn)練未標(biāo)記的數(shù)據(jù)集,無(wú)需人工干預(yù),可以理解為數(shù)據(jù)驅(qū)動(dòng)的過(guò)程[20].UL本質(zhì)是一個(gè)統(tǒng)計(jì)手段,其輸入數(shù)據(jù)沒(méi)有被標(biāo)記且結(jié)果未知.該算法的目的不是向計(jì)算機(jī)施加指令,而是讓計(jì)算機(jī)自主學(xué)習(xí),促進(jìn)ML向自動(dòng)、靈活和通用方向發(fā)展.如今使用較多的UL算法是聚類算法,聚類是將相似的對(duì)象分到不同的組中,或者更準(zhǔn)確地說(shuō),將一個(gè)數(shù)據(jù)集劃分為子集,從而使每個(gè)子集中的數(shù)據(jù)根據(jù)某種定義的距離度量[27].
SSL巧妙地將SL和UL結(jié)合在一起.在訓(xùn)練期間,它使用少量擁有標(biāo)簽的數(shù)據(jù)集來(lái)指導(dǎo)大量未標(biāo)簽化數(shù)據(jù)集進(jìn)行分類和特征提取.SSL可以解決帶標(biāo)簽數(shù)據(jù)不足或無(wú)法負(fù)擔(dān)標(biāo)記足夠數(shù)據(jù)的費(fèi)用而不能進(jìn)行SL的問(wèn)題.
RL不要求預(yù)先給定任何數(shù)據(jù),而是通過(guò)接收環(huán)境對(duì)動(dòng)作的獎(jiǎng)勵(lì)(反饋)獲得學(xué)習(xí)信息并更新模型參數(shù)[28].RL的思路非常簡(jiǎn)單:如果在一件事中采取某種策略可以取得較高得分,那么就進(jìn)一步“強(qiáng)化”這種策略,以期取得更好的結(jié)果.可以認(rèn)為,RL是所有形式的ML中最接近人類和其他動(dòng)物學(xué)習(xí)的方法,也是目前最符合AI發(fā)展終極目標(biāo)的方法.RL系統(tǒng)一般包括策略、獎(jiǎng)勵(lì)、價(jià)值和環(huán)境/模型4個(gè)要素.2016年AlphaGo擊敗世界圍棋大師李世石[29]和2018年谷歌訓(xùn)練機(jī)器臂的長(zhǎng)期推理能力[30]等是RL應(yīng)用的最佳佐證.
待模型訓(xùn)練完,可以將真實(shí)實(shí)驗(yàn)數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)進(jìn)行對(duì)比來(lái)評(píng)估模型質(zhì)量,分析模型學(xué)習(xí)結(jié)果能否較好解決實(shí)際問(wèn)題.針對(duì)不同問(wèn)題,需采用不同的模型評(píng)估指標(biāo),如評(píng)估SL中分類模型可以采用準(zhǔn)確率(Accuracy)、召回率(Recall)、受試者工作特征曲線 (Receiver Operating Characteristic, ROC)等;評(píng)估SL中回歸模型時(shí)可以借助平均絕對(duì)誤差(Mean Absolute Error, MAE)、均方誤差(Mean Square Error, MSE)、均方根誤差(Root Mean Square Error, RMSE)、決定系數(shù)(R2)等.
ML在化學(xué)合成領(lǐng)域最早的應(yīng)用可以追溯至20世紀(jì)60年代,Corey等[31]開(kāi)發(fā)了基于規(guī)則的計(jì)算機(jī)輔助合成設(shè)計(jì)程序(Computer-Aided Synthetic Planning, CASP),該程序輔助化學(xué)家快速實(shí)現(xiàn)化合物合成,輸入分子結(jié)構(gòu)信息,輸出不同的反應(yīng)合成方案.在過(guò)去的幾十年間,隨著計(jì)算機(jī)硬件設(shè)施的更新和大型化學(xué)數(shù)據(jù)庫(kù)的建立,ML在化學(xué)合成領(lǐng)域的應(yīng)用日益廣泛.文獻(xiàn)[32-33]中從化學(xué)家的角度介紹ML相關(guān)應(yīng)用,本文從ML算法的角度,介紹化學(xué)合成及表征領(lǐng)域中如何使用ML模型.
隨機(jī)森林(Random Forest, RF)是一種集成分類算法,由 Breiman[34]提出,使用“并行”決策樹(shù)(Decision Tree, DT)的方式,如圖2所示.DT模型是一種以樹(shù)結(jié)構(gòu)為依據(jù)的分類算法,由節(jié)點(diǎn)和分支組成.從樹(shù)的根節(jié)點(diǎn)開(kāi)始,依次向下分類.一棵DT有且僅有一個(gè)根節(jié)點(diǎn).能夠?qū)⒁粋€(gè)復(fù)雜的決策過(guò)程分解成一組更簡(jiǎn)單的決策,從而提供一個(gè)通俗易懂、易解釋的解決方案是DT模型最大的優(yōu)勢(shì)[35].在RF中,每棵DT生成一個(gè)隨機(jī)向量,向量之間相互獨(dú)立且分布相同,根據(jù)一定的投票機(jī)制或取平均值得到最佳分類結(jié)果.RF由多棵DT組合生成的,因此該算法能夠最大限度地減少過(guò)擬合問(wèn)題,提高預(yù)測(cè)精度和控制力[36].
圖2 輸入數(shù)據(jù)形式以分子圖和SMILES字符為例的RF模型
RF作為一種集成算法,具有良好的魯棒性和可靠性,分類效果好,適合作為基線模型進(jìn)行產(chǎn)率預(yù)測(cè).高通量實(shí)驗(yàn)結(jié)合DFT計(jì)算能夠縮短RF模型建立的時(shí)間,使得該模型在化學(xué)合成領(lǐng)域得到廣泛應(yīng)用.RF解決的主要是分類問(wèn)題,分類問(wèn)題是數(shù)據(jù)挖掘處理的一個(gè)重要組成部分,目標(biāo)是根據(jù)已知樣本的某些特征,判斷新樣本屬于哪種已知的樣本類.科研工作者通常從預(yù)測(cè)精確度、計(jì)算復(fù)雜度、模型簡(jiǎn)潔度對(duì)多種分類算法進(jìn)行比較評(píng)價(jià).Singh等[35]選擇了5種不同的軸向手性聯(lián)萘催化劑共368個(gè)不對(duì)稱氫化反應(yīng)和一系列烯烴、亞胺作為訓(xùn)練數(shù)據(jù)集生成了一個(gè)RF模型,如圖3(a)所示,選擇能夠共享等效或具有共同核心區(qū)域的反應(yīng)參數(shù)作為輸入,以對(duì)映體過(guò)量百分率(ee%)作為輸出值,對(duì)輸入化合物進(jìn)行分類,每種催化劑生成一棵DT,形成RF模型.與其他模型相比,RF模型得到了較高的精度,表明RF模型在識(shí)別不對(duì)稱催化反應(yīng)時(shí)有良好的應(yīng)用.Kang等[37]設(shè)計(jì)了一種RF模型用于預(yù)測(cè)分子的激發(fā)能量和相關(guān)振蕩器強(qiáng)度,首先使用RDkit工具包計(jì)算出分子的擴(kuò)展連通性指紋(Extended-Connectivity Fingerprints,ECFP)、MACC鍵等分子描述符作為輸入數(shù)據(jù)生成許多DT模型,對(duì)所有DT的預(yù)測(cè)結(jié)果進(jìn)行投票選擇評(píng)估,生成RF模型.該模型使用了近50萬(wàn)個(gè)DFT數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果表明RF模型預(yù)測(cè)振蕩器強(qiáng)度和有機(jī)化合物最高強(qiáng)度躍遷激發(fā)能的精準(zhǔn)度最佳.Li等[38]報(bào)道了一種物理有機(jī)特征描述符和RF相結(jié)合的模型(PhyOrg-RF),對(duì)雜環(huán)自由基C—H官能團(tuán)的區(qū)域選擇性進(jìn)行預(yù)測(cè).在樣本外測(cè)試集中PhyOrg-RF模型實(shí)現(xiàn)了94.2%的位點(diǎn)預(yù)測(cè)精度和89.9%的選擇性預(yù)測(cè)精度,擁有較好的區(qū)域選擇性預(yù)測(cè)能力,使用其他已公開(kāi)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行測(cè)試驗(yàn)證了PhyOrg-RF具有優(yōu)異的泛化能力.Ahneman等[39]提出一種基于RF的預(yù)測(cè)鈀催化Buchwald-Hartwig胺化反應(yīng)產(chǎn)率的模型,如圖3(b)所示.其中,10 mol%表示催化劑與反應(yīng)物的物質(zhì)的量之比為10%.通過(guò)高通量實(shí)驗(yàn)生成 4 608 個(gè)反應(yīng)數(shù)據(jù),將簡(jiǎn)單原子、分子和振動(dòng)描述符作為訓(xùn)練集進(jìn)行模型訓(xùn)練.該模型的測(cè)試集RMSE為7.8%,R2為0.92,該模型未曾出現(xiàn)過(guò)擬合現(xiàn)象,能夠以RMSE為11.3%、R2=0.83的精度成功預(yù)測(cè)反應(yīng)產(chǎn)率.Tomberg等[16]選擇RF作為分類模型,判斷芳香類化合物的反應(yīng)位點(diǎn),與人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN) 、LR和SVM模型相比,RF不僅訓(xùn)練時(shí)間短,而且正確率高達(dá)93%.Xu等[40]提出一種將過(guò)渡態(tài)知識(shí)模型與額外樹(shù)(Extra Tree, ET)模型相結(jié)合的方式,對(duì)鈀電催化C-H活化的對(duì)映選擇性預(yù)測(cè).RF在一個(gè)隨機(jī)子集內(nèi)得到最佳分類屬性,而ET完全隨機(jī)得到分類屬性,同時(shí)具有隨機(jī)性和最優(yōu)性.
圖3 催化劑分類形成RF模型過(guò)程和RF作為比較模型的反應(yīng)產(chǎn)率預(yù)測(cè)
神經(jīng)網(wǎng)絡(luò)(Neural Network, NN)指包含多個(gè)閾值單元的多層網(wǎng)絡(luò),每個(gè)閾值單元實(shí)現(xiàn)不同的簡(jiǎn)單功能,將每個(gè)單元的結(jié)果進(jìn)行匯總得到輸出結(jié)果,根據(jù)優(yōu)化算法調(diào)節(jié)整個(gè)網(wǎng)絡(luò)的參數(shù)實(shí)現(xiàn)網(wǎng)絡(luò)最優(yōu).卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是將卷積核和NN相結(jié)合的一種算法.自LeCun等[41]提出LeNet-5多層ANN,CNN逐漸出現(xiàn)在人們視野.CNN由卷積層、池化層和全連接層組成,如圖4(a)所示.卷積層由卷積核組成,用于生成特征圖.根據(jù)下式可以求出第k層第n個(gè)特征圖中(i,j)處的特征向量:
(1)
CNN主要用于解決SL中的回歸問(wèn)題.回歸問(wèn)題研究的是自變量和多個(gè)變量之間的關(guān)系,用于處理離散型數(shù)據(jù).NN受人類大腦的啟發(fā),模仿生物神經(jīng)元信號(hào)相互傳遞的方式,能夠無(wú)限逼近非線性模型,在化學(xué)合成領(lǐng)域有著出色的表現(xiàn).首先,CNN借助共享卷積核的方式降低計(jì)算復(fù)雜度,可以快速處理高維化學(xué)數(shù)據(jù).Hirohara等[47]設(shè)計(jì)一種SMILES字符串與CNN相結(jié)合的模型(SCFP),用于化學(xué)基序檢測(cè).使用TOX21數(shù)據(jù)集中分子的SMILES字符串,將字符串輸入CNN中,其中卷積操作只在SMILES字符串的一個(gè)方向進(jìn)行,如圖4(b)所示(k1和k2表示濾波器),由受試者工作特征及其曲線面積(ROC-AUC)進(jìn)行評(píng)分.此模型還可以被視作一種分子指紋,在SR-MMP子數(shù)據(jù)集的化學(xué)空間中比ECFP分子指紋表達(dá)效果好.選取NR-AR子數(shù)據(jù)集進(jìn)行化學(xué)基序分析成功檢測(cè)出一種類固醇樣化學(xué)基序.Wallach等[48]報(bào)道了一種基于CNN的模型AtomNet,預(yù)測(cè)藥物發(fā)現(xiàn)應(yīng)用中小分子的生物活性.AtomNet有兩點(diǎn)優(yōu)勢(shì):①CNN的強(qiáng)制局部性與化學(xué)基團(tuán)之間相互作用時(shí)產(chǎn)生的局部效應(yīng)相吻合;②將有關(guān)配體的信息和相關(guān)目標(biāo)結(jié)構(gòu)的信息相結(jié)合,十分適合結(jié)構(gòu)的親和力預(yù)測(cè),并且選擇原子在靶位結(jié)合點(diǎn)的位置,能夠讓模型發(fā)現(xiàn)任意分子特征.選擇文檔理解數(shù)據(jù)集和評(píng)估(DUDE)基準(zhǔn)的數(shù)據(jù)集,評(píng)估數(shù)據(jù)集的AUC及其對(duì)數(shù)值,AtomNet中 57.8%目標(biāo)的AUC大于0.9.Hughes等[49]使用702個(gè)環(huán)氧化反應(yīng)數(shù)據(jù)訓(xùn)練了一種CNN模型,在環(huán)氧化位點(diǎn)識(shí)別上表現(xiàn)出0.949 的AUC結(jié)果,在區(qū)分環(huán)氧化分子上表現(xiàn)出0.793 的AUC結(jié)果.此網(wǎng)絡(luò)不僅能夠預(yù)測(cè)分子的環(huán)氧化作用,還能預(yù)測(cè)分子中的環(huán)氧化作用位點(diǎn).該課題組還將類似的模型應(yīng)用到了小分子與軟親核試劑的反應(yīng)預(yù)測(cè)中,對(duì)是否能夠發(fā)生反應(yīng)進(jìn)行預(yù)測(cè),準(zhǔn)確率為80.6%,小分子反應(yīng)位點(diǎn)的預(yù)測(cè)準(zhǔn)確率達(dá)到了90.8%[50].
CNN不僅可以對(duì)高維數(shù)據(jù)進(jìn)行快速降維,在圖像處理如圖譜分析方面也有不可比擬的優(yōu)勢(shì).Xing等[51]提出一種基于CNN的生物學(xué)驅(qū)動(dòng)代謝組學(xué)習(xí)工作流程SteroidXtract,可實(shí)現(xiàn)在非靶向代謝組學(xué)數(shù)據(jù)集中對(duì)類固醇化合物二級(jí)質(zhì)譜譜圖(MS2)的自動(dòng)化快速索取.SteroidXtract是一種高靈敏度、高特異性提取類固醇化合物譜圖的工具,該方法不使用傳統(tǒng)統(tǒng)計(jì)驅(qū)動(dòng)的代謝組學(xué)習(xí)數(shù)據(jù)處理過(guò)程,更加高效簡(jiǎn)潔.Zheng等[52]借助CNN得到一種快速獲取高質(zhì)量核磁共振純位移譜的新方法,如圖5所示.通過(guò)在實(shí)驗(yàn)中引入指數(shù)采樣來(lái)加速PSYCHE純位移譜的獲取,使用CNN對(duì)欠采樣的圖譜進(jìn)行重建,可以在低采樣率的情況下獲得干凈的純位移譜.卷積核的選擇對(duì)CNN算法的成敗有著關(guān)鍵作用,通常選擇大小為3×3,步長(zhǎng)為1的卷積核.此外,也可根據(jù)實(shí)際應(yīng)用進(jìn)行調(diào)整,但需注意的是,卷積核尺寸越大、步長(zhǎng)越大,得到的特征圖數(shù)量越少,提取出的特征數(shù)目越少,可能會(huì)影響后續(xù)預(yù)測(cè)的準(zhǔn)確性.共享卷積核使得CNN算法復(fù)雜度大大降低,因此當(dāng)處理大量高維數(shù)據(jù)時(shí),推薦使用CNN算法.
圖5 CNN采集核磁共振純移位波譜[52]
幾何深度學(xué)習(xí)[53]的出現(xiàn)將NN模型擴(kuò)展到了非歐氏空間.圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)是處理非歐氏空間數(shù)據(jù)的常用模型,能夠以遞歸形式合并鄰近節(jié)點(diǎn)的信息或消息,同時(shí)自然地捕獲圖形結(jié)構(gòu)和節(jié)點(diǎn)特征[54].GNN通過(guò)圖節(jié)點(diǎn)之間的消息傳遞捕獲圖中重要信息, 查看相鄰節(jié)點(diǎn)上的信息來(lái)確定每個(gè)節(jié)點(diǎn)的最終狀態(tài),以迭代方式傳播相鄰節(jié)點(diǎn)信息來(lái)學(xué)習(xí)目標(biāo)節(jié)點(diǎn)的特征,直至到達(dá)穩(wěn)定的固定點(diǎn).簡(jiǎn)單來(lái)講,GNN獲取信息的過(guò)程可以概括為:聚合—更新—循環(huán),如圖6所示.首先使用某種方法對(duì)節(jié)點(diǎn)信息f1~f5進(jìn)行表征描述,使每一個(gè)節(jié)點(diǎn)學(xué)習(xí)一個(gè)嵌入狀態(tài),這個(gè)狀態(tài)用來(lái)產(chǎn)生所需要的輸出即更新后的節(jié)點(diǎn)信息f1,new~f5,new.給定節(jié)點(diǎn)和邊的特征即可不斷更新節(jié)點(diǎn)狀態(tài)并獲得最終輸出.當(dāng)所有節(jié)點(diǎn)的狀態(tài)都趨于穩(wěn)定狀態(tài)時(shí),節(jié)點(diǎn)的狀態(tài)向量都包含了其鄰居節(jié)點(diǎn)和相連邊的信息,需要保證整個(gè)更新過(guò)程收斂.
圖6 GNN信息更新過(guò)程
GNN通過(guò)信息傳播機(jī)制不斷交換鄰域信息以達(dá)到更新節(jié)點(diǎn)狀態(tài)的目的.但GNN不能無(wú)限次更新節(jié)點(diǎn)的狀態(tài)向量,會(huì)出現(xiàn)過(guò)擬合現(xiàn)象.為解決該問(wèn)題,2016年Li等[55]提出門(mén)控圖神經(jīng)網(wǎng)絡(luò)(Gated Graph Neural Network, GGNN)算法.GGNN引入門(mén)控遞歸單元進(jìn)行循環(huán)迭代,能在一定程度上防止過(guò)擬合現(xiàn)象.隨著NN的發(fā)展,Kipf等[56]提出圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Neural Network, GCNN),GCNN使用NN作為更新函數(shù),每層可以使用不同的更新函數(shù),有效提高更新程度.
相比眾多算法的輸入數(shù)據(jù)形式,GNN的分子圖形式能夠在一定程度上減少化學(xué)數(shù)據(jù)特征的丟失.Duvenaud等[57]開(kāi)發(fā)了一種基于GNN的神經(jīng)圖指紋,采取可微操作代替圓形指紋的離散操作,單層NN取代哈希結(jié)構(gòu),具有以下優(yōu)勢(shì):①在溶解度、藥物功效、有機(jī)光伏效率等性能中比固定指紋好;②僅編碼能區(qū)分相關(guān)特征的部分,使用數(shù)據(jù)量少;③每個(gè)特征都可以被相似但不相同的分子片段激活,可解釋性強(qiáng).Coley等[58]將預(yù)測(cè)反應(yīng)物的性質(zhì)看作基于圖的任務(wù),輸入反應(yīng)物分子的分子圖進(jìn)行訓(xùn)練,生成Weisfeiler-Lehman神經(jīng)網(wǎng)絡(luò)(Weisfeiler-Lehman Netwrok, WLN),分析反應(yīng)物圖并預(yù)測(cè)原子對(duì)更改每個(gè)新鍵序的可能性,準(zhǔn)確率超過(guò)85.6%,每個(gè)反應(yīng)耗時(shí)約100 ms.同時(shí)該課題組還選擇11位人類化學(xué)家與該模型進(jìn)行對(duì)比,發(fā)現(xiàn)該模型非常適合用于尋找新分子.Saebi等[59]將化學(xué)反應(yīng)表示為分子圖,用GNN和反應(yīng)化合物的化學(xué)性質(zhì)作為框架預(yù)測(cè)反應(yīng)性能.輸入結(jié)構(gòu)和空間特征獲得產(chǎn)量分?jǐn)?shù),取分?jǐn)?shù)的平均值來(lái)生成反應(yīng)產(chǎn)量預(yù)測(cè).驗(yàn)證Suzuki-Miyaura數(shù)據(jù)集得到的R2為0.962±0.010.
分子圖表示形式有兩個(gè)關(guān)鍵優(yōu)勢(shì)是旋轉(zhuǎn)不變性和平移不變性,在化學(xué)合成領(lǐng)域中可以加速計(jì)算模型的建立.化學(xué)中的計(jì)算模型旨在使用基于量子化學(xué)的計(jì)算來(lái)確定給定分子系統(tǒng)的性質(zhì)和行為[60].Roszak 等[61]開(kāi)發(fā)了一個(gè)基于GCNN的酸解離常數(shù)(pKa)預(yù)測(cè)器,實(shí)現(xiàn)了在毫秒級(jí)時(shí)間內(nèi)準(zhǔn)確預(yù)測(cè)C—H酸的pKa,對(duì)13 000個(gè)反應(yīng)的預(yù)測(cè)達(dá)到了90%以上的正確率.直接使用節(jié)點(diǎn)嵌入預(yù)測(cè)pKa所有原子的值進(jìn)而尋找分子中酸性最強(qiáng)的質(zhì)子.GCNN可以提供快速準(zhǔn)確的原子特異性特征預(yù)測(cè).該GCNN模型還在其他實(shí)例中展示出90%的預(yù)測(cè)反應(yīng)位點(diǎn)正確率,顯示出其在合成規(guī)劃中的潛在應(yīng)用.Wen等[62]設(shè)計(jì)了BondNet模型,用GNN預(yù)測(cè)鍵離解能,在自行構(gòu)造的中性和帶電荷分子的均溶、異溶鍵離解能數(shù)據(jù)集和PubChem的數(shù)據(jù)集上,MAE分別為0.022、0.020 eV,顯著低于化學(xué)精度 0.043 eV.Grambow等[63]開(kāi)發(fā)了一個(gè)基于GNN的模型來(lái)預(yù)測(cè)給定的反應(yīng)物活化能,并在一個(gè)新的、不同的氣相量子化學(xué)反應(yīng)數(shù)據(jù)集上訓(xùn)練該模型,結(jié)果表明該模型實(shí)現(xiàn)了準(zhǔn)確的預(yù)測(cè)并且符合對(duì)化學(xué)反應(yīng)性的直觀理解.
UL常用于特征處理,將高維特征進(jìn)行降維,如主成分分析法(Principal Component Analysis, PCA)[64]對(duì)初始特征線性組合生成新特征,將不相關(guān)的新特征按方差進(jìn)行遞減排序,減少特征數(shù)量從而加快ML模型建立.Zahrt等[64]采用PCA對(duì)數(shù)據(jù)進(jìn)行降維,對(duì)化合物的高維空間進(jìn)行降維,保留使數(shù)據(jù)方差最大化的新維度,選擇代表性子集進(jìn)行相關(guān)預(yù)測(cè)分析.
RL在逆合成設(shè)計(jì)中采取不確定性下的決策,不僅比傳統(tǒng)方法處理速度快,而且置信度更高.RL通常以馬爾可夫決策過(guò)程為框架[65],獎(jiǎng)勵(lì)函數(shù)為核心,獎(jiǎng)勵(lì)函數(shù)決定了主體通過(guò)動(dòng)作學(xué)習(xí)實(shí)現(xiàn)的目標(biāo).獎(jiǎng)勵(lì)函數(shù)可以是離散的也可以是連續(xù)的.Segler等[66]設(shè)計(jì)了一種將蒙特卡洛樹(shù)和NN相結(jié)合的逆合成分析方法,由計(jì)算機(jī)輔助合成設(shè)計(jì)程序(Computer-Aided Synthetic Planning, CASP)生成合成路線,使用蒙特卡洛樹(shù)和3個(gè)不同的NN進(jìn)行搜索.從目標(biāo)分子開(kāi)始,選擇樹(shù)中最有可能的下一個(gè)位置,直至到達(dá)葉節(jié)點(diǎn).通過(guò)擴(kuò)展策略預(yù)測(cè)可能出現(xiàn)的葉節(jié)點(diǎn)的子節(jié)點(diǎn),并將其添加在樹(shù)中,對(duì)推出過(guò)程進(jìn)行評(píng)估.結(jié)果的位置值表示RL更新其樹(shù)搜索策略所需要的獎(jiǎng)勵(lì),找到解決方案會(huì)收到獎(jiǎng)勵(lì),找到部分解決方案會(huì)收到部分獎(jiǎng)勵(lì),未找到方案則會(huì)收到懲罰.不斷迭代更新直到達(dá)到最大的時(shí)間或迭代次數(shù),通過(guò)選擇具有最高位置值的斷開(kāi)路徑來(lái)決定最終的合成路線,具體搜索過(guò)程如圖7所示,包括選擇最可能的位置、使用擴(kuò)展程序?qū)?jié)點(diǎn)進(jìn)行擴(kuò)展、選擇評(píng)估新節(jié)點(diǎn)和更新4個(gè)階段,其中T1~Tn為所有可能的概率分布,R1~Rk表示完整的反應(yīng)物.
圖7 蒙特卡洛樹(shù)搜索的4個(gè)階段[66]
數(shù)據(jù)集質(zhì)量直接決定了ML模型訓(xùn)練的成敗,構(gòu)建大型數(shù)據(jù)集是一個(gè)耗時(shí)且費(fèi)力的過(guò)程,因此這些數(shù)據(jù)集的共享訪問(wèn)對(duì)整個(gè)化學(xué)界都很重要.尋找化學(xué)數(shù)據(jù)之間客觀聯(lián)系的前提是擁有足夠量的數(shù)據(jù),但化學(xué)數(shù)據(jù)并非像圖像數(shù)據(jù)一樣簡(jiǎn)單易得且具有良好的通用性.數(shù)據(jù)量不足很容易導(dǎo)致ML訓(xùn)練失敗,無(wú)法產(chǎn)生所需結(jié)果.在化學(xué)合成領(lǐng)域中底物和催化劑的微小改變都會(huì)導(dǎo)致合成產(chǎn)物的不同,因此有效數(shù)據(jù)少之又少.當(dāng)前開(kāi)源化學(xué)數(shù)據(jù)集涵蓋的化學(xué)類型不多、配體種類并不全面,如廣泛應(yīng)用于圖像處理領(lǐng)域的ImageNet數(shù)據(jù)庫(kù)[67]和涵蓋諸多量子化學(xué)、物理化學(xué)信息數(shù)據(jù)的MoleculeNet數(shù)據(jù)庫(kù)[68],以及收集了大量小分子化合物量化信息的GDB-17[69]及其子庫(kù)QM8、QM9等,在模型訓(xùn)練方面均具有顯著的成效.獲得大量高質(zhì)量數(shù)據(jù),建立完備數(shù)據(jù)集才有可能最大限度地發(fā)揮ML在化學(xué)領(lǐng)域的潛力.特別是DeepChem、SchNetPack[70]等軟件的發(fā)展,解決高質(zhì)量數(shù)據(jù)的問(wèn)題與計(jì)算化學(xué)軟件包的發(fā)展息息相關(guān).
如今,ML對(duì)反應(yīng)優(yōu)化、分子合成、機(jī)理探索等方面有著不容小覷的影響.但掌握影響ML結(jié)果的因素依舊很困難.在進(jìn)行ML研究時(shí),必須考慮3個(gè)關(guān)鍵因素[71]:數(shù)據(jù)、表示和算法.建立一套客觀評(píng)價(jià)ML的標(biāo)準(zhǔn)是必要的.通過(guò)至少一組指標(biāo)來(lái)評(píng)估模型,能夠進(jìn)一步促進(jìn)ML在化學(xué)合成領(lǐng)域的發(fā)展,縮小ML在化學(xué)合成及表征領(lǐng)域的溝通代溝.例如,文獻(xiàn)[72]中給出了較為可行的方法來(lái)比較不同工具對(duì)高質(zhì)量化學(xué)數(shù)據(jù)的準(zhǔn)確性.模型評(píng)估標(biāo)準(zhǔn)越統(tǒng)一,模型可解釋性越強(qiáng),更有利于業(yè)內(nèi)外人士進(jìn)行交流.
長(zhǎng)期以來(lái),ML模型復(fù)雜度已從線性上升到ANN.ML在化學(xué)合成領(lǐng)域應(yīng)用更廣泛是因?yàn)榭梢越柚咄繉?shí)驗(yàn)或模擬研究等方式獲得大量數(shù)據(jù),輔助化學(xué)家進(jìn)行產(chǎn)物、產(chǎn)率的預(yù)測(cè),減少人力、物力的投入.然而,ML在化學(xué)合成中的應(yīng)用仍然有限.雖然當(dāng)前NN算法可以無(wú)限逼近非線性模型,但需要大量訓(xùn)練數(shù)據(jù)作為支撐,并且它能處理的數(shù)據(jù)空間有限,無(wú)法在廣闊的化學(xué)空間中做到處處預(yù)測(cè)精準(zhǔn).一種模型有時(shí)只能針對(duì)一種特定的化學(xué)反應(yīng),在一些實(shí)際應(yīng)用中并不能尋找到最佳決策.因此,增強(qiáng)ML模型在化學(xué)合成領(lǐng)域的通用性是當(dāng)務(wù)之急.ML自身的可解釋性不強(qiáng)導(dǎo)致研究者需要基于化學(xué)知識(shí)對(duì)模型輸出結(jié)果進(jìn)行解釋,但有時(shí)仍會(huì)出現(xiàn)不具有物理意義的結(jié)果.增強(qiáng)模型的可解釋性既可以幫助研究者更好理解模型的輸出和實(shí)際意義,也能幫助研究者更快掌握模型相關(guān)信息.
在化學(xué)合成領(lǐng)域中,ML特別是SL一直使用黑盒方法,但黑盒方法在可解釋性、通用性、可靠性方面存在缺陷.這些缺陷很有可能會(huì)限制ML的應(yīng)用,有時(shí)甚至產(chǎn)生錯(cuò)誤的預(yù)測(cè)結(jié)果.ML與化學(xué)實(shí)驗(yàn)相結(jié)合有望生成具有更好可解釋性、更高預(yù)測(cè)精度、更強(qiáng)通用性的模型.經(jīng)過(guò)化學(xué)實(shí)驗(yàn)驗(yàn)證能夠及時(shí)修改訓(xùn)練模型中的參數(shù)設(shè)置,以期達(dá)到最佳預(yù)測(cè)結(jié)果.
欲使ML方法預(yù)測(cè)的準(zhǔn)確性得到進(jìn)一步提高,分子描述符轉(zhuǎn)換時(shí)要盡可能減少有效特征損失.描述符對(duì)ML的重要性不言而喻,目前建立描述符的方式共有4種:① 使用已有的SMILES字符串、分子指紋、分子圖等;② 借助Python工具包生成描述符,RDkit是常用的工具包,包含分子指紋及其相關(guān)性的計(jì)算、分子三維表示等模塊;③ 使用Gaussian等量子化學(xué)軟件進(jìn)行DFT計(jì)算,計(jì)算分子物理化學(xué)性質(zhì),將物理化學(xué)性質(zhì)進(jìn)行組合生成描述符;④ 根據(jù)反應(yīng)特點(diǎn),自行建立描述符. 現(xiàn)在已有的描述符生成方式均基于化學(xué)知識(shí)生成,如Zahrt等[64]提出一種平均空間占有率的描述符,分析不同催化劑在空間中的分布,有利于后續(xù)催化劑篩選.有效的描述符能夠在數(shù)據(jù)集較小的情況下獲得相對(duì)較好的預(yù)測(cè)結(jié)果.未來(lái),研究者可以改進(jìn)用于獲得描述符的計(jì)算方法,采取半經(jīng)驗(yàn)方法快捷、高效地生成高質(zhì)量描述符;或許還可以將化學(xué)知識(shí)與ML相結(jié)合以及將基于化學(xué)知識(shí)的模型和數(shù)據(jù)驅(qū)動(dòng)模型相結(jié)合生成描述符.
在ML領(lǐng)域,一個(gè)基本的定理為“沒(méi)有免費(fèi)的午餐”.換言之,沒(méi)有一種算法可以完美地解決所有問(wèn)題,尤其是對(duì)于SL的算法而言,如NN算法不是在任何情況下都比RF算法有優(yōu)勢(shì),反之亦然.數(shù)據(jù)集的形式或規(guī)模都會(huì)對(duì)算法產(chǎn)生影響,因此,科研工作者應(yīng)當(dāng)根據(jù)實(shí)際需求選擇合適的算法,即選擇正確的ML任務(wù).不同ML算法的使用范圍和應(yīng)用示例如表2所示.未來(lái),期望ML算法能夠增強(qiáng)其通用性和可解釋性.
表2 ML在化學(xué)合成及表征領(lǐng)域的應(yīng)用
ML強(qiáng)大的數(shù)據(jù)處理能力為人們提供了一條更好理解分子性質(zhì)、結(jié)構(gòu)的新途徑,在化學(xué)領(lǐng)域中得到了廣泛應(yīng)用.在不久的將來(lái), ML算法的快速發(fā)展無(wú)疑將擴(kuò)大可用于解決典型化學(xué)任務(wù)數(shù)據(jù)處理方法的儲(chǔ)備.目前在化學(xué)合成及表征領(lǐng)域,并不存在通用性好、可解釋性強(qiáng)、精度高的模型.無(wú)論ML模型效果多么優(yōu)異,它只能提供相關(guān)性,并沒(méi)有因果關(guān)系.為解決上述問(wèn)題,每個(gè)ML模型特別是需要借此得出結(jié)論的,均需要相關(guān)化學(xué)知識(shí)進(jìn)行嚴(yán)格驗(yàn)證,確保模型沒(méi)有出現(xiàn)過(guò)擬合等不良現(xiàn)象.如今,ML在化學(xué)合成及表征領(lǐng)域應(yīng)用廣泛,但如何增強(qiáng)模型通用性、建立模型評(píng)估標(biāo)準(zhǔn)、完備開(kāi)源數(shù)據(jù)集、將ML與實(shí)驗(yàn)相結(jié)合以及尋找更好的描述符仍是ML在化學(xué)合成及表征領(lǐng)域未來(lái)發(fā)展的重大挑戰(zhàn).未來(lái),ML在化學(xué)研究中的應(yīng)用會(huì)持續(xù)增加,化學(xué)工作者有必要了解相關(guān)模型背后的理論框架,找到ML和化學(xué)知識(shí)之間的交叉融合點(diǎn).相信在不久的未來(lái),以ML為代表的AI技術(shù)的引入和貫通應(yīng)用將對(duì)化學(xué)合成及表征領(lǐng)域的發(fā)展做出不可磨滅的貢獻(xiàn).