田璐瑤,王梓豪,粟楊,文華強,申威峰
(重慶大學化學化工學院,化工過程強化與反應國家地方聯(lián)合工程實驗室,重慶401331)
準確可靠的定量構效關系模型是計算機輔助溶劑分子設計的重要基礎,被廣泛應用于溶劑篩選、性質(zhì)預測、過程模擬、風險評估等化工產(chǎn)品與過程開發(fā)及設計工作中,降低了實驗所需的人力和物力,加速了新型綠色溶劑設計的開發(fā)進程[1?2]。經(jīng)典的定量構效關系建模主要包含兩部分工作:分子結構的定量描述和目標性質(zhì)的數(shù)學關聯(lián)。但是,設計一種精巧的分子結構描述模型需要由具有豐富知識與經(jīng)驗的專業(yè)人員完成;同時,性質(zhì)與分子結構數(shù)值化特征的數(shù)學關聯(lián)需由人工的統(tǒng)計學分析完成[3]。近幾十年來,隨著化合物種類的指數(shù)型增長,發(fā)現(xiàn)將新的候選化合物作為潛在的綠色溶劑具有重要的研究價值[4]。但是,經(jīng)典的定量構效關系模型難以滿足溶劑分子大范圍評估與篩選的需求。因此,實現(xiàn)自動化的定量構效關系建模,并開發(fā)智能化且描述能力更強的構效關系建模方法具有重要意義[5]。
隨著計算科學與人工智能技術的快速發(fā)展,借助高性能計算平臺和深度學習技術可以實現(xiàn)多維度的大數(shù)據(jù)分析和關鍵特征的自動提取,這使得深度學習技術在計算機視覺和自然語言處理領域得到了廣泛應用。受此啟發(fā),化學研究者們近期提出了基于深度學習技術描述分子結構的圖像、拓撲和文本的方法,并成功應用于化合物的基礎物性、環(huán)境、健康和安全等重要性質(zhì)的預測[6?8]。相對于經(jīng)典的性質(zhì)預測模型而言,基于深度學習技術的定量構效關系模型可實現(xiàn)分子結構特征的自動提取以及分子描述符和性質(zhì)的關聯(lián),并且具備了更強的非線性關聯(lián)能力。因此,深度學習模型可以描述更加廣闊的化學空間和更復雜的函數(shù)關系,使得采用計算機在較大的潛在化學空間中自動化地篩選候選溶劑成為了可能,從而實現(xiàn)智能化的溶劑設計[9?11]。并且,該模型可以為復雜體系特殊精餾過程涉及的功能性溶劑(如萃取劑、共沸劑等)提供高效便捷的智能化設計工具,降低特殊精餾過程的潛在環(huán)境、健康與安全風險[12?13]。
定量構效關系模型的構建基于化合物性質(zhì)與分子結構間存在的強相關性。其建模策略是將分子結構特征數(shù)值化并與目標性質(zhì)進行數(shù)學關聯(lián),實現(xiàn)定量構效關系的建模[14],解決化合物性質(zhì)值缺失或?qū)嶒灉y量難以實現(xiàn)等難題,實現(xiàn)化合物性質(zhì)的較高精度預測并加速新型化學品的開發(fā)進程[15?17]。
在構效關系建模過程中,首先需選取分子結構特征的描述及編碼模型,將分子結構信息(如元素類型、原子空間位置、電荷分布、官能團等)具象化為定量的數(shù)值型描述符[18]。經(jīng)典的定量構效關系建模常用的分子結構特征描述及編碼方法有基團貢獻法、拓撲指數(shù)法、簽名描述符等[10]。
1.1.1 基團貢獻法 在基團貢獻法中,基團是由原子與化學鍵構成的子結構片段,且分子結構被視為基團的組合,如圖1 所示。該方法假設每種基團對目標性質(zhì)具有確定的貢獻值,分子的性質(zhì)值則可以通過各基團的貢獻值與其出現(xiàn)頻次乘積的加和得到[19],其函數(shù)表達如式(1)所示。
圖1 基團貢獻法表示的乙醇分子Fig.1 Ethanol molecule represented using the group contribution method
式中,P 是目標性質(zhì)值;cg是基團g 的貢獻值;ng是基團g 在分子中出現(xiàn)的頻次;f 函數(shù)為(非)線性轉(zhuǎn)換。
基團貢獻法因具有模型簡單、計算快速等優(yōu)點得到了廣泛的應用。例如,Gmehling 等[20]提出的UNIFAC 基團貢獻法可以用于各種有機物體系的相平衡計算;Joback 等[21]提出的基團貢獻法用于預測有機物臨界性質(zhì),并被廣泛應用于過程設計;Frutiger 等[22]提出了一種新的基團貢獻法用于預測有機物的燃燒熱,呈現(xiàn)較高的預測精度與應用便捷性。并且,基團貢獻法可構建用于分子設計的線性規(guī)劃模型[23?24]。盡管基團貢獻法是應用較為廣泛的分子結構表達方法,但其未考慮各基團的排列順序和連接方式,因此在識別與區(qū)分異構體時存在一定的局限性[23]。值得注意的是,Gani 等[25]提出的多層次基團貢獻法具備一定的異構體分辨能力,擴展了基團貢獻法的應用范圍。
1.1.2 拓撲指數(shù)法 分子圖是分子結構的拓撲表達,其頂點和邊分別對應分子結構中的原子和化學鍵[26]?;趫D論的理論,通過計算分子拓撲指數(shù)可以描述原子的頂點度、連通性、原子類型等分子圖屬性[27]。例如,Wiener 指數(shù)[28]作為最經(jīng)典且研究最早的拓撲指數(shù)之一,描述了圖中所有原子之間的總距離。Randic[29]提出分子連通性指數(shù)用于量化烷烴分子結構的分支程度,并基于此構建了烷烴類化合物的熔化焓和蒸氣壓預測模型。此外,Gani 等[25]使用連通性指數(shù)預測新基團的貢獻值,改善了基團貢獻法的適用范圍。
該方法計算較為簡便,對分子骨架有較強的描述能力。但是,拓撲指數(shù)所描述的分子圖屬性是基于二維空間的分子結構的近似表達,頂點之間的距離并非三維空間中原子之間的真實距離,且拓撲指數(shù)未考慮圖中的化學信息,因此,拓撲指數(shù)在區(qū)分類似的分子結構時存在一定的局限性[30?31]。
1.1.3 簽名描述符法 簽名描述符既可以表示為類似基團貢獻法的子結構形式,也可以轉(zhuǎn)換為描述整個分子結構的拓撲指數(shù)形式[32]。從指定的某原子出發(fā),遍歷一定高度內(nèi)的所有原子產(chǎn)生有向非環(huán)圖得到原子簽名[3]。因此,一個分子的性質(zhì)P,可以由某一固定高度下基于每個原子得到的原子簽名進行關聯(lián),如式(2)所示。
式中,d 是當前原子簽名描述符集合的起點原子;Di是高度為i的簽名描述符集合;cd為回歸系數(shù);iαG(d)表示原子描述符d出現(xiàn)的次數(shù)[26]。
Weis 等[33]將簽名描述符成功應用于溶劑篩選,并從環(huán)境、健康與安全角度進行溶劑分子的設計。Chen 等[34]使用簽名描述符實現(xiàn)藥物分子的高通量篩選,并應用于新型藥物的研發(fā)。簽名描述符不僅可以記錄各原子的化學信息,而且可以捕獲分子中各原子間連接信息的全貌,因此具有良好的異構體鑒別能力。
在分子結構信息得到量化之后,需要運用建模方法將其與目標性質(zhì)進行關聯(lián),從而實現(xiàn)性質(zhì)預測模型的構建[10]。用于性質(zhì)關聯(lián)的數(shù)學工具主要有多元(非)線性回歸、人工神經(jīng)網(wǎng)絡、支持向量機等。其中,人工神經(jīng)網(wǎng)絡和支持向量機是較為流行的機器學習算法,在處理高維分子特征與復雜非線性關系時更為有效[18]。本節(jié)將介紹這幾種最常見的經(jīng)典定量構效關系建模方法。
1.2.1 多元線性回歸 多元線性回歸基于多個獨立變量擬合目標值并建立線性回歸模型[35],具有結構簡單和計算快速等優(yōu)點。多元線性回歸方程的廣義數(shù)學表達如式(3)所示。
式中,Y 是因變量,即構效關系模型的目標性質(zhì)值的期望值;X1,X2,…,Xn是自變量,即構效關系模型中使用的分子描述符;a1,a2,…,an是各自變量的回歸系數(shù);a0是常數(shù)項。該模型可以通過核函數(shù),轉(zhuǎn)換為非線性模型。
該模型常應用于基于基團貢獻法的定量構效關系建模。Pan 等[36]采用結合遺傳算法的多元線性回歸構建模型預測有機化合物的燃燒極限,結果表明所得多元線性模型足以對大多數(shù)有機化合物快速地做出較為準確的預測。通過多元線性回歸所建立的模型,在分析多因素的影響時表現(xiàn)更便捷且更具可解釋性[24,37?38],也便于進行模型的不確定性分析。然而,在實際應用中,此方法的性能對于分子描述符的選擇較為敏感,并且由于模型結構的限制難以擬合復雜的非線性關系,在大規(guī)模的數(shù)據(jù)集上無法取得很好的精度[39]。
1.2.2 人工神經(jīng)網(wǎng)絡 人工神經(jīng)網(wǎng)絡是一種模擬人類大腦及神經(jīng)系統(tǒng)工作的機器學習方法。在由神經(jīng)元組成的多層計算網(wǎng)絡中,變量由輸入層傳入,再通過隱藏層的轉(zhuǎn)換后,最終在輸出層得到計算結果。在神經(jīng)網(wǎng)絡的訓練過程中,常利用反向傳播算法對人工神經(jīng)網(wǎng)絡模型中神經(jīng)元的權值和偏差進行更新,以建立一個能夠更好地描述輸入變量與目標值之間關系的模型[40?42]。為使模型具備更強的擬合能力,通過在人工神經(jīng)網(wǎng)絡的隱藏層之間引入激活函數(shù)以提高模型的復雜性。與多元線性回歸不同的是,人工神經(jīng)網(wǎng)絡可以用于處理復雜任務中的非線性數(shù)學建模,以針對分子結構和相關的理化性質(zhì)建立數(shù)學模型。圖2展示了基于人工神經(jīng)網(wǎng)絡預測化合物性質(zhì)值的實現(xiàn)途徑。
圖2 基于人工神經(jīng)網(wǎng)絡的化合物性質(zhì)預測Fig.2 Property prediction of compounds using the artificial neural network
人工神經(jīng)網(wǎng)絡具有較強的學習和自適應能力,在捕獲數(shù)據(jù)過程中處理非線性關系時也是非常有效的[43?44],因此人工神經(jīng)網(wǎng)絡可以實現(xiàn)分子結構和相關的性質(zhì)之間復雜的非線性建模。例如,Eslamimanesh 等[45?46]使用人工神經(jīng)網(wǎng)絡估算了常見的24 種離子液體和21 種常用固態(tài)化合物在超臨界二氧化碳中的溶解度,預測值與實驗值的平均絕對偏差表明該模型具有良好的預測效果。
1.2.3 支持向量機 支持向量機是一種可以用于實現(xiàn)分類、回歸與離群值檢測的機器學習方法。對于性質(zhì)預測常涉及的回歸問題,支持向量機基于樣本的特征空間構造超平面,使數(shù)據(jù)點盡可能接近超平面,以獲取預測性能更好的模型[47]。同時,核函數(shù)的引入使得支持向量機算法可以執(zhí)行更為復雜的非線性任務,通過對比不同核函數(shù)在特定任務下表現(xiàn)的性能,從中選擇合適的核函數(shù)可以有效地提高模型的預測性能。
支持向量機的建模過程可以視為凸優(yōu)化問題,借助優(yōu)化算法可得到目標函數(shù)的全局最優(yōu)解,以此獲取全局最優(yōu)模型。在大多數(shù)情況下,基于支持向量機算法的預測模型通常會優(yōu)于基于人工神經(jīng)網(wǎng)絡的預測模型,被應用于理化性質(zhì)預測建模的構建[47]。例如,Pan 等[48]基于支持向量機擬合了官能團與閃點之間可能存在的定量關系,對數(shù)據(jù)集采用交叉驗證的方法得到支持向量機的最優(yōu)參數(shù)。使用最終優(yōu)化得到的支持向量機模型進行模擬,結果表明,預測的閃點值與實驗數(shù)據(jù)吻合較好。He 等[49]提出了基于支持向量機的有機過氧化物自加速分解溫度預測模型,通過對比多元線性回歸和支持向量機預測模型對訓練集和測試集的平均絕對誤差,驗證得到后者的預測性能明顯優(yōu)于前者。
隨著人工智能技術和計算機運算能力的迅速發(fā)展,深度學習技術在計算機視覺和自然語言處理等領域取得突破性進展與成功應用,成為了當下的研究熱點[50]。深度學習隸屬于機器學習領域,但深度學習區(qū)別于經(jīng)典機器學習的最明顯特征是深度學習不包含顯式的特征工程。圖3展示了經(jīng)典的機器學習技術與深度學習技術在化合物性質(zhì)預測建模中的區(qū)別。
圖3 經(jīng)典機器學習與深度學習在預測建模中的區(qū)別Fig.3 Difference between classic machine learning methods and deep learning techniques in predictive modeling
在已有的深度學習定量構效關系建模研究中,其中一類研究是使用深度學習替代人工的統(tǒng)計學分析以提高計算效率,采用大量的分子描述符(數(shù)千種或數(shù)萬種描述符)表征分子結構信息,并基于深度學習來關聯(lián)目標性質(zhì)或?qū)衔镞M行分類[51?52]。另一類研究使用深度學習直接對以圖或文字形式表示的分子結構進行學習,并基于矢量化的分子信息關聯(lián)目標性質(zhì)。研究者基于不同的深度學習方法構建了多種構效關系模型,如表1所示。
表1 基于深度學習的定量構效關系研究Table 1 Studies of deep learning based quantitative structure-property relationship
深度信念網(wǎng)絡中的受限玻爾茲曼機可基于輸入矢量以無監(jiān)督學習的方式生成特征向量,并在監(jiān)督學習下實現(xiàn)目標特性的關聯(lián)。遞歸神經(jīng)網(wǎng)絡則是通過遍歷分子結構的無向圖,自動提取用于表征分子結構的特征實現(xiàn)目標特性的關聯(lián),可以避免依賴于化學知識的人工特征提取過程。卷積神經(jīng)網(wǎng)絡可直接處理二維的分子結構圖片并提取特征,與基于分子圖的遞歸神經(jīng)網(wǎng)絡類似,兩者均不依賴于數(shù)值化的分子描述符或分子指紋。上述的深度學習方法均要依賴于大量的樣本數(shù)據(jù)減輕模型訓練的過擬合問題以提高模型泛化能力。相較于此,長短期記憶?卷積神經(jīng)網(wǎng)絡可在有限的數(shù)據(jù)上呈現(xiàn)較強的模型泛化能力,同樣地,該神經(jīng)網(wǎng)絡框架也是通過對二維的分子結構圖片進行處理并提取特征,實現(xiàn)目標特性的關聯(lián)。
盡管深度學習技術在分子結構的精準識別上呈現(xiàn)了較大的潛力,但是由于深度神經(jīng)網(wǎng)絡結構復雜,預測模型的構建及應用過程中均會消耗大量的計算資源,因此基于深度學習的預測模型構建對計算機硬件性能和運算加速平臺均有較高的要求。
在溶劑設計中評估候選化合物的溶解能力、循環(huán)利用價值,需要溶劑的熱力學性質(zhì),涉及臨界性質(zhì)、熔沸點及相平衡計算等。在以往的構效關系研究中,這類性質(zhì)通常由基團貢獻法預測,但是,基團貢獻法具有忽略基團間連接方式、異構體識別能力有限等局限性[57?59]。Su 等[6]開發(fā)了一種基于非環(huán)有向圖的分子結構編碼算法,通過嵌入算法和樹形長短期記憶網(wǎng)絡對分子結構進行矢量化,并基于此提出了用于構建基礎物性預測模型的新型深度學習框架,如圖4 所示。此深度學習框架耦合了用于映射分子樹形結構和輸出特征向量的樹形神經(jīng)網(wǎng)絡,以及實現(xiàn)化合物結構與性質(zhì)關聯(lián)的前饋神經(jīng)網(wǎng)絡。
Lim 等[60]提出了一種新穎的計算有機溶劑中溶劑化自由能的深度學習模型Delfos,可預測各種有機溶質(zhì)和溶劑系統(tǒng)的溶劑化自由能。該模型的特別之處在于運用兩個單獨的溶劑和溶質(zhì)編碼器網(wǎng)絡,使用詞嵌入和遞歸層來量化給定化合物的結構特征,并增加了從遞歸神經(jīng)網(wǎng)絡輸出中提取重要子結構的注意力機制。研究者對2495個溶質(zhì)?溶劑組合進行大量計算,同時也分析了各種分子子結構對溶劑化過程的影響,結果表明Delfos 模型擁有與最先進的計算化學方法相媲美的潛力。
這些研究表明了分子識別描述符與神經(jīng)網(wǎng)絡的耦合作用在表征分子拓撲結構和捕獲分子結構特征的優(yōu)越性,進一步驗證了基于深度學習和數(shù)據(jù)驅(qū)動建模的優(yōu)勢,并為符合特定使用場景的可持續(xù)過程設計及產(chǎn)品開發(fā)提供基礎數(shù)據(jù)及重要的理論支撐[61?63]。
圖4 基于深度學習的構效關系預測模型開發(fā)Fig.4 Development of predictive models for structure?property relationships based on the deep learning
由于環(huán)境影響在分子設計、化學合成與產(chǎn)品開發(fā)等領域中是必須考慮的因素[64?65]。其中,化學需氧量(COD)作為評價環(huán)境中水體污染物相對含量的重要指標,能較快測定有機物在工業(yè)廢水中的污染程度。但是,污水流量常處于不穩(wěn)定狀態(tài),這使得污水的COD 難以準確預測。因此,如何建立高精度的COD 預測模型是解決城市污水處理廠高能耗問題的關鍵。傳統(tǒng)的模型開發(fā)過程中分子特征選擇存在人為干預、拓撲特征或分子描述符過多等問題,限制了預測模型的廣泛應用。Wang 等[66]基于長短期記憶?卷積神經(jīng)網(wǎng)絡(LSTM?CNN)深度學習算法,提出了一種城市污水COD 動態(tài)預測模型,收集城市污水處理廠的實時數(shù)據(jù)并進行訓練。預測結果表明,與單獨的CNN 或LSTM 模型相比,LSTM?CNN 模型具有更高的預測精度和更好的預測性能。高精度的COD 含量預測模型為制定污水處理廠曝氣系統(tǒng)的先進控制策略提供了依據(jù)。
此外,環(huán)境性質(zhì)如辛醇水分配系數(shù),衡量了化學物質(zhì)在脂質(zhì)和水相之間的平衡與分布,可作為溶劑選擇的物化標準。Wang 等[67]運用Tree?LSTM(樹形長短期記憶)網(wǎng)絡捕獲分子中原子的連接性,并耦合簽名描述符實現(xiàn)分子特征的自動提取,進一步結合前饋神經(jīng)網(wǎng)絡用于構建化合物環(huán)境性質(zhì)的預測模型。研究者基于上萬種化合物的結構與辛醇水分配系數(shù),驗證所提出的深度學習方法在關聯(lián)大規(guī)模數(shù)據(jù)上的潛力,并實現(xiàn)了在無人為干預條件下分子特征的提取和構效關系的智能化建模。如圖5所示,所構建的預測模型呈現(xiàn)了較好的預測性能和外推能力,以及良好的模型應用域。盡管這一研究專注于預測辛醇水分配系數(shù)以度量有機化合物的親脂性,但所提出的深度學習方法可以進一步推廣到其他重要環(huán)境性質(zhì)如水溶性和生物富集因子的預測模型構建,并作為一種智能化的工具指導綠色溶劑的篩選與開發(fā)以及計算機輔助分子與過程設計[68]。
許多化學品的安全性質(zhì)是有機物在工業(yè)過程危險評估中必須考慮的因素。因此,通過構建模型來預測化學品安全性質(zhì)也是十分必要的[69?71]。例如,Mayr 等[72]構建了基于卷積神經(jīng)網(wǎng)絡的深度學習模型,通過處理和學習高信息量的化學特征,提高了對化學品毒性的預測能力,并進一步分析了各層神經(jīng)元與毒理基團在性質(zhì)預測時發(fā)揮的作用與聯(lián)系;Xu 等[73]開發(fā)了一種改進的分子圖編碼卷積神經(jīng)網(wǎng)絡架構,利用深度學習的特征自動學習能力,不僅實現(xiàn)了急性口服毒性(AOT)的高效預測,還反向挖掘出致使化學品具有高AOT 的相關分子子結構;Fernandez 等[74]使用二維卷積神經(jīng)網(wǎng)絡,直接從二維分子圖信息提取抽象的結構特征,驗證了深度學習技術在毒性預測中的高精確度。
圖5 基于深度學習的構效關系模型分析Fig.5 Analyses of the deep learning based predictive model of the structure?property relationship
此外,在化工產(chǎn)品開發(fā)及分離過程設計中,可燃性作為極為重要的安全性質(zhì)之一,主要涉及自燃溫度、閃點和易燃極限[42,48,75]。一些研究人員通過構效關系的關聯(lián)實現(xiàn)了可燃性的預測,但是此類模型都是基于人工篩選的分子特征描述符建立的,未能實現(xiàn)分子特征的自動提取與模型的智能化構建。并且,可燃性研究中單個模型通常僅適用于單個性質(zhì),無法同時為多種相關性質(zhì)展開預測。Wenzel等[8]基于深度學習技術構建了多任務學習神經(jīng)網(wǎng)絡,實現(xiàn)單個模型對多種可燃性質(zhì)的智能化預測,其工作原理如圖6所示。這一思路可以借助聯(lián)合訓練與交替訓練提取多種相關性質(zhì)之間的異同,并實現(xiàn)損失函數(shù)的快速收斂,構建的預測模型可以進行多種可燃性質(zhì)的同步預測,有效提高多任務學習的效率。
在萃取精餾工藝設計與開發(fā)過程中,在有限的設計空間內(nèi)首先選擇的是工藝中所需萃取溶劑分子[76]。最經(jīng)典的研究是從分子層面探究形成共沸的機理,研究者們應用熱力學理論初步篩選出候選萃取溶劑,并進一步采用相對揮發(fā)度、溶劑選擇性、無限稀釋活度系數(shù)、模糊決策等理論知識作為輔助手段來選擇最佳的萃取溶劑[12?13],通過減少萃取劑用量以期實現(xiàn)清潔生產(chǎn)與節(jié)能減排的目標。例如,Austin 等[77]使 用COSMO(conduct?like screening model)模型開展計算機輔助混合物的設計,該方法無須二元交互參數(shù),只依賴于分子體積和電荷密度分布來估計溶液性質(zhì),這使得基于量化計算的高精度分子信息可以耦合至混合物設計研究中。在確定工藝中所需溶劑后,可以進一步優(yōu)化工藝流程和操作條件。然而,這種連續(xù)的決策過程會限制分子設計空間,并忽視分子與工藝過程之間的內(nèi)在聯(lián)系,從而導致預測性能不佳。因此,在解決此類設計問題時無論是基于技術經(jīng)濟問題還是基于環(huán)境健康指標,分子設計中的性質(zhì)預測建模都需要考慮多項指標[5]。針對計算機輔助分子和過程設計研究所涉及的多目標優(yōu)化問題,Lee等[78]系統(tǒng)地比較了五種混合整數(shù)非線性規(guī)劃的多目標優(yōu)化算法,以評估它們在分子設計與分子及過程設計中的性能,此類研究為多目標分子設計問題提供了理論基礎,可有效提高計算機輔助分子和過程設計問題在多目標優(yōu)化中獲取帕累托前沿的效率。
圖6 多任務深度學習神經(jīng)網(wǎng)絡框架Fig.6 Framework of the multitask deep learning neural network
鑒于近年來科學研究領域的快速發(fā)展,深度學習技術在溶劑分子的設計與開發(fā)應用上展現(xiàn)出了良好的前景。前文所述的深度學習定量構效關系模型不僅可用于溶劑的基礎物性、環(huán)境性質(zhì)、安全性質(zhì)的預測,也可以為萃取精餾中溶劑分子的篩選與設計提供用于決策過程所需的相關性質(zhì)數(shù)據(jù)。在萃取精餾或共沸精餾過程中,無法完全避免使用在安全、健康和環(huán)境(SH&E)方面存在較高風險的溶劑[79]。因此,在溶劑分子設計的初始階段,通過開發(fā)基于深度學習的智能化的溶劑潛在SH&E風險評估模型,可以高效地獲取溶劑的風險評估結果,減少對實驗性質(zhì)數(shù)據(jù)的依賴,加速溶劑的篩選與開發(fā)進程[80?81]。例如由歐盟制定的CHEM21 溶劑篩選規(guī)則[82],根據(jù)溶劑的沸點、閃點及危害標簽對其潛在SH&E 風險進行評估,可為綠色溶劑篩選提供有價值且重要的依據(jù)。另外,基于深度學習的溶劑定量構效關系模型無法由準確的數(shù)學公式表達,故難以作為目標函數(shù)在常規(guī)的混合整數(shù)(非)線性規(guī)劃問題求解器中用確定性算法快速求解,但可以作為性質(zhì)約束的計算模型參與到常規(guī)分子設計模型的運算中[83]。進化算法隨機地產(chǎn)生分子結構,并通過類似自然界生物進化優(yōu)選的方式,實現(xiàn)目標函數(shù)的優(yōu)化,其不需要計算目標函數(shù)的梯度信息,且該算法具有全局優(yōu)化能力。因此,當采用深度學習模型作為分子設計問題的目標函數(shù)計算模型時,優(yōu)化算法適合選用進化算法[84]。此外,使用基于深度學習的構效關系模型作為約束條件,分子設計問題也可以使用確定性算法求解尋得全局最優(yōu)解,而實現(xiàn)此過程的關鍵在于如何高度近似建立的深度模型,以及如何規(guī)劃分子設計問題形成混合整數(shù)(非)線性規(guī)劃模型。Winter 等[85]提出了應用自動編碼器對分子結構進行獨立編碼,以統(tǒng)一的方式編碼化學圖結構,這樣就可以對整個化學空間進行預測。Gómez?Bombarelli 等[86]采用變分編碼器對分子結構實現(xiàn)了自動化編碼,并嘗試了其與遺傳算法結構生成特定的目標分子。但是,對于特殊精餾的溶劑設計問題,基于深度學習的定量構效關系模型尚無法完成相平衡計算,仍需耦合UNIFAC 等經(jīng)典模型進行分離性能的評價。此外,基于深度學習的分子結構的自動生成過程無法實現(xiàn)結構約束且生成的分子結構可能違反化學規(guī)律,需進一步引入額外的分子結構開展可行性驗證。
綜上所述,定量構效關系建模方法的研究不限于人工設計的分子結構描述方法和線性數(shù)學模型,已經(jīng)延伸至更智能化的分子結構特征提取和非線性建模?;谏疃葘W習技術,研究者們構建了溶劑分子基礎物性、環(huán)境性質(zhì)和安全性質(zhì)的預測模型,可進一步探究在較大的化學空間內(nèi)實現(xiàn)溶劑的虛擬高通量篩選,結合溶劑的功能特性和可持續(xù)性,并推動綠色溶劑開發(fā)與相關化工過程的設計。
目前,為了適應數(shù)據(jù)挖掘和智能化產(chǎn)品設計的需求,基于深度學習技術的建模過程仍存在亟需研究與探討的科學和技術問題。例如,將表示分子結構的線性字符串直接作為自然語言處理,導致分子結構本身具有的化學意義會有所缺失;分子結構的二維圖形或三維模型在深度學習框架中的旋轉(zhuǎn)與變換處理;深度學習模型與經(jīng)典模型在具體設計問題中的耦合等。因此,未來的研究將會集中于解決性質(zhì)預測模型中分子結構的空間拓撲關系以及模型預測精度問題,并在模型的應用階段應選取合適的優(yōu)化算法和求解策略以獲得多目標優(yōu)化問題的全局最優(yōu)解,以實現(xiàn)更可靠的分子設計。這些基于數(shù)據(jù)驅(qū)動的相關研究與應用將會有更廣的應用前景,以深度學習為代表的計算機科學和化學、化工的學科交叉研究將推動著化學產(chǎn)品開發(fā)與化工過程設計的快速發(fā)展,進一步拓展溶劑設計研究所處的化學空間,提高溶劑設計的智能化程度。