李瑜哲,吳高勝,艾 波,許保云,王世忠,宗 睿
(上?;ぱ芯吭河邢薰?,上海 200062)
隨著工業(yè)技術(shù)的飛速發(fā)展,各式各樣的化工產(chǎn)品深入到人們生產(chǎn)和生活中。目前,全世界大約有800多萬種化學品,且以每年1000多種的速度不斷增加,但是人們并非詳細了解世界上所有化學品的性質(zhì),甚至對于日常使用的約7萬種化學品,也尚未完全測得它們的物理化學性質(zhì)。這給化工設(shè)計,特別是過程計算帶來了不小的挑戰(zhàn)。
沸點是化工設(shè)計中常用的物性數(shù)據(jù)之一,其不僅能夠用來判斷化合物的存在相態(tài),而且能夠以此來計算臨界溫度、蒸發(fā)熱等重要性質(zhì),是化工計算中的重要參數(shù)。然而,人們并非掌握所有化合物的沸點數(shù)據(jù),這也促使了物性估算方法的發(fā)展。目前,對于沸點缺失的純物質(zhì),雖然已經(jīng)有如參數(shù)關(guān)聯(lián)法[1-2]、基團貢獻法[3-4]等方法可以進行估算,但往往無法做到對所有類別的化合物都有較好的估算能力,且準確度可能并不高。而對于二元或多元混合物,估算結(jié)果往往誤差較大,甚至錯誤判斷混合物的共沸情況,從而錯誤計算共沸溫度與組成,而這些參數(shù)在化工分離工藝設(shè)計中至關(guān)重要。另一方面,通過實驗獲取數(shù)據(jù),經(jīng)常面臨著周期長、成本高、工作量巨大的問題,對于某些劇毒、易揮發(fā)等化學品甚至難以進行實驗[5]。因此,快速、準確地獲取到沸點等關(guān)鍵數(shù)據(jù),在預測有機物性質(zhì)、指導分離過程、乃至加速人們對化學品的認識,都具有十分重要的意義。
定量結(jié)構(gòu)-性質(zhì)相關(guān)(Quantitative Structure-Property Relationship,QSPR)研究是一種尋求分子結(jié)構(gòu)與化合物性質(zhì)潛在關(guān)系的方法。在完成QSPR模型的建立后,計算時僅需要輸入分子的結(jié)構(gòu)信息,無需其他實驗參數(shù)即可預測相關(guān)新的、甚至未合成的化合物的性質(zhì)。因其彌補了實驗研究方法的不足,且預測準確度高,自1962年藥物化學家Hansch[6]首次提出以來,漸漸成為預測化合物性質(zhì)的重要工具,已經(jīng)被廣泛地應(yīng)用于有機物閃點[7-8]、燃點[9-10]、毒性[11-12]等各類性質(zhì)的預測中,為化學、環(huán)境及生命科學的研究提供了重要的理論依據(jù)。近年來,QSPR方法也在預測沸點、共沸物組成等方面得到實際應(yīng)用,表現(xiàn)了從分子層面指導分離過程的潛力。本文主要介紹QSPR的計算原理及國內(nèi)有機物沸點預測模型的研究進展。
QSPR的根本在于假設(shè)化合物的性質(zhì)與分子結(jié)構(gòu)密切相關(guān),且性質(zhì)可以通過分子結(jié)構(gòu)的各種參數(shù)來定量描述[13],從而根據(jù)定量化的分子結(jié)構(gòu)計算得到化合物的性質(zhì)。QSPR研究結(jié)合了計算化學與統(tǒng)計學的方法,簡單來說,其對通過分子結(jié)構(gòu)計算得到的分子描述符,建立化合物性質(zhì)與對應(yīng)參數(shù)之間的數(shù)學定量關(guān)系,完成建模后,輸入待預測分子的結(jié)構(gòu)參數(shù),即可通過模型得到對應(yīng)的性質(zhì)。
QSPR的基本研究步驟,即實現(xiàn)方法包括:樣本的構(gòu)建,分子描述符的選擇與計算,模型的建立、與評價。在上述方法中,找到合適的分子描述方法與選擇合理的模型建立方法是QSPR的核心。近年來,隨著計算機與機器學習算法的發(fā)展,其也越來越多地應(yīng)用到QSPR模型的建立過程中[14]。
我國采用QSPR方法研究、預測有機物沸點開始于20世紀90年代。最初,科研人員采用圖論、拓撲指數(shù)等方法簡單描述分子的結(jié)構(gòu),之后隨著計算化學的發(fā)展,模型中逐步包括了描述支化程度、分子振動、基團貢獻度等詳細描述某樣分子特性的參數(shù),但選取何種參數(shù)構(gòu)建沸點模型完全取決于科研人員,建立模型也多采用線性回歸。隨著計算機技術(shù)的發(fā)展與普及,科研人員逐漸采用計算機軟件計算分子描述符,再結(jié)合統(tǒng)計學方法根據(jù)相關(guān)度原則進行篩選,最后使用線性或非線性等多種方法構(gòu)建模型。本節(jié)詳細介紹了烴類、芳香族、含氧脂肪族和鹵代烴4種化合物的沸點預測模型研究進展。
烴類化合物的分子大小、形狀和支鏈情況都會影響其沸點,我國學者對正烯烴、支鏈烷烴、炔烴、雙烯烴、環(huán)烯烴、烯烴順反異構(gòu)等化合物均開展了研究。
1994年,王克強[15]根據(jù)國外對飽和烴類的相關(guān)研究,首次提出了采用QSPR計算正烯烴沸點的方法。其借助圖論對分子結(jié)構(gòu)進行數(shù)值化表征,使用一、二、三級結(jié)構(gòu)信息定量描述分子的大小、形狀與鍵型,使用非線性函數(shù)擬合得到沸點計算模型,并對39種正烯烴的沸點進行了預測,結(jié)果表明計算值與實驗值的平均誤差為0.054%,最大誤差為0.26%,模型很好地描述了正烯烴的沸點,但是該模型還不具備預測同分異構(gòu)體的能力。
隨后,張玉林等[16]首次引入分子支化度概念,采用碳原子數(shù)和Wiener拓撲指數(shù)描述分子結(jié)構(gòu),使模型具備區(qū)分同分異構(gòu)體的能力,其對支鏈烷烴提出了新的沸點計算公式:
式中:W0、P0、W、P分別表示碳原子數(shù)相同的直鏈烷烴及支鏈烷烴的Wiener指數(shù),A、B、y為常數(shù),N為碳原子數(shù),Tb為沸點。作者采用最小二乘法對74個支鏈烷烴沸點數(shù)據(jù)進行擬合,模型的平均相對誤差為1.101%。
林治華等[17]采用分子距離邊數(shù)矢量(MDE)和多元線性回歸(MLR)技術(shù)建立了包括烷、烯、炔、雙烯、烯炔烴的沸點模型,5次隨機從153個樣本中抽取102個作為訓練集,剩下的作為測試集,預測結(jié)果平均相關(guān)系數(shù)為0.9973,153次交互檢驗的平均相關(guān)系數(shù)為0.9971,表明模型有較強的穩(wěn)定性與預測性。
仇明華等[18]結(jié)合分子動力學方法,對單烯烴分子中每個“CHn”基團建立了振動方程,并使用有限元分析方法得到固有頻率這一結(jié)構(gòu)特征向量,使用多元回歸方法對150個單烯烴分子進行了計算,優(yōu)化后模型的相關(guān)系數(shù)為0.9965,同時作者將模型拓展至環(huán)烯烴沸點的預測,但是最后的模型對待預測的烴類仍有結(jié)構(gòu)限制,無法將一個模型拓展至所有烴類。
楊慧等[19]提出了一種可以適用于所有烴類的模型建立方法。其使用CODESSA軟件計算出烴類分子的296種分子描述符,使用了啟發(fā)式回歸(HM)與最佳多元線性回歸(B-MLR)兩種方法篩選合適的描述符并建立了模型,同時將最佳多元線性回歸選出的描述符采用支持向量機(SVM)算法建立了非線性模型,HM、B-MLR與SVM模型對測試集的相關(guān)系數(shù)分別為0.9779、0.9821與0.9938,平均絕對誤差百分率為11.6%、7.83%與4.46%,相比SVM模型預測更準確,誤差更小。
此外,劉新華[20]使用分子結(jié)構(gòu)矩陣,對烯烴順反異構(gòu)體的沸點進行了成功的預測。
含氧脂肪族化合物的沸點不僅與分子大小和形狀有關(guān),還應(yīng)考慮氧原子及含氧基團的影響,我國對脂肪酮、脂肪醚、脂肪醇、脂肪酸等化合物均有研究。
王克強采用圖論的方法,首先提出了以分子結(jié)構(gòu)為基礎(chǔ)的脂肪酮〗[21]和脂肪醚[22]沸點模型。二者與烴類相比增加了氧原子,因此在計算分子大小和形狀的基礎(chǔ)上,還量化了羰基對脂肪酮、氧原子對脂肪醚的影響程度。作者對49種脂肪酮進行了非線性擬合,得到模型的平均相對誤差為0.43%,最大相對誤差為1.35%;對36種脂肪醚進行了非線性擬合,得到的模型平均相對誤差為0.66%。
林治華[23]采用分子距離邊數(shù)矢量和多元線性回歸技術(shù)建立了脂肪醇的沸點模型,在分子距離邊數(shù)矢量中額外引入羥基標識以計算羥基對沸點的影響,該模型共含有14個描述符,對124種脂肪醇的擬合結(jié)果表明,模型的相關(guān)系數(shù)為0.9946,同時,模型成功預測了25種脂肪醇的沸點,相關(guān)系數(shù)為0.9937。
張運陶[24]使用HyperChem7.0軟件計算了與脂肪醇沸點相關(guān)的10種描述符,并采用逐步回歸分析篩選出8個,在此基礎(chǔ)上使用支持向量機、多元線性回歸和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)算法分別建立模型,之后以119種脂肪醇為樣本,使用留一法交叉驗證得到三種模型的相關(guān)系數(shù)分別為0.993、0.988、0.987,標準偏差分別為4.774、6.501、6.724,表明支持向量機模型具有更好的預測性能。
劉萬強[25]分別通過對六類含氧脂肪化合物醇、醚、醛、酮、酸和酯的QSPR沸點模型的研究,提出了一個六類含氧脂肪化合物的統(tǒng)一模型。作者采用最佳子集回歸算法選擇合適的描述符,結(jié)合多元線性回歸方法建立模型,優(yōu)化后模型僅含有2個描述符,分別代表官能團對沸點的貢獻度,和烷基碳鏈的相對長度和烷基的支鏈化程度及位置信息。該模型對468個樣本的訓練集的相關(guān)系數(shù)為0.9846,對52個樣本的測試集的相關(guān)系數(shù)為0.9857,具有較好的預測性能。
此外,劉鳳萍等[26]、陳炫等[27]也成功建立了脂肪醛酮的QSPR沸點模型。
芳香族化合物的沸點主要與分子大小、形狀、苯環(huán)數(shù)量和支鏈情況有關(guān),目前的主要對烷基苯、烷基聯(lián)苯、烷基萘和多環(huán)芳烴等化合物開展了研究。
范雪娥[28]首次提出使用圖論方法計算烷基苯的沸點,作者將分子大小、形狀與碳鏈的彎曲程度分別通過連通圖、矩陣元與三級結(jié)構(gòu)信息S量化,采用非線性函數(shù)擬合法得到沸點計算模型,并對18種單烷基苯進行了計算,模型的平均相對誤差為0.19%。
孟繁宗等[29]隨后提出了預測多烷基苯沸點的模型,其將Balaban連通性指數(shù)J與烷基位置指數(shù)m引入距離矩陣,量化分子結(jié)構(gòu),最后對34種多烷基苯的沸點進行了回歸,提出如下經(jīng)驗公式:
式中:N為碳原子數(shù),S為拓撲指數(shù)。模型的相關(guān)系數(shù)大于0.99,平均相對誤差為0.94%。
王克強[30]使用距離矩陣提出了一種可同時預測烷基苯和烷基聯(lián)苯的非線性模型,其將碳原子劃分為苯環(huán)碳原子與烷基碳原子,從而量化二者性質(zhì)的差異,通過對190種烷基苯和烷基聯(lián)苯的計算結(jié)果進行分析,模型的平均相對誤差為0.77%,相關(guān)系數(shù)為0.9985,具有較好的預測能力。另外,作者[31]采用相似的方法預測烷基萘的沸點,對70個樣本的計算結(jié)果表明,模型平均相對誤差為0.43%,相關(guān)系數(shù)為0.997。
楊善升[32]采用密度泛函數(shù)理論計算得到8個分子描述符,對訓練集中45個多環(huán)芳烴分子,用遺傳算法(GA)結(jié)合支持向量機回歸得到了沸點的非線性模型,通過訓練集留一法交叉驗證方法優(yōu)化了模型參數(shù),相關(guān)系數(shù)為0.997,該模型對測試集中12個多環(huán)芳烴分子的沸點具有很好的預測性能,相關(guān)系數(shù)為0.999。
鹵代烴化合物的沸點主要與分子大小、鹵族元素的取代位置、種類和數(shù)量有關(guān),我國對氟、氯、溴、碘的取代物均開展了研究。
1997年,呂慶章等[33]首先應(yīng)用人工神經(jīng)網(wǎng)絡(luò)(ANN)的反向誤差傳遞算法(BP)對乙烷氟氯衍生物的沸點進行了建模,作者人工選取了5個分子描述符,分別為氟原子個數(shù)、氯原子個數(shù)、分子中F-C-C-F的片段數(shù)、分子中Cl-C-C-Cl的片段數(shù)和分子中F-C-C-Cl的片段數(shù),模型使用由26個樣本組成的訓練集進行訓練,對12個樣本的測試集進行測試,在最優(yōu)參數(shù)的情況下,模型的絕對誤差為0.949%,且對同分異構(gòu)體有良好的預測能力。
馮瑞英[34]將鹵代乙烷沸點模型的適用范圍拓展,使其同樣可以計算含碘及溴的情況。作者選取了3種分子描述符,分別為鹵原子個數(shù)、鹵原子分布和分子極性,模型對74種鹵代乙烷的沸點進行了回歸,相關(guān)系數(shù)為0.997,標準偏差為4.69℃。王克強[35]采用相似的研究方法,使用鹵原子個數(shù)和分子極性兩種描述符,建立了鹵代甲烷的沸點模型,并對40種鹵代甲烷的沸點進行了回歸,相關(guān)系數(shù)為0.995,平均相對誤差1.75%。
高坡[36]應(yīng)用分子連接性指數(shù)法,計算鹵代烴的一、二、三階分子連接指數(shù),將三者與分子量平方根共同作為描述符,對100種鹵代烴的沸點進行多元線性回歸,建立了一個可以預測各種鹵代烴的模型,相關(guān)系數(shù)為0.890,標準偏差19.366。
此外,李艷青[37]和李鳳芹[38]均采用拓撲指數(shù),分別對乙烷氟氯衍生物和飽和鹵代烴的沸點進行了較好的預測。
目前,國內(nèi)已有研究將QSPR預測純有機物沸點的模型拓展至預測二元共沸混合物的共沸溫度,且相較傳統(tǒng)模型具有較好的預測能力。
呂利平[39]對102種低碳酯二元共沸物建立了共沸溫度模型。作者使用HyperChem8.0軟件構(gòu)建及優(yōu)化分子結(jié)構(gòu),使用Materials Studio 7.0軟件計算得到15類420種純組分的分子描述符,并通過篩選獲得與共沸溫度相關(guān)性較高的33種,二元混合物的分子描述符通過平均值法計算,之后采用遺傳-多元線性回歸法選擇較好的描述符并擬合得到預測模型,該模型含有6種分子描述符,對樣本集的相關(guān)系數(shù)為0.964,標準誤差為3.6,優(yōu)于基團貢獻法的計算結(jié)果。
曾行艷[40]對125種含水二元共沸物建立了共沸溫度模型。作者同樣使用HyperChem8.0軟件構(gòu)建及優(yōu)化分子結(jié)構(gòu),Materials Studio 8.0軟件計算得到15類344種純組分的分子描述符,并通過篩選獲得與共沸溫度相關(guān)性較高的76種,二元混合物的分子描述符通過“Kay’s mixing rule”規(guī)則計算,之后采用遺傳算法進行分子描述符的進一步篩選,采用多元線性回歸建立預測模型,含有8種分子描述符,對樣本集的相關(guān)系數(shù)為0.9606。同時作者指出,該QSPR模型的預測準確度遠高于基團貢獻法,具有較強的預測能力。
本文簡述了QSPR方法的基本原理,不難看出QSPR方法為研究人員提供了一種在分子水平上了解物質(zhì)的微觀結(jié)構(gòu)對宏觀性質(zhì)影響的手段。同時,本文分別詳細論述了國內(nèi)烴類、芳香族、含氧脂肪族和鹵代烴共4類化合物的沸點預測模型與計算方法,從發(fā)展歷程中可見:
(1)QSPR模型從一開始只涵蓋具有特定特征的一種分子,漸漸地發(fā)展到支持預測某一大類的分子,其使用局限性正逐漸降低,而預測準確性和泛化推廣能力逐漸超過其他方法。
(2)隨著分子拓撲學及量子理論的發(fā)展,越來越多的分子描述符開始應(yīng)用于QSPR中,而計算過程也從人工逐漸轉(zhuǎn)變?yōu)樗俣雀臁⒂嬎愀鼫蚀_的計算機輔助計算,目前有不少計算分子描述符的專業(yè)軟件,如CODESSA、Materials Studio等。
(3)常用的QSPR方法有多元線性回歸、偏最小二乘法、人工神經(jīng)網(wǎng)絡(luò)法及支持向量機方法,其中神經(jīng)網(wǎng)絡(luò)和支持向量機均具有強大的非線性擬合能力,同時相比“黑箱”建模的神經(jīng)網(wǎng)絡(luò)方法,支持向量機具有嚴格的數(shù)學理論基礎(chǔ),越來越多的應(yīng)用在QSPR建模中。
另外,雖然我國對二元共沸混合物共沸溫度預測的研究才剛剛起步,但研究結(jié)果均表現(xiàn)出優(yōu)于基團貢獻法的預測能力,展現(xiàn)了QSPR方法在計算二元乃至多元混合物性質(zhì)方面的廣闊應(yīng)用前景,具有協(xié)助化工過程計算與設(shè)計的強大潛力,定將會在化學和化工領(lǐng)域得到更廣泛的應(yīng)用。