程靜星,魯厚芳,岳海榮,唐思揚(yáng)*
(四川大學(xué) 化學(xué)工程學(xué)院,四川 成都 610065)
溫室效應(yīng)是對(duì)人類生存環(huán)境的嚴(yán)重威脅,CO2是溫室氣體的主要來(lái)源之一,因此控制和減少CO2的排放已成為全世界最具挑戰(zhàn)性的問(wèn)題之一[1]。由于技術(shù)成熟,醇胺水溶液的化學(xué)吸收方法在工業(yè)上被廣泛用于CO2捕集[2]。在過(guò)去的幾十年中研究了各種胺基吸收劑,包括伯胺,仲胺,叔胺和混合型胺,例如伯仲單乙醇胺(MEA)、仲胺二乙醇胺(DEA)和叔胺N-甲基二乙醇胺(MDEA)。然而,這些胺吸收劑吸收過(guò)程能耗高[3]。CO2捕集的研究重點(diǎn)是減少CO2捕集過(guò)程中的能源消耗,研究表明再生能耗占整個(gè)系統(tǒng)能耗的70%左右[4]。降低醇胺解吸過(guò)程中消耗的能量是控制整個(gè)碳捕集過(guò)程能源成本的重要因素,醇胺溶液的解吸能力是影響醇胺解吸能耗的重要因素之一[5]。
醇胺溶液的解吸能力受其分子結(jié)構(gòu)的影響,Xiao等[6]通過(guò)研究工業(yè)上廣泛應(yīng)用的叔胺結(jié)構(gòu)與CO2吸收/解吸反應(yīng)中的CO2吸收熱量與pKa值之間的關(guān)系。研究表明,叔胺解吸CO2的熱量,能夠通過(guò)減少羥乙基的數(shù)量來(lái)降低再生能耗。雖然胺的結(jié)構(gòu)被證實(shí)能夠影響CO2的解吸過(guò)程,但其分子結(jié)構(gòu)與解吸行為之間的定量關(guān)系仍不清楚。
定量結(jié)構(gòu)性質(zhì)/活性關(guān)系(QSPR/QSAR)方法是一種利用數(shù)學(xué)統(tǒng)計(jì)工具在微觀分子結(jié)構(gòu)與宏觀理化性質(zhì)之間建立預(yù)測(cè)模型的方法,能夠用于預(yù)測(cè)未知分子結(jié)構(gòu)的目標(biāo)理化性質(zhì)并指導(dǎo)設(shè)計(jì)新型分子。通過(guò)對(duì)QSAR模型的分析,能夠進(jìn)一步探究影響宏觀性質(zhì)的重要結(jié)構(gòu)因素[7]。定量構(gòu)效研究與CO2捕集技術(shù)的首次結(jié)合由Momeni[8]等人進(jìn)行。研究利用23種胺類CO2吸收劑建立了多元線性回歸-遺傳算法模型,并確定了影響胺吸收CO2能力的主要參數(shù)。 但不足的是,模型中使用的描述符僅限于伯胺基團(tuán)數(shù)量(n(RNH2))和仲胺基團(tuán)數(shù)量(n(RNHR)),而且23種胺中有10種是多胺,對(duì)于胺的利用率探究不足。
本研究利用定量構(gòu)效方法對(duì)21種醇胺水溶液的解吸能力建立預(yù)測(cè)模型。使用遺傳函數(shù)逼近與人工神經(jīng)網(wǎng)絡(luò)算法建立模型并對(duì)比,利用內(nèi)外部驗(yàn)證方法對(duì)模型預(yù)測(cè)性、可靠性進(jìn)行驗(yàn)證。通過(guò)對(duì)預(yù)測(cè)模型的解釋,進(jìn)一步分析影響醇胺水溶液解吸能力的結(jié)構(gòu)因素。
圖1 21種醇胺結(jié)構(gòu)圖Fig.1 The structures of 21 alkylolamines
表1 21種醇胺解吸CO2解吸量的實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental data set of CO2 desorption capacity of 21 alcoholamines
從文獻(xiàn)中[9]提取了21種醇胺溶液對(duì)CO2的解吸能力(表示從40℃到70℃的解吸曲線積分),組成定量構(gòu)效研究的基礎(chǔ)數(shù)據(jù)集(如圖1、表1所示)。
數(shù)據(jù)集中有19個(gè)是一元醇胺胺分子結(jié)構(gòu),2個(gè)分子結(jié)構(gòu)均含有2個(gè)羥基。其中有6個(gè)分子帶有環(huán)結(jié)構(gòu),其他則是鏈烷醇胺。數(shù)據(jù)集中的所有分子解吸CO2反應(yīng)的實(shí)驗(yàn)條件一致,均是在1h后70℃達(dá)到最大解吸量。
本研究采用B3LYP和6-311++G(d,p)基組水平的密度泛函理論(DFT)對(duì)數(shù)據(jù)集中的每個(gè)分子進(jìn)行幾何優(yōu)化,該計(jì)算在Gaussian09軟件中進(jìn)行。通過(guò)比較每一個(gè)分子的多種異構(gòu)體分子能量,根據(jù)最低能量原則,選擇其中具有最低的分子能量和最穩(wěn)定的構(gòu)型作為進(jìn)行下一步計(jì)算的分子結(jié)構(gòu)[10]。
將每個(gè)分子幾何優(yōu)化后的結(jié)構(gòu)被放入Material Studio 8.0的QSAR模塊,進(jìn)行相關(guān)描述符的提取,完成將化學(xué)結(jié)構(gòu)轉(zhuǎn)換成適合于計(jì)算的數(shù)值描述符的過(guò)程,并得到每個(gè)分子249個(gè)描述符,這些描述符分為以下幾大類:組成描述符、拓?fù)涿枋龇⒐倌軋F(tuán)計(jì)數(shù)、空間類描述符、熱力學(xué)描述符等。由于分子描述符數(shù)據(jù)數(shù)量過(guò)大,可能導(dǎo)致建模的緩慢及不精確,因此在對(duì)每個(gè)分子的描述符進(jìn)行篩選,以減少每個(gè)胺分子的計(jì)算描述符的數(shù)量:
(1)消除了描述符矩陣中的零值,然后去除數(shù)據(jù)集中的所有分子具有相同或接近相同數(shù)值、恒定的常數(shù)。
(2)對(duì)于兩個(gè)共線描述符,排除了其中相關(guān)系數(shù)>0.95的共線描述符,保留另一個(gè)描述符[8]。
通過(guò)上述操作,每個(gè)分子共留下131個(gè)描述符,由此組成21個(gè)分子×131個(gè)描述符的數(shù)值矩陣。
對(duì)醇胺分子解吸能力的定量構(gòu)效研究,采用用遺傳函數(shù)逼近(GFA)算法和人工神經(jīng)網(wǎng)絡(luò)(ANN)在Material Studio 8.0軟件的QSAR模塊中建立數(shù)學(xué)模型。ANN用于生成從GFA獲得的描述符之間定量的結(jié)構(gòu)-活性/性質(zhì)關(guān)系(QSAR)的預(yù)測(cè)模型[11]。
對(duì)于所有醇胺體系解吸能力預(yù)測(cè)模型的建立,通過(guò)QSAR方法的內(nèi)部及外部驗(yàn)證進(jìn)行考察。根據(jù)平方回歸系數(shù)(R2)以及Fisher檢驗(yàn)評(píng)估QSAR模型的質(zhì)量。內(nèi)部驗(yàn)證采用留一交叉驗(yàn)證(Rcv2)進(jìn)行。
整個(gè)數(shù)據(jù)集被分為訓(xùn)練集與測(cè)試集,其中17個(gè)醇胺結(jié)構(gòu)作為訓(xùn)練集,4個(gè)醇胺結(jié)構(gòu)作為測(cè)試集。分別將兩種解吸量形式y(tǒng)與Y作為因變量,用醇胺結(jié)構(gòu)提取并篩選后的描述符作為自變量,使用GFA與ANN方法建立數(shù)學(xué)函數(shù)關(guān)系。GFA方法與ANN建模的結(jié)果對(duì)比如表2所示。
關(guān)于如何認(rèn)識(shí)和把握哲學(xué)社會(huì)科學(xué)的地位、作用及其發(fā)展規(guī)律這個(gè)問(wèn)題,這是一個(gè)重要而復(fù)雜的方法論問(wèn)題,但是學(xué)術(shù)界遠(yuǎn)遠(yuǎn)沒(méi)有引起足夠的重視。在有關(guān)社會(huì)科學(xué)的綜合性研究中,如社會(huì)科學(xué)史、社會(huì)科學(xué)方法論、社會(huì)科學(xué),仍然不被看作專門的學(xué)術(shù)領(lǐng)域,甚至可以說(shuō),遠(yuǎn)不如自然科學(xué)史、科學(xué)技術(shù)哲學(xué)、科學(xué)技術(shù)社會(huì)學(xué)或科學(xué)知識(shí)社會(huì)學(xué)那樣引起學(xué)術(shù)界的廣泛重視。樂(lè)觀的是,伴隨著社會(huì)科學(xué)的發(fā)展,目前我國(guó)社會(huì)科學(xué)內(nèi)部的方法論意識(shí)日益增長(zhǎng),社會(huì)科學(xué)的科學(xué)性與實(shí)踐性、本土化與國(guó)際化等,正成為經(jīng)濟(jì)學(xué)、社會(huì)學(xué)和政治學(xué)等社會(huì)科學(xué)激烈討論的問(wèn)題
從表2可以看出,反應(yīng)前的醇胺結(jié)構(gòu)提取分子描述符,綜合F值、R2、Rcv2的指標(biāo),表明以y建模結(jié)果最佳,F(xiàn)值、R2與Rcv2均高于Y。
表2 使用GFA與ANN方法建立的解吸能力QSAR模型對(duì)比Table 2 QSAR models established by GFA and ANN methods for desorption capacity
GFA方法的F值、R2、Rcv2均高于ANN方法,ANN方法得到模型的預(yù)測(cè)性較差(Rcv2<0.6)[12],GFA建模方法更為適用。
圖2 兩種解吸能力形式y(tǒng)與Y的單變量分析Fig.2 Univariate analysis of two CO2 desorption capacity forms y and Y
對(duì)y、Y數(shù)據(jù)集采用因變量單變量分析,由圖2可見(jiàn),Y的數(shù)據(jù)分布與正態(tài)分布差異較大,這也是模型結(jié)果F值小于y數(shù)據(jù)分布的原因之一。
當(dāng)分別選取y與Y作為因變量建立QSAR模型時(shí),需要通過(guò)考察并對(duì)比兩種模型的預(yù)測(cè)值準(zhǔn)確性來(lái)確定模型。圖3表示分別以y和Y為因變量數(shù)據(jù)、提取反應(yīng)前胺A結(jié)構(gòu)描述符并建立的模型,使用該模型進(jìn)行預(yù)測(cè)與實(shí)際實(shí)驗(yàn)值的對(duì)比。圖3可以看出,模型1(A-y)的數(shù)據(jù)點(diǎn)集相比模型3(A-Y)的分布更貼近y=x線,也就是說(shuō)模型3的預(yù)測(cè)值與實(shí)驗(yàn)值的差異性要更大。且通過(guò)F值與Rcv2的對(duì)比,可以看出模型1的顯著統(tǒng)計(jì)性更好。
圖3 2種解吸能力形式y(tǒng)(a)與Y(b)的模型預(yù)測(cè)值與實(shí)驗(yàn)值對(duì)比Fig.3 Predicted and experimental desorption capacities of two models wtih y(a)and Y(b)desorption capacity forms
由于模型3的因變量是通過(guò)變換的Y,對(duì)比兩個(gè)模型預(yù)測(cè)性能的優(yōu)劣需要還原為對(duì)原始解吸能力的預(yù)測(cè)性能對(duì)比。因此將模型3-Y的預(yù)測(cè)值與實(shí)驗(yàn)值對(duì)比轉(zhuǎn)換為模型3-y原始數(shù)據(jù)的預(yù)測(cè)值-實(shí)驗(yàn)值的對(duì)比,如圖4所示。由圖4可以看出,模型3對(duì)醇胺解吸能力的預(yù)測(cè)值/實(shí)驗(yàn)值的點(diǎn)集集中分散程度低于模型1的預(yù)測(cè)點(diǎn)集,說(shuō)明模型1對(duì)醇胺吸收能力的預(yù)測(cè)準(zhǔn)確性較好。
圖4 模型1(a)與模型3(b)的y預(yù)測(cè)值與實(shí)驗(yàn)值對(duì)比Fig.4 Predicted and experimental desorption capacities of model 1(a)and model 3(b)with desorption capacity y
因此,可以確定結(jié)構(gòu)A作為提取描述符的目標(biāo)結(jié)構(gòu)、以y數(shù)據(jù)分布作為因變量、以GFA方法進(jìn)行建模的模型1作為最佳預(yù)測(cè)模型。
由于QSAR方法要求樣本集個(gè)數(shù)是描述符個(gè)數(shù)的3~5倍[12],需要考察描述符個(gè)數(shù)對(duì)建模結(jié)果的影響。如表3所示,列出了模型不同變量數(shù)的結(jié)果對(duì)比。
表3 不同變量的模型對(duì)比Table 3 Comparison of models with different variables
如表3所示,當(dāng)模型變量數(shù)n從2增大到4,其模型的R2、Rcv2與F值隨之升高;當(dāng)模型變量4增大到5,Rcv2下降而R2與F值升高得不多,表明n=4是模型最佳的變量數(shù)。
可以確定的QSAR模型是以胺結(jié)構(gòu)A作為目標(biāo)對(duì)象、y數(shù)據(jù)分布為因變量的GFA模型(A-y-GFA:Model 1),其方程如下:
第一個(gè)描述符AlogP是一種熱力學(xué)描述符。logP表示辛醇/水分配系數(shù),用于描述分子的疏水特性,從分子結(jié)構(gòu)計(jì)算logP基于分子片段和原子貢獻(xiàn)的取代加成性,并考慮分子表面積、分子性質(zhì)和溶劑化變色參數(shù)等因素。這是由Hansch[13]等人開(kāi)發(fā)的計(jì)算方法,AlogP在總結(jié)的分子的片段常數(shù)之后,用于片段之間的分子內(nèi)相互作用,例如電子、空間或氫鍵效應(yīng)作為任何必要的校正因子添加在計(jì)算過(guò)程中,是一個(gè)綜合了分子結(jié)構(gòu)狀態(tài)的描述符。
第二個(gè)描述符Subgraph counts(2):path是分子連接指數(shù),表示分子結(jié)構(gòu)的連接狀態(tài),包括其分子是否有分支,支鏈形狀等結(jié)構(gòu)信息。表4列出了Subgraph描述符的幾種類型。
表4 分子連接指數(shù)描述符Subgraph的種類Table 4 Type of molecular connection index descriptor Subgraph
第三個(gè)描述符the number of OH是官能團(tuán)計(jì)數(shù)類描述符,表示分子結(jié)構(gòu)中羥基的數(shù)量。這個(gè)描述符在描述胺/水溶液吸收CO2能力的模型中也出現(xiàn)過(guò)。模型顯示,當(dāng)羥基數(shù)量增多,其解吸能力隨之下降。
第四個(gè)描述符Bond energy是能量類型描述符,是指MS中Forcite模塊中計(jì)算的鍵能能量(系統(tǒng)價(jià)能的鍵合拉伸組分,單位為kJ/mol)。模型顯示,鍵能越大,其解吸能力越大。
為了保證確定模型Model 1的可靠性,本研究使用內(nèi)部驗(yàn)證與外部驗(yàn)證進(jìn)行考察。內(nèi)部驗(yàn)證通過(guò)對(duì)比回歸系數(shù)(R2),交叉驗(yàn)證系數(shù)(Rcv2)、Fisher函數(shù)(F)參數(shù)進(jìn)行,外部驗(yàn)證使用模型Model 1對(duì)未參加模型建立的測(cè)試集進(jìn)行預(yù)測(cè),通過(guò)對(duì)比其模型預(yù)測(cè)值與實(shí)際實(shí)驗(yàn)值來(lái)考察其預(yù)測(cè)性能的可靠性。
如表5中模型1所示,所有數(shù)據(jù)集的結(jié)果表明該模型具有預(yù)測(cè)性(Rcv2>0.6),統(tǒng)計(jì)學(xué)顯著性意義F值達(dá)到了98,表明其解吸能力的模型預(yù)測(cè)性是穩(wěn)健的。且測(cè)試集、訓(xùn)練集、整體數(shù)據(jù)集均是Rcv2>0.6,表明其模型的預(yù)測(cè)性是有效可靠的。
表5 模型1的數(shù)學(xué)驗(yàn)證相關(guān)參數(shù)Table 5 Validation of statistical results for model 1
圖5 模型1的解吸量(a)、殘值(b)的預(yù)測(cè)值與實(shí)驗(yàn)值對(duì)比Fig.5 Predicted and experimental desorption capacities(a)and residual values(b)of model 1
為了進(jìn)一步考察確定的模型1的預(yù)測(cè)性,將模型1的模型預(yù)測(cè)值與實(shí)際值進(jìn)行對(duì)比,同時(shí)對(duì)比預(yù)測(cè)值與實(shí)驗(yàn)值之差(即殘值))。如圖5所示,紅色表示用于檢測(cè)訓(xùn)練集建模的測(cè)試集,其不參與建模。由圖5a可以看出,解吸能力因變量的測(cè)試集均勻地分布在擬合線(y=x)周圍,顯示其預(yù)測(cè)性能良好。由圖5b可以看出,模型1的預(yù)測(cè)殘值大部分集中在±6區(qū)域,其平均誤差范圍在±5%~±30%內(nèi),表示其預(yù)測(cè)的準(zhǔn)確性良好。
本文對(duì)21種醇胺溶液體系的解吸能力進(jìn)行了定量構(gòu)效研究,并對(duì)建立的QSAR模型進(jìn)行了描述符解釋與預(yù)測(cè)性考察。首先,分別對(duì)GFA與ANN不同算法、不同數(shù)據(jù)集分布、不同變量數(shù)進(jìn)行了充分的探討,最終確定使用GFA算法、y分布數(shù)據(jù)集、4個(gè)變量數(shù)進(jìn)行預(yù)測(cè)模型的建立。通過(guò)內(nèi)外模型驗(yàn)證確認(rèn)了醇胺體系對(duì)解吸能力的模型具有良好好的預(yù)測(cè)性、穩(wěn)健性。模型表明,減少羥基數(shù)量、加強(qiáng)分子鍵能,能夠增強(qiáng)醇胺溶液對(duì)CO2的解吸能力。同時(shí),熱力學(xué)描述符、分子連接指數(shù)描述符是影響醇胺體系CO2解吸能力的重要結(jié)構(gòu)因素。研究顯示,定量構(gòu)效研究發(fā)展在CO2捕集技術(shù)具有良好的適用性,對(duì)模型描述符的進(jìn)一步分析能用于指導(dǎo)新型醇胺吸收劑的設(shè)計(jì)。