亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于人工神經(jīng)網(wǎng)絡的工質(zhì)基礎物性預測

2024-01-22 07:28:36林美金洪小東廖祖維孫婧元王靖岱陽永榮

石油煉制與化工 2024年1期

關鍵詞：模型

林美金，董軒，洪小東，2，廖祖維，孫婧元，楊遙，王靖岱，陽永榮

(1.浙江大學化學工程與生物工程學院，杭州 310030；2.浙江大學杭州國際科創(chuàng)中心)

制冷及余熱發(fā)電等熱力學循環(huán)系統(tǒng)的傳統(tǒng)工質(zhì)易引起臭氧層空洞及溫室效應,開發(fā)高效、環(huán)保的新型工質(zhì)逐漸成為研究熱點。在新型有機工質(zhì)的開發(fā)過程中,臨界溫度(Tc)、臨界壓力(pc)、臨界體積(Vc)、偏心因子(ω)、正常沸點(Tb)等基礎物性是判斷工質(zhì)性能的基礎。由于許多物質(zhì)的臨界參數(shù)需在高溫下測定,測量難度較高,因而目前已經(jīng)測得臨界參數(shù)的物質(zhì)種類較少[1];此外,ω與物質(zhì)分子結構的復雜程度和極性相關,其估算過程非常復雜。許多烴類及鹵代烴分子是潛在的環(huán)境友好型制冷劑和余熱發(fā)電工質(zhì),但目前對含氟/氯原子有機化合物的臨界參數(shù)、偏心因子等缺乏準確的預測方法[2]。如何高效、準確地預測烴類及鹵代烴的基礎物性,是新型制冷、余熱發(fā)電工質(zhì)開發(fā)面臨的關鍵難題。

常見的物性估算方法主要包括經(jīng)驗式法、狀態(tài)方程估算法、定量構效關系法(QSPR)[3]。經(jīng)驗式法利用一些較為常見且易于測量的參數(shù),如沸點、密度等,建立其他物性的關聯(lián)式,從而得到物質(zhì)的臨界參數(shù)。例如,Guldberg提出了Tc=1.5Tb的經(jīng)驗式,來估算物質(zhì)臨界溫度[4];周傳光等[5]通過有機化合物臨界參數(shù)的試驗值與其相對分子質(zhì)量、沸點、密度等基本參數(shù)的關系,建立了一組推算Vc,Tc,pc的關聯(lián)式;Vejahati等[6]提出了一種簡單的指數(shù)模型,利用烷烴的Tb和相對分子質(zhì)量估算其臨界參數(shù),該指數(shù)模型被用于估算30種化合物(包括C2～C30的烷烴)的Tc,pc,Vc,結果平均絕對誤差分別為0.49%,1.16%,0.97%。狀態(tài)方程估算法通過對工質(zhì)溫度、壓力、體積數(shù)據(jù)的擬合,來獲得其狀態(tài)方程中相應參數(shù),但狀態(tài)方程涉及的參數(shù)往往缺乏試驗數(shù)據(jù)支撐[3]。目前,基于Rackett方程、Spencer方程的估算式均較復雜,計算精度不高,且不適合多基團化合物,因而較少使用。QSPR法則是根據(jù)物質(zhì)分子結構-物化性質(zhì)間的構效關系,對工質(zhì)物性進行建模和預測,代表性的QSPR法有基團貢獻法、基團貢獻-人工神經(jīng)網(wǎng)絡集成法等?；鶊F貢獻法(GCM)是QSPR中最常用的一種方法,它基于兩個基本假設:①基團的貢獻值是一個常數(shù),與基團所在的物質(zhì)種類無關;②分子的性質(zhì)具有加和性。GCM的原理簡單,適用范圍廣,利用基團貢獻法可以計算工質(zhì)的許多基礎物性,如熔點、蒸發(fā)焓、比熱容及臨界參數(shù)(Tc,pc,Vc)等[7-11]。然而,這些方法只考慮了一階基團貢獻,無法區(qū)分同分異構體,預測精度也不高。基于此,Lymperiadis等[12]采用定位分步法等新方法對GCM方法進行了改進,但改進方法均存在不同問題并導致計算變得更加復雜?；鶊F貢獻-人工神經(jīng)網(wǎng)絡法(GC-ANN)結合了基團貢獻法和神經(jīng)網(wǎng)絡的優(yōu)點,將基團和部分結構參數(shù)作為神經(jīng)網(wǎng)絡的輸入變量,利用人工神經(jīng)網(wǎng)絡擅長處理復雜數(shù)據(jù)關系的優(yōu)點,簡化了計算過程,提高了預測精度。Lazzús等[13]利用GC-ANN方法預測了72種離子液體的密度-溫度-壓力(ρ-T-p)數(shù)據(jù),發(fā)現(xiàn)預測結果與試驗數(shù)據(jù)一致性較高,說明GC-ANN方法預測精度較高,是估算離子液體密度的一種優(yōu)選方法。Ghragheizi等[14]采用GC-ANN方法對由81種基團構成的1 700種化合物的pc,Tc,Vc,ω進行了預測,發(fā)現(xiàn)預測結果的精確度較高,其絕對平均誤差分別為1.1%,0.9%,1.4%,3.7%。Mondejar等[2]對比了采用GCM和GC-ANN預測含氯/氟鹵代烯烴的臨界參數(shù)和ω,結果表明GC-ANN方法的預測精度更高。Wang Qiang等[15]提出了利用基團定位法區(qū)分同分異構體的GC-ANN模型,用于預測物質(zhì)的正常沸點、蒸發(fā)焓和臨界參數(shù),結果表明該模型的預測精度較高。

目前,雖然國內(nèi)外對GC-ANN方法估算物質(zhì)物性的研究已相對成熟,但利用該方法預測含氟/氯有機化合物物性的報道[16]仍然很少。因此,本研究以SMILES(Simplified Molecular Input Line Entry System)的形式描述工質(zhì)分子,構建一個含C,H,F,Cl原子的低碳烴工質(zhì)分子的物性(Tb,Tc,pc,ω)數(shù)據(jù)庫;進而,基于GC-ANN方法,以分子基團、相對分子質(zhì)量、正常沸點、約化維納指數(shù)作為模型輸入變量,以工質(zhì)物性(Tb,Tc,pc,ω)作為模型輸出變量,建立工質(zhì)物性預測模型。其中,分子基團變量除簡單的一階基團[7-11]外,同時考慮由一階基團組合構成的二階基團,從而可以更高效、準確地預測烴類及鹵代烴的基礎物性,為新型有機工質(zhì)的開發(fā)提供理論指導。

1 方法

1.1 構建工質(zhì)分子庫

首先,從公開數(shù)據(jù)庫NIST(National Institute of Standards and Technology)[17]和DIPPR(Design Institute for Physical Properties)[18]中搜集了包含C,H,F,Cl元素的所有低碳烴的物性數(shù)據(jù)(包括Tb,Tc,pc,ω),構建了包含2 504種物質(zhì)分子的工質(zhì)分子物性數(shù)據(jù)庫,工質(zhì)的種類如圖1所示。

圖1 工質(zhì)的種類示意

1.2 確定分子描述符

本研究以SMILES作為分子描述符,并拆解工質(zhì)分子物性數(shù)據(jù)庫中的各分子,得到一階基團和二階基團,見表1。其中,一階基團為構成分子的簡單基團,旨在通過一階基團的組合形成各種有機化合物,并區(qū)分鏈烴、環(huán)烴、芳香烴,一階基團的識別標準遵循文獻[19]方法;二階基團為一階基團的組合,旨在描述無法由一階基團組充分描述的分子片段。在本研究中,二階基團主要包括碳環(huán)[如表1中C3(環(huán))表示含3個碳的環(huán)烴基]、兩個雙鍵組合、以及雙鍵(或三鍵)與鹵原子組合。

表1 工質(zhì)庫內(nèi)的分子基團

除分子基團外,相對分子質(zhì)量[5-6]、正常沸點[5-8]也常被用于臨界參數(shù)的計算,因此本研究也將這兩個參數(shù)作為GC-ANN模型的輸入變量。此外,分子基團只能描述分子二維結構,無法對分子內(nèi)原子的鍵合方式、幾何結構定量描述,為了提高模型的預測精度,特引入約化維納指數(shù)(W)作為GC-ANN模型的輸入變量。W是一個分子拓撲指數(shù),用于描述分子結構,反映了分子的緊湊程度,W數(shù)值越小,分子結構越緊湊,其計算式如式(1)所示。

(1)

式中:Dij為距離矩陣D第i行第j列對應元素;n為距離矩陣D的行數(shù)。

以2,3-二甲基丁烷[(CH3)2CHCH(CH3)2]的W的求取過程為例,首先對其分子中的碳原子進行編號,主鏈優(yōu)先,編號通常從1開始依次遞增,可以按碳原子在分子中的順序來分配;其次獲得距離矩陣,再通過式(1)計算得到物質(zhì)分子的W,如圖2所示。

圖2 2,3-二甲基丁烷的W的求取過程

因此,所建模型的輸入變量包括分子基團出現(xiàn)頻率、相對分子質(zhì)量、Tb、W。

1.3 數(shù)據(jù)預處理

在獲取分子描述符的數(shù)據(jù)和基團出現(xiàn)頻率后,需要對數(shù)據(jù)進行歸一化處理,以避免因原始數(shù)據(jù)特征間數(shù)值差距過大引起梯度震蕩,影響正常運算。將不同數(shù)據(jù)均歸一化到[-1,1]區(qū)間,歸一化方法如式(2)所示。

(2)

式中:xi為歸一化前的輸入?yún)?shù)(包括Tb、相對分子質(zhì)量、W、基團頻率);X為歸一化后的輸入?yún)?shù)。

1.4 人工神經(jīng)網(wǎng)絡模型構建

BP(Back propagation)神經(jīng)網(wǎng)絡是一種按照誤差逆向傳播算法訓練的多層前饋神經(jīng)網(wǎng)絡,是當前應用最廣泛的人工神經(jīng)網(wǎng)絡。設計BP神經(jīng)網(wǎng)絡模型,首先要確定合適的網(wǎng)絡結構,包括輸入層和輸出層的神經(jīng)元數(shù)、隱藏層的數(shù)量和每層節(jié)點數(shù),其次還需要確定激活函數(shù)類型。隱藏層神經(jīng)元數(shù)量過多,可能導致模型過擬合,而神經(jīng)元數(shù)目過少則可能導致模型欠擬合。目前對于BP神經(jīng)網(wǎng)絡隱藏層數(shù)及隱藏節(jié)點數(shù)的確定大都依靠經(jīng)驗或者試錯。式(3)～式(5)為優(yōu)選隱藏層節(jié)點數(shù)的經(jīng)驗式。

(3)

m=log2n

(4)

(5)

式中:m為隱藏層節(jié)點數(shù);n為輸入層節(jié)點數(shù);l為輸出層節(jié)點數(shù);α為1～10之間的常數(shù)。

1.5 評估指標的選擇

選用相關系數(shù)(R)、平對絕對偏差(AARD)、絕對相對偏差(ARD)作為模型預測精度的評價指標,其計算式見式(6)～式(8)。其中,R用于表征真實值與模型預測值間的線性相關程度,R越接近1,二者線性相關度越高。AARD和ARD指標為絕對值,不會出現(xiàn)預測結果偏差正負抵消的情況,能夠更好地反映模型的預測精度。

(6)

(7)

(8)

式中:xest為模型預測值;x為真實值;Cov(x,xest)為預測值與真實值的協(xié)方差;Var[x]和Var[xest]分別為真實值和預測值的方差。

2 結果與討論

2.1 模型的建立與評估

針對工質(zhì)Tb,Tc,pc,ω性質(zhì),分別構建以基團頻率為輸入變量的BP神經(jīng)網(wǎng)絡模型和以基團頻率結合一個或多個輔助描述符(相對分子質(zhì)量、Tb、W)的BP神經(jīng)網(wǎng)絡模型。由式(3)～式(5)確定模型隱藏層數(shù)為2,并采用試錯法確定了最優(yōu)的隱藏層節(jié)點數(shù)?；诖私P神經(jīng)網(wǎng)絡模型,其結構如圖3所示,其結構參數(shù)見表2。為提升模型的泛化能力,將2 504組物性數(shù)據(jù)分為訓練集、驗證集和測試集,其數(shù)據(jù)分配比例為70∶15∶15。為了解決傳統(tǒng)梯度下降法計算收斂慢或易陷入局部最小值等問題,采用量化共軛梯度法(SCG)對模型進行訓練,獲得具有最小均方誤差(MSE)的模型參數(shù),MSE的計算式見式(9)。

(9)

表2 BP神經(jīng)網(wǎng)絡模型的結構參數(shù)

圖3 BP神經(jīng)網(wǎng)絡模型的基本結構

2.2 Tb的神經(jīng)網(wǎng)絡模型預測結果

一般而言,物質(zhì)的相對分子質(zhì)量越大則沸點越高?？疾炷Ｐ洼斎胱兞糠謩e為基團頻率(模型A1)、基團頻率+W(模型A2)、基團頻率+相對分子質(zhì)量(模型A3)時模型預測工質(zhì)Tb的效果。3種模型預測Tb的精確度如表3所示。由表3可知,模型A1,A2,A3預測Tb的AARD分別為1.680%,1.592%,1.723%?？梢娔Ｐ洼斎胱兞繛榛鶊F頻率+相對分子質(zhì)量時的模型A2的AARD最小,預測精確度最高。

表3 不同模型預測Tb的精確度比較

圖4為模型A2在訓練集、驗證集、測試集和全部數(shù)據(jù)集的預測結果。由圖4可知,無論是訓練集、驗證集或測試集數(shù)據(jù),預測值與真實值的一致性均較好,擬合曲線的相關系數(shù)R均大于0.98,說明數(shù)據(jù)擬合效果好、泛化能力強。分析認為,將相對分子質(zhì)量作為模型輸入變量引入,對提高Tb的預測精度起正向作用,這是因為相對分子質(zhì)量反映分子的整體屬性,與分子的原子組合有關,反映了分子中所有原子的組成信息;同時,通過引入相對分子質(zhì)量,模型可以更好地泛化到不同種類的分子,不再局限于已定義的基團特性,有助于拓展處理不同類型的分子。

圖4 模型A2的訓練結果

2.3 Tc的神經(jīng)網(wǎng)絡模型訓練結果

針對工質(zhì)的Tc,分別構建了輸入變量為基團頻率(模型B1)、基團頻率+W(模型B2)、基團頻率+相對分子質(zhì)量(模型B3)、基團頻率+Tb(模型B4)的4個神經(jīng)網(wǎng)絡模型。4種模型預測Tc的精確度如表4所示。由表4可知,模型B1,B2,B3,B4訓練結果的AARD分別為1.947%,1.751%,1.865%,1.284%,可見模型輸入變量為基團頻率+Tb的神經(jīng)網(wǎng)絡模型(模型B4)的AARD最小。

表4 不同模型預測Tc的確精度比較

模型B4在訓練集、驗證集、測試集和全部數(shù)據(jù)集的預測結果如圖5所示。由圖5可以看出,模型B4在所有數(shù)據(jù)集中預測Tc擬合曲線的相關系數(shù)R都在0.99以上,表明其擬合效果好,模型泛化能力強,說明將基團頻率+Tb作為模型輸入?yún)?shù)時的預測精度最高,這可能是因為Tb和Tc都是描述物質(zhì)相變性質(zhì)的參數(shù),其相互間存在某種程度上的相關性,將Tb作為輸入?yún)?shù)預測Tc,可以更好地捕捉二者之間的關聯(lián);而且,Tb提供了有關分子熱穩(wěn)定性的信息,在預測Tc時可以幫助模型更好地理解分子的熱力學特性,從而提高預測精度。此外,由于物質(zhì)臨界參數(shù)(Tc等)與其分子結構有關,與相對分子質(zhì)量相比,W更好地反映了分子間距與分子結構的關系,將W作為模型輸入變量時(模型B2),模型B2的預測精度比僅使用基團頻率(模型B1)或使用基團頻率+相對分子質(zhì)量(模型B3)作為輸入變量的模型更高。

圖5 模型B4的訓練結果

2.4 pc的神經(jīng)網(wǎng)絡預測結果

pc是較難預測的基礎物性之一,分別以基團頻率(模型C1)、基團頻率+W(模型C2)、基團頻率+相對分子質(zhì)量(模型C3)、基團頻率+Tb(模型C4)、基團頻率+Tb+相對分子質(zhì)量(模型C5)作為輸入變量構建5種神經(jīng)網(wǎng)絡模型,訓練后5種神經(jīng)網(wǎng)絡模型預測結果的AARD如表5所示。由表5可知,當輸入變量為基團頻率+Tb+相對分子質(zhì)量時,模型C5的預測誤差AARD最小,預測精度最高。

表5 不同模型預測pc精度比較

模型C5在訓練集、驗證集、測試集和全部數(shù)據(jù)集的訓練結果如圖6所示。從圖6可以看到,模型預測pc的精度比預測Tb和Tc時下降,原因在于影響pc的分子屬性更多,包括分子大小、形狀、極性、分子間相互作用等,而Tb和Tc受到的影響因素通常更少?？傮w而言,預測pc時模型擬合曲線的相關系數(shù)R大于0.95,仍滿足預測精度要求。加入變量Tb和相對分子質(zhì)量,可以更好地理解分子的結構和大小,對提高pc的預測精度有利。此外,當輸入變量為基團頻率+W時,模型C2的預測精度比其余3種模型更高,原因可能是W通過距離矩陣更好地反映了碳原子間距的大小,從而使模型更精確地考慮了碳原子間的相互作用,反映了物質(zhì)微觀結構對pc的影響,因而提高了模型對Tc和pc的預測精度。

圖6 模型C5的訓練結果

2.5 ω的神經(jīng)網(wǎng)絡預測結果

由于ω與分子結構的復雜程度和分子極性有較強的關聯(lián),很難通過單一理論模型來準確描述,需要大量的試驗數(shù)據(jù)來驗證模型的有效性。然而,有些物質(zhì)的試驗數(shù)據(jù)非常有限或不存在,導致難以建立準確的預測模型。在預測ω時,若僅將基團頻率作為輸入變量(模型D1),模型預測的AARD達24.39%,預測精度遠遠不能滿足要求。原因在于模型D1沒有考慮分子內(nèi)原子間相互作用和化學鍵的相互作用,導致其預測結果較差。因此,結合多個ω計算公式,包括Lee-kesler方程、Riedel方程、Domez-Rhodos方程、Nath方程,構建了以pc、Tb、Tc和基團頻率作為輸入變量的預測模型(模型D2),大幅提高預測的準確性,其預測AARD降至1.498%,其在訓練集、驗證集、測試集和全部數(shù)據(jù)集的預測結果如圖7所示。由圖7可知,模型D2在訓練集、驗證集、測試集預測結果的擬合相關系數(shù)R均大于0.988,說明其預測精度很高。這是因為提高ω預測精度的關鍵在于引入表征分子結構的參數(shù),模型D2添加Tb,Tc,pc作為輸入變量,Tb,Tc,pc均與分子結構有關,從而彌補了表征ω拓撲指數(shù)較少的缺陷。目前,很多物質(zhì)分子的拓撲結構、拓撲指數(shù)難以求解,但若能得到該物質(zhì)的Tb,Tc,pc等數(shù)據(jù),則可以利用模型D2更準確地預測其ω。

圖7 模型D2的訓練結果

2.6 分析與對比

不同方法對含C,H,F,Cl原子有機化合物Tb,Tc,pc,ω的預測結果對比見表6。由表6可知,本研究所建模型的預測精度較高,尤其是對Tb,Tc,ω的預測,本研究所建模型的預測AARD遠小于文獻報道結果,原因在于本研究在建立模型時,引入了Tb,Tc,pc作為輸入?yún)?shù),彌補了缺少表征ω拓撲指數(shù)的缺陷;同時在基團劃分時引入了二階基團和順反異構,且引入Tb、相對分子質(zhì)量作為模型輸入變量。

表6 不同方法預測結果的AARD比較

3 結論

采集了來自NIST和DIPPR數(shù)據(jù)庫的2 504種含C,H,F,Cl原子的有機分子物性參數(shù),包括Tb,Tc,pc,ω等多種物性數(shù)據(jù)?；诨鶊F貢獻-人工神經(jīng)網(wǎng)絡的方法,建立了預測含C,H,F,Cl原子有機化合物的Tb,Tc,pc,ω的BP神經(jīng)網(wǎng)絡模型,并進行了優(yōu)化。

結果表明,Tb,Tc,pc,ω預測模型的AARD分別為1.284%,4.159 9%,1.592%,1.498%。其中,預測Tb,pc,ω的模型具有較高的預測精度,遠高于文獻報道的經(jīng)典模型。尤其是對工質(zhì)ω的預測模型,引入了Tb,Tc,pc作為輸入變量,彌補了缺少表征ω拓撲指數(shù)的缺陷,使得模型預測精度大幅提高。

對比不同輸入變量的神經(jīng)網(wǎng)絡模型的預測結果,發(fā)現(xiàn)引入相對分子質(zhì)量、Tb及W作為輸入變量,對提高模型預測精度有著積極作用。此外,隨著工質(zhì)數(shù)據(jù)的不斷補充,可以針對特定類型的工質(zhì)搭建不同的神經(jīng)網(wǎng)絡模型,從而得到更優(yōu)異的預測結果。