王 鑫 李紅麗
(江南大學(xué)教育部輕工過程先進(jìn)控制重點(diǎn)實驗室,江蘇 無錫 214122)
雙酚A(Bisphenol-A,BPA)是生產(chǎn)環(huán)氧樹脂、聚砜樹脂、聚碳酸酯、聚苯醚樹脂、不飽和聚酯樹脂等多種高分子材料的一種關(guān)鍵原料,也是生產(chǎn)涂料、抗氧劑、增塑劑、阻燃劑、熱穩(wěn)定劑、橡膠防老劑、農(nóng)藥等精細(xì)化工產(chǎn)品的一種重要化工材料[1]。因此,BPA作為一種重要的化工原料,近年來越來越受到人們的重視。苯酚作為BPA生產(chǎn)過程的中間體,苯酚含量的實時監(jiān)測對BPA生產(chǎn)過程的控制是十分重要的。由于BPA生成過程極其復(fù)雜,因此很難對該過程建立結(jié)構(gòu)確定的參數(shù)模型,且苯酚的含量是很難直接在線測量的。
根據(jù)BPA生產(chǎn)過程的以上特點(diǎn),本文提出了一種基于高斯過程回歸的苯酚含量預(yù)測方法。高斯過程回歸模型是一種貝葉斯非參數(shù)模型[2-3]。貝葉斯非參數(shù)模型是一種定義在無限維參數(shù)空間上的貝葉斯模型,它可以自動地適應(yīng)自身接收到的數(shù)據(jù),事先不用指定模型的大小和參數(shù)的個數(shù)。貝葉斯非參數(shù)模型非常適合于集成來自多個傳感器的數(shù)據(jù),以及基于觀測數(shù)據(jù)選擇合適的模型大小。這些特點(diǎn)使得高斯過程回歸模型特別適合用于長期持續(xù)監(jiān)測。
為了在線監(jiān)控苯酚含量等與生產(chǎn)過程關(guān)系密切的化工參數(shù),有如下兩種傳統(tǒng)做法:①采用在線分析儀表對難以測量的參數(shù)進(jìn)行分析的方法,這種方法設(shè)備投資大、維護(hù)成本高,并且測量滯后較大,使得調(diào)節(jié)品質(zhì)有所下降;②采用間接的質(zhì)量指標(biāo)對難以測量的參數(shù)進(jìn)行控制的方法,如精餾塔靈敏板的溫度控制、溫差控制等,但這種方法難以保證最終質(zhì)量指標(biāo)的控制精度。
目前也有一些基于軟測量的模型。如文獻(xiàn)[4]使用最小二乘支持向量機(jī)算法(LS-SVM)在線建立估計模型。雖然該模型能夠適應(yīng)不斷變化的工況,但是由于不同的測試樣本選擇的局部樣本集不同,提取的主成分特征也不同,因此每次都需要重新確定LS-SVM參數(shù),測試時間較長,不能滿足實際化工生產(chǎn)過程的應(yīng)用。文獻(xiàn)[5]提出了基于疏密部數(shù)據(jù)劃分的多模型軟測量方法。該方法雖然模型跟蹤性和泛化能力較好,但是模型比較復(fù)雜,而且建模過程中在確定鄰域半徑時,要根據(jù)數(shù)據(jù)分布情況,自行確定占有率和可調(diào)系數(shù),具有很大的隨機(jī)性。一旦確定半徑有偏差,就會直接影響邊界閾值的大小,可能導(dǎo)致模型與實際相差甚遠(yuǎn)。文獻(xiàn)[6]提出了一種基于仿射傳播聚類和高斯過程的多模型建模方法。該方法雖然具有較高的估計精度,但是模型過于復(fù)雜。
假設(shè)給定訓(xùn)練數(shù)據(jù)集 D={(xi,yi)|i=1,2,…,n},其中xi表示訓(xùn)練數(shù)據(jù)集D中的第i個輸入向量,yi表示訓(xùn)練數(shù)據(jù)集D中的第i個目標(biāo)輸出,n表示訓(xùn)練數(shù)據(jù)集中樣本的個數(shù)。高斯過程回歸模型是對輸入向量與目標(biāo)輸出之間的關(guān)系f進(jìn)行推斷,即在給定輸入向量時確定目標(biāo)輸出的條件分布。
假定f是一個高斯過程,即 f~GP( m,k),f是一個以m為均值函數(shù)、k為協(xié)方差函數(shù)的高斯過程。高斯過程是一個隨機(jī)過程[7]。與高斯分布類似,高斯過程完全由其均值函數(shù)與協(xié)方差函數(shù)確定。
根據(jù)高斯過程的定義可知,f( x1)、f(x2)、…、f(xn)服從多元高斯分布,且該多元高斯分布的均值向量為m( xi),協(xié)方差矩陣為K,因此:
實際目標(biāo)輸出y往往會包含一些噪聲:
于是,問題轉(zhuǎn)化為已經(jīng)觀測到訓(xùn)練數(shù)據(jù)集D:yi=f( xi)+ εi,i=1,2,…,n,需要在測試數(shù)據(jù)集 D*={( xi*,yi*)|i=n+1,n+2,…,n+n*}預(yù)測對應(yīng)的 輸出值f*。
訓(xùn)練數(shù)據(jù)集的輸出向量y和測試數(shù)據(jù)集的預(yù)測值f*的多元高斯分布為:
根據(jù)多元高斯分布的條件分布形式,可得出高斯過程回歸預(yù)測方程的關(guān)鍵式為:
式中:矩陣X由訓(xùn)練數(shù)據(jù)集輸入xi的列向量組成;矩陣X*由測試數(shù)據(jù)集的輸入xi*的列向量組成。
根據(jù)以上分析可知,協(xié)方差函數(shù)k對于高斯過程回歸分析是至關(guān)重要的。在高斯過程中,協(xié)方差函數(shù)k必須滿足Mercer條件。常用的協(xié)方差函數(shù)為平方指數(shù)函數(shù)[8],其形式如下:
從式(8)可以看出,參數(shù) σf、σn、l對新輸入的輸出預(yù)測值y*影響較大。設(shè)超參數(shù) θ= { l,σn,σf},對 θ進(jìn)行優(yōu)化調(diào)整。本文通過極大似然法來獲得協(xié)方差函數(shù)的優(yōu)化后的超參數(shù)θ。對于上述給定的ky(x,x'),其訓(xùn)練樣本的對數(shù)邊緣似然函數(shù)為:
在極大似然估計框架下,需要通過不斷調(diào)整超參數(shù)θ,使得訓(xùn)練樣本的對數(shù)邊緣似然函數(shù)取得最大值。在優(yōu)化過程中,需要計算 lg[p( y|X,θ)]對 θ的偏導(dǎo)數(shù),并令偏導(dǎo)數(shù)為0,獲得最優(yōu)超參數(shù)θ。
根據(jù)對精餾塔C303的工藝流程和現(xiàn)場分析,選擇了C303塔內(nèi)的液位、溫度、塔底出料的溫度及由前一單元V304軟測量模型的估計變量(苯酚、BPA、BPA-24的濃度)這6個輸入輔助變量;并選擇了精餾塔C303塔底的苯酚濃度為輸出的主導(dǎo)變量。輔助變量的實時數(shù)據(jù)是通過現(xiàn)場的集散控制系統(tǒng)(DCS)獲得的,主導(dǎo)變量的樣本數(shù)據(jù)通過每天人工分析值獲得。本文采集了2009年、2010年的共233組數(shù)據(jù)作為訓(xùn)練樣本,2011年的100組數(shù)據(jù)作為測試樣本。針對長達(dá)3年的數(shù)據(jù)情況,采用基于貝葉斯非參數(shù)模型的高斯過程回歸模型分析預(yù)測2011年苯酚濃度的輸出值,并將其與2011年真實的輸出值相比較。為了評價模型性能,本文使用平均相對誤差(MRE)和最大相對誤差(MXRE)來描述,MRE用來度量估計值與真實值的總體偏離情況,MXRE用來度量估計值與真實值偏離的最大幅度。它們的定義分別如下:
式中:yx和y分別為該模型預(yù)測的輸出值和2011年真實的輸出值。
一般來說,特征選擇的目標(biāo)主要有3個:①改善預(yù)測模型的預(yù)測性能;②更有效的預(yù)測模型;③更好地從數(shù)據(jù)理解生成數(shù)據(jù)的過程[9-10]。
本試驗已測得的特征有6個,考慮到特征個數(shù)并不大,以輸出目標(biāo)的均值為界,將回歸問題變成一個二元分類問題。然后,接收者按照操作特征(receiver operating characteristic,ROC)準(zhǔn)則對這6個特征進(jìn)行排序。
完成特征排序之后,本工業(yè)實例設(shè)置高斯過程的均值函數(shù)為零常函數(shù),協(xié)方差函數(shù)為平方指數(shù)函數(shù),似然函數(shù)為高斯函數(shù)。然后,根據(jù)式(9),進(jìn)行超參數(shù)優(yōu)化,確定優(yōu)化后的超參數(shù)。最后,使用優(yōu)化后的待訓(xùn)練模型對訓(xùn)練樣本進(jìn)行訓(xùn)練,確定模型參數(shù)。
將訓(xùn)練所得模型對測試樣本進(jìn)行測試,真實值與估計值的對比曲線如圖1所示。
圖1 預(yù)測結(jié)果與真實值的對比曲線Fig.1 The comparison curves between the prediction results and the actual values
各個測試樣本點(diǎn)的相對誤差值曲線如圖2所示。
圖2 相對誤差值曲線Fig.2 The relative errors curve
不同方法的性能比較如表1所示。由表1可以看出,本文提出的模型在MRE與MXRE這兩個指標(biāo)方面都優(yōu)于其他模型。
表1 不同方法的性能比較Tab.1 Performance comparison of different methods
在僅進(jìn)行了簡單的特征排序與僅使用了單一模型的情況下,本文使用高斯過程回歸模型在苯酚含量預(yù)測中取得了較好的預(yù)測效果。這主要是因為作為貝葉斯非參數(shù)模型,高斯過程能夠根據(jù)數(shù)據(jù)自適應(yīng)地調(diào)整模型結(jié)構(gòu)與參數(shù)個數(shù)。這就巧妙地避免了其他方法中模型選擇與模型組合的難題。試驗結(jié)果表明,對于雙酚A生產(chǎn)過程等很難使用參數(shù)模型進(jìn)行建?;蚯蠼獾倪^程,高斯過程回歸模型可以作為一種有效的建模手段。
[1]程滄滄,鄧南圣,吳峰,等.光電催化降解雙酚A的研究[J].華中師范大學(xué)學(xué)報:自然科學(xué)版,2005,39(3):365-369.
[2]龍健顏,盧素,劉金山.貝葉斯非參數(shù)回歸模型及非參數(shù)似不相關(guān)回歸模型的應(yīng)用[J].統(tǒng)計與決策,2011,27(16):17 -20.
[3]Kottas A,Behseta S,Moorman D E,et al.Bayesian nonparametric analysis of neuronal intensity rates[J].Journal of neuroscience methods,2012,203(1):241 -253.
[4]李雅芹,楊慧中.一種局部KPLS特征提取的LSSVM軟測量建模方法[J].計算機(jī)工程應(yīng)用,2011,47(21):235 -238.
[5]梅振益,楊慧中.基于疏密部數(shù)據(jù)劃分的多模型軟測量[J].江南大學(xué)學(xué)報:自然科學(xué)版,2010,9(5):521 -525.
[6]李雅芹,楊慧中.基于仿射傳播聚類和高斯過程的多模型建模方法[J].計算機(jī)與應(yīng)用化學(xué),2010,27(1):51 -54.
[7]奚宏生.隨機(jī)過程引論[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2009.
[8]Rasmussen C E,Williams C K I.Gaussian processes for machine learning[M].Cambridge:the MIT Press,2006.
[9]Guyon I,Elisseeff A.An introduction to variable and feature selection[J].Journal of Machine Learning Research,2003,32(4):1157 -1182.
[10]楊慧中,章軍,陶洪峰.基于互信息的軟測量變量選擇[J].控制工程,2012,19(4):562 -565.
[11]王黎明,陳穎,楊楠.應(yīng)用回歸分析[M].上海:復(fù)旦大學(xué)出版社,2008:1-30.
[12]方開泰,全輝,陳慶云.實用回歸分析[M].北京:科學(xué)出版社,1988:64-103.