郭麗瑩,李文娜,郎憲明
SKPCA?LSSVM模型在汽油干點(diǎn)預(yù)測(cè)中的應(yīng)用
郭麗瑩,李文娜,郎憲明
(遼寧石油化工大學(xué) 信息與控制工程學(xué)院,遼寧 撫順 113001)
常壓塔塔頂汽油干點(diǎn)與產(chǎn)品質(zhì)量密切相關(guān),因?yàn)槌p壓蒸餾工藝流程和變量相關(guān)性均復(fù)雜,所以汽油干點(diǎn)預(yù)測(cè)很難在線進(jìn)行。軟測(cè)量方法是解決這類變量估計(jì)和控制預(yù)測(cè)問題的一種技術(shù)途徑。在核主元分析(KPCA)算法中引入稀疏主元分析(SPCA)思想,采用稀疏核主元分析(SKPCA)算法對(duì)模型的輸入變量進(jìn)行選擇,實(shí)現(xiàn)了數(shù)據(jù)的非線性降維,簡(jiǎn)化了主元結(jié)構(gòu),增加了主元變量的稀疏性。將選擇的稀疏主成分作為最小二乘支持向量機(jī)(LSSVM)的輸入,建立常壓塔塔頂干點(diǎn)軟測(cè)量預(yù)測(cè)模型。仿真結(jié)果表明,SKPCA?LSSVM模型相對(duì)于傳統(tǒng)PCA?LSSVM、KPCA?LSSVM方法具有較高的預(yù)測(cè)精度和性能優(yōu)越性。
軟測(cè)量; 核主元分析; 稀疏核主元分析; 最小二乘支持向量機(jī); 汽油干點(diǎn)
常壓塔塔頂汽油干點(diǎn)直接影響產(chǎn)品的質(zhì)量、產(chǎn)量,傳統(tǒng)技術(shù)無(wú)法實(shí)現(xiàn)對(duì)產(chǎn)品質(zhì)量的實(shí)時(shí)控制,采用軟測(cè)量方法對(duì)常壓塔塔頂干點(diǎn)可以實(shí)現(xiàn)在線估計(jì)[1]。
近年來(lái),最具代表性的軟測(cè)量建模方法為支持向量機(jī)(Support Vector Machine, SVM)[2]與人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)[3]。李悅卿等[4?5]提出了將最小二乘支持向量機(jī)(LSSVM)算法與BP神經(jīng)網(wǎng)絡(luò)算法作對(duì)比,將SVM的不等式約束替換成等式約束,加速了模型求解速度,避免了BP神經(jīng)網(wǎng)絡(luò)難以選擇合適的參數(shù)結(jié)構(gòu)以及局部極小值問題。文獻(xiàn)[6]利用核主元分析(KPCA)算法,通過(guò)降低樣本的維數(shù)提取主元,然后使用LSSVM進(jìn)行建模,降低了模型的復(fù)雜性,提高了模型的泛化能力。在LSSVM模型中由于算法本身存在缺陷,計(jì)算過(guò)程中所有數(shù)據(jù)樣本都被當(dāng)成支持向量,導(dǎo)致隨著樣本數(shù)量增加,計(jì)算難度越來(lái)越大。對(duì)LSSVM進(jìn)行支持向量數(shù)量的消減,增加模型的稀疏性特征,是LSSVM模型改進(jìn)的方向[7?8]。針對(duì)LSSVM模型缺少稀疏性的特征,目前已經(jīng)提出了很多的改進(jìn)算法,這些算法以完整數(shù)據(jù)集作為L(zhǎng)SSVM模型的訓(xùn)練樣本,導(dǎo)致計(jì)算量增加,在模型的預(yù)測(cè)精度上也需要進(jìn)一步提高[9?11]。
考慮到常減壓蒸餾過(guò)程中常壓塔塔頂汽油干點(diǎn)受很多過(guò)程變量的影響,導(dǎo)致所采集的數(shù)據(jù)維數(shù)過(guò)高[12],有必要對(duì)輔助變量進(jìn)行選擇和對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。KPCA算法借助核函數(shù)將變量經(jīng)過(guò)非線性映射轉(zhuǎn)換到高維特征空間來(lái)進(jìn)行特征提取,解決數(shù)據(jù)間存在的非線性問題[13]。由于KPCA投影到更高維空間再進(jìn)行降維的過(guò)程,計(jì)算難度大大增加,工況數(shù)據(jù)分析時(shí)間過(guò)長(zhǎng),不利于干點(diǎn)的實(shí)時(shí)預(yù)測(cè)。稀疏思想能夠自動(dòng)削弱貢獻(xiàn)率小的特征變量,提取重要的特征變量[14?16]。
式(4)可以寫成:
即:
對(duì)核矩陣進(jìn)行中心化處理:
KPCA算法通過(guò)在高維空間把非線性數(shù)據(jù)轉(zhuǎn)化成線性關(guān)系來(lái)處理,這種方法得到的載荷是空間內(nèi)所有變量的線性組合,無(wú)法突出變量對(duì)主元的貢獻(xiàn)率,往往是不稀疏的,受噪聲干擾明顯。
LSSVM是基本SVM的一種擴(kuò)展[17]。它使用最小二乘損失函數(shù)代替SVM中不敏感損失函數(shù),由此將二次規(guī)劃問題轉(zhuǎn)化為線性方程組求解[18]。LSSVM實(shí)際就是一個(gè)解線性方程組的過(guò)程,降低了計(jì)算的復(fù)雜性,加快了求解速度。其基本原理為:
由Karush?Kuhn?Tucker(KKT)最優(yōu)條件,得:
將式(16)寫成矩陣:
得到最小二乘支持向量機(jī)的輸出:
本文提出SKPCA算法,結(jié)合KPCA與SPCA,使用核函數(shù)投影到高維特征空間,在高維空間內(nèi)運(yùn)行SPCA算法,即可以處理非線性數(shù)據(jù),也可以使主成分變得稀疏。
文獻(xiàn)[19-20]首次說(shuō)明PCA問題可以改寫為帶有二次懲罰的回歸型優(yōu)化問題,SPCA模型中包含1罰函數(shù)和2罰函數(shù),其策略就是在尋找一個(gè)PCA回歸優(yōu)化框架,再通過(guò)應(yīng)用帶Lasso懲罰的彈性網(wǎng)直接修正,所以SPCA不僅對(duì)原始變量進(jìn)行降維,而且還使主成分變得稀疏。SPCA模型為:
根據(jù)SPCA模型給出SKPCA模型:
KSPCA算法步驟為:
步驟6 重復(fù)步驟2-3,直到收斂。
步驟7 標(biāo)準(zhǔn)化之后得到特征值矩陣:
將經(jīng)過(guò)SKPCA處理的數(shù)據(jù)再作為最小二乘支持向量機(jī)模型的輸入,可以有效地解決核主元分析算法和最小二乘支持向量機(jī)算法缺少稀疏性的問題。
為了驗(yàn)證上述SKPCA?LSSVM模型的有效性,使用某煉油廠的實(shí)際數(shù)據(jù)進(jìn)行MATLAB仿真分析。實(shí)驗(yàn)使用電腦操作系統(tǒng)為Windows 10,CPU為Intel Core i7,內(nèi)存為256 GB DDR4。
根據(jù)常壓塔塔頂汽油干點(diǎn)這一產(chǎn)品指標(biāo),采用軟測(cè)量建模,選擇具有代表性能夠覆蓋正常運(yùn)行工況的適當(dāng)數(shù)據(jù)作為學(xué)習(xí)樣本訓(xùn)練,輸入實(shí)時(shí)采集的過(guò)程參數(shù),模型就會(huì)給出相應(yīng)的質(zhì)量值,從而實(shí)現(xiàn)產(chǎn)品質(zhì)量指標(biāo)在線測(cè)量的目標(biāo)。輸入變量的選擇應(yīng)基于過(guò)程變量的類型、數(shù)目和測(cè)點(diǎn)位置之間的相互關(guān)聯(lián),遵循常減壓蒸餾過(guò)程的機(jī)理規(guī)律[21]。通過(guò)對(duì)某煉油廠操作規(guī)程的了解,結(jié)合現(xiàn)場(chǎng)生產(chǎn)過(guò)程數(shù)據(jù),初步選擇影響常壓塔塔頂干點(diǎn)的14個(gè)變量(見表1)。
表1 影響常壓塔塔頂干點(diǎn)的輔助變量
表2 基于PCA、KPCA、SKPCA的貢獻(xiàn)率及累積貢獻(xiàn)率
分別使用LSSVM、PCA?LSSVM、SPCA?LSSVM對(duì)模型訓(xùn)練和測(cè)試,得到原干點(diǎn)數(shù)據(jù)和預(yù)測(cè)干點(diǎn)數(shù)據(jù)的擬合曲線和誤差曲線。采用均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)作為模型性能評(píng)價(jià)準(zhǔn)則。
仿真結(jié)果如圖1所示,模型性能對(duì)比如表3所示。
圖1 常壓塔塔頂汽油干點(diǎn)預(yù)測(cè)結(jié)果及擬合誤差
表3 三種模型的性能對(duì)比
從圖1可以看出,與PCA?LSSVM、KPCA?LSSVM軟測(cè)量建模結(jié)果相比,在常壓塔塔頂汽油干點(diǎn)的預(yù)測(cè)走勢(shì)上來(lái)看,SKPCA?LSSVM軟測(cè)量建模結(jié)果更加逼近真實(shí)值,預(yù)測(cè)精度有了明顯改善,基本上能滿足工藝的要求;SKPCA?LSSVM軟測(cè)量模型的預(yù)測(cè)誤差比PCA?LSSVM、KPCA?LSSVM軟測(cè)量模型的預(yù)測(cè)誤差小,誤差波動(dòng)范圍也減小了很多。由表3可知,SKPCA?LSSVM模型性能優(yōu)于PCA?LSSVM、KPCA?LSSVM軟測(cè)量模型。因此,SKPCA?LSSVM模型具有更好的預(yù)測(cè)精度和應(yīng)用前景。
使用軟測(cè)量方法對(duì)常壓塔塔頂干點(diǎn)進(jìn)行預(yù)測(cè),分析了KPCA算法和LSSVM算法的缺點(diǎn),提出了一種基于稀疏核主元分析(KSPCA)數(shù)據(jù)預(yù)處理新方法。首先,將數(shù)據(jù)映射到更高維的空間,解決了數(shù)據(jù)在低維空間內(nèi)存在嚴(yán)重非線性相關(guān)問題。然后,在高維空間內(nèi)對(duì)數(shù)據(jù)樣本個(gè)主元進(jìn)行稀疏化處理,減少了無(wú)關(guān)變量對(duì)方差的干擾,提高了主成分的穩(wěn)定性。將經(jīng)過(guò)SKPCA、KPCA和PCA處理后的數(shù)據(jù)分別輸入到最小二乘支持向量機(jī)預(yù)測(cè)模型中。仿真結(jié)果表明,SKPCA?LSSVM解決了原始數(shù)據(jù)之間非線性問題,增加了模型的稀疏性,而且模型性能得到提高。
[1] 俞金壽.軟測(cè)量技術(shù)在石油化工中的應(yīng)用[J].石油化工,2000,29(3):221?226.
[2] Vapnik V N. The nature of statistical lLearning theory [M].New York:Springer?Verlag,1995.
[3] Rumelhart D, Hinton G, Williams R. Learning representations by back propagatingerrors[J]. Nature, 1986, 323(6088):533?536.
[4] 李悅卿. 基于神經(jīng)網(wǎng)絡(luò)和最小二乘支持向量機(jī)的軟測(cè)量技術(shù)應(yīng)用研究[D].青島:青島科技大學(xué),2007.
[5] 李悅卿,金思毅,陶少輝,等.最小二乘支持向量機(jī)用于常壓塔汽油干點(diǎn)的軟測(cè)量[J].計(jì)算機(jī)與應(yīng)用化學(xué),2008(8):928?930.
[6] 王強(qiáng),田學(xué)民.基于KPCA?LSSVM的軟測(cè)量建模方法[J].化工學(xué)報(bào),2011,62(10):2813?2817.
[7] Suykens J, Lukas L, Vandewalle J. Sparse least squares support vector machine classifiers[C]// ESANN 2000, 8th European Symposium on Artificial Neural Networks, Bruges:[s.n.],2000.
[8] Kruif B, Vries T J A D. Pruning error minimization in least squares support vector machines[J]. IEEE Transactions on Neural Networks, 2003, 14(3):696?702.
[9] Zeng X, Chen X W.SMO?based pruning, methods for sparse least squares support vector machines[J].IEEE Transactions on Neural Networks,2005,16(6):1541?1546.
[10] Kuh A,Wilde P D. Comments on "Pruning error minimization in least squares support vector machines"[J]. IEEE Transactions on Neural Networks,2007,18(2):606?609.
[11] 余正濤,鄒俊杰,趙興,等.基于主動(dòng)學(xué)習(xí)的最小二乘支持向量機(jī)稀疏化[J].南京理工大學(xué)學(xué)報(bào),2012,36(1):12?17.
[12] 黃德先,江永亨,金以慧.煉油工業(yè)過(guò)程控制的研究現(xiàn)狀、問題與展望[J].自動(dòng)化學(xué)報(bào),2017,43(6):902?916.
[13] Wu J N, Wang J, Liu L. Feature extraction via KPCA for classification of gait patterns[J]. Human Movement Science, 2007, 26(3):393?411.
[14] 彭麗.基于稀疏主成分分析的股票投資組合研究[D].成都:西南財(cái)經(jīng)大學(xué),2014.
[15] 喻勝華,張新波.稀疏主成分在綜合評(píng)價(jià)中的應(yīng)用[J].財(cái)經(jīng)理論與實(shí)踐,2009,30(5):106?109.
[16] 段怡雍. 基于稀疏主元分析的故障檢測(cè)研究[D].杭州:浙江理工大學(xué),2019.
[17] 樓志挺,李春祥.基于空間多點(diǎn)輸入的LSSVM非高斯風(fēng)壓預(yù)測(cè)[J].上海大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,25(6):1013?1022.
[18] 孫斌,姚海濤.基于PSO優(yōu)化LSSVM的短期風(fēng)速預(yù)測(cè)[J].電力系統(tǒng)保護(hù)與控制,2012,40(5):85?89.
[19] Zou H.The adaptive lasso and its oracle properties[J]. Publications of the American Statistical Association, 2006, 101(476):1418?1429.
[20] Zou H, Tibshirani H R. Sparse principal component analysis[J]. Journal of Computational and Graphical Stats, 2006, 15(2):1?30.
[21] 潘立登,李大宇,馬俊英,等.軟測(cè)量技術(shù)原理及應(yīng)用[M].北京:中國(guó)電力出版社,2009.
Application of SKPCA?LSSVM Model in Gasoline Dry Point Prediction
Guo Liying, Li Wenna, Lang Xianming
(School of Information and Control Engineering,Liaoning Petrochemical University,F(xiàn)ushun Liaoning 113001,China)
The dry point of gasoline on the top of atmospheric tower is closely related to product quality, but it is difficult to measure the gasoline dry point online, and the soft sensor is a technical way to solve the estimation and control prediction of such variables. Due to the complexity of atmospheric and vacuum distillation process, the correlation between the variables increases. In this paper, sparse principal component analysis (SPCA) was introduced into kernel principal component analysis(KPCA) algorithm, and the input variables of the model were selected by sparse kernel principal component analysis(SKPCA) algorithm. The nonlinear dimensionality reduction between data was realized, the principal component structure was simplified, and the sparsity of principal component variables was increased. The selected sparse principal components were used as the input of the least squares support vector machine (LSSVM), and the soft sensor prediction model for the top dry point of atmospheric tower was established. The simulation results show that the SKPCA?LSSVM model has higher prediction accuracy and superior model performance compared with the traditional PCA?LSSVM and KPCA?LSSVM methods.
Soft sensor; Kernel principal component analysis; Sparse kernel principal component analysis; Least squares support vector machines; Dry point of gasoline
TE624;TP29
A
10.3969/j.issn.1672?6952.2022.03.013
1672?6952(2022)03?0074?05
http://journal.lnpu.edu.cn
2021?03?15
2022?05?19
中國(guó)博士后科學(xué)基金項(xiàng)目(2020M660125);遼寧省博士科研啟動(dòng)基金計(jì)劃項(xiàng)目(2019?BS?158);遼寧省教育廳項(xiàng)目(L2020017);遼寧石油化工大學(xué)引進(jìn)人才科研啟動(dòng)基金項(xiàng)目(2019XHHL?008)。
郭麗瑩(1996?),女,碩士研究生,從事軟測(cè)量技術(shù)原理與應(yīng)用研究;E?mail:guoliying960302@126.com。
李文娜(1976?),女,博士,講師,從事信號(hào)處理、工業(yè)過(guò)程控制研究;E?mail:liwenna0810224@126.com。
(編輯 陳 雷)