劉瑞蘭,徐艷,戎舟
(1 南京郵電大學(xué)自動(dòng)化學(xué)院,江蘇 南京 210003;2 河南省輕工業(yè)學(xué)校,河南 鄭州 450006)
支持向量機(jī)(support vector machine,SVM)是由Vapnik 等[1-3]提出的基于統(tǒng)計(jì)學(xué)習(xí)和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的建模方法,該方法在有限樣本情況下,同時(shí)兼顧算法的經(jīng)驗(yàn)風(fēng)險(xiǎn)和推廣能力,廣泛應(yīng)用于解決模式分類問題[4-6]和回歸建模問題[7-10]。標(biāo)準(zhǔn)的支持向量機(jī)采用求解二次規(guī)劃問題的求解方法,最終求出包含少量支持向量的模型,但是算法的復(fù)雜度隨著樣本個(gè)數(shù)的增加而增加。Suykens 等[11]在標(biāo)準(zhǔn)SVM 的目標(biāo)函數(shù)中用誤差平方和項(xiàng)取代誤差的絕對(duì)值項(xiàng),提出了最小二乘支持向量機(jī)(least square support vector machine,LSSVM)方法,由于采用等式約束,LSSVM 采用求解線性方程組的方法求解,但是如果訓(xùn)練樣本多,求出的LSSVM 模型規(guī)模龐大,每個(gè)訓(xùn)練樣本都是支持向量,不具有標(biāo)準(zhǔn)支持向量機(jī)的稀疏性解。針對(duì)這一問題,文獻(xiàn)[12-13]采用剪枝方法實(shí)現(xiàn)對(duì)最小二乘支持向量的稀疏,即先求出非稀疏解,得到一系列核系數(shù),刪除核系數(shù)小的樣本,然后對(duì)剩下的訓(xùn)練樣本重新建模,反復(fù)迭代直到滿足要求。文獻(xiàn)[14]提出了一種改進(jìn)的稀疏化方法,但仍然以剪枝方法為基礎(chǔ),在重新建模時(shí)考慮總的訓(xùn)練樣本的殘差平方和,而不是稀疏后保留的訓(xùn)練樣本的殘差平方和,從而提高模型的推廣能力。文獻(xiàn)[15]提出通過在特征空間中尋找樣本的最大無關(guān)組來解決解的稀疏性問題。
最小二乘支持向量機(jī)的預(yù)測精度與正則化參數(shù)和核函數(shù)參數(shù)的選取有一定的關(guān)系,在最小二乘支持向量機(jī)的應(yīng)用中,常用的參數(shù)選擇方法有經(jīng)驗(yàn)法[15]、網(wǎng)格搜索法[10]和智能算法如遺傳算法[16-18]和差分進(jìn)化算法等[19]。經(jīng)驗(yàn)法通過試湊進(jìn)行賦值,帶有一定的盲目性,而網(wǎng)格搜索法計(jì)算量很大,智能算法可以縮短計(jì)算時(shí)間,但是大多數(shù)文獻(xiàn)要么采用智能方法進(jìn)行最小二乘支持向量機(jī)的稀疏化,而參數(shù)采用經(jīng)驗(yàn)法選擇;要么僅僅采用智能方法進(jìn)行正則化參數(shù)和核參數(shù)的優(yōu)化,根本就不考慮稀疏化問題。
本文采用遺傳算法對(duì)最小二乘支持向量機(jī)同時(shí)進(jìn)行稀疏化和參數(shù)優(yōu)化:假設(shè)每個(gè)訓(xùn)練樣本包含一個(gè)是否為支持向量的概率屬性,該概率大小可以通過遺傳算法來優(yōu)化,從而將上述稀疏化和參數(shù)優(yōu)化統(tǒng)一為多維參數(shù)的優(yōu)化問題。將本文提出的方法建立了PX(ParaXylene)氧化過程中對(duì)羥基苯甲醛(4-carboxy-benzaldchydc,4-CBA)含量的軟測量模型,比較了稀疏前后模型的訓(xùn)練精度和驗(yàn)證精度。
最小二乘支持向量機(jī)方法用如下形式的函數(shù)對(duì)未知函數(shù)進(jìn)行估計(jì)
其中,x∈Rn,y∈R,非線性函數(shù)φ(·) :Rn→Rnh將輸入空間映射為高維特征空間。
滿足約束
為此,可以定義如下Lagrange 函數(shù)
其中,αk是 Lagrange 乘子。分別求出L(w,b,e,α)對(duì)w,b,e,α的偏微分,可以得到式(2)的最優(yōu)條件如下
將其中的ek和w用αk和b表示,則有
其 中,y=[y1,…,yN]T,1=[1 ,…,1]T,α=Ω是一個(gè)方陣,其第k行l(wèi)列的元素為選擇γ>0保證矩陣
可逆,則可以得到α和b的解析表達(dá)式
將式(8)代入式(5),求出w,從而得到非線性逼近模型為
其中,K(x,xk)是核函數(shù),常用的核函數(shù)有線性核、高斯核和多項(xiàng)式核函數(shù)等。正則化參數(shù)γ和核函數(shù)參數(shù)的大小會(huì)影響到模型的預(yù)測精度。
從式(9)可以看出,函數(shù)逼近模型的項(xiàng)數(shù)為訓(xùn)練樣本總數(shù)加1,如果訓(xùn)練樣本數(shù)較多,則模型規(guī)模龐大,影響模型的應(yīng)用。
本文采用遺傳算法進(jìn)行最小二乘支持向量機(jī)稀疏化及參數(shù)優(yōu)化,實(shí)質(zhì)是將問題轉(zhuǎn)化為一個(gè)(N+m)維的多維參數(shù)優(yōu)化問題,前N維用來稀疏化操作,后m維用于正則化參數(shù)和核函數(shù)參數(shù)的優(yōu)化。先定義一個(gè)包括稀疏率和訓(xùn)練誤差及測試誤差在內(nèi)的適應(yīng)度函數(shù),然后對(duì)每個(gè)訓(xùn)練樣本賦予一個(gè)[0,1]區(qū)間內(nèi)的隨機(jī)數(shù),該隨機(jī)數(shù)表示該訓(xùn)練樣本是否是支持向量的概率,如果某個(gè)概率小于0.5 表示對(duì)應(yīng)樣本不是支持向量,將該樣本作為測試樣本放入測試樣本集,否則即為支持向量,放入保留的訓(xùn)練樣本集中。將保留的訓(xùn)練樣本集和后m維的優(yōu)化參數(shù)建立最小二乘支持向量機(jī)模型,計(jì)算適應(yīng)度函數(shù),直到找到使適應(yīng)度函數(shù)最小的一組樣本,則該樣本建立的模型與所有訓(xùn)練樣本都作為支持向量機(jī)相比,模型規(guī)模要小,即實(shí)現(xiàn)了稀疏化。
最小二乘支持向量機(jī)的稀疏化過程實(shí)質(zhì)是將總的訓(xùn)練樣本動(dòng)態(tài)地分為兩部分,一部分為稀疏后保留的樣本,稱為保留的訓(xùn)練樣本集,另一部分為稀疏化后刪除的樣本,稱為測試樣本集,因此適應(yīng)度函數(shù)應(yīng)該包含3 部分:其一為保留的訓(xùn)練樣本集的平均訓(xùn)練誤差,表示模型的訓(xùn)練精度;其二為測試樣本集的平均預(yù)測誤差,表示模型的預(yù)測能力;其三包括稀疏化率,表示稀疏化的程度,本文用保留的樣本數(shù)除以訓(xùn)練樣本總數(shù),該值越小越好。定義適應(yīng)度函數(shù)如下
其中,N為訓(xùn)練樣本總數(shù),M為稀疏后保留的樣本數(shù),yi為保留的訓(xùn)練樣本的輸出值,y?i為保留的訓(xùn)練樣本的估計(jì)值,yj為測試樣本的輸出值,y?j為測試樣本的估計(jì)值。
最小二乘支持向量機(jī)的稀疏化及參數(shù)優(yōu)化的步驟如下所示。
(1)確定種群維數(shù),種群維數(shù)為訓(xùn)練樣本的總個(gè)數(shù)加上需要優(yōu)化的參數(shù)個(gè)數(shù)m。優(yōu)化參數(shù)的個(gè)數(shù)視核函數(shù)類型而定,如果是線性核,需要優(yōu)化的只有正則化參數(shù)γ,如果是RBF(radical basis function)核函數(shù),則需要優(yōu)化的參數(shù)為正則化參數(shù)γ和核函數(shù)參數(shù)σ。
(2)確定種群的上下限,前N維的上下限為[0,1],后面m維的上下限根據(jù)具體的樣本值而定。
(3)確定種群的大小,根據(jù)給定的種群上下限,隨機(jī)給每個(gè)個(gè)體賦初值。
(4)對(duì)每個(gè)個(gè)體前N維對(duì)應(yīng)的概率與0.5 進(jìn)行比較,選出M個(gè)樣本作為保留的訓(xùn)練樣本,進(jìn)行最小二乘支持向量機(jī)建模,并以每個(gè)個(gè)體最后m維的數(shù)據(jù)作為建模需要的參數(shù),根據(jù)式(10)計(jì)算適應(yīng)度函數(shù),保留適應(yīng)度函數(shù)最小的個(gè)體,循環(huán)條件是否滿足,如果滿足退出,否則轉(zhuǎn)步驟(5)。
(5)對(duì)種群進(jìn)行選擇、交叉和變異操作,然后轉(zhuǎn)步驟(4)。
(6)將整個(gè)循環(huán)中適應(yīng)度最小的一個(gè)個(gè)體對(duì)應(yīng)的保留的訓(xùn)練樣本建立的最小支持向量機(jī)模型作為最終模型。
PX 氧化[20-21]是在反應(yīng)溫度為190℃左右,壓力為1.258 MPa,在鈷、錳等催化劑作用下以醋酸為溶劑,用空氣中的氧氣將PX 氧化為TA(terephthalic acid,對(duì)苯二甲酸),TA 進(jìn)一步純化后得到PTA(purified terephthalic acid,精對(duì)苯二甲酸)的過程。PX 氧化反應(yīng)主要由4 個(gè)反應(yīng)組成,除原料PX 和最終產(chǎn)品 PTA 外,還有其他中間產(chǎn)物:TALD(p-tolualdehyde,對(duì)甲基苯甲醛)、PT(p-toluic acid,對(duì)甲基苯甲酸)和4-CBA。其中4-CBA 含量是PTA產(chǎn)品中的重要質(zhì)量指標(biāo)。根據(jù)文獻(xiàn)[19-20]對(duì)反應(yīng)機(jī)理的研究,4-CBA 含量過低,則氧化反應(yīng)程度加深,副反應(yīng)加劇,能耗及醋酸、PX 單耗增加。4-CBA含量過高,則PTA 產(chǎn)品的質(zhì)量達(dá)不到要求。為了節(jié)能降耗,并保證PTA 的產(chǎn)品純度,非常有必要對(duì)4-CBA 含量進(jìn)行實(shí)時(shí)監(jiān)控。
表1 稀疏前后不同核函數(shù)的模型比較Table 1 Comparison of sparse models and non-sparse models with different type kernel
4-CBA 含量無法用常規(guī)的傳感器在線測量,而是通過實(shí)驗(yàn)室分析化驗(yàn)出來,化驗(yàn)時(shí)間比較長;同時(shí)由于化驗(yàn)成本較高,其采樣間隔較長,如某工廠對(duì)4-CBA 含量的采樣周期為8 h,每天固定在0 點(diǎn)、8 點(diǎn)和16 點(diǎn)采樣,因此一天最多只有3 個(gè)滯后數(shù)小時(shí)的4-CBA 含量的分析值。需要采用軟測量技術(shù)在線估計(jì)4-CBA 含量。
影響4-CBA 含量的因素較多,本文依據(jù)文獻(xiàn)[21-22]選擇氧化反應(yīng)器物料進(jìn)料流量、催化劑濃度、氧化反應(yīng)器液位、氧化反應(yīng)器溫度、氧化反應(yīng)器尾氧含量、第三冷凝器排出水量、第一結(jié)晶器溫度、第一結(jié)晶器尾氧含量、反應(yīng)生成的二氧化碳含量、反應(yīng)生成的一氧化碳含量共10 個(gè)過程變量作為軟測量模型的輸入變量。輸出量為4-CBA 的含量,單位為mol·kg-1。
本文采用的數(shù)據(jù)來源于某化工廠,總共收集了177 組樣本,樣本按時(shí)間順序排列,取前面120 組樣本作為訓(xùn)練總樣本(training samples,TS),后面57 組樣本作為驗(yàn)證模型有效性的驗(yàn)證樣本(validation samples,VS),種群數(shù)為100,樣本稀疏化概率的范圍為[0,1],γ和σ的取值范圍均為[0.01,1000],迭代次數(shù)500 次,交叉概率0.25,變異概率0.08,選擇方法為輪盤賭。分別采用線性核和RBF 核,對(duì)120 個(gè)訓(xùn)練樣本進(jìn)行稀疏化。算法程序在CPU 為2.6 GHz、內(nèi)存為4 GB 的電腦運(yùn)行,經(jīng)過多次運(yùn)行后,選擇最好的結(jié)果如表1所示,表1中的誤差均為平均相對(duì)誤差。從表中可以看出,稀疏前樣本數(shù)為120,也即模型規(guī)模有121 項(xiàng),不論是線性核還是RBF 核,模型訓(xùn)練誤差都很小,但是驗(yàn)證誤差相比而言較大;稀疏后,只剩下16 個(gè)樣本(線性核)和17 個(gè)樣本(RBF 核),稀疏化率接近87%,模型規(guī)模大幅度減小,與稀疏前相比,模型訓(xùn)練誤差有所變大,但是驗(yàn)證誤差卻比稀疏前要小,這說明對(duì)于最小二乘支持向量機(jī)而言,并非訓(xùn)練樣本越多越好,因?yàn)橛?xùn)練樣本越多,意味著模型越復(fù)雜,從而降低了模型的推廣性能。從表1還發(fā)現(xiàn),無論稀疏前后,非線性核的驗(yàn)證誤差比線性核的大,也就是說對(duì)于同等規(guī)模的訓(xùn)練樣本建立的模型,線性核的推廣能力比RBF 核要好,這是因?yàn)楸疚牡倪^程數(shù)據(jù)是靜態(tài)數(shù)據(jù),在靜態(tài)工作點(diǎn)附近基本是線性的,線性核與過程的狀態(tài)更匹配。表2給出了從程序的運(yùn)行時(shí)間上比較稀疏前后模型的性能。從表中可以看出,用遺傳算法進(jìn)行稀疏化所用的時(shí)間遠(yuǎn)大于直接建模所用的時(shí)間,而稀疏模型投入運(yùn)行后,對(duì)同樣規(guī)模的驗(yàn)證樣本所需要的計(jì)算時(shí)間要小。因此引入遺傳算法稀疏化增加了建模所用的時(shí)間,但是由于建模是離線進(jìn)行的,不影響模型的在線投運(yùn)。
為了進(jìn)一步驗(yàn)證算法的穩(wěn)定性,將稀疏算法程序(線性核情況)經(jīng)過5000 次運(yùn)行,計(jì)算稀疏化率、訓(xùn)練誤差和驗(yàn)證誤差的平均值和方差分別86.67%±0.025、0.0376±0.0064 和0.0397±0.0092。方差比較小,表明本文提出的方法穩(wěn)定性較好。
表2 稀疏前后建模和驗(yàn)證時(shí)間比較Table 2 Running time comparison of sparse models and non-sparse models/s
圖1和圖2分別給出了在線性核情況下,稀疏前后模型的輸出比較。
提出了基于遺傳算法的最小二乘支持向量機(jī)的稀疏化和參數(shù)優(yōu)化方法,并將該方法應(yīng)用于工業(yè)PX 氧化過程4-CBA 含量的軟測量中,工業(yè)數(shù)據(jù)仿真結(jié)果表明,用本文提出的方法稀疏化率高,自動(dòng) 完成正則化參數(shù)和核函數(shù)參數(shù)的優(yōu)化,稀疏化后模型的預(yù)測結(jié)果更好。
圖2 稀疏前后最小二乘支持向量機(jī)模型驗(yàn)證結(jié)果Fig.2 Validation results of sparse LSSVM model and non-sparse LSSVM model
[1]Vapnik V,Levin E,Le Cun Y.Measuring the VC dimension of learning machines [J].Neural Computation(S0899-7667),1994 (6):851-876
[2]Vapnik V.The Nature of Statistical Learning Theory [M].New York:Springer,1995
[3]Vapnik V.Statistical Learning Theory [M].New York:John Wiley,1998
[4]Cao Wei (曹巍),Zhao Yingkai (趙英凱),Gao Shiwei (高世偉).Multi-class support vector machines based on fuzzy kernel cluster [J].CIESC Journal(化工學(xué)報(bào)),2010,61 (2):420-424
[5]Wang Anna (王安娜),Li Yunlu (李云路),Zhao Fengyun (趙鋒云),Shi Chenglong (史成龍).Novel semi-supervised classification algorithm based on TSVM [J].Proceedings of CSEE(中國電機(jī)工程學(xué)報(bào)),2011,32 (7):1546-1550
[6]Yang Zhimin,He Junyun,Shao Yuanhai.Feature selection based on linear twin support vector machines [J].Procedia Computer Science,2013,17:1039-1046
[7]Wendy Flores-Fuentes,Moises Rivas-Lopez,Oleg Sergiyenko,et al.Combined application of power spectrum centroid and support vector machines for measurement improvement in optical scanning systems [J].Signal Processing,2014,98:37-51
[8]Wang Bo (王博),Sun Yukun (孫玉坤),Ji Xiaofu (嵇小輔),et al.Soft-sensor modeling for lysine fermentation processes based on PSO_SVM inversion [J].CIESC Journal(化工學(xué)報(bào)),2012,63 (9):3000-3007
[9]Li Jin (李瑾),Liu Jinpeng (劉金朋),Wang Jianjun (王建軍).Mid-long term load forecasting based on simulated annealing and SVM algorithm [J].Proceedings of CSEE(中國電機(jī)工程學(xué)報(bào)),2011,31 (16):63-66
[10]Wang Zhanneng (王占能),Xu Zuhua (徐祖華),Zhao Jun (趙均),Shao Zhijiang (邵之江).Coal-fired power plant boiler combustion process modeling based on support vector machine and load data division [J].CIESC Journal(化工學(xué)報(bào)),2013,64 (12):4496-4502
[11]Suykens J A K,Vandewalle J.Least squares support vector machine classifiers [J].Neural Processing Letters,1999,9 (3):293-300
[12]Suykens J A K,Lukas L,Vandewalle J.Sparse approximation using least squares support vector machine//IEEE Intenational Symposium on Circuits and Systems [C].Geneva,Swizerland,2000:757-760
[13]Suykens J A K,De Brabanter J,Lukas L,Vandewalle J.Weighted least squares support vector machines:robustness and sparse approximation [J].Neurocomputing,2002,48:85-105
[14]Cawley Gavin C,Talbot Nicola L C.Improved sparse least-squares support vector machines [J].Neurocomputing,2002,48:1025-1031
[15]Gan Liangzhi (甘良志),Sun Zonghai (孫宗海),Sun Youxian (孫優(yōu)賢).Sparse least squares vector machine [J].Journal of Zhejiang University:Engineering(浙江大學(xué)學(xué)報(bào):工學(xué)版),2007,41 (2):245-248
[16]Zhang Chunxiao (張春曉),Zhang Tao (張濤).Oil holdup modeling of oil-water two-phase flow using thermal method based on LSSVM and GA [J].CIESC Journal(化工學(xué)報(bào)),2009,60 (7):1651-1655
[17]Chen Lei (陳磊).Genetic least squares support vector machine approach to hourly water consumption prediction [J].Journal of Zhejiang University:Engineering(浙江大學(xué)學(xué)報(bào):工學(xué)版),2011,45 (6):1100-1103
[18]Shang Wanfeng (尚萬峰),Zhao Shengdun (趙升噸),Shen Yajing (申亞京).Application of LSSVM optimized by genetic algorithm to modeling of switched reluctance motor [J].Proceedings of CSEE(中國電機(jī)工程學(xué)報(bào)),2009,29 (12):65-69
[19]Lin Bihua (林碧華),Gu Xingsheng (顧幸生).Soft sensor modeling based on DE-LSSWM [J].Journalof Chemical Industry and Engineering(China) (化工學(xué)報(bào)),2008,59 (7):1681-1685
[20]Li Xi (李希),Xie Gang (謝剛),Hua Weiqi (華衛(wèi)琦).Key problems and research program for PTA process domestic development [J].Polyester Industry(聚酯工業(yè)),2001,14 (1):1-7
[21]Wang Lijun (王麗軍).Studies on the kinetics ofp-xylene oxidation and the reactor simulation [D].Hangzhou:Zhejiang University,2001
[22]Liu Ruilan (劉瑞蘭),Mou Shengjing (牟盛靜),Su Hongye (蘇宏業(yè)),et al.Modeling soft sensor based on support vector machine and particle swarm optimization algorithms [J].Control Theory and Applications(控制理論與應(yīng)用),2006,23 (6):895-900