高世偉,趙 力
(1.蘭州石化職業(yè)技術(shù)學(xué)院電子電氣工程學(xué)院,甘肅 蘭州 730060; 2.中國(guó)石油蘭州石化公司自動(dòng)化研究院,甘肅 蘭州 730060)
一種基于支持向量機(jī)的軟測(cè)量建模方法
高世偉1,趙 力2
(1.蘭州石化職業(yè)技術(shù)學(xué)院電子電氣工程學(xué)院,甘肅 蘭州 730060; 2.中國(guó)石油蘭州石化公司自動(dòng)化研究院,甘肅 蘭州 730060)
在生產(chǎn)過(guò)程中,在線分析儀表通常被用于對(duì)被測(cè)介質(zhì)的組成或物性參數(shù)進(jìn)行自動(dòng)連續(xù)測(cè)量,但很多參數(shù)無(wú)法通過(guò)在線分析儀表直接測(cè)量獲得。在工業(yè)現(xiàn)場(chǎng),通常采用軟測(cè)量技術(shù)來(lái)彌補(bǔ)在線分析儀表的不足。軟測(cè)量技術(shù)也稱軟儀表技術(shù),是基于推斷控制理論的一門新興工業(yè)技術(shù)。其利用易測(cè)過(guò)程變量與難以直接測(cè)量的待測(cè)過(guò)程變量之間的數(shù)學(xué)關(guān)系,通過(guò)各種計(jì)算和估計(jì)方法,實(shí)現(xiàn)對(duì)待測(cè)過(guò)程變量的測(cè)量。為了提高軟測(cè)量模型的性能,提出一種基于支持向量機(jī)的軟測(cè)量建模方法。該模型結(jié)構(gòu)分為兩層:一層用于分析工業(yè)數(shù)據(jù)在時(shí)間序列上的相互關(guān)系,解決時(shí)間序列的相關(guān)性問(wèn)題;一層用于軟測(cè)量建模和分析,解決非線性回歸模型的魯棒性。仿真結(jié)果表明,該軟測(cè)量建模方法在進(jìn)行在線預(yù)測(cè)時(shí)具有很好的性能,為軟測(cè)量技術(shù)在工業(yè)現(xiàn)場(chǎng)的應(yīng)用提供了一種方法。
軟測(cè)量; 支持向量機(jī); 閃點(diǎn); 色譜模擬蒸餾; 雙層模型; 在線分析儀表; 油品餾程
在煉化生產(chǎn)過(guò)程中,由于技術(shù)或經(jīng)濟(jì)的原因,一些變量無(wú)法直接測(cè)量。但是這些變量對(duì)于保證產(chǎn)品質(zhì)量和生產(chǎn)裝置的平穩(wěn)運(yùn)行都十分重要。為解決這個(gè)問(wèn)題,軟測(cè)量技術(shù)應(yīng)運(yùn)而生,并已發(fā)展為當(dāng)前過(guò)程控制領(lǐng)域的研究熱點(diǎn)之一。軟測(cè)量技術(shù)依據(jù)可測(cè)、易測(cè)的過(guò)程變量與難以直接檢測(cè)的待測(cè)變量的數(shù)學(xué)關(guān)系,根據(jù)某種最優(yōu)準(zhǔn)則構(gòu)建數(shù)學(xué)模型,實(shí)現(xiàn)對(duì)待測(cè)變量的預(yù)測(cè)[1-2]。支持向量機(jī)(support vector machine,SVM)是從統(tǒng)計(jì)學(xué)習(xí)理論發(fā)展而來(lái)的,是一種主要針對(duì)小樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)、分類和預(yù)測(cè)的方法;具有良好的泛化能力和魯棒性,被用來(lái)解決模式識(shí)別、回歸估計(jì)等問(wèn)題[3-4]。本文提出了一種基于支持向量機(jī)的軟測(cè)量建模方法,可以提高模型的準(zhǔn)確性。
支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的監(jiān)督式學(xué)習(xí)方法[5-7]。假設(shè)有兩組樣本數(shù)據(jù),訓(xùn)練數(shù)據(jù)x∈Rm是一個(gè)向量。分類的結(jié)果為y∈{-1,1},表示兩種數(shù)據(jù)的分類結(jié)果,即將樣本數(shù)據(jù)分成兩類結(jié)果,類別用y來(lái)表示,1和 -1代表兩個(gè)不同的類,支持向量機(jī)是一種兩類分類模型。假設(shè)有n個(gè)訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)組為{x,y}∈Rn×m×{-1,1},i=1,2,…,n。建模的目的是用這些組數(shù)據(jù)找到數(shù)據(jù)的分類模式。假設(shè)P(x,y)為數(shù)據(jù)集的未知概率分布;f(x,a)為輸入x到輸出y的映射;a為一個(gè)可調(diào)節(jié)參數(shù),代表了在假設(shè)空間中的一個(gè)特定的函數(shù)。
期望風(fēng)險(xiǎn)為:
(1)
然而,因?yàn)楦怕史植嘉粗琑(a)不能準(zhǔn)確計(jì)算,但是可以計(jì)算期望風(fēng)險(xiǎn)的邊界。如果有n個(gè)被觀測(cè)數(shù)據(jù),定義經(jīng)驗(yàn)風(fēng)險(xiǎn)為:
(2)
(3)
為了最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù),定義一組指示函數(shù):
f(x,w)=sign{(w×v)}w∈Rn
(4)
式中:(w×v)為向量w和v的內(nèi)積。
經(jīng)驗(yàn)風(fēng)險(xiǎn)Remp(w)為:
(5)
如果訓(xùn)練集可以正確分離,意味著經(jīng)驗(yàn)風(fēng)險(xiǎn)可為0,通過(guò)有限的步驟可以找到向量w。如果訓(xùn)練集不可分類,問(wèn)題就變成了非確定多項(xiàng)式(non-deterministic polynomial,NP)完全問(wèn)題。此外,因?yàn)楹瘮?shù)的梯度或?yàn)?或不明確,所以不能采用通常的基于梯度的方法,需要用S函數(shù)近似得到:
(6)
式中:S為光滑單調(diào)函數(shù),S(-∞)=-1,S(∞)=1。
SVM采用最優(yōu)分類超平面,利用數(shù)據(jù)和超平面的最大距離分類數(shù)據(jù)。假設(shè)有訓(xùn)練數(shù)據(jù):(x1,y1),(x2,y2),…,(xn,yn),x∈Rm,y∈{-1,1}。
數(shù)據(jù)有兩類,一類的目標(biāo)值y為-1,另一類的目標(biāo)值y為1,分割的超空間定義為:
(w×x)+b=0w∈Rnb∈R
(7)
決策函數(shù)為:
f(x)=sign{(w×x)+b}
(8)
在這個(gè)模型中,w和b為變量,xi和yi為輸入數(shù)據(jù),通??梢赞D(zhuǎn)化為對(duì)偶問(wèn)題來(lái)處理:
(9)
決策函數(shù)為:
(10)
這是有一個(gè)等式約束條件的二次規(guī)劃問(wèn)題,問(wèn)題的解a指定了訓(xùn)練模式,對(duì)應(yīng)a非零成分的向量w稱為支持向量,它影響分類超平面的形成。
支持向量機(jī)在多個(gè)領(lǐng)域被用來(lái)解決具體的工程問(wèn)題,同時(shí),依據(jù)支持向量機(jī)的基本原理,也出現(xiàn)了多種用于提升支持向量機(jī)性能的方法[8-11]。這里采用一種新的基于支持向量機(jī)的兩層軟測(cè)量建模方法:在一層中將系統(tǒng)辨識(shí)理論用于分析工業(yè)數(shù)據(jù)在時(shí)間序列上的相互關(guān)系;在另一層中支持向量機(jī)用于軟測(cè)量建模和分析,以提高模型的魯棒性和范化性能。
系統(tǒng)辨識(shí)理論用于發(fā)現(xiàn)過(guò)程數(shù)據(jù)的時(shí)間相關(guān)性,前n個(gè)預(yù)報(bào)值被反饋輸入,迭代模型將訓(xùn)練集(d為x變量的維數(shù))映射到新的動(dòng)態(tài)特征空間S中,映射表示為:
(11)
借助數(shù)理統(tǒng)計(jì)中的F檢驗(yàn)法,確定模型的結(jié)構(gòu)參數(shù)(n,m)。
損失函數(shù)為殘差平方和:
(12)
式中:n為假定階;n0為系統(tǒng)階的真值。一般來(lái)說(shuō),當(dāng)n≤n0時(shí),隨著n的增加,J(n)明顯下降;當(dāng)n>n0時(shí),J(n)值變化不明顯。
設(shè)n1、n2是模型的兩個(gè)不同階次,當(dāng)階次從n1增加到n2時(shí),損失函數(shù)從J(n1)降至J(n2)。判斷J(n)的變化是否顯著:如果顯著,說(shuō)明n2比n1更接近真實(shí)階次n0;如果不顯著,則說(shuō)明n1已經(jīng)接近真實(shí)階次n0。檢驗(yàn)損失函數(shù)是否有顯著差異,引入統(tǒng)計(jì)檢驗(yàn)準(zhǔn)則:
(13)
式中:N為樣本長(zhǎng)度;2n1、2n2分別為模型階次是n1、n2時(shí)參數(shù)的數(shù)目。當(dāng)n2>n1>n0時(shí),存在充分大的N,統(tǒng)計(jì)量t漸近服從F(f1,f2)分布,F(xiàn)分布自由度f(wàn)1=2(n2-n1)、f2=N-2n2。這時(shí),確定階的問(wèn)題可以轉(zhuǎn)換為假設(shè)檢驗(yàn)問(wèn)題H0:
n2>n1>n0
(14)
利用統(tǒng)計(jì)量F來(lái)檢驗(yàn)H0。給定置信度α,檢查Fα分布表得Fα(否定域臨界值)。若F 通過(guò)F檢驗(yàn)來(lái)確定階次,用逐次遞增階的方法(即n1=1,2,…;n2=n1+1),每增加一階次,就進(jìn)行一次F檢驗(yàn),直到J(n1)與J(n2)無(wú)顯著差別為止。此時(shí)n2-n1=1,從而統(tǒng)計(jì)量t(n1,n2)可簡(jiǎn)化為: (15) 在另一層中,支持向量回歸的預(yù)測(cè)性能則用于提升軟測(cè)量模型的范化性能。該方法的基本原理是動(dòng)態(tài)組分值由其他參數(shù)和它們的迭代值計(jì)算獲得,可用以下公式進(jìn)行描述。 (16) 因此,動(dòng)態(tài)系統(tǒng)的學(xué)習(xí)問(wèn)題等同于從(l+n)個(gè)稀疏點(diǎn)集中估計(jì)未知的f函數(shù)。 由于油品的閃點(diǎn)數(shù)據(jù)與油品的餾分?jǐn)?shù)據(jù)有相關(guān)性,可以采用色譜模擬蒸餾餾程的部分餾程點(diǎn)數(shù)據(jù),以間接獲得油品的閃點(diǎn)數(shù)據(jù)。在實(shí)際應(yīng)用中,將包括初餾點(diǎn)、5%、10%點(diǎn)內(nèi)的多個(gè)餾程點(diǎn)數(shù)據(jù)加入到系統(tǒng)模型中。依據(jù)機(jī)理分析,分別采用標(biāo)準(zhǔn)支持向量機(jī)以及本文提出的雙層支持向量機(jī)建立閃點(diǎn)的預(yù)測(cè)模型。 在相同的測(cè)試條件下,分別利用標(biāo)準(zhǔn)法和新發(fā)法對(duì)預(yù)測(cè)航空煤油的閃點(diǎn)進(jìn)行預(yù)測(cè)。重復(fù)性對(duì)比結(jié)果如表1所示。 表1 重復(fù)性對(duì)比結(jié)果 從表1可以看出,新方法的重復(fù)性要好于標(biāo)準(zhǔn)法。 準(zhǔn)確性是評(píng)價(jià)方法的另一項(xiàng)重要指標(biāo),為此將采集的常一線航空煤油樣本分別進(jìn)行色譜模擬蒸餾測(cè)試與閉口杯閃點(diǎn)測(cè)試(試驗(yàn)值),計(jì)算標(biāo)準(zhǔn)法和新發(fā)法預(yù)測(cè)值和試驗(yàn)法的誤差(計(jì)算值與試驗(yàn)值之差)。準(zhǔn)確性對(duì)比結(jié)果如表2所示。 表2 準(zhǔn)確性對(duì)比結(jié)果 從預(yù)測(cè)的誤差數(shù)據(jù)看,標(biāo)準(zhǔn)法與新方法的絕對(duì)誤差平均值分別為1.08 ℃和0.78 ℃,新方法計(jì)算結(jié)果準(zhǔn)確性要優(yōu)于標(biāo)準(zhǔn)法。 為了全面地評(píng)價(jià)兩種計(jì)算方法的準(zhǔn)確性,對(duì)航空煤油餾分進(jìn)行了大量的閃點(diǎn)對(duì)比試驗(yàn)。分別計(jì)算標(biāo)準(zhǔn)法與試驗(yàn)法、新方法與試驗(yàn)法的差值,然后比較差值在各區(qū)間的個(gè)數(shù)。兩種計(jì)算法和試驗(yàn)法的誤差(計(jì)算值與試驗(yàn)法之差)統(tǒng)計(jì)分布如表3所示。標(biāo)準(zhǔn)法的平均絕對(duì)誤差為1.55 ℃,新方法的平均絕對(duì)誤差為1.33 ℃。 表3 誤差統(tǒng)計(jì)分布 從誤差統(tǒng)計(jì)分布的規(guī)律來(lái)看,新方法誤差分布較標(biāo)準(zhǔn)法更集中,平均絕對(duì)誤差較小。由于誤差分布相對(duì)集中的特點(diǎn),可以方便地對(duì)其計(jì)算值進(jìn)行校正,因此新方法要優(yōu)于標(biāo)準(zhǔn)法。 本文介紹了支持向量機(jī)的基本概念,并提出了一種基于支持向量機(jī)的軟測(cè)量建模方法。該軟測(cè)量模型結(jié)構(gòu)分為兩層:一層用于分析工業(yè)數(shù)據(jù)在時(shí)間序列上的相互關(guān)系,解決時(shí)間序列的相關(guān)性問(wèn)題;另一層用于軟測(cè)量建模和分析,解決非線性回歸模型的魯棒性。以航空煤油閃點(diǎn)為研究和應(yīng)用對(duì)象,進(jìn)行軟測(cè)量建模預(yù)測(cè)仿真。仿真結(jié)果表明,該方法處理預(yù)測(cè)產(chǎn)品組分問(wèn)題時(shí)具有很好的性能,這為以后軟測(cè)量技術(shù)在工業(yè)現(xiàn)場(chǎng)中的應(yīng)用提供了一種方法。 [1] VAPNIK V N. The nature of statistical learning theory[M].2nd edtion.New York:Springer,2000. [2] CRAMMER K,SINGER Y. On the learnability and design of output codes for multiclass problems[J]. Machine Learning,2002,47(2-3):201-233. [3] 馮凱,盧建剛,陳金水.基于最小二乘支持向量機(jī)的MIMO線性參數(shù)變化模型辨識(shí)及預(yù)測(cè)控制[J]. 化工學(xué)報(bào),2015,66(1):197-205. [4] 王鮮芳,王歲花,杜昊澤,等.基于模糊粗糙集和支持向量機(jī)的化工過(guò)程故障診斷[J].控制與決策,2015,30(2):353-356. [5] MA J,THEILER J,PERKINS S. Accurate online support vector regression [J]. Neural Computation,2003,15(11):2683-2704. [6] CAUWENBERGHS G,POGGIO T. Incremental and decremental support vector machine learning[J]. Advances in Neural Information Processing Systems,2001,44 (13):409-415. [7] 馮昌,廖士中. 隨機(jī)傅里葉特征空間中高斯核支持向量機(jī)模型選擇[J].計(jì)算機(jī)研究與發(fā)展,2016,53(9):1971-1978. [8] CHENG L L,ZHANG J P,YANG J,et al. An improved hierarchical multi-class support vector machine with binary tree architecture[C]//Proceeding of International Conference on Internet Computing in Science and Engineering.Washington:IEEE Computer Society,2008,1(4):106-109. [9] LIN X,FENG Y Q,LIU X Y,et al. Robust grappa reconstruction using sparse multi-kernel learning with Least squares support vector regression[J]. Magnetic Resonance Imaging,2014,32(1):91-101. [10]WEI L W,CHEN Z Y,LI J P. Evolution strategies based adaptive LS-SVM[J]. Information Sciences,2011,181(14):3000-3016. [11]ZHAO Y P,SUN J G,DU Z H. An improved recursive reduced least squares support vector regression[J]. Neuro Computing,2012,87(1):1-9. A Soft Measurement Modeling Method Based on Support Vector Machine GAO Shiwei1,ZHAO Li2 The online analytical instruments are commonly used to automatically and continuously measure the compositions and physical properties of the measured media in the production process. However,many parameters cannot be obtained directly by on-line analytical instrument. So the soft measurement technology is often used to make up the shortages of the on-line analytical instruments in the industrial field. The soft measurement technology is also known as soft instrument technology,and it is a new industrial technology based on inference control theory. It utilizes the mathematical relationship between the easy-to-test process variables and the process variables that are difficult to be directly measured,and the measurement of the measured process variables is achieved by various computational and estimation methods. In order to improve the performance of the soft measurement model,a soft measurement modeling method is proposed based on support vector machine. The structure of the model is divided into two layers. One layer is used to analyze the interrelationship of the industrial data and solve the correlation of these data in time series; another layer is used for modeling and analyzing,and solving the robustness of nonlinear regression model. The simulation results show that the proposed soft measurement modeling method features good performance for online prediction,and it provides a method for applications of soft measuring technology in industrial field. Soft measurement; Support vector machine; Flash point; Chromatographic simulated distillation; Two-layer model; On-line analytical instrument; Oil distillation process 高世偉(1980—),男,博士,副教授,高級(jí)工程師,主要從事石油化工先進(jìn)檢測(cè)技術(shù)、先進(jìn)控制技術(shù)的研究工作。 E-mail:gaoshiwei1980@126.com。 TH81;TP274 A 10.16086/j.cnki.issn1000-0380.201707011 修改稿收到日期:2017-03-163 煤油閃點(diǎn)模型建立
4 結(jié)束語(yǔ)
(1.College of Electric & Electronic Engineering,Lanzhou Petrochemical College of Vocational Technology,Lanzhou 730060,China; 2. Automation Institute,Lanzhou Petrochemical Company of Petro China,Lanzhou 730060,China)