王建國 范凱 張文興
(內(nèi)蒙古科技大學(xué)機械工程學(xué)院,內(nèi)蒙 古包頭 014010)
改進(jìn)的粒度支持向量機在甲醇合成中的應(yīng)用
王建國 范凱 張文興
(內(nèi)蒙古科技大學(xué)機械工程學(xué)院,內(nèi)蒙 古包頭 014010)
針對甲醇合成過程中的復(fù)雜性和非線性等問題,利用共享最近鄰(SNN)相似度將訓(xùn)練樣本劃分成若干個信息粒,然后分別進(jìn)行支持向量提取,最后將提取出的支持向量融合,建立最終粗甲醇轉(zhuǎn)化率預(yù)測模型。試驗結(jié)果表明,改進(jìn)的粒度支持向量機(GSVM)可以將“冗余數(shù)據(jù)”進(jìn)行刪減,獲得更“稀疏”的回歸模型,精度也高于傳統(tǒng)支持向量機的粗甲醇轉(zhuǎn)化率模型,從而能更好地指導(dǎo)甲醇生產(chǎn)。
支持向量機 共享最近鄰(SNN) 粒度支持向量機 粗甲醇轉(zhuǎn)化率 粒度計算
甲醇作為一種重要的有機化工材料,在有機合成、醫(yī)藥、涂料和國防等工業(yè)領(lǐng)域有著廣泛的應(yīng)用。在甲醇生產(chǎn)過程中,合成塔出口粗甲醇的轉(zhuǎn)化率是一個非常關(guān)鍵的指標(biāo)。在實際生產(chǎn)中,由于在線分析儀價格昂貴且維護復(fù)雜,通常使用人工采樣分析方法來計算粗甲醇的轉(zhuǎn)化率,因此,建立一個準(zhǔn)確有效的粗甲醇轉(zhuǎn)化率預(yù)測模型變得尤為重要。
對于甲醇轉(zhuǎn)化率的建模研究,目前國內(nèi)研究仍然處于起步階段。文獻(xiàn)[1]利用多模型方法代替單模型來建立甲醇轉(zhuǎn)化率預(yù)測模型。文獻(xiàn)[2]提出一種新的差分進(jìn)化算法。文獻(xiàn)[3]主要利用模糊神經(jīng)網(wǎng)絡(luò)方法,并結(jié)合一定的優(yōu)化算法對網(wǎng)絡(luò)進(jìn)行優(yōu)化處理,其效果優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)。然而由于神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu),其訓(xùn)練效果不太穩(wěn)定,一般需要大量樣本。支持向量機具有較強的學(xué)習(xí)能力與泛化能力,并可以解決小樣本、高維數(shù)、非線性等問題[4-5],因此更適合建立甲醇轉(zhuǎn)化率模型。但是,由于傳統(tǒng)的支持向量機對于復(fù)雜冗余的海量數(shù)據(jù)運算能力較差,導(dǎo)致其泛化能力變?nèi)?影響其最終預(yù)測精度。因此,本文采用一種改進(jìn)的粒度支持向量機建模方法,通過“稀疏化”樣本數(shù)據(jù)來提高模型的預(yù)測精度,從而更好地指導(dǎo)生產(chǎn)。
假設(shè)給定訓(xùn)練樣本集{(xi,yi),i=1,2,…,l},其中xi∈Rd為第i個學(xué)習(xí)樣本的輸入值,d維列向量。對應(yīng)的目標(biāo)值為為樣本個數(shù)。
對于線性情況,支持向量機的函數(shù)擬合首先考慮用線性回歸函數(shù)f(x)=ωx+b擬合,而標(biāo)準(zhǔn)支持向量機一般采用ε-不敏感函數(shù),并引入了松弛變量將最優(yōu)化問題轉(zhuǎn)化成:
可以看出,式(1)為一個凸二次優(yōu)化問題,所以引入Lagrange函數(shù)求解:
αi、為拉格朗日乘子。分別對w、b、ξ、 ξ*求偏導(dǎo)并令其等于零,得到極值條件,返代入上式,可得到如下的對偶最優(yōu)化問題。
根據(jù)最優(yōu)化的KKT條件可知,在最優(yōu)點處拉格朗日乘子與約束的乘積為0,即:
圖1 不敏感系數(shù)及損失函數(shù)Fig.1 The insensitive coefficient and loss function
由式(4)可推導(dǎo)出如下結(jié)論。
①同時滿足ai=0和的樣本點落在ε-帶內(nèi),即如圖1中所示兩條虛線之間的點。這些樣本點對模型的預(yù)測沒有貢獻(xiàn),因此不會出現(xiàn)在決策函數(shù)中。
從上述結(jié)論中可以看出,只有標(biāo)準(zhǔn)支持向量和邊界支持向量對決策函數(shù)有貢獻(xiàn)。也就是說,應(yīng)盡可能地去除那些對決策函數(shù)沒有貢獻(xiàn)的點,即稀疏性可以簡化計算,而且可以提高最終的預(yù)測精度。
2.1 粒度支持向量機
2004年,Yuchun Tang提出了將粒度計算理論和支持向量機相結(jié)合的機器學(xué)習(xí)模型,稱為粒度支持向量機(granular support vector machine,GSVM)[6]。它既可以克服傳統(tǒng)支持向量機對于大規(guī)模數(shù)據(jù)訓(xùn)練效率低下的問題,同時也可以獲得不錯的泛化性能。目前GSVM已成為支持向量機的研究熱點之一[7-9]。
GSVM將樣本空間劃分為若干個粒,構(gòu)建出比傳統(tǒng)支持向量機更加優(yōu)越的間隔寬度,從而提高模型的泛化能力。最優(yōu)超平面的對比圖如圖2所示。
圖2 最優(yōu)超平面的對比圖Fig.2 Comparison of the optimal hyperplanes
其次,GSVM還可以將一個典型的X-OR線性不可分問題,通過合理的劃分機制,將其轉(zhuǎn)化為兩個線性可分問題,從而得到多個決策函數(shù)。線性不可分問題的解決示意圖如圖3所示。
圖3 線性不可分問題的解決示意圖Fig.3 Solution of the linear inseparable issue
支持向量機是針對整體樣本集構(gòu)造最優(yōu)超平面。而粒度支持向量機的主要思想是通過一定的方法將樣本空間劃分成為若干個子空間,得到一系列的信息粒;然后在每個信息粒上進(jìn)行支持向量機的學(xué)習(xí);最后通過信息粒上的信息,獲得最終的支持向量機決策函數(shù)。
2.2 SNN相似度
傳統(tǒng)相似度在高維空間中不能準(zhǔn)確地反映兩點之間的相似問題,而對于密度不同的樣本空間,傳統(tǒng)的密度聚類方法也無法準(zhǔn)確將樣本點區(qū)分出來。針對以上問題,Jarvis-Patrick提出了一種相似性的間接方法,即共享最近鄰(shared nearest neighbor,SNN)相似度。其原理為:如果兩個點與相同的點中的大部分相似,即使兩點的直接相似度量無法反映兩點的相似性,兩點依然相似[10]。
定義 xi和xj為樣本集{x1,x2…xn}的任意兩點,若兩點存在于對方的k-最近鄰中,則兩點相似,且其共享最近鄰點的個數(shù)為兩點的相似度。
兩點之間的SNN相似度的計算如圖4所示。首先,計算兩個黑點的8個最近鄰,其中4個灰色點是兩個黑點共享的最近鄰點,則我們稱這兩個黑點之間的SNN相似度為4。
圖4 兩點之間的SNN相似度的計算Fig.4 Calculation of SNN similarity between two points
2.3 GSVM-SNN算法
由圖5可知,第1股水氨氮濃度為1 700 mg/L,其氨水最低采出濃度為31 927 mg/L,最高采出濃度為67 875 mg/L,未達(dá)到設(shè)計值;出水氨氮濃度即塔釜液氨氮濃度在75 mg/L以內(nèi),其平均值為69.4 mg/L,滿足設(shè)計值。第2股水氨氮濃度為3 500 mg/L,其氨水低采出濃度為86 732 mg/L,最高采出濃度為138 830 mg/L,未達(dá)到設(shè)計值;出水氨氮濃度在45 mg/L以內(nèi),其平均值為33.3 mg/L,滿足設(shè)計值。
SNN相似度在聚類中可以劃分為任意形狀、變密度的樣本集。本文利用SNN相似度這一特性,對樣本點進(jìn)行粒的劃分,得到更符合樣本點自然分布的信息粒。然后對這些信息粒進(jìn)行支持向量機(support vector machine,SVM)的訓(xùn)練,盡可能地提取混合粒中的支持向量點。將這些點與“邊緣點”融合在一起,建立最終的決策模型。
GSVM-SNN主要算法步驟如下。
(1)設(shè)定閾值k。
(2)根據(jù)式(5)計算樣本點的每一個點的k最近鄰,得到整個樣本點的k最近鄰列表。
式中:xi、xj為樣本的任意兩點。
(3)通過k最近鄰列表,計算每個點的SNN相似度,得出樣本的相似度矩陣。
(4)利用閾值稀疏化SNN相似度矩陣,將大于閾值相似度的點劃分成簇;將小于閾值相似度的點歸為離群點。
②利用參數(shù)ε較小的SVM對其余的粒分別進(jìn)行支持向量機的訓(xùn)練,并提取支持向量。保證在不丟失關(guān)鍵支持向量的前提下,對冗余樣本點進(jìn)行刪減。
(5)融合混合粒與提取出的支持向量,建立最終的決策模型。
(6)輸入測試樣本,計算預(yù)測結(jié)果。
本文主要研究某廠甲醇項目中的甲醇合成工序。甲醇生產(chǎn)的主要任務(wù)是將合成氣在一定壓力、溫度、催化劑的作用下合成粗甲醇[11]。而甲醇轉(zhuǎn)換率受諸多因素的影響,由生產(chǎn)經(jīng)驗總結(jié)出,影響因素主要有溫度、壓力、碳?xì)浔取⒖账?、循環(huán)比。因此,本文選取溫度、壓力、碳?xì)浔?、空速以及循環(huán)比這5個變量作為預(yù)測模型的輸入,選取甲醇合成塔出口的單程粗甲醇質(zhì)量轉(zhuǎn)化率為輸出。試驗首先利用歸一化對數(shù)據(jù)進(jìn)行預(yù)處理,將所有數(shù)據(jù)縮放到[0,1]之間,并選取均方誤差(mean square error,MSE)作為評價指標(biāo)。
式中:yi為真實值;為預(yù)測值。
為了驗證對比結(jié)果的有效性,傳統(tǒng)的SVM與GSVM-SNN兩種方法的核函數(shù)都采用高斯核函數(shù),且參數(shù)C=1、ε=0.01、q=0.08。
兩種方法的MSE誤差及對甲醇轉(zhuǎn)化率的數(shù)據(jù)擬合對比圖分別如圖5和圖6所示。
圖5 兩種方法的MSE誤差對比圖Fig.5 Comparison of the MSE errors from different methods
經(jīng)過預(yù)處理后共有249組數(shù)據(jù),本文利用10折交叉驗證,將數(shù)據(jù)分為10份,其中8份作為訓(xùn)練樣本,剩余2份作為測試樣本,與傳統(tǒng)支持向量機進(jìn)行10次對比試驗。
圖6 兩種方法的擬合對比圖Fig.6 The fitting comparison of different algorithms
兩種方法10次試驗分別得到的最終支持向量個數(shù)如表1所示。
表1 兩種方法的最終支持向量個數(shù)Tab.1 The number of final support vectors from two methods
傳統(tǒng)支持向量機對樣本數(shù)據(jù)建模與GSVM-SNN模型的10次試驗所得到的誤差結(jié)果對比如表2所示。
表2 兩種方法的MSE誤差結(jié)果Tab.2 The MSE errors results from two methods
從表1可以看出,GSVM-SNN利用SNN相似度在給定閾值k時,對于不同的樣本數(shù)據(jù),其劃分的粒的個數(shù)也不盡相同。這是因為基于SNN相似度的劃分方法得出的結(jié)果更符合數(shù)據(jù)樣本的“自然”分布。然后對每一個信息粒進(jìn)行SVM的訓(xùn)練,在保證不丟失關(guān)鍵信息的前提下,盡可能地刪去“冗余”數(shù)據(jù)。
從表2以及圖5可以看出,經(jīng)過“瘦身”后的GSVM-SNN的預(yù)測誤差基本上低于傳統(tǒng)支持向量機的預(yù)測誤差。而從圖6可以看出,GSVM-SNN對實際甲醇轉(zhuǎn)化率的數(shù)據(jù)擬合效果優(yōu)于傳統(tǒng)的支持向量機,說明GSVM-SNN的模型預(yù)測精度高于SVM的模型。
本文利用SNN相似度對粒度支持向量機模型進(jìn)行改進(jìn)并預(yù)測粗甲醇的轉(zhuǎn)化率。結(jié)果表明,GSVMSNN模型的預(yù)測精度比傳統(tǒng)的SVM模型更高,且更適應(yīng)甲醇合成過程的非線性、復(fù)雜性,從而能更好地指導(dǎo)實際生產(chǎn)過程。
[1] 魏可泰.多模型軟測量理論研究及其在甲醇生產(chǎn)中的應(yīng)用[D].青島:青島科技大學(xué),2008.
[2] Rahnamayan S,Tizhoosh H R,Salamam M A.Opposition-based differential evoloution[J].IEEE Transactions on Evolutionary Computation,2008,12(1):64-79.
[3] 繆嘯華,宋淑群,王建華,等.基于模糊神經(jīng)網(wǎng)絡(luò)的甲醇合成塔轉(zhuǎn)化率軟測量模型[J].石油化工自動化,2012,48(2):32-35.
[4] Vapnik V.The nature of statistical learning theory[M].New York: Springer-Verlay Press,1995:156.
[5] 張學(xué)工.關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機[J].自動化學(xué)報, 2000,26(1):32-42.
[6] Tang Yuchun,Jin Bo,Sun Yi,et al.Granular support vector machines for medical binary classification problems[C]//Computational Intelligence in Bioinformatics and Computational Biology,2004:73-78.
[7] 張鑫,王文劍.一種基于粒度的支持向量機學(xué)習(xí)策略[J].計算機科學(xué),2008,35(8a):101-103.
[8] Ding Shifei,Qi Bingjun.Research of granular support vector machine[J]. Artif Intell Rev,2012,38(5):1-7.
[9] Wang Wenjian,Guo Husheng,Jia Yuanfeng,et al.Granular support vector machine based on mixed measure[J].Neuro Computing, 2013,101(5):116-128.
[10] Ertoz L,Steinbach M,Kumar V.A new shared nearest neighbor clustering algorithm and its applications[C]//In Workshop on Clustering High Dimensional Data and Its Applications,Proceedings of Text Mine'01,First SIAM intl.Conference on Data Mining, Chicago,IL,USA,2001.
[11] 王珊.基于改進(jìn)人工蜂群算法和LSSVM的甲醇合成過程軟測量建模方法研究[D].上海:華東理工大學(xué),2012.
Application of the Improved Granular Support Vector Machine in Methanol Synthesis
To counter the problems of complexity and nonlinearity in methanol synthesis process,by using shared nearest neighbor(SNN) similarity,the training samples are divided into several information granules,then support vector extraction is conducted respectively,finally the prediction model of crude methanol conversion rate is built from these extracted support vectors.The experimental results show that the improved granular support vector machine can delete“redundant data”and to get“sparse”regression model,and offer higher accuracy than traditional support vector machine crude methanol conversion rate model,thus the methanol production can be guided better.
Support vector machine(SVM) Shared nearest neighbor(SNN) Granular support vector machine(GSVM) Crude methanol conversion rate Granular computation
TP202
A
國家自然科學(xué)基金資助項目(編號:21366017);
內(nèi)蒙古自然科學(xué)基金重大項目(編號:2011ZD08);
內(nèi)蒙古自治區(qū)教育廳高等學(xué)??茖W(xué)研究基金資助項目(編號: NJZY13144);
包頭市科技局重大科技發(fā)展基金資助項目(編號:2011Z1006)。
修改稿收到日期:2014-02-17。
王建國(1958-),男,2009年畢業(yè)于北京科技大學(xué)機械電子工程專業(yè),獲博士學(xué)位,教授;主要從事機電系統(tǒng)智能診斷與復(fù)雜工業(yè)過程建模、優(yōu)化及故障診斷的研究。