黃永紅,宋心雷
(江蘇大學電氣信息工程學院,機械工業(yè)設施農業(yè)測控技術與裝備重點實驗室,江蘇鎮(zhèn)江 212013)
海洋蛋白酶是海洋生物發(fā)酵所得的一種新型酶制劑,它菌種穩(wěn)定,產酶能力強,廣泛用于洗滌、紡織、制革、環(huán)保、食品、生物工程等領域。海洋蛋白酶以其獨有的耐壓、耐堿、耐鹽、耐冷等特性,成為近年來研究的熱點[1]。但是海洋蛋白酶發(fā)酵過程是一個復雜的非線性過程,對于其中的一些關鍵生物參數(shù)(如基質濃度、菌體濃度等)目前還很難實時在線測量,采用軟測量技術是解決上述問題的有效途徑[2]。
軟測量建模是軟測量技術的核心問題。目前常用的軟測量建模方法主要包括:機理建模、回歸分析、模式識別、人工神經網(wǎng)絡、模糊數(shù)學、支持向量機等。
支持向量機(Support vector machine,SVM)是近幾年來應用于建模的一種新方法。它是建立在統(tǒng)計學習理論和結構風險最小原理基礎上的一種機器學習方法[3-5]。最小二乘支持向量機(Least squares support vector machine,LS-SVM)是SVM的一種改進,它將SVM解二次規(guī)劃問題轉化為求解線性方程組問題,提高了求解問題的速度和收斂精度,解決了小樣本、非線性、高維數(shù)等問題[6]。但是,在LS-SVM建模中,正規(guī)化參數(shù)和核參數(shù)是必須優(yōu)化的參數(shù),它們的取值將直接影響著模型的訓練和泛化性能。常用的參數(shù)優(yōu)化方法有交叉驗證法、遺傳算法等。其中交叉驗證法和遺傳算法計算量大且可能陷入局部最優(yōu)[7-8]。因此,文中提出一種貝葉斯LS-SVM軟測量建模方法,即利用貝葉斯準則(即貝葉斯證據(jù)框架準則)對LS-SVM建模中的參數(shù)進行優(yōu)化選取。貝葉斯分析的出發(fā)點是假設集合上的先驗分布,它描述了學習器對于數(shù)據(jù)特定假設的似然性的先驗信念。它的基本思想是最大化參數(shù)分布的后驗,而最佳參數(shù)值或模型是在參數(shù)分布后驗最大化的情況下得到的。仿真結果表明:基于貝葉斯LS-SVM的軟測量建模比基于LS-SVM的軟測量建模精度高,泛化能力強。
對于樣本集(xi,yi),xi為輸入值,yi為輸出值,樣本為n維向量,首先用一非線性映射φ(·)把樣本從原空間RN映射到特征空間。在這個高維特征空間中構造最優(yōu)決策函數(shù):
f(x)=ωTφ(xi)+b
(1)
式中:φ(xi)為代價函數(shù);ω為模型的權值;b為分類超平面閾值。
這樣非線性函數(shù)轉化為高維特征空間中的線性估計函數(shù)。利用結構風險最小化原則,尋找ω、b就是最小化式(2)。
(2)
s.t.yi=ωTφ(xi)+b+ei,i=1,2,…n
(3)
式中:γ為正規(guī)化參數(shù);e為松弛變量;J為風險。
通過引入拉格朗日乘子,將式(2)的求解轉化為如下的對偶優(yōu)化問題:
(4)
式中ai(i=1,2,…n)為拉格朗日乘子。
(5)
(6)
ωφ(xi)+b+ei-yi=0
(7)
定義核函數(shù):
K(xi,xj)=φ(xi)·φ(xj)
(8)
K(xi,xj)是滿足Mercer條件的對稱函數(shù)。經過計算消去e和ω,最后得到的優(yōu)化模型為
(9)
選擇不同的核函數(shù),可構造不同的支持向量機,文中采用徑向基高斯核函數(shù)即:
K(x,xi)=exp(-(x-xi)2/(2σ2))
(10)
式中σ為核參數(shù)。
由此可知,在LS-SVM建模中,正規(guī)化參數(shù)γ和核參數(shù)σ是重要的參數(shù),它們的優(yōu)化選取將對軟測量模型的預測結果起著重要的作用。
Macky將貝葉斯推斷理論分為3個證據(jù)框架準則。利用這3個準則依次對LS-SVM算法中的權值ω、正規(guī)化參數(shù)γ以及核參數(shù)σ進行推斷優(yōu)化。
2.1權值ω的優(yōu)化
首先用貝葉斯準則1對權值ω進行貝葉斯推斷,利用最大化參數(shù)ω的后驗,就可以得出參數(shù)ω的最佳值。為了便于處理,將優(yōu)化問題的目標函數(shù)除以γ,令λ=1/γ為模型的超參數(shù)。
由貝葉斯公式可得參數(shù)ω的后驗:
(11)
式中:p(ω|λ)為權值的先驗概率;p(D|λ)為一個歸一化常數(shù);p(D|ω,λ)為似然函數(shù);p(ω|D,λ)為后驗概率。
取高斯分布為權值的先驗概率,得:
(12)
(13)
由式(11)~式(13)可得權值的后驗概率為
(14)
可以看出最小二乘支持向量機的權值可以用貝葉斯理論來優(yōu)化,從而可以得出ω的最優(yōu)值ωmp.
2.2正規(guī)化參數(shù)的優(yōu)化
將貝葉斯準則2用于最小二乘支持向量機正規(guī)化參數(shù)的推斷和優(yōu)化。
(15)
(16)
對式(15)兩邊取對數(shù)得:
(17)
Const為常數(shù),令λ的偏導數(shù)為0。
A=▽2(λEω+ED)=λI+B
(18)
(19)
由式(18)、式(19)可得:
式中δ為參數(shù)的有效數(shù)。
用pn表示B的特征值,則A的特征值:
(20)
(21)
l(l≤n)表示矩陣K非0特征值的個數(shù),從而可以得到λ的最優(yōu)值λmp.進而可以得到正規(guī)化參數(shù)γ的最優(yōu)值。
2.3核參數(shù)的優(yōu)化
用貝葉斯準則3優(yōu)化高斯核參數(shù)。設一模型為H,通過最大化后驗概率來進行模型比較,最后選擇最優(yōu)核參數(shù),假設所有模型的先驗概率p(H)為平坦分布,則p(D|H)通過對參數(shù)λ的積分可得:
p(H|D)∝p(D|H)p(H)∝p(D/H)∝
(22)
(23)
(24)
2.4基于貝葉斯準則的LS-SVM建模過程
利用上述優(yōu)化好的參數(shù)來建立基于貝葉斯準則的LS-SVM的軟測量模型,建模過程具體步驟如下:
(1)確定模型的輸入輸出變量;
(2)對樣本數(shù)據(jù)進行預處理;
(3)初始化正規(guī)化參數(shù)γ和核參數(shù)σ;
(4)用貝葉斯證據(jù)框架準則優(yōu)化模型的正規(guī)化參數(shù)γ和核參數(shù)σ;
(5)利用優(yōu)化后參數(shù)對最小二乘支持向量機進行訓練,建立基于貝葉斯準則的LS-SVM模型;
(6)用測試樣本集對模型仿真驗證。
以海洋蛋白酶發(fā)酵過程為例,其發(fā)酵過程中菌體濃度、基質濃度以及酶活等參數(shù)的實時測量對了解發(fā)酵進程、優(yōu)化控制后續(xù)發(fā)酵環(huán)境參量起著至關重要的作用。但是這些參數(shù)目前還不能實時在線測量,大多采用離線化驗分析的方法,為此建立了基于貝葉斯準則的LS-SVM軟測量模型。在建模過程中,以菌體濃度X、基質濃度S、相對酶活P(為了更好的顯示酶活的變化幅度,此處用相對酶活表示)作為軟測量模型的主導變量。通過對海洋蛋白酶發(fā)酵過程進行機理分析,利用相關系數(shù)法確定軟測量模型的輔助變量為溶解氧濃度DO、pH值、CO2濃度、基質進給速率u.
為了驗證模型的有效性,在海洋蛋白酶發(fā)酵過程中總共采集了15個發(fā)酵批次的數(shù)據(jù),將這些數(shù)據(jù)分成兩部分。一部分作為網(wǎng)絡的訓練樣本(前10個批次,共含500個樣本),另一部分作為測試樣本(后5個批次,含250個樣本)。用這些數(shù)據(jù)分別對LS-SVM模型和基于貝葉斯準則的LS-SVM模型進行了仿真驗證。仿真結果如圖1、圖2、圖3所示。
圖1 基質濃度預估變化曲線
圖2 菌體濃度預估變化曲線
圖3 相對酶活預估變化曲線
為了更加直觀地說明基于貝葉斯準則LS-SVM的軟測量建模具有優(yōu)越的預測性能,以菌體濃度為例,采用最大誤差(MAXE)和均方根誤差(RMSE)這2個預測性能指標來反映這2種建模方式的預測效果,結果如表1所示。
(25)
(26)
表1 兩種建模方法的誤差比較
從圖1、圖2、圖3 和表1中可以看出,基于貝葉斯準則的LS-SVM比LS-SVM預測結果更加逼近于離線化驗值。以基質濃度為例,LS-SVM的基質濃度的最大誤差為2.488,而Bayesian-LSSVM的最大誤差為1.530,兩者的均方根誤差分別為0.965和0.554,由此可以得出Bayesian-LSSVM的預測效果更好,逼近精度更高。
為解決海洋微生物發(fā)酵過程中關鍵生物參數(shù)難以實時在線測量的問題,提出了一種基于貝葉斯準則的LS-SVM軟測量建模方法。首先確定基質濃度、菌體濃度、相對酶活作為海洋蛋白酶發(fā)酵過程軟測量模型的主導變量,采用相關系數(shù)法確定了軟測量模型的輔助變量。利用貝葉斯準則優(yōu)化LS-SVM模型的正規(guī)化參數(shù)和核參數(shù),用訓練樣本集對優(yōu)化后的LS-SVM進行了學習訓練,建立了基于海洋蛋白酶發(fā)酵過程的軟測量模型,并利用測試樣本對模型進行了仿真驗證。結果表明,該軟測量模型具有較高的測量精度和泛化效果。
參考文獻:
[1]劉朝誼,郭凱,許峰,等.低溫海洋微生物產堿性蛋白酶菌株的篩選.淮海工學院學報,2006,15(2):59-62.
[2]閻威武,朱宏棟,邵惠鶴.基于最小二乘支持向量機的軟測量建模.系統(tǒng)仿真學報,2003,15(10):1494-1496.
[3]顧燕萍,趙文杰,吳占松.最小二乘支持向量機的算法研究.清華大學學報(自然科學版),2010,50 (7):1063-1066;1071.
[4]李鵬.基于貝葉斯理論的神經網(wǎng)絡算法研究.光機電信息,2011,28(1):28-32.
[5]孫曉東,陳龍,楊澤斌,等.貝葉斯證據(jù)框架下LS-SVM 的BPMSM磁鏈建模.浙江大學學報,2012,46(5):873-877.
[6]CRITIANINI N,TAYLOR J S .An Introduction to Support Vector Machine and Other Kernel-based Learning Methods.Cambridge University Press,2000:47-107.
[7]陳帥,朱建寧,潘?。钚《酥С窒蛄繖C的參數(shù)優(yōu)化及其應用.華東理工大學學報,2008,34(2):278-282.
[8]王振樹,李林川,牛麗.基于貝葉斯證據(jù)框架的支持向量機負荷建模.電工技術學報,2009,24(8):127-134.