焦 敏 張 湜 李麗娟 李 霜 黃 和
(南京工業(yè)大學(xué)自動(dòng)化與電氣工程學(xué)院1,江蘇 南京 211816;南京工業(yè)大學(xué)生物與制藥工程學(xué)院2,江蘇 南京 211816)
花生四烯酸發(fā)酵過(guò)程的建模方法研究
焦 敏1張 湜1李麗娟1李 霜2黃 和2
(南京工業(yè)大學(xué)自動(dòng)化與電氣工程學(xué)院1,江蘇 南京 211816;南京工業(yè)大學(xué)生物與制藥工程學(xué)院2,江蘇 南京 211816)
對(duì)發(fā)酵法生產(chǎn)花生四烯酸的建模方法進(jìn)行了初步研究,并基于四種溫度下的試驗(yàn)數(shù)據(jù),建立了發(fā)酵過(guò)程模型。比較分析了最小二乘支持向量機(jī)(LS-SVM)和廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)這兩種方法的特點(diǎn)。結(jié)果表明,這兩種方法均能較好地建立該發(fā)酵過(guò)程的模型,LS-SVM建模的預(yù)測(cè)能力稍優(yōu)于GRNN,為后續(xù)花生四烯酸發(fā)酵過(guò)程的優(yōu)化及控制的研究奠定了基礎(chǔ)。
發(fā)酵過(guò)程 最小二乘支持向量機(jī) 廣義回歸神經(jīng)網(wǎng)絡(luò) 建模 Matlab
花生四烯酸(arachidonic acid,AA或ARA)是一種重要的人體多不飽和高級(jí)脂肪酸,它對(duì)人體的免疫系統(tǒng)及心血管系統(tǒng)具有十分重要的作用[1]。迄今為止,花生四烯酸已經(jīng)在醫(yī)藥、化工、保健食品、化妝品等領(lǐng)域得到廣泛應(yīng)用[2]。使用傳統(tǒng)方法制備ARA不僅價(jià)格昂貴,而且不能滿足大量的市場(chǎng)需求[3]。本文利用微生物發(fā)酵的方法。與傳統(tǒng)方制備法相比,采用該方法不僅ARA產(chǎn)量大,而且綠色環(huán)保[4-5],這也和國(guó)家現(xiàn)在大力提倡的低碳經(jīng)濟(jì)不謀而合。
本研究以實(shí)驗(yàn)室中高山被孢霉發(fā)酵生產(chǎn)ARA為研究背景,針對(duì)實(shí)驗(yàn)數(shù)據(jù)樣本小的特點(diǎn),選擇最小二乘支持向量機(jī)(LS-SVM)與廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural network,GRNN)的方法建立ARA產(chǎn)量的模型,并通過(guò)均方差(MSE)和平均絕對(duì)誤差(MAE)兩個(gè)性能指標(biāo)來(lái)評(píng)判模型的優(yōu)劣性,最后對(duì)結(jié)果進(jìn)行了分析與比較。
最小二乘支持向量機(jī)由Suyken等人提出,它的訓(xùn)練過(guò)程用等式約束替代了傳統(tǒng)的不等式約束,并且用誤差平方和損失函數(shù)作為訓(xùn)練集的經(jīng)驗(yàn)損失,將解二次規(guī)劃問(wèn)題轉(zhuǎn)化為求解線性方程組問(wèn)題,大大提高了求解問(wèn)題的計(jì)算速度。
首先假設(shè)訓(xùn)練樣本集為(x1,y1),…,(xi,yi)(i為樣本的數(shù)量),用一個(gè)非線性映射ψ(·)將原樣本空間Rn映射到特征空間φ(xi),在高維特征空間中建立最優(yōu)決策函數(shù):
式中:ω∈Rn(原樣本空間),為權(quán)重向量;b為偏置。
利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,最小二乘支持向量機(jī)可轉(zhuǎn)化為在一定約束條件下求解最小化泛函的問(wèn)題:
約束條件為:
式中:ωT、ω為控制模型的復(fù)雜度;c為正規(guī)化參數(shù);ξi為松弛因子,i=1,2,...,l。
用拉格朗日法求解這個(gè)優(yōu)化問(wèn)題,即:
式中:ω為權(quán)重向量;b為偏置;ξi為松弛因子;αi為拉格朗日算子。
由Karush-Kuhn-Tucker(KKT)最優(yōu)條件,通過(guò)對(duì)ω、b、ξi和α求偏微導(dǎo)并令各式等于0,聯(lián)立可得:
求解上式可得LS-SVM非線性回歸函數(shù)為:
式中:K(xi,xj)=φT(xi)φ(xj)為核函數(shù)。
常用的核函數(shù)主要分為以下幾種[6]。
①多項(xiàng)式核函數(shù)
式中:q∈N;c>0。
②徑向基核函數(shù)(RBF)
式中:σ為核函數(shù)的參數(shù),它定義了從原始空間到高維特征空間的非線性映射。
③Sigmoid核函數(shù)
式中:b、c為常數(shù)。
由此可見(jiàn),LS-SVM模型主要是對(duì)式(5)進(jìn)行求解。核函數(shù)的引入避免了高維空間容易造成的“維數(shù)災(zāi)難”,并解決了大量的計(jì)算問(wèn)題[7]。研究表明,徑向基核函數(shù)RBF的效果較好,故本文采用RBF核函數(shù)的LS-SVM。
由于生物發(fā)酵過(guò)程是一個(gè)緩慢的過(guò)程,相鄰采樣點(diǎn)的數(shù)據(jù)一般不會(huì)發(fā)生突變,因此,本文采用三次平滑樣條插值的擬合方法。具體實(shí)現(xiàn)方法是通過(guò)調(diào)用Matlab中的spline函數(shù)實(shí)現(xiàn)。
本文以高山被孢霉發(fā)酵生產(chǎn)花生四烯酸ARA為研究對(duì)象,選擇15℃、20℃和25℃時(shí)的三組溫度下的試驗(yàn)數(shù)據(jù)作為建模使用,28℃時(shí)數(shù)據(jù)作外推使用。具體實(shí)現(xiàn)方法是將每組數(shù)據(jù)中的時(shí)間、溫度、pH作為輸入變量,將花生四烯酸的產(chǎn)量作為輸出變量,采用LSSVM以及廣義回歸神經(jīng)網(wǎng)絡(luò)GRNN來(lái)建立模型[8]。
首先將LS-SVM lab1.5工具箱添加到Matlab中的toolbox,其使用方法可參見(jiàn)相關(guān)的資料,主要程序代碼如下。
其中,LS-SVM中g(shù)am和sig2為兩個(gè)可調(diào)整的參數(shù),前者是正則化參數(shù),決定了適應(yīng)誤差的最小化和平滑程度;后者是RBF核函數(shù)的參數(shù)。其中classification用于分類,function estimation用作函數(shù)回歸使用。P、T分別為訓(xùn)練網(wǎng)絡(luò)的輸入和輸出。
通過(guò)仿真,LS-SVM擬合及外推效果如圖1所示。其中:“﹡”線表示產(chǎn)物花生四烯酸(ARA)產(chǎn)量的試驗(yàn)測(cè)量值;實(shí)線表示LS-SVM模型的計(jì)算值;縱坐標(biāo)X為細(xì)胞干重。
圖1 LS-SVM擬合及外推效果Fig.1 The results of LS-SVM fitting and extrapolation
為了評(píng)判LS-SVM建模效果的優(yōu)劣[9],在此引入均方差性能指標(biāo)(MSE)和平均絕對(duì)誤差性能指標(biāo)(MAE),LS-SVM的性能指標(biāo)如表1所示。
表1 LS-SVM的性能指標(biāo)Tab.1 The performance indexes of LS-SVM
廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)是徑向基網(wǎng)絡(luò)的一種變化形式,它的特點(diǎn)是訓(xùn)練速度快、非線性映射能力強(qiáng),適合于進(jìn)行曲線逼近擬合。為了與上述LS-SVM的建模方法進(jìn)行比較,現(xiàn)擬用廣義回歸神經(jīng)網(wǎng)絡(luò)GRNN進(jìn)行建模。
GRNN建模的具體方法如下:針對(duì)同一批數(shù)據(jù)使用GRNN神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,同樣計(jì)算所建立模型的擬合誤差和外推誤差,并與LS-SVM進(jìn)行比較。GRNN神經(jīng)網(wǎng)絡(luò)的創(chuàng)建是調(diào)用Matlab函數(shù)庫(kù)中的newgrnn函數(shù),具體調(diào)用格式為:net=newgrnn(P,T,spread)。其中:P為R×Q維的輸入向量;T為S×Q維的輸出向量;spread為散步常數(shù),它的選取是關(guān)鍵,數(shù)值越大,代表需要的神經(jīng)元就越少,但同時(shí)精度會(huì)下降,本網(wǎng)絡(luò)中選取的散步常數(shù)為0.1。
通過(guò)仿真,得到GRNN模擬擬合及外推效果曲線如圖2所示。其中:“﹡”線表示產(chǎn)物花生四烯酸(ARA)產(chǎn)量的試驗(yàn)測(cè)量值;實(shí)線表示GRNN模型的計(jì)算值。
圖2 GRNN擬合及外推效果曲線Fig.2 The results curves of GRNN fitting and extrapolation
GRNN的性能指標(biāo)如表2所示。
表2 GRNN的性能指標(biāo)Tab.2 The performance indexes of GRNN
為了便于分析與比較上述兩種建模方法的優(yōu)劣性,將表1和表2聯(lián)立,得到LS-SVM與GRNN的性能比較,具體如表3所示。
表3LS-SVM與GRNN性能比較Tab.3 Performance comparison of LS-SVM and GRNN
由表3可以看出,GRNN神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集性能指標(biāo)(即擬合精度)較LS-SVM要好,但LS-SVM的測(cè)試集性能(即預(yù)測(cè)精度)卻略優(yōu)于GRNN神經(jīng)網(wǎng)絡(luò)。究其原因,主要是由于ARA發(fā)酵過(guò)程中的數(shù)據(jù)量較小,對(duì)于小樣本數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)“過(guò)擬合”現(xiàn)象,外推能力得不到最優(yōu)化;而LS-SVM模型則可以防止此類現(xiàn)象的出現(xiàn),預(yù)測(cè)能力較神經(jīng)網(wǎng)絡(luò)GRNN好。
本文使用了最小二乘支持向量機(jī)和廣義回歸神經(jīng)網(wǎng)絡(luò)兩種方法建立了花生四烯酸發(fā)酵過(guò)程的模型。通過(guò)仿真結(jié)果表明:這兩種方法相差不大,均能較好地建立該發(fā)酵過(guò)程的模型,但LS-SVM建模的預(yù)測(cè)能力稍優(yōu)于GRNN。這為后續(xù)花生四烯酸發(fā)酵過(guò)程的優(yōu)化及調(diào)控奠定了基礎(chǔ)。
本文所使用的兩種建模方法的預(yù)測(cè)精度均受到模型參數(shù)(如GRNN中的散步常數(shù)spread,LS-SVM中的gam和sig2)的影響,未來(lái)研究的主要方向可集中在對(duì)模型參數(shù)的優(yōu)化以及算法的改進(jìn)等方面。
[1]姚昕,秦文,齊春梅,等.花生四烯酸的生理活性及其應(yīng)用[J].糧油加工與食品機(jī)械,2004,10(5):57-59.
[2]楊朝霞,張麗,李朝陽(yáng).花生四烯酸的營(yíng)養(yǎng)保健功能[J].食品與藥品,2005,7(1A):69-71.
[3] Singh A,Word O P.Production of high yield of arachidonic acid in a fed batch system by mortieralla alpina ATCC 32222 [J].Appl Microbiol Biotechnol,1997,48(7):1-5.
[4]周蓬蓬,余龍江,吳元喜,等.高山被孢霉產(chǎn)花生四烯酸發(fā)酵條件的研究[J].工業(yè)微生物,2003(2):414-415.
[5]歐陽(yáng)平凱,韋萍,姚忠.生物化工研究現(xiàn)狀與發(fā)展趨勢(shì)[J].化工進(jìn)展,2003,22(1):1-7.
[6]閻威武,朱宏棟,邵惠鶴.基于最小二乘支持向量機(jī)的軟測(cè)量建模[J].系統(tǒng)仿真學(xué)報(bào),2003,15(10):1494-1496.
[7]閻威武,邵惠鶴.支持向量機(jī)和最小二乘支持向量機(jī)的比較及應(yīng)用研究[J].控制與決策,2003,18(3):358-360.
[8]陳文略,王子羊.三次樣條插值在工程擬合中的應(yīng)用[J].華中師范大學(xué)學(xué)報(bào):自然科學(xué)版,2004,38(4):418-422.
[9]袁安平,張湜,姜珉,等.丁二酸發(fā)酵過(guò)程軟測(cè)量模型的參數(shù)優(yōu)化研究[J].化工自動(dòng)化及儀表,2009,36(5):13-17.
Study on the Modeling Methods for Fermentation Process of Arachidonic Acid
The modeling method for fermentation process of arachidonic acid is studied preliminary,and on the basis of the test data under four of the temperatures,the model of fermentation process is setup.The features of two methods,i.e.least square support vector machine(LS-SVM)and generalized regression neural network(GRNN)are compared and analyzed.The result indicates that both these two methods are good to establish the model,while LS-SVM is better than GRNN on prediction capability.This builds foundation for researching the optimization and control of the fermentation process of arachidonic acid.
Fermentation process Least square support vector machine Generalized regression neural network Modeling Matlab
TP183
A
南京工業(yè)大學(xué)基金資助項(xiàng)目(編號(hào):39710005)。
修改稿收到日期:2011-04-11。
焦敏,男,1985年生,現(xiàn)為南京工業(yè)大學(xué)控制理論與控制工程專業(yè)在讀碩士研究生;主要從事生化工程建模、優(yōu)化、控制方面的研究。