唐立森, 陳偉鋒
基于改進隨機梯度下降的反應(yīng)動力學(xué)參數(shù)估計方法
唐立森, 陳偉鋒
(浙江工業(yè)大學(xué) 信息工程學(xué)院, 浙江 杭州 310023)
針對傳統(tǒng)優(yōu)化方法利用所有采樣數(shù)據(jù)進行參數(shù)估計存在的求解困難問題,在聯(lián)立求解的框架下,通過引入隨機優(yōu)化和擴展目標函數(shù),提出基于改進隨機梯度下降的反應(yīng)動力學(xué)參數(shù)估計方法。該方法對多數(shù)據(jù)集的大規(guī)模系統(tǒng)進行機理建模,基于靈敏度微分方程法獲得靈敏度矩陣,同時利用模型標度化技術(shù)處理多狀態(tài)變量對多參數(shù)估計的同步收斂性問題。為了減小迭代過程中噪聲方差的影響,在現(xiàn)有的隨機平均梯度下降方法的基礎(chǔ)上,利用隨機擴展目標函數(shù)增加目標函數(shù)中計算梯度的信息量,并給出該方法收斂的理論性分析。數(shù)值仿真結(jié)果驗證了該方法的有效性和可行性。
參數(shù)估計;隨機優(yōu)化;擴展目標;靈敏度矩陣
由于開環(huán)式的控制策略遵循相似的軌跡模式,隨著間歇反應(yīng)過程[1]多批次的運行,雖然數(shù)據(jù)量會不斷增加,但有效信息量并不隨批次的增加呈線性增長,因此間歇反應(yīng)過程往往是在有限信息量的基礎(chǔ)上進行建模和參數(shù)估計[2]。針對多批次數(shù)據(jù),傳統(tǒng)參數(shù)估計方法如極大似然法(maximum likelihood estimation,MLE)[3-4]、最大期望法(expectation maximization,EM)[5]等聯(lián)立所有數(shù)據(jù)進行參數(shù)估計會導(dǎo)致問題的規(guī)模十分龐大,并且隨著批次數(shù)據(jù)逐漸增加,采用傳統(tǒng)優(yōu)化方法求解基于多批次數(shù)據(jù)的參數(shù)估計問題會在求解能力和計算效率上存在一定的問題。基于擴展卡爾曼濾波(extended kalman filter,EKF)[6]的估計方法是有效的,但在非線性很強的情況下參數(shù)估計是有偏的;馬爾可夫鏈蒙特卡爾方法(markov chain monte carlo,MCMC)[7]通過抽取樣本數(shù)值逼近概率密度函數(shù)進行參數(shù)估計,但對于具有多狀態(tài)多參數(shù)模型,它的計算代價是非常昂貴的。針對此類問題通過引入隨機梯度下降算法(stochastic gradient descent,SGD)[8]對模型中的反應(yīng)動力學(xué)參數(shù)進行估計。SGD源于1951年Robbins和Monro[9]提出的隨機逼近,主要用于求解大規(guī)模系統(tǒng)優(yōu)化問題以及處理機器學(xué)習(xí)任務(wù)[10-14]。隨著對隨機優(yōu)化算法的深入研究,衍生了不同版本的變體算法[15-18],為了充分利用歷史梯度信息,隨機平均梯度算法(stochastic average gradient,SAG)[19]和加速隨機平均梯度(stochastic average gradient accelerated,SAGA)等[20]通過新梯度替代舊梯度的方式,充分考慮歷史梯度信息的同時減少了梯度計算量。但以上隨機梯度下降算法大部分以黑箱優(yōu)化器的形式使用,針對多批次數(shù)據(jù)集的反應(yīng)機理模型,Bae等[21]提出廣義化的拉普拉斯近似極大似然估計(generalization of laplace approximation maximum likelihood estimation,gLAMLE)算法,基于擴展目標函數(shù),利用多批次數(shù)據(jù)進行迭代估計,并在迭代更新中引入學(xué)習(xí)率,減小由于參數(shù)變化過快導(dǎo)致的數(shù)值震蕩,但結(jié)果仍然無法保證被估參數(shù)的收斂性,甚至可能會減緩收斂速度。本研究引用擴展目標函數(shù)的思想,提出基于擴展目標函數(shù)的隨機梯度下降算法,在聯(lián)立求解的框架下進行參數(shù)估計,減小了單次估計的計算量,提升單次估計速度的同時保證了被估參數(shù)的收斂性。
假定間歇反應(yīng)過程中每一次反應(yīng)操作都是相同的,本研究考慮實際工況中進料時存在隨機擾動的影響,導(dǎo)致構(gòu)建系統(tǒng)模型時狀態(tài)初值會受隨機變量的影響而發(fā)生一定的變化,由于狀態(tài)初值發(fā)生隨機性改變,導(dǎo)致每次工況產(chǎn)生的批次數(shù)據(jù)存在一定的差異性。隨著反應(yīng)操作的不斷進行,會生成大規(guī)模多批次的數(shù)據(jù)量,基于多批次數(shù)據(jù)進行反應(yīng)動力學(xué)參數(shù)估計會使得求解優(yōu)化問題的規(guī)模十分龐大。針對此類問題考慮如下微分代數(shù)模型:
式中:(n)()屬于Rnz,表示第批次數(shù)據(jù)集對應(yīng)的微分代數(shù)模型中的狀態(tài)向量,Rnz表示nz維實數(shù)集;p(n)()和m(n)()同時屬于Rny,分別為第批次數(shù)據(jù)集對應(yīng)的輸出預(yù)測向量和輸出測量向量,Rny表示ny維實數(shù)集;屬于Rny,為輸出測量噪聲向量,其中噪聲向量中每個元素服從均值為0、方差為2的正態(tài)分布;屬于Rnz,表示進料向量上的隨機擾動,其中擾動向量中每個元素服從均值為0、方差為2的正態(tài)分布;屬于Rnp,表示模型中的參數(shù)向量,Rnp表示np維實數(shù)集,且: Rnz+np?Rnz,: Rnz+np?Rny屬于可微函數(shù);表示時間,0表示初始時刻,0表示0時刻對應(yīng)的狀態(tài)初值,上標=1,…,,為數(shù)據(jù)總批次大小。
針對公式(1)中的模型,采用聯(lián)立配置點法進行求解,微分狀態(tài)變量使用有限元的多項式來近似,其中有限元[-1,],=1,…,nfe,滿足0<1<… 式中:p(n,s)表示第批次數(shù)據(jù)中t時刻的預(yù)測向量。第批次數(shù)據(jù)中t時刻的測量向量可以表示為m(n,s),其中=1,…,,假設(shè)有批次數(shù)據(jù)并且每批次含有個時間采樣點,利用多批次測量數(shù)據(jù),可以得到以下優(yōu)化問題用于估計模型參數(shù): 采用多批次數(shù)據(jù)進行參數(shù)估計時,若在噪聲擾動下每次只基于單批次數(shù)據(jù)進行參數(shù)估計,則參數(shù)估計的精度不夠理想。Bae等[21]利用gLAMLE算法進行參數(shù)估計時,通過設(shè)定采樣率來決定m大小,將整個數(shù)據(jù)集放入緩沖區(qū),遍歷每一批次數(shù)據(jù)時,再從余下所有批次數(shù)據(jù)中隨機選取m批次數(shù)據(jù)集構(gòu)成擴展目標函數(shù)達到抵消噪聲擾動的作用,同時基于m+1批次數(shù)據(jù)的全部樣本對參數(shù)進行優(yōu)化更新。本研究借助gLAMLE算法中擴展目標函數(shù)的思想,結(jié)合隨機梯度下降設(shè)計了近似隨機梯度下降算法。 對于每一批次數(shù)據(jù)設(shè)計如下目標函數(shù): 類似于gLAMLE算法,采用如下隨機擴展目標函數(shù): 隨機梯度下降算法是機器學(xué)習(xí)、深度學(xué)習(xí)領(lǐng)域中比較流行的優(yōu)化算法,在隨機平均梯度下降算法的基礎(chǔ)上,通過引入3.1中隨機擴展目標函數(shù)的概念,抵消部分由于隨機干擾引起的估計誤差,命名為隨機擴展目標平均梯度下降法(stochastic extended objective average gradient descent,SEOAG)。 假定模型預(yù)測函數(shù)為 隨機擴展目標函數(shù)為 SEOAG算法流程如下所示: 1) 初始化參數(shù),修正梯度向量設(shè)為v,且令初始時刻的v=0,迭代停止精度e,第0次梯度信息設(shè)為0=0,參數(shù)初值0=(1,…,np),迭代次數(shù)=0,迭代終止次數(shù)Number,學(xué)習(xí)率為;隨機擴展批次為m; 2) 根據(jù)初值0得到的初始靈敏度信息和預(yù)測數(shù)據(jù),將靈敏度數(shù)據(jù)和預(yù)測數(shù)據(jù)映射到[-1, 1],得到標度化矩陣、,利用和對模型進行標度化處理; 11)輸出參數(shù)。 SEOAG算法在每一次迭代更新項中不僅包含新梯度信息,并且包含舊梯度信息。每次迭代更新前將樣本數(shù)據(jù)進行隨機打亂處理,進行順序遍歷確保充分利用了所有數(shù)據(jù),然后通過引入隨機擴展目標函數(shù)的概念,增加隨機數(shù)據(jù)量達到抵消隨機擾動的效果,此算法在保留SAG算法優(yōu)點的同時,抵消了一部分噪聲擾動的影響,減小了參數(shù)變化引起的數(shù)值震蕩。 3.2節(jié)中梯度信息的計算涉及狀態(tài)變量對參數(shù)的靈敏度信息,而式(1)中約束模型整體屬于常微分方程組,因此可以采用微分方程法求解待估計參數(shù)的靈敏度信息矩陣: 對式(1a)中等式兩邊的參數(shù)進行求導(dǎo)得到 運用聯(lián)立配置法將式(2)、(3)、(4)代入式(11),配置點方程可以寫成: 聯(lián)立求解方程組(6b~6d)和(12a~12c),即可得到待估計參數(shù)的靈敏度信息矩陣。 機器學(xué)習(xí)中不同樣本的特征數(shù)據(jù)存在量綱的差異,由于數(shù)據(jù)間的差別可能很大,會直接影響學(xué)習(xí)的結(jié)果,因此必須對輸入和輸出數(shù)據(jù)按照一定比例進行縮放,使之落在特定的區(qū)域內(nèi),便于進行結(jié)果分析,其中主要有歸一化和標準化等預(yù)處理方式。而基于隨機優(yōu)化算法對反應(yīng)機理模型進行參數(shù)估計時,不同狀態(tài)變量對不同參數(shù)也存在量綱的差異,由于這種差異會導(dǎo)致模型對不同參數(shù)的影響程度不同,基于此類問題,本研究借鑒標準化預(yù)處理思想對模型進行標度化處理。整個參數(shù)估計過程可以看成[p,1(n,1)…p,ny(n,1)…p,1(n,M)…p,ny(n,M)]T=′的形式,其中輸入量為靈敏度矩陣,輸出量為[p,1(n,1)…p,ny(n,1)…p,1(n,M)…p,ny(n,M)]T,基于初始時刻0的靈敏度矩陣和第一批次的測量數(shù)據(jù)得到標度化矩陣,利用標度化矩陣對模型的輸入變量和輸出變量同時進行標度化處理后將數(shù)據(jù)映射到[-1,1],具體標度過程如下所示: 將轉(zhuǎn)換后的tr和ptr(n,s)分別代入式(6)和式(12)中對模型進行標度化處理后轉(zhuǎn)換為 假設(shè)式(8)中任意批次的目標函數(shù)(n,s)都是可微的,并且對應(yīng)的每一個梯度都是Lipschitz連續(xù)的,即對于參數(shù)區(qū)間內(nèi)任意的1,2(屬于Rnp),滿足不等式 式中:L為Lipschitz常數(shù),假設(shè)任意批次的目標函數(shù)(n,s)都滿足強凸性,由于SEOAG目標函數(shù)中隨機擴展了m個(j,s),其中?e(n),1,因此e(n,s)等于m個強凸函數(shù)之和,即e(n,s)() =(v_1,s)()+(v_2,s)()+… +(v_Nm,s)(),其中v_1,…,v_m表示從1,…,中(除以外)隨機選取的m個數(shù),根據(jù)不等式(14)可知對于任意的1、2滿足 根據(jù)式(15)并結(jié)合向量范數(shù)三角不等式得到 由式(16)得到 則e(n,s)()也是Lipschitz連續(xù)的。 文獻[23]中給出了強凸函數(shù)的充分必要條件:對于Rnp區(qū)間內(nèi)任意的1、2滿足以下不等式關(guān)系 則由(18)式得到 根據(jù)式(19)得到 因此根據(jù)強凸函數(shù)的充分必要條件[23]可知e(n,s)()是強凸函數(shù)。進一步地,根據(jù)文獻[10]可知存在常數(shù)滿足 則可以得到 對于細胞反應(yīng)操作過程,進料操作的主要目的是最大化細胞生長和產(chǎn)物形成的速率,從而使產(chǎn)物形成的總速率(生產(chǎn)率)或產(chǎn)物收獲率(選擇性)最大化。通過調(diào)節(jié)限制底物、誘導(dǎo)劑、前體或中間體的投料速率和選擇適當(dāng)?shù)某跏紬l件來實現(xiàn)。給出了線性變化進料速率的基本細胞反應(yīng)模型: 如圖1~ 3所示為*=1.0′10-6以及Number為12 000時,選取不同學(xué)習(xí)率時不同算法對反應(yīng)動力學(xué)參數(shù)=(xs,ps)的估計情況。參數(shù)的初值0=(8.0, 4.0),圖1中,當(dāng)學(xué)習(xí)率取0.000 1時,由于學(xué)習(xí)率偏小導(dǎo)致算法迭代估計速度較慢,其中SEOAG算法明顯受學(xué)習(xí)率影響較小,參數(shù)估計值收斂至真值附近,而其余的算法均未收斂;各個算法單次參數(shù)估計的時間損耗分別為SGD:0.093 8 s,MBGD:0.103 2 s,SAG:0.101 5 s,SEOAG:0.115 4 s,表明相比其他算法,SEOAG在目標函數(shù)中擴展了m批次的數(shù)據(jù)量,導(dǎo)致SEOAG單次估計速度會偏慢一些;圖2中當(dāng)學(xué)習(xí)率取0.001時,由于學(xué)習(xí)率選取適中,各個算法參數(shù)均能迭代估計到真值附近,而SEOAG算法比其他算法參數(shù)估計的收斂速度更快;增大學(xué)習(xí)率會增加收斂速度,但同時會在參數(shù)迭代估計中產(chǎn)生數(shù)值震蕩,圖3中當(dāng)學(xué)習(xí)率取0.01時,學(xué)習(xí)率過大導(dǎo)致不同算法對參數(shù)的估計值表現(xiàn)出明顯的數(shù)值震蕩,而SEOAG算法相比其他算法,有明顯降低震蕩的效果;具體參數(shù)估計值如表1~ 3所示。 圖1 不同算法對Yxs,Yps迭代估計過程的比較(a=0.000 1) 圖2 不同算法對Yxs,Yps迭代估計過程的比較(a=0.001) 圖3 不同算法對Yxs,Yps迭代估計過程的比較(a=0.01) 為了防止參數(shù)估計值受隨機性的影響,表1~ 3中分別列出了選取不同學(xué)習(xí)率時,不同算法分別運行10次,取10次終止時刻參數(shù)估計的平均值。表1中由于學(xué)習(xí)率取值過小導(dǎo)致SGD、MBGD、SAG算法在終止時刻的估計值偏差較大、平均相對誤差增大,而SEOAG算法的參數(shù)估計值偏差最小、估計精度最好;從表2和3中的數(shù)據(jù)可知,增大學(xué)習(xí)率時,相比其他3種算法,SEOAG算法的參數(shù)估計精度也屬于中上水平;從圖1~ 3以及表1~3中的數(shù)據(jù)可知,SEOAG算法可以減小算法對學(xué)習(xí)率選取的依賴性,當(dāng)學(xué)習(xí)率取值較大時,SEOAG在加快收斂速度的同時可以減緩數(shù)值震蕩、減小估計誤差;當(dāng)學(xué)習(xí)率取值過小時,SEOAG在保證參數(shù)估計精度的同時可以明顯增加收斂速度。 表1 不同算法對Yxs,Yps估計值的比較(a=0.000 1) 表2 不同算法對Yxs,Yps估計值的比較(a=0.001) 表3 不同算法對Yxs,Yps估計值的比較(a=0.01) 考慮在一個體積固定的容器內(nèi)發(fā)生的兩步化學(xué)反應(yīng)過程: 式中:物料A和物料B反應(yīng)生成物料C,物料C反應(yīng)生成物料D,1、2表示反應(yīng)比率,A的初始濃度A(0)=1.5 mol×L-1,的初始濃度B(0)=1.0mol×L-1。假設(shè)該反應(yīng)中物料C和物料D的濃度是可測量的,則輸出量C=C+C;D=D+D,其中C、D都服從均值為0、方差為0.012的正態(tài)分布;假設(shè)A物料濃度初值存在隨機擾動,服從均值為0、方差為0.012的正態(tài)分布。反應(yīng)比率真值=(1,2)=(0.5, 2),假設(shè)該反應(yīng)在實際生產(chǎn)過程中是批量反應(yīng)的?;诙嗯螖?shù)據(jù)下運用聯(lián)立求解框架重復(fù)案例一中求解的步驟,比較不同隨機優(yōu)化算法對反應(yīng)動力學(xué)參數(shù)1、2估計結(jié)果。 圖4給出了各個物料反應(yīng)濃度B的模擬數(shù)據(jù),反應(yīng)時間為10 s,通過在A物料濃度初始時刻增加隨機擾動以及輸出量添加給定噪聲擾動,模擬出=20的批次數(shù)據(jù),*=1.0′10-6,Number=12 000,采樣率設(shè)為0.2,則m=′0.2=4;參數(shù)的初值0=(0.05, 3.5),如圖5~7所示,當(dāng)選擇不同學(xué)習(xí)率時,不同算法對反應(yīng)動力學(xué)參數(shù)1、2估計效果圖。為了防止參數(shù)估計值受隨機性的影響,表4~ 6列出了選擇不同學(xué)習(xí)率時,分別運行10次,對參數(shù)1、2估計值取平均值。 圖4 k1、k2為真值時各物質(zhì)濃度的曲線 圖5 不同算法對k1,k2迭代估計過程的比較(a=0.001) 圖6 不同算法對k1,k2迭代估計過程的比較(a=0.01) 圖7 不同算法對k1,k2迭代估計過程的比較(a=0.1) 從圖5中可知學(xué)習(xí)率取0.001時,學(xué)習(xí)率取值過小導(dǎo)致各個算法對參數(shù)1、2的估計偏差較大,其中MBGD的樣本批次大小為4,SEOAG算法在相同條件下,參數(shù)估計值的收斂效果更好;圖5中各算法單次參數(shù)估計時間損耗分別為SGD:0.120 6 s,MBGD:0.128 0 s,SAG:0.134 7 s,SEOAG:0.139 4 s,表明相比其他算法,由于SEOAG在目標函數(shù)中擴展了m批次的數(shù)據(jù)量,導(dǎo)致SEOAG單次估計速度會偏慢一些;圖6表示學(xué)習(xí)率取0.01時,各個算法收斂速度加快,而SEOAG算法則明顯收斂速度更快;圖7表示學(xué)習(xí)率取0.1時,各個算法最后均能估計到真值附近、但由于學(xué)習(xí)率過大會導(dǎo)致明顯的數(shù)值震蕩,而SEOAG算法相比其他算法,有明顯降低震蕩的效果。表4~ 6中列出了選取不同的學(xué)習(xí)率時,各個算法分別運行10次后,取參數(shù)估計的平均值以及估計值的平均相對誤差,表4和5中學(xué)習(xí)率取值過小,導(dǎo)致這4種算法在終止時刻參數(shù)估計值偏差都比較大,而基于表中數(shù)據(jù)可以發(fā)現(xiàn)SEOAG算法中估計值的平均相對誤差最??;當(dāng)學(xué)習(xí)率增大時,基于表6中的數(shù)據(jù)可知SEOAG算法在估計精度上優(yōu)勢不太明顯,但在取10次估計值的平均相對誤差也是最小的?;谏鲜鰣D5~7以及表4~6中的數(shù)據(jù)可知SEOAG算法可以減小算法對學(xué)習(xí)率取值的依賴性,在學(xué)習(xí)率取值過小時,SEOAG算法相比其他3種算法,收斂速度更快、更容易收斂到真值附近;在學(xué)習(xí)率取值較大時,可以減緩數(shù)值震蕩、減小估計值的平均相對誤差。 表4 不同算法對k1,k2估計值的比較(a=0.001) 表5 不同算法對k1,k2估計值的比較(a=0.01) 表6 不同算法對k1,k2估計值的比較(a=0.1) 為了解決多批次數(shù)據(jù)下傳統(tǒng)優(yōu)化方法存在求解困難的情況,本研究通過對模型進行標度化處理解決了不同數(shù)據(jù)間的量綱差異,然后引入擴展目標函數(shù)提出了基于改進隨機梯度下降的參數(shù)估計方法,并且給出了算法收斂的理論性分析。通過對主流的隨機優(yōu)化算法進行數(shù)值實驗對比,驗證了所提出的SEOAG算法在估計精度、收斂速度以及受學(xué)習(xí)率影響方面的優(yōu)越性。 [1] LIM H C, HENRY C, SHIN H S. Fed-batch cultures (principles and applications of semi-batch bioreactors) [M]. New York: Cambridge University Press, 2013. [2] MCLEAN K, MCAULEY K B. Mathematical modelling of chemical processes—obtaining the best model predictions and parameter estimates using identifiability and estimability procedures [J]. Canadian Journal of Chemical Engineering, 2012, 90(2): 351-366. [3] KARIMI H, MCAULEY K B. A maximum-likelihood method for estimating parameters, stochastic disturbance intensities and measurement noise variances in nonlinear dynamic models with process disturbances [J]. Computers & Chemical Engineering, 2014, 67(4): 178-198. [4] DUIJN M, GILE K J, HANDCOCK M S. A framework for the comparison of maximum pseudo-likelihood and maximum likelihood estimation of exponential family random graph models [J]. Social Networks, 2009, 31(1): 52-62. [5] CANNARILE F, COMPARE M, ROSSI E,. A fuzzy expectation maximization based method for estimating the parameters of a multi-state degradation model from imprecise maintenance outcomes [J]. Annals of Nuclear Energy, 2017, 110(17): 739-752. [6] HE L, HU M K, WEI Y J,. State of charge estimation by finite difference extended Kalman filter with HPPC parameters identification [J]. Science China (Technological Sciences), 2020, 63(3): 410-421. [7] XIA W, DAI X X, FENG Y. Bayesian-MCMC-based parameter estimation of stealth aircraft RCS models [J]. Chinese Physics B, 2015, 24(12): 622-628. [8] LI X L. Preconditioned stochastic gradient descent [J]. IEEE Transaction on Neural Networks and Learning Systems, 2018, 29(5): 1454-1466. [9] ROBBINS H, MONRO S. A stochastic approximation method [J]. Annals of Mathematical Statistics, 1951, 22(3): 400-407. [10] VAIDYA J, YU H, JIANG X Q. Privacy-preserving SVM classification [J]. Knowledge and Information Systems, 2008, 14(2): 161-178. [11] SONG W J, ZHU J K, LI Y,. Image alignment by online robust PCA via stochastic gradient descent [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(7): 1241-1250. [12] KALANTZIS V, VASSILIS K. A spectral newton-schur algorithm for the solution of symmetric generalized eigenvalue problems [J]. Electronic Transactions on Numerical Analysis, 2020, 52: 132-153. [13] ZHAO R B, TAN V. A unified convergence analysis of the multiplicative update algorithm for regularized nonnegative matrix factorization [J]. IEEE Transactions on Signal Processing, 2018, 66(1): 129-138. [14] DUCHI J C, FENG R. Stochastic methods for composite optimization problems [J]. SIAM Journal on Optimization, 2017, 28(4): 3229-3259. [15] QIAN N. On the momentum term in gradient descent learning algorithms [J]. Neural Networks, 1999, 12(1): 145-151. [16] MAZHAR H, HEYN T, NEGRUT D,. Using Nesterov's method to accelerate multibody dynamics with friction and contact [J]. ACM Transactions on Graphics, 2015, 34(3): 1-14. [17] JOHNSON R, ZHANG T. Accelerating stochastic gradient descent using predictive variance reduction [J]. News in Physiological Sciences, 2013, 1(3): 315-323. [18] SATO H, KASAI H, MISHRA B. Riemannian stochastic variance reduced gradient algorithm with retraction and vector transport [J]. SIAM Journal on Optimization, 2019, 29(2): 1444-1472. [19] SCHMIDT M, LE R N, BACH F. Minimizing finite sums with the stochastic average gradient [J]. Mathematical Programming, 2017, 162(1): 83-112. [20] COURTY N, GONG X, VANDEL J,. SAGA: sparse and geometry-aware non-negative matrix factorization through non-linear local embedding [J]. Machine Learning, 2014, 97(1): 205-226. [21] BAE J, JEONG D H, LEE J M. Ranking-based parameter subset selection for nonlinear dynamics with stochastic disturbances under limited data [J]. Industrial & Engineering Chemistry Research, 2020, 59(50): 21854-21868. [22] CHEN W F, SHAO Z J, BIEGLER L T. A bilevel NLP sensitivity-based decomposition for dynamic optimization with moving finite elements [J]. AIChE Journal, 2014, 60(3): 966-979. [23] BOYD S, VANDENBERGHE L. Convex optimization [M]. New York: Cambridge University Press, 2004. [24] QIAN Q, JIN R, YI J F,. Efficient distance metric learning by adaptive sampling and mini-batch stochastic gradient descent (SGD) [J]. Machine Learning, 2015, 99(3): 353-372. Estimation of reaction kinetic parameters based on modified stochastic gradient descent TANG Li-sen, CHEN Wei-feng (School of Information Engineering, Zhejiang University of Technology, Hangzhou 310023,China) Considering the solution difficulty of conventional optimization algorithm in parameter estimation using all sampled data, a reaction kinetic parameter estimation method based on modified stochastic gradient descent was proposed by introducing stochastic optimization and extended objective function in the framework of simultaneous solution. Firstly, the mechanism of large-scale system with multiple data sets was modeled, and the sensitivity matrix was obtained based on the sensitivity differential equation method, and the model scaling technique was used to deal with the simultaneous convergence problem of multi-state variables to multi-parameter estimation. In order to reduce the influence of noise variance in the iterative process, based on the existing stochastic average gradient descent method, the stochastic extended objective function was applied to increase the amount of information for calculating the gradient in the objective function, and the theoretical convergence of the method was given. Relevant numerical simulation results have verified the effectiveness and feasibility of the proposed method. parameter estimation; stochastic optimization; extended objective; sensitivity matrix TQ03 A 10.3969/j.issn.1003-9015.2022.03.015 1003-9015(2022)03-0426-11 2021-06-11; 2021-08-17。 國家重點研發(fā)計劃(2017YFE0106700);國家自然科學(xué)基金(61873242)。 唐立森 (1997-),男,江西上饒人,浙江工業(yè)大學(xué)碩士生。 陳偉鋒,E-mail:wfchen@zjut.edu.cn 唐立森, 陳偉鋒. 基于改進隨機梯度下降的反應(yīng)動力學(xué)參數(shù)估計方法[J]. 高?;瘜W(xué)工程學(xué)報, 2022, 36(3): 426-436. :TANG Li-sen,CHEN Wei-feng. Estimation of reaction kinetic parameters based on modified stochastic gradient descent [J]. Journal of Chemical Engineering of Chinese Universities, 2022, 36(3): 426-436.3 改進隨機優(yōu)化算法
3.1 隨機擴展目標函數(shù)
3.2 隨機優(yōu)化算法
3.3 靈敏度計算
3.4 標度化處理
4 收斂性分析
5 數(shù)值實驗分析
5.1 案例一
5.2 案例二
6 結(jié)論