王 珠,劉佳璇
(中國(guó)石油大學(xué)(北京) 自動(dòng)化系,北京 102249)
隨著自動(dòng)化水平的提升、質(zhì)量要求的完善、生產(chǎn)規(guī)模的擴(kuò)大,現(xiàn)代工業(yè)過(guò)程往往存在強(qiáng)非線(xiàn)性、動(dòng)態(tài)特性與慢時(shí)變等本質(zhì)特點(diǎn),眾多參變量中普遍存在不確定、多層次與強(qiáng)耦合關(guān)系,因此傳統(tǒng)的機(jī)理模型難以準(zhǔn)確地描述實(shí)際工業(yè)過(guò)程.
軟測(cè)量技術(shù)[1]的產(chǎn)生與發(fā)展為解決上述問(wèn)題提供了一種有效方法,其核心思想是利用易于測(cè)量的過(guò)程變量(輔助變量)建立可以表征過(guò)程變量和質(zhì)量變量(主導(dǎo)變量)之間關(guān)系的軟測(cè)量模型.軟測(cè)量模型為后續(xù)過(guò)程控制[2–3]、在線(xiàn)估計(jì)[4–6]以及故障診斷[7]等方面產(chǎn)生了很大的影響,發(fā)揮了必要且重要的作用.早期的軟測(cè)量是基于機(jī)理分析的建模,需要對(duì)工業(yè)過(guò)程內(nèi)部機(jī)理有充分的了解.其中:微分方程與代數(shù)方程能夠用于表示工業(yè)過(guò)程動(dòng)態(tài)機(jī)理[8],卡爾曼濾波[9–10]常用于軟測(cè)量中對(duì)過(guò)程參數(shù)進(jìn)行建模.但由于實(shí)際工業(yè)過(guò)程極為復(fù)雜,模型結(jié)構(gòu)的形式難以確定,很難通過(guò)機(jī)理建模描述過(guò)程規(guī)律、反映過(guò)程特性.基于數(shù)據(jù)驅(qū)動(dòng)[11]的軟測(cè)量建模方法解決了上述問(wèn)題.數(shù)據(jù)驅(qū)動(dòng)僅依靠現(xiàn)場(chǎng)采集的大量歷史輸入輸出數(shù)據(jù)建立質(zhì)量變量與過(guò)程變量之間的數(shù)學(xué)關(guān)系,因此非常適合于復(fù)雜工業(yè)過(guò)程的軟測(cè)量建模.早期的數(shù)據(jù)驅(qū)動(dòng)建模方法包含主成分分析法(principal component analysis,PCA[12])、偏最小二乘法(partial least squares,PLS[13])等回歸分析法與人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)等機(jī)器學(xué)習(xí)模型[14].由于實(shí)際工業(yè)過(guò)程具有動(dòng)態(tài)特性,但上述回歸分析法與多數(shù)人工神經(jīng)網(wǎng)絡(luò)模型僅能反映過(guò)程的非線(xiàn)性特性而缺少對(duì)動(dòng)態(tài)特性的體現(xiàn),因此非線(xiàn)性動(dòng)態(tài)建模成為軟測(cè)量的主要研究方向,不少研究針對(duì)時(shí)序數(shù)據(jù)具備的特性提出了非線(xiàn)性動(dòng)態(tài)軟測(cè)量模型[15–17].
近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)理論的不斷發(fā)展和完善,神經(jīng)網(wǎng)絡(luò)軟測(cè)量模型主要包含普通神經(jīng)網(wǎng)絡(luò)[18]、徑向基神經(jīng)網(wǎng)絡(luò)(radial basis function network,RBF[19])、生成對(duì)抗神經(jīng)網(wǎng)絡(luò)(generative adversarial network,GAN[20])等模型.但上述提出的模型都是靜態(tài)軟測(cè)量模型,在工業(yè)過(guò)程中具有一定的局限性.動(dòng)態(tài)軟測(cè)量模型的相繼提出解決了靜態(tài)模型在實(shí)際應(yīng)用中估計(jì)精度低、魯棒性差等問(wèn)題.回聲狀態(tài)網(wǎng)絡(luò)(echo state network,ESN[21])、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN[22])與循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN[23–25])等常作為動(dòng)態(tài)軟測(cè)量模型應(yīng)用到實(shí)際的工業(yè)過(guò)程.其中:循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展為時(shí)間序列的建模提供了優(yōu)良選擇.因此,對(duì)于工業(yè)過(guò)程的非線(xiàn)性全動(dòng)態(tài)建模問(wèn)題,常使用工業(yè)時(shí)序數(shù)據(jù)作為循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入或采用固定結(jié)構(gòu)的記憶神經(jīng)網(wǎng)絡(luò)對(duì)非線(xiàn)性動(dòng)態(tài)過(guò)程進(jìn)行有效模擬.記憶神經(jīng)網(wǎng)絡(luò)分為循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long-short term memory,LSTM[26])和門(mén)控循環(huán)單元(gated recurrent unit,GRU[27]).其中:循環(huán)神經(jīng)網(wǎng)絡(luò)是一種短記憶模型,不適合處理過(guò)長(zhǎng)的時(shí)間序列;LSTM的提出解決了上述問(wèn)題,在記憶方面得以較大提升,對(duì)任意長(zhǎng)度的時(shí)序數(shù)據(jù)均能進(jìn)行很好的訓(xùn)練及預(yù)測(cè),但該網(wǎng)絡(luò)的結(jié)構(gòu)過(guò)于復(fù)雜,加重了計(jì)算負(fù)擔(dān).為解決上述問(wèn)題,GRU的提出得到了廣泛的應(yīng)用.Fu等[28]使用GRU神經(jīng)網(wǎng)絡(luò)對(duì)交通流進(jìn)行了預(yù)測(cè),實(shí)驗(yàn)表明,GRU在交通流量預(yù)測(cè)上的性能優(yōu)于LSTM與自回歸積分移動(dòng)平均(autoregressive integrated moving average,ARIMA)模型.Pavithra等[29]將門(mén)控循環(huán)單元應(yīng)用于醫(yī)學(xué)領(lǐng)域,基于GRU在預(yù)測(cè)糖尿病疾病的發(fā)展上取得了良好的預(yù)測(cè)效果.Siwagorn等[30]采用GRU 預(yù)測(cè)飛機(jī)垂直速度的下降幅度,使飛機(jī)能夠有效著陸,提高了飛機(jī)的著陸效率.倪維成[31]建立了一種基于GRU的航空發(fā)動(dòng)機(jī)剩余壽命預(yù)測(cè)模型,實(shí)驗(yàn)表明該模型在預(yù)測(cè)精度上高于多數(shù)淺層機(jī)器學(xué)習(xí)方法和部分深度學(xué)習(xí)方法.雖然目前已有大量學(xué)者在不同領(lǐng)域驗(yàn)證了GRU神經(jīng)網(wǎng)絡(luò)較其他預(yù)測(cè)模型在時(shí)序預(yù)測(cè)問(wèn)題上的優(yōu)越性,但基于GRU對(duì)工業(yè)領(lǐng)域中非線(xiàn)性動(dòng)態(tài)過(guò)程的預(yù)測(cè)研究卻屈指可數(shù),并且已有研究沒(méi)有對(duì)GRU神經(jīng)網(wǎng)絡(luò)反向更新單元數(shù)與實(shí)際非線(xiàn)性動(dòng)態(tài)過(guò)程階次之間的關(guān)系進(jìn)行研究.基于以上分析,本文提出一種依賴(lài)模型階次的GRU(model order based–GRU,MOb–GRU)軟測(cè)量模型,基于該模型對(duì)工業(yè)領(lǐng)域中單變量與多變量非線(xiàn)性動(dòng)態(tài)過(guò)程進(jìn)行全動(dòng)態(tài)建模,本文用帶有輸出非線(xiàn)性的非線(xiàn)性動(dòng)態(tài)過(guò)程代替實(shí)際非線(xiàn)性動(dòng)態(tài)過(guò)程產(chǎn)生過(guò)程數(shù)據(jù),進(jìn)而進(jìn)行分析與建模.
Lynn等人[32]的研究表明,GRU結(jié)構(gòu)的更新門(mén)和輸出激活函數(shù)是GRU網(wǎng)絡(luò)最關(guān)鍵的組件,學(xué)習(xí)率是門(mén)控循環(huán)單元最重要的超參數(shù).因此,建立神經(jīng)網(wǎng)絡(luò)軟測(cè)量模型的關(guān)鍵是選擇合適的學(xué)習(xí)率優(yōu)化算法使網(wǎng)絡(luò)以較快速度達(dá)到收斂.目前已有一些關(guān)于深度學(xué)習(xí)模型中學(xué)習(xí)率策略的研究.Ranjeeth等[33]提出了具有最優(yōu)隨機(jī)梯度下降(stochastic gradient descent,SGD)的多層感知器機(jī)器學(xué)習(xí)模型,SGD的引入提高了感知器的性能與數(shù)據(jù)分類(lèi)準(zhǔn)確度,但SGD中學(xué)習(xí)率是固定的,收斂速度慢且容易陷入局部最優(yōu)解.Ralf等[34]設(shè)計(jì)了一種應(yīng)用于復(fù)雜深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)問(wèn)題的循環(huán)學(xué)習(xí)率方法,該方法較固定學(xué)習(xí)率方法能達(dá)到更好的結(jié)果,但循環(huán)學(xué)習(xí)率是在兩個(gè)有理邊界值的范圍內(nèi)變化,而不是單調(diào)衰減的.為解決上述問(wèn)題,本文設(shè)計(jì)了一種簡(jiǎn)單而有效的階躍衰減類(lèi)(step attenuation class,SAC)自適應(yīng)學(xué)習(xí)率算法與學(xué)習(xí)率矩陣算法,兩種方法均保證了整個(gè)系統(tǒng)更快地收斂和穩(wěn)定,提高了預(yù)測(cè)的準(zhǔn)確率.
GRU由Cho等人提出,是LSTM的一種變體模型,不僅能夠解決RNN存在的梯度消失問(wèn)題,還簡(jiǎn)化了LSTM的網(wǎng)絡(luò)結(jié)構(gòu)、提高了收斂速度.目前最常用的GRU模型主要由更新門(mén)和重置門(mén)構(gòu)成,圖1為其內(nèi)部結(jié)構(gòu)示意圖.
圖1 GRU內(nèi)部結(jié)構(gòu)示意圖Fig.1 GRU internal structure diagram
每個(gè)GRU單元能夠根據(jù)當(dāng)前時(shí)刻的輸入xt和上一時(shí)刻隱藏層輸出的激活值ht?1,計(jì)算得到當(dāng)前時(shí)刻隱藏層輸出值ht和候選激活值?ht.相比于RNN,GRU通過(guò)引入門(mén)控機(jī)制,能夠同時(shí)對(duì)不同時(shí)刻、不同長(zhǎng)度的時(shí)序關(guān)系進(jìn)行記憶和學(xué)習(xí).相比于LSTM,GRU減少了網(wǎng)絡(luò)參數(shù)數(shù)量,加快了訓(xùn)練的收斂速度,具有簡(jiǎn)單的單元結(jié)構(gòu)和高效處理數(shù)據(jù)的能力.目前GRU已被廣泛應(yīng)用于機(jī)器翻譯和序列生成等眾多領(lǐng)域.
本文所提出的MOb–GRU軟測(cè)量模型適用的場(chǎng)合需滿(mǎn)足以下兩個(gè)條件:1)由于工業(yè)過(guò)程的復(fù)雜性,過(guò)程內(nèi)部機(jī)理不清楚,無(wú)法運(yùn)用機(jī)理建模對(duì)其進(jìn)行精確建模;2)過(guò)程數(shù)據(jù)在時(shí)間上連續(xù),滿(mǎn)足一定的時(shí)序關(guān)系.文中分別采用ut和yt來(lái)表示過(guò)程變量和質(zhì)量變量,軟測(cè)量模型基于數(shù)據(jù)驅(qū)動(dòng),通過(guò)學(xué)習(xí)得到過(guò)程變量與質(zhì)量變量間的映射關(guān)系,即f:yt →ut.
MOb–GRU神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)GRU相比,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度與訓(xùn)練所需計(jì)算量均較小,原因在于:a)從結(jié)構(gòu)上看,MOb–GRU能夠根據(jù)實(shí)際過(guò)程的大致階次調(diào)節(jié)反向更新單元數(shù),其數(shù)量可少于網(wǎng)絡(luò)中的總單元數(shù),與傳統(tǒng)GRU從第1個(gè)模塊開(kāi)始輸出相比,既保證了長(zhǎng)期和短期的記憶性,又在結(jié)構(gòu)設(shè)置上變得更加靈活.需要注意的是,MOb–GRU的反向更新單元數(shù)是指包含最后一個(gè)模塊開(kāi)始反向向前傳播的單元數(shù),與訓(xùn)練算法中權(quán)重梯度在時(shí)間上的疊加數(shù)量相等,以此保證了權(quán)重在更新過(guò)程中不隨噪聲發(fā)生顯著波動(dòng);b)從訓(xùn)練算法上看,在用隨時(shí)間反向傳播(back propagation through time,BPTT)算法進(jìn)行訓(xùn)練時(shí),MOb–GRU綜合梯度量的確定依賴(lài)于反向更新單元數(shù),而GRU綜合梯度量的確定依賴(lài)于全部模塊數(shù).基于此,MOb–GRU訓(xùn)練時(shí)歷經(jīng)時(shí)間確定梯度所需的循環(huán)數(shù)量較小,計(jì)算量較低,減輕了模型的計(jì)算負(fù)荷.但MOb–GRU神經(jīng)網(wǎng)絡(luò)與RNN相比,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜度與訓(xùn)練所需計(jì)算量又是偏大的,原因在于:a)從結(jié)構(gòu)上看,RNN中間層神經(jīng)元的狀態(tài)是由上一層過(guò)程輸入的狀態(tài)與自身前一時(shí)刻的狀態(tài)決定的,意味著與GRU,MOb–GRU相比,RNN總模塊數(shù)只有2個(gè);b)從訓(xùn)練算法上看,RNN綜合梯度量的確定只需計(jì)算當(dāng)前和前一時(shí)刻的梯度量,即反向傳播單元數(shù)為1,因此訓(xùn)練所需的計(jì)算量相對(duì)更低.綜上所述,RNN與GRU,MOb–GRU相比,網(wǎng)絡(luò)結(jié)構(gòu)更簡(jiǎn)單,訓(xùn)練時(shí)的計(jì)算時(shí)間復(fù)雜度更低.3個(gè)模型的計(jì)算時(shí)間復(fù)雜度關(guān)系如表1所示.
表1 3個(gè)模型的計(jì)算時(shí)間復(fù)雜度Table 1 Computational time complexity of three models
基于對(duì)模型計(jì)算時(shí)間復(fù)雜度與訓(xùn)練性能的考慮,本文采用MOb–GRU模型對(duì)非線(xiàn)性動(dòng)態(tài)過(guò)程進(jìn)行建模,將過(guò)程的輸入數(shù)據(jù)ut和輸出數(shù)據(jù)yt作為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)數(shù)據(jù),無(wú)需明確過(guò)程內(nèi)部機(jī)理和參數(shù)變量.本文設(shè)計(jì)的單變量MOb–GRU(SISO–MOb–GRU)信息流向圖和單變量GRU(SISO–GRU)信息流向圖如圖2所示.其中:j為前向傳播單元數(shù);i為反向更新單元數(shù);以SISO–MOb–GRU信息流向圖為例,每個(gè)單元下方直連的變量為MOb–GRU單元的輸入變量,上方直連的變量為MOb–GRU單元的預(yù)測(cè)輸出.定義x(t)=[u(t ?1)y(t ?1)]T為MOb–GRU單元的輸入;χ(t)=[x(t ?j)··· x(t ?i)··· x(t ?1)],(t)=[(t?i+1)···(t)]分別為網(wǎng)絡(luò)的輸入和輸出.為體現(xiàn)過(guò)程的動(dòng)態(tài)特性,本文將采用遞歸的方式給網(wǎng)絡(luò)的輸入信號(hào)賦值,使MOb–GRU模型呈現(xiàn)出一種動(dòng)態(tài)效果.SISO–GRU信息流向圖中的變量同理.
圖2 單變量MOb–GRU與單變量GRU信息流向圖Fig.2 SISO–MOb–GRU&SISO–GRU information flow diagram
高維、高階多變量過(guò)程普遍存在于現(xiàn)代工業(yè)過(guò)程中,因此基于MOb–GRU對(duì)多變量過(guò)程進(jìn)行動(dòng)態(tài)建模具有重要的實(shí)際意義.由于本研究限于理論分析層面,在單變量過(guò)程建模的基礎(chǔ)上僅通過(guò)拓展維度便能實(shí)現(xiàn)對(duì)多變量過(guò)程的模擬及預(yù)測(cè).圖3為本文設(shè)計(jì)的多變量MOb–GRU(MIMO–MOb–GRU)信息流向圖.其中:s和v表示多變量非線(xiàn)性動(dòng)態(tài)過(guò)程輸入與輸出變量的維度.每個(gè)MOb–GRU單元的輸入變量引出的小圓圈數(shù)量代表網(wǎng)絡(luò)的輸入維度.對(duì)于多變量過(guò)程,每增加一個(gè)輸入或輸出變量,便會(huì)多一個(gè)黃色圓圈與網(wǎng)絡(luò)的輸入變量相連,以表示網(wǎng)絡(luò)輸入維度的拓展;輸出維度的拓展同理.多變量GRU(MIMO–GRU)信息流向圖與MIMO–MOb–GRU信息流向圖的區(qū)別和單變量一樣,在此不呈現(xiàn)具體的MIMO–GRU信息流向圖.
圖3 MIMO–MOb–GRU信息流向圖Fig.3 MIMO–MOb–GRU information flow diagram
基于MOb–GRU神經(jīng)網(wǎng)絡(luò)對(duì)非線(xiàn)性動(dòng)態(tài)過(guò)程進(jìn)行建模與預(yù)測(cè)的整體算法流程如下:
步驟1輸入輸出數(shù)據(jù)的歸一化處理.本研究將根據(jù)過(guò)程變量與質(zhì)量變量的量程范圍進(jìn)行歸一化和反歸一化處理.
其中:ut,max和ut,min為輸入變量量程范圍內(nèi)的最大值與最小值;yt,max和yt,min為輸出變量量程范圍內(nèi)的最大值與最小值.
步驟2初始化網(wǎng)絡(luò)結(jié)構(gòu)選擇.
步驟3訓(xùn)練網(wǎng)絡(luò).本研究將采用BPTT對(duì)MOb–GRU網(wǎng)絡(luò)進(jìn)行訓(xùn)練.
步驟4步長(zhǎng)及步長(zhǎng)矩陣的選取.本文采用SAC自適應(yīng)學(xué)習(xí)率算法與學(xué)習(xí)率矩陣算法選取合適的步長(zhǎng)與步長(zhǎng)矩陣對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新,以確定最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu).
步驟5預(yù)測(cè)輸出.
BPTT算法是記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)進(jìn)行權(quán)重更新的一種基于時(shí)間的反向傳播算法,其本質(zhì)為梯度下降法,因此求各參數(shù)的梯度成了該算法的關(guān)鍵.首先定義t時(shí)刻的損失函數(shù)為
其中:ye表示t時(shí)刻的實(shí)際輸出;yt表示t時(shí)刻的預(yù)測(cè)輸出.BPTT訓(xùn)練算法具體見(jiàn)文獻(xiàn)[35].
學(xué)習(xí)率對(duì)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)有很大的影響.學(xué)習(xí)率過(guò)高,易使網(wǎng)絡(luò)參數(shù)優(yōu)化過(guò)度,導(dǎo)致訓(xùn)練變得發(fā)散;學(xué)習(xí)率過(guò)小,雖然網(wǎng)絡(luò)訓(xùn)練更加可靠,但所需時(shí)間過(guò)長(zhǎng).因此選擇合適的學(xué)習(xí)率優(yōu)化算法顯得尤為重要.
3.2.1 階躍衰減類(lèi)SAC自適應(yīng)學(xué)習(xí)率算法
對(duì)于不同波動(dòng)程度的非線(xiàn)性動(dòng)態(tài)過(guò)程會(huì)對(duì)應(yīng)不同的最優(yōu)學(xué)習(xí)率(optimal learning rate,Olr),以保證網(wǎng)絡(luò)的預(yù)測(cè)精度和收斂速度.因此本文設(shè)計(jì)了1種SAC自適應(yīng)學(xué)習(xí)率算法.
引入平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)作為評(píng)價(jià)指標(biāo),用于判斷模型訓(xùn)練效果的好壞,即
其中:L為訓(xùn)練數(shù)據(jù)的長(zhǎng)度;yc為c時(shí)刻的真實(shí)輸出;為c時(shí)刻的估計(jì)輸出.
將訓(xùn)練數(shù)據(jù)按時(shí)間連續(xù)劃分為n個(gè)長(zhǎng)度為l的階段,將預(yù)選學(xué)習(xí)率中的固定學(xué)習(xí)率從大到小依次分配給[2,n ?1]的每個(gè)階段.第1階段采用初始學(xué)習(xí)率作為網(wǎng)絡(luò)的Olr進(jìn)行訓(xùn)練;第2階段到最后一個(gè)階段之間的每一階段,首先確保網(wǎng)絡(luò)在該固定學(xué)習(xí)率下收斂,接著取后0.25l的數(shù)據(jù)通過(guò)遞推式(5)計(jì)算MAPE數(shù)值,并將該值作為本階段的相對(duì)誤差標(biāo)準(zhǔn)值,即
其中:dl?0.75?l=(1?b)/(1?bl?0.75?l),b表示遺忘因子;q ∈[2,n ?1],表示某一階段.最后記錄每一階段最后一個(gè)時(shí)刻的MAPE和學(xué)習(xí)率.
在判斷階段,將當(dāng)前階段的MAPEq與最優(yōu)MAPE進(jìn)行比較,若MAPEq 通過(guò)不斷調(diào)整最優(yōu)MAPE確定最優(yōu)學(xué)習(xí)率的取值,具體實(shí)現(xiàn)流程如下: 步驟1判斷當(dāng)前時(shí)刻c處于哪個(gè)階段. 步驟2如果q=1,則設(shè)置初始學(xué)習(xí)率為最優(yōu)學(xué)習(xí)率,用于神經(jīng)網(wǎng)絡(luò)的穩(wěn)定和收斂.如果q=2,則在該階段的最后通過(guò)遞推公式計(jì)算初始MAPE作為相對(duì)誤差標(biāo)準(zhǔn)值. 步驟3如果2 步驟4如果q=n,使用最優(yōu)學(xué)習(xí)率訓(xùn)練神經(jīng)網(wǎng)絡(luò)并進(jìn)行最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)的確定. 利用SAC自適應(yīng)學(xué)習(xí)率算法確定網(wǎng)絡(luò)的最優(yōu)學(xué)習(xí)率,相應(yīng)的MOb–GRU反向更新算法形式為 其中:W(·)代表MOb–GRU模型中需要學(xué)習(xí)的權(quán)重參數(shù)Wo,Wrh,Wrx,W?hh,W?hx,Wzh,Wzx,后面該變量含義與此保持一致;k為采樣時(shí)刻;T為采樣周期,設(shè)置T=1 min;i為反向更新單元數(shù).為方便起見(jiàn),后續(xù)形式上將采樣周期T省略,即用k表示kT. 注1本文根據(jù)數(shù)據(jù)集的長(zhǎng)度將其劃分為n段,預(yù)選學(xué)習(xí)率由(n?2)個(gè)從小到大取值的固定學(xué)習(xí)率組成[α1,α2,···,αn?2],α1<α2<···<αn?2. 注2為保證網(wǎng)絡(luò)訓(xùn)練時(shí)不會(huì)發(fā)散且使網(wǎng)絡(luò)較快地達(dá)到收斂,本文將初始學(xué)習(xí)率設(shè)置為預(yù)選學(xué)習(xí)率數(shù)組中的中間數(shù)值. 3.2.2 學(xué)習(xí)率矩陣算法 Hessian矩陣[36–37]常用于優(yōu)化問(wèn)題,是用一個(gè)標(biāo)量對(duì)一個(gè)向量的二階導(dǎo)數(shù)組成的方陣.對(duì)于實(shí)際問(wèn)題Hessian矩陣可能會(huì)很難計(jì)算,因此通常采用近似二階Hessian 矩陣法代替計(jì)算,如BFGS 算法[38]、DFP 算法[39]與Levenberg–Marquardt(LM)算法[40].本研究將采用類(lèi)LM算法作為學(xué)習(xí)率矩陣算法,利用近似二階Hessian矩陣的逆的方法代替步長(zhǎng),對(duì)權(quán)重進(jìn)行更新.該算法結(jié)合了梯度下降法和高斯–牛頓法的優(yōu)點(diǎn),使網(wǎng)絡(luò)能較快且穩(wěn)定地找到參數(shù)的最優(yōu)值. 利用學(xué)習(xí)率矩陣算法對(duì)MOb–GRU網(wǎng)絡(luò)參數(shù)進(jìn)行反向更新時(shí),算法形式如下: 注3兩種學(xué)習(xí)率優(yōu)化算法的區(qū)別在于:如果訓(xùn)練網(wǎng)絡(luò)時(shí)已經(jīng)能夠確定基礎(chǔ)步長(zhǎng)的范圍,則采用SAC自適應(yīng)學(xué)習(xí)率算法;當(dāng)無(wú)法確定基礎(chǔ)步長(zhǎng)范圍時(shí),采用學(xué)習(xí)率矩陣算法.SAC自適應(yīng)學(xué)習(xí)率算法能夠提高網(wǎng)絡(luò)的整體運(yùn)算效率,而學(xué)習(xí)率矩陣算法只需提前選擇合適的阻尼項(xiàng),便能對(duì)權(quán)重進(jìn)行較好的調(diào)整,是能夠保證神經(jīng)網(wǎng)絡(luò)達(dá)到收斂的一種較為穩(wěn)妥的訓(xùn)練方法. 對(duì)于真實(shí)的工業(yè)過(guò)程,可以通過(guò)一個(gè)較快的采樣頻率采集過(guò)程數(shù)據(jù),再進(jìn)行神經(jīng)網(wǎng)絡(luò)建模.而本文給出帶有輸出非線(xiàn)性的仿真系統(tǒng),是為了代替實(shí)際工業(yè)過(guò)程而產(chǎn)生過(guò)程數(shù)據(jù),再根據(jù)所產(chǎn)生的數(shù)據(jù)對(duì)仿真系統(tǒng)進(jìn)行建模.本節(jié)基于MOb–GRU軟測(cè)量模型分別對(duì)單變量與多變量非線(xiàn)性動(dòng)態(tài)過(guò)程的仿真系統(tǒng)進(jìn)行模擬,旨在驗(yàn)證本文提出的MOb–GRU模型的有效性.在單變量非線(xiàn)性動(dòng)態(tài)過(guò)程的建模中,討論了關(guān)鍵網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)以及系統(tǒng)波動(dòng)程度對(duì)MOb–GRU訓(xùn)練性能的影響.另外,仿真時(shí)將MOb–GRU與RNN,GRU兩個(gè)基線(xiàn)模型進(jìn)行了對(duì)比,同時(shí)將SAC自適應(yīng)學(xué)習(xí)率算法、學(xué)習(xí)率矩陣算法分別與固定學(xué)習(xí)率算法進(jìn)行了比較. 該實(shí)驗(yàn)中,單變量非線(xiàn)性動(dòng)態(tài)過(guò)程的仿真系統(tǒng)可表示為 注4u(·)代表非線(xiàn)性動(dòng)態(tài)過(guò)程的輸入信號(hào),作為軟測(cè)量中的輔助變量,取為多正弦信號(hào) 其中:k為采樣時(shí)刻;取采樣周期T=1 min;本小節(jié)使用的數(shù)據(jù)集是通過(guò)式(8)–(9)仿真生成的,共81000個(gè)輸入輸出樣本數(shù)據(jù),以3:1:1的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集.x(·)表示中間狀態(tài)變量;y(·)表示輸出變量,作為軟測(cè)量中的主導(dǎo)變量;w(·)表示過(guò)程噪聲,是一種分布服從均值為0、方差為?的高斯隨機(jī)噪聲,即 其中λ(·)表示參數(shù)的波動(dòng)方差,后續(xù)實(shí)驗(yàn)中λ用于表示系統(tǒng)內(nèi)部波動(dòng)程度.λ越大,表示系統(tǒng)內(nèi)部波動(dòng)程度越大. 本小節(jié)靜態(tài)非線(xiàn)性環(huán)節(jié)的具體表示如下: MOb–GRU神經(jīng)網(wǎng)絡(luò)模型的超參數(shù)包括前向傳播單元數(shù)、反向更新單元數(shù)以及預(yù)選學(xué)習(xí)率間隔.首先基于實(shí)驗(yàn)確定模型的關(guān)鍵結(jié)構(gòu)參數(shù).參數(shù)初始化設(shè)置如表2所示. 對(duì)于單變量非線(xiàn)性動(dòng)態(tài)過(guò)程的仿真系統(tǒng),考慮動(dòng)態(tài)較為豐富且復(fù)雜的情況,將輸入輸出階次ζ,η均設(shè)置為6;預(yù)選學(xué)習(xí)率間隔lrg暫時(shí)設(shè)置為0.08,即預(yù)選學(xué)習(xí)率為[0.08,0.16,0.24,0.32,0.40,0.48,0.56,0.64];式(5)中遺忘因子d設(shè)置為0.95;系統(tǒng)內(nèi)部波動(dòng)程度λ暫時(shí)設(shè)置為0.00152;外部波動(dòng)程度?暫時(shí)設(shè)置為4.02.為確定MOb–GRU的前向傳播單元數(shù)j與反向更新單元數(shù)i,在驗(yàn)證集上進(jìn)行對(duì)比實(shí)驗(yàn),將MAPE作為評(píng)價(jià)指標(biāo),能夠表征預(yù)測(cè)值與真實(shí)值之間偏差的實(shí)際水平,MAPE越小,模型性能越好.由于網(wǎng)絡(luò)在訓(xùn)練過(guò)程中具有一定的隨機(jī)性,每次訓(xùn)練得到的結(jié)果均有所不同,為保證實(shí)驗(yàn)結(jié)果的可靠性,對(duì)每組參數(shù)實(shí)驗(yàn)均進(jìn)行50次重復(fù),并將結(jié)果取平均,如表3 所示.其中:下標(biāo)a表示采用SAC自適應(yīng)學(xué)習(xí)率算法的網(wǎng)絡(luò)訓(xùn)練結(jié)果;下標(biāo)m表示采用學(xué)習(xí)率矩陣算法的網(wǎng)絡(luò)訓(xùn)練結(jié)果;無(wú)下標(biāo)表示采用固定學(xué)習(xí)率算法的網(wǎng)絡(luò)訓(xùn)練結(jié)果.后面以表格形式呈現(xiàn)的實(shí)驗(yàn)結(jié)果同理. 表3 不同模型結(jié)構(gòu)參數(shù)下的MAPETable 3 MAPE under different model structure parameters 從表3可見(jiàn),在3種學(xué)習(xí)率優(yōu)化算法下,前向傳播單元數(shù)為19、反向更新單元數(shù)為6時(shí),MAPE的值最小.當(dāng)前向傳播單元數(shù)小于19時(shí),性能指標(biāo)隨前向傳播單元數(shù)的增加而減小;當(dāng)前向傳播單元數(shù)大于19時(shí),性能指標(biāo)隨前向傳播單元數(shù)的增加而增加.這是由于當(dāng)前向傳播單元數(shù)增加到一定數(shù)目時(shí),整個(gè)模型的參數(shù)爆炸增長(zhǎng),模型復(fù)雜度變大的同時(shí)預(yù)測(cè)精度降低.當(dāng)反向更新單元數(shù)小于6時(shí),性能指標(biāo)隨反向更新單元數(shù)的增大而減小;當(dāng)反向更新單元數(shù)大于6時(shí),性能指標(biāo)隨反向更新單元數(shù)的增大而增加,驗(yàn)證了當(dāng)反向更新單元數(shù)接近模型階次時(shí),網(wǎng)絡(luò)具有更好的性能.因此,將MOb–GRU模型的前向傳播單元數(shù)設(shè)置為19,反向更新單元數(shù)設(shè)置為6進(jìn)行后續(xù)實(shí)驗(yàn). 進(jìn)而基于實(shí)驗(yàn)確定合適的預(yù)選學(xué)習(xí)率間隔.在保證網(wǎng)絡(luò)跟蹤精度的基礎(chǔ)上,lrg從0.01到0.3的范圍內(nèi)選取.在驗(yàn)證集上對(duì)每個(gè)lrg均進(jìn)行50次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果取平均,依舊采用MAPE作為評(píng)價(jià)指標(biāo). 如圖4所示,對(duì)于[0.01,0.3]的預(yù)選學(xué)習(xí)率間隔而言,MAPE的值集中在0.0532~0.0712之間.實(shí)驗(yàn)表明,預(yù)選學(xué)習(xí)率間隔過(guò)大或過(guò)小都會(huì)使MOb–GRU模型的訓(xùn)練性能變得相對(duì)較差,當(dāng)lrg=0.19時(shí),網(wǎng)絡(luò)訓(xùn)練性能達(dá)到最優(yōu),此時(shí)MAPE=0.0532.因此本文將預(yù)選學(xué)習(xí)率間隔選為0.19,進(jìn)行后續(xù)研究. 圖4 MOb–GRU訓(xùn)練性能與預(yù)選學(xué)習(xí)率間隔的關(guān)系Fig.4 Relationship between training performance and lrg of MOb–GRU 為研究系統(tǒng)波動(dòng)對(duì)MOb–GRU網(wǎng)絡(luò)性能的影響,本文選擇MAPE和均方根誤差(root mean square error,RMSE)作為評(píng)價(jià)指標(biāo),RMSE由式(14)計(jì)算得到.為了對(duì)比模型的預(yù)測(cè)效果,選擇RNN與GRU模型作為對(duì)比基線(xiàn)模型.為了驗(yàn)證本文所設(shè)計(jì)的兩種學(xué)習(xí)率優(yōu)化算法的有效性,將其分別與固定學(xué)習(xí)率算法進(jìn)行比較 其中:L表示數(shù)據(jù)集長(zhǎng)度;為網(wǎng)絡(luò)預(yù)測(cè)輸出;yc為系統(tǒng)真實(shí)輸出.RMSE越小,模型訓(xùn)練性能越好.本文將系統(tǒng)波動(dòng)分為系統(tǒng)內(nèi)部波動(dòng)與系統(tǒng)外部波動(dòng)進(jìn)行研究.基于以上實(shí)驗(yàn),設(shè)置MOb–GRU結(jié)構(gòu)參數(shù)j=19,i=6;GRU結(jié)構(gòu)參數(shù)j=19,i=18;根據(jù)第2節(jié)的理論分析,設(shè)置RNN的結(jié)構(gòu)參數(shù)j=2,i=1. a) 系統(tǒng)內(nèi)部波動(dòng)對(duì)預(yù)測(cè)模型預(yù)測(cè)效果的影響. 系統(tǒng)內(nèi)部波動(dòng)是指動(dòng)態(tài)線(xiàn)性環(huán)節(jié)參數(shù)向量的波動(dòng)程度,每個(gè)參數(shù)可能具有不同的波動(dòng)方差(如式(12)).設(shè)置式(8)中κ1=0.12,κ2=0.03,κ3=0.05,κ4=0.02,κ5=0.01,κ6=0.01,τ1=0.61,τ2=0.21,τ3=0.06,τ4=0.02,τ5=0.01,τ6=0.02以及系統(tǒng)外部波動(dòng)方差?=4.02.為研究模型預(yù)測(cè)效果與系統(tǒng)內(nèi)部參數(shù)波動(dòng)程度(用λ表示)之間的關(guān)系,假設(shè)所有參數(shù)的波動(dòng)方差均相同,考慮如下幾種情況: 對(duì)應(yīng)不同的參數(shù)波動(dòng)方差,實(shí)驗(yàn)分別進(jìn)行50次重復(fù)并將結(jié)果取平均.在驗(yàn)證集上,運(yùn)用MOb–GRU與兩種基線(xiàn)模型分別對(duì)3種情況的非線(xiàn)性動(dòng)態(tài)過(guò)程進(jìn)行預(yù)測(cè),表4給出不同模型在不同學(xué)習(xí)率優(yōu)化算法下的預(yù)測(cè)結(jié)果.由表4可知,隨著內(nèi)部參數(shù)波動(dòng)程度的增加,各模型在3種學(xué)習(xí)率優(yōu)化算法下的預(yù)測(cè)精度均有所降低.原因是隨著內(nèi)部參數(shù)波動(dòng)程度的增加,系統(tǒng)的隨機(jī)性增強(qiáng),在固定的網(wǎng)絡(luò)參數(shù)設(shè)置下,易導(dǎo)致網(wǎng)絡(luò)模型的預(yù)測(cè)精度降低,對(duì)實(shí)際系統(tǒng)的跟蹤性能變差. 表4 不同系統(tǒng)內(nèi)部波動(dòng)程度下的MAPETable 4 MAPE under different degrees of internal system fluctuation b) 系統(tǒng)外部波動(dòng)對(duì)預(yù)測(cè)模型預(yù)測(cè)效果的影響. 系統(tǒng)外部波動(dòng)是指高斯隨機(jī)噪聲的波動(dòng)程度,即過(guò)程噪聲的波動(dòng)方差.設(shè)置內(nèi)部波動(dòng)程度λ=0.0012,考慮噪聲波動(dòng)程度?分別為4.02,6.02,8.023種情況,在驗(yàn)證集上針對(duì)每種情況均進(jìn)行50次獨(dú)立重復(fù)實(shí)驗(yàn)并將結(jié)果取平均,結(jié)果如表5所示.由表5可以看出,在3種算法下,隨著噪聲波動(dòng)程度的增加,各模型的預(yù)測(cè)精度均發(fā)生了不同程度的降低.原因是噪聲的存在會(huì)導(dǎo)致系統(tǒng)的隨機(jī)變化程度增加,且噪聲波動(dòng)程度越大,系統(tǒng)變化頻率越大,導(dǎo)致在相同的結(jié)構(gòu)參數(shù)下預(yù)測(cè)曲線(xiàn)難以跟上實(shí)際系統(tǒng)的變化,預(yù)測(cè)精度下降. 表5 不同系統(tǒng)外部波動(dòng)程度下的MAPETable 5 MAPE under different degrees of external system fluctuation 基于上述分析,在測(cè)試集上,運(yùn)用MOb–GRU模型與兩種基線(xiàn)模型分別對(duì)參數(shù)λ=0.0012,?=4.02的非線(xiàn)性動(dòng)態(tài)過(guò)程進(jìn)行預(yù)測(cè),表6給出3種模型在不同算法下的預(yù)測(cè)結(jié)果,采用RMSE評(píng)價(jià)指標(biāo)評(píng)價(jià)模型的預(yù)測(cè)精度.圖5為測(cè)試集上3種預(yù)測(cè)模型采用SAC自適應(yīng)學(xué)習(xí)率優(yōu)化算法對(duì)單變量非線(xiàn)性動(dòng)態(tài)過(guò)程進(jìn)行模擬的預(yù)測(cè)曲線(xiàn)與真實(shí)曲線(xiàn)對(duì)比,取測(cè)試集中100個(gè)數(shù)據(jù)進(jìn)行預(yù)測(cè).由圖5可知,當(dāng)合理設(shè)置模型參數(shù)后,MOb–GRU的預(yù)測(cè)曲線(xiàn)更接近實(shí)際曲線(xiàn),能更好地跟蹤真實(shí)曲線(xiàn)的變化.從表6可知,在3種學(xué)習(xí)率算法下,相比于基線(xiàn)模型RNN與GRU,本文提出的模型具有更高的預(yù)測(cè)精度.這是因?yàn)镽NN模型只有短記憶性,與長(zhǎng)短期記憶模型MOb–GRU相比,無(wú)法捕捉長(zhǎng)距離依賴(lài)關(guān)系,預(yù)測(cè)效果較差.本文將傳統(tǒng)GRU模型的反向更新單元數(shù)設(shè)置得較多,使得整個(gè)模型的記憶范圍變得較大,但與MOb–GRU相比,GRU計(jì)算量變大的同時(shí)預(yù)測(cè)效果反而變得不好.由此說(shuō)明,反向更新單元數(shù)不是越多越好,當(dāng)反向更新單元數(shù)接近實(shí)際過(guò)程的動(dòng)態(tài)階次時(shí),預(yù)測(cè)效果更好.另外,在3種預(yù)測(cè)模型中,SAC自適應(yīng)學(xué)習(xí)率算法與學(xué)習(xí)率矩陣算法下的預(yù)測(cè)結(jié)果均優(yōu)于采用固定學(xué)習(xí)率算法所預(yù)測(cè)的結(jié)果,說(shuō)明了本文設(shè)計(jì)的SAC自適應(yīng)學(xué)習(xí)率算法與學(xué)習(xí)率矩陣算法的合理性. 表6 λ=0.0012,?=4.02情況下3種預(yù)測(cè)模型的RMSETable 6 RMSE of three prediction models in case of λ=0.0012,?=4.02 圖5 3種預(yù)測(cè)模型采用SAC自適應(yīng)學(xué)習(xí)率算法的預(yù)測(cè)曲線(xiàn)與真實(shí)曲線(xiàn)Fig.5 Predicted curve and real curve of three prediction models under SAC adaptive learning rate algorithm 在單變量非線(xiàn)性動(dòng)態(tài)過(guò)程的研究基礎(chǔ)上,將其拓展為多變量非線(xiàn)性動(dòng)態(tài)過(guò)程進(jìn)行研究.本文考慮三輸入單輸出過(guò)程,該過(guò)程的仿真系統(tǒng)可表示為 其中:本小節(jié)用時(shí)間域的單變量高階微分方程描述線(xiàn)性環(huán)節(jié)各通道的輸入輸出關(guān)系,系數(shù)ε1=1.5,ε2=2,ε3=1,β1=0.5,β2=0.3,β3=0.7;非線(xiàn)性環(huán)節(jié)用多項(xiàng)式形式表示;多變量非線(xiàn)性動(dòng)態(tài)過(guò)程的階次設(shè)置為1;本小節(jié)所用數(shù)據(jù)集通過(guò)式(15)(17)–(19)仿真生成,共生成81000個(gè)輸入輸出數(shù)據(jù)樣本點(diǎn),數(shù)據(jù)集劃分同單變量非線(xiàn)性動(dòng)態(tài)過(guò)程;ug(·)代表非線(xiàn)性動(dòng)態(tài)過(guò)程的輸入信號(hào),作為軟測(cè)量中的輔助變量,對(duì)于每個(gè)輸入信號(hào),均取為多正弦信號(hào);xg(·)表示系統(tǒng)的中間狀態(tài)變量;y(·)表示系統(tǒng)的輸出變量,作為軟測(cè)量中的主導(dǎo)變量;輸入輸出變量的采樣周期T=1 min;w(·)表示分布服從均值為0、方差為?的高斯隨機(jī)噪聲,即 考慮1個(gè)混頻輸入多變量非線(xiàn)性動(dòng)態(tài)過(guò)程,即輸入信號(hào)中含有低、中、高3種頻率的正弦信號(hào) 預(yù)選學(xué)習(xí)率是以0.19為基礎(chǔ)增量而構(gòu)成的一個(gè)數(shù)組,設(shè)置噪聲波動(dòng)程度?=4.02進(jìn)行后續(xù)問(wèn)題的研究.為了合理使用提出的MOb–GRU軟測(cè)量模型,首先需要對(duì)MOb–GRU的結(jié)構(gòu)參數(shù)進(jìn)行確定,選擇MAPE作為評(píng)價(jià)指標(biāo),進(jìn)行網(wǎng)絡(luò)訓(xùn)練性能的判斷.與單變量非線(xiàn)性動(dòng)態(tài)過(guò)程確定網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的實(shí)驗(yàn)一樣,在驗(yàn)證集上進(jìn)行對(duì)比實(shí)驗(yàn),每組實(shí)驗(yàn)均進(jìn)行50次并將結(jié)果取平均,經(jīng)過(guò)9組對(duì)比實(shí)驗(yàn)后,最終確定MOb–GRU結(jié)構(gòu)參數(shù)j=40,i=2;GRU結(jié)構(gòu)參數(shù)j=40,i=39;根據(jù)第2節(jié)理論分析,設(shè)置RNN結(jié)構(gòu)參數(shù)j=2,i=1.在測(cè)試集上,運(yùn)用MOb–GRU模型與兩種基線(xiàn)模型分別對(duì)混頻輸入多變量非線(xiàn)性動(dòng)態(tài)過(guò)程進(jìn)行預(yù)測(cè),結(jié)果如表7所示. 在實(shí)驗(yàn)中,用到的計(jì)算機(jī)CPU主頻為1.80 GHz,仿真軟件為MATLAB R2020a.表8顯示了3種預(yù)測(cè)模型分別采用SAC自適應(yīng)學(xué)習(xí)率算法對(duì)混頻輸入多變量非線(xiàn)性動(dòng)態(tài)過(guò)程進(jìn)行訓(xùn)練的時(shí)間需求.由表7–8可知,相比于RNN模型,MOb–GRU模型提高了網(wǎng)絡(luò)的訓(xùn)練性能與預(yù)測(cè)精度;相比于GRU模型,MOb–GRU模型在提高預(yù)測(cè)精度的同時(shí)還一定程度上減輕了網(wǎng)絡(luò)的計(jì)算負(fù)荷.圖6給出測(cè)試集上3種預(yù)測(cè)模型在SAC自適應(yīng)學(xué)習(xí)率優(yōu)化算法下的預(yù)測(cè)曲線(xiàn)與真實(shí)曲線(xiàn),取測(cè)試集的200個(gè)數(shù)據(jù)進(jìn)行預(yù)測(cè).從圖6可以看出,在存在高斯噪聲的情況下,基于MOb–GRU軟測(cè)量模型得到的估計(jì)值能更好地?cái)M合實(shí)際值的變化趨勢(shì),具有更高的建模精度,說(shuō)明MOb–GRU模型能夠充分捕獲數(shù)據(jù)中隱藏的信息,從而使預(yù)測(cè)運(yùn)算能夠達(dá)到更好的效果. 圖6 采用SAC自適應(yīng)學(xué)習(xí)率算法對(duì)實(shí)際過(guò)程模擬的預(yù)測(cè)曲線(xiàn)與真實(shí)曲線(xiàn)對(duì)比Fig.6 Comparison between predicted curve and real curve of the actual process under SAC adaptive learning rate algorithm 表7 3種預(yù)測(cè)模型的RMSETable 7 RMSE of three prediction models 表8 3種模型模擬所需的時(shí)間Table 8 Time required for three models’simulation 對(duì)比表6和表7可以得到圖7所示結(jié)果,圖7展示了用SAC自適應(yīng)學(xué)習(xí)率算法進(jìn)行訓(xùn)練時(shí),MOb–GRU模型相較于傳統(tǒng)GRU與RNN模型的預(yù)測(cè)結(jié)果對(duì)比.由圖7可看出,當(dāng)實(shí)際過(guò)程動(dòng)態(tài)階次較高時(shí),從預(yù)測(cè)效果上更能體現(xiàn)MOb–GRU長(zhǎng)短期記憶模型較GRU長(zhǎng)短期記憶模型與RNN短記憶模型的優(yōu)越性;但當(dāng)實(shí)際過(guò)程動(dòng)態(tài)階次較低時(shí),MOb–GRU模型與GRU,RNN的預(yù)測(cè)精度相差不多,而基于RNN預(yù)測(cè)所需的時(shí)間較少.綜上所述,可以得到:1)實(shí)際過(guò)程動(dòng)態(tài)階次高→系統(tǒng)動(dòng)態(tài)特性豐富→包含前面時(shí)刻的u,y多→所需存儲(chǔ)空間較大→適合選擇MOb–GRU模型→模型具有長(zhǎng)短記憶性且能充分體現(xiàn)當(dāng)前時(shí)刻與前面時(shí)刻豐富的非線(xiàn)性動(dòng)態(tài)關(guān)系→性能優(yōu)于長(zhǎng)短期記憶的傳統(tǒng)GRU模型與短記憶的RNN模型;2)實(shí)際過(guò)程動(dòng)態(tài)階次低→系統(tǒng)動(dòng)態(tài)特性貧乏→包含前面時(shí)刻的u,y較少→所需存儲(chǔ)內(nèi)存較小→系統(tǒng)記憶性較短→適合使用短記憶的RNN進(jìn)行處理.因此比較MOb–GRU與GRU,RNN時(shí),需選取動(dòng)態(tài)階次高的非線(xiàn)性動(dòng)態(tài)過(guò)程才更能體現(xiàn)MOb–GRU長(zhǎng)短期記憶網(wǎng)絡(luò)的優(yōu)越性. 圖7 MOb–GRU相較于GRU/RNN的預(yù)測(cè)結(jié)果對(duì)比Fig.7 Comparison of prediction results between MOb–GRU and GRU/RNN 本文提出了一種依賴(lài)模型階次的工業(yè)軟測(cè)量網(wǎng)絡(luò)模型—–MOb–GRU,介紹了MOb–GRU神經(jīng)網(wǎng)絡(luò)的訓(xùn)練原理、算法及流程,設(shè)計(jì)了兩種學(xué)習(xí)率優(yōu)化方法—–階躍衰減類(lèi)(SAC)自適應(yīng)學(xué)習(xí)率算法與學(xué)習(xí)率矩陣算法.實(shí)驗(yàn)表明,記憶神經(jīng)網(wǎng)絡(luò)總的模塊數(shù)與描述實(shí)際過(guò)程動(dòng)態(tài)特性豐富程度的能力相關(guān),每一個(gè)模塊內(nèi)部狀態(tài)變量的維度與表示非線(xiàn)性的能力相關(guān),設(shè)置好合適的參數(shù)后,神經(jīng)網(wǎng)絡(luò)能夠包含復(fù)雜且充分的非線(xiàn)性動(dòng)態(tài)特性,以上兩部分共同完成了記憶神經(jīng)網(wǎng)絡(luò)對(duì)非線(xiàn)性動(dòng)態(tài)過(guò)程的充分性建模.在輸出預(yù)測(cè)任務(wù)中MOb–GRU的預(yù)測(cè)精度高于RNN與GRU模型,采用SAC自適應(yīng)學(xué)習(xí)率算法和學(xué)習(xí)率矩陣算法的網(wǎng)絡(luò)訓(xùn)練結(jié)果均優(yōu)于采用固定學(xué)習(xí)率算法的訓(xùn)練結(jié)果,但MOb–GRU的泛化能力和適用范圍有待進(jìn)一步確定.未來(lái)作者將收集實(shí)際現(xiàn)場(chǎng)數(shù)據(jù),利用自適應(yīng)學(xué)習(xí)率或?qū)W習(xí)率矩陣算法對(duì)MOb–GRU軟測(cè)量模型進(jìn)行高效訓(xùn)練,并給出合適的輸出預(yù)測(cè)以構(gòu)造更多有效的虛擬樣本.4 仿真實(shí)驗(yàn)
4.1 單變量非線(xiàn)性動(dòng)態(tài)過(guò)程的建模與預(yù)測(cè)
4.2 多變量非線(xiàn)性動(dòng)態(tài)過(guò)程的建模與預(yù)測(cè)
5 結(jié)論