周樂,沈程凱,吳超,侯北平,宋執(zhí)環(huán)
(1 浙江科技學院自動化與電氣工程學院,浙江 杭州 310024; 2 浙江大學工業(yè)控制技術國家重點實驗室,浙江 杭州 310027)
近年來,隨著現(xiàn)代流程工業(yè)的飛速發(fā)展,生產規(guī)模越來越龐大。然而,受到技術或預算的限制,現(xiàn)代流程工業(yè)中往往存在部分難以通過在線傳感器直接進行檢測的關鍵變量,尤其是關鍵的質量指標。因此,為了解決關鍵質量指標的估計和控制問題,軟測量技術越發(fā)得到人們的重視。該技術建立易測的過程變量與難測的質量變量之間的數(shù)學模型,具有成本低、配置靈活、實時性好和維護簡單等優(yōu)點[1-3]。
軟測量技術通常分為兩大類,分別為機理模型和數(shù)據(jù)驅動模型。由于流程工業(yè)過程日趨復雜,建立準確的機理模型也愈發(fā)困難。隨著傳感器技術的高速發(fā)展以及集散控制系統(tǒng)的廣泛應用,通過分析海量的現(xiàn)場數(shù)據(jù),基于數(shù)據(jù)驅動的軟測量技術得到了快速發(fā)展[4-5]。這項技術通過歷史數(shù)據(jù)建立預測模型,無須先驗知識和操作經驗,在復雜流程工業(yè)監(jiān)測與軟測量領域得到了廣泛的應用。目前,常見的數(shù)據(jù)驅動軟測量技術主要包括多元統(tǒng)計方法和機器學習方法。常用的模型有主成分回歸(principal component regression,PCR)、偏最小二乘回歸(partial least squares regression, PLSR)、支持向量機(support vector machine, SVM)以及人工神經網絡(artificial neural network,ANN)等[6-9]。
目前常用的數(shù)據(jù)驅動軟測量技術絕大部分為靜態(tài)建模方法,而實際的復雜流程工業(yè)過程觀測數(shù)據(jù)往往包含很強的動態(tài)特性。為提取數(shù)據(jù)的動態(tài)特性或自相關特性,Ku 等[10]首次提出動態(tài)主成分分析(dynamic principal component analysis, DPCA)模型并用于過程監(jiān)控,而動態(tài)偏最小二乘回歸模型(dynamic partial least squares regression,DPLSR)被提出以預測動態(tài)過程數(shù)據(jù)[11-12]。Ge 等[13]提出了動態(tài)概率潛隱變量回歸(dynamic probabilistic latent variable model,DPLVM)模型,在線性動態(tài)系統(tǒng)[14-15]的框架之下有效地捕捉數(shù)據(jù)的自相關性的特征,并用于工業(yè)過程在線監(jiān)測以及關鍵質量變量預測。Zhou 等[16-17]提出了一種切換的自回歸動態(tài)潛隱變量模型,并給出了模態(tài)切換的后驗估計方法,用于解決多模態(tài)動態(tài)過程建模問題。然而,上述方法均屬于線性建模方法,無法準確提取觀測數(shù)據(jù)間的非線性相關關系。
針對非線性數(shù)據(jù)建模問題,常見的方法主要包括機器學習建模方法和神經網絡模型。傳統(tǒng)的非線性機器學習建模方法有核主成分分析(kernel principal component analysis, KPCA)、核最小二乘法(kernel partial least squares, KPLS)等[18-19]。近年來,神經網絡模型,尤其是深度學習建模方法得到了快速發(fā)展。但是與傳統(tǒng)的機器學習模型相比,基于深度學習的軟測量技術仍存在一定的缺陷。其主要問題在于深度學習方法屬于黑箱模型,無法準確描述模型的運作機制,可解釋性差,從而增大了模型優(yōu)化和超參數(shù)選擇的難度。Kingma 等[20]提出了一種變分自編碼器模型(variational autoencoder,VAE),將變分貝葉斯模型與自編碼器結構結合,利用神經網絡學習變分推導的參數(shù),并且對編碼器添加約束,限制潛隱變量服從單位高斯分布,增強了模型的可解釋性。VAE 模型能有效提取數(shù)據(jù)的深層非線性特征,已被廣泛應用于流程工業(yè)過程建模與監(jiān)控領域[21-22]。
此外,基于機器學習和深度學習技術,研究者初步研究了非線性動態(tài)建模問題。Odiowei 等[23]提出了典型變量分析與核密度估計相結合的方法,在典型變量分析模型的基礎上,更新了相關變量的概率密度以及指標的估計方法,使其適用于非線性動態(tài)過程監(jiān)控。Yuan 等[24]提出了基于有監(jiān)督長短記憶網絡建模的軟測量方法(supervised long shortterm memory network,SLSTM),同時利用過程變量和質量變量來構建LSTM網絡。此外,考慮到觀測數(shù)據(jù)同時存在互相關和自相關關系,Yuan 等[25]進一步提出了基于時空注意力機制的長短記憶網絡模型(spatiotemporal attention-based long short-term memory,STA-LSTM),通過給予每個變量不同的權重系數(shù),可自適應地計算潛隱信息與質量變量的相關程度。Yao 等[26]提出了增量式動態(tài)特征提取及傳遞模型(incremental dynamic features extracting and transferring model,IDFETM),在提取到非線性動態(tài)特征的同時,采用增量學習方法,使模型獲得了快速吸收和優(yōu)化歷史信息的能力。另有一些學者基于現(xiàn)有的深度學習框架提出了一系列改進模型,有效提高了動態(tài)過程建模準確度和預測性能,并提高了模型魯棒性[27-30]。此 外,Shen 等[31]在VAE 的 基 礎 上 提 出 了 一種有監(jiān)督非線性動態(tài)系統(tǒng)(supervised nonlinear dynamic system, SNDS)。該模型基于時間窗提取數(shù)據(jù)的動態(tài)特性,并利用VAE 模型,將傳統(tǒng)的動態(tài)潛隱變量模型擴展至非線性概率形式,兼具動態(tài)潛隱變量建模方法和深度學習技術的優(yōu)點,能有效提取非線性動態(tài)特征。在SNDS 中,雖然每個潛隱變量都被用于和相應的質量變量擬合訓練,但在進行在線質量預報時,通常只使用最后一個潛隱變量進行質量預測。當針對強動態(tài)數(shù)據(jù)時,需設置較大的時間窗以提取完整的動態(tài)信息。雖然相鄰潛隱變量間可進行有效的信息交互,但是該模型存在歷史潛隱變量信息在傳遞過程中被稀釋的問題。為解決上述問題,本文提出一種新的深度融合特征提取網絡(deep fusion feature extraction network, DFFEN)。該方法在VAE 框架下構建非線性動態(tài)潛隱變量,同時,引入自注意力機制[32-33]融合時間窗內的所有動態(tài)潛隱信息,優(yōu)化因時間窗過長而導致的動態(tài)潛隱特征被遺忘的問題。此外,在后端網絡構建動態(tài)潛隱變量和關鍵質量變量之間的回歸模型,以實現(xiàn)關鍵質量變量的預報。
本文提出深度融合特征提取網絡及其相應的化工過程軟測量方法,并通過實驗驗證本文提出方法的有效性。
SNDS 結合VAE 的框架,將線性動態(tài)系統(tǒng)擴展至非線性形式[31],其結構可被表示為
式中,h(t)是動態(tài)潛隱變量;轉移矩陣P(t)用于構建h(t)和h(t- 1)之間的關系,以傳遞動態(tài)潛隱變量之間的自相關信息;轉移矩陣W(t)用于計算第t個VAE 生成的均值μ(t)和當前潛隱變量h(t)之間的關系,以便通過重采樣方式生成潛隱變量h(t);Y^ (t)是重構的輸出樣本;和VAE 模型中的重構公式類似,F(xiàn)(*)和G(*)表示非線性變換過程,F(xiàn)(*)代表自編碼器的解碼過程,用于重構輸入數(shù)據(jù),而G(*)用于將生成的潛隱變量h(t)和輸出變量樣本數(shù)據(jù)擬合,從而構建回歸模型,對關鍵質量變量進行預測;ε、v(t) 和w(t) 代表高斯噪聲,其分布分別為ε~N(0,I),v(t)~N(0,σ2xI)和w(t)~N(0,σ2yI)。
SNDS 的模型結構主要分為兩個部分,分別是特征提取部分以及回歸模型部分。首先通過多個相互連接的自編碼器提取動態(tài)潛隱變量,再進行有監(jiān)督訓練,是一種可解釋性較強的深度學習模型。
雖然在處理非線性動態(tài)工業(yè)數(shù)據(jù)時,SNDS 能通過提取非線性動態(tài)信息實現(xiàn)對關鍵質量變量的預測,但仍存在一些不足之處。實際的化工過程數(shù)據(jù)往往具有較強的動態(tài)特性。針對強動態(tài)數(shù)據(jù),需要構建長時間窗來描述數(shù)據(jù)的強自相關性。而當時間窗過長時,會導致較早時間的動態(tài)相關信息在傳遞時易被弱化,存在信息稀釋的問題。為解決上述問題,本文提出了一種新的深度融合特征提取網絡。該模型融合了自注意力機制[32-33],通過計算時間窗內的動態(tài)潛隱變量權重,有效提取非線性動態(tài)數(shù)據(jù)的相關關系。
DFFEN的模型結構如圖1所示。該模型主要分為兩部分:前端網絡進行自監(jiān)督訓練,用于獲取融合后的動態(tài)潛隱變量信息;后端網絡通過擬合潛隱變量與質量變量樣本,完成有監(jiān)督訓練。前端與后端網絡共同組成了一個完整的軟測量模型。
圖1 DFFEN模型結構Fig.1 Model structure of the DFFEN
作為一類動態(tài)特征提取網絡,首先需要對樣本進行預處理,采用滑動窗口策略對標準化后的時間序列樣本進行劃分。選擇合適的模型長度T后,可以將過程變量以及質量變量樣本各自劃分為T組。
式中,x(t)和y(t)分別代表t時刻的過程變量樣本以及質量變量樣本;M為總樣本大小。這種數(shù)據(jù)劃分策略既能保護輸入樣本的時序性,又便于后續(xù)的動態(tài)建模過程。
DFFEN 的前端網絡由T個相互連接的VAE 組成,每個自編碼器負責產生對應的潛隱變量h(t)。當時間序列X(1)至X(T)作為訓練集輸入到前端網絡訓練完成后,得到相應的動態(tài)潛隱變量信息h(t),其結構如式(6)所示。
式中,t∈[2,T];μ(t)、σ(t)以及ε分別代表第t個VAE 的均值、方差以及高斯噪聲;P(t)為h(t)和h(t- 1)之間的轉移矩陣;W(t)是系數(shù)矩陣,用于計算潛隱變量h(t)與均值μ(t)的相關關系。
通過重采樣方式,第一個自編碼器訓練得到的參數(shù)μ(1)、σ(1)和ε可被用于構造潛隱變量h(1)。同理可得到h(2)至h(T)。而引入高斯噪聲ε,有效提高了網絡的魯棒性。其中,動態(tài)潛隱變量之間的連接方式類似于信息傳遞鏈,通過累加的方式,潛隱變量信息由前向后傳遞。構建動態(tài)潛隱變量信息傳遞通道有利于提取完整的動態(tài)潛隱變量,為后續(xù)的有監(jiān)督擬合提供了更加可靠的關鍵信息。
T個相互連接的VAE可用于產生相對應的潛隱變量h(t),且信息傳遞鏈的構造使得潛隱變量包含了動態(tài)特性。然而,當實際工業(yè)過程數(shù)據(jù)包含了強動態(tài)相關性時,模型長度T往往很大,從而導致各VAE 提取到的動態(tài)潛隱變量信息隨著信息傳遞過程而逐漸損失,以至影響潛隱信息提取效果以及后端網絡預測精度。因此,網絡結構[式(6)]在處理強動態(tài)相關工業(yè)數(shù)據(jù)時的建模效果會被削弱。
為改善上述問題,自注意力機制被用于融合時間窗內的動態(tài)潛隱變量信息。其結構如式(7)所示。
式中,Q(t)、K(t)和V(t)分別代表動態(tài)潛隱變量期望投影的向量空間,相應地,WQ(t)、WK(t)和WV(t)為各自的權重矩陣;dk為距離參數(shù);z(t)代表t時刻潛隱變量變換后的輸出。最后利用訓練完成的系數(shù)α(t)整合所有變換后的動態(tài)潛隱變量信息,得到特征融合后的非線性動態(tài)潛隱變量V。之后,利用融合后的非線性動態(tài)潛隱變量進行解碼,完成前端網絡搭建。
在后端網絡中,將提取到的動態(tài)潛隱變量信息和關鍵質量變量擬合,其結構如式(8)、式(9)所示。
式中,t∈[1,T];F(*)和G(*)分別代表解碼層以及擬合層的非線性變換過程;w1和w2為高斯噪聲。
為估計DFFEN 的模型參數(shù),首先需要確定模型的損失函數(shù)。VAE 的目的是生成服從原數(shù)據(jù)集分布的潛隱變量h(t)。根據(jù)VAE 的模型結構,可得出其邊緣概率的對數(shù)似然函數(shù)方程。
式中,X代表輸入樣本;h代表潛隱變量;q(h|ω)及p(X,h|δ)分別被定義為編碼層和解碼層的輸出的概率分布;ω和δ分別為編碼層和解碼層的參數(shù)。通過推導可得VAE 的似然函數(shù)分為證據(jù)下界(evidence lower bound,ELBO)以 及 KL 散 度(Kullback-Leibler divergence)兩部分。變分推斷的目標是尋求一個概率密度函數(shù)q(h|ω)來近似p(h|δ)。以該優(yōu)化方案為目標,需要使KL 散度最小,相當于最大化ELBO。
針對DFFEN 模型,其最大化聯(lián)合概率函數(shù)的問題可轉化為ELBO的最大化問題,該目標函數(shù)為
其中,第一項為后驗分布期望值;第二、三項代表KL 散度。初始先驗概率服從高斯分布為p[h(t)|δ(t)]=N(0,I)。隨后動態(tài)先驗分布滿足p[h(t)|h(t-1),δ(t)]=N[P(t)h(t-1),I]。q[h(1)|ω(1)]及q[h(t)|h(t- 1),ω(t)]作為后驗概率的估計值也服從高斯分布。由以上條件可得到DFFEN 模型的損失函數(shù)如式(12)所示。
為更高效地優(yōu)化網絡結構,須選擇合適的優(yōu)化函數(shù)。Adam 優(yōu)化器因其計算高效、收斂速度快等優(yōu)點,得到了廣泛使用。Adam 優(yōu)化器的梯度更新規(guī)則如式(13)所示。組成訓練樣本。
②將建模樣本進行標準化處理后,利用滑動窗口策略,得到T組過程變量樣本和T組質量變量樣本。
③固定優(yōu)化器為Adam 優(yōu)化器,選擇合適的訓練次數(shù)、批次大小以及隱層數(shù)目,并設置合適的模型長度T以及動態(tài)潛隱變量維度。
④初始化DFFEN的模型參數(shù)。
⑤進行前端網絡的訓練。當損失不再降低時,保留模型參數(shù)。
⑥提取融合后的動態(tài)潛隱變量V,用于后端網絡的訓練。
⑦輸入測試數(shù)據(jù)集,得到預測的質量變量樣本Y^test(T)。
基于有監(jiān)督DFFEN的軟測量流程如圖2所示。
圖2 基于DFFEN的軟測量流程圖Fig.2 Flow chart of DFFEN for soft sensing
為預測最終的質量變量,需構建相應的回歸模型。本文使用兩層全連接網絡進行有監(jiān)督訓練,其損失函數(shù)采用最小平方誤差。
為評估軟測量模型的性能,通常使用均方根誤差(RMSE)和擬合優(yōu)度R2兩個指標。RMSE 和R2的計算公式如式(15)、式(16)所示。
前端網絡的損失函數(shù)用于重構近似輸入樣本的同時,生成概率分布的近似值,以保證構造的非線性動態(tài)潛隱變量服從設定的分布。后端網絡用于擬合潛隱變量信息和關鍵質量變量樣本之間的輸入輸出關系?;贒FFEN 的化工過程軟測量方法的具體步驟如下。
①收集化工過程的過程變量X以及質量變量Y
式中,yj代表第j個質量變量樣本的實際值;y^j代表第j個質量變量樣本的預測值;Nt代表樣本數(shù)目;yˉt代表實際質量變量樣本的均值。RMSE 用來表示樣本實際值和預測值的平均平方差,R2用于描述樣本預測值和實際值的匹配程度。模型性能越好,預測值越接近實際值,RMSE越小,R2越高。
本節(jié)將通過一個數(shù)值案例和一個實際的合成氨生產過程驗證基于DFFEN 的軟測量方法的有效性。
本節(jié)首先構建了一個非線性動態(tài)系統(tǒng),其具體結構如式(17)、式(18)所示。
式中,h(t)代表動態(tài)潛隱變量;x(t)代表過程變量;y(t)代表質量變量。此外,為描述實際工業(yè)過程中包含的測量噪聲,分別加入白噪聲w1(t)、w2(t)和w3(t),其中w1(t)和w2(t)是均值為0、方差為0.7 的高斯噪聲;w3(t)是均值為0、方差為0.1 的高斯噪聲。
利用上述非線性動態(tài)系統(tǒng),本文共生成了1000 個樣本。前500 個數(shù)據(jù)作為訓練集,用于訓練模型參數(shù)。后500 個數(shù)據(jù)作為測試集,用于評價模型預測性能。此外,本文還選擇了概率主成分回歸(probabilistic principal component regression, PPCR)模型、SNDS 和有監(jiān)督堆棧自編碼器(supervisedstacked autoencoder, SSAE)作為對比模型。DFFEN模型的隱層維度設置為n=8,擬合層的神經元數(shù)量設置為150 個。同時,對比模型SNDS 和SSAE 的隱層神經元個數(shù)也設置為n=8,擬合層神經元個數(shù)設置為150 個,其中SNDS 的模型長度T=4,SSAE 設置為三層特征提取層,PPCR 的潛隱變量維度設置為n=2。
為獲取更有效的模型參數(shù),本文測試了DFFEN在不同參數(shù)T設置下的預測性能。不同參數(shù)T下的多次實驗平均評價指數(shù)如圖3 所示??梢缘贸觯擳=4 時,DFFEN 模型達到最佳性能。各模型在本數(shù)值案例的實驗結果如表1所示。不同模型的軟測量結果和預測誤差如圖4 和圖5 所示。受到非線性數(shù)據(jù)結構的影響,線性模型PPCR 的預測效果最差。SSAE 通過提取深層特征進行有監(jiān)督訓練,SNDS 利用自編碼器的架構提取到了動態(tài)潛隱變量,其模型預測精度均優(yōu)于線性模型。而DFFEN 能夠有效提取長時間尺度的非線性動態(tài)特征,模型預測效果最佳。
圖3 T與評價指標R2和RMSE的關系Fig.3 The evaluation indices R2 and RMSE versus T
圖4 數(shù)值案例中不同模型的軟測量結果Fig.4 Soft sensing results for different models in the numerical case
表1 數(shù)值案例不同模型預測結果Table 1 Prediction results for different models using numerical case
在合成氨生產過程中,氫氣是主要原料之一。通常以甲烷作為原料,經過甲烷轉化裝置得到高純度氫氣。該裝置包括預轉化爐、一段轉化爐和二段轉化爐。其中一段轉化爐的裝置流程如圖6 所示。根據(jù)反應機理,塔中的反應溫度是爐內制氫的關鍵。只有充足的燃氣資源才能確保反應順利進行。因此,準確地測量爐內的氧含量對于降低生產成本同時保證氫氣的純度以及產量尤為重要。
圖6 一段轉化爐流程圖Fig.6 The flowchart of primary reformer
本文選擇了一段轉化爐中的13個易測的輔助變量作為輸入,爐頂?shù)难鯘舛茸鳛楸活A測的關鍵質量變量。各變量的具體描述如表2所示。本文共使用20500 個樣本進行模型訓練和測試。其中20000 個樣本作為訓練集,另外500 個樣本作為測試集驗證模型的預測性能。此外,繼續(xù)選擇SNDS、PPCR 和SSAE作為對比模型。
表2 一段轉化爐變量描述Table 2 The description of the variables in primary reformer
由于實際的生產過程具有較強的動態(tài)特性,DFFEN 的模型長度T需要設置得較大,經過性能測試,T的值設置為33,隱層維度為11,擬合層為2 層,其中神經元個數(shù)為150 個。SNDS 的模型長度設置T=33,同樣地,擬合層設置為2 層,神經元個數(shù)為150 個。SSAE 的特征提取層設置為3 層,各層神經元個數(shù)設置為n=11,擬合層和DFFEN 及SNDS 相同。PPCR 的潛隱變量個數(shù)設置為n=11。不同模型在合成氨過程的預測結果如表3 和圖7 所示。可以看出,DFFEN 的預測精度最高,特別是250~500 樣本區(qū)間。SSAE雖然也有較好的預測能力,但只是大致反應質量變量的變化趨勢,無法對其進行精確預測。SNDS 的預測值雖然能夠反映大致趨勢,但是波動極大,與實際值存在較大誤差。此外,由于PPCR 為靜態(tài)線性模型,不適用于非線性動態(tài)建模,擬合效果過差。圖8 展示了4 種模型的預測誤差。如圖所示,DFFEN 的預測誤差較另外3 種模型更接近于0,誤差更小。而PPCR、SSAE 和SNDS 的預測誤差明顯偏高,尤其在1~100樣本區(qū)間內最為明顯。因此,對比其余3種模型,DFFEN的預測值更接近實際值,性能最優(yōu)。
圖7 各模型在合成氨過程的預測結果Fig.7 Prediction results for different models in the synthetic ammonia process
圖8 各模型在合成氨過程中的預測誤差Fig.8 Prediction error for different models in the syntheticammonia process
表3 各模型在合成氨過程的預測結果Table 3 Prediction results for different models in the synthetic ammonia process
針對復雜化工過程的非線性和強動態(tài)特性,本文提出了一種新的深度融合特征提取網絡。該模型在變分自編碼器的框架下提取非線性潛隱變量,并通過構造信息傳遞鏈捕獲動態(tài)特征。利用信息融合的方法,融合后的潛隱變量克服了動態(tài)相關信息在傳遞過程中被稀釋的缺陷,有效提高了模型的預測精度。通過數(shù)值案例以及實際的合成氨生產過程驗證了所提出方法的有效性。實驗結果表明,該模型能夠有效處理復雜化工過程的非線性強動態(tài)數(shù)據(jù),模型預測效果較好,同時該模型具有較好的擴展性,具備良好的應用前景。