摘" 要: 針對空分裝置系統(tǒng)的運行參數(shù)量大、氧氣提取率預(yù)測研究欠缺的問題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)(LSTM)以及混合LSTM和CNN的氧氣提取率預(yù)測方法。將氧氣提取率作為預(yù)測目標,基于卷積神經(jīng)網(wǎng)絡(luò)、LSTM、混合LSTM與卷積神經(jīng)網(wǎng)絡(luò)模型對其進行建模,并應(yīng)用于空分裝置系統(tǒng)運行采集的數(shù)據(jù)中。使用平均絕對百分比誤差、均方根誤差和平均絕對誤差等指標來評價預(yù)測模型的精度,并使用模型訓練時間以及模型收斂速度評估模型性能。實驗結(jié)果表明,采用混合LSTM和卷積神經(jīng)網(wǎng)絡(luò)的氧氣提取率預(yù)測方法的效果明顯優(yōu)于其他兩種模型。
關(guān)鍵詞: LSTM; 卷積神經(jīng)網(wǎng)絡(luò); 空分系統(tǒng); 氧氣提取率; 收斂速度; 預(yù)測精度
中圖分類號: TN919?34; TP399" " " " " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2024)10?0123?06
A hybrid LSTM and convolutional neural network method for predicting
oxygen extraction rate
Abstract: A method for predicting oxygen extraction rate based on convolutional neural network (CNN), long short term memory (LSTM), and a mixture of LSTM and CNN is proposed to address the problem of large operating parameters and insufficient research on predicting oxygen extraction rate in air separation plant systems. The oxygen extraction rate is used as the prediction target, and it′s modelling is conducted based on convolutional neural networks, LSTM, hybrid LSTM, and convolutional neural network models. It is applied to the data collected during the operation of the air separation device system. The accuracy of the prediction model is evaluated by means of average absolute percentage error, root mean square error, and average absolute error indicators. The model performance is evaluated by means of the model training time and model convergence speed. The experimental results show that the oxygen extraction rate prediction method using a hybrid LSTM and convolutional neural network has significantly better performance than the other two models.
Keywords: LSTM; convolutional neural network; air separation system; oxygen extraction rate; convergence speed; prediction accuracy
0" 引" 言
隨著智能化時代的到來,傳統(tǒng)工業(yè)也追求數(shù)字智能化發(fā)展??辗窒到y(tǒng)是一種用于將空氣中的氧氣、氮氣和其他氣體分離的技術(shù),通常使用壓縮空氣作為原料,并通過一系列的物理和化學過程將其分離成高純度的氧氣、氮氣和其他稀有氣體。因此,氧氣提取率是空分系統(tǒng)重要的指標,準確預(yù)測氧氣提取率對后期空分系統(tǒng)優(yōu)化至關(guān)重要。
目前,在工業(yè)中數(shù)據(jù)預(yù)測的研究主要有物理方法、統(tǒng)計方法和機器學習方法??辗窒到y(tǒng)中的氧氣提取率主要受原料總量、氧氣產(chǎn)量以及空分設(shè)備中加熱器電流、密封氣壓力、分子篩吸附器壓力等影響。
物理方法是根據(jù)空氣分離原理與空分系統(tǒng)設(shè)備之間的關(guān)系建立數(shù)學模型,然后直接計算氧氣提取率。物理預(yù)測模型不需要歷史數(shù)據(jù),而是依賴于詳細的空氣分離物理知識以及準確的空分設(shè)備運行數(shù)據(jù)。然而由于復(fù)雜的工藝設(shè)備參數(shù)以及認知程度的關(guān)系,物理模型的建立比較困難,且模型需要依賴經(jīng)驗參數(shù)(閾值),不同區(qū)域的經(jīng)驗參數(shù)不同,會導(dǎo)致局部抗干擾能力差,魯棒性較弱[1]。
常用的統(tǒng)計預(yù)測方法有時間序列法[2]、回歸分析法[3]等。統(tǒng)計方法是通過對空分設(shè)備運行參數(shù)的歷史數(shù)據(jù)與氧氣提取率進行曲線擬合、參數(shù)估計和相關(guān)性分析,建立輸入、輸出數(shù)據(jù)之間的相關(guān)映射關(guān)系(即數(shù)據(jù)模型)[4],從而實現(xiàn)對氧氣提取率的預(yù)測。與物理方法相比,統(tǒng)計方法不需要對空氣分離復(fù)雜的工業(yè)流程有一個清晰完整的認知,且具有建模簡單的優(yōu)點。然而,統(tǒng)計方法實施的前提是需要有大量的歷史數(shù)據(jù),并且需要對這些數(shù)據(jù)進行預(yù)處理,預(yù)處理數(shù)據(jù)時的操作(比如異常值、缺值的處理)會不同程度地影響擬合效果,從而對預(yù)測結(jié)果的精度造成很大影響。
機器學習具有有效提取高維復(fù)雜非線性特征并將其直接映射到輸出的能力。因此,基于機器學習的預(yù)測方法已經(jīng)成為預(yù)測時間序列最常用的方法之一[5?6]。傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)存在梯度消失和爆炸問題[7]。深度神經(jīng)網(wǎng)絡(luò)是一種基于人工神經(jīng)元和層次化結(jié)構(gòu)的機器學習模型,它通過多層次的非線性變換來學習數(shù)據(jù)的表示和抽象特征,具有比傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)更高的特征提取能力,可以解決神經(jīng)網(wǎng)絡(luò)的梯度消失問題[8]。
本文提出了三種氧氣提取率的直接預(yù)測模型,分別是一維卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Network, CNN)、長短期記憶神經(jīng)網(wǎng)絡(luò)模型(Long Short?Term Memory, LSTM)和CNN+LSTM混合模型,對每個模型的預(yù)測性能進行了對比,討論了不同輸入序列長度對模型的預(yù)測精度及性能的影響,并得出更適合三種預(yù)測模型的輸入時間序列長度。實驗結(jié)果表明,混合模型的氧氣提取率預(yù)測效果最好,模型的穩(wěn)定性較高。本文綜合給出了模型的適用場景。
1" 相關(guān)工作
1.1" 長短期記憶神經(jīng)網(wǎng)絡(luò)
傳統(tǒng)的RNN在處理長期依賴問題時,存在梯度消失或梯度爆炸的情況,導(dǎo)致難以有效地建模長期的時間依賴關(guān)系。
為了解決這個問題,一種更加強大的循環(huán)神經(jīng)網(wǎng)絡(luò)被提出,即長短期記憶(LSTM)[9]神經(jīng)網(wǎng)絡(luò)。LSTM通過門控機制,包括遺忘門、輸入門和輸出門,可以選擇性地記憶、更新和輸出信息,從而更好地捕捉長期的依賴關(guān)系[10]。LSTM通過在單元內(nèi)部維護一個記憶單元來保存和傳遞信息,在處理序列數(shù)據(jù)時表現(xiàn)出更強的記憶能力和建模能力。LSTM網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)如圖1所示。
LSTM的第一步是決定從原始數(shù)據(jù)中丟棄哪些變量,該決定由“遺忘門層”的S形層做出,以Ht-1和Xt為輸入,輸出一個介于0~1之間的值。然后是決定要在原始數(shù)據(jù)中存儲哪些更新變量,包括兩個部分:稱為“輸入門層”的sigmoid層決定更新哪些值;一個tanh層創(chuàng)建一個新候選值的向量,可以將其添加到變量中。接著結(jié)合這兩者來創(chuàng)建對變量的更新,根據(jù)每個變量值的縮放程度進行縮放。最后運行一個sigmoid層,輸出預(yù)測變量。
1.2" 卷積神經(jīng)網(wǎng)絡(luò)
CNN是一種帶有卷積結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[11],包括輸入層、卷積層、池化層和全連接層。CNN的權(quán)值共享和上下層級之間的神經(jīng)元的局部連接不僅減少了網(wǎng)絡(luò)參數(shù)總量,還減少了模型在訓練過程中的過擬合效果。
卷積神經(jīng)網(wǎng)絡(luò)自20世紀60年代被提出以來,其模型結(jié)構(gòu)從經(jīng)典的LetNet?5[12]發(fā)展到應(yīng)用非線性激活函數(shù)ReLU和Dropout方法的AlexNet[13?14];在AlexNet基礎(chǔ)上改變卷積核尺寸和步長的ZFNet[15];將網(wǎng)絡(luò)深度擴展到19層的VGGNet[16];同時,增加網(wǎng)絡(luò)深度和寬度,在不增加計算量的情況下提升網(wǎng)絡(luò)性能的GoogleNet。
2" 本文提出的方法
本文提出一種混合LSTM與CNN的氧氣提取率預(yù)測方法。該方法能捕捉時序特征,處理不同時間尺度的信息,同時也可以進行層次化特征學習。氧氣提取率預(yù)測模型框架及流程如圖2所示。首先,獲取空分設(shè)備的運行數(shù)據(jù),圖2給出了主要的一些歷史數(shù)據(jù),包括氧氣產(chǎn)量、原料總量、氧氣提取率、冷凍水進水冷塔流量、富氧流量;接著對獲取到的歷史數(shù)據(jù)進行預(yù)處理,包括異常值的處理(如設(shè)備故障)、數(shù)據(jù)歸一化,可以避免特征之間的偏差,從而提高模型的魯棒性;然后選擇模型進行訓練,包括CNN、LSTM以及混合CNN+LSTM;最后根據(jù)平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)等指標來評估氧氣提取率預(yù)測模型的精度,并使用損失函數(shù)的收斂速度來評估模型的性能。
3" 實驗過程及結(jié)果分析
3.1" 實驗數(shù)據(jù)的介紹
數(shù)據(jù)集來源為空分設(shè)備運行數(shù)據(jù),將2022?12?31 T 18:59:35—2023?01?31 T 18:59:35一個月的時間以間隔1 min共44 641條數(shù)據(jù)作為數(shù)據(jù)集,每條數(shù)據(jù)由137個變量組成。采用歸一化方法將數(shù)據(jù)劃分為同一維度,同時為了方便討論不同輸入序列長度對模型的預(yù)測精度及性能的影響,實驗中設(shè)置3組輸入序列的長度,分別為10天、20天、30天。
3.2" 實驗過程及結(jié)果
在本節(jié)中設(shè)計3個實驗來驗證所提出的CNN、LSTM以及混合CNN與LSTM(CL)模型的性能,以及輸入序列的長度對模型預(yù)測精度的影響。
3.2.1" 實驗參數(shù)設(shè)置
本文的3個模型訓練與驗證周期為50。其中,卷積神經(jīng)網(wǎng)絡(luò)模型的輸入形狀為137,卷積層的卷積核大小為16,卷積層的激活函數(shù)使用ReLU(Rectified Linear Unit)函數(shù)進行非線性變換,池化層的池化大小為2,Dropout層的丟棄率為0.5,全連接層的單元數(shù)為1。LSTM神經(jīng)網(wǎng)絡(luò)模型的輸入形狀為137,LSTM層的單元數(shù)為32和16,全連接層的單元數(shù)為1?;旌螩NN與LSTM模型的卷積核大小為3,池化核大小為2,步長為1,LSTM層的單元數(shù)設(shè)置為0,層數(shù)為2。
3.2.2" 實驗結(jié)果及分析
10天輸入序列下3個模型的訓練損失和驗證損失變化如圖3所示。其中,實線代表訓練損失值,虛線代表驗證損失值。
從圖3中可以看出:混合CNN與LSTM模型的訓練損失值與驗證損失值的重合度最高,說明混合CNN與LSTM模型的泛化能力更強;同時,混合CNN與LSTM模型的收斂速度與損失值均小于CNN模型和LSTM模型,而LSTM模型的收斂速度最慢。
圖4為20天輸入序列下3個模型的訓練損失和驗證損失變化,其中,實線代表訓練損失值,虛線代表驗證損失值。
從圖4中可以看出:混合CNN與LSTM模型的訓練損失值與驗證損失值的重合度最高,說明混合CNN與LSTM模型的泛化能力更強;同時,混合CNN與LSTM模型的收斂速度與損失值均小于CNN模型和LSTM模型,而LSTM模型的收斂速度最慢。
30天輸入序列下3個模型的訓練損失和驗證損失如圖5所示,其中,實線代表訓練損失值,虛線代表驗證損失值。
從圖5中可以看出:混合CNN與LSTM模型的訓練損失值與驗證損失值的重合度最高,說明混合CNN與LSTM模型的泛化能力更強;同時,混合CNN與LSTM模型的收斂速度與損失值均小于CNN模型和LSTM模型,而LSTM模型的收斂速度最慢。
圖6為不同輸入序列對應(yīng)的3個模型訓練后預(yù)測值與真實值的誤差對比。
對于3種輸入序列,混合CNN與LSTM模型的MAPE值均最低,LSTM模型的MAPE值均最高;同時,30天輸入序列的混合CNN與LSTM模型比10天輸入序列的MAPE降低了29%。這表明了當輸入序列過少時,容易造成欠擬合現(xiàn)象。對于3種輸入序列,混合CNN與LSTM模型的RMSE值均最低,LSTM模型的RMSE值在10天的輸入序列最高,在20天與30天的輸入序列的RMSE值接近。同時,30天輸入序列的混合CNN與LSTM模型比10天輸入序列的RMSE降低了34.8%。對于3種輸入序列,混合CNN與LSTM模型的MAE值均最低,LSTM模型的MAE值在10天的輸入序列最高,在20天與30天的輸入序列的MAE值接近。同時,30天輸入序列的混合CNN與LSTM模型比10天輸入序列的MAE降低了13.3%。
圖6從整體上對比后可知,CNN模型訓練后預(yù)測值與真實值之間的MAPE、RMSE、MAE均在30天輸入序列下最低,因此,CNN模型更適合在30天的輸入序列下進行訓練。LSTM模型訓練后預(yù)測值與真實值之間的MAPE、RMSE、MAE均在20天輸入序列下最低,因此,LSTM模型更適合在20天的輸入序列下進行訓練。混合CNN與LSTM模型訓練后預(yù)測值與真實值之間的MAPE、RMSE、MAE均在30天輸入序列下最低,因此,混合CNN與LSTM模型更適合在30天的輸入序列下進行訓練。
圖7為不同輸入序列對于3個模型訓練時間的比較。由圖7可知,3種不同輸入序列的情況下,CNN模型的訓練時間最短,LSTM模型的訓練時間最長。而隨著輸入序列的增長,3個模型的訓練時間均有不同程度的增加。
4" 結(jié)" 語
本文設(shè)計并提出了3個基于深度學習的氧氣提取率預(yù)測模型,并針對每個模型的預(yù)測性能做了對比。對模型的預(yù)測值與真實值之間的MAPE、RMSE、MAE做誤差分析,并分析不同輸入序列在模型訓練的損失值,以評估各模型的預(yù)測精度;同時,綜合分析不同輸入序列的模型的訓練時間來評估模型的預(yù)測性能。實驗結(jié)果表明,混合模型雖然在訓練時間上稍高于CNN模型,但是在預(yù)測精度與模型的收斂速度方面均為最優(yōu)。因此,混合模型的氧氣提取率預(yù)測性能最高。在以后的工作中,將繼續(xù)研究空分系統(tǒng)氧氣提取率的優(yōu)化。
參考文獻
[1] DOLARA A, LEVA S, MANZOLINI G. Comparison of different physical models for PV power output prediction [J]. Solar energy, 2015, 119: 83?99.
[2] CAI M, PIPATTANASOMPORN M, RAHMAN S. Day?ahead building?level load forecasts using deep learning vs. traditional time?series techniques [J]. Applied energy, 2019, 236: 1078?1088.
[3] LI Y, HE Y, SU Y, et al. Forecasting the daily power output of a grid?connected photovoltaic system based on multivariate adaptive regression splines [J]. Applied energy, 2016, 180: 392?401.
[4] WANG K, QI X, LIU H. Photovoltaic power forecasting based LSTM?convolutional network [J]. Energy, 2019, 189: 116225.
[5] YAGLI G M, YANG D, SRINIVASAN D. Automatic hourly solar forecasting using machine learning models [J]. Renewable and sustainable energy reviews, 2019, 105: 487?498.
[6] VOYANT C, NOTTON G, KALOGIROU S, et al. Machine learning methods for solar radiation forecasting: a review [J]. Renewable energy, 2017, 105: 569?582.
[7] GONG T, FAN T, GUO J, et al. GPU?based parallel optimization of immune convolutional neural network and embedded system [J]. Engineering applications of artificial intelligence, 2016, 62: 384?395.
[8] PUN S C M. Superpixel?based 3D deep neural networks for hyperspectral image classification [J]. Pattern recognition: the journal of the pattern recognition society, 2018, 14(11): 2142?2146.
[9] GRAVES A. Generating sequences with recurrent neural networks [EB/OL]. [2023?12?04]. https://ui.adsabs.harvard.edu/abs/2013arXiv1308.0850G/abstract.
[10] 鄒紅波,柴延輝,楊欽賀,等.基于混合ISSA?LSTM的鋰離子電池剩余使用壽命預(yù)測[J].電力系統(tǒng)保護與控制,2023,51(19):21?31.
[11] 陸文安,朱清曉,李兆偉,等.基于卷積神經(jīng)網(wǎng)絡(luò)的新型電力系統(tǒng)頻率特性預(yù)測方法[J/OL].上海交通大學學報:1?16[2023?07?06].https://doi.org/10.16183/j.cnki.jsjtu.2023.071.
[12] LONG X, GUO J, HAO R, et al. Optical neural networks of handwriting recognition using optical scattering unit system [C]// 2020 Asia Communications and Photonics Conference (ACP) and International Conference on Information Photonics and Optical Communications (IPOC). Beijing: IEEE, 2020: 1?3.
[13] 馬世龍,烏尼日其其格,李小平.大數(shù)據(jù)與深度學習綜述[J].智能系統(tǒng)學報,2016,11(6):728?742.
[14] 張澤超.深度學習網(wǎng)絡(luò)分布式訓練方案研究與性能優(yōu)化[D].杭州:浙江大學,2021.
[15] ANTIOQUIA A M C, TAN D S, AZCARRAGA A, et al. ZipNet: ZFNet?level accuracy with 48× fewer parameters [C]// 2018 IEEE Visual Communications and Image Processing (VCIP). [S.l.]: IEEE, 2018: 1?4.
[16] JILANI U, AKRAM N, ABBASI M, et al. Machine learning based leaves classifier using CNN and reduced VGG net model [C]// 2022 Global Conference on Wireless and Optical Technologies (GCWOT). Malaga, Spain. IEEE, 2022: 1?7.