洪娟,田文德
(青島科技大學 化工學院,山東 青島 266042)
在中國,催化裂化裝置生產(chǎn)的柴油和汽油分別占成品油的30%和70%[1]。催化裂化裝置是煉油廠汽油和柴油的核心生產(chǎn)裝置,是煉油廠的重要創(chuàng)收來源[2]。催化裂化過程的數(shù)字化和智能化在DCS的輔助下得到了大力發(fā)展[3]。利用大數(shù)據(jù)處理技術(shù)對積累得到的大量催化裂化操作數(shù)據(jù)進行數(shù)據(jù)挖掘分析,對其進行主要控制變量預測,可以提升催化裂化裝置運行的平穩(wěn)安全性。近年來,基于深度網(wǎng)絡實現(xiàn)對過程參數(shù)的有效預測效果研究得到了廣泛關注[4]。LSTM是一種能夠有效地提取得到時間序列數(shù)據(jù)間依賴關系的神經(jīng)網(wǎng)絡[5]。
Zhao等人[6]通過使用不一樣時間尺度的數(shù)據(jù)分別訓練神經(jīng)網(wǎng)絡,獲得不一樣時間尺度的時間序列特征,并將其應用于時間序列預測,此方法有效提高了預測精度。Liu[7]曾提出基于主成分分析和反向傳播神經(jīng)網(wǎng)絡(BP)的預測模型。通過主成分分析去除了影響因素之間的線性相關性,并將主成分分析得到結(jié)果當作BP神經(jīng)網(wǎng)絡的輸入。Tao等人[8]提出使用TreNet模型來預測多模態(tài)融合的未來趨勢,通過CNN學習得到當前時間序列特征,通過LSTM學習得到時間序列的趨勢特征,這個研究方法擁有更強的特征提取學習能力。
長短期記憶神經(jīng)網(wǎng)絡預測模型包含著許多網(wǎng)絡參數(shù),如核函數(shù)、學習率和神經(jīng)元數(shù)量等,這些參數(shù)都會影響LSTM模型的預測精度,因這些參數(shù)過分依賴于經(jīng)驗設置致使其預測精度不穩(wěn)定。與此同時,隨著參數(shù)設置的不同,LSTM模型的訓練時間長度也會發(fā)生變化。利用粒子群算法對LSTM模型的部分網(wǎng)絡參數(shù)進行搜索,可以解決人工選擇參數(shù)的問題。針對人工參數(shù)設置導致模型的精度低、泛化能力弱等問題,采用搜索范圍廣、收斂速度快的粒子群算法(PSO)和布谷鳥算法(CS)對LSTM的一些超參數(shù)進行優(yōu)化,構(gòu)建PSO-LSTM模型和CS-LSTM模型,尋找到LSTM的最優(yōu)參數(shù)集,從而更好地提高模型預測精度。
數(shù)量級的差異會導致較大數(shù)量級的屬性占據(jù)主導地位,并且迭代收斂速度緩慢。對數(shù)據(jù)進行預處理,以消除具有不同量綱的影響,選用Z-Scores標準化處理,變換后的數(shù)據(jù)均值為0,標準差為1,如式(1)所示。
(1)
1.2.1 相關分析
相關分析是探究具有特定相似關系的變量之間的相關程度和方向,研究變量之間是否存在一定的相似關系。相關分析的研究主要是研究兩個變量之間的密切程度,是研究隨機變量的一種統(tǒng)計方法。Spearman秩相關系數(shù)是一種非參數(shù)度量,用于數(shù)據(jù)在兩個變量之間不是正態(tài)分布時。它被定義是兩個等級隨機變量之間的Pearson相關系數(shù),記錄著每個數(shù)據(jù)點的正等級和負等級之間的差異,如式(2)所示。
(2)
其中,di是xi和yi的秩次差。
1.2.2 系統(tǒng)聚類方法
R型系統(tǒng)聚類方法是將差異較大的變量分離出來,將相似的變量聚在一起??梢詮南嗨频淖兞恐羞x擇出具有代表性的變量,以達到減少變量數(shù)量和降維的目的。本文采用的R型聚類方法是凝聚聚類方法。凝聚聚類的過程如下:首先,每個觀測到的個體被分成一個類別,然后根據(jù)組間平均鏈鎖距離法測量所有個體之間的親密程度,將親近的個體分成一個小簇。接下來,再次測量剩下的觀察個體和子類之間的親密程度,并將當前親密的個體和子類歸為一個簇。上述過程重復進行,直到所有個體組合在一起,形成最大的簇[9]。R型聚類方法的流程圖[10]如圖1所示。
圖1 R型聚類方法流程圖
長短期記憶神經(jīng)網(wǎng)絡預測模型包含著許多網(wǎng)絡參數(shù),如核函數(shù)、學習率和神經(jīng)元數(shù)量等,這些參數(shù)都會影響LSTM模型的預測精度,因這些參數(shù)過分依賴于經(jīng)驗設置致使其預測精度不穩(wěn)定。與此同時,隨著參數(shù)設置的不同,LSTM模型的訓練時間長度也會發(fā)生變化。利用粒子群算法對LSTM模型的部分網(wǎng)絡參數(shù)進行搜索,可以解決人工選擇參數(shù)的問題。針對人工參數(shù)設置導致模型的精度低、泛化能力弱等問題,本節(jié)采用搜索范圍廣、收斂速度快的PSO算法對LSTM的一些超參數(shù)進行優(yōu)化,構(gòu)建PSO-LSTM模型,尋找到LSTM的最優(yōu)參數(shù)集,從而更好地提高模型預測精度。PSO-LSTM模型流程圖如圖2所示。
圖2 PSO-LSTM模型流程圖
PSO-LSTM 預測模型構(gòu)建的具體操作步驟如下:
步驟1:數(shù)據(jù)預處理。對變量數(shù)據(jù)進行采集,通過數(shù)據(jù)預處理得到模型的訓練集與測試集。
步驟2:參數(shù)初始化。對PSO的參數(shù)進行初始化,比如學習因子、迭代次數(shù)、粒子數(shù)量等參數(shù)。與此同時,對LSTM中的學習率、時間步長、批處理量、隱藏層單元數(shù)等參數(shù)尋優(yōu)范圍進行設置。
步驟3:評價粒子。把測試集在 LSTM 模型中得到的真實值和預測值間的MAE和RMSE的平均值當作粒子適應度值。將得到的值和初始值Pbest、Gbest進行比較,得到最優(yōu)的Pbest、Gbest。
步驟4:對粒子的位置和速度進行更新。
步驟5:判定終止條件。如果迭代次數(shù)達到了預設值,那么停止搜索,輸出得到最優(yōu)參數(shù)組;如果未達到,那么返回到步驟3進行迭代尋優(yōu)。
粒子群優(yōu)化算法在初始化粒子的速度和位置后,通過不斷地迭代更新自身的位置來得到模型最優(yōu)解。PSO算法對于多維空間函數(shù)優(yōu)化和多目標優(yōu)化具有魯棒性好、收斂速度快等優(yōu)勢,適用于神經(jīng)網(wǎng)絡中某些超參數(shù)的優(yōu)化,為模型組合提供了理論依據(jù)[]。經(jīng)過粒子群算法優(yōu)化后的PSO-LSTM預測模型通過不斷迭代,在給定參數(shù)范圍內(nèi)搜索到參數(shù)的最優(yōu)值,達到了最佳的預測效果。
針對人工設置參數(shù)設置導致模型的精度低、泛化能力弱等問題,本節(jié)采用具有很好的全局和局部的搜索能力、收斂速度較快的CS算法對LSTM的一些超級參數(shù)進行優(yōu)化,構(gòu)建CS-LSTM模型,尋找到LSTM的最優(yōu)參數(shù)集,從而更好地提高模型預測精度。CS-LSTM模型流程圖如圖3所示。
圖3 CS-LSTM模型流程圖
CS-LSTM 預測模型構(gòu)建的具體操作步驟如下:
步驟1:數(shù)據(jù)預處理。對變量數(shù)據(jù)進行采集,通過數(shù)據(jù)預處理得到模型的訓練集與測試集。
步驟2:參數(shù)初始化。對CS的參數(shù)進行初始化,比如學習因子、迭代次數(shù)等參數(shù)。與此同時,對LSTM中的學習率、時間步長、批處理量、隱藏層單元數(shù)等參數(shù)尋優(yōu)范圍進行設置。
步驟5:將上代的最優(yōu)適應度函數(shù)值做比較,更新得到該代的最優(yōu)解的位置Gbest。對算法是否滿足收斂條件進行判斷,如果滿足收斂條件,輸出最優(yōu)的位置Gbest;否則,跳轉(zhuǎn)回到步驟4,重復優(yōu)化迭代,直至完成L次迭代。
步驟6:判定終止條件。如果滿足終止條件,那么停止搜索,輸出得到最優(yōu)參數(shù)組;如果未達到,那么返回進行迭代尋優(yōu)。
為了更加全面地、準確地評估模型的預測效果,本文主要選取決定系數(shù)(R2)、平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)和平均絕對誤差(MAE)四個指標作為模型評價指標,計算公式如下[12]:
1.5.1 決定系數(shù)
R2即決定系數(shù),是衡量預測值對真實值擬合好壞的程度。R2的范圍在(0~1)之間,越接近1,說明模型擬合的越好。
1.5.2 平均絕對誤差
平均絕對誤差可以通過直接計算殘差的平均值得到,其表示的是預測值和觀測值之間的絕對誤差平均值。平均絕對誤差是一種線性分數(shù),其中所有觀測值個體差異都在平均值上加權(quán)。計算公式如式(3)所示。
(3)
1.5.3 均方根誤差
均方根誤差是有數(shù)據(jù)的估計值和真實值之差在求取平方后得到的期望值的平方根。均方根誤差是指每個數(shù)據(jù)偏離真實值的距離平方和后計算平均值再開方。其指標越小,表示精度越高。計算公式如式(4)所示。
(4)
1.5.4 平均絕對百分比誤差
平均絕對百分比誤差得到的是百分比值,即相對誤差損失的期望值,是絕對誤差與真值的百分比。在模型預測中,平均絕對百分比誤差值越小,說明模型的精度越好。計算公式如式(5)所示。
(5)
其中,n是樣本的個數(shù);ri是實際值;pi是預測值。
以某石化企業(yè)催化裂化裝置吸收穩(wěn)定系統(tǒng)為例,采集了兩年347 520個觀測值數(shù)據(jù),數(shù)據(jù)每3 min收集一次。對于系統(tǒng)的不同部分,收集時間相同。催化裂化裝置吸收穩(wěn)定系統(tǒng)流程圖如圖4所示,系統(tǒng)包括吸收塔C-101、解吸塔C-103、再吸收塔C-102、穩(wěn)定塔C-104等。FEED1為粗汽油,FEED2為高壓富氣。OUT1為干氣,OUT2為富吸收性油,OUT3為液化氣,OUT4為穩(wěn)定汽油。
吸收穩(wěn)定系統(tǒng)是催化裂化過程的重要組成部分。它的主要任務是將工藝產(chǎn)生的粗汽油和高壓富氣分離成干氣、液化氣、穩(wěn)定汽油等產(chǎn)品。同時盡可能降低干氣中C3及以上重組分的含量,保證液化氣體和穩(wěn)定汽油滿足產(chǎn)品質(zhì)量要求。該系統(tǒng)主要由以下設備組成:吸收塔、解吸塔、重吸收塔、穩(wěn)定塔等。吸收過程的狀態(tài)對整個裝置的良好運行至關重要。解吸塔的運行對吸收穩(wěn)定系統(tǒng)的運行有很大的影響。過度的解吸不僅會導致冷凝油罐液位上升,還會導致解吸塔熱源的浪費,大量的解吸氣體重新進入風冷和水冷。同時,吸收塔的負荷也會增加,裝置的能耗也會大大增加。解吸不足會導致穩(wěn)定塔壓力過高,影響穩(wěn)定塔的正常運行。解吸效果與解吸塔底再沸器返回溫度有很大關系,該溫度的控制是通過調(diào)節(jié)熱源控制閥來實現(xiàn)的。
在催化裂化的整個過程中有很多變量。本文只考慮與解吸塔底再沸器返塔溫度有關的變量。通過專家經(jīng)驗選擇了19個變量。采用Z-Scores標準化處理,消除了量綱不同帶來的影響。轉(zhuǎn)換后的數(shù)據(jù)標準差為1,均值為0。
TIC3003與其相關變量間的Spearman秩相關系數(shù)值如表1所示,TIC3003相關變量之間R型聚類結(jié)果如圖5所示。
表1 TIC3003相關變量列表
通過表1中TIC3003與其相關變量間的Spearman秩相關系數(shù)值和圖5中TIC3003相關變量之間R型聚類結(jié)果,直觀地反映了解吸塔底再沸器返塔溫度與其相關變量之間的關系。從圖5中的縱坐標可以看出變量之間的聚類順序,結(jié)合TIC3003與其相關變量間的Spearman秩相關系數(shù)值結(jié)果、TIC3003相關變量之間R型聚類結(jié)果及專家經(jīng)驗,經(jīng)過特征選擇和提取,共得到10個變量,如表2所示。通過特征選擇和提取,數(shù)據(jù)變量被有效降維。
表2 特征選擇后的TIC3003主要相關變量列表
在主要控制變量解吸塔底再沸器返塔溫度的預測中,選用經(jīng)過特征提取與選擇后的9個變量為輸入變量,如表2所示。在對正常工況F類的預測中,選用2 400個連續(xù)時間序列數(shù)據(jù)組成,分別包括有2 000個數(shù)據(jù)用于訓練集,400個數(shù)據(jù)用于測試集。TIC3003測試集在不同指標下的預測結(jié)果評價如表3所示。
表3 不同指標預測結(jié)果評價
如表3所示,TIC3003的預測結(jié)果中,TIC3003的預測結(jié)果中,PSO-LSTM模型和CS-LSTM模型的訓練集、測試集都得到了很好的預測結(jié)果,PSO-LSTM模型預測值曲線和真實值之間接近重合,PSO-LSTM模型的R2值為0.993 7,MAE值為0.028 6,RMSE值為0.037 5,MAPE值為0.021 2%,得到了很好的模型預測結(jié)果。在與LSTM模型的預測結(jié)果比較中,R2指標平均提高11.38%;CS-LSTM模型預測值曲線和真實值之間也接近重合,CS-LSTM模型的R2值為0.983 9,MAE值為0.047 8,RMSE值為0.060 8,MAPE值為0.035 5%,R2指標平均提高9.50%,得到了很好的模型預測結(jié)果。在不同模型的預測結(jié)果比較中可以看出,PSO-LSTM模型的預測結(jié)果更優(yōu)異,誤差更小。
1)采用搜索范圍廣、收斂速度快的PSO算法和CS算法對LSTM的一些超參數(shù)進行優(yōu)化,分別構(gòu)建了PSO-LSTM模型和CS-LSTM模型,提高了模型預測精度。
2)結(jié)合TIC3003與其相關變量間的Spearman秩相關系數(shù)值結(jié)果、TIC3003相關變量之間R型聚類結(jié)果及專家經(jīng)驗,經(jīng)過特征選擇,共得到10個變量,數(shù)據(jù)變量被有效降維。
3)通過對主要控制變量解吸塔底再沸器返塔溫度的預測結(jié)果比較中可以看出,PSO-LSTM模型的預測結(jié)果更優(yōu)異,其R2、RMSE、MAE、MAPE 指標均優(yōu)于其他模型。