孫少聰,徐楊,曹斌
(1.貴州大學 大數據與信息工程學院,貴州 貴陽 550025;2.中鋁智能科技發(fā)展有限公司,浙江 杭州 311100)
在新型工業(yè)化道路戰(zhàn)略的帶動下,“堅持以信息化帶動工業(yè)化,以工業(yè)化促進信息化”的指導思想,大型鋁電解廠生產管理由人力、手動為主的模式向自動化和智能化模式的轉變已勢在必行[1]。鋁電解生產是一個大延遲、多變量耦合和非線性的過程[2]。其中關于電解槽出鋁量預測問題就受到各種復雜的因素影響,如設備環(huán)境,工藝參數,人工經驗等。因此如何從現有采集的大量數據利用機器學習和深度學習等技術,建立準確的預測模型提高預測的準確性和科學性,對企業(yè)的“降本增效”具有重要意義。
目前已有部分結合機器學習和深度學習的方法對出鋁量預測進行研究,減少專家知識和經驗對電解槽出鋁量的影響,其中文獻[3]提出了一種基于電解槽出鋁量預測的聚類算法,實現了電解槽出鋁量的參數特征提取;文獻[4]將循環(huán)卷積神經網絡LSTM算法,運用在電解槽出鋁量預測和氟化鋁添加量的預測問題上,并且開發(fā)了一套鋁電解槽出鋁量預測可視化系統(tǒng);文獻[5]設計了一種自適應果蠅優(yōu)化算法,通過機器學習支持向量回歸機對電解槽出鋁量進行預測;文獻[6]將多層感知機MLP應用在出鋁量的預測;文獻[7]文中提出一種改進的ID3算法,應用回歸分析計算各條件屬性影響出鋁量的權重,對鋁電解數據庫中包含的出鋁量專家知識和經驗進行知識表示和自動推理,輔助工藝管理人員做出科學判斷,提高生產智能管理水平。上述研究對電解槽出鋁量預測方面都提供了一定的參考價值,但是目前對于電解槽出鋁量預測問題依然很難應用于實際生產。
綜上,本文提出了一種基于隨機森林特征選擇的雙向長短期時間序列網絡(RF-BiLSTM)進行電解槽出鋁量預測,通過特征選擇、優(yōu)化模型參數,以及多個對比實驗表明RF-BiLSTM在電解槽出鋁量預測準確度方面取得不錯的效果,并在實際的生產數據中驗證了模型有效性,為鋁電解槽出鋁量預測提供一定的參考價值。
皮爾遜相關系數法是一種準確度量兩個變量之間的關系密切程度的統(tǒng)計學的方法[8]。皮爾遜相關系數的變化范圍為-1到1。系數的值為1或者-1意味著主指標和特征值可以很好的由直線方程來描述,所有的數據點都很好的落在一條直線上,1表示特征值隨著主指標的增加而增加,-1表示特征值隨著主指標的增加而減少。系數的絕對值值越接近0意味著二者之間線性關系越弱,為0則表示二者沒有線性關系,Pearson計算原理公式如下:
(1)
式中:r表示相關系數,X表示主指標,Y為特征值。
隨機森林(random forests, RF)是由多棵決策樹集成的有監(jiān)督的學習算法,在決策樹的訓練過程中隨機選擇特征,最終通過投票來表決最優(yōu)結果[9]。隨機森林算法簡單,因為其簡單高效的分類性能,在特征選擇問題中往往是較好的選擇。隨機森林利用袋外數據(out of bag, OOB)誤差計算特征變量相對重要性,對海量高維數據進行剔除冗余特征進行特征篩選。假設有bootstrap樣本k=2,3…,K,K表示訓練樣本的個數,每個樣本有N維特征,特征重要性排序的計算步驟如下:
1) 初始化k=1,創(chuàng)建決策樹Tk。
4) 對于k=2,3…,K重復步驟1~步驟3。
5) 特征Xj的重要性度量Pj通過公式(2)計算。
6)對Pj降序排列,得到特征重要性排序。
(2)
LSTM是一種特殊的循環(huán)神經網絡(Recurrent Neural Network, RNN)模型[10],時間序列在傳統(tǒng)的卷積神經網絡中無法被處理,而RNN在長期的時間序列任務上會出現梯度爆炸和梯度消失的問題。LSTM的出現較好的解決了RNN在時序數據長期依賴性預測的問題。LSTM相較于RNN在其結構上新增了門限,具體包括遺忘門、輸入門和輸出門,這些門限有選擇的讓信息進行記憶和遺忘[11]。LSTM網絡神經元結構如圖1所示。
圖1 LSTM網絡神元結構
每個神經元具有獨特的門結構[12]用于維持和控制狀態(tài),同時接收兩個輸入,即上一時刻的輸出值ht-1和本時刻輸入xt,兩個參數首先進入遺忘門,得到決定舍棄的信息后再進入輸入門,得到重要信息以及當前時刻的神經元狀態(tài),最后由遺忘門和輸入門的輸出值進行組合,得到分別的長時和短時信息,最后存儲操作即下一個神經元的輸入。遺忘門公式如公式(3)所示:
ft=σ(Wf·[ht-1,xt]+bf)
(3)
輸入門及t時刻的神經元狀態(tài)方程如公式(4)~(6):
it=σ(Wi·[ht-1,xt]+bi)
(4)
(5)
(6)
輸出門公式如公式(7)~(8):
ot=σ(Wo·[ht-1,xt]+bo)
(7)
ht=ot·tanh(ct)
(8)
本文所用的BiLSTM模型是在LSTM基礎上增加了反向LSTM,由前向LSTM和后向LSTM組合而成[13],它可以通過同時處理過去和未來的信息來更好地理解序列中的上下文,兩個單元的輸出將被拼接在一起,形成最終的輸出。因此BiLSTM在時間序列預測任務中具有更強的建模能力。在模型訓練階段,BiLSTM可以利用前向和后向的信息對的時間序列進行建模,預測階段直接輸出前向LSTM的結果。BiLSTM模型結構圖如圖2所示。
圖2 BiLSTM模型結構圖
BiLSTM每一級隱藏層狀態(tài)組合過程如公式(9)所示。
(9)
本文搭建的模型主要分為三個部分,數據特征提取與數據劃分、模型隱藏層、預測輸出層,模型訓練過程如圖3所示。首先進行數據分析和清洗刪除缺失過多的特征列,將原始的數據進行相關性析,對數據進行MinMaxScaler標準化公式處理,標準化原理如公式(10)所示。
圖3 模型結構圖
(10)
式中:Xmax、Xmin為數列的最大值和最小值;Xstd為最終的規(guī)范化數值。本文采用的是歸一化處理。
對BiLSTM模型的批尺寸、網絡層數和學習率進行調優(yōu)。尋找較優(yōu)的超參數組合,進行模型的訓練,Adam優(yōu)化器進行權值更新,ReLu激活函數提高函數計算能力,DropOut防止過擬合,訓練Loss為平均相對誤差(MSE),以獲取最小Loss值為目標對模型進行訓練和優(yōu)化。
訓練好的模型對劃分的測試集數據進行預測,并對數據進行逆變化操作,輸出預測值。
數據采集自貴州某鋁廠34臺電解槽共120天的槽控機監(jiān)控數據和人工采集的每日真實鋁電解槽生產的日報表數據,共3 814條數據,部分嚴重缺失數據直接作了刪除處理。
搜集到的相關日報和運行參數包括日期、槽號、鋁水平、氧化鋁濃度、電解質水平、電解溫度、分子比、電解溫度、氟化鋁下料量、平均電壓、設定電壓、工作電壓、下料間隔(設定NB)以及出鋁指示量等23項重要信息。通過分析和觀察分子比,陰極壓降和氧化鋁濃度數據缺失過多,因此后續(xù)模型建模和訓練不再考慮這三個參數。
表1列出搜集到的部分數據。
表1 廠區(qū)內某電解槽連續(xù)5天收集的日報表數據
為了體現基于RF的特征選擇在電解槽出鋁量預測問題上的優(yōu)越性,本文將Pearson相關性分析法作為對比。此次相關性分析將電解槽出鋁量作為被解釋變量,其他特征作為解釋變量。
3.2.1 Pearson相關性分析
首先利用Pearson系數對所有變量進行劃分得出解釋變量對于被解釋變量的影響系數的排序結果,選取影響系數較高的前六位解釋變量。Pearson相關性分析結果如圖4所示。
圖4 Pearson相關性分析結果
由于Pearson相關性分析只能通過分析出鋁量和某個特征(兩者)之間的線性關系,也無法確定更高維度特征的因果關系,出鋁量的影響分析涉及復雜的非線性因果關系,為了增加特征選擇的可對比性,本文采用Pearson特征選擇的結果影響系數較高的前六位解釋變量:鋁水平、多點鋁水平、氟化鋁下料量、設定NB、工作電壓以及硅作為后續(xù)模型的輸入特征。
3.2.2 隨機森林相關性分析
森林進行特征重要性分析出相關系數得分熱圖,結果如圖5所示。
圖5 隨機森林相關性分析結果
相對于Pearson特征選擇,隨機森林特征選擇可以更好的捕捉出鋁量與其他特征之間的非線性關系,也可以同時考慮高維特征數據數據之間的因果性。根據隨機森林的分析結果,選取影響系數較高的前六位解釋變量:氟化鋁下料量、鋁水平、溫度、設定電壓、工作電壓以及電解質水平作為后續(xù)模型的輸入特征。
考慮到模型的超參數會對模型訓練效果和速度產生影響。本文對針對模型的批尺寸,網絡層數采用了網格化搜索的方式進行優(yōu)化。訓練設置為200輪,神經元個數為128,為了簡化訓練避免模型損失過早收斂,設置了早停機制(模型訓練10輪后評價指標沒有優(yōu)化就停止訓練),通過實驗結果選擇較優(yōu)的超參數組合。
3.3.1 批尺寸調優(yōu)
批尺寸(batchSize)是每次輸入進模型的時間序列長度,是模型每次運算的數據大小以及數據之間關聯的程度反應。batchSize決定了梯度下降的方向,過大容易導致梯度局部最優(yōu)解,過小導致模型收斂時間漫長,影響模型的訓練精確性。合適的batchSize可以為模型帶來有效的提升。因此為研究不同batchSize對模型的影響,本文采取三種不同的取值方式,分別對比了24、48和64的效果。實驗結果如表2所示。
表2 不同批尺寸訓練結果
三種batchSize在訓練結果上相差無幾,但是當batchSize為64時,在時間上和效果上略優(yōu)于24和48,因此本實驗模型的batchSize選擇為64。
3.3.2 網絡層數調優(yōu)
網絡層數(numLayers)越大代表模型的層數越多,模型的擬合能力越強,但是往往越多的層數會帶來更復雜的運算,更長的訓練時間,同時可能會出現過擬合的現象。因此為研究不同numLayers對模型的影響,本文比較了2、3和4層的效果。實驗結果如表3所示。
表3 不同網絡層數訓練結果
根據試驗結果表明三種numLayers在訓練結果上,當numLayers為2層時模型在訓練效果和懸鏈速度上均是最優(yōu),因此本實驗模型的numLayers選擇為2層。
為了更好的說明RF-BiLSTM在電解槽出鋁量預測問題上的優(yōu)越性。本文將不同的特征選擇(ALL,Pearson)和不同的模型隱藏層結構(RNN,單向LSTM,GRU),來進行對比驗證。將數據集按照 6∶2∶2的比例劃分為訓練集、驗證集、測試集。并使用相同的超參數進行了實驗。同時為了對比文獻[4]以及文獻[6]中做的工作,在評價指標中引入了平均絕對誤差(MAE),模型訓練結果如表4所示。
表4 不同模型和特征模型訓練結果
根據訓練的模型對劃分的測試集進行測試,選取了測試集最后50條數據進行繪制預測效果圖。各個模型在不同的特征選擇下擬合的結果如圖6~圖8所示,圖9展示了BiLSTM模型在不同特征選擇下的對比。
圖6 全部特征不同模型的預測結果
圖7 Pearson特征選擇不同模型預測結果
圖8 RF特征選擇不同模型預測結果
表4展示了不同模型以及不同特征選擇之間的誤差對比,BiLSTM預測效果要明顯優(yōu)于其他三種結構的模型。其中Pearson特征選擇的實驗結果在LSTM、GRU和BiLSTM模型上表現不如不做特征選擇,RF特征選擇在降低了模型特征維度的情況下仍然對模型的訓練效果有不同程度的提升。
模型預測結果根據圖6~圖8顯示,RNN、LSTM、GRU和BiLSTM模型都可以在整體趨勢上反映出出鋁量的變化,而BiLSTM在預測效果上明顯優(yōu)于其他模型。根據圖9所示,對比不同的特征選擇上的預測效果,基于RF特征選擇的BiLSTM在降低特征維度的情況下仍取得了略優(yōu)于其他兩種特征選擇 的結果,驗證了RF特征選擇的有效性。
為了驗證本文提出的電解槽出鋁量預測模型可靠性和適用性,本文選擇了Pytorch學習框架作為學習模型后端,搭建了在線訓練平臺,對RF-BiLSTM模型實行了增量化訓練,不斷根據新的數據進行模型的權值更新,給出一天后的預測結果,給鋁廠工作人員提供參考。如圖10所示,模型在2726號槽上50條數據進行提前一天的預測結果。
圖10 2726號電解槽預測結果
將訓練好的模型用于2726號電解槽出鋁量預測,輸入數據后模型自動計算誤差,誤差統(tǒng)計后平均絕對誤差為4.2,在2726號電解槽上驗證了模型的有效性。
1)訓練過程中,模型訓練的效果受到模型的批尺寸、網絡層數的選擇所影響,合適的超參數為提高模型的訓練效果。本實驗提出的RF-BiLSTM以批尺寸為64,網絡層數為2層為較優(yōu)選擇。
2)以貴州某鋁廠34臺電解槽共120天3 814條數據為模型初始訓練、驗證和測試。對比不同模型的預測效果,RF-BiLSTM平均誤差為0.017,平均絕對誤差為2.373,優(yōu)于文獻[4]的25.21和文獻[6]的35.8。
3)使用RF-BiLSTM電解槽出鋁量預測模型在貴州某鋁廠的2726號電解槽進行可靠性檢驗,完成超前一天出鋁量預測,預測結果絕對誤差在4.2,驗證了模型的有效性,實驗結果表明RF-BiLSTM在為鋁電解槽出鋁量預測問題提供了一定的參考價值。