尹林子,關羽吟,蔣朝輝,許雪梅
(1 中南大學物理與電子學院,湖南長沙410012; 2 中南大學自動化學院,湖南長沙410083)
鐵水硅含量預測是高爐優(yōu)化控制的關鍵之一,吸引了大量研究者的關注,目前研究者們多采用數據驅動的思想[1-2],建立高爐鐵水硅含量預測模型,常見的方法包括支持向量機[3-5]、神經網絡[6-10]、非線性時間序列[11-12]、極限學習機[13-15]等。這些模型對訓練數據集質量均有較高的要求,然而,由于高爐數據采集環(huán)境惡劣,部分參數現場取樣離線化驗等原因,獲得的歷史數據,尤其是硅含量數據中,存在嚴重的異常、缺失、不均衡等問題,導致預測模型訓練困難,預測結果易于出現過擬合或不穩(wěn)定現象。因此,歷史數據的優(yōu)化預處理,是鐵水硅含量預測建模的首要問題。
由于高爐冶煉的多尺度特征,不同參數的采集周期并不一致,需要錨定周期(本文稱為樣本周期)才能建立輸入變量與硅含量之間的映射關系,以便于訓練模型。然而受工藝限制,硅含量數據的取樣以及化驗均需要人工處理,導致每個樣本周期內的硅含量數據并不均衡且噪聲嚴重,具體表現為:在部分樣本周期內,硅含量數據可能會比較多且波動較大。此時,難以合理確定輸入變量與硅含量之間的關聯。
傳統的數據預處理主要包括異常值檢測與缺失值補全。其中,異常值檢測方法有馬氏距離[16-17]、3σ準則[18]、箱型圖[19]等;缺失值補全方法有均值插補法[20]、回歸擬合[21-22]、多重插補[23-24]等。由于高爐數據具有多采樣率特征,因此,現有的研究大都使用插補法或者回歸擬合的方式進行處理[25-26]。宋菁華[27]和Chu 等[28]使用了包樣分析法,在出鐵過程中依次采集兩個硅含量值,取其算術平均值;劉敏[29]對各輸入量以30 min 為采樣間隔時間段對數據進行融合,即計算30 min內數據的算術平均值。吳金花[21]采用不等時距灰色模型用于擬合整點數據。趙哲等[22]建立AR 模型對缺失值進行補值。雖然均值插補法對均勻采樣的時間序列數據是有效的,但對于非均勻時間間隔的數據,其時間序列的數據量少而不宜采用[30]。此外,當樣本周期內存在多個硅含量值且波動較大時,均值法較為保守,易受噪聲干擾使硅含量偏離正確范圍?;貧w擬合法容易人為增加線性關系,對后續(xù)的預測造成干擾。多重插補法期望缺失數據是隨機缺失,因而在高爐數據中也鮮有應用。這些方法在異常和缺失問題的處理上各有優(yōu)缺點,但并不足以解決所有高爐歷史數據中存在的問題。
為此,本文提出一種基于k-means++的高爐鐵水硅含量數據優(yōu)選方法,并通過建立基于多層感知器和LSTM 深度學習模型來驗證數據集優(yōu)選效果。該方法首先利用k-means++算法將樣本聚類,用于表示不同爐況特征;然后統計各簇樣本對應的硅含量的出現頻次,獲得頻數直方圖;在此基礎上,確定高頻區(qū)間,為樣本遴選與之關聯的最優(yōu)硅含量值,實現樣本與硅含量的關聯并減少噪聲干擾。為驗證本文所提方法的有效性,分別建立基于多層感知器和LSTM 深度學習模型來驗證數據集優(yōu)選效果。
高爐冶煉過程中的數據主要分為兩類,一類為眾多傳感器的實時采集數據,因采集周期不同,可歸于整點時刻記錄;另一類為硅含量數據,由檢測人員現場采集并離線化驗。
在數據采集過程中,硅含量的記錄易受人工影響,由于換班、某些時段鐵水未及時取樣或者化驗人員未到崗等因素,常積壓大量樣本在后續(xù)時段集中化驗;或因管理不善、化驗人員疏忽職守等因素,導致硅含量值缺失、測量誤差較大等。由于上述人為因素干擾,硅含量歷史數據出現缺失、不均衡現象,且在部分樣本周期內噪聲較大,引起硅含量值大幅波動。
針對實例中全體硅含量數據進行統計分析。
(1)硅含量數據不均衡問題如表1 所示。同周期內含有兩個及以上硅含量值的樣本在總體中占比為64.47%,還有10.63%的周期內沒有對應的硅含量數據。由此可見,歷史硅含量數據存在嚴重的不均衡現象,這對于輸入變量與硅含量的關聯造成了極大的阻礙。
表1 樣本周期內不同硅含量值數量在總體中的占比Table 1 The proportion of different silicon contents during the sample period
(2)硅含量的波動情況如圖1所示,其中橫坐標為樣本周期,縱坐標為硅含量的均方差,從圖中可以看出,在總計744個樣本周期中,均方差最大值可達0.18,平均值為0.03。
圖1 各樣本周期內硅含量值均方差Fig.1 MSE of silicon content for each sample period
當樣本周期內數值波動較大時,均值法易使不明顯噪聲混入結果,所得關聯硅含量值不準確,影響模型預測效果。
為解決上述問題的影響,本文提出了一種“kmeans++優(yōu)選法”數據優(yōu)選方法。由于輸入變量與硅含量均是爐況的反映,相同爐況下的樣本,應該具有相似的輸入變量參數和硅含量值,因此,可通過聚類方法實現爐況的分割,并通過統計不同爐況下的硅含量范圍,確定其高頻區(qū)間,從而選取更合理的關聯硅含量值。
k-means 是一種經典的聚類算法,其算法思想為:給定包含X 個d 維數據的數據集M ={m1,m2,m3,…,mn}(mi∈Rd),若要將給定的數據集分成k個簇,則隨機初始化k個不同的中心點。每個分組為一個簇Ci(1 <i <k),每個簇Ci都有一個中心Oi,迭代交換兩個不同的步驟直到收斂。
改進的k-means++算法在選取聚類中心時,假定已經選取了i 個中心點,在選取第i+1 個中心點時,選擇距離當前中心點Oi盡可能遠的第i+1 個中心點Oi+1。在選取第一個中心點O1時同樣通過隨機初始化的方法。這使得不同的聚類中心點分布在相差較遠的位置,從而降低簇間相似度,使算法收斂速度和聚類精度都得到提升[31]。
k-means++算法步驟如下:
(1)從樣本U(x)中隨機選取一個樣本作為初始聚類中心O1;
(6)重復步驟(4)和步驟(5)直到聚類中心的位置不再變化。
總地來說,k-means++算法是從沒有標注的輸入中抽取信息,找出其中顯著的模式、規(guī)律或集群,以指定的相似度標準將特征形態(tài)相同或近似的樣本劃分在一個類別中,而不相似的樣本劃分在不同的類別中。
硅含量是高爐熱狀態(tài)的表征,而各輸入變量綜合反映高爐熱狀態(tài),相同的爐況會對應相近的硅含量值波動范圍[32]。因此,在鐵水輸入變量沒有關聯的硅含量值時,本文將通過k-means++算法聚類,實現爐況分類,進而關聯合適的硅含量值。
“k-means++優(yōu)選法”設計思路如圖2 所示。輸入變量樣本數據集記為U(x)={x1, x2, …, xn},其中xi(1<i<n)為樣本向量,ti表示樣本xi的記錄時間,硅含量數據集為V(y)={y1,y2, …,ym},sj(1<j<m)表示硅含量記錄時間。當ti與sj相差低于一個樣本周期時,認為xi與yj屬于同一樣本周期。
圖2 “k-means++優(yōu)選法”設計思路框圖Fig.2 Flow chart of“k-means++optimal selecting method”
(1)k-means++聚類
基于k-means++算法聚類樣本,以Euclidean Metric 作為距離度量聚類樣本,將具有相似特征的樣本聚為一簇,從而區(qū)分不同爐況,具體步驟為:
①采用k-means++算法對樣本聚類U={C1,C2,…,Ck};
②若某一簇中包含樣本數目小于總樣本數的2%,則視為異常樣本(即少量的離群簇),刪除該異常簇,返回步驟①,否則,輸出聚類結果。
(2)基于連續(xù)時間段的簇內樣本篩選
由于各簇中的樣本記錄時間有間斷,為避免聚類誤差造成的影響,從中選擇記錄時間連續(xù)的樣本,作為該簇的代表。因此,對于每一簇Ci,按如下步驟進行處理:
①排序簇Ci中所有樣本的記錄時間,獲得該簇的樣本時間序列T={t1,t2,…,tn};
②將序列T中的記錄時間劃分為不同的連續(xù)時間子序列,T={T1,T2,…,Tm},其中,Ti={tl,tl+1,…,tl+p},Ti的持續(xù)時間記為L(Ti)=tl+p-tl;
④若占比ρ <0.6,縮減持續(xù)時間標準,令α =α - 1 并返回步驟③,否則,將所有持續(xù)時間小于α的子序列從T 中刪除,并輸出T,T 中記錄時間所指的樣本即為篩選出的該簇代表樣本。
(3)計算各簇對應硅含量值的頻數直方圖,并確定高頻區(qū)間
分簇樣本的同時,硅含量也間接地被劃分為不同的類別,為了獲取每簇硅含量值的波動范圍,繪制硅含量的頻數分布直方圖,據此統計硅含量數值區(qū)間,將最高頻數值區(qū)間稱之為“高頻區(qū)間”,具體實現步驟如下:
①從硅含量數據中,篩選出記錄時間屬于連續(xù)時間序列T 的硅含量,代表該簇樣本對應的硅含量值,用D(y)表示,D(y)={yi∈V(y)|si∈T};
②繪制D(y)的頻數分布直方圖,統計其中頻數最高的數據區(qū)間和頻數次高的數據區(qū)間,分別定義為“第一高頻區(qū)間”和“第二高頻區(qū)間”。
(4)優(yōu)選硅含量值
以“高頻區(qū)間”作為參考,為每個樣本選取最優(yōu)硅含量值,即選擇對應時段內屬于或接近其高頻區(qū)間的硅含量值;在遴選過程中遵循“不在先行周期內選擇,不重復選擇”的原則,即當某樣本周期ti內硅含量缺失時,僅從后續(xù)樣本周期ti+1內選擇填補,而該填補值不再作為ti+1樣本周期內的候選值。據此,實現輸入變量與硅含量的關聯與硅含量除噪。硅含量優(yōu)選策略如下。
將與樣本xi屬于同一樣本周期ti的硅含量yj的數目,記為a。
當a=0,則選擇ti+1中屬于高頻區(qū)間的yj+1,用于補全缺失;
當a=1,yj與xi關聯;
當a>1 且存在一個或多個yj均屬于高頻區(qū)間,則選擇sj較小的yj與xi關聯;
當a>1 且yj均不屬于高頻區(qū)間,則選擇更接近該高頻區(qū)間中點的yj值與xi關聯。
采用“k-means++優(yōu)選法”處理歷史數據。選取某鋼鐵廠2650 m3高爐,2017 年10 月1 日0 時至10月31 日23 時數據,樣本周期為1 h,歷史數據共有27 個輸入變量,包括富氧量、鼓風動能、冷風流量、理論燃燒溫度等,歸于整點記錄,共744個輸入變量樣本和1478個硅含量樣本。
(1)聚類:首先確定聚類數目,簇內對象分散程度越小,簇間的距離越大,聚類效果越好[33],但簇數過少會影響聚類效果,簇數過多將難以區(qū)分類別,將樣本聚類成k簇,多次實驗,計算其聚類結果的輪廓系數,最終選取輪廓系數較大的k=5 進行聚類。對輸入變量樣本首次聚類得到圖3(橫縱坐標為多維樣本映射在二維空間中的位置坐標)所示結果,顯然存在少量的離群值,通過反復剔除離群值和重新聚類,得到圖4所示的樣本聚類結果。
圖3 輸入變量首次k-means++聚類Fig.3 Clusters of input variables by k-means++for the first time
圖4 剔除異常簇k-means++聚類Fig.4 k-means++results after removing abnormal clusters
(2)統計各簇代表時間段:將聚類結果分別標記 為Cluster A、Cluster B、Cluster C、Cluster D 和Cluster E,依次統計各簇樣本連續(xù)時間序列,統計結果如表2所示。
表2 各簇統計數據Table 2 Statistics of each cluster
(3)定位高頻區(qū)間:分析各簇代表時段內的硅含量值,分別繪制頻數直方圖,如圖5 所示,其中縱坐標為頻數,橫坐標為硅含量值。各簇的“高頻區(qū)間”依次為([0.536,0.605],[0.467,0.536]),([0.516,0.58],[0.452,0.516]),([0.301,0.342],[0.342,0.383]),([0.49,0.528],[0.414,0.452]),([0.458,0.534],[0.382,0.458])。
(4)匹配唯一硅含量值:表3所示為各簇樣本周期內不同硅含量值數量在各簇總樣本數的占比,依照樣本的記錄時間順序,為其匹配對應硅含量值。
表3 各簇不同樣本周期內硅含量數量在簇內總樣本數的占比Table 3 Proportion of silicon content of each cluster in different sample periods
首先確定各樣本所屬的簇,以該簇的“高頻區(qū)間”作為標準,遵循“不在先行周期內選擇,不重復選擇”的原則,優(yōu)選每個樣本對應的硅含量值。經統計,在1478 個硅含量值中,共有731 個值處于高頻區(qū)間中,為去異常后的735個樣本匹配硅含量,統計結果如表4 所示,由表可知ClusterD 中樣本可完全實現匹配。
在歷史數據中,往往由于料批的差異導致的數據波動,使某一時段內硅含量均處于區(qū)間外,因此,其余樣本周期內硅含量值均不屬于高頻區(qū)間的樣本,則優(yōu)選更接近“高頻區(qū)間”的值。匹配完成后,生成新的數據樣本,作為后續(xù)預測工作的數據集。
圖5 各簇頻數直方圖Fig.5 Frequency histogram of each cluster
表4 各簇高頻區(qū)間內硅含量可匹配樣本數統計Table 4 Statistics of samples which can be matched by the silicon content in the high-frequency interval
本文分別建立基于多層感知器和LSTM 網絡的深度學習預測模型。多層感知器是一種經典的多隱層全連接前饋神經網絡,具有高度的并行性且應用廣泛;LSTM 網絡在近兩年被引入高爐鐵水硅含量預測領域,在時間序列領域有很好的表現。因此,本文采用這兩種方法分別建模以驗證所提硅含量數據優(yōu)選法的有效性。
優(yōu)選后的數據樣本共735 個,以8∶2 的比例劃分訓練集和預測集。將訓練集作為輸入用于模型訓練,預測集用于驗證模型訓練結果。
使用訓練好的網絡在預測集上生成預測結果,計算預測值與真實值的均方誤差,并繪制可視化圖形,觀察模型效果。采用均方誤差(MSE)、絕對誤差在threshold 以內(threshold 為0.05%和0.1%)的命中率(HR)、趨勢準確率(TAR)作為衡量指標,即:
MSE 用于衡量預測效果的穩(wěn)定程度;HR 是預測誤差的絕對值在threshold內的樣本數占總樣本數的比率,衡量預測模型的準確程度;TAR 用于衡量預測趨勢變化的準確程度,是當前值與上一時刻值的變化在歷史數據與預測數據上趨勢一致的樣本與總樣本數的比率,共包含三種趨勢,當變化量絕對值小于等于0.03 視為平穩(wěn),變化量大于0.03 視為上升,變化量小于-0.03視為下降。由于數據集不同優(yōu)化方式導致數據范圍存在差別,趨勢預報準確率能夠更好地體現不同數據的預測效果。
多層感知器也稱為深度全連接前饋網絡,是最基本的深度學習網絡。由若干層組成,每一層包含若干個神經元[34],通過逐層堆疊結構的神經網絡模型,學習獲得各層越來越有意義的表示。神經網絡具有很強的非線性映射能力,并且具有收斂速度快,全局優(yōu)化的特點。多層感知器網絡結構如圖6所示。
圖6 多層感知器網絡結構Fig.6 Multi-layer perceptron network structure
構建多層感知器時,Tanh 激活函數在數值預測上就有很好的表現,模型架構包括:三個中間層,每層設置50 個隱藏單元;輸出層輸出一個標量,預測當前的硅含量。在網絡中以0.5 的比率引入Dropout,防止網絡過擬合。
為驗證本方法的有效性,和傳統的均值法進行對比,“k-means 優(yōu)選法”與“均值法”數據集在多層感知器預測模型下,預測結果如圖7 所示,圖7(a)為“k-means++優(yōu)選法”所得數據集,圖7(b)為傳統“均值法”所得數據集。對預測結果進行評估,如表5所示,由表可知,“k-means++優(yōu)選法”與“均值法”相比,均方差(MSE)下降48.57%,0.05%命中率提升31.77%,0.1%命中率提升11.78%,趨勢準確率提升3.61%。
圖7 多層感知器模型下預測值與真實值對比Fig.7 Comparison between the prediction and the actual value based on the multi-layer perceptron model
表5 “k-means++優(yōu)選法”與“均值法”數據集在多層感知器預測模型下的結果對比Table 5 Comparison between the data sets of“kmeans++optimal selection method”and“averaging method”based on the multi-layer perceptron model
循環(huán)神經網絡的改進算法長短期記憶(LSTM)網絡是深度學習處理時間序列的基礎。高爐鐵水數據是一個動態(tài)的時間序列,當前爐況與歷史爐況相互關聯,LSTM 網絡能夠動態(tài)記憶歷史信息,在學習信息的同時保持歷史信息留存持久化,這一特性使得LSTM 網絡在高爐數據預測上有著天然的優(yōu)勢[2]。LSTM網絡結構如圖8所示。
圖8 LSTM網絡結構Fig.8 LSTM network structure
本文依托Keras深度學習框架搭建包含50個神經元的LSTM 網絡,其后接一層激活函數為Tanh 的全連接網絡用于輸出預測結果。
圖9 所示為LSTM 模型下的預測結果,其中圖9(a)為傳統“均值法”預測結果,圖9(b)為“k-means++優(yōu)選法”預測結果。由圖可看出“k-means++優(yōu)選法”數據集相較于“均值法”,預測值命中率更高。
圖9 LSTM模型下預測值與真實值對比Fig.9 Comparison between the prediction and the actual value based on the LSTM network structure
對預測結果進行評估,由表6 可知,LSTM 模型中“k-means++優(yōu)選法”數據集較“均值法”數據集,均方差(MSE)下降59.09%,0.05 命中率提升36.94%,0.1命中率提升15.49%,趨勢準確率提升4.56%。
驗證結果表明,采用本文提出的“k-means++優(yōu)選法”解決高爐數據的關聯問題,與傳統均值法相比,在不同的預測模型上均降低了均方差,提高了模型的預測命中率和趨勢準確率,尤其是在誤差容限為0.05 的條件下,對預測效果有較大的改善,體現了該數據優(yōu)選方案的有效性。此外,從表5 以及表6的對比可知,LSTM 預測模型的效果優(yōu)于多層感知器預測模型。
表6 “k-means++優(yōu)選法”與“均值法”數據集在LSTM預測模型下的結果對比Table 6 Comparison between the data sets of“kmeans++optimal selection method”and“averaging method”based on the LSTM network structure
本文提出了基于k-means聚類算法的數據優(yōu)選方法“k-means++優(yōu)選法”,能夠解決歷史數據輸入變量與硅含量不關聯的困難,減少了噪聲干擾,用于訓練模型后可以看出,優(yōu)選數據集在多層感知器和LSTM 網絡中均有更好的表現,能夠提高預測命中率與趨勢準確率,降低均方誤差。
目前,數據優(yōu)選方法尚處于探索階段,還有很大的改進空間。從應用驗證結果可以看出,“kmeans++優(yōu)選法”數據優(yōu)選方法在數據匹配方面優(yōu)勢明顯,但歷史數據中,部分輸入變量對硅含量的影響具有不同程度的滯后,有望通過分析不同變量的滯后時間,在聚類時將滯后值作為當前的輸入變量,以此減小由時滯導致的硅含量匹配誤差,進一步提高可信度。