亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于k-means++的高爐鐵水硅含量數(shù)據(jù)優(yōu)選方法

2020-08-19 04:07:52尹林子關(guān)羽吟蔣朝輝許雪梅

化工學(xué)報(bào) 2020年8期

關(guān)鍵詞：模型

尹林子，關(guān)羽吟，蔣朝輝，許雪梅

（1 中南大學(xué)物理與電子學(xué)院，湖南長(zhǎng)沙410012； 2 中南大學(xué)自動(dòng)化學(xué)院，湖南長(zhǎng)沙410083）

引言

鐵水硅含量預(yù)測(cè)是高爐優(yōu)化控制的關(guān)鍵之一，吸引了大量研究者的關(guān)注，目前研究者們多采用數(shù)據(jù)驅(qū)動(dòng)的思想[1-2]，建立高爐鐵水硅含量預(yù)測(cè)模型，常見(jiàn)的方法包括支持向量機(jī)[3-5]、神經(jīng)網(wǎng)絡(luò)[6-10]、非線(xiàn)性時(shí)間序列[11-12]、極限學(xué)習(xí)機(jī)[13-15]等。這些模型對(duì)訓(xùn)練數(shù)據(jù)集質(zhì)量均有較高的要求，然而，由于高爐數(shù)據(jù)采集環(huán)境惡劣，部分參數(shù)現(xiàn)場(chǎng)取樣離線(xiàn)化驗(yàn)等原因，獲得的歷史數(shù)據(jù)，尤其是硅含量數(shù)據(jù)中，存在嚴(yán)重的異常、缺失、不均衡等問(wèn)題，導(dǎo)致預(yù)測(cè)模型訓(xùn)練困難，預(yù)測(cè)結(jié)果易于出現(xiàn)過(guò)擬合或不穩(wěn)定現(xiàn)象。因此，歷史數(shù)據(jù)的優(yōu)化預(yù)處理，是鐵水硅含量預(yù)測(cè)建模的首要問(wèn)題。

由于高爐冶煉的多尺度特征，不同參數(shù)的采集周期并不一致，需要錨定周期（本文稱(chēng)為樣本周期）才能建立輸入變量與硅含量之間的映射關(guān)系，以便于訓(xùn)練模型。然而受工藝限制，硅含量數(shù)據(jù)的取樣以及化驗(yàn)均需要人工處理，導(dǎo)致每個(gè)樣本周期內(nèi)的硅含量數(shù)據(jù)并不均衡且噪聲嚴(yán)重，具體表現(xiàn)為：在部分樣本周期內(nèi)，硅含量數(shù)據(jù)可能會(huì)比較多且波動(dòng)較大。此時(shí)，難以合理確定輸入變量與硅含量之間的關(guān)聯(lián)。

傳統(tǒng)的數(shù)據(jù)預(yù)處理主要包括異常值檢測(cè)與缺失值補(bǔ)全。其中，異常值檢測(cè)方法有馬氏距離[16-17]、3σ準(zhǔn)則[18]、箱型圖[19]等；缺失值補(bǔ)全方法有均值插補(bǔ)法[20]、回歸擬合[21-22]、多重插補(bǔ)[23-24]等。由于高爐數(shù)據(jù)具有多采樣率特征，因此，現(xiàn)有的研究大都使用插補(bǔ)法或者回歸擬合的方式進(jìn)行處理[25-26]。宋菁華[27]和Chu 等[28]使用了包樣分析法，在出鐵過(guò)程中依次采集兩個(gè)硅含量值，取其算術(shù)平均值；劉敏[29]對(duì)各輸入量以30 min 為采樣間隔時(shí)間段對(duì)數(shù)據(jù)進(jìn)行融合，即計(jì)算30 min內(nèi)數(shù)據(jù)的算術(shù)平均值。吳金花[21]采用不等時(shí)距灰色模型用于擬合整點(diǎn)數(shù)據(jù)。趙哲等[22]建立AR 模型對(duì)缺失值進(jìn)行補(bǔ)值。雖然均值插補(bǔ)法對(duì)均勻采樣的時(shí)間序列數(shù)據(jù)是有效的，但對(duì)于非均勻時(shí)間間隔的數(shù)據(jù)，其時(shí)間序列的數(shù)據(jù)量少而不宜采用[30]。此外，當(dāng)樣本周期內(nèi)存在多個(gè)硅含量值且波動(dòng)較大時(shí)，均值法較為保守，易受噪聲干擾使硅含量偏離正確范圍?；貧w擬合法容易人為增加線(xiàn)性關(guān)系，對(duì)后續(xù)的預(yù)測(cè)造成干擾。多重插補(bǔ)法期望缺失數(shù)據(jù)是隨機(jī)缺失，因而在高爐數(shù)據(jù)中也鮮有應(yīng)用。這些方法在異常和缺失問(wèn)題的處理上各有優(yōu)缺點(diǎn)，但并不足以解決所有高爐歷史數(shù)據(jù)中存在的問(wèn)題。

為此，本文提出一種基于k-means++的高爐鐵水硅含量數(shù)據(jù)優(yōu)選方法，并通過(guò)建立基于多層感知器和LSTM 深度學(xué)習(xí)模型來(lái)驗(yàn)證數(shù)據(jù)集優(yōu)選效果。該方法首先利用k-means++算法將樣本聚類(lèi)，用于表示不同爐況特征；然后統(tǒng)計(jì)各簇樣本對(duì)應(yīng)的硅含量的出現(xiàn)頻次，獲得頻數(shù)直方圖；在此基礎(chǔ)上，確定高頻區(qū)間，為樣本遴選與之關(guān)聯(lián)的最優(yōu)硅含量值，實(shí)現(xiàn)樣本與硅含量的關(guān)聯(lián)并減少噪聲干擾。為驗(yàn)證本文所提方法的有效性，分別建立基于多層感知器和LSTM 深度學(xué)習(xí)模型來(lái)驗(yàn)證數(shù)據(jù)集優(yōu)選效果。

1 高爐數(shù)據(jù)分析

高爐冶煉過(guò)程中的數(shù)據(jù)主要分為兩類(lèi)，一類(lèi)為眾多傳感器的實(shí)時(shí)采集數(shù)據(jù)，因采集周期不同，可歸于整點(diǎn)時(shí)刻記錄；另一類(lèi)為硅含量數(shù)據(jù)，由檢測(cè)人員現(xiàn)場(chǎng)采集并離線(xiàn)化驗(yàn)。

在數(shù)據(jù)采集過(guò)程中，硅含量的記錄易受人工影響，由于換班、某些時(shí)段鐵水未及時(shí)取樣或者化驗(yàn)人員未到崗等因素，常積壓大量樣本在后續(xù)時(shí)段集中化驗(yàn)；或因管理不善、化驗(yàn)人員疏忽職守等因素，導(dǎo)致硅含量值缺失、測(cè)量誤差較大等。由于上述人為因素干擾，硅含量歷史數(shù)據(jù)出現(xiàn)缺失、不均衡現(xiàn)象，且在部分樣本周期內(nèi)噪聲較大，引起硅含量值大幅波動(dòng)。

針對(duì)實(shí)例中全體硅含量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。

（1）硅含量數(shù)據(jù)不均衡問(wèn)題如表1 所示。同周期內(nèi)含有兩個(gè)及以上硅含量值的樣本在總體中占比為64.47%，還有10.63%的周期內(nèi)沒(méi)有對(duì)應(yīng)的硅含量數(shù)據(jù)。由此可見(jiàn)，歷史硅含量數(shù)據(jù)存在嚴(yán)重的不均衡現(xiàn)象，這對(duì)于輸入變量與硅含量的關(guān)聯(lián)造成了極大的阻礙。

表1 樣本周期內(nèi)不同硅含量值數(shù)量在總體中的占比Table 1 The proportion of different silicon contents during the sample period

（2）硅含量的波動(dòng)情況如圖1所示，其中橫坐標(biāo)為樣本周期，縱坐標(biāo)為硅含量的均方差，從圖中可以看出，在總計(jì)744個(gè)樣本周期中，均方差最大值可達(dá)0.18，平均值為0.03。

圖1 各樣本周期內(nèi)硅含量值均方差Fig.1 MSE of silicon content for each sample period

當(dāng)樣本周期內(nèi)數(shù)值波動(dòng)較大時(shí)，均值法易使不明顯噪聲混入結(jié)果，所得關(guān)聯(lián)硅含量值不準(zhǔn)確，影響模型預(yù)測(cè)效果。

為解決上述問(wèn)題的影響，本文提出了一種“kmeans++優(yōu)選法”數(shù)據(jù)優(yōu)選方法。由于輸入變量與硅含量均是爐況的反映，相同爐況下的樣本，應(yīng)該具有相似的輸入變量參數(shù)和硅含量值，因此，可通過(guò)聚類(lèi)方法實(shí)現(xiàn)爐況的分割，并通過(guò)統(tǒng)計(jì)不同爐況下的硅含量范圍，確定其高頻區(qū)間，從而選取更合理的關(guān)聯(lián)硅含量值。

2 k-means++簡(jiǎn)介

k-means 是一種經(jīng)典的聚類(lèi)算法，其算法思想為：給定包含X 個(gè)d 維數(shù)據(jù)的數(shù)據(jù)集M ={m1,m2,m3,…,mn}(mi∈Rd)，若要將給定的數(shù)據(jù)集分成k個(gè)簇，則隨機(jī)初始化k個(gè)不同的中心點(diǎn)。每個(gè)分組為一個(gè)簇Ci(1 ＜i ＜k)，每個(gè)簇Ci都有一個(gè)中心Oi，迭代交換兩個(gè)不同的步驟直到收斂。

改進(jìn)的k-means++算法在選取聚類(lèi)中心時(shí)，假定已經(jīng)選取了i 個(gè)中心點(diǎn)，在選取第i+1 個(gè)中心點(diǎn)時(shí)，選擇距離當(dāng)前中心點(diǎn)Oi盡可能遠(yuǎn)的第i+1 個(gè)中心點(diǎn)Oi+1。在選取第一個(gè)中心點(diǎn)O1時(shí)同樣通過(guò)隨機(jī)初始化的方法。這使得不同的聚類(lèi)中心點(diǎn)分布在相差較遠(yuǎn)的位置，從而降低簇間相似度，使算法收斂速度和聚類(lèi)精度都得到提升[31]。

k-means++算法步驟如下：

（1）從樣本U(x)中隨機(jī)選取一個(gè)樣本作為初始聚類(lèi)中心O1；

（6）重復(fù)步驟（4）和步驟（5）直到聚類(lèi)中心的位置不再變化。

總地來(lái)說(shuō)，k-means++算法是從沒(méi)有標(biāo)注的輸入中抽取信息，找出其中顯著的模式、規(guī)律或集群，以指定的相似度標(biāo)準(zhǔn)將特征形態(tài)相同或近似的樣本劃分在一個(gè)類(lèi)別中，而不相似的樣本劃分在不同的類(lèi)別中。

3 基于k-means++的硅含量數(shù)據(jù)優(yōu)選法

硅含量是高爐熱狀態(tài)的表征，而各輸入變量綜合反映高爐熱狀態(tài)，相同的爐況會(huì)對(duì)應(yīng)相近的硅含量值波動(dòng)范圍[32]。因此，在鐵水輸入變量沒(méi)有關(guān)聯(lián)的硅含量值時(shí)，本文將通過(guò)k-means++算法聚類(lèi)，實(shí)現(xiàn)爐況分類(lèi)，進(jìn)而關(guān)聯(lián)合適的硅含量值。

3.1 “k-means++優(yōu)選法”流程

“k-means++優(yōu)選法”設(shè)計(jì)思路如圖2 所示。輸入變量樣本數(shù)據(jù)集記為U(x)={x1, x2, …, xn}，其中xi(1＜i＜n)為樣本向量，ti表示樣本xi的記錄時(shí)間，硅含量數(shù)據(jù)集為V(y)={y1,y2, …,ym}，sj(1＜j＜m)表示硅含量記錄時(shí)間。當(dāng)ti與sj相差低于一個(gè)樣本周期時(shí)，認(rèn)為xi與yj屬于同一樣本周期。

圖2 “k-means++優(yōu)選法”設(shè)計(jì)思路框圖Fig.2 Flow chart of“k-means++optimal selecting method”

（1）k-means++聚類(lèi)

基于k-means++算法聚類(lèi)樣本，以Euclidean Metric 作為距離度量聚類(lèi)樣本，將具有相似特征的樣本聚為一簇，從而區(qū)分不同爐況，具體步驟為：

①采用k-means++算法對(duì)樣本聚類(lèi)U={C1,C2,…,Ck}；

②若某一簇中包含樣本數(shù)目小于總樣本數(shù)的2%，則視為異常樣本（即少量的離群簇），刪除該異常簇，返回步驟①，否則，輸出聚類(lèi)結(jié)果。

（2）基于連續(xù)時(shí)間段的簇內(nèi)樣本篩選

由于各簇中的樣本記錄時(shí)間有間斷，為避免聚類(lèi)誤差造成的影響，從中選擇記錄時(shí)間連續(xù)的樣本，作為該簇的代表。因此，對(duì)于每一簇Ci，按如下步驟進(jìn)行處理：

①排序簇Ci中所有樣本的記錄時(shí)間，獲得該簇的樣本時(shí)間序列T={t1,t2,…,tn};

②將序列T中的記錄時(shí)間劃分為不同的連續(xù)時(shí)間子序列，T={T1,T2,…,Tm},其中，Ti={tl,tl+1,…,tl+p}，Ti的持續(xù)時(shí)間記為L(zhǎng)(Ti)=tl+p-tl；

④若占比ρ ＜0.6，縮減持續(xù)時(shí)間標(biāo)準(zhǔn)，令α =α - 1 并返回步驟③，否則，將所有持續(xù)時(shí)間小于α的子序列從T 中刪除，并輸出T，T 中記錄時(shí)間所指的樣本即為篩選出的該簇代表樣本。

（3）計(jì)算各簇對(duì)應(yīng)硅含量值的頻數(shù)直方圖，并確定高頻區(qū)間

分簇樣本的同時(shí)，硅含量也間接地被劃分為不同的類(lèi)別，為了獲取每簇硅含量值的波動(dòng)范圍，繪制硅含量的頻數(shù)分布直方圖，據(jù)此統(tǒng)計(jì)硅含量數(shù)值區(qū)間，將最高頻數(shù)值區(qū)間稱(chēng)之為“高頻區(qū)間”，具體實(shí)現(xiàn)步驟如下：

①?gòu)墓韬繑?shù)據(jù)中，篩選出記錄時(shí)間屬于連續(xù)時(shí)間序列T 的硅含量，代表該簇樣本對(duì)應(yīng)的硅含量值，用D(y)表示，D(y)={yi∈V(y)|si∈T}；

②繪制D(y)的頻數(shù)分布直方圖，統(tǒng)計(jì)其中頻數(shù)最高的數(shù)據(jù)區(qū)間和頻數(shù)次高的數(shù)據(jù)區(qū)間，分別定義為“第一高頻區(qū)間”和“第二高頻區(qū)間”。

（4）優(yōu)選硅含量值

以“高頻區(qū)間”作為參考，為每個(gè)樣本選取最優(yōu)硅含量值，即選擇對(duì)應(yīng)時(shí)段內(nèi)屬于或接近其高頻區(qū)間的硅含量值；在遴選過(guò)程中遵循“不在先行周期內(nèi)選擇，不重復(fù)選擇”的原則，即當(dāng)某樣本周期ti內(nèi)硅含量缺失時(shí)，僅從后續(xù)樣本周期ti+1內(nèi)選擇填補(bǔ)，而該填補(bǔ)值不再作為ti+1樣本周期內(nèi)的候選值。據(jù)此，實(shí)現(xiàn)輸入變量與硅含量的關(guān)聯(lián)與硅含量除噪。硅含量?jī)?yōu)選策略如下。

將與樣本xi屬于同一樣本周期ti的硅含量yj的數(shù)目，記為a。

當(dāng)a=0，則選擇ti+1中屬于高頻區(qū)間的yj+1，用于補(bǔ)全缺失；

當(dāng)a=1，yj與xi關(guān)聯(lián)；

當(dāng)a＞1 且存在一個(gè)或多個(gè)yj均屬于高頻區(qū)間，則選擇sj較小的yj與xi關(guān)聯(lián)；

當(dāng)a＞1 且yj均不屬于高頻區(qū)間，則選擇更接近該高頻區(qū)間中點(diǎn)的yj值與xi關(guān)聯(lián)。

3.2 “k-means++優(yōu)選法”的應(yīng)用

采用“k-means++優(yōu)選法”處理歷史數(shù)據(jù)。選取某鋼鐵廠2650 m3高爐，2017 年10 月1 日0 時(shí)至10月31 日23 時(shí)數(shù)據(jù)，樣本周期為1 h，歷史數(shù)據(jù)共有27 個(gè)輸入變量，包括富氧量、鼓風(fēng)動(dòng)能、冷風(fēng)流量、理論燃燒溫度等，歸于整點(diǎn)記錄，共744個(gè)輸入變量樣本和1478個(gè)硅含量樣本。

（1）聚類(lèi)：首先確定聚類(lèi)數(shù)目，簇內(nèi)對(duì)象分散程度越小，簇間的距離越大，聚類(lèi)效果越好[33]，但簇?cái)?shù)過(guò)少會(huì)影響聚類(lèi)效果，簇?cái)?shù)過(guò)多將難以區(qū)分類(lèi)別，將樣本聚類(lèi)成k簇，多次實(shí)驗(yàn)，計(jì)算其聚類(lèi)結(jié)果的輪廓系數(shù)，最終選取輪廓系數(shù)較大的k=5 進(jìn)行聚類(lèi)。對(duì)輸入變量樣本首次聚類(lèi)得到圖3（橫縱坐標(biāo)為多維樣本映射在二維空間中的位置坐標(biāo)）所示結(jié)果，顯然存在少量的離群值，通過(guò)反復(fù)剔除離群值和重新聚類(lèi)，得到圖4所示的樣本聚類(lèi)結(jié)果。

圖3 輸入變量首次k-means++聚類(lèi)Fig.3 Clusters of input variables by k-means++for the first time

圖4 剔除異常簇k-means++聚類(lèi)Fig.4 k-means++results after removing abnormal clusters

（2）統(tǒng)計(jì)各簇代表時(shí)間段：將聚類(lèi)結(jié)果分別標(biāo)記為Cluster A、Cluster B、Cluster C、Cluster D 和Cluster E，依次統(tǒng)計(jì)各簇樣本連續(xù)時(shí)間序列，統(tǒng)計(jì)結(jié)果如表2所示。

表2 各簇統(tǒng)計(jì)數(shù)據(jù)Table 2 Statistics of each cluster

（3）定位高頻區(qū)間：分析各簇代表時(shí)段內(nèi)的硅含量值，分別繪制頻數(shù)直方圖，如圖5 所示，其中縱坐標(biāo)為頻數(shù)，橫坐標(biāo)為硅含量值。各簇的“高頻區(qū)間”依次為([0.536,0.605],[0.467,0.536])，([0.516,0.58],[0.452,0.516])，([0.301,0.342],[0.342,0.383])，([0.49,0.528],[0.414,0.452])，([0.458,0.534],[0.382,0.458])。

（4）匹配唯一硅含量值：表3所示為各簇樣本周期內(nèi)不同硅含量值數(shù)量在各簇總樣本數(shù)的占比，依照樣本的記錄時(shí)間順序，為其匹配對(duì)應(yīng)硅含量值。

表3 各簇不同樣本周期內(nèi)硅含量數(shù)量在簇內(nèi)總樣本數(shù)的占比Table 3 Proportion of silicon content of each cluster in different sample periods

首先確定各樣本所屬的簇，以該簇的“高頻區(qū)間”作為標(biāo)準(zhǔn)，遵循“不在先行周期內(nèi)選擇，不重復(fù)選擇”的原則，優(yōu)選每個(gè)樣本對(duì)應(yīng)的硅含量值。經(jīng)統(tǒng)計(jì)，在1478 個(gè)硅含量值中，共有731 個(gè)值處于高頻區(qū)間中，為去異常后的735個(gè)樣本匹配硅含量，統(tǒng)計(jì)結(jié)果如表4 所示，由表可知ClusterD 中樣本可完全實(shí)現(xiàn)匹配。

在歷史數(shù)據(jù)中，往往由于料批的差異導(dǎo)致的數(shù)據(jù)波動(dòng)，使某一時(shí)段內(nèi)硅含量均處于區(qū)間外，因此，其余樣本周期內(nèi)硅含量值均不屬于高頻區(qū)間的樣本，則優(yōu)選更接近“高頻區(qū)間”的值。匹配完成后，生成新的數(shù)據(jù)樣本，作為后續(xù)預(yù)測(cè)工作的數(shù)據(jù)集。

圖5 各簇頻數(shù)直方圖Fig.5 Frequency histogram of each cluster

表4 各簇高頻區(qū)間內(nèi)硅含量可匹配樣本數(shù)統(tǒng)計(jì)Table 4 Statistics of samples which can be matched by the silicon content in the high-frequency interval

4 實(shí)驗(yàn)結(jié)果及分析

本文分別建立基于多層感知器和LSTM 網(wǎng)絡(luò)的深度學(xué)習(xí)預(yù)測(cè)模型。多層感知器是一種經(jīng)典的多隱層全連接前饋神經(jīng)網(wǎng)絡(luò)，具有高度的并行性且應(yīng)用廣泛；LSTM 網(wǎng)絡(luò)在近兩年被引入高爐鐵水硅含量預(yù)測(cè)領(lǐng)域，在時(shí)間序列領(lǐng)域有很好的表現(xiàn)。因此，本文采用這兩種方法分別建模以驗(yàn)證所提硅含量數(shù)據(jù)優(yōu)選法的有效性。

優(yōu)選后的數(shù)據(jù)樣本共735 個(gè)，以8∶2 的比例劃分訓(xùn)練集和預(yù)測(cè)集。將訓(xùn)練集作為輸入用于模型訓(xùn)練，預(yù)測(cè)集用于驗(yàn)證模型訓(xùn)練結(jié)果。

使用訓(xùn)練好的網(wǎng)絡(luò)在預(yù)測(cè)集上生成預(yù)測(cè)結(jié)果，計(jì)算預(yù)測(cè)值與真實(shí)值的均方誤差，并繪制可視化圖形，觀察模型效果。采用均方誤差（MSE）、絕對(duì)誤差在threshold 以?xún)?nèi)（threshold 為0.05%和0.1%）的命中率（HR）、趨勢(shì)準(zhǔn)確率（TAR）作為衡量指標(biāo)，即：

MSE 用于衡量預(yù)測(cè)效果的穩(wěn)定程度；HR 是預(yù)測(cè)誤差的絕對(duì)值在threshold內(nèi)的樣本數(shù)占總樣本數(shù)的比率，衡量預(yù)測(cè)模型的準(zhǔn)確程度；TAR 用于衡量預(yù)測(cè)趨勢(shì)變化的準(zhǔn)確程度，是當(dāng)前值與上一時(shí)刻值的變化在歷史數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)上趨勢(shì)一致的樣本與總樣本數(shù)的比率，共包含三種趨勢(shì)，當(dāng)變化量絕對(duì)值小于等于0.03 視為平穩(wěn)，變化量大于0.03 視為上升，變化量小于-0.03視為下降。由于數(shù)據(jù)集不同優(yōu)化方式導(dǎo)致數(shù)據(jù)范圍存在差別，趨勢(shì)預(yù)報(bào)準(zhǔn)確率能夠更好地體現(xiàn)不同數(shù)據(jù)的預(yù)測(cè)效果。

4.1 在多層感知器預(yù)測(cè)模型中的應(yīng)用

多層感知器也稱(chēng)為深度全連接前饋網(wǎng)絡(luò)，是最基本的深度學(xué)習(xí)網(wǎng)絡(luò)。由若干層組成，每一層包含若干個(gè)神經(jīng)元[34]，通過(guò)逐層堆疊結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型，學(xué)習(xí)獲得各層越來(lái)越有意義的表示。神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線(xiàn)性映射能力，并且具有收斂速度快，全局優(yōu)化的特點(diǎn)。多層感知器網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

圖6 多層感知器網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Multi-layer perceptron network structure

構(gòu)建多層感知器時(shí)，Tanh 激活函數(shù)在數(shù)值預(yù)測(cè)上就有很好的表現(xiàn)，模型架構(gòu)包括：三個(gè)中間層，每層設(shè)置50 個(gè)隱藏單元；輸出層輸出一個(gè)標(biāo)量，預(yù)測(cè)當(dāng)前的硅含量。在網(wǎng)絡(luò)中以0.5 的比率引入Dropout，防止網(wǎng)絡(luò)過(guò)擬合。

為驗(yàn)證本方法的有效性，和傳統(tǒng)的均值法進(jìn)行對(duì)比，“k-means 優(yōu)選法”與“均值法”數(shù)據(jù)集在多層感知器預(yù)測(cè)模型下，預(yù)測(cè)結(jié)果如圖7 所示，圖7(a)為“k-means++優(yōu)選法”所得數(shù)據(jù)集，圖7(b)為傳統(tǒng)“均值法”所得數(shù)據(jù)集。對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估，如表5所示，由表可知，“k-means++優(yōu)選法”與“均值法”相比，均方差(MSE)下降48.57%，0.05%命中率提升31.77%，0.1%命中率提升11.78%，趨勢(shì)準(zhǔn)確率提升3.61%。

圖7 多層感知器模型下預(yù)測(cè)值與真實(shí)值對(duì)比Fig.7 Comparison between the prediction and the actual value based on the multi-layer perceptron model

表5 “k-means++優(yōu)選法”與“均值法”數(shù)據(jù)集在多層感知器預(yù)測(cè)模型下的結(jié)果對(duì)比Table 5 Comparison between the data sets of“kmeans++optimal selection method”and“averaging method”based on the multi-layer perceptron model

4.2 在LSTM網(wǎng)絡(luò)模型中的應(yīng)用

循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)算法長(zhǎng)短期記憶（LSTM）網(wǎng)絡(luò)是深度學(xué)習(xí)處理時(shí)間序列的基礎(chǔ)。高爐鐵水?dāng)?shù)據(jù)是一個(gè)動(dòng)態(tài)的時(shí)間序列，當(dāng)前爐況與歷史爐況相互關(guān)聯(lián)，LSTM 網(wǎng)絡(luò)能夠動(dòng)態(tài)記憶歷史信息，在學(xué)習(xí)信息的同時(shí)保持歷史信息留存持久化，這一特性使得LSTM 網(wǎng)絡(luò)在高爐數(shù)據(jù)預(yù)測(cè)上有著天然的優(yōu)勢(shì)[2]。LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。

圖8 LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 LSTM network structure

本文依托Keras深度學(xué)習(xí)框架搭建包含50個(gè)神經(jīng)元的LSTM 網(wǎng)絡(luò)，其后接一層激活函數(shù)為T(mén)anh 的全連接網(wǎng)絡(luò)用于輸出預(yù)測(cè)結(jié)果。

圖9 所示為L(zhǎng)STM 模型下的預(yù)測(cè)結(jié)果，其中圖9(a)為傳統(tǒng)“均值法”預(yù)測(cè)結(jié)果，圖9(b)為“k-means++優(yōu)選法”預(yù)測(cè)結(jié)果。由圖可看出“k-means++優(yōu)選法”數(shù)據(jù)集相較于“均值法”，預(yù)測(cè)值命中率更高。

圖9 LSTM模型下預(yù)測(cè)值與真實(shí)值對(duì)比Fig.9 Comparison between the prediction and the actual value based on the LSTM network structure

對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估，由表6 可知，LSTM 模型中“k-means++優(yōu)選法”數(shù)據(jù)集較“均值法”數(shù)據(jù)集，均方差(MSE)下降59.09%，0.05 命中率提升36.94%，0.1命中率提升15.49%，趨勢(shì)準(zhǔn)確率提升4.56%。

4.3 結(jié)果分析

驗(yàn)證結(jié)果表明，采用本文提出的“k-means++優(yōu)選法”解決高爐數(shù)據(jù)的關(guān)聯(lián)問(wèn)題，與傳統(tǒng)均值法相比，在不同的預(yù)測(cè)模型上均降低了均方差，提高了模型的預(yù)測(cè)命中率和趨勢(shì)準(zhǔn)確率，尤其是在誤差容限為0.05 的條件下，對(duì)預(yù)測(cè)效果有較大的改善，體現(xiàn)了該數(shù)據(jù)優(yōu)選方案的有效性。此外，從表5 以及表6的對(duì)比可知，LSTM 預(yù)測(cè)模型的效果優(yōu)于多層感知器預(yù)測(cè)模型。

表6 “k-means++優(yōu)選法”與“均值法”數(shù)據(jù)集在LSTM預(yù)測(cè)模型下的結(jié)果對(duì)比Table 6 Comparison between the data sets of“kmeans++optimal selection method”and“averaging method”based on the LSTM network structure

5 結(jié) 論

本文提出了基于k-means聚類(lèi)算法的數(shù)據(jù)優(yōu)選方法“k-means++優(yōu)選法”，能夠解決歷史數(shù)據(jù)輸入變量與硅含量不關(guān)聯(lián)的困難，減少了噪聲干擾，用于訓(xùn)練模型后可以看出，優(yōu)選數(shù)據(jù)集在多層感知器和LSTM 網(wǎng)絡(luò)中均有更好的表現(xiàn)，能夠提高預(yù)測(cè)命中率與趨勢(shì)準(zhǔn)確率，降低均方誤差。

目前，數(shù)據(jù)優(yōu)選方法尚處于探索階段，還有很大的改進(jìn)空間。從應(yīng)用驗(yàn)證結(jié)果可以看出，“kmeans++優(yōu)選法”數(shù)據(jù)優(yōu)選方法在數(shù)據(jù)匹配方面優(yōu)勢(shì)明顯，但歷史數(shù)據(jù)中，部分輸入變量對(duì)硅含量的影響具有不同程度的滯后，有望通過(guò)分析不同變量的滯后時(shí)間，在聚類(lèi)時(shí)將滯后值作為當(dāng)前的輸入變量，以此減小由時(shí)滯導(dǎo)致的硅含量匹配誤差，進(jìn)一步提高可信度。