亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于k-means++的高爐鐵水硅含量數(shù)據(jù)優(yōu)選方法

        2020-08-19 04:07:52尹林子關(guān)羽吟蔣朝輝許雪梅
        化工學(xué)報(bào) 2020年8期
        關(guān)鍵詞:模型

        尹林子,關(guān)羽吟,蔣朝輝,許雪梅

        (1 中南大學(xué)物理與電子學(xué)院,湖南長(zhǎng)沙410012; 2 中南大學(xué)自動(dòng)化學(xué)院,湖南長(zhǎng)沙410083)

        引 言

        鐵水硅含量預(yù)測(cè)是高爐優(yōu)化控制的關(guān)鍵之一,吸引了大量研究者的關(guān)注,目前研究者們多采用數(shù)據(jù)驅(qū)動(dòng)的思想[1-2],建立高爐鐵水硅含量預(yù)測(cè)模型,常見(jiàn)的方法包括支持向量機(jī)[3-5]、神經(jīng)網(wǎng)絡(luò)[6-10]、非線(xiàn)性時(shí)間序列[11-12]、極限學(xué)習(xí)機(jī)[13-15]等。這些模型對(duì)訓(xùn)練數(shù)據(jù)集質(zhì)量均有較高的要求,然而,由于高爐數(shù)據(jù)采集環(huán)境惡劣,部分參數(shù)現(xiàn)場(chǎng)取樣離線(xiàn)化驗(yàn)等原因,獲得的歷史數(shù)據(jù),尤其是硅含量數(shù)據(jù)中,存在嚴(yán)重的異常、缺失、不均衡等問(wèn)題,導(dǎo)致預(yù)測(cè)模型訓(xùn)練困難,預(yù)測(cè)結(jié)果易于出現(xiàn)過(guò)擬合或不穩(wěn)定現(xiàn)象。因此,歷史數(shù)據(jù)的優(yōu)化預(yù)處理,是鐵水硅含量預(yù)測(cè)建模的首要問(wèn)題。

        由于高爐冶煉的多尺度特征,不同參數(shù)的采集周期并不一致,需要錨定周期(本文稱(chēng)為樣本周期)才能建立輸入變量與硅含量之間的映射關(guān)系,以便于訓(xùn)練模型。然而受工藝限制,硅含量數(shù)據(jù)的取樣以及化驗(yàn)均需要人工處理,導(dǎo)致每個(gè)樣本周期內(nèi)的硅含量數(shù)據(jù)并不均衡且噪聲嚴(yán)重,具體表現(xiàn)為:在部分樣本周期內(nèi),硅含量數(shù)據(jù)可能會(huì)比較多且波動(dòng)較大。此時(shí),難以合理確定輸入變量與硅含量之間的關(guān)聯(lián)。

        傳統(tǒng)的數(shù)據(jù)預(yù)處理主要包括異常值檢測(cè)與缺失值補(bǔ)全。其中,異常值檢測(cè)方法有馬氏距離[16-17]、3σ準(zhǔn)則[18]、箱型圖[19]等;缺失值補(bǔ)全方法有均值插補(bǔ)法[20]、回歸擬合[21-22]、多重插補(bǔ)[23-24]等。由于高爐數(shù)據(jù)具有多采樣率特征,因此,現(xiàn)有的研究大都使用插補(bǔ)法或者回歸擬合的方式進(jìn)行處理[25-26]。宋菁華[27]和Chu 等[28]使用了包樣分析法,在出鐵過(guò)程中依次采集兩個(gè)硅含量值,取其算術(shù)平均值;劉敏[29]對(duì)各輸入量以30 min 為采樣間隔時(shí)間段對(duì)數(shù)據(jù)進(jìn)行融合,即計(jì)算30 min內(nèi)數(shù)據(jù)的算術(shù)平均值。吳金花[21]采用不等時(shí)距灰色模型用于擬合整點(diǎn)數(shù)據(jù)。趙哲等[22]建立AR 模型對(duì)缺失值進(jìn)行補(bǔ)值。雖然均值插補(bǔ)法對(duì)均勻采樣的時(shí)間序列數(shù)據(jù)是有效的,但對(duì)于非均勻時(shí)間間隔的數(shù)據(jù),其時(shí)間序列的數(shù)據(jù)量少而不宜采用[30]。此外,當(dāng)樣本周期內(nèi)存在多個(gè)硅含量值且波動(dòng)較大時(shí),均值法較為保守,易受噪聲干擾使硅含量偏離正確范圍?;貧w擬合法容易人為增加線(xiàn)性關(guān)系,對(duì)后續(xù)的預(yù)測(cè)造成干擾。多重插補(bǔ)法期望缺失數(shù)據(jù)是隨機(jī)缺失,因而在高爐數(shù)據(jù)中也鮮有應(yīng)用。這些方法在異常和缺失問(wèn)題的處理上各有優(yōu)缺點(diǎn),但并不足以解決所有高爐歷史數(shù)據(jù)中存在的問(wèn)題。

        為此,本文提出一種基于k-means++的高爐鐵水硅含量數(shù)據(jù)優(yōu)選方法,并通過(guò)建立基于多層感知器和LSTM 深度學(xué)習(xí)模型來(lái)驗(yàn)證數(shù)據(jù)集優(yōu)選效果。該方法首先利用k-means++算法將樣本聚類(lèi),用于表示不同爐況特征;然后統(tǒng)計(jì)各簇樣本對(duì)應(yīng)的硅含量的出現(xiàn)頻次,獲得頻數(shù)直方圖;在此基礎(chǔ)上,確定高頻區(qū)間,為樣本遴選與之關(guān)聯(lián)的最優(yōu)硅含量值,實(shí)現(xiàn)樣本與硅含量的關(guān)聯(lián)并減少噪聲干擾。為驗(yàn)證本文所提方法的有效性,分別建立基于多層感知器和LSTM 深度學(xué)習(xí)模型來(lái)驗(yàn)證數(shù)據(jù)集優(yōu)選效果。

        1 高爐數(shù)據(jù)分析

        高爐冶煉過(guò)程中的數(shù)據(jù)主要分為兩類(lèi),一類(lèi)為眾多傳感器的實(shí)時(shí)采集數(shù)據(jù),因采集周期不同,可歸于整點(diǎn)時(shí)刻記錄;另一類(lèi)為硅含量數(shù)據(jù),由檢測(cè)人員現(xiàn)場(chǎng)采集并離線(xiàn)化驗(yàn)。

        在數(shù)據(jù)采集過(guò)程中,硅含量的記錄易受人工影響,由于換班、某些時(shí)段鐵水未及時(shí)取樣或者化驗(yàn)人員未到崗等因素,常積壓大量樣本在后續(xù)時(shí)段集中化驗(yàn);或因管理不善、化驗(yàn)人員疏忽職守等因素,導(dǎo)致硅含量值缺失、測(cè)量誤差較大等。由于上述人為因素干擾,硅含量歷史數(shù)據(jù)出現(xiàn)缺失、不均衡現(xiàn)象,且在部分樣本周期內(nèi)噪聲較大,引起硅含量值大幅波動(dòng)。

        針對(duì)實(shí)例中全體硅含量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。

        (1)硅含量數(shù)據(jù)不均衡問(wèn)題如表1 所示。同周期內(nèi)含有兩個(gè)及以上硅含量值的樣本在總體中占比為64.47%,還有10.63%的周期內(nèi)沒(méi)有對(duì)應(yīng)的硅含量數(shù)據(jù)。由此可見(jiàn),歷史硅含量數(shù)據(jù)存在嚴(yán)重的不均衡現(xiàn)象,這對(duì)于輸入變量與硅含量的關(guān)聯(lián)造成了極大的阻礙。

        表1 樣本周期內(nèi)不同硅含量值數(shù)量在總體中的占比Table 1 The proportion of different silicon contents during the sample period

        (2)硅含量的波動(dòng)情況如圖1所示,其中橫坐標(biāo)為樣本周期,縱坐標(biāo)為硅含量的均方差,從圖中可以看出,在總計(jì)744個(gè)樣本周期中,均方差最大值可達(dá)0.18,平均值為0.03。

        圖1 各樣本周期內(nèi)硅含量值均方差Fig.1 MSE of silicon content for each sample period

        當(dāng)樣本周期內(nèi)數(shù)值波動(dòng)較大時(shí),均值法易使不明顯噪聲混入結(jié)果,所得關(guān)聯(lián)硅含量值不準(zhǔn)確,影響模型預(yù)測(cè)效果。

        為解決上述問(wèn)題的影響,本文提出了一種“kmeans++優(yōu)選法”數(shù)據(jù)優(yōu)選方法。由于輸入變量與硅含量均是爐況的反映,相同爐況下的樣本,應(yīng)該具有相似的輸入變量參數(shù)和硅含量值,因此,可通過(guò)聚類(lèi)方法實(shí)現(xiàn)爐況的分割,并通過(guò)統(tǒng)計(jì)不同爐況下的硅含量范圍,確定其高頻區(qū)間,從而選取更合理的關(guān)聯(lián)硅含量值。

        2 k-means++簡(jiǎn)介

        k-means 是一種經(jīng)典的聚類(lèi)算法,其算法思想為:給定包含X 個(gè)d 維數(shù)據(jù)的數(shù)據(jù)集M ={m1,m2,m3,…,mn}(mi∈Rd),若要將給定的數(shù)據(jù)集分成k個(gè)簇,則隨機(jī)初始化k個(gè)不同的中心點(diǎn)。每個(gè)分組為一個(gè)簇Ci(1 <i <k),每個(gè)簇Ci都有一個(gè)中心Oi,迭代交換兩個(gè)不同的步驟直到收斂。

        改進(jìn)的k-means++算法在選取聚類(lèi)中心時(shí),假定已經(jīng)選取了i 個(gè)中心點(diǎn),在選取第i+1 個(gè)中心點(diǎn)時(shí),選擇距離當(dāng)前中心點(diǎn)Oi盡可能遠(yuǎn)的第i+1 個(gè)中心點(diǎn)Oi+1。在選取第一個(gè)中心點(diǎn)O1時(shí)同樣通過(guò)隨機(jī)初始化的方法。這使得不同的聚類(lèi)中心點(diǎn)分布在相差較遠(yuǎn)的位置,從而降低簇間相似度,使算法收斂速度和聚類(lèi)精度都得到提升[31]。

        k-means++算法步驟如下:

        (1)從樣本U(x)中隨機(jī)選取一個(gè)樣本作為初始聚類(lèi)中心O1;

        (6)重復(fù)步驟(4)和步驟(5)直到聚類(lèi)中心的位置不再變化。

        總地來(lái)說(shuō),k-means++算法是從沒(méi)有標(biāo)注的輸入中抽取信息,找出其中顯著的模式、規(guī)律或集群,以指定的相似度標(biāo)準(zhǔn)將特征形態(tài)相同或近似的樣本劃分在一個(gè)類(lèi)別中,而不相似的樣本劃分在不同的類(lèi)別中。

        3 基于k-means++的硅含量數(shù)據(jù)優(yōu)選法

        硅含量是高爐熱狀態(tài)的表征,而各輸入變量綜合反映高爐熱狀態(tài),相同的爐況會(huì)對(duì)應(yīng)相近的硅含量值波動(dòng)范圍[32]。因此,在鐵水輸入變量沒(méi)有關(guān)聯(lián)的硅含量值時(shí),本文將通過(guò)k-means++算法聚類(lèi),實(shí)現(xiàn)爐況分類(lèi),進(jìn)而關(guān)聯(lián)合適的硅含量值。

        3.1 “k-means++優(yōu)選法”流程

        “k-means++優(yōu)選法”設(shè)計(jì)思路如圖2 所示。輸入變量樣本數(shù)據(jù)集記為U(x)={x1, x2, …, xn},其中xi(1<i<n)為樣本向量,ti表示樣本xi的記錄時(shí)間,硅含量數(shù)據(jù)集為V(y)={y1,y2, …,ym},sj(1<j<m)表示硅含量記錄時(shí)間。當(dāng)ti與sj相差低于一個(gè)樣本周期時(shí),認(rèn)為xi與yj屬于同一樣本周期。

        圖2 “k-means++優(yōu)選法”設(shè)計(jì)思路框圖Fig.2 Flow chart of“k-means++optimal selecting method”

        (1)k-means++聚類(lèi)

        基于k-means++算法聚類(lèi)樣本,以Euclidean Metric 作為距離度量聚類(lèi)樣本,將具有相似特征的樣本聚為一簇,從而區(qū)分不同爐況,具體步驟為:

        ①采用k-means++算法對(duì)樣本聚類(lèi)U={C1,C2,…,Ck};

        ②若某一簇中包含樣本數(shù)目小于總樣本數(shù)的2%,則視為異常樣本(即少量的離群簇),刪除該異常簇,返回步驟①,否則,輸出聚類(lèi)結(jié)果。

        (2)基于連續(xù)時(shí)間段的簇內(nèi)樣本篩選

        由于各簇中的樣本記錄時(shí)間有間斷,為避免聚類(lèi)誤差造成的影響,從中選擇記錄時(shí)間連續(xù)的樣本,作為該簇的代表。因此,對(duì)于每一簇Ci,按如下步驟進(jìn)行處理:

        ①排序簇Ci中所有樣本的記錄時(shí)間,獲得該簇的樣本時(shí)間序列T={t1,t2,…,tn};

        ②將序列T中的記錄時(shí)間劃分為不同的連續(xù)時(shí)間子序列,T={T1,T2,…,Tm},其中,Ti={tl,tl+1,…,tl+p},Ti的持續(xù)時(shí)間記為L(zhǎng)(Ti)=tl+p-tl;

        ④若占比ρ <0.6,縮減持續(xù)時(shí)間標(biāo)準(zhǔn),令α =α - 1 并返回步驟③,否則,將所有持續(xù)時(shí)間小于α的子序列從T 中刪除,并輸出T,T 中記錄時(shí)間所指的樣本即為篩選出的該簇代表樣本。

        (3)計(jì)算各簇對(duì)應(yīng)硅含量值的頻數(shù)直方圖,并確定高頻區(qū)間

        分簇樣本的同時(shí),硅含量也間接地被劃分為不同的類(lèi)別,為了獲取每簇硅含量值的波動(dòng)范圍,繪制硅含量的頻數(shù)分布直方圖,據(jù)此統(tǒng)計(jì)硅含量數(shù)值區(qū)間,將最高頻數(shù)值區(qū)間稱(chēng)之為“高頻區(qū)間”,具體實(shí)現(xiàn)步驟如下:

        ①?gòu)墓韬繑?shù)據(jù)中,篩選出記錄時(shí)間屬于連續(xù)時(shí)間序列T 的硅含量,代表該簇樣本對(duì)應(yīng)的硅含量值,用D(y)表示,D(y)={yi∈V(y)|si∈T};

        ②繪制D(y)的頻數(shù)分布直方圖,統(tǒng)計(jì)其中頻數(shù)最高的數(shù)據(jù)區(qū)間和頻數(shù)次高的數(shù)據(jù)區(qū)間,分別定義為“第一高頻區(qū)間”和“第二高頻區(qū)間”。

        (4)優(yōu)選硅含量值

        以“高頻區(qū)間”作為參考,為每個(gè)樣本選取最優(yōu)硅含量值,即選擇對(duì)應(yīng)時(shí)段內(nèi)屬于或接近其高頻區(qū)間的硅含量值;在遴選過(guò)程中遵循“不在先行周期內(nèi)選擇,不重復(fù)選擇”的原則,即當(dāng)某樣本周期ti內(nèi)硅含量缺失時(shí),僅從后續(xù)樣本周期ti+1內(nèi)選擇填補(bǔ),而該填補(bǔ)值不再作為ti+1樣本周期內(nèi)的候選值。據(jù)此,實(shí)現(xiàn)輸入變量與硅含量的關(guān)聯(lián)與硅含量除噪。硅含量?jī)?yōu)選策略如下。

        將與樣本xi屬于同一樣本周期ti的硅含量yj的數(shù)目,記為a。

        當(dāng)a=0,則選擇ti+1中屬于高頻區(qū)間的yj+1,用于補(bǔ)全缺失;

        當(dāng)a=1,yj與xi關(guān)聯(lián);

        當(dāng)a>1 且存在一個(gè)或多個(gè)yj均屬于高頻區(qū)間,則選擇sj較小的yj與xi關(guān)聯(lián);

        當(dāng)a>1 且yj均不屬于高頻區(qū)間,則選擇更接近該高頻區(qū)間中點(diǎn)的yj值與xi關(guān)聯(lián)。

        3.2 “k-means++優(yōu)選法”的應(yīng)用

        采用“k-means++優(yōu)選法”處理歷史數(shù)據(jù)。選取某鋼鐵廠2650 m3高爐,2017 年10 月1 日0 時(shí)至10月31 日23 時(shí)數(shù)據(jù),樣本周期為1 h,歷史數(shù)據(jù)共有27 個(gè)輸入變量,包括富氧量、鼓風(fēng)動(dòng)能、冷風(fēng)流量、理論燃燒溫度等,歸于整點(diǎn)記錄,共744個(gè)輸入變量樣本和1478個(gè)硅含量樣本。

        (1)聚類(lèi):首先確定聚類(lèi)數(shù)目,簇內(nèi)對(duì)象分散程度越小,簇間的距離越大,聚類(lèi)效果越好[33],但簇?cái)?shù)過(guò)少會(huì)影響聚類(lèi)效果,簇?cái)?shù)過(guò)多將難以區(qū)分類(lèi)別,將樣本聚類(lèi)成k簇,多次實(shí)驗(yàn),計(jì)算其聚類(lèi)結(jié)果的輪廓系數(shù),最終選取輪廓系數(shù)較大的k=5 進(jìn)行聚類(lèi)。對(duì)輸入變量樣本首次聚類(lèi)得到圖3(橫縱坐標(biāo)為多維樣本映射在二維空間中的位置坐標(biāo))所示結(jié)果,顯然存在少量的離群值,通過(guò)反復(fù)剔除離群值和重新聚類(lèi),得到圖4所示的樣本聚類(lèi)結(jié)果。

        圖3 輸入變量首次k-means++聚類(lèi)Fig.3 Clusters of input variables by k-means++for the first time

        圖4 剔除異常簇k-means++聚類(lèi)Fig.4 k-means++results after removing abnormal clusters

        (2)統(tǒng)計(jì)各簇代表時(shí)間段:將聚類(lèi)結(jié)果分別標(biāo)記 為Cluster A、Cluster B、Cluster C、Cluster D 和Cluster E,依次統(tǒng)計(jì)各簇樣本連續(xù)時(shí)間序列,統(tǒng)計(jì)結(jié)果如表2所示。

        表2 各簇統(tǒng)計(jì)數(shù)據(jù)Table 2 Statistics of each cluster

        (3)定位高頻區(qū)間:分析各簇代表時(shí)段內(nèi)的硅含量值,分別繪制頻數(shù)直方圖,如圖5 所示,其中縱坐標(biāo)為頻數(shù),橫坐標(biāo)為硅含量值。各簇的“高頻區(qū)間”依次為([0.536,0.605],[0.467,0.536]),([0.516,0.58],[0.452,0.516]),([0.301,0.342],[0.342,0.383]),([0.49,0.528],[0.414,0.452]),([0.458,0.534],[0.382,0.458])。

        (4)匹配唯一硅含量值:表3所示為各簇樣本周期內(nèi)不同硅含量值數(shù)量在各簇總樣本數(shù)的占比,依照樣本的記錄時(shí)間順序,為其匹配對(duì)應(yīng)硅含量值。

        表3 各簇不同樣本周期內(nèi)硅含量數(shù)量在簇內(nèi)總樣本數(shù)的占比Table 3 Proportion of silicon content of each cluster in different sample periods

        首先確定各樣本所屬的簇,以該簇的“高頻區(qū)間”作為標(biāo)準(zhǔn),遵循“不在先行周期內(nèi)選擇,不重復(fù)選擇”的原則,優(yōu)選每個(gè)樣本對(duì)應(yīng)的硅含量值。經(jīng)統(tǒng)計(jì),在1478 個(gè)硅含量值中,共有731 個(gè)值處于高頻區(qū)間中,為去異常后的735個(gè)樣本匹配硅含量,統(tǒng)計(jì)結(jié)果如表4 所示,由表可知ClusterD 中樣本可完全實(shí)現(xiàn)匹配。

        在歷史數(shù)據(jù)中,往往由于料批的差異導(dǎo)致的數(shù)據(jù)波動(dòng),使某一時(shí)段內(nèi)硅含量均處于區(qū)間外,因此,其余樣本周期內(nèi)硅含量值均不屬于高頻區(qū)間的樣本,則優(yōu)選更接近“高頻區(qū)間”的值。匹配完成后,生成新的數(shù)據(jù)樣本,作為后續(xù)預(yù)測(cè)工作的數(shù)據(jù)集。

        圖5 各簇頻數(shù)直方圖Fig.5 Frequency histogram of each cluster

        表4 各簇高頻區(qū)間內(nèi)硅含量可匹配樣本數(shù)統(tǒng)計(jì)Table 4 Statistics of samples which can be matched by the silicon content in the high-frequency interval

        4 實(shí)驗(yàn)結(jié)果及分析

        本文分別建立基于多層感知器和LSTM 網(wǎng)絡(luò)的深度學(xué)習(xí)預(yù)測(cè)模型。多層感知器是一種經(jīng)典的多隱層全連接前饋神經(jīng)網(wǎng)絡(luò),具有高度的并行性且應(yīng)用廣泛;LSTM 網(wǎng)絡(luò)在近兩年被引入高爐鐵水硅含量預(yù)測(cè)領(lǐng)域,在時(shí)間序列領(lǐng)域有很好的表現(xiàn)。因此,本文采用這兩種方法分別建模以驗(yàn)證所提硅含量數(shù)據(jù)優(yōu)選法的有效性。

        優(yōu)選后的數(shù)據(jù)樣本共735 個(gè),以8∶2 的比例劃分訓(xùn)練集和預(yù)測(cè)集。將訓(xùn)練集作為輸入用于模型訓(xùn)練,預(yù)測(cè)集用于驗(yàn)證模型訓(xùn)練結(jié)果。

        使用訓(xùn)練好的網(wǎng)絡(luò)在預(yù)測(cè)集上生成預(yù)測(cè)結(jié)果,計(jì)算預(yù)測(cè)值與真實(shí)值的均方誤差,并繪制可視化圖形,觀察模型效果。采用均方誤差(MSE)、絕對(duì)誤差在threshold 以?xún)?nèi)(threshold 為0.05%和0.1%)的命中率(HR)、趨勢(shì)準(zhǔn)確率(TAR)作為衡量指標(biāo),即:

        MSE 用于衡量預(yù)測(cè)效果的穩(wěn)定程度;HR 是預(yù)測(cè)誤差的絕對(duì)值在threshold內(nèi)的樣本數(shù)占總樣本數(shù)的比率,衡量預(yù)測(cè)模型的準(zhǔn)確程度;TAR 用于衡量預(yù)測(cè)趨勢(shì)變化的準(zhǔn)確程度,是當(dāng)前值與上一時(shí)刻值的變化在歷史數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)上趨勢(shì)一致的樣本與總樣本數(shù)的比率,共包含三種趨勢(shì),當(dāng)變化量絕對(duì)值小于等于0.03 視為平穩(wěn),變化量大于0.03 視為上升,變化量小于-0.03視為下降。由于數(shù)據(jù)集不同優(yōu)化方式導(dǎo)致數(shù)據(jù)范圍存在差別,趨勢(shì)預(yù)報(bào)準(zhǔn)確率能夠更好地體現(xiàn)不同數(shù)據(jù)的預(yù)測(cè)效果。

        4.1 在多層感知器預(yù)測(cè)模型中的應(yīng)用

        多層感知器也稱(chēng)為深度全連接前饋網(wǎng)絡(luò),是最基本的深度學(xué)習(xí)網(wǎng)絡(luò)。由若干層組成,每一層包含若干個(gè)神經(jīng)元[34],通過(guò)逐層堆疊結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)獲得各層越來(lái)越有意義的表示。神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的非線(xiàn)性映射能力,并且具有收斂速度快,全局優(yōu)化的特點(diǎn)。多層感知器網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

        圖6 多層感知器網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Multi-layer perceptron network structure

        構(gòu)建多層感知器時(shí),Tanh 激活函數(shù)在數(shù)值預(yù)測(cè)上就有很好的表現(xiàn),模型架構(gòu)包括:三個(gè)中間層,每層設(shè)置50 個(gè)隱藏單元;輸出層輸出一個(gè)標(biāo)量,預(yù)測(cè)當(dāng)前的硅含量。在網(wǎng)絡(luò)中以0.5 的比率引入Dropout,防止網(wǎng)絡(luò)過(guò)擬合。

        為驗(yàn)證本方法的有效性,和傳統(tǒng)的均值法進(jìn)行對(duì)比,“k-means 優(yōu)選法”與“均值法”數(shù)據(jù)集在多層感知器預(yù)測(cè)模型下,預(yù)測(cè)結(jié)果如圖7 所示,圖7(a)為“k-means++優(yōu)選法”所得數(shù)據(jù)集,圖7(b)為傳統(tǒng)“均值法”所得數(shù)據(jù)集。對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,如表5所示,由表可知,“k-means++優(yōu)選法”與“均值法”相比,均方差(MSE)下降48.57%,0.05%命中率提升31.77%,0.1%命中率提升11.78%,趨勢(shì)準(zhǔn)確率提升3.61%。

        圖7 多層感知器模型下預(yù)測(cè)值與真實(shí)值對(duì)比Fig.7 Comparison between the prediction and the actual value based on the multi-layer perceptron model

        表5 “k-means++優(yōu)選法”與“均值法”數(shù)據(jù)集在多層感知器預(yù)測(cè)模型下的結(jié)果對(duì)比Table 5 Comparison between the data sets of“kmeans++optimal selection method”and“averaging method”based on the multi-layer perceptron model

        4.2 在LSTM網(wǎng)絡(luò)模型中的應(yīng)用

        循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)算法長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)是深度學(xué)習(xí)處理時(shí)間序列的基礎(chǔ)。高爐鐵水?dāng)?shù)據(jù)是一個(gè)動(dòng)態(tài)的時(shí)間序列,當(dāng)前爐況與歷史爐況相互關(guān)聯(lián),LSTM 網(wǎng)絡(luò)能夠動(dòng)態(tài)記憶歷史信息,在學(xué)習(xí)信息的同時(shí)保持歷史信息留存持久化,這一特性使得LSTM 網(wǎng)絡(luò)在高爐數(shù)據(jù)預(yù)測(cè)上有著天然的優(yōu)勢(shì)[2]。LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。

        圖8 LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 LSTM network structure

        本文依托Keras深度學(xué)習(xí)框架搭建包含50個(gè)神經(jīng)元的LSTM 網(wǎng)絡(luò),其后接一層激活函數(shù)為T(mén)anh 的全連接網(wǎng)絡(luò)用于輸出預(yù)測(cè)結(jié)果。

        圖9 所示為L(zhǎng)STM 模型下的預(yù)測(cè)結(jié)果,其中圖9(a)為傳統(tǒng)“均值法”預(yù)測(cè)結(jié)果,圖9(b)為“k-means++優(yōu)選法”預(yù)測(cè)結(jié)果。由圖可看出“k-means++優(yōu)選法”數(shù)據(jù)集相較于“均值法”,預(yù)測(cè)值命中率更高。

        圖9 LSTM模型下預(yù)測(cè)值與真實(shí)值對(duì)比Fig.9 Comparison between the prediction and the actual value based on the LSTM network structure

        對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,由表6 可知,LSTM 模型中“k-means++優(yōu)選法”數(shù)據(jù)集較“均值法”數(shù)據(jù)集,均方差(MSE)下降59.09%,0.05 命中率提升36.94%,0.1命中率提升15.49%,趨勢(shì)準(zhǔn)確率提升4.56%。

        4.3 結(jié)果分析

        驗(yàn)證結(jié)果表明,采用本文提出的“k-means++優(yōu)選法”解決高爐數(shù)據(jù)的關(guān)聯(lián)問(wèn)題,與傳統(tǒng)均值法相比,在不同的預(yù)測(cè)模型上均降低了均方差,提高了模型的預(yù)測(cè)命中率和趨勢(shì)準(zhǔn)確率,尤其是在誤差容限為0.05 的條件下,對(duì)預(yù)測(cè)效果有較大的改善,體現(xiàn)了該數(shù)據(jù)優(yōu)選方案的有效性。此外,從表5 以及表6的對(duì)比可知,LSTM 預(yù)測(cè)模型的效果優(yōu)于多層感知器預(yù)測(cè)模型。

        表6 “k-means++優(yōu)選法”與“均值法”數(shù)據(jù)集在LSTM預(yù)測(cè)模型下的結(jié)果對(duì)比Table 6 Comparison between the data sets of“kmeans++optimal selection method”and“averaging method”based on the LSTM network structure

        5 結(jié) 論

        本文提出了基于k-means聚類(lèi)算法的數(shù)據(jù)優(yōu)選方法“k-means++優(yōu)選法”,能夠解決歷史數(shù)據(jù)輸入變量與硅含量不關(guān)聯(lián)的困難,減少了噪聲干擾,用于訓(xùn)練模型后可以看出,優(yōu)選數(shù)據(jù)集在多層感知器和LSTM 網(wǎng)絡(luò)中均有更好的表現(xiàn),能夠提高預(yù)測(cè)命中率與趨勢(shì)準(zhǔn)確率,降低均方誤差。

        目前,數(shù)據(jù)優(yōu)選方法尚處于探索階段,還有很大的改進(jìn)空間。從應(yīng)用驗(yàn)證結(jié)果可以看出,“kmeans++優(yōu)選法”數(shù)據(jù)優(yōu)選方法在數(shù)據(jù)匹配方面優(yōu)勢(shì)明顯,但歷史數(shù)據(jù)中,部分輸入變量對(duì)硅含量的影響具有不同程度的滯后,有望通過(guò)分析不同變量的滯后時(shí)間,在聚類(lèi)時(shí)將滯后值作為當(dāng)前的輸入變量,以此減小由時(shí)滯導(dǎo)致的硅含量匹配誤差,進(jìn)一步提高可信度。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        中文乱码字幕高清在线观看 | 男人的天堂中文字幕熟女人妻| 无遮挡h肉动漫在线观看| 精品熟女少妇av免费观看| 亚州毛色毛片免费观看| 亚洲精品国产熟女久久久| 久久久久人妻精品一区二区三区 | 一区二区亚洲精品在线| 极品嫩模高潮叫床| 少妇免费av一区二区三区久久 | 国产精品国产三级国产专播| 一本之道高清无码视频| 亚洲an日韩专区在线| 一区二区国产视频在线| 精品天堂色吊丝一区二区| 国产精一品亚洲二区在线播放| 无码日韩AⅤ一区二区三区| 国产91九色视频在线播放| 亚洲国产精品一区二区久久恐怖片| 私人毛片免费高清影视院| 四虎在线播放免费永久视频| 小草手机视频在线观看| 久久久久久久久无码精品亚洲日韩| 亚洲小说区图片区另类春色| 亚洲AV无码未成人网站久久精品| av免费在线播放一区二区| 国产爆乳无码一区二区麻豆| 国产精品久久婷婷六月丁香| 亚洲欧美国产成人综合不卡| 海外华人在线免费观看| 亚洲精品乱码8久久久久久日本| 97性视频| 亚洲精品中文字幕不卡在线| 亚洲综合精品一区二区| 国产免费又爽又色又粗视频| 97人人超碰国产精品最新o| 国产喷白浆精品一区二区| 国产桃色一区二区三区| 国产精品久久久久久婷婷| 在线观看亚洲精品国产| 精品熟女视频一区二区三区国产 |