王紅君 白 鵬 趙 輝,2 岳有軍
(1.天津理工大學(xué)天津市復(fù)雜系統(tǒng)控制理論與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300384;2.天津農(nóng)學(xué)院,天津 300384)
鋼鐵企業(yè)高爐煤氣發(fā)生量異常數(shù)據(jù)檢測(cè)
王紅君1白 鵬1趙 輝1,2岳有軍1
(1.天津理工大學(xué)天津市復(fù)雜系統(tǒng)控制理論與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300384;2.天津農(nóng)學(xué)院,天津 300384)
從高爐煤氣生產(chǎn)的實(shí)際工況出發(fā),對(duì)異常數(shù)據(jù)產(chǎn)生的原因和特點(diǎn)進(jìn)行分析。針對(duì)現(xiàn)有異常檢測(cè)方法運(yùn)算效率低下的問(wèn)題,提出一種改進(jìn)的局部異常因子檢測(cè)算法。該算法首先利用五數(shù)總括法剔除掉大量的正常數(shù)據(jù),然后再用一種相對(duì)k距離的比值表示剩余離群點(diǎn)的異常程度,進(jìn)而判斷異常數(shù)據(jù)。仿真實(shí)驗(yàn)表明:改進(jìn)方法檢測(cè)所需的時(shí)間比傳統(tǒng)的局部異常因子方法檢測(cè)所需的時(shí)間更少,且檢測(cè)效果更加準(zhǔn)確、直觀。
高爐煤氣 異常數(shù)據(jù)檢測(cè) 離群值 局部異常因子 數(shù)據(jù)預(yù)處理
高爐煤氣是高爐煉鐵過(guò)程中的重要副產(chǎn)能源,其產(chǎn)量在鋼鐵企業(yè)各類(lèi)副產(chǎn)煤氣中居于首位[1,2]。高爐煤氣經(jīng)過(guò)凈化后可以獨(dú)自作為熱風(fēng)爐的燃料進(jìn)行單燒,也可以作為加熱爐的燃料與其他種類(lèi)煤氣進(jìn)行混燒。合理、高效地利用高爐煤氣,不僅可以節(jié)約能源,還能降低煉鋼成本,對(duì)企業(yè)有著重要的經(jīng)濟(jì)意義?,F(xiàn)今在鋼鐵企業(yè)中廣泛使用的能源管理系統(tǒng)(EMS)可對(duì)高爐煤氣數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控,并能根據(jù)歷史數(shù)據(jù)對(duì)高爐煤氣資源進(jìn)行中長(zhǎng)期預(yù)測(cè)[3]與優(yōu)化調(diào)度[4]。然而,EMS的所有功能都建立在所采集到的煤氣數(shù)據(jù)準(zhǔn)確、真實(shí)的基礎(chǔ)上。否則,混入了大量異常值的煤氣數(shù)據(jù)不僅不能為生產(chǎn)提供可靠的依據(jù),而且還有可能對(duì)煤氣調(diào)度產(chǎn)生誤導(dǎo),造成不必要的經(jīng)濟(jì)損失,甚至是重大安全事故。因此,針對(duì)高爐煤氣生產(chǎn)過(guò)程中的異常數(shù)據(jù),尋求一種有效、便捷的檢測(cè)方法是合理使用煤氣資源的前提。
在國(guó)內(nèi)的一些大型鋼鐵企業(yè)中,對(duì)煤氣能源數(shù)據(jù)的異常檢測(cè)并沒(méi)有成為生產(chǎn)過(guò)程的一個(gè)獨(dú)立環(huán)節(jié),它只作為數(shù)據(jù)采集系統(tǒng)下的一個(gè)子功能。其主要手段還是簡(jiǎn)單地根據(jù)歷史數(shù)據(jù)趨勢(shì)估計(jì)煤氣發(fā)生量數(shù)據(jù)閾值,低于最下限或者高于最上限的數(shù)據(jù)被判斷為異常。但是煤氣數(shù)據(jù)會(huì)隨著高爐冶煉時(shí)發(fā)生停爐、換爐、減風(fēng)及休風(fēng)等各種爐況而出現(xiàn)較大的波動(dòng),僅憑借閾值判斷極易出現(xiàn)漏檢與誤檢的情況,無(wú)法保證其檢測(cè)精度。
在目前的研究中,對(duì)于異常數(shù)據(jù)檢測(cè)的方法主要分為基于統(tǒng)計(jì)預(yù)測(cè)的檢測(cè)方法[5]、基于距離的檢測(cè)方法[6,7]和基于密度的檢測(cè)方法[8]?;诮y(tǒng)計(jì)預(yù)測(cè)的檢測(cè)方法先要假定待檢測(cè)的數(shù)據(jù)屬于某種特定的分布,然后將嚴(yán)重偏離假設(shè)分布的數(shù)值用不一致性檢測(cè)出,并視為異常點(diǎn),但由于數(shù)據(jù)的分布常常不是規(guī)范的,這就使得檢測(cè)結(jié)果有較大的偏差;基于距離的檢測(cè)方法避免了大量的運(yùn)算過(guò)程,而且對(duì)數(shù)據(jù)的分布沒(méi)有要求,檢測(cè)速度快,但是數(shù)據(jù)密度發(fā)生改變時(shí),漏檢率較高;基于密度的檢測(cè)方法是通過(guò)比較被檢測(cè)點(diǎn)與鄰域內(nèi)其他點(diǎn)的密度來(lái)確定是否為異常點(diǎn),該方法可檢測(cè)出鄰域內(nèi)的所有異常值,準(zhǔn)確性很高,但是需要多次查詢(xún)與迭代計(jì)算,算法時(shí)間復(fù)雜度較高[9]。基于以上分析,筆者綜合基于距離檢測(cè)方法的高效性和基于密度檢測(cè)的高準(zhǔn)確性,對(duì)局部異常因子(Local Outlier Factor,LOF)算法進(jìn)行改進(jìn),提出了一種改進(jìn)的局部異常因子方法(Improved Local Outlier Factor,ILOF),并將該方法與普通的LOF算法進(jìn)行比較,驗(yàn)證了改進(jìn)方法的有效性。
造成煤氣發(fā)生量數(shù)據(jù)異常的原因有很多,大致分為兩類(lèi):高爐產(chǎn)氣過(guò)程數(shù)據(jù)異常與采集系統(tǒng)異常。高爐產(chǎn)氣過(guò)程數(shù)據(jù)異常的成因非常復(fù)雜,由于高爐在冶煉過(guò)程中內(nèi)部發(fā)生的氧化還原反應(yīng)多達(dá)上百種[10],因此煤氣的發(fā)生量受到多種因素的影響。在正常情況下,煤氣產(chǎn)量是一種隨機(jī)波動(dòng)的曲線,而在整個(gè)時(shí)間段內(nèi)又表現(xiàn)出很強(qiáng)的類(lèi)周期性。當(dāng)高爐冶煉過(guò)程中發(fā)生懸料、崩料及待料等重大異常工況時(shí),高爐煤氣數(shù)據(jù)可能會(huì)發(fā)生幅值的突變,從而形成異常數(shù)據(jù)點(diǎn)。
采集系統(tǒng)異常又分為傳感器異常與數(shù)據(jù)傳輸異常。高爐煤氣是一種多組分的氣體混合物,可看作是一種多相氣溶膠[11]。在高爐煤氣系統(tǒng)長(zhǎng)期運(yùn)行過(guò)程中,傳感器的某些部件(如流量計(jì)的導(dǎo)壓管)可能會(huì)被高爐煤氣中的顆粒膠質(zhì)堵塞,造成傳感器失靈,產(chǎn)生大量的異常數(shù)據(jù)。另一方面,由于鋼鐵生產(chǎn)處于強(qiáng)電磁環(huán)境中,信號(hào)在傳輸過(guò)程中也會(huì)受到干擾,引起數(shù)據(jù)丟失或畸變,造成異常的發(fā)生。
由異常數(shù)據(jù)產(chǎn)生的工況機(jī)理分析可知,異常數(shù)據(jù)大致分為兩類(lèi):第一類(lèi)主要是由生產(chǎn)過(guò)程中的某些擾動(dòng)或是某些異常工況導(dǎo)致的,其特征是煤氣數(shù)值嚴(yán)重偏離周?chē)c(diǎn),也就是所說(shuō)的離群值;第二類(lèi)是由局部故障而造成的,此類(lèi)情況下采集到的數(shù)據(jù)中會(huì)有連續(xù)的零值點(diǎn)出現(xiàn)。由于后者的情形在正常生產(chǎn)的前提下較少出現(xiàn),故筆者重點(diǎn)研究第一類(lèi)異常數(shù)據(jù)的檢測(cè),即離群點(diǎn)的檢測(cè)。
局部異常因子是異常檢測(cè)中的重要方法,在網(wǎng)絡(luò)攻擊檢測(cè)、氣候異常檢測(cè)等方面有著廣泛應(yīng)用。其主要思想是通過(guò)比較被檢測(cè)數(shù)據(jù)點(diǎn)與周?chē)渌麛?shù)據(jù)點(diǎn)的局部密度來(lái)判定是否為異常點(diǎn)[12]。算法的主要步驟如下:
a. 計(jì)算數(shù)據(jù)對(duì)象p的k距離。對(duì)任意給定的正整數(shù)k,對(duì)象p的k距離被定義為數(shù)據(jù)對(duì)象p與另一個(gè)對(duì)象o之間的歐氏距離,即k-distance(p)。對(duì)于對(duì)象o有這樣的定義——至少有k個(gè)對(duì)象o′∈D{p}使得d(p,o′)≤d(p,o);至多有k-1個(gè)對(duì)象o′∈D{p}使得d(p,o′) b. 計(jì)算對(duì)象p的k距離鄰域Nk-distance。對(duì)象p的k距離鄰域定義為所有與對(duì)象p之間距離不大于k的對(duì)象全體,可表示為Nk-distance={q∈D{p}|d(p,q)≤k-distance(p)},其中q稱(chēng)作p的k最近距離。 c. 計(jì)算p的可達(dá)距離。相對(duì)于對(duì)象o,p的可達(dá)距離定義為Reach-dist(p,o)=max{k-distance(o),d(p,o)}。可達(dá)距離可以理解為數(shù)據(jù)對(duì)象密集化的過(guò)程,即遠(yuǎn)離o的對(duì)象賦予其歐氏距離d(p,o),靠近o的對(duì)象賦予其k距離。 可以看出,局部異常因子的值事實(shí)上就是對(duì)象的局部可達(dá)密度與p的局部可達(dá)密度比率之和的平均值,它反映的是數(shù)據(jù)對(duì)象的局部離群程度,離群特征越明顯,對(duì)應(yīng)的局部異常因子值也就越大。用此原理可判斷出最有可能成為異常點(diǎn)的數(shù)據(jù)。 從上述LOF算法中可以明顯看出:若要檢測(cè)出局部異常點(diǎn),就需要對(duì)每一個(gè)數(shù)據(jù)對(duì)象進(jìn)行可達(dá)距離的計(jì)算,即比較對(duì)象p的k距離和p的鄰域距離,再選出二者中的最大值作為可達(dá)距離。然后,在可達(dá)距離的基礎(chǔ)上進(jìn)行可達(dá)密度的計(jì)算,最終求出每個(gè)數(shù)據(jù)對(duì)象的局部異常因子值。但是由于鋼鐵企業(yè)煤氣數(shù)據(jù)采集系統(tǒng)中數(shù)據(jù)量龐大,計(jì)算可達(dá)距離與可達(dá)密度需要耗費(fèi)大量的時(shí)間。因此,針對(duì)以上LOF算法存在的缺陷,筆者采取了一種改進(jìn)算法:首先利用五數(shù)總括法[13]剔掉大量的非異常數(shù)據(jù),然后利用改進(jìn)的局部異常因子算法來(lái)表征數(shù)據(jù)的異常度。具體的步驟如下: a. 采用五數(shù)總括法進(jìn)行數(shù)據(jù)預(yù)處理,剔除非異常數(shù)據(jù)。將收集到的煤氣數(shù)據(jù)序列從大到小排列,確定出序列的中位數(shù)與最大、最小值。中位數(shù)與最大值、最小值距離的二分之一處(即整個(gè)序列的四分之一處和四分之三處)稱(chēng)為上四分位數(shù)與下四分位數(shù),分別記作FU、FL。上、下四分位數(shù)之差稱(chēng)為四分展布,記作df=FU-FL。將FU+1.5df、FL-1.5df分別定義為數(shù)據(jù)序列的上截?cái)帱c(diǎn)和下截?cái)帱c(diǎn),上、下截?cái)帱c(diǎn)兩端的數(shù)據(jù)通常可被認(rèn)為是疑似的異常數(shù)據(jù),如圖1所示。 b. 將由步驟a分析得到的疑似異常數(shù)據(jù)取出,并計(jì)算疑似異常數(shù)據(jù)的k距離。具體方法與LOF計(jì)算方法一致,只是非異常數(shù)據(jù)不參與計(jì)算。 c. 計(jì)算疑似異常數(shù)據(jù)對(duì)象的k距離鄰域,即不大于k距離的范圍內(nèi)所包含的所有對(duì)象的個(gè)數(shù)。 圖1 五數(shù)總括法預(yù)處理數(shù)據(jù)示意圖 利用步驟e求出的改進(jìn)局部異常因子來(lái)判斷煤氣數(shù)據(jù)是否異常。改進(jìn)局部異常因子值越大,被認(rèn)定為異常數(shù)據(jù)的幾率就越大。而在步驟a中直接去除的大量正常點(diǎn)對(duì)應(yīng)的改進(jìn)局部異常因子值可認(rèn)為是零。 5.1ILOF算法檢測(cè)的準(zhǔn)確性 筆者以國(guó)內(nèi)某鋼鐵企業(yè)的高爐煤氣發(fā)生量數(shù)據(jù)為實(shí)驗(yàn)對(duì)象。為保證實(shí)驗(yàn)的可靠性,隨機(jī)選取其中連續(xù)的1 400個(gè)煤氣數(shù)據(jù)(采樣間隔1min)為實(shí)驗(yàn)樣本,檢測(cè)其中的異常點(diǎn)個(gè)數(shù)。原始數(shù)據(jù)如圖2所示。設(shè)置k距離值為20,通過(guò)比較改進(jìn)算法與普通LOF算法的檢測(cè)效果與所耗費(fèi)的時(shí)間來(lái)說(shuō)明改進(jìn)算法的優(yōu)越性。 圖2 原始數(shù)據(jù) 圖3是在Matlab2010環(huán)境下,利用普通的LOF算法得到的檢測(cè)效果??梢杂^察出得到的局部異常因子值波動(dòng)很頻繁,除檢測(cè)出第106、641、1 336min等幾處較大的異常點(diǎn)外,位于這幾個(gè)異常點(diǎn)之間的多處數(shù)據(jù)也都被檢測(cè)出來(lái)。但由實(shí)際工況可知,在這些時(shí)間段內(nèi)并沒(méi)有異常的生產(chǎn)情況發(fā)生,說(shuō)明這些大多是誤檢數(shù)據(jù)。造成這種結(jié)果是因?yàn)長(zhǎng)OF算法定義異常的方式對(duì)于煤氣數(shù)據(jù)來(lái)說(shuō)過(guò)于敏感。 圖3 LOF算法的異常檢測(cè)效果 改進(jìn)算法的異常點(diǎn)檢測(cè)效果如圖4所示,高爐煤氣中的突變數(shù)據(jù)(如106、614、986、1 336min等處)都能較為準(zhǔn)確地檢測(cè)出,而其他時(shí)刻的改進(jìn)局部異常因子值大都比較穩(wěn)定地集中在1附近,這說(shuō)明這些時(shí)刻的數(shù)據(jù)不是異常點(diǎn),有效地避免了大量誤檢的發(fā)生。通過(guò)實(shí)驗(yàn)得知,檢測(cè)結(jié)果與實(shí)際工況是相吻合的。 圖4 ILOF算法的檢測(cè)效果 5.2ILOF算法檢測(cè)的效率 為定量說(shuō)明改進(jìn)算法的高效性,也為了科學(xué)評(píng)價(jià)改進(jìn)方法的合理性?,F(xiàn)確定k距離為5,分別在數(shù)據(jù)規(guī)模為200、400、600、800、1 000點(diǎn)時(shí),記錄算法的運(yùn)行時(shí)間。并與普通的LOF算法相比較,結(jié)果如圖5所示。從圖中可以看出,隨著數(shù)據(jù)規(guī)模的不斷增加,ILOF算法的運(yùn)行時(shí)間要明顯少于LOF算法的,且數(shù)據(jù)量越大,這種優(yōu)勢(shì)愈加明顯。 圖5 k鄰域距離固定情況下兩種算法的 同理,固定檢測(cè)數(shù)據(jù)個(gè)數(shù)為1 000個(gè),令k距離分別為5、10、15、20、25,觀察在不同的k距離下兩種算法的時(shí)間性能,如圖6所示。從圖中也可以看出:隨著k距離的增加,包含的對(duì)象逐漸增多,但改進(jìn)算法的運(yùn)行時(shí)間還是要少于普通LOF算法的。 圖6 數(shù)據(jù)規(guī)模固定時(shí)兩種算法的運(yùn)行時(shí)間對(duì)比 仿真實(shí)驗(yàn)分別從ILOF檢測(cè)算法的準(zhǔn)確性和高效性?xún)煞矫孀隽朔治鲵?yàn)證,結(jié)果顯示改進(jìn)后的檢測(cè)方法對(duì)真正的離群數(shù)據(jù)可保持較高的敏感性,而對(duì)煤氣生產(chǎn)過(guò)程中正常的波動(dòng)數(shù)值則保持較低的敏感性,這就能有效地分離出高爐因換爐、加料、休風(fēng)及減風(fēng)等環(huán)節(jié)所產(chǎn)生的異常數(shù)據(jù),具有較高的準(zhǔn)確度。實(shí)驗(yàn)還同時(shí)從k距離與數(shù)據(jù)規(guī)模兩個(gè)方面驗(yàn)證了算法的高效性。由于改進(jìn)方法剔除了大量的正常點(diǎn),只檢測(cè)經(jīng)篩選后得到的一小部分疑似的異常值,且省去了可達(dá)距離與可達(dá)密度的查詢(xún)計(jì)算,所以相應(yīng)的運(yùn)算時(shí)間也較普通的LOF算法有了明顯減少。 首先就鋼鐵企業(yè)煤氣發(fā)生量數(shù)據(jù)的異常原因和異常數(shù)據(jù)的特點(diǎn)進(jìn)行了分析,然后在LOF異常檢測(cè)算法基礎(chǔ)上進(jìn)行改進(jìn),用五數(shù)總括法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,初步挑選出可疑的數(shù)據(jù),然后計(jì)算疑似異常數(shù)據(jù)的改進(jìn)局部異常因子,最終確定真正的異常數(shù)據(jù)。該方法不僅可以有效地縮小檢測(cè)的數(shù)據(jù)量,還簡(jiǎn)化了數(shù)據(jù)異常程度的定義,降低了檢測(cè)算法的敏感性,減少了誤檢的發(fā)生。 [1] 沈丁洋. 鋼鐵廠煤氣管網(wǎng)系統(tǒng)的瞬變流分析及模擬[D].昆明:昆明理工大學(xué),2008. [2] 徐振東,楊峻.新型高爐煤氣切圓燃燒的CFD數(shù)值研究[J].化工機(jī)械,2013,40(6):788~791,804. [3] 張琦,谷延良,提威,等.鋼鐵企業(yè)高爐煤氣供需預(yù)測(cè)模型及應(yīng)用[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,31(12):1737~1740. [4] 孔海寧.鋼鐵企業(yè)副產(chǎn)煤氣系統(tǒng)優(yōu)化調(diào)度研究[D].天津:天津大學(xué),2011. [5] 陳立軍,張亞紅,海冉冉.一種新型融合離群點(diǎn)的穩(wěn)態(tài)檢測(cè)方法[J].化工自動(dòng)化及儀表,2013,40(5):582~586. [6] 馬賀賀,胡益,侍洪波.基于馬氏距離局部離群因子方法的復(fù)雜化工過(guò)程故障檢測(cè)[J].化工學(xué)報(bào), 2013,64(5):1674~1682. [7] 楊臻, 張明慧.基于雙倍距離的孤立點(diǎn)檢測(cè)算法研究[J].制造業(yè)自動(dòng)化,2013,35(15):40~42. [8] 楊風(fēng)召,朱揚(yáng)勇,施伯樂(lè).IncLOF:動(dòng)態(tài)環(huán)境下局部異常的增量挖掘算法[J].計(jì)算機(jī)研究與發(fā)展, 2004,41(3):477~484. [9] 薛安榮, 姚林, 鞠時(shí)光,等.離群點(diǎn)挖掘方法綜述[J]. 計(jì)算機(jī)科學(xué), 2008,35(11):13~18. [10] 劉祥官, 曾九孫, 郝志忠, 等.多模型集成的高爐煉鐵智能控制專(zhuān)家系統(tǒng)[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版), 2007,41(10):1637~1642. [11] 曲法泉.從焦?fàn)t煤氣中脫除焦油和萘的氣溶膠[J]. 燃料與化工,1997,28(5):294~297. [12] Breunig M, Kriegel H, Ng R, et al. LOF: Identifying Density-based Local Outliers[C].SIGMOD ′00 Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data.NY, USA:ACM,2000:93~104. [13] 趙成林,張維維,李德剛,等.基于BP神經(jīng)網(wǎng)絡(luò)的VD過(guò)程溫降預(yù)報(bào)模型[J].煉鋼,2010,26(3):47~50. OutliersDetectionofBFGGeneratingDatainIronandSteelIndustry WANG Hong-jun1,BAI Peng1, ZHAO Hui1,2, YUE You-jun1 (1.TianjinKeyLaboratoryforControlTheoryandApplicationinComplicatedSystems,TianjinUniversityofTechnology,Tianjin300384,China; 2.TianjinAgriculturalUniversity,Tianjin300384,China) Starting with actual conditions of blast furnace gas (BFG) generation, both causes and characteristics of outliers in BFG generation data were analyzed; and considering poor operation efficiency of existing methods for the outliers detection, an improved outlier factor detection algorithm was proposed, in which, having the five-number method used to eliminate a large number of normal data and then having the method of relativekdistance’s ratio adopted to express the degree of abnormity of the rest data and then to determine the outlier. The simulation experiment shows that this improved outlier factor algorithm becomes more time-saving and accurate than traditional local outlier factor algorithm. BFG, detection of abnormal data, outliers, local outlier factor, data preprocessing TH865 A 1000-3932(2016)06-0591-05 2016-04-20(修改稿)基金項(xiàng)目:天津市科技支撐計(jì)劃項(xiàng)目(13ZCZDGX03800)4 改進(jìn)的LOF算法
5 仿真結(jié)果與分析
6 結(jié)束語(yǔ)