王夢柯 何利力
摘 要:由于制造業(yè)生產(chǎn)數(shù)據(jù)具有較強時段性,相關(guān)工藝蒸汽流量預測方法精確度不高,無法有效節(jié)能降耗。針對該問題,提出基于時間集分割的蒸汽流量預測模型。基于工藝生產(chǎn)情況及原始數(shù)據(jù)的時段性,將日生產(chǎn)工藝流量時間集劃分為工單穩(wěn)定生產(chǎn)時段、工單啟動后/結(jié)束前時段、非工單時段,采用逐點回歸模型預測工單穩(wěn)定生產(chǎn)時段,利用曲線補全模型預測工單啟動后/結(jié)束前時段。非工單時段無生產(chǎn),因此無需進行預測。綜合逐點回歸—曲線補全預測結(jié)果,得出日工藝用蒸汽流量。實例研究表明,相較于傳統(tǒng)未分割時間集的單一預測模型,基于時間集分割的逐點回歸—曲線補全組合預測方法精確度達94%以上?;跁r間集分割的組合模型不僅預測精度高且較穩(wěn)定,可為蒸汽生產(chǎn)與實時調(diào)度提供決策依據(jù)。
關(guān)鍵詞:時段性;時間集劃分;逐點回歸;曲線補全
DOI:10. 11907/rjdk. 191885 開放科學(資源服務(wù))標識碼(OSID):
中圖分類號:TP306文獻標識碼:A 文章編號:1672-7800(2020)005-0088-06
0 引言
一個精確的工藝用流量預測模型對于蒸汽供應(yīng)設(shè)備的調(diào)度優(yōu)化與企業(yè)穩(wěn)定生產(chǎn)具有重大意義。國內(nèi)外現(xiàn)有流量預測方法可分為3類。
(1)基于數(shù)學分析的模型。如鄒伯賢等[1]將自回歸滑動平均模型(Autoregressive?Moving?Average Model,ARMA模型)應(yīng)用到網(wǎng)絡(luò)流量預測中,取得了較好的預測結(jié)果,使網(wǎng)絡(luò)過載預警成為可能;劉艷麗等[2]提出一種改進的ARIMA預測模型,通過優(yōu)化模型識別與參數(shù)調(diào)整提高了交通流量預測精度。
(2)人工智能模型。如吳海姬等[3]采用BP神經(jīng)網(wǎng)絡(luò)建立主蒸汽流量預測模型,但神經(jīng)網(wǎng)絡(luò)存在易陷入局部極小點、預測精度差等缺點;王雷等[4]針對實際生產(chǎn)過程中主蒸汽流量預測,提出一種基于支持向量機(Support Vector Machine,SVM)的主蒸汽流量回歸預測方法,然而該方法計算模型比較復雜,當數(shù)據(jù)規(guī)模較大時,耗時較長;Fu等[5]基于平均影響值和支持向量回歸,提出了一種新的主蒸汽流量預測模型,該方法可有效減少模型維數(shù),提高預測精度。
(3)組合模型。如張維平等[6]提出一種基于粗糙集理論與最小二乘支持向量回歸算法相結(jié)合的主蒸汽流量預測方法,避免了常規(guī)最小二乘支持向量回歸算法根據(jù)經(jīng)驗選取輸入?yún)?shù)的盲目性;Gao等[7]采用小波分析與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法建立小波神經(jīng)網(wǎng)絡(luò)短期交通流預測模型,取得了更好的預測精度與更快的收斂速度;Mouatadid等[8]首次提出復發(fā)長短記憶網(wǎng)絡(luò)與最大重疊離散小波變換及自舉技術(shù)相結(jié)合,并應(yīng)用于農(nóng)業(yè)灌溉流量預測,取得了準確的預測結(jié)果。
現(xiàn)有方法雖然在一定程度上提高了預測性能,但大多數(shù)方法不適用于預測制造企業(yè)生產(chǎn)工藝蒸汽流量,因為實際生產(chǎn)工藝流量數(shù)據(jù)具有較強時段性,若直接采取某種方法進行預測,結(jié)果往往不夠精準。因此本文提出一種逐點回歸——曲線補全的組合預測方法,根據(jù)不同時段數(shù)據(jù)特性和影響因素,先對時間集進行分割,再針對不同時段采用不同的預測方法,以提高預測性能,達到企業(yè)節(jié)能降耗的目的。
1 問題與數(shù)據(jù)描述
本文研究對象為某大型企業(yè)制絲線蒸汽流量預測及供能應(yīng)用。根據(jù)次日計劃工單集合預測工藝用蒸汽流量,預測頻度為5分鐘/次。通過深入剖析工藝蒸汽歷史流量數(shù)據(jù),充分考慮產(chǎn)品、工藝線、時間段等因素對流量的影響,利用最佳數(shù)學方法表示蒸汽變化規(guī)律,最后基于規(guī)律對次日工藝蒸汽流量進行預測。
該廠蒸汽由4臺蒸汽流量輸送大小不同的鍋爐進行供應(yīng),關(guān)于制絲生產(chǎn)工藝蒸汽流量的采集點位有100余個,數(shù)據(jù)采集頻率2次/分。工單數(shù)據(jù)集合[Wm,na][{order_id,t_s,t_e,b,d,a}],其中order_id表示工單編號且唯一,m表示第幾天,na表示工單生產(chǎn)次序,t_s表示工單生產(chǎn)開始時間、t_e表示工單生產(chǎn)結(jié)束時間、b表示生產(chǎn)產(chǎn)品、d表示生產(chǎn)工藝段、a表示生產(chǎn)工藝線。工單數(shù)據(jù)和流量數(shù)據(jù)融合后數(shù)據(jù)集合[o_m={(order_id,t_j,v_j,b,d,a)|][j=1,2,?2880}],其中o_m表示第幾天數(shù)據(jù)集,t_j表示采集時間點,v_j表示流量值。
本文從工藝蒸汽流量數(shù)據(jù)集中選取2018年1月8日至1月12日制絲A線烘絲段蒸汽流量數(shù)據(jù)進行可視化處理,繪制5日內(nèi)蒸汽流量時間曲線圖。
由圖1可以看出,原始日蒸汽流量變化具有顯著的時段性,基本分為3類時段。結(jié)合業(yè)務(wù)調(diào)研及數(shù)據(jù)探索可知,流量處于平穩(wěn)波動狀態(tài)的時段為工單穩(wěn)定生產(chǎn)時刻,工單啟動/結(jié)束時段為穩(wěn)定生產(chǎn)開始前一段時間段與穩(wěn)定生產(chǎn)結(jié)束后一段時間段,非工單時間段即非生產(chǎn)時間段。
2 模型與方法
2.1 基本思路
實驗采用2017年6月1日到2018年12月31日蒸汽工單流量融合數(shù)據(jù)作為預測模型的訓練數(shù)據(jù)集,采用2019年1月7日到1月11日數(shù)據(jù)作為預測的校驗數(shù)據(jù)集,根據(jù)工廠日歷通過數(shù)據(jù)處理將非工作日剔除。
根據(jù)卷煙廠實際調(diào)研情況及大量數(shù)據(jù)可視化分析可知,工單正常生產(chǎn)時間段是蒸汽流量曲線波動較為穩(wěn)定的時間段。在工單穩(wěn)定生產(chǎn)前的一段時間,曲線波動主要處于管道預熱階段,預熱時間長度受生產(chǎn)產(chǎn)品、工藝線、工單次序影響,此外預熱階段蒸汽曲線還可能受人為操作影響;而工單穩(wěn)定生產(chǎn)結(jié)束后的一段時間內(nèi),流量逐漸減少,最后趨于某一個值,為后續(xù)工單生產(chǎn)作準備。
為提高預測精確度,分析基于分割后的時間集數(shù)據(jù)特點,采用相應(yīng)建模方式進行預測,即工單穩(wěn)定生產(chǎn)時段采用逐點回歸模型,工單啟動/結(jié)束時段采用曲線補全模型,非工單時段分為工單間非生產(chǎn)時段和非工單間非生產(chǎn)時段,其中工單間時段流量用前一個工單末尾流量值填充,非工單非生產(chǎn)時段流量用0填充,故無需預測。綜上所述,預測天m時間點t處于的時間集不同,預測工藝蒸汽流量[x(m,t)]采用的預測方法也不同。主要包括工單穩(wěn)定生產(chǎn)時刻蒸汽流量預測逐點回歸方法與工單啟動/結(jié)束蒸汽流量曲線補全方法,則蒸汽流量預測表達式為:
2.2 數(shù)據(jù)預處理
由于數(shù)據(jù)采集環(huán)節(jié)較多,實際收集的數(shù)據(jù)存在多種不連續(xù)、毛刺等問題,在建立預測模型之前需進行相應(yīng)數(shù)據(jù)處理,還原數(shù)據(jù)連續(xù)性和真實性。
壞數(shù)據(jù)出現(xiàn)的位置和時間是未知的,具有很強的隨機性。其表現(xiàn)形式有多種,大致可劃分為3類:①單點空流量,該類壞數(shù)據(jù)主要是因為傳感器出現(xiàn)故障,沒有采集到數(shù)據(jù)或數(shù)據(jù)丟失;②單點毛刺流量,該種壞數(shù)據(jù)在整體數(shù)據(jù)中表現(xiàn)為急劇增大或急劇減小,與相鄰流量有明顯區(qū)分;③局部數(shù)據(jù)連續(xù)出現(xiàn)空流量,其表現(xiàn)為某個時間段內(nèi)整體流量連續(xù)出現(xiàn)空值,與前后時間段內(nèi)的流量曲線走勢明顯不同。
針對以上不同情況,采用不同處理方法處理數(shù)據(jù)。
(1)插值法。本文根據(jù)具體數(shù)據(jù)情況,采用插值法對缺失值進行補全?;舅悸窞椋褐饤l檢查融合集合o_i中每個工單即order_id采集的流量值,如果是空值,則獲取其索引號[hi]及其前一個記錄的索引號[hi-1]和值[ri-1],然后繼續(xù)向后遍歷并保存每個遍歷值索引號,直到獲取后面一個非0的值[rn]及其索引號[hn],計算兩個非0數(shù)據(jù)之間的距離[hn]-[hi],用插值法將缺失的數(shù)據(jù)計算出來。
(2) 閾值法。通過對原始數(shù)據(jù)的可視化分析,可知毛刺數(shù)據(jù)均為單點毛刺且其值與前后點絕對差值均大于0.3t/h。故采用設(shè)置閾值法確定毛刺數(shù)據(jù)出現(xiàn)的位置,然后用插值法進行替換。
2.3 基于工作狀態(tài)的時間集劃分
通過實際業(yè)務(wù)調(diào)研及影響因子相關(guān)研究可知,時間點劃分受產(chǎn)品、工藝線、工單次序、工藝段影響。結(jié)合蒸汽數(shù)據(jù)特點,故提出基于特征點對訓練數(shù)據(jù)集中工藝日用蒸汽流量時間序列進行時間集分割,通過對大量訓練數(shù)據(jù)集中流量曲線特征點進行分類、分析,可標準化預測工單穩(wěn)定時段、工單啟動/結(jié)束時段、非工單時段范圍[9]。特征點指日蒸汽時間序列中對其形態(tài)及整體趨勢變化影響較大的數(shù)據(jù)點。原始數(shù)據(jù)時間序列采集頻率2次/分,故日蒸汽時間序列[Y{yt1,yt2,?yti|i=1,2,?2 880}]的特征點獲取原則如下:
(1)根據(jù)生產(chǎn)計劃表剔除非工單時間段,假設(shè)取生產(chǎn)啟動時間為[t1],生產(chǎn)結(jié)束時間為[tm],故生產(chǎn)時間序列起始點和終止點為n=1或n=m。
具體流程包括:首先,由訓練數(shù)據(jù)集中工單蒸汽流量數(shù)據(jù)分析,可知特征點條件變量[R1]為1.2、[R2]為0.05;然后,遍歷訓練數(shù)據(jù)集,按照同工藝段、工藝線、產(chǎn)品、工單次序進行分類形成新的類別數(shù)據(jù)集[Fwm,na];第三,分別遍歷每一個[Fwm,na](其中[wm,na]表示m這天第na個工單)中的[wm,na],并根據(jù)設(shè)定特征點條件對其[ΔT1]和[ΔT2]進行統(tǒng)計并獲取特征點出現(xiàn)時對應(yīng)的時間點,由統(tǒng)計結(jié)果分析可知同一個數(shù)據(jù)集[Fwm,na]中[ΔT1]和[ΔT2]的值基本穩(wěn)定,故可通過統(tǒng)計結(jié)果標準化同工藝段、工藝線、產(chǎn)品、工單次序的工單啟動后時間段[ΔT1]與工單結(jié)束前時間段[ΔT2];最終把原訓練數(shù)據(jù)集按同產(chǎn)品、工藝段、工藝線、工單次序劃分為穩(wěn)定生產(chǎn)時間段訓練數(shù)據(jù)集[Pwm,na(m,na=1,2?)]、工單啟動后訓練數(shù)據(jù)集[Swm,na(m,na=1,2?)]、工單結(jié)束前訓練數(shù)據(jù)集[Ewm,na(m,na=1,2?)]。以制絲A線烘絲段生產(chǎn)利群(新版)數(shù)據(jù)集[Fwm,1]部分統(tǒng)計結(jié)果為例進行統(tǒng)計說明,如表1所示。
2.4 基于穩(wěn)定生產(chǎn)時段的逐點回歸
逐點回歸基本思路為:首先,依據(jù)已劃分的時間點可獲取每個預測工單用于逐點回歸預測的時間段I,并保存其預測點數(shù)量d,其中I可表示為[I(t0,t1,?td)];再者,從統(tǒng)計[Pwm,na]表中可以獲取每個訓練工單的穩(wěn)定生產(chǎn)時間段J,根據(jù)每個預測工單預測點數(shù)量將其對應(yīng)的訓練數(shù)據(jù)[Pwm,na]中所有訓練工單的穩(wěn)定生產(chǎn)時間段J進行相同數(shù)量點d的的時間片切割,并獲得對應(yīng)的蒸汽流量值。至此每個預測工單與其對應(yīng)的訓練數(shù)據(jù)集中的工單有一致的相對時間點;最后,通過對歷史點位數(shù)據(jù)分析采用適當?shù)念A測方法,逐點建立回歸模型進行預測。本文分別采用均值擬合與時間序列的方法逐點建立工藝用蒸汽流量的預測模型。
時間點切割思路為:因為每個工單開始穩(wěn)定生產(chǎn)時間和結(jié)束穩(wěn)定生產(chǎn)時間及生產(chǎn)時長存在差異,所以需對工單進行相對時間切割,讓每個工單的點均基于工單穩(wěn)定開始時間的相對點位,以此消除時間漂移問題。
2.4.1 均值擬合模型
分別對預測時間段I中每一個點位對應(yīng)的歷史流量數(shù)據(jù)進行可視化分析。以2019年1月7日第一個工單預測時間段I中第一個相對時間點位[t0]對應(yīng)的訓練數(shù)據(jù)集中相對時間點[t0]的流量值為例,進行可視化分析,時間點[t0]蒸汽流量密度—直方如圖3所示。
2.4.2 時間序列模型
時間序列分析是從一段時間上的一組屬性值數(shù)據(jù)中發(fā)現(xiàn)模式并預測未來值的過程。ARMA模型(自回歸滑動平均模型)是最常見用于擬合平穩(wěn)序列的模型,本文某一時刻點對應(yīng)的歷史蒸汽流量數(shù)據(jù)是一組平穩(wěn)的時間序列,故可用ARMA模型逐點進行建模預測[11]。ARMA模型主要有3種基本形式:自回歸模型(AR)、移動平均模型(MA)與混合模型(ARMA)[12]。
對于任一零均值平穩(wěn)時間序列[{x(m,t)}],若[x(m,t)]的取值不僅與其前p步的各個取值[x(m-1,t)],…,[x(m-p,t)]有關(guān),還與前m步的隨機干擾[ε(m-1,t)],…,[ε(m-q,t)](p,q=1,2,…)有關(guān),則可用p階自回歸—p階滑動平均混合時序模型描述該系統(tǒng),記為ARMA(p,q),即參數(shù)p、q的ARMA模型預測方程[13]為:
利用平均絕對誤差度量模型預測誤差,通過計算得到平均絕對誤差為0.014 59。綜上,通過對兩種用于工單穩(wěn)定時段的模型誤差對比分析,可知時間序列模型擬合效果優(yōu)于均值擬合模型,故優(yōu)先采用時間序列模型對工單穩(wěn)定時間段進行逐點預測。
2.5 基于不穩(wěn)定生產(chǎn)時段的曲線補全
工單啟動后/結(jié)束前時間段由于易受外界人為因素影響,致使生產(chǎn)工藝蒸汽流量時間序列形態(tài)較為復雜,故通過一種基于DTW相似度的AP聚類算法獲取預測時間段影響,用典型曲線補全該時間段流量曲線[15-17]。
由劃分時間點階段可獲得融合后的啟動后訓練數(shù)據(jù)集[Swm,na(m,na=1,2,?)]和結(jié)束前訓練數(shù)據(jù)集[Ewm,na(m,][na=1,2?)]。曲線補全基本思想包括:首先,依據(jù)預測工單信息獲取對應(yīng)的訓練數(shù)據(jù)集;然后,通過計算得到訓練樣本兩兩之間的DTW矩陣,將該距離矩陣負值作為相似度矩陣并輸入到AP聚類,得到聚類結(jié)果;最后從樣本數(shù)量最多的類別中選擇時間點與預測曲線時間點基本吻合的曲線作為典型曲線進行補全[18-19]。
2.6 基于生產(chǎn)計劃的滾動預測
滾動預測機制的主要思想是保持數(shù)據(jù)長度不變,滾動地補充新數(shù)據(jù),剔除舊數(shù)據(jù),建立這樣的序列更能反映預測方法有效性[20]。為得到預測日工藝用流量曲線,當滾動輸入預測日工單信息時,需對相應(yīng)的分割數(shù)據(jù)集進行不同新數(shù)據(jù)添加和舊數(shù)據(jù)剔除。
穩(wěn)定時間段滾動預測:若當前預測點從[x(m,t)]變?yōu)閇x(m+1,t)],訓練樣本序列則由原來的[X(x(m-1,t),][x(m-2,t),?x(m-i+1),x(m-i,t))]變成[X(x(m,t),][x(m-1,t),?x(m-i+2),x(m-i+1,t))],相比原來序列增加了[x(m,t)],去掉了[x(m-i+1,t)],進行逐點回歸得到預測值。由此體現(xiàn)出訓練樣本集[Pwm,na(m,na=1,2,?)]、預測樣本與預測結(jié)果的動態(tài)變化,從而實現(xiàn)穩(wěn)定時間集流量滾動預測。
工單啟動/結(jié)束時間段:向相應(yīng)數(shù)據(jù)集中添加新數(shù)據(jù)集,同時將聚類結(jié)果中樣本數(shù)量最少的類別中某個時間序列剔除,從而提高聚類速度,更快獲取對應(yīng)的典型曲線。
3 結(jié)果分析
基于式(3)對上述各分割時間集預測結(jié)果進行拼接,最終獲取預測日完整工藝用流量預測曲線,預測結(jié)果如圖4、圖5所示。
4 結(jié)語
本文針對日工藝用蒸汽流量預測問題,提出了一種基于時間集分割的逐點回歸—曲線補全的組合預測方法,先利用特征點對時間集進行分割,再根據(jù)各時段影響因素采用不同方法進行預測,降低了數(shù)據(jù)時段性對預測結(jié)果的影響。采用基于時間集分割的預測方法可較精準地預測企業(yè)工藝用蒸汽流量,為企業(yè)蒸汽智能供應(yīng)策略優(yōu)化提供一定理論依據(jù)。
參考文獻:
[1] 鄒伯賢, 劉強. ?基于ARMA模型的網(wǎng)絡(luò)流量預測[J]. ?計算機研究與發(fā)展, 2002, 39(12): 1645-1652.
[2] 劉艷麗,趙卓峰,丁維龍,等. 基于高速收費大數(shù)據(jù)的短時交通流量預測方法[J]. 計算機與數(shù)字工程,2019,47(5):1164-1169+1188.
[3] 吳海姬,王雷,司風琪,等. 基于BP神經(jīng)網(wǎng)絡(luò)的主蒸汽流量計算模型[J]. 汽輪機技術(shù),2007(4):269-271+304.
[4] 王雷,張瑞青,肖增弘,等. ?基于SVM的主蒸汽流量回歸估計[J]. 華東電力,2008,36(12):89-92.
[5] FU Z G, MIN F F, YUAN J. Regression forecast of main steam flow based on mean impact value and support vector regression[C]. 2012 Asia-Pacific Power and Energy Engineering Conference,2012: 1-5.
[6] 張維平,趙文蕾,李國強,等. ?基于粗糙集與最小二乘支持向量回歸的汽輪機主蒸汽流量預測[J]. 計量學報,2015,36(1):43-47.
[7] GAO J W, LENG Z W, QIN Y,et al. Short-term traffic flow forecasting model based on wavelet neural network[C]. ?2013 25th Chinese Control and Decision Conference (CCDC), 2013:5081-5084.
[8] MOUTADID S, ADAMOWSKI J F, TIWARI M K,et al. Coupling the maximum overlap discrete wavelet transform and long short-term memory networks for irrigation flow forecasting[J]. Agricultural Water Management, 2019, 219(219):72-85.
[9] 楊艷林,葉楓,呂鑫,等. ?一種基于DTW聚類的水文時間序列相似性挖掘方法[J]. 計算機科學,2016,43(2):245-249.
[10] 崔智泉. 淺談高斯分布的原理和應(yīng)用[J]. 中國校外教育,2018(16):63-64.
[11] 李靜,黃玲花. 《時間序列分析》課程教學改革探索[J]. 廣西師范學院學報(自然科學版), 2017,34(4):147-150.
[12] 黃榮庚,龍靜,潘志剛,等. 基于ARMA模型的地鐵站環(huán)控系統(tǒng)能耗預測[J]. 制冷學報,2019,40(1):88-93.
[13] 謝華為. 基于ARMA平穩(wěn)時間序列的道路交通事故預測[J]. 寧德師范學院學報(自然科學版),2018,30(3):268-272.
[14] 蘇維均,楊飛,崔世杰,等. ?造紙企業(yè)工藝過程能源消耗預測仿真[J]. 計算機仿真,2016,33(8):438-442+447.
[15] 喬美英,劉宇翔,陶慧. 一種基于信息熵和DTW的多維時間序列相似性度量算法[J]. 中山大學學報(自然科學版),2019,58(2):1-8.
[16] GAO Y Y,JIANG B,ZHU Z W,et al. A fault diagnosis method based on DTW[C]. 2006 Chinese Control Conference,2006:1281-1284.
[17] 郭秀娟,陳瑩. AP聚類算法的分析與應(yīng)用[J]. 吉林建筑大學學報,2013,30(4):58-61.
[18] YIN H, YANG S Q, SHAO D M et al. A novel parallel scheme for fast similarity search in large time series[J]. in?China Communications, 2015,12(2):129-140.
[19] 朱紅,丁世飛,許新征. 基于改進屬性約簡的細粒度并行AP聚類算法[J]. 計算機研究與發(fā)展,2012,49(12):2638-2644.
[20] KUSAKCI A O, AYVAZ B. Electrical energy consumption forecasting for Turkey using grey forecasting technics with rolling mechanism[C]. ?2015 2nd International Conference on Knowledge-Based Engineering and Innovation, 2015:8-13.
(責任編輯:江 艷)