王 炎,張海增,胡新華,趙 雋,李 添
(北京華源熱力管網(wǎng)有限公司,北京 100025)
在集中供熱系統(tǒng)中,由于用戶需熱情況復(fù)雜,受熱力站及二次管網(wǎng)系統(tǒng)結(jié)構(gòu)、供暖用戶建筑物結(jié)構(gòu)、保溫情況、用戶用熱習(xí)貫和室外天氣等多重因素影響,傳統(tǒng)的計(jì)算方式多以調(diào)度人員的經(jīng)驗(yàn)和一些計(jì)算公式無法準(zhǔn)確獲得合理熱負(fù)荷預(yù)測值,其估算的調(diào)整結(jié)果容易出現(xiàn)用戶室溫不達(dá)標(biāo)或室溫偏高導(dǎo)致能源浪費(fèi)等情況的發(fā)生[1]。針對上述情況,本文采用了大數(shù)據(jù)模式識別機(jī)器學(xué)習(xí)算法對各供熱參數(shù)進(jìn)行數(shù)據(jù)集合統(tǒng)計(jì)計(jì)算和分析,得出熱力站熱負(fù)荷和影響熱負(fù)荷的各個因素之間的關(guān)系,從而準(zhǔn)確高效地調(diào)節(jié)和控制用戶室溫,在節(jié)能降耗的同時提升供熱舒適度[2]。
實(shí)現(xiàn)大數(shù)據(jù)模式識別機(jī)器學(xué)習(xí)算法對各供熱參數(shù)進(jìn)行數(shù)據(jù)集合計(jì)算,其采集內(nèi)容、采集頻率和采集數(shù)據(jù)質(zhì)量是關(guān)系到整個數(shù)據(jù)模型分析結(jié)果能否可用的關(guān)鍵重要因素。
目前,國內(nèi)的熱力站運(yùn)行數(shù)據(jù),通過SCADA系統(tǒng)、購買專業(yè)地區(qū)氣象臺數(shù)據(jù)、IoT(物聯(lián)網(wǎng))技術(shù)和熱計(jì)量采集系統(tǒng)等方式獲得。采集頻率數(shù)據(jù)采集頻率的設(shè)定,一般考慮如下三個方面的因素;一是SCADA系統(tǒng)的數(shù)據(jù)處理能力的限制;二是受到數(shù)據(jù)上傳鏈路帶寬和性能的限制;其數(shù)據(jù)傳輸時間間隔為不大于5分鐘,三是IoT(物聯(lián)網(wǎng))數(shù)據(jù),包括用戶室內(nèi)溫度和熱計(jì)量數(shù)據(jù),其傳輸頻率一般設(shè)置在10分鐘到30分鐘。天氣預(yù)報一般以小時為最小采集單位。
數(shù)據(jù)采集質(zhì)量的控制,關(guān)系到整個系統(tǒng)能否正常使用,確保數(shù)據(jù)質(zhì)量滿足如下三點(diǎn);一是數(shù)據(jù)采集測點(diǎn)的穩(wěn)定性的控制;二是設(shè)備采集精度的控制;三是對于天氣預(yù)報等數(shù)據(jù),要求數(shù)據(jù)傳輸接口的穩(wěn)定性,必要情況下,可以通過冗余方法提供兩個天氣預(yù)報數(shù)據(jù)源[3]。
實(shí)現(xiàn)大數(shù)據(jù)模式識別機(jī)器學(xué)習(xí)算法對各供熱參數(shù)進(jìn)行數(shù)據(jù)集合計(jì)算,數(shù)據(jù)存儲架構(gòu)是系統(tǒng)進(jìn)行集合計(jì)算的保證。合理有效的數(shù)據(jù)存儲方式關(guān)系到整個系統(tǒng)能否正常的使用。目前,有如下三種存儲方法。
1.2.1 實(shí)時數(shù)據(jù)庫
實(shí)時數(shù)據(jù)庫的出現(xiàn),主要是為了解決當(dāng)時關(guān)系型數(shù)據(jù)庫不太擅長的領(lǐng)域,包括:①海量數(shù)據(jù)的實(shí)時讀寫操作;②大容量數(shù)據(jù)的存儲;③集成了工業(yè)接口的數(shù)據(jù)采集;④集成控制功能,可實(shí)現(xiàn)實(shí)時控制[4]。
1.2.2 關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫,是建立在關(guān)系模型基礎(chǔ)上的,是由關(guān)系數(shù)據(jù)結(jié)構(gòu)、關(guān)系操作集合、關(guān)系完整性約束三部分組成。關(guān)系數(shù)據(jù)庫可以滿足復(fù)雜的查詢,這一點(diǎn)上要優(yōu)于實(shí)時數(shù)據(jù)庫,但是,將關(guān)系數(shù)據(jù)庫應(yīng)用于SCADA系統(tǒng)的時候,其缺點(diǎn)就暴露無疑了,主要表現(xiàn)在其并發(fā)處理速度低,一般為每秒1 000到3 000個讀寫請求;與實(shí)時數(shù)據(jù)庫每秒200百萬級的并發(fā)請求相差甚遠(yuǎn)。
1.2.3 大數(shù)據(jù)
“大數(shù)據(jù)" 通常指的是那些數(shù)量巨大、難于收集、處理、分析的數(shù)據(jù)集[7];其存儲方式和結(jié)構(gòu)與關(guān)系數(shù)據(jù)庫和實(shí)時數(shù)據(jù)庫完全不不同,采用列存儲技術(shù)。其存儲的內(nèi)容為非結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)類型含蓋了關(guān)系數(shù)據(jù)庫所有數(shù)據(jù)類型;其最大的變化是其存儲結(jié)構(gòu)采用分布式結(jié)構(gòu);查詢速度和復(fù)雜度遠(yuǎn)高于關(guān)系數(shù)據(jù)庫。但其也存在一些缺點(diǎn),其有效實(shí)時并發(fā)性能尚未達(dá)到實(shí)時數(shù)據(jù)庫性能,數(shù)據(jù)接口標(biāo)準(zhǔn)處于嚴(yán)重匱乏階段[5]。
以上三種數(shù)據(jù)存儲方式,目前在SCADA系統(tǒng)中都有采用,比較新的理念是,采用實(shí)時數(shù)據(jù)庫和大數(shù)據(jù)的架構(gòu)共同完成對各供熱參數(shù)進(jìn)行數(shù)據(jù)集合分析計(jì)算。
數(shù)據(jù)計(jì)算是實(shí)現(xiàn)大數(shù)據(jù)模式識別機(jī)器學(xué)習(xí)算法的工具,沒有數(shù)據(jù)計(jì)算的基礎(chǔ)理論作保證,其所有數(shù)據(jù)沒有任何實(shí)際意義。因此,有效選擇計(jì)算方法和基礎(chǔ)數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)計(jì)算的根本[7]。
1.3.1 數(shù)據(jù)的辨析
基于大數(shù)據(jù)模式識別機(jī)器學(xué)習(xí)算法的熱力站動態(tài)能耗指標(biāo)預(yù)測模型,首先,要利用相關(guān)性分析原理合理的確定使用那些數(shù)據(jù),在不斷的試錯中找出最為合理和有效的數(shù)據(jù)[8]。
(1)因變量。大數(shù)據(jù)模式識別機(jī)器學(xué)習(xí)算法對各供熱參數(shù)進(jìn)行數(shù)據(jù)集合計(jì)算,首先要求對數(shù)據(jù)采集樣本進(jìn)行有效選擇。其中因變量的選擇是非常關(guān)鍵的,依照一般的思維邏輯,選擇熱力站熱負(fù)荷值(一次或二次)是首選,但在實(shí)際數(shù)據(jù)計(jì)算試錯中,發(fā)現(xiàn)由于熱負(fù)荷值采用了溫度差和流量兩個參量進(jìn)行計(jì)算,其中流量的值容易出現(xiàn)跳躍,造成了因變量計(jì)算結(jié)果的差異。而采用供暖熱力站二次送水溫度作為因變量。具有溫度變化平緩,不會出現(xiàn)跳躍,且其二次送水溫度可以非常近似表示其熱負(fù)荷的變化。
(2)自變量。自變量的選擇,關(guān)系到整個預(yù)測模型的實(shí)際預(yù)測效果和相關(guān)性的程度,其中天氣預(yù)報數(shù)據(jù)的選擇為重點(diǎn)。采用全天24h4個時段的平均天氣預(yù)報溫度、風(fēng)力以及濕度和照度等,可以最大限度減少預(yù)報室外環(huán)境參數(shù)的偏差;其歷史記錄的室外環(huán)境溫度、風(fēng)力、濕度和照度為當(dāng)時的地區(qū)以小時為時間間隔實(shí)際室外環(huán)境參數(shù)。
供熱用戶室內(nèi)溫度,是以各個熱力站對應(yīng)的典型室內(nèi)測量溫度為參考,在測量室內(nèi)環(huán)境溫度時應(yīng)加入偏移量補(bǔ)償措施,使其獲得的室內(nèi)環(huán)境溫度盡可能的準(zhǔn)確。
供熱用戶室內(nèi)環(huán)境溫度的設(shè)置,按照國家供暖規(guī)定,在供暖季,用戶室內(nèi)溫度不得低于18℃,考慮到供熱用戶的舒適度要求,將供暖季室內(nèi)溫度設(shè)置四個時段,分別為上午、下午、夜晚和凌晨;四個時段的用戶室內(nèi)環(huán)境溫度設(shè)定值分別為22℃、20℃、22℃和18℃;考慮到其為典型用戶,實(shí)際應(yīng)用中可能會出現(xiàn)正負(fù)2℃的偏差。
1.3.2 數(shù)據(jù)抽取
數(shù)據(jù)的抽取,關(guān)系到所獲數(shù)據(jù)質(zhì)量是否符合標(biāo)準(zhǔn)的關(guān)鍵節(jié)。
(1)數(shù)據(jù)抽取的環(huán)境。為了保證數(shù)據(jù)抽取的成功和便于下一步的查詢和分析,利用大數(shù)據(jù)架構(gòu),將實(shí)時數(shù)據(jù)庫采集的數(shù)據(jù),通過接口以統(tǒng)一的時間間隔(5 min)將需要進(jìn)行分析計(jì)算的數(shù)據(jù)抽取轉(zhuǎn)儲至大數(shù)據(jù)結(jié)構(gòu)節(jié)點(diǎn)服務(wù)器中存儲。
(2)數(shù)據(jù)抽取原則。將實(shí)時數(shù)據(jù)庫中,各個熱力站的熱負(fù)荷、二次流量、二次送、回水溫度、一、二次壓力、調(diào)整閥門開度、變頻數(shù)據(jù);對應(yīng)地區(qū)的小時天氣預(yù)報中實(shí)時室外環(huán)境溫度、風(fēng)力、照度和濕度,對應(yīng)地區(qū)的次日小時天氣預(yù)報中的室外環(huán)境溫度、風(fēng)力、照度和濕度;各個熱力站對應(yīng)典型供熱用戶室內(nèi)溫度等關(guān)鍵數(shù)據(jù)以時間順序抽取存儲到大數(shù)據(jù)節(jié)點(diǎn)服務(wù)器中。
1.3.3 數(shù)據(jù)清洗
數(shù)據(jù)清洗工作,是對大數(shù)據(jù)計(jì)算分析的數(shù)據(jù)清洗,是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。
(1)將抽取的數(shù)據(jù)依照時間序列進(jìn)行判斷,將系列數(shù)據(jù)任一時間點(diǎn)的數(shù)據(jù)出現(xiàn)缺失、錯誤的數(shù)據(jù)依照其所在的時間段進(jìn)行整段刪除。重點(diǎn)關(guān)注典型室內(nèi)環(huán)境溫度出現(xiàn)異常,熱力站熱負(fù)荷和流量出現(xiàn)嚴(yán)重跳躍,天氣預(yù)報實(shí)時數(shù)據(jù)缺失三種情況;
(2)將抽取的數(shù)據(jù)中不在供暖期間的數(shù)據(jù)和特殊供暖期(出現(xiàn)一次系統(tǒng)供熱故障)的數(shù)據(jù)進(jìn)行整時段刪除。
大數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實(shí)用中,數(shù)據(jù)分析可幫助人們做出判斷,以便采取適當(dāng)行動[9]。
1.4.1 歐式距離
歐幾里得度量(Euclidean metric)(也稱歐氏距離)是一個通常采用的距離定義,指在m維空間中兩個點(diǎn)之間的真實(shí)距離,或者向量的自然長度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。
歐式距離算法公式:
(1)
(1)算法描述。熱力站熱負(fù)荷分析的目的,利用大數(shù)據(jù)節(jié)點(diǎn)服務(wù)器中存儲的已經(jīng)清洗的數(shù)據(jù),將供暖季室內(nèi)溫度設(shè)置四個時段,分別為上午、下午、夜晚和凌晨;四個時段的用戶室內(nèi)環(huán)境溫度設(shè)定值分別為22℃、20℃、22℃和18℃;將時間序列數(shù)據(jù)中各個換熱站的典型室內(nèi)溫度、對應(yīng)該地區(qū)的室外溫度和室外風(fēng)力歷史值作為依據(jù)計(jì)算出其歐氏距離值。由此計(jì)算出依照時間序列生成為歐式距離數(shù)據(jù)集,并取其最小值所對應(yīng)的時間序列[10]。
(2)具體算法公式。
(2)
(3)時間序列數(shù)據(jù)集的選擇。歐式距離數(shù)據(jù)集時間段的選取原則為最少150個供暖日,如果要將雪天和濕度參與計(jì)算,考慮到其樣本數(shù)量在一個供暖季中出現(xiàn)的天數(shù)很少,其分析數(shù)據(jù)集時間段的選擇可以不進(jìn)行限制。
1.4.2 復(fù)相關(guān)系數(shù)
復(fù)相關(guān)系數(shù)是測量一個變量與其他多個變量之間線性相關(guān)程度的指標(biāo)。它不能直接測算,只能采取一定的方法進(jìn)行間接測算,是度量復(fù)相關(guān)程度的指標(biāo)。復(fù)相關(guān)(多重相關(guān))的實(shí)質(zhì)就是Y的實(shí)際觀察值與p個自變量預(yù)測的值的相關(guān)。
熱力站熱負(fù)荷分析和計(jì)算,如果在已清洗的數(shù)據(jù)當(dāng)中能夠檢索到其歐式距離為0的時間序列記錄,就可以直接引用該時間序列對應(yīng)的熱負(fù)荷值作為次日對應(yīng)時段的負(fù)荷預(yù)測值,其算法簡單有效。但是,當(dāng)其最小歐式距離為不為0的時候,就會發(fā)現(xiàn),需要對最新的預(yù)測值進(jìn)行系數(shù)修正,這個系數(shù)如何確定,這就需要用到復(fù)相關(guān)系數(shù)。
可以利用其熱力站熱負(fù)荷與室內(nèi)環(huán)境溫度、室外環(huán)境溫度、室外風(fēng)力的最大復(fù)相關(guān)系數(shù)(一般在0.85-0.99之間);將獲得一定時間段的內(nèi)最大復(fù)復(fù)相關(guān)系數(shù)減去1的絕對值(0.01-0.115)作為修正系數(shù),實(shí)現(xiàn)對熱力站熱負(fù)荷的預(yù)測。
(3)
(4)
(1)算法描述。首先,要求進(jìn)行數(shù)據(jù)的辨析,選擇合理因變量和自變量是保證其算法有效的關(guān)鍵;在1.3.1數(shù)據(jù)的辨析中,已經(jīng)對因變量和自變量的選擇辨析進(jìn)行了詳細(xì)的分析。將二次供水溫度作為因變量,當(dāng)其溫度提高時,其對應(yīng)的室內(nèi)溫度會與室外環(huán)境(溫度、風(fēng)力等)產(chǎn)生一個相關(guān)性,但這種相關(guān)性需要一個延遲時間,通過固定時間步長的迭代計(jì)算復(fù)相關(guān)系數(shù),多長延遲時間后,二次供水溫度的變化與其對應(yīng)的室內(nèi)溫度會與室外環(huán)境(溫度、風(fēng)力等)相關(guān)性最強(qiáng),就將該時刻的最大復(fù)相關(guān)系數(shù)和時間標(biāo)作為的修正系數(shù)和延遲時間[11]。
利用統(tǒng)計(jì)學(xué)中的計(jì)算模型,依照時間序列按照固定時間步長將自變量集迭代導(dǎo)入就可以計(jì)算出時間序列的復(fù)相關(guān)系數(shù)序列;如果其下一個復(fù)相關(guān)數(shù)小于前一個復(fù)相關(guān)系數(shù),就得出了其在此時間序列中的最大復(fù)相關(guān)系統(tǒng),否則該時間系列復(fù)相關(guān)系數(shù)無效。具體算法公式:
(2)具體算法公式。
(5)
(6)
(3)時間數(shù)列歷史時段的選擇。為了保證復(fù)相關(guān)系數(shù)的有效性,通過不斷的試錯和依據(jù)熱力站熱負(fù)荷的實(shí)際,選擇的時間數(shù)據(jù)列為其為歐式距離計(jì)算點(diǎn)對應(yīng)時間標(biāo)前后6個小時,作為復(fù)相關(guān)系數(shù)時間序列數(shù)據(jù)集的計(jì)算分析數(shù)據(jù)源。其時間段過長或過短都對其計(jì)算結(jié)構(gòu)產(chǎn)生一定的影響,如圖1所示。
圖1通過熱力站二次送水溫度,與室內(nèi)環(huán)境溫度,室外環(huán)境溫度、風(fēng)力,計(jì)算出的時間序列復(fù)相關(guān)系數(shù)(R)
Fig.1 Time series complex correlation coefficient(R)calculated by secondary water supply temperature of thermal power station,indoor ambient temperature,outdoor ambient temperature,wind power
(4)熱負(fù)荷預(yù)測算法。
(7)
(5)延遲時間算法。熱力站熱負(fù)荷計(jì)算還存在一個非常關(guān)鍵的問題,遲滯時間Dt;這是供熱行業(yè)一個特有的現(xiàn)象,由于熱力站與供熱用戶由二次熱網(wǎng)管線連接,熱量的輸送需要一定的時間,同時供熱用戶的保溫情況,戶外環(huán)境溫度和風(fēng)力大小,以及雪天和照度對用戶溫度的影響,都會給供熱用戶到熱力站之間熱傳導(dǎo)產(chǎn)生一個動態(tài)的延時。如果能夠通過算法分析將此遲滯時間計(jì)算出結(jié)果。就可以提前一定延時時間對熱力站進(jìn)行調(diào)整,在預(yù)定時間,使其室內(nèi)溫度達(dá)到設(shè)定值,解決了熱力站熱負(fù)荷預(yù)測這一難題。
延遲時間為時間序列相關(guān)性分析數(shù)據(jù)集合,從開始時刻通過迭代計(jì)算得到到其復(fù)相關(guān)系數(shù)最大值時刻的時間差;該時間差的精度與其分析數(shù)據(jù)集的時間間隔密切相關(guān),建議采用不大于10 min的時間間隔進(jìn)行計(jì)算,如圖2所示[12]。
其延遲時間為Dt=90分鐘,其R(lmax)最大值為0.962;K=0.038
預(yù)測熱負(fù)荷Qf=3.67(凌晨0時-8時)。
(6)熱力站熱負(fù)荷預(yù)測的邏輯流程圖如圖3所示。
實(shí)現(xiàn)大數(shù)據(jù)模式識別機(jī)器學(xué)習(xí)算法對各供熱參數(shù)進(jìn)行數(shù)據(jù)集合計(jì)算,是一個無量綱的計(jì)算分析過程,期間除了補(bǔ)水熱負(fù)荷計(jì)算引用了熱力學(xué)計(jì)算公式外,其它的計(jì)算方法完全遵循了統(tǒng)計(jì)學(xué)的基本原理和計(jì)算模型。
1.5.1 數(shù)據(jù)清理在計(jì)算分析中起這舉足輕重的作用
在數(shù)據(jù)采集和數(shù)據(jù)抽取過程中,無效和壞的數(shù)據(jù)隨時都會發(fā)生,建立起一套完整有效數(shù)據(jù)清理方法是非常必要的,需要遵循如下要點(diǎn):
(1)要保證時間順序數(shù)據(jù)類歷史記錄間隔的基本一致性,可以通過數(shù)據(jù)抽取存儲來處理,也可通過時間差值算法進(jìn)行數(shù)據(jù)整理。
(2)要保證時間順序序列數(shù)據(jù)的完整性,一旦有某個數(shù)據(jù)失信,就要自動將整個時間段的序列數(shù)據(jù)排除掉,一般為6個小時或24個小時。
(3)要嚴(yán)格把好數(shù)據(jù)清理關(guān),只存儲供暖季的數(shù)據(jù),對一些容易失效的數(shù)據(jù),可進(jìn)行冗余數(shù)據(jù)處理。
1.5.2 在復(fù)相關(guān)系數(shù)分析計(jì)算中,要注意排錯處理
在利用已經(jīng)清理好的數(shù)據(jù)進(jìn)行分析計(jì)算時,出現(xiàn)錯誤的計(jì)算結(jié)果是無法避免的。所能夠做的,就是將錯誤計(jì)算結(jié)果的數(shù)據(jù)丟棄,選擇另一段數(shù)據(jù)進(jìn)行重新計(jì)算,直到出現(xiàn)最大復(fù)相關(guān)系數(shù)為止。
實(shí)現(xiàn)大數(shù)據(jù)模式識別機(jī)器學(xué)習(xí)算法熱力站熱負(fù)荷進(jìn)行分析計(jì)算,還有很長的路要走,隨著數(shù)據(jù)量的不斷積累和數(shù)據(jù)的深入驗(yàn)證,有可能將雪、日照和濕度等更多的因素加入進(jìn)來進(jìn)行分析和運(yùn)算,同時,也可以對室內(nèi)溫度的采集和計(jì)算方法進(jìn)行不斷的優(yōu)化和完善。該模型算法思想和理論可延伸到一次熱網(wǎng)的運(yùn)行狀態(tài)的預(yù)測和分析當(dāng)中,其遲滯時間的創(chuàng)造性算法對整個熱力行業(yè)具有深遠(yuǎn)的意義,如圖4所示和圖5所示[13]。
本文運(yùn)用大數(shù)據(jù)模式識別機(jī)器學(xué)習(xí)算法建立了熱力站動態(tài)能耗指標(biāo)預(yù)測模型。相比人為手工計(jì)算,機(jī)器學(xué)習(xí)的好處是運(yùn)行速度快,隨著不斷地學(xué)習(xí)和有效樣本的增加,預(yù)測的準(zhǔn)確性也逐步提高,通過對模型的不斷調(diào)整和優(yōu)化為供熱精確調(diào)節(jié)打下了堅(jiān)實(shí)的基礎(chǔ)[14-17]。
本文簡單地選取了6座熱力站近40天熱負(fù)荷作為樣本輸出。而實(shí)際的情況卻更為復(fù)雜。延遲時間受多方面因素影響,每一戶的延遲時間都可能不同??梢钥紤]采用機(jī)器學(xué)習(xí)的方式來學(xué)習(xí)每一個用戶的熱傳導(dǎo)延遲時間,進(jìn)一步提高預(yù)測準(zhǔn)確性[18]。