我國隨著節(jié)能減排工作的推進,碳達峰和碳中和概念的提出,對公共建筑能耗約束和能效等級提出了更高的要求,低碳城區(qū)與綠色建筑的建設(shè)進程將以更快的速度推進。超高層超大型建筑是城市能耗大戶,為了實現(xiàn)低碳目標(biāo),在其建設(shè)與運行過程中,將會使用更多類型的分布式能源,這使得多種能源的調(diào)度與控制,尤其是對于空調(diào)的控制,將成為一大難題。
根據(jù)《2020 年上海市國家機關(guān)辦公建筑和大型公共建筑能耗監(jiān)測及分析報告》,主要類型建筑 2020 年分項用電占比來看,照明與插座用電、空調(diào)用電為主要用電分項,各類型建筑這兩項之和均超過 70%。在超高層超大型建筑中,空調(diào)用電也是主要耗能之一。所以通過預(yù)測供暖空調(diào)負(fù)荷,指導(dǎo)冷熱源的優(yōu)化運行,從而提高空調(diào)運行效率,能夠有效節(jié)約能源、降低運行成本。
本文主要研究如何通過混合多種機器學(xué)習(xí)算法,包括聚類與回歸算法等,提高建筑能耗預(yù)測建模準(zhǔn)確性和有效性,并對能耗預(yù)測的實際應(yīng)用提供幫助。
目前,能耗預(yù)測主要有 2 種方式,即物理模擬和數(shù)據(jù)驅(qū)動。數(shù)據(jù)驅(qū)動建模是本文研究的重點。數(shù)據(jù)驅(qū)動,一般指的是將收集到的建筑數(shù)據(jù)作為輸入,對應(yīng)的歷史能耗數(shù)據(jù)作為輸出,訓(xùn)練得到能耗預(yù)測模型[1]。數(shù)據(jù)驅(qū)動建模的方式主要有回歸模型、時間序列模型、機器學(xué)習(xí)算法模型等[2]。其中,機器學(xué)習(xí)算法在建筑能耗建模的應(yīng)用主要包括支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、決策樹和其他統(tǒng)計算法[3]。如肖冉等[4]提出一種基于支持向量機的辦公建筑逐時能耗預(yù)測方法,并引入了網(wǎng)格搜索方法優(yōu)化模型超參數(shù),體現(xiàn)了建筑的運行波動。楊麗娜等[5]提出一種結(jié)合神經(jīng)網(wǎng)絡(luò)(artificial neural network)和GRU的網(wǎng)絡(luò)模型(ANNGRU)來預(yù)測數(shù)據(jù)中心能耗,具有很高的精度。
除了在不同算法上有各種研究以外,針對不同的建筑類型以及不同的時間粒度也有各類研究。如周芮錦等[6]基于時間序列分析,將建筑逐月能耗的 4 個主要影響因子:逐月積溫值、逐月相對濕度平均值、逐月工作日天數(shù)及逐月非工作日天數(shù)引入建筑能耗預(yù)測模型,對逐月數(shù)據(jù)進行預(yù)測。高英博等[7]利用 LSTM 模型對上海某酒店建筑逐時能耗數(shù)據(jù)進行預(yù)測,并以此為依據(jù)對能耗數(shù)據(jù)進行異常識別。
以上種種在建筑能耗領(lǐng)域目前已得到廣泛的研究,通過結(jié)合建筑運行數(shù)據(jù)和天氣數(shù)據(jù),預(yù)測建筑未來的能耗數(shù)據(jù),有一定的預(yù)測準(zhǔn)確性。但是,許多算法當(dāng)建筑處于運行模式切換時,預(yù)測的準(zhǔn)確性會下降,同時對于不同維度的數(shù)據(jù)需要做多步預(yù)處理和超參設(shè)置,而在超大型建筑中,往往存在不同區(qū)域的空調(diào)設(shè)備運行模式不同,造成了工程化的復(fù)雜性。本文為了解決該問題進行了以下幾個試驗。
隨機森林回歸是一種基于決策樹的集成學(xué)習(xí)算法。其核心思想是一個由多顆隨機生成的決策樹組成的森林,每一個數(shù)據(jù)輸入后,由各個不相關(guān)的決策樹做分類或者回歸,并投票決定該數(shù)據(jù)該如何分類或者回歸。
隨機森林回歸主要用到的決策樹算法是 C A R T (classification and regression tree)算法。單獨的決策樹算法往往會在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在訓(xùn)練數(shù)據(jù)和實際應(yīng)用中效果很差,其由于過擬合的缺點,使得模型不具有普遍性和工程上的應(yīng)用能力。
為了彌補決策樹的不足,隨機森林引入了隨機采樣的概念,即在森林中的決策樹在訓(xùn)練中得到的數(shù)據(jù)都是全局樣本中的一部分,從而避免了過擬合,并且可以通過算法本身進行特征選擇,不需要對數(shù)據(jù)進行規(guī)范化,相比于 SVM、ANN 等算法,工程化更簡單,容易并行化,處理更大量的數(shù)據(jù)。
選取溫度、濕度、是否為工作日以及小時點和相同工作狀態(tài)下前一天同一時間點的能耗值作為輸入變量,該時間點的能耗值作為輸出變量,并對比不同的超參構(gòu)建模型,試驗不同大小和深度的隨機森林對能耗預(yù)測模型的影響。
試驗設(shè)置決策樹深度分別為n=3、5 以及 7,對比不同超參數(shù)下,評估參數(shù)的值。評估參數(shù)選取R2與 mse(均方誤差)。R2是用來評價預(yù)測值與真實值的擬合程度好壞,越接近 1 表示擬合度越高;均方誤差 mse 是預(yù)測值與真實值之差的平方和的平均值,值越小代表預(yù)測值與真實值差距越小。
同時將連續(xù)的能耗數(shù)據(jù)分段截取一部分作為訓(xùn)練數(shù)據(jù),另外一部分作為測試數(shù)據(jù),比例為 7∶3。
評估參數(shù)選取R2與 mse,測試樣本整體R2與 mse 見表 1 。
表1 預(yù)測值與真實值的擬合度及均方誤差
由試驗結(jié)果可知,隨機森林越復(fù)雜,預(yù)測效果越佳。然而,仔細(xì)觀察換季時的預(yù)測準(zhǔn)確性,當(dāng)數(shù)據(jù)處于不同季度之間時,誤差較大。
季度交錯時間段內(nèi)的預(yù)測準(zhǔn)確率明顯下降。當(dāng)決策樹深度為 7 時,取 8 月、9 月數(shù)據(jù)計算R2與 mse 值,分別為 0.898 6 和 2.849 0,與整體相比,下降了 0.065 與 62%,有明顯差距。
考慮原因,不同季度的相同時間段能耗消耗規(guī)律不同,當(dāng)處于同一模型下訓(xùn)練時,隨機森林無法及時分辨不同的空調(diào)運行模式,為此需要引入聚類對不同季度的能耗曲線進行分類和建模。
聚類算法在建筑能耗建模中的應(yīng)用主要指的是時間序列聚類,時間序列聚類在建筑節(jié)能領(lǐng)域的主要應(yīng)用有 3 種:識別時間序列數(shù)據(jù)中的動態(tài)變化、預(yù)測與推薦以及模式識別。在建筑用能建模領(lǐng)域,基于時間序列聚類分析的主要研究有:建筑用能的模式識別、需求側(cè)管理、建筑用能預(yù)測、建筑用能異常數(shù)據(jù)檢測。
K-means 聚類作為最著名的聚類算法之一,在時間序列領(lǐng)域應(yīng)用廣泛。其原理為通過將數(shù)據(jù)分為K個簇中,使得簇內(nèi)的各個數(shù)據(jù)到中心點的距離差平方和最小。在能耗數(shù)據(jù)的聚類中計算距離的方式,在本研究中主要采用歐幾里得距離,K值設(shè)置為 6,理由如下。
(1)空調(diào)用電受季節(jié)因素的影響較大,可以分為過渡季,供熱季,供冷季,同時工作日和節(jié)假日時的空調(diào)運行同樣有很大的區(qū)分。所以,試驗中將K設(shè)置為 6,即(過渡季,供熱季,供冷季)×(工作日,節(jié)假日)。
(2)超大型建筑空調(diào)能耗時序數(shù)據(jù)與空調(diào)設(shè)備的啟停時間有著強相關(guān)性。因此,在計算相似性時需要考慮建筑能耗曲線在相同時間點的實際物理意義,計算各條由 24 個點/d 組成的能耗曲線相互之間相似度,得到每個簇的中心,使得簇心曲線上的每個點有其實際的物理意義,為設(shè)備運行策略優(yōu)化提供統(tǒng)計學(xué)意義上的支撐。
研究中混合了 K-means 和 DBSCAN 2 個聚類算法,對能耗曲線進行清洗以及分類。試驗中,將某電表一整年的小時總能耗數(shù)據(jù)劃分為一個 365×24 的矩陣,以天為單位,一天 24 h 組成一條時間序列曲線;通過混合多種聚類算法清洗數(shù)據(jù),剔除異常曲線;將清洗后數(shù)據(jù)進行二次聚類。聚類結(jié)果如圖1 所示。
圖1 某空調(diào)回路聚類簇中心曲線
從表2 統(tǒng)計結(jié)果可知,表2 的運行結(jié)果與季度相關(guān)性高,而與是否為工作日、節(jié)假日相關(guān)性低。為了能夠更好區(qū)分出空調(diào)運行的能耗規(guī)律,將能耗數(shù)據(jù)按照工作日、節(jié)假日重新聚類,得出結(jié)果如圖2 所示。
表2 各類別天數(shù)所處月份及所處工作日雙休日天數(shù)統(tǒng)計表 單位:d
圖2 某空調(diào)回路工作日、節(jié)假日聚類簇中心曲線
從統(tǒng)計結(jié)果表3,可以發(fā)現(xiàn)每一類簇中心曲線都分別代表了過渡季、制冷季和供熱季在 0:00-6:00 時的非工作時間段以及 6:00-18:00 時的工作時間段上用能規(guī)律。由此可知該空調(diào)在不同季度大致的用能規(guī)律,并以此為根據(jù)對不同季度的能耗數(shù)據(jù)進行分類。
表3 工作日各類別天數(shù)所處月份及所處工作日雙休日天數(shù)統(tǒng)計表 單位:d
混合 K-means 聚類與隨機森林回歸兩種算法,該思想主要針對超大型建筑不同區(qū)域和季節(jié)運行規(guī)律區(qū)別很大,需要針對不同時間段和用能區(qū)域來進行建模的困難,找到不同區(qū)域和時間段建模的理論依據(jù)。
經(jīng)過以上聚類算法對能耗數(shù)據(jù)處理的試驗,可以得知聚類算法能夠?qū)Σ煌径鹊哪芎臄?shù)據(jù)進行分類,并在分類之后可以統(tǒng)計各個分類的所處于的季節(jié)及相關(guān)時間段,從而找到不同區(qū)域的空調(diào)設(shè)備切換啟停時間和運行模式的時間節(jié)點,以此作為劃分預(yù)測模型的分割點,即不同區(qū)域空調(diào)設(shè)備該依據(jù)哪個時間段作為一種運行模式的訓(xùn)練數(shù)據(jù),形成預(yù)測模型,并在一年中不同區(qū)域空調(diào)設(shè)備在不同季節(jié)中何時采用何種預(yù)測模型進行預(yù)測的理論依據(jù)。
首先嘗試對該樓宇不同區(qū)域的空調(diào)設(shè)備能耗進行建模。試驗結(jié)果見表4。
表4 不同區(qū)域的空調(diào)設(shè)備能耗預(yù)測值與真實值的擬合度及均方誤差
由試驗可知,即使設(shè)置相同超參,不同區(qū)域空調(diào)設(shè)備能耗數(shù)據(jù)對隨機森林回歸的性能依然表現(xiàn)良好,具有普適性,且不需要做任何的預(yù)處理。
之后,對某電表一整年的小時總能耗數(shù)據(jù)進行聚類,然后統(tǒng)計其各類曲線在各月分布情況,發(fā)現(xiàn)其空調(diào)運行模式切換主要在工作日 8月底9月初,符合之前試驗準(zhǔn)確率下降的數(shù)據(jù)段范圍。找到時間劃分點后,對不同的空調(diào)運行模式下的能耗建模,即7~8月底,采用一個訓(xùn)練模型,8~9 月采用第二個訓(xùn)練模型,混合模型后得到新的預(yù)測。
具體對應(yīng)月份數(shù)據(jù)(7~9月)預(yù)測效果對比見表 。
表5 隨機森林與混合算法的擬合度及均方誤差對比
可見經(jīng)過多步處理后季節(jié)交換時段的能耗預(yù)測準(zhǔn)確性顯著提高,較之前整體分別提高了 0.05 和 23.5%。
超大型建筑能耗的預(yù)測準(zhǔn)確性的提高對相應(yīng)國家的節(jié)能減排能夠起重要的作用。尤其是換季時期的能耗預(yù)測準(zhǔn)確性的提高能夠幫助業(yè)主及時發(fā)現(xiàn)空調(diào)運行的異常。
本文采用了隨機森林回歸和 K-means 聚類 2 種算法,對超大型建筑的空調(diào)能耗預(yù)測進行了研究。本文主要結(jié)論如下。
(1)隨機森林回歸相較于 SVR、ANN 等算法主要優(yōu)點在于不需要作特別的數(shù)據(jù)預(yù)處理,一樣能得到較高的預(yù)測準(zhǔn)確性,因此具有很好的工程化優(yōu)勢。在面對不同設(shè)備的模型訓(xùn)練時,不需要做任何的超參設(shè)置,預(yù)測性能不受影響。因此,不必為每一個設(shè)備做單獨的算法模型的調(diào)試,能夠極大地發(fā)揮出數(shù)據(jù)驅(qū)動建模時的便利性,并保證預(yù)測準(zhǔn)確性。
(2)同時,與大部分?jǐn)M合算法一樣,無法應(yīng)對換季時期的預(yù)測性能下降的問題,一旦空調(diào)運行規(guī)律改變,將會對預(yù)測的準(zhǔn)確性有很大的負(fù)面影響。
(3)為了能夠讓模型及時相應(yīng)天氣和節(jié)假日造成的空調(diào)運行規(guī)律改變,研究通過對設(shè)備能耗的歷史數(shù)據(jù)進行聚類,對聚類結(jié)果進行統(tǒng)計分析,可以發(fā)現(xiàn)不同季度空調(diào)設(shè)備運行規(guī)律區(qū)分度高,因此可以對不同季度空調(diào)設(shè)備能耗進行分別建模。
(4)在對設(shè)備能耗的歷史數(shù)據(jù)進行聚類,從而合理劃分運行規(guī)律改變的時間點,對不同運行規(guī)律采取不同的模型來進行訓(xùn)練和測試,有效地提高了換季時期整體模型的預(yù)測準(zhǔn)確率。