戴寧芳 譚洪衛(wèi),3
1 同濟(jì)大學(xué)綠色建筑及新能源研究中心
2 同濟(jì)大學(xué)機(jī)械與能源工程學(xué)院
3 聯(lián)合國(guó)環(huán)境規(guī)劃署-同濟(jì)大學(xué)環(huán)境與可持續(xù)發(fā)展學(xué)院
中國(guó)是世界第一大能源消費(fèi)國(guó)[1],建筑能耗占社會(huì)總能耗的比重超過了20%[2-3],其中,公共建筑以不到居住建筑50%的面積占了建筑總能耗的38%[4]。因此,公共建筑節(jié)能潛力巨大。自2007 年來,中國(guó)政府制定和頒布了一系列政策法規(guī)和相應(yīng)技術(shù)導(dǎo)則,開展國(guó)家機(jī)關(guān)辦公建筑和大型公共建筑能耗監(jiān)測(cè)平臺(tái),至今積累了許多分項(xiàng),分類乃至設(shè)備層級(jí)的能耗數(shù)據(jù)。
雖然投入了大量人力和財(cái)力,但由于數(shù)據(jù)在傳輸環(huán)節(jié)容易受到設(shè)備失效、通信中斷等因素的影響,再加上用能規(guī)律也可能發(fā)生異常狀況,導(dǎo)致目前平臺(tái)積累的數(shù)據(jù)質(zhì)量普遍不高。為了獲取高質(zhì)量的數(shù)據(jù),通常需要對(duì)能耗數(shù)據(jù)進(jìn)行異常識(shí)別?,F(xiàn)有的異常數(shù)據(jù)檢測(cè)方法主要分為三種:基于統(tǒng)計(jì)的方法、基于距離的方法、基于密度的方法。
1)基于統(tǒng)計(jì)
如果目標(biāo)數(shù)據(jù)集服從一定的分布(例如Gaussian分布),利用目標(biāo)數(shù)據(jù)集可以估計(jì)出分布模型的參數(shù),通過確定可信區(qū)間就實(shí)現(xiàn)了異常數(shù)據(jù)檢測(cè)。Chen and Wu[5]利用GMM(Gaussian Mixture Model)分離出地球化學(xué)元素調(diào)查數(shù)據(jù)中的異常值。Brown 等[6]定義異常活動(dòng)為消費(fèi)量偏差絕對(duì)值大于3 倍標(biāo)準(zhǔn)差(3σ 法則)。
箱線圖法是另一種基于統(tǒng)計(jì)的方法,它不要求數(shù)據(jù)集服從特定分布,根據(jù)目標(biāo)的上下四分位值就可以確定閾值。Liu 等[7]利用四分位間距來去除變制冷劑流量系統(tǒng)中產(chǎn)生的異常數(shù)據(jù)。
2)基于距離
基于距離的異常檢測(cè)是一種較為常見的方法,如果目標(biāo)數(shù)據(jù)點(diǎn)與其他數(shù)據(jù)點(diǎn)的距離過大,則被判定為異常點(diǎn),這種方法由Knorr[8]率先提出。Li 和Li[9]使用K-means 聚類識(shí)別了風(fēng)電系統(tǒng)中的異常數(shù)據(jù)。Fouzi Harrou[10]將交通擁堵殘差數(shù)據(jù)定義為異常數(shù)據(jù),利用kNN 方法對(duì)殘差數(shù)據(jù)的異常值進(jìn)行檢測(cè)。
3)基于密度
基于密度的方法是從基于距離的方法發(fā)展而來的。DBSCAN 是一種典型的基于密度的聚類算法。Czerniawski 等[11]將其用于建筑點(diǎn)云的劃分。Yuanqiao Wen 等[12]通過DBSCAN 對(duì)船舶AIS 軌跡數(shù)據(jù)中的轉(zhuǎn)折點(diǎn)進(jìn)行聚類,用以獲得轉(zhuǎn)折面積。
另一種典型的基于密度的方法是Breunig 等[13]提出的基于局部離群因子的異常檢測(cè)算法LOF(Local Outlier Factor)。相比起基于全局搜索的DBSCAN,LOF 方法還能適用于存在不同密度的數(shù)據(jù)集群。Dinga 等[14]將LOF 算法用于光伏系統(tǒng)中電流數(shù)據(jù)的異常檢測(cè),并通過擴(kuò)展數(shù)據(jù)集解決了LOF 算法不適應(yīng)小數(shù)據(jù)集的問題。
綜上所述,各種異常識(shí)別方法在許多領(lǐng)域有了成功的應(yīng)用,但在公共建筑能耗領(lǐng)域依舊存在算法的適用性和實(shí)用性問題。因此,本文提出了一種公共建筑能耗異常識(shí)別框架。
異常能耗可以被分為傳輸異常和運(yùn)行異常。本文異常檢測(cè)框架見圖1。
圖1 異常能耗識(shí)別框架
2.1.1 值缺失
缺失值通常發(fā)生在數(shù)據(jù)傳輸部署完畢之前,由于系統(tǒng)未配置完全導(dǎo)致的個(gè)別電表缺少某段時(shí)間的數(shù)據(jù),在數(shù)據(jù)傳輸部署完畢之后也存在少量缺失的情況。缺失值的識(shí)別只需將數(shù)據(jù)按照時(shí)間戳匹配,識(shí)別流程見圖2。
圖2 值缺失識(shí)別流程
2.1.2 電表小數(shù)點(diǎn)跳動(dòng)
對(duì)于個(gè)別電表,用電量數(shù)據(jù)可能存在小數(shù)點(diǎn)位移的現(xiàn)象。在圖3 中,17:00 時(shí)發(fā)生電表小數(shù)點(diǎn)左移,導(dǎo)致積累用電量減小,該小時(shí)用電量為負(fù)值,在22:00 時(shí)積累用電量恢復(fù)正常,該小時(shí)用電量為偏大值,兩個(gè)異常值為同一數(shù)量級(jí),期間的能耗值為正常值。
圖3 小數(shù)點(diǎn)位移異常能耗
提出識(shí)別此類異常流程(圖4)。先以負(fù)值確定是否發(fā)生此類異常,再通過搜索鄰近值內(nèi)同一數(shù)量級(jí)的對(duì)象來獲取另外一個(gè)異常點(diǎn)。
圖4 電表小數(shù)點(diǎn)位移識(shí)別流程
2.1.3 能耗積累
由于通信等原因?qū)е码姳砝鄯e用電量數(shù)據(jù)傳輸中斷,數(shù)據(jù)采集系統(tǒng)通常會(huì)利用前一時(shí)刻的數(shù)據(jù)進(jìn)行填補(bǔ),在這種情況下計(jì)算出的能耗數(shù)據(jù)具備特有規(guī)律,本文稱之為能耗積累。根據(jù)數(shù)據(jù)傳輸中斷時(shí)間不同,分為長(zhǎng)期能耗積累和短期能耗積累。長(zhǎng)期能耗積累是指能耗積累時(shí)間跨度超過2 h 的情況。在圖5(a)中,13:00 時(shí)-16:00 時(shí)發(fā)生了長(zhǎng)期能耗積累,其異常時(shí)間跨度為4 h。13:00 時(shí)為積累頭部,能耗值會(huì)低于正常值;14:00 時(shí)-15:00 時(shí)為積累中部,能耗值為0;16:00時(shí)為積累尾部,能耗值會(huì)大于正常值。短期能耗積累是指積累時(shí)間跨度為2 h 的情況。在圖5(b)中,16:00時(shí)-17:00 時(shí)發(fā)生了短期能耗積累。16:00 時(shí)為積累頭部,能耗低于正常值。17:00 時(shí)為積累尾部,能耗值大于正常值。
圖5 能耗積累
1)長(zhǎng)期積累異常
對(duì)于長(zhǎng)期積累異常,首先根據(jù)其積累中部為零的特點(diǎn)定位可疑數(shù)據(jù)段,再利用K-means 聚類算法判斷積累尾部是否為異常值,最后根據(jù)其是否在網(wǎng)關(guān)層體現(xiàn)出連帶效應(yīng)來判斷結(jié)果是否可信(圖6)。
圖6 長(zhǎng)期積累異常識(shí)別流程
2)短期積累異常
對(duì)于短期積累異常,首先利用K-means 聚類判斷目標(biāo)數(shù)據(jù)是否具備積累尾部特性,再使用相同方法判斷其前1 h 的數(shù)據(jù)是否具備積累頭部特性,最后根據(jù)其是否在網(wǎng)關(guān)層體現(xiàn)出連帶效應(yīng)來判斷結(jié)果是否可信(圖7)。
圖7 短期積累異常識(shí)別流程
除了數(shù)據(jù)傳輸異常,能耗異常里的其他部分都可歸因于建筑運(yùn)行規(guī)律的異常。本節(jié)初步確定了運(yùn)行異常識(shí)別流程。
2.2.1 長(zhǎng)期零值異常
造成長(zhǎng)期零值異常的原因包括設(shè)備的斷電維修、切換備用等。對(duì)于一個(gè)數(shù)值大于零的能耗數(shù)據(jù),如果連續(xù)超過一周能耗為零,該段能耗將被標(biāo)記為可疑能耗,相關(guān)人員應(yīng)去現(xiàn)場(chǎng)尋找原因(圖8)。
圖8 長(zhǎng)期零值異常識(shí)別流程
2.2.2 其他運(yùn)行異常
由于異常發(fā)生時(shí),能耗的變化規(guī)律會(huì)與往常不符,根據(jù)這個(gè)特點(diǎn)可以判斷能耗數(shù)據(jù)是否異常,本文提出了一種基于運(yùn)行規(guī)律變化特點(diǎn)的異常識(shí)別方法。
通過min_max 歸一化消除數(shù)值上的差異并采用箱線圖做異常檢測(cè)(圖9)。對(duì)于工作日,歸一化后的上下限較為緊密,對(duì)異常值的敏感性好;對(duì)于休息日,歸一化后的上下限較大,對(duì)異常值不敏感。
圖9 日能耗運(yùn)行規(guī)律(歸一化后)
圖10 為運(yùn)行異常識(shí)別流程,數(shù)據(jù)集將根據(jù)小時(shí)和日類型劃分為24*2 種,其算法核心目前為min_max箱線圖。
圖10 其他運(yùn)行異常識(shí)別流程
本節(jié)將對(duì)比不同方法,對(duì)運(yùn)行異常識(shí)別部分的算法核心進(jìn)行拓展。同時(shí),針對(duì)不同類型的能耗數(shù)據(jù),給出了推薦算法。
本文選擇了單獨(dú)的3σ,LOF 以及普通箱線圖方法與本文提出的異常識(shí)別框架在不同情景下進(jìn)行異常識(shí)別效果對(duì)比。
3.1.1 數(shù)據(jù)類型一
該類數(shù)據(jù)為全年波動(dòng)較大的能耗,代表辦公建筑的空調(diào)能耗、特殊的照明插座能耗(混入某些與室外氣象相關(guān)的能耗,例如電風(fēng)扇、加熱器)。案例數(shù)據(jù)中最大月與最小月能耗差別34%,存在日類型、小時(shí)差異(圖11)。
圖11 建筑能耗畫像
圖12 為幾種方法的識(shí)別結(jié)果。對(duì)于工作日能耗,基于本框架的異常識(shí)別方法具備明顯優(yōu)勢(shì),在異常率為低于5%時(shí),識(shí)別的正確率可以保持在90%以上,錯(cuò)誤率為2%~3%,對(duì)于10%以上異常情況正確率大幅下降。3σ 效果最差,這說明建筑能耗分布不服從高斯分布。對(duì)于休息日能耗,由于其規(guī)律穩(wěn)定性差,在1%異常率的情況下,本方法的識(shí)別率僅為60%。LOF 算法現(xiàn)出了優(yōu)勢(shì)的一面,單獨(dú)的算法在1%異常率的情況下正確率為80%,錯(cuò)誤率小于1%。原因是由于不穩(wěn)定工作日能耗數(shù)據(jù)集存在多個(gè)數(shù)據(jù)聚集中心,其他方法都是全局搜索型算法,對(duì)多聚集中心數(shù)據(jù)集里的異常值不敏感。而LOF 算法利用局部離群因子,將判斷異常的范圍限定在目標(biāo)值附近,識(shí)別效果會(huì)顯著加強(qiáng)。
圖12 識(shí)別結(jié)果
綜上,對(duì)于該類型數(shù)據(jù),異常識(shí)別框架內(nèi)的算法核心在工作日時(shí)選擇min_max 箱線圖,在休息日時(shí)選擇LOF 算法,可得到最好的效果。
3.1.2 數(shù)據(jù)類型二
該類數(shù)據(jù)為全年波動(dòng)較小的能耗,代表辦公建筑種的照明插座能耗,全年逐月平均工作日能耗逐漸上升說明其用電設(shè)備逐漸增多,具備動(dòng)態(tài)增長(zhǎng)特點(diǎn)。案例數(shù)據(jù)中最大月與最小月能耗差別17%,存在日類型、小時(shí)差異(圖13)。
圖14 為幾種方法的識(shí)別結(jié)果。在工作日,普通箱線圖的效果最好,即便異常率達(dá)到了20%,其正確率依舊在90%,同時(shí)只有少量的識(shí)別錯(cuò)誤數(shù)量。在休息日,普通箱線圖和LOF 方法均有較好的效果,在異常比例小于5%時(shí),正確率都達(dá)到了80%以上。
圖13 建筑能耗畫像
圖14 識(shí)別結(jié)果
綜上,對(duì)于該類型數(shù)據(jù),異常識(shí)別框架內(nèi)的算法核心在工作日時(shí)選擇普通箱線圖,在休息日時(shí)選擇LOF 算法,可得到最好的效果。
根據(jù)上面的結(jié)果,考慮不同的能耗特點(diǎn),總共存在四種選擇方案,匯總?cè)缦拢▓D15)。
圖15 核心算法選擇邏輯
結(jié)合以上的算法選擇邏輯和建筑能耗特點(diǎn),給出不同類型建筑的異常檢測(cè)算法推薦,見表1。
表1 公共建筑異常識(shí)別核心算法推薦
本文提出了一套公共建筑能耗異常檢測(cè)框架。該方法有兩個(gè)主要貢獻(xiàn):一個(gè)是將異常能耗分為數(shù)據(jù)傳輸異常和運(yùn)行異常,根據(jù)數(shù)據(jù)傳輸異常的獨(dú)有特點(diǎn)可以實(shí)現(xiàn)高識(shí)別率和低錯(cuò)誤率,這為運(yùn)行異常識(shí)別提供良好的數(shù)據(jù)環(huán)境。另一個(gè)是采用多種算法的組合,對(duì)不同公共建筑能耗的運(yùn)行異常檢測(cè)提供了不同的算法組合。結(jié)果表明,在異常占比達(dá)到5%時(shí),異常檢測(cè)結(jié)果的正確率在85%以上,錯(cuò)誤率在4%以下。
本文的研究結(jié)果可以很容易地部署在目前的能耗監(jiān)管平臺(tái)上,無需其他額外數(shù)據(jù)的介入。對(duì)于運(yùn)行異常識(shí)別所提供的算法目前只針對(duì)空調(diào)能耗和照明插座能耗的層面,缺少對(duì)于其子分項(xiàng)的適應(yīng)性研究。未來的研究工作將把目標(biāo)放在這些能耗上,實(shí)現(xiàn)更加靈活的異常檢測(cè)算法。