摘要:建筑可視化是應(yīng)用該技術(shù)的重要領(lǐng)域。討論功耗異常檢測(cè)方法,試圖找到一種合適的數(shù)據(jù)可視化方法來構(gòu)建HVAC功耗和異常檢測(cè)。與其他建筑物異??梢暬椒ㄏ啾龋琄-Means+Polty異常檢測(cè)可視化方法主要具有以下優(yōu)點(diǎn):(1)可以將室外數(shù)據(jù)與傳感器檢測(cè)到的功率損耗數(shù)據(jù)結(jié)合起來,包括天氣的影響可以被認(rèn)為包括在內(nèi),并獲得更準(zhǔn)確的結(jié)果;(2)所有可視化數(shù)據(jù)都提供了一個(gè)交互式UI,便于建筑物管理員在異常時(shí)刻更快速、方便地查找相關(guān)信息;(3)與帶標(biāo)簽的數(shù)據(jù)采集相比,無標(biāo)簽數(shù)據(jù)的采集難度和采集成本大大降低。
關(guān)鍵詞:建筑可視化;異常檢測(cè);無監(jiān)督學(xué)習(xí);人工智能
中圖分類號(hào):F293 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1001-9138-(2020)09-0064-69 收稿日期:2020-09-07
1 緒論
美國(guó)有73%的用電量和39%的二氧化碳是建筑物排放的,如何減少用電量也是環(huán)境保護(hù)中非常重要的部分。如何減少建筑物的用電量呢?一種方法是減少異常用電量。在許多情況下,異常的發(fā)生將使功耗達(dá)到峰值,但是這樣的功耗并未帶來任何收益。除此之外,通過檢測(cè)電力系統(tǒng)異常并減少電力損耗來解決電力系統(tǒng)問題不會(huì)影響普通用戶的使用。因此,如何檢測(cè)建筑用電異常以及如何幫助建筑經(jīng)理找出異常情況將成為解決此問題的關(guān)鍵。本文將專注于用無監(jiān)督學(xué)習(xí)的方法解決HVAC(供暖、通風(fēng)和空調(diào))部分的電力異常檢測(cè)。盡管建筑物中有許多不同的系統(tǒng),但是HVAC系統(tǒng)占據(jù)了商業(yè)建筑總能耗的30%。更詳細(xì)地講,HVAC消耗5.35萬億Btu,照明設(shè)備需要1.48萬億Btu,包括PC在內(nèi)的辦公設(shè)備需要1.71萬億Btu等。有許多研究集中在如何節(jié)省照明功率上,但實(shí)際上照明僅需1.48萬億Btu。換句話說,HVAC的能耗幾乎是照明的4倍。因此,嘗試減少HVAC的用電量非常有意義,因?yàn)樗巧逃媒ㄖ秒娏康淖畲蟛糠?。異常檢測(cè)和可視化是幫助建筑物管理員節(jié)省HVAC或其他部分耗電方法的有效方法。
異常檢測(cè)(Anomaly detection)也被稱為離群值檢測(cè)(outlier detection)。它是對(duì)不常出現(xiàn)的個(gè)例、事件或觀測(cè)值的識(shí)別,這些數(shù)據(jù)與大多數(shù)據(jù)明顯不同,從而引起人們的關(guān)注。功耗異常檢測(cè)區(qū)域中使用了一些方法:基于預(yù)測(cè)的異常檢測(cè)(prediction-based anomaly Detection)、基于聚類的異常檢測(cè)(clustering-based anomaly detection)、Z分?jǐn)?shù)(z-score)、自回歸模型(Autoregressive Model)、自動(dòng)回歸移動(dòng)平均模型(Auto regressive-moving-average model)、高斯內(nèi)核分布模型(gaussiankernel distribution model)等。隨著機(jī)器學(xué)習(xí)技術(shù)越來越發(fā)達(dá),一些機(jī)器學(xué)習(xí)方法大大改善了異常檢測(cè)的實(shí)施難度和檢測(cè)正確率。根據(jù)數(shù)據(jù)是否帶有標(biāo)簽(在異常檢測(cè)領(lǐng)域,標(biāo)簽表示該數(shù)據(jù)是否已知為異常,未標(biāo)記表示該數(shù)據(jù)不知道其是否為異常),有三種不同類型的異常檢測(cè)技術(shù):一是監(jiān)督學(xué)習(xí)技術(shù)。監(jiān)督技術(shù)基于整個(gè)數(shù)據(jù)(異常數(shù)據(jù)和正常數(shù)據(jù))生成模型。將需要預(yù)測(cè)的數(shù)據(jù)根據(jù)生成的模型計(jì)算出不同類別的概率,并分配給整個(gè)模型中具有最高概率的類別中。二是半監(jiān)督學(xué)習(xí)。半監(jiān)督技術(shù)僅針對(duì)正常數(shù)據(jù)生成模型。它介于監(jiān)督技術(shù)和無監(jiān)督技術(shù)之間。如果需要預(yù)測(cè)的數(shù)據(jù)很好地適合半監(jiān)督模型,則將其分類為正常;否則,將其分類為異常。三是無監(jiān)督技術(shù)。無監(jiān)督技術(shù)不需要帶有任何標(biāo)簽的數(shù)據(jù)。該方法基于以下假設(shè):異常值或異常的發(fā)生概率或頻率比正常數(shù)據(jù)小得多。無監(jiān)督技術(shù)將相似的數(shù)據(jù)劃分為一個(gè)類,并將整個(gè)數(shù)據(jù)集分為多個(gè)類,異常類與其他類相比,數(shù)據(jù)明顯更少。
由于本文研究的是沒有標(biāo)簽的數(shù)據(jù),因此,無監(jiān)督技術(shù)將是最佳選擇。
異?;螂x群值可分為三類:一是點(diǎn)異常:與其他數(shù)據(jù)相比,存在一個(gè)單個(gè)數(shù)據(jù)異常。二是上下文異常:數(shù)據(jù)實(shí)例在上下文中是異常的,例如在冬季,所有HVAC都使用暖氣,但是其中一個(gè)數(shù)據(jù)對(duì)空調(diào)的使用率很高。三是集合異常:當(dāng)嘗試瀏覽整個(gè)數(shù)據(jù)集時(shí),一些相關(guān)數(shù)據(jù)實(shí)例是異常的。這些異常數(shù)據(jù)并不是單個(gè)數(shù)據(jù),而是一個(gè)集合??梢暬蓭椭ㄖ?jīng)理更直接地獲取所需信息。與大量數(shù)字?jǐn)?shù)據(jù)相比,人類更愿意看到可視化的數(shù)據(jù),并且對(duì)可視化的數(shù)據(jù)有更加清晰直觀的理解。
2 相關(guān)工作
2.1 電力消耗異常檢測(cè)
基于預(yù)測(cè)的異常檢測(cè)是電力消耗異常檢測(cè)的一個(gè)優(yōu)秀方法。此方法有一個(gè)前提假設(shè):人們所觀察到的模式應(yīng)該是通用的,并將在未來保留。模型基于現(xiàn)有數(shù)據(jù),并且可預(yù)測(cè)的方法無法根據(jù)未來發(fā)生的改變做出應(yīng)有的調(diào)整。因此,如果將來的數(shù)據(jù)不遵循現(xiàn)有模型發(fā)現(xiàn)的模式,則該模型將無法準(zhǔn)確地預(yù)測(cè)將來的數(shù)據(jù)。
基于聚類的異常檢測(cè)適用于時(shí)間序列數(shù)據(jù),并且僅有少數(shù)數(shù)據(jù)是異常數(shù)據(jù),大多數(shù)時(shí)間的數(shù)據(jù)都是穩(wěn)定且正常的。Z分?jǐn)?shù)會(huì)根據(jù)一個(gè)可靠的標(biāo)準(zhǔn)偏差發(fā)生的頻率來識(shí)別異常。每一個(gè)單一數(shù)據(jù)會(huì)根據(jù)Z分?jǐn)?shù)的算法得到一個(gè)單獨(dú)的Z分?jǐn)?shù)。分?jǐn)?shù)越高表明數(shù)據(jù)異常的可能性越高。
自回歸模型是基于時(shí)間序列數(shù)據(jù)分析中的一種著名方法。這種方法的關(guān)鍵是試圖找到數(shù)據(jù)和過去數(shù)據(jù)之間的關(guān)系,這意味著它們不是獨(dú)立的。例如,AR(2)意味著使用Xt-1和Xt-2預(yù)測(cè)數(shù)據(jù)Xt,以t時(shí)刻為基準(zhǔn),t-1意味著t之前的第一個(gè)時(shí)間節(jié)點(diǎn),t-2意味著t之前的第二個(gè)時(shí)間節(jié)點(diǎn)。
2.2 可視化
可視化可以幫助用戶更簡(jiǎn)便地查看整個(gè)數(shù)據(jù)集并對(duì)整個(gè)數(shù)據(jù)集產(chǎn)生更直觀的認(rèn)識(shí)。在建筑物電源異常檢測(cè)區(qū)域中,可視化被廣泛使用,以幫助建筑物管理員更輕松地獲取有關(guān)建筑物的信息。通過建筑物可視化,建筑物管理員可以通過圖形方式了解數(shù)字?jǐn)?shù)據(jù),從而不僅可以了解到單一的數(shù)據(jù),還可以輕松找到數(shù)據(jù)變化的趨勢(shì)和異常數(shù)據(jù)。由于包括暖通空調(diào)和室外溫度在內(nèi)的數(shù)據(jù)都是基于時(shí)間序列的,因此適用的方法應(yīng)該著重于深入研究構(gòu)建異??梢暬瘏^(qū)域的時(shí)間序列可視化方法。
時(shí)間序列方式有幾種不同的建筑物可視化方法:
一是折線圖(line chart):折線圖是建筑物電源異常檢測(cè)區(qū)域中最常見的可視化方法。在大多數(shù)情況下,x軸顯示數(shù)據(jù)時(shí)間,y軸顯示電力消耗。
二是遞歸模式(Recursive Pattern):用來展示數(shù)據(jù)屬于某個(gè)確定類別的概率,或者使用不同顏色表示將數(shù)據(jù)預(yù)測(cè)到不同的類別。通常,數(shù)據(jù)的顏色越亮,代表其出現(xiàn)的概率越高(在少數(shù)情況下使用相反的顏色)。熱力圖是遞歸模式的一種,本文所使用的可視化方法之一正是熱力圖。
三是螺旋可視化(Spiral visualization):螺旋可視化通常用于可視化周期性數(shù)據(jù)集。在螺旋可視化中,每一輪螺旋用于顯示特定時(shí)間段的數(shù)據(jù),例如每輪一天或每星期一周。螺旋可視化可以更直觀地顯示數(shù)據(jù)的周期性特征。
四是矩形式樹狀圖(Treemapping):矩形式樹狀圖與樹狀圖不同,在樹狀圖中,彼此之間存在根節(jié)點(diǎn)和分支連接,但是在矩形式樹狀圖中,整個(gè)圖形是由數(shù)個(gè)小長(zhǎng)方形組成的一個(gè)矩形。每個(gè)小矩形代表一個(gè)類(class),小矩形的面積越大,意味著相應(yīng)類出現(xiàn)的可能性越大。而且每個(gè)矩形還具有自己獨(dú)特的顏色,以顯示彼此之間的關(guān)系。
3 方法
上文所介紹的電力異常檢測(cè)方法并不適合建筑HVAC功耗異常檢測(cè)。對(duì)于異常檢測(cè),無監(jiān)督技術(shù)K-Means是更為適合的方法之一。對(duì)于基于時(shí)間序列的異常可視化部分,將折線圖和熱力圖相結(jié)合可能會(huì)得到更好的結(jié)果。
3.1 電力消耗異常檢測(cè)
機(jī)器學(xué)習(xí)在數(shù)據(jù)科學(xué)領(lǐng)域非常有幫助。本文的案例研究數(shù)據(jù)都是無標(biāo)簽數(shù)據(jù),因此應(yīng)該選擇一種無監(jiān)督算法來解決此問題。第4章案例研究的主要目標(biāo)是找到異常數(shù)據(jù)。要應(yīng)用無監(jiān)督學(xué)習(xí)算法,有一個(gè)必要的假設(shè):異常數(shù)據(jù)的數(shù)量遠(yuǎn)遠(yuǎn)小于正常數(shù)據(jù)。如果不滿足這一假設(shè)在對(duì)案例數(shù)據(jù)進(jìn)行聚類時(shí)會(huì)出現(xiàn)問題,無法分辨哪一個(gè)聚類是需要找到的異常類。
那么,章節(jié)2.1所提到的方法為什么不適合用于建筑電力異常檢測(cè)呢?自回歸模型的缺陷是:溫度將對(duì)HVAC產(chǎn)生很大影響,如果室外溫度由于氣候變化突然升高或降低,HVAC系統(tǒng)將適應(yīng)室外情況并改變工作狀態(tài)。比如室外溫度突然下降,則供暖的電力消耗將大大增加,自回歸模型將基于最近幾天的數(shù)據(jù)得出異常的結(jié)論。實(shí)際上,HVAC系統(tǒng)照常工作,只是由于室外溫度的變化而使功耗發(fā)生很大變化,而自回歸模型沒有這種能力來找到溫度與HVAC功耗之間的聯(lián)系。Z分?jǐn)?shù)也有這樣的問題,因?yàn)樗谡麄€(gè)數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,而夏季和冬季分別使用不同的系統(tǒng),一種是空調(diào),一種是暖氣,兩者電力消耗量并不相同。如果使用整個(gè)數(shù)據(jù)平均值,將很難檢測(cè)到異常。另一方面,如果為使用空調(diào)和暖氣建立兩個(gè)不同的Z分?jǐn)?shù)模型,來嘗試解決不準(zhǔn)確的平均值問題,那么當(dāng)溫度突然下降,它將給出相當(dāng)高的Z值。
因此,對(duì)于HVAC功耗異常檢測(cè),重要的是找到一種可以將室外溫度和功耗連接在一起以獲得更好精度的方法。這也是為什么要將室外溫度作為變量的原因,而不僅僅是依據(jù)供暖和空調(diào)的電力消耗來建立所要使用的模型。
機(jī)器進(jìn)行無監(jiān)督學(xué)習(xí)方法的優(yōu)勢(shì)是可以利用多維度的數(shù)據(jù)并且不需任何數(shù)據(jù)的標(biāo)簽。而恰恰就是這樣的特性,可以解決室外溫度和電力消耗的直接聯(lián)系關(guān)系,從而更加準(zhǔn)確對(duì)電力消耗異常做出判斷。一旦算法生成模型,新數(shù)據(jù)就可以在模型上驗(yàn)證,系統(tǒng)就可以自動(dòng)將新數(shù)據(jù)直接分類到正常組或異常組。K-均值(K-Means)的關(guān)鍵公式如下:
算法的核心就是嘗試最小化式(1)來為每個(gè)組找到最合適的中心點(diǎn)。xi代表已知數(shù)據(jù)的多維數(shù)據(jù),包括室外溫度、暖氣電力消耗、空調(diào)電力消耗。μj是聚類(cluster)的中心點(diǎn),j的數(shù)量由人為定義,意味著將數(shù)據(jù)集分為j個(gè)族。因此,K-Means聚類的方法就是嘗試找到每一個(gè)最佳的μj,使其組內(nèi)所有數(shù)據(jù)到中心點(diǎn)μj的距離之和最短。
除了傳統(tǒng)的HVAC數(shù)據(jù)外,外部溫度也被視為xi的附加維數(shù),并將其添加到x;以執(zhí)行與HVAC的K-Means聚類。這意味著每個(gè)xi具有5個(gè)維度,分別代表南/西冷氣電力消耗、北/東冷氣電力消耗、南/西熱氣電力消耗、北/東熱氣電力消耗和外部溫度。建筑各房間靜態(tài)冷氣熱氣分布如圖1所示,橘色為南/西部分,綠色為北/東部分,灰色為沒有HVAC房間。
3.2 可視化
本文方法的可視化部分使用了折線圖和熱力圖,并結(jié)合了兩者的優(yōu)點(diǎn)。折線圖用于顯示初始數(shù)據(jù),例如按時(shí)間序列顯示電力消耗或按時(shí)間序列顯示室外溫度。熱力圖將顯示數(shù)據(jù)所屬的最佳類別。熱力圖中的每個(gè)像素代表一個(gè)時(shí)間戳,像素的顏色顯示了該時(shí)間點(diǎn)數(shù)據(jù)所屬的類編號(hào)。
在案例研究中,熱力圖并非對(duì)所有xi都進(jìn)行了可視化,而是在對(duì)所有xi進(jìn)行K-Means聚類之后,每6小時(shí)(0:00、6:00、12:00、18:00)取一次值,然后將取出來的這些值進(jìn)行可視化,在案例研究中聚類族的數(shù)量J等于4a
此外,本文的方法還為建筑物管理員提供了交互式操作。包括對(duì)可視化的數(shù)據(jù)進(jìn)行放大縮小,以及當(dāng)觸摸或移動(dòng)鼠標(biāo)到所需位置時(shí),具體數(shù)據(jù)值的展示。圖2顯示了有關(guān)交互操作的示例。它從圖3中3年的數(shù)據(jù)放大到了一周的數(shù)據(jù),并檢查了2013年7月1日22:00北部和東部的冷氣電力功耗。
4 案例研究
4.1 實(shí)驗(yàn)環(huán)境
Python 3.7.7
Numpy 1.18.1
Pandas 1.0.3
Plotly 4.5.2
Sklearn 0.22.1
4.2 數(shù)據(jù)信息
案例研究數(shù)據(jù)來自Synergy BTC AG,位于伯爾尼Laupenstrasse 20,3008。它是一個(gè)大約有9560平方米、三層樓高的建筑物,位于Industrigebiet的Ostschweiz。整個(gè)建筑有13個(gè)辦公區(qū)域(主要是OpenSpace)、6個(gè)會(huì)議室和5個(gè)外圍區(qū)域。每個(gè)小時(shí),傳感器會(huì)記錄電力消耗的數(shù)據(jù)。
圖1顯示了案例研究數(shù)據(jù)中的HVAC系統(tǒng)。整個(gè)建筑分為兩部分:西/南和東/北。有一些特殊情況,例如S02分為南/西,而S02則更靠近北。北方和南方的照明時(shí)間不同,因此在不同的室內(nèi)溫度下,所需的HVAC功耗將有所不同。HVAC數(shù)據(jù)將對(duì)整個(gè)K-Means的聚類產(chǎn)生一定的影響。
圖3有兩個(gè)子圖。上面的子圖是可視化功耗,下面的子圖顯示了同一時(shí)間的室外溫度。但是,由于使用兩個(gè)子圖片分別進(jìn)行可視化,也帶來了一個(gè)問題:橫坐標(biāo)并不完全一致。在案例研究中,個(gè)別室外溫度數(shù)據(jù)丟失,而兩個(gè)子圖看上去完全正常。
4.3 結(jié)果
在本文的案例研究中,j的數(shù)值被設(shè)置為4。之所以將j設(shè)置為4,是因?yàn)榻ㄖ腍VAC系統(tǒng)主要存在4種情況:(1)室外炎熱,需要空調(diào);(2)室外環(huán)境很好,無需空調(diào)或暖氣;(3)室外寒冷需要暖氣;(4)異常數(shù)據(jù)。
原始的數(shù)據(jù)并不能滿足機(jī)器學(xué)習(xí)的格式,因此必須進(jìn)行規(guī)范化。通過歸一化將幾組不同的數(shù)據(jù)進(jìn)行歸一,使不同的屬性之間擁有相同的權(quán)重,例如室外溫度是兩位數(shù),而電力消耗可能是三位數(shù),這就會(huì)導(dǎo)致電力消耗的權(quán)重遠(yuǎn)遠(yuǎn)大于室外溫度,但是歸一化之后,兩組屬性的最大值被設(shè)為1,大大減小了樣本數(shù)據(jù)屬性之間帶來的權(quán)重變化。對(duì)于K-Means中的其他一些參數(shù),最大迭代數(shù)為10000,重心種子的值設(shè)為10。
圖4顯示了方法獲得的最終結(jié)果,并將結(jié)果可視化。4種不同的類別所顯示的4種不同的顏色,而用黃色表示異常則更容易找到。異常檢測(cè)可視化同樣支持交互操作。每個(gè)數(shù)據(jù)具有x、y、z的三個(gè)屬性,x表示日期,y表示一天中的時(shí)間,z表示數(shù)據(jù)所屬的類。有趣的是,與K-Means發(fā)現(xiàn)的異常點(diǎn)相對(duì)應(yīng)的數(shù)據(jù)對(duì)于人類視覺而言并不那么重要。除此之外,2013年7月1日10點(diǎn)的異常數(shù)據(jù)在熱力圖中并沒有被展示,因?yàn)闊崃D選取的時(shí)間并不包含10點(diǎn),見圖5。
5 總結(jié)
本文不僅關(guān)注異常檢測(cè),同時(shí)還提供了一種優(yōu)秀的可視化方法,并在異常檢測(cè)和可視化之間找到平衡。組合折線圖和熱力圖不僅可以幫助建筑物管理員輕松獲得有關(guān)整個(gè)數(shù)據(jù)的概覽,還可以快速找到異常數(shù)據(jù)信息。
本文的主要結(jié)論如下:(1)使用無監(jiān)督方法K-Means來適應(yīng)功耗異常檢測(cè),從而顯著縮短檢測(cè)時(shí)間。(2)結(jié)合折線圖和熱力圖,以幫助建筑物管理員輕松獲得有關(guān)整個(gè)數(shù)據(jù)的總體概覽,同時(shí)快速找到異常數(shù)據(jù)信息。(3)提供了一種交互式的方法來取得可視化折線圖和熱圖中的數(shù)據(jù)。交互方式可以使建筑管理員更加方便地獲取數(shù)據(jù)的詳細(xì)信息。(4)找到了一種將空調(diào)、暖氣和室外溫度結(jié)合在一起的方法。大多數(shù)傳統(tǒng)方法無法將室外溫度與HVAC系統(tǒng)結(jié)合起來。但是,室外溫度是HVAC功耗和異常檢測(cè)的直接影響因素。
參考文獻(xiàn):
1.Y.Agarwal,S.Hodges,R.Chandra,J.Scott,P.Bahl,and R.Gupta.Somniloquy:Augmenting NetworkInterfaces to Reduce PC Energy Usage.In Proceedings ofUSENIX Symposium on Networked Systems Design andImplementation(NSDI09)USENIX Association Berkeley,CA,USA,2009
2.Mills,Evan.“Building commissioning:a goldenopportunity for reducing energy costs and greenhouse gasemissions in the United States.”Energy Efficiency 4.2 (2011):145-173
3.Goetzler,William,et al.Energy savings potential andRD&D opportunities for commercial building HVAC systems.No.DOE/EE-1703.Navigant Consulting,Burlington,MA(United States),2017
4.Janetzko,Halld or,et al.“ Anomaly detection for visualanalytics of power consumption data.”Computers&Graphics38(2014):27-37
5.Seem,John E."Using intelligent data analysis to detectabnormal energy consumption in buildings.”Energy andbuildings 39.1(2007):52-58
6.Cui,Wenqiang,and Hao Wang.“A new anomalydetection system for school electricity consumption data.”Information 8.4(2017):151
7.Chandola,V.:Banerjee,A.:Kumar,V.Anomalydetection:A survey.ACM Comput.Surv.(CSUR)2009,41,15
8.Chatfield,C.The Analysis of Time Series:AnIntroduction; CRC Press:Boca Raton,F(xiàn)L,USA,2003
9.Oelke,Daniela,et al.“Visual boosting in pixel一basedvisualizations.”Computer Graphics Forum.Vo1.30.No.3.Oxford,UK:Blackwell Publishing Ltd,2011
10.Weber,Marc,Marc Alexa,and Wolfgang M ii Her.“Visualizing time-series on spirals." Infovis.Vol.I.2001
11.Shneiderman,Ben.“Tree visualization with tree-maps:2-d space-filling approach.”ACM Transactions ongraphics(TOG)11.1(1992):92-99
12.jain,Anil K.“Data clustering:50 years beyondK-means.”Pattern recognition letters 31.8(2010):651-666
作者簡(jiǎn)介:趙雪圻,瑞士伯爾尼大學(xué)碩士研究生,研究方向:計(jì)算機(jī)科學(xué)與技術(shù)-人工智能-深度學(xué)習(xí)。