王守相,劉天宇
(天津大學(xué)智能電網(wǎng)教育部重點實驗室,天津 300072)
計及用電模式的居民負(fù)荷梯度提升樹分類識別方法
王守相,劉天宇
(天津大學(xué)智能電網(wǎng)教育部重點實驗室,天津 300072)
居民負(fù)荷分類與識別是負(fù)荷監(jiān)測與需求側(cè)管理的研究基礎(chǔ)。為了實現(xiàn)居民負(fù)荷用電模式的提取和識別,本文對負(fù)荷公共數(shù)據(jù)集運用主成分分析降維并聚類,提出了一種計及典型用電模式的梯度提升樹負(fù)荷分類識別方法。首先對負(fù)荷公共數(shù)據(jù)集重采樣并獲得各類負(fù)荷能耗特征樣本,歸一化后通過主成分分析法降維得到特征的主成分。再通過改進K均值聚類法獲得各類負(fù)荷的典型用電模式,訓(xùn)練梯度提升樹并進行超參數(shù)優(yōu)化,對測試集負(fù)荷類型進行識別。在公共數(shù)據(jù)集與實測數(shù)據(jù)上測試發(fā)現(xiàn),該方法對于居民負(fù)荷分類識別有良好效果,能夠?qū)崿F(xiàn)對負(fù)荷的分類識別。
公共數(shù)據(jù)集;負(fù)荷用電模式;改進K均值聚類;梯度提升樹
Abstract:Classification and identification for residential load are the basis of load monitoring and demand-side manage?ment.In order to realize the extraction and identification of the load power consumption modes for residents,a gradient boosting decision tree method for load classification and identification,which takes typical power consumption modes into account,is proposed in this paper by using principal component analysis(PCA)to deduce and aggregate the com?mon dataset of load.Firstly,the load data are resampled and the characteristic samples of various types of load energy consumption data are obtained,which are further normalized and reduced by PCA to acquire the principal components.Secondly,by means of improvedK-means clustering method,typical power consumption modes are obtained.More?over,gradient boosting decision tree is trained with super-parameter optimization,and the test set is used to identify dif?ferent types of loads.Through the tests on the common dataset and measured data,it is found that the proposed method has good effect on load classification and identification.
Key words:public dataset;power consumption mode;improvedK-means clustering;gradient boosting decision tree
對負(fù)荷分類與能耗監(jiān)測是進行需求響應(yīng)與節(jié)能降耗的基礎(chǔ)。非侵入式負(fù)荷監(jiān)測于1980年由Hart[1]提出,相比于侵入式負(fù)荷監(jiān)測存在硬件成本高、布線復(fù)雜、維護困難等缺陷,該方法利用在負(fù)荷入口處采集有功功率及無功功率等負(fù)荷特征對電氣設(shè)備進行辨識,實現(xiàn)建筑的負(fù)荷監(jiān)測。1996年Norford等[2]首次將非侵入式負(fù)荷監(jiān)測用于商業(yè)辦公建筑,通過匹配負(fù)荷的啟動功率特征進行識別,主要識別負(fù)荷為供水泵、鼓風(fēng)機、制冷設(shè)備等。
近年來,國內(nèi)外研究者更關(guān)注家庭用戶的負(fù)荷監(jiān)測方法,而居民負(fù)荷的電氣特性和參數(shù)是進行負(fù)荷監(jiān)測的基礎(chǔ),居民用戶側(cè)的負(fù)荷能耗多數(shù)來自于居民電器的消耗。文獻[3]應(yīng)用了配電系統(tǒng)中的高級計量基礎(chǔ)設(shè)施實現(xiàn)負(fù)載監(jiān)控,在智能電表級別完成分布式計算的負(fù)荷分解。文獻[4]提出了居民負(fù)荷的分解特征(即有功、無功、諧波含量、沖擊有無、相數(shù)),運用聚類的方法給出了常見居民負(fù)荷各特征的變化范圍,并對負(fù)荷起停事件進行了分類。文獻[5]給出了在用于目前智能電表限制下的非侵入性負(fù)荷監(jiān)測住宅樓宇電器識別領(lǐng)域應(yīng)用時間多標(biāo)簽分類方法的新穎嘗試。文獻[6]提出了一種基于半監(jiān)督機器學(xué)習(xí)和小波分析的新型非侵入式負(fù)荷監(jiān)測方法,設(shè)計新的小波后采用兩個機器學(xué)習(xí)分類器共同訓(xùn)練,從而自動化學(xué)習(xí)負(fù)載模式。文獻[7]運用改進的電流波形作為負(fù)荷功率簽名,使用功率理論將電流波形分解為活動電流和非活動電流,可以實現(xiàn)更好的負(fù)載分解。文獻[8]綜述了智能電表中使用的負(fù)荷分解技術(shù),將家庭負(fù)荷的特征分為暫態(tài)和穩(wěn)態(tài)。
居民電器的負(fù)荷特性不僅表現(xiàn)在其電氣特性,也與用戶使用習(xí)慣有關(guān)。文獻[9]在基于無監(jiān)督學(xué)習(xí)的異常用電模式檢測模型當(dāng)中,對用戶的用電曲線經(jīng)過聚類分析形成時間序列,將多個用戶用電模式的用能信息通過主成分分析PCA(principal com?ponent analysis)降維,計算用電模式的離群度尋找異常。文獻[10]首先通過對負(fù)荷曲線進行聚類分析得到每類用戶的特征曲線,然后進行異常用電模式分解。文獻[11]將非侵入式電力負(fù)荷監(jiān)測問題轉(zhuǎn)化為隱馬爾可夫模型的解碼問題,應(yīng)用改進Viterbi算法求解用電設(shè)備個數(shù)或狀態(tài)數(shù)較多情況下的用電設(shè)備狀態(tài)。
通過負(fù)荷能耗信息,可以分析居民負(fù)荷的運行情況與典型用電模式,從而進行分類識別[12]。本文基于公共數(shù)據(jù)集包含的負(fù)荷運行數(shù)據(jù)與部分實測數(shù)據(jù),經(jīng)過重采樣統(tǒng)一數(shù)據(jù)頻率,經(jīng)主成分分析降低數(shù)據(jù)維度,再運用改進K均值聚類獲取代表用戶典型使用習(xí)慣的負(fù)荷用電模式,進一步研究使用梯度提升樹超參數(shù)優(yōu)化實現(xiàn)不同負(fù)荷用能信息的分類識別。最后,本文通過測試集數(shù)據(jù)驗證了基于負(fù)荷用電模式和梯度提升樹超參數(shù)優(yōu)化的居民負(fù)荷分類識別的可行性。
國外的研究人員已經(jīng)開始公開發(fā)布電力負(fù)荷數(shù)據(jù)集,通過這些公共數(shù)據(jù)集可以進行用電負(fù)荷特征的提取。根據(jù)收集的11項,共計超過40 GB的公共負(fù)荷數(shù)據(jù)集包括能源分解參考數(shù)據(jù)集REDD(reference energy disaggregation dataset)[13]、建筑能源分解全標(biāo)記數(shù)據(jù)集BLUED(building level fully la?beled dataset for electricity disaggregation)[14]等。REDD包含了6個美國家庭的真實家庭負(fù)荷以及每個負(fù)荷獨立回路的監(jiān)測數(shù)據(jù),監(jiān)測的周期在幾周到幾個月之間。采樣的周期分為高頻和低頻兩類,高頻采樣頻率為kHz,低頻采樣周期為3~4 s,具體監(jiān)測指標(biāo)包括線路的電壓和兩相電源的電流。高頻率(kHz)電流和電壓數(shù)據(jù)均可用于電源電路,而低頻功率測量(3~4 s的間隔)可用于具體電器負(fù)荷電路。
依據(jù)包含多種用電設(shè)備的負(fù)荷公共數(shù)據(jù)集,通過負(fù)荷分類與電能信息96點重采樣,獲得單一類型負(fù)荷多日能耗信息數(shù)據(jù),形成多類型負(fù)荷能耗特征樣本。對各類負(fù)荷尋找輪廓系數(shù)最大的聚類情況,從而確定各負(fù)荷用電模式特征,形成負(fù)荷用電模式特征空間。由于負(fù)荷用電模式特征之間和多類型負(fù)荷能耗特征數(shù)據(jù)之間存在一定關(guān)聯(lián),使用PCA對特征數(shù)據(jù)進行降維,篩選保留方差貢獻率居前的主成分。依據(jù)降維后的負(fù)荷用電模式特征,結(jié)合超參數(shù)優(yōu)化后的梯度提升樹將測試集負(fù)荷進行分類,實現(xiàn)對測試負(fù)荷的識別與分類。
負(fù)荷暫態(tài)特征與穩(wěn)態(tài)特征直接體現(xiàn)了負(fù)荷本身電氣特性,但僅就照明類負(fù)荷中LED光源來看,由于其發(fā)光原理存在技術(shù)性差異,暫穩(wěn)態(tài)特征中包含的電氣特性差異使其難以歸為一類負(fù)荷。而負(fù)荷日能耗信息,即負(fù)荷實際使用中日能耗特性,由用戶使用時間、使用時長、使用模式?jīng)Q定,是伴隨季節(jié)、氣溫、光照、節(jié)假日、用戶使用習(xí)慣等有規(guī)律變化的時間序列信息。通過對各負(fù)荷日能耗特征進行聚類分析,便可得到每類負(fù)荷的典型日用電曲線,即負(fù)荷典型用電模式。
公共數(shù)據(jù)集數(shù)據(jù)中具有負(fù)荷類別標(biāo)簽,根據(jù)已有類別標(biāo)簽負(fù)荷的多日能耗信息,建立模型學(xué)習(xí)用負(fù)荷典型用電模式,就可實現(xiàn)對未知負(fù)荷樣本的分類識別。
經(jīng)過重采樣的能耗信息數(shù)據(jù)仍然維度較高,因此需要通過PCA實現(xiàn)降維,尋找低維樣本數(shù)據(jù),使其所含特征方差貢獻率接近原始信息。由于同一類型負(fù)荷存在耗能水平差異,因此首先定義能耗特征空間X為
對X進行歸一化處理后得
式中:X為能耗特征空間;Xmin、Xmax分別為由能耗特征空間中最小值、最大值填充的與X維度相同的矩陣;Xscaled為歸一化處理后的能耗特征空間;Xstd為能耗特征空間歸一化的輔助量;xmin、xmax分別為能耗特征空間一列中的最小值和最大值;xij為第i個負(fù)荷的第j項指標(biāo)數(shù)值;n為負(fù)荷樣本數(shù)量;e為指標(biāo)維度。
wi為歸一化后的第i個樣本的平均值,其計算公式為
式中,xscaled,it為歸一化后的能耗特征空間第i行的第t個樣本。
計算歸一化能耗特征空間的離散度矩陣Q為
式中:Q為離散度矩陣;Xscaled,t為歸一化后的能耗特征空間第t行樣本;W為由wi構(gòu)成的歸一化后樣本平均值向量。
由式(5)可計算得到其e個特征值λ1≤λ2≤…≤λe。特征值的累積方差貢獻率為
式中:T為累積方差貢獻率;λt為主成分t對應(yīng)的特征值;a為累積貢獻率超過90%時的能耗指標(biāo)數(shù)量。
選擇累積貢獻率超過90%的能耗指標(biāo)為主成分,除去無關(guān)成分,從而實現(xiàn)對能耗特征空間的降維。K均值聚類算法流程是首先隨機確定c個樣本作為各簇的聚類中心(u1,u2,…,uc),使用歐式距離測定相似度后決定其他樣本的簇標(biāo)簽yi,再使用樣本均值更新聚類中心,最后以誤差平方和作為聚類收斂準(zhǔn)則。計算方法為
式中:xi為第i個樣本;yi為xi對應(yīng)的簇標(biāo)簽;μy為簇y的聚類中心;ny為簇y中的樣本數(shù);c為簇的數(shù)量。
對歸一化后的數(shù)據(jù)進行改進K均值聚類的流程是首先對K均值聚類算法進行超參數(shù)優(yōu)化,使K值從2至樣本數(shù)變化分別進行K均值聚類;然后針對各K值下的聚類結(jié)果,計算輪廓系數(shù),選擇輪廓系數(shù)最大的聚類結(jié)果。聚類輪廓系數(shù)[15]計算公式為
其中
式中:si為聚類i中輪廓系數(shù);di,j為樣本i、j之間的距離;nc為聚類c中樣本數(shù);Cc為聚類c的集合;np為聚類p中樣本數(shù);Cp為聚類p的集合;若樣本i聚為c類,ai為樣本i和同屬c類的其他所有樣本之間的平均距離;bi為樣本i和非c類的各個類中所有樣本的平均距離的最小值。
輪廓系數(shù)從類內(nèi)距離與類間距離反映了聚類結(jié)果的內(nèi)聚程度與各類之間的分散情況,可以體現(xiàn)聚類的合理程度。依據(jù)輪廓系數(shù),選定最恰當(dāng)?shù)腒值,并保留改進K均值聚類的結(jié)果,以此作為該類型負(fù)荷的K類用電模式特征。
PCA法實現(xiàn)了對能耗特征的降維,從而篩選出方差貢獻率最高的有效特征。對降維后的能耗信息數(shù)據(jù),再利用改進K均值聚類處理,依據(jù)輪廓系數(shù)最大的篩選原則,可以得到每類負(fù)荷的典型用電模式特征。用各類負(fù)荷的用電模式特征訓(xùn)練梯度回歸樹,同時對Boosting框架和弱學(xué)習(xí)器(決策樹)的參數(shù)進行超參數(shù)優(yōu)化,得到的梯度回歸樹能對不同負(fù)荷能耗數(shù)據(jù)實現(xiàn)有效識別。
梯度提升樹GBDT(gradient boosting decision tree)[16],又稱為 MART(multiple additive regression tree),是包含Boosting迭代過程的決策樹算法。該算法由多棵決策樹共同參與決策,每棵樹學(xué)習(xí)之前所有樹的殘差(結(jié)論和與真實值的偏差量),所有樹的結(jié)論累加成為最終答案。該算法在被提出之初就和支持向量機SVM(support vector machine)算法一起被認(rèn)為是泛化能力較強的算法,適用于各類分類問題。
對于用電模式特征訓(xùn)練集{(xi,yi)}n,其中i=1,2,…,n,xi為第i個用電模式特征,yi為第i個負(fù)荷類型,損失函數(shù)L[y,F(xiàn)(x)],F(xiàn)(x)為模型得到的識別類型,決策樹數(shù)量(或迭代次數(shù))為M。記第m次更新模型記為Fm(x),第0次迭代初始化梯度提升樹模型F0(x)為定值,即
式中:x為用電模式特征;γ為本次迭代初始化的負(fù)荷類型。
針對第m次迭代,即第m顆決策樹hm-1(x)的模型識別結(jié)果F(x)取上一顆決策樹的輸出Fm-1(x),然后計算殘差rim,計算公式為
由式(15)得到新訓(xùn)練集{(xi,ri)}n,其中i=1,2,…,n,訓(xùn)練第m+1決策樹hm(x),本次迭代初始化的負(fù)荷類型γm的計算式為
由hm(x)和本次迭代初始化的負(fù)荷類型γm得到第m次更新模型為
經(jīng)過最大迭代次數(shù)M次更新模型,得到模型最終分類類型FM(x)。
梯度提升樹在實際處理類型量解決多元分類問題時,類型判別的輸出不是連續(xù)的數(shù)值量,而是離散的類型量,因此無法直接從輸出類別去擬合類別輸出的誤差。在選擇不同的損失函數(shù)的情況下,對于誤差的計算方式截然不同。對于分類問題,損失函數(shù)一般有對數(shù)似然損失函數(shù)和指數(shù)損失函數(shù)兩種,在指數(shù)損失函數(shù)的情況下梯度提升算法與Adaboost算法相同,僅討論對數(shù)似然損失函數(shù)下通過類別的預(yù)測概率值和真實概率值的差來擬合損失的情況。對數(shù)似然損失函數(shù)計算公式為
式中:G為輸入樣本類;若輸入樣本類別為g,則yg=1;pg(x)為第g類型的概率,其表達式為
式中,F(xiàn)g(x)為判別結(jié)果落在g類中的模型輸出值。
根據(jù)式(18)和式(19),可以計算出第m次迭代過程的第i個樣本對應(yīng)類別l的負(fù)梯度誤差為
針對梯度提升樹模型進行超參數(shù)優(yōu)化,從Boosting框架的參數(shù)空間和決策樹的參數(shù)空間中尋找最適合該負(fù)荷識別問題的參數(shù)組合。Boosting框架的參數(shù)有決策樹數(shù)量M、學(xué)習(xí)步長γm、子采樣率和損失函數(shù)L[y,F(xiàn)(x)]。決策樹參數(shù)包括最大特征數(shù)、最大深度、劃分最小樣本數(shù)、葉節(jié)點最小樣本數(shù)、最大葉節(jié)點數(shù)等。訓(xùn)練梯度提升樹模型時采用并行化網(wǎng)格搜索,針對參數(shù)空間進行尋優(yōu)。
基于梯度提升樹超參數(shù)優(yōu)化的負(fù)荷識別算法流程如圖1所示。
圖1 負(fù)荷識別算法流程Fig.1 Flow chart of load identification algorithm
本文采用REDD低頻數(shù)據(jù)集數(shù)據(jù),應(yīng)用Python編程語言Pandas開源庫,實現(xiàn)時間序列數(shù)據(jù)清洗與重采樣,將各類負(fù)荷用能原始數(shù)據(jù)轉(zhuǎn)換為日用電96點信息。后續(xù)數(shù)據(jù)分析過程采用Python開源庫Sklearn,并行化參數(shù)網(wǎng)格搜索的系統(tǒng)平臺為OSX系統(tǒng),CPU為1.6GHz i5-6500U,4G1600MHz DDR3內(nèi)存,256G SSD硬盤。同時采用某2 500 m2建筑面積的商用建筑分項計量用能信息,對本文算法進行了實例驗證。
公共負(fù)荷數(shù)據(jù)集樣本為6戶居民住宅內(nèi)的11種負(fù)荷(空調(diào)、洗碗機、垃圾處理器、電熱器、電烤箱、排風(fēng)扇、照明燈、微波爐、冰箱、電爐、洗衣機),采用均值重采樣,應(yīng)用前向填充方法填補缺失數(shù)據(jù),共計1 369個負(fù)荷日能耗樣本。
實測商業(yè)建筑數(shù)據(jù)集樣本為總建筑面積約為2 500 m2的商用辦公建筑內(nèi)4種負(fù)荷(空調(diào)、照明、電梯、其他負(fù)荷),監(jiān)測模塊采樣頻率5 kHz。
本文采用REDD與商用建筑負(fù)荷相結(jié)合的多類型負(fù)荷能耗特征,降維后運用改進K均值聚類法提取各負(fù)荷典型用電模式。首先對REDD公共數(shù)據(jù)集數(shù)據(jù)重采樣,將其轉(zhuǎn)化為1/900 Hz采樣頻率的日用電功率96點信息。對日用電功率96點信息經(jīng)PCA保留有效成分Z1,Z2,…,Z6,分析結(jié)果如表1所示,對各類負(fù)荷分別提取典型用電模式特征。保留各負(fù)荷聚類時輪廓系數(shù)最大的聚類中心,作為對應(yīng)各負(fù)荷類型的典型用電模式特征,形成用電模式特征訓(xùn)練集。
表1 PCA結(jié)果Tab.1 Results of PCA
本文選取11種負(fù)荷(類型同前)提取典型用電模式特征。根據(jù)未經(jīng)降維處理的典型用電模式96點曲線,可以總結(jié)出這11類負(fù)荷的典型用電特點如下。
(1)洗碗機、電熱器、排風(fēng)扇、冰箱、電爐和洗衣機存在兩種典型工作模式,全天內(nèi)處在低功耗狀態(tài)(關(guān)停)或運行狀態(tài)。洗碗機、冰箱、電爐在運行狀態(tài)存在明顯周期性,反映了設(shè)備間斷運行的特點。電熱器在早晚氣溫較低期間功耗上升,午后氣溫回升時功耗下降。洗衣機在中午達到功率峰值。排風(fēng)扇運行時功耗波動較小。
(2)垃圾處理器、電烤箱、微波爐的工作狀態(tài)較多,能耗峰值均集中在早中晚三餐期間,符合三者作為廚房電器的運行規(guī)律。電烤箱啟動時間在三者中較早,符合烤制食物準(zhǔn)備時間更長的特點。
(3)空調(diào)存在最多種類的典型用電模式,除低功耗關(guān)閉狀態(tài)外,還包括周期性運行、僅夜晚運行和早中晚分時段運行。周期性運行模式與空調(diào)全天處在自動調(diào)溫狀態(tài)相符合,僅夜晚運行模式符合居民下班后使用空調(diào)的習(xí)慣,而早中晚分時段運行模式應(yīng)當(dāng)與當(dāng)?shù)貧鉁刈兓嬖诿黠@關(guān)聯(lián)??照{(diào)負(fù)荷的典型用電模式有8種,如圖2所示。
(4)照明負(fù)荷的用電模式除關(guān)閉狀態(tài)外,還包含全天使用、早晚較低功耗使用和早晚正常使用3種用電模式。全天使用符合陰雨天氣條件下居民用戶的照明負(fù)荷使用模式,產(chǎn)生最高能耗。正常氣象條件下,根據(jù)居民家中人員的數(shù)量不同,存在早晚較低功耗使用和早晚正常使用兩種用電模式。照明負(fù)荷的典型用電模式有4種,如圖3所示。
圖2 空調(diào)負(fù)荷典型用電模式Fig.2 Typical power consumption mode of air conditioner
圖3 照明負(fù)荷典型用電模式Fig.3 Typical power consumption mode of lighting
采用交叉驗證(K-fold)方法劃分測試集和訓(xùn)練集,使得每次使用的測試集互斥,保證了數(shù)據(jù)集當(dāng)中每一樣本都經(jīng)過模型驗證。運用Python開源庫Sklearn當(dāng)中的train_test_split函數(shù),每次取1/10的樣本做為測試集,保證所有數(shù)據(jù)都有被訓(xùn)練和被驗證的機會,使得辨識結(jié)果更真實可信。
在簡化的情況下介紹梯度提升方法的訓(xùn)練學(xué)習(xí)與對測試集負(fù)荷的分類判別過程,僅考慮冰箱負(fù)荷與洗碗機負(fù)荷的兩種典型用電模式,保留典型用電模式的前4個主成分(記為Z1、Z2、Z3、Z4),類型量簡記為數(shù)值量采用回歸樹方法來判別。已知冰箱負(fù)荷典型用電模式A(記類型為數(shù)值1)的主成分為(-1.05,0.146,0.149,-0.318);典型用電模式B(記類型為數(shù)值2)的主成分為(3.51,-0.511,0.094,-0.192);洗碗機負(fù)荷典型用電模式C(記類型為數(shù)值3)的主成分為(1.37,-0.081,0.179,-0.295);典型用電模式D(記類型為數(shù)值4)的主成分為(-1.52,0.165,0.103,-0.319)。
為便于直觀理解計算,梯度提升樹模型訓(xùn)練學(xué)習(xí)過程中的殘差計算方式以求解實際值與預(yù)測值的差值來計算,而式(15)使用的為損失函數(shù)的負(fù)梯度。限定葉子節(jié)點數(shù)量為2,決策樹數(shù)量為2,梯度提升回歸樹模型學(xué)習(xí)過程如圖4所示。
圖4 梯度提升回歸樹學(xué)習(xí)過程Fig.4 Learning process of gradient boosting regression tree
由于迭代次數(shù)太少,信息數(shù)量不足,殘差沒有達到接近0的狀態(tài),分類得到的類型需要計算殘差影響,完成訓(xùn)練學(xué)習(xí)后,訓(xùn)練完成的一組樹模型將根據(jù)以下幾組規(guī)則進行判斷。
規(guī)則1 如果主成分Z1大于0,且主成分Z3大于0.12,則類型數(shù)值為2.5+(-0.5)+1,判斷為典型用電模式C。
規(guī)則2 如果主成分Z1大于0,且主成分Z3小于0.12,則類型數(shù)值為2.5+0.5+1,判斷為典型用電模式D。
規(guī)則3 如果主成分Z1小于0,且主成分Z3大于0.12,則類型數(shù)值為2.5+(-0.5)-1,判斷為典型用電模式A。
規(guī)則4 如果主成分Z1小于0,且主成分Z3小于0.12,則類型數(shù)值為2.5+0.5-1,判斷為典型用電模式B。
此時存在測試集冰箱負(fù)荷主成分為(-1,0.2,0.3,-0.5),則按照規(guī)則3,可以判斷其類型數(shù)值為1,為典型用電模式A。
采用交叉驗證(K-fold)方法劃分測試集和訓(xùn)練集,運用 Python開源庫 Sklearn當(dāng)中的 train_ test_split函數(shù),每次取部分樣本做為測試集,保證所有數(shù)據(jù)都有被訓(xùn)練和被驗證的機會,使得辨識結(jié)果更真實可信。利用Sklearn下的進行GridSearchCV函數(shù)進行超參數(shù)優(yōu)化,學(xué)習(xí)速率以0.01為步長從0.01~0.20變化,最大特征數(shù)包括對數(shù)和平方,殘差計算方式包括Friedman_mse、均方誤差MSE(mean square error)、絕對均值誤差MAE(mean absolute er? ror)。優(yōu)化結(jié)果為學(xué)習(xí)速率0.08,最大特征數(shù)取平方,殘差計算方式friedman_mse。采用最優(yōu)參數(shù)的情況下,為了顯示誤差變化情況,應(yīng)用最小平方誤差損失函數(shù)的梯度提升回歸樹算法,算法在REDD訓(xùn)練與測試過程中的誤差變化情況如圖5所示。
圖5 訓(xùn)練集與測試集誤差Fig.5 Errors in training set and test set
測試集負(fù)荷的識別報告如表2所示。精確率是分解正確的數(shù)量占分解正確與誤分解為此類型的和的比率,召回率是分解正確的數(shù)量占分解正確與誤分解為其他類型的和的比率,F(xiàn)1值是精確率與召回率的調(diào)和平均數(shù),支持樣本數(shù)是測試集中對該類負(fù)荷進行判別測試的樣本(從測試集產(chǎn)生的未知的典型用電模式)數(shù)量。
表2 識別報告Tab.2 Identification report
典型用電模式的6個主成分在梯度提升樹分類識別中的相對重要性如圖6所示。
圖6 變量相對重要性Fig.6 Relative importance graph of variables
隨機森林模型是基于決策樹的集成學(xué)習(xí)模型當(dāng)中作為對比的基線系統(tǒng),極端提升森林是利用信息熵或基尼不純性挑選最佳節(jié)點特征來構(gòu)建各決策樹分裂節(jié)點的變種隨機森林模型。本文采用這兩種集成模型進行超參數(shù)優(yōu)化與梯度提升樹模型進行對比,最佳參數(shù)為平方作為最大特征數(shù),信息熵作為節(jié)點分裂依據(jù),梯度提升樹算法比兩類集成模型準(zhǔn)確率高20%左右。
本文依據(jù)非侵入負(fù)荷監(jiān)測公共數(shù)據(jù)集中居民負(fù)荷用電數(shù)據(jù),提出計及用電模式的居民負(fù)荷梯度提升樹分類識別方法。首先消除能耗信息中無關(guān)成分,保留能耗信息主成分實現(xiàn)對原始樣本的降維。再通過改進K均值聚類獲得各類負(fù)荷典型用電特征,用來訓(xùn)練梯度提升樹實現(xiàn)對測試集的有效辨識。經(jīng)算例驗證,對比其他基線系統(tǒng)計及用電模式的居民負(fù)荷梯度提升樹分類識別方法對于多種類型的居民負(fù)荷分類識別效果顯著,可以依據(jù)居民用能信息判別未知負(fù)荷的類型。
算法中依據(jù)負(fù)荷日用能信息得到的典型用電模式,可以考慮結(jié)合當(dāng)?shù)氐乩須庀筇卣骱陀脩羯鐣傩?,對工業(yè)用戶各組分負(fù)荷未來的用電模式進行預(yù)測,從而實現(xiàn)對工業(yè)用戶未來用能信息與節(jié)能優(yōu)化潛力的精準(zhǔn)預(yù)測。另外基于C++編程語言的梯度提升樹XGBoost軟件包可以自動利用CPU并行化運算,對于本文算法計算速度與精度的提高,有待于進行進一步的研究實驗。
[1]Hart G W.Nonintrusive appliance load monitoring[J].Pro?ceedings of the IEEE,1992,80(12):1870-1891.
[2]Norford L K,Leeb S B.Non-intrusive electrical load moni?toring in commercial buildings based on steady-state and transient load-detection algorithms[J].Energy and Build?ings,1996,24(1):51-64.
[3]Ahmadi H,Marti J R.Load decomposition at smart meters level using eigenloads approach[J].IEEE Trans on Power Systems,2015,30(6):3425-3436.
[4]Dong Ming,Meira P C M,Xu Wilsun,et al.Non-intrusive signature extraction for major residential loads[J].IEEE Trans on Smart Grid,2013,4(3):1421-1430.
[5]Basu K,Debusschere V,Bacha S,et al.Nonintrusive load monitoring:A temporal multilabel classification approach [J].IEEE Trans on Industrial Informatics,2015,11(1):262-270.
[6]Gillis Jessie M,Morsi Walid G.Non-intrusive load moni? toring using semi-supervised machine learning and wave?let design[J].IEEE Trans on Smart Grid,2016,article in press.
[7]Huang T D,Wang Wensheng,Lian Kuolung.A new power signature for nonintrusive appliance load monitoring[J].IEEE Trans on Smart Grid,2015,6(4):1994-1995.
[8]李坦,楊洪耕,高云(Li Tan,Yang Honggeng,Gao Yun).智能電表家用負(fù)荷識別技術(shù)綜述(Overview of explora?tion on household load identification of intelligent meter?ing)[J].供用電(Distribution&Utilization),2011,28(6):39-42.
[9]莊池杰,張斌,胡軍,等(Zhuang Chijie,Zhang Bin,Hun Jun,et al).基于無監(jiān)督學(xué)習(xí)的電力用戶異常用電模式檢測(Anomaly detection for power consumption patterns based on unsupervised learning)[J].中國電機工程學(xué)報(Proceedings of the CSEE),2016,36(2):379-387.
[10]Nizar A H,Dong Z Y,Wang Y.Power utility nontechnical loss analysis with extreme learning machine method[J].IEEE Trans on Power Systems,2008,23(3):946-955.
[11]陳鴻川,劉博,欒文鵬,等(Chen Hongchuan,Liu Bo,Luan Wenpeng,et al).用于非侵入式電力負(fù)荷監(jiān)測的改進Viterbi算法(Modified viterbi algorithm for nonintrusive load monitoring)[J].電力系統(tǒng)及其自動化學(xué)報(Proceed?ings of the CSU-EPSA),2017,29(2):84-88.
[12]祁兵,程媛,武昕(Qi Bing,Cheng Yuan,Wu Xin).基于Fisher有監(jiān)督判別的非侵入式居民負(fù)荷辨識方法(Nonintrusive household appliance load identification method based on fisher supervised discriminant)[J].電網(wǎng)技術(shù)(Power System Technology),2016,40(8):2484-2491.
[13]Kolter J Z,Johnson M J.REDD:A public data set for en?ergy disaggregation research[C]//Workshop on Data Min?ing Applications in Sustainability(SIGKDD).San Diego,USA,2011:59-62.
[14]Filip A.Blued:A fully labeled public dataset for eventbased non-intrusive load monitoring research[C]//2nd Workshop on Data Mining Applications in Sustainability(SustKDD).2012.
[15]張靖,段富(Zhang Jing,Duan Fu).優(yōu)化初始聚類中心的改進k-means算法(Improvedk-means algorithm with me?liorated initial centers)[J].計算機工程與設(shè)計(Comput?er Engineering and Design),2013,34(5):1691-1694,1699.
[16]Ma Xiaolei,Ding Chuan,Luan Sen,et al.Prioritizing influ?ential factors for freeway incident clearance time predic?tion using the gradient boosting decision trees method[J].IEEE Trans on Intelligent Transportation Systems,2017,99:1-8.
Gradient Boosting Decision Tree Method for Residential Load Classification Considering Typical Power Consumption Modes
WANG Shouxiang,LIU Tianyu
(Key Laboratory of Smart Grid of Ministry of Education,Tianjin University,Tianjin 300072,China)
TM713
A
1003-8930(2017)09-0027-07
10.3969/j.issn.1003-8930.2017.09.005
2017-05-27;
2017-07-07
天津市應(yīng)用基礎(chǔ)與前沿技術(shù)研究計劃資助項目(14JCYBJC21100)
王守相(1973—),男,博士,教授,博士生導(dǎo)師,研究方向為分布式發(fā)電、微電網(wǎng)與智能配電系統(tǒng)。Email:sxwang@tju.edu.cn
劉天宇(1991—),男,碩士研究生,研究方向為負(fù)荷監(jiān)測識別。Email:lty5063081@163.com