趙爽,阮俊梟,支剛,吳政聲,萬航羽,王志敏,劉民偉
(1.云南電網(wǎng)有限責(zé)任公司電網(wǎng)規(guī)劃建設(shè)研究中心,昆明 650000;2.昆明理工大學(xué) 電力工程學(xué)院,昆明 650500;3.中國能源建設(shè)集團云南省電力設(shè)計院有限公司,昆明 650000)
隨著當(dāng)今社會數(shù)字化、信息化的快速發(fā)展,智能電網(wǎng)的應(yīng)用層面進一步拓寬,“十三五”期間國內(nèi)計劃安裝2.3億塊智能電能表對用戶用電數(shù)據(jù)進行實時采集,用電采集系統(tǒng)[1]的發(fā)展完善使電力大數(shù)據(jù)量快速增長,為分析電力用戶用電特性,提升負荷預(yù)測準(zhǔn)確率、識別用戶用電模式、評估需求響應(yīng)潛力、指導(dǎo)電價制定等提供了基礎(chǔ)[2]。同時,電力大數(shù)據(jù)也成為國內(nèi)外研究熱點[3-5],且用電負荷規(guī)??焖僭鲩L,用電結(jié)構(gòu)持續(xù)優(yōu)化調(diào)整,三產(chǎn)及居民生活用電比例不斷上升,負荷尖峰化特征愈發(fā)明顯。
電力負荷是典型的非線性時間序列數(shù)據(jù),其隨時間行進呈趨勢性、周期性的波動。電力用戶用電行為模式劃分是以多用戶時序數(shù)據(jù)為基礎(chǔ)的無先驗信息及標(biāo)簽類問題,聚類分析屬于機器學(xué)習(xí)算法中典型的無監(jiān)督學(xué)習(xí)算法,在用戶用電行為分析中得到了廣泛的應(yīng)用[6-8]。在進行負荷聚類時,考慮負荷曲線趨勢性和周期性的相似程度,正確衡量負荷隨時間變化的形態(tài)和輪廓的相似性才能把握用戶的用電習(xí)慣和特性,從而對同類用戶進行聚類并完成用戶用電模式的識別[9]。通過分析用戶用電行為,電網(wǎng)端可獲取多用戶用電細節(jié),并制定相應(yīng)政策方針改善用戶用電方案,以提高電網(wǎng)系統(tǒng)運行效率,達到節(jié)能減排的目的。當(dāng)前,負荷聚類分析主要分為直接聚類法[10-11]及間接聚類法[12-13]:直接聚類法直接對原始負荷數(shù)據(jù)進行聚類分析,包含Kmeans聚類法、層次聚類法及基于密度的聚類法等;間接聚類法先將原始負荷序列進行降維提取其特征,然后再進行聚類分析,降維方法包含主成分分析、奇異值分解及卷積神經(jīng)網(wǎng)絡(luò)特征提取等。
在用戶用電行為聚類分析問題上,文獻[14]將調(diào)節(jié)潛力指標(biāo)作為要素對用戶用電行為進行了分析;文獻[15]建立了峰時耗電率、負荷率、谷電系數(shù)及平段用電的時序特征,并結(jié)合云計算與并行Kmeans算法對用戶行為進行分析;文獻[16]提出多元大數(shù)據(jù)平臺融合的改進思路,使用批處理及流處理的方法分析用戶用電行為;文獻[17]關(guān)注聚類個數(shù)確定方法及初始聚類中心的選擇邏輯兩個要素,對K-means算法進行改進;文獻[18]針對海量用戶數(shù)據(jù),提出首先對負荷進行局部聚類獲取特征,然后再根據(jù)局部特征獲取整體聚類結(jié)果的兩階段聚類方法;文獻[19]使用自適應(yīng)模糊均值算法對電力用戶進行聚類,然后使用核極限學(xué)習(xí)機對各類用戶進行負荷預(yù)測;文獻[20]提出一種負荷特征集優(yōu)選策略,減少了負荷特征間的分類信息冗余,構(gòu)建精簡的特征子集以達到更好的聚類效果。但不同類型的用戶用電波動大、峰谷差明顯,未針對其尖峰負荷的特性進行設(shè)定、區(qū)分,無法有效以尖峰負荷的特征量進行數(shù)據(jù)挖掘、聚類。
基于此,本文首先對尖峰負荷定義進行描述,并分析尖峰負荷特性指標(biāo)。然后將尖峰負荷特性指標(biāo)應(yīng)用于用戶日負荷數(shù)據(jù)中提取用戶用電行為尖峰特性特征[21-23]。最后以美國國家可再生能源實驗室開源用戶用電數(shù)據(jù)為研究對象,采用K-means算法進行用戶用電行為分析,并對比使用尖峰特性特征與原始負荷的聚類結(jié)果。
隨著電力系統(tǒng)發(fā)展不斷成熟,尖峰負荷已由最初的點負荷發(fā)展成為可能影響電力系統(tǒng)安全穩(wěn)定運行的時段性頂峰負荷。目前,行業(yè)內(nèi)關(guān)于尖峰負荷的定義尚未達成共識,其物理含義為:一定時期某區(qū)域內(nèi),電力負荷在一段持續(xù)時間內(nèi)超過或者達到峰值一定百分比的區(qū)域。一般尖峰負荷的峰值百分比取3%、5%、10%,即大于最大負荷的90%、95%、97%部分認(rèn)為是峰值負荷,周峰值負荷示意圖如圖1所示。
圖1 周峰值負荷示意圖Fig.1 Schematic diagram of weekly peak load
按照負荷本身特征及對電網(wǎng)的影響,尖峰負荷特性指標(biāo)主要包括尖峰負荷規(guī)模、頻次、電量、持續(xù)時間、利用小時數(shù)。其定義分別如下。
尖峰負荷規(guī)模:一定時間區(qū)間達到或超過某一峰值負荷百分比的負荷值。其時間區(qū)間劃定根據(jù)需要可以是一年,也可以是一個月或幾個月等。設(shè)需求時間區(qū)間內(nèi)采集的負荷樣本為U=[u1,u2,…,uM],其中uM代表采集時間內(nèi)的第M個負荷值,則尖峰負荷規(guī)模表達式如式(1)所示:
式中:ut,p代表在指定時間區(qū)間t內(nèi),對應(yīng)不同峰值百分比p的尖峰負荷規(guī)模。
尖峰負荷頻次Ct:一定時間區(qū)間達到或超過某一峰值負荷百分比的次數(shù)。
尖峰負荷電量Wt:尖峰負荷持續(xù)時間段內(nèi)用電量的總和。
尖峰負荷持續(xù)時間St:達到或超過某一峰值負荷的時間,持續(xù)時間可以分為單次持續(xù)時間和累計持續(xù)時間。
尖峰負荷利用小時數(shù)Ht:尖峰負荷利用小時數(shù)指尖峰負荷電量與超過某峰值百分比區(qū)域內(nèi)最大負荷的比值,計算公式為:
聚類分析的目的在于從一個無標(biāo)簽的數(shù)據(jù)集中根據(jù)個體相似性識別出不同的組,每個劃分組內(nèi)成員具有相似特征且區(qū)分于其他組成員特性。多用戶用電數(shù)據(jù)在初始場景下屬于典型的無標(biāo)簽數(shù)據(jù)集,通過對用戶負荷數(shù)據(jù)進行聚類分析,可劃分不同用能特性用戶組,例如區(qū)分不同產(chǎn)業(yè)類型用戶、在居民用電數(shù)據(jù)中區(qū)分用能習(xí)慣不同的用戶,并根據(jù)不同用戶組制訂對應(yīng)用能調(diào)節(jié)方案。
K-means是基于原型的聚類算法,算法先對原型進行初始化,然后對原型進行迭代更新求解:首先,指定初始聚類中心,然后將樣本集內(nèi)各點劃分至不同簇,計算簇內(nèi)平均距離,以距離下降為方向迭代循環(huán),當(dāng)簇內(nèi)平均距離最小、簇間平均距離最大時,算法終止。算法流程如圖2所示,其算法步驟如下。
圖2 K-means算法流程Fig.2 K-means algorithm chart
(1)步驟1:從長度為N樣本數(shù)據(jù)集X=[x1,x2,…,xN]中任意選取K條數(shù)據(jù)作為初始聚類中心Y=[y1,y2,…,yK]。
(2)步驟2:計算剩余數(shù)據(jù)與各聚類中心的距離,并將距離聚類中心最近的數(shù)據(jù)劃分為一個簇類。距離計算通常采用歐幾里得距離進行度量,則第(ii=1,2,…,N)個數(shù)據(jù)與第(jj=1,2,…,K)個聚類中心的歐式距離及計算公式為:
(3)步驟3:根據(jù)式(4)重新計算每個簇類的中心。
式中:Dj代表第j個簇類中包含的成員個數(shù);ri為篩選變量,當(dāng)xi從屬于第j個簇類時,ri=1,否則取ri=0。
(4)步驟4:判斷函數(shù)是否收斂或達到最大迭代次數(shù),若收斂或達到最大迭代次數(shù)則輸出聚類結(jié)果,否則返回步驟2。
算法迭代的目標(biāo)函數(shù)F如式(5)所示:
本文基于K-means算法,首先對用戶日負荷數(shù)據(jù)進行聚類分析。設(shè)包含N個用戶日負荷數(shù)據(jù)的矩陣為Xa,有:
式中:xN,1代表第N個用戶的日負荷數(shù)據(jù)中第l(l∈[1,m])個采集點負荷數(shù)據(jù)值。根據(jù)不同的采集粒度,日負荷數(shù)據(jù)長度m可為24、48、96等。
對收集的數(shù)據(jù)集進行缺失值查詢,使用近鄰插值填補空值以避免缺失值對聚類結(jié)果造成影響。為避免不同用戶用能尺度差異過大,對所有用戶數(shù)據(jù)采用min-max歸一化法進行歸一化。
式中:xk,l為第k(k∈[1,N])個用戶第l個數(shù)據(jù)值;xk,min為第k個用戶日負荷數(shù)據(jù)最小值;xk,max為第k個用戶日負荷數(shù)據(jù)最大值。
數(shù)據(jù)采集過程中難免出現(xiàn)儀器或人為錯誤,為避免異常點對聚類結(jié)果產(chǎn)生影響,使用平滑公式對異常點進行置換,平滑公式見式(8):
完成數(shù)據(jù)收集及預(yù)處理后,使用K-means對用戶負荷數(shù)據(jù)進行聚類,具有相同負荷特性的用戶歸屬為一個簇類,每個聚類中心可作為該簇類用戶的日負荷等效曲線。
2017年的稅制修正中,對各類機構(gòu)納入稅額扣除的經(jīng)費項目進行擴充,同時對一些繁復(fù)的手續(xù)予以簡化,從而為開放式創(chuàng)新的實施營造條件。
本文使用數(shù)據(jù)集來自美國國家可再生能源實驗室開源用戶用電數(shù)據(jù)[17],自典型氣象年模擬的936個用戶中任意抽取498個用戶任意一日的日負荷數(shù)據(jù),隨機抽取用戶與時序的目的是為了保證算例分析中算法的魯棒性與適應(yīng)性。數(shù)據(jù)采集時間間隔為1 h,一天采集24點,共包含11 952條數(shù)據(jù)。用戶原始日負荷曲線見圖3。
圖3 用戶原始日負荷曲線Fig.3 User original daily load curve
由圖3可見,用戶原始日負荷曲線未經(jīng)聚類時比較雜亂,難以直接提取用戶用電模式。直接對原始序列進行聚類,因時序數(shù)據(jù)序列較長,歐式距離難以完全準(zhǔn)確地度量序列之間的特性差異。本文結(jié)合尖峰負荷特性指標(biāo),構(gòu)建用戶日負荷尖峰特性特征集對用戶用電行為進行聚類分析。
尖峰負荷特性指標(biāo)包含尖峰負荷規(guī)模、頻次、持續(xù)時間、電量占比、利用小時數(shù),因不同數(shù)據(jù)采集粒度精細度不一致,故按如下方式提取尖峰負荷特性特征。
(1)尖峰負荷規(guī)模:使用式(1)計算各用戶日尖峰負荷規(guī)模,算例統(tǒng)一取10%峰值百分比,即p=10%。
(2)尖峰負荷頻次:對一日中用能超過尖峰負荷規(guī)模一次的單峰用戶取Ct=1,雙峰用戶取Ct=2,以此類推。
(3)尖峰負荷電量:對尖峰負荷電量采用上取整的計算方式,則第k個用戶的尖峰負荷電量Wk,t為:
式中:ci為篩選變量,當(dāng)xk,i大于或等于尖峰負荷規(guī)模時取值1,否則取值0。
(4)尖峰負荷持續(xù)時間:對尖峰負荷持續(xù)時間同樣采用上取整的計算方式。對單次持續(xù)時間,在負荷上升段取負荷值大于或等于尖峰負荷規(guī)模數(shù)值的右側(cè)第一個采集點,在負荷下降段取負荷值大于或等于尖峰負荷規(guī)模數(shù)值的左側(cè)第一個采集點,根據(jù)兩個采集點采樣時間差計算單次持續(xù)時間。累計持續(xù)時間等于多個單次時間累加值。
(5)尖峰負荷利用小時數(shù):使用式(2)計算尖峰負荷利用小時數(shù)。
聚類結(jié)果評價標(biāo)準(zhǔn)通常分為有標(biāo)簽及無標(biāo)簽兩類,在真實分類情況已知時使用有標(biāo)簽評價方法,分類情況未知時使用無標(biāo)簽評價標(biāo)準(zhǔn)。本文數(shù)據(jù)集中未提供用戶類別劃分標(biāo)簽,屬于無先驗信息的聚類分析場景,故采用輪廓系數(shù)(Silhouette標(biāo)準(zhǔn))對聚類結(jié)果進行評價。第k個對象的輪廓系數(shù)S(k)計算式如式(10):
式中:b(k)表示對象k與非同簇類對象的平均距離,用以表征分離度;a(k)表示對象k與同簇類對象的平均距離,用以表征凝聚度。
輪廓系數(shù)取值范圍為[-1,1],值越大說明聚類結(jié)果中,同簇類成員緊密度、不同簇類成員分離度越高,聚類性能越優(yōu)良。
對構(gòu)建的尖峰特性指標(biāo)特征集及原始數(shù)據(jù)集使用K-means算法進行聚類分析,根據(jù)聚類結(jié)果計算輪廓系數(shù)指標(biāo),輪廓系數(shù)結(jié)果隨不同聚類數(shù)量的變化如圖4所示。
圖4 不同數(shù)據(jù)集聚類性能曲線Fig.4 Clustering performance curves for different data sets
尖峰特性指標(biāo)特征集在聚類數(shù)量為6時取得最佳輪廓系數(shù)0.617,優(yōu)于原始數(shù)據(jù)集在聚類數(shù)量為5時的最佳輪廓系數(shù)0.523,說明使用尖峰特性指標(biāo)特征集時的聚類性能較為優(yōu)良。
由上述分析可知,數(shù)據(jù)集中498個用戶按用電模式可分為6類,第1類包含235個用戶,第2類包含108個用戶,第3類包含26個用戶,第4類包含47個用戶,第5類包含19個用戶,第6類包含63個用戶。各類用戶負荷曲線如圖5所示。
圖5 各類用戶負荷曲線Fig.5 Load curve of various users
由用戶原始負荷曲線及分類后用戶負荷曲線可以看出,樣本集中的用戶用電習(xí)慣在隨著時間波動上具有相似性,用電谷段通常在凌晨02:00—03:00時,在早晨06:00—07:00時出現(xiàn)第一個用電高峰,并在16:00—20:00時達到日最大負荷后逐漸下降。
各類用戶典型用能曲線尖峰特性特征匯總?cè)绫?所示。由表1可知,第1、2類用戶尖峰電量在3~4 kWh、持續(xù)時間保持在2 h,屬于中等耗能類用戶,在樣本集中占比最大;第3、4、5類用戶尖峰電量在10 kWh左右、持續(xù)時間保持在4~5 h,屬于高耗能用戶,其尖峰規(guī)模、電量及持續(xù)時間都較其他類用戶較高;第6類用戶同比尖峰電量與持續(xù)時間均較低,則屬于低耗能用戶。
表1 各類用戶典型用能尖峰特征匯總Tab.1 Summary of typical peak energy consumption characteristics of various users
通過幾類用戶的尖峰負荷的聚類,并分析其尖峰規(guī)模、尖峰頻次、尖峰電量、持續(xù)時間、利用小時數(shù),可以有效調(diào)整相應(yīng)的用戶定價方式,降低其尖峰負荷大小與持續(xù)時間,保證尖峰負荷區(qū)域的電量平衡與電壓穩(wěn)定。
針對當(dāng)前用戶用電行為聚類分析對尖峰負荷特性特征挖掘不足的問題,構(gòu)建了用戶日尖峰負荷特性指標(biāo)特征集,使用K-means算法對特征集進行聚類分析并與原始數(shù)據(jù)集聚類結(jié)果進行了性能對比。算例分析結(jié)果表明,使用負荷尖峰特性特征集有效提取了原始負荷波動特征并降低了數(shù)據(jù)集維度,使聚類性能取得了一定提升。
后續(xù)研究將進一步擴充負荷特征類別,構(gòu)建負荷特性特征庫,并使用特征優(yōu)選策略提取關(guān)鍵特征。同時基于聚類結(jié)果,設(shè)計相應(yīng)負荷用戶的分時定價方式、需求響應(yīng)機制,以提高系統(tǒng)電量的平衡穩(wěn)定。