劉詩語,吳鳴,2*,李睿哲
(1.上海電力大學電子與信息工程學院,上海 200090;2.中國電力科學研究院有限公司,北京 100192)
隨著智能電網(wǎng)的建設,電力系統(tǒng)的智能化程度逐漸提升,電力負荷數(shù)據(jù)變得易于感知和測量,由此累積的用戶負荷數(shù)據(jù)具有高維度、多類型和大體量等特點[1]。通過負荷數(shù)據(jù)挖掘和用電模式識別,獲取用戶用電特征,為電網(wǎng)規(guī)劃設計、用電客戶精細分類和制定用電計劃提供有力支撐[2-3]。
聚類算法可以有效提取用戶用電的負荷特征,充分挖掘用戶用電信息,發(fā)掘其中的相似點以用來分析用戶用電模式[4]。目前,各種聚類分析方法已被應用于電力負荷聚類中,包含基于劃分[5]、基于密度[6]、基于層次[7]的聚類算法等。如今,不少學者都使用歐式距離作為相似性判據(jù)進行負荷曲線的聚類研究。文獻[8]通過奇異值分解的方式將原始負荷數(shù)據(jù)進行變換旋轉至新坐標系中,進而得到對應的奇異值并以此確定負荷數(shù)據(jù)降維的權重大小,最后利用加權K-means方法進行聚類。文獻[9]對負荷數(shù)據(jù)進行多維分析和降維,然后采用高斯混合模型提取數(shù)據(jù)的低維特征,以用于海量化負荷數(shù)據(jù)集的聚類研究。文獻[10]采用卷積自編碼器提取負荷數(shù)據(jù)的時序特征,再用自定義的聚類層對低維特征軟化分,最后采用KL(Kullback-Leibler)散度作為損失函數(shù)對卷積自編碼器和自定義聚類層進行聯(lián)合優(yōu)化,得到聚類結果。文獻[11]對原始負荷數(shù)據(jù)提取,得到日峰谷差率、日負荷率、日最大利用時間等7個日負荷特征指標,使用熵權法對各指標配置權重進行聚類分析,從而提高聚類效率。文獻[12]通過多維縮放(multi-dimensional scaling,MDS)對原始電力負荷數(shù)據(jù)進行非線性降維進而獲得低維數(shù)據(jù)特征,對低維特征進行加權K-means聚類,進而獲得聚類結果。然而,海量化和高維化的負荷數(shù)據(jù)往往存在模糊的簇邊界,上述方法只考慮簇內(nèi)距離判斷簇相似度,而忽略簇間距離的影響,導致聚類質(zhì)量較低。由于存在簇間模糊樣本,也可能會增加聚類算法的迭代次數(shù),進而降低計算效率。
鑒于以上方法僅考慮簇內(nèi)距離,而忽略簇間模糊樣本導致聚類質(zhì)量下降等問題,有學者提出考慮簇內(nèi)、簇間距離的聚類方式并獲得不錯的進展。文獻[13]提出增強的軟子空間聚類方法,該方法擴大簇間距離的方式是最大化全局中心與各個簇中心的距離。但該方法移動簇中心的效果較差,最大化全局中心與每個簇中心的距離并不等同于最大化簇間距離,即最大化任意兩個簇之間的距離,當簇間分布不均勻時會反而會導致幾個相近的簇中心更緊湊。
針對以上問題,現(xiàn)提出基于多維縮放(MDS)和KICIC(a weightingK-means clustering approach by integrating intra-cluster and inter-cluster distances)的聚類算法,通過MDS對原始數(shù)據(jù)非線性降維提取原始數(shù)據(jù)的低維特征,將獲取的低維特征矩陣和歸一化的特征向量作為輸入,再通過KICIC算法最大化簇間距離和最小化簇內(nèi)距離來對日負荷曲線進行聚類。對此,通過將改進的算法和傳統(tǒng)算法在聚類有效性指標上對比分析,以期能夠在聚類效率和質(zhì)量方面得到提升,為在需求側實現(xiàn)有序用電管理做準備。
假設給定一個由m條負荷曲線和n維數(shù)據(jù)所構成的X=[X1,X2,…,Xm]為m×n階實矩陣,其中第i條負荷曲線表示為Xi=[xi1,xi2,…,xin],n為負荷曲線的數(shù)據(jù)維度,由此可以計算出n維數(shù)據(jù)的距離矩陣D=[tij]∈Rm×m。MDS算法是為獲得原始數(shù)據(jù)樣本在d′維空間的表示,Z∈Rd′×m,d′≤n[14]。Z=[Z1,Z2,…,Zn]是n×m的數(shù)據(jù)輸入矩陣;Zi=[zi1,zi2,…,zim]表示第i個數(shù)據(jù)對象。
(1)
(2)
(3)
(4)
(5)
(6)
(7)
將式(2)~式(7)代入式(1)可得
(8)
由式(8)可計算內(nèi)積矩陣B,對矩陣B進行特征值分解,即
B=VΛVT
(9)
式(9)中:Λ=diag(λ1,λ2,…,λd)是內(nèi)積矩陣B的特征值所組成的對角矩陣,對應的特征值由大到小排列,V是對應的特征向量矩陣。由式(9)及B=ZTZ可知
(10)
具體算法步驟如下:
步驟1對于給定的數(shù)據(jù)集矩陣X,求得距離矩陣D∈Rm×m,同時確定低維空間的維數(shù)d′。
步驟2以距離矩陣D∈Rm×m的元素tij為輸入,通過式(5)~式(7)計算出結果并代入式(8)求內(nèi)積矩陣B。
步驟3對內(nèi)積矩陣B做特征值分解B=VΛVT,取Λ=diag(λ1,λ2,…,λd)前d′個最大的特征值構成對角矩陣Λd′,Vd′為相應的特征向量矩陣,通過式(10)求低維矩陣Z。
傳統(tǒng)聚類算法一般采用簇內(nèi)歐式距離作相似性判據(jù)。然而,實際的負荷數(shù)據(jù)往往存在模糊的簇邊界。如圖1所示,簇邊界處的數(shù)據(jù)可能會產(chǎn)生誤分,進而降低聚類質(zhì)量。由于存在簇間模糊樣本,也可能會增加聚類算法的迭代次數(shù),降低計算效率。
圖1 簇間樣本模糊圖Fig.1 Inter-cluster sample fuzzy map
對此提出集成簇內(nèi)距離和簇間距離的KICIC聚類方式,該聚類方式通過在子空間內(nèi)最大化簇中心與其他簇樣本的歐式距離的方式對簇間距離最大化,同時對簇內(nèi)距離進行最小化處理以提升簇內(nèi)緊密度,基于該思想設計了該算法的目標函數(shù),然后,通過迭代優(yōu)化目標函數(shù)獲得算法的更新規(guī)則,最后,根據(jù)更新規(guī)則給出了算法的執(zhí)行過程。KICIC算法的目標函數(shù)為
S=S(U,W,R)
(11)
約束條件為
(12)
式中:R=[R1,R2,…,Rk]為k個簇中心向量組成的簇中心矩陣,Rp=[rp1,rp2,…,rpm]為第p個簇中心;W=[W1,W2,…,Wk]為k個特征權重向量;U為數(shù)據(jù)對象分配矩陣,該矩陣為n×k的0-1矩陣,uip=1為第i個特征被分到第p個簇。
2.1.1 數(shù)據(jù)選取
本實驗的數(shù)據(jù)集來源于SEAI(sustainable energy authority of ireland)發(fā)布的2009—2013年愛爾蘭智能電表實測數(shù)據(jù),該數(shù)據(jù)集以30 min為時間間隔,每日可采集48數(shù)據(jù)點。距今較近的2013年用戶用電數(shù)據(jù)作為本文的實驗數(shù)據(jù)。
2.1.2 異常數(shù)據(jù)的識別與修正
現(xiàn)實中采集的負荷數(shù)據(jù),往往會出現(xiàn)環(huán)境因素干擾、測量設備故障、通信中斷等問題,引起數(shù)據(jù)異?;騺G失[15]。負荷數(shù)據(jù)異?;蛉笔Р粐乐貢r,通過多階拉格朗日內(nèi)插法進行數(shù)據(jù)的矯正或填充,負荷曲線的數(shù)據(jù)缺失嚴重時則剔除該負荷曲線,如式(13)所示。計算某點數(shù)據(jù)相對前一點的數(shù)據(jù)變化率,若超過一定閾值則視為異常數(shù)據(jù)點,如式(14)所示,也可以用多階拉格朗日內(nèi)插法對該點數(shù)據(jù)予以修正。
(13)
式(13)中:x(t)為異常數(shù)據(jù)點的修正值;a1、b1為向前和向后所取的樣本點數(shù)目,一般取4~6。
(14)
式(14)中:x(t)表示t時刻數(shù)據(jù)點,p表示該點的數(shù)據(jù)變化率,超過設定的變化率閾值p=0.75視為異常數(shù)據(jù)點,用多階拉格朗日內(nèi)插法對該點數(shù)據(jù)予以修正。
2.1.3 數(shù)據(jù)歸一化處理
收集的不同用戶負荷數(shù)據(jù)的幅值可能會有較大差異,對不同數(shù)量級的負荷數(shù)據(jù)直接聚類會使聚類結果缺乏可靠性。在本研究中,對此使用最大值歸一化原理處理負荷數(shù)據(jù)。該處理方法的表達式為
(15)
式(15)中:xij是第i條負荷曲線的采樣點j處的數(shù)據(jù),x′ij為對應點的歸一化數(shù)據(jù),然后通過元素x′ij可獲得歸一化矩陣X′。
2.1.4 數(shù)據(jù)平滑處理
實際上,在負荷數(shù)據(jù)的測量和采集過程中常出現(xiàn)信號干擾和測量誤差等情況會直接造成電力負荷曲線出現(xiàn)一定程度的波動,對數(shù)據(jù)進行平滑處理能減少噪聲影響,更加突顯曲線的走勢。而高斯法能較好地濾除噪聲,采用高斯法對數(shù)據(jù)進行平滑處理,進一步反映出曲線總體走勢[16]。負荷數(shù)據(jù)預處理前后的變化見圖2。
圖2 負荷曲線的修正和平滑處理Fig.2 Correction and smoothing of the load curve
不同于K-means等傳統(tǒng)聚類算法,KICIC是集成簇內(nèi)和簇間距離的新型聚類算法,該算法需要對目標函數(shù)進行迭代更新,因此,對于較大的樣本量,KICIC算法計算過程復雜,易造成計算效率低下等問題,對此設計MDS算法對數(shù)據(jù)降維處理以提升KICIC算法的聚類效率和質(zhì)量?;贛DS的理論可知,若降低到d′維空間中去,則取出前d′個最大特征值,這說明該維空間的權重可以通過對應的特征值大小體現(xiàn)。對此,使用MDS降維得到特征矩陣Z用作KICIC算法的輸入,基于MDS方法得到的特征值λ歸一化處理后作為KICIC算法的權重向量W,可以提高KICIC聚類算法的速度和性能。
2.2.1 MDS-KICIC目標函數(shù)
KICIC算法目標函數(shù)[式(11)]的第三項即為的特征權重項,由于特征權重向量W由MDS降維后已經(jīng)給出,該項不參與迭代,可以對目標函數(shù)進行優(yōu)化,表達式為
(16)
約束條件為
(17)
在該目標函數(shù)中,需要求解兩個參數(shù)矩陣:數(shù)據(jù)對象分配矩陣U和簇中心矩陣R。常用的優(yōu)化求解目標函數(shù)S的方法是固定其中一個參數(shù)矩陣,然后求解另一個參數(shù)矩陣。特征權重矩陣W已知,進而降低聚類計算復雜度。此外,MDS-KICIC算法使用降維得到特征矩陣Z作為輸入,而不是高維的數(shù)據(jù)信息,從而提高算法分析海量數(shù)據(jù)能力。
目標函數(shù)的優(yōu)化原則是通過不斷迭代分配矩陣U和簇中心矩陣R的值使目標函數(shù)S達到最小。固定簇中心矩陣R,目標函數(shù)S(U,R)可以最小化當且僅當
(18)
可以看出,式(18)是把數(shù)據(jù)對象分配到帶權距離最小的簇中。
固定數(shù)據(jù)對象分配矩陣U,目標函數(shù)S(U,R)可以最小化當且僅當
(19)
固定簇中心矩陣R,最優(yōu)化目標函數(shù)(16)可得到式(18),同理固定分配矩陣U,最優(yōu)化目標函數(shù)(16)可得到式(19)。
整體算法步驟如下:
步驟1對于給定的數(shù)據(jù)集X,經(jīng)過MDS降維得到特征矩陣Z和特征值向量。
步驟2使用MDS降維得到特征矩陣Z和歸一化處理后的特征值向量用作KICIC算法的輸入和權重向量,并隨機簇中心矩陣R。
步驟3固定矩陣R,通過式(18)得到分配矩陣U;固定分配矩陣U,再通過式(19)得到簇中心矩陣R。
步驟4迭代計算。計算目標函數(shù)(16)是否最小,若是則算法結束,否則重復步驟3。整體算法流程如圖3所示。
圖3 整體算法流程圖Fig.3 Overall algorithm flow chart
2.2.2 聚類有效性指標
由于文中所選的是無標簽數(shù)據(jù)集,其類別未提前確定,需使用內(nèi)部評價指標對聚類效果進行評判。本文選取戴維森堡丁指數(shù)(davies-bouldin,DBI)和卡林斯基-哈拉巴斯指數(shù)(calinski-harabaz index,CHI)分析聚類質(zhì)量。簇內(nèi)相似度越高,簇間相似度越低,則聚類質(zhì)量越優(yōu)。上述指標的計算公式如下。
(1)DBI指標。
(20)
(21)
(2)CHI指標。
s(N)=[trB(k)/(k-1)]/[trW(k)/(n-k)]
(22)
式(22)中:n為聚類樣本的數(shù)目;k為聚類的類別數(shù)目;trB(k)為簇間離差矩陣的跡;trW(k)為簇內(nèi)離差矩陣的跡。CHI是通過計算簇間分離度和簇內(nèi)緊密度的比值得出,所以簇間越分散,簇內(nèi)越緊密,CHI越大,得到的聚類質(zhì)量越優(yōu)。
文章中的實驗是在配置有AMD R5-4600H,CPU 3.0 GHz,RAM16GB的PC上實現(xiàn)的。為驗證文中方法的有效性,以K-means算法、MDS-WK-means算法和KICIC算法作為文中的對比方法。
文中數(shù)據(jù)來源于SEAI所發(fā)布的愛爾蘭智能電表實際測量數(shù)據(jù),共選取2013年某工作日1 346條日負荷曲線數(shù)據(jù),每30 min進行一次采樣,每條負荷曲線得到48個采樣點。由于數(shù)據(jù)缺失或異常,預處理后得到1 229條數(shù)據(jù)曲線,進而形成1 229×48階的數(shù)據(jù)矩陣。
MDS處理數(shù)據(jù)矩陣,降到d′維通過計算累計貢獻率Sd′可得,d′≥4時累計貢獻率Sd′可以達到95%以上。因此,輸入矩陣X經(jīng)過MDS降維處理后表示為一個1 229×4的特征矩陣Z,可求得4個維度對應的權重向量為W0=[0.585,0.337,0.049,0.029]。
通過對不同聚類數(shù)目的DBI指標觀察,如圖4所示,觀測到DBI指標在聚類個數(shù)k=4時取得最小值。因而,文中的聚類個數(shù)選擇k=4進行分析。
圖4 聚類數(shù)與DBI指標的關系Fig.4 Relationship between the number of clusters and DBI index
基于文中聚類算法得到的聚類結果如圖5所示。從00:00—24:00共計48個時間段,該算法將1 229條日負荷曲線分成4類。各類負荷曲線的數(shù)量分別為312、224、408和285。傳統(tǒng)K-means聚類算法的各種負荷曲線數(shù)分別為306、224、406和293。文中方法的聚類結果如圖5所示。
圖5 聚類仿真結果Fig.5 Clustering simulation results
圖6為4類用戶負荷曲線的聚類中心,每類用戶都有相異的用電特點,表現(xiàn)的四種類型依次有:雙峰、平峰、單峰和錯峰。第一類用戶屬于雙峰型用戶,有兩個用電高峰,分別在7:00—11:30以及14:30—20:00,同時該類用戶大部分功率都在高峰時間內(nèi)消耗,該類用戶多為學校、寫字樓和機關單位等,用電穩(wěn)定并且規(guī)律。第二類用戶屬于平峰型用戶,該部分負荷水平相對較高且整日負荷變化不大,該類負荷屬于保障類型負荷,多屬于供水、供熱、供能等基礎設施。第三類是單峰型用戶,在22:00—次日6:00屬于休息時間,該時段的用電量較少,而該類用戶的用電量主要集中在6:30—17:00,用電量提升較快并且處于較高負荷水平,該部分用戶多為小工業(yè)用戶。第四類用戶屬于錯峰型用戶,在18:00—23:00用電高峰,并且在凌晨時段仍有較高負荷,由于該部分用戶用電時間多為晚上,這表明其用戶可能有很大的潛力遵循需求側管理策略來避免高峰期的用電行為。
圖6 典型日負荷曲線聚類中心Fig.6 Cluster center of a typical daily load curve
通過對表1中10次測試得到的聚類指標平均值的對比分析,相較于直接進行聚類,其他三種算法在指標上更優(yōu),而MDS-KICIC算法比KICIC算法聚類效率提升了60.23%,比K-means算法聚類效率提升71.41%。本文所采用的算法使負荷的簇內(nèi)距離最小,簇間距離最大,充分考慮簇內(nèi)和簇間距離,使聚類中心盡可能地遠離非類樣本,降低非類樣本的干擾,增加聚類精度,加快聚類迭代過程。
表1 4種算法聚類結果對比Table 1 Comparison of clustering results of 4 algorithms
因此,文中算法比傳統(tǒng)的K-means、MDS-WK-means和KICIC算法運行時間更短,聚類質(zhì)量更高。
結合表2可知,第一類用戶屬于雙峰型用戶,該部分用戶的負荷系數(shù)、最小負荷率相對適中;在負荷系數(shù)和最小負荷率方面來看,第二類用戶的數(shù)據(jù)均為最高,這表明第二類用戶比其他類用戶的需求側管理潛力較?。坏谌愑脩舻呢摵上禂?shù)、最小負荷率最低,該類用戶曲線相較于前兩種更平滑,而且該類用戶最小值時間和峰值時間與前者也有所不同;第四類用戶的峰值時間不同,同時該類用戶用電高峰多集中在夜間,這表明,相較于前三類用戶,第四類用戶需求側管理的潛力更大。
表2 典型日負荷曲線聚類中心特征總結Table 2 Summary of typical daily load curve clustering center characteristics
(1)提出基于MDS-KICIC的電力負荷聚類方法,首先采用MDS降低負荷數(shù)據(jù)的維數(shù),對負荷數(shù)據(jù)的低維特征進行提取,并通過特征值向量確定KICIC的權重向量,減少迭代計算的次數(shù),最后結合KICIC算法獲得最終聚類結果。算例研究表明,本文算法與傳統(tǒng)的K-means、MDS-WK-means以及KICIC聚類方法相比,本文所提方法可充分考慮數(shù)據(jù)的簇內(nèi)和簇間距離,進一步提高聚類的質(zhì)量和效率,并對不同類簇的用戶用電特征進行分析,有助于電網(wǎng)進行負荷建模、負荷特性模擬和需求側響應等工作。
(2)通過本文方法對負荷類型分析可知,愛爾蘭某地區(qū)存在4種不同的用電類型,分別是雙峰型、平峰型、單峰型和錯峰型,這也符合國內(nèi)部分地區(qū)負荷曲線的走勢。其中平峰型的需求側管理的潛力較小,錯峰型的需求側管理潛力較大,錯峰型用戶更有利于解決不同類用戶間的需求側管理。
針對海量化的數(shù)據(jù),考慮到高維數(shù)據(jù)同時具有不同類簇的特征,因此在后續(xù)的研究中可以通過對目標函數(shù)進行修改以適應復雜的簇結構,進一步提升算法的應用領域范圍。