徐毅,吳鳴,李廣瑋,王昕揚
(1.上海電力大學(xué) 電子與信息工程學(xué)院,上海 200090; 2.中國電力科學(xué)研究院有限公司,北京 100192)
近年來,隨著智能電網(wǎng)的深入和推進,越來越多的高級量測體系(Advanced Metering Infrastructure,AMI)投入運營中,電力負(fù)荷數(shù)據(jù)變得易于感知和測量,為電網(wǎng)公司提供了海量的用戶負(fù)荷數(shù)據(jù)[1]。通過聚類技術(shù)可以從大量的用戶負(fù)荷數(shù)據(jù)中挖掘出其典型的用電特征,能夠為電網(wǎng)公司實現(xiàn)負(fù)荷預(yù)測[2]、需求側(cè)管理[3]等方面提供強有力支撐。因此研究合理準(zhǔn)確的負(fù)荷曲線聚類方法具有十分重要的現(xiàn)實意義。
目前國內(nèi)外對負(fù)荷曲線的聚類大致上可分為直接法和間接法[4]。直接法是對經(jīng)采集過的負(fù)荷數(shù)據(jù)直接進行聚類,常見的聚類算法有K-means[5]、FCM、SOM等。但隨著負(fù)荷數(shù)據(jù)規(guī)模的不斷增長,直接法帶來了存儲和計算效率的雙重挑戰(zhàn)。
間接法可以解決這一矛盾。間接法是指先提取負(fù)荷曲線的特征,再根據(jù)其特征進行聚類分析。間接法可分為變換和降維兩種方法。常見的變換方法有離散小波變換[6]、離散傅里葉變換[7]等。降維是指將負(fù)荷數(shù)據(jù)維數(shù)進行降低,再進行聚類。例如文獻[8]采用了6個有明確物理意義的特征指標(biāo)作為負(fù)荷曲線降維的依據(jù),再利用加權(quán)K-means聚類方法進行聚類。文獻[9]采用主分量分析方法得到日負(fù)荷曲線的部分主要特征作為降維聚類的指標(biāo),再利用加權(quán)K-means方法進行聚類。文獻[10]采用奇異值分解方法將數(shù)據(jù)旋轉(zhuǎn)變換至新的坐標(biāo)系中,然后將各坐標(biāo)軸上的坐標(biāo)作為降維指標(biāo),再利用改進的K-means方法進行聚類。文獻[11]采用SAX算法對負(fù)荷曲線進行降維并提取特征,再運用改進AP聚類算法對負(fù)荷曲線進行聚類。文獻[12]采用主成分分析進行降維,再用四種聚類方法進行聚類,最后用共識矩陣對各聚類成員進行聚類融合。
上述選取的不同降維方法雖然都能進行有效的聚類,但在聚類過程中均存在兩個問題:(1)采用降維破壞了原本曲線之間的差異性,對原始曲線信息造成一定程度損失,可能會導(dǎo)致原本被分成一類的曲線通過降維被分成不同類別,進而會對曲線聚類的準(zhǔn)確度造成影響;(2)通過降維得到的指標(biāo)是有重要程度之分的,需要對其進行權(quán)重配置。
多維縮放(Multi-Dimensional Scaling,MDS)是一種典型的降維算法,它是保持了樣本在原始空間和低維空間的距離不改變?yōu)樵瓌t,最大程度地減小了數(shù)據(jù)“失真”的現(xiàn)象[13]。這樣可以很好的解決因降維后所導(dǎo)致的樣本間差異性降低的問題。
假設(shè)有n個用戶,每個用戶采集到m維數(shù)據(jù),可以計算出在原始m維空間中的距離矩陣D∈Rn×n(這里采用歐式距離),其中dij表示第i個用戶和第j個用戶之間的距離。若把數(shù)據(jù)降維到q維空間中去,得到所有用戶點在q維空間中的表示為矩陣Z∈Rn×q,其中第i行數(shù)據(jù)zi=[zi,1,zi,2,…,zi,q]表示第i個樣本,并且任意兩個用戶在q維空間中的距離等于原始空間中的距離。由此,可推導(dǎo)出滿足此條件矩陣Z的解析解[14]。
由保持距離原則可知:
(1)
假設(shè)低維空間中的樣本是中心化的,即:
(2)
對式(1)左右兩邊求和有:
(3)
(4)
(5)
定義內(nèi)積矩陣B=ZZT∈Rn×n,bij是矩陣B中第i行第j列的元素,即bij=zizTj。則由式(1)可知:
(6)
由式(2)~式(6)可得
(7)
對矩陣B做特征分解,得到:
B=VΛVT
(8)
式中Λ是由B的特征值生成的對角矩陣;V是特征向量作為列的矩陣。
由矩陣B的定義則有:
(9)
為了能實現(xiàn)降維,往往僅需降維后的距離與原始空間中的距離盡可能接近,而不必嚴(yán)格相等。若降到q維空間中去,則選取前q個最大的特征值及其所對應(yīng)的特征向量,得到Λq和Vq,則降維后的特征表示為:
(10)
求出矩陣B的特征值并按照從大到小(取前m個)排列為:λ1≥λ2≥…≥λq…≥λm
定義sq為累計貢獻率,其公式如下:
(11)
累計貢獻率越大,則說明降維后的矩陣保留了越多的信息。通常累計貢獻率達(dá)到95%即可確定降維的數(shù)目。
文中據(jù)預(yù)處理包括異常數(shù)據(jù)處理、數(shù)據(jù)歸一化處理和曲線平滑處理三部分。
2.1.1 異常數(shù)據(jù)處理
在數(shù)據(jù)采集的過程中,由于數(shù)據(jù)傳輸、裝置故障、線路等問題會產(chǎn)生異常數(shù)據(jù)[15]。對異常數(shù)據(jù)需要通過負(fù)荷變化率來判別,當(dāng)某條日負(fù)荷曲線的數(shù)據(jù)異常量超過10%時,需剔除;若小于10%時,則通過均值替換法進行修正。其計算方式如下:
設(shè)第i條曲線的第k個數(shù)據(jù)值xi,k為異常數(shù)據(jù)點,修正值為:
(12)
2.1.2 數(shù)據(jù)歸一化處理
由于采集到的日負(fù)荷曲線數(shù)據(jù)之間存在較大的差異,為消除負(fù)荷數(shù)量級對聚類效果的影響,因此要對數(shù)據(jù)進行歸一化處理。
通過歸一化可將用戶負(fù)荷特性數(shù)據(jù)壓縮在區(qū)間[0,1]中。文中用極值歸一化方法,表達(dá)式如下:
(13)
式中x(i,k)是經(jīng)采集過的第i條用電曲線在第k點的負(fù)荷數(shù)據(jù);x′(i,k)是經(jīng)歸一化后的第i條用電曲線在第k點的負(fù)荷數(shù)據(jù);x(i)max和x(i)min是第i條負(fù)荷曲線的最大、最小用電量。
2.1.3 曲線平滑處理
電網(wǎng)在實際運行時由于受到通信中斷、軟硬件故障、信號干擾等影響會使得負(fù)荷數(shù)據(jù)產(chǎn)生失真情況,導(dǎo)致負(fù)荷曲線出現(xiàn)較大波動,從而影響聚類結(jié)果。而高斯濾波法可以更有效地“消除干擾”,進一步突出曲線形狀,反映出曲線的總體趨勢[16]。故采用高斯法處理數(shù)據(jù),經(jīng)過處理前后的負(fù)荷曲線如圖1所示。
圖1 負(fù)荷曲線的平滑處理
2.2.1 基于CRITIC—熵權(quán)法的指標(biāo)權(quán)重配置方法
基于MDS的理論,若降低到q維空間中去,則取出前q個最大的特征值。這說明特征值的大小反映出了該維空間的重要程度,也同時說明降維指標(biāo)是有重要程度之分的。若將降維后的矩陣直接進行K-means聚類,則會忽略降維指標(biāo)的重要程度,將在很大程度上影響負(fù)荷聚類質(zhì)量。故需要進行降維指標(biāo)權(quán)重配置。
單一的CRITIC法未能考慮指標(biāo)間的差異性對指標(biāo)權(quán)重的影響,而熵權(quán)法則是充分運用指標(biāo)的數(shù)據(jù)信息的差異來確定指標(biāo)權(quán)重,可以彌補這一不足;但是單一的熵權(quán)法又容易受到指標(biāo)數(shù)值變動的影響,指標(biāo)值的變動很小或者很突然地變大變小會使得熵權(quán)法用起來有局限。故本文將兩種方法相融合,優(yōu)勢互補,構(gòu)建了基于CRITIC—熵權(quán)法的指標(biāo)權(quán)重配置方法[17]。
設(shè)降維后的矩陣Z=(zij)n×q,i=1,2,…,n;j=1,2,…,q。則熵權(quán)法步驟如下:
(1)計算信息熵
(14)
(15)
式中Pij是第i個用戶在第j個降維指標(biāo)下的貢獻度;Ej是第j個降維指標(biāo)的信息熵。
(2)確定權(quán)重
(16)
式中wj是第j個降維指標(biāo)的權(quán)重。
CRITIC法步驟如下:
(1)計算指標(biāo)信息量
(17)
式中Cj是第j個降維指標(biāo)所含有的數(shù)據(jù)信息量;δj是第j個降維指標(biāo)所含有的數(shù)據(jù)標(biāo)準(zhǔn)差;rkj是k、j兩個降維指標(biāo)之間的相關(guān)系數(shù)。
(2) 確定權(quán)重
(18)
進而得到降維指標(biāo)的綜合權(quán)重為:
(19)
由此即可確定權(quán)重向量W=[W1,W2,…,Wq]。
2.2.2 改進的K-means聚類方法
以降維后的矩陣Z為輸入,以歐式距離作為相似性判據(jù),進行聚類,其處理過程如下:
Step2:樣本分類。計算每條日負(fù)荷曲線到K個子聚類中心的加權(quán)歐式距離,再將該條日負(fù)荷曲線劃分到距離它最近的子聚類中心。從樣本zi到第j個聚類中心zj=[zj,1,zj,2,…,zj,q]的加權(quán)歐式距離可由式(20)計算:
(20)
Step3:更新聚類中心。根據(jù)Step2中所得到的結(jié)果,對每個類簇中的所有日負(fù)荷曲線求取平均值,并將其作為各類簇的新聚類中心;
Step4:迭代計算。計算聚類中心是否收斂,若未收斂則跳轉(zhuǎn)至Step2,重復(fù)步驟Step2和Step3;若收斂則算法結(jié)束。
聚類有效性檢驗是使用聚類有效性指標(biāo),對聚類后的結(jié)果進行評價,以此來明確最優(yōu)類簇數(shù)的過程[18]。常見的聚類有效性指標(biāo)有輪廓系數(shù)(Silhouette Coefficient, SC)、CHI指標(biāo)(Calinski-Harabasz Index,CHI)、戴維森堡丁指數(shù)(Davies-Bouldin Index,DBI)。
由于SC是通過極值點來判斷最優(yōu)類簇數(shù),而極值點相比較于拐點從視覺上更易覺察出;此外SC的內(nèi)聚度指標(biāo)和分離度指標(biāo)使用的是樣本的平均歐式距離,穩(wěn)定性強,不易受到類簇中心干擾,所以采用SC作為聚類有效性指標(biāo)[19]。
設(shè)曲線被分成K個類簇U1,U2,…,UK,當(dāng)計及權(quán)重向量W時,則對于第i個樣本其對應(yīng)的向量修正輪廓系數(shù)為:
(21)
其中:
式中a(i)為i向量到同一簇內(nèi)其他點不相似程度的平均值,該值越小,簇內(nèi)越緊湊;b(i)為i向量到其他簇的平均不相似程度的最小值,該值越大,簇間分離程度越高。
將所有樣本的輪廓系數(shù)求平均值,就是該聚類結(jié)果的總輪廓系數(shù)Sn(i):
(22)
Sn(i)可用于評估聚類的總體質(zhì)量,其值越大就表明聚類的效果越好,對應(yīng)于最大值時的聚類數(shù)目K就是該聚類結(jié)果的最優(yōu)類簇數(shù)?;贛DS的負(fù)荷聚類算法的流程圖如圖2所示。
圖2 基于MDS的負(fù)荷聚類流程圖
文中實驗數(shù)據(jù)集來自于SEAI發(fā)布的愛爾蘭智能電表實際測量數(shù)據(jù),其覆蓋了2009年~2011年6 369個家庭用戶及中小型企業(yè)用戶,負(fù)荷數(shù)據(jù)每30 min采集一次,每個用戶每天共采集48個數(shù)據(jù)點[20]。
本文共選取2 945戶負(fù)荷數(shù)據(jù)作為樣本進行實驗,經(jīng)過數(shù)據(jù)預(yù)處理后,最終獲得了共計2 732條有效的日負(fù)荷曲線,構(gòu)成了2 732×48階矩陣A。
采用MDS降維并求累計貢獻率sq,如圖3所示。
圖3 累計貢獻率
由圖3可知,當(dāng)降維指標(biāo)數(shù)目達(dá)到3時其累計貢獻率可達(dá)到95%以上,故選取降維指標(biāo)數(shù)目q=3,由此得到2 732×3階降維矩陣Z。再經(jīng)熵權(quán)法確定權(quán)重,得權(quán)重向量W=[0.780 6,0.084 5,0.134 9]。采用改進K-means算法對矩陣Z進行聚類,經(jīng)過計算得出總的輪廓系數(shù)Sn(i)和聚類數(shù)目K之間的曲線如圖4所示。
圖4 基于MDS降維的聚類指標(biāo)曲線
由圖4可知當(dāng)K=5時,Sn(i)取最大值為0.935 4,此時聚類效果最好,故最優(yōu)類簇數(shù)為5。這時得到的日負(fù)荷曲線聚類結(jié)果如圖5所示。
圖5 基于MDS降維的日負(fù)荷曲線聚類結(jié)果
計算每類簇中所有日負(fù)荷曲線的平均值,并將其作為該類簇負(fù)荷的典型日負(fù)荷曲線,則得到的結(jié)果如圖6所示。
圖6 基于MDS降維的典型日負(fù)荷曲線圖
在圖6中,各類簇曲線按照順序依次呈避峰型負(fù)荷、平穩(wěn)型負(fù)荷、單峰型負(fù)荷、雙峰型負(fù)荷和錯峰型負(fù)荷。在聚類結(jié)果中屬于各類簇的曲線數(shù)目依次為566,222,819,220和605。
類簇1為避峰型負(fù)荷,主要用電量在18:00-次日6:00期間,這類負(fù)荷主要是夜間營業(yè)用電量大,符合酒店、酒吧、KTV等的用電特征。類簇2為平穩(wěn)型負(fù)荷,全天用電量較為平坦,這類負(fù)荷應(yīng)為一些保障民生生活類的負(fù)荷,全天無休,如供電、供暖等。類簇3為單峰型負(fù)荷,表現(xiàn)為在白天9:00-17:00期間用電量大,負(fù)荷曲線較為平滑,這類負(fù)荷包括學(xué)校、醫(yī)院、辦公樓等。類簇4為雙峰型負(fù)荷,兩個負(fù)荷峰期集中在9:00-12:00和14:00-17:00期間,多為政府機關(guān)、企事業(yè)辦事機構(gòu)等行業(yè)性用戶。類簇5為錯峰型負(fù)荷,主要用電量在0:00-6:00和15:00-24:00期間,在凌晨左右有小范圍的波動,所以主要呈夜間用電特征,這類負(fù)荷主要為家庭用戶白天不在家用電在晚上,同時符合一些用電量大的企業(yè)利用峰谷電價在電價低谷時安排企業(yè)進行生產(chǎn)的習(xí)慣。
各類簇曲線走勢符合數(shù)據(jù)集的特征,故基于MDS降維的聚類算法能夠較為準(zhǔn)確地對日負(fù)荷曲線進行分類,分類結(jié)果較為合理。
將原始數(shù)據(jù)經(jīng)數(shù)據(jù)預(yù)處理及曲線平滑處理后,直接采用以48個數(shù)據(jù)點的數(shù)據(jù)為輸入,利用傳統(tǒng)K-means算法進行聚類。此時得出總的輪廓系數(shù)Sn(i)和聚類結(jié)果分別如圖7、圖8所示。
圖7 基于K-means降維的聚類指標(biāo)曲線
圖8 基于K-means降維的日負(fù)荷曲線聚類結(jié)果
此時得到屬于各類簇的曲線數(shù)目依次為570,222,815,224和601。與采用MDS降維聚類的結(jié)果相比可知雙峰型負(fù)荷和錯峰型負(fù)荷顯得雜亂無章,
負(fù)荷曲線不平滑。
將使用MDS降維聚類得到的輪廓系數(shù)、運行時間等數(shù)據(jù)和采用傳統(tǒng)K-means聚類算法得到的運行數(shù)據(jù)作對比,結(jié)果見表1所示。
表1 MDS算法和k-means算法聚類結(jié)果對比
由表1可知,兩種算法的最優(yōu)類簇數(shù)都是5,說明分類數(shù)目選擇合理。在采用MDS降維算法時的總輪廓系數(shù)Sn(i)略大于傳統(tǒng)K-menas聚類算法,則前者的聚類質(zhì)量優(yōu)于后者,這是因為采用MDS降維提取出負(fù)荷最本質(zhì)的特征,忽略了無關(guān)緊要的信息的干擾,同時也說明了采用MDS降維聚類的準(zhǔn)確度高于采用傳統(tǒng)K-menas聚類。MDS降維聚類算法的程序總運行時間約為傳統(tǒng)K-menas聚類算法7/11。因此,使用MDS降維聚類算法的分類數(shù)選擇準(zhǔn)確,分類結(jié)果合理,并且在聚類準(zhǔn)確度和聚類時間兩方面均優(yōu)于傳統(tǒng)K-means聚類算法。
綜上,MDS降維聚類算法較傳統(tǒng)K-means方法更能準(zhǔn)確地反映用戶的功耗特性,具有更好的技術(shù)應(yīng)用價值。
文章提出一種基于多維縮放的日負(fù)荷曲線聚類方法,通過多維縮放進行降維處理、CRITIC—熵權(quán)法確定降維指標(biāo)的權(quán)重并采用加權(quán)歐式距離作為相似性判據(jù),對日負(fù)荷曲線進行聚類。算例結(jié)果顯示該降維聚類方法應(yīng)用于日負(fù)荷曲線聚類提高了聚類的準(zhǔn)確度,提升了聚類的質(zhì)量。
文中使用的是K-means聚類算法進行聚類,初始的聚類中心隨機選取,易陷于局部最優(yōu),后續(xù)研究可以提出一種選擇初始的聚類中心的方法,亦可將MDS降維和其他聚類算法相結(jié)合。此外,研究方法是將其應(yīng)用于負(fù)荷曲線聚類領(lǐng)域,其關(guān)注點是曲線形態(tài)的走勢,后續(xù)研究可以將文中方法應(yīng)用于其他領(lǐng)域當(dāng)中。