亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多維縮放的日負(fù)荷曲線聚類分析

2022-10-11 01:36:58徐毅吳鳴李廣瑋王昕揚(yáng)

電測與儀表 2022年10期

徐毅，吳鳴，李廣瑋，王昕揚(yáng)

(1.上海電力大學(xué) 電子與信息工程學(xué)院，上海 200090； 2.中國電力科學(xué)研究院有限公司，北京 100192)

0 引言

近年來，隨著智能電網(wǎng)的深入和推進(jìn)，越來越多的高級量測體系(Advanced Metering Infrastructure,AMI)投入運(yùn)營中，電力負(fù)荷數(shù)據(jù)變得易于感知和測量，為電網(wǎng)公司提供了海量的用戶負(fù)荷數(shù)據(jù)[1]。通過聚類技術(shù)可以從大量的用戶負(fù)荷數(shù)據(jù)中挖掘出其典型的用電特征，能夠?yàn)殡娋W(wǎng)公司實(shí)現(xiàn)負(fù)荷預(yù)測[2]、需求側(cè)管理[3]等方面提供強(qiáng)有力支撐。因此研究合理準(zhǔn)確的負(fù)荷曲線聚類方法具有十分重要的現(xiàn)實(shí)意義。

目前國內(nèi)外對負(fù)荷曲線的聚類大致上可分為直接法和間接法[4]。直接法是對經(jīng)采集過的負(fù)荷數(shù)據(jù)直接進(jìn)行聚類，常見的聚類算法有K-means[5]、FCM、SOM等。但隨著負(fù)荷數(shù)據(jù)規(guī)模的不斷增長，直接法帶來了存儲和計算效率的雙重挑戰(zhàn)。

間接法可以解決這一矛盾。間接法是指先提取負(fù)荷曲線的特征，再根據(jù)其特征進(jìn)行聚類分析。間接法可分為變換和降維兩種方法。常見的變換方法有離散小波變換[6]、離散傅里葉變換[7]等。降維是指將負(fù)荷數(shù)據(jù)維數(shù)進(jìn)行降低，再進(jìn)行聚類。例如文獻(xiàn)[8]采用了6個有明確物理意義的特征指標(biāo)作為負(fù)荷曲線降維的依據(jù)，再利用加權(quán)K-means聚類方法進(jìn)行聚類。文獻(xiàn)[9]采用主分量分析方法得到日負(fù)荷曲線的部分主要特征作為降維聚類的指標(biāo)，再利用加權(quán)K-means方法進(jìn)行聚類。文獻(xiàn)[10]采用奇異值分解方法將數(shù)據(jù)旋轉(zhuǎn)變換至新的坐標(biāo)系中，然后將各坐標(biāo)軸上的坐標(biāo)作為降維指標(biāo)，再利用改進(jìn)的K-means方法進(jìn)行聚類。文獻(xiàn)[11]采用SAX算法對負(fù)荷曲線進(jìn)行降維并提取特征，再運(yùn)用改進(jìn)AP聚類算法對負(fù)荷曲線進(jìn)行聚類。文獻(xiàn)[12]采用主成分分析進(jìn)行降維，再用四種聚類方法進(jìn)行聚類，最后用共識矩陣對各聚類成員進(jìn)行聚類融合。

上述選取的不同降維方法雖然都能進(jìn)行有效的聚類，但在聚類過程中均存在兩個問題：(1)采用降維破壞了原本曲線之間的差異性，對原始曲線信息造成一定程度損失，可能會導(dǎo)致原本被分成一類的曲線通過降維被分成不同類別，進(jìn)而會對曲線聚類的準(zhǔn)確度造成影響；(2)通過降維得到的指標(biāo)是有重要程度之分的，需要對其進(jìn)行權(quán)重配置。

多維縮放(Multi-Dimensional Scaling，MDS)是一種典型的降維算法，它是保持了樣本在原始空間和低維空間的距離不改變?yōu)樵瓌t，最大程度地減小了數(shù)據(jù)“失真”的現(xiàn)象[13]。這樣可以很好的解決因降維后所導(dǎo)致的樣本間差異性降低的問題。

1 負(fù)荷降維聚類理論

1.1 MDS理論

假設(shè)有n個用戶，每個用戶采集到m維數(shù)據(jù)，可以計算出在原始m維空間中的距離矩陣D∈Rn×n(這里采用歐式距離)，其中dij表示第i個用戶和第j個用戶之間的距離。若把數(shù)據(jù)降維到q維空間中去，得到所有用戶點(diǎn)在q維空間中的表示為矩陣Z∈Rn×q，其中第i行數(shù)據(jù)zi=[zi,1,zi,2,…,zi,q]表示第i個樣本，并且任意兩個用戶在q維空間中的距離等于原始空間中的距離。由此，可推導(dǎo)出滿足此條件矩陣Z的解析解[14]。

由保持距離原則可知：

(1)

假設(shè)低維空間中的樣本是中心化的，即：

(2)

對式(1)左右兩邊求和有:

(3)

(4)

(5)

定義內(nèi)積矩陣B=ZZT∈Rn×n，bij是矩陣B中第i行第j列的元素，即bij=zizTj。則由式(1)可知：

(6)

由式(2)～式(6)可得

(7)

對矩陣B做特征分解，得到：

B=VΛVT

(8)

式中Λ是由B的特征值生成的對角矩陣；V是特征向量作為列的矩陣。

由矩陣B的定義則有：

(9)

為了能實(shí)現(xiàn)降維，往往僅需降維后的距離與原始空間中的距離盡可能接近，而不必嚴(yán)格相等。若降到q維空間中去，則選取前q個最大的特征值及其所對應(yīng)的特征向量，得到Λq和Vq，則降維后的特征表示為：

(10)

1.2 降維指標(biāo)數(shù)目的確定

求出矩陣B的特征值并按照從大到小(取前m個)排列為：λ1≥λ2≥…≥λq…≥λm

定義sq為累計貢獻(xiàn)率，其公式如下：

(11)

累計貢獻(xiàn)率越大，則說明降維后的矩陣保留了越多的信息。通常累計貢獻(xiàn)率達(dá)到95%即可確定降維的數(shù)目。

2 基于MDS的負(fù)荷聚類算法

2.1 數(shù)據(jù)預(yù)處理

文中據(jù)預(yù)處理包括異常數(shù)據(jù)處理、數(shù)據(jù)歸一化處理和曲線平滑處理三部分。

2.1.1 異常數(shù)據(jù)處理

在數(shù)據(jù)采集的過程中，由于數(shù)據(jù)傳輸、裝置故障、線路等問題會產(chǎn)生異常數(shù)據(jù)[15]。對異常數(shù)據(jù)需要通過負(fù)荷變化率來判別，當(dāng)某條日負(fù)荷曲線的數(shù)據(jù)異常量超過10%時，需剔除；若小于10%時，則通過均值替換法進(jìn)行修正。其計算方式如下：

設(shè)第i條曲線的第k個數(shù)據(jù)值xi,k為異常數(shù)據(jù)點(diǎn)，修正值為：

(12)

2.1.2 數(shù)據(jù)歸一化處理

由于采集到的日負(fù)荷曲線數(shù)據(jù)之間存在較大的差異，為消除負(fù)荷數(shù)量級對聚類效果的影響，因此要對數(shù)據(jù)進(jìn)行歸一化處理。

通過歸一化可將用戶負(fù)荷特性數(shù)據(jù)壓縮在區(qū)間[0,1]中。文中用極值歸一化方法，表達(dá)式如下：

(13)

式中x(i,k)是經(jīng)采集過的第i條用電曲線在第k點(diǎn)的負(fù)荷數(shù)據(jù);x′(i,k)是經(jīng)歸一化后的第i條用電曲線在第k點(diǎn)的負(fù)荷數(shù)據(jù)；x(i)max和x(i)min是第i條負(fù)荷曲線的最大、最小用電量。

2.1.3 曲線平滑處理

電網(wǎng)在實(shí)際運(yùn)行時由于受到通信中斷、軟硬件故障、信號干擾等影響會使得負(fù)荷數(shù)據(jù)產(chǎn)生失真情況，導(dǎo)致負(fù)荷曲線出現(xiàn)較大波動，從而影響聚類結(jié)果。而高斯濾波法可以更有效地“消除干擾”，進(jìn)一步突出曲線形狀，反映出曲線的總體趨勢[16]。故采用高斯法處理數(shù)據(jù)，經(jīng)過處理前后的負(fù)荷曲線如圖1所示。

圖1 負(fù)荷曲線的平滑處理

2.2 加權(quán)K-means聚類

2.2.1 基于CRITIC—熵權(quán)法的指標(biāo)權(quán)重配置方法

基于MDS的理論，若降低到q維空間中去，則取出前q個最大的特征值。這說明特征值的大小反映出了該維空間的重要程度，也同時說明降維指標(biāo)是有重要程度之分的。若將降維后的矩陣直接進(jìn)行K-means聚類，則會忽略降維指標(biāo)的重要程度，將在很大程度上影響負(fù)荷聚類質(zhì)量。故需要進(jìn)行降維指標(biāo)權(quán)重配置。

單一的CRITIC法未能考慮指標(biāo)間的差異性對指標(biāo)權(quán)重的影響，而熵權(quán)法則是充分運(yùn)用指標(biāo)的數(shù)據(jù)信息的差異來確定指標(biāo)權(quán)重，可以彌補(bǔ)這一不足；但是單一的熵權(quán)法又容易受到指標(biāo)數(shù)值變動的影響，指標(biāo)值的變動很小或者很突然地變大變小會使得熵權(quán)法用起來有局限。故本文將兩種方法相融合，優(yōu)勢互補(bǔ)，構(gòu)建了基于CRITIC—熵權(quán)法的指標(biāo)權(quán)重配置方法[17]。

設(shè)降維后的矩陣Z=(zij)n×q，i=1,2,…,n;j=1,2,…,q。則熵權(quán)法步驟如下：

(1)計算信息熵

(14)

(15)

式中Pij是第i個用戶在第j個降維指標(biāo)下的貢獻(xiàn)度；Ej是第j個降維指標(biāo)的信息熵。

(2)確定權(quán)重

(16)

式中wj是第j個降維指標(biāo)的權(quán)重。

CRITIC法步驟如下：

(1)計算指標(biāo)信息量

(17)

式中Cj是第j個降維指標(biāo)所含有的數(shù)據(jù)信息量；δj是第j個降維指標(biāo)所含有的數(shù)據(jù)標(biāo)準(zhǔn)差；rkj是k、j兩個降維指標(biāo)之間的相關(guān)系數(shù)。

(2) 確定權(quán)重

(18)

進(jìn)而得到降維指標(biāo)的綜合權(quán)重為：

(19)

由此即可確定權(quán)重向量W=[W1,W2,…,Wq]。

2.2.2 改進(jìn)的K-means聚類方法

以降維后的矩陣Z為輸入，以歐式距離作為相似性判據(jù)，進(jìn)行聚類，其處理過程如下：

Step2：樣本分類。計算每條日負(fù)荷曲線到K個子聚類中心的加權(quán)歐式距離，再將該條日負(fù)荷曲線劃分到距離它最近的子聚類中心。從樣本zi到第j個聚類中心zj=[zj,1,zj,2,…,zj,q]的加權(quán)歐式距離可由式(20)計算：

(20)

Step3：更新聚類中心。根據(jù)Step2中所得到的結(jié)果，對每個類簇中的所有日負(fù)荷曲線求取平均值，并將其作為各類簇的新聚類中心；

Step4：迭代計算。計算聚類中心是否收斂，若未收斂則跳轉(zhuǎn)至Step2，重復(fù)步驟Step2和Step3；若收斂則算法結(jié)束。

2.3 聚類有效性評價指標(biāo)

聚類有效性檢驗(yàn)是使用聚類有效性指標(biāo)，對聚類后的結(jié)果進(jìn)行評價，以此來明確最優(yōu)類簇數(shù)的過程[18]。常見的聚類有效性指標(biāo)有輪廓系數(shù)(Silhouette Coefficient, SC)、CHI指標(biāo)(Calinski-Harabasz Index，CHI)、戴維森堡丁指數(shù)(Davies-Bouldin Index，DBI)。

由于SC是通過極值點(diǎn)來判斷最優(yōu)類簇數(shù)，而極值點(diǎn)相比較于拐點(diǎn)從視覺上更易覺察出；此外SC的內(nèi)聚度指標(biāo)和分離度指標(biāo)使用的是樣本的平均歐式距離，穩(wěn)定性強(qiáng)，不易受到類簇中心干擾，所以采用SC作為聚類有效性指標(biāo)[19]。

設(shè)曲線被分成K個類簇U1,U2,…,UK，當(dāng)計及權(quán)重向量W時，則對于第i個樣本其對應(yīng)的向量修正輪廓系數(shù)為：

(21)

其中：

式中a(i)為i向量到同一簇內(nèi)其他點(diǎn)不相似程度的平均值，該值越小，簇內(nèi)越緊湊；b(i)為i向量到其他簇的平均不相似程度的最小值，該值越大，簇間分離程度越高。

將所有樣本的輪廓系數(shù)求平均值，就是該聚類結(jié)果的總輪廓系數(shù)Sn(i)：

(22)

Sn(i)可用于評估聚類的總體質(zhì)量，其值越大就表明聚類的效果越好，對應(yīng)于最大值時的聚類數(shù)目K就是該聚類結(jié)果的最優(yōu)類簇數(shù)?；贛DS的負(fù)荷聚類算法的流程圖如圖2所示。

圖2 基于MDS的負(fù)荷聚類流程圖

3 算例分析

3.1 數(shù)據(jù)集來源

文中實(shí)驗(yàn)數(shù)據(jù)集來自于SEAI發(fā)布的愛爾蘭智能電表實(shí)際測量數(shù)據(jù)，其覆蓋了2009年～2011年6 369個家庭用戶及中小型企業(yè)用戶，負(fù)荷數(shù)據(jù)每30 min采集一次，每個用戶每天共采集48個數(shù)據(jù)點(diǎn)[20]。

3.2 電網(wǎng)實(shí)際日負(fù)荷曲線聚類

本文共選取2 945戶負(fù)荷數(shù)據(jù)作為樣本進(jìn)行實(shí)驗(yàn)，經(jīng)過數(shù)據(jù)預(yù)處理后，最終獲得了共計2 732條有效的日負(fù)荷曲線，構(gòu)成了2 732×48階矩陣A。

采用MDS降維并求累計貢獻(xiàn)率sq，如圖3所示。

圖3 累計貢獻(xiàn)率

由圖3可知，當(dāng)降維指標(biāo)數(shù)目達(dá)到3時其累計貢獻(xiàn)率可達(dá)到95%以上，故選取降維指標(biāo)數(shù)目q=3，由此得到2 732×3階降維矩陣Z。再經(jīng)熵權(quán)法確定權(quán)重，得權(quán)重向量W=[0.780 6,0.084 5,0.134 9]。采用改進(jìn)K-means算法對矩陣Z進(jìn)行聚類，經(jīng)過計算得出總的輪廓系數(shù)Sn(i)和聚類數(shù)目K之間的曲線如圖4所示。

圖4 基于MDS降維的聚類指標(biāo)曲線

由圖4可知當(dāng)K=5時，Sn(i)取最大值為0.935 4，此時聚類效果最好，故最優(yōu)類簇數(shù)為5。這時得到的日負(fù)荷曲線聚類結(jié)果如圖5所示。

圖5 基于MDS降維的日負(fù)荷曲線聚類結(jié)果

計算每類簇中所有日負(fù)荷曲線的平均值，并將其作為該類簇負(fù)荷的典型日負(fù)荷曲線，則得到的結(jié)果如圖6所示。

圖6 基于MDS降維的典型日負(fù)荷曲線圖

在圖6中，各類簇曲線按照順序依次呈避峰型負(fù)荷、平穩(wěn)型負(fù)荷、單峰型負(fù)荷、雙峰型負(fù)荷和錯峰型負(fù)荷。在聚類結(jié)果中屬于各類簇的曲線數(shù)目依次為566，222，819，220和605。

類簇1為避峰型負(fù)荷，主要用電量在18：00-次日6：00期間，這類負(fù)荷主要是夜間營業(yè)用電量大，符合酒店、酒吧、KTV等的用電特征。類簇2為平穩(wěn)型負(fù)荷，全天用電量較為平坦，這類負(fù)荷應(yīng)為一些保障民生生活類的負(fù)荷，全天無休，如供電、供暖等。類簇3為單峰型負(fù)荷，表現(xiàn)為在白天9：00-17：00期間用電量大，負(fù)荷曲線較為平滑，這類負(fù)荷包括學(xué)校、醫(yī)院、辦公樓等。類簇4為雙峰型負(fù)荷，兩個負(fù)荷峰期集中在9：00-12：00和14：00-17：00期間，多為政府機(jī)關(guān)、企事業(yè)辦事機(jī)構(gòu)等行業(yè)性用戶。類簇5為錯峰型負(fù)荷，主要用電量在0：00-6：00和15：00-24：00期間，在凌晨左右有小范圍的波動，所以主要呈夜間用電特征，這類負(fù)荷主要為家庭用戶白天不在家用電在晚上，同時符合一些用電量大的企業(yè)利用峰谷電價在電價低谷時安排企業(yè)進(jìn)行生產(chǎn)的習(xí)慣。

各類簇曲線走勢符合數(shù)據(jù)集的特征，故基于MDS降維的聚類算法能夠較為準(zhǔn)確地對日負(fù)荷曲線進(jìn)行分類，分類結(jié)果較為合理。

3.3 與傳統(tǒng)K-means聚類算法的對比

將原始數(shù)據(jù)經(jīng)數(shù)據(jù)預(yù)處理及曲線平滑處理后，直接采用以48個數(shù)據(jù)點(diǎn)的數(shù)據(jù)為輸入，利用傳統(tǒng)K-means算法進(jìn)行聚類。此時得出總的輪廓系數(shù)Sn(i)和聚類結(jié)果分別如圖7、圖8所示。

圖7 基于K-means降維的聚類指標(biāo)曲線

圖8 基于K-means降維的日負(fù)荷曲線聚類結(jié)果

此時得到屬于各類簇的曲線數(shù)目依次為570，222，815，224和601。與采用MDS降維聚類的結(jié)果相比可知雙峰型負(fù)荷和錯峰型負(fù)荷顯得雜亂無章，

負(fù)荷曲線不平滑。

將使用MDS降維聚類得到的輪廓系數(shù)、運(yùn)行時間等數(shù)據(jù)和采用傳統(tǒng)K-means聚類算法得到的運(yùn)行數(shù)據(jù)作對比，結(jié)果見表1所示。

表1 MDS算法和k-means算法聚類結(jié)果對比

由表1可知，兩種算法的最優(yōu)類簇數(shù)都是5，說明分類數(shù)目選擇合理。在采用MDS降維算法時的總輪廓系數(shù)Sn(i)略大于傳統(tǒng)K-menas聚類算法，則前者的聚類質(zhì)量優(yōu)于后者，這是因?yàn)椴捎肕DS降維提取出負(fù)荷最本質(zhì)的特征，忽略了無關(guān)緊要的信息的干擾，同時也說明了采用MDS降維聚類的準(zhǔn)確度高于采用傳統(tǒng)K-menas聚類。MDS降維聚類算法的程序總運(yùn)行時間約為傳統(tǒng)K-menas聚類算法7/11。因此，使用MDS降維聚類算法的分類數(shù)選擇準(zhǔn)確，分類結(jié)果合理，并且在聚類準(zhǔn)確度和聚類時間兩方面均優(yōu)于傳統(tǒng)K-means聚類算法。

綜上，MDS降維聚類算法較傳統(tǒng)K-means方法更能準(zhǔn)確地反映用戶的功耗特性，具有更好的技術(shù)應(yīng)用價值。

4 結(jié)束語

文章提出一種基于多維縮放的日負(fù)荷曲線聚類方法，通過多維縮放進(jìn)行降維處理、CRITIC—熵權(quán)法確定降維指標(biāo)的權(quán)重并采用加權(quán)歐式距離作為相似性判據(jù)，對日負(fù)荷曲線進(jìn)行聚類。算例結(jié)果顯示該降維聚類方法應(yīng)用于日負(fù)荷曲線聚類提高了聚類的準(zhǔn)確度，提升了聚類的質(zhì)量。

文中使用的是K-means聚類算法進(jìn)行聚類，初始的聚類中心隨機(jī)選取，易陷于局部最優(yōu)，后續(xù)研究可以提出一種選擇初始的聚類中心的方法，亦可將MDS降維和其他聚類算法相結(jié)合。此外，研究方法是將其應(yīng)用于負(fù)荷曲線聚類領(lǐng)域，其關(guān)注點(diǎn)是曲線形態(tài)的走勢，后續(xù)研究可以將文中方法應(yīng)用于其他領(lǐng)域當(dāng)中。

電測與儀表2022年10期

電測與儀表的其它文章: 基于多源數(shù)據(jù)及多維故障診斷空間的快速智能電網(wǎng)故障診斷方案; 基于參數(shù)估計的配電網(wǎng)載波通信異常信號識別方法; 煤改電智能服務(wù)研究與應(yīng)用; 考慮量測相關(guān)性的容積卡爾曼濾波動態(tài)狀態(tài)估計; 基于改進(jìn)粒子群優(yōu)化算法的負(fù)荷分配方法研究; 基于虛擬同步機(jī)的微電網(wǎng)分布式一致性經(jīng)濟(jì)控制策略