亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CK-means算法的用戶用電負(fù)荷聚類分析

2021-11-17 07:32:52程江洲

計(jì)算機(jī)仿真 2021年7期

關(guān)鍵詞：用戶

程江洲，何艷，鮑剛，潘飛

(三峽大學(xué)電氣與新能源學(xué)院，湖北宜昌 443000)

1 引言

隨著我國(guó)電力市場(chǎng)的進(jìn)一步改革，許多電力公司都想研究消費(fèi)者的需求行為，提高服務(wù)質(zhì)量。掌握用戶用電行為的信息，快速響應(yīng)市場(chǎng)變化、客戶多樣化及個(gè)性化用戶需求，可為實(shí)時(shí)或現(xiàn)貨市場(chǎng)的參與者提供準(zhǔn)確的需求側(cè)管理算法[1]。本文旨在通過兩種無監(jiān)督學(xué)習(xí)方法的結(jié)合，并利用最大加權(quán)乘積法改進(jìn)閾值不確定的問題，總結(jié)用戶用電負(fù)荷曲線的特征，并計(jì)算代表每個(gè)聚類組的基線負(fù)荷[2]。

現(xiàn)代電力系統(tǒng)正朝著更可持續(xù)的方向發(fā)展，導(dǎo)致電網(wǎng)側(cè)積累了海量數(shù)據(jù)，由于現(xiàn)有聚類分析技術(shù)算法單一不可避免地降低了數(shù)據(jù)的利用率[3]。文獻(xiàn)[4]提出一種基于聚類結(jié)果的評(píng)價(jià)指標(biāo)及復(fù)雜程度的來確定K-means算法的初始中心及聚類數(shù)目的方法。文獻(xiàn)[5]提出一種新的分布式聚類方法，基于自適應(yīng)K-means算法對(duì)海量用戶的用電特性進(jìn)行感知分析。文獻(xiàn)[6]提出一種改進(jìn)的K均值算法，引入Kl指數(shù)來確定最優(yōu)聚類中心點(diǎn)來完成聚類分析，提取出典型用戶用電負(fù)荷曲線。文獻(xiàn)[7]提出了一種數(shù)據(jù)采樣和K均值預(yù)聚類的方法，首先通過多次數(shù)據(jù)采樣并采用K均值算法生成聚類結(jié)果，其次計(jì)算聚類結(jié)果的交集來構(gòu)造加權(quán)連通圖，最后得到聚類中心。然而，該方法缺乏對(duì)數(shù)據(jù)集總體樣本分布的考慮，具有一定的局限性和不穩(wěn)定性。文獻(xiàn)[8]提出用AP算法確定聚類數(shù)K上限的方法，但沒有給出確定最佳K值的具體方法。文獻(xiàn)[9]中提出用K-means-u*算法來改進(jìn)K-means++算法的局限性，但算法變得更復(fù)雜且不適用數(shù)據(jù)量過大的領(lǐng)域。K-means算法作為一種常用的聚類算法，其因操作簡(jiǎn)單、原理易懂，廣泛被應(yīng)用于聚類分析領(lǐng)域[10]。但其也存在以下問題：必須事先明確聚類數(shù)K值的大小、對(duì)初始聚類中心的選取要求高、容易收斂到局部最優(yōu)解，導(dǎo)致錯(cuò)過全局最優(yōu)解。

綜上，為了克服上述問題，國(guó)內(nèi)外學(xué)者將多種聚類算法進(jìn)行結(jié)合，做到互補(bǔ)互助揚(yáng)長(zhǎng)避短[11]。本文首先對(duì)樣本密度的K-means聚類方法進(jìn)行基本描述，較改進(jìn)前算法分析對(duì)比可知數(shù)據(jù)集的最優(yōu)值K和初始聚類中心由密度冠層算法獲得，可作為K均值算法的輸入?yún)?shù)，解決了K值的確定和初始聚類中心的選擇這兩個(gè)難題；最后為了驗(yàn)證該模型，選取江西某地的216名用戶為期一個(gè)月的負(fù)荷數(shù)據(jù)進(jìn)行仿真，通過與兩種典型的聚類方法進(jìn)行比較，并用不同的有效性指標(biāo)來評(píng)價(jià)它們的聚類性能，實(shí)驗(yàn)結(jié)果證明，改進(jìn)后的新算法在準(zhǔn)確性、穩(wěn)定性和有效性方面都優(yōu)于其它算法。

2 CK-means算法

2.1 Canopy算法原理

Canopy算法作為一種無監(jiān)督的預(yù)聚類算法，常被用作K-means算法或?qū)哟尉垲愃惴ǖ念A(yù)處理步驟[12]，具體步驟如下：

步驟1：給出數(shù)據(jù)集D={X1，X2，….，Xn}，設(shè)置閾值T1和T2，其中T1>T2

步驟2：從數(shù)據(jù)集D中提出樣本點(diǎn)S，分別計(jì)算剩余樣本點(diǎn)與點(diǎn)S之間的歐氏距離d。如果d

步驟3：完成計(jì)算出的d與T2的比較。如果d

步驟4：重復(fù)步驟2和步驟3，直到D為空。

但由于算法中T1和T2的閾值難以確定，閾值的大小對(duì)聚類結(jié)果影響很大[13]。因此，本文考慮引入密度參數(shù)來解決這個(gè)問題。

2.2 基于密度的Canopy算法

2.2.1 基礎(chǔ)概念

對(duì)于給定的數(shù)據(jù)集D={X1，X2，….，Xn}，則D中的樣本元素m記為Xm={Xm1，Xm2，…，Xmr}，1≤m≤n，其中r為Xm的屬性數(shù)，d(Xp，Xq)表示兩個(gè)元素Xp={Xp1，Xp2，…，Xpr}和Xq={Xq1，Xq2，…，Xqr};

1)計(jì)算D中元素集的平均距離

(1)

2)計(jì)算D中元素i的密度

(2)

3)ρ(i)滿足上式(2)條件的元素個(gè)數(shù)。將符合條件的元素歸為一個(gè)集合，計(jì)算集合內(nèi)元素的平均距離為a(i)

(3)

4)S(i)為簇距離，其表示元素i(密度值較大點(diǎn))與其它元素j的距離。若ρ(j)<ρ(i)，則S(i)為max{d(i，j)};若有ρ(j)>ρ(i)，則定義為min{d(i，j)}，即

(4)

5)若D被分成k組，其中聚類的中心是Cj(j≤k)。聚類結(jié)果的平方誤差之和E表示簇集中的樣本點(diǎn)與其聚類中心的距離平方差之和，即

(5)

(6)

如果ρ(i)值越大，表示i點(diǎn)附近聚集的樣本點(diǎn)越多、樣本點(diǎn)的分布更密集；a(i)值越小，1/a(i)的值就越大，這代表簇中的樣本點(diǎn)就越緊密；S(i)值越大，兩個(gè)聚類的相異程度越大。

2.2.2 算法流程

傳統(tǒng)Canopy算法因閾值是隨機(jī)選定導(dǎo)致聚類結(jié)果存在不穩(wěn)定[14]，因此本文提出最大加權(quán)乘積法來確定最優(yōu)劃分中的最佳聚類數(shù)以提高負(fù)荷聚類精度，其具體步驟如下：

步驟1：在給定數(shù)據(jù)集的情況下，參照式(2)計(jì)算所有樣本的密度。選擇密度最大的樣本C1作為第一聚類中心，將中心C1加到集合C中，即C={C1}。同時(shí)，將所有滿足剩余樣本與第一聚類中心距離小于MeanDis(D)條件的樣本從數(shù)據(jù)集中剔除；

步驟2：計(jì)算剩余數(shù)據(jù)集中樣本的ρ(i)、a(i)和s(i)，根據(jù)最大加權(quán)乘積法確定第二聚類中心C2，并將該中心加到集合C中，從而C={C1，C2}。同樣，所有滿足規(guī)定條件的樣本都將從數(shù)據(jù)集中移除；最大加權(quán)乘積法求最優(yōu)聚類中心的示意圖如圖1所示。

圖1 最佳聚類中心的示意圖

步驟3：重復(fù)步驟2，等D中無樣本點(diǎn)后結(jié)束。

最后，數(shù)據(jù)集D被分成成K個(gè)簇集，若選取簇集中所有樣本點(diǎn)距離的平均值作為聚類中心，可得到最優(yōu)區(qū)分內(nèi)的最佳中心數(shù)。

2.3 CK-means算法

本文采用一種基于密度Canopy的k-means算法，本文稱之為Ck-means算法。利用算法對(duì)數(shù)據(jù)集D進(jìn)行初始預(yù)處理，可得到最優(yōu)簇集K和最優(yōu)聚類中心點(diǎn)，將其代入K-means算法中可提取出典型的用戶用電負(fù)荷模式。改進(jìn)后的CK-means算法可改善傳統(tǒng)K-means算法存在的對(duì)初始聚類中心敏感、需要預(yù)先給定K值、彌補(bǔ)因閾值不確定造成結(jié)果不穩(wěn)定的問題。

如圖2所示，CK-means算法的執(zhí)行流程如下：

圖2 CK-means算法流程圖

步驟1：引入樣本點(diǎn)的密度參數(shù)，通過對(duì)Canopy算法的優(yōu)化，可得到了最優(yōu)的K值和初始聚類中心并將其作為K-means算法的輸入；

步驟2：計(jì)算剩余數(shù)據(jù)集D中的樣本點(diǎn)與初始聚類中心之間的歐幾里得距離，并根據(jù)最小距離原則將負(fù)荷數(shù)據(jù)添加到相應(yīng)聚類中心的簇集中；

步驟3：計(jì)算簇中元素的平均距離，并將該點(diǎn)取為新的聚類中心；

步驟4：將更新后的聚類中心與原聚類中心進(jìn)行比較，若聚類中心點(diǎn)不再變化，則算法運(yùn)行完畢，得到最終的聚類結(jié)果，否則返回步驟2。

3 實(shí)例驗(yàn)證分析

3.1 數(shù)據(jù)集

本文以江西某地區(qū)的一個(gè)月用電數(shù)據(jù)進(jìn)行仿真測(cè)試，選取該地區(qū)216名用戶在2015-7-01至2015-8-01之間每日的96點(diǎn)負(fù)荷數(shù)據(jù)。數(shù)據(jù)集有646981條數(shù)據(jù)記錄，每條包含3個(gè)數(shù)值型字段。

3.2 數(shù)據(jù)預(yù)處理

1)數(shù)據(jù)獲取

刪除空缺值，保證后期數(shù)據(jù)的運(yùn)算。

2)數(shù)據(jù)歸一化

鑒于每個(gè)用戶一天中的最大負(fù)荷不同，對(duì)用戶用電負(fù)荷數(shù)據(jù)進(jìn)行歸一化處理，得到進(jìn)行聚類分析的數(shù)據(jù)集合。數(shù)據(jù)歸一化的公式如下所示

(7)

其中：X代表用戶的負(fù)荷數(shù)據(jù)，下標(biāo)i代表用戶的編號(hào)數(shù)、j代表0-23之間的數(shù)，代表了一天的96個(gè)節(jié)點(diǎn)時(shí)間；min和max分別某用戶每日符合的最小值、最大值。

3.3 聚類算法對(duì)比分析

經(jīng)過上述數(shù)據(jù)預(yù)處理，可繪制出當(dāng)日不同時(shí)間不同用戶的用電特征曲線，隨機(jī)選取某用戶在7月10日的負(fù)荷曲線圖如圖3所示。

圖3 用戶負(fù)荷曲線圖

未經(jīng)過聚類處理的數(shù)據(jù)比較雜亂，完全看不出規(guī)律，下面將當(dāng)前獲得的數(shù)據(jù)用傳統(tǒng)的k-means算法與改進(jìn)的CK-means算法分別進(jìn)行聚類。其中為了更好地展示出聚類效果，選取了以下的評(píng)價(jià)指標(biāo)：聚類分析時(shí)間T、聚類結(jié)果的誤差平方差之和E以及衡量聚類有效性的三個(gè)參數(shù)：Rand指數(shù)、Jaccard系數(shù)和聚類精度。在表1中比較了k-means算法、Ck-means算法在數(shù)據(jù)集上的聚類結(jié)果的平方差E和聚類時(shí)間T(s)。

根據(jù)上表所示，可得出以下結(jié)論：

1)K-means算法完成數(shù)據(jù)聚類的時(shí)間較長(zhǎng)。由于其初始中心點(diǎn)是隨機(jī)選取的，那么算法就需要經(jīng)過多次迭代后結(jié)果才能穩(wěn)定，因此執(zhí)行的時(shí)間會(huì)比較長(zhǎng)；基于Canopy的k-means算法因閾值不確定導(dǎo)致結(jié)果存在不穩(wěn)定性；新改進(jìn)的算法可提前確定K值和初始聚類中心，并將其作為k-means的輸入?yún)?shù)從而完成對(duì)數(shù)據(jù)集的聚類。新算法迭代次數(shù)少，故會(huì)比傳統(tǒng)算法效率更高。

2)從誤差平方和E來看，Ck-means算法的聚類效果最好。由于K-means算法的初始聚類中心是隨機(jī)選取的，基于Canopy的k-means算法的聚類結(jié)果存在不穩(wěn)定性，因此上述兩種算法計(jì)算出的E較大且聚類結(jié)果也不理想。

3)聚類質(zhì)量評(píng)價(jià)指標(biāo)

本文將添加六組模擬的數(shù)據(jù)集進(jìn)行訓(xùn)練，用于測(cè)試改進(jìn)算法對(duì)較大數(shù)據(jù)集聚的類效果，測(cè)量聚類結(jié)果的評(píng)價(jià)指標(biāo)(聚類精度Accuracy、Rand指數(shù)和Jaccard系數(shù))對(duì)比圖如圖4-圖6所示。

圖4 聚類精度

圖5 Rand 指數(shù)

圖6 Jaccard系數(shù)

對(duì)比圖4-6的參數(shù)對(duì)比圖可知，改進(jìn)算法的三個(gè)參數(shù)都是最優(yōu)且準(zhǔn)確率最高[15]。此外，該算法的聚類精度比傳統(tǒng)K均值算法高31.6%，比基于Canopy的K均值算法高6.2%。

本文所提出的CK-means算法首先是把數(shù)據(jù)集D的密度算出來，找到數(shù)據(jù)集中最緊湊的聚類，利用最大乘積加權(quán)來確定初始聚類中心，從而確定最優(yōu)值K=4。綜上所述，新算法的聚類結(jié)果更準(zhǔn)確、收斂速度更快，可實(shí)現(xiàn)聚類結(jié)果全局最優(yōu)化[16]。

3.4 特征分析

3.4.1 負(fù)荷曲線分析

基于CK-means算法的負(fù)荷數(shù)據(jù)聚類分析中，模型將用戶分為四個(gè)類別，其中第一類中含26個(gè)用戶、第二類中含82個(gè)用戶、第三類中含97個(gè)、第四類中含10個(gè)用戶。第一類用戶屬于典型的雙高峰用戶，這意味著其大部分功率在高峰時(shí)間內(nèi)消耗。圖7、圖8的曲線趨勢(shì)類似，明顯屬于高峰時(shí)間內(nèi)的消耗行為，但不同的是，與前圖相比，圖8中的最小負(fù)載峰均比有所提高。

圖7 第一類用戶

圖8 第二類用戶

圖9 第三類用戶

圖10 第四類用戶

由圖9可知，第三類用戶屬于白天高峰用電型。由于其兩峰值之間的谷值負(fù)載基本被填充，表明部分負(fù)載已由高峰期轉(zhuǎn)移到其它時(shí)間。第四類用戶屬于典型的夜間用電型，其非高峰時(shí)段為3AM-12 AM和3PM-5 PM，這表明其用戶可能有很大的潛力遵循需求側(cè)管理策略來避免高峰期的用電行為。

3.4.2 聚類用戶特征總結(jié)

由表2可知，第一類用戶的負(fù)載系數(shù)最低、負(fù)荷比最小以及最高峰值與最小值的比值最大；第一、二類用戶有著相似的雙峰值負(fù)載，但第二類用戶負(fù)載峰值與最小值的比值較小，這表明與第一類用戶相比，其需求側(cè)管理的潛力較小。而第三類與之前兩種曲線對(duì)比的話相對(duì)更平滑，因其負(fù)載曲線的趨勢(shì)不同，最高峰值時(shí)間和最低峰值時(shí)間與前者也有所不同。第四類用戶的峰值時(shí)間不同，這表明與其它類用戶相比，更有利于解決不同用戶之間的需求側(cè)管理。

表2 聚類用戶特征總結(jié)

4 結(jié)論

本文提出一種基于CK-means算法的用戶用電負(fù)荷聚類分析方法。首先使用密度Canopy算法對(duì)用戶用電數(shù)據(jù)進(jìn)行預(yù)處理，可得到最優(yōu)簇集值K與最佳初始聚類中心，然后將其代入K-means算法中可提取出典型的用戶用電負(fù)荷模式，研究結(jié)果如下所示：

1)CK-means算法同時(shí)保持了Canopy的特點(diǎn)及傳統(tǒng)K-means算法精確高效的特點(diǎn);

2)采用最大加權(quán)法可顯著提高聚類結(jié)果的精確度;

3)該算法可以彌補(bǔ)Canopy因閾值T1、T2不確定造成的網(wǎng)絡(luò)收斂時(shí)間過長(zhǎng)；

4)該算法解決了傳統(tǒng)的K-means算法因初始聚類中心選取不當(dāng)將導(dǎo)致聚類效果不佳的問題。

綜上所述，該算法解決了傳統(tǒng)算法存在的聚類時(shí)間過長(zhǎng)、準(zhǔn)確率過低的問題，可提高用戶分類的可靠性和有效性?；诰垲惤Y(jié)果，可為負(fù)荷預(yù)測(cè)、電力營(yíng)銷策略、用戶篩選識(shí)別等提供有效的參考。