陳 燁, 吳 浩, 史俊祎, 商佳宜, 孫維真
(1. 浙江大學(xué)電氣工程學(xué)院, 浙江省杭州市 310027; 2. 國網(wǎng)浙江省電力公司杭州供電公司, 浙江省杭州市 310011; 3. 國網(wǎng)浙江省電力公司電力調(diào)度控制中心, 浙江省杭州市 310007)
近年來,隨著智能電表在電力系統(tǒng)中的廣泛應(yīng)用,電力公司積累了海量的負荷用電歷史數(shù)據(jù)[1]。利用負荷曲線聚類算法從海量負荷數(shù)據(jù)中挖掘用電信息,分析用戶用電行為,能夠為電網(wǎng)規(guī)劃、用電客戶精細分類和制定用電計劃等應(yīng)用提供有力支撐[2-4]。因此,研究適用于負荷曲線的聚類算法及相關(guān)技術(shù)具有重要的應(yīng)用價值。
負荷曲線聚類算法大致可分為直接聚類和間接聚類[5]。直接聚類方法通常選擇負荷曲線上每個采集點的負荷數(shù)據(jù)進行聚類,包括K-means[6]、模糊C均值[7-8]、自組織神經(jīng)網(wǎng)絡(luò)[9]等。然而隨著負荷數(shù)據(jù)規(guī)模不斷增長,這種方法面臨著計算效率的挑戰(zhàn)。因此,有必要對負荷數(shù)據(jù)進行降維處理,以提升聚類效率。
間接聚類方法通過提取負荷曲線的特征作為降維指標(biāo),以此為輸入進行聚類。文獻[10]利用主成分分析方法提取出少量主成分作為降維指標(biāo),并采用K-means算法進行聚類。文獻[11]選取了6種反映用戶負荷特征的日負荷特性指標(biāo)進行聚類。文獻[12]利用Sammon映射將原始負荷曲線映射到低維空間中,然后利用低維空間中的映射值進行聚類。文獻[13]認為低維負荷數(shù)據(jù)經(jīng)深度學(xué)習(xí)反饋后可用來反映原始負荷數(shù)據(jù)。文獻[14]采用離散傅里葉變換在頻域中提取負荷特征作為降維指標(biāo),對負荷曲線進行分類。
上述間接聚類方法選擇了不同的降維指標(biāo)對負荷曲線進行聚類,但在降維處理過程中均面臨兩個問題:降維指標(biāo)數(shù)目的確定和降維指標(biāo)權(quán)重的確定。降維指標(biāo)的數(shù)目是負荷曲線降維處理后的維度,合適的指標(biāo)數(shù)目不僅能夠提高聚類的準(zhǔn)確性,而且能提升聚類效率,故應(yīng)客觀論證所選取的降維指標(biāo)數(shù)目是否已為最優(yōu)[15]。此外,由于各降維指標(biāo)的側(cè)重角度不同,使得在反映用戶用電特性時其重要程度也不同,因此有必要對各指標(biāo)賦予相應(yīng)的權(quán)重。這兩個問題的解決有助于提升間接聚類方法聚類結(jié)果的準(zhǔn)確性和效率。
奇異值分解(singular value decomposition,SVD)是一種常用的數(shù)學(xué)方法,已在多個領(lǐng)域得到應(yīng)用。例如,在電力系統(tǒng)領(lǐng)域,潮流雅可比矩陣的最小奇異值被用于評估電壓穩(wěn)定能力[16],SVD還可用于故障診斷和狀態(tài)估計[17]等。在圖像處理領(lǐng)域,SVD可用于去除圖像中的噪聲,盡可能地保留原圖像的數(shù)據(jù)特征[18]。同理,若將負荷曲線數(shù)據(jù)視作圖像,采用SVD提取出主要的數(shù)據(jù)特征,再利用這些數(shù)據(jù)特征對負荷曲線進行降維聚類。
在上述背景下,本文提出了一種基于SVD的日負荷曲線降維聚類方法,較好地解決了上述兩個問題。利用SVD將負荷曲線數(shù)據(jù)旋轉(zhuǎn)變換至新的坐標(biāo)系,以負荷曲線在各坐標(biāo)軸上的坐標(biāo)為降維指標(biāo),確定降維指標(biāo)的數(shù)目后,選擇奇異值為指標(biāo)權(quán)重。算例表明該算法運行時間短,能夠提供合理的用戶分類。
SVD是一種常用的數(shù)據(jù)變換方法[19],現(xiàn)以二維數(shù)據(jù)為例,解釋SVD的數(shù)學(xué)思想。
如附錄A圖A1所示,3類由不同顏色構(gòu)成的二維數(shù)據(jù)繪制在由坐標(biāo)軸x1-x2構(gòu)成的直角坐標(biāo)系內(nèi)。數(shù)據(jù)在2個坐標(biāo)軸上的分布較離散,難以判斷哪個坐標(biāo)軸更為重要,且在2個坐標(biāo)軸上的投影重疊,會影響數(shù)據(jù)聚類的準(zhǔn)確性。由于數(shù)據(jù)所含的信息可用其方差來表征,方差越大,該數(shù)據(jù)離散程度越大,所包含的信息越多?,F(xiàn)對坐標(biāo)系作旋轉(zhuǎn)變換,以數(shù)據(jù)變化方差最大的方向為軸,得到一個新的正交坐標(biāo)系v1-v2。此時,數(shù)據(jù)主要沿著v1軸變化,而在v2軸上分布得較為集中。若忽略在v2軸上的微小偏差量,僅將數(shù)據(jù)投影在v1軸上,這樣就將原來的二維數(shù)據(jù)在保留大部分信息的前提下簡化成一維數(shù)據(jù)。然后,利用數(shù)據(jù)在v1軸上的坐標(biāo)值進行聚類,在降低數(shù)據(jù)維度的同時也保證了聚類的準(zhǔn)確性。
一般的,該思想可擴展至n維數(shù)據(jù)。假設(shè)存在m條負荷曲線,每條負荷曲線有n個采樣點,可將這m條負荷曲線視為n維坐標(biāo)系x1-xn下的m個數(shù)據(jù)點。同理,直接利用數(shù)據(jù)點在變換后低維坐標(biāo)系下的坐標(biāo)值進行聚類,可達到降維聚類的目的。
值得注意的是,SVD的基本思想與主成分法有一定的相似性,但較主成分法而言,SVD的優(yōu)勢主要體現(xiàn)在以下兩個方面。
1)初始化處理。由于主成分法需對原始數(shù)據(jù)作零均值化處理,這會消去平穩(wěn)負荷曲線的重要特征。
2)計算穩(wěn)定性。主成分法由于需要計算協(xié)方差矩陣的特征向量,增加了計算復(fù)雜度并會產(chǎn)生舍入誤差,而SVD不需要進行這一步驟,具有較強的計算穩(wěn)定性,能夠簡單、直觀地展示數(shù)據(jù)旋轉(zhuǎn)變換的過程[20]。
為了更好地理解SVD應(yīng)用于日負荷曲線聚類的過程,本文直接以負荷曲線為例闡述SVD的數(shù)學(xué)理論。設(shè)有一個由m條負荷曲線構(gòu)成的m×n階實矩陣A=[a1,a2,…,am]T,其中負荷曲線ak=[ak,1,ak,2,…,ak,n]T有n個采樣點。在SVD理論中[19],對于矩陣A,存在正交矩陣U∈Rm×m和V∈Rn×n,使得
(1)
式中:正交矩陣U=[u1,u2,…,um]的列向量為單位向量且相互正交,同時是矩陣AAT的特征向量,稱為左奇異向量;正交矩陣V=[v1,v2,…,vn]的列向量也為單位向量且相互正交,同時是矩陣ATA的特征向量,稱為右奇異向量;Λ1=diag(λ1,λ2,…,λp),其中p=min(m,n)。Λ1是對角矩陣,其對角元素為矩陣A的奇異值并按降序排列,即λ1≥λ2≥…≥λp。由于m通常大于n,因此在本文中令p=n。值得指出的是,m小于n時,本文方法依然適用。式(1)可展開為:
A=UΛVT=
(2)
以矩陣A中某條負荷曲線ak為例,由式(2)可推導(dǎo)出:
ak=[λ1u1,kλ2u2,k…λnun,k]·
(3)
式中:u1,k為向量u1在第1點的坐標(biāo),u2,k等同理。
SVD理論中[20],以向量v1,v2,…,vn為坐標(biāo)軸的方向向量構(gòu)建了新正交坐標(biāo)系,奇異值λi為從向量ui到坐標(biāo)軸vi進行縮放的比例,λiui,k即為負荷曲線ak在坐標(biāo)軸vi上的坐標(biāo)值。此外,由于奇異值λi越大,導(dǎo)致縮放的比例越大,使得坐標(biāo)值在坐標(biāo)軸vi上的離散程度越大,這樣坐標(biāo)軸vi反映的數(shù)據(jù)方差越大,該坐標(biāo)軸也越重要,因此,可認為較小奇異值對應(yīng)的部分代表了能夠忽略的噪聲[20]。這樣,由式(2)和式(3),僅保留前q(q (4) ak=[λ1u1,kλ2u2,k…λquq,k]· (5) 由式(4)和式(5)可知,在忽略掉數(shù)據(jù)變化方差較小的方向后,將坐標(biāo)系v1,v2,…,vn簡化為低維坐標(biāo)系v1,v2,…,vq。這樣,負荷曲線ak在低維坐標(biāo)系中的坐標(biāo)值λiui,k可用來反映負荷曲線的主要特征。 負荷曲線數(shù)據(jù)經(jīng)SVD變換至新的低維坐標(biāo)系后,可獲得在各坐標(biāo)軸上的坐標(biāo),進而反映出負荷曲線在各方向上的特征,坐標(biāo)越接近的負荷曲線越相似。因此,可將負荷曲線ak在前q個坐標(biāo)軸上的坐標(biāo)作為降維指標(biāo),設(shè)為Yk=[yk,1,yk,2,…,yk,q]=[λ1u1,k,λ2u2,k,…,λquq,k]。這樣,對于每條負荷曲線,用于聚類的數(shù)據(jù)從n個減少為q個。令集合Y={Y1,Y2,…,Ym}包含所有負荷曲線的降維指標(biāo)值。 此外,各坐標(biāo)軸對應(yīng)的奇異值描述了該方向的重要程度,在利用坐標(biāo)值聚類時,奇異值越大,對應(yīng)方向上的坐標(biāo)值越重要。故選擇坐標(biāo)軸對應(yīng)的奇異值作為降維指標(biāo)的權(quán)重,再對其作總和為1的歸一化處理,記為權(quán)重向量W,W=[w1,w2,…,wq]。 2.1.1異常數(shù)據(jù)的識別與修正 在負荷數(shù)據(jù)采集過程中,可能會發(fā)生測量裝置故障、數(shù)據(jù)傳輸中斷等問題,導(dǎo)致負荷數(shù)據(jù)異常。當(dāng)某條負荷曲線的數(shù)據(jù)缺失量和異常量超過10%或以上時,認為該曲線無效。 設(shè)xk=[xk,1,xk,2,…,xk,n]T為從量測裝置中收集的某條原始負荷曲線,對數(shù)據(jù)的異常狀態(tài)識別可通過負荷變化率進行判斷: (6) 式中:δk,i為負荷曲線在第i點的負荷變化率,當(dāng)其超過預(yù)設(shè)閾值ε后視為異常數(shù)據(jù),通常ε可取0.5~0.8。對于此類異常數(shù)據(jù)點可利用平滑修正公式進行修正: (7) 2.1.2負荷曲線歸一化 由于原始負荷數(shù)據(jù)值之間可能會存在巨大差異,不經(jīng)處理的聚類會影響聚類效果,使得聚類結(jié)果不可靠。對此,采用極大值歸一化方法對負荷數(shù)據(jù)進行歸一化,表達式如下: (8) 式中:ak,i為在采樣點i歸一化后的數(shù)據(jù)。這樣,經(jīng)數(shù)據(jù)預(yù)處理后的負荷曲線ak構(gòu)成了矩陣A。 由第1節(jié)中降維指標(biāo)的定義可知,數(shù)值q即為降維指標(biāo)的數(shù)目。由于奇異值按降序排列,通過充分利用奇異值下降趨勢的信息來確定q值。具體的,結(jié)合最小二乘法使直線y=ax+b對奇異值下降段擬合的平均誤差最小,此時擬合所用的數(shù)據(jù)點數(shù)即為q值。具體步驟如下。 步驟1:計算奇異值。對矩陣A作奇異值分解,并記錄n個數(shù)據(jù)點(i,λi)為數(shù)據(jù)集S。 步驟3:計算擬合誤差。按式(9)計算選擇q個數(shù)據(jù)點時擬合的平均誤差Γq,并記入數(shù)據(jù)集Γ中。 (9) 步驟4:令q=q+1,當(dāng)q>n或擬合誤差已連續(xù)增長5次(誤差具有明顯增長趨勢)時,轉(zhuǎn)到步驟5,否則轉(zhuǎn)到步驟2。 步驟5:找到集合Γ中的最小值,其對應(yīng)的q值即為最終選定的降維指標(biāo)的數(shù)目。 這樣,在確定降維指標(biāo)的數(shù)目q后,依據(jù)1.3節(jié)的定義,計算出降維指標(biāo)集Y和權(quán)重W。 基于加權(quán)歐式距離的K-means算法,是以降維指標(biāo)集Y為輸入,加權(quán)歐式距離為相似性判據(jù)進行聚類,加權(quán)K-means算法的處理步驟如下。 步驟1:初始化。設(shè)k為聚類數(shù),在集合Y中隨機選擇k個樣本,作為初始聚類中心。 步驟2:樣本歸類。將所有樣本劃分到其加權(quán)歐式距離最近的類中心,從樣本Yk到第j個聚類中心mj=[mj,1,mj,2,…,mj,q]的加權(quán)距離可由下式計算: d(k,j)= (10) 步驟3:聚類中心更新。根據(jù)步驟2的結(jié)果,計算每類的平均值作為各類新的聚類中心。 步驟4:迭代計算。判斷聚類中心是否收斂,若未收斂則跳轉(zhuǎn)至步驟2,否則算法結(jié)束。 聚類有效性檢驗是通過建立有效性指標(biāo),評價聚類結(jié)果并確定最佳聚類數(shù)的過程。Silhouette指標(biāo)是現(xiàn)有聚類方法中常用的有效性指標(biāo)之一[11,21],可用于確定最佳聚類數(shù)并評價聚類質(zhì)量。 設(shè)負荷曲線被劃分為k類,對于第j類中第i個樣本,計算樣本i的Silhouette指標(biāo)ΩSil(i),定義如下: (11) 式中:da(i)為樣本i到非同類所有樣本的最小平均距離,用以反映類間距離大小;db(i)為樣本i與類內(nèi)其余樣本的平均距離,用以反映類內(nèi)緊湊程度。當(dāng)da(i)越大,db(i)越小,樣本i所屬類j的類內(nèi)緊湊程度和類間距離越好,聚類結(jié)果越優(yōu)。 所有負荷曲線的Silhouette指標(biāo)均值ΩSilM可用于評價總體聚類質(zhì)量,其值越大表示聚類質(zhì)量越優(yōu),并確定ΩSilM最大值對應(yīng)的類數(shù)k為最佳聚類數(shù)。ΩSilM的計算表達式如下: (12) 本文選取中國某市2015年8月某工作日實測2 413個用戶的日負荷曲線為研究對象,日負荷采樣間隔為15 min,每日共計96個采樣點。以附錄A圖A2為例,簡要說明數(shù)據(jù)預(yù)處理過程,其中預(yù)設(shè)閾值ε取0.5,p1和q1均取為3。由附錄A圖A2可得,經(jīng)數(shù)據(jù)預(yù)處理后,對負荷曲線上的數(shù)據(jù)異常點進行了修正,最終算例共含2 388條有效日負荷曲線,構(gòu)成2 388×96階矩陣A。本文以典型日負荷曲線為例,驗證所提方法能否提高負荷曲線聚類的準(zhǔn)確性和效率。 對矩陣A作奇異值分解后繪制奇異值曲線,如附錄A圖A3所示,放大圖中繪制了前15個奇異值,藍色虛線為q=3時的擬合直線y=ax+b。然后,計算得到擬合誤差數(shù)據(jù)集Γ如附錄A表A1所示。 由附錄A表A1可知,當(dāng)降維維度q=3時,有最小的擬合誤差,故確定本算例的降維指標(biāo)數(shù)目為3。由此將2 388條日負荷曲線在前3個坐標(biāo)軸上的坐標(biāo)值作為降維指標(biāo)值,得到2 388×3階降維指標(biāo)Y,同時3個降維指標(biāo)對應(yīng)的權(quán)重向量為W=[0.61,0.286,0.104]。采用加權(quán)K-means算法對Y聚類,將聚類結(jié)果與直接以96個采樣點的數(shù)據(jù)為輸入,經(jīng)極大值歸一化后直接利用K-means算法聚類(以下改稱傳統(tǒng)聚類算法)的結(jié)果作對比。 由附錄A圖A4聚類有效性指標(biāo)檢驗結(jié)果可知,當(dāng)聚類數(shù)為5時,2種算法指標(biāo)均值ΩSilM最大,因此確定最佳聚類數(shù)均為5。在圖1和附錄A圖A5中,紅色線為該類負荷曲線的平均值,通常認為其是該類負荷的典型負荷曲線。本文聚類算法聚類結(jié)果中屬于各類的曲線數(shù)目依次為444,398,955,247和344,傳統(tǒng)聚類算法聚類結(jié)果中屬于各類的曲線數(shù)目依次為459,399,939,249和342,其分類數(shù)目和分類結(jié)果基本一致。 圖1 基于本文聚類算法的日負荷曲線聚類結(jié)果Fig.1 Load profiles clustering results of proposed clustering method 圖2所示為2種算法提取的5類典型負荷曲線,具有相似的負荷形態(tài),均呈雙峰、峰平期、單峰、錯峰和避峰5種類型。雙峰型曲線多為小工業(yè)用戶,工作時間固定且規(guī)律;峰平期型曲線主要包括大工業(yè)等;單峰型曲線主要為正常的商業(yè)用電,白天工作量大,晚間休息;錯峰型負荷多為農(nóng)業(yè)用電,在晚間打光滅蟲、排澇和灌溉等;避峰型負荷較為特殊,主要是公用路燈等。因此,從工程角度來看,本文聚類算法分類結(jié)果合理,具有實際應(yīng)用價值。 由表1可見,通過聚類有效性指標(biāo)和程序運行時間綜合比較2種算法的性能。在最佳聚類數(shù)均為5的情況下,使用本文聚類算法進行聚類的運行時間僅為傳統(tǒng)聚類算法聚類結(jié)果的1/5左右,同時前者的指標(biāo)均值ΩSilM稍大于后者,其聚類質(zhì)量略占優(yōu)勢。這主要是因為基于SVD降維時能夠忽略原始數(shù)據(jù)中噪聲的干擾,使得提取主要數(shù)據(jù)特征后的降維聚類更加有效。綜上,本文所提降維聚類算法能夠較為準(zhǔn)確地對日負荷曲線進行分類,并縮減了程序運行時間。 圖2 兩種算法提取的典型負荷曲線對比Fig.2 Comparison of typical load profiles between two methods 算法最佳聚類數(shù)指標(biāo)均值ΩSilM程序運行時間/s數(shù)據(jù)降維主程序合計本文聚類算法50.5391.5945.0786.672傳統(tǒng)聚類算法50.53532.64132.641 降維指標(biāo)的數(shù)目對于聚類結(jié)果有重要影響,上節(jié)算例中該數(shù)目為3,進一步驗證數(shù)目的增加能否提高聚類效果,數(shù)目的減少能否在保證聚類準(zhǔn)確性的前提下提高計算速度等。 附錄B表B1列出了不同的降維指標(biāo)數(shù)目下,指標(biāo)均值ΩSilM的大小和聚類運行的時間。當(dāng)降維指標(biāo)的數(shù)目減小至2時,由于忽略了方差第三大的坐標(biāo)軸,雖然最佳分類數(shù)仍為5,但指標(biāo)均值ΩSilM偏小;當(dāng)數(shù)目增加至4和5時,分類結(jié)果保持不變,但計算時間分別增加了5.38%和10.98%。因此,由本文所提方法確定的降維指標(biāo)數(shù)目作聚類時,在保證聚類結(jié)果良好的同時,提高了計算效率。 附錄A圖A3中,奇異值下降的趨勢用以判斷降維指標(biāo)的數(shù)目。經(jīng)研究發(fā)現(xiàn),當(dāng)僅使用少量數(shù)目的負荷曲線時,計算得到的奇異值下降趨勢與使用所有負荷曲線的趨勢相似。 如圖3所示,隨機選擇100,500和1 000條負荷曲線并分別執(zhí)行50次,相應(yīng)的奇異值分別繪制在圖3(a)(b)(c)中,作為對比,附錄A圖A3中的原始奇異值繪制在圖3(d)中。對于圖3(a)(b)(c)而言,在分別執(zhí)行50次后,每一編號下的奇異值均勻分布在一個穩(wěn)定的范圍中,對應(yīng)的奇異值下降趨勢與圖3(d)中十分相似,經(jīng)驗證發(fā)現(xiàn)最終獲得的降維指標(biāo)數(shù)目也相同。 圖3 不同負荷曲線數(shù)目下的奇異值Fig.3 Singular values under different numbers of load profiles 因此,僅利用少量的負荷曲線即可確定降維指標(biāo)數(shù)目。這樣,本文聚類算法中用于數(shù)據(jù)降維的時間將進一步減少。 以含噪聲的模擬日負荷曲線為例,在已知其正確聚類結(jié)果的基礎(chǔ)上,驗證所提聚類算法的耐噪聲能力及魯棒性?;?類典型日負荷曲線(見附錄C圖C2紅色線),分別在每類典型曲線的每個數(shù)據(jù)點上添加比例為r的隨機噪聲,進而模擬得到分屬8類、每類125條總計1 000條的日負荷曲線,以此構(gòu)成矩陣A。這8類典型曲線中,第1類與第2類為雙峰型,多為政府等機構(gòu)用戶,但兩類負荷曲線的幅值存在差異,增加了準(zhǔn)確分類的難度;第3類與第6類白天用電量稍低,晚上工作量大,兩者幅值和形狀略有不同;第4類為峰平期型,包括大工業(yè)用戶等;第5類和第7類為單峰型,多為正常的商業(yè)用電;第8類為錯峰型,多為公用事業(yè)和農(nóng)業(yè)用電等。因此,從工程角度來看,選取的8類負荷曲線具有一定的典型負荷用電特征。 在改變噪聲比例r后,采用本文聚類算法和傳統(tǒng)聚類算法對模擬負荷曲線進行聚類,并定義分類準(zhǔn)確率為1 000條負荷曲線中得到準(zhǔn)確分類的負荷曲線所占百分比。因此,算法的魯棒性可以通過最佳聚類數(shù)、指標(biāo)均值ΩSilM和分類準(zhǔn)確率3種指標(biāo)進行檢驗,結(jié)果如表2所示。 表2 兩種算法魯棒性比較Table 2 Comparison of robustness between two methods 從表2可得出以下結(jié)論。 1)對于兩種聚類算法,隨著噪聲比例不斷增加,指標(biāo)均值ΩSilM和分類準(zhǔn)確率下降,最佳聚類數(shù)出現(xiàn)偏差,表明3種指標(biāo)可以用來檢驗算法的魯棒性。 2)當(dāng)噪聲比例不超過20%時,兩種聚類算法的分類準(zhǔn)確率均近似100%。 3)當(dāng)增大噪聲比例至不超過30%時,本文聚類算法的最佳聚類數(shù)一直為8,分類準(zhǔn)確率近100%,而傳統(tǒng)聚類算法在噪聲比例增大至30%后,最佳聚類數(shù)不再為8,分類準(zhǔn)確率下降,魯棒性較差。 4)當(dāng)繼續(xù)增大噪聲比例至不超過40%時,兩種聚類算法的最佳聚類數(shù)均不為8,但本文聚類算法的分類準(zhǔn)確率和指標(biāo)均值均稍優(yōu)于傳統(tǒng)聚類算法。 以噪聲比例r=30%為例,1 000條模擬負荷曲線原始分類如附錄C圖C1所示。將基于本文聚類算法提取的8類典型負荷曲線與初始典型負荷曲線進行對比,如附錄C圖C2所示。為了量度兩組負荷曲線的擬合程度,定義誤差指標(biāo)Eerr: (13) 由附錄C圖C2和附錄C表C1可見,兩組負荷曲線形態(tài)高度相似,擬合誤差較小。綜上,所提方法對典型日負荷曲線提取效果良好,較為準(zhǔn)確地還原了初始典型日負荷曲線的特征,耐噪聲能力強。 本文提出了一種基于SVD的日負荷曲線降維聚類方法。通過SVD降維和選取加權(quán)歐式距離作為相似性判據(jù),對日負荷曲線進行聚類。此聚類方法能夠解決傳統(tǒng)間接聚類方法的兩大問題。 1)降維指標(biāo)數(shù)目的不確定性。本文充分利用了奇異值下降趨勢,基于最小二乘法確定降維指標(biāo)的數(shù)目。 2)降維指標(biāo)權(quán)重的不確定性。奇異值大小描述了降維指標(biāo)包含信息的程度,以此為權(quán)重作加權(quán)聚類。 算例表明該方法具有良好的劃分能力,且大幅縮減了程序運行時間。隨著大數(shù)據(jù)時代的到來,如何結(jié)合環(huán)境等多影響因素,構(gòu)建更為精細化的聚類方法是今后的研究方向。 附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx)。 [1] AGHAEI J, ALIZADEH M I. Demand response in smart electricity grids equipped with renewable energy sources: a review[J]. Renewable & Sustainable Energy Reviews, 2013, 18(2): 64-72. [2] WANG Y, CHEN Q, KANG C, et al. Clustering of electricity consumption behavior dynamics toward big data applications[J]. IEEE Transactions on Smart Grid, 2016, 7(5): 2437-2447. [3] 林濟鏗,劉露,張聞博,等.基于隨機模糊聚類的負荷建模與參數(shù)辨識[J].電力系統(tǒng)自動化,2013,37(14):50-58. LIN Jikeng, LIU Lu, ZHANG Wenbo, et al. Load modeling and parameter identification based on random fuzziness clustering[J]. Automation of Electric Power Systems, 2013, 37(14): 50-58. [4] 鞠平,金艷,吳峰,等.綜合負荷特性的分類綜合方法及其應(yīng)用[J].電力系統(tǒng)自動化,2004,28(1):64-68. JU Ping, JIN Yan, WU Feng, et al. Studies on classification and synthesis of composite dynamic loads[J]. Automation of Electric Power Systems, 2004, 28(1): 64-68. [5] 朱文俊,王毅,羅敏,等.面向海量用戶用電特性感知的分布式聚類算法[J].電力系統(tǒng)自動化,2016,40(12):21-27.DOI:10.7500/AEPS20160316007. ZHU Wenjun, WANG Yi, LUO Min, et al. Distribution clustering algorithm for awareness of electricity consumption characteristics of massive customers[J]. Automation of Electric Power Systems, 2016, 40(12): 21-27. DOI: 10.7500/AEPS20160316007. [6] 劉思,傅旭華,葉承晉,等.考慮地域差異的配電網(wǎng)空間負荷聚類及一體化預(yù)測方法[J].電力系統(tǒng)自動化,2017,41(3):70-75.DOI:10.7500/AEPS20160507003. LIU Si, FU Xuhua, YE Chengjin, et al. Spatial load clustering and integrated forecasting method of distribution network considering regional difference[J]. Automation of Electric Power Systems, 2017, 41(3): 70-75. DOI: 10.7500/AEPS20160507003. [7] 曾博,張建華,丁藍,等.改進自適應(yīng)模糊C均值算法在負荷特性分類的應(yīng)用[J].電力系統(tǒng)自動化,2011,35(12):42-46. ZENG Bo, ZHANG Jianhua, DING Lan, et al. An improved adaptive fuzzy C-means algorithm for load characteristics classification[J]. Automation of Electric Power Systems, 2011, 35(12): 42-46. [8] 孔祥玉,胡啟安,董旭柱,等.引入改進模糊C均值聚類的負荷數(shù)據(jù)辨識及修復(fù)方法[J].電力系統(tǒng)自動化,2017,41(9):90-95.DOI:10.7500/AEPS20160920002. KONG Xiangyu, HU Qi’an, DONG Xuzhu, et al. Load data identification and correction method with improved fuzzy C-means clustering algorithm[J]. Automation of Electric Power Systems, 2017, 41(9): 90-95. DOI: 10.7500/AEPS20160920002. [9] 李智勇,吳晶瑩,吳為麟,等.基于自組織映射神經(jīng)網(wǎng)絡(luò)的電力負荷曲線聚類[J].電力系統(tǒng)自動化,2008,32(15):66-71. LI Zhiyong, WU Jingying, WU Weilin, et al. Power customers load profile clustering using SOM neural network[J]. Automation of Electric Power Systems, 2008, 32(15): 66-71. [10] KOIVISTO M, HEINE P, MELLIN I, et al. Clustering of connection points and load modeling in distribution systems[J]. IEEE Transactions on Power Systems, 2013, 28(2): 1255-1265. [11] 劉思,李林芝,吳浩,等.基于特性指標(biāo)降維的日負荷曲線聚類分析[J].電網(wǎng)技術(shù),2016,40(3):797-803. LIU Si, LI Linzhi, WU Hao, et al. Cluster analysis of daily load curves using load pattern indexes to reduce dimensions[J]. Power System Technology, 2016, 40(3): 797-803. [12] 張斌,莊池杰,胡軍,等.結(jié)合降維技術(shù)的電力負荷曲線集成聚類算法[J].中國電機工程學(xué)報,2015,35(15):3741-3749. ZHANG Bin, ZHUANG Chijie, HU Jun, et al. Ensemble clustering algorithm combined with dimension reduction techniques for power load profiles[J]. Proceedings of the CSEE, 2015, 35(15): 3741-3749. [13] VARGA E D, BERETKA S F, NOCE C, et al. Robust real-time load profile encoding and classification framework for efficient power systems operation[J]. IEEE Transactions on Power Systems, 2015, 30(4): 1897-1904. [14] ZHONG S, TAM K S. Hierarchical classification of load profiles based on their characteristic attributes in frequency domain[J]. IEEE Transactions on Power Systems, 2015, 30(5): 2434-2441. [15] 陸俊,朱炎平,彭文昊,等.智能用電用戶行為分析特征優(yōu)選策略[J].電力系統(tǒng)自動化,2017,41(5):58-63.DOI:10.7500/AEPS20160607002. LU Jun, ZHU Yanping, PENG Wenhao, et al. Feature selection strategy for electricity consumption behavior analysis in smart grid[J]. Automation of Electric Power Systems, 2017, 41(5): 58-63. DOI: 10.7500/AEPS20160607002. [16] 徐志友,欒兆文,樊濤,等.衡量節(jié)點穩(wěn)定的奇異值和穩(wěn)定指標(biāo)[J].電力系統(tǒng)自動化,1997,21(8):42-44. XU Zhiyou, LUAN Zhaowen, FAN Tao, et al. The singular value method for estimating node voltage stability and stability index[J]. Automation of Electric Power Systems, 1997, 21(8): 42-44. [17] 王韶,江卓翰.基于奇異值分解和等效量測變換的電力系統(tǒng)狀態(tài)估計[J].電力系統(tǒng)保護與控制,2012,40(12):111-115. WANG Shao, JIANG Zhuohan. Power system state estimation based on singular value decomposition and equivalent current measurement transformation[J]. Power Systems Protection and Control, 2012, 40(12): 111-115. [18] 劉涵,梁莉莉,黃令帥.基于分塊奇異值分解的兩級圖像去噪算法[J].自動化學(xué)報,2015,41(2):439-444. LIU Han, LIANG Lili, HUANG Lingshuai. Two-stage image denoising using patch-based singular value decomposition[J]. Acta Automatica Sinica, 2015, 41(2): 439-444. [19] HAYES M H. Properties of the singular value decomposition for efficient data clustering[J]. IEEE Signal Processing Letters, 2004, 11(11): 862-866. [20] GOLUB G, LOAN C. Matrix computation[M]. Baltimore, USA: Johns Hopkins University Press, 1996. [21] AlOTAIBI R, JIN N, WILCOX T, et al. Feature construction and calibration for clustering daily load curves from smart-meter data[J]. IEEE Transactions on Industrial Informatics, 2016, 12(2): 645-654. 陳 燁(1994—),男,碩士研究生,主要研究方向:電力系統(tǒng)仿真分析與建模。E-mail: chenye19941002@163.com 吳 浩(1973—),男,通信作者,博士,副教授,主要研究方向:電力系統(tǒng)運行優(yōu)化、電力系統(tǒng)穩(wěn)定、負荷建模等。E-mail: zjuwuhao@zju.edu.cn 史俊祎(1993—),女,碩士研究生,主要研究方向:負荷聚類及其在電力市場的應(yīng)用。E-mail: sjyi@zju.edu.cn1.3 降維指標(biāo)及其權(quán)重
2 基于奇異值分解的聚類算法
2.1 數(shù)據(jù)預(yù)處理
2.2 確定降維指標(biāo)的數(shù)目
2.3 加權(quán)K-means聚類
2.4 聚類有效性檢驗
3 算例分析
3.1 實際日負荷曲線聚類
3.2 降維指標(biāo)數(shù)目的驗證
3.3 奇異值下降趨勢相似性的驗證
3.4 模擬日負荷曲線聚類
4 結(jié)語