張慧波, 王守相, 趙倩宇, 任杰, 王海
(1. 智能電網(wǎng)教育部重點(diǎn)實(shí)驗(yàn)室(天津大學(xué)),天津 300072;2. 國(guó)網(wǎng)冀北張家口風(fēng)光儲(chǔ)輸新能源有限公司,河北 張家口 075061)
用戶(hù)用電行為分析是電網(wǎng)分析規(guī)劃的重要環(huán)節(jié)。隨著智能采集裝置的廣泛應(yīng)用,用戶(hù)用電活動(dòng)可通過(guò)智能電表采樣并以負(fù)荷曲線(xiàn)等形式表現(xiàn),其數(shù)據(jù)具有體量大、速度快、價(jià)值密度低等特征。針對(duì)用戶(hù)負(fù)荷數(shù)據(jù)特點(diǎn),研究高效的負(fù)荷曲線(xiàn)分類(lèi)方法有助于電力公司從海量用電側(cè)數(shù)據(jù)中挖掘用戶(hù)潛在用電規(guī)律,對(duì)開(kāi)展負(fù)荷預(yù)測(cè)、需求響應(yīng)、電價(jià)決策等工作有著重要意義[1—2]。
目前,負(fù)荷曲線(xiàn)分類(lèi)方法主要有無(wú)監(jiān)督聚類(lèi)、有監(jiān)督分類(lèi)以及無(wú)監(jiān)督與有監(jiān)督相結(jié)合等。近來(lái)年關(guān)于負(fù)荷曲線(xiàn)無(wú)監(jiān)督聚類(lèi)所做的研究主要集中于改進(jìn)聚類(lèi)算法[3—4]和改進(jìn)聚類(lèi)特征2個(gè)方面。在算法方面,文獻(xiàn)[5]提出一種分段聚類(lèi)方法對(duì)建筑負(fù)荷曲線(xiàn)分類(lèi),能夠更高效地獲取建筑的日典型用電模式。在聚類(lèi)特征改進(jìn)方面,主要聚焦在特征提取方法[6—8]和相似度度量計(jì)算方法[9—10],文獻(xiàn)[11]提出一種基于負(fù)荷曲線(xiàn)斜率分段的形狀聚類(lèi)方法,能夠更好地捕捉曲線(xiàn)的形狀特征;文獻(xiàn)[12]采用樣本皮爾遜相關(guān)系數(shù)距離作為相似度度量,算例表明優(yōu)于歐幾里得距離。在負(fù)荷有監(jiān)督分類(lèi)方面,應(yīng)用最廣泛的是反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)[13—14],但BPNN存在梯度爆炸、梯度消失等問(wèn)題。在無(wú)監(jiān)督與有監(jiān)督結(jié)合方面,負(fù)荷數(shù)據(jù)作為無(wú)標(biāo)簽數(shù)據(jù),利用無(wú)監(jiān)督聚類(lèi)獲得類(lèi)別標(biāo)簽,訓(xùn)練有監(jiān)督學(xué)習(xí)模型進(jìn)行分類(lèi),可將無(wú)監(jiān)督與有監(jiān)督的優(yōu)勢(shì)相結(jié)合,實(shí)現(xiàn)海量負(fù)荷數(shù)據(jù)的高效分類(lèi),其首先應(yīng)獲得訓(xùn)練集的精準(zhǔn)類(lèi)別標(biāo)簽[15—17]。
不均衡數(shù)據(jù)是指數(shù)據(jù)集中歸屬于某一類(lèi)別的樣本數(shù)量和密度與其他類(lèi)別有較大差異。由于用戶(hù)用電行為的隨機(jī)性與多樣性,負(fù)荷數(shù)據(jù)同樣存在不均衡的現(xiàn)象,某些類(lèi)別的負(fù)荷數(shù)量遠(yuǎn)少于其他類(lèi)別的負(fù)荷數(shù)量。傳統(tǒng)的K-means算法處理此類(lèi)數(shù)據(jù)時(shí)容易出現(xiàn)“均勻效應(yīng)”[18—19],小類(lèi)會(huì)吞噬大類(lèi)中的部分樣本,而傳統(tǒng)分類(lèi)方法同樣在小樣本類(lèi)別上分類(lèi)效果欠佳。目前在負(fù)荷曲線(xiàn)分類(lèi)時(shí)考慮不均衡數(shù)據(jù)問(wèn)題的研究較少,文獻(xiàn)[20]改進(jìn)密度峰值聚類(lèi)(density peak clustering,DPC)算法實(shí)現(xiàn)了對(duì)多類(lèi)別分布不均衡的負(fù)荷曲線(xiàn)聚類(lèi),但該算法計(jì)算復(fù)雜度較高,難以處理海量負(fù)荷數(shù)據(jù);文獻(xiàn)[21—23]利用過(guò)采樣技術(shù)處理類(lèi)別不平衡問(wèn)題后訓(xùn)練分類(lèi)模型,但其前提是訓(xùn)練集需要精準(zhǔn)的類(lèi)別標(biāo)簽,而負(fù)荷數(shù)據(jù)是無(wú)標(biāo)簽數(shù)據(jù),難以獲得準(zhǔn)確的類(lèi)別信息。
為了解決上述問(wèn)題,提出一種無(wú)監(jiān)督與有監(jiān)督相結(jié)合的負(fù)荷曲線(xiàn)分類(lèi)方法。首先,采用長(zhǎng)短期記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)自編碼器對(duì)負(fù)荷曲線(xiàn)進(jìn)行特征降維;然后,基于相對(duì)k近鄰密度峰值(relatedk-nearest neigh ̄bor density peaks,RKDP)初始聚類(lèi)中心選取方法改進(jìn)K-means獲得訓(xùn)練集精準(zhǔn)類(lèi)別標(biāo)簽;最后訓(xùn)練搭建的LSTM-卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)分類(lèi)模型,實(shí)現(xiàn)大規(guī)模負(fù)荷數(shù)據(jù)分類(lèi)。
DPC算法的核心思想為:聚類(lèi)中心本身的局部密度大,即其被小于其密度的鄰居所包圍;聚類(lèi)中心與其他具有更大密度的數(shù)據(jù)點(diǎn)之間有相對(duì)大的距離[24]。在DPC算法中,每個(gè)數(shù)據(jù)點(diǎn)i有2個(gè)重要參數(shù):局部密度ρi與相對(duì)距離δi。
基于高斯核計(jì)算數(shù)據(jù)點(diǎn)i的局部密度ρi為:
(1)
式中:di,j為數(shù)據(jù)點(diǎn)i,j之間的距離;dc為截?cái)嗑嚯x,即距離閾值。與數(shù)據(jù)點(diǎn)i距離小于dc的點(diǎn)越多,該點(diǎn)的局部密度ρi就越大。
相對(duì)距離δi為數(shù)據(jù)點(diǎn)i與其他密度比它大的數(shù)據(jù)點(diǎn)的所有距離中的最小值,計(jì)算公式為:
(2)
根據(jù)DPC算法的核心思想,將相對(duì)距離大且局部密度值大的點(diǎn)選定為聚類(lèi)中心,然后將剩余數(shù)據(jù)分配到密度比它高的最近數(shù)據(jù)點(diǎn)所在類(lèi)別,快速完成聚類(lèi)。然而,DPC算法在數(shù)據(jù)集密集程度不均時(shí)效果較差,這是由于該算法定義的局部密度是由全局?jǐn)?shù)據(jù)進(jìn)行計(jì)算,未考慮數(shù)據(jù)內(nèi)部局部結(jié)構(gòu)差異。當(dāng)數(shù)據(jù)集不同類(lèi)別間密集程度差異較大時(shí),全局范圍內(nèi)密度較高的點(diǎn)可能全分布在密集類(lèi)別中,容易忽略密度稀疏的類(lèi)別,難以找到正確的初始聚類(lèi)中心[25]。因此,通過(guò)計(jì)算數(shù)據(jù)點(diǎn)與其近鄰點(diǎn)間相對(duì)密度可能更能反映該點(diǎn)是否為潛在的聚類(lèi)中心。
文中基于DPC算法思想,提出RKDP初始聚類(lèi)中心選取方法,該方法須提前設(shè)定2個(gè)參數(shù):聚類(lèi)中心數(shù)K和k近鄰的參數(shù)n,其具體流程如下。
(1) 首先,通過(guò)數(shù)據(jù)點(diǎn)i與其近鄰點(diǎn)的距離來(lái)計(jì)算其局部密度,新的局部密度ρi計(jì)算公式如式(3)所示,Ni為i的n個(gè)近鄰點(diǎn)集合。
(3)
(4)
(3) 基于DPC算法思想(聚類(lèi)中心有著較大的局部密度與相對(duì)距離)引入聚類(lèi)中心權(quán)值γi來(lái)選擇初始聚類(lèi)中心,計(jì)算公式如下:
(5)
自編碼器(auto-encoder,AE)是一種常用于特征提取與降維的神經(jīng)網(wǎng)絡(luò),包括編碼與解碼2個(gè)過(guò)程,其基本結(jié)構(gòu)如圖1所示,包括輸入層、隱藏層和輸出層3個(gè)部分[8]。AE的思想就是在輸出層最大程度重構(gòu)輸入數(shù)據(jù),同時(shí)通過(guò)隱藏層提取輸入數(shù)據(jù)的隱藏特征,通過(guò)設(shè)置隱藏層神經(jīng)元數(shù)量小于輸入數(shù)據(jù)維度即可實(shí)現(xiàn)特征降維。
LSTM神經(jīng)網(wǎng)絡(luò)是一種改進(jìn)的時(shí)間循環(huán)網(wǎng)絡(luò),依靠其獨(dú)特的門(mén)控結(jié)構(gòu)和記憶單元可有效處理長(zhǎng)時(shí)間序列,目前在時(shí)序預(yù)測(cè)、分類(lèi)等領(lǐng)域有廣泛的應(yīng)用。LSTM神經(jīng)網(wǎng)絡(luò)基本單元主要包括遺忘門(mén)、輸入門(mén)和輸出門(mén)3個(gè)門(mén)控單元[23—24]。
圖1 AE結(jié)構(gòu)Fig.1 Structure of AE
文中將傳統(tǒng)AE與LSTM神經(jīng)網(wǎng)絡(luò)相結(jié)合,提取負(fù)荷數(shù)據(jù)的時(shí)序特征,所提出的LSTM-AE網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 LSTM-AE網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of LSTM-AE
CNN近年來(lái)在深度學(xué)習(xí)領(lǐng)域被廣泛應(yīng)用,其內(nèi)部基于局部連接和共享權(quán)值的方式可有效提取數(shù)據(jù)的潛在特征[26—27]。文中使用CNN提取負(fù)荷數(shù)據(jù)的深層次特征,同時(shí)與LSTM神經(jīng)網(wǎng)絡(luò)提取的時(shí)序特征拼接作為特征向量,實(shí)現(xiàn)特征增強(qiáng),從而提升分類(lèi)模型對(duì)不平衡數(shù)據(jù)的處理能力。所提出的LSTM-CNN分類(lèi)模型如圖2所示,主要包括CNN子模塊、LSTM子模塊以及分類(lèi)模塊。CNN子模塊主要由2層的一維卷積層與池化層組成。Reshape層轉(zhuǎn)換輸入數(shù)據(jù)維度,2層卷積層提取數(shù)據(jù)特征,激活函數(shù)為Relu;池化層對(duì)卷積層提取特征進(jìn)行下采樣,實(shí)現(xiàn)特征約簡(jiǎn)。LSTM子模塊由2層LSTM網(wǎng)絡(luò)層構(gòu)成,神經(jīng)元數(shù)量均為64,激活函數(shù)為Relu,用于提取負(fù)荷的內(nèi)在時(shí)序特征。分類(lèi)模塊中,特征拼接層對(duì)LSTM及CNN子模塊提取的特征進(jìn)行拼接,輸出為一維特征向量;第一層全連接層實(shí)現(xiàn)特征降維,激活函數(shù)為Relu,數(shù)量為32;第二層全連接層激活函數(shù)設(shè)置為Softmax,其神經(jīng)元數(shù)量取決于負(fù)荷類(lèi)別數(shù),輸出最后的分類(lèi)結(jié)果。
圖2 LSTM-CNN分類(lèi)模型結(jié)構(gòu)Fig.2 Structure of LSTM-CNN classification model
4.1.1 實(shí)驗(yàn)數(shù)據(jù)介紹
由于負(fù)荷數(shù)據(jù)缺乏類(lèi)別標(biāo)簽,無(wú)法直接測(cè)試所提方法對(duì)不均衡數(shù)據(jù)的分類(lèi)能力,文中基于UCI數(shù)據(jù)集中的DIris,DWine,DSeed數(shù)據(jù)集來(lái)驗(yàn)證RKDP初始聚類(lèi)中心選取方法的有效性,同時(shí)選取Synthetic Control時(shí)序數(shù)據(jù)集對(duì)所提出的LSTM-CNN分類(lèi)模型進(jìn)行測(cè)試。最后,選取倫敦智能電表數(shù)據(jù)集DL及愛(ài)爾蘭負(fù)荷數(shù)據(jù)DI作為實(shí)際負(fù)荷數(shù)據(jù)進(jìn)行負(fù)荷聚類(lèi)及分類(lèi)實(shí)驗(yàn)(采樣時(shí)間間隔均為30 min,即每天有48個(gè)采樣點(diǎn)),驗(yàn)證所提方法的有效性。文中所使用的實(shí)驗(yàn)平臺(tái)處理器型號(hào)為AMD Ryzen Threadripper 3970X,操作系統(tǒng)為Windows 10,所用編程語(yǔ)言為Python 3.7,所提出的神經(jīng)網(wǎng)絡(luò)模型采用keras深度學(xué)習(xí)框架搭建。
4.1.2 評(píng)價(jià)指標(biāo)介紹
在聚類(lèi)性能評(píng)估指標(biāo)方面,對(duì)于有類(lèi)別標(biāo)簽的數(shù)據(jù)集,選取調(diào)整互信息(adjusted mutual in ̄for ̄ma ̄tion,AMI)iAMI、調(diào)整蘭德系數(shù)(adjusted rand in ̄dex,ARI)iARI和Fowlkes-Mallows指數(shù)(fowlkes-mal ̄lows index,F(xiàn)MI)iFMI3項(xiàng)指標(biāo)來(lái)描述聚類(lèi)結(jié)果與實(shí)際標(biāo)簽的吻合程度,上限均為1,其值越接近1表示聚類(lèi)效果越好。對(duì)于無(wú)標(biāo)簽負(fù)荷數(shù)據(jù),選取常用的輪廓系數(shù)(silhouette coefficient,SC)iSC和戴維森堡丁指數(shù)(Davies-Bouldin index,DBI)iDBI,iSC值越大、iDBI越小意味著類(lèi)內(nèi)距離越小,類(lèi)間距離越大,聚類(lèi)效果越好[28—30]。在分類(lèi)模型評(píng)估指標(biāo)方面,直接選擇分類(lèi)準(zhǔn)確率作為分類(lèi)模型的評(píng)價(jià)指標(biāo)。
4.2.1 RKDP有效性驗(yàn)證
首先將RKDP-K-means算法直接與K-means算法進(jìn)行對(duì)比,驗(yàn)證RKDP初始聚類(lèi)中心選取方法能夠提升K-means方法對(duì)不均衡數(shù)據(jù)的聚類(lèi)精度?;贒Iris,DWine,DSeed3個(gè)真實(shí)數(shù)據(jù)集,采用隨機(jī)抽樣法分別構(gòu)建不平衡比例為3∶1,5∶1,10∶1的數(shù)據(jù)集,聚類(lèi)數(shù)均為各數(shù)據(jù)集的類(lèi)別數(shù),k近鄰參數(shù)在3~20之間選取,每種不平衡比例下重復(fù)5次,即每個(gè)數(shù)據(jù)集進(jìn)行15次實(shí)驗(yàn),2種方法的iARI,iAMI,iFMI及其平均值分別見(jiàn)表2和表3,iIter為迭代次數(shù)均值。
由表2和表3可知,K-means算法聚類(lèi)精度隨著不平衡比例加重逐漸下降,以DWine數(shù)據(jù)集為例,數(shù)據(jù)不平衡比例由3∶1變?yōu)?0∶1時(shí),iARI指標(biāo)由0.858變?yōu)?.670,而RKDP-K-means算法由0.876變?yōu)?.804,仍保持較高水平;在各指標(biāo)平均值方面,相對(duì)于K-means算法,RKDP-K-means算法的iARI,iAMI,iFMI均有提升,且迭代次數(shù)減少。綜上,文中所提出的RKDP初始聚類(lèi)中心選取方法能夠有效提升K-means算法對(duì)不平衡數(shù)據(jù)的處理能力。
表2 K-means實(shí)驗(yàn)結(jié)果Table 2 Experimental results of K-means
表3 RKDP-K-means實(shí)驗(yàn)結(jié)果Table 3 Experimental results of the RKDP-K-means
4.2.2 聚類(lèi)效果對(duì)比分析
為了更加客觀(guān)地驗(yàn)證所提算法處理不均衡數(shù)據(jù)的有效性,將RKDP-K-means算法與基于劃分的K-means、基于空間密度的聚類(lèi)(density-based spatial clustering of applications with noise,DBSCAN)[31]、基于層次的凝聚聚類(lèi)(agglomerative clustering,AG)及基于圖論的譜聚類(lèi)(spectral clustering,SP)4種方法進(jìn)行對(duì)比。其中,K-means、AG及SP聚類(lèi)數(shù)設(shè)置為3,DBSCAN鄰域半徑以0.02為步長(zhǎng),在0.1~0.5之間選取,鄰域內(nèi)最少樣本數(shù)在5~25之間選取,RKDP-K-means的k近鄰參數(shù)在3~20之間選取。所有結(jié)果均為最佳參數(shù)下測(cè)得,每組不平衡數(shù)據(jù)同樣重復(fù)5次,表4為5種方法的準(zhǔn)確率。
由表4可知,RKDP-K-means算法在各數(shù)據(jù)集下均優(yōu)于K-means算法,以DWine數(shù)據(jù)集為例,隨著不平衡比例加大,K-means的準(zhǔn)確率從0.957變?yōu)?.829,RKDP-K-means從0.964變?yōu)?.915,仍有較高準(zhǔn)確度。整體上看,RKDP-K-means算法的準(zhǔn)確率均值均優(yōu)于其他4種方法。因此,RKDP-K-means算法在處理不平衡數(shù)據(jù)時(shí)具有優(yōu)勢(shì)。
表4 5種聚類(lèi)算法準(zhǔn)確率Table 4 Accuracy of five clustering algorithms
采用實(shí)際負(fù)荷數(shù)據(jù)來(lái)對(duì)LSTM-AE的性能進(jìn)行評(píng)價(jià)分析。從DL數(shù)據(jù)集中隨機(jī)選取500條負(fù)荷曲線(xiàn)為實(shí)驗(yàn)對(duì)象,基于K-means算法計(jì)算不同聚類(lèi)數(shù)下的iSC,iDBI指標(biāo),結(jié)果如圖3所示,當(dāng)聚類(lèi)數(shù)目為4時(shí),2項(xiàng)指標(biāo)所反映的聚類(lèi)效果較好,因此設(shè)置聚類(lèi)數(shù)為4。分別采用LSTM-AE、主成分分析(prin ̄cipal component analysis,PCA)、核主成分分析(kernel PCA,KPCA)、AE 4種降維方法(維度均設(shè)置為8)降維后采用RKDP-K-means聚類(lèi)以及K-means,RKDP-K-means不降維直接聚類(lèi)進(jìn)行對(duì)比,重復(fù)10次試驗(yàn)。同時(shí)基于DI重復(fù)上述實(shí)驗(yàn)進(jìn)行驗(yàn)證,聚類(lèi)中心數(shù)設(shè)置為3,結(jié)果如表5所示。
圖3 SC和DBI與聚類(lèi)數(shù)目關(guān)系Fig.3 Relationship between SC,DBI and cluster number
表5 LSTM-AE有效性驗(yàn)證實(shí)驗(yàn)結(jié)果Table 5 Results of validity verification of LSTM-AE
為表述方便,將經(jīng)LSTM-AE降維后RKDP-K-means聚類(lèi)命名為L(zhǎng)ARK聚類(lèi)算法。由表5可知,RKDP-K-means在iSC指標(biāo)上優(yōu)于K-means算法,iDBI指標(biāo)基本持平。與RKDP-K-means聚類(lèi)相比,LARK算法的各項(xiàng)指標(biāo)均有較大幅度的改善,在DL和DI數(shù)據(jù)集上,iSC指標(biāo)分別提升0.121和0.05,這表明LSTM-AE能夠提升RKDP-K-means的聚類(lèi)精度。通過(guò)對(duì)比4種降維方法可以發(fā)現(xiàn),LSTM-AE的特征提取能力優(yōu)于其他3種方法。
4.4.1 LSTM-CNN網(wǎng)絡(luò)測(cè)試
首先,使用Synthetic Control時(shí)序數(shù)據(jù)集測(cè)試所提出的LSTM-CNN分類(lèi)模型,與相同結(jié)構(gòu)的LSTM網(wǎng)絡(luò)模型以及傳統(tǒng)支持向量機(jī)(support vector machine,SVM)模型進(jìn)行對(duì)比,訓(xùn)練集與測(cè)試集比例為1∶1,神經(jīng)網(wǎng)絡(luò)迭代次數(shù)設(shè)置為100,優(yōu)化器為adam,損失函數(shù)為MSE;SVM算法中核參數(shù)為徑向基,分類(lèi)準(zhǔn)確率如表6所示。由表6可知,3種方法在訓(xùn)練集上均有100%的準(zhǔn)確率,在測(cè)試集上,LSTM模型最弱,僅有95.3%,而所提出的LSTM-CNN分類(lèi)模型與SVM均達(dá)到了97.7%的準(zhǔn)確率。
表6 3種方法分類(lèi)準(zhǔn)確率對(duì)比Table 6 Classification accuracy comparisonof three methods %
為了驗(yàn)證LSTM-CNN模型對(duì)不平衡時(shí)序數(shù)據(jù)的分類(lèi)性能,基于Synthetic Control時(shí)序數(shù)據(jù)集構(gòu)建了15種類(lèi)別不平衡數(shù)據(jù)集,與LSTM模型和SVM模型進(jìn)行對(duì)比,傳統(tǒng)SVM模型處理不平衡時(shí)序數(shù)據(jù)性能較弱,準(zhǔn)確率均值僅有80.7%,LSTM模型準(zhǔn)確率均值為87.9%,而所提LSTM-CNN模型相對(duì)其他2種方法有著更好的分類(lèi)性能,準(zhǔn)確率高達(dá)92.2%。由此可見(jiàn),提出的基于LSTM-CNN模型能夠有效處理時(shí)序不平衡數(shù)據(jù)分類(lèi)問(wèn)題。
4.4.2 實(shí)際負(fù)荷數(shù)據(jù)分類(lèi)測(cè)試
(1) 算法分類(lèi)性能測(cè)試?;贒L和DI負(fù)荷數(shù)據(jù),分別隨機(jī)選取10萬(wàn)條負(fù)荷曲線(xiàn),按照3∶7構(gòu)造訓(xùn)練集與測(cè)試集,基于LARK獲得訓(xùn)練集標(biāo)簽數(shù)據(jù),訓(xùn)練LSTM-CNN模型實(shí)現(xiàn)對(duì)測(cè)試集的分類(lèi),與K-means和LARK直接聚類(lèi)進(jìn)行對(duì)比,DL,DI的聚類(lèi)中心數(shù)分別設(shè)為6和8,iSC和iDBI指標(biāo)如表7所示。由表7可知,文中方法聚類(lèi)精度優(yōu)于LARK算法,在2個(gè)數(shù)據(jù)集上,iSC指標(biāo)分別提升0.043和0.044。K-means算法雖然在DI上iDBI指標(biāo)最小,但其iSC指標(biāo)僅有0.074,文中方法iSC指標(biāo)相較于K-means提升0.118,iDBI指標(biāo)提升0.172,整體上看,所提出的分類(lèi)方法分類(lèi)性能優(yōu)于其他2種方法。
表7 3種方法SC、DBI對(duì)比Table 7 Comparison of SC,DBI of three methods
(2) 負(fù)荷分類(lèi)結(jié)果。圖4為基于DI歸一化后的負(fù)荷分類(lèi)結(jié)果,可以看出用戶(hù)的用電模式多種多樣,8種典型負(fù)荷曲線(xiàn)可大致分為平穩(wěn)型用電和尖峰型用電。類(lèi)別1一整天始終保持較高的負(fù)荷水平,在凌晨用電量較大。類(lèi)別5也是平穩(wěn)型用電類(lèi)型,但其負(fù)荷水平一直很低。其余6種皆為尖峰型用電,但用電高峰時(shí)段不同,類(lèi)別7是典型的午間負(fù)荷,類(lèi)別4和類(lèi)別6用電高峰分別出現(xiàn)在下午和傍晚,類(lèi)別2、類(lèi)別3和類(lèi)別8是典型的晚間負(fù)荷,其中類(lèi)別3的用電高峰時(shí)間持續(xù)較長(zhǎng)。通過(guò)挖掘用戶(hù)的典型用電模式,有助于電力公司制定更好的售電方案,提高服務(wù)水平。
圖4 典型負(fù)荷曲線(xiàn)Fig.4 Typical daily load profiles
(3) 算法效率測(cè)試。文中所提方法包括LARK聚類(lèi)獲取樣本標(biāo)簽、LSTM-CNN模型訓(xùn)練及分類(lèi)3個(gè)環(huán)節(jié),實(shí)驗(yàn)對(duì)比了K-means、LARK及文中方法(訓(xùn)練集∶ 測(cè)試集=3∶7)在不同規(guī)模負(fù)荷數(shù)據(jù)集下的計(jì)算速度,執(zhí)行時(shí)間如圖5所示。
圖5 算法效率對(duì)比Fig.5 Comparison of algorithmic efficiency
從圖5可以看出,LARK聚類(lèi)算法隨著數(shù)據(jù)規(guī)模增加運(yùn)行時(shí)間急劇增大,在對(duì)30萬(wàn)條負(fù)荷曲線(xiàn)分類(lèi)時(shí),LARK算法運(yùn)行時(shí)間達(dá)到167 s,而文中方法僅用時(shí)37.4 s,相比于LARK算法效率提升3.46倍;傳統(tǒng)K-means算法用時(shí)20.5 s,文中方法雖相較于K-means算法較差,但在分類(lèi)性能上表現(xiàn)更好,同時(shí)文中方法主要耗時(shí)在于標(biāo)簽獲取與訓(xùn)練分類(lèi)模型環(huán)節(jié)(共耗時(shí)34.2 s),分類(lèi)階段用時(shí)僅3.22 s,分類(lèi)模型一旦訓(xùn)練完成后可重復(fù)使用。因此,文中所提方法在面對(duì)大規(guī)模負(fù)荷分類(lèi)時(shí)具有效率優(yōu)勢(shì)。
文中提出了一種考慮數(shù)據(jù)分布不均衡的負(fù)荷曲線(xiàn)分類(lèi)方法,主要包括基于LSTM-AE實(shí)現(xiàn)負(fù)荷數(shù)據(jù)降維、基于RKDP-K-means聚類(lèi)算法獲得負(fù)荷類(lèi)別標(biāo)簽及訓(xùn)練LSTM-CNN分類(lèi)模型實(shí)現(xiàn)大規(guī)模負(fù)荷分類(lèi)三部分。通過(guò)算例分析驗(yàn)證了文中方法的有效性,得到以下結(jié)論:
(1) 基于UCI公共數(shù)據(jù)集驗(yàn)證了所提出的RKDP初始聚類(lèi)中心選取方法可有效提升K-means算法對(duì)不均衡數(shù)據(jù)的聚類(lèi)性能,其中iARI指標(biāo)提升6.6%,迭代次數(shù)減少17.1%;
(2) 在RKDP-K-means算法對(duì)負(fù)荷進(jìn)行聚類(lèi)分析時(shí),所提出的LSTM-AE特征提取方法可有效提升RKDP-K-means的聚類(lèi)精度,在倫敦負(fù)荷測(cè)試集,iSC指標(biāo)提升35.4%;
(3) 在大規(guī)模負(fù)荷分類(lèi)上,基于LARK聚類(lèi)與LSTM-CNN分類(lèi)模型相結(jié)合的負(fù)荷分類(lèi)方法相比于LARK算法有著更好的負(fù)荷分類(lèi)性能,其中iSC指標(biāo)提升29.7%,效率提升3.46倍。