黃冬梅,林孝鑲,胡安鐸,孫錦中
(1. 上海電力大學(xué)電子與信息工程學(xué)院,上海市 200090;2. 上海電力大學(xué)電氣工程學(xué)院,上海市 200090)
隨著泛在電力物聯(lián)網(wǎng)的建設(shè),智能電表等智能傳感設(shè)備的大量接入,電力負(fù)荷數(shù)據(jù)的時(shí)空范圍不斷擴(kuò)展。電力負(fù)荷的監(jiān)測范圍從配電站延伸到用戶以及終端設(shè)備,造成電力負(fù)荷的數(shù)據(jù)量巨增,并且類型更加豐富。挖掘電力負(fù)荷數(shù)據(jù)的價(jià)值是電力行業(yè)的重要課題之一。負(fù)荷聚類是電力大數(shù)據(jù)分析的重要基礎(chǔ),可以用于用電行為研究[1]、電價(jià)制定[2]、負(fù)荷建模[3]、負(fù)荷預(yù)測[4]等多方面。精準(zhǔn)的負(fù)荷聚類也有助于電力系統(tǒng)的優(yōu)化運(yùn)行[5]和電力需求側(cè)管理水平的提升[6]。
電力負(fù)荷聚類方法大致包括直接聚類和間接聚類2種。直接聚類方法對歸一化處理后的負(fù)荷數(shù)據(jù),采用基于歐氏距離的層次聚類算法、模糊C均值聚類算法等傳統(tǒng)聚類算法對負(fù)荷進(jìn)行聚類[7-10]。文獻(xiàn)[7-8]分別采用遺傳算法和引力搜索算法尋找最優(yōu)聚類中心,提高聚類質(zhì)量和聚類穩(wěn)定性。文獻(xiàn)[9-10]分別采用層次聚類算法、模糊聚類算法對負(fù)荷進(jìn)行分類。但是上述方法多以歐氏距離作為負(fù)荷的相似性度量,聚類質(zhì)量難以保證,特別是在高維數(shù)據(jù)空間[11]。另一方面,隨著智能電表等高級電力計(jì)量裝置廣泛安裝在配用電側(cè)[12],電力公司信息采集能力不斷提升,電力負(fù)荷數(shù)據(jù)呈現(xiàn)海量、高維的特征。因此,直接聚類方法面臨著計(jì)算效率和聚類質(zhì)量的挑戰(zhàn)。
間接聚類算法首先通過降維算法對負(fù)荷數(shù)據(jù)進(jìn)行降維處理,然后提取特征,再依據(jù)提取的數(shù)據(jù)特征進(jìn)行聚類。文獻(xiàn)[13-16]以日負(fù)荷率、日峰谷差率等電力指標(biāo)作為低維特征和采用離散小波變換進(jìn)行特征提??;文獻(xiàn)[17]采用分位數(shù)和差分算法對原始負(fù)荷數(shù)據(jù)進(jìn)行特征提取;文獻(xiàn)[18]提出了核方法對原始數(shù)據(jù)進(jìn)行特征空間變換。但是上述方法將特征提取和聚類任務(wù)分離,無法保證提取的特征適合聚類任務(wù),因而可能降低聚類的質(zhì)量。文獻(xiàn)[19]提出基于堆疊式編碼器的深度嵌入聚類方法(deep embedding clustering method based on stacked auto-encoder,DEC-SAE)將特征提取和聚類任務(wù)聯(lián)合優(yōu)化,從而提升了圖像數(shù)據(jù)聚類質(zhì)量,但是對于蘊(yùn)含時(shí)序特征的電力負(fù)荷數(shù)據(jù)卻難以保證聚類質(zhì)量。
針對現(xiàn)有方法在負(fù)荷時(shí)序特征提取能力及高維負(fù)荷數(shù)據(jù)聚類有效性的不足,以及負(fù)荷時(shí)序特征提取與聚類任務(wù)分離處理的問題,本文提出一種采用一維卷積自編碼器的日負(fù)荷深度嵌入聚類方法(deep embedding clustering method based on one dimensional convolutional auto-encoder,DEC-1D-CAE)。首先,利用一維卷積自編碼器網(wǎng)絡(luò)的一維卷積和池化運(yùn)算,自動提取負(fù)荷曲線蘊(yùn)含的時(shí)序特性,降低數(shù)據(jù)維度。然后,在自定義聚類層中,通過自定義的相似度衡量公式對提取的負(fù)荷特征向量進(jìn)行軟劃分,并采用KL散度(Kullback-Leibler divergence,KLD),也稱作相對熵,對特征提取與聚類劃分進(jìn)行聯(lián)合優(yōu)化,以提升負(fù)荷聚類質(zhì)量,輸出聚類結(jié)果。最后,通過算例仿真比較不同聚類方法的有效性評價(jià)指標(biāo),驗(yàn)證本文所提方法的有效性。
一維卷積自編碼器是一種基于編碼-解碼思想的無監(jiān)督神經(jīng)網(wǎng)絡(luò),通過卷積、池化運(yùn)算,將輸入層的高維數(shù)據(jù)轉(zhuǎn)換到隱藏層,從而降低原始數(shù)據(jù)集維度并有效提取數(shù)據(jù)時(shí)序特征。在負(fù)荷聚類研究中引入一維卷積自編碼器,利用其良好的數(shù)據(jù)重構(gòu)能力,提取負(fù)荷數(shù)據(jù)時(shí)序特征,獲得數(shù)據(jù)的有效表示,并降低數(shù)據(jù)維度,提升聚類效率。
電力負(fù)荷曲線聚類主要依據(jù)負(fù)荷曲線的形狀特征,而不是負(fù)荷本身實(shí)際值大小。同時(shí),為了進(jìn)行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和計(jì)算效率提升,因此需要對電力負(fù)荷數(shù)據(jù)進(jìn)行歸一化處理,采用最大最小值法,將原始日負(fù)荷的每一個(gè)特征分量歸一化到0~1范圍內(nèi)。歸一化的表達(dá)式為:
(1)
式中:P為歸一化前的負(fù)荷數(shù)據(jù)序列;P′為歸一化后的負(fù)荷數(shù)據(jù)序列;Pmax、Pmin分別表示負(fù)荷數(shù)據(jù)序列的最大值與最小值。
為了準(zhǔn)確提取負(fù)荷數(shù)據(jù)時(shí)序特征,根據(jù)自編碼神經(jīng)網(wǎng)絡(luò)理論[20],構(gòu)建一維卷積自編碼器對負(fù)荷數(shù)據(jù)進(jìn)行時(shí)序特征提取,其模型結(jié)構(gòu)如圖1所示。
圖1 1D-CAE模型結(jié)構(gòu)Fig.1 Structure of 1D-CAE model
假設(shè)x=[x1,x2,…,xt,…,xn](xt表示t時(shí)刻的特征值)為歸一化后輸入的日負(fù)荷的時(shí)間序列數(shù)據(jù),圖1中左邊虛線框表示1D-CAE的編碼過程,其表達(dá)式為:
h1=σf(W*x+b1)
(2)
z=p(h1)
(3)
式中:x∈R1×n為時(shí)間序列,n為時(shí)間序列長度;*表示一維卷積運(yùn)算;W和b1分別表示編碼過程中的一維卷積核和偏置;σf為激活函數(shù),這里采用激活函數(shù)Relu;p表示池化運(yùn)算,本文采用最大池化(max-pooling);z為低維度的負(fù)荷特征向量,z維度遠(yuǎn)遠(yuǎn)小于x。
圖1中右邊虛線框部分表示1D-CAE的解碼過程,其解碼過程表達(dá)式為:
h2=S(z)
(4)
x′=σe(U*h2+b2)
(5)
(6)
式中:S表示上采樣;h2為上采樣得到的特征;U和b2分別表示解碼過程中的一維卷積核和偏置;x′為輸入x的重構(gòu)數(shù)據(jù);σe是解碼器中的激活函數(shù),為Sigmoid函數(shù)。
通過訓(xùn)練過程,損失函數(shù)不斷調(diào)整優(yōu)化一維卷積自編碼器的參數(shù),使得損失函數(shù)Lr均方誤差最小,使重構(gòu)的日負(fù)荷數(shù)據(jù)x′接近原始輸入數(shù)據(jù)x,從而提取精確的時(shí)序特征。
(7)
利用梯度下降法求解最優(yōu)化問題Lr,獲得最佳的自編碼器網(wǎng)絡(luò)參數(shù),從而實(shí)現(xiàn)一維卷積自編碼器的構(gòu)建。
在實(shí)現(xiàn)一維卷積自編碼器的構(gòu)建與訓(xùn)練后,為了對負(fù)荷特征提取與聚類分析進(jìn)行聯(lián)合優(yōu)化,保留一維卷積編碼器的編碼部分,并在編碼部分自定義聚類層,以計(jì)算提取的負(fù)荷特征向量與聚類中心的軟分配度,從而計(jì)算目標(biāo)概率分布,并以KL散度為目標(biāo)函數(shù),對編碼部分的網(wǎng)絡(luò)參數(shù)和聚類層的聚類中心進(jìn)行聯(lián)合優(yōu)化,得到負(fù)荷聚類結(jié)果,具體流程如圖2所示。
在完成一維卷積自編碼器的初始特征提取階段后,解除負(fù)荷初始特征提取階段的一維卷積編碼器的解碼網(wǎng)絡(luò),只保留特征提取的編碼部分,并在此基礎(chǔ)上自定義聚類層。將編碼器提取的負(fù)荷特征向量作為輸入,并通過自定義的相似度衡量公式,獲得負(fù)荷聚類結(jié)果。
傳統(tǒng)的劃分方法如K-means、層次聚類等采用硬性劃分方式衡量負(fù)荷數(shù)據(jù)與聚類中心相似度,但無法衡量負(fù)荷數(shù)據(jù)到聚類中心的不確定度,尤其是離群點(diǎn)的分配準(zhǔn)確度較低,從而可能降低聚類質(zhì)量。由于高斯分布屬于輕尾分布,易受離群數(shù)據(jù)點(diǎn)和邊緣數(shù)據(jù)值影響。因此,本文采用更穩(wěn)健的長尾t分布衡量低維度的負(fù)荷特征向量與聚類中心的相似程度[21],其軟分配度為:
圖2 基于一維卷積自編碼器的日負(fù)荷深度嵌入聚類方法流程Fig.2 Flowchart of deep embedding clustering method of daily load applying one-dimensional convolutional auto-encoder
(8)
式中:‖zj-ci‖2為zj到聚類中心ci的距離;qij為將低維負(fù)荷特征向量zj劃分到聚類中心ci的概率;α為t分布的自由度,設(shè)定為1。
為了提高負(fù)荷聚類質(zhì)量,規(guī)范每個(gè)聚類中心的損失貢獻(xiàn),強(qiáng)化負(fù)荷曲線分配的高置信度數(shù)據(jù),模型定義一個(gè)基于聚類中心的高置信度目標(biāo)概率分布,采用式(9)作為輔助負(fù)荷聚類目標(biāo)概率分布。
(9)
(10)
式中:qi′j為低維負(fù)荷特征向量zj分配到不同聚類中心的概率;fi和fi′分別表示所有低維負(fù)荷特征向量分配到聚類中心ci的概率和以及分配到不同聚類中心的概率和;pij為聚類優(yōu)化目標(biāo),通過qij的二次冪提升聚類的準(zhǔn)確度。
為了使聚類層軟分配度的概率分布qij與輔助目標(biāo)分布pij一致,因此定義KL散度作為一維卷積自編碼器的損失函數(shù),其損失函數(shù)為:
(11)
利用KL散度訓(xùn)練網(wǎng)絡(luò),從而同時(shí)優(yōu)化聚類層的聚類中心ci和一維卷積自編碼器的編碼網(wǎng)絡(luò)參數(shù)θ,從而提高聚類分配的準(zhǔn)確度。損失函數(shù)L關(guān)于低維負(fù)荷特征點(diǎn)zi和聚類中心ci的梯度計(jì)算公式為:
(12)
(13)
使用某地區(qū)實(shí)際電網(wǎng)負(fù)荷數(shù)據(jù)為研究對象,實(shí)測1 156條日負(fù)荷數(shù)據(jù),日負(fù)荷采樣頻率為30 min,每日采集點(diǎn)48個(gè)。
為了對比1D-CAE網(wǎng)絡(luò)與堆疊式編碼器網(wǎng)絡(luò)(stacked auto-encoder,SAE)對負(fù)荷曲線深層特征提取的效果,利用SAE網(wǎng)絡(luò)和1D-CAE網(wǎng)絡(luò),重構(gòu)了某典型日負(fù)荷曲線,日負(fù)荷曲線的重構(gòu)結(jié)果如圖3所示。
圖3 負(fù)荷序列重構(gòu)對比Fig.3 Comparison of load sequence reconstruction
在Keras框架下,將歸一化的負(fù)荷樣本訓(xùn)練1D-CAE網(wǎng)絡(luò)與SAE網(wǎng)絡(luò),采用Adam優(yōu)化器。1D-CAE網(wǎng)絡(luò)與SAE網(wǎng)絡(luò)均采用均方誤差(mean square error,MSE)作為損失函數(shù),設(shè)置學(xué)習(xí)率為0.001,迭代100次,設(shè)置批尺寸為8,將48個(gè)點(diǎn)的日負(fù)荷數(shù)據(jù)降維至12個(gè)深層特征參數(shù)。其中,SAE網(wǎng)絡(luò)編碼側(cè)包括3層神經(jīng)網(wǎng)絡(luò),神經(jīng)單元個(gè)數(shù)分別設(shè)置為48、24、12,解碼側(cè)也為3層神經(jīng)網(wǎng)絡(luò),神經(jīng)單元個(gè)數(shù)分別為12、24、48。1D-CAE網(wǎng)絡(luò)編碼側(cè)含有1個(gè)1D卷積層和1D池化層,其中,1D卷積層的1D卷積核尺寸為9,個(gè)數(shù)為32,步長為1,池化層的池化窗口大小為4,步長為1。在解碼層含有2個(gè)1D卷積層和1D上采樣層,2個(gè)1D卷積核尺寸均為9,個(gè)數(shù)分別為32和1,步長均為1,1D上采樣層的上采樣因子為4。
由圖3可以看出,相比SAE重構(gòu)序列,1D-CAE解碼過程所輸出的重構(gòu)序列與原輸入序列吻合度更高,尤其是在負(fù)荷峰谷變化區(qū)域,說明輸入負(fù)荷序列通過1D-CAE的編碼步驟獲得深層特征表示序列,然后對深層特征表示序列解碼,輸出重構(gòu)負(fù)荷序列這一過程中,輸入負(fù)荷序列與重構(gòu)負(fù)荷序列的誤差很小。
圖4給出了使用SAE網(wǎng)絡(luò)和1D-CAE網(wǎng)絡(luò)重構(gòu)原始負(fù)荷的相對誤差,SAE對原始日負(fù)荷曲線數(shù)據(jù)各點(diǎn)重構(gòu)相對誤差為0.08%~4.19%,平均重構(gòu)相對誤差為1.66%,而1D-CAE對原始日負(fù)荷曲線數(shù)據(jù)各點(diǎn)重構(gòu)相對誤差介于0.02%與1.30%之間,平均重構(gòu)相對誤差僅為0.47%。從相對誤差的分布來看,SAE解碼重構(gòu)過程在負(fù)荷的峰谷處相對誤差較大,而1D-CAE對負(fù)荷曲線的重構(gòu)相對誤差較小。因此,1D-CAE負(fù)荷時(shí)序特征提取能力比SAE更強(qiáng)。
圖4 負(fù)荷重構(gòu)相對誤差Fig.4 Relative error of load reconstruction
在使用1D-CAE對負(fù)荷曲線進(jìn)行特征提取,將1 156×48階原日負(fù)荷矩陣轉(zhuǎn)化為1 156×12階低維特征矩陣。在此基礎(chǔ)上,使用DEC-CD-1AE算法對日用戶負(fù)荷數(shù)據(jù)對應(yīng)的低維特征序列進(jìn)行聚類,得到如圖5所示的負(fù)荷聚類結(jié)果。
圖5 本文方法聚類結(jié)果Fig.5 Clustering results of the proposed method
圖5所示的4類曲線用電特性多樣,差異性大。其中,類1與類2皆是單峰,曲線形狀較為相似,但負(fù)荷曲線數(shù)值差異較大,屬于不同類別的負(fù)荷。類3和類4負(fù)荷曲線數(shù)值差異較小但曲線形態(tài)差異大,分別為單峰和雙峰。本文所提方法對負(fù)荷序列時(shí)序特征有效提取和聚類分析進(jìn)行聯(lián)合優(yōu)化,對負(fù)荷曲線實(shí)現(xiàn)了準(zhǔn)確劃分,各類曲線形態(tài)一致。
使用傳統(tǒng)的K-means聚類算法對日用戶負(fù)荷數(shù)據(jù)進(jìn)行直接聚類,得到如圖6所示的聚類結(jié)果。其中,類1含有2種形狀較為相似,但數(shù)值差異較大的單峰用電特性曲線。類2與類4,曲線形狀高度相似,且負(fù)荷曲線數(shù)值相近,屬于同一類別的負(fù)荷,K-means算法無法處理為同一類別,存在嚴(yán)重錯(cuò)分現(xiàn)象。因此,K-means算法無法有效劃分4類曲線。
圖6 K-means算法聚類結(jié)果Fig.6 Clustering results of K-means algorithm
為進(jìn)一步驗(yàn)證所提算法的有效性,本文采用DBI(Davies-Bouldin index)指標(biāo)和CHI(Calinski-Harabasz index)指標(biāo)[22]定量分析聚類結(jié)果。其中,DBI指標(biāo)代表類別內(nèi)部距離與類外部距離之比,其值越小表示聚類效果越好。CHI指標(biāo)表示類間分離度和類內(nèi)緊湊度之比,其值越大表示聚類效果越佳。
現(xiàn)分別采用K-means算法、1D-CAE負(fù)荷特征提取后再K-means算法、DEC-SAE算法和DEC-1D-CAE算法對1 156條日負(fù)荷曲線進(jìn)行聚類分析對比,各種指標(biāo)對比如表1所示。
表1 4種聚類方法指標(biāo)對比Table 1 Comparison of four clustering methods
根據(jù)K-means和1D-CAE+K-means處理結(jié)果,在DBI指標(biāo)和CHI指標(biāo)上,K-means均優(yōu)于1D-CAE+K-means,說明經(jīng)1D-CAE提取的低維負(fù)荷數(shù)據(jù)特征不適合于K-means算法,即特征提取和聚類任務(wù)分離,二者獨(dú)立進(jìn)行,無法保證提取的數(shù)據(jù)特征適合聚類處理,從而降低了聚類指標(biāo)。
K-means與DEC-SAE處理結(jié)果相比,在DBI指標(biāo)上,1D-CAE+K-means優(yōu)于K-means。由于DEC-SAE算法保證了特征提取和聚類處理的同時(shí)優(yōu)化,使得DBI評價(jià)指標(biāo)進(jìn)一步提升。
另外,對比DEC-SAE和DEC-1D-CAE處理后的DBI、CHI聚類指標(biāo),可知DEC-1D-CAE聚類評價(jià)指標(biāo)均優(yōu)于DEC-SAE。因?yàn)镈EC-SAE采用堆疊式編碼器,而DEC-1D-CAE采用一維卷積編碼器,由3.1節(jié)可知,相比SAE,1D-CAE在負(fù)荷數(shù)據(jù)時(shí)序特征提取能力更強(qiáng),平均相對誤差更低。因此,DEC-1D-CAE聚類結(jié)果優(yōu)于DEC-SAE。
由上述分析及表1可知,本文所提方法的聚類評價(jià)指標(biāo)均優(yōu)于K-means、1D-CAE+K-means和DEC-SAE方法。
1)一維卷積自編碼網(wǎng)絡(luò)能有效提取日負(fù)荷曲線蘊(yùn)含的時(shí)序特征,并實(shí)現(xiàn)有效降維。相比堆疊式編碼器,負(fù)荷重構(gòu)相對誤差更小,時(shí)序特征提取能力更強(qiáng)。
2)與先降維提取特征再聚類的高維日負(fù)荷數(shù)據(jù)聚類方法相比,本文所提的DEC-1DC-AE方法能實(shí)現(xiàn)特征提取和聚類同時(shí)優(yōu)化,保證提取的負(fù)荷特征適合聚類任務(wù),從而提高了聚類質(zhì)量。
3)算例結(jié)果表明,在DBI、CHI聚類指標(biāo)上,本文所提DEC-1D-CAE方法均優(yōu)于K-means、1D-CAE+K-means和DEC-SAE。