亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積自編碼器的日負(fù)荷深度嵌入聚類方法

2021-01-13 00:26:26黃冬梅林孝鑲胡安鐸孫錦中

電力建設(shè) 2021年1期

黃冬梅，林孝鑲，胡安鐸，孫錦中

(1. 上海電力大學(xué)電子與信息工程學(xué)院，上海市 200090；2. 上海電力大學(xué)電氣工程學(xué)院，上海市 200090)

0 引言

隨著泛在電力物聯(lián)網(wǎng)的建設(shè)，智能電表等智能傳感設(shè)備的大量接入，電力負(fù)荷數(shù)據(jù)的時(shí)空范圍不斷擴(kuò)展。電力負(fù)荷的監(jiān)測范圍從配電站延伸到用戶以及終端設(shè)備，造成電力負(fù)荷的數(shù)據(jù)量巨增，并且類型更加豐富。挖掘電力負(fù)荷數(shù)據(jù)的價(jià)值是電力行業(yè)的重要課題之一。負(fù)荷聚類是電力大數(shù)據(jù)分析的重要基礎(chǔ)，可以用于用電行為研究[1]、電價(jià)制定[2]、負(fù)荷建模[3]、負(fù)荷預(yù)測[4]等多方面。精準(zhǔn)的負(fù)荷聚類也有助于電力系統(tǒng)的優(yōu)化運(yùn)行[5]和電力需求側(cè)管理水平的提升[6]。

電力負(fù)荷聚類方法大致包括直接聚類和間接聚類2種。直接聚類方法對歸一化處理后的負(fù)荷數(shù)據(jù)，采用基于歐氏距離的層次聚類算法、模糊C均值聚類算法等傳統(tǒng)聚類算法對負(fù)荷進(jìn)行聚類[7-10]。文獻(xiàn)[7-8]分別采用遺傳算法和引力搜索算法尋找最優(yōu)聚類中心，提高聚類質(zhì)量和聚類穩(wěn)定性。文獻(xiàn)[9-10]分別采用層次聚類算法、模糊聚類算法對負(fù)荷進(jìn)行分類。但是上述方法多以歐氏距離作為負(fù)荷的相似性度量，聚類質(zhì)量難以保證，特別是在高維數(shù)據(jù)空間[11]。另一方面，隨著智能電表等高級電力計(jì)量裝置廣泛安裝在配用電側(cè)[12]，電力公司信息采集能力不斷提升，電力負(fù)荷數(shù)據(jù)呈現(xiàn)海量、高維的特征。因此，直接聚類方法面臨著計(jì)算效率和聚類質(zhì)量的挑戰(zhàn)。

間接聚類算法首先通過降維算法對負(fù)荷數(shù)據(jù)進(jìn)行降維處理，然后提取特征，再依據(jù)提取的數(shù)據(jù)特征進(jìn)行聚類。文獻(xiàn)[13-16]以日負(fù)荷率、日峰谷差率等電力指標(biāo)作為低維特征和采用離散小波變換進(jìn)行特征提??；文獻(xiàn)[17]采用分位數(shù)和差分算法對原始負(fù)荷數(shù)據(jù)進(jìn)行特征提取；文獻(xiàn)[18]提出了核方法對原始數(shù)據(jù)進(jìn)行特征空間變換。但是上述方法將特征提取和聚類任務(wù)分離，無法保證提取的特征適合聚類任務(wù)，因而可能降低聚類的質(zhì)量。文獻(xiàn)[19]提出基于堆疊式編碼器的深度嵌入聚類方法(deep embedding clustering method based on stacked auto-encoder，DEC-SAE)將特征提取和聚類任務(wù)聯(lián)合優(yōu)化，從而提升了圖像數(shù)據(jù)聚類質(zhì)量，但是對于蘊(yùn)含時(shí)序特征的電力負(fù)荷數(shù)據(jù)卻難以保證聚類質(zhì)量。

針對現(xiàn)有方法在負(fù)荷時(shí)序特征提取能力及高維負(fù)荷數(shù)據(jù)聚類有效性的不足，以及負(fù)荷時(shí)序特征提取與聚類任務(wù)分離處理的問題，本文提出一種采用一維卷積自編碼器的日負(fù)荷深度嵌入聚類方法(deep embedding clustering method based on one dimensional convolutional auto-encoder，DEC-1D-CAE)。首先，利用一維卷積自編碼器網(wǎng)絡(luò)的一維卷積和池化運(yùn)算，自動提取負(fù)荷曲線蘊(yùn)含的時(shí)序特性，降低數(shù)據(jù)維度。然后，在自定義聚類層中，通過自定義的相似度衡量公式對提取的負(fù)荷特征向量進(jìn)行軟劃分，并采用KL散度(Kullback-Leibler divergence，KLD)，也稱作相對熵，對特征提取與聚類劃分進(jìn)行聯(lián)合優(yōu)化，以提升負(fù)荷聚類質(zhì)量，輸出聚類結(jié)果。最后，通過算例仿真比較不同聚類方法的有效性評價(jià)指標(biāo)，驗(yàn)證本文所提方法的有效性。

1 一維卷積自編碼器

一維卷積自編碼器是一種基于編碼-解碼思想的無監(jiān)督神經(jīng)網(wǎng)絡(luò)，通過卷積、池化運(yùn)算，將輸入層的高維數(shù)據(jù)轉(zhuǎn)換到隱藏層，從而降低原始數(shù)據(jù)集維度并有效提取數(shù)據(jù)時(shí)序特征。在負(fù)荷聚類研究中引入一維卷積自編碼器，利用其良好的數(shù)據(jù)重構(gòu)能力，提取負(fù)荷數(shù)據(jù)時(shí)序特征，獲得數(shù)據(jù)的有效表示，并降低數(shù)據(jù)維度，提升聚類效率。

1.1 數(shù)據(jù)預(yù)處理

電力負(fù)荷曲線聚類主要依據(jù)負(fù)荷曲線的形狀特征，而不是負(fù)荷本身實(shí)際值大小。同時(shí)，為了進(jìn)行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和計(jì)算效率提升，因此需要對電力負(fù)荷數(shù)據(jù)進(jìn)行歸一化處理，采用最大最小值法，將原始日負(fù)荷的每一個(gè)特征分量歸一化到0～1范圍內(nèi)。歸一化的表達(dá)式為：

(1)

式中：P為歸一化前的負(fù)荷數(shù)據(jù)序列；P′為歸一化后的負(fù)荷數(shù)據(jù)序列；Pmax、Pmin分別表示負(fù)荷數(shù)據(jù)序列的最大值與最小值。

1.2 負(fù)荷初始特征提取

為了準(zhǔn)確提取負(fù)荷數(shù)據(jù)時(shí)序特征，根據(jù)自編碼神經(jīng)網(wǎng)絡(luò)理論[20]，構(gòu)建一維卷積自編碼器對負(fù)荷數(shù)據(jù)進(jìn)行時(shí)序特征提取，其模型結(jié)構(gòu)如圖1所示。

圖1 1D-CAE模型結(jié)構(gòu)Fig.1 Structure of 1D-CAE model

假設(shè)x=[x1,x2,…,xt,…,xn](xt表示t時(shí)刻的特征值)為歸一化后輸入的日負(fù)荷的時(shí)間序列數(shù)據(jù)，圖1中左邊虛線框表示1D-CAE的編碼過程，其表達(dá)式為：

h1=σf(W*x+b1)

(2)

z=p(h1)

(3)

式中：x∈R1×n為時(shí)間序列，n為時(shí)間序列長度；*表示一維卷積運(yùn)算；W和b1分別表示編碼過程中的一維卷積核和偏置；σf為激活函數(shù)，這里采用激活函數(shù)Relu；p表示池化運(yùn)算，本文采用最大池化(max-pooling)；z為低維度的負(fù)荷特征向量，z維度遠(yuǎn)遠(yuǎn)小于x。

圖1中右邊虛線框部分表示1D-CAE的解碼過程，其解碼過程表達(dá)式為：

h2=S(z)

(4)

x′=σe(U*h2+b2)

(5)

(6)

式中：S表示上采樣；h2為上采樣得到的特征；U和b2分別表示解碼過程中的一維卷積核和偏置；x′為輸入x的重構(gòu)數(shù)據(jù)；σe是解碼器中的激活函數(shù)，為Sigmoid函數(shù)。

通過訓(xùn)練過程，損失函數(shù)不斷調(diào)整優(yōu)化一維卷積自編碼器的參數(shù)，使得損失函數(shù)Lr均方誤差最小，使重構(gòu)的日負(fù)荷數(shù)據(jù)x′接近原始輸入數(shù)據(jù)x，從而提取精確的時(shí)序特征。

(7)

利用梯度下降法求解最優(yōu)化問題Lr，獲得最佳的自編碼器網(wǎng)絡(luò)參數(shù)，從而實(shí)現(xiàn)一維卷積自編碼器的構(gòu)建。

2 負(fù)荷特征聚類與優(yōu)化

在實(shí)現(xiàn)一維卷積自編碼器的構(gòu)建與訓(xùn)練后，為了對負(fù)荷特征提取與聚類分析進(jìn)行聯(lián)合優(yōu)化，保留一維卷積編碼器的編碼部分，并在編碼部分自定義聚類層，以計(jì)算提取的負(fù)荷特征向量與聚類中心的軟分配度，從而計(jì)算目標(biāo)概率分布，并以KL散度為目標(biāo)函數(shù)，對編碼部分的網(wǎng)絡(luò)參數(shù)和聚類層的聚類中心進(jìn)行聯(lián)合優(yōu)化，得到負(fù)荷聚類結(jié)果，具體流程如圖2所示。

2.1 自定義聚類層

在完成一維卷積自編碼器的初始特征提取階段后，解除負(fù)荷初始特征提取階段的一維卷積編碼器的解碼網(wǎng)絡(luò)，只保留特征提取的編碼部分，并在此基礎(chǔ)上自定義聚類層。將編碼器提取的負(fù)荷特征向量作為輸入，并通過自定義的相似度衡量公式，獲得負(fù)荷聚類結(jié)果。

傳統(tǒng)的劃分方法如K-means、層次聚類等采用硬性劃分方式衡量負(fù)荷數(shù)據(jù)與聚類中心相似度，但無法衡量負(fù)荷數(shù)據(jù)到聚類中心的不確定度，尤其是離群點(diǎn)的分配準(zhǔn)確度較低，從而可能降低聚類質(zhì)量。由于高斯分布屬于輕尾分布，易受離群數(shù)據(jù)點(diǎn)和邊緣數(shù)據(jù)值影響。因此，本文采用更穩(wěn)健的長尾t分布衡量低維度的負(fù)荷特征向量與聚類中心的相似程度[21]，其軟分配度為：

圖2 基于一維卷積自編碼器的日負(fù)荷深度嵌入聚類方法流程Fig.2 Flowchart of deep embedding clustering method of daily load applying one-dimensional convolutional auto-encoder

(8)

式中：‖zj-ci‖2為zj到聚類中心ci的距離；qij為將低維負(fù)荷特征向量zj劃分到聚類中心ci的概率；α為t分布的自由度，設(shè)定為1。

2.2 聚類優(yōu)化

為了提高負(fù)荷聚類質(zhì)量，規(guī)范每個(gè)聚類中心的損失貢獻(xiàn)，強(qiáng)化負(fù)荷曲線分配的高置信度數(shù)據(jù)，模型定義一個(gè)基于聚類中心的高置信度目標(biāo)概率分布，采用式(9)作為輔助負(fù)荷聚類目標(biāo)概率分布。

(9)

(10)

式中：qi′j為低維負(fù)荷特征向量zj分配到不同聚類中心的概率；fi和fi′分別表示所有低維負(fù)荷特征向量分配到聚類中心ci的概率和以及分配到不同聚類中心的概率和；pij為聚類優(yōu)化目標(biāo)，通過qij的二次冪提升聚類的準(zhǔn)確度。

為了使聚類層軟分配度的概率分布qij與輔助目標(biāo)分布pij一致，因此定義KL散度作為一維卷積自編碼器的損失函數(shù)，其損失函數(shù)為：

(11)

利用KL散度訓(xùn)練網(wǎng)絡(luò)，從而同時(shí)優(yōu)化聚類層的聚類中心ci和一維卷積自編碼器的編碼網(wǎng)絡(luò)參數(shù)θ，從而提高聚類分配的準(zhǔn)確度。損失函數(shù)L關(guān)于低維負(fù)荷特征點(diǎn)zi和聚類中心ci的梯度計(jì)算公式為：

(12)

(13)

3 算例分析

使用某地區(qū)實(shí)際電網(wǎng)負(fù)荷數(shù)據(jù)為研究對象，實(shí)測1 156條日負(fù)荷數(shù)據(jù)，日負(fù)荷采樣頻率為30 min，每日采集點(diǎn)48個(gè)。

3.1 1D-CAE特征提取分析

為了對比1D-CAE網(wǎng)絡(luò)與堆疊式編碼器網(wǎng)絡(luò)(stacked auto-encoder，SAE)對負(fù)荷曲線深層特征提取的效果，利用SAE網(wǎng)絡(luò)和1D-CAE網(wǎng)絡(luò)，重構(gòu)了某典型日負(fù)荷曲線，日負(fù)荷曲線的重構(gòu)結(jié)果如圖3所示。

圖3 負(fù)荷序列重構(gòu)對比Fig.3 Comparison of load sequence reconstruction

在Keras框架下，將歸一化的負(fù)荷樣本訓(xùn)練1D-CAE網(wǎng)絡(luò)與SAE網(wǎng)絡(luò)，采用Adam優(yōu)化器。1D-CAE網(wǎng)絡(luò)與SAE網(wǎng)絡(luò)均采用均方誤差(mean square error，MSE)作為損失函數(shù)，設(shè)置學(xué)習(xí)率為0.001，迭代100次，設(shè)置批尺寸為8，將48個(gè)點(diǎn)的日負(fù)荷數(shù)據(jù)降維至12個(gè)深層特征參數(shù)。其中，SAE網(wǎng)絡(luò)編碼側(cè)包括3層神經(jīng)網(wǎng)絡(luò)，神經(jīng)單元個(gè)數(shù)分別設(shè)置為48、24、12，解碼側(cè)也為3層神經(jīng)網(wǎng)絡(luò)，神經(jīng)單元個(gè)數(shù)分別為12、24、48。1D-CAE網(wǎng)絡(luò)編碼側(cè)含有1個(gè)1D卷積層和1D池化層，其中，1D卷積層的1D卷積核尺寸為9，個(gè)數(shù)為32，步長為1，池化層的池化窗口大小為4，步長為1。在解碼層含有2個(gè)1D卷積層和1D上采樣層，2個(gè)1D卷積核尺寸均為9，個(gè)數(shù)分別為32和1，步長均為1，1D上采樣層的上采樣因子為4。

由圖3可以看出，相比SAE重構(gòu)序列，1D-CAE解碼過程所輸出的重構(gòu)序列與原輸入序列吻合度更高，尤其是在負(fù)荷峰谷變化區(qū)域，說明輸入負(fù)荷序列通過1D-CAE的編碼步驟獲得深層特征表示序列，然后對深層特征表示序列解碼，輸出重構(gòu)負(fù)荷序列這一過程中，輸入負(fù)荷序列與重構(gòu)負(fù)荷序列的誤差很小。

圖4給出了使用SAE網(wǎng)絡(luò)和1D-CAE網(wǎng)絡(luò)重構(gòu)原始負(fù)荷的相對誤差，SAE對原始日負(fù)荷曲線數(shù)據(jù)各點(diǎn)重構(gòu)相對誤差為0.08%～4.19%，平均重構(gòu)相對誤差為1.66%，而1D-CAE對原始日負(fù)荷曲線數(shù)據(jù)各點(diǎn)重構(gòu)相對誤差介于0.02%與1.30%之間，平均重構(gòu)相對誤差僅為0.47%。從相對誤差的分布來看，SAE解碼重構(gòu)過程在負(fù)荷的峰谷處相對誤差較大，而1D-CAE對負(fù)荷曲線的重構(gòu)相對誤差較小。因此，1D-CAE負(fù)荷時(shí)序特征提取能力比SAE更強(qiáng)。

圖4 負(fù)荷重構(gòu)相對誤差Fig.4 Relative error of load reconstruction

3.2 聚類結(jié)果與分析

在使用1D-CAE對負(fù)荷曲線進(jìn)行特征提取，將1 156×48階原日負(fù)荷矩陣轉(zhuǎn)化為1 156×12階低維特征矩陣。在此基礎(chǔ)上，使用DEC-CD-1AE算法對日用戶負(fù)荷數(shù)據(jù)對應(yīng)的低維特征序列進(jìn)行聚類，得到如圖5所示的負(fù)荷聚類結(jié)果。

圖5 本文方法聚類結(jié)果Fig.5 Clustering results of the proposed method

圖5所示的4類曲線用電特性多樣，差異性大。其中，類1與類2皆是單峰，曲線形狀較為相似，但負(fù)荷曲線數(shù)值差異較大，屬于不同類別的負(fù)荷。類3和類4負(fù)荷曲線數(shù)值差異較小但曲線形態(tài)差異大，分別為單峰和雙峰。本文所提方法對負(fù)荷序列時(shí)序特征有效提取和聚類分析進(jìn)行聯(lián)合優(yōu)化，對負(fù)荷曲線實(shí)現(xiàn)了準(zhǔn)確劃分，各類曲線形態(tài)一致。

使用傳統(tǒng)的K-means聚類算法對日用戶負(fù)荷數(shù)據(jù)進(jìn)行直接聚類，得到如圖6所示的聚類結(jié)果。其中，類1含有2種形狀較為相似，但數(shù)值差異較大的單峰用電特性曲線。類2與類4，曲線形狀高度相似，且負(fù)荷曲線數(shù)值相近，屬于同一類別的負(fù)荷，K-means算法無法處理為同一類別，存在嚴(yán)重錯(cuò)分現(xiàn)象。因此，K-means算法無法有效劃分4類曲線。

圖6 K-means算法聚類結(jié)果Fig.6 Clustering results of K-means algorithm

3.3 聚類指標(biāo)評價(jià)

為進(jìn)一步驗(yàn)證所提算法的有效性，本文采用DBI(Davies-Bouldin index)指標(biāo)和CHI(Calinski-Harabasz index)指標(biāo)[22]定量分析聚類結(jié)果。其中，DBI指標(biāo)代表類別內(nèi)部距離與類外部距離之比，其值越小表示聚類效果越好。CHI指標(biāo)表示類間分離度和類內(nèi)緊湊度之比，其值越大表示聚類效果越佳。

現(xiàn)分別采用K-means算法、1D-CAE負(fù)荷特征提取后再K-means算法、DEC-SAE算法和DEC-1D-CAE算法對1 156條日負(fù)荷曲線進(jìn)行聚類分析對比，各種指標(biāo)對比如表1所示。

表1 4種聚類方法指標(biāo)對比Table 1 Comparison of four clustering methods

根據(jù)K-means和1D-CAE+K-means處理結(jié)果，在DBI指標(biāo)和CHI指標(biāo)上，K-means均優(yōu)于1D-CAE+K-means，說明經(jīng)1D-CAE提取的低維負(fù)荷數(shù)據(jù)特征不適合于K-means算法，即特征提取和聚類任務(wù)分離，二者獨(dú)立進(jìn)行，無法保證提取的數(shù)據(jù)特征適合聚類處理，從而降低了聚類指標(biāo)。

K-means與DEC-SAE處理結(jié)果相比，在DBI指標(biāo)上，1D-CAE+K-means優(yōu)于K-means。由于DEC-SAE算法保證了特征提取和聚類處理的同時(shí)優(yōu)化，使得DBI評價(jià)指標(biāo)進(jìn)一步提升。

另外，對比DEC-SAE和DEC-1D-CAE處理后的DBI、CHI聚類指標(biāo)，可知DEC-1D-CAE聚類評價(jià)指標(biāo)均優(yōu)于DEC-SAE。因?yàn)镈EC-SAE采用堆疊式編碼器，而DEC-1D-CAE采用一維卷積編碼器，由3.1節(jié)可知，相比SAE，1D-CAE在負(fù)荷數(shù)據(jù)時(shí)序特征提取能力更強(qiáng)，平均相對誤差更低。因此，DEC-1D-CAE聚類結(jié)果優(yōu)于DEC-SAE。

由上述分析及表1可知，本文所提方法的聚類評價(jià)指標(biāo)均優(yōu)于K-means、1D-CAE+K-means和DEC-SAE方法。

4 結(jié) 論

1)一維卷積自編碼網(wǎng)絡(luò)能有效提取日負(fù)荷曲線蘊(yùn)含的時(shí)序特征，并實(shí)現(xiàn)有效降維。相比堆疊式編碼器，負(fù)荷重構(gòu)相對誤差更小，時(shí)序特征提取能力更強(qiáng)。

2)與先降維提取特征再聚類的高維日負(fù)荷數(shù)據(jù)聚類方法相比，本文所提的DEC-1DC-AE方法能實(shí)現(xiàn)特征提取和聚類同時(shí)優(yōu)化，保證提取的負(fù)荷特征適合聚類任務(wù)，從而提高了聚類質(zhì)量。

3)算例結(jié)果表明，在DBI、CHI聚類指標(biāo)上，本文所提DEC-1D-CAE方法均優(yōu)于K-means、1D-CAE+K-means和DEC-SAE。