王磊, 劉洋,3,李文峰,張杰,許立雄,邢哲銘
(1.四川大學(xué)電氣工程學(xué)院,成都市 610065;2. 國(guó)網(wǎng)河南省電力公司經(jīng)濟(jì)技術(shù)研究院,鄭州市 450052;3.智能電網(wǎng)四川省重點(diǎn)實(shí)驗(yàn)室(四川大學(xué)),成都市610065;4.大連市大數(shù)據(jù)中心,遼寧省大連市 116000)
電力市場(chǎng)和綜合能源系統(tǒng)的融合發(fā)展使電力用戶在能源交易中的市場(chǎng)主體地位不斷凸顯,對(duì)用戶用電行為開(kāi)展精細(xì)化建模或畫(huà)像,精準(zhǔn)掌握用戶用電規(guī)律,成為提升電力企業(yè)服務(wù)水平和市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵因素之一[1-2]。與此同時(shí),電力市場(chǎng)化環(huán)境下用戶用能需求和選擇的多元化使用戶用電行為的多樣性和隨機(jī)性不斷增強(qiáng),用戶用電行為精細(xì)化畫(huà)像對(duì)數(shù)據(jù)分析算法提出更高要求,傳統(tǒng)電力負(fù)荷數(shù)據(jù)分析技術(shù)面臨嚴(yán)峻挑戰(zhàn)[1,3]。近年來(lái),機(jī)器學(xué)習(xí)技術(shù)的革新和電力負(fù)荷數(shù)據(jù)的累積,使基于數(shù)據(jù)驅(qū)動(dòng)的電力用戶用電行為畫(huà)像和用戶分類研究受到關(guān)注[4]。
用戶日負(fù)荷模式能從日時(shí)間尺度較為完整地刻畫(huà)一個(gè)周期的用戶用電行為,是用戶分類研究中常用的用電行為畫(huà)像方式。文獻(xiàn)[5]提出一種基于兩階段聚類的用戶分類方法,僅選取每位用戶的一類典型日負(fù)荷模式代表其用電行為畫(huà)像,難以充分表征用戶全年用電行為。文獻(xiàn)[6]提出基于快速小波變換和G-means算法的用戶分類方法,并將用戶的多種典型負(fù)荷模式作為其用電行為畫(huà)像,但帶來(lái)模糊用戶分組的問(wèn)題。文獻(xiàn)[7]通過(guò)密度聚類獲取每位用戶一年四季的典型日負(fù)荷模式,從中提取六類特征作為用電行為畫(huà)像并基于畫(huà)像對(duì)用戶分類?,F(xiàn)有用戶用電行為畫(huà)像多基于用戶自身的典型日負(fù)荷模式,忽視了從普遍共性的日負(fù)荷模式中關(guān)注用戶對(duì)不同日負(fù)荷模式的偏重差異,畫(huà)像結(jié)果較為片面。
基于用戶用電行為畫(huà)像開(kāi)展電力用戶分類是電網(wǎng)企業(yè)基于業(yè)務(wù)需要發(fā)掘目標(biāo)用戶的理論基礎(chǔ)。以無(wú)監(jiān)督聚類、有監(jiān)督分類以及集成學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)算法在電力用戶及負(fù)荷分類研究中應(yīng)用廣泛。近年來(lái),結(jié)合無(wú)監(jiān)督聚類算法在劃分類別標(biāo)簽方面的優(yōu)勢(shì)和有監(jiān)督分類算法在擬合復(fù)雜非線性映射規(guī)律和算法容錯(cuò)性等方面的優(yōu)勢(shì)開(kāi)展電力用戶及負(fù)荷分類成為一種行之有效的思路。文獻(xiàn)[8]提出一種結(jié)合負(fù)荷頻域特征和長(zhǎng)短期記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)的日負(fù)荷曲線分類方法。文獻(xiàn)[9]提出一種結(jié)合聚類算法和稀疏自編碼器預(yù)訓(xùn)練支持向量機(jī)有監(jiān)督分類的負(fù)荷曲線分類方法。文獻(xiàn)[10]提出一種結(jié)合K-medoids聚類和Spark分布式神經(jīng)網(wǎng)絡(luò)的基分類器集成學(xué)習(xí)負(fù)荷分類方法。集成學(xué)習(xí)與負(fù)荷數(shù)據(jù)聚類分類的結(jié)合應(yīng)用展現(xiàn)出良好的算法穩(wěn)定性、準(zhǔn)確度增益和算法普適性。但受基分類器差異性和準(zhǔn)確度的制約,集成學(xué)習(xí)面臨基分類器冗余的問(wèn)題[11-12]。集成學(xué)習(xí)在生成基分類器集群時(shí)會(huì)產(chǎn)生部分訓(xùn)練結(jié)果雷同的冗余個(gè)體,導(dǎo)致集群差異性下降,極端情況下造成無(wú)效集成[12]。有效的基分類器選擇集成策略對(duì)于改善基分類器冗余問(wèn)題、保證集成學(xué)習(xí)對(duì)用戶及負(fù)荷分類性能增益具有重要價(jià)值[13-14]。此外,學(xué)習(xí)能力更強(qiáng)的基分類器也是提升集成學(xué)習(xí)分類性能的重要方面。
類別不平衡問(wèn)題廣泛存在于電力用戶負(fù)荷數(shù)據(jù)中,表現(xiàn)為分類模型中少數(shù)類樣本的辨識(shí)度被多數(shù)類淹沒(méi),是電力負(fù)荷分類領(lǐng)域的重要難題之一[10,15]。以合成少數(shù)類樣本過(guò)采樣技術(shù)(synthetic minority oversampling technique,SMOTE)為代表的過(guò)采樣方法,能避免將類別平衡過(guò)程與分類過(guò)程耦合,具有廣泛的場(chǎng)景適用性。但SMOTE采樣機(jī)制忽視了少數(shù)類樣本的特征空間密度分布特性,合成新樣本容易失真,且在不平衡比例較高時(shí)算法效能退化嚴(yán)重[15-16]。生成式深度學(xué)習(xí)模型通過(guò)學(xué)習(xí)樣本分布規(guī)律能獲取較高質(zhì)量的新樣本,但算法需要大量數(shù)據(jù)資源驅(qū)動(dòng)。
針對(duì)當(dāng)前電力用戶分類研究中用戶用電行為畫(huà)像結(jié)果片面、集成學(xué)習(xí)負(fù)荷分類研究中的基分類器冗余問(wèn)題及負(fù)荷類別不平衡問(wèn)題,提出一種基于用電行為數(shù)字特征畫(huà)像的電力用戶兩階段分類算法。第一階段,提出一種結(jié)合譜聚類(spectral clustering,SC)和集成強(qiáng)分類器的用戶日負(fù)荷曲線分類算法:首先,針對(duì)集成學(xué)習(xí)基分類器學(xué)習(xí)能力弱的不足,提出一種基于改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的強(qiáng)分類器;其次,針對(duì)基分類器冗余問(wèn)題,提出一種基于最小正則化代理經(jīng)驗(yàn)風(fēng)險(xiǎn)的優(yōu)化選擇集成(optimal selective ensemble,OSE)策略;然后,提出一種基于密度的高斯過(guò)采樣方法(density based gaussian SMOTE,DBGS)處理類別不平衡。第二階段,基于負(fù)荷曲線分類結(jié)果,構(gòu)建以日負(fù)荷模式發(fā)生概率為數(shù)字特征的用戶用電行為畫(huà)像,采用SC算法對(duì)用戶畫(huà)像實(shí)施分類。
本文結(jié)合SC算法和集成強(qiáng)基分類器算法的優(yōu)勢(shì),將電力用戶的分類過(guò)程按照兩階段來(lái)實(shí)施。第一階段,通過(guò)譜聚類算法對(duì)用戶集群的部分日負(fù)荷曲線提取日負(fù)荷模式標(biāo)簽,采用集成強(qiáng)基分類器算法經(jīng)標(biāo)簽樣本訓(xùn)練完成對(duì)其余日負(fù)荷曲線分類。第二階段,構(gòu)建基于日負(fù)荷模式發(fā)生概率的用戶用電行為數(shù)字特征畫(huà)像,并通過(guò)SC算法對(duì)畫(huà)像結(jié)果聚類以實(shí)現(xiàn)用戶分類。
其中,采用改進(jìn)LSTM網(wǎng)絡(luò)作為集成學(xué)習(xí)的基分類器,引入模型壓縮技術(shù)投影層(projection layer,PL)壓縮LSTM網(wǎng)絡(luò)的隱層參數(shù),并采用Attention機(jī)制和層歸一化(layer normalization,LN)方法提升其分類準(zhǔn)確率,構(gòu)建ALN-LSTMP(attention based and LN based LSTM with projection layer)壓縮深度學(xué)習(xí)機(jī)參與集成決策;提出一種基于最小正則化代理經(jīng)驗(yàn)風(fēng)險(xiǎn)的OSE策略,改善基分類器冗余問(wèn)題對(duì)集成分類結(jié)果的影響;提出一種DBGS過(guò)采樣算法,解決日負(fù)荷標(biāo)簽樣本的類別不平衡問(wèn)題。
DBGS算法基本原理是根據(jù)少數(shù)類樣本的密度分布規(guī)律實(shí)施采樣。其能自適應(yīng)調(diào)節(jié)不同分布區(qū)域的少數(shù)類樣本合成數(shù)量,經(jīng)過(guò)平衡處理后樣本的類別邊界形態(tài)具有較好的保持效果,可有效降低類別不平衡程度,對(duì)邊界樣本的重疊程度影響較小[17]。DBGS的算法過(guò)程如圖1所示。
圖1 DBGS算法示意圖Fig.1 Schematic diagram of DBGS algorithm
DBGS算法的基本流程如下:
步驟1:采用DBSCAN(density-based spatial clustering of applications with noise)對(duì)少數(shù)類樣本實(shí)施密度聚類,得到聚類簇Cj集合:
C={Cj|i=1,…,q}
(1)
步驟2:對(duì)每個(gè)聚類簇構(gòu)建直接密度可達(dá)圖G,表示為:G(Cj,ε,τ)=G(V,E)。其中ε表示直接密度可達(dá)半徑,τ表示構(gòu)成密度核心樣本點(diǎn)的最少近鄰數(shù)目;V表示聚類簇Cj的所有樣本點(diǎn)集合,E表示G的所有直接密度可達(dá)邊集合,直接密度可達(dá)邊表示為兩樣本點(diǎn)的歐式空間距離。
步驟3:提取每個(gè)聚類簇的偽質(zhì)心樣本s0,即距離聚類簇均值質(zhì)心最近的樣本點(diǎn)。
步驟4:采用Bellman Ford算法求取每個(gè)樣本到s0的最短加權(quán)圖路徑π[18]。
步驟5:在π上隨機(jī)選取一段線徑πab(a,b代表π途經(jīng)的樣本點(diǎn)序號(hào))作為采樣區(qū)間進(jìn)行插值,并根據(jù)Gaussian SMOTE采樣機(jī)制[19],對(duì)合成樣本施加適量高斯隨機(jī)攝動(dòng)合成新樣本ss:
χloc~U(0,‖πab‖2)
(2)
ζper~N(0,‖πab‖2·σ)
(3)
ss=sa+(sb-sa)·χloc+ζper
(4)
式中:χloc表示插值坐標(biāo),服從均勻分布;ζper表示高斯隨機(jī)攝動(dòng),服從正態(tài)分布;σ表示ζper的相對(duì)標(biāo)準(zhǔn)差;ss表示合成新樣本;sa和sb表示ss的參照樣本對(duì)。使插值坐標(biāo)偏離πab以降低合成樣本相似度。
LSTM網(wǎng)絡(luò)引入“門(mén)”機(jī)制(包括遺忘門(mén)、輸入門(mén)以及
輸出門(mén)),通過(guò)“門(mén)”來(lái)控制LSTM網(wǎng)絡(luò)單元狀態(tài)信息的保留或遺忘,可以挖掘數(shù)據(jù)的長(zhǎng)時(shí)序關(guān)聯(lián)特征。LSTM存在計(jì)算效率低的缺點(diǎn),引入投影層PL構(gòu)建LSTMP(LSTM with projection layer)單元縮減模型參數(shù)、加快運(yùn)算速度[20],其內(nèi)部結(jié)構(gòu)如圖2所示。
圖2 LSTMP單元內(nèi)部結(jié)構(gòu)Fig.2 Internal structure of LSTMP unit
PL的原理是:在t時(shí)刻短時(shí)記憶狀態(tài)ht進(jìn)入下一時(shí)間步前對(duì)其線性降維以提取主要關(guān)聯(lián)特征,在壓縮模型參數(shù)的同時(shí)提升模型泛化性能。PL表達(dá)為:
rt=Wrhht
(5)
yt=φ(Wyrrt+by)
(6)
式中:Wrh表示t時(shí)刻短時(shí)記憶狀態(tài)ht到PL層輸出的權(quán)重矩陣;rt表示經(jīng)權(quán)重矩陣Wrh降維后的短時(shí)記憶狀態(tài);Wyr和by分別表示rt到LSTMP最終輸出yt的權(quán)重矩陣和閾值向量;φ(·)為網(wǎng)絡(luò)層的輸出激活函數(shù),本文采用Relu函數(shù)[15]。加入PL后的各門(mén)結(jié)構(gòu)如下:
it=φ2(Wixxt+Wirrt-1+WicCt-1+bi)
(7)
ft=φ2(Wfxxt+Wfrrt-1+WfcCt-1+bf)
(8)
Ct=ft⊙Ct-1+it⊙tanh(Wcxxt+Wcrrt-1+bc)
(9)
Ot=φ2(Woxxt+Worrt-1+WocCt+bo)
(10)
式中:it、ft和Ot分別為輸入門(mén)、遺忘門(mén)以及輸出門(mén);Ct為L(zhǎng)STMP單元t時(shí)刻的長(zhǎng)時(shí)記憶狀態(tài);Wix表示t時(shí)刻輸入xt通過(guò)輸入門(mén)的權(quán)重矩陣;Wir表示t-1時(shí)刻降維后短時(shí)記憶狀態(tài)rt-1通過(guò)輸入門(mén)的權(quán)重矩陣;Wic表示t-1時(shí)刻長(zhǎng)時(shí)記憶狀態(tài)Ct-1通過(guò)輸入門(mén)的權(quán)重矩陣;Wfx表示t時(shí)刻輸入通過(guò)遺忘門(mén)的權(quán)重矩陣;Wfr表示rt-1通過(guò)遺忘門(mén)的權(quán)重矩陣;Wfc表示Ct-1通過(guò)遺忘門(mén)的權(quán)重矩陣;Wcx表示輸入xt保留到Ct的權(quán)重矩陣;Wcr表示rt-1保留到Ct的權(quán)重矩陣;Wox表示輸入xt通過(guò)輸出門(mén)的權(quán)重矩陣;Wor表示rt-1通過(guò)輸出門(mén)的權(quán)重矩陣;Woc表示Ct通過(guò)輸出門(mén)的權(quán)重矩陣;bi、bf、bc和bo分別表示輸入門(mén)、遺忘門(mén)、長(zhǎng)時(shí)記憶元胞Cell以及輸出門(mén)的閾值向量;φ2(·)表示激活函數(shù),本文均設(shè)定為Sigmoid函數(shù)。經(jīng)過(guò)PL對(duì)模型壓縮后,模型參數(shù)縮減數(shù)量nR為:
(11)
式中:nc為隱藏層神經(jīng)元個(gè)數(shù);nr為PL的輸出維度;no為輸出yt的維度。對(duì)長(zhǎng)期依賴較強(qiáng)的數(shù)據(jù)如電力負(fù)荷的多時(shí)間步長(zhǎng)學(xué)習(xí),模型壓縮具有更大的計(jì)算效率提升潛力。
ALN-LSTMP分類模型如圖3所示,其由數(shù)據(jù)預(yù)處理模塊、LSTMP層、LN層、Relu非線性層以及Attention模塊級(jí)聯(lián),通過(guò)柔性最大概率層Softmax輸出分類結(jié)果,表示為各類別的決策概率。數(shù)據(jù)預(yù)處理層完成輸入數(shù)據(jù)的清洗和插補(bǔ)。LN層對(duì)網(wǎng)絡(luò)層輸入作歸一化處理,可加快模型收斂速度[21]。經(jīng)過(guò)Relu激活函數(shù)處理后,Attention層通過(guò)賦予輸入信息不同權(quán)重可以快速捕捉信息關(guān)鍵特征[22],有助于加快模型學(xué)習(xí)速度,降低其訓(xùn)練時(shí)長(zhǎng)。
圖3 ALN-LSTMP分類模型Fig.3 ALN-LSTMP classification model
所提OSE策略的基本思想是:基分類器的冗余度越高,被選擇的可能性越小。此外,分類準(zhǔn)確率高的基分類器具有優(yōu)先選擇權(quán)。所提OSE策略的具體步驟為:首先,構(gòu)造評(píng)估集成學(xué)習(xí)誤分類損失的正則化經(jīng)驗(yàn)風(fēng)險(xiǎn)目標(biāo)函數(shù),使分類準(zhǔn)確度高的基分類器能被優(yōu)先選中。其次,采用皮爾遜相關(guān)系數(shù)(pearson correlation coefficient,PCC)構(gòu)建量化基分類器之間相關(guān)性的冗余度指標(biāo),并基于該指標(biāo)提出評(píng)估基分類器對(duì)集成學(xué)習(xí)貢獻(xiàn)度的重要性指標(biāo)。將重要性指標(biāo)作為懲罰因子納入優(yōu)化問(wèn)題的正則項(xiàng)中,目的是使OSE策略在盡量不犧牲分類精度的前提下,淘汰冗余基分類器。最后,將優(yōu)化后權(quán)重為0的基分類器丟棄,其余通過(guò)多數(shù)投票法參與集成。
3.2.1 正則化經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)
所提OSE策略,通過(guò)最小代理正則化經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)Γ來(lái)確定基分類器的集成組合權(quán)重ω,公式如下:
Γ(ω)=λL(ω)+P(ω)
(12)
式中:L(·)為代理經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù),度量集成學(xué)習(xí)在訓(xùn)練樣本中的誤分類損失;P(·)為正則項(xiàng);λ為超參數(shù)。通過(guò)超參數(shù)λ調(diào)節(jié)經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)和正則項(xiàng)的比例,控制集成模型復(fù)雜度,抑制過(guò)擬合。
3.2.2 代理經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)L
集成學(xué)習(xí)中,令ω=[ω1,…,ωn]T表示基分類器集合{h}={h1,…,hn}(共計(jì)n個(gè))的集成組合權(quán)重(h和ω的下標(biāo)代表基分類器序號(hào),下同),定義第i個(gè)樣本xi的集成分類結(jié)果:
(13)
基于集成分類結(jié)果,定義其集成邊界m(xi):
m(xi)=sign[yiH(xi)]=sign[yi(hi)Tω]
(14)
式中:yi為真實(shí)標(biāo)簽;m(xi)∈{-1,1},當(dāng)分類正確時(shí)為1,反之為-1。
基于集成邊界,定義訓(xùn)練集樣本(數(shù)目為N)集成分類結(jié)果的經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)L0:
(15)
由于所提經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)屬于非凸、不連續(xù)函數(shù),采用代理?yè)p失優(yōu)化方法能降低其求解難度[23]。本文采用截?cái)鄅uber損失函數(shù)用于原問(wèn)題的代理優(yōu)化求解。
(16)
式中:參數(shù)δ用于調(diào)節(jié)函數(shù)對(duì)于噪聲和異常點(diǎn)的敏感度,本文設(shè)定為0.6。
最后代理經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)L表示如下:
(17)
3.2.3 正則項(xiàng)P
PCC可以評(píng)估變量間的相關(guān)度。將基分類器對(duì)初始訓(xùn)練集的分類結(jié)果組織為向量形式,通過(guò)PCC度量不同基分類器學(xué)習(xí)結(jié)果的相關(guān)度:
(18)
(19)
將待度量基分類器與其他基分類器的平均PCC作為其冗余度指標(biāo):
(20)
冗余度低且分類結(jié)果和樣本標(biāo)簽相關(guān)度高的基分類器對(duì)集成分類的貢獻(xiàn)更大,該基分類器更重要。因此,定義基分類器的重要度:
S(hc)=ρ(hc,y)-R(hc)
(21)
式中:y為初始訓(xùn)練集所有樣本標(biāo)簽組成的“全1”向量。
將S(hc)納入正則項(xiàng)中,對(duì)基分類器的集成組合權(quán)重施加懲罰,基分類器重要度越低受到的懲罰越重,被選中的概率越小。定義正則項(xiàng)P:
P=ωTS-1ω
(22)
式中:S=diag[S(h1),…,S(hn)]。
3.2.4 優(yōu)化選擇集成問(wèn)題模型
綜合考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)及其正則項(xiàng),構(gòu)建如下優(yōu)化問(wèn)題:
(23)
經(jīng)過(guò)OSE策略遴選出去冗余后的ALN-LSTMP基分類器子集,采用多數(shù)投票法對(duì)各基分類器的分類結(jié)果組合決策,可以獲得更好的集成泛化性能。多數(shù)投票法機(jī)制如下:
(24)
式中:nose表示優(yōu)化后參與集成的基分類器個(gè)數(shù);rc,test表示測(cè)試樣本xtest在第c個(gè)基分類器中的分類結(jié)果,表征為獨(dú)熱編碼向量,對(duì)其累加獲得各類別的投票分?jǐn)?shù),選取最大分?jǐn)?shù)值對(duì)應(yīng)的類別g作為分類結(jié)果γtest。OSE-ALN-LSTMP的算法過(guò)程如圖4所示。
圖4 OSE-ALN-LSTMP算法示意圖Fig.4 Schematic diagram of OSE-ALN-LSTMP
一定區(qū)域內(nèi)電力用戶受氣象、節(jié)假日以及經(jīng)濟(jì)活動(dòng)等因素影響宏觀趨同,且隨著信息化、數(shù)字化技術(shù)的應(yīng)用普及,用戶間用能習(xí)慣和用能需求的關(guān)聯(lián)耦合不斷加深,一方面用戶用電行為呈多元化演進(jìn)趨勢(shì),另一方面用戶群體共性的用電行為特征愈發(fā)凸顯。通過(guò)提取用戶共性的日負(fù)荷模式,統(tǒng)計(jì)用戶一年中不同日負(fù)荷模式的發(fā)生概率,可以實(shí)現(xiàn)對(duì)用戶多元化用電行為的數(shù)字特征畫(huà)像表征。因此,提出一種基于負(fù)荷模式發(fā)生概率的用戶用電行為數(shù)字特征畫(huà)像方法。定義所提取用戶共性日負(fù)荷模式共計(jì)Θ類,近似統(tǒng)計(jì)一年中用戶k日負(fù)荷模式θ的發(fā)生概率如下:
(25)
定義用戶k用電行為數(shù)字特征畫(huà)像如下:
γk=[γk,1,…,γk,Θ]
(26)
基于用戶用電行為數(shù)字特征畫(huà)像,采用譜聚類算法對(duì)用戶實(shí)施分類或分組?;诜诸惤Y(jié)果計(jì)算各類畫(huà)像的均值質(zhì)心,選取最接近均值質(zhì)心的畫(huà)像作為不同類型用戶的典型數(shù)字特征畫(huà)像。
算例在Intel(R) Core i3-7100 CPU @3.90 GHz,RAM 16 GB,操作系統(tǒng)Win10的計(jì)算機(jī)上實(shí)施。為驗(yàn)證所提方法的有效性,從四川省某地區(qū)抽選450家用戶在2017年的實(shí)測(cè)負(fù)荷數(shù)據(jù)用于算例分析。日負(fù)荷曲線共計(jì)164 250條(采用所有日負(fù)荷曲線的最大值作為歸一化基準(zhǔn)值,對(duì)日負(fù)荷曲線實(shí)施最大值歸一化),隨機(jī)抽取25%的日負(fù)荷曲線實(shí)施譜聚類,獲取日負(fù)荷模式標(biāo)簽。最佳聚類數(shù)目通過(guò)輪廓系數(shù)(Silhouette index,SI)和DBI系數(shù)(Davies-Bouldin index,DBI)來(lái)確定[10],確定為7類,如圖5所示。
圖5 最佳聚類數(shù)目選擇Fig.5 Selection of optimal number of clusters
各類訓(xùn)練樣本數(shù)量為10 746、10 955、5 104、1 667、4 270、4 024、4 291(判定第4類為少數(shù)類樣本),采用DBGS算法對(duì)其少數(shù)類負(fù)荷樣本進(jìn)行過(guò)采樣。ALN-LSTMP的輸入特征維度為1,時(shí)間步長(zhǎng)為48,隱藏層神經(jīng)元個(gè)數(shù)為32,PL輸出維度為16,參數(shù)縮減數(shù)量為1 792個(gè),縮減比例為10.79%。訓(xùn)練生成ALN-LSTMP基分類器,當(dāng)基分類器數(shù)目達(dá)到20時(shí),Ensemble-ALN-LSTMP方法的分類正確率基本飽和。設(shè)置基分類器池的生成規(guī)模n為20個(gè)。
實(shí)驗(yàn)按照超參數(shù)設(shè)定、日負(fù)荷曲線分類實(shí)驗(yàn)和用電行為數(shù)字特征畫(huà)像及分類實(shí)驗(yàn)三部分展開(kāi)。
為使優(yōu)化選擇集成策略獲得較好的集成分類結(jié)果,設(shè)置超參數(shù)λ的調(diào)節(jié)范圍從0.01到100,按照數(shù)量級(jí)改變其大小,結(jié)果如圖6所示。
如圖6所示,當(dāng)λ增加到1時(shí),基分類器個(gè)數(shù)(集成權(quán)重不為0)和集成分類精度損失達(dá)到拐點(diǎn),此時(shí)基分類器個(gè)數(shù)和集成分類精度損失的下降量處在適中區(qū)間,低于1或高于1的量級(jí)取值,無(wú)法同時(shí)滿足分類精度和集成模型復(fù)雜度的調(diào)節(jié)要求。為此超參數(shù)λ設(shè)定為1,選擇保留的基分類器數(shù)目nose為9。
圖6 超參數(shù)λ調(diào)節(jié)特性Fig.6 Regulation characteristics of super parameter λ
首先測(cè)試不同算法對(duì)于日負(fù)荷曲線分類的提升效果。分別對(duì)比SC + LSTM、SC + ALN-LSTMP、SC + SMOTE + ALN-LSTMP、SC + DBGS + ALN-LSTMP、SC + DBGS + Ensemble-ALN-LSTMP以及SC + DBGS + OSE-ALN-LSTMP的日負(fù)荷曲線分類效果,采用SI和DBI系數(shù)作為評(píng)價(jià)指標(biāo),如表1所示。上述各模塊在表1中名稱采用簡(jiǎn)寫(xiě)形式,分別為:SL、SA、SSA、SDA、SDE、SDO。
表1 日負(fù)荷曲線分類效果對(duì)比Table 1 Comparison of classification accuracy of algorithms
表1中,SA通過(guò)改進(jìn)LSTM模型,使負(fù)荷曲線的分類效果得到整體提升;SSA和SDA在SA基礎(chǔ)上通過(guò)過(guò)采樣改善了類別不平衡問(wèn)題對(duì)于分類器的影響,SI和DBI均有不同幅度提升,其中SDA分類性能更佳,驗(yàn)證了DBGS較SMOTE的優(yōu)越性;SDE和SDO通過(guò)集成學(xué)習(xí)組合基分類器集群的分類結(jié)果,分類指標(biāo)進(jìn)一步提高,SDO因考慮了基分類器冗余問(wèn)題,較SDE獲得更好的分類效果。
其次,對(duì)比SC、常用分類器反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network, BPNN)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)以及SDO的分類效果(分類器均經(jīng)過(guò)SC+DBGS處理),如表2所示。聚類算法與有監(jiān)督分類算法相結(jié)合提升了負(fù)荷曲線類別的辨識(shí)度,較譜聚類具有更好的分類性能指標(biāo)值,其中SDO的分類性能最佳。
表2 常用經(jīng)典分類算法分類效果對(duì)比Table 2 Comparison of classification accuracy of algorithms
SDO的用戶日負(fù)荷曲線分類結(jié)果如圖7所示。
圖7 負(fù)荷曲線分類結(jié)果Fig.7 Results of load curve classification
7類用戶日負(fù)荷曲線代表了用戶群體7種共性的用電行為,其中第1類和第2類日負(fù)荷曲線形態(tài)相似,但幅值差異明顯,第1類負(fù)荷全天用電水平較低,第2類負(fù)荷晚間用電水平較高。第3類負(fù)荷午晚間用電水平較高,第4類負(fù)荷全天的用電水平較高。第5、6、7類日負(fù)荷曲線均呈晚高峰形態(tài),但高峰時(shí)段分別集中在16:00、19:00以及20:00前后1 h的時(shí)間區(qū)間。用電幅值差異和負(fù)荷高峰時(shí)段分布差異顯示了用戶用電行為的多重多樣性,精準(zhǔn)把握這些細(xì)節(jié)特征,對(duì)電網(wǎng)企業(yè)針對(duì)目標(biāo)用戶開(kāi)展更為精細(xì)的業(yè)務(wù)服務(wù)具有重要價(jià)值。提取SDO用戶日負(fù)荷曲線分類結(jié)果中各類日負(fù)荷曲線的均值質(zhì)心,作為典型日負(fù)荷模式,如圖8所示。
圖8 七類典型負(fù)荷模式Fig.8 Seven typical load patterns
統(tǒng)計(jì)450家用戶2017年各類日負(fù)荷模式的發(fā)生頻次在一年中的占比,近似估計(jì)其發(fā)生概率,構(gòu)建維度等于日負(fù)荷模式類別數(shù)的數(shù)字特征向量作為用戶畫(huà)像,采用譜聚類算法對(duì)用戶畫(huà)像實(shí)施分類。各類用戶的數(shù)字特征向量空間高維可視化窗口見(jiàn)附錄圖A1。
各類用戶的數(shù)字特征畫(huà)像呈現(xiàn)明顯的群落分布特征,經(jīng)過(guò)譜聚類劃分為8類用戶。附錄圖A1中:第1類用戶負(fù)荷模式1的發(fā)生概率超過(guò)0.5,用電水平偏低,但其負(fù)荷模式5、6和7的發(fā)生概率平均達(dá)到0.13、0.15和0.12,存在較強(qiáng)的晚高峰特殊用電需求。第2類用戶負(fù)荷模式1的發(fā)生概率接近0.8,全天用電水平較低,用電需求不活躍。第3類用戶負(fù)荷模式2、5、6、7發(fā)生概率平均達(dá)0.2,晚高峰特殊用電需求較強(qiáng)。第4類用戶負(fù)荷模式2、3的發(fā)生概率之和平均超過(guò)0.7,晚間用電水平較高;負(fù)荷模式5、6和7類發(fā)生概率平均為0.06,晚高峰特殊用電需求較弱。第5類用戶負(fù)荷模式1、2和4的發(fā)生概率平均達(dá)到0.30、0.35和0.14,用電需求波動(dòng)性較大,晚間用電水平較高,晚高峰特殊用電需求較弱。第6類用戶負(fù)荷模式2、3和4的發(fā)生概率平均達(dá)0.18、0.33和0.30,全天用電水平較高,用電需求整體波動(dòng)性較大。第7類用戶負(fù)荷模式2和4的發(fā)生概率平均達(dá)到0.24和0.55,全天用電水平較高,用電需求整體波動(dòng)性較大,在17:00—22:00用電需求較為穩(wěn)定。第8類用戶負(fù)荷模式3和4的發(fā)生概率平均達(dá)到0.20和0.55,全天用電水平很高,用電需求整體較為穩(wěn)定。
基于用戶分類結(jié)果,提取不同類用戶的典型用電行為數(shù)字特征畫(huà)像,結(jié)果如圖9所示。就削峰型需求響應(yīng)計(jì)劃實(shí)施而言,第1、3類用戶均具有較強(qiáng)的晚高峰特殊用電需求,適合參與激勵(lì)型需求響應(yīng)計(jì)劃;第4、8類用戶用電水平較高且較為穩(wěn)定,同時(shí)適合參與價(jià)格型和激勵(lì)型需求響應(yīng)計(jì)劃;第5、6、7類用戶晚間用電水平均較高,但負(fù)荷需求波動(dòng)性較強(qiáng),預(yù)測(cè)和控制難度較大,更適合通過(guò)價(jià)格型需求響應(yīng)計(jì)劃引導(dǎo)其用電行為;第2類用戶全天用電水平較低,不適合參與削峰型需求響應(yīng)計(jì)劃。
圖9 8類典型用戶畫(huà)像Fig.9 Eight typical user portraits
為驗(yàn)證所提用戶分類方法的優(yōu)越性,與3種基于用電行為畫(huà)像的用戶分類方法對(duì)比各自的用戶分類效果。3種用電行為畫(huà)像方法均選用每位用戶的一種典型日負(fù)荷模式(分別按數(shù)量最多、用電量最大以及負(fù)荷峰值最高選取[5])。被分為一類的用戶用電行為正相關(guān)性越強(qiáng)表明分類效果越好,定義平均類內(nèi)用戶用電相關(guān)度ξ如下:
(27)
式中:U表示用戶類別數(shù);Nu表示第u類用戶的數(shù)目;ρu(xp,i,xq,i)表示第u類用戶中用戶p和q一年中第i日負(fù)荷曲線的PCC值。ξ取值介于-1至1之間,值越大代表用戶分類效果越好。
本文所提用戶分類方法(M0)與上述3種基于不同用電行為畫(huà)像的用戶分類方法(M1:典型日負(fù)荷模式,按數(shù)量最多選??;M2:典型日負(fù)荷模式,按用電量最大選??;M3:典型日負(fù)荷模式,按負(fù)荷峰值最高選取)的ξ值如圖10所示,用戶分類實(shí)驗(yàn)共進(jìn)行5次,紅色曲線代表其均值。
圖10 不同用戶分類方法效果對(duì)比Fig.10 Comparison of user classification methods
圖10中本文所提方法ξ值最高,平均達(dá)0.48。這表明,所提基于用電行為數(shù)字特征畫(huà)像的用戶分類方法兼顧用戶對(duì)多元化用電行為的偏重差異,能促使每類用戶達(dá)成更好的用電行為共識(shí),分類效果更佳。
針對(duì)當(dāng)前電力用戶分類研究中用戶用電行為畫(huà)像結(jié)果片面、集成學(xué)習(xí)負(fù)荷分類中的基分類器冗余問(wèn)題以及負(fù)荷類別不平衡問(wèn)題,提出一種基于用電行為數(shù)字特征畫(huà)像的電力用戶兩階段分類算法。算例對(duì)比驗(yàn)證了所提DBGS、ALN-LSTMP以及OSE策略對(duì)負(fù)荷曲線分類性能提升的有效性以及所提SDO方法較傳統(tǒng)LSTM、BPNN以及CNN分類模型的優(yōu)越性。同時(shí)驗(yàn)證了基于用電行為數(shù)字特征畫(huà)像的電力用戶兩階段分類方法較傳統(tǒng)基于用電行為畫(huà)像的用戶分類方法的優(yōu)越性。分析表明,所提用戶分類方法可實(shí)現(xiàn)電力用戶多樣性用電行為的顯性化特征表達(dá),其對(duì)于厘清用戶精細(xì)化用電差異以及指導(dǎo)電網(wǎng)企業(yè)基于業(yè)務(wù)需求精準(zhǔn)定位目標(biāo)用戶具有指導(dǎo)價(jià)值。
本文基于用戶負(fù)荷數(shù)據(jù)開(kāi)展用戶用電行為畫(huà)像和分類,并對(duì)需求響應(yīng)潛力用戶發(fā)掘作出了定性分析,后續(xù)將致力于多重用電關(guān)聯(lián)影響因素下的用戶用電行為畫(huà)像及分類研究,并就需求響應(yīng)潛力用戶的定量評(píng)估與發(fā)掘開(kāi)展深入研究。