王磊, 劉洋,3,李文峰,張杰,許立雄,邢哲銘
(1.四川大學電氣工程學院,成都市 610065;2. 國網河南省電力公司經濟技術研究院,鄭州市 450052;3.智能電網四川省重點實驗室(四川大學),成都市610065;4.大連市大數(shù)據(jù)中心,遼寧省大連市 116000)
電力市場和綜合能源系統(tǒng)的融合發(fā)展使電力用戶在能源交易中的市場主體地位不斷凸顯,對用戶用電行為開展精細化建模或畫像,精準掌握用戶用電規(guī)律,成為提升電力企業(yè)服務水平和市場競爭力的關鍵因素之一[1-2]。與此同時,電力市場化環(huán)境下用戶用能需求和選擇的多元化使用戶用電行為的多樣性和隨機性不斷增強,用戶用電行為精細化畫像對數(shù)據(jù)分析算法提出更高要求,傳統(tǒng)電力負荷數(shù)據(jù)分析技術面臨嚴峻挑戰(zhàn)[1,3]。近年來,機器學習技術的革新和電力負荷數(shù)據(jù)的累積,使基于數(shù)據(jù)驅動的電力用戶用電行為畫像和用戶分類研究受到關注[4]。
用戶日負荷模式能從日時間尺度較為完整地刻畫一個周期的用戶用電行為,是用戶分類研究中常用的用電行為畫像方式。文獻[5]提出一種基于兩階段聚類的用戶分類方法,僅選取每位用戶的一類典型日負荷模式代表其用電行為畫像,難以充分表征用戶全年用電行為。文獻[6]提出基于快速小波變換和G-means算法的用戶分類方法,并將用戶的多種典型負荷模式作為其用電行為畫像,但帶來模糊用戶分組的問題。文獻[7]通過密度聚類獲取每位用戶一年四季的典型日負荷模式,從中提取六類特征作為用電行為畫像并基于畫像對用戶分類?,F(xiàn)有用戶用電行為畫像多基于用戶自身的典型日負荷模式,忽視了從普遍共性的日負荷模式中關注用戶對不同日負荷模式的偏重差異,畫像結果較為片面。
基于用戶用電行為畫像開展電力用戶分類是電網企業(yè)基于業(yè)務需要發(fā)掘目標用戶的理論基礎。以無監(jiān)督聚類、有監(jiān)督分類以及集成學習為代表的機器學習算法在電力用戶及負荷分類研究中應用廣泛。近年來,結合無監(jiān)督聚類算法在劃分類別標簽方面的優(yōu)勢和有監(jiān)督分類算法在擬合復雜非線性映射規(guī)律和算法容錯性等方面的優(yōu)勢開展電力用戶及負荷分類成為一種行之有效的思路。文獻[8]提出一種結合負荷頻域特征和長短期記憶(long short-term memory,LSTM)神經網絡的日負荷曲線分類方法。文獻[9]提出一種結合聚類算法和稀疏自編碼器預訓練支持向量機有監(jiān)督分類的負荷曲線分類方法。文獻[10]提出一種結合K-medoids聚類和Spark分布式神經網絡的基分類器集成學習負荷分類方法。集成學習與負荷數(shù)據(jù)聚類分類的結合應用展現(xiàn)出良好的算法穩(wěn)定性、準確度增益和算法普適性。但受基分類器差異性和準確度的制約,集成學習面臨基分類器冗余的問題[11-12]。集成學習在生成基分類器集群時會產生部分訓練結果雷同的冗余個體,導致集群差異性下降,極端情況下造成無效集成[12]。有效的基分類器選擇集成策略對于改善基分類器冗余問題、保證集成學習對用戶及負荷分類性能增益具有重要價值[13-14]。此外,學習能力更強的基分類器也是提升集成學習分類性能的重要方面。
類別不平衡問題廣泛存在于電力用戶負荷數(shù)據(jù)中,表現(xiàn)為分類模型中少數(shù)類樣本的辨識度被多數(shù)類淹沒,是電力負荷分類領域的重要難題之一[10,15]。以合成少數(shù)類樣本過采樣技術(synthetic minority oversampling technique,SMOTE)為代表的過采樣方法,能避免將類別平衡過程與分類過程耦合,具有廣泛的場景適用性。但SMOTE采樣機制忽視了少數(shù)類樣本的特征空間密度分布特性,合成新樣本容易失真,且在不平衡比例較高時算法效能退化嚴重[15-16]。生成式深度學習模型通過學習樣本分布規(guī)律能獲取較高質量的新樣本,但算法需要大量數(shù)據(jù)資源驅動。
針對當前電力用戶分類研究中用戶用電行為畫像結果片面、集成學習負荷分類研究中的基分類器冗余問題及負荷類別不平衡問題,提出一種基于用電行為數(shù)字特征畫像的電力用戶兩階段分類算法。第一階段,提出一種結合譜聚類(spectral clustering,SC)和集成強分類器的用戶日負荷曲線分類算法:首先,針對集成學習基分類器學習能力弱的不足,提出一種基于改進長短期記憶網絡的強分類器;其次,針對基分類器冗余問題,提出一種基于最小正則化代理經驗風險的優(yōu)化選擇集成(optimal selective ensemble,OSE)策略;然后,提出一種基于密度的高斯過采樣方法(density based gaussian SMOTE,DBGS)處理類別不平衡。第二階段,基于負荷曲線分類結果,構建以日負荷模式發(fā)生概率為數(shù)字特征的用戶用電行為畫像,采用SC算法對用戶畫像實施分類。
本文結合SC算法和集成強基分類器算法的優(yōu)勢,將電力用戶的分類過程按照兩階段來實施。第一階段,通過譜聚類算法對用戶集群的部分日負荷曲線提取日負荷模式標簽,采用集成強基分類器算法經標簽樣本訓練完成對其余日負荷曲線分類。第二階段,構建基于日負荷模式發(fā)生概率的用戶用電行為數(shù)字特征畫像,并通過SC算法對畫像結果聚類以實現(xiàn)用戶分類。
其中,采用改進LSTM網絡作為集成學習的基分類器,引入模型壓縮技術投影層(projection layer,PL)壓縮LSTM網絡的隱層參數(shù),并采用Attention機制和層歸一化(layer normalization,LN)方法提升其分類準確率,構建ALN-LSTMP(attention based and LN based LSTM with projection layer)壓縮深度學習機參與集成決策;提出一種基于最小正則化代理經驗風險的OSE策略,改善基分類器冗余問題對集成分類結果的影響;提出一種DBGS過采樣算法,解決日負荷標簽樣本的類別不平衡問題。
DBGS算法基本原理是根據(jù)少數(shù)類樣本的密度分布規(guī)律實施采樣。其能自適應調節(jié)不同分布區(qū)域的少數(shù)類樣本合成數(shù)量,經過平衡處理后樣本的類別邊界形態(tài)具有較好的保持效果,可有效降低類別不平衡程度,對邊界樣本的重疊程度影響較小[17]。DBGS的算法過程如圖1所示。
圖1 DBGS算法示意圖Fig.1 Schematic diagram of DBGS algorithm
DBGS算法的基本流程如下:
步驟1:采用DBSCAN(density-based spatial clustering of applications with noise)對少數(shù)類樣本實施密度聚類,得到聚類簇Cj集合:
C={Cj|i=1,…,q}
(1)
步驟2:對每個聚類簇構建直接密度可達圖G,表示為:G(Cj,ε,τ)=G(V,E)。其中ε表示直接密度可達半徑,τ表示構成密度核心樣本點的最少近鄰數(shù)目;V表示聚類簇Cj的所有樣本點集合,E表示G的所有直接密度可達邊集合,直接密度可達邊表示為兩樣本點的歐式空間距離。
步驟3:提取每個聚類簇的偽質心樣本s0,即距離聚類簇均值質心最近的樣本點。
步驟4:采用Bellman Ford算法求取每個樣本到s0的最短加權圖路徑π[18]。
步驟5:在π上隨機選取一段線徑πab(a,b代表π途經的樣本點序號)作為采樣區(qū)間進行插值,并根據(jù)Gaussian SMOTE采樣機制[19],對合成樣本施加適量高斯隨機攝動合成新樣本ss:
χloc~U(0,‖πab‖2)
(2)
ζper~N(0,‖πab‖2·σ)
(3)
ss=sa+(sb-sa)·χloc+ζper
(4)
式中:χloc表示插值坐標,服從均勻分布;ζper表示高斯隨機攝動,服從正態(tài)分布;σ表示ζper的相對標準差;ss表示合成新樣本;sa和sb表示ss的參照樣本對。使插值坐標偏離πab以降低合成樣本相似度。
LSTM網絡引入“門”機制(包括遺忘門、輸入門以及
輸出門),通過“門”來控制LSTM網絡單元狀態(tài)信息的保留或遺忘,可以挖掘數(shù)據(jù)的長時序關聯(lián)特征。LSTM存在計算效率低的缺點,引入投影層PL構建LSTMP(LSTM with projection layer)單元縮減模型參數(shù)、加快運算速度[20],其內部結構如圖2所示。
圖2 LSTMP單元內部結構Fig.2 Internal structure of LSTMP unit
PL的原理是:在t時刻短時記憶狀態(tài)ht進入下一時間步前對其線性降維以提取主要關聯(lián)特征,在壓縮模型參數(shù)的同時提升模型泛化性能。PL表達為:
rt=Wrhht
(5)
yt=φ(Wyrrt+by)
(6)
式中:Wrh表示t時刻短時記憶狀態(tài)ht到PL層輸出的權重矩陣;rt表示經權重矩陣Wrh降維后的短時記憶狀態(tài);Wyr和by分別表示rt到LSTMP最終輸出yt的權重矩陣和閾值向量;φ(·)為網絡層的輸出激活函數(shù),本文采用Relu函數(shù)[15]。加入PL后的各門結構如下:
it=φ2(Wixxt+Wirrt-1+WicCt-1+bi)
(7)
ft=φ2(Wfxxt+Wfrrt-1+WfcCt-1+bf)
(8)
Ct=ft⊙Ct-1+it⊙tanh(Wcxxt+Wcrrt-1+bc)
(9)
Ot=φ2(Woxxt+Worrt-1+WocCt+bo)
(10)
式中:it、ft和Ot分別為輸入門、遺忘門以及輸出門;Ct為LSTMP單元t時刻的長時記憶狀態(tài);Wix表示t時刻輸入xt通過輸入門的權重矩陣;Wir表示t-1時刻降維后短時記憶狀態(tài)rt-1通過輸入門的權重矩陣;Wic表示t-1時刻長時記憶狀態(tài)Ct-1通過輸入門的權重矩陣;Wfx表示t時刻輸入通過遺忘門的權重矩陣;Wfr表示rt-1通過遺忘門的權重矩陣;Wfc表示Ct-1通過遺忘門的權重矩陣;Wcx表示輸入xt保留到Ct的權重矩陣;Wcr表示rt-1保留到Ct的權重矩陣;Wox表示輸入xt通過輸出門的權重矩陣;Wor表示rt-1通過輸出門的權重矩陣;Woc表示Ct通過輸出門的權重矩陣;bi、bf、bc和bo分別表示輸入門、遺忘門、長時記憶元胞Cell以及輸出門的閾值向量;φ2(·)表示激活函數(shù),本文均設定為Sigmoid函數(shù)。經過PL對模型壓縮后,模型參數(shù)縮減數(shù)量nR為:
(11)
式中:nc為隱藏層神經元個數(shù);nr為PL的輸出維度;no為輸出yt的維度。對長期依賴較強的數(shù)據(jù)如電力負荷的多時間步長學習,模型壓縮具有更大的計算效率提升潛力。
ALN-LSTMP分類模型如圖3所示,其由數(shù)據(jù)預處理模塊、LSTMP層、LN層、Relu非線性層以及Attention模塊級聯(lián),通過柔性最大概率層Softmax輸出分類結果,表示為各類別的決策概率。數(shù)據(jù)預處理層完成輸入數(shù)據(jù)的清洗和插補。LN層對網絡層輸入作歸一化處理,可加快模型收斂速度[21]。經過Relu激活函數(shù)處理后,Attention層通過賦予輸入信息不同權重可以快速捕捉信息關鍵特征[22],有助于加快模型學習速度,降低其訓練時長。
圖3 ALN-LSTMP分類模型Fig.3 ALN-LSTMP classification model
所提OSE策略的基本思想是:基分類器的冗余度越高,被選擇的可能性越小。此外,分類準確率高的基分類器具有優(yōu)先選擇權。所提OSE策略的具體步驟為:首先,構造評估集成學習誤分類損失的正則化經驗風險目標函數(shù),使分類準確度高的基分類器能被優(yōu)先選中。其次,采用皮爾遜相關系數(shù)(pearson correlation coefficient,PCC)構建量化基分類器之間相關性的冗余度指標,并基于該指標提出評估基分類器對集成學習貢獻度的重要性指標。將重要性指標作為懲罰因子納入優(yōu)化問題的正則項中,目的是使OSE策略在盡量不犧牲分類精度的前提下,淘汰冗余基分類器。最后,將優(yōu)化后權重為0的基分類器丟棄,其余通過多數(shù)投票法參與集成。
3.2.1 正則化經驗風險函數(shù)
所提OSE策略,通過最小代理正則化經驗風險函數(shù)Γ來確定基分類器的集成組合權重ω,公式如下:
Γ(ω)=λL(ω)+P(ω)
(12)
式中:L(·)為代理經驗風險函數(shù),度量集成學習在訓練樣本中的誤分類損失;P(·)為正則項;λ為超參數(shù)。通過超參數(shù)λ調節(jié)經驗風險項和正則項的比例,控制集成模型復雜度,抑制過擬合。
3.2.2 代理經驗風險函數(shù)L
集成學習中,令ω=[ω1,…,ωn]T表示基分類器集合{h}={h1,…,hn}(共計n個)的集成組合權重(h和ω的下標代表基分類器序號,下同),定義第i個樣本xi的集成分類結果:
(13)
基于集成分類結果,定義其集成邊界m(xi):
m(xi)=sign[yiH(xi)]=sign[yi(hi)Tω]
(14)
式中:yi為真實標簽;m(xi)∈{-1,1},當分類正確時為1,反之為-1。
基于集成邊界,定義訓練集樣本(數(shù)目為N)集成分類結果的經驗風險函數(shù)L0:
(15)
由于所提經驗風險函數(shù)屬于非凸、不連續(xù)函數(shù),采用代理損失優(yōu)化方法能降低其求解難度[23]。本文采用截斷huber損失函數(shù)用于原問題的代理優(yōu)化求解。
(16)
式中:參數(shù)δ用于調節(jié)函數(shù)對于噪聲和異常點的敏感度,本文設定為0.6。
最后代理經驗風險函數(shù)L表示如下:
(17)
3.2.3 正則項P
PCC可以評估變量間的相關度。將基分類器對初始訓練集的分類結果組織為向量形式,通過PCC度量不同基分類器學習結果的相關度:
(18)
(19)
將待度量基分類器與其他基分類器的平均PCC作為其冗余度指標:
(20)
冗余度低且分類結果和樣本標簽相關度高的基分類器對集成分類的貢獻更大,該基分類器更重要。因此,定義基分類器的重要度:
S(hc)=ρ(hc,y)-R(hc)
(21)
式中:y為初始訓練集所有樣本標簽組成的“全1”向量。
將S(hc)納入正則項中,對基分類器的集成組合權重施加懲罰,基分類器重要度越低受到的懲罰越重,被選中的概率越小。定義正則項P:
P=ωTS-1ω
(22)
式中:S=diag[S(h1),…,S(hn)]。
3.2.4 優(yōu)化選擇集成問題模型
綜合考慮經驗風險項及其正則項,構建如下優(yōu)化問題:
(23)
經過OSE策略遴選出去冗余后的ALN-LSTMP基分類器子集,采用多數(shù)投票法對各基分類器的分類結果組合決策,可以獲得更好的集成泛化性能。多數(shù)投票法機制如下:
(24)
式中:nose表示優(yōu)化后參與集成的基分類器個數(shù);rc,test表示測試樣本xtest在第c個基分類器中的分類結果,表征為獨熱編碼向量,對其累加獲得各類別的投票分數(shù),選取最大分數(shù)值對應的類別g作為分類結果γtest。OSE-ALN-LSTMP的算法過程如圖4所示。
圖4 OSE-ALN-LSTMP算法示意圖Fig.4 Schematic diagram of OSE-ALN-LSTMP
一定區(qū)域內電力用戶受氣象、節(jié)假日以及經濟活動等因素影響宏觀趨同,且隨著信息化、數(shù)字化技術的應用普及,用戶間用能習慣和用能需求的關聯(lián)耦合不斷加深,一方面用戶用電行為呈多元化演進趨勢,另一方面用戶群體共性的用電行為特征愈發(fā)凸顯。通過提取用戶共性的日負荷模式,統(tǒng)計用戶一年中不同日負荷模式的發(fā)生概率,可以實現(xiàn)對用戶多元化用電行為的數(shù)字特征畫像表征。因此,提出一種基于負荷模式發(fā)生概率的用戶用電行為數(shù)字特征畫像方法。定義所提取用戶共性日負荷模式共計Θ類,近似統(tǒng)計一年中用戶k日負荷模式θ的發(fā)生概率如下:
(25)
定義用戶k用電行為數(shù)字特征畫像如下:
γk=[γk,1,…,γk,Θ]
(26)
基于用戶用電行為數(shù)字特征畫像,采用譜聚類算法對用戶實施分類或分組。基于分類結果計算各類畫像的均值質心,選取最接近均值質心的畫像作為不同類型用戶的典型數(shù)字特征畫像。
算例在Intel(R) Core i3-7100 CPU @3.90 GHz,RAM 16 GB,操作系統(tǒng)Win10的計算機上實施。為驗證所提方法的有效性,從四川省某地區(qū)抽選450家用戶在2017年的實測負荷數(shù)據(jù)用于算例分析。日負荷曲線共計164 250條(采用所有日負荷曲線的最大值作為歸一化基準值,對日負荷曲線實施最大值歸一化),隨機抽取25%的日負荷曲線實施譜聚類,獲取日負荷模式標簽。最佳聚類數(shù)目通過輪廓系數(shù)(Silhouette index,SI)和DBI系數(shù)(Davies-Bouldin index,DBI)來確定[10],確定為7類,如圖5所示。
圖5 最佳聚類數(shù)目選擇Fig.5 Selection of optimal number of clusters
各類訓練樣本數(shù)量為10 746、10 955、5 104、1 667、4 270、4 024、4 291(判定第4類為少數(shù)類樣本),采用DBGS算法對其少數(shù)類負荷樣本進行過采樣。ALN-LSTMP的輸入特征維度為1,時間步長為48,隱藏層神經元個數(shù)為32,PL輸出維度為16,參數(shù)縮減數(shù)量為1 792個,縮減比例為10.79%。訓練生成ALN-LSTMP基分類器,當基分類器數(shù)目達到20時,Ensemble-ALN-LSTMP方法的分類正確率基本飽和。設置基分類器池的生成規(guī)模n為20個。
實驗按照超參數(shù)設定、日負荷曲線分類實驗和用電行為數(shù)字特征畫像及分類實驗三部分展開。
為使優(yōu)化選擇集成策略獲得較好的集成分類結果,設置超參數(shù)λ的調節(jié)范圍從0.01到100,按照數(shù)量級改變其大小,結果如圖6所示。
如圖6所示,當λ增加到1時,基分類器個數(shù)(集成權重不為0)和集成分類精度損失達到拐點,此時基分類器個數(shù)和集成分類精度損失的下降量處在適中區(qū)間,低于1或高于1的量級取值,無法同時滿足分類精度和集成模型復雜度的調節(jié)要求。為此超參數(shù)λ設定為1,選擇保留的基分類器數(shù)目nose為9。
圖6 超參數(shù)λ調節(jié)特性Fig.6 Regulation characteristics of super parameter λ
首先測試不同算法對于日負荷曲線分類的提升效果。分別對比SC + LSTM、SC + ALN-LSTMP、SC + SMOTE + ALN-LSTMP、SC + DBGS + ALN-LSTMP、SC + DBGS + Ensemble-ALN-LSTMP以及SC + DBGS + OSE-ALN-LSTMP的日負荷曲線分類效果,采用SI和DBI系數(shù)作為評價指標,如表1所示。上述各模塊在表1中名稱采用簡寫形式,分別為:SL、SA、SSA、SDA、SDE、SDO。
表1 日負荷曲線分類效果對比Table 1 Comparison of classification accuracy of algorithms
表1中,SA通過改進LSTM模型,使負荷曲線的分類效果得到整體提升;SSA和SDA在SA基礎上通過過采樣改善了類別不平衡問題對于分類器的影響,SI和DBI均有不同幅度提升,其中SDA分類性能更佳,驗證了DBGS較SMOTE的優(yōu)越性;SDE和SDO通過集成學習組合基分類器集群的分類結果,分類指標進一步提高,SDO因考慮了基分類器冗余問題,較SDE獲得更好的分類效果。
其次,對比SC、常用分類器反向傳播神經網絡(back propagation neural network, BPNN)和卷積神經網絡(convolutional neural network, CNN)以及SDO的分類效果(分類器均經過SC+DBGS處理),如表2所示。聚類算法與有監(jiān)督分類算法相結合提升了負荷曲線類別的辨識度,較譜聚類具有更好的分類性能指標值,其中SDO的分類性能最佳。
表2 常用經典分類算法分類效果對比Table 2 Comparison of classification accuracy of algorithms
SDO的用戶日負荷曲線分類結果如圖7所示。
圖7 負荷曲線分類結果Fig.7 Results of load curve classification
7類用戶日負荷曲線代表了用戶群體7種共性的用電行為,其中第1類和第2類日負荷曲線形態(tài)相似,但幅值差異明顯,第1類負荷全天用電水平較低,第2類負荷晚間用電水平較高。第3類負荷午晚間用電水平較高,第4類負荷全天的用電水平較高。第5、6、7類日負荷曲線均呈晚高峰形態(tài),但高峰時段分別集中在16:00、19:00以及20:00前后1 h的時間區(qū)間。用電幅值差異和負荷高峰時段分布差異顯示了用戶用電行為的多重多樣性,精準把握這些細節(jié)特征,對電網企業(yè)針對目標用戶開展更為精細的業(yè)務服務具有重要價值。提取SDO用戶日負荷曲線分類結果中各類日負荷曲線的均值質心,作為典型日負荷模式,如圖8所示。
圖8 七類典型負荷模式Fig.8 Seven typical load patterns
統(tǒng)計450家用戶2017年各類日負荷模式的發(fā)生頻次在一年中的占比,近似估計其發(fā)生概率,構建維度等于日負荷模式類別數(shù)的數(shù)字特征向量作為用戶畫像,采用譜聚類算法對用戶畫像實施分類。各類用戶的數(shù)字特征向量空間高維可視化窗口見附錄圖A1。
各類用戶的數(shù)字特征畫像呈現(xiàn)明顯的群落分布特征,經過譜聚類劃分為8類用戶。附錄圖A1中:第1類用戶負荷模式1的發(fā)生概率超過0.5,用電水平偏低,但其負荷模式5、6和7的發(fā)生概率平均達到0.13、0.15和0.12,存在較強的晚高峰特殊用電需求。第2類用戶負荷模式1的發(fā)生概率接近0.8,全天用電水平較低,用電需求不活躍。第3類用戶負荷模式2、5、6、7發(fā)生概率平均達0.2,晚高峰特殊用電需求較強。第4類用戶負荷模式2、3的發(fā)生概率之和平均超過0.7,晚間用電水平較高;負荷模式5、6和7類發(fā)生概率平均為0.06,晚高峰特殊用電需求較弱。第5類用戶負荷模式1、2和4的發(fā)生概率平均達到0.30、0.35和0.14,用電需求波動性較大,晚間用電水平較高,晚高峰特殊用電需求較弱。第6類用戶負荷模式2、3和4的發(fā)生概率平均達0.18、0.33和0.30,全天用電水平較高,用電需求整體波動性較大。第7類用戶負荷模式2和4的發(fā)生概率平均達到0.24和0.55,全天用電水平較高,用電需求整體波動性較大,在17:00—22:00用電需求較為穩(wěn)定。第8類用戶負荷模式3和4的發(fā)生概率平均達到0.20和0.55,全天用電水平很高,用電需求整體較為穩(wěn)定。
基于用戶分類結果,提取不同類用戶的典型用電行為數(shù)字特征畫像,結果如圖9所示。就削峰型需求響應計劃實施而言,第1、3類用戶均具有較強的晚高峰特殊用電需求,適合參與激勵型需求響應計劃;第4、8類用戶用電水平較高且較為穩(wěn)定,同時適合參與價格型和激勵型需求響應計劃;第5、6、7類用戶晚間用電水平均較高,但負荷需求波動性較強,預測和控制難度較大,更適合通過價格型需求響應計劃引導其用電行為;第2類用戶全天用電水平較低,不適合參與削峰型需求響應計劃。
圖9 8類典型用戶畫像Fig.9 Eight typical user portraits
為驗證所提用戶分類方法的優(yōu)越性,與3種基于用電行為畫像的用戶分類方法對比各自的用戶分類效果。3種用電行為畫像方法均選用每位用戶的一種典型日負荷模式(分別按數(shù)量最多、用電量最大以及負荷峰值最高選取[5])。被分為一類的用戶用電行為正相關性越強表明分類效果越好,定義平均類內用戶用電相關度ξ如下:
(27)
式中:U表示用戶類別數(shù);Nu表示第u類用戶的數(shù)目;ρu(xp,i,xq,i)表示第u類用戶中用戶p和q一年中第i日負荷曲線的PCC值。ξ取值介于-1至1之間,值越大代表用戶分類效果越好。
本文所提用戶分類方法(M0)與上述3種基于不同用電行為畫像的用戶分類方法(M1:典型日負荷模式,按數(shù)量最多選取;M2:典型日負荷模式,按用電量最大選??;M3:典型日負荷模式,按負荷峰值最高選取)的ξ值如圖10所示,用戶分類實驗共進行5次,紅色曲線代表其均值。
圖10 不同用戶分類方法效果對比Fig.10 Comparison of user classification methods
圖10中本文所提方法ξ值最高,平均達0.48。這表明,所提基于用電行為數(shù)字特征畫像的用戶分類方法兼顧用戶對多元化用電行為的偏重差異,能促使每類用戶達成更好的用電行為共識,分類效果更佳。
針對當前電力用戶分類研究中用戶用電行為畫像結果片面、集成學習負荷分類中的基分類器冗余問題以及負荷類別不平衡問題,提出一種基于用電行為數(shù)字特征畫像的電力用戶兩階段分類算法。算例對比驗證了所提DBGS、ALN-LSTMP以及OSE策略對負荷曲線分類性能提升的有效性以及所提SDO方法較傳統(tǒng)LSTM、BPNN以及CNN分類模型的優(yōu)越性。同時驗證了基于用電行為數(shù)字特征畫像的電力用戶兩階段分類方法較傳統(tǒng)基于用電行為畫像的用戶分類方法的優(yōu)越性。分析表明,所提用戶分類方法可實現(xiàn)電力用戶多樣性用電行為的顯性化特征表達,其對于厘清用戶精細化用電差異以及指導電網企業(yè)基于業(yè)務需求精準定位目標用戶具有指導價值。
本文基于用戶負荷數(shù)據(jù)開展用戶用電行為畫像和分類,并對需求響應潛力用戶發(fā)掘作出了定性分析,后續(xù)將致力于多重用電關聯(lián)影響因素下的用戶用電行為畫像及分類研究,并就需求響應潛力用戶的定量評估與發(fā)掘開展深入研究。