王圓圓,韓 丁,王世謙,白宏坤,王 磊,劉 洋
(1.國(guó)網(wǎng)河南省電力公司經(jīng)濟(jì)技術(shù)研究院,鄭州 450052;2.四川大學(xué)電氣工程學(xué)院,成都 610065)
伴隨智能電網(wǎng)和能源互聯(lián)網(wǎng)的發(fā)展,人工智能技術(shù)與傳統(tǒng)電網(wǎng)技術(shù)的日益融合,成為電網(wǎng)管理者快速感知電力系統(tǒng)多源數(shù)據(jù)規(guī)律、實(shí)施精準(zhǔn)控制和決策的重要輔助手段[1-4]。當(dāng)前,集成學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等人工智能理論在電力用戶負(fù)荷模式識(shí)別中已受到廣泛重視,其對(duì)電網(wǎng)企業(yè)開展精細(xì)化用戶用電行為建模、制定個(gè)性化用電服務(wù)及提升企業(yè)市場(chǎng)競(jìng)爭(zhēng)力具有重要價(jià)值[5-8]。
集成學(xué)習(xí)因具有良好的算法穩(wěn)定性、準(zhǔn)確度增益和算法普適性被引入計(jì)算機(jī)視覺、生物、醫(yī)學(xué)及工程等多個(gè)學(xué)科領(lǐng)域。近年來(lái),集成學(xué)習(xí)在電力負(fù)荷模式識(shí)別領(lǐng)域的研究中備受重視。負(fù)荷模式直觀表現(xiàn)為負(fù)荷時(shí)間序列的曲線形態(tài)和時(shí)段負(fù)荷水平,它反映了用戶該時(shí)間尺度下的用電行為規(guī)律。負(fù)荷模式是精細(xì)化開展用電行為畫像、辨識(shí)需求響應(yīng)潛力用戶的理論基礎(chǔ)[9-11],文獻(xiàn)[12]結(jié)合負(fù)荷序列的時(shí)域和頻域特征,構(gòu)建基于長(zhǎng)短期記憶LSTM(long short-term memory)神經(jīng)網(wǎng)絡(luò)的日負(fù)荷模式辨識(shí)及提取算法;文獻(xiàn)[13]針對(duì)傳統(tǒng)K-means聚類方法中聚類結(jié)果穩(wěn)定性差和距離度量不能反映負(fù)荷曲線趨勢(shì)相似度的問題,提出一種基于中心優(yōu)化和雙尺度相似性度量的負(fù)荷聚類式分類方法。隨著智能儀表的普及應(yīng)用,用戶級(jí)負(fù)荷數(shù)據(jù)大量累積,海量用戶負(fù)荷數(shù)據(jù)高性能處理成為重要研究課題。針對(duì)大規(guī)模負(fù)荷數(shù)據(jù)的分類效率問題,文獻(xiàn)[14-15]提出結(jié)合自動(dòng)編碼器特征降維和無(wú)監(jiān)督聚類的負(fù)荷分類方法;文獻(xiàn)[16]提出一種分布式并行LSTM神經(jīng)網(wǎng)絡(luò)負(fù)荷模式識(shí)別模型,將負(fù)荷數(shù)據(jù)切分為樣本規(guī)模更小的子塊存放在分布式文件存儲(chǔ)系統(tǒng)中,在各個(gè)計(jì)算節(jié)點(diǎn)完成負(fù)荷分類任務(wù);文獻(xiàn)[17-18]為解決數(shù)據(jù)分塊帶來(lái)的分類精度下降問題,基于Hadoop大數(shù)據(jù)計(jì)算平臺(tái),提出分布式并行集成反向傳播神經(jīng)網(wǎng)絡(luò)BPNN(back propagation neural network)的負(fù)荷模式分類方法,采用Bagging式集成學(xué)習(xí)對(duì)各子計(jì)算節(jié)點(diǎn)部署的基分類器進(jìn)行融合決策,彌補(bǔ)子節(jié)點(diǎn)分類器的精度損失。以Bagging為代表的并行式集成學(xué)習(xí)與負(fù)荷數(shù)據(jù)分布式處理具有良好的算法適配性,成為提升用戶側(cè)大數(shù)據(jù)處理效能的重要方法,但相關(guān)研究均未考慮集成學(xué)習(xí)廣泛存在的基分類器冗余問題。當(dāng)基分類器集群陷入同質(zhì)化時(shí),基分類器便失去差異性,集成學(xué)習(xí)就會(huì)失效且增加無(wú)效數(shù)據(jù)處理成本[19]。目前,基分類器集成的經(jīng)典方法包括異質(zhì)基分類器集成、隨機(jī)子空間集成和Boosting、Bagging集成等[20]。異質(zhì)基分類器集成對(duì)基分類器的選擇缺乏通用標(biāo)準(zhǔn);隨機(jī)子空間集成面臨特征子空間冗余的類似問題;Boosting集成易受數(shù)據(jù)噪聲影響,算法魯棒性差,且為串行式算法邏輯,對(duì)大量負(fù)荷數(shù)據(jù)的處理存在效率缺陷;Bagging集成魯棒性較強(qiáng),與主流的分布式計(jì)算框架具有良好的適配性,但基分類器冗余問題嚴(yán)重。選擇集成策略是應(yīng)對(duì)Bagging集成學(xué)習(xí)中基分類器冗余的有效方法[21],其選擇部分性能優(yōu)越的基分類器參與集成,可獲得效率提升和同等甚至更高的性能增益。
伴隨智能電表的廣泛應(yīng)用,用戶負(fù)荷數(shù)據(jù)體量和用電行為復(fù)雜性均不斷提升[22-23],負(fù)荷樣本潛在的類別不平衡問題增強(qiáng),增加了精準(zhǔn)分類的難度[24-25]。類別不平衡表現(xiàn)為分類模型中少數(shù)類樣本的辨識(shí)度被多數(shù)類淹沒,是電力數(shù)據(jù)模式分類領(lǐng)域的重要難題之一。少數(shù)類樣本過采樣技術(shù)是解決類別不平衡問題的有效方法,文獻(xiàn)[26]采用生成對(duì)抗網(wǎng)絡(luò)合成竊電監(jiān)測(cè)樣本,克服少數(shù)類樣本數(shù)目不足的問題。深度學(xué)習(xí)模型通過學(xué)習(xí)樣本分布規(guī)律能獲取較高質(zhì)量的新樣本,但算法復(fù)雜且需要大量數(shù)據(jù)資源驅(qū)動(dòng)。文獻(xiàn)[17]引入基于k-近鄰采樣原理的合成少數(shù)類過采樣技術(shù)SMOTE(synthetic minority over-sampling technique),有效提升了少數(shù)類負(fù)荷樣本的分類精度;文獻(xiàn)[18]針對(duì)SMOTE算法近鄰樣本選擇盲目的問題,采用邊界合成少數(shù)類過采樣技術(shù)BSMOTE(borderline synthetic minority over-sampling technique)加以改善。上述SMOTE方法均未考慮少數(shù)類樣本的密度分布特性,采樣過程與類別重疊現(xiàn)象的耦合作用也會(huì)削弱分類模型的泛化性能。
本文為解決集成學(xué)習(xí)負(fù)荷模式識(shí)別中的類別不平衡及基分類器冗余等問題,提出一種計(jì)及類別平衡的兩階段選擇集成學(xué)習(xí)TSSEL(two stage selective ensemble learning)電力負(fù)荷序列模式識(shí)別方法。采用一種基于密度聚類的高斯合成少數(shù)類樣本過采樣技術(shù)DCB-GSMOTE(density clusteringbased Gaussian synthetic minority over-sampling technique),解決少數(shù)類負(fù)荷樣本在模式識(shí)別任務(wù)中被多數(shù)類淹沒的問題。同時(shí),設(shè)計(jì)一種包括基分類器聚類剪枝及優(yōu)化集成的兩階段選擇集成負(fù)荷分類模型。
DCB-GSMOTE根據(jù)少數(shù)類樣本集的密度分布特性進(jìn)行自適應(yīng)人工樣本合成采樣,其對(duì)樣本集的密度分布表征借鑒DBSCAN(density-based spatial clustering of applications with noise)算法的直接密度可達(dá)圖理念涉及的相關(guān)基本概念如下。
(1)ρ-鄰域。已知一聚類簇Z,設(shè)其中一樣本xi的鄰域半徑為ρ,定義xi的ρ-鄰域Nρ(xi)為
(2)核心點(diǎn)。已知樣本xi,若其ρ-鄰域Nρ(xi)內(nèi)至少存在κ個(gè)樣本點(diǎn),則稱xi為核心點(diǎn)。
(3)直接密度可達(dá)。已知樣本xi、xj,若xi為核心點(diǎn),且滿足xj∈Nρ(xi),則稱xj對(duì)xi直接密度可達(dá)。
(4)直接密度可達(dá)圖。設(shè)V是Z中所有滿足直接密度可達(dá)條件的樣本集合,將直接密度可達(dá)樣本對(duì)的加權(quán)圖路徑定義為直接密度可達(dá)邊,路徑權(quán)重表征為樣本對(duì)的歐式距離;設(shè)E為Z中所有直接密度可達(dá)邊的集合,稱G(Z,ρ,κ)=(V,E)為聚類簇Z在ρ和κ參數(shù)條件下的直接密度可達(dá)圖。
步驟1判別少數(shù)類日負(fù)荷序列樣本。已知日負(fù)荷標(biāo)簽樣本集D,按負(fù)荷模式類別差異劃分為M類樣本子集{Dm|m=1,…,M}。若樣本子集Dm的樣本數(shù)量小于最大樣本子集數(shù)量的1/5,則判定該類負(fù)荷樣本子集為少數(shù)類,對(duì)其進(jìn)行樣本合成。
步驟2少數(shù)類樣本密度聚類。設(shè)Dm為少數(shù)類樣本集,對(duì)其實(shí)施DBSCAN聚類,得到若干聚類簇{Dm,c|c=1,…,C},其中,Dm,c為第c個(gè)聚類簇,C為聚類簇總數(shù)。記錄各聚類簇的聚類中心樣本。
步驟3聚類簇構(gòu)建直接密度可達(dá)圖。記錄DBSCAN聚類后每個(gè)聚類簇Dm,c的直接密度可達(dá)圖G(Dm,c,ρ,κ)。
步驟4確定每一聚類簇Dm,c的樣本合成數(shù)目。計(jì)算各聚類簇的樣本數(shù)目分布比例,按比例在各聚類簇中合成新樣本。
步驟5采樣路徑搜索。每次合成新樣本時(shí)在Dm,c隨機(jī)選定一真實(shí)樣本xr,在G(Dm,c,ρ,κ)中采用Dijkstra算法搜索xr到聚類中心xcenterc的最短加權(quán)圖路徑,其中,為xr到最短加權(quán)圖路徑經(jīng)過的樣本點(diǎn),?為直接密度可達(dá)。將Jr?center作為本次的采樣路徑。
步驟6新樣本合成。在Jr?center中隨機(jī)選擇一段直接密度可達(dá)邊作為本次的采樣區(qū)間。
在采樣區(qū)間內(nèi)設(shè)定插值距離l,其服從的均勻分布可表示為
隨機(jī)生成插值坐標(biāo)q為
為增強(qiáng)合成樣本的多樣性,對(duì)q添加一隨機(jī)擾動(dòng)向量o。o的每一維度均服從的正態(tài)分布為
式中,σ為相對(duì)標(biāo)準(zhǔn)差。
最后生成本次的新樣本xsynthetic為
步驟7重復(fù)步驟5、6,直到少數(shù)類樣本總數(shù)目達(dá)到最大樣本子集數(shù)目的1/5。
集成學(xué)習(xí)中基分類器的差異性和準(zhǔn)確率是影響集成性能的關(guān)鍵因素,其中,差異性是指基分類器對(duì)樣本做出不同錯(cuò)分的趨勢(shì),差異性和準(zhǔn)確率高的基分類器集群可以獲得更好的集成增益。兼顧基分類器的差異性和識(shí)別準(zhǔn)確率,提出基于差異性模糊增量的聚類剪枝策略CBPS(clustering-based pruning strategy)和基于正則化代理集成分類精度損失的優(yōu)化選擇集成OBSI(optimization-based selection integration)策略的兩階段選擇集成負(fù)荷模式識(shí)別方法。
所提基于差異性模糊增量DFI(diversity fuzzy increment)的CBPS首先構(gòu)建基分類器的DFI特征向量,基于DFI特征向量采用近鄰傳播AP(affinity propagation)聚類將基分類器集群劃分為若干類,剪枝除聚類中心外的其余冗余基分類器個(gè)體。同時(shí),為確定基分類器池的最佳聚類剪枝數(shù)目,提出基于歐式冗余度和余弦冗余度雙度量指標(biāo)的基分類器集群冗余度評(píng)價(jià)方法。
2.1.1 DFI特征向量
采用Q-統(tǒng)計(jì)量構(gòu)建基分類器的DFI特征向量,該指標(biāo)隸屬成對(duì)差異性度量的范疇,用于度量?jī)苫诸惼髦g的決策差異性[27]。第m類負(fù)荷樣本分類任務(wù)中基分類器u和基分類器v的Q-統(tǒng)計(jì)量可表示為
式中:au,v、du,v分別為基分類器u和v對(duì)訓(xùn)練樣本集作出<正確,正確>、<錯(cuò)誤,錯(cuò)誤>分類的概率;bu,v、cu,v分別為基分類器u和v對(duì)訓(xùn)練樣本做出<正確,錯(cuò)誤>、<錯(cuò)誤,正確>分類結(jié)果的概率[21]。
表1為au,v、bu,v、cu,v和du,v服從的聯(lián)合分布,其中,hu(xk)、hv(xk)分別為基分類器u和v對(duì)訓(xùn)練樣本xk的分類結(jié)果;yk為xk的類別標(biāo)簽。
表1 兩基分類器間的聯(lián)合分布Tab.1 Joint distribution for two base classifiers
基于Q-統(tǒng)計(jì)量,構(gòu)建基分類器集群的整體差異性指標(biāo)φm為
式中,L為基分類器數(shù)目。
為描述基分類器個(gè)體對(duì)集群整體差異性變化的影響,定義第m類訓(xùn)練樣本中基分類器u的DFI為Eu,m,其公式可表示為
式中,Ωu?Ω、Ωu?Ω分別為包含和不包含基分類器u的基分類器集合。
設(shè)樣本總類別數(shù)為M,分別計(jì)算不同類別對(duì)應(yīng)的差異性模糊增量,構(gòu)建基分類器集群的DFI特征矩陣E為
2.1.2 基分類器集群最佳聚類中心數(shù)目評(píng)估
歐氏距離和余弦距離常用于數(shù)據(jù)序列的相似性評(píng)估。對(duì)基分類器集群完成一次聚類后,計(jì)算所有聚類中心的基分類器子集DFI特征向量的平均歐氏距離和余弦距離,歐式冗余度指標(biāo)ERI(European redundancy index)IERI和余弦冗余度指標(biāo)CRI(cosine redundancy index)ICRI可表示為
式中:LAP為基分類器聚類中心的數(shù)目;Eu,、Ev,分別為DFI特征矩陣E的第u和v行向量。IERI越大或者ICRI越小意味聚類中心基分類器子集的平均差異性越大,基分類器冗余度越低。聚類時(shí)將IERI和ICRI取最值時(shí)的聚類中心數(shù)目Lmost作為最佳剪枝結(jié)果。
2.1.3 CBPS算法基本流程
步驟1基分類器池生成。已知日負(fù)荷標(biāo)簽樣本集D,抽樣訓(xùn)練生成L個(gè)基分類器,構(gòu)成原始基分類器池。
步驟2DFI特征向量構(gòu)建。根據(jù)D計(jì)算基分類器池中所有基分類器對(duì)的Q-統(tǒng)計(jì)量,進(jìn)而生成所有基分類器的DFI特征向量集合,構(gòu)建DFI特征矩陣E。
步驟3基分類器集群聚類。設(shè)定偏好度參數(shù),采用AP聚類算法對(duì)E矩陣行向量完成一次聚類,確定本次聚類的聚類中心數(shù)目。
步驟4基分類器集群聚類剪枝。按照步驟3完成多次聚類,直到選定ERI和CRI特性曲線的拐點(diǎn)。根據(jù)拐點(diǎn)聚類結(jié)果,將所有聚類中心對(duì)應(yīng)的基分類器作為CBPS去冗余的基分類器集合。
為提升選擇集成模型的泛化能力,將OBSI策略引入集成邊界的概念,構(gòu)建最小正則化代理集成精度損失函數(shù)優(yōu)化基分類器集成參與權(quán)重。
2.2.1 考慮模型復(fù)雜度的最大化Margin集成策略
集成邊界最早由Schapire提出,是一種描述樣本正確分類傾向程度的度量。已知負(fù)荷標(biāo)簽樣本驗(yàn)證集Dverify={(xn,yn)|n=1,…,N},其中,xn、yn分別為第n個(gè)樣本和類別標(biāo)簽;設(shè)經(jīng)CBPS策略剪枝得到基分類器集合為ΩCBPS,H(X)={hu(xn)|xn?Dverify;u?ΩCBPS}為ΩCBPS對(duì)Dverify的分類結(jié)果集合。則ΩCBPS對(duì)樣本xn的集成邊界Υ(xn,yn)可表示為
式中:υu(píng)為基分類器u的集成參與權(quán)重;?(xn)為基分類器集成分類結(jié)果。若分類正確,則yn?(xn)=1;反之,yn?(xn)=-1。
基于集成邊界,定義集成學(xué)習(xí)分類精度損失為
優(yōu)化集成通過最小化集成精度損失,提升集成模型的泛化能力。為控制集成復(fù)雜度、抑制優(yōu)化帶來(lái)的集成過擬合問題,添加基于基分類器集成參與權(quán)重的正則項(xiàng),構(gòu)建的優(yōu)化問題可表示為
式中,μ為正則項(xiàng)和集成損失項(xiàng)的平衡因子,用于控制模型復(fù)雜度,υ=(υ1…υu(píng)…υLmost);。
2.2.2 基于Huber函數(shù)的代理?yè)p失優(yōu)化集成
由于所提集成學(xué)習(xí)分類精度損失函數(shù)?loss(H(X))屬于非凸、不連續(xù)的目標(biāo)函數(shù),代理?yè)p失優(yōu)化可有效改善其優(yōu)化過程。采用截?cái)郒uber函數(shù)作為代理?yè)p失函數(shù),引入?yún)⒁蜃觘來(lái)調(diào)節(jié)代理?yè)p失函數(shù)對(duì)異常值和噪聲數(shù)據(jù)的敏感度,增強(qiáng)優(yōu)化結(jié)果的魯棒性和穩(wěn)定性,本文設(shè)定為0.6。截?cái)郒uber函數(shù)可表示為
式中,p為集成學(xué)習(xí)分類的精度損失。
基于Huber代理?yè)p失函數(shù)的最小正則化代理集成分類精度損失函數(shù)可表示為
2.2.3 基于K折交叉驗(yàn)證的基分類器選擇
采用K折交叉驗(yàn)證法從原始標(biāo)簽樣本訓(xùn)練集中獲得K個(gè)驗(yàn)證集Dverify,重復(fù)OBSI策略,獲得K次ΩCBPS集成參與權(quán)重優(yōu)化結(jié)果,記為Λ
式中,υs,u為第s次OBSI策略求解中第u個(gè)基分類器的集成參與權(quán)重。
將ΩCBPS中基分類器u的K次集成參與權(quán)重記為(υ1,u…υs,u…υK,u),計(jì)算權(quán)重大于0的次數(shù)占比Ru為
式中,符號(hào)函數(shù)sign(·)在自變量大于0時(shí)取值為1,反之為-1。當(dāng)Ru≥0.5時(shí),該基分類器予以保留,采用多數(shù)投票法參與集成學(xué)習(xí)負(fù)荷模式識(shí)別任務(wù)。
本文所提負(fù)荷模式識(shí)別算法總體流程如下。
步驟1已知日負(fù)荷標(biāo)簽樣本集D,將其按照類別劃分為M個(gè)樣本子集{Dm|m=1,…,M},對(duì)每類樣本子集按照比例4:6隨機(jī)劃分為訓(xùn)練子集Dtrain,m和測(cè)試子集Dtest,m兩部分,對(duì)Dtrain,m的少數(shù)類樣本進(jìn)行DCB-GSMOTE類別平衡處理得到,合并各類樣本子訓(xùn)練集及測(cè)試集分別得到訓(xùn)練樣本集和測(cè)試樣本集Dtest。
步驟2對(duì)采用Bootstrap重抽樣提取L個(gè)同等規(guī)模的負(fù)荷標(biāo)簽樣本子集,前向輸入L個(gè)待訓(xùn)練的基分類器(以BPNN為例),采用Adam優(yōu)化求解各自的目標(biāo)損失函數(shù)(本文采用交叉熵?fù)p失函數(shù)),通過早停法確定學(xué)習(xí)次數(shù),訓(xùn)練生成L個(gè)基分類器,構(gòu)成基分類器集合Ω。
步驟3計(jì)算并記錄Ω中每個(gè)基分類器對(duì)的分類結(jié)果,將其記為?;贖train(X),根據(jù)式(6)~(9)構(gòu)建基分類器的DFI特征矩陣E。
步驟4CBPS階段,采用AP算法對(duì)E中所有基分類器的DFI特征向量進(jìn)行聚類,根據(jù)式(10)、(11)確定基分類器池聚類剪枝的最佳保留數(shù)目LAP,將保留的基分類器集合記為ΩCBPS。
步驟5OBSI階段,采用K折交叉驗(yàn)證,首先將按照各類樣本的比例隨機(jī)劃分為K等份記為。
步驟6計(jì)算并記錄ΩCBPS中每個(gè)基分類器對(duì)Dverify,s的分類結(jié)果,記為Htest(X)={hu(xk)|xk?Dverify,s;u?ΩCBPS}。根據(jù)式(12)~(16)計(jì)算ΩCBPS中基分類器的集成參與權(quán)重。
步驟7重復(fù)步驟6共K次,根據(jù)公式(17)計(jì)算得到K次基分類器集成參與權(quán)重Λ。
步驟8針對(duì)ΩCBPS中每個(gè)基分類器,以基分類器u為例,根據(jù)式(18),計(jì)算其K次集成參與權(quán)重大于0的次數(shù)占比Ru,若Ru≥0.5則予以保留,采用多數(shù)投票法參與集成學(xué)習(xí)負(fù)荷模式識(shí)別任務(wù),完成對(duì)負(fù)荷標(biāo)簽樣本集Dtest的分類。
算例所用數(shù)據(jù)來(lái)自UCI數(shù)據(jù)平臺(tái),包括電力系統(tǒng)暫態(tài)穩(wěn)定模擬數(shù)據(jù)集EGSSDS(Electrical Grid Stability Simulated Data Set)和電力用戶日負(fù)荷數(shù)據(jù)集Electricity Load Diagrams 20112014 Data Set(ELDDS)兩種。EGSSDS自帶標(biāo)簽信息,ELDDS所需日負(fù)荷樣本類別標(biāo)簽參考文獻(xiàn)[17]通過K-means及K-medoids聚類優(yōu)選得到。數(shù)據(jù)集的基本信息如表2所示。
表2 數(shù)據(jù)集基本信息Tab.2 Basic information of data sets
在二分類場(chǎng)景中,評(píng)估指標(biāo)除采用分類準(zhǔn)確率Acc以外,引入召回率Pre、查準(zhǔn)率Ppr、Gmeans、Fvalue4種二分類評(píng)估指標(biāo)[24]。其中,Pre為少數(shù)類樣本中被正確分類的占比;Ppr為劃分為少數(shù)類別的樣本中少數(shù)類的真實(shí)占比;Gmeans為所有多數(shù)類和所有少數(shù)類正確分類占比的幾何平均值,可以反映分類器對(duì)各類別的偏向程度,該值越接近全部樣本的分類準(zhǔn)確率Acc表明類別平衡效果越好;Fvalue為Pre、Ppr的調(diào)和平均值,該值越大表明算法在提升少數(shù)類分類精度時(shí)對(duì)多數(shù)類分類結(jié)果的影響越小。
在多類別分類場(chǎng)景中,混淆矩陣是評(píng)估分類性能的重要方法,但混淆矩陣難以定量描述算法對(duì)負(fù)荷類別的混淆均衡程度。因此,基于混淆矩陣提出類別混淆均衡熵指標(biāo)。
二分類的混淆矩陣Mconfusion可表示為
式中:NTP、NTN分別為正確分類成為正類和負(fù)類的樣本數(shù);NFP、NFN分別為錯(cuò)誤分類成為正類和負(fù)類的樣本數(shù)。
在多類別分類場(chǎng)景下的混淆矩陣可以視為多個(gè)二分類混淆矩陣的組合,即將待研究類別看作正類,其余類別統(tǒng)歸為負(fù)類。定義第m類樣本為正類時(shí)的二分類調(diào)和平均準(zhǔn)確率Γm為
Γm可以度量在二分類場(chǎng)景下的類別混淆程度,類別混淆越嚴(yán)重,Γm值越低。在此基礎(chǔ)上,定義類別混淆均衡熵Sb為
Sb值越大,表示分類模型對(duì)負(fù)荷各類別的混淆程度越均衡,同時(shí)表明過采樣算法類別平衡效果越好。
為驗(yàn)證DCB-GSMOTE算法的有效性,分別開展EGSSDS二分類和ELDDS多類別負(fù)荷分類實(shí)驗(yàn)。
3.3.1 EGSSDS暫穩(wěn)數(shù)據(jù)集分類測(cè)試
由EGSSDS中隨機(jī)抽取暫態(tài)不穩(wěn)定和暫態(tài)穩(wěn)定數(shù)據(jù)各2 000條作為驗(yàn)證集,再分別抽取4 000條和400條數(shù)據(jù)作為訓(xùn)練集。對(duì)比經(jīng)過DCB-GSMOTE算法平衡處理和其他算法(包括SMOTE和BSMOTE,其中BSMOTE在下文中簡(jiǎn)寫作BS)處理后樣本在BPNN分類模型中的分類效果,實(shí)驗(yàn)結(jié)果如表3所示。
表3 EGSSDS二分類結(jié)果Tab.3 Binary classification results of EGSSDS
由表3結(jié)果可知,類別不平衡問題不作處理時(shí),由于少數(shù)類樣本訓(xùn)練不足容易錯(cuò)分,導(dǎo)致Ppr很高但Pre很低,EGSSDS整體分類精度較低;經(jīng)過各類別平衡算法處理后,EGSSDS分類性能均有明顯的提升。其中,DCB-GSMOTE各項(xiàng)分類評(píng)估指標(biāo)均為最高,其Gmeans與Acc差值為0.09%,而SMOTE和BS分別為0.22%、0.08%,平均來(lái)看,類別平衡效果相對(duì)更好;同時(shí),DCB-GSMOTE的Fvalue比SMOTE和BS分別高出3.62%和2.19%,算法對(duì)多數(shù)類樣本的分類結(jié)果影響最小,性能更佳。在各項(xiàng)評(píng)估指標(biāo)對(duì)比中,DCB-GSMOTE多優(yōu)于SMOTE和BS算法,且各項(xiàng)分類評(píng)估指標(biāo)值更為均衡,這表明DCB-GSMOTE算法具備更好的綜合性能。
3.3.2 ELDDS負(fù)荷數(shù)據(jù)集分類測(cè)試
為對(duì)比測(cè)試DCB-GSMOTE算法的魯棒性,對(duì)比測(cè)試不同高斯噪聲含量下ELDDS負(fù)荷數(shù)據(jù)集的多類別分類結(jié)果。在開展ELDDS負(fù)荷分類實(shí)驗(yàn)之前,根據(jù)文獻(xiàn)[17]中K-means、K-medoids聚類算法組合獲取負(fù)荷樣本的類別標(biāo)簽,截?cái)噙x取接近各聚類中心的負(fù)荷標(biāo)簽樣本,構(gòu)成日負(fù)荷標(biāo)簽樣本集D。D包括5類日負(fù)荷樣本,共計(jì)16 620條負(fù)荷曲線,各類日負(fù)荷曲線的典型用電模式如圖1所示。
圖1 各類負(fù)荷曲線典型模式Fig.1 Typical modes of various load curves
將D按4:6的比例切分為原訓(xùn)練樣本集Dtrain和測(cè)試樣本集Dtest。各類訓(xùn)練集負(fù)荷樣本數(shù)量為3 770:1 502:284:320:818(判定第3、4類為少數(shù)類負(fù)荷標(biāo)簽樣本),對(duì)Dtrain中的少數(shù)類樣本進(jìn)行類別平衡處理,獲得樣本增強(qiáng)的訓(xùn)練樣本集。同樣選擇BPNN為分類器訓(xùn)練并測(cè)試ELDDS負(fù)荷分類效果,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 不同噪聲含量下算法準(zhǔn)確率和Sb對(duì)比Fig.2 Comparison of accuracy andSbamong algorithms under different noise levels
在低噪聲場(chǎng)景下,各算法性能基本持平。隨著樣本集噪聲含量的增加,尤其達(dá)到0.9以后,經(jīng)BS和SMOTE算法處理的ELDDS負(fù)荷分類準(zhǔn)確率Acc和類別混淆均衡熵Sb均顯著減小,而DCBGSMOTE的 Acc和Sb下降不明顯,相較BS和SMOTE表現(xiàn)出更優(yōu)的穩(wěn)健性和抗噪性,算法魯棒性更強(qiáng)。
3.4.1 實(shí)驗(yàn)過程參數(shù)配置
為測(cè)試所提TSSEL策略的有效性,本節(jié)實(shí)驗(yàn)選取3種機(jī)器學(xué)習(xí)分類模型作為參與集成學(xué)習(xí)的基分類器,分別為BPNN、決策樹CART(Classification and Regression Tree)及LSTM神經(jīng)網(wǎng)絡(luò)。首先,以BPNN為基分類器,根據(jù)第2.3節(jié)步驟2,通過Bootstrap算法從重復(fù)抽取與訓(xùn)練集同等規(guī)模的負(fù)荷標(biāo)簽樣本子集100個(gè),訓(xùn)練分類器模型生成BPNN基分類器池,集群規(guī)模為100個(gè);根據(jù)第2.3節(jié)步驟3,基于構(gòu)建基分類器集群的DFI特征矩陣E;根據(jù)第2.3節(jié)步驟4,通過CBPS算法剪枝得到去冗余基分類器集合。圖3為基分類器集群ERI和CRI的分布特性,由圖3可知,基分類器集群規(guī)模LAP達(dá)到37時(shí),冗余度指標(biāo)IERI和ICRI達(dá)到最值,保留此時(shí)所有聚類中心的基分類器構(gòu)成集合ΩCBPS,完成第一階段選擇集成。
圖3 基分類器集群ERI和CRI分布特性Fig.3 Distribution characteristics of ERI and CRI of base classifiers
基于去冗余的基分類器集群ΩCBPS,開展第2階段選擇集成實(shí)驗(yàn)。為確定超參數(shù)μ的合理取值,μ取值范圍從0.001~100按指數(shù)級(jí)變化,根據(jù)第2.3節(jié)步驟6,計(jì)算OBSI策略的優(yōu)化結(jié)果υ,得到υ*-μ特性曲線簇如圖4所示,圖4的每根折線表示ΩCBPS中每個(gè)基分類器的υ*-μ特性曲線。當(dāng)平衡因子μ達(dá)到1時(shí),各基分類器的集成參與權(quán)重系數(shù)υ*剛趨于穩(wěn)定。選擇此時(shí)的μ值在滿足集成精度要求的同時(shí),可抑制集成負(fù)荷分類模型的過擬合問題。
圖4 基分類器υ*-μ特性曲線簇Fig.4 υ*-μcharacteristic curve cluster of base classifiers
3.4.2 ELDDS負(fù)荷分類性能測(cè)試
根據(jù)第2.3節(jié)步驟5~7,采用5折交叉驗(yàn)證,重復(fù)步驟5共5次,計(jì)算每次的ΩCBPS集成參與權(quán)重,獲得集成參與權(quán)重矩陣Λ。根據(jù)第2.3節(jié)步驟8得到OBSI策略保留的基分類器集合,共計(jì)9個(gè)基分類器,通過多數(shù)投票法參與Dtest的負(fù)荷分類任務(wù)。
將BPNN、CART和LSTM分別作為基分類器實(shí)施DCB-GSMOTE類別平衡及兩階段選擇集成,同時(shí)基于ELDDS數(shù)據(jù)集對(duì)比基分類器采用不同集成策略時(shí)(無(wú)類別平衡處理)的負(fù)荷分類效果。Dtest的負(fù)荷分類準(zhǔn)確率Acc及類別混淆均衡熵Sb分別如表4和表5所示。
表4 不同算法分類Acc對(duì)比Tab.4 Comparison of classification accuracy among various algorithms
表5 不同算法Sb對(duì)比Tab.5 comparison ofSbamong various algorithms
在表4和表5中,本文所提計(jì)及類別平衡的TSSEL負(fù)荷模式識(shí)別策略,較Bagging、Adaboost集成表現(xiàn)出更高的分類準(zhǔn)確率Acc和類別混淆均衡熵Sb。通過3種不同的基分類器(BPNN、CART和LSTM)集成負(fù)荷分類實(shí)驗(yàn)驗(yàn)證了所提方法具備一定普適性。實(shí)驗(yàn)結(jié)果表明,通過TSSEL選擇集成策略遴選差異化強(qiáng)、準(zhǔn)確率高的基分類器參與負(fù)荷分類任務(wù)的組合決策,可以在保證負(fù)荷分類效果的同時(shí),有效降低集成學(xué)習(xí)的算法規(guī)模。
3.4.3 算法穩(wěn)定性測(cè)試
為驗(yàn)證所提TSSEL策略算法的穩(wěn)定性,以BPNN為基分類器,對(duì)比TSSEL、Bagging集成學(xué)習(xí)BEL(bagging ensemble learning)在多次重復(fù)實(shí)驗(yàn)中對(duì)ELDDS測(cè)試集Dtest的分類準(zhǔn)確率波動(dòng)情況。其中,BEL的基分類器數(shù)目分兩種來(lái)對(duì)照測(cè)試(L和LTSSEL,即100和9)。各集成BPNN分類模型訓(xùn)練所需的負(fù)荷標(biāo)簽樣本集均采用經(jīng)過DCB-GSMOTE類別平衡后的。各集成BPNN算法的縮寫名稱分別記為:TSSEL-BPNN(LTSSEL)、BEL-BPNN(LTSSEL)和BEL-BPNN(L)。實(shí)驗(yàn)重復(fù)300次,結(jié)果如圖5所示。
圖5 TSSEL算法的穩(wěn)定性測(cè)試Fig.5 Stability test of TSSEL algorithm
在圖5中,TSSEL-BPNN分類正確率主要分布于區(qū)間[0.964,0.966]之間;BEL-BPNN(L)分類正確率主要分布于區(qū)間[0.958,0.962]之間;BEL-BPNN(LTSSEL)分類正確率主要分布于區(qū)間[0.956,0.961]之間。BEL-BPNN(L)分類正確率的分布區(qū)間比BEEBPNN(LTSSEL)減小20%,表明提升基分類器的集成規(guī)模可以增強(qiáng)BEL-BPNN的分類穩(wěn)定性。本文所提TSSEL-BPNN分類準(zhǔn)確率的分布區(qū)間比BELBPNN(LTSSEL)減小60%,減小量較BEL-BPNN(L)提高40%,這表明基學(xué)習(xí)機(jī)池中冗余基分類器不僅對(duì)樣本分類準(zhǔn)確率有影響,也會(huì)降低集成分類算法的穩(wěn)定性,因此,所提TSSEL策略可有效提升負(fù)荷分類算法的穩(wěn)定性。
針對(duì)集成學(xué)習(xí)負(fù)荷模式識(shí)別中的類別不平衡問題及基分類器冗余問題,提出一種計(jì)及類別平衡的TSSEL電力負(fù)荷序列模式識(shí)別方法。通過算例分析論證得出以下結(jié)論。
(1)DCB-GSMOTE類別平衡算法能根據(jù)負(fù)荷樣本的密度分布特性實(shí)施過采樣,較SMOTE和BS算法具有更好的負(fù)荷類別平衡效果和算法魯棒性,可有效抑制類別不平衡問題導(dǎo)致的少數(shù)類負(fù)荷樣本辨識(shí)度被多數(shù)類淹沒的問題。
(2)面向負(fù)荷模式識(shí)別的TSSEL策略,通過CBPS和OBSI策略縮減基分類器池規(guī)模,可有效改善基分類器冗余問題對(duì)負(fù)荷分類精度集成增益的影響,同時(shí)可增強(qiáng)負(fù)荷分類模型的算法穩(wěn)定性。
(3)采用DCB-GSMOTE算法和TSSEL策略的負(fù)荷模式識(shí)別算法,從數(shù)據(jù)層和算法層分別解決類別不平衡問題和基分類器冗余問題對(duì)負(fù)荷模式識(shí)別性能的影響,較傳統(tǒng)Bagging、Adaboost集成能取得更優(yōu)的分類精度,且算法框架具有一定普適性,為電力用戶負(fù)荷數(shù)據(jù)高性能處理提供了有價(jià)值的研究思路,對(duì)開展用戶多層級(jí)需求響應(yīng)潛力畫像及用戶側(cè)需求響應(yīng)資源聚合評(píng)估研究具有參考價(jià)值。