李玉嬌,黃青平,劉松,陳雨,劉鵬
(華北電力大學(xué) 電氣與電子工程學(xué)院,北京 102206)
隨著智能電網(wǎng)的不斷深入和推進(jìn),許多電力計量裝置被裝入電力網(wǎng)絡(luò),獲得電網(wǎng)用戶的實時數(shù)據(jù),從而監(jiān)測、控制和預(yù)測電能使用[1],為電網(wǎng)安全、可靠、經(jīng)濟(jì)地運(yùn)行打下基礎(chǔ)。近年來,電網(wǎng)數(shù)據(jù)呈現(xiàn)出規(guī)模大、種類多、價值密度低等大數(shù)據(jù)特征。在智能電網(wǎng)大數(shù)據(jù)環(huán)境下對數(shù)據(jù)挖掘算法進(jìn)行研究,準(zhǔn)確、高效地提取出電力用戶的負(fù)荷模式,充分挖掘出用戶的用電行為習(xí)慣、電量消費(fèi)規(guī)律等有用信息,為電力需求響應(yīng)系統(tǒng)設(shè)計[2]、用電異常(計量、竊電等)檢測[3]、電價目錄改善[4]、負(fù)荷控制[5]、負(fù)荷預(yù)測[6]等提供強(qiáng)有力的支撐。正確且清晰的負(fù)荷模式可改善電力系統(tǒng)運(yùn)行的可靠性、幫助用戶節(jié)能改造、提高經(jīng)濟(jì)效益[7]。因此,研究如何有效提取電力用戶的負(fù)荷模式具有重要的意義。
用電負(fù)荷模式提取技術(shù)主要是依據(jù)用戶用電負(fù)荷曲線,通過各種統(tǒng)計機(jī)器學(xué)習(xí)方法,提煉出某一用戶的用電特征或若干用戶的典型用電特征。目前,國內(nèi)外已有很多學(xué)者和專家運(yùn)用聚類分析方法研究用戶用電負(fù)荷模式。文獻(xiàn)[8]提出使用核主成分分析(Kernel Principal Component Analysis, KPCA)方法對負(fù)荷數(shù)據(jù)進(jìn)行降維,采用Kernel K-means算法對用戶負(fù)荷進(jìn)行聚類處理。該方法雖然提高了負(fù)荷曲線聚類的準(zhǔn)確性,但需要提前設(shè)定核函數(shù)參數(shù),且易受聚類數(shù)和初始分類影響,沒有良好的穩(wěn)定性。文獻(xiàn)[9]將遺傳算法的搜索能力與模擬退火算法進(jìn)行綜合,對傳統(tǒng)模糊C均值(fuzzy C-means,F(xiàn)CM)算法進(jìn)行改進(jìn),對初始聚類中心敏感和全局搜索能力不足得到了改善,但多次迭代使得算法時間及復(fù)雜度明顯增加。文獻(xiàn)[10]指出,各聚類方法特點(diǎn)不同,應(yīng)用于負(fù)荷模式提取或者其他方面時并不存在一種算法總是優(yōu)于其他聚類算法。
針對上述研究中存在聚類結(jié)果穩(wěn)定性差、計算復(fù)雜度高、單一聚類算法泛化能力不強(qiáng)等問題,將結(jié)合降維方法和聚類融合的技術(shù)應(yīng)用到提取電力用戶負(fù)荷模式中。本文首先使用用戶負(fù)荷數(shù)據(jù)集的KMO(Kaiser-Meyer-Olkin)與顯著性水平(Sig)分析負(fù)荷變量間的相關(guān)性,根據(jù)累計方差貢獻(xiàn)率確定主成分個數(shù)將數(shù)據(jù)冗余信息去除,再將降維后的特征向量與原特征向量分別聚類并從聚類準(zhǔn)確度及聚類效率兩方面進(jìn)行對比。然后在此基礎(chǔ)上提出一種基于聚類融合技術(shù)的電力用戶負(fù)荷模式提取方法,并通過聚類有效性指標(biāo)Silhouette對模式提取結(jié)果進(jìn)行評價,達(dá)到負(fù)荷模式提取更快、更準(zhǔn)確的目的。
用于用戶負(fù)荷模式提取研究的數(shù)據(jù)來自于用電信息采集系統(tǒng),該系統(tǒng)可能受計量表計故障、數(shù)據(jù)庫故障等多種因素影響,存在缺失數(shù)據(jù)、錯誤數(shù)據(jù)、相似重復(fù)記錄等臟數(shù)據(jù),因此,需要對數(shù)據(jù)進(jìn)行清洗,將數(shù)據(jù)集中不符合分析要求的數(shù)據(jù)剔除或修正,從而保證數(shù)據(jù)的一致性、正確性、完整性[11]。常見的電力用戶負(fù)荷臟數(shù)據(jù)類型如表1所示。
表1 用電負(fù)荷臟數(shù)據(jù)類型
甄別用戶負(fù)荷數(shù)據(jù)集中臟數(shù)據(jù)需對數(shù)據(jù)進(jìn)行規(guī)范性檢查。首先,刪除數(shù)據(jù)集中用戶負(fù)荷重復(fù)記錄的數(shù)據(jù);其次,分析數(shù)據(jù)集中負(fù)荷數(shù)據(jù)缺失情況,將缺失量達(dá)到當(dāng)日采集點(diǎn)20%以上的用戶視為嚴(yán)重缺失并將其剔除,將其余數(shù)據(jù)缺失用戶采用多平滑修正方法補(bǔ)足缺失值;再次,判斷數(shù)據(jù)極大極小值產(chǎn)生原因是用戶用電行為所致還是負(fù)荷毛刺;最終,將不符合用電業(yè)務(wù)特性的異常數(shù)據(jù)采用多平滑修正方法替換錯誤值,其中平滑修正及極大極小值成因判斷公式為:
(1)
式中pi, j表示用戶i在時刻j的用電負(fù)荷值;m是向前采集的點(diǎn)數(shù);n是向后采集的點(diǎn)數(shù)。
由于用戶的用電情況可能因某些突發(fā)事件的發(fā)生或天氣因素導(dǎo)致用電負(fù)荷曲線發(fā)生變化,為了更準(zhǔn)確的反應(yīng)用戶自身的用電行為,本文采用加權(quán)平均移動法生成用戶的典型負(fù)荷曲線,其處理方法如公式(2):
(2)
式中pi, j, k表示電力用戶i前k天在時刻j的用電負(fù)荷;wi表示用戶i前k天時負(fù)荷數(shù)據(jù)對應(yīng)的權(quán)重且w1+w2+…+wk= 1。
為了避免數(shù)據(jù)集中數(shù)值差異較大或者變量量綱不同等因素的影響,需進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。假設(shè)共有i個樣本,各樣本有j個變量指標(biāo),則數(shù)據(jù)集可以用i×j矩陣P表示為:
(3)
對P進(jìn)行最大-最小值標(biāo)準(zhǔn)化處理生成標(biāo)準(zhǔn)矩陣X,即:
(4)
式中m=1,2,…,i;n=1,2,…,j; min{pi, j} 和max{pi, j}分別表示用戶i負(fù)荷的最小值和最大值。
文獻(xiàn)[12]指出對于負(fù)荷曲線在維數(shù)較高的情況下可能會表現(xiàn)出不理想的等距性,該情況使得距離測度的意義減小,因此當(dāng)數(shù)據(jù)集規(guī)模較大時,為了提升聚類效率和準(zhǔn)確率,需要對數(shù)據(jù)集進(jìn)行降維處理。常用降維方法有自組織映射、sammon映射、主成分分析等。采用主成分分析(principal component analysis,PCA)法,它是一種基于特征提取和數(shù)據(jù)壓縮的統(tǒng)計分析方法,通過多個原變量的一系列線性組合形成少數(shù)不相關(guān)的綜合變量,且這些綜合變量在不相關(guān)的前提下盡可能多地反應(yīng)原變量信息[13]。xm,n={xm,n,n= 1, 2,…,j}表示用戶m的負(fù)荷曲線,主成分分析的主要目的是在保證用戶原有信息的前提下盡量減小j、減小數(shù)據(jù)存儲空間、減少算法的計算時間。主成分分析具體步驟如下:
(1)求經(jīng)過標(biāo)準(zhǔn)化處理后所得矩陣X的相關(guān)矩陣R,并計算R的特征值λ1≥λ2≥…≥λj與特征向量μ1,μ2,…,μj,即:
(5)
(2)求R的方差貢獻(xiàn)率ηk和累計方差貢獻(xiàn)率η∑(p),進(jìn)而對主成分的個數(shù)p進(jìn)行確定,公式為:
(6)
(7)
數(shù)據(jù)集的信息由數(shù)據(jù)變量的方差體現(xiàn),通過累計方差貢獻(xiàn)率衡量,貢獻(xiàn)率越高,所含信息越多。一般認(rèn)為前p個主成分累計方差貢獻(xiàn)率η∑(p)達(dá)到75%~ 95%時便包括了j個原變量絕大部分信息,從而確定主成分的個數(shù)為p[14]。
目前,當(dāng)使用各種聚類算法進(jìn)行聚類分析時,常常遇到對同一數(shù)據(jù)集用不同聚類算法進(jìn)行聚類時聚類結(jié)果不同且事先不知數(shù)據(jù)集的任何先驗信息的情況,或者當(dāng)增加或減少樣本數(shù)量時聚類結(jié)果會發(fā)生明顯變化,即單一聚類算法穩(wěn)定性不高的情況。為了得到聚類結(jié)果更佳、更穩(wěn)健的聚類模型,本文將聚類融合方法應(yīng)用于負(fù)荷模式提取中。首先,用四種聚類分析算法進(jìn)行聚類,得到相互獨(dú)立且存在差異的聚類結(jié)果,然后構(gòu)建共識矩陣,計算用戶屬于每一類的概率值,最終將各算法的聚類成員融合成一組聚類成員,得到優(yōu)于單一算法且更加穩(wěn)定的聚類分析模型。
聚類融合的概念由A. Strehl和J. Ghosh于2002年提出,其定義是:將一個數(shù)據(jù)集的不同劃分結(jié)果組合成一個統(tǒng)一的劃分結(jié)果,而不使用對象原有的特征,且統(tǒng)一的劃分結(jié)果最大程度上包含了所有輸入聚類結(jié)果對數(shù)據(jù)集的聚類信息[15]。具體過程為:假設(shè)數(shù)據(jù)集X有n個數(shù)據(jù)對象,表示為X={x1,x2,…,xn},對數(shù)據(jù)集X執(zhí)行N次聚類算法得到N組聚類成員N={H1,H2,…,HN},其中,Hi(i=1,2,…,N)為第i次聚類得到的聚類成員。然后設(shè)計融合函數(shù)W,對N組聚類成員進(jìn)行融合,得到新的聚類結(jié)果N’,其過程如圖1所示。
圖1 聚類融合過程
具有差異性聚類成員的生成通常有以下方法:
(1)使用同種聚類算法,初始參數(shù)設(shè)置不同,運(yùn)行N次,目前常使用K-means算法;
(2)使用不同聚類算法,如K-means、Single-Linkage、Average-Linkage等產(chǎn)生多個不同的聚類結(jié)果。Fred等人[16]認(rèn)為該方法可從不同角度挖掘數(shù)據(jù)集中有效信息;
(3)使用取樣技術(shù)(例如:bagging、subsampling、bootstrap)獲得數(shù)據(jù)集子集,然后對子集進(jìn)行聚類。取樣所得子集可代表整個數(shù)據(jù)集,可減少計算的時間以及降低計算的復(fù)雜性;
(4)使用一維投影或隨機(jī)投影等技術(shù)將數(shù)據(jù)集的特征空間投影到數(shù)據(jù)子空間,得到數(shù)據(jù)集的多個子集,然后對子集進(jìn)行聚類操作。
各聚類成員所構(gòu)成的聚類簇結(jié)構(gòu)如表2所示。其中,HN表示第N個算法的聚類成員,h1,h2,…,hn表示n個聚類簇,x1,x2,…,xm表示m個樣本,數(shù)值“1”表示該樣本屬于該簇,數(shù)值“0”表示不屬于該簇。
表 2 聚類簇分布結(jié)構(gòu)
根據(jù)表2中所形成的0-1矩陣H構(gòu)建Co-association矩陣S[17],S中元素Sij表示樣本i與樣本j的相似度,其元素表達(dá)式為:
(8)
(9)
本文采用文獻(xiàn)[17]所提出的閾值θ劃分Co-association矩陣的方法進(jìn)行聚類融合,θ取0.5。將矩陣S中元素Sij大于θ的設(shè)置為1,其余元素設(shè)置為0,所得到的0-1矩陣被視為新的Co-association矩陣,矩陣中同列為1的元素即認(rèn)為屬于同一類。
實驗所用數(shù)據(jù)來源于某電網(wǎng)2014年1月份200個用戶的日用電數(shù)據(jù),采集間隔為15min,共計96個量測點(diǎn)。經(jīng)過數(shù)據(jù)清洗后及數(shù)據(jù)預(yù)處理后,算例共包含184條有效日負(fù)荷曲線。算例在平臺CPU為2.0 GHz、內(nèi)存為2 GB的個人計算機(jī)上完成,實驗數(shù)據(jù)經(jīng)過MATLAB 2014a處理。
首先,對負(fù)荷數(shù)據(jù)集進(jìn)行主成分提取可行性分析,由表3可知,KMO(Kaiser-Meyer-Olkin)值為0.904 > 0.7,sig值小于0.05,可知用戶負(fù)荷數(shù)據(jù)間相關(guān)性較強(qiáng),較適合進(jìn)行因子分析。然后,分別計算相關(guān)矩陣R、R的特征值λ、特征向量μ、方差貢獻(xiàn)率ηk及累計貢獻(xiàn)率η∑(p),并確定主成分個數(shù)p,部分計算結(jié)果如表4。
圖2為特征值相對于成分個數(shù)的碎石圖,可見前面部分曲線較陡峭,特征值大,所含信息多,后面部分曲線較平坦,特征值小,所含信息少。由圖可直觀看出,成分1至10左右包含了大部分信息,以后逐漸進(jìn)入平穩(wěn)。
表3 KMO和Bartlett 的檢驗
表4 方差及主成分貢獻(xiàn)率
圖2 碎石圖
綜合考慮圖2趨勢及表4累計貢獻(xiàn)率,將主成分的個數(shù)確定為11。將184條負(fù)荷曲線分別用四種聚類算法(K-means、FCM、Single-linkage、SOM)進(jìn)行聚類,降維前與降維后聚類時間(s)、聚類準(zhǔn)確率(%)比較如圖3所示。聚類效率分別提高27.99%、34.37%、30.16%、34.32%,聚類準(zhǔn)確度分別提高1.63%、降低1.63%、提高0.54%、提高0.54%。由此可見主成分分析方法在保證聚類準(zhǔn)確率基本不變的情況下有效地減少了數(shù)據(jù)存儲空間以及算法運(yùn)行時間。面對大數(shù)據(jù)環(huán)境下電力數(shù)據(jù)的日益增長,通過降維方法可以減少電力負(fù)荷數(shù)據(jù)冗余信息,從而減少分析時所需計算數(shù)據(jù)量,減少程序運(yùn)行時所需存儲空間。
圖3 降維前后聚類時間及準(zhǔn)確度比較
將原數(shù)據(jù)集矩陣與11項主成分所對應(yīng)的特征向量矩陣相乘后作輸入數(shù)據(jù)集,用上述四種聚類方法分別聚類,并基于Co-association矩陣進(jìn)行聚類融合,將電力用戶的負(fù)荷曲線聚為四類,聚類結(jié)果如圖4所示,此時各類別的負(fù)荷模式有較為明顯的用電特征,分別為雙峰型用電模式、三峰型用電模式、平穩(wěn)型用電模式、避峰型用電模式,其中紅色曲線表示該類用戶的典型用電規(guī)律。
圖4 聚類結(jié)果
用聚類有效性指標(biāo)Silhouette[18]對得到的負(fù)荷模式結(jié)果進(jìn)行評估,該有效性指標(biāo)可以反應(yīng)類間分離程度和類內(nèi)緊密程度,樣本i的Silhouette指標(biāo)值ISil(i)定義如下:
(10)
式中i表示數(shù)據(jù)集P中被劃分為第j類的第i個用戶數(shù)據(jù);da(i)表示i與類內(nèi)其余用戶數(shù)據(jù)的平均距離,該值越小,表征類內(nèi)緊密性越強(qiáng);db(i)表示i與非類內(nèi)其余用戶數(shù)據(jù)的最小平均距離,該值越大,類間分散性越強(qiáng)。用戶i的Silhouette指標(biāo)值ISil(i) 取值范圍為[-1,1],db(i) 越大,da(i) 越小,ISil(i) 值越接近1,第j類的類內(nèi)緊密性和類間分離性越強(qiáng),聚類質(zhì)量越好。若db(i) 表5 不同算法的Iave值比較 提出了一種基于主成分分析方法和聚類融合技術(shù)相結(jié)合的電力用戶負(fù)荷模式提取方法,對于海量高維的電力用戶負(fù)荷數(shù)據(jù),首先采用主成分分析對數(shù)據(jù)集進(jìn)行降維操作,然后使用聚類融合方法對降維所得綜合變量作為新的數(shù)據(jù)集進(jìn)行聚類操作,并用有效性指標(biāo)Silhouette對聚類結(jié)果進(jìn)行評估。算例表明該方法用于電力負(fù)荷模式提取可行,可提高模式提取的可靠性和有效性,可對電力大數(shù)據(jù)潛在的有用信息進(jìn)行有效地挖掘,為負(fù)荷控制、負(fù)荷預(yù)測、電力策略制定等提供有力的支撐。4 結(jié)束語