于洪杰,溫力力,范 麗,李 博,劉永超,侯榮均
隨著燃煤、燃油等化石能源的消耗及其帶來的生態(tài)環(huán)境危機,綠色、低碳、可持續(xù)發(fā)展的理念逐漸成為社會主流的共識。在此背景上,重點發(fā)展清潔能源、節(jié)能減排、提高配電網(wǎng)運營效率、改善配電以及供電服務(wù)質(zhì)量等需求逐漸成為眾多國家的發(fā)展戰(zhàn)略。由于歐美等發(fā)達(dá)國家推行電力改革的時間較早,而且市場機制相對更加開放且完備,目前相關(guān)的實踐處于世界前列。美國已經(jīng)接連開展了多個關(guān)于用戶用電特性分析以及智能化用電服務(wù)等多個領(lǐng)域的實踐與研究。相關(guān)項目得益于新型技術(shù)推動和政策的扶持作用,現(xiàn)已經(jīng)步入穩(wěn)步推進(jìn)的階段[1-2]。
歐洲電力市場走在世界前列,較為開放的市場環(huán)境也使得各個電力公司之間的競爭十分激烈,這也促使終端用戶的地位逐步上升。在這種市場機制的激勵上,電力公司為了吸引到更多的用戶資源,就必須在原有供應(yīng)電力的基礎(chǔ)服務(wù)之上,還要為各種類型的用戶,比如:居民、商業(yè)、工業(yè)等提供具有個性化的增值服務(wù)。換言之,這也對電力公司自身業(yè)務(wù)提出了更高的要求。電力企業(yè)如果僅僅是按照提高自身運營效率、適當(dāng)降低電價的傳統(tǒng)經(jīng)營理念,將影響其長遠(yuǎn)的發(fā)展。因此,必須還需要基于用戶制定有針對性的服務(wù),那么全面掌握不同用戶的用電特性就是制定這些服務(wù)的數(shù)據(jù)前提。智能電表的普及讓獲取用戶數(shù)據(jù)和分析用戶特性成為可能,比如,SEAI發(fā)布了2012年至2013年基于智能電表實際測量的4225戶愛爾蘭居民用電數(shù)據(jù),數(shù)據(jù)采集時間跨度大約500多天,日負(fù)荷曲線共計300萬余條[3]。
2015年3月,中共中央、國務(wù)院印發(fā)了9號文件,旨在打破傳統(tǒng)電網(wǎng)企業(yè)的售電壟斷,面向社會開放配電和售電業(yè)務(wù)。增量配電網(wǎng)也因此不斷深入改革,蓬勃發(fā)展。總體來說,我國智能化用電布局的基本思路是以市場需求為導(dǎo)向,立足于客戶需求、側(cè)重于引導(dǎo)客戶消費為中心,以需求預(yù)測管理為著力點,以提高電力在終端能源消費市場的比例為目標(biāo),力求實現(xiàn)電網(wǎng)公司效益和社會效益的同步上升[4]。國務(wù)院在2016年年初發(fā)布了《關(guān)于推進(jìn)“互聯(lián)網(wǎng)+”智慧能源發(fā)展的指導(dǎo)意見》,文件中重點指出要鼓勵面向能源終端用戶的用能大數(shù)據(jù)信息服務(wù),能夠達(dá)到對用戶用能行為進(jìn)行實時感知與動態(tài)分析的效果,力求實現(xiàn)智能用能控制的遠(yuǎn)程化、便捷化、互動化[5]。
在各國的政策推動上,近年來國內(nèi)外學(xué)者對智能電網(wǎng)用戶的用電模式也陸續(xù)進(jìn)行了較多的研究。文獻(xiàn)[6]利用KNN聚類算法對智能電表所采集的負(fù)荷數(shù)據(jù)進(jìn)行分析,文獻(xiàn)[7]基于普通居民用戶的負(fù)荷曲線建立了馬爾科夫模型,接著對用戶進(jìn)行分類并提取不同用戶的典型日負(fù)荷曲線,最后通過典型負(fù)荷曲線進(jìn)一步分析各類用戶的行為。文獻(xiàn)[8]在運行BP神經(jīng)網(wǎng)絡(luò)對高電壓等級負(fù)荷的預(yù)測之間,先采用K-means聚類算法對用戶進(jìn)行分類,這兩種方法相結(jié)合能夠提高預(yù)測精度。文獻(xiàn)[9]提出了智能家庭與電網(wǎng)進(jìn)行信息與能量雙向互動的分層體系模型。文獻(xiàn)[10]通過建立HM-MDP模型實現(xiàn)居民用戶側(cè)電源與電網(wǎng)各級調(diào)度控制器之間的雙向電能傳輸,解決用戶側(cè)新能源發(fā)電資源并網(wǎng)問題。文獻(xiàn)[11]將需求預(yù)測管理、客戶需求作為分類依據(jù)對居民用電模式進(jìn)行劃分。
本文提出基于密度法的K-means聚類方法。首先采用DI指標(biāo)選取最優(yōu)K值;其次基于密度法優(yōu)化初始聚類中心,然后進(jìn)行計算得到聚類結(jié)果;最后采用重慶市某地區(qū)實際數(shù)據(jù)驗證方法的可行性。
K-means算法的最終目標(biāo)是將給定數(shù)據(jù)集中的n個原始數(shù)據(jù)點劃分成K個種類。評價這K個種類劃分效果的優(yōu)劣就是看每一個類別中的所有數(shù)據(jù)點到該類的聚類中心點的平方和是否最小。也就是說,每一類中的點相似度越大,而不同類之間相似度越小,那么劃分的效果就越好。根據(jù)大量實測數(shù)據(jù)表明,該算法具有高效、適用性廣和相對可伸縮性等明顯優(yōu)勢。
假設(shè)現(xiàn)有一個包含n個數(shù)據(jù)點的集合X={x1,x2,…,xn}。聚類個數(shù)為K,即算法最終輸出K個類{S1,S2,…,SK}。上面介紹K-means聚類算法的流程:
(1)令I(lǐng)=1,從整個樣本數(shù)據(jù)集X中,隨機選取K個數(shù)據(jù)點作為初始聚類中心mj(I),其中j=1,2,…,K。
(2)通過式(1)計算任意兩個數(shù)據(jù)點之間歐氏距離,即計算X中的每個數(shù)據(jù)點xi到K個聚類中心mj(I)的距離d(xi,mj(I)),搜索最小距離對應(yīng)的數(shù)據(jù)點xi,將其納入到mj(I)所屬的類別Sj中。
(3)再利用上式計算mj(I+1)的值,并將其作為上一個聚類中心點。
其中,Nj表示第j個類中數(shù)據(jù)點的數(shù)量。
(4)如果第I次所得到的分類結(jié)果與第I-1次完全一致,那么就可以認(rèn)為本次聚類結(jié)果即為最終結(jié)果,輸出聚類結(jié)果;否則轉(zhuǎn)(2)。
從上述算法流程中不難看出,K-means聚類算法在實際運用時存在以上幾點不足:
(1)在進(jìn)行計算之前,需要確定聚類個數(shù)K。而在實際操作中K值通常是根據(jù)人為經(jīng)驗設(shè)置的,主觀因素占比很大。另一方面,數(shù)據(jù)樣本內(nèi)部本身的分布特征也沒有被充分利用,進(jìn)而很可能得出不準(zhǔn)確、不合理的聚類結(jié)果。
(2)初始聚類中心點的選取會直接影響K-means算法的穩(wěn)定性。根據(jù)已經(jīng)介紹的K-means算法原理可以看出,該算法是先隨機初始化K個數(shù)據(jù)點作為首次聚類的中心點。緊接著,通過不斷地迭代計算搜索最優(yōu)的K個聚類中心點,直到滿足收斂條件(見算法流程中步驟(4))。可見,不同的初始中心點完全可能導(dǎo)致聚類結(jié)果也大不相同。
(3)初始中心點選取不當(dāng)還可能導(dǎo)致聚類結(jié)果并非全局最優(yōu)。由于K-means聚類算法的收斂準(zhǔn)則常采用誤差平方和函數(shù)。但是該收斂準(zhǔn)則函數(shù)理論上可能存在很多個局部極小點,倘若直接隨機初始化聚類中心導(dǎo)致該收斂準(zhǔn)則函數(shù)陷入某個局部最小點,提前停止迭代搜索,無法得到全局最優(yōu)的聚類結(jié)果。
(4)最后,隨機選取初始聚類中心可能會降低算法的效率。因為隨機選取的聚類中心與聚類對象的實際聚類中心之間的偏差,將會直接決定計算的迭代次數(shù)。如果偏差很大,則算法迭代次數(shù)增多、收斂速度變慢,總體計算效率隨之上降。
綜上分析,優(yōu)化選取K值以及K-means算法的初始中心點是非常必要的,將改進(jìn)后的算法應(yīng)用于配電系統(tǒng)的典型場景提取中更為準(zhǔn)確、合理。
DI指標(biāo)是以不同類別間離散程度和類內(nèi)密集程度為依據(jù)來評估聚類結(jié)果的有效性。DI指標(biāo)表示為:
可見,當(dāng)同一類中數(shù)據(jù)點密集程度越高,不同種類數(shù)據(jù)類別間相似程度越低,即類內(nèi)距離越小,不同種類間距離越大,DI指標(biāo)值越小,聚類效果越好。故最小的DI指標(biāo)對應(yīng)的K就是最優(yōu)聚類個數(shù)。
基于密度的聚類中心最優(yōu)選取方法的大致思路為:通過依次計算并查找密度參數(shù)最大的數(shù)據(jù)點作為聚類中心。算法的計算流程如上:不妨假設(shè)待處理的樣本數(shù)據(jù)集合為X={x1,x2,…,xn},K個初始的聚類中心點為z1,z2,…,zK。
(1)計算任意兩個數(shù)據(jù)點xi和xj之間的歐式距離。
(2)計算全體數(shù)據(jù)點的平均距離MD。
(3)根據(jù)式(5),計算每個數(shù)據(jù)點的密度參數(shù)ρ(p,MD)。密度參數(shù)的定義為:取原始數(shù)據(jù)集中任一數(shù)據(jù)點p,以p為中心,以MD為半徑的圓內(nèi),所包含的數(shù)據(jù)個數(shù)則稱為數(shù)據(jù)點p在距離MD上的密度參數(shù),將D稱為密度參數(shù)集合。
(4)搜索密度參數(shù)最大的數(shù)據(jù)點,將其作為第一個聚類中心點,從集合D中刪除與該聚類中心之間的距離小于MD的數(shù)據(jù)點對應(yīng)的密度參數(shù)。
(5)重復(fù)步驟(3)、(4),知道搜索到密度參數(shù)最大的前K個數(shù)據(jù)點時停止。這些數(shù)據(jù)點就是最優(yōu)的初始聚類中心點。
為了驗證本文所提方法的有效性,本節(jié)選取重慶市某地區(qū)110kV變電站負(fù)荷作為研究對象。該算例由居民負(fù)荷與工業(yè)負(fù)荷各月份上的日負(fù)荷曲線組成。每一條日負(fù)荷曲線包含96個采樣點。
居民用戶典型用電模式如圖1所示,可以看出三條曲線能夠明顯反映居民在春秋季、冬季、夏季不同的用電需求,體現(xiàn)了季節(jié)對普通居民生活用電習(xí)性的影響。圖2為工業(yè)用戶的典型用電模式,也與季度有一定的相關(guān)性,從側(cè)面說明了工業(yè)用戶的實際生產(chǎn)安排與季度的關(guān)系。
圖1 居民用戶典型用電模式提取結(jié)果
圖2 工業(yè)用戶典型用電模式提取結(jié)果
為了進(jìn)一步改善目前增量配電網(wǎng)中典型用電模式的提取技術(shù),本文提出了一種基于改進(jìn)K-means典型用電模式提取方法,采用密度法和DI指標(biāo)解決了傳統(tǒng)K-means方法在聚類結(jié)果容易陷入局部最優(yōu)以及人為設(shè)定K值導(dǎo)致結(jié)果不合理兩方面的不足。最后通過重慶某地區(qū)實際數(shù)據(jù)分析驗證了該方法的有效性。