沈建良,陸春光,袁 健,倪琳娜,張 巖
(國網(wǎng)浙江省電力有限公司電力科學(xué)研究院,杭州 310014)
伴隨新一代智能化電力系統(tǒng)建設(shè)的全面展開,堅強智能電網(wǎng)的迅速發(fā)展使信息通信技術(shù)正以前所未有的廣度和深度與電網(wǎng)生產(chǎn)、企業(yè)管理快速融合,信息通信系統(tǒng)已經(jīng)成為智能電網(wǎng)的“中樞神經(jīng)”,支撐著新一代電網(wǎng)生產(chǎn)和管理發(fā)展。
隨著電力體制改革的推進,按照“放開兩頭、管住中間”的原則,售電市場將逐步成為更加開放的市場,電力企業(yè)將面臨更加嚴峻的競爭局面[1]。同時,體驗經(jīng)濟的到來使得傳統(tǒng)的無差別客戶服務(wù)模式已經(jīng)無法滿足客戶日漸差異化的服務(wù)需求,對電力客戶進行細分并給予精準的差異化服務(wù)已經(jīng)成為未來發(fā)展方向。因此,以信息化平臺積累的電力用戶數(shù)據(jù)為基礎(chǔ),利用大數(shù)據(jù)技術(shù)對電力用戶特性進行深入分析,并實行差異化的服務(wù)策略,對電力行業(yè)提升客戶滿意度有著重要的意義。
隨著用電信息采集系統(tǒng)的建設(shè)應(yīng)用,電力系統(tǒng)積累了海量的用電信息數(shù)據(jù)[2]。充分利用這些基于電力實際業(yè)務(wù)產(chǎn)生的數(shù)據(jù),通過大數(shù)據(jù)分析方法進行數(shù)據(jù)挖掘分析[3],電力企業(yè)能夠為用戶提供大量的高附加值服務(wù),有利于電網(wǎng)安全運行以及電力營銷增值服務(wù)的開展。
大工業(yè)用戶用電量大,經(jīng)濟價值高,在售電市場放開后會是各類售電公司爭取的對象,也是電力企業(yè)需要重點關(guān)注和維護的對象。用電信息采集系統(tǒng)收集了大工業(yè)用戶的海量詳細負荷數(shù)據(jù),反映了用戶的用電行為和用電特征。在此基礎(chǔ)上根據(jù)用電特性對大工業(yè)用戶進行分組識別,可以為不同群組的特征制定差異化服務(wù)策略。
用電負荷數(shù)據(jù)呈現(xiàn)連續(xù)性和波動性,由每個用戶的用電負荷數(shù)據(jù)繪制成的用電負荷曲線能夠直觀反映該用戶的用電負荷波動特征,因此用電負荷數(shù)據(jù)可以看成是時間序列數(shù)據(jù)[4]。對時間序列進行相似性度量可以有效地幫助分析時間序列,也是時間序列聚類與分類過程中必不可少的處理階段之一[5]。時間序列的相似性是通過距離度量來確定的,最常用的相似性度量方法是歐式距離度量[6]。但歐式距離僅適用于2個等長序列的比較,且對時間軸上的變化以及序列上的噪聲等干擾很敏感,不能很好地描述高維時間序列的整體關(guān)系。
在度量2組時間序列間的距離時,使用基于DTW(動態(tài)時間規(guī)整算法),能夠有效反映時間序列數(shù)據(jù)的相似度,得到所有用戶用電負荷數(shù)據(jù)的距離矩陣。采用K-means聚類算法,對所有用戶的DTW距離進行聚類,從而得到具有不同負荷特性的群組,實現(xiàn)對用戶的分群研究。
DTW算法能夠衡量2個離散序列的相似程度或距離,通過動態(tài)地在時間軸上的扭曲和變動,對序列進行壓縮或者延展以達到更好的匹對,簡單且靈活地實現(xiàn)模板匹配問題,能夠解決很多離散時間序列匹配的問題[7]。
假設(shè)2個時間序列Q和C表示為Q=q1,q2,…,qi, …, qn和C=c1, c2,…, cj, …, cm。 定義一個 n 行 m 列的距離矩陣D=[d(qi, cj)], 其中 d(qi,cj)為兩序列中qi和cj兩點的距離。在距離矩陣中,定義時間序列相似關(guān)系的一組連續(xù)的矩陣元素的集合為彎曲路徑,記為W=w1,w2,…,wl,…,wL。彎曲路徑必須滿足有界性、邊界條件、連續(xù)性和單調(diào)性條件。一般僅關(guān)心具有最小長度的路徑,計算過程采用迭代方法:
式中: γ(i, j)代表 qi和 cj的彎曲路徑的最小長度;d(qi, cj)為兩點之間的距離;min{γ(i-1,j-1), γ(i-1,j),γ(i, j-1)}表示取前一步彎曲路徑的最小值。
根據(jù)2個序列的最小路徑長度計算其DTW距離[8], 如公式(2)所示:
式中:L為彎曲路徑的長度;wl為彎曲半徑;DTW為連接所有步長的總最短距離。
DTW距離越小,兩序列相似程度越大。為降低計算的時間復(fù)雜度,通常將彎曲路徑限制在一定寬度的窗口內(nèi),或限定在斜率確定的平行四邊形內(nèi)。另外,對時間維度過長或存在異常點的時間序列,常用時間序列近似方法將其表示為長度較短的序列。
聚類是根據(jù)一定的算法規(guī)則,對一群樣本進行類別劃分的算法過程,聚類結(jié)果呈現(xiàn)為組內(nèi)差異最小化、組間差異最大化[9]。K-means算法是典型的基于距離的聚類算法[10],其將樣本聚類成k個簇,以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。具體算法描述如下:
首先,隨機選取 k個聚類質(zhì)心點為μ1,μ2,μ3,…,μk∈Rn。
其次,通過公式(3)計算每個樣本點到所有質(zhì)心的距離,選取距離最近的那個簇作為c(i):
式中: x(i)表示第 i個樣本的中心; c(i)代表樣例 i與k個類中距離最近的那個類,c(i)的值是1到k中的一個。
對于每一個類j,重新計算該類的質(zhì)心:
式中:μj反映了對屬于同一個類的樣本中心點的猜測,I{c(i)=j}表示判斷第 i個樣例是否屬于第 j類,如果是取1,不是則取0。重復(fù)迭代式(3)、式(4)直到質(zhì)心不變或變化很小。
以某省紡織印染業(yè)大工業(yè)用戶用電負荷特性的深度分析為例,針對用戶每日96點(采集間隔15 min)的用電負荷數(shù)據(jù),采用DTW算法計算用戶負荷曲線相似性距離矩陣,并利用K-means聚類算法對樣本用戶進行聚類,通過模型調(diào)參得到最優(yōu)的模型結(jié)果。
選擇某省2017年8月紡織印染業(yè)大工業(yè)用戶每日96點的負荷數(shù)據(jù)[11],隨機抽取19 682條樣本,共96個變量,如表1所示。
表1 樣本負荷數(shù)據(jù)
在進行分析之前,對原始數(shù)據(jù)進行必要的數(shù)據(jù)預(yù)處理,以使數(shù)據(jù)規(guī)范化。數(shù)據(jù)預(yù)處理包括缺失值處理和歸一化處理。
3.2.1 缺失值處理
由于采集不成功或者數(shù)據(jù)同步過程中出現(xiàn)信號丟失等原因,導(dǎo)致原始數(shù)據(jù)中的96點負荷數(shù)據(jù)中包含有缺失值,對分析造成影響,需要對空缺數(shù)據(jù)進行合理的填補。補全的方法一般有簡單刪除法、均值插補、多重插補等方法。根據(jù)不同的情況,采用不同的缺失值處理辦法:
(1)對于缺失值比例高于30%的樣本,采用簡單刪除法,在樣本中去掉該數(shù)據(jù)。
(2)對于缺失值比例小于等于30%的樣本,采用均值插補法進行缺失值填充。
3.2.2 數(shù)據(jù)歸一化
由于用戶的規(guī)模不同,用電負荷差異性相差很大,在比較不同用電用戶的用電負荷曲線特征時,數(shù)值的大小會影響相似度計算,需要進行數(shù)據(jù)歸一化處理,如公式(5)所示:
式中:P代表每個用戶的負荷;ob代表企業(yè)編號;j為[1,96]區(qū)間的整數(shù),代表一個整天共96個時間節(jié)點;max,min分別代表該企業(yè)每日負荷的最大值和最小值。經(jīng)過歸一化處理后,字段的取值介于[0,1]之間,使所有用戶的用電負荷數(shù)據(jù)由物理系統(tǒng)數(shù)值變成相對值關(guān)系數(shù)據(jù),達到縮小和統(tǒng)一量綱的目的。
3.2.3 數(shù)據(jù)降維
考慮到DTW計算復(fù)雜度為O(nm),以及負荷本身的可伸縮性,將計算得出的24 h平均負荷作為時間序列的特征,從而實現(xiàn)時間序列的特征提取和數(shù)據(jù)降維[12-13]。
將基于DTW算法得到的計算距離,通過K-means算法進行聚類。
(1)確定聚類個數(shù)。
K-means聚類首先需要確定聚類個數(shù),常用的評估聚類效果的指標有SSE,DBI,CHI,Calin sky criterion等[14-16],此處采用常見的SSE指標,如圖1所示,來確定K值。
圖1 聚類分析SSE指標
通過SSE指標圖分析,確定最終的分類個數(shù)為K=4。
(2)隨機選擇聚類中心。
在確定聚類個數(shù)后,隨機選擇4個樣本作為聚類中心,剩余樣本為19 678個。
(3)第一次分類。
將選擇的4個聚類中心標記為O1,O2,O3,O4,針對剩余的19 678個樣本,分別計算其與4個聚類中心點的DTW距離,取最小距離值作為該樣本的類別,即:
式中:j=1,2,3,4,表示將樣本i劃分為j類的規(guī)則,即若樣本i與j類的DTW距離最小,則該樣本屬于j類。
(4)重新計算類中心。
在步驟(3)中,將所有的樣本都劃分到初始化的類別中,每個類中包含若干個樣本。然后重新計算類中心,第j類的中心為:
式中:I{c(i)=j}表示判斷第 i個樣本是否屬于第j類, 如果是取 1, 不是則取 0。 x(i)表示第 i個樣本的中心,整個公式表示計算第j類的類中心。
(5)迭代重復(fù)。
迭代重復(fù)第(3)、第(4)步,直到所有的樣本都不能再分配為止,即為結(jié)果收斂,停止迭代。此時每個樣本的聚類結(jié)果為最終的聚類結(jié)果。
本研究最終聚類的結(jié)果如表2所示。
表2 聚類結(jié)果
通過聚類分析,將19 682個紡織印染業(yè)客戶聚類為4個類別,且每個類別的差異性特征明顯,分別為:24 h生產(chǎn)型用戶、白天生產(chǎn)型用戶、雙峰生產(chǎn)型用戶以及夜間生產(chǎn)型用戶。
此類用戶的用電負荷曲線表明其全天24 h都處于工作狀態(tài),不存在明顯的峰谷生產(chǎn)行為,如圖2所示。
圖2 24 h生產(chǎn)型用戶負荷特征
針對此類用戶,推薦其辦理峰谷用電,并建議其生產(chǎn)時段依據(jù)峰谷用電進行調(diào)整,從而達到節(jié)省用電成本、平衡電網(wǎng)實時負荷的目的。
此類用戶的用電負荷曲線表明其在白天處于連續(xù)用電高峰,而在晚間處于用電負荷低谷,如圖3所示,主要集中在人力成本較高的勞動密集型企業(yè)。
圖3 白天生產(chǎn)型用戶負荷特征
建議此類用戶進行避峰生產(chǎn),同時辦理峰谷用電。在實際中,具體到每一個用戶,再根據(jù)用戶的其他屬性,給予差異化的精準服務(wù)策略。
此類用戶的用電負荷在上午和下午均出現(xiàn)高峰,中午時段有明顯低谷,負荷曲線呈現(xiàn)M型的雙峰形狀,如圖4所示。
圖4 雙峰生產(chǎn)型用戶負荷特征
此類用戶的負荷特性與人員的作息比較相符,多屬于生產(chǎn)和管理相結(jié)合型。針對此類用戶,可以為其提供電能替代推薦,如電采暖、電制冷。
此類用戶只在夜間生產(chǎn),白天幾乎不生產(chǎn),如圖5所示,夜間用電的成因各不相同,諸如政策影響導(dǎo)致的限產(chǎn),生產(chǎn)特性安排的夜間生產(chǎn),下半夜的谷時段電價更低。
此類用戶通過分析其歷史用電特性,分析其是否屬于連續(xù)性夜間生產(chǎn)型。對于連續(xù)夜間生產(chǎn)型用戶,給予安全用電指導(dǎo)關(guān)懷;對于臨時性夜間生產(chǎn)型,給予辦理峰谷用電、增/減容用電提醒。
另外,分別針對以上4類用戶設(shè)計相應(yīng)的電費套餐,在電力市場化和售電側(cè)市場進一步放開后,及時推出相應(yīng)套餐吸引客戶,搶占市場先機。
圖5 夜間生產(chǎn)型用戶負荷特征
實例結(jié)果表明,采用DTW算法對電力大用戶的用電負荷數(shù)據(jù)進行相似度度量,并通過K-means聚類算法對用戶進行聚類分析,能夠?qū)τ脩舻挠秒娯摵汕€特征進行良好的度量和區(qū)分,實現(xiàn)用戶負荷曲線的聚類和負荷特性分析。
通過對紡織印染業(yè)電力大用戶的用電負荷曲線進行聚類分析,發(fā)現(xiàn)存在4種明顯差異的用電特征。在售電側(cè)放開的市場環(huán)境下,針對不同類型的用戶群體,設(shè)計差異化的用電套餐及服務(wù)策略,為市場化售電未雨綢繆,對提升企業(yè)競爭力具有非常重要的現(xiàn)實意義。