亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)技術(shù)在電力大用戶用電特征分類中的應(yīng)用

2018-01-24 07:20:47沈建良陸春光倪琳娜

浙江電力 2017年12期

沈建良，陸春光，袁健，倪琳娜，張巖

（國網(wǎng)浙江省電力有限公司電力科學(xué)研究院，杭州 310014）

0 引言

伴隨新一代智能化電力系統(tǒng)建設(shè)的全面展開，堅強智能電網(wǎng)的迅速發(fā)展使信息通信技術(shù)正以前所未有的廣度和深度與電網(wǎng)生產(chǎn)、企業(yè)管理快速融合，信息通信系統(tǒng)已經(jīng)成為智能電網(wǎng)的“中樞神經(jīng)”，支撐著新一代電網(wǎng)生產(chǎn)和管理發(fā)展。

隨著電力體制改革的推進，按照“放開兩頭、管住中間”的原則，售電市場將逐步成為更加開放的市場，電力企業(yè)將面臨更加嚴峻的競爭局面[1]。同時，體驗經(jīng)濟的到來使得傳統(tǒng)的無差別客戶服務(wù)模式已經(jīng)無法滿足客戶日漸差異化的服務(wù)需求，對電力客戶進行細分并給予精準的差異化服務(wù)已經(jīng)成為未來發(fā)展方向。因此，以信息化平臺積累的電力用戶數(shù)據(jù)為基礎(chǔ)，利用大數(shù)據(jù)技術(shù)對電力用戶特性進行深入分析，并實行差異化的服務(wù)策略，對電力行業(yè)提升客戶滿意度有著重要的意義。

1 研究背景及研究思路

隨著用電信息采集系統(tǒng)的建設(shè)應(yīng)用，電力系統(tǒng)積累了海量的用電信息數(shù)據(jù)[2]。充分利用這些基于電力實際業(yè)務(wù)產(chǎn)生的數(shù)據(jù)，通過大數(shù)據(jù)分析方法進行數(shù)據(jù)挖掘分析[3]，電力企業(yè)能夠為用戶提供大量的高附加值服務(wù)，有利于電網(wǎng)安全運行以及電力營銷增值服務(wù)的開展。

大工業(yè)用戶用電量大，經(jīng)濟價值高，在售電市場放開后會是各類售電公司爭取的對象，也是電力企業(yè)需要重點關(guān)注和維護的對象。用電信息采集系統(tǒng)收集了大工業(yè)用戶的海量詳細負荷數(shù)據(jù)，反映了用戶的用電行為和用電特征。在此基礎(chǔ)上根據(jù)用電特性對大工業(yè)用戶進行分組識別，可以為不同群組的特征制定差異化服務(wù)策略。

用電負荷數(shù)據(jù)呈現(xiàn)連續(xù)性和波動性，由每個用戶的用電負荷數(shù)據(jù)繪制成的用電負荷曲線能夠直觀反映該用戶的用電負荷波動特征，因此用電負荷數(shù)據(jù)可以看成是時間序列數(shù)據(jù)[4]。對時間序列進行相似性度量可以有效地幫助分析時間序列，也是時間序列聚類與分類過程中必不可少的處理階段之一[5]。時間序列的相似性是通過距離度量來確定的，最常用的相似性度量方法是歐式距離度量[6]。但歐式距離僅適用于2個等長序列的比較，且對時間軸上的變化以及序列上的噪聲等干擾很敏感，不能很好地描述高維時間序列的整體關(guān)系。

在度量2組時間序列間的距離時，使用基于DTW（動態(tài)時間規(guī)整算法），能夠有效反映時間序列數(shù)據(jù)的相似度，得到所有用戶用電負荷數(shù)據(jù)的距離矩陣。采用K-means聚類算法，對所有用戶的DTW距離進行聚類，從而得到具有不同負荷特性的群組，實現(xiàn)對用戶的分群研究。

2 算法原理介紹

2.1 DTW算法介紹

DTW算法能夠衡量2個離散序列的相似程度或距離，通過動態(tài)地在時間軸上的扭曲和變動，對序列進行壓縮或者延展以達到更好的匹對，簡單且靈活地實現(xiàn)模板匹配問題，能夠解決很多離散時間序列匹配的問題[7]。

假設(shè)2個時間序列Q和C表示為Q=q1，q2，…，qi， …， qn和C=c1， c2，…， cj， …， cm。定義一個 n 行 m 列的距離矩陣D=[d（qi， cj）]，其中 d（qi，cj）為兩序列中qi和cj兩點的距離。在距離矩陣中，定義時間序列相似關(guān)系的一組連續(xù)的矩陣元素的集合為彎曲路徑，記為W=w1，w2，…，wl，…，wL。彎曲路徑必須滿足有界性、邊界條件、連續(xù)性和單調(diào)性條件。一般僅關(guān)心具有最小長度的路徑，計算過程采用迭代方法：

式中： γ（i， j）代表 qi和 cj的彎曲路徑的最小長度；d（qi， cj）為兩點之間的距離；min{γ（i-1，j-1）， γ（i-1，j），γ（i， j-1）}表示取前一步彎曲路徑的最小值。

根據(jù)2個序列的最小路徑長度計算其DTW距離[8]，如公式（2）所示：

式中：L為彎曲路徑的長度；wl為彎曲半徑；DTW為連接所有步長的總最短距離。

DTW距離越小，兩序列相似程度越大。為降低計算的時間復(fù)雜度，通常將彎曲路徑限制在一定寬度的窗口內(nèi)，或限定在斜率確定的平行四邊形內(nèi)。另外，對時間維度過長或存在異常點的時間序列，常用時間序列近似方法將其表示為長度較短的序列。

2.2 K-means聚類算法介紹

聚類是根據(jù)一定的算法規(guī)則，對一群樣本進行類別劃分的算法過程，聚類結(jié)果呈現(xiàn)為組內(nèi)差異最小化、組間差異最大化[9]。K-means算法是典型的基于距離的聚類算法[10]，其將樣本聚類成k個簇，以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較小。具體算法描述如下：

首先，隨機選取 k個聚類質(zhì)心點為μ1，μ2，μ3，…，μk∈Rn。

其次，通過公式（3）計算每個樣本點到所有質(zhì)心的距離，選取距離最近的那個簇作為c（i）：

式中： x（i）表示第 i個樣本的中心； c（i）代表樣例 i與k個類中距離最近的那個類，c（i）的值是1到k中的一個。

對于每一個類j，重新計算該類的質(zhì)心：

式中：μj反映了對屬于同一個類的樣本中心點的猜測，I{c（i）=j}表示判斷第 i個樣例是否屬于第 j類，如果是取1，不是則取0。重復(fù)迭代式（3）、式（4）直到質(zhì)心不變或變化很小。

3 建模實例

以某省紡織印染業(yè)大工業(yè)用戶用電負荷特性的深度分析為例，針對用戶每日96點（采集間隔15 min）的用電負荷數(shù)據(jù)，采用DTW算法計算用戶負荷曲線相似性距離矩陣，并利用K-means聚類算法對樣本用戶進行聚類，通過模型調(diào)參得到最優(yōu)的模型結(jié)果。

3.1 樣本選擇

選擇某省2017年8月紡織印染業(yè)大工業(yè)用戶每日96點的負荷數(shù)據(jù)[11]，隨機抽取19 682條樣本，共96個變量，如表1所示。

表1 樣本負荷數(shù)據(jù)

3.2 數(shù)據(jù)預(yù)處理

在進行分析之前，對原始數(shù)據(jù)進行必要的數(shù)據(jù)預(yù)處理，以使數(shù)據(jù)規(guī)范化。數(shù)據(jù)預(yù)處理包括缺失值處理和歸一化處理。

3.2.1 缺失值處理

由于采集不成功或者數(shù)據(jù)同步過程中出現(xiàn)信號丟失等原因，導(dǎo)致原始數(shù)據(jù)中的96點負荷數(shù)據(jù)中包含有缺失值，對分析造成影響，需要對空缺數(shù)據(jù)進行合理的填補。補全的方法一般有簡單刪除法、均值插補、多重插補等方法。根據(jù)不同的情況，采用不同的缺失值處理辦法：

（1）對于缺失值比例高于30%的樣本，采用簡單刪除法，在樣本中去掉該數(shù)據(jù)。

（2）對于缺失值比例小于等于30%的樣本，采用均值插補法進行缺失值填充。

3.2.2 數(shù)據(jù)歸一化

由于用戶的規(guī)模不同，用電負荷差異性相差很大，在比較不同用電用戶的用電負荷曲線特征時，數(shù)值的大小會影響相似度計算，需要進行數(shù)據(jù)歸一化處理，如公式（5）所示：

式中：P代表每個用戶的負荷；ob代表企業(yè)編號；j為[1，96]區(qū)間的整數(shù)，代表一個整天共96個時間節(jié)點；max，min分別代表該企業(yè)每日負荷的最大值和最小值。經(jīng)過歸一化處理后，字段的取值介于[0，1]之間，使所有用戶的用電負荷數(shù)據(jù)由物理系統(tǒng)數(shù)值變成相對值關(guān)系數(shù)據(jù)，達到縮小和統(tǒng)一量綱的目的。

3.2.3 數(shù)據(jù)降維

考慮到DTW計算復(fù)雜度為O（nm），以及負荷本身的可伸縮性，將計算得出的24 h平均負荷作為時間序列的特征，從而實現(xiàn)時間序列的特征提取和數(shù)據(jù)降維[12-13]。

3.3 聚類分析

將基于DTW算法得到的計算距離，通過K-means算法進行聚類。

（1）確定聚類個數(shù)。

K-means聚類首先需要確定聚類個數(shù)，常用的評估聚類效果的指標有SSE，DBI，CHI，Calin sky criterion等[14-16]，此處采用常見的SSE指標，如圖1所示，來確定K值。

圖1 聚類分析SSE指標

通過SSE指標圖分析，確定最終的分類個數(shù)為K=4。

（2）隨機選擇聚類中心。

在確定聚類個數(shù)后，隨機選擇4個樣本作為聚類中心，剩余樣本為19 678個。

（3）第一次分類。

將選擇的4個聚類中心標記為O1，O2，O3，O4，針對剩余的19 678個樣本，分別計算其與4個聚類中心點的DTW距離，取最小距離值作為該樣本的類別，即：

式中：j=1，2，3，4，表示將樣本i劃分為j類的規(guī)則，即若樣本i與j類的DTW距離最小，則該樣本屬于j類。

（4）重新計算類中心。

在步驟（3）中，將所有的樣本都劃分到初始化的類別中，每個類中包含若干個樣本。然后重新計算類中心，第j類的中心為：

式中：I{c（i）=j}表示判斷第 i個樣本是否屬于第j類，如果是取 1，不是則取 0。 x（i）表示第 i個樣本的中心，整個公式表示計算第j類的類中心。

（5）迭代重復(fù)。

迭代重復(fù)第（3）、第（4）步，直到所有的樣本都不能再分配為止，即為結(jié)果收斂，停止迭代。此時每個樣本的聚類結(jié)果為最終的聚類結(jié)果。

本研究最終聚類的結(jié)果如表2所示。

表2 聚類結(jié)果

4 用戶負荷特性聚類結(jié)果

通過聚類分析，將19 682個紡織印染業(yè)客戶聚類為4個類別，且每個類別的差異性特征明顯，分別為：24 h生產(chǎn)型用戶、白天生產(chǎn)型用戶、雙峰生產(chǎn)型用戶以及夜間生產(chǎn)型用戶。

4.1 24 h生產(chǎn)型用戶

此類用戶的用電負荷曲線表明其全天24 h都處于工作狀態(tài)，不存在明顯的峰谷生產(chǎn)行為，如圖2所示。

圖2 24 h生產(chǎn)型用戶負荷特征

針對此類用戶，推薦其辦理峰谷用電，并建議其生產(chǎn)時段依據(jù)峰谷用電進行調(diào)整，從而達到節(jié)省用電成本、平衡電網(wǎng)實時負荷的目的。

4.2 白天生產(chǎn)型用戶

此類用戶的用電負荷曲線表明其在白天處于連續(xù)用電高峰,而在晚間處于用電負荷低谷，如圖3所示，主要集中在人力成本較高的勞動密集型企業(yè)。

圖3 白天生產(chǎn)型用戶負荷特征

建議此類用戶進行避峰生產(chǎn)，同時辦理峰谷用電。在實際中，具體到每一個用戶，再根據(jù)用戶的其他屬性，給予差異化的精準服務(wù)策略。

4.3 雙峰生產(chǎn)型用戶

此類用戶的用電負荷在上午和下午均出現(xiàn)高峰，中午時段有明顯低谷，負荷曲線呈現(xiàn)M型的雙峰形狀，如圖4所示。

圖4 雙峰生產(chǎn)型用戶負荷特征

此類用戶的負荷特性與人員的作息比較相符，多屬于生產(chǎn)和管理相結(jié)合型。針對此類用戶，可以為其提供電能替代推薦，如電采暖、電制冷。

4.4 夜間生產(chǎn)型用戶

此類用戶只在夜間生產(chǎn)，白天幾乎不生產(chǎn)，如圖5所示，夜間用電的成因各不相同，諸如政策影響導(dǎo)致的限產(chǎn)，生產(chǎn)特性安排的夜間生產(chǎn)，下半夜的谷時段電價更低。

此類用戶通過分析其歷史用電特性，分析其是否屬于連續(xù)性夜間生產(chǎn)型。對于連續(xù)夜間生產(chǎn)型用戶，給予安全用電指導(dǎo)關(guān)懷；對于臨時性夜間生產(chǎn)型，給予辦理峰谷用電、增/減容用電提醒。

另外，分別針對以上4類用戶設(shè)計相應(yīng)的電費套餐，在電力市場化和售電側(cè)市場進一步放開后，及時推出相應(yīng)套餐吸引客戶，搶占市場先機。

圖5 夜間生產(chǎn)型用戶負荷特征

5 結(jié)語

實例結(jié)果表明，采用DTW算法對電力大用戶的用電負荷數(shù)據(jù)進行相似度度量，并通過K-means聚類算法對用戶進行聚類分析，能夠?qū)τ脩舻挠秒娯摵汕€特征進行良好的度量和區(qū)分，實現(xiàn)用戶負荷曲線的聚類和負荷特性分析。

通過對紡織印染業(yè)電力大用戶的用電負荷曲線進行聚類分析，發(fā)現(xiàn)存在4種明顯差異的用電特征。在售電側(cè)放開的市場環(huán)境下，針對不同類型的用戶群體，設(shè)計差異化的用電套餐及服務(wù)策略，為市場化售電未雨綢繆，對提升企業(yè)競爭力具有非常重要的現(xiàn)實意義。