國網山東省電力公司泰安供電公司 張立柱 高 慧 張林峰 李雅文 武同寶
近年來,電網智能化和數(shù)字化的發(fā)展迅速,同時電力數(shù)據(jù)匯集方式逐漸多元化,數(shù)據(jù)分析的維度逐漸多樣化,數(shù)據(jù)量日漸龐大。然而,由于對電力用戶的需求分析認識不足、對用戶的數(shù)據(jù)信息挖掘不準確,識別的精度也不高。由于該問題日益增多,因此對電力數(shù)據(jù)中大量的用戶數(shù)據(jù)資源來說,其利用效率并不高。
電力用戶的智能畫像研究是基于大量的電力用戶的用電數(shù)據(jù)信息,運用各種技術,對用戶的個體特性和行為進行了探索分析。根據(jù)用戶的各種用電量數(shù)據(jù),對其進行分類,并根據(jù)其特點對其進行識別,從而能夠對不同類型的用戶行為、特征進行挖掘。這些差異可為電力公司在實施智能化管理方面的應用提供一些參考。目前來看,對用戶用電的行為特征分析研究還不夠深入[1],用戶用電行為信息數(shù)據(jù)的價值還沒有得到有效應用。通過聚類分析算法,可以使電力用戶數(shù)據(jù)標簽化,從而達到用戶畫像的目的,以此來滿足用戶個性化、多元化的服務需求。所以,本文在電力用戶大數(shù)據(jù)平臺的基礎上,對數(shù)據(jù)進行了預處理,利用K-Means聚類技術,實現(xiàn)了用戶數(shù)據(jù)的智能畫像,同時使用Spark并行聚類算法,極大地減少了負荷特性的分析。
根據(jù)電力行業(yè)的用戶智能畫像,可將其分成以下幾個階段:采集、挖掘和研究用電量數(shù)據(jù);二是搭建用戶用電特征、行為的標簽庫;三是對用電用戶進行智能畫像[2]。
圖1 用戶智能畫像步驟
電力用戶的智能畫像信息包括用戶基本屬性、用電信息、用戶繳費信息和用戶需求信息四大類。這些龐大的信息流分散到不同的業(yè)務系統(tǒng)中。如用戶的基本屬性、用戶繳費等信息在營銷的服務管理系統(tǒng)中,用戶的電力數(shù)據(jù)在用電信息的采集業(yè)務系統(tǒng)中。此外,在95598的業(yè)務支持系統(tǒng)中包含著用戶需求信息。用戶的畫像所包含的層次數(shù)據(jù)并非越多越好,而是要找到與四大類別用戶數(shù)據(jù)相關程度強、同一業(yè)務場景強相關、同一產品與整體目標使用者強相關即可。
行為標簽是通過技術手段對用戶用電海量數(shù)據(jù)進行精煉出的一種特征標記。通過對用戶全方位的特性標簽進行全方位觀察,即可塑造出用戶用電數(shù)據(jù)的立體“畫像”了。因此,研究用戶智能畫像的核心步驟就是給用戶貼上各類“標簽”,而各類標簽中一部分是依據(jù)用戶用電的行為特征數(shù)據(jù)(如開戶年限、電量等級、繳費方式等)直接得到,另一部分則是通過一系列人工智能算法或規(guī)則(訴求容忍度、滿意度和訴求偏好等)進行信息挖掘得到。
用戶智能畫像的主要目的就是對用戶用電行為進行分析研究,根據(jù)分析研究結果為用戶提供更高質量的服務。一般來說,對用戶進行分析時,需要把定量的信息轉化為定性的信息,從而通過不同的信息類別對不同的用戶群體進行分析。用戶智能畫像的結果是可以觀察到不同的行業(yè),不同的種類,各個用戶用電負荷的變化趨勢,從而有利于全電網來分析用戶結構、用電特性和電網的建設規(guī)劃。
Spark是常用大數(shù)據(jù)分布式編程平臺,能夠有效地計算海量數(shù)據(jù)。Spark是由UC Bberkeley的AMPLab發(fā)起的基于彈性分布式的數(shù)據(jù)集(RDD)實現(xiàn)的分布式編程計算框架。Spark的整體編程框架結構如圖2所示,每一個Spark都是在集群上進行并行化操作,由平臺的驅動器程序來發(fā)起。同時驅動器程序可以操作管理多個執(zhí)行器的節(jié)點。由于Spark是分布式架構,在此環(huán)境下可以通過由驅動器程序控制的多個工作節(jié)點從HDFS文件系統(tǒng)中來讀取數(shù)據(jù),并將數(shù)據(jù)轉換為RDD。RDD是不可變化的分布式對象的集合,每一個RDD都會被分為多個分區(qū),而這些分區(qū)則分別在不同的執(zhí)行器節(jié)點上運行[3]。
圖2 Spark分布式編程框架結構
與MapReduce基于磁盤計算模式相比,Spark則是內存計算的模式。Spark運算的效率相對高效是因為不需要把迭代過程中的各類中間數(shù)據(jù)保存在磁盤里。針對大規(guī)模的數(shù)據(jù)集,基于Spark的各類應用表現(xiàn)出的可擴展性強,非常適應迭代次數(shù)多的聚類算法。
對不同種類的用戶來開展用電行為特性畫像的過程,首先是利用Spark的分布式編程框架結構,然后再通過其離線的分布式運算。由于計算模式更加細粒度,因此可根據(jù)不同類型的用戶構建不同的負荷預測模型。因而可以預測分析每一個用戶的用電量,隨后再對其進行累加,進而獲得全網總用電量。
針對電力用戶的數(shù)據(jù)特征,在整個用戶畫像的流程中,選擇合適的用電數(shù)據(jù)對進行聚類有著關鍵性作用。由于電力用戶類型繁多,并且使用時間長短、行業(yè)特點等諸多因素對其造成不利影響。因此,可選取日最大負荷、日平均負荷、日最少負荷,日用電量、日峰谷差、日負荷比,日峰谷差率、正常時段用電百分比、峰時電量消耗等特征進行了用電特征數(shù)據(jù)提取、聚類。由于電力用戶用電數(shù)據(jù)難以取得,故本文所采用的樣本多以用戶用電數(shù)據(jù)為主,僅涉及用戶用電數(shù)據(jù)特征的標簽獲取,并未包括用戶的基本屬性標簽和非用電特征行為類標簽。
特征數(shù)據(jù)處理方法分為數(shù)據(jù)歸一化處理和數(shù)據(jù)標準化處理。其中,數(shù)據(jù)歸一化的第一種處理方式是,把特征數(shù)據(jù)映射到[0,1]范圍中,這樣算法計算起來更快速。另一種處理方式則是,通過歸一化處理把有量綱的數(shù)值轉化成無量綱數(shù)值的過程。特征數(shù)據(jù)歸一化處理后,可以對不同的單位量級特征數(shù)據(jù)進行比較、加權。特征數(shù)據(jù)歸一化處理公式:
數(shù)據(jù)標準化是把特征矩陣轉化為標準正態(tài)分布,是由公式z-score實現(xiàn)的。針對每個樣本點操作后,對標準化結果都會產生一定影響。其中標準化處理的計算公式如下[4]:
其中,mean為平均值,σ為標準差,std為方差。
電力用戶的特征數(shù)據(jù)信息具備自然的互聯(lián)網大數(shù)據(jù)屬性,不一樣的領域特性會致使數(shù)據(jù)信息突變增大。假如選用歸一化處理的形式特征提取,則最大最小值容易被異常點所影響,進而不建議對信息量非常大的數(shù)據(jù)處理。與此同時,歸一化處理方式可擴展性不強,不適用于用戶側的負荷預測分析。而標準化處理的方式能適用于用戶側強干擾的條件中,針對均值而言,少許的突變點對其影響并沒有非常大,因此方差更改也較小。因此,選用標準化處理方式來進行特征提取分析比較適合。
首先處理缺失率達到20%的數(shù)據(jù),直接刪除即可;而對于缺失率≤20%的數(shù)據(jù),則采用均值插補的處理方法來進行數(shù)據(jù)填充。將相鄰2個數(shù)據(jù)的平均值作為缺失值的替代數(shù),假如周圍相鄰的2個數(shù)據(jù)也缺少。然后在遺漏數(shù)值的前后方向尋找一個不為空的數(shù)值,直到找到一個不為空的數(shù)值為止。如果找到了一個邊界值,仍然是一個空的,則它的缺省值為0,被重新計算。對于最后的異常值,可以將其作為一個負值,而不做特殊的處理。
K-Means是一種針對分類無監(jiān)督的聚類算法。通過K-Means對用電用戶進行分類處理,從而使得具有相同用電特性、行為的用戶采用其各自的數(shù)學模型。K-Means原則是將不同的樣本特征數(shù)據(jù)選擇對應的方法轉換成距離大小,然后根據(jù)距離大小對樣本進行分類,劃分為個聚類中心,從而使不同的聚類中心離得盡可能遠一些,最終可以達到分類的目的。K-Means算法的關鍵步驟主要包含以下幾點[5]:
(1)選擇聚類中心個數(shù),每一個對象代表一個聚類中心;(2)根據(jù)距離最近的規(guī)則,計算出各個樣本點到個聚類中心距離大小,并將其指派到距離最近的聚類中心(或最相似)對應的類別;(3)聚類中心的更新:將每個分類中的任意一個對象所對應的平均值作為聚類中心,然后計算出相應的目標函數(shù)值;(4)判斷是否有聚類中心與目標函數(shù)值發(fā)生變化。如果沒有變化,那么可以得出一個結果;如果有改變,將返回到(2);(5)最后得到聚類的結果。
在大數(shù)據(jù)技術Spark中并行化處理K-Means算法。在利用初始聚類間距離盡可能大的原則基礎上,改進每一次遍歷時取樣的方法。改進的并行化K-Means每一次遍歷取樣O(k)個樣本,對比之前的K-Means的每一次的遍歷取樣,最多只能取一個樣本,運算的效率得到了極大的提高。改進的優(yōu)化算法將該取樣過程重復大約O(logn)次,從而在進行反復多次采樣后得到O(klogn)個樣本點組成的數(shù)據(jù)集合。然后對這O(klogn)個點再進行聚類,得到新的k個聚類中心,最終把這k個點當做初始聚類中心送入Lloyd迭代中。理論上來說,該算法過程需要O(logn)次重復取樣,然而實踐證明,一般只需要重復5次采樣步驟就能得到一組比較理想的初始聚類中心。
用戶智能畫像的評估通常采用特征對象的相似度進行評價。度量標準通常用輪廓因子來表示,而輪廓因子是簇密集和離散度之間的評價尺度標準。一般輪廓系數(shù)的數(shù)值在[1,-1]范圍內,假如該值越趨近于1,那么該簇越緊湊,說明聚類效果越好。其計算公式如下:
其中i為已聚類的數(shù)據(jù)中樣本點,bi為i所有的樣本到其他的族群平均距離,而ai則是i到自身簇的平均距離。
通過對電網中不同類型的電能需求進行分析,實現(xiàn)對電網中各類電能的有效利用,實現(xiàn)電能利用效益和用戶數(shù)據(jù)利用價值的最大化。根據(jù)電力用戶需求特征建立智能的用戶畫像系統(tǒng),進行用戶數(shù)據(jù)的分類和可視化展示,形成不同類型的用戶用電行為智能畫像,以便提供高質量的多元化、精準化的用電服務。
用戶的智能畫像可視化是實現(xiàn)人機交互的一個重要步驟,所以需要有相應的設計。通常來說,用戶畫像的智能可視化框架結構主要由Spark、Spark MVC、My batis組成,相應的可形成一個以網頁作為基礎的開發(fā)框架結構。Spark屬于開源的框架結構,計算簡單。從操作原理上來說,Spark包含了IOC容器。在該容器操作業(yè)務對象替換時,與其他開發(fā)框架結構相比要更簡單一些。Spark MVC同樣也是開發(fā)源框架結構的一種類型,但其與Spark的功能表現(xiàn)完全不同,其主要提供的是網頁多功能應用程序MVC服務、模型目標服務、分離控制器服務、分派器服務、處理程序等;分My batis屬于定制化SQL、高級映射和存儲過程的支撐框架。
伴隨著可視化和人工智能技術的不斷發(fā)展,越來越高效的展示和預測方法也會出現(xiàn)。在現(xiàn)有的研究基礎上,應該繼續(xù)保持探索更直觀、更高效、更智能的畫像展示方法,提升電力企業(yè)服務資源統(tǒng)一調配的及時性和供電服務指揮的準確性,來提升用戶滿意度,實現(xiàn)用戶訴求的主動響應以及異常工況的主動消除,從而提升電力企業(yè)的經營效益。
通過對用戶用電信息進行智能分析,實現(xiàn)可視化用戶畫像,可以快速、準確地反映出各用戶的使用情況,從而可以實現(xiàn)電網企業(yè)對用戶負荷的預測。除此之外,還可以通過用戶的行為畫像,針對不同的用戶進行個性化的用電策略,從而制定更合適的電價優(yōu)惠方案。
一是用戶負荷預測的依據(jù)?,F(xiàn)階段用戶負荷和用電量的預測是需求響應模塊的重要節(jié)點。而用戶用電智能化畫像,可以精確、高效率地完成用戶用電模式的劃分,從而合理地提升電力負荷和用電量預測的精確度。
二是電價政策制定的依據(jù)。根據(jù)用戶的智能需求,制定出一套科學、合理的電價方案,這樣就可以留住更多的優(yōu)質用戶,提高用戶的滿意度。針對更加細分的用戶群體更應該將不同層次和類型的客戶進行私人訂制服務,最終提升用戶的滿意度。
三是用戶用電方案的優(yōu)化。描述了不同使用者不同的用電行為、不同的種類。針對不同的用電量,不同的用電方案,可以通過對不同的用電量進行監(jiān)測,從而達到優(yōu)化用電行為的目的,并且降低用戶的運營成本費用。
針對海量的電力用戶大數(shù)據(jù),綜合考慮用戶用電的特征,本文采用并行化的K-Means對電網的數(shù)據(jù)進行聚類,搭建電網的用戶智能畫像。通過Spark并行化處理來提高算法計算維度大種類多數(shù)據(jù)的求解性能。通過對電力用戶智能畫像進行分析研究,可以有效地利用電力數(shù)據(jù),挖掘電力數(shù)據(jù)的潛力,從而支撐電力企業(yè)多元化、智能化、數(shù)字化發(fā)展。最后可根據(jù)電力用戶智能畫像,來分析不同的用戶用電個人行為差異。電力企業(yè)以此來科學識別、盤點各種類型的價值貢獻的電力用戶人群,可以高效地響應與刺激各細分用戶的多樣化需求,從而實現(xiàn)用戶用電管理的精準營銷和個性化服務,為豐富電力行業(yè)增值服務提供強有力支撐。