肖乃慎,李博,孔德詩
(國網(wǎng)四川省電力公司客戶服務(wù)中心四川成都610000)
大數(shù)據(jù)背景下的電網(wǎng)客戶用電行為分析系統(tǒng)設(shè)計(jì)
肖乃慎,李博,孔德詩
(國網(wǎng)四川省電力公司客戶服務(wù)中心四川成都610000)
為了利用海量的電網(wǎng)客戶數(shù)據(jù)對(duì)用電客戶的用電行為進(jìn)行分析和預(yù)測,在大數(shù)據(jù)的背景下,引入數(shù)據(jù)挖掘技術(shù),設(shè)計(jì)了電網(wǎng)客戶用電行為分析系統(tǒng)。根據(jù)客戶的用電數(shù)據(jù)建立了用電客戶細(xì)分及客戶信用等級(jí)的分類標(biāo)準(zhǔn)。在數(shù)據(jù)挖掘方面,通過K-means算法對(duì)用電客戶進(jìn)行客戶細(xì)分,利用ID3決策樹算法對(duì)客戶的信用度進(jìn)行分類。最后以某電力客服中心具體數(shù)據(jù)進(jìn)行測試,結(jié)果有效的反應(yīng)各分類下的客戶用電行為,系統(tǒng)滿足設(shè)計(jì)要求。
大數(shù)據(jù);數(shù)據(jù)挖掘;電網(wǎng);用戶行為分析
隨著市場經(jīng)濟(jì)的不斷完善發(fā)展,電力公司逐漸從生產(chǎn)型的企業(yè)轉(zhuǎn)變?yōu)榻?jīng)營型企業(yè),客戶服務(wù)和市場營銷成為工作中的重要部分,對(duì)客戶用電行為的深入研究是提高電力企業(yè)客戶服務(wù)和市場推廣能力的關(guān)鍵[1]。同時(shí)在電力企業(yè)內(nèi)部積累了大量客戶信息,傳統(tǒng)的信息管理系統(tǒng)只能對(duì)數(shù)據(jù)進(jìn)行簡單的查詢、修改等簡單操作,不能實(shí)現(xiàn)較高層次的應(yīng)用,難以發(fā)揮數(shù)據(jù)的真正價(jià)值,隨著大數(shù)據(jù)時(shí)代的到來,各種計(jì)算機(jī)算法應(yīng)用于信息處理,充分發(fā)揮信息的價(jià)值[2-3]。數(shù)據(jù)挖掘技術(shù)就是將有用的信息從大量隨機(jī)和有噪聲的數(shù)據(jù)中識(shí)別出來的技術(shù),具有算法先進(jìn),功能強(qiáng)大的特點(diǎn),因此將數(shù)據(jù)挖掘技術(shù)應(yīng)用于分析電力客戶用電行為具有較高的可靠性和實(shí)用性[4]。高服務(wù)能力[5]。采用的客戶細(xì)分標(biāo)準(zhǔn)如下。
1)忠誠度??蛻舻目傆秒姇r(shí)間,以月為單位。計(jì)算式如下:
2)成長度。用電客戶的年用電量的增長率。計(jì)算式如下:
1.1用電客戶細(xì)分
對(duì)于電力企業(yè)來說,客戶龐雜,用戶的用電量及用電的行為不同,為了實(shí)現(xiàn)精準(zhǔn)的營銷,需要將客戶劃分成不同的客戶群,對(duì)不同的客戶群采用不同的營銷方案,針對(duì)性的提
3)貢獻(xiàn)度。主要從電價(jià)、電量、電費(fèi)3個(gè)指標(biāo)來衡量。計(jì)算式如下:
4)用電負(fù)荷變化情況。該指標(biāo)可以在一定程度上反應(yīng)客戶的經(jīng)濟(jì)狀況,一般經(jīng)濟(jì)狀況較好時(shí),用電負(fù)荷較大,反之則用電負(fù)荷減少,根據(jù)該指標(biāo)可以追蹤客戶的動(dòng)態(tài)發(fā)展。
5)信譽(yù)度。該指標(biāo)主要針對(duì)客戶的欠費(fèi)行為和違規(guī)用電等情況,幫助建立客戶的誠信體系。利用欠費(fèi)率和欠費(fèi)次數(shù)來對(duì)客戶欠費(fèi)情況考核。違規(guī)用電的考核主要依據(jù)累計(jì)違規(guī)用電總量和累計(jì)違規(guī)用電次數(shù)進(jìn)行考核。
1.2客戶信用等級(jí)評(píng)估
信用等級(jí)評(píng)估簡單說就是運(yùn)用某行業(yè)的公式和規(guī)則評(píng)估目標(biāo)客戶的信用價(jià)值[6]。對(duì)于電網(wǎng)公司來說建立一套信用等級(jí)評(píng)價(jià)體系有利于有效的分配客戶服務(wù)資源、提高資產(chǎn)運(yùn)作效率及有效的安排企業(yè)對(duì)客戶的考核項(xiàng)目。本次研究采用利潤貢獻(xiàn)度作為考核的指標(biāo),利潤貢獻(xiàn)度的公式如下:
利潤貢獻(xiàn)度=平均電費(fèi)-平均欠費(fèi)時(shí)長×平均欠費(fèi)金額× 0.01-平均壞賬
欠費(fèi)時(shí)長=繳費(fèi)時(shí)間-當(dāng)月繳費(fèi)的截止時(shí)間
2.1數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘技術(shù)又稱知識(shí)發(fā)現(xiàn)、商業(yè)智能、預(yù)測建模及預(yù)測分析等,是工具和技術(shù)的結(jié)合。數(shù)據(jù)挖掘技術(shù)可以幫助用戶從海量的數(shù)據(jù)中找出感興趣的信息,是近年來發(fā)展較快的交叉型學(xué)科,包括了信息科學(xué)和統(tǒng)計(jì)學(xué)及相關(guān)的計(jì)算機(jī)領(lǐng)域的知識(shí)[7-8]。數(shù)據(jù)挖掘的過程包括五個(gè)部分,過程圖如圖1所示。
圖1 數(shù)據(jù)挖掘過程
2.2數(shù)據(jù)挖掘常用算法
1)k-means算法
k-means算法是劃分聚類算法的一種。在該算法的計(jì)算中為了得到全局最優(yōu)劃分,基于劃分的聚類需要完成所有可能得劃分[9-10]。處理過程為:輸入數(shù)據(jù)庫中的對(duì)象和簇的數(shù)目k,經(jīng)過算法的運(yùn)算輸出平方差準(zhǔn)則最小的k個(gè)簇。具體方法如下。
第一步:設(shè)整體樣本為n,從整體樣本中任意抽取k個(gè)對(duì)象作為初始簇的中心,記為mi,
第二步:按照公式(1)計(jì)算數(shù)據(jù)中每個(gè)p到k個(gè)簇中心的距離d(p,m)。
i=(xi1,xi2,…,xip),j=(xj1,xj2,…xjp)是n維數(shù)據(jù)對(duì)象。
第三步:找到對(duì)象p的最小距離,將p劃分到與mi相同的簇中。
第四步:將所有的對(duì)象進(jìn)行計(jì)算,通過公式(2)進(jìn)行重新計(jì)算,作為新簇的簇中心。
公式中mk代表第k個(gè)簇的中心,N代表對(duì)象個(gè)數(shù)。
第五步:選取與整個(gè)數(shù)據(jù)集中的對(duì)象最類似的簇,并把值賦予,重復(fù)上述運(yùn)算,當(dāng)平方誤差準(zhǔn)則值最小時(shí)截止運(yùn)算。
2)ID3算法
ID3算法是一種基于信息熵的決策樹算法,在生成決策樹時(shí),以信息增益作為訓(xùn)練樣本集合的分裂度量標(biāo)準(zhǔn)。進(jìn)行劃分時(shí)選擇信息增益最大的屬性作為參考,這樣只需較少的信息量即可完成結(jié)果的再劃分[12-14]。通過該算法可以降低樣本的劃分次數(shù),盡可能的得到一顆簡單的決策樹。ID3的理論如下:
定義T為t個(gè)訓(xùn)練樣本集合,t個(gè)樣本屬于m個(gè)不同的ci(i=1,2,...,m),ci中的樣本數(shù)為ti。設(shè)pi為某樣本屬于ci的概率,取pi=ti/t,則對(duì)給定的樣本進(jìn)行分類需要的期望值信息為
設(shè)訓(xùn)練樣本集合T中某個(gè)屬性為Q,Q有n個(gè)不同值{q1,q2,…,qn},Q可以將T劃分為n個(gè)不同類的{T1,T2,…,Tn},Ti中的樣本個(gè)數(shù)為t1j+t2j+…+tmj,則Ti中樣本屬于ci的概率為pij=tij/(t1j+t2j+…+tmj),對(duì)Ti期望信息有
得根據(jù)Q劃分的訓(xùn)練樣本集合T的信息熵為
該系統(tǒng)利用java語言進(jìn)行開發(fā),系統(tǒng)按照數(shù)據(jù)挖掘的經(jīng)典流程建立,具體系統(tǒng)構(gòu)成如圖2所示。系統(tǒng)采用Struts+ Spring+Hibernate的組合框架,在表示層使用了Struts的實(shí)現(xiàn)組件,以JSP頁面的形式顯示,完成接受用戶的信息,將信息傳遞給業(yè)務(wù)邏輯層,處理之后通過表示層展現(xiàn)給客戶[15]。
圖2 系統(tǒng)構(gòu)成
3.1用電客戶細(xì)分
根據(jù)第一章選取的指標(biāo),通過聚類分析技術(shù)進(jìn)行實(shí)現(xiàn),算法采用數(shù)據(jù)挖掘技術(shù)中的k-means算法,按照算法流程進(jìn)行計(jì)算,具體算法框架如下:
3.2客戶信用等級(jí)評(píng)估
在對(duì)用電客戶進(jìn)行信用評(píng)估時(shí),標(biāo)準(zhǔn)參考第一章信用評(píng)估指標(biāo),在具體的實(shí)現(xiàn)方面,采用數(shù)據(jù)挖掘技術(shù)中的ID3決策樹算法,首先計(jì)算訓(xùn)練樣本集合中所有屬性的信息增益,將取值最大的屬性作為判斷屬性,對(duì)樣本進(jìn)行劃分,建立與屬性值相對(duì)應(yīng)的分支,然后遞歸調(diào)用上述方法據(jù)繼續(xù)劃分,直到無法進(jìn)行劃分,算法計(jì)算結(jié)束。具體的算法框架如下所示:
3.3系統(tǒng)運(yùn)行測試
該系統(tǒng)可以可以在沒有internet瀏覽器的PC或智能設(shè)備上進(jìn)行操作,系統(tǒng)測試采用硬件配置如表1所示。
表1 系統(tǒng)測試硬件配置
登錄系統(tǒng)之后,選取某電力客服中心客戶數(shù)據(jù)作為系統(tǒng)的初始數(shù)據(jù),部分?jǐn)?shù)據(jù)如表2所示。
表2 部分測試數(shù)據(jù)
將上述數(shù)據(jù)進(jìn)行處理之后,進(jìn)行具體的數(shù)據(jù)挖掘,用電客戶細(xì)分采用k-means算法,客戶信用評(píng)估采用ID3算法進(jìn)行,經(jīng)運(yùn)算得結(jié)果如表3所示。
表3 部分測試結(jié)果
將數(shù)據(jù)挖掘技術(shù)應(yīng)用到用電客戶的用電行為分析,充分的利用了電力企業(yè)積累的海量數(shù)據(jù),通過數(shù)據(jù)的挖掘,對(duì)用電客戶進(jìn)行了客戶細(xì)分及信用等級(jí)評(píng)估,并將這些信息轉(zhuǎn)換成企業(yè)的決策信息,提高了電力企業(yè)的服務(wù)和營銷能力,降低了經(jīng)營成本。
[1]張東霞,苗新,劉麗平,張焰,劉科研.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國電機(jī)工程學(xué)報(bào),2015(1):2-13.
[2]胡江溢,祝恩國,杜新綱,杜蜀薇.用電信息采集系統(tǒng)應(yīng)用現(xiàn)狀及發(fā)展趨勢[J].電力系統(tǒng)自動(dòng)化,2014(2):131-135.
[3]王樹良,丁剛毅,鐘鳴.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考[J].中國電子科學(xué)研究院學(xué)報(bào),2013(1):8-18.
[4]宋亞奇,周國亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013(4):927-936.
[5]賀瑤,王文慶,薛飛.基于云計(jì)算的海量數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(2):69-73.
[6]胡偉.改進(jìn)的層次K均值聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2013(2):157-160.
[7]王扶東,馬玉芳.基于數(shù)據(jù)挖掘的客戶細(xì)分方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011(4):215-219.
[8]王松濤.市場條件下的電力客戶價(jià)值分析體系[J].電網(wǎng)技術(shù),2010(2):155-159.
[9]馮璐,王成文,申曉留,譚忠富.基于數(shù)據(jù)挖掘的供電企業(yè)客戶關(guān)系管理系統(tǒng)研究與設(shè)計(jì)[J].電力信息化,2007(7):86-90.
[10]張建輝.K-means聚類算法研究及應(yīng)用[D].武漢:武漢理工大學(xué),2007.
[11]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].成都:市電子科技大學(xué),2013.
[12]程艷柳.基于云計(jì)算的智能電網(wǎng)數(shù)據(jù)挖掘的研究[D].北京:華北電力大學(xué),2013.
[13]劉秋華,編著.電力企業(yè)管理[M].北京:中國電力出版社,2009.
[14]盧建昌,主編.電力企業(yè)管理[M].北京:中國電力出版社,2007.
[15]毛國君等編著.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2005.
Design of power grid customer's behavior analysis system under the background of large data
XIAO Nai-shen,LI Bo,KONG De-shi
(Customer Service Center of Sichuan Electric Power Company,Chengdu 610000,China)
In order to make use of the vast amounts of customer data of power grid for electricity customers with electrical behavior analysis and forecast,under the background of big data,the introduction of data mining technology,design the grid customer behavior analysis system.According to the customer data established by electric customer segmentation and customer credit rating classification standard.In terms of data mining,K-means algorithm is adopted for electricity customers for customer segmentation,using ID3 decision tree algorithm for classification of customer credit degree.And finally to a electric power customer service center specific data to test.The results effective response to the classification of customers conduct electricity system satisfies the design requirements.
big data;data mining;power grid;user behavior analysis
TP3
A
1674-6236(2016)17-0061-03
2016-01-28稿件編號(hào):201601266
國家自然科學(xué)基金(51190103)
肖乃慎(1976—),男,四川彭州人,碩士,政工師。研究方向:行政管理。