宋建林,戴登慧
1.國電南京自動化股份有限公司,江蘇 南京 211100
2.南京華盾電力信息安全測評有限公司,江蘇 南京 211100
隨著我國電力體制的改革步伐不斷加大,電力市場化進程也在不斷加快,這個過程中就對電力企業(yè)提升電網(wǎng)安全生產(chǎn)、電網(wǎng)規(guī)劃、優(yōu)質(zhì)服務等方面提出更多要求。隨著電力數(shù)字化過程中產(chǎn)生的相關(guān)內(nèi)部數(shù)據(jù)也越來越多,采用大數(shù)據(jù)技術(shù),可以有效分析采集來的電力客戶數(shù)據(jù),及時、準確地掌握客戶用電行為特征,同樣也可以及時發(fā)現(xiàn)用電異常行為。一方面有利于對企業(yè)的電力營銷和調(diào)度進行決策支撐,另一方面也可以保障電力企業(yè)自身利益不受損失,顯著提升企業(yè)的盈利能力和競爭能力[1-2]。
文章將采用隨機森林算法來分析用電行為,為電力企業(yè)及時有效分析用戶用電行為提供一定參考。
電力企業(yè)根據(jù)用電客戶歷史用電行為特征、貢獻度大小、用電需求等特點,基于大數(shù)據(jù)分析技術(shù),從行業(yè)特點、客戶價值、用電需求、成長性等方面刻畫用電客戶群體特征,采用現(xiàn)代統(tǒng)計分析方法及數(shù)據(jù)挖掘算法將電力用戶分類,比如高壓用戶,低壓居民用戶和低壓非居民用戶等用電形式的用戶,按照不用用戶的用電行為特點建立起用戶用電模型以及公共設備用電模型,從而有效監(jiān)測電力使用狀態(tài)。當然以往電力企業(yè)在電力用戶用電監(jiān)測領(lǐng)域僅依靠線損率來估計用電用戶的用電行為,存在一定的技術(shù)局限性。因為只有當線損率超過15%的閾值時,才有充分證據(jù)證明這個用戶是用電異常。
目前,很多人采用了機器學習同電力數(shù)據(jù)相互結(jié)合的方法來進行用戶用電行為特征的提取,對用電過程進行挖掘。而隨著智能電網(wǎng)的普及,電力用戶的數(shù)據(jù)呈現(xiàn)快速增加的態(tài)勢,使得用電數(shù)據(jù)特征數(shù)目也隨之快速增長,且呈現(xiàn)出連續(xù)化的變化特征。
如果采用傳統(tǒng)CURE算法對數(shù)據(jù)進行挖掘,首先需要對數(shù)據(jù)進行離散化的操作,具有計算量大、消耗時間長、一些重要的特征信息容易丟失等缺陷,相對而言,如果采用信息嫡原則的分析法對特征值進行提取,則可以使得預測準確度得以進一步提升。在用電分析模型所含的單項指標中,主要包括了每天用電量、最大線損率、電表類型、臺區(qū)線損等,再進一步利用人工神經(jīng)網(wǎng)絡對用電行為進行分析,只不過這樣的分析只是對其中一個用戶的用電異??梢尚源笮∵M行判斷,無法分析用電預測樣本的準確程度。按照一段時間內(nèi)用戶用電量的總體變化趨勢判定竊電行為的發(fā)生,然而卻沒有與機器學習等新技術(shù)相融合,沒有更高的工作效率。
隨機森林就是建立很多決策樹,組成一個決策樹的“森林”,通過多棵樹投票來進行決策。這種方法能夠有效地提高對新樣本的分類準確度。隨機森林在以決策樹為基學習器構(gòu)建Bagging集成(樣本的隨機選取)的基礎(chǔ)上,進一步在決策樹的訓練過程中引入隨機屬性選擇。具體來說,傳統(tǒng)決策樹在選擇劃分屬性時是在當前節(jié)點的屬性集合(假設有d個屬性)中選擇一個最優(yōu)屬性;而在RF隨機森林中,對基決策樹的每個節(jié)點,先從該節(jié)點的屬性集合中隨機選擇一個包含K個屬性的子集,然后在從這個子集中選擇一個最優(yōu)屬性用于劃分。
在人工智能領(lǐng)域,隨機森林算法包括了數(shù)個決策樹分類器,個別樹輸出的類別眾數(shù)決定了其輸出的類別。隨機森林的生成具體算法步驟如下。
首先,對樣本數(shù)據(jù)進行有放回的抽樣,得到多個樣本集。具體來講就是每次從原來的N個訓練樣本中有放回地隨機抽取N個樣本(包括可能重復樣本)。
然后,從候選的特征中隨機抽取m個特征,作為當前節(jié)點下決策的備選特征,從這些特征中選擇最好地劃分訓練樣本的特征。用每個樣本集作為訓練樣本構(gòu)造決策樹。單個決策樹在產(chǎn)生樣本集和確定特征后,使用CART算法計算,不剪枝。
最后,得到所需數(shù)目的決策樹后,采用隨機森林方法對這些樹的輸出進行投票,以得票最多的類作為隨機森林的決策。
電力系統(tǒng)用戶的用電數(shù)據(jù),主要是從營銷系統(tǒng)里面抽取的,在判定用戶數(shù)據(jù)的同時合理進行篩選,將不存在用電異??赡苄缘臄?shù)據(jù)排出,再對篩選后的原始數(shù)據(jù)進行預處理,包括將用戶用電監(jiān)測數(shù)據(jù)與其他類型用戶數(shù)據(jù)進行對比,對二者用電特征的差異進行比對分析,提取出差異明顯、特征鮮明的用電特征,之后構(gòu)建專家樣本集,并對特征進行提取操作,特征提取包括提取方差特征和提取含零百分數(shù)特征[3]。
利用隨機森林算法對預處理后的數(shù)據(jù)進行測試并計算得出最終的實驗結(jié)果,具體操作步驟:通過隨機森林算法,對用戶數(shù)據(jù)進行決策樹分類,最終分類結(jié)果由訓練出的決策樹投票決定,以此判定用戶是否有用電異常行為。用電數(shù)據(jù)預處理和特征提取流程如圖1所示。
圖1 用電數(shù)據(jù)處理及特征提取流程
提取方差特征具體公式:
式中Vi為用戶用電量的方差;Xik為第i個用戶第k天的用電量;為用戶平均用電量;k為用戶數(shù)據(jù)量的大小。方差主要體現(xiàn)出了數(shù)據(jù)的波動情況,當某一用戶用電數(shù)據(jù)出現(xiàn)大幅度的波動現(xiàn)象,如用電量長期忽高忽低、方差較大,則可以預警該用戶用電存在異常。
提取含零百分數(shù)特征具體公式:
式中Pzeroi為含零百分數(shù);Xj為第i個用戶有包含j個零數(shù)據(jù);Xi為第i個用戶總的數(shù)據(jù)量。
除極特殊情況外,某用戶用電量每天都為零,則該用戶用電異常行為可能性極高。若某用戶除少數(shù)日期外,大多數(shù)時間用電量均為零,則有較大可能存在用電異常,若某用戶用電量斷續(xù)為零,則存在一定可能有用電異常行為。
根據(jù)用電客戶歷史用電行為特征、貢獻度大小、用電需求等特點,基于大數(shù)據(jù)分析技術(shù),從行業(yè)特點、客戶價值、用電需求、成長性等方面刻畫用電客戶群體特征,采用現(xiàn)代統(tǒng)計分析方法及數(shù)據(jù)挖掘算法將電力用戶分類,包括高壓用戶,低壓居民用戶和低壓非居民用戶等用電形式的用戶,針對不同的用戶類別建立不同的用戶用電模型以及公共設備用電模型,從而對企業(yè)的電力營銷和調(diào)度進行決策支撐,為用電需求側(cè)管理、優(yōu)化客戶服務管理規(guī)范提供輔助決策。