鄧明斌 譚致遠(yuǎn) 陳廣開 韓 瑋 徐志淼
(廣州供電局有限公司 廣州 510620)
隨著電力系統(tǒng)信息化程度的不斷提高和配用電數(shù)據(jù)量的迅速增長(zhǎng),研究適用于配用電數(shù)據(jù)挖掘的算法并建立有效的知識(shí)發(fā)現(xiàn)模型,對(duì)配用電業(yè)務(wù)模式創(chuàng)新和智能電網(wǎng)的發(fā)展具有重要意義。然而到目前為止,“數(shù)據(jù)海量,信息匱乏”仍是電力企業(yè)面臨的重要問題[1]。
電力大數(shù)據(jù)的內(nèi)涵是重塑電力核心價(jià)值和轉(zhuǎn)變電力發(fā)展方式。通過對(duì)市場(chǎng)個(gè)性化需求和企業(yè)自身良性發(fā)展的挖掘,實(shí)現(xiàn)由以電力生產(chǎn)為中心向以客戶為中心轉(zhuǎn)變,推動(dòng)電力工業(yè)向低耗能、低排放、高效率的綠色發(fā)展方式轉(zhuǎn)變。通過對(duì)配用電大數(shù)據(jù)的有效挖掘,推動(dòng)以電網(wǎng)物理模型為核心的傳統(tǒng)業(yè)務(wù)模式向以數(shù)據(jù)信息相關(guān)性為基礎(chǔ)的大數(shù)據(jù)業(yè)務(wù)模式轉(zhuǎn)變[2]。
本文研究的目的在于訓(xùn)練出用戶歷史用電的用電模式,判別當(dāng)前用電行為是否存在異常,其作用體現(xiàn)在三個(gè)方面,首先,幫助營(yíng)銷稽查人員輔助判斷用電異常嫌疑戶;其次,是提高營(yíng)銷業(yè)務(wù)人員分析異常用戶的工作效率,最后,是查獲異常用戶挽回供電企業(yè)損失,提高供電企業(yè)效益[3]。
建立用戶用電模式采用了數(shù)據(jù)挖掘流程包括數(shù)據(jù)提取、數(shù)據(jù)處理、數(shù)據(jù)訓(xùn)練、異常判別、結(jié)果驗(yàn)證等,用電模式訓(xùn)練引進(jìn)了數(shù)據(jù)挖掘中的K-means聚類算法,并結(jié)合當(dāng)前業(yè)務(wù)對(duì)聚類算法進(jìn)行了改進(jìn)。
建立用電模式模型主要分為兩個(gè)階段:訓(xùn)練階段和異常識(shí)別階段。選取正常天的分時(shí)電量進(jìn)行訓(xùn)練,訓(xùn)練出用戶正常的用電模式,再對(duì)待測(cè)數(shù)據(jù)進(jìn)行檢測(cè)。
專業(yè)術(shù)語(yǔ)說明:
梯度閾值:表示分時(shí)電量發(fā)生變化的最小幅度,超過該幅度則表示電量發(fā)生了變化。用gradient表示,由統(tǒng)計(jì)得出。
梯度歸一化:由梯度閾值,根據(jù)分時(shí)電量是否增加,不變,減少歸一化成1,0,-1。
2.1.1 用電模式訓(xùn)練流程
圖1 用電模式訓(xùn)練流程圖
1)提取用戶電流數(shù)據(jù),以用戶電流平衡度來(lái)判斷用戶正常用電數(shù)據(jù);
2)提取用戶24h整點(diǎn)分時(shí)電量數(shù)據(jù);
3)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)向量化、數(shù)據(jù)歸一化處理;
4)提取有效的正常天數(shù)據(jù);
5)訓(xùn)練正常的用電參數(shù)模型,引進(jìn)了改進(jìn)型K-means聚類算法。
2.1.2 數(shù)據(jù)預(yù)處理
標(biāo)記好正常日期后,接下來(lái)就是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。具體包括:
1)首先進(jìn)行數(shù)據(jù)清洗。有兩類異常值會(huì)影響計(jì)算,第一類為數(shù)據(jù)空缺,第二類為計(jì)量故障得到的特別大的值,在這里直接濾掉。對(duì)于第二類異常值主要是由于計(jì)量故障引起的,得到的電量值可能是很多天的累計(jì)或者小數(shù)點(diǎn)移位等,導(dǎo)致計(jì)量的電量值可能是實(shí)際值的幾十倍,甚至上百倍。對(duì)于這類異常值在數(shù)據(jù)計(jì)算前必須進(jìn)行清洗,否則得到的特征值會(huì)很大,會(huì)增加異常的概率。根據(jù)數(shù)據(jù)的分布情況,這里設(shè)定臨界值為99.9分位點(diǎn),可以比較準(zhǔn)確地清洗掉異常值,保留有用數(shù)據(jù)。
將數(shù)據(jù)按天提取成24維向量,方便計(jì)算。為保證訓(xùn)練數(shù)據(jù)的準(zhǔn)確性,將不足24個(gè)點(diǎn)的,有空缺的天濾掉。
2)將數(shù)據(jù)進(jìn)行歸一化,這里采用:value=(value-min)/(max-min)*10,其中min為用戶分時(shí)電量的最小值,max為用戶分時(shí)電量的最大值。放大10倍便于計(jì)算,則歸一化后的數(shù)據(jù)范圍為[0~10]。
2.1.3 梯度聚類
聚類分析是數(shù)據(jù)挖掘技術(shù)中最重要的算法之一。常用的聚類方法可以劃分為如下幾種:1)劃分聚類方法,包括K-means和K-medoids等算法;2)層次聚類方法,可分為凝聚算法和分裂算法;3)密度聚類算法,主要包括DBSCAN、OPTICS和DENCLUE算法;4)基于網(wǎng)格的方法,如STING 法;5)基于模型的SOM、COBWEB算法等。其中,K-means聚類分析法是目前應(yīng)用最為廣泛的一種算法,該算法由MacQueen于1967年提出,具有原理簡(jiǎn)單、計(jì)算快速的優(yōu)點(diǎn),尤其對(duì)于數(shù)值屬性的數(shù)據(jù),它能較好地體現(xiàn)聚類在幾何和統(tǒng)計(jì)學(xué)上的意義[4]。
在進(jìn)行kmeans聚類之前,先進(jìn)行梯度聚類,然后將梯度聚類的結(jié)果作為kmeans聚類的初值。這樣不僅使kmeans聚類有了一個(gè)比較好的初值,而且還指定了用電模式的個(gè)數(shù)。梯度聚類分為兩步,第一步先進(jìn)行常規(guī)的kmeans聚類聚成6類,第二步再把相似的用電模式按取均值的方式合并出最后結(jié)果。具體步驟為
1)將預(yù)處理后的數(shù)據(jù)進(jìn)行kmeans聚類成6類,因?yàn)閱蝹€(gè)用戶的用電模式一般為2~3個(gè),這里先聚成6類,再根據(jù)曼哈頓距離把模式相近的進(jìn)行合并。在這里求曼哈頓距離的時(shí)候先進(jìn)行了梯度歸一化處理。具體步驟:先將每天的24維分時(shí)數(shù)據(jù)向量[d0,d1,d2…d23]向前作差轉(zhuǎn)化成23維的向量[d1-d0,d2-d1…d23-d22],然后對(duì)所有得到的數(shù)據(jù)取80分位點(diǎn)作為梯度閾值gradient,事實(shí)上梯度閾值會(huì)在一個(gè)合理的范圍,所以有如下判斷:
將所得的23維向量value_(0-22)進(jìn)行如下轉(zhuǎn)化:
這樣就把原數(shù)據(jù)轉(zhuǎn)化成了只包含0,1,-1的23維向量,再計(jì)算曼哈頓距離,這樣可以使得越平行向量之間曼哈頓距離越小。
2)計(jì)算每個(gè)簇中的點(diǎn)到中心點(diǎn)的歸一化的曼哈頓距離,取75分位點(diǎn)作為這個(gè)簇的勢(shì)力范圍,如果兩個(gè)簇的中心點(diǎn)之間的歸一化曼哈頓距離分別在這兩個(gè)簇的勢(shì)力范圍之內(nèi),則說明這兩個(gè)模式可以合并。若多個(gè)簇之前可以相互合并則一起合并。合并后的簇中心點(diǎn)為各個(gè)簇中心點(diǎn)的均值。重復(fù)步驟2),直到不能被合并為止,得到最后的用電模式。
2.2.1 識(shí)別流程
圖2 用電模式識(shí)別流程圖
1)提取待測(cè)數(shù)據(jù)及相關(guān)參數(shù),待測(cè)數(shù)據(jù)為每天24h整點(diǎn)功率數(shù)據(jù),在測(cè)試過程中,對(duì)于數(shù)據(jù)缺失不太多且沒有連續(xù)缺失的天采用線性插值的方法進(jìn)行填充;
2)數(shù)據(jù)預(yù)處理后,計(jì)算每天的數(shù)據(jù)向量到每個(gè)簇中心點(diǎn)的距離,離哪個(gè)中心點(diǎn)近,就判定它屬于哪個(gè)簇。
3)當(dāng)判定測(cè)試數(shù)據(jù)屬于哪個(gè)簇后,還要進(jìn)行確認(rèn)它是否真的屬于這個(gè)簇。這里采用測(cè)試數(shù)據(jù)到簇中心點(diǎn)的距離與該簇的閾值半徑進(jìn)行比較,若大于該閾值,則認(rèn)為該用電數(shù)據(jù)不屬于該模式,即可判定為異常,若小于該閾值,則可判定該天正常。
4)異常結(jié)果輸出。
2.2.2 異常識(shí)別結(jié)果分析
用戶A為大工業(yè)用戶,存在一種用電模式,用電模式為雙峰型,表示該用戶過去長(zhǎng)期都是這種雙峰型用電模式,當(dāng)前負(fù)荷軌跡與用戶歷史用電模型進(jìn)行判別,兩條曲線趨勢(shì)和吻合度都很相似,判別結(jié)果為正常。
圖3 正確用電模式
用戶用電模式聚類結(jié)果有四類,當(dāng)前測(cè)試數(shù)據(jù)與歷史用電模式進(jìn)行識(shí)別,最終判定出結(jié)果為異常。
圖4 異常用電模式
用戶B,用電模式聚類結(jié)果有四類,當(dāng)前測(cè)試數(shù)據(jù)與歷史用電模式進(jìn)行識(shí)別,再結(jié)合用戶電量數(shù)據(jù)、用戶日瞬時(shí)量數(shù)據(jù)進(jìn)行判斷,用戶從2017年4月開始功率因數(shù)總開始無(wú)序波動(dòng)且功率因數(shù)一天中超過多次低于0.5,再結(jié)合用戶日電量、月電量數(shù)據(jù)分析,用戶電量從4月開始下降,因此最終判定出結(jié)果為異常。
實(shí)踐表明,綜合運(yùn)用以上建立的模型分析法,基本能夠做到及時(shí)、準(zhǔn)確地將符合數(shù)據(jù)特征的竊電行為消滅在萌芽狀態(tài),無(wú)需另外投入,即可大大減少因竊電減少的經(jīng)濟(jì)損失。