國網(wǎng)上海市電力公司市北供電公司 張希鵬 齊 拯 劉 杰
上海交通大學 羅 津
隨著智能電表等具備實時通訊的量測設(shè)備普及,電網(wǎng)公司累積了大量的用戶用電數(shù)據(jù)。利用人工智能、大數(shù)據(jù)等技術(shù)通過對海量數(shù)據(jù)的深入挖掘,可以對竊電用戶進行精準判別,有效降低竊電對電網(wǎng)公司收益等帶來的損害。然而,當前研究主要針對用戶是否竊電進行判斷,缺乏對用戶竊電類型的識別?;诖耍疚奶岢隽死秒S機森林算法對用戶竊電類別進行判斷,針對竊電樣本數(shù)據(jù)少且均衡性差的問題,采用基于少數(shù)類過采樣技術(shù)進行樣本擴充,提高樣本的均衡性,進而提高竊電行為類別判斷的準確性,為電網(wǎng)公司精準打擊竊電用戶提供技術(shù)支撐。
竊電行為的隱蔽性使得精準打擊工作非常困難,傳統(tǒng)依靠人工定時檢查的方法不僅費時費力,還會由于部分竊電行為及設(shè)備的隱蔽性等使得人工定時檢查難以發(fā)覺。竊電行為的發(fā)生,一方面造成了電網(wǎng)公司經(jīng)濟效益的損失,另一方面,可能會造成設(shè)備的損壞,甚至會引起供電可靠性的問題,更嚴重地可能造成短路進而引發(fā)火災(zāi)等。因此,針對竊電行為的精準打擊,不僅具有重要的經(jīng)濟效益,還有更高的社會效益。
竊電行為識別不僅需關(guān)注用戶用電量特征,其使用的竊電方法也是重要的數(shù)據(jù)特征。本文基于收集到的竊電方法,將其歸類為:“表內(nèi)接線或更換元件”、“進出線短路”、“繞越表計直接”、“表計打洞”、“偽造開啟封印”、“一線一地”、“其它竊電行為”等。
在用戶用電量特征方面,本文考慮總電量、平電量和谷電量不同用電時段用戶用電量的中值度、平滑度、落差度等指標。以用戶總用電量為例,給出用戶用電特征指標,如公式(1)-(3)所示。其中,(1)為總用電量的平滑度;(2)為落差度;(3)為中值度。式中,Q表示用戶用電量;表示用電量的平均值;r表示用戶編號;t表示時刻編號;Δt表示數(shù)據(jù)采樣間隔。
作為組合分類器,隨機森林算法具有優(yōu)異的噪聲容忍度,本文選用隨機森林算法對用戶竊電行為進行辨識,整體流程如圖1所示。首先,對采集到的數(shù)據(jù)進行預(yù)處理,包括缺失數(shù)據(jù)補全以及異常數(shù)據(jù)剔除;其次,基于用戶用電量信息及竊電類別對電力用戶用電行為進行畫像;再次,基于少數(shù)類過采樣技術(shù)對竊電樣本數(shù)據(jù)等進行擴充增容;最后,利用擴充增容均衡后的數(shù)據(jù)代入到隨機森林分類器中進行預(yù)測,分別采用C4.5算法和Forestes-RI技術(shù)對決策樹的分裂節(jié)點和用戶特征進行選取,基于大多數(shù)投票法對用戶竊電行為進行判別。
圖1 隨機森林算法竊電行為判別流程圖
以某實際電網(wǎng)記錄的竊電歷史數(shù)據(jù)為例,其分布如圖2所示。根據(jù)對所有竊電行為的統(tǒng)計與分類,發(fā)現(xiàn)類型最多的為“該表表內(nèi)接線或更換元件”,是隱蔽性最大的行為,竊電記錄達到了693條。而隱蔽性最小的“插U字”也比較多,記錄達到100條以上。因此,將“該表表內(nèi)接線或更換元件”定義為0,“插U字”定義為0.6,其他所有竊電類型定義為0.3,正常用戶為1。原問題轉(zhuǎn)換為四分類問題,輸出結(jié)果可以得到每個類型的概率,根據(jù)每個類型對應(yīng)的數(shù)字進行加權(quán)求和作為最終的分數(shù)。
圖2 竊電行為計數(shù)統(tǒng)計
首先分析數(shù)據(jù)均衡性問題,對比利用少數(shù)類過采樣技術(shù)前后測試集中數(shù)據(jù)的均衡性分布情況。其中,經(jīng)過擴張后的數(shù)據(jù)集成績分布如圖3所示,未擴張的數(shù)據(jù)集成績分布如圖4所示。對比上述結(jié)果可以看出,經(jīng)過少數(shù)類過采樣技術(shù)擴充后的樣本均衡性更好,對于各類竊電行為的劃分更加精細和明確。而在未擴充的數(shù)據(jù)集中,各類樣本的重疊度較高,難以區(qū)分不同的竊電行為。因此,擴充后的數(shù)據(jù)集更適合應(yīng)用在隨機森林分類器中,對用戶竊電行為進行預(yù)測。
圖3 在經(jīng)過數(shù)據(jù)擴張的驗證集上的數(shù)據(jù)分布
圖4 在未經(jīng)訓練和數(shù)據(jù)擴增測試集上的成績分布
進一步地,將上述經(jīng)過少數(shù)類過采樣技術(shù)擴充后的樣本集應(yīng)用于隨機森林算法,對預(yù)測結(jié)果的統(tǒng)計如圖5所示,考慮四分類問題下概率最高的情況作為分類結(jié)果。從上述結(jié)果可以看出,樣本數(shù)量最多的“該表表內(nèi)接線或更換元件”識別效果最好。同時,雖然其它竊電樣本數(shù)量偏少,但仍然具有一定的辨識能力,具備在少量竊電樣本情況下對用戶不同竊電行為進行甄別的能力。
圖5 在測試集上的分類結(jié)果
總結(jié):竊電行為本身帶來了經(jīng)濟社會效益的降低。本文利用電網(wǎng)公司累計的用電數(shù)據(jù)信息,結(jié)合少數(shù)類過采樣技術(shù)的隨機森林智能識別算法對竊電行為進行判別。算例結(jié)果表明,本文所用少數(shù)類過采樣技術(shù)能夠有效地提高擴充數(shù)據(jù)的均衡性,進而有效地對竊電行為進行甄別,提高竊電行為檢測的效率。
本文受到國網(wǎng)上海市電力公司“基于用電大數(shù)據(jù)的用戶輔助授信系統(tǒng)研究”資助。