覃華勤,梁 葉,錢 奇,郭思佳,馬先芹,郭崇慧
(1. 北京科東電力控制系統(tǒng)有限責任公司,北京市 100089;2. 大連理工大學系統(tǒng)工程研究所,遼寧省 大連市 116024)
全社會的用電量不斷增加,社會中違約用電、竊電等現(xiàn)象屢禁不止,給企業(yè)經(jīng)營管理以及供電秩序的規(guī)范化帶來嚴重的威脅[1-2]。分析用戶用電特征以識別潛在的竊電用戶,提高專業(yè)人員現(xiàn)場稽查竊電用戶效率,是目前竊電檢測的研究重點[3-4]。
時間序列相似性量度是時間序列數(shù)據(jù)挖掘的重要工作之一[5],對竊電模式分析和竊電用戶檢測有著重要的作用[6]。文獻[7]發(fā)現(xiàn)線損電量序列和竊電用戶用電量序列有正相關(guān)關(guān)系,曲線形態(tài)有一定的相似性。文獻[8]利用3 種量度距離來計算負荷時間序列和異常饋線線損曲線之間的時域相似性,鎖定竊電用戶。文獻[9]提出一種改進分段線性表示日負荷曲線,并結(jié)合動態(tài)時間彎曲(dynamic time warping,DTW)距離來量度相似度,提升電力數(shù)據(jù)聚類質(zhì)量。盡管當前研究對電力時間序列數(shù)據(jù)的相似性量度進行了分析和探討,但對用戶的多指標、不等長的用電數(shù)據(jù)的相似性量度研究仍然比較少。因此,如何計算多指標、不等長的用電時間序列數(shù)據(jù)的相似性,是當前竊電用戶識別研究的關(guān)鍵問題。
聚類分析是電力數(shù)據(jù)挖掘領(lǐng)域的重要手段,目前,聚類方法在竊電分析中得到了充分的研究和應用[10],對電力用戶的劃分越細致,越有助于竊電用戶的聚焦和定位[11-13]。文獻[14]對用電信息系統(tǒng)采用離群點算法達到檢測竊電行為的目的。文獻[15]通過基于網(wǎng)格的聚類方法得到排序的用電異常度,具有一定竊電檢測效果。文獻[16]提出基于密度的聚類和局部離群的方法,綜合分析用戶的異常用電得分。文獻[17]對負荷數(shù)據(jù)進行降維,利用高斯混合模型進行聚類,不僅可以多維度分析樓宇的負荷數(shù)據(jù),還為竊電分析提供一定依據(jù)。文獻[18]利用近鄰傳播(AP)聚類對竊電檢測出的工商業(yè)用戶的負荷特征數(shù)據(jù)進行聚類,對其經(jīng)營狀態(tài)進行二次分析,以降低誤報率。在竊電檢測的工程實踐中,因用戶規(guī)模較大且用電特性較多,直接通過聚類方法對用戶進行分類檢測竊電行為的實用效果存在較大局限性。
從實際場景和工程應用出發(fā),利用多指標、不等長的用電數(shù)據(jù)來挖掘與竊電用戶用電曲線形態(tài)相似的用戶,并通過DTW 來量度多指標的時間序列相似性;為了縮小竊電排查范圍以提高檢測準確度,本文利用基于DTW 的聚類分析來挖掘典型竊電用戶,結(jié)合典型竊電用戶特征來進一步檢索待排查疑似竊電用戶。
本文提出典型竊電用戶發(fā)現(xiàn)與竊電用戶相似性檢索方法,利用多指標竊電數(shù)據(jù)來挖掘企業(yè)積累的典型竊電用戶,并在海量數(shù)據(jù)中進行典型竊電用戶相似性檢索,綜合考量不同指標下數(shù)據(jù)的波動形態(tài),結(jié)合人工經(jīng)驗查找出與典型竊電用戶用電行為相似的疑似竊電用戶,方法總體框架如圖1 所示。
圖1 竊電行為檢測方法總體框架Fig.1 Overall framework of detection method for electricity theft behavior
在數(shù)據(jù)搜集環(huán)節(jié),對歷史竊電用戶的數(shù)據(jù)進行搜集和篩選,包括對數(shù)據(jù)進行準確標記、竊電手法的判斷等。待排查用戶數(shù)據(jù)則收集其用戶群的用電數(shù)據(jù),并對收集到的數(shù)據(jù)進行清洗和預處理,提升數(shù)據(jù)質(zhì)量。對竊電樣本數(shù)據(jù)集進行聚類分析,得到典型竊電用戶,利用典型竊電用戶在待排查樣本數(shù)據(jù)集中進行檢索,再利用先驗知識對嫌疑用戶進一步分析審查,得到最終的待排查嫌疑用戶。
在現(xiàn)實情況中,經(jīng)過現(xiàn)場竊電排查人員的實際排查[19]后,一旦確認竊電行為,則在系統(tǒng)中標注該用戶為竊電用戶;反之,未經(jīng)過標注的用戶則視為待檢查的“正常用戶”。竊電用戶的標注獲取難、數(shù)據(jù)集類別不平衡、樣本干擾等問題,給企業(yè)人員的分析排查工作帶來一定的困難,若分析人員事先得到典型竊電用戶,可以利用典型竊電用戶做后續(xù)的分析。
受用戶采集數(shù)據(jù)頻度及質(zhì)量影響,用戶數(shù)據(jù)長度和時效性存在較大差異。實際情況造成的數(shù)據(jù)缺失及不等長,為用戶的相似性量度帶來了一定困難。DTW[20]是時間序列相似性量度中的常用方法,對時間序列的不等長、偏移、振幅變化等情況具有較強的魯棒性[21]。歐氏距離與DTW 量度時間序列的效果如附錄A 圖A1 所示。由圖A1 可知,DTW 可以很好地匹配不等長時間序列的形態(tài),因此本研究采用DTW 來量度2 個用戶的電力時間序列相似性。
針對專變用戶之間的DTW 距離計算方法如下。
因電壓和電流數(shù)據(jù)存在A、B、C 這3 個相序,本文提出量度2 個專變用戶之間的DTW 距離為電量、電流和電壓的加權(quán)平均值。給定專變用戶的電量數(shù)據(jù)集Q={q1,q2,…,qN}、電流數(shù)據(jù)集I={i1,h,i2,h,…,iN,h}、電壓數(shù)據(jù)集U={u1,h,u2,h,…,uN,h}(N為樣本個數(shù),h={A,B,C}),則利用式(2)計算電量距 離DQ=D(qs,qt)、 電 流 距 離DI=∑D(is,h,it,h) 3,h={A,B,C} 和電壓距離DU=∑D(us,h,ut,h) 3,h={A,B,C},其中s≠t。計算總距離Dtotal為:
AP 聚類具有事先不需要指定聚類中心及其數(shù)目、聚類速度快、錯誤率低的特點[22]。所有的數(shù)據(jù)點作為潛在聚類中心,通過迭代相互傳遞的數(shù)據(jù)點之間的代表度和有效度信息來選擇代表點直至得到穩(wěn)定的聚類結(jié)果。AP 聚類已廣泛應用于電力、基因數(shù)據(jù)檢測等多種領(lǐng)域[23]。代表度r(i,j)和有效度a(i,j)的初始值均設(shè)為0,經(jīng)過以下公式進行迭代更新。
式中:上標new 和old 分別表示迭代前和迭代后對應的變量;r(i,j)表示點xj對點xi的代表度;a(i,j)表示點xj對點xi進行代表的有效程度;s(i,j)為點xi與xj之間的距離;λ為阻尼因子,為了避免在聚類過程中發(fā)生振蕩,一般λ取值在(0.5,1)時可以增強聚類算法的穩(wěn)定性[24]。
最后,選擇代表度和有效度之和最大時對應的值作為簇中心ci,即
傳統(tǒng)的K-means 聚類方法需要指定聚類數(shù)目且以簇成員的均值作為簇中心,簇中心是“虛擬的”點。AP 聚類是通過不斷進行消息傳遞來自動確定穩(wěn)定的簇,簇中心則是具體的樣本點,具體如附錄A圖A2 所示。
數(shù)據(jù)清洗和預處理之后,進行以DTW 為相似性量度方法的聚類分析,方法如下。
算法為基于DTW 的竊電用戶AP 聚類。輸入竊電用戶電量數(shù)據(jù)集Q={q1,q2,…,qN}、電流數(shù)據(jù)集I={i1,h,i2,h,…,iN,h}、電 壓 數(shù) 據(jù) 集U={u1,h,u2,h,…,uN,h}。輸出聚類結(jié)果{C1,C2,…,CK}及其簇中心{c1,c2,…,cK}(ck∈Ck;k=1,2,…,K)。
步驟1:對竊電用戶樣本數(shù)據(jù)集Q、I、U進行數(shù)據(jù)清洗、預處理。
步驟2:對于居民用戶,利用式(2)計算電量距離DQ=D(qs,qt),其中s≠t,且s≤N,t≤N。對于專變用戶,利用式(3)計算總距離。得到最終的相似度矩陣S。
步驟3:利用相似度矩陣進行AP 聚類,得到K個簇{C1,C2,…,CK} 及其簇中心{c1,c2,…,cK}(ck∈Ck;k=1,2,…,K),簇中心即為典型竊電用戶。
時間序列數(shù)據(jù)挖掘中,時間序列相似性檢索是一項基本操作,也是研究的熱點問題之一[25]。傳統(tǒng)的反竊電分析方法已經(jīng)逐漸不能滿足處理海量、復雜的用電數(shù)據(jù)。因此,本文研究提出根據(jù)典型竊電用戶進行相似性檢索,具體方法如下。
算法為典型竊電用戶相似性檢索方法。輸入待檢索的正常用戶樣本電量數(shù)據(jù)集Q={q1,q2,…,qN}、電流數(shù)據(jù)集I={i1,h,i2,h,…,iN,h}、電壓數(shù)據(jù)集U={u1,h,u2,h,…,uN,h}、典型竊電用戶{c1,c2,…,cK},檢索相似用戶的個數(shù)為H(H<N)。輸出相似性檢索結(jié)果S={s1,s2,…,sKH},(sg∈Q,g=1,2,…,KH)。
步驟1:對于居民用戶,選擇典型竊電用戶ck,利用式(2)計算ck與待檢查正常樣本用戶的DTW 距離,得到N個距離值;對于專變用戶,選擇典型竊電用戶ck,利用式(3)計算ck與待檢查正常樣本用戶的總距離,得到N個距離值。
步驟2:對N個距離值從小到大進行排序,選擇前H個用戶作為待排查的嫌疑竊電用戶。
步驟3:重復步驟1 至步驟2,直至所有典型竊電用戶在電力系統(tǒng)中檢索完畢,最終得到KH個待排查嫌疑竊電戶。
為更好地理解DTW 在竊電檢測中的效果,從大型專變竊電用戶群中選擇其中一戶(該用戶為某省供暖企業(yè)),利用DTW 在竊電樣本中檢索的大型專變竊電用戶來初步檢驗是否能夠檢索出形態(tài)相似的用戶,結(jié)果如附錄A 圖A3 所示。從圖A3 可以發(fā)現(xiàn),利用DTW 可以發(fā)現(xiàn)具有用電相似形態(tài)的用戶。經(jīng)核實歷史竊電工單可知,檢索出來的前2 位竊電用戶也為供暖單位。這說明DTW 適用于根據(jù)指定用戶用電行為曲線檢索出更多待排查的用電曲線相似且可能異常用電的用戶。
DTW 可以量度不等長時間序列,但DTW 在竊電檢測的工程應用中有一定的適用條件:1)DTW具有較高的時間復雜度,用戶用電曲線越長,則相似性檢索所消耗的時間越多,因此需要人工控制檢索數(shù)據(jù)的范圍;2)DTW 量度用戶用電曲線的整體形態(tài)有一定的優(yōu)勢,但較難準確捕捉細節(jié)特征,因此某些場景下需要對數(shù)據(jù)進行二次加工,構(gòu)建不同粒度的時間序列來進行檢索,而不是僅僅使用原始數(shù)據(jù);3)DTW 無法充分考慮曲線的時效性,一般需要人工選定排查的時間段;4)DTW 是相似性量度方法,無法直接對量度結(jié)果進行解釋,結(jié)果的分析和解釋仍然需要人員參與。
為驗證本文方法的可行性和有效性,本研究基于某省用電信息采集系統(tǒng)中的大型專變用戶、居民用戶的真實用電數(shù)據(jù)進行實驗。樣本數(shù)據(jù)集中,大型專變的竊電用戶數(shù)與正常用戶數(shù)分別為44 和134,居民的竊電用戶數(shù)與正常用戶數(shù)分別為283 和694。本文研究將數(shù)據(jù)集按下述方式進行劃分,并進行相應的實驗與方法評估。
1)按70%的比例隨機抽取竊電用戶,即30 個大型專變竊電用戶和200 個居民竊電用戶來進行典型用戶發(fā)現(xiàn)。
2)在相似性檢索評估階段,對剩余14 個大型專變竊電用戶和隨機抽取的14 個大型專變正常用戶進行相似性檢索,共28 個用戶,取前14 個相似用戶來評估檢索效果。另外,對剩余83 個居民竊電用戶和隨機抽取的83 個居民正常用戶進行相似性檢索,共166 個用戶,取前60 個相似用戶來評估檢索效果。
3)在相似性檢索實例分析階段,分別對剩余120 個大型專變正常用戶和剩余611 個正常居民用戶進行相似性檢索,實例分析檢索效果。
對用戶用電數(shù)據(jù)進行標準化,使其均值為0,方差為1。分別對大型專變用戶和居民用戶數(shù)據(jù)進行基于DTW 的竊電用戶AP 聚類,參數(shù)阻尼因子λ設(shè)為常用默認值0.8,AP 聚類的最大迭代次數(shù)為500。
本實驗對按70%的比例隨機抽取的30 個大型專變用戶以及隨機抽取的200 個居民用戶數(shù)據(jù)進行相似性量度和聚類分析,實驗控制聚類數(shù)目最多為9 個。通過AP 聚類最終找到有效度和代表度之和最大的簇代表,作為該簇的典型竊電用戶。居民用戶和大型專變用戶的典型竊電用戶結(jié)果分別如圖2和圖3 所示。
圖2 與圖3 分別展示了9 個居民用戶和6 個大型專變用戶的典型竊電用戶。典型竊電用戶除了有電量驟降或逐漸下降趨勢,也存在持續(xù)低電量甚至“零電量”的現(xiàn)象?!傲汶娏俊笔怯脩粲秒姰惓5牡湫同F(xiàn)象,發(fā)現(xiàn)“零電量”用戶,須立即現(xiàn)場排查。
圖2 9 個典型居民竊電用戶Fig.2 Nine typical residential users with electricity theft behavior
圖3 6 個典型大型專變竊電用戶Fig.3 Six typical large-scale dedicated transformer users with electricity theft behavior
4.2.1 相似性檢索方法評估
為了便于分析,利用典型大型專變竊電用戶,在剩余14 個大型專變竊電用戶和隨機抽取的14 個正常的大型專變用戶中進行單指標相似性檢索,取前14 個相似用戶來評估檢索準確度。以檢索出竊電用戶的占比作為檢索精確度,以誤判正常用戶的占比作為檢索誤判率?;? 個典型大型專變竊電用戶進行6 次相似性檢索實驗,其檢索的平均精確度與平均誤判率作為典型大型專變竊電用戶相似性檢索的最終評估指標。同理,針對居民典型竊電用戶,進行9 次相似性檢索實驗,取前60 個相似用戶來評估檢索準確度,最終檢索的平均精確度和平均誤判率作為最終的評估結(jié)果,如表1 和表2 所示。
從表1 和表2 中發(fā)現(xiàn),針對典型竊電居民用戶,其相似性檢索的最高精確度達到73.33%。但由于大型專變用戶的經(jīng)營狀態(tài)不同,容易造成誤報。由于數(shù)據(jù)集的特性,有必要對用戶進行二次分析來降低誤判率。
表1 典型大型專變竊電用戶檢索結(jié)果Table 1 Retrieval results of typical large-scale dedicated transformer users of electricity theft
表2 典型居民竊電用戶檢索結(jié)果Table 2 Retrieval results of typical residential users with electricity theft behavior
4.2.2 不同方法判別結(jié)果對比
本文利用常用的分類方法來進行竊電檢測對比。由于數(shù)據(jù)標簽以用戶為粒度,因此構(gòu)建指標的統(tǒng)計量作為用戶的用電特征,即均值、方差、偏度、峰度、峰谷差。實驗設(shè)計及評估如下:
1)針對居民用戶,計算用戶電量數(shù)據(jù)的均值、標準差、偏度、峰度、峰谷差數(shù)據(jù),共5 個特征。
2)針對大型專變用戶,首先,每個時刻分別計算三相電流均值、三相電壓均值,得到電流均值曲線數(shù)據(jù)和電壓均值曲線數(shù)據(jù)。其次,分別計算用戶的電量、電流、電壓均值曲線數(shù)據(jù)的均值、標準差、偏度、峰度和峰谷差數(shù)據(jù),將時間序列數(shù)據(jù)聚合成以用戶為粒度的數(shù)據(jù),共15 個特征。
3)針對每種類型用戶數(shù)據(jù),按7∶3 的比例劃分訓練集和測試集。訓練集用以訓練模型,得到訓練好的模型后對測試集進行預測,每個用戶得到相應的預測概率。
4)利用測試集來計算模型對竊電用戶判別的準確率和誤判率。為了公平起見,將預測概率從大到小進行排序,分別提取排在前60 的居民用戶和前14的大型專變用戶,并計算提取的用戶對應的模型判別精確度和誤判率。
選擇隨機森林[26]、決策樹[27]、神經(jīng)網(wǎng)絡(luò)[28]以及卷積神經(jīng)網(wǎng)絡(luò)[29]作為對比方法。其中,隨機森林的中樹的數(shù)目為100;神經(jīng)網(wǎng)絡(luò)采用2 層隱藏層,神經(jīng)元個數(shù)分別為5 和2;卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小為1×3,步長為1,濾波器數(shù)目為64,激活函數(shù)為ReLU,池化層大小為2,全連接層含50 個神經(jīng)元,優(yōu)化器采用Adam。實驗結(jié)果如表3 和表4 所示。
表3 居民竊電用戶判別結(jié)果Table 3 Identification results of residential users with electricity theft behavior
表4 大型專變竊電用戶判別結(jié)果Table 4 Identification results of large-scale dedicated transformer users with electricity theft behavior
從表3 和表4 中可以發(fā)現(xiàn),對比方法的分類模型預測的精確度較低而誤判率較高。本實驗中采用神經(jīng)網(wǎng)絡(luò)判別大型專變竊電用戶,盡管其誤判率較低,但精確度并沒有相似性檢索判別的效果好。分類模型的預測效果依賴于特征的有效性和參數(shù)設(shè)置。將數(shù)據(jù)聚合成一個統(tǒng)計指標,容易忽略數(shù)據(jù)中的竊電細節(jié);不恰當?shù)膮?shù)設(shè)置將影響模型的性能,造成低精確、高誤判的現(xiàn)象。另外,深度學習相關(guān)方法的訓練模型耗時較長,其可解釋性較差,不利于竊電檢測的工程應用。
4.2.3 相似性檢索實例分析
對于典型居民竊電用戶進行單指標相似性檢索;對于大型專變用戶則采用多指標相似性檢索。
1)典型居民竊電用戶檢索實例分析
為了便于分析,針對圖2(e)中的典型居民竊電用戶5 在正常樣本數(shù)據(jù)集中進行相似性檢索,其電量曲線和在正常樣本數(shù)據(jù)集中的檢索結(jié)果如附錄A圖A4 所示。
由附錄A 圖A4 可以發(fā)現(xiàn),典型居民竊電用戶5在正常居民用戶樣本數(shù)據(jù)集中檢索到的5 個居民用戶中,該典型竊電用戶5 與待排查正常居民用戶1、2、3 的電量曲線形態(tài)相似,這些檢索出來的正常居民用戶可能存在一定的竊電嫌疑。例如正常居民用戶1 到3 存在“零電量”現(xiàn)象,需要現(xiàn)場排查用戶是否存在竊電行為。待排查正常居民用戶4 在一段時間低電量后電量的突變幅度較大,用電異常。待排查正常居民用戶5 的電量曲線在前段有“零電量”現(xiàn)象,其“驟升驟降”的波動特點值得用電檢查人員關(guān)注。
2)典型大型專變竊電用戶檢索實例分析
針對圖3(a)中的典型大型專變竊電用戶1,在大型專變正常用戶樣本數(shù)據(jù)集中進行多指標相似性檢索,具體操作如下。
(1)利用式(3)計算典型竊電用戶與其他用戶的電量時間序列總距離。
(2)將總距離從小到大排序,選擇前M個距離值小的用戶作為相似嫌疑竊電戶。
以典型大型專變竊電用戶1 為例,其多指標相似性檢索的結(jié)果如附錄A 圖A5 所示。
利用竊電樣本用戶先驗知識,有利于進一步判定用戶竊電行為。對歷史竊電用戶按照行業(yè)進行竊電次數(shù)占比統(tǒng)計,結(jié)果如圖4 所示。
圖4 各行業(yè)類型的竊電用戶占比Fig.4 Proportion of users with electricity theft behavior in various industries
從圖4 可以看出,根據(jù)各行業(yè)類型的歷史竊電情況可以重點關(guān)注木材加工、磚廠、汽車修理廠、建材、井地、物業(yè)、供暖、天然氣公司、水業(yè)、酒店、購物中心、度假山莊、房地產(chǎn)公司這類型的專變用戶的用電情況,提高竊電用戶排查效率。典型大型專變竊電用戶1 相似性檢索的5 個用戶中,大型專變用戶4為磚廠,其他用戶為電信、醫(yī)院、普通企業(yè)等非工業(yè)用戶。因此,本研究首先重點針對典型大型專變竊電用戶1 相似性檢索得到的大型專變正常用戶4 來進行分析,分析效果見附錄A 圖A6。
由附錄A 圖A6(a)可知,大型專變正常用戶4的用電量振蕩下降,直至為0;計算以周為粒度的用電量周環(huán)比,如圖A6(b)所示,發(fā)現(xiàn)該用戶第3 周至第12 周的用電量環(huán)比下降。除用電量異常以外,圖A6(c)中該用戶三相電流不平衡度均大于0.4,該用戶用電異常。2020 年5 月20 日至6 月25 日,三相電流不平衡度除5 d 未超過1 外,其余時間均大于1,此時間段內(nèi)用戶的三相電流出現(xiàn)負值,電流出現(xiàn)異常。圖A6(d)中周功率因數(shù)反映第3 周到第7 周的功率因數(shù)最小值低于0.6,這個時間段的數(shù)據(jù)異常應引起關(guān)注。用戶的功率因數(shù)自2020 年5 月20 日,即電流出現(xiàn)負值的時間開始下降,在此區(qū)間內(nèi),功率因數(shù)出現(xiàn)了小于0.6 的情況。2020 年7 月16 日至8 月6 日,該用戶的電流不平衡度為0,說明該用戶在對應日期的最大相電流和最小相電流均為0,即該用戶可能發(fā)生“失流”問題,推斷其可能的竊電方式為“欠流法竊電”。
本文研究以中國國家電網(wǎng)某省電力公司提供的用戶用電數(shù)據(jù)進行分析和處理,構(gòu)建了一種基于典型竊電用戶相似性檢索的竊電行為檢測方法。一方面,利用DTW 作為時間序列相似性量度方法和AP聚類方法,將竊電用戶進行聚類分析,識別典型竊電用戶;另一方面,利用典型竊電用戶的單指標或多指標用電數(shù)據(jù)在系統(tǒng)中進行相似性檢索,提取與典型竊電用戶相似的用戶,用電行為越相似的待檢查用戶越具有竊電嫌疑,實現(xiàn)從形態(tài)特征角度進行竊電用戶結(jié)構(gòu)化預判。由本文的實驗結(jié)果可知,所提方法可以識別典型竊電用戶,并可以利用典型竊電用戶檢索出形態(tài)相似的待排查用戶,豐富了反竊電手段,提高了反竊電查處準確性。
本文在撰寫過程中受到大連市科技創(chuàng)新基金重點學科重大課題(大連智慧城市建設(shè)中基于大數(shù)據(jù)的智能決策理論方法及支持技術(shù)研究,2019J11CY020)資助,特此感謝!
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。