摘 要:智能電表的出現(xiàn)與普及帶來了一場用電信息采集方式的變革,在給人們帶來便利的同時,也產(chǎn)生了海量的數(shù)據(jù),這就使得不法分子的竊電行為更不易被發(fā)現(xiàn),給電力公司帶來巨大的經(jīng)濟損失。針對這一現(xiàn)象,國內(nèi)外很多的學(xué)者都對此進行了深入的研究,并且提出了很多異常用電檢測的手段。本文對基于機器學(xué)習(xí)的異常用電檢測技術(shù)的發(fā)展現(xiàn)狀進行介紹,指出了當(dāng)前研究中出現(xiàn)的一些問題,并提出了一些解決措施。
關(guān)鍵詞:智能電表;用電信息采集;異常用電檢測;機器學(xué)習(xí)
DOI:10.16640/j.cnki.37-1222/t.2019.18.170
0 引言
智能電表的普及產(chǎn)生了海量的數(shù)據(jù),這也導(dǎo)致了異常用電的檢測變得困難。在智能電網(wǎng)的時代下,這些數(shù)據(jù)普遍具有著“3V[1]”的特點,即海量(volume)、高速(velocity)和多樣(variety)。電力損失主要分為兩種,即是技術(shù)性損失和非技術(shù)性損失。技術(shù)性損失即能量傳輸損失,這一部分損失可以使用技術(shù)或?qū)<抑R進行解釋;非技術(shù)性損失是指電網(wǎng)輸配電損失中剔除技術(shù)性損失后剩余無法用技術(shù)解釋的部分,例如竊電行為等。近些年來隨著機器學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展,使得對大規(guī)模數(shù)據(jù)集的挖掘與分析成為了可能,很多研究人員將異常用電檢測與機器學(xué)習(xí)兩個領(lǐng)域相結(jié)合,取得了不錯的成果,同時也遇到了一些難題。
1 基于機器學(xué)習(xí)的異常用電檢測
1.1 基于有監(jiān)督學(xué)習(xí)的異常用電檢測
基于機器學(xué)習(xí)的異常用電檢測算法可分為兩個類型:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)就是我們把正確答案交給計算機讓其進行學(xué)習(xí),以達到從新樣本中預(yù)測正確答案的目的。假設(shè)我們將數(shù)據(jù)集中的用戶分為兩類:即正常用電的用戶和疑似竊電的用戶。那么在異常用電檢測領(lǐng)域,有監(jiān)督學(xué)習(xí)的過程是我們同時給出用戶的用電數(shù)據(jù)以及用戶的標簽,對模型進行訓(xùn)練,最后達到通過用電數(shù)據(jù)預(yù)測用戶類型的目的。常用的有監(jiān)督學(xué)習(xí)算法包括線性回歸、邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、支持向量機SVM、決策樹、樸素貝葉斯算法等。
文獻[2]介紹了MIDAS項目開發(fā)的兩種檢測異常用電數(shù)據(jù)的方法:基于神經(jīng)網(wǎng)絡(luò)的方法和基于統(tǒng)計學(xué)的方法。在基于神經(jīng)網(wǎng)絡(luò)的方法中,作者先對用電客戶進行聚類分析,減少需要分析的樣本數(shù)目,再通過算法找到嫌疑較大的用戶。
文獻[3]介紹了基于深度學(xué)習(xí)方法的異常用電檢測,作者使用了Tensor Flow構(gòu)建深度學(xué)習(xí)框架,并將算法與長短期記憶網(wǎng)絡(luò)(LSTM)進行對比,驗證了算法的優(yōu)越性。本文還將非技術(shù)性損失模型分為三類,除了大部分文獻都提到的基于統(tǒng)計學(xué)和基于數(shù)據(jù)驅(qū)動的方法外,還提出了基于專家知識的模型。
文獻[4]作者使用了多分類SVM算法并且考慮到了電力公司與竊電者之間的博弈。作者認為使用的數(shù)據(jù)集規(guī)模越小,用戶隱私的保密程度就越強,因此采樣率的選擇就轉(zhuǎn)化成了如何在隱私保密性和算法精度上進行取舍。同時作者假定了算法分類器遭受到了最壞程度的攻擊,即假定竊電者在知曉分類算法規(guī)則的情況下進行竊電活動,此外竊電者還會通過修改數(shù)據(jù)的方式污染數(shù)據(jù)集。這樣的假設(shè)對的算法性能評估更加客觀,但是算法建立的過程難度會增大。
1.2 基于無監(jiān)督學(xué)習(xí)的異常用電檢測
與有監(jiān)督學(xué)習(xí)的過程相反,無監(jiān)督學(xué)習(xí)是我們把沒有標簽數(shù)據(jù)集交給計算機進行學(xué)習(xí),讓計算機自己對數(shù)據(jù)進行分類的過程。在異常用電檢測中,我們只給出用戶的用電數(shù)據(jù),在不知曉用戶標簽的情況下對用戶進行分類。常用的無監(jiān)督學(xué)習(xí)算法有:K-均值算法、主成分分析法(PCA)、DBSCAN算法、BIRCH算法、限制玻爾茲曼機等。
文獻[5]提出了一種基于兩階段k-means聚類算法的異常用電檢測模型,通過灰色關(guān)聯(lián)分析法分析溫度和濕度兩個特征對電力負荷的影響,利用k-means算法對負荷模式進行提取,最后將樣本的負荷曲線與標準負荷曲線進行比較,計算每一個時刻預(yù)測值與實際值之間的歐氏距離,將這個距離進行統(tǒng)計后從大到小排列,將排名靠前的幾個用戶列為嫌疑用戶并逐一進行排查。文中提出的算法可以縮小嫌疑用戶范圍,但是只將溫度和濕度兩個相近特征進行關(guān)聯(lián)性分析,對結(jié)果的影響有限,可以通過參考更多的特征來優(yōu)化模型。
文獻[6]使用DBSCAN聚類方法進行異常用電檢測。文中將流式計算框架與DBSCAN聚類法結(jié)合到一起。流式計算框架具有動態(tài)計算、在內(nèi)存中直接處理、在線數(shù)據(jù)處理三個特點,可以快速反映系統(tǒng)當(dāng)前的狀態(tài)。通過DBSCAN對于最近一段時間產(chǎn)生的歷史數(shù)據(jù)進行聚類分析,當(dāng)新產(chǎn)生的數(shù)據(jù)達到一定規(guī)模時,替換部分歷史數(shù)據(jù),重新進行DBSCAN聚類分析,進而形成新的聚類,達到在線檢測的效果,其實驗結(jié)果證明,將流式計算與DBSCAN相結(jié)合具有和原始DBSCAN同樣的精度。該模型的優(yōu)勢在于可以通過分析實時性更強的數(shù)據(jù),得到更具有參考價值的結(jié)果,也可以更快地確定嫌疑目標。
文獻[7]通過重新定義樣本之間的密度關(guān)系改進了k-means算法,使得k-means算法可以處理高維數(shù)據(jù)。使用了Hadoop平臺實現(xiàn)了云計算,利用并行處理技術(shù)可以同時處理大規(guī)模的數(shù)據(jù)。作者利用了k-means算法可以克服局部最優(yōu)解的優(yōu)勢,簡單高效地實現(xiàn)了大數(shù)據(jù)下的智能用電數(shù)據(jù)挖掘。但是仍然可以在k-means算法中的k值選擇處進行相應(yīng)的優(yōu)化,使得算法的精度和速度更優(yōu)秀。
2 異常用電檢測中出現(xiàn)的問題
2.1 數(shù)據(jù)集的不平衡
目前很多帶標簽的數(shù)據(jù)集都存在正常樣本與異常樣本的比例嚴重不平衡的情況,由于異常樣本的數(shù)量過少,對異常用電樣本進行建模就變得很困難,對于這種情況,研究者們一般采用以下三種方法:對算法改進使得可以適應(yīng)異常樣本過少的情況;只使用正常樣本進行建模,將新的樣本與得到的模型進行比較,差異較大的就是異常樣本;手動平衡樣本,通過模擬異常樣本的特征,增加異常樣本的數(shù)量。以上三種方法雖然能一定程度上減輕數(shù)據(jù)集不平衡帶來的影響,但是仍然不及對優(yōu)秀的數(shù)據(jù)集進行分析的效果更好。因此,更加平衡、高質(zhì)量的數(shù)據(jù)集在研究當(dāng)中是十分重要的一環(huán)。
2.2 用戶的消費模式改變
大多數(shù)用戶的消費模式都會隨著時間改變,工作日、周末、節(jié)假日這三個時間段用戶的生活方式會發(fā)生明顯的變化,因此這三個時間段的電力負荷也會呈現(xiàn)出不同的特征;再例如季節(jié)的改變,用戶在夏季和冬季的用電模式也會發(fā)生改變:夏天由于天氣熱,空調(diào)的使用以及熱水器的使用量會明顯增加,其用電量相比春季會提高;到了冬天,采暖設(shè)備的使用也會導(dǎo)致用戶的用電模式發(fā)生改變。以上這些變化都可以從用戶長期的用電數(shù)據(jù)中捕捉到,除了這些長期的改變,還有一些非時間因素的改變。例如用戶購置了新電器導(dǎo)致用電量發(fā)生了突變;家庭聚會導(dǎo)致某一天的用電量很大;用戶生病導(dǎo)致某幾天的用電量低于預(yù)期,這些因素都會或多或少影響著模型的搭建。
2.3 對于竊電者的分析
當(dāng)前大多數(shù)模型都是從用戶的歷史負荷數(shù)據(jù)來進行建模,這種方法的好處是能清楚的了解大多數(shù)用戶的用電習(xí)慣,從而找到異常用電的個體,但是缺點是由于數(shù)據(jù)集不平衡特征的制約,沒有辦法詳細的分析竊電者的特征。我們可以參考文獻[4],引入對抗性學(xué)習(xí),充分地考慮了供電公司與竊電者之間的博弈,分析竊電者攻擊方式與攻擊策略的選擇,還可以把同一區(qū)域內(nèi)用戶之間的關(guān)系引入到模型之中,這樣更加有利于判斷竊電者所在的區(qū)域?;蛘邊⒖嘉墨I[1],搭建竊電者模型去預(yù)測竊電者的竊電時間與竊電方式。
2.4 模型的泛化能力
不同的數(shù)據(jù)集記錄的用電數(shù)據(jù)大不相同,其數(shù)據(jù)的格式、記錄的特征數(shù)目、用戶所在的地理位置、用戶生活習(xí)慣、當(dāng)?shù)氐募竟?jié)更替時間都不同,因此僅通過一個數(shù)據(jù)集得到的模型其泛化能力是極為有限的,解決這一問題有兩個方向:一是獲得更高質(zhì)量,具有代表性的數(shù)據(jù)集,使其得到的模型也具有更強的代表性;二是在使用相同的計量設(shè)備的不同地區(qū),獲得的用電數(shù)據(jù),通過這些數(shù)據(jù)去進行綜合性的分析。
3 結(jié)論
綜上,目前有關(guān)于異常用電行為的研究大多數(shù)聚焦于利用不同的機器學(xué)習(xí)手段從數(shù)據(jù)集中發(fā)現(xiàn)潛藏的異常用電數(shù)據(jù)。機器學(xué)習(xí)的各種算法已經(jīng)趨于成熟但是仍在不斷地有性能更強的算法出現(xiàn),例如近些年來,在面對大數(shù)據(jù)處理時,深度學(xué)習(xí)這一領(lǐng)域的算法已經(jīng)越來越展示出在大數(shù)據(jù)下的優(yōu)越性能。因此異常用電檢測領(lǐng)域也會隨著算法的更新和更高質(zhì)量的數(shù)據(jù)集的出現(xiàn)而不斷更新。除了機器學(xué)習(xí)領(lǐng)域和統(tǒng)計學(xué)的應(yīng)用,博弈論與異常檢測的結(jié)合也會在異常用電檢測領(lǐng)域發(fā)揮更大的作用。
參考文獻:
[1]陳啟鑫,鄭可迪,康重慶,皇甫奮宇.異常用電的檢測方法:評述與展望[J].電力系統(tǒng)自動化,2018(17):189-199
[2]??igo Monedero,F(xiàn)élix Biscarri,Carlos León,Jesús Biscarri,Rocío Millán.MIDAS: Detection of Non-technical Losses in Electrical Consumption Using Neural Networks and Statistical Techniques[J].Lecture Notes in Computer Science Computational Science and Its Applications - ICCSA 2006,2006(05):725-734.
[3]趙文清,沈哲吉,李剛.基于深度學(xué)習(xí)的用戶異常用電模式檢測[J].電力自動化設(shè)備,2018(09):34-38.
[4]Daisuke Mashima,Alvaro A.Cárdenas.Evaluating Electricity Theft Detectors in Smart Grid Networks[J].International Workshop on Recent Advances in Intrusion Detection,2012:210-229.
[5]張鐵峰,張靖.k_means兩階段用電異常檢測方法[J].電力科學(xué)與工程,2018(12):25-31.
[6]王桂蘭,周國亮,趙洪山,米增強.大規(guī)模用電數(shù)據(jù)流的快速聚類和異常檢測技術(shù)[J].電力系統(tǒng)自動化,2016(24):27-33.
[7]趙莉,候興哲,胡君,傅宏,孫洪亮.基于改進k_means算法的海量智能用電數(shù)據(jù)分析[J].電網(wǎng)技術(shù),2014(10):2715-2720.
作者簡介:張紋碩(1995-),男,吉林長春人,研究生在讀,研究方向:機器學(xué)習(xí)在電力系統(tǒng)的應(yīng)用。