亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林的用電行為分析

        2017-10-10 01:39:04陳晶晶李紅嬌
        上海電力大學學報 2017年4期
        關鍵詞:電表用電量決策樹

        陳晶晶, 李紅嬌, 許 智

        (上海電力學院 計算機科學與技術學院,上海 200090)

        基于隨機森林的用電行為分析

        陳晶晶, 李紅嬌, 許 智

        (上海電力學院 計算機科學與技術學院,上海 200090)

        長期以來竊電問題一直困擾著電力企業(yè),它不僅損害了供電企業(yè)的合法權益,擾亂了正常的供用電秩序,而且給安全用電帶來了威脅.通過機器學習算法,對電力用電數據進行分析處理,可以預測用戶是否存在竊電行為.基于電力數據中用戶用電量提取相關特征,結合隨機森林算法,提出了一種預測用戶是否具有竊電行為的方法.對比多組實驗數據,調節(jié)特征數量以及算法參數,以提高預測準確率和預測速度.

        隨機森林; 分類; 竊電用戶; 機器學習

        用戶竊電行為會對企業(yè)的經濟效益及社會的穩(wěn)定發(fā)展等帶來不良影響.首先,非正常線損會影響供電部門的正常盈利,容易造成企業(yè)虧損現象,同時用戶的竊電行為會影響正常的市場經濟秩序,全國每年因竊電造成的損失高達200多億元[1];其次,用戶竊電會影響周圍用戶用電,而且私自亂接線,會有引發(fā)觸電或者火災等安全隱患,嚴重影響社會穩(wěn)定秩序.

        傳統(tǒng)的竊電方法有很多,如改變電表結構、電線私拉亂接、無表用電等.目前,使用干擾器,讓電表慢轉、停轉甚至反轉成為主要的竊電方式.但是無論竊電方式如何變化,原理萬變不離其宗,就是影響電能計量裝置的正常計數.電能計量裝置主要由電流互感器、電壓互感器、端子盒、二次接線、電能表以及電能專用計量箱組成,主要的功能就是計量用戶在單位時間內消耗的有功電能和無功電能等[2].目前,電力企業(yè)在反竊電技術上存在一定的局限,僅憑線損率的計算來估計竊電用戶,只有當線損率大于15%時,才能肯定該用戶為竊電用戶[3].近年來,越來越多的人將機器學習與電力數據相結合來提取特征,挖掘出竊電用戶行為.文獻[4]認為,電力用戶數據的不斷增加,用電數據特征數目也會隨之增加,導致用電特征數據連續(xù)化,如果用傳統(tǒng)的CURE算法進行數據挖掘,就需要對電力大數據進行離散化,其計算量大、耗時長,且容易丟失重要的特征信息,故提出了一種利用信息熵原則分析法提取特征值的方法,以提高預測的準確度.文獻[5]利用日用電量、用戶最大線損率、用表類型、所在臺區(qū)線損、三相不平衡率、微機掃描情況、功率因數及合同容量比作為反竊電模型的單項指標,結合人工神經網絡分析竊電行為,但其只涉及某一個用戶竊電可疑性的大小,并沒有對整個用戶樣本預測準確率進行分析.文獻[6]提出根據某段時間周期內用戶的用電量總體變化趨勢來評測用戶竊電的可能性,但是并沒有結合機器學習,在效率上不夠高效.

        本文根據某電力公司提供的電力數據,利用用戶的日用電量數據進行分析,并沒有加入線損率、用表類型等屬性,這樣可以減少訓練的數據量,加快數據預處理以及后續(xù)預測的速度.根據用戶的日用電量,提取特征分析,隨后結合隨機森林算法,預測竊電用戶,并分析結果.

        1 經典機器學習算法介紹

        從電力大數據中挖掘出竊電用戶和正常用戶,是一個二分類的問題.因此,利用機器學習中的分類算法對電力數據進行分析.機器學習的分類算法常見的有支持向量機(SVM)算法,K-近鄰算法,決策樹算法等.但這些算法并不都是適合電力大數據的二分類.

        1.1 支持向量機算法

        該算法的核心思想是,尋找一個非線性映射,通過該映射把樣本數據映射到高維的特征空間中.利用的估計函數為:

        f(X)=ωφ(X)+b

        (1)

        式中:ω——權值大小;φ(X)——映射函數;b——偏置.

        根據統(tǒng)計學理論,支持向量機通過極小化目標函數確定回歸函數[7].但支持向量機算法設計的初衷是對小樣本數據進行訓練,并不適合電力竊電用戶行為的挖掘,究其原因,在于該算法會導致訓練時間長,且極消耗電腦內存,故該算法不適合大數據下竊電用戶的挖掘.

        1.2 K-近鄰算法

        該算法是1968年由Cover和Hart提出的.其基本原理是從大樣本空間中,對一個待分類的數據對象從訓練數據集中找出與之最相近的K個點,取出其中眾數最多的類別作為待測數據點的分類類別.此算法適用于樣本分布均勻的數據.但在電力數據中,竊電用戶數據相對于正常用電用戶的數據較小,存在樣本分布不平衡的特點,且此算法結果的理解性不高,所以也不適合電力竊電用戶的挖掘.

        1.3 決策樹算法

        20世紀70年代,FRIEDMAN J提出將決策樹算法運用到分類問題的研究中.決策樹是一個樹狀結構,它是通過一個特征屬性對樣本進行分類,其每個非葉子節(jié)點表示一個特征屬性上的測試,每個分支代表這個特征屬性的輸出.使用決策樹進行決策是從根節(jié)點開始,根據決策樹的分支,對待測數據的對應特征屬性進行分類,直至葉子節(jié)點,得出分類結果.20世紀70年代末,QUINLAN J R開發(fā)出決策樹ID3算法,提出了利用信息輪中的信息增益作為決策樹屬性拆分節(jié)點的判斷依據[8].1984年,BRIMAN L和FRIEDMAN J重新整理決策樹算法,得出了分類回歸樹(CART)算法.1993年,QUINLAN J R在ID3的基礎上提出了C4.5算法,用Gini不純度代替信息增益作為決策樹屬性拆分節(jié)點的選擇[9].決策樹算法具有輸出結果易于理解、對中間值缺失值不敏感的優(yōu)點,適合電力數據挖掘的要求[10].

        但是單獨的決策樹會存在過擬合的風險.BREIMAN L于2001年提出了隨機森林(randomforests)算法,它是一種組合多個樹分類器進行分類的算法,避免產生過擬合的風險.

        1.4 隨機森林算法

        隨機森林算法通過重采樣(bootstrap)方法,從樣本里有放回地重復抽取n個樣本生成新的樣本,然后重復以上步驟,生成m個決策樹,這些決策樹之間是獨立的,新分類的分類結果是根據分類樹投票多少來決定的[11].

        假設給定一系列分類樹:h1(x),h2(x),h3(x),…,hk(x),根據輸入變量(X,Y)定義余量函數(margin function)為:

        mg(X,Y)=avgkI(hk(X)=Y)-

        maxZ≠YavgkI(hk(X)=Z)

        (2)

        式中:X——輸入特征變量的集合;Y——輸入變量的正確標簽集合;Z——預測錯誤的標簽集合;I(·)——示性函數,前一項是代表將變量X正確分類的平均分類器數,后一項是將變量X錯誤分類最多的平均分類器數.

        余量函數用來度量隨機森林算法對輸入變量X產生的誤差.余量函數可以用于定義隨機森林的預測誤差,即:

        E=PX,Y(mg(X,Y)<0)

        (3)

        定理隨著隨機森林分類器的數目增加,E幾乎處處收斂于:

        mg(X,Y)=PX,Y[Pθ(h(X)=Y)-

        maxZ≠YPθ(h(X)=Z)<0]

        (4)

        從該定理可以看出,隨機森林的預測誤差會收斂到泛化誤差,這說明隨機森林在理論上是不會發(fā)生過擬合現象的.

        隨機森林算法流程如下:

        (1) 從樣本空間有放回地隨機采樣選出n個樣本;

        (2) 從所有提取出的特征中隨機選擇k個特征,對選出的樣本利用這些特征建立決策樹;

        (3) 重復前兩步m次,則生成m棵決策樹,即形成了隨機森林;

        (4) 對于測試數據,經過每棵決策樹進行決策,然后通過投票決定分到哪一類.

        從上述分析可以看出,隨機森林具有如下5個優(yōu)點:一是經過理論推斷,該算法有效地避免了過擬合;二是每一棵樹都是隨機選擇部分樣本和部分特征,使得算法具有很好的抗噪能力,穩(wěn)定性好;三是可以并行計算;四是可以處理高維數據,并且不需要自己選擇特征,算法通過投票決策;五是實現比較簡單,易于理解.

        因此,本文決定結合隨機森林算法,對電力數據進行竊電用戶和正常用戶的二分類.

        2 基于隨機森林算法的用電數據分析

        2.1 數據格式

        智能電表數據有很多維,如用電量、無功功率、電壓、電流等,如果把這些數據都放入算法里,內存消耗極大且運行速率很差,甚至還會形成“維數災難”.

        本文只是利用用戶的日用電量作為指標.利用某電力公司提供的數據集,數據大小為6.54 G,屬性有用戶的ID,當天電表數,前天電表數,當天用電量,日期,竊電標志等.

        表1是某電網公司經過處理后得到的電表數據.表1中,ID代表的是用戶名(已處理過了);Date代表日期時間;KWH_TD代表的是當天的電表讀數;KWH_YSD代表的是前一天的電表讀數;KWH代表的是當天的用電量;Label為該用戶的標簽,“1”表示該用戶為竊電用戶,“0”表示該用戶是正常用戶,“Nan”代表缺失值.

        表1 電表數據

        由表1可知,每個用戶有很多天連續(xù)的數據,但是每一個用戶的數據量不等;部分用戶數據存在缺失情況;這些數據后面都有竊電用戶的標示,方便之后對數據進行測試.

        2.2 特征提取

        用電數據預處理的特征提取流程如圖1所示.

        圖1 用電數據特征提取流程

        2.2.1 提取含零百分數特征

        根據用戶電表數據分析可知:

        (1) 某用戶每天的用電量都為零,幾乎可以判斷該用戶為竊電用戶;

        (2) 某用戶存在連續(xù)用電量都為零,但不是全為零,該用戶為竊電用戶的可能性極高;

        (3) 某用戶用電量為零,斷斷續(xù)續(xù),該用戶也有可能是竊電用戶.

        當然也會存在一些用戶長時間不在家的可能性,但這種可能性比較小.因為每個用戶的數據量是不一樣,所以不能提取含零的數據個數,而是提取含零百分數特征,避免特征的不公平性.

        (5)

        式中:PZeroi——含零百分數;Xj——第i個用戶有j個包含零的數據;

        Xi——第i個用戶總的數據量.

        2.2.2 提取含缺失值百分數特征

        根據用戶電表數據分析可知:

        (1) 某用戶電表讀數在電網中心不顯示,說明電表出現問題,該用戶為竊電用戶的可能性很大;

        (2) 某用戶電表讀數經常不顯示,但是會有幾天讀數,該用戶存在竊電嫌疑.

        當然,數據存在缺失值也有可能是電網中心存在“丟包”現象,導致數據缺失,但一般這種情況很少發(fā)生.因此,當某用戶電表讀數丟失,很有可能是用戶故意干擾電表計數以及上傳,故可以提取缺失值百分數特征.

        (6)

        式中:PNani——缺失值的百分數;Xj——第i個用戶存在j個缺失值的數據.

        2.2.3 提取方差特征

        方差主要體現數據的波動情況.某用戶用電量總是會發(fā)生忽高忽低,出現大幅度的波動現象,則該用戶竊電的可能性很大.

        (7)

        2.2.4 提取平均值特征

        平均值代表用戶的用電水平,如果一個用戶用電量低于一個水平,如用電量平均只有0.1 kWh,則該用戶竊電的可能性極大.

        (8)

        式中:Ai——用戶的用電量平均值;Xik——第i個用戶第k天的用電量;k——用戶數據量的大小.

        2.3 實驗過程

        2.3.1 實驗環(huán)境配置

        電腦配置如下:惠普Envy13-d025tu,內存為8 G,顯卡為HD520,處理器為酷睿i5-6200,主頻為2.3 GHz.本文選擇python工具處理用電數據,使用的是python2.7版本,該軟件集成了numpy,pandas,sklearn機器學習包等數據分析所需要的包,方便用戶分析數據,同時還擁有Spyder集成開發(fā)環(huán)境,類似于Matlab界面,模仿了Matlab的“工作空間”功能,可以很方便地觀察和修改數組的值.

        2.3.2 參數介紹

        由于電力用電數據達6.54 G,直接讀入內存,會影響電腦運行速度,甚至會導致電腦進程崩潰.python里的pandas模塊下read_csv函數很好地解決了這一問題.chunksize參數設置為200 000,進行每次200 000個數據迭代,將訓練數據讀取進來,分片式處理用戶用電數據.數據預處理后得到用戶用電特征數據僅3.01 MB,即將“大數據”轉化成“小數據”,有利于下一步隨機森林預測.將數據分為訓練集和測試集,訓練集有44 219 條記錄,測試集有9 956條記錄.

        Sklearn中隨機森林算法的參數有很多個,常用的參數如表2所示.

        表2 隨機森林分類器參數

        2.3.3 基于不同特征的實驗結果

        將n_estimators設置為600,max_features設置為3,criterion設置為gini,n_jobs設置為-1,輸入訓練集44 219行數據,測試數據9 956行數據,得出的結果如表3所示.

        表3 4個特征的測試數據

        其中準確率Accuracy定義為:

        (9)

        式中,Pt,Nt,Nf,Pf分別表示竊電用戶準確預測的人數,正常用戶準確預測的人數,正常用戶預測錯誤的人數,竊電用戶預測錯誤的人數.

        實驗結果顯示:隨機森林建立600棵樹,訓練44 219記錄,到對9 956條數據進行預測,只需要40 s,處理速度很快,且預測的準確率達86.5%.方差占權值很大,說明竊電用戶嫌疑最大的可能就是用電量波動性很大的用戶,而缺失值的權值很小,說明發(fā)生用戶用電量數據缺失,并不能完全代表該用戶是竊電用戶.

        移除缺失值特征,保留算法參數不變,得出的實驗結果如表4所示.

        表4 3個特征測試數據

        由表4可以看出,運行時間不變,準確率下降了一點,同時單一用戶數據含零權值的權值比重下降很多,說明含零百分比權重存在,但相對于方差和均值的重要性要弱一點.

        移除單一用戶數據含零權值特征,將max_fatures改為2,得出的實驗結果如表5所示.

        表5 2個特征的測試數據

        綜合表3,表4,表5可以看出,當提取的4個特征全部放入隨機森林決策樹中時,準確率會有所提高.

        2.3.4 基于隨機森林模型不同參數的測試

        不同參數測試數據如表6所示.

        表6 不同參數測試數據

        從表6可以看出,決策樹數量越大,運行時間越長,但準確率并不隨著n_estimators越大而變得越準;entropy比gini運行速度更快一點,同時準確率也提高了不少.

        2.3.5 實驗結果分析

        綜合上述實驗發(fā)現,當決策樹大小為300,判斷依據為信息熵entropy,以及最大特征數為3時,運行速度和準確都會提升,準確率基本維持在0.865 5.但該實驗還存在一些不足之處:如每個用戶的數據量不同,會導致提取特征的公平性有所缺失,因為用戶在每一個季度里的用電量是有明顯差異的,這會影響方差這一特征.因此,可以對每個用戶進行一個星期的均值特征提取,分析其波動情況,進一步提高預測準確率.

        此外根據以上實驗數據發(fā)現,本文所提出的4個特征值方差的重要性最高,即:如果一個用戶每天用電量變化幅度大,很可能就是竊電用戶;缺失值百分數的重要性最低,即:電表出現故障以及人為破壞電表的行為較少.

        3 結 語

        面對智能電網的不斷發(fā)展,電力數據暴增不可避免,通過單一提取用電量這一維數據,可以大大減小數據量,加快數據處理速度,同時通過隨機森林的并行處理,可以快速準確地挖掘出竊電用戶.

        [1] 周文婷,顧楠,王濤,等.基于數據挖掘算法的用戶竊電嫌疑分析[J].河南科技,2015(10):1 767-1 772.

        [2] 丁曉.用電檢查與反竊電智能信息平臺的設計與應用[J].電力需求側管理,2012(3):49-52.

        [3] 柴鵬飛,陳國棟.數據分析在反竊電中的應用[J].河南電力,2013(2):61-64.

        [4] 郭崇,王征,紀建偉,等.電力用戶數據中用電特征數據挖掘模型仿真[J].計算機仿真,2016(5):447-450.

        [5] 曹崢,楊鏡非.BP神經網絡在反竊電系統(tǒng)中的研究與應用[J].水電能源科學,2011(9):199-202.

        [6] 楊小銘,花永冬,黃淳驛,等.低壓臺區(qū)用戶的防竊電的趨勢嫌疑度分析方法研究[J].電器與能效管理技術,2016(10):28-36.

        [7] 李瑾,劉金朋.采用支持向量機和模擬退火算法的中長期負荷預測方法[J].中國電機工程學報,2011(16):63-66.

        [8] QUNLAN J R.Induction of decision tree[J].Machine Learning,1986(1):81-106.

        [9] HASTIE T,TIBSHIRANI R,FRIEDMAN J.統(tǒng)計學習基礎——數據挖掘、推理與預測[M].范明,柴玉梅,等,譯.北京:電子工業(yè)出版社,2004:40-44.

        [10] 馮少榮.決策樹算法的研究與改進[J].廈門大學學報(自然科學版),2007(4):496-500.

        [11] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011(3):32-38.

        (編輯 胡小萍)

        AnalysisofPowerConsumptionBehaviorBasedonRandomForest

        CHENJingjing,LIHongjiao,XUZhi

        (SchoolofComputerScienceandTechnology,ShanghaiUniversityofElectricPower,Shanghai200090,China)

        For a long time,the problem of electricity stealing has been plaguing power enterprises.It not only detriments the legitimate rights and interests of power enterprises,disturbs the normal order of the power supply,but also causes the electrical safety threat.The data of electrical power with machine learning algorithms is analyzed,which can predict the existence of users stealing power behavior.Based on feature extraction of electricity consumption in power data,and by using the random forests algorithm,a method of predicting the existence of users stealing power behavior is proposed.By comparing multiple sets of experimental data,the parameters of the algorithm are adjusted to improve the accuracy of forecasting.

        random forests; classify; stealing users; machine learning

        10.3969/j.issn.1006-4729.2017.04.005

        2017-03-09

        陳晶晶(1993-),男,在讀碩士,江蘇鹽城人.主要研究方向為電力信息技術專業(yè).E-mail:757167127@qq.com.

        國家自然科學基金(61403247);上海市信息安全綜合管理技術研究重點實驗室開放課題(AGK2015005);上海市科學技術委員會地方能力建設項目(15110500700).

        TP18;TP301.6;TM715

        A

        1006-4729(2017)04-0331-06

        猜你喜歡
        電表用電量決策樹
        02 國家能源局:1~7月全社會用電量同比增長3.4%
        01 國家能源局:3月份全社會用電量同比增長3.5%
        巧判電表測量對象
        電表“對”與“錯”歸類巧掌握
        一種針對不均衡數據集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        1~10月全社會用電量累計56552億千瓦時同比增長8.7%
        看電表
        基于決策樹的出租車乘客出行目的識別
        基于肺癌CT的決策樹模型在肺癌診斷中的應用
        日韩精品人妻中文字幕有码| 中文字幕乱码熟妇五十中出| 人妻夜夜爽天天爽| 女人夜夜春高潮爽a∨片传媒| 亚洲综合伦理| 日本女优中文字幕四季视频网站| 蜜桃视频羞羞在线观看| 妺妺窝人体色www在线| 日本入室强伦姧bd在线观看| 亚洲的天堂av无码| 亚洲日韩精品AⅤ片无码富二代| 麻豆精品国产免费av影片| 亚洲国产中文字幕视频| 三年片大全在线观看免费观看大全| 亚洲一本大道无码av天堂| 男女高潮免费观看无遮挡 | 一区二区三区四区国产亚洲| 亚洲处破女av日韩精品中出| 亚洲国产av无码专区亚洲av| 亚洲av无码一区二区三区在线| 亚洲AV无码一区二区水蜜桃| 国产白浆一区二区三区佳柔| 久久久精品久久久久久96| 成人国内精品久久久久一区| 国产成人av综合亚洲色欲| 亚洲国产精品一区亚洲国产| 91偷拍与自偷拍亚洲精品86 | 亚洲中久无码永久在线观看软件| 国产一区二区在线观看我不卡 | 亚洲欧美另类日本久久影院| 国产伦奸在线播放免费| 狠狠色狠狠色综合网| 国产亚洲午夜高清国产拍精品| 久久国产精品视频影院| 日本一区二区啪啪视频| 白白色白白色视频发布| 欧美天天综合色影久久精品| 四虎成人精品国产一区a| 国产精品久久熟女吞精| 又黄又刺激的网站久久| 国产一区二区内射最近更新|