亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電力用戶用電數(shù)據(jù)的異常數(shù)據(jù)審查和分類

        2016-07-05 01:27:03沈海濤秦靖雅莊才杰
        電力與能源 2016年1期
        關(guān)鍵詞:智能電網(wǎng)

        沈海濤,秦靖雅,陳 浩,范 蓉,莊才杰

        (1. 上海東捷建設(集團)有限公司,上海 201210;2. 復旦大學 計算機科學技術(shù)學院,上?!?01203;3. 網(wǎng)絡信息安全審計與監(jiān)控教育部工程研究中心,上?!?00203;4. 上海新能凱博實業(yè)有限公司,上?!?01210)

        電力用戶用電數(shù)據(jù)的異常數(shù)據(jù)審查和分類

        沈海濤1,秦靖雅2,3,陳浩2,3,范蓉1,莊才杰4

        (1. 上海東捷建設(集團)有限公司,上海201210;2. 復旦大學 計算機科學技術(shù)學院,上海201203;3. 網(wǎng)絡信息安全審計與監(jiān)控教育部工程研究中心,上海200203;4. 上海新能凱博實業(yè)有限公司,上海201210)

        摘要:在電網(wǎng)的運行過程中,電力自動抄表系統(tǒng)收集的用戶用電數(shù)據(jù)因為受到天氣原因,線路故障和系統(tǒng)故障等影響出現(xiàn)偏差和錯誤。這些偏差和錯誤是用戶用電數(shù)據(jù)中的異常數(shù)據(jù),它們的存在嚴重影響了電網(wǎng)運行時信息的準確采集和用戶用電信息分析。這就要求對用戶用電數(shù)據(jù)進行預處理,在大量的用戶用電數(shù)據(jù)中發(fā)現(xiàn)識別出異常數(shù)據(jù),進而采用一定的方法對異常數(shù)據(jù)進行處理和補償。著眼于自動抄表系統(tǒng)中用戶用電數(shù)據(jù)的數(shù)據(jù)清理方法研究,對用戶用電數(shù)據(jù)預處理的主要問題進行比較詳盡的討論,提出了用戶用電數(shù)據(jù)預處理的模型和流程方法,采用k近鄰法對異常數(shù)據(jù)進行分類,并利用實際用戶用電數(shù)據(jù)進行實驗,得到了初步的成果和經(jīng)驗,對未來智能電網(wǎng)系統(tǒng)中用戶用電數(shù)據(jù)的預處理具有借鑒的作用。

        關(guān)鍵詞:智能電網(wǎng);用戶用電數(shù)據(jù);數(shù)據(jù)預處理;k近鄰法;樣條曲線擬合

        隨著“智能電網(wǎng)”[1]的興起和普及,其運行過程中遇到的問題和挑戰(zhàn)越來越受到人們的重視。在智能電網(wǎng)系統(tǒng)中,要求電網(wǎng)自身能有效地應對可能出現(xiàn)的因為自然因素或突發(fā)故障而造成的電力系統(tǒng)失效,并且在提供傳統(tǒng)電力服務的同時對于用戶的需求能夠提供積極和及時的反應。在這種需求條件下,如何利用智能電網(wǎng)收集到各種數(shù)據(jù)進行決策就成為了一個非常重要的問題。

        然而在電網(wǎng)的實際運行過程中,保證用戶用電數(shù)據(jù)收集的準確性和完整性是一件非常困難的事情。受到傳感器故障,傳輸線路故障,自然天氣原因和其他復雜因素的影響,用戶用電數(shù)據(jù)會出現(xiàn)不同程度上的數(shù)據(jù)遺漏和錯誤。本文將這些用戶用電數(shù)據(jù)稱為異常數(shù)據(jù)(corrupted data)。異常數(shù)據(jù)的存在嚴重影響了電網(wǎng)系統(tǒng)中的決策,隱藏了實際可能發(fā)生的問題和故障,對指導用電和響應用戶需求造成不利影響。

        在現(xiàn)實的電網(wǎng)系統(tǒng)中,存在著相當比例的異常數(shù)據(jù),但是目前缺乏系統(tǒng),有效的處理模式和方法。本文采用k近鄰法對用戶用電數(shù)據(jù)中的異常數(shù)據(jù)進行了分類,建立一種具有一定普適性的模型和方法,并分析了異??赡艿某霈F(xiàn)原因,并利用實驗對方法模型進行了評估,對智能電網(wǎng)系統(tǒng)中的異常數(shù)據(jù)分析處理提供了一定的借鑒意義。

        1相關(guān)工作

        1.1數(shù)據(jù)挖掘領(lǐng)域的異常數(shù)據(jù)處理方法

        在數(shù)據(jù)挖掘領(lǐng)域,有大量的方法被提出來解決離群點檢測的問題。這些方法處理簡便,能比較好的分析出待檢測序列是否屬于“正常的”序列。但是這些方法在本文的工作環(huán)境中并不直接適用。本文希望在處理一個很長的時間序列時(用戶的用電量序列),識別出異常數(shù)據(jù),并加以分析,補償。

        文獻[6]研究出了一種在時間序列中發(fā)現(xiàn)“異常值”的方法。其方法可以簡要概括成幾個步驟:①將時間序列分割成等長的片段;②分別計算每兩個片段之間的“距離”來找出“距離”最近的鄰居片段;③與鄰居的距離最大的片段就是異常值。這種方法在處理時間序列中的異常值是有效的,但是在本文的研究問題中缺少時間序列長度的限制,很難確定分割的長度和總時間序列的長度。

        1.2用戶用電數(shù)據(jù)預測和分析中的預測和補償方法

        另外一個和研究問題有著緊密聯(lián)系的領(lǐng)域是用戶的用電預測[7]。本文的工作和用電預測的相似性在于利用歷史數(shù)據(jù)或者現(xiàn)有的用電信息,對一些時刻的用電情況進行預測和計算。用電預測往往利用歷史數(shù)據(jù)作為重要參考,通過建立模型或者統(tǒng)計的方法對未來某個時間點的用戶用電進行估計。在這個過程中,研究者假定歷史數(shù)據(jù)具有非常高的可信性,即歷史數(shù)據(jù)作為一種“正常的”用電數(shù)據(jù)來進行處理。而本文所要進行的用戶用電的異常數(shù)據(jù)識別和分析,是不能輕易地將歷史數(shù)據(jù)作為“可信的”或者是“正常的”用電數(shù)據(jù)。因為在歷史數(shù)據(jù)中也存在著異常數(shù)據(jù),這些異常數(shù)據(jù)在入庫時并不一定被識別和補償修正。如果利用這些數(shù)據(jù)作為現(xiàn)今用電數(shù)據(jù)的識別和分析處理基礎,有可能使得同樣或相似類型的異常數(shù)據(jù)不能被識別出來,甚至影響對正常用電數(shù)據(jù)的識別和分析。但是從補償數(shù)據(jù),對某個時間節(jié)點的用電數(shù)據(jù)利用現(xiàn)有信息進行估計的方面來說,用電預測工作對于異常數(shù)據(jù)識別和分析是有著一定的借鑒作用的??梢詫惓?shù)據(jù)中的遺漏數(shù)據(jù)看作是一種未知的用電情況,對這些數(shù)據(jù)進行處理,就是利用其他現(xiàn)有的用電信息,對其進行估計的過程,正好與用電預測的方法和適用范圍有著很大的相似性。

        在用電預測中,一種很有代表性的方法是指數(shù)的平滑技術(shù)[8]。所謂指數(shù)平滑技術(shù),是對未來某一時間節(jié)點的用電進行估計時,為用于進行估計的時間數(shù)據(jù)添加不同的權(quán)重,通過加權(quán)平均來估計出未來時刻的用電情況。

        此外,文獻[9]通過定義全年趨勢和局部趨勢,對于負載曲線(load curve)進行了刻畫,并在此基礎上進行數(shù)據(jù)的補償和研究。遺憾的是大部分的實際數(shù)據(jù)集沒有作者采用數(shù)據(jù)集的完備和準確,導致用電數(shù)據(jù)的模式界定變得更加困難。文獻[10]使用二維小波閾值方法進行噪聲處理,方法重點在于去除多余的噪聲。但異常數(shù)據(jù)的出現(xiàn)不完全是噪聲,所以這種方法具有局限性。文獻[11]提出了融合穩(wěn)健統(tǒng)計和B樣條函數(shù)的頻率異常數(shù)據(jù)處理方法,它通過設定閾值辨識尖峰值,采用B樣條基函數(shù)的線性組合重構(gòu)原始頻率序列,引入曲線粗糙度控制B樣條基函數(shù)學習過程中存在的過擬合問題.這個方法給用戶用電數(shù)據(jù)預處理提供了借鑒,對于異常數(shù)據(jù)中尖峰和缺失值的處理是一個很好的參考。

        1.3電力一線工作者的異常數(shù)據(jù)處理經(jīng)驗

        電力工作者在智能電網(wǎng)系統(tǒng)運行的實際過程中,積累了大量的第一手的經(jīng)驗。這些經(jīng)驗在理論上來說比較簡單,缺乏系統(tǒng)性和嚴謹性,但是對用戶用電數(shù)據(jù)處理具有一定的指導意義。

        文獻[12]針對用戶信息采集系統(tǒng)中的數(shù)據(jù)審查問題進行了一定的探討,提出了包含多個階段的數(shù)據(jù)審查策略。對于數(shù)據(jù)集常見的突變情況利用簡單的三天之內(nèi)電能數(shù)值的大小關(guān)系和數(shù)量關(guān)系,判斷是否出現(xiàn)了異常的電能突減和電能突增。

        在前人的勞動成果基礎上,本文主要進行了下面幾個方面的工作:

        (1)結(jié)合了統(tǒng)計數(shù)據(jù)預處理過程的基本方法和體系,針對自動化抄表系統(tǒng)用電數(shù)據(jù)的特點,提出了一個用于電力自動化抄表系統(tǒng)用電數(shù)據(jù)處理的數(shù)據(jù)處理模型,規(guī)范處理的過程和方法;

        (2)在進行數(shù)據(jù)審查階段的設計時,吸取了電力一線工作者在設計判斷邏輯和規(guī)則的成果,結(jié)合統(tǒng)計學的方法和知識,設計出獨立于某個電力信息數(shù)據(jù)集的規(guī)則和方法,使得新的數(shù)據(jù)審查策略在具有更好的適應性和普適性,同時處理的結(jié)果也更為準確;

        (3)在異常數(shù)據(jù)的分類中引入了k近鄰法,對數(shù)據(jù)審查階段發(fā)現(xiàn)的異常數(shù)據(jù)進行預測分類,再根據(jù)異常的分類采取相應的補償方法,從而提高了異常數(shù)據(jù)處理的效率和準確性。

        2模型建立和異常分類

        本文建立的電表數(shù)據(jù)處理模型由三部分組成:數(shù)據(jù)審查模塊、異常分類模塊和數(shù)據(jù)修正模塊。數(shù)據(jù)審查模塊根據(jù)設定好的審查原則對數(shù)據(jù)集進行審查,發(fā)現(xiàn)違反審查原則的異常數(shù)據(jù)。異常分類模塊對發(fā)現(xiàn)的異常數(shù)據(jù)運用分類器進行分類,得到異常數(shù)據(jù)的類型。數(shù)據(jù)修正模塊根據(jù)異常數(shù)據(jù)的類型,采取修正補償或者標記忽略的處理方法,對異常數(shù)據(jù)進行處理。

        2.1數(shù)據(jù)審查模塊

        數(shù)據(jù)審查模塊的核心是審查的規(guī)則。本文通過設計合適的審查規(guī)則,來發(fā)現(xiàn)從正常數(shù)據(jù)中發(fā)現(xiàn)異常數(shù)據(jù),為異常分類打好基礎。模型中的審查原則有下面幾個:

        (1)檢查數(shù)據(jù)中時間字段時間的合理性。比如2月份是否出現(xiàn)了三十號。

        (2)針對電表讀數(shù)總電量和峰谷電量,本文設計的審查策略是|總用電量—高峰用電電量-低谷用電電量|<ε,ε的值和數(shù)據(jù)集自身的性質(zhì)有關(guān)。如果數(shù)據(jù)集采集過程中誤差較大,則ε的值要設置的大一些。在這個實驗數(shù)據(jù)集中,本文采用的ε值是0.3。

        (3)針對用戶總用電量本文設計了用電量不能為負值的審查策略。數(shù)據(jù)集中的電表讀數(shù)是電表自動抄送返回的電量使用累加數(shù)值??傆秒娏客ㄟ^后一天的數(shù)據(jù)值減去前一天的數(shù)據(jù)值作為前一天的用電量。在遇到月份的邊界時,讀入下一個月的數(shù)據(jù)記錄文件來計算最后一天的用電量。

        2.2異常分類模塊

        通過數(shù)據(jù)審查模塊的處理得到了違反審查原則的異常數(shù)據(jù)。然而,只是將異常數(shù)據(jù)識別出來還是不夠的,有些異常數(shù)據(jù)的產(chǎn)生是由于偶然因素造成的,在經(jīng)過數(shù)據(jù)修正后仍然可以用于數(shù)據(jù)分析和數(shù)據(jù)挖掘工作;而有些異常數(shù)據(jù)的產(chǎn)生是由于電表或者通信線路的故障產(chǎn)生的,這些數(shù)據(jù)應該被標記出來用于故障的排查和分析,不能用以數(shù)據(jù)分析和決策。

        通過對數(shù)據(jù)集的分析,本文將異常數(shù)據(jù)的類型分成了下面三類:normal,change和complex類型。在這里,為了描述異常數(shù)據(jù)的特征,本文引入毛刺這個術(shù)語。

        毛刺指的是電表讀數(shù)繪制成曲線后出現(xiàn)的向上的尖峰。比如在電表讀數(shù)序列[1.0,2.0,3.0,6.0,4.0]中,片段[3.3,6.0,4.0]就是一個毛刺。定義發(fā)生毛刺周圍邊界值對應的時間的差值為毛刺的寬度,毛刺寬度等于5-3=2。

        異常數(shù)據(jù)的第一種類型是normal類型。這種異常的特點是用戶用電曲線圖中的異常以毛刺為主,整體曲線趨勢正常,沒有出現(xiàn)大幅度下移的情況。對于這種類型的電表來說,可能出現(xiàn)多個毛刺,但是一般寬度都比較少。一個典型的normal類型的用戶用電曲線如圖1所示。

        圖1 normal類型用戶用電曲線示例

        異常數(shù)據(jù)的第二種類型是change類型。這種類型的特點是用戶用電曲線中毛刺很少,整體曲線有一次大幅度的下移,將下移段平移之后可以看出曲線的上升趨勢一致。這種類型的產(chǎn)生很有可能是智能電網(wǎng)實際工作中的換表或者是電表讀數(shù)清零造成的,所以用change來命名這種異常類型。一個典型的change類型的用戶用電曲線如圖2所示。

        圖2 change類型用戶用電曲線示例

        最后一種異常類型是complex類型。這種類型的用戶用電曲線比較雜亂,無規(guī)律,往往出現(xiàn)了比較多的毛刺,或者是毛刺寬度特別大。曲線的整體趨勢也比較混亂,違反了用戶用電曲線整體向上的原則。一個典型的complex類型的用戶用電曲線如圖3所示。

        圖3 complex類型用戶用電曲線示例

        本文采用K近鄰(kNN)方法[13]對異常數(shù)據(jù)進行分類。K近鄰法的輸入是實例的特征向量,輸出為實例的類別。K近鄰法假定給定一個訓練實例集,其中的實例類別已定。分類時,對新的實例,根據(jù)K個最近的訓練集實例的類別,采取多數(shù)表決等方式預測類別。

        在異常數(shù)據(jù)的K近鄰法分類器實現(xiàn)中,本文采取歐氏距離作為距離度量,類別決定采取多數(shù)表決的方式。分類器的重點在于特征的選取。

        K近鄰方法有多種實現(xiàn),常見的有線性掃描法和kd樹等。線性掃描法分類時對每一個輸入向量,對數(shù)據(jù)進行掃描,分別計算輸入向量和訓練集中每個數(shù)據(jù)的距離,然后選取K近鄰。線性掃描法實現(xiàn)簡單,在數(shù)據(jù)集較少時經(jīng)常采用。本文在實現(xiàn)K近鄰方法時采用的也是線性掃描法。

        數(shù)據(jù)集較少時,常常采用交叉驗證(cross-validation)的方法進行訓練效果的評測。數(shù)據(jù)集較少時,有時選取的測試集不具有代表性,使得分類器效果的結(jié)果產(chǎn)生偏差,影響對分類器真實分類準確率的檢驗。交叉驗證的思想在于盡可能多地利用數(shù)據(jù),通過數(shù)據(jù)的多次利用達到隱性增大數(shù)據(jù)集大小的效果。交叉驗證的基本步驟如下:將數(shù)據(jù)集分成K等分,第1次訓練時采取第1份作為測試集,其余K-1份作為訓練集,得到測試結(jié)果1;接著選取第2份作為測試集,其余作為訓練集,得到測試結(jié)果2;同樣的過程進行K次,最后對測試結(jié)果取平均,得到分類器在這個數(shù)據(jù)集上的分類效果。

        在進行分類器訓練時,首先要進行輸入數(shù)據(jù)特征的特征提取工作,將輸入數(shù)據(jù)轉(zhuǎn)化成特征向量。特征提取對于分類器最后的效果有很大的影響。如果特征選取的好,特征會把輸入數(shù)據(jù)的特性表示出來,在分類器訓練時一般來說會獲得更好的效果;如果特征選取的不好,輸入數(shù)據(jù)的特性沒有被選取的特征表示出來,反而使得分類器訓練時產(chǎn)生偏離,降低了分類器的準確率和效果。

        在用戶用電數(shù)據(jù)集的處理中,本文選取了三個特征來構(gòu)成輸入向量:異常數(shù)量,毛刺寬度總和重復出現(xiàn)讀數(shù)的最大值。

        異常數(shù)量從一個方面反映了數(shù)據(jù)的異常程度。一般來說,一個電表異常數(shù)量越多,就可以認為這個電表自身的問題越大,這些異常的產(chǎn)生可能是系統(tǒng)性或者是自身性的,而不是偶爾的異常。反之,異常數(shù)量少的電表可能預示了偶爾的異常,在分類中更有可能被認為是出現(xiàn)偶爾異常的電表,而不是來自系統(tǒng)性的錯誤。

        毛刺寬度是異常的一種數(shù)量上最直觀的衡量。在智能電網(wǎng)的實際運行過程中,偶爾出現(xiàn)的異常往往在時間上的延續(xù)比較短,而系統(tǒng)性的異常在時間上延續(xù)往往會比較久。然而,在分類中,有一些電表可能會出現(xiàn)的比較多的異常數(shù)量,但是他們的毛刺寬度都比較少,本文認為這些電表更接近于正常的表。在實際數(shù)據(jù)中,毛刺很可能不止出現(xiàn)一次,所以通過毛刺寬度總和這個特征來刻畫數(shù)據(jù)的這種特性。

        重復讀數(shù)的最大值是用戶用電數(shù)據(jù)集比較特有的屬性之一。在智能電網(wǎng)實際運行過程中,在通信線路出現(xiàn)異常時,搜集數(shù)據(jù)的傳感器的數(shù)據(jù)不能及時傳到收集器中,收集器常常會以發(fā)生異常前采集到的數(shù)據(jù)作為填充。重復讀數(shù)出現(xiàn)的多,暗示著用戶用電系統(tǒng)出現(xiàn)的通信或者其他故障比較多,有理由將其歸類為異常頻繁的表。選取這個特征從另外一個方面刻畫了電表讀數(shù)數(shù)據(jù)的特征,可以幫助進行異常電表的分類。

        2.3數(shù)據(jù)修正模塊

        其中ti是節(jié)點值。

        B樣條曲線具有局部性,連續(xù)性,幾何不變性和靈活性等特點,可以較為準確地刻畫用戶用電曲線的變化趨勢,也能較為準確地填補出用戶用電曲線某一處的缺失值。

        3實驗結(jié)果

        3.1實驗數(shù)據(jù)集情況

        在這篇論文中,實驗數(shù)據(jù)集采用的是某電力公司采集到的用戶用電數(shù)據(jù)。

        數(shù)據(jù)集中包含兩種不同類型的用戶:居民用戶和大用戶。大用戶指的是工廠,企業(yè)等較為集中式的用電單位。這些用戶隸屬于幾個不同的臺區(qū),每個臺區(qū)下轄多個自動采集的電表。每個電表記錄一個用戶的總電量,用電高峰時期的用電量和用電低谷時期的用電量。電表采用累加計數(shù)的方式,當電表讀數(shù)接近量程的時候會進行換表操作,重新對用電量進行累加計算。

        數(shù)據(jù)集的采集時間從2013年1月1日開始,到2013年10月31日結(jié)束,時間跨度為十個月。一般來說居民用戶的電力采集粒度(采集時間節(jié)點的間隔時間)小于大用戶,但是在這個數(shù)據(jù)集中時間的粒度都是一樣的,為一天采集一次。

        3.2實驗過程和結(jié)果

        經(jīng)過數(shù)據(jù)審查模塊的分析處理,實驗數(shù)據(jù)集中各個臺區(qū)的異常數(shù)量分布情況如表1所示。

        表1 實驗數(shù)據(jù)集異常數(shù)據(jù)的臺區(qū)分布情況

        為了訓練異常電表的分類器,本文從5個臺區(qū)分別抽取了50個電表進行標記工作。實際用于訓練和測試的異常條目為193個,其中normal類型的電表有111個,change類型的有41個,complex類型的有41個。在實驗中,采取90%的數(shù)據(jù)作為訓練集,剩下的10%作為測試集。

        本文使用錯誤分類率作為指標對分類結(jié)果進行評判,錯誤分類率由分類錯誤的數(shù)目除以分類總數(shù)得到。由于訓練集的數(shù)量有限,采用了交叉驗證的方式進行訓練,計算錯誤率的平均值。表2給出了采取不同k值的情況下分類率情況(見表2)。

        表2 不同k值情況下的錯誤分類率

        除此之外,實驗中還測試了測試集占總的標記數(shù)據(jù)集比率不同時的情況(見表3)。測試時采取的k值為2。

        表3 不同測試集占比的錯誤分類率

        3.3實驗結(jié)果分析和展望

        從異常數(shù)據(jù)的分布情況我們可以發(fā)現(xiàn),在一些實際運行的電力系統(tǒng)中,異常數(shù)據(jù)總量雖然不多,但是比較廣泛地分布。這說明了分析異常數(shù)據(jù),進行異常分類的必要性和迫切性。

        從分類的結(jié)果說,異常電表的分類器還是比較準確的,k值的選取不是越大越好,在k=2時候分類器的效果最好。k值過大時反而訓練效果發(fā)生下降。當k=1的時候,實際上選取的是最近鄰。實驗結(jié)果表明采取較大的k值(k>3)時,訓練效果并沒有較選取最近鄰有所提高,說明在現(xiàn)有的特征提取下,同一類的數(shù)據(jù)聚合程度還是很高,還有較大的改進空間。

        測試集的比率占比越大,訓練的例子就越少,分類器的準確率下降。綜上所述,使用這個分類器可以對發(fā)現(xiàn)的異常類型進行較為快速、準確的分類。

        未來的工作主要在于進一步提高分類器的準確率。一方面將會加強對特征的提取和選擇,爭取改進的特征更加能體現(xiàn)數(shù)據(jù)集本身的特性,加強分類內(nèi)部之間的聚合度和分類之間的距離;另一方面改進分類器的算法,使用其他方法或者K近鄰法的改進方法,從算法的層面提高分類器的分類準確性。

        參考文獻:

        [1]Smart Grid Available via http://energy.gov/oe/technology-development/smart-grid para1.

        [2]Ramaswamy Sridhar, Rastogi Rajeev, and Shim Kyuseok. Efficient Algorithms for Mining Outliers from Large Data Sets. SIGMOD, 2000.

        [3]NAIRAC A, TOWNSEND N, KING S, CARR R, COWLEY P, TARASSENKO L. A System for the Analysis of Jet Engine Vibration Data. Integrated Computer-Aided Engineering, 1999.

        [4]Simon Hawkins, Hongxing He, Graham Williams, and Rohan Baxter. Outlier Detection Using Replicator Neural Networks. DaWaK, 2002.

        [5]VICTORIA J. hodge and Jim Austin. A Survey of Outlier Detection Methodologies. Artificial Intelligence Review, 2004.

        [6]EAMONN KEOGH, JESSICA LIN, ADA FU. HOT SAX: Finding the Most Unusual Time Series Subsequence: Algorithms and Applications. ICDM 2005.

        [7]JAMES W, TAYLOR. An Evaluation of Methods for Very Short-Term Load Forecasting, Using Minute-by-Minute British Data. International Journal of Forecasting, 2008, Vol. 24, pp. 645-658.

        [8]NIST. Available via: http://www.itl.nist.gov/.

        [9]CHEN J, LI W, LAU A, et al. Automated load curve data cleansing in power systems[J]. Smart Grid, IEEE Transactions on, 2010, 1(2): 213-221.

        [10]童述林, 文福拴, 陳亮. 電力負荷數(shù)據(jù)預處理的二維小波閾值去噪方法[J]. 電力系統(tǒng)自動化, 2012, 36(2): 101-105.

        TONG Shu-lin, WEN Fu-shuan, CHEN Liang. A two-dimension wavelet threshold de-noising method for electric load data pre-processing[J]. Automation of Electric Power Systems,2012,36(2):101-105.

        [11]劉育明, 姚陳果, 孫才新, 等. 采用穩(wěn)健統(tǒng)計與 B 樣條函數(shù)處理頻率擾動記錄單元異常數(shù)據(jù)[J]. 高電壓技術(shù), 2012, 38(6): 1500-1505.

        LIU Yu-ming, YAO Chen-guo, SUN Cai-xin. Outlier detection of frequency disturbance recorder data using robust statistics and b-spline functions[J]. High Voltage Engineering,2012,38(6):1500-1505.

        [12]錢立軍, 李新家. 用電信息采集系統(tǒng)中數(shù)據(jù)審查策略與異常原因分析[J]. 電力需求側(cè)管理, 2013,15(1): 45-47.

        QIAN Li-jun, LI Xin-jia. Strategy of the data checking and the exception reason analysis in the information collection system[J]. Power Demand Side Management,2013,15(1):45-47.

        [13]李航. 統(tǒng)計學習方法[M]. 北京:清華大學出版社, 2012, 37-40.

        [14]孫家廣,等. 計算機圖形學[M].北京:清華大學出版社, 1998.

        (本文編輯:楊林青)

        Anomaly Detection and Category of Electrical Utilization Data

        SHEN Hai-tao1, QIN Jing-ya2,3,CHEN Hao2,3, FAN Rong1,ZHUANG Cai-jie4

        (1. Dongjie Construction (Group) Co., Ltd., Shanghai 201210, China;2. School of Computer Science, Fudan University, Shanghai 201203, China;3. Engineering Research Center of Cyber Security Auditing and Monitoring, Ministry of Education, Shanghai 200203, China;4. Xinneng Kaibo Industrial Co., Ltd., Shanghai 201210, China)

        Abstract:During the grid operation, users′ consumption data collected by the automatic metric gathering system may have deviations and errors due to the weather, line failures and system failures. These deviations and errors are anomalies in the data and their presence has seriously affected the accuracy of the information collection and analysis of user consumption. It is urgent to preprocess user consumption data, including identifying anomaly data in the large-scale user consumption data and using certain methods to handle and compensate abnormal data. This paper focuses on the data cleansing method for user consumption data in an automated metric gathering system. It presents a detailed discussion of major problems in user consumption data, builds a model for data preprocessing using k-nearest neighbor method to classify corrupted data and carries experiments based on the above methods and model. The preliminary results are presented and concluded, which provides reference value for the future work of user consumption data preprocessing.

        Key words:smart grid; user consumption data; data preprocessing; k-nearest neighbor; spline smoothing

        DOI:10.11973/dlyny201601004

        作者簡介:沈海濤(1977),男,工程師,從事電力工程管理。

        中圖分類號:TM727

        文獻標志碼:B

        文章編號:2095-1256(2016)01-0017-06

        收稿日期:2015-10-15

        猜你喜歡
        智能電網(wǎng)
        美國與中國智能電網(wǎng)的發(fā)展模式比較與分析
        論大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應用
        智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)
        智能電網(wǎng)高可靠通信系統(tǒng)探究
        智能電網(wǎng)信息與通信技術(shù)研究
        智能電網(wǎng)背景下的調(diào)度安全管理
        淺談智能電網(wǎng)的調(diào)控一體化發(fā)展
        高可靠的電網(wǎng)虛擬化云資源調(diào)度技術(shù)
        智能電網(wǎng)下電力網(wǎng)絡營銷模式
        智能電網(wǎng)中光纖通信系統(tǒng)的可靠性分析
        亚洲有码转帖| 国产亚洲超级97免费视频| 人成午夜免费视频无码| 国产亚洲日韩在线三区| 国产精品入口蜜桃人妻| 国产人妖直男在线视频| 久久天天躁夜夜躁狠狠85麻豆| 日本老熟妇乱| 亚洲免费不卡| 91亚洲国产成人久久精品网站| 中文字幕人妻少妇伦伦| 国内精品卡一卡二卡三| 不卡高清av手机在线观看| 日韩av免费在线不卡一区| 蜜臀av一区二区三区久久| 少妇激情一区二区三区视频| 国产成人精品电影在线观看18| 精品中文字幕手机在线| 亚洲综合偷自成人网第页色| 日本老熟妇乱| 无码片久久久天堂中文字幕| 日本在线一区二区在线| 亚洲综合天堂av网站在线观看| 无码人妻丰满熟妇片毛片| 欧美激情国产一区在线不卡| 国产69精品麻豆久久| 精品成在人线av无码免费看| 久久精品国产亚洲av瑜伽| 精品蜜桃av一区二区三区| 三级黄色片免费久久久| 国产一区二区三精品久久久无广告| 亚洲 无码 制服 丝袜 自拍| 亚洲hd高清在线一区二区| 成年免费a级毛片免费看| 人妻无码中文字幕免费视频蜜桃| 国产优质女主播在线观看| 青青草小视频在线播放| 精品少妇人妻av一区二区| 日本特黄a级高清免费大片| 成熟的女人毛茸茸色视频| 婷婷五月婷婷五月|