亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘技術的電網(wǎng)時序數(shù)據(jù)質量維護研究

        2022-02-18 01:34:04謝瀚陽彭澤武唐重陽肖嘯魏理豪
        電測與儀表 2022年2期
        關鍵詞:數(shù)據(jù)挖掘檢測質量

        謝瀚陽,彭澤武,唐重陽,肖嘯,魏理豪

        (1.廣東電網(wǎng)有限責任公司信息中心, 廣州 510062; 2.深圳市康拓普信息技術有限公司,廣東 深圳 518034)

        0 引 言

        隨著科學技術的不斷進步,電網(wǎng)的智能化水平也越來越高,也因此在電網(wǎng)運行和設備監(jiān)測的過程中產(chǎn)生了大量的數(shù)據(jù)[1-2],例如系統(tǒng)運行數(shù)據(jù)、設備狀態(tài)數(shù)據(jù)、用戶需求數(shù)據(jù)等等。另外,物聯(lián)網(wǎng)技術和云計算的蓬勃發(fā)展,也進一步增強了電網(wǎng)數(shù)據(jù)的體量和復雜度。如此龐大的數(shù)據(jù)體系難免會帶來一些數(shù)據(jù)質量問題,如數(shù)據(jù)缺失、數(shù)據(jù)冗余、數(shù)據(jù)異常等。數(shù)據(jù)質量的好壞不僅關乎電網(wǎng)應用分析的可靠性與正確性,還會對電力系統(tǒng)的穩(wěn)定運行產(chǎn)生影響[3-4]。所以,進行高效可靠的數(shù)據(jù)質量管理對電力系統(tǒng)具有重要意義。

        數(shù)據(jù)質量維護是數(shù)據(jù)質量管理的重要組成部分[5],可以有效檢測出問題數(shù)據(jù)并進行篩除,是改善數(shù)據(jù)質量的重要組成部分。不少學者在數(shù)據(jù)質量維護方面作出了相關的貢獻。

        文獻[6]以CIM/E文本為載體,改進多源數(shù)據(jù)篩選較優(yōu)質量數(shù)據(jù)的手段,由借助主站狀態(tài)估計對現(xiàn)場數(shù)據(jù)進行反饋,提高了電網(wǎng)調(diào)度系統(tǒng)的整體數(shù)據(jù)質量;文獻[7]從多源多時空角度出發(fā),基于配網(wǎng)SCADA數(shù)據(jù)提出一種用于綜合檢測與修正電壓數(shù)據(jù)質量的策略,并通過算例證明了所提方法能有效檢測出不滿足精度要求的電壓數(shù)據(jù);文獻[8]設計一種考慮多維度電網(wǎng)調(diào)度數(shù)據(jù)質量的綜合分析與評價系統(tǒng),為電網(wǎng)調(diào)度人員提供更為直觀的綜合數(shù)據(jù)考核與評價手段。

        近年來,數(shù)據(jù)挖掘技術在電網(wǎng)數(shù)據(jù)管理中的應用也越來越廣泛[9-10]。文獻[11]針對電能質量檢測問題,應用數(shù)據(jù)挖掘技術,提出了一種的電能質量數(shù)據(jù)分析處理體系,并應以某城市電網(wǎng)為例,獲得了良好的效果;文獻[12]建立基于數(shù)據(jù)挖掘的營銷分析方法模型,成功用于分析給定市場環(huán)境中各種因素之間價格變化的層次關系。文獻[13]對模糊角力分析進行改進,并用于電網(wǎng)不良數(shù)據(jù)的檢測與辨識,獲得良好成效。

        關于電力數(shù)據(jù)質量檢測已有不少研究,但仍存在以下問題:

        (1)大多檢測方法對全部樣本進行統(tǒng)一分析,但隨著數(shù)據(jù)量的不斷增長,逐漸出現(xiàn)檢測效率低下的問題;

        (2)對數(shù)據(jù)的質量好壞評價已有較多研究,但對于數(shù)據(jù)的問題定位研究相對較少。

        基于數(shù)據(jù)挖掘技術,針對不同系統(tǒng)的數(shù)據(jù)結構特點有所不同的特點,結合使用決策樹算法與數(shù)據(jù)離群檢測兩種方法,提高數(shù)據(jù)檢測的效率的同時,快速定位數(shù)據(jù)的問題類型,便于開展數(shù)據(jù)修復與改進。

        1 智能電網(wǎng)時序數(shù)據(jù)質量分析

        1.1 電力數(shù)據(jù)傳輸過程分析

        科學技術的不斷發(fā)展使電網(wǎng)的智能化和信息化水平大大提高,對電網(wǎng)數(shù)據(jù)的需求量也逐漸增大。智能電網(wǎng)系統(tǒng)可以通過數(shù)據(jù)采集與監(jiān)控系統(tǒng)、能量管理系統(tǒng)等,實時獲取相關生產(chǎn)和運行數(shù)據(jù)。智能電網(wǎng)將獲取的源頭數(shù)據(jù)存儲進入數(shù)據(jù)庫,并進行相關管理。與此同時,用戶則可通過用戶訪問接口、手機APP等訪問所需數(shù)據(jù)[14]。該數(shù)據(jù)邏輯結構如圖1所示。

        圖1 電力數(shù)據(jù)傳輸邏輯結構圖Fig.1 Logical structure diagram of power data transmission

        1.2 電力統(tǒng)計數(shù)據(jù)問題

        隨著電網(wǎng)體系規(guī)模的不斷擴大,其運行過程中產(chǎn)生的數(shù)據(jù)量也越來越豐富,這其中蘊含著大量的信息,是可以影響發(fā)電、輸配電、用戶用電管理的決策指標的基礎。但由于設備故障、認為原因等,電力數(shù)據(jù)可能會存在一些誤差甚至是錯誤,這不僅不能為電力系統(tǒng)提供可靠的數(shù)據(jù)分析基礎,而且可能因此帶來決策錯誤,影響整個系統(tǒng)的良好運行。圖2指出電力數(shù)據(jù)傳輸過程中可能會遇到的問題。

        圖2 電力數(shù)據(jù)主要問題Fig.2 Main problems of power data

        (1)格式錯誤。所獲取的數(shù)據(jù)格式應是統(tǒng)一的,不滿足格式的數(shù)據(jù)組應視為不合格。另外在數(shù)據(jù)傳送過程中,可能會出現(xiàn)亂碼等錯誤,這也是格式檢查的重要方向;

        (2)精度錯誤。在數(shù)據(jù)獲取和傳輸過程中,所有數(shù)據(jù)的精度都應保持一致,精度與規(guī)定不一致的數(shù)據(jù)應為不合格;

        (3)數(shù)據(jù)越限。每個數(shù)據(jù)都有自身約束范圍,數(shù)據(jù)應在規(guī)定范圍內(nèi);

        (4)數(shù)據(jù)冗余。數(shù)據(jù)傳輸過程中可能存在重復記錄的問題,因此會產(chǎn)生數(shù)據(jù)冗余;

        (5)數(shù)據(jù)缺失。在數(shù)據(jù)獲取和用戶訪問端,所獲取的數(shù)據(jù)量應一致,不能存在缺失記錄或缺失字段;

        (6)合理性問題。所獲取數(shù)據(jù)都應滿足電力系統(tǒng)運行要求,各數(shù)據(jù)之間互相約束,數(shù)據(jù)段不滿足運行條件的為不合格數(shù)據(jù)段。

        2 時序數(shù)據(jù)質量維護體系構建

        為了快速準確地篩選質量差的數(shù)據(jù),結合使用數(shù)據(jù)挖掘技術中的決策樹法和離群檢測法,充分利用決策樹的快速分類和離群檢測法在數(shù)據(jù)相關性檢測的優(yōu)勢,可操作性和準確度更高。

        2.1 決策樹算法

        決策樹算法是分類算法的一種。它首先要預處理原始數(shù)據(jù),然后通過對原始數(shù)據(jù)的初步分析建立分類規(guī)則,分類規(guī)則一般以樹的形式出現(xiàn),通過建立的樹對樣本訓練集進行實質的分析[15-16]。

        采用最經(jīng)典的ID3算法建立相關決策樹。在該算法中,各類別的不確定性是判斷分類效果的標準。這里用信息增益值描述該標準,其中信息增益值越高,不確定性越低。具體的步驟如下:

        設S是包含m個數(shù)據(jù)樣本的集合,分類特性共n個,記為Bi(1,2...n),其中Bi所包含的樣本數(shù)為mi,則對于S的總信息熵為:

        (1)

        令Sj是集合S中特性Bi類別中有j個數(shù)據(jù)點的子集,則屬性Bi的信息熵為:

        (2)

        式中I(Sj)是Sj分至各個屬性的信息熵。

        屬性Bi在集合S的信息增益G(S,Bi)為:

        G(S,Bi)=I(D)-I(D,Bi)

        (3)

        G(S,Bi)越大,說明屬性Bi對分類起到的作用越大。所以,決策樹的分支節(jié)點應是信息增益最大的特性。

        構建時序數(shù)據(jù)質量檢測順序決策樹時,決策樹算法需要使用歷史數(shù)據(jù)訓練集。選取某地區(qū)的典型歷史數(shù)據(jù),并形成數(shù)據(jù)訓練集,具體如表1所示。

        表1 電網(wǎng)數(shù)據(jù)訓練集Tab.1 Power grid data training set

        輸入訓練集經(jīng)過決策樹算法可形成初始決策流程,指標檢測順序如圖3所示。

        圖3 指標決策順序Fig.3 Order of indicator decision

        由上述分析可知,電力數(shù)據(jù)的格式錯誤、精度錯誤、數(shù)據(jù)越限、數(shù)據(jù)冗余、數(shù)據(jù)缺失等問題的檢測方式相對簡單,可對該數(shù)據(jù)點獨立進行檢測。但數(shù)據(jù)的合理性問題需要綜合考慮整體運行情況,檢測相對更為復雜,引入離群檢測法對數(shù)據(jù)合理性進行分析。

        2.2 離群檢測法

        離群點檢測用于檢測數(shù)據(jù)樣本中明顯偏離于其他數(shù)據(jù)的樣本,該類樣本不能滿足數(shù)據(jù)的普遍特征或行為,是數(shù)據(jù)挖掘技術的重要研究方向[17-18]。離群點檢測方法按照數(shù)據(jù)挖掘技術的不同可分為基于統(tǒng)計的離群檢測、基于深度的離群檢測、基于聚類的離群檢測等。本文采用基于距離的利離群檢測對數(shù)據(jù)合理性問題進行分析,篩選出不合格的數(shù)據(jù)。

        聚類的思想主要是利用數(shù)據(jù)樣本和各類別間的相互關系[19-20],通過把樣本劃分為不同的類,使得同一分類內(nèi)的數(shù)據(jù)點相似性最大,而不同分類之間的差異性最高。所采用的離群檢測方法主要分為兩個階段:首先采用K-means將數(shù)據(jù)進行聚類;然后針對每個數(shù)據(jù)樣本,計算其到距其最近類中心的距離,將該距離記為離群度量值。如果該數(shù)據(jù)樣本的離群度量值偏大,則為離群數(shù)據(jù);反之,就是正常數(shù)據(jù)。

        假設數(shù)據(jù)樣本X={x1,x2, …,xi, …,xn},設定分類數(shù)目為M,形成M個簇T={tm,m=1, 2, …,M}

        步驟1:首先隨機選擇M個數(shù)據(jù)序列作為初始聚類中心c1,c2,…cM;

        步驟2:計算每個數(shù)據(jù)序列和每個聚類中心的距離,把數(shù)據(jù)序列分配給距它距離最小的聚類中心,直到全部數(shù)據(jù)序列都被分配。計算各類聚類中心cm到所有屬于tm簇的元素xi的距離平方和為:

        (4)

        步驟3:計算各類數(shù)據(jù)序列距其所在類別中心cm的距離平方和L(T)。

        (5)

        式中rmi表示類別判定系數(shù),當xi∈tm,rmi=1;反之,rmi=0。聚類中心更新為各類別中全部數(shù)據(jù)序列的平均值;

        步驟4:返回步驟2,直至各聚類中心都不發(fā)生改變且L(T)小于設定參考值,聚類結束。

        引入BMP指標來確定數(shù)據(jù)樣本的最佳分類數(shù)和評估聚類結果[21-22]。BWP是描述某樣本分類和它相鄰類別關系的指標,數(shù)學表達式如下:

        (6)

        式中Dw為聚類距離,表示最小類間距離和類內(nèi)距離之和;Dn為聚類離差距離,表示最小類間距離和類內(nèi)距離之差。

        BWP基于樣本幾何結構對數(shù)據(jù)進行分析,BWP數(shù)值越大,說明數(shù)據(jù)樣本的聚類效果越準確。

        2.3 數(shù)據(jù)質量維護總流程

        數(shù)據(jù)質量維護流程圖如圖4所示。

        圖4 數(shù)據(jù)質量維護流程圖Fig.4 Flow chart of data quality maintenance process

        2.4 數(shù)據(jù)質量異常原因

        在電網(wǎng)運行過程中,以下幾種情況可能會導致異常數(shù)據(jù)的產(chǎn)生:

        (1)量測數(shù)據(jù)在傳輸過程中出現(xiàn)偶然性誤差,可能導致數(shù)據(jù)冗余、格式不正確、數(shù)據(jù)缺失、精度不足等問題;

        (2)量測或傳輸系統(tǒng)故障、受到干擾引起的異常,可能導致數(shù)據(jù)冗余、數(shù)據(jù)越限等問題;

        (3)電力系統(tǒng)各個量測點非同時測量,可能會引起數(shù)據(jù)合理性不足等問題[23]。

        3 算例分析

        以某地區(qū)配電網(wǎng)某檢測點為研究對象,結合本文提出的時序數(shù)據(jù)質量維護體系,對該地區(qū)某時段內(nèi)電力數(shù)據(jù)進行分析。該點相關數(shù)據(jù)參數(shù)取值范圍為:電壓U∈[198,235.4],電流I∈[0,288.68],有功功率P∈[0,200],無功功率Q∈[0,120]。為了便于對比分析,本文僅列出部分樣本數(shù)據(jù),如表2所示。

        表2 部分樣本數(shù)據(jù)Tab.2 Partial sample data

        通過文中的時序數(shù)據(jù)質量維護體系可以分析出數(shù)據(jù)是否有格式錯誤、精度錯誤、數(shù)據(jù)越限、數(shù)據(jù)冗余、數(shù)據(jù)缺失等問題,得到如表3所示結果。

        表3 電網(wǎng)數(shù)據(jù)訓練集Tab.3 Power grid data training set

        在樣本中,有的數(shù)據(jù)點沒有上述問題,但是否存在合理性問題仍需通過離群檢測法進行判斷。有上述分析可知,共20個樣本數(shù)據(jù)需進行離群檢測。采用基于聚類的離群檢測法,樣本集分類個數(shù)依據(jù)BWP指標確定。不同分類數(shù)的BWP指標變化如圖5所示。

        由圖5可知,最佳分組數(shù)為六組。當分組數(shù)為6時,結果如圖6所示。

        圖5 不同分類數(shù)的BWP指標Fig.5 BWP indices of different classification numbers

        圖6 離群檢測結果示意圖Fig.6 Schematic diagram of outlier detection results

        可以看出,數(shù)據(jù)點2、7、15、21明顯偏離其余大類,為不合理數(shù)據(jù)。為了驗證結果的準確性,對上述四個數(shù)據(jù)點的各項數(shù)據(jù)進行深入分析,各數(shù)據(jù)點存在問題如下:

        (1)數(shù)據(jù)點2的B、C兩相電壓和三相電流值相比于其他合理數(shù)據(jù)都明顯偏低,因此作為孤立點是合理的;

        (2)數(shù)據(jù)點7和數(shù)據(jù)點15相接近,但相比于B集群它們的無功功率值都偏大不少,因此作為孤立點是合理的;

        (3)數(shù)據(jù)點21的C相電壓和有功功率值相比于C集群的其他數(shù)據(jù)明顯偏低很多,因此數(shù)據(jù)點21作為孤立點也是合理的。

        為了確保未標識數(shù)據(jù)均為正確數(shù)據(jù),根據(jù)所有樣本數(shù)據(jù)間的物理關聯(lián)關系進行狀態(tài)估計,監(jiān)測結果如圖7所示,圖中1表示數(shù)據(jù)異常,0表示數(shù)據(jù)正常。

        圖7 狀態(tài)估計檢測結果示意圖Fig.7 Schematic diagram of state estimation detection results

        由圖7可知所提方法與狀態(tài)估計法檢測結果一致。經(jīng)上述分析可知,通過文中的時序數(shù)據(jù)質量維護可有效快速發(fā)現(xiàn)各數(shù)據(jù)點存在的問題,定位問題數(shù)據(jù),并確定數(shù)據(jù)的問題類型,為運行維護人員確定數(shù)據(jù)問題原因,提高數(shù)據(jù)可靠性奠定基礎。

        4 結束語

        基于數(shù)據(jù)挖掘技術提出一種時序數(shù)據(jù)質量維護體系,通過該檢測體系,可有效發(fā)現(xiàn)問題數(shù)據(jù)點,并進行篩除,主要結論如下:

        (1)不同地區(qū)的數(shù)據(jù)特點不同,為了提高檢測速度,本身首先利用決策樹法對歷史數(shù)據(jù)進行分析,得出適應于該地區(qū)的數(shù)據(jù)問題檢測順序,可在一定程度上提高計算效率;

        (2)與其他數(shù)據(jù)問題不同,數(shù)據(jù)的合理性問題檢測較為復雜。引入基于聚類的離群檢測法對所獲取的數(shù)據(jù)進行分析,可有效篩選出問題數(shù)據(jù);

        (3)提出一種時序數(shù)據(jù)質量維護體系,不僅可以定位問題數(shù)據(jù),還可以確定數(shù)據(jù)出現(xiàn)的問題,保證用于電網(wǎng)分析與規(guī)劃的數(shù)據(jù)的可靠性,同時也利于及時發(fā)現(xiàn)問題數(shù)據(jù),快速定位問題點,便于快速修復與改進。

        猜你喜歡
        數(shù)據(jù)挖掘檢測質量
        “質量”知識鞏固
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        質量守恒定律考什么
        做夢導致睡眠質量差嗎
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        小波變換在PCB缺陷檢測中的應用
        質量投訴超六成
        汽車觀察(2016年3期)2016-02-28 13:16:26
        狠狠躁天天躁无码中文字幕图| 欧美国产激情二区三区| 亚洲av鲁丝一区二区三区黄| 国产人澡人澡澡澡人碰视频| 日韩久久av电影| 亚洲无人区乱码中文字幕动画| 亚洲乱码国产乱码精华| 海角国精产品一区一区三区糖心| 国产一区二区牛影视| 成年人视频在线播放麻豆| 日韩精品久久中文字幕| 免费人成再在线观看视频| 国产无码swag专区| 久久亚洲春色中文字幕久久久综合| 日韩中文字幕有码午夜美女| 中国女人做爰视频| 提供最新的在線欧美综合一区| 美女一区二区三区在线观看视频| 熟女中文字幕一区二区三区| 少妇av射精精品蜜桃专区| 亚洲男女免费视频| av在线不卡一区二区三区| 狠狠躁夜夜躁人人爽超碰97香蕉| 日本做受高潮好舒服视频| 亚洲一区二区三区在线观看播放| 国产亚洲一区二区精品| 成人爽a毛片免费视频| 国产成人精品一区二区视频| 熟妇与小伙子露脸对白| 日韩人妻中文字幕专区| 亚洲综合色婷婷七月丁香| 国产91成人精品高潮综合久久| 亚洲小说图区综合在线| 国产羞羞视频在线观看| 亚洲国产精品二区三区| 午夜dv内射一区二区| 韩国精品一区二区三区无码视频 | 婷婷亚洲岛国热超碰中文字幕| 18禁裸男晨勃露j毛免费观看| 国产成人久久精品激情91| 亚洲视频专区一区二区三区 |