亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于相關分析的電網電能質量缺失數據填充方法*

        2020-12-18 07:46:06雷峰津
        北方工業(yè)大學學報 2020年5期
        關鍵詞:互信息方根分段

        雷峰津 房 俊

        (北方工業(yè)大學信息學院,100144,北京)

        電網電能質量監(jiān)測分析系統實時匯集全網電能質量數據,使得數據驅動的電能質量問題分析與決策成為可能. 但電網監(jiān)測終端數量多、存儲系統組成復雜、物理環(huán)境惡劣等原因都會造成采集的數據存在缺失、異常等質量問題,這些數據質量問題會導致錯誤的分析結果,影響電能質量治理決策效果.[1]

        在上述數據問題中,以終端故障導致的數據缺失問題尤為突出,主要表現為一段時間內數據的完全缺失. 本文主要研究這一類缺失數據的自動填充問題. 現有學者多是利用單個指標數據特點,采用均值填充、自回歸分析算法進行數據填充. 這些算法在缺失數據較多的情況下,準確性較低.

        電網電能質量數據一個監(jiān)測終端可以同時監(jiān)測包括各次諧波在內的數千個指標,如果能夠利用其它指標對當前缺失數據進行預測,有可能取得較好的填充效果.

        為此,本文提出一種基于相關分析的缺失數據填充方法,首先使用歸一化互信息計算所有與其采樣周期一致的指標的相關性,找出其中相關性最強的指標,然后使用分段回歸的方法建立指標數據回歸模型,基于該模型預測缺失數據.

        1 相關工作

        1.1 缺失數據填充

        缺失值填充常用的方法包括:1)使用描述統計值填充,如使用均值填充缺失數據. 這種方法會導致數據的隨機性降低,損失了大量的數據信息. 在許多場合,均值填充是不適用的. 2)基于預測值的方法,如基于貝葉斯定理的缺失值填充方法,找到最大可能性的值來進行缺失值填充. 3)其他方法如多重插補法、ID3算法及其優(yōu)化算法C4.5、熱卡填充等.

        電力領域相關的缺失數據填充方面,文獻[2]提出一種運用光滑三次樣條(Smoothing Cubic Spline)進行電力負載數據的缺失值填充,并且為了解決連續(xù)缺值情況下樣條曲線不足以表示負載曲線細節(jié)的問題,將三次樣條和反映負載曲線模式的值進行凸組合填充缺失值. 文獻[3]根據等間隔有序的采樣值模型推導出了一種基于正弦曲線的插值方法,效果較好,但是電網電能質量數據并不是等間隔有序的,不能使用正弦曲線的方法進行填充.

        本文提出的電網電能質量缺失數據的填充方法,核心在于2個部分:一是相關分析,使用歸一化互信息計算相關性;二是回歸分析,分段回歸建立預測模型.

        1.2 相關分析

        相關分析是求2個或2個以上處于同等地位的隨機變量的相關關系. 通常使用皮爾森相關系數計算2個變量的相關性. 皮爾森相關系數無法度量非線性相關關系,為了度量非線性相關關系,引入互信息(Mutual Information). 互信息是2個隨機變量能為彼此提供的信息量.[4]文獻[5]將互信息用于航空故障檢測數據的相關性分析,驗證了互信息方法用于相關分析的可行性.

        為了更好的對互信息進行量化,對其進行歸一化,使值落在[0,1],設置閾值來表示強相關性. 歸一化互信息(Normalized Mutual Information,簡稱NMI)相關的成果表明了歸一化互信息在計算相關方面有比較好的效果.[6]

        1.3 回歸分析

        回歸分析方法已廣泛應用于電力領域. 文獻[7]將回歸分析應用到分析電氣環(huán)境對公共低壓電網的電能質量水平的影響中,對電能質量連續(xù)參數時間序列的長期趨勢進行識別和量化. 文獻[8]是時序數據,采用ARMA模型的方法填充缺失值,效果較好.

        對于數據點較多的情況,只有1個回歸方程有時候效果不夠好,選擇分段回歸方式可以提高回歸的準確性. 大部分情況下分段回歸要求函數連續(xù),本文對此不作要求,為了避免在同一個數據點2個分段的方程得到的結果差距較大,分段點的值為2個分段回歸方程求得值的平均值.

        2 基于相關分析的數據填充方法

        給定電能質量監(jiān)測指標的集合I,根據周期將應有數據量和實有數據量進行比較,得到存在缺失的指標的數據集.

        1)對指標xi∈I,在集合I′=I-xi中,利用相關系數求得與xi同一采集周期中相關性最大的xj,i≠j.

        根據2.1節(jié)的NMI(vi,vj)計算vi和vj的相關性. 并判斷max{NMI(vi,vj),i≠j}是否大于閾值.

        2)尋找最優(yōu)擬合函數f,使得:f(vj)≈vi.

        f包含常見的指數形式、對數形式、多項式以及分段函數形式等.

        缺失數據填充的流程如圖1所示,計算步驟如下:

        1)使用2.1節(jié)中的相關分析方法,求出存在缺失值的指標x和其他指標的相關系數,找到相關性最大的指標y并判斷相關系數是否大于所設閾值0.8,如果大于閾值,則進行第2)步;否則結束.

        2)對監(jiān)測值組成的數據集進行回歸分析,得到擬合效果最好的回歸預測模型.

        3)使用2.2節(jié)中的回歸分析步驟得到最優(yōu)分段預測模型.

        4)使用得到的分段擬合函數對缺失數據記錄進行預測填充.

        2.1 基于相關分析的變量選擇

        基于電網電能質量監(jiān)測數據指標多的特點,在這些指標中可能存在著很強的相關性. 為了找出其中可能存在的相關關系,使用互信息作為相關性的度量.

        歸一化互信息定義式為:

        其中I(X;Y)是互信息在聯合集{X,Y}上的平均信息量.m和n分別是2個變量的取值個數.

        I(X;Y)=E[I(xi;yj)]=

        互信息的取值范圍有以下結論:0≤I(X;Y)≤min{H(X),H(Y)}即互信息是非負的且以2個變量的熵的最小值為上界.

        變量熵H(X)定義為:

        對熵的定義式使用琴生不等式,可以得到互信息I(X;Y)滿足:

        0≤I(X;Y)≤min{log2m,log2n}.

        可見,NMI∈[0,1]. 設置閾值用以判斷相關性,本文將表示強相關的閾值設置為0.8.

        2.2 基于回歸分析的預測模型建立

        對強相關的2個數據集進行多種形式的回歸分析,得到效果最好的預測模型. 為了提高預測模型的準確性,使用分段回歸的方式求解.

        回歸分析求預測模型步驟如下:

        1)對于S個數據對(X1,Y1),(X2,Y2),…,(Xs,Ys)選擇多種函數模型進行回歸分析;

        2)回歸分析選擇綜合曲線回歸和線性回歸,選擇其中回歸效果最好的,使用實際值和擬合值的均方根誤差R來比較回歸效果,選擇R最小的函數作為當前最優(yōu)函數方程

        3)采用自動分段的方法得到分段點,根據所得分段點分別進行回歸分析,重復步驟2).

        4)根據以上步驟得到各個分段的最優(yōu)函數方程.

        分段回歸關鍵問題在于分段點的選取,為了解決根據經驗選取分段點的不足,采用一種自動分段的方式選擇分段點.

        自動分段的目的是分段預測的數據集的均方根誤差小于不分段回歸預測結果,進一步使每個分段的均方根誤差均小于不分段回歸的均方根誤差即可. 整個分段過程如圖2所示.

        自動分段步驟如下:

        1)計算當前數據集的最優(yōu)回歸模型的均方根誤差R;

        2)取數據集前s個數據,求這s個數據的最優(yōu)回歸方程的均方根誤差R1;取s+1個數據進行回歸求均方根誤差R2;如圖3所示.

        3)若R1R,則將第s個點視作分段點,通過分段點將數據集T分割成2個數據集T1和T2. 對于數據集T1和數據集T2,數據集T1視為一個分段,對數據集T2再次進行分段,若T2數據集的長度大于s+4,數據集T2重復步驟2);否則令s=s+1,重復步驟2). 當s+4的值大于當前數據集長度時,分段結束.

        3 實驗驗證

        3.1 相關分析實驗

        電網電能質量監(jiān)測數據是由監(jiān)測點、監(jiān)測指標、時間戳以及監(jiān)測值組成的四元組數據. 一般情況下,一條數據記錄的數據缺失會是四元組中某幾個元素缺失,但是本文只關心整條數據記錄的缺失情況,而不考慮缺失某幾個元素的情況. 對于1條數據記錄中的4個元素,監(jiān)測點、監(jiān)測指標以及時間戳根據其他數據記錄可以得到準確值,電網電能質量監(jiān)測數據的缺失實際上關注的是監(jiān)測值的缺失與填充. 電網電能質量監(jiān)測的原始數據集如圖4所示.

        為了計算指標之間的相關性,本次實驗選取的數據是0303000981監(jiān)測點2018年3月3日00:00—05:00共5個小時的國網電能質量監(jiān)測數據. 在本次實驗中,將所有指標的數據均視作存在缺失,并計算所有指標之間的相關性. 將NMI>0.8的值視作具有強相關性. 經計算,數據指標總數為2 555個,相關性強的指標為1 538個.

        從具有強相關性的指標中選取一個指標進行回歸實驗,本文選取25次諧波電壓相角這個指標作為存在缺失的指標,和其他指標計算歸一化互信息的結果如表1所示,求得的NMI最大為1,

        表1 歸一化互信息計算結果

        對應的指標為33次與42次諧波電壓相角,本次實驗選擇33次諧波電壓相角.

        將這2個指標的監(jiān)測值按照時間戳組成新的數據集T,形如表2所示.

        表2 相關指標數據

        3.2 分段回歸實驗

        為了比較本文采用的分段回歸的填充效果,將其和不分段的回歸分析、平均值填充幾種方法的填充效果進行比較,采用的數據集為3.1節(jié)中得到的數據集T,數據集T中一共300個數據對,從中隨機選取240對作為訓練集,剩下60對作為測試集. 使用均方根誤差(RMSE)和平均誤差百分比(MAPE)比較回歸效果.

        (4)

        其中yi是真實值,f(xi)是擬合值.

        實驗過程中多項式最高階數的選擇很重要,最高階數過低容易導致欠擬合,最高階數過高則容易產生過擬合. 在本文實驗中,使用多項式進行曲線擬合的最高階次分別選擇為6次、10次以及20次,最終實驗結果表明在電網電能質量數據的回歸分析中,最高階次選擇10次效果較好,選擇6次效果不如10次,選擇20次會產生過擬合的情況.

        自動分段時選擇數據集的前s個數據,實驗時s分別取{5,6,7,8,9,10},比較s取不同值時擬合結果,s=7時均方根誤差RMSE和MAPE最小,因此本文的s=7.

        對訓練集的數據分別進行平均值填充,分段回歸和不分段回歸求回歸模型計算填充值,使用測試集中的數據評價訓練集中得到回歸模型. 連續(xù)時間的數據在數據集T重新排序之后隨機分布在數據集中,隨機抽取60對作為缺失數據,其他240對數據作為訓練集,通過訓練集得到缺失數據的預測模型. 圖5為訓練集數據擬合結果.

        回歸分析得到的函數方程是一個8次的多項式,使用分段回歸的方式得到了7個分段點、8個回歸方程,這8個方程能很好的反映數據集中的數據. 使用訓練集計算之后得到的實驗結果如表3所示.

        結合訓練集的圖5及表3,可以看出,分段回歸的預測模型比不進行分段的回歸得到的預測模型更能反映出訓練集中的數據,平均值填充不僅誤差更大,而且完全無法反映出數據集中數據的特點,填充效果較之回歸分析要差.

        表3 訓練集實驗結果

        測試集測試后,圖6~7是測試集結果圖.

        表4是測試集數據在訓練集數據得到的分段回歸模型上進行測試得到的結果,可以看出,分段曲線擬合在測試集上的效果也是優(yōu)于平均值填充的.

        表4 測試集實驗結果

        可以看出,在缺失率為20%的情況下,測試集的結果和訓練集得到的結果是一致的,數據誤差比都在8%以下,平均誤差百分比與平均值填充相比提高了20%,分段擬合并沒有產生過擬合的情況,可以很好的擬合數據集. 同時無需數據本身的曲線模型,計算更加方便.

        在缺失率10%、30%的情況下,基于相關分析的缺失值填充方法與平均值填充方法比較結果如表5~6所示.

        表5 缺失率10%實驗結果

        綜合不同缺失率下填充準確性的比較,可以看到,在缺失率小于20%的情況下,使用分段曲線擬合效果更好;缺失率達到30%,分段曲線擬合誤差比缺失值填充效果更差,此時選擇不分段的效果更佳.

        4 結語

        本文根據實際的數據特點,采用相關分析的方式得到具有相關關系的2個變量,然后對得到的1組變量的數據點進行分段曲線擬合,得到1個分段的函數方程,使用得到的函數方程來對缺失數據進行預測. 分段函數采用最高次項為10次的多項式以及指對數函數結合的曲線擬合,避免過多次項導致的過擬合現象,同時具有較好的擬合效果. 實驗證明了曲線擬合得到的填充值具有更高的準確度,誤差在10%左右. 這種方法準確度較高,但是相對的運行效率較低,接下來工作將主要研究這種方法的優(yōu)化以提高運行效率.

        猜你喜歡
        互信息方根分段
        方根拓展探究
        一類連續(xù)和不連續(xù)分段線性系統的周期解研究
        分段計算時間
        均方根嵌入式容積粒子PHD 多目標跟蹤方法
        自動化學報(2017年2期)2017-04-04 05:14:28
        3米2分段大力士“大”在哪兒?
        太空探索(2016年9期)2016-07-12 10:00:04
        揭開心算方根之謎
        基于互信息的貝葉斯網絡結構學習
        聯合互信息水下目標特征選擇算法
        改進的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        基于增量式互信息的圖像快速匹配方法
        国产精品美女白浆喷水| 少妇久久久久久人妻无码| 中国丰满人妻videoshd| 久久久久久成人毛片免费看| 亚洲中文一本无码AV在线无码| 亚洲一区二区日韩精品| 国产欧美日韩一区二区加勒比| 国产精品久久久久影院嫩草| 国产无套视频在线观看香蕉| 午夜国产在线精彩自拍视频| 日韩人妻另类中文字幕| 中文字幕一区在线观看视频| 久久频精品99香蕉国产| 在线观看日本一区二区三区| 亚洲 欧美 综合 在线 精品 | 国产精品美女久久久网站三级| 欧美中日韩免费观看网站| 色yeye免费视频免费看| 成人全视频在线观看免费播放| 国产白浆在线免费观看| 草草浮力地址线路①屁屁影院| 国模无码视频专区一区| 亚洲国产综合一区二区| 观看在线人视频| 久热在线播放中文字幕| 日韩精品一区二区亚洲av性色| 国产一区二区三区在线视频观看 | 亚洲色欲色欲www成人网| 91成人国产九色在线观看| 国产欧美日韩精品专区| 精品国产福利在线观看网址2022| 一本色道久久88综合亚洲精品| 国产18禁黄网站免费观看| 97久久精品午夜一区二区| 久久精品成人亚洲另类欧美| 青青草中文字幕在线播放| 国产农村妇女精品一二区| 国产精品青草视频免费播放| 久久开心婷婷综合中文| 丰满的人妻hd高清日本| 国产精品无码无片在线观看 |