王家武,趙佃云,晉 京,盧京祥,鄭加麗
(國(guó)網(wǎng)山東省電力公司日照供電公司,山東 日照 276800)
調(diào)度自動(dòng)化系統(tǒng)是電力數(shù)據(jù)傳輸、存儲(chǔ)和利用的主要系統(tǒng),對(duì)數(shù)據(jù)的正確性有嚴(yán)格的要求,從而保證電力系統(tǒng)安全高效運(yùn)行[1-2]。應(yīng)用高準(zhǔn)確度的數(shù)據(jù)對(duì)電力系統(tǒng)的生產(chǎn)運(yùn)營(yíng)和管理具有不可替代的作用,是電力調(diào)度自動(dòng)化系統(tǒng)精準(zhǔn)決策的重要保障。然而,數(shù)據(jù)的準(zhǔn)確性和完整性等受到調(diào)度自動(dòng)化系統(tǒng)主子站通道數(shù)據(jù)傳輸?shù)挠绊憽F渲?,在調(diào)度自動(dòng)化系統(tǒng)主子站中負(fù)荷、電壓、電流等采集量因設(shè)備問題、突發(fā)事故或者用戶不可預(yù)測(cè)的突變用電行為產(chǎn)生大量的異常數(shù)據(jù)和偽異常數(shù)據(jù),不僅會(huì)對(duì)短期實(shí)時(shí)調(diào)度產(chǎn)生影響,還對(duì)日前調(diào)度和負(fù)荷預(yù)測(cè)的準(zhǔn)確度造成影響[3]。在未來智能電網(wǎng)的發(fā)展中,電動(dòng)汽車、移動(dòng)儲(chǔ)能等柔性設(shè)備加入智能電網(wǎng)中,須對(duì)這些靈活的柔性設(shè)備進(jìn)行調(diào)度和管控,實(shí)現(xiàn)日前負(fù)荷的準(zhǔn)確預(yù)測(cè),并基于分時(shí)電價(jià)的需求響應(yīng),調(diào)節(jié)峰谷差,完成能量的準(zhǔn)確高效利用[4-5]。此外,調(diào)度自動(dòng)化系統(tǒng)由大量智能儀表組成,是數(shù)據(jù)采集的主要設(shè)備,因此對(duì)調(diào)度自動(dòng)化系統(tǒng)中智能儀表應(yīng)提出更高的要求,保證數(shù)據(jù)的完整傳輸[6-7]。因此,正確高質(zhì)量的數(shù)據(jù)對(duì)電力調(diào)度自動(dòng)化系統(tǒng)的長(zhǎng)期運(yùn)營(yíng)和規(guī)劃具有重要影響。
針對(duì)電力系統(tǒng)異常數(shù)據(jù)辨識(shí)問題,國(guó)內(nèi)外學(xué)者做了大量的研究。文獻(xiàn)[8]構(gòu)建了一種矢量學(xué)習(xí)算法,能夠?qū)崿F(xiàn)從多組負(fù)荷數(shù)據(jù)中辨識(shí)異常數(shù)據(jù),有效完成異常負(fù)荷辨識(shí),但是將異常數(shù)據(jù)所在數(shù)據(jù)組進(jìn)行整體刪除是不合理的。文獻(xiàn)[9]通過灰色關(guān)聯(lián)分析挖掘數(shù)據(jù)周期性規(guī)律,對(duì)數(shù)據(jù)進(jìn)行重組,分析數(shù)據(jù)因通信損失、儀表故障等問題致使數(shù)據(jù)不準(zhǔn)確的問題。文獻(xiàn)[10]針對(duì)信道錯(cuò)誤、儀表故障、設(shè)備停運(yùn)等因素導(dǎo)致的數(shù)據(jù)異常與數(shù)據(jù)缺失問題,采用基于灰色關(guān)聯(lián)分析和參數(shù)估計(jì)辨識(shí)異常數(shù)據(jù),通過優(yōu)化算法解決參數(shù)估計(jì)帶來的非線性優(yōu)化問題以及收斂精度、全局最優(yōu)解和局部最優(yōu)解的權(quán)衡問題。文獻(xiàn)[11]利用數(shù)據(jù)時(shí)間尺度對(duì)比原理對(duì)數(shù)據(jù)進(jìn)行橫向和縱向?qū)Ρ龋槍?duì)傳輸數(shù)據(jù)的完整性和準(zhǔn)確性進(jìn)行辨識(shí),確保傳輸數(shù)據(jù)的準(zhǔn)確可靠。文獻(xiàn)[12]根據(jù)數(shù)據(jù)時(shí)間尺度對(duì)比對(duì)電力系統(tǒng)傳輸數(shù)據(jù)進(jìn)行分析。雖然通過數(shù)據(jù)時(shí)間尺度對(duì)比能夠得到較準(zhǔn)確的對(duì)比結(jié)果,但是大量傳輸數(shù)據(jù)橫向和縱向的對(duì)比對(duì)服務(wù)器的計(jì)算和處理能力是一個(gè)嚴(yán)峻的考驗(yàn)。
相對(duì)于K-means 等其他數(shù)據(jù)劃分類聚類算法,基于密度噪聲空間聚類算法(Density-Based Spatial Clustering of Applications With Noise,DBSCAN)能夠不依賴指定的聚類個(gè)數(shù),自動(dòng)生成相應(yīng)聚類的簇個(gè)數(shù)。但是,DBSCAN 算法對(duì)于簇的搜索半徑和包含點(diǎn)的個(gè)數(shù)較為敏感,同時(shí)這兩個(gè)參數(shù)須事先指定。因此,人為制定的參數(shù)對(duì)于數(shù)據(jù)聚類的精度影響較大。針對(duì)上述問題,須構(gòu)建參數(shù)自適應(yīng)的算法,避免參數(shù)對(duì)聚類精度的影響,實(shí)現(xiàn)自動(dòng)高效率的簇的劃分。
此外,用戶的動(dòng)態(tài)用電行為可能表現(xiàn)出與異常數(shù)據(jù)相似的體征,主要表現(xiàn)在負(fù)荷需求和電能使用情況與之前用電習(xí)慣不同,而導(dǎo)致的數(shù)據(jù)發(fā)生了突變,并不是設(shè)備傳輸導(dǎo)致數(shù)據(jù)異常。這類數(shù)據(jù)在本文中定義為偽異常數(shù)據(jù),是正常數(shù)據(jù),不應(yīng)該被修正或者排除[13]。因此,這類數(shù)據(jù)的存在對(duì)異常數(shù)據(jù)的辨識(shí)帶來了很大的干擾和挑戰(zhàn)。
針對(duì)調(diào)度自動(dòng)化系統(tǒng)主子站通道的數(shù)據(jù)傳輸中異常數(shù)據(jù)和偽異常數(shù)據(jù)的辨識(shí)問題,基于參數(shù)自適應(yīng)的密度噪聲空間聚類算法(Parameter Adaptation-Density Based Spatial Clustering of Applications With Noise,PA-DBSCAN)算法和自相關(guān)性理論構(gòu)建調(diào)度自動(dòng)化系統(tǒng)主子站通道的異常數(shù)據(jù)辨識(shí)模型。通過PA-DBSCAN 算法對(duì)異常值進(jìn)行辨識(shí),并基于自相關(guān)性理論剔除偽異常數(shù)據(jù),避免偽異常數(shù)據(jù)對(duì)數(shù)據(jù)辨識(shí)造成影響。
數(shù)據(jù)的完整性是數(shù)據(jù)分析的必要條件,數(shù)據(jù)的缺失會(huì)影響數(shù)據(jù)的分析,造成漏判或者誤判,影響數(shù)據(jù)的整體質(zhì)量。因此,針對(duì)缺失的數(shù)據(jù),通過拉格朗日內(nèi)插法進(jìn)行數(shù)據(jù)補(bǔ)充[14-15]。缺失數(shù)據(jù)的增補(bǔ)表達(dá)式為
式中:dq為在第q個(gè)樣本點(diǎn)缺失的數(shù)據(jù);dq-k和dq+l分別為在q-k和q+l樣本點(diǎn)的數(shù)據(jù);K和L分別表示缺失數(shù)據(jù)之前和之后的數(shù)據(jù)量。
基于PA-DBSCAN 聚類方法能夠?qū)⒉煌芏鹊臄?shù)據(jù)點(diǎn)劃分為不同的簇,并將簇中包含的數(shù)據(jù)點(diǎn)大于閥值ξ樣本的對(duì)象稱為核心點(diǎn)。
通過計(jì)算參數(shù)(ε,ξ)描述樣本分布的緊密程度,圖1 和圖2 分別展示了數(shù)據(jù)點(diǎn)的劃分以及PADBSCAN結(jié)構(gòu)和數(shù)據(jù)點(diǎn)的分布。
圖1 數(shù)據(jù)點(diǎn)的劃分
圖2 PA-DBSCAN結(jié)構(gòu)和數(shù)據(jù)點(diǎn)的分布
DBSCAN 算法的優(yōu)勢(shì)是不須預(yù)先指定簇的個(gè)數(shù),能夠自動(dòng)根據(jù)樣本的數(shù)據(jù)分布,實(shí)現(xiàn)自動(dòng)的聚類數(shù)目的劃分,完成樣本的分類。DBSCAN 算法流程如圖3所示,算法偽代碼如表1所示。
圖3 DBSCAN算法流程
表1 DBSCAN算法偽代碼
PA-DBSCAN 算法是一種優(yōu)秀的算法,具有多種優(yōu)良性質(zhì):1)不須像K-means 算法一樣事前設(shè)定好聚類個(gè)數(shù);2)收斂速度快,不局限于簇的形狀,能夠聚合出多種類型的簇形狀;3)通過參數(shù)自動(dòng)辨識(shí)簇的離群數(shù)據(jù)。
但是,DBSCAN算法也擁有缺點(diǎn),即參數(shù)(ε,ξ)須根據(jù)專家知識(shí)庫(kù)等相關(guān)經(jīng)驗(yàn)對(duì)參數(shù)值進(jìn)行手動(dòng)設(shè)定。不同參數(shù)值的設(shè)定對(duì)于簇的形狀、半徑和聚類中心都具有較大的影響。因此,本文構(gòu)建PA-DBSCAN 算法,通過高斯核密度估計(jì)方法,計(jì)算不同數(shù)據(jù)點(diǎn)的核概率密度值,通過概率密度值為不同的數(shù)據(jù)點(diǎn)自適應(yīng)計(jì)算ε,彌補(bǔ)DBSCAN算法的參數(shù)選取的缺陷。
高斯核密度估計(jì)方法是可以不依賴于參數(shù)的估計(jì)方法,能夠避開參數(shù)對(duì)隨機(jī)事件描述的影響,是一種基于有限樣本實(shí)現(xiàn)的非參數(shù)估計(jì)方法。高斯核密度函數(shù)K(x)可以表示為[16]
計(jì)算采樣數(shù)據(jù)中的第i個(gè)采樣值對(duì)應(yīng)的概率密度函數(shù)f(x)為
式中:n為采集的樣本點(diǎn)的數(shù)目;xi為第i個(gè)采樣值對(duì)應(yīng)的數(shù)據(jù)值;h為核函數(shù)帶寬。
由式(3)可以看出,核函數(shù)的概率密度與樣本的數(shù)據(jù)量和帶寬h相關(guān)。在數(shù)據(jù)量一定的情況下,h的選擇對(duì)于核函數(shù)的精度影響較大。h的取值高低,直接影響概率分布函數(shù)曲線的走向。依據(jù)文獻(xiàn)[17]的試驗(yàn)結(jié)果,選用高斯徑向基函數(shù)來設(shè)計(jì)h的選擇,通過樣本數(shù)據(jù)標(biāo)準(zhǔn)差σ,來近似估計(jì)核密度,實(shí)現(xiàn)非參數(shù)估計(jì)的快速完成,如式(4)所示。
通過式(4)可以計(jì)算出每個(gè)樣本點(diǎn)的概率密度的大小。概率密度值越大的樣本點(diǎn),應(yīng)該被匹配一個(gè)更大的搜索半徑ε,而密度值越小的點(diǎn)應(yīng)該匹配一個(gè)較小的搜索半徑ε。根據(jù)上述理論,認(rèn)為搜索半徑和核密度值之間是呈正相關(guān)的。因此,構(gòu)建搜索半徑ε與概率密度函數(shù)的關(guān)系,其表達(dá)式為
式中:a為搜索半徑ε與概率密度函數(shù)的相關(guān)性系數(shù)。
在聚類過程中,總的搜索半徑為[18]
式中:m為樣本點(diǎn)的數(shù)據(jù)維度。
因此,通過推導(dǎo)相關(guān)性系數(shù)a可以表示為
在n個(gè)樣本點(diǎn)的數(shù)據(jù)聚類過程中,PA-DBSCAN算法的搜索半徑ε表示為
在單一類型的數(shù)據(jù)聚類過程中,PA-DBSCAN 算法的搜索半徑ε為
除了確定參數(shù)ξ表示在核心點(diǎn)的周圍的數(shù)據(jù)不少于ξ個(gè)。通過數(shù)據(jù)經(jīng)驗(yàn)判定,當(dāng)ξ等于1時(shí),核心點(diǎn)的周圍就1 個(gè)數(shù)據(jù)點(diǎn),也就是核心點(diǎn),這對(duì)于數(shù)據(jù)的聚類沒有意義。當(dāng)ξ等于2 時(shí),則簇中除了核心點(diǎn),還有一個(gè)邊界點(diǎn),則邊界點(diǎn)和核心點(diǎn)的定義矛盾,因此,ξ小于等于2 時(shí),簇的結(jié)構(gòu)不成立。因此,ξ必須大于等于3。根據(jù)聚類經(jīng)驗(yàn)判斷,ξ的數(shù)值并不是越大越好,會(huì)將噪聲點(diǎn)也包含到簇中。因此,本文依據(jù)文獻(xiàn)[19],ξ的表達(dá)式為
因?yàn)?,本文提出的PA-DBSCAN 算法的步驟如下所示。
步驟1:提供樣本數(shù)據(jù)D以及通過高斯核函數(shù)參數(shù)自適應(yīng)確定相應(yīng)的鄰域參數(shù)(ε,ξ);
步驟2:將自適應(yīng)的參數(shù)(ε,ξ)輸入到PADBSCAN算法中,確定樣本的ε-鄰域子樣本;
步驟3:不斷更新確定簇的個(gè)數(shù)以及簇中包含的樣本點(diǎn),確定樣本的噪聲點(diǎn);
步驟4:實(shí)現(xiàn)數(shù)據(jù)聚類,完成異常數(shù)據(jù)的數(shù)據(jù)辨識(shí)。
首先,構(gòu)建數(shù)據(jù)正確性辨識(shí)的信息矩陣。假定一個(gè)樣本點(diǎn)有n個(gè)類型的數(shù)據(jù),數(shù)據(jù)的維度為t,則數(shù)據(jù)正確性辨識(shí)矩陣Dn×t表示為
式中:dn,t為第t個(gè)維度的第n個(gè)類型的數(shù)據(jù)。
然后,針對(duì)初步篩選后的異常數(shù)據(jù)中可能存在偽異常的數(shù)據(jù)的問題,即存在由于突發(fā)的工況和用電情況使調(diào)度自動(dòng)化系統(tǒng)電力數(shù)據(jù)發(fā)生突變的正常數(shù)據(jù)。因此,針對(duì)這一類偽異常數(shù)據(jù)應(yīng)該從異常數(shù)據(jù)中剔除,避免數(shù)據(jù)干擾異常造成數(shù)據(jù)誤判。所以,采用自相關(guān)函數(shù)主動(dòng)捕捉和剔除偽異常數(shù)據(jù)。數(shù)據(jù)辨識(shí)的信息矩陣的均值和方差Var(D)為
式中:E為方差的期望值;Dj為數(shù)據(jù)正確性辨識(shí)矩陣中第j個(gè)維度的列數(shù)據(jù)。
在數(shù)據(jù)的平穩(wěn)傳輸過程中,數(shù)據(jù)正確性辨識(shí)矩陣中第t個(gè)維度、第t+l個(gè)維度的列數(shù)據(jù),Dt和Dt+l之間的協(xié)方差表示為
計(jì)算Dt和Dt+l之間的相關(guān)系數(shù)為
對(duì)于在一段時(shí)間上時(shí)間間隔為l的樣本,辨識(shí)數(shù)據(jù)的自相關(guān)函數(shù)為
不同的時(shí)間間隔l對(duì)應(yīng)不同的自相關(guān)系數(shù)值,通過不斷迭代尋找最優(yōu)的時(shí)間間隔,得到最大的自相關(guān)系數(shù)ρmax。
在迭代的最優(yōu)周期中出現(xiàn)的突變數(shù)據(jù)為偽突變數(shù)據(jù),因此這些數(shù)據(jù)不能認(rèn)定為異常數(shù)據(jù),從而剔除這些數(shù)據(jù),應(yīng)當(dāng)保留辨識(shí)出的偽異常數(shù)據(jù)。偽異常數(shù)據(jù)辨識(shí)方法流程如圖4所示。
圖4 偽異常數(shù)據(jù)辨識(shí)方法流程
采用2020 年1 月1 日—2021 年6 月30 日期間567天的山東電網(wǎng)某市的區(qū)域日用電量負(fù)荷數(shù)據(jù),負(fù)荷數(shù)據(jù)計(jì)量單位為天。為了驗(yàn)證本文調(diào)度自動(dòng)化系統(tǒng)主子站異常數(shù)據(jù)辨識(shí)模型的有效性,通過人工設(shè)定進(jìn)行人為修改正常數(shù)據(jù)變成異常數(shù)據(jù),并進(jìn)行標(biāo)注。從該市35個(gè)區(qū)域中選取6個(gè)區(qū)域的數(shù)據(jù)作為樣本數(shù)據(jù)。獲取每個(gè)區(qū)域的567 個(gè)電力傳輸數(shù)據(jù)。此外,通過計(jì)算檢測(cè)率IDR和誤檢率IFP兩個(gè)評(píng)價(jià)指標(biāo)對(duì)所提出的模型進(jìn)行評(píng)估,用以驗(yàn)證提出的模型對(duì)真實(shí)異常數(shù)據(jù)和偽異常數(shù)據(jù)的檢測(cè)和辨識(shí)情況。
式中:VF為檢測(cè)異常數(shù)據(jù)個(gè)數(shù);VT為標(biāo)記的異常數(shù)據(jù)總數(shù);VG為被檢測(cè)為異常的正常數(shù)據(jù)個(gè)數(shù);VU為正常數(shù)據(jù)總數(shù)。
構(gòu)建的調(diào)度自動(dòng)化系統(tǒng)主子站通道異常數(shù)據(jù)辨識(shí)模型的整體計(jì)算流程如圖5 所示。通過K-means和DBSCAN 與本文提出的PA-DBSCAN 算法在IDR和IFP指標(biāo)上進(jìn)行數(shù)據(jù)對(duì)比,對(duì)比結(jié)果如表2和表3所示。
表2 檢測(cè)率對(duì)比 單位:%
表3 誤檢率對(duì)比 單位:%
圖5 異常數(shù)據(jù)檢測(cè)流程
由表2和表3可知,構(gòu)建的模型在檢測(cè)率這一性能方面要優(yōu)于K-means 和DBSCAN 算法。這是由于模型對(duì)于檢測(cè)非正態(tài)分布的異常數(shù)據(jù)具備優(yōu)勢(shì),其并不受數(shù)據(jù)分布的影響。K-means 和DBSCAN 算法表現(xiàn)較差,是因?yàn)樨?fù)荷數(shù)據(jù)分布的不確定性影響了鄰近點(diǎn)的k-距離從而影響對(duì)聚類中心的計(jì)算,導(dǎo)致檢測(cè)準(zhǔn)確率較低。在誤檢率方面,本文模型誤檢率在1%~5% 之間,相比較K-means 算法具有明顯優(yōu)勢(shì),而DBSCAN 算法在誤檢率這一性能方面與本文方法的區(qū)別性相差不大。
因此,通過計(jì)算檢測(cè)率和誤檢率結(jié)果可以看出,所提出模型在真實(shí)異常數(shù)據(jù)和偽異常數(shù)據(jù)的辨識(shí)方面都有比較理想的效果。對(duì)于不同的用電區(qū)域,都能夠有效檢測(cè)出異常數(shù)據(jù),保證了對(duì)異常數(shù)據(jù)辨識(shí)的準(zhǔn)確性,為調(diào)度系統(tǒng)的用電管理和調(diào)度決策等提供了更為準(zhǔn)確的數(shù)據(jù)指導(dǎo)。
圖6 和圖7 比較了幾種算法在不同數(shù)據(jù)規(guī)模下的數(shù)據(jù)檢測(cè)率和誤檢率。根據(jù)圖6 可知,隨著數(shù)據(jù)量的不斷增加,本文所提出的算法相比于K-means和DBSCAN 算法仍然具有較高的檢測(cè)率。當(dāng)數(shù)據(jù)量達(dá)到4 000 MB時(shí),K-means算法的檢測(cè)率為89.56%,DBSCAN 算法的檢測(cè)率為87.68%,而本文提出的PA-DBSCAN 算法檢測(cè)率高達(dá)為91.57%。因此,通過仿真驗(yàn)證可以得出本文所提方法的異常數(shù)據(jù)檢測(cè)率較高,具有較好的異常數(shù)據(jù)檢測(cè)能力。
圖6 異常數(shù)據(jù)檢測(cè)率
此外,圖7 展示了K-means、DBSCAN 和PADBSCAN 3 種算法在異常數(shù)據(jù)誤檢率方面的對(duì)比。通過對(duì)比可以看出,隨著數(shù)據(jù)規(guī)模的不斷增加,3 種算法的誤檢率都在逐漸上升。當(dāng)數(shù)據(jù)量為4 000 MB時(shí),K-means和DBSCAN 算法的誤檢率分別為4.84%和3.46%,而本文提出的PA-DBSCAN 算法誤檢率為3.23%,低于其他兩種算法。由上述討論可以得出,本文所提出的PA-DBSCAN 算法對(duì)于調(diào)度自動(dòng)化系統(tǒng)主子站通道異常數(shù)據(jù)辨識(shí)的誤檢率較低,具有比較穩(wěn)定的檢測(cè)能力。
圖7 異常數(shù)據(jù)誤檢率
在此基礎(chǔ)上,圖8 展示了K-means、DBSCAN 和PA-DBSCAN 算法的平均運(yùn)行時(shí)間仿真結(jié)果。圖8表明PA-DBSCAN 算法除了表2 所示結(jié)果中展示的在辨識(shí)異常數(shù)據(jù)方面具有穩(wěn)定正確的效果外,還證明了在保證辨識(shí)異常數(shù)據(jù)精度的同時(shí),能夠確保算法的計(jì)算速度,具有高效準(zhǔn)確的優(yōu)點(diǎn)。
圖8 K-means、DBSCAN和PA-DBSCAN 算法的平均運(yùn)行時(shí)間
提出一種基于PA-DBSCAN 算法和自相關(guān)理論的調(diào)度自動(dòng)化系統(tǒng)主子站通道的異常數(shù)據(jù)辨識(shí)模型。采用PA-DBSCAN 算法對(duì)異常值進(jìn)行辨識(shí),同時(shí)采用自相關(guān)性理論分析對(duì)偽異常數(shù)據(jù)進(jìn)行數(shù)據(jù)剔除。通過計(jì)算檢測(cè)率和誤檢率兩個(gè)異常數(shù)據(jù)辨識(shí)的相關(guān)指標(biāo),驗(yàn)證了所提出的模型在辨識(shí)真實(shí)異常數(shù)據(jù)和偽異常數(shù)據(jù)兩個(gè)方面的有效性。實(shí)驗(yàn)結(jié)果表明,所提出的模型能夠在保證異常數(shù)據(jù)辨識(shí)精度的基礎(chǔ)上,保證異常數(shù)據(jù)辨識(shí)的高效計(jì)算,具有較高的穩(wěn)定性和實(shí)時(shí)計(jì)算能力,能夠有效避免異常數(shù)據(jù)篩選中的漏判和誤判情況,保證調(diào)度自動(dòng)化系統(tǒng)主子站通道數(shù)據(jù)的有效利用,具有較高的實(shí)際工程應(yīng)用價(jià)值。