袁智勇,熊 瑤,葛寧超,秦 拯,于 力,徐 全,林躍歡
(1.南方電網(wǎng)科學(xué)研究院,廣東 廣州 510080;2.湖南大學(xué),湖南 長(zhǎng)沙 410082)
結(jié)合我國(guó)配電網(wǎng)的特點(diǎn),性價(jià)比高且適合故障定位的D-PMU(分布式相量測(cè)量裝置)在國(guó)內(nèi)得到較為廣泛的使用。它被普遍認(rèn)為是下一代配電系統(tǒng)中必不可少的組成部分[1],其有效地解決了傳統(tǒng)測(cè)量傳感器精度不夠的問(wèn)題[2]。D-PMU不僅包含同步相量信息,還包含有同步錄波信息,可以為故障定位奠定數(shù)據(jù)基礎(chǔ)[3]。
如今人們使用越來(lái)越多的電子設(shè)備,對(duì)電能質(zhì)量的需求也日益增加。電器設(shè)備擾動(dòng)的識(shí)別,可以為管理電器設(shè)備提供幫助[4]。隨著我國(guó)電網(wǎng)規(guī)模的逐漸擴(kuò)大,電網(wǎng)中數(shù)據(jù)的結(jié)構(gòu)變得越來(lái)越復(fù)雜。這雖然給電網(wǎng)帶來(lái)了顯著的優(yōu)勢(shì),但是也給電網(wǎng)帶來(lái)了一些風(fēng)險(xiǎn)。電網(wǎng)中一些局部故障,例如短路、切機(jī)等,如果處理不及時(shí),就會(huì)演變成電網(wǎng)中更大的事故。所以準(zhǔn)確并及時(shí)對(duì)存在的擾動(dòng)進(jìn)行在線預(yù)測(cè)是非常重要的[5]。近年來(lái)對(duì)電網(wǎng)擾動(dòng)的研究日益增多,有基于WAMS的在線擾動(dòng)識(shí)別的研究[6],有利用隨機(jī)森林進(jìn)行的PQ(電能質(zhì)量)擾動(dòng)分類[7],有基于多層極限學(xué)習(xí)機(jī)的PQ擾動(dòng)識(shí)別的研究[8],有利用FFT(快速傅立葉變換)和S變換提取電網(wǎng)中的特征向量的研究,有利用決策樹和SVM對(duì)PQ擾動(dòng)進(jìn)行識(shí)別的研究[9]。目前電網(wǎng)中常用的特征提取方法有S變換和小波變換[10],常用的擾動(dòng)分類方法有馬氏距離、神經(jīng)網(wǎng)絡(luò)、SVM和隨機(jī)森林等。
本文提出了一種基于PCA算法和XGBoost算法的D-PMU實(shí)時(shí)擾動(dòng)預(yù)測(cè)分類方法,其能夠?qū)崟r(shí)準(zhǔn)確地預(yù)測(cè)設(shè)備可能存在的擾動(dòng)信號(hào),保障智能配電網(wǎng)的實(shí)時(shí)穩(wěn)定性。首先建立擾動(dòng)預(yù)測(cè)模型,采用滑動(dòng)平均法對(duì)D-PMU時(shí)間序列矩陣進(jìn)行數(shù)據(jù)清洗,使用PCA算法提取主要特征,根據(jù)XGBoost算法對(duì)輸入的特征進(jìn)行擾動(dòng)預(yù)測(cè),最終得出不同時(shí)間點(diǎn)D-PMU設(shè)備是否存在擾動(dòng)。
D-PMU實(shí)時(shí)擾動(dòng)預(yù)測(cè)框架如圖1所示分為兩個(gè)模塊:離線模型訓(xùn)練模塊和實(shí)時(shí)擾動(dòng)模塊。離線模塊通過(guò)提取樣本數(shù)據(jù)中的特征,并對(duì)特征進(jìn)行預(yù)處理;然后通過(guò)先驗(yàn)知識(shí)對(duì)樣本進(jìn)行分類,再將特征x和標(biāo)簽y輸入至XGBoost模型中訓(xùn)練;最后將訓(xùn)練得到的參數(shù)拷貝至實(shí)時(shí)預(yù)測(cè)的分類模型中。實(shí)時(shí)預(yù)測(cè)模塊運(yùn)用Socket流處理框架進(jìn)行前置解析,將處理后得到的D-PMU數(shù)據(jù)進(jìn)行特征預(yù)處理,并輸入至完成參數(shù)拷貝的XGBoost模型中,完成擾動(dòng)分類后將D-PMU量測(cè)數(shù)據(jù)和分類結(jié)果存儲(chǔ)至HDFS中。
圖1 整體架構(gòu)圖
根據(jù)缺省值t所對(duì)應(yīng)的時(shí)間戳,往前推m個(gè)時(shí)間戳,找到前m個(gè)時(shí)間戳對(duì)應(yīng)的同一測(cè)量點(diǎn)的測(cè)量記錄值,根據(jù)滑動(dòng)平均法的思想:利用以往的數(shù)據(jù)預(yù)測(cè)得到未來(lái)某一時(shí)刻的數(shù)據(jù),將預(yù)測(cè)得到的值對(duì)缺省的測(cè)量點(diǎn)進(jìn)行插補(bǔ)?;瑒?dòng)平均法的公式如下:
(1)
若時(shí)間t對(duì)應(yīng)的是當(dāng)前RDD的第一個(gè)時(shí)間戳,那么就往后推m個(gè)時(shí)間戳即m*10 ms。根據(jù)滑動(dòng)平均法對(duì)D-PMU時(shí)間序列矩陣進(jìn)行數(shù)據(jù)清洗,對(duì)D-PMU時(shí)間序列中矩陣的缺省值進(jìn)行插值填補(bǔ),實(shí)現(xiàn)D-PMU時(shí)間序列質(zhì)量的提高,盡可能地還原D-PMU時(shí)間序列的原始信息。
首先取經(jīng)過(guò)數(shù)據(jù)清洗后的D-PMU時(shí)間序列矩陣DpmuRddSeq′,其表達(dá)式如公式(2)所示:
(2)
通過(guò)函數(shù)AVG(Σχij)計(jì)算得出每列特征的平均數(shù)值,并去掉平均數(shù)值。再計(jì)算得到協(xié)方差矩陣A,協(xié)方差的計(jì)算公式(3)如下:
(3)
此協(xié)方差矩陣表示兩個(gè)維度之間的關(guān)聯(lián)性,數(shù)值越大表示關(guān)聯(lián)性越強(qiáng)。若協(xié)方差為0,表示兩個(gè)維度之間是沒(méi)有關(guān)系的;若協(xié)方差的值為正,則表示是正相關(guān);若協(xié)方差為負(fù),則表示負(fù)相關(guān)。協(xié)方差矩陣A的表達(dá)式如公式(4)所示:
A=cov(νa1,…,νa24,νp1,…,νp24,f,fC,Asyn)=
(4)
并通過(guò)下面的公式(5)計(jì)算。
Av=λv
(5)
其中λ為特征值,v為特征向量。設(shè)置一個(gè)閾值,即降維后要保留的信息度,計(jì)算滿足要保留信息度的維度數(shù)k。對(duì)特征值進(jìn)行降序排序,取前k個(gè)特征值作為要保留的特征,將其余特征作為噪聲特征刪除掉。根據(jù)特征值的降序排序,將對(duì)應(yīng)的特征向量構(gòu)建成矩陣,取出前k行構(gòu)成新的D-PMU時(shí)間序列矩陣Q。
2.3.1 離線模型訓(xùn)練
首先利用IEEE39模擬器生成一定數(shù)量的D-PMU原始時(shí)間特征序列,利用Spark Streaming將D-PMU時(shí)間序列前置解析完成進(jìn)制轉(zhuǎn)換。解析后的D-PMU時(shí)間序列如公式(6)所示:
dpmuTseq={νa1,…,νa24,νp1,…,νp24,f,fC,Asyn}
(6)
根據(jù)D-PMU時(shí)間序列的特征與擾動(dòng)情況之間的關(guān)系,如電壓偏移為±5%時(shí),將該情況定義為正常狀態(tài);若電壓升高,頻率升高則可能會(huì)導(dǎo)致切負(fù)荷的擾動(dòng)情況。
根據(jù)電力知識(shí)將樣本數(shù)據(jù)分為四類(短路、切機(jī)、電壓突升、正常),并標(biāo)記為{0,1,2,3}。將處理后的樣本數(shù)據(jù)構(gòu)建成時(shí)間序列矩陣,通過(guò)PCA算法根據(jù)設(shè)定的閾值提取出前top-k的主要特征,將其他冗余特征刪除。通過(guò)交叉驗(yàn)證的方式,將樣本數(shù)據(jù)分成訓(xùn)練集、測(cè)試集,首先通過(guò)訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,通過(guò)測(cè)試集來(lái)測(cè)試基于樣本數(shù)據(jù)的模型訓(xùn)練效果。
首先通過(guò)XGBoost算法基于公式(7)對(duì)矩陣數(shù)據(jù)進(jìn)行訓(xùn)練。
(7)
其中,F(xiàn)(xi)為模型的輸出,xi為訓(xùn)練樣本集的特征,k為cart樹的個(gè)數(shù)。模型的輸出y通過(guò)引入softmax函數(shù)來(lái)實(shí)現(xiàn)多分類,選擇一個(gè)較為合適的學(xué)習(xí)率,通過(guò)交叉驗(yàn)證得到一個(gè)最佳的樹的個(gè)數(shù)k。通過(guò)模型的不斷訓(xùn)練得到最優(yōu)的參數(shù),例如樹的深度、最小葉子的權(quán)重、正則項(xiàng)化參數(shù)等,來(lái)防止過(guò)擬合。最后不斷調(diào)整學(xué)習(xí)率,得到最優(yōu)的參數(shù)的組合。
2.3.2 實(shí)時(shí)模型訓(xùn)練
取經(jīng)過(guò)PCA算法提取特征后的時(shí)間序列矩陣Q,基于Spark集群和Spark MLlib的機(jī)器學(xué)習(xí)包中的xgboost4j來(lái)進(jìn)行訓(xùn)練。根據(jù)前面樣本數(shù)據(jù)訓(xùn)練得到的最優(yōu)的參數(shù)組合,建立一個(gè)最優(yōu)的XGBoost模型,利用xgboost4j來(lái)對(duì)輸入的時(shí)間序列矩陣Q進(jìn)行分類預(yù)測(cè),將分類得到的結(jié)果添加至?xí)r間序列矩陣Q最后一列。
實(shí)驗(yàn)環(huán)境:三臺(tái)Linux云服務(wù)器,均為4核、32 GB;一臺(tái)本地服務(wù)器,i7處理器,四核,內(nèi)存8 GB,256 GB固態(tài),Windows 10操作系統(tǒng);實(shí)驗(yàn)的開發(fā)工具:IDEA,Xshell,Xftp,Pycharm。
表1 不同維度PCA實(shí)驗(yàn)對(duì)比表格
根據(jù)實(shí)驗(yàn)計(jì)算結(jié)果表可以得到,在不同維度對(duì)比試驗(yàn)中,當(dāng)維度在16時(shí),其累計(jì)貢獻(xiàn)率達(dá)到0.9649,且其計(jì)算耗時(shí)達(dá)到最小值,故選取16維度作為后面實(shí)際預(yù)測(cè)降維值,其預(yù)測(cè)準(zhǔn)確率達(dá)到97.23%。
取打上標(biāo)簽后的506條數(shù)據(jù),對(duì)XGBoost模型進(jìn)行準(zhǔn)確率評(píng)估。其中Label 0有30條,Label 1有326條,Label 2有80條,Label 3有70條數(shù)據(jù)。對(duì)應(yīng)的混淆矩陣圖如圖2所示,行代表的是預(yù)測(cè)的標(biāo)簽類別,列代表的是實(shí)際的標(biāo)簽類別。橫縱坐標(biāo)的交叉點(diǎn)表示該類別預(yù)測(cè)的準(zhǔn)確率。由圖可以看出Label 0,Label 1,Label 3基本分類正確,Label 1 有少數(shù)樣本錯(cuò)分類為L(zhǎng)abel 2。
圖2 混淆矩陣圖
取上述506條測(cè)試數(shù)據(jù),進(jìn)行XGBoost擾動(dòng)分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示:
表2 PCA處理前后分類效果比較
由表2可以看出,經(jīng)過(guò)PCA降維后,分類準(zhǔn)確率沒(méi)有明顯下降,且分類時(shí)間遠(yuǎn)小于降維前。這說(shuō)明PCA能夠提升計(jì)算速度,且不影響分類性能。
基于以上實(shí)驗(yàn)環(huán)境、樣本數(shù)據(jù)和數(shù)據(jù)處理過(guò)程,使用五折交叉驗(yàn)證,分別基于LR、SVM、DT、RF進(jìn)行準(zhǔn)確率評(píng)估,并與XGBoost算法準(zhǔn)確率進(jìn)行比較,得到實(shí)驗(yàn)結(jié)果如表3所示。
表3 多個(gè)分類算法分類效果比較
由表3可以看出,分類效果最弱的是邏輯回歸LR算法,其準(zhǔn)確率是71.344%;XGBoost的擾動(dòng)分類性能最好,達(dá)到97.233%;其次是隨機(jī)森林RF算法,其準(zhǔn)確率達(dá)到96.047%。
本文提出了一種基于PCA算法和XGBoost算法的D-PMU實(shí)時(shí)擾動(dòng)預(yù)測(cè)分類方法。實(shí)驗(yàn)結(jié)果表明,該方法不僅可以實(shí)現(xiàn)D-PMU的擾動(dòng)分類,還能保證其實(shí)時(shí)性能。搭建集群環(huán)境,使用價(jià)格低廉的服務(wù)器來(lái)代替昂貴的服務(wù)器,可以使得智能配電網(wǎng)的成本的降低。