李立生, 劉 洋*, 盧文華, 張世棟, 張林利
(1.國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院, 濟(jì)南 250002; 2.國(guó)網(wǎng)電力科學(xué)研究院武漢南瑞有限責(zé)任公司, 武漢 430000; 3.南京南瑞集團(tuán), 南京 210000)
在電力系統(tǒng)向智能電網(wǎng)及能源互聯(lián)網(wǎng)發(fā)展的過(guò)程中,海量的運(yùn)行數(shù)據(jù)一方面促進(jìn)電網(wǎng)的再發(fā)展,另一方面也帶來(lái)了數(shù)據(jù)利用處理難題。據(jù)調(diào)查,某省配電自動(dòng)化后臺(tái)故障告警頁(yè)面一天可刷出(20~30)萬(wàn)條故障告警信息,包含大量的重復(fù)、擾動(dòng)、錯(cuò)誤等故障數(shù)據(jù)。錄波型故障指示器主要應(yīng)用于當(dāng)下配電網(wǎng)故障數(shù)據(jù)記錄與故障診斷,當(dāng)電網(wǎng)中元件發(fā)生故障或線路發(fā)生故障后,與該故障線路或元件相近的線路也會(huì)啟動(dòng)錄波故障指示器,是造成更多重復(fù)數(shù)據(jù)的原因;運(yùn)行老化和調(diào)試錯(cuò)誤的故障指示器會(huì)造成干擾、抖動(dòng)故障數(shù)據(jù)及錯(cuò)誤故障數(shù)據(jù)混入正常故障數(shù)據(jù)中,加大了數(shù)據(jù)的復(fù)雜度和準(zhǔn)確度,也是造成配電自動(dòng)化后臺(tái)告警窗口數(shù)據(jù)刷新頻繁數(shù)據(jù)量大的主要原因。如此復(fù)雜和繁多的故障數(shù)據(jù),運(yùn)維人員短時(shí)間內(nèi)無(wú)法準(zhǔn)確定位實(shí)際的故障發(fā)生與故障類型,數(shù)據(jù)利用效率低下致使運(yùn)維人員工作效率低下,如此便可能導(dǎo)致真實(shí)故障的惡化與擴(kuò)散[1-2],嚴(yán)重情況下會(huì)導(dǎo)致電氣設(shè)備損壞,大面積長(zhǎng)時(shí)間停電,造成巨大的經(jīng)濟(jì)損失。因此對(duì)海量故障數(shù)據(jù)的處理和應(yīng)用無(wú)疑是個(gè)亟需解決的技術(shù)問(wèn)題。
針對(duì)海量故障數(shù)據(jù)智能清洗以獲得關(guān)鍵故障數(shù)據(jù),中外學(xué)者已開(kāi)展大量研究[3-5]。其中在輸電設(shè)備狀態(tài)故障數(shù)據(jù)清洗方面有諸多研究與應(yīng)用,文獻(xiàn)[6-9]要研究電網(wǎng)輸變電設(shè)備的運(yùn)行狀態(tài)監(jiān)測(cè)數(shù)據(jù)清洗,集中于對(duì)狀態(tài)數(shù)據(jù)中的噪聲點(diǎn)、缺失數(shù)據(jù)進(jìn)行清洗處理以及異常數(shù)據(jù)識(shí)別與修復(fù),最終獲取運(yùn)行設(shè)備的關(guān)鍵狀態(tài)故障數(shù)據(jù)。但文中清洗過(guò)程中對(duì)數(shù)據(jù)個(gè)體的完整性造成了一定的破壞,因此很難保證清洗效果。文獻(xiàn)[10]針對(duì)電網(wǎng)中過(guò)電壓故障數(shù)據(jù)運(yùn)用神經(jīng)網(wǎng)絡(luò)特征提取并進(jìn)行分類研究,最終識(shí)別出正確的過(guò)電壓數(shù)據(jù)并對(duì)錯(cuò)誤數(shù)據(jù)進(jìn)行剔除,但文中只應(yīng)用到三相中的一相數(shù)據(jù),數(shù)據(jù)不能完整的反映故障特性,因此清洗效果還需驗(yàn)證。文獻(xiàn)[1, 2, 11]對(duì)故障告警信息總體文本進(jìn)行數(shù)據(jù)挖掘,匹配關(guān)鍵詞以達(dá)到對(duì)故障數(shù)據(jù)的清洗篩選,但忽略了海量數(shù)據(jù)清洗的實(shí)質(zhì),沒(méi)有從數(shù)據(jù)本身出發(fā)分析故障數(shù)據(jù)特征,清洗準(zhǔn)確度有待驗(yàn)證。以上研究在故障數(shù)據(jù)清洗方面或未有效利用故障數(shù)據(jù)本身或未有效地進(jìn)行故障數(shù)據(jù)清洗提取。
針對(duì)以上問(wèn)題,結(jié)合神經(jīng)網(wǎng)絡(luò)及深度學(xué)習(xí)提出一種基于稀疏自編碼(sparse auto-encoder, SAE)的故障數(shù)據(jù)聚類清洗方法,其原理是首先對(duì)獲取的海量數(shù)據(jù)進(jìn)行特征學(xué)習(xí),提取數(shù)據(jù)中主要二維特征,其次利用聚類方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理剔除干擾、抖動(dòng)、錯(cuò)誤故障數(shù)據(jù),最終再次利用聚類方法對(duì)預(yù)處理故障數(shù)據(jù)進(jìn)行聚類清洗,以實(shí)現(xiàn)對(duì)故障數(shù)據(jù)完全清洗與暫態(tài)故障數(shù)據(jù)庫(kù)的清潔效果,便于運(yùn)維人員對(duì)關(guān)鍵故障信息的定位與發(fā)現(xiàn),提高運(yùn)維人員工作效率。
SAE的模型建立啟發(fā)于哺乳動(dòng)物視覺(jué)系統(tǒng)簡(jiǎn)單細(xì)胞感受野。其每一維被看作是一種特征,同基于稠密向量的分布式表示相比稀疏編碼具有更小的計(jì)算量和更好的可解釋性等優(yōu)點(diǎn)[12-13]。在文獻(xiàn)[14-15]中稀疏自編碼已被證實(shí)完全可以應(yīng)用于電氣量故障波形數(shù)據(jù)的特征獲取。單層稀疏自編碼由輸入層、隱含層、輸出層組成,其模型如圖1所示,其中由輸入層與隱含層構(gòu)成“編碼器”能夠把高維數(shù)據(jù)降維表達(dá)至低維數(shù)據(jù),由隱含層和輸出層構(gòu)成“解碼器”能夠?qū)⒔稻S后的低維數(shù)據(jù)復(fù)原回原來(lái)的高維輸入數(shù)據(jù)。
圖1 單層自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of single-layer auto-encoder neural network
對(duì)于此單層稀疏自編碼網(wǎng)絡(luò),用(W,b)和(W′,b′)表示編碼層和解碼層的權(quán)重和偏置,則編碼過(guò)程為
a(1)=f(WX+b)
(1)
解碼過(guò)程為
y=f[W′a(1)+b′]
(2)
式中:f為隱含層單元的激活函數(shù),即
(3)
對(duì)于一個(gè)k層的稀疏自編碼其稀疏懲罰項(xiàng)為
(4)
通過(guò)喂入數(shù)據(jù)使J(W,b)最小化,調(diào)節(jié)網(wǎng)絡(luò)中各個(gè)參數(shù)可以從隱含層獲得輸入數(shù)據(jù)的低維特征。
主成分分析(principal component analysis, PCA)是常用于數(shù)據(jù)預(yù)處理和圖像處理的一種數(shù)據(jù)降維方法,能有效從高維數(shù)據(jù)中提取到低維的數(shù)據(jù)特征并去除數(shù)據(jù)中噪聲和減少特征之間的相關(guān)性[16]。其定義為:在d維向量空間{tn}(n∈{1,2,…,n})中搜尋q個(gè)正交主向量wj(j∈{1,2,…,q}),獲得{tn}在wj子空間上的最大方差值[17],其主要目標(biāo)是在高維數(shù)據(jù)中提取低維的線性無(wú)關(guān)主成分特征,圖2為二維數(shù)據(jù)投影到一維空間中,在方差最大的方向選取其投影才能保留更多的原始數(shù)據(jù)特征信息。
圖2 主成分分析Fig.2 Principal component analysis
密度峰快速搜尋聚類(clustering by fast search and find of density peaks, CFSFDP)是一種基于數(shù)據(jù)分布密度為依據(jù)進(jìn)行分類的算法,處理故障數(shù)據(jù)能夠自動(dòng)的獲取聚類簇?cái)?shù)和聚類非球面形狀數(shù)據(jù)簇,算法速度更快實(shí)現(xiàn)更為簡(jiǎn)單[18-19]。CFSFDP算法基于假設(shè)條件:對(duì)于數(shù)據(jù)集,聚類中心被一些較低局部密度的數(shù)據(jù)點(diǎn)所包圍且較低的局部密度點(diǎn)與其他較高的局部密度點(diǎn)有較大的距離[20-21]。
(5)
式(5)中:dc為大于0的人為設(shè)定截止距離,通常通過(guò)所有數(shù)據(jù)點(diǎn)的ρi升序排列,設(shè)置相鄰點(diǎn)平均百分?jǐn)?shù)來(lái)間接控制其大小。如當(dāng)有M個(gè)數(shù)據(jù)點(diǎn)時(shí),設(shè)置不同的P值可得截止距離為第M×P/100個(gè)數(shù)據(jù)點(diǎn)的值。
xi與比其局部密度更高的數(shù)據(jù)組的距離為
(6)
在聚類過(guò)程中對(duì)應(yīng)局部密度ρi較大,δi較大的數(shù)據(jù)組為各類簇中心,其余的數(shù)據(jù)組根據(jù)自身的ρi,xi歸類于各個(gè)類簇中心所表示的類簇,再或者由于dc的設(shè)置原因,造成其余數(shù)組在各類簇中存在交疊點(diǎn),存在的交疊點(diǎn)則不為類簇的核元素[22]。
暫態(tài)錄波故障數(shù)據(jù)清洗方法邏輯結(jié)構(gòu)圖如圖3所示。整個(gè)系統(tǒng)主要由3部分組成。
圖3 故障數(shù)據(jù)清洗方法Fig.3 Failure data cleaning method
第一部分,故障特征提取,針對(duì)海量故障錄波數(shù)據(jù)用稀疏自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,之后再使用PCA對(duì)稀疏特征進(jìn)行降維提取,從而實(shí)現(xiàn)錄波故障數(shù)據(jù)的特征二維表達(dá)。需要注意的是導(dǎo)入網(wǎng)絡(luò)的故障數(shù)據(jù)應(yīng)包括干擾、抖動(dòng)、錯(cuò)誤、高頻次擾動(dòng)等故障數(shù)據(jù)波形,用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的參數(shù)以達(dá)到對(duì)故障數(shù)據(jù)特征有效的獲取[23]。
第二部分,故障數(shù)據(jù)預(yù)處理,對(duì)于第一部分提取的二維特征進(jìn)行CFSFDP分析,找出數(shù)據(jù)點(diǎn)ρi非常小且遠(yuǎn)離其他主類簇的離散數(shù)據(jù),由于這些離散數(shù)據(jù)點(diǎn)有很大可能是單頻次異常干擾、抖動(dòng)或者是錯(cuò)誤故障數(shù)據(jù),在混入真實(shí)故障數(shù)據(jù)后影響清洗效果,故需要對(duì)此類數(shù)據(jù)在進(jìn)行完全聚類清洗之前進(jìn)行異常數(shù)據(jù)預(yù)處理。
第三部分,故障數(shù)據(jù)清洗,在第二部的基礎(chǔ)上再次使用CFSFDP對(duì)預(yù)處理數(shù)據(jù)進(jìn)行聚類分析,對(duì)于各個(gè)類簇實(shí)施類簇中心數(shù)據(jù)識(shí)別,確定各類屬性。如果聚類中心所表達(dá)的故障類型是高頻次擾動(dòng)、錯(cuò)誤等無(wú)效故障數(shù)據(jù),則立即進(jìn)行隔離清洗。對(duì)其余正確故障波形數(shù)據(jù)進(jìn)行類簇中心代表數(shù)據(jù)提取作為推送數(shù)據(jù),以達(dá)到對(duì)重復(fù)數(shù)據(jù)的剔除。繼而完成整個(gè)清洗過(guò)程,提高了海量數(shù)據(jù)中故障數(shù)據(jù)及故障屬性的識(shí)別率,提高了獲取主要、準(zhǔn)確告警信息的效率。
本文模型訓(xùn)練驗(yàn)證所用數(shù)據(jù)為山東省各市縣2019年部分錄波故障數(shù)據(jù),其中包含了大量的接地故障數(shù)據(jù)和一定量的干擾、抖動(dòng)、無(wú)效數(shù)據(jù)。經(jīng)過(guò)篩選,取得1 500條故障數(shù)據(jù),其中包括320條干擾、抖動(dòng)、錯(cuò)誤故障數(shù)據(jù)如圖4所示,部分真實(shí)故障數(shù)據(jù)如圖5所示。
其中每一組訓(xùn)練數(shù)據(jù)由故障點(diǎn)A、B、C三相電壓組成,獲取故障時(shí)刻三條線路電壓同時(shí)變化特征。在電網(wǎng)運(yùn)行過(guò)程中不同類型的故障數(shù)據(jù)統(tǒng)一涌來(lái),真實(shí)故障數(shù)據(jù)與錯(cuò)誤無(wú)效故障數(shù)據(jù)魚目混雜,故有必要對(duì)此故障數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。
故障波形數(shù)據(jù)由故障時(shí)刻三相電壓拼接組成,由于故障指示器記錄故障時(shí)刻前4后8個(gè)周期波形,且往往在故障點(diǎn)左右3個(gè)周期便可有效反映故障特征,故取每一相電壓波形故障點(diǎn)時(shí)刻前1.5周期和故障點(diǎn)后1.5個(gè)周期,共256個(gè)數(shù)據(jù),即每組數(shù)據(jù)為3×256維矩陣。經(jīng)過(guò)稀疏自編碼降維壓縮后映射為2維數(shù)據(jù),以用于實(shí)現(xiàn)后文聚類清洗。圖6為網(wǎng)絡(luò)設(shè)置為一個(gè)3層稀疏自編碼器進(jìn)行特征降維后的數(shù)據(jù)可視化,其中輸入層神經(jīng)元為768維,隱含層設(shè)置為2維,輸出為768維。喂入數(shù)據(jù)進(jìn)行訓(xùn)練,調(diào)節(jié)參數(shù),提取隱含層數(shù)據(jù)為故障2維特征表達(dá)。
圖7所示為在三層稀疏自編碼神經(jīng)網(wǎng)絡(luò)降維的基礎(chǔ)上加上PCA特征降維,即設(shè)置輸入層為768維,隱含層50維,PCA獲取50維數(shù)據(jù)后再降至2維主成分?jǐn)?shù)據(jù)。比較圖6、圖7有明顯發(fā)現(xiàn),稀疏自編碼直接降至2維后錯(cuò)誤、無(wú)效波形數(shù)據(jù)與真實(shí)故障數(shù)據(jù)分離不明顯,離散程度較低,而加入PCA降維后的2維特征數(shù)據(jù)中錯(cuò)誤、無(wú)效波形數(shù)據(jù)與真實(shí)故障數(shù)據(jù)分離較為明顯,離散度較高。
x、y為提取的第一、二特征量圖7 2維PCA特征提取Fig.7 2-D PCA feature extraction
造成圖6與圖7的差別在于把故障數(shù)據(jù)由768維直接降至2維會(huì)導(dǎo)致波形的特征信息損失較大,特征差別提取不明顯故可視化效果較差。而圖7首先把768維數(shù)據(jù)降至50維保留了更多的關(guān)鍵信息,而后用PCA在50維數(shù)據(jù)進(jìn)行降維提取主成分能更好地保留數(shù)據(jù)特征,實(shí)現(xiàn)關(guān)鍵信息可視化。由此可見(jiàn)加入PCA的網(wǎng)絡(luò)對(duì)特征提取的效果更佳。
針對(duì)稀疏自編碼和PCA對(duì)特征的降維提取后,利用CFSFDP進(jìn)行對(duì)特征值進(jìn)行數(shù)據(jù)預(yù)清洗,由于CFSFDP中截?cái)嗑嚯x的設(shè)置對(duì)聚類效果有很大影響,當(dāng)截?cái)嗑嚯xdc設(shè)置為P=1時(shí),計(jì)算各特征對(duì)應(yīng)的ρi和δi,對(duì)ρi和δi和進(jìn)行可視化如圖8所示,當(dāng)ρi<0.2時(shí)有部分特征數(shù)據(jù)有較高的δi,即此類特征點(diǎn)為離散數(shù)據(jù)點(diǎn),為錯(cuò)誤、擾動(dòng)的可能較極大,故應(yīng)給予剔除隔離,實(shí)現(xiàn)對(duì)故障數(shù)據(jù)的初步預(yù)清洗。
圖8 數(shù)據(jù)點(diǎn)ρi、δi分布Fig.8 The ρi,δi distribution of the data point
對(duì)預(yù)清洗后的數(shù)據(jù)進(jìn)行CFSFDP再次聚類效果如圖9(a),如表1中P=1時(shí)所示為圖9(a)對(duì)應(yīng)的核元素聚類描述,其中可見(jiàn)類簇1和類簇3存在交疊點(diǎn),這是由于相關(guān)參數(shù)dc的設(shè)置對(duì)聚類效果的影響,獲取各類簇中心代表點(diǎn)可知類簇2中心為錯(cuò)誤無(wú)效特征,故由于類簇相似性可知類簇2為錯(cuò)誤無(wú)效故障波形。應(yīng)給予類簇2隔離實(shí)現(xiàn)聚類清洗的效果。
當(dāng)設(shè)置截?cái)嗑嚯xdc設(shè)置為P=0.5時(shí),減小截?cái)嗑嚯x后重新聚類,類簇1和類簇3的交疊點(diǎn)消失,得到新的各類簇如圖9(b)所示,表1中P=0.5時(shí)為圖9(b)聚類結(jié)果表述。同樣類簇2為錯(cuò)誤無(wú)效波形數(shù)據(jù)需要進(jìn)行隔離清洗。
表1 CFSFDP聚類結(jié)果
其中可以通過(guò)計(jì)算正確清洗率和錯(cuò)誤清洗率來(lái)衡量模型聚類效果,通過(guò)計(jì)算當(dāng)截?cái)嗑嚯xdc設(shè)置為P=1和P=0.5時(shí)聚類效果如表2所示。
表2 CFSFDP聚類清洗結(jié)果統(tǒng)計(jì)表
即通過(guò)調(diào)節(jié)截?cái)嗑嚯x,可以更好地獲取聚類模型,當(dāng)截?cái)嗑嚯xdc設(shè)置為P=1時(shí),模型正確清洗高達(dá)92.50%但其錯(cuò)誤清洗率也較高,損失了一部分正確波形。當(dāng)截?cái)嗑嚯xdc設(shè)置為P=0.5時(shí),可知模型正確波形損失較少即錯(cuò)誤清洗率較低為0.93%,但錯(cuò)誤識(shí)別率降低了約5%。
x、y為提取的第一、二特征量圖9 聚類結(jié)果示圖Fig.9 Clustering results
顯然通過(guò)調(diào)節(jié)截?cái)嗑嚯x可以使模型達(dá)到更好的聚類效果,故有必要研究截?cái)嗑嚯x對(duì)聚類效果的影響,當(dāng)截?cái)嗑嚯xdc設(shè)置從P=0.1到P=3.2變化過(guò)程,各類簇聚類效果如圖10所示。
圖10 P對(duì)聚類結(jié)果的影響Fig.10 Influence of P on clustering results
根據(jù)dc對(duì)聚類結(jié)果的影響可知當(dāng)dc設(shè)置較大時(shí)將造成各類簇間出現(xiàn)交疊點(diǎn),從而影響聚類效果。根據(jù)本文研究設(shè)置截止距離相鄰點(diǎn)平均百分?jǐn)?shù)P=0.4至P=1之間最為合適,可以得到較高的正確清洗率即可以有效地去除故障數(shù)據(jù)中的錯(cuò)誤故障數(shù)據(jù)。以保證暫態(tài)故障數(shù)據(jù)庫(kù)的清潔。
目前針對(duì)暫態(tài)故障數(shù)據(jù)清洗方法有基于故障數(shù)據(jù)告警文本清洗方法[1]或基于波形文件規(guī)范邏輯的暫態(tài)故障數(shù)據(jù)[24]清洗方法。就基于波形文件規(guī)范邏輯清洗方法,在其清洗實(shí)驗(yàn)中驗(yàn)證正確清洗率雖然也在90%以上,但實(shí)驗(yàn)條件苛刻無(wú)法驗(yàn)證實(shí)測(cè)電網(wǎng)數(shù)據(jù)清洗效果以及對(duì)重復(fù)故障數(shù)據(jù)無(wú)法給予剔除。對(duì)本文中320條錯(cuò)誤、干擾實(shí)測(cè)故障波形采用上述邏輯方法進(jìn)行清洗測(cè)試。按照其方法分四步對(duì)數(shù)據(jù)文件進(jìn)行合格波形篩選,第一步為判定每個(gè)文件夾下是否有成對(duì)的cfg與dat文件;第二步為判定是否每相波形數(shù)據(jù)采樣周期數(shù)不小于12個(gè),周期采樣點(diǎn)不小于80個(gè);第三步判定每相電流有效值是否均小于設(shè)定閾值;第四步判定波形突變點(diǎn)是否在錄波起始點(diǎn)前一周期內(nèi)。如果滿足以上4個(gè)條件則判定為合格波形。根據(jù)現(xiàn)場(chǎng)實(shí)測(cè)數(shù)據(jù)電流普遍較大設(shè)置測(cè)試電流閾值范圍為2~16 A,計(jì)算并累計(jì)每步清洗后剔除的波形數(shù)據(jù)量,最終確定320條錯(cuò)誤數(shù)據(jù)是否全部剔除。圖11為每層邏輯清洗剔除的波形數(shù)據(jù)量。
圖11 邏輯清洗波形剔除量圖Fig.11 Logical cleaning waveform elimination Figure
當(dāng)電流閾值設(shè)置為較小時(shí)即2 A,第三步剔除波形數(shù)量為172條,總剔除量為236條,總未成功剔除量為74條,計(jì)算其正確清洗率約為74%,實(shí)測(cè)數(shù)據(jù)清洗效果較差。且隨著電流閾值設(shè)置增大時(shí),總波形剔除量減小,邏輯清洗效果加劇變差。因此本文不失為一種更高效暫態(tài)故障數(shù)據(jù)清洗方法,切實(shí)從故障數(shù)據(jù)本身質(zhì)量特征出發(fā),故障清洗準(zhǔn)確度、可信度更高。
通過(guò)從電網(wǎng)總體故障數(shù)據(jù)中利用稀疏自編碼和PCA降維進(jìn)行特征學(xué)習(xí),然后利用CFSFDP對(duì)二維特征進(jìn)行聚類,實(shí)現(xiàn)對(duì)故障數(shù)據(jù)的高效聚類清洗。適當(dāng)?shù)恼{(diào)節(jié)網(wǎng)絡(luò)參數(shù),在正確清洗率達(dá)到87.18%,錯(cuò)誤清洗率低于1%的情況下,對(duì)故障數(shù)據(jù)進(jìn)行聚類清洗和代表數(shù)據(jù)點(diǎn)提取推送,能有效地從海量的故障數(shù)據(jù)中提取出真實(shí)準(zhǔn)確的故障信息,剔除錯(cuò)誤、無(wú)效的干擾數(shù)據(jù),為智能告警提供優(yōu)質(zhì)的故障信息,同時(shí)從根本上解決了配電告警平臺(tái)頻繁刷屏的問(wèn)題。