王立建,祝文瀾,宣弈,曹張潔
(國網(wǎng)浙江杭州供電公司,浙江 杭州 315600)
隨著電網(wǎng)規(guī)模不斷擴(kuò)大,電網(wǎng)故障復(fù)雜性增強(qiáng)且容易伴有衍生故障,對電力調(diào)度快速故障處置提出了更高的要求,目前存在以下兩方面問題。復(fù)雜故障判別精準(zhǔn)性不高。電力調(diào)控員在電網(wǎng)運(yùn)行監(jiān)控過程中通過主站SCADA 系統(tǒng)實時上送的大量告警信息來進(jìn)行判斷,信息量大、關(guān)聯(lián)衍生信號的疊加以及核心告警信息的丟失,無疑加大了故障判斷的難度。以某變母差保護(hù)導(dǎo)致副母失電為例,10 s 內(nèi)上送告警信息達(dá)到218 條,且丟失了最重要的失靈保護(hù)動作信號,監(jiān)控員短時內(nèi)無法判斷為母差保護(hù)動作,影響后續(xù)故障處置。故障原因無法快速甄別。變電站發(fā)生故障后,純粹依靠調(diào)度、檢修人員的經(jīng)驗,難以從故錄波形分析出具體原因。比如220 kV 線路事故跳閘,引起事故的原因可能是雷擊、鳥害、覆冰、外力破壞等。若為雷擊,則可對故障線路進(jìn)行一次試送;若為外力破壞,則不能對故障線路進(jìn)行試送,否則存在人身傷亡風(fēng)險。
為解決上述問題,本文提出了一種圖文融合的電網(wǎng)故障綜合研判方法[1-4]。針對告警信息,采用文本機(jī)器學(xué)習(xí),與歷史案例庫進(jìn)行向量化比對,實現(xiàn)故障類別精準(zhǔn)判斷;針對故障錄波系統(tǒng),采用波形機(jī)器學(xué)習(xí),獲得雷擊、鳥害等歷史樣本庫庫,通過特征值對比快速識別故障原因。
圖1 是電網(wǎng)故障診斷的總體流程框圖。通過電網(wǎng)典型歷史故障案例文本、波形文件進(jìn)行機(jī)器學(xué)習(xí)、規(guī)則挖掘,獲得所需詞典庫。D5000 實時告警信息通過數(shù)據(jù)接口處理成文本格式,在圖文融合故障診斷系統(tǒng)中與告警文本庫向量化對比,實現(xiàn)故障類別精準(zhǔn)判別。四方故障錄波系統(tǒng)通過數(shù)據(jù)接口提取特征值,在圖文融合故障診斷系統(tǒng)中與波形特征庫比對,實現(xiàn)故障原因快速識別。最終實現(xiàn)全路徑告警溯源。
圖1 圖文融合故障診斷總體架構(gòu)
數(shù)據(jù)來源于智能電網(wǎng)調(diào)度控制系統(tǒng)(D5000),其告警信息數(shù)據(jù)類型為短文本,由告警時間、所屬變電站、告警內(nèi)容、狀態(tài)信息組成,其告警內(nèi)容為非結(jié)構(gòu)化中文短文本。首先進(jìn)行數(shù)據(jù)預(yù)處理。考慮原始數(shù)據(jù)的多維性,通過pandas函數(shù)進(jìn)行數(shù)據(jù)清洗,去掉變電站、線路名稱等標(biāo)簽,實現(xiàn)多維數(shù)據(jù)降維至一維。
本文故障對象以220 kV線路事故跳閘為例,故障類別可歸納為5類,分別是線路第一套保護(hù)動作、線路三相不一致跳閘、線路失靈保護(hù)、對側(cè)開關(guān)遠(yuǎn)跳保護(hù)動作、母差保護(hù)動作引起。表1 表示母差保護(hù)動作引起線路事故跳閘的典型案例庫。
表1 母差保護(hù)引起線路跳閘的故障樣本案例
圖2是文本機(jī)器學(xué)習(xí)流程圖,如圖2所示。
圖2 文本機(jī)器學(xué)習(xí)流程圖
在數(shù)據(jù)預(yù)處理完的基礎(chǔ)上,利用結(jié)巴分詞詞典推導(dǎo)出分詞結(jié)果,利用詞頻統(tǒng)計篩選出詞頻較高的詞語,并構(gòu)建樣本告警文本詞庫。
對歷史故障樣本模板進(jìn)行分詞預(yù)處理,利用詞袋模型doc2bow 轉(zhuǎn)換為稀疏向量,稀疏向量進(jìn)行進(jìn)一步處理,得到新語料庫。
通過支持向量機(jī)進(jìn)行文本分類,增加類別關(guān)鍵字的權(quán)重,使得文本向量化之后的結(jié)果更好的反應(yīng)文本信息,充分考慮詞語在文本中的級別。
新語料庫經(jīng)過TF-IDF 算法處理后得到TF-IDF值,通過token2id得到特征數(shù)。
基于TF-IDF的稀疏矩陣對故障文本進(jìn)行相似度比對,建立索引,推算結(jié)果。
TF-IDF 算法(詞頻-逆文檔頻次算法)是一種統(tǒng)計方法,可以高效準(zhǔn)確的提取關(guān)鍵詞的特性,從而評估一個詞在一個文檔集中的重要程度。從算法名稱可以看出,TF-IDF算法由TF和IDF算法兩部分組成。TF算法是統(tǒng)計一個詞在一篇文檔中出現(xiàn)的頻次,即一個詞在一篇文檔中出現(xiàn)的次數(shù)越多,則其對文檔的表達(dá)能力就越強(qiáng)。IDF 算法統(tǒng)計一個詞在文檔集的多少文檔中出現(xiàn),即如果一個詞在越少的文檔中出現(xiàn),則其對文檔的區(qū)分能力就越強(qiáng)。
通過TF-IDF算法對詞頻統(tǒng)計計算的高頻詞來建立TF-IDF模型,然后進(jìn)行向量化處理,生成稀疏矩陣進(jìn)行相似度比對。
所需數(shù)據(jù)來源為II 區(qū)四方故障錄波系統(tǒng)的波形文件,離線導(dǎo)出已標(biāo)定原因的260 組故障錄波器波形數(shù)據(jù),包含故障線路三相電壓電流(包括零序)8個維度的時域波形,作為原始樣本數(shù)據(jù)。
圖3 波形機(jī)器學(xué)習(xí)流程圖
故錄波形學(xué)習(xí)流程圖如圖3 所示,將故障錄波轉(zhuǎn)為便于處理的格式文件;利用小波分析將時域的故障波形處理為頻域細(xì)節(jié),結(jié)合信息熵算法得到波形的頻域特征;提取每個頻段的小波能量熵、能量均值以及能量方差,用作判別模型的識別特征,使用onehot 編碼技術(shù)加入時間特征,如季節(jié)、月份;通過SVM建立機(jī)器學(xué)習(xí)模型,在統(tǒng)計樣本量較少的情況下,尋求結(jié)構(gòu)化風(fēng)險最小來提高學(xué)習(xí)機(jī)泛化能力,實現(xiàn)經(jīng)驗風(fēng)險和置信范圍的最小化;對訓(xùn)練集之外的波形進(jìn)行故障預(yù)測。
信息熵理論對于一個不確定性系統(tǒng),若用一個取有限值的隨機(jī)變量X表示其狀態(tài)特征,取值xj的概率pj=p{X=xj},j=1,2,…,L,且X的結(jié)果信息用Ij=log(1/pj)表示,則X的信息熵如式3.4所示。
當(dāng)pj=0 時,pjlog(pj)=0。小波熵H是在一定的狀態(tài)下定位系統(tǒng)的一種信息測度。它是對序列未知程度的一種度量,可以用來估計隨機(jī)信號的復(fù)雜性。本文將每個波形三相電流、電壓的五層頻域范圍的能量方差、均值、熵作為特征,總共90維度的向量作為數(shù)據(jù)預(yù)處理結(jié)果。圖4 表示故障相電流在125~250 Hz 時小波細(xì)節(jié)系數(shù)的能量熵分布特征圖,5種故障原因的能量熵分布具有明顯差異。
圖4 不同故障原因的小波熵分布
國網(wǎng)浙江電力云平臺數(shù)據(jù)挖掘開發(fā)環(huán)境Kube-Flow平臺,集成了整套Jupyter開發(fā)環(huán)境,本文通過該平臺Python語言編制程序進(jìn)行結(jié)果驗證。
圖5 核心信號丟失時文本比對結(jié)果
站端信號全上送。從D5000 系統(tǒng)提取潮江4430線事故跳閘前后30 s 內(nèi)的所有告警信息,基于TDIDF 算法獲得該故障文本與文本庫“母差保護(hù)動作引起”相似度結(jié)果為0.9209。
站端核心信號未上送。在故障文本中刪除一條核心信號,如220 kV第二套母線保護(hù)差動動作,再次運(yùn)行程序發(fā)現(xiàn)相似度為0.8409,驗證了該算法在站端核心信號丟失時的可行性。
表2 表示基于小波熵特征值提取算法推算各類故障原因的準(zhǔn)確率。本文以2019年4月26日220 kV甘露變電站甘群1237線鳥害引起故障的原始波形為例,如圖6 所示,包含故障三相電壓電流及零序波形。通過波形識別算法推算故障原因為鳥害引起,如圖7所示,以混淆矩陣表示。
表2 基于波形機(jī)器學(xué)習(xí)的故障原因識別準(zhǔn)確率
圖6 鳥害故障錄波波形
圖7 混淆矩陣結(jié)果
電網(wǎng)運(yùn)行數(shù)據(jù)資源是電力行業(yè)的潛在核心資產(chǎn)和創(chuàng)新創(chuàng)效源泉,遵循“價值驅(qū)動、迭代推進(jìn)”兩大原則,定位于數(shù)據(jù)服務(wù)業(yè)務(wù),用數(shù)據(jù)驅(qū)動業(yè)務(wù)。本文研究了一種圖文融合的電網(wǎng)故障綜合研判方法,深度融合多專業(yè)系統(tǒng)數(shù)據(jù),主動感知電網(wǎng)運(yùn)行數(shù)據(jù),實現(xiàn)從調(diào)度端到設(shè)備端的全路徑故障智能診斷,為調(diào)控員快速故障處置提供強(qiáng)大的支撐,提升智慧調(diào)度的人工智能化水準(zhǔn)。