董 翔,趙 璧,戴瑞成,董小兵
(1.國(guó)網(wǎng)北京電力檢修分公司,北京 100069;2.國(guó)網(wǎng)陜西省電力有限公司經(jīng)濟(jì)技術(shù)研究院,西安 710065)
隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,電力變壓器的故障檢測(cè)手段發(fā)生了巨大變化[1-2],已逐漸轉(zhuǎn)入計(jì)算機(jī)領(lǐng)域,通過(guò)建立相應(yīng)的數(shù)學(xué)模型來(lái)預(yù)測(cè)變壓器內(nèi)部故障,使得故障的檢測(cè)朝向智能化、信息化的方向發(fā)展[3-4]。
常用的故障檢測(cè)方法有基于人工神經(jīng)網(wǎng)絡(luò)模型的診斷、基于模糊理論的故障診斷和基于專(zhuān)家系統(tǒng)的故障診斷。此外,其他的診斷方法如Petri網(wǎng)、灰色聚類(lèi)及支持向量機(jī)等也運(yùn)用于故障診斷中,并得到了一定程度的發(fā)展。每種方法均有優(yōu)點(diǎn)和缺點(diǎn),需要人們根據(jù)實(shí)際問(wèn)題尋找最合適的辦法。按照當(dāng)今的發(fā)展趨勢(shì),人工智能的方法在故障診斷領(lǐng)域占據(jù)越來(lái)越重要的地位。
傳統(tǒng)的設(shè)備運(yùn)維基本采用狀態(tài)檢修技術(shù),根據(jù)設(shè)備的定期試驗(yàn)結(jié)果并結(jié)合評(píng)價(jià)模型開(kāi)展檢修策略的制訂[1-2]?,F(xiàn)階段隨著帶電檢測(cè)、在線監(jiān)測(cè)和運(yùn)行數(shù)據(jù)逐步納入電力企業(yè)云平臺(tái),為開(kāi)展電力設(shè)備大數(shù)據(jù)分析、進(jìn)一步提高供電可靠性奠定了基礎(chǔ)。而現(xiàn)階段積累的狀態(tài)監(jiān)測(cè)和檢測(cè)數(shù)據(jù)沒(méi)有得到充分挖掘利用,造成信息資源的浪費(fèi)[3-4]。
因此,非常有必要完成變壓器異常事件及其影響因子的調(diào)研、收集和相關(guān)規(guī)則庫(kù)建設(shè),對(duì)規(guī)則庫(kù)中的海量數(shù)據(jù)開(kāi)展基于大數(shù)據(jù)技術(shù)的潛在關(guān)聯(lián)探索和未來(lái)短期預(yù)測(cè),逐步提升設(shè)備故障診斷水平,為后續(xù)生產(chǎn)運(yùn)行和狀態(tài)評(píng)估提供決策依據(jù)。本文介紹了關(guān)聯(lián)規(guī)則挖掘的基本原理、故障狀態(tài)量的劃分及數(shù)據(jù)離散化處理方法,以此為基礎(chǔ),利用SPSS Modeler 軟件平臺(tái)建立電力變壓器故障關(guān)聯(lián)規(guī)則挖掘模型,旨在采取關(guān)聯(lián)規(guī)則挖掘的方法發(fā)現(xiàn)狀態(tài)特征量和故障類(lèi)別之間的內(nèi)在聯(lián)系,對(duì)故障進(jìn)行判定。
關(guān)聯(lián)規(guī)則挖掘的概念可以描述如下:設(shè)I={i1,i2,…,im}是一個(gè)項(xiàng)目的集合,D={d1,d2,…,dn}是事務(wù)數(shù)據(jù)庫(kù)且其中的事務(wù)都具有唯一的標(biāo)識(shí)。每個(gè)事物di(i=1,2,…,n)都對(duì)應(yīng)I 上的一個(gè)子集Ij(j=1,2,…,m),Ij即為由j 項(xiàng)I 中的元素組成的集合。關(guān)聯(lián)規(guī)則就是定義在I 和D 上,滿(mǎn)足一定的置信度及支持度的形如Ij→di的關(guān)系式。關(guān)聯(lián)規(guī)則挖掘的主要任務(wù)在于挖掘出支持度和置信度分別大于或等于設(shè)定的最小支持度及其最小置信度的關(guān)聯(lián)規(guī)則。
1.2.1 關(guān)聯(lián)規(guī)則挖掘流程
關(guān)聯(lián)規(guī)則挖掘流程如下:
(1)找出全部的頻繁項(xiàng)目集。所謂的頻繁項(xiàng)目集指的是支持度不小于給定的最小支持度的項(xiàng)目集,例如k 階頻繁項(xiàng)集Lk中每個(gè)元素都是由k個(gè)項(xiàng)組成的集合,且其中每個(gè)元素的支持度均不小于最小支持度閾值,以2 階頻繁項(xiàng)集為例,其形式為L(zhǎng)2={{i1,i2},{i1,i3},{i2,i4},…}。
(2)根據(jù)頻繁項(xiàng)目集來(lái)生成關(guān)聯(lián)規(guī)則。這一步以置信度大于等于用戶(hù)所設(shè)定的最小置信度作為基本原則,生成所期望的強(qiáng)關(guān)聯(lián)規(guī)則。
在以上2 步中第(1)步的任務(wù)集中了幾乎所有的計(jì)算量,所以耗時(shí)相對(duì)較大;第(2)步在第(1)步的基礎(chǔ)上較容易實(shí)現(xiàn),所以關(guān)聯(lián)規(guī)則挖掘算法性能主要取決于第(1)步。
1.2.2 關(guān)聯(lián)規(guī)則挖掘算法
Apriori 算法作為關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,自被提出以來(lái)就一直在關(guān)聯(lián)規(guī)則挖掘中占據(jù)重要的地位。該算法主要包含兩大步驟:挖掘得到頻繁項(xiàng)目集;由頻繁項(xiàng)目集生成關(guān)聯(lián)規(guī)則。Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類(lèi)上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。該算法的基本原理如圖1 所示。
圖1 Apriori 算法原理
關(guān)聯(lián)規(guī)則挖掘過(guò)程的核心部分是頻繁項(xiàng)集的生成過(guò)程,因?yàn)轭l繁項(xiàng)集的生成過(guò)程是影響算法的關(guān)鍵,也是計(jì)算量最大、耗時(shí)最長(zhǎng)的過(guò)程。生成頻繁項(xiàng)集的過(guò)程又有2 個(gè)子步驟:
(1)連接步。為了產(chǎn)生頻繁k 項(xiàng)集的集合Lk,首先要找到候選k 項(xiàng)集的集合Ck,該集合可以通過(guò)頻繁(k-1)項(xiàng)集的集合Lk-1與自身進(jìn)行連接得到。假設(shè)l1和l2均為L(zhǎng)k-1中的項(xiàng)集,lj中的第i 項(xiàng)用lj[i]來(lái)表示。如果它們的前(k-2)個(gè)項(xiàng)均相同的話,即滿(mǎn)足(l1[1]=l2[1]∧l1[2]=l2[2]∧…∧l1[k-2]=l2[k-2]∧l1[k-1]≠l2[k-1])。連接l1,l2產(chǎn)生的結(jié)果項(xiàng)集即為候選k 項(xiàng)集:Ck={l1[1],l1[2],…,l1[k-1]l2[k-1]}。
(2)剪枝步。由于候選項(xiàng)集并不是所有的項(xiàng)集都是頻繁的,因此為了減小搜索空間,可從Ck中去掉候選k 項(xiàng)集的(k-1)項(xiàng)子集[5-7]。
1.2.3 算法程序?qū)崿F(xiàn)
根據(jù)以上算法原理可以設(shè)想程序的實(shí)現(xiàn)應(yīng)分為以下3 個(gè)模塊:
(1)找出滿(mǎn)足最低規(guī)則支持度的頻繁n 項(xiàng)集Ln,為此要先構(gòu)建初始候選1 項(xiàng)集C1及頻繁1 項(xiàng)集L1,由連接步依次生成Cn,再在Cn中篩選出Ln。
(2)從頻繁n 項(xiàng)集Ln中篩選出滿(mǎn)足最低支持度的Qn。
(3)在Ln中找出滿(mǎn)足最低規(guī)則支持度和最低支持度的強(qiáng)規(guī)則集。
關(guān)聯(lián)規(guī)則挖掘階段主要由四大部分構(gòu)成,即變壓器故障數(shù)據(jù)歸集整合、數(shù)據(jù)預(yù)處理、單變量交叉表分析和利用Apriori 算法得到關(guān)聯(lián)規(guī)則[8-10]。
變壓器在故障狀態(tài)下會(huì)生成多種氣體,本文采用基于PCA(主成分分析)的輸入?yún)?shù)分析方法對(duì)相關(guān)量進(jìn)行優(yōu)選。利用PCA 法選取診斷模型對(duì)應(yīng)的最優(yōu)參數(shù),并同步剔除影響診斷正確率的冗余參量,最終取8 種氣體(CH4,C2H2,C2H4,C2H6,H,CO,CO2和總烴)作為故障特征量,即故障診斷中的條件變量,而故障類(lèi)型選取過(guò)熱兼放電、低溫過(guò)熱、中溫過(guò)熱、高溫過(guò)熱、低能放電和高能放電,并標(biāo)記相應(yīng)的變量,如表1、表2 所示。
將故障特征與變壓器典型故障相結(jié)合,可形成關(guān)于關(guān)聯(lián)分析規(guī)則分析中的數(shù)據(jù)項(xiàng)集I,記為:
I={x1,x2,…,x11,y1,y2,…,y6} . (1)
以下電力變壓器故障與特征量的關(guān)聯(lián)分析,是對(duì)特征量集X={x1,x2,…,x11}與故障集Y={y1,y2,…,y6}的相關(guān)性進(jìn)行分析,計(jì)算獲得X→Y 的模糊關(guān)系規(guī)則。
原始數(shù)據(jù)中存在著許多空缺值,并且關(guān)聯(lián)規(guī)則挖掘需要針對(duì)的是離散化數(shù)據(jù),因此原始數(shù)據(jù)必須進(jìn)行預(yù)處理后方可使用。對(duì)于空缺值的處理一般有平均值填充和去除2 種方法。由于本文中所處理數(shù)據(jù)量較大,并且分散性較高,所以當(dāng)一個(gè)案例所有信息均空缺時(shí)對(duì)空缺值采用去除的方法,若案例的空缺信息不多,則利用Spss Modeler將其設(shè)為缺失值。數(shù)據(jù)的離散化方法有很多,如等距離劃分法、等頻率劃分法、K-means 算法、最小信息熵法、NavieScaler 離散化和模糊離散方法,方法的具體選取由數(shù)據(jù)本身決定。
表1 變壓器故障特征量
表2 變壓器典型故障類(lèi)型
有關(guān)故障狀態(tài)量的離散化本文選取了布爾邏輯算法和模糊離散方法2 種方法,優(yōu)先運(yùn)用布爾邏輯算法。由于正常變壓器油中氫和烴類(lèi)氣體的含量限值各不相同,具體注意值如表3 所示,若對(duì)所有屬性值采用相同的區(qū)間,則缺乏一定的針對(duì)性。且由對(duì)電力變壓器數(shù)據(jù)統(tǒng)計(jì)特征分析可知,有4 種氣體其絕大部分?jǐn)?shù)據(jù)均集中在含量極小處,綜合考慮后決定離散方法如下:若離散值為0,則表示氣體含量在正常范圍內(nèi);若離散值為1,則表示氣體含量超出注意值。
表3 正常變壓器油中氫和烴類(lèi)氣體的含量限值
由于國(guó)標(biāo)沒(méi)有規(guī)定CO 和CO2的閾值,因此可利用現(xiàn)有數(shù)據(jù)的分布來(lái)確定二者具體閾值,即根據(jù)IEEE 所規(guī)定的氣體濃度極限值,通常是基于去除了破壞后的樣品的大型數(shù)據(jù)庫(kù)的90%和95%的氣體濃度來(lái)確定的。
基于關(guān)聯(lián)規(guī)則挖掘基本原理,利用SPSS Modeler 軟件平臺(tái)建立電力變壓器故障關(guān)聯(lián)規(guī)則挖掘模型。先以改進(jìn)的等距離劃分算法所得離散化數(shù)據(jù)的建模過(guò)程作為重點(diǎn)介紹。當(dāng)采用模糊的離散化方法離散時(shí),建模過(guò)程與此相同。
其中,將能直觀表示故障特征量以及故障類(lèi)型總共9 個(gè)類(lèi)別量之間相關(guān)聯(lián)程度的網(wǎng)絡(luò)關(guān)系展示如圖2 所示。圖中,如果案例支持兩點(diǎn)之間存在關(guān)聯(lián),那就在兩點(diǎn)之間連成一條線;如果案例不支持,兩點(diǎn)之間就不連線。把所有案例遍歷后,哪兩點(diǎn)之間的連線最多,說(shuō)明這兩點(diǎn)之間的相關(guān)性最強(qiáng)。
圖2 不同鏈接數(shù)下的屬性值相關(guān)關(guān)系網(wǎng)絡(luò)圖
利用模糊關(guān)聯(lián)規(guī)則模型對(duì)特高壓變壓器進(jìn)行異常狀態(tài)診斷及分析,流程如圖3 所示。以故障特征量為前項(xiàng),以故障類(lèi)型為后項(xiàng),設(shè)置最小支持度和最小置信度,運(yùn)用Apriori 數(shù)據(jù)挖掘經(jīng)典算法挖掘出變壓器故障和故障狀態(tài)量之間的關(guān)聯(lián)規(guī)則。
以2016 年某220 kV 變壓器跳閘為例進(jìn)行驗(yàn)證[15]。該變壓器跳閘后的試驗(yàn)結(jié)果見(jiàn)表4,油色譜數(shù)據(jù)見(jiàn)表5。
將該結(jié)構(gòu)化數(shù)據(jù)與故障類(lèi)型、故障部位進(jìn)行關(guān)聯(lián)規(guī)則匹配,結(jié)果見(jiàn)表6。由表6 可知,基于模糊關(guān)聯(lián)規(guī)則的變壓器診斷結(jié)果與實(shí)際解體檢查結(jié)果(B 相低壓繞組嚴(yán)重變形,多處匝間短路,存在電弧放電)相符。
圖3 模糊關(guān)聯(lián)規(guī)則模型診斷分析流程
表4 變壓器電氣試驗(yàn)結(jié)果
表5 變壓器故障油色譜數(shù)據(jù)
表6 診斷結(jié)果
本文以電力變壓器故障特征量為前項(xiàng),以故障類(lèi)型為后項(xiàng),設(shè)置最小支持度和最小置信度,運(yùn)用Apriori 數(shù)據(jù)挖掘經(jīng)典算法挖掘出變壓器故障和故障狀態(tài)量之間的關(guān)聯(lián)規(guī)則?;陉P(guān)聯(lián)規(guī)則挖掘基本原理,利用SPSS Modeler 軟件平臺(tái)建立電力變壓器故障關(guān)聯(lián)規(guī)則挖掘模型進(jìn)行建模分析,得到以下故障診斷流程:
(1)利用PCA 法對(duì)輸入特征參量進(jìn)行優(yōu)選,得到優(yōu)選后的特征參量。
(2)基于模糊集合理論對(duì)優(yōu)選后的特征量(油色譜及電氣試驗(yàn)數(shù)據(jù))進(jìn)行模糊離散處理,得到相應(yīng)離散后的特征數(shù)據(jù)庫(kù)。
(3)基于離散后的特征數(shù)據(jù)庫(kù),使用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則的提取。
(4)利用所提取的關(guān)聯(lián)規(guī)則對(duì)待診斷設(shè)備進(jìn)行故障判定。
該流程能夠從歷史數(shù)據(jù)中獲取潛在的診斷知識(shí),有效解決故障診斷中知識(shí)獲取困難的問(wèn)題。實(shí)際應(yīng)用時(shí),在得到相應(yīng)特征參量(油色譜數(shù)據(jù)及電氣試驗(yàn))的數(shù)據(jù)后,及時(shí)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)并對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行模糊離散化處理,再將離散數(shù)據(jù)輸入到模糊關(guān)聯(lián)規(guī)則模型后即可得到變壓器異常狀態(tài)的診斷及分析情況。