劉丁源,裴 磊,魏 炯,高華鋒,藺庚立,王 勇,郭海濤
(國網(wǎng)寶雞供電公司,陜西 寶雞 721004)
為有效解決電力變壓器檢修不及時或者過度檢修的問題,需要以電力變壓器健康狀態(tài)的評估為依據(jù)制定具有針對性的電力變壓器檢修計劃。狀態(tài)評估的前提是對在線監(jiān)測系統(tǒng)或離線檢測系統(tǒng)所獲取的電力變壓器的觀測數(shù)據(jù)進(jìn)行有效挖掘,獲取足以支撐制定科學(xué)檢修計劃的先驗知識[1-3]。隨著智能電網(wǎng)和泛在電力物聯(lián)網(wǎng)建設(shè)的普及,與電力變壓器運行狀態(tài)相關(guān)的信息已經(jīng)呈現(xiàn)出數(shù)量大、類型多、增速快的特征,這大大增加了數(shù)據(jù)挖掘的難度[4-6]。為此本文提出使用聚類分析方法對所采集的觀測數(shù)據(jù)進(jìn)行處理,實現(xiàn)相同健康狀態(tài)的電力變壓器的聚類分組,便于針對不同狀態(tài)的電力變壓器制定不同優(yōu)先級的檢修計劃,從而提升電力變壓器檢修的針對性和合理性,降低檢修成本。
本文首先闡述拉普拉斯評分、主成分分析和模糊C均值算法三種算法原理,然后基于三種算法提出電力變壓器聚類分析方法,最后使用真實觀測數(shù)據(jù)進(jìn)行仿真實驗以闡明所提方法的具體操作步驟及其有效性。
L=D-K
(1)
特征f的拉普拉斯評分按以下方式計算:
(2)
設(shè)X∈Rn×n為包含n個觀測變量的矩陣,每個觀測向量均由p個觀測變量或參數(shù)組成,因此可以視為觀測空間中的一個點。PCA的目的是探索p變量之間的聯(lián)系以及觀測變量之間的相似性[10-11]。PCA允許構(gòu)建由主成分組成的歐幾里德空間,該線性空間是p個初始變量的線性組合,目的是建立具有最恰當(dāng)?shù)馗爬ㄔ摽臻g數(shù)據(jù)結(jié)構(gòu)特征的歐幾里德空間。通過PCA還可降低觀測向量的維度。通過計算關(guān)聯(lián)矩陣R的向量和特征值,可以獲得構(gòu)成該空間軸的主成分。
(3)
式中,XT為X的轉(zhuǎn)置矩陣。
通過計算方差評估數(shù)據(jù)慣性。對于任意變量,矩陣R的特征值與變量總數(shù)之間的比率表征了該變量所提供的主成分承載的信息量。數(shù)據(jù)慣性由以下關(guān)系式計算:
(4)
式中,λi∈{1,…,p}為矩陣R的特征值。
無監(jiān)督分類算法是對數(shù)據(jù)進(jìn)行聚類分組而無需類別特征數(shù)據(jù)[12-15]。聚類技術(shù)用于將數(shù)據(jù)劃分為多個組,以便在一個組內(nèi)數(shù)據(jù)的關(guān)聯(lián)度很高,而在不同組之間數(shù)據(jù)的關(guān)聯(lián)度很低。從相似性的標(biāo)準(zhǔn)來看,來自同一組(也稱為聚類)的觀測值比來自其他聚類的觀測值更接近彼此,即將任何觀測值分配給其更接近其中心的聚類。相似性準(zhǔn)則通?;诰嚯x。模糊C均值算法使用模糊邏輯來定義屬于一個類的程度。對于每個組,為每個數(shù)據(jù)點分配一個介于0和1之間的隸屬度。隸屬度表示每個數(shù)據(jù)點屬于不同組的概率。
給定多個聚類c,模糊C均值算法將針對模糊隸屬度uij和聚類中心cj最小化如式(5)所示的目標(biāo)函數(shù),將X={x1,…,xn}數(shù)據(jù)分類為c個模糊聚類。
(5)
式中,m為權(quán)重系數(shù),稱為“模糊系數(shù)”;uij為xi對聚類j的隸屬度;xi為矩陣數(shù)據(jù)中維度為d的第i個觀測值;cj為是維數(shù)為d的聚類中心j。
隸屬度由式(6)給出:
(6)
聚類中心由式(7)給出:
(7)
模糊C均值算法流程為:①隨機(jī)初始化屬于聚類i的xi的隸屬度值uij;②計算聚類中心cj;③使用式(6)更新隸屬度;④使用式(5)計算目標(biāo)函數(shù);⑤重復(fù)步驟②至④,直到算法收斂為止。
如果式(3)所計算得出的Г值低于預(yù)定的閾值,或者已達(dá)到迭代的最大數(shù)量,則可以認(rèn)為算法收斂。通過調(diào)整模糊系數(shù)可以優(yōu)化聚類之間重疊的程度。
聚類分析方法的目標(biāo)是從在給定的有效的觀測數(shù)據(jù)集中識別出具有相似運行狀態(tài)的電力變壓器。聚類分析方法包括4個主要步驟。
(1)評估觀測數(shù)據(jù)集中每個特征的重要性,并選擇其中最重要的特征。在模式識別和機(jī)器學(xué)習(xí)領(lǐng)域,已有一些得到公認(rèn)的有效的特征選擇工具,如皮爾遜相關(guān)系數(shù)[16]、卡方分布[17]和拉普拉斯分?jǐn)?shù)(LS)[18]等。使用這些工具可以根據(jù)特征的子集與用戶需求的相關(guān)程度或重要性展開特征選擇。在無監(jiān)督分類算法中,特征選擇相對復(fù)雜,因為缺少可以指導(dǎo)搜索相關(guān)信息的類標(biāo)簽。基于提升聚類效率、降低數(shù)據(jù)維度并提高數(shù)據(jù)的可理解性的考慮,本研究使用LS作為特征選擇工具。這種選擇帶來的另一個好處是LS的實現(xiàn)方式相對簡單。在完成所有特征的LS值排序后,即可獲得在聚類分析中包含最相關(guān)信息的參數(shù)的標(biāo)識。一旦確定了最重要的特征,就可以刪除其余特征,然后繼續(xù)第2步。
(2)使用主成分分析(PCA)來定義一個新的觀測變量。所獲得的新觀測變量由初始觀測變量的線性組合組成。根據(jù)這些新的觀測變量,可以確定觀測數(shù)據(jù)集及其攜帶的信息量。
(3)將模糊C均值算法應(yīng)用于觀測數(shù)據(jù)集實現(xiàn)無監(jiān)督分類。所得聚類是基于數(shù)據(jù)中的內(nèi)在關(guān)聯(lián)性形成的。
(4)根據(jù)專家知識對每個聚類進(jìn)行解釋,并基于解釋結(jié)果來制定具有針對性的檢修計劃。
實驗數(shù)據(jù)來自國網(wǎng)寶雞供電公司的33臺油浸式電力變壓器,型號為SFPS7-120000/220,一次側(cè)電壓為220 kV,容量為120 000 kVA,2000年投入使用。數(shù)據(jù)采集于2019年,數(shù)據(jù)源為電力公司的電力變壓器在線監(jiān)測系統(tǒng)。觀測參數(shù)及其含義[19-20]見表1。
表1 觀測參數(shù)
按照前述的方法,分4個步驟進(jìn)行聚類分析。
(1)識別每個參數(shù)在數(shù)據(jù)結(jié)構(gòu)中的相關(guān)性。各個參數(shù)的LS計算結(jié)果和排序見表2。
表2 LS的計算結(jié)果
(2)通過PCA識別參數(shù)空間的軸。在完成LS計算之后,PCA的目標(biāo)是識別參數(shù)空間以及構(gòu)成該空間的每個軸的重要性。PCA可以更好地造成參數(shù)差異的主要原因。
關(guān)聯(lián)矩陣R的特征值和累積方差見表3。根據(jù)等式2,基于矩陣R的值可計算得出結(jié)果見表4。
表3 軸、特征值、方差貢獻(xiàn)率和累積方差貢獻(xiàn)率
表4 軸與變量之間的關(guān)聯(lián)
由表4可知,前3個參數(shù)為數(shù)據(jù)集的主要特征。由這3個主要特征的線性組合所得出的變量為參數(shù)空間的數(shù)軸,并表征為新的觀測變量。表4給出了參數(shù)在每個數(shù)軸上的投影值。圖1顯示了相對于前2個觀測變量的參數(shù)空間分布。
圖1 變量相關(guān)性
(3)基于所確定前3個參數(shù)對觀測數(shù)據(jù)使用模糊C均值算法開展聚類分析。聚類結(jié)果是將電力變壓器分為4組,分別對應(yīng)A組、B組、C組合D組。每組電力變壓器的運行狀態(tài)將使用專家知識加以解釋。在PCA所標(biāo)識的特征空間中表示所得的4個聚類如圖2所示。
圖2 基于模糊C均值的聚類結(jié)果
(4)對聚類結(jié)果進(jìn)行解釋。聚類1中的電力變壓器的絕緣質(zhì)量已經(jīng)劣化為此需要盡快對絕緣油中雜質(zhì)進(jìn)行檢查。聚類2中的電力變壓器的油質(zhì)和絕緣性能均可接受,但是溶解氣體含量較多。聚類3中的電力變壓器的油質(zhì)和絕緣性能均不理想,需要考慮盡快進(jìn)行變壓器油的更換。聚類4中的電力變壓器油的絕緣性能可以接受。
電力變壓器運維過程中積累的海量觀測數(shù)據(jù)與變壓器運行狀態(tài)之間的關(guān)聯(lián)并非顯而易見,為此需要挖掘這種內(nèi)在關(guān)聯(lián)性以服務(wù)電力變壓器檢修計劃的制定。本文提出的電力變壓器聚類分析方法,使用PCA方法提取觀測數(shù)據(jù)的主要特征,然后使用基于模糊C聚類算法獲取4個特征迥異的變壓器組。最后利用電力變壓器工程師的專業(yè)知識針對不同變壓器組進(jìn)行解釋,為制定具有針對性的檢修計劃提供專業(yè)科學(xué)指導(dǎo)意見。