王文博,曾小梅,趙引川,張云云,劉 達
(1.華北電力大學(xué) 數(shù)理學(xué)院,北京 102206;2.華北電力大學(xué) 智慧能源研究所,北京 102206;3.中國能源建設(shè)集團安徽省電力設(shè)計院有限公司,安徽 合肥 230602)
變壓器作為電力系統(tǒng)中的重要設(shè)備,在電力傳輸過程中至關(guān)重要[1,2]。變壓器缺陷可能會造成極大的經(jīng)濟損失和不利的社會影響。準確預(yù)測變壓器缺陷可以有效避免災(zāi)難性損失的發(fā)生[3]。因此,準確診斷變壓器缺陷情況尤為重要。
在大數(shù)據(jù)背景下,電網(wǎng)企業(yè)不斷更新在線監(jiān)測設(shè)備和計算機數(shù)據(jù)存儲系統(tǒng),這有助于實現(xiàn)電力設(shè)備的缺陷與故障診斷[4]。目前關(guān)于變壓器缺陷預(yù)測的方法頗多,主要包括基于統(tǒng)計學(xué)的方法與機器學(xué)習(xí)方法。基于統(tǒng)計學(xué)的方法有多元線性回歸[5]和時間序列[3,6]。但這兩種方法都存在一定的局限性。多元線性回歸方法僅適用于線性可分的情況,對缺陷發(fā)生與否的二分類預(yù)測問題有很大的偏差。時間序列的方法雖然降低了模型的建模難度,但缺陷影響因素多,導(dǎo)致預(yù)測精度較低。目前適用于數(shù)據(jù)集大且預(yù)測精度要求較高的變壓器缺陷診斷模型是機器學(xué)習(xí)模型,如支持向量機[7,8]、邏輯回歸[9]等。
在實際生產(chǎn)中發(fā)生故障的變壓器數(shù)量往往小于正常的數(shù)量。即無缺陷的樣本數(shù)量遠大于有缺陷的樣本數(shù)量。因此,變壓器狀態(tài)數(shù)據(jù)集是不平衡數(shù)據(jù)集。這種類別不平衡的分布很大程度上影響了監(jiān)督分類方法的準確性[10,11],導(dǎo)致模型無法準確地預(yù)測變壓器的健康狀態(tài)。普通分類器通常以最小化總體訓(xùn)練誤差為目標,這使得模型在訓(xùn)練過程中對多數(shù)樣本的類別會重點考慮而產(chǎn)生過擬合;而對于占比較少的樣本,由于沒有特殊考慮而產(chǎn)生欠擬合[12,13]。這導(dǎo)致分類結(jié)果對無缺陷的變壓器數(shù)據(jù)集更有利,分類器的泛化能力較差。因此,有效解決在類別不平衡的情況下的缺陷預(yù)測問題尤為重要。
然而,現(xiàn)有考慮變壓器缺陷數(shù)據(jù)的類別不平衡問題的研究很有限[14,15]。文獻[14]利用SMOTE和決策樹模型對變壓器狀態(tài)進行評估,取得較好的效果。文獻[15]利用SMOTE和SVM模型對變壓器故障進行預(yù)測,結(jié)果表明該模型可以有效提升缺陷預(yù)測精度。這些結(jié)合SMOTE采樣和機器學(xué)習(xí)算法的研究都取得了不錯的預(yù)測效果。因此,本文在此研究基礎(chǔ)上提出一種基于SMOTE-XGBoost(Extreme Gradient Boosting)的變壓器缺陷預(yù)測模型,以期進一步提高變壓器缺陷預(yù)測精度。XGBoost模型是一種集成算法,是經(jīng)過優(yōu)化的分布式梯度提升庫,可進行大規(guī)模并行運算,具有高效、靈活且可移植等優(yōu)點,對于設(shè)備的實時診斷很有意義。
本研究分別對不平衡數(shù)據(jù)集的處理方法和預(yù)測模型進行了對比分析,即分別采用隨機上采樣(Up_sample)、隨機下采樣(Down_sample)、SMOTE和代價敏感學(xué)習(xí)(Cost Sensitive Learning,CSL)算法對不平衡數(shù)據(jù)集進行處理,然后分別采用Logistic、CART、SVM和XGBoost四種預(yù)測模型進行預(yù)測。實證結(jié)果表明,SMOTE-XGBoost模型的預(yù)測效果最佳。
在大數(shù)據(jù)背景下,可基于用電信息采集系統(tǒng)和營配數(shù)據(jù)共享渠道獲取電網(wǎng)大數(shù)據(jù)。就變壓器設(shè)備而言,設(shè)備的屬性、所處環(huán)境、負荷等數(shù)據(jù)可實時存儲,可采集終端數(shù)據(jù)獲取變壓器特征信息。根據(jù)數(shù)據(jù)集的特點進行智能化處理,實現(xiàn)變壓器設(shè)備的缺陷預(yù)測。
數(shù)據(jù)的類別不平衡問題是指數(shù)據(jù)的某一類別數(shù)量要遠多于其他類。特別是對于二分類問題,一類數(shù)據(jù)是大樣本數(shù)據(jù),而另一類數(shù)據(jù)僅有少數(shù)樣本。類別不平衡問題在生產(chǎn)和生活場景中很普遍。例如,故障診斷[16,17]、異常檢測[18,19]、電子郵件歸檔[20]等。在模型訓(xùn)練過程中如果直接使用不平衡數(shù)據(jù)集進行訓(xùn)練,很容易導(dǎo)致分類失效。因為模型在分類時會受樣本量多的類別的影響,容易產(chǎn)生“少數(shù)服從多數(shù)”的分類結(jié)果[21]。而很多時候,樣本少的類別更具有研究價值[22]。所以對于不平衡數(shù)據(jù)集而言,一個優(yōu)秀的分類模型應(yīng)該是在少數(shù)類別中有更高的識別率,同時,不會嚴重影響多數(shù)類的預(yù)測準確性。
目前,不平衡數(shù)據(jù)的處理方法主要分四類,分別是數(shù)據(jù)采樣、算法改進、代價敏感學(xué)習(xí)和集成學(xué)習(xí)。數(shù)據(jù)采樣是對數(shù)據(jù)進行預(yù)處理來解決數(shù)據(jù)不平衡問題,這種方法的主要優(yōu)點是獨立于底層分類器,可以很容易地嵌入到集成學(xué)習(xí)中,是處理不平衡數(shù)據(jù)集的積極可行的解決方案[23,24];算法改進和代價敏感方法更依賴于問題;集成學(xué)習(xí)方法與數(shù)據(jù)采樣方法一樣都可以獨立于基本分類器使用[12];因此,數(shù)據(jù)采樣和集成方法在處理不平衡數(shù)據(jù)時更為通用。
本文選擇了較有代表性的4種數(shù)據(jù)平衡算法,隨機上采樣(Up_sample)、隨機下采樣(Down_sample)、SMOTE和代價敏感學(xué)習(xí)(Cost Sensitive Learning,CSL)算法來解決變壓器數(shù)據(jù)集的不平衡問題。
1.2.1 隨機上采樣與隨機下采樣
隨機上采樣是上采樣的一種最常見的方法,是從變壓器缺陷樣本中隨機地抽取樣本添加到樣本空間中,以達到缺陷樣本與無缺陷樣本的數(shù)據(jù)平衡。隨機下采樣是下采樣方法的一種,其思想是通過減少無缺陷樣本數(shù)以達到數(shù)據(jù)類別平衡。
1.2.2 代價敏感學(xué)習(xí)
代價敏感學(xué)習(xí)解決類別不平衡問題是通過定義錯誤分類的正樣本和負樣本的不同成本來防止過度擬合。對于變壓器缺陷預(yù)測來說,要盡量避免將缺陷樣本誤分為無缺陷樣本,為缺陷樣本賦予更高的學(xué)習(xí)權(quán)重,從而讓算法更加專注于缺陷樣本的分類情況。
1.2.3 SMOTE算法
SMOTE算法是一種通過創(chuàng)造少數(shù)類樣本來解決數(shù)據(jù)集不平衡問題的算法[25]。SMOTE算法是計算距離最近K個樣本,然后隨機地從中選擇數(shù)據(jù)從而生成新樣本,是一種基于“插值”來合成新樣本的方法。
(1)
對于變壓器的預(yù)測問題,一個有n個樣本m個特征的數(shù)據(jù)集D={(xi,yi)}(|D|=n,xi∈Rm),需要預(yù)測主變壓器是否會發(fā)生缺陷,發(fā)生缺陷為1,不發(fā)生缺陷為0。也就是說任務(wù)是一個二分類問題,使用XGBoost算法來實現(xiàn)梯度提升決策樹(Gradient Boosting Decision Tree,GBDT),XGBoost是一種基于梯度增強決策樹的改進算法,集合了大量弱而互補的分類器,可以有效地構(gòu)造提升樹并實現(xiàn)并行運行。該模型引進直方圖算法生成分割點,被廣泛應(yīng)用在二分類問題上且達到較高的精度。其核心思想是優(yōu)化目標函數(shù)的值[26]。
本文基于此背景構(gòu)建了變壓器缺陷預(yù)測模型。圖1展示了建模流程。
圖1 建模流程圖
(1)數(shù)據(jù)收集:通過物聯(lián)網(wǎng)技術(shù)來采集變壓器的環(huán)境、運行狀況與設(shè)備信息等相關(guān)數(shù)據(jù)。
(2)數(shù)據(jù)清洗與整理:將收集的原始數(shù)據(jù)進行數(shù)據(jù)的清洗整理,然后進行特征的向量化,最后使用SMOTE 算法平衡數(shù)據(jù)集。
(3)模型構(gòu)建:將平衡后的數(shù)據(jù)集作為XGBoost模型的輸入來進行模型訓(xùn)練,最后預(yù)測變壓器缺陷。
在評估不平衡數(shù)據(jù)的算法時,常使用精確度、召回率和F1值來衡量,精確度是針對預(yù)測結(jié)果而言,它表示正確預(yù)測為正的占全部預(yù)測為正的比例;而召回率是針對原樣本而言,它表示正確預(yù)測為正的占全部實際為正的比例;F1值能夠?qū)⒁粋€類的精度和召回率結(jié)合在同一個指標當中,故最終采用F1值來評估。精確度(Prec)、召回率(Rec)和F1值如式(2)~(4)所示:
(2)
(3)
(4)
式中:TP,FP,TN,FN分別表示真陽性,假陽性,真陰性和假陰性。即TP表示預(yù)測為有缺陷,實際也為有缺陷;FP表示預(yù)測為有缺陷,實際為無缺陷;TN表示預(yù)測為無缺陷,實際為無缺陷;FN表示預(yù)測為無缺陷,實際為有缺陷。
本文收集某省電網(wǎng)2000年4月7日到2018年9月29日主變壓器缺陷采樣數(shù)據(jù),有效數(shù)據(jù)共計31 342條,其中缺陷樣本有5 660條,無缺陷樣本25 682條。模型輸出為1或0,1代表缺陷發(fā)生,0代表缺陷不發(fā)生。每一條數(shù)據(jù)包含變壓器的24個屬性特征,如表1所示。
表1 變壓器屬性表
為了解決變壓器缺陷數(shù)據(jù)集的不平衡問題,本文分別采用Up_sample,CSL,SMOTE和Down_Sample四種不平衡數(shù)據(jù)集處理方法對原始數(shù)據(jù)集進行預(yù)處理,然后將原始數(shù)據(jù)集和處理后的數(shù)據(jù)集分別表示為A_1,A_2,A_3,A_4和A_5,并且進行對比驗證。不平衡數(shù)據(jù)集處理參數(shù)及結(jié)果見表2,平衡后的樣本量見表3。
表2 不平衡數(shù)據(jù)集處理過程及參數(shù)
表3 不平衡數(shù)據(jù)處理后樣本量
對處理后的數(shù)據(jù)集采用五折交叉驗證劃分數(shù)據(jù)集。即第一步將數(shù)據(jù)集分為五份;第二步,選擇其中四份為訓(xùn)練集,一份為驗證集;第三步,重復(fù)第二步五次,每次選取的訓(xùn)練集不同。
最后,本文采用XGBoost算法預(yù)測變壓器是否會發(fā)生缺陷,同時還采用了三種目前主流的變壓器缺陷預(yù)測模型:決策樹(Classification And Regression Trees,CART)、支持向量機(Support Vector Machine,SVM)和Logistic回歸來進行對比驗證。本文選取準確率,召回率和F1值三種評價指標評價模型性能。XGBoost算法使用Python的XGBoost包。其中XGBoost的超參數(shù)的含義及其設(shè)置見表4。圖2為使用XGBoost模型預(yù)測SMOTE算法平衡后的迭代過程。
表4 XGBoost超參數(shù)列表
圖2 迭代過程圖
本文在利用XGBoost對變壓器缺陷預(yù)測的過程中得到各個屬性的重要性得分,可衡量特征在模型中的價值。變壓器缺陷預(yù)測模型的前十個重要特征得分如圖3所示。
圖3 重要特征排序
在所有特征中,役齡是最重要的影響因素,說明變壓器的使用時間對變壓器缺陷的發(fā)生有重要影響。其他的重要特征包括變壓器的負載情況和屬性特征,反映了變壓器的性能對缺陷的影響。
本文將分類模型Logistic,SVM,CART,XGBoost分別表示為M_1,M_2,M_3和M_4,然后各模型分別結(jié)合A_1,A_2,A_3,A_4和A_5數(shù)據(jù)處理方法進行缺陷預(yù)測。最后,分別采用召回率、精確度和F1值對各模型進行評價。實證結(jié)果見表5~表7,并利用箱線圖對四種不平衡算法的預(yù)測效果進行可視化對比,如圖4~圖7所示。
圖7 預(yù)測算法F1值對比
表5 缺陷預(yù)測召回率值
表6 缺陷預(yù)測精確度值
表7 缺陷預(yù)測F1值
圖4 不平衡算法召回率對比
各不平衡算法模型的召回率如表5和圖4所示,召回率越高,代表實際缺陷變壓器被預(yù)測出來的概率越高。結(jié)果證實,與未進行不平衡數(shù)據(jù)處理的模型(origin)相比,不平衡數(shù)據(jù)算法處理后的模型,召回率顯著提高。
各不平衡數(shù)據(jù)模型的精確度如表6和圖5所示,4個不平衡算法中,SMOTE表現(xiàn)最好,即使圖4中顯示Down_sample的召回率最高,但Down_sample的精確度最差,這可能是由于算法隨機地移除無缺陷樣本數(shù)據(jù)造成信息損失而導(dǎo)致預(yù)測精度下降。
圖5 不平衡算法精確度對比
本文采用F1值作為最終的評價指標,如圖6所示SMOTE算法在四種算法中效果最優(yōu)。隨機上采樣和代價敏感學(xué)習(xí)的效果稍弱,而隨機下采樣算法的效果最差。
圖6 不平衡算法F1值對比
通過上述分析可知SMOTE模型處理數(shù)據(jù)的最優(yōu)選擇,為了進一步確定最佳預(yù)測模型,本研究對各預(yù)測模型的F1值進行可視化,如圖7所示。從圖7可知,決策樹和XGBoost在各個方面都優(yōu)于SVM和logistic回歸,這可能是因為實驗數(shù)據(jù)的特征大都沒有數(shù)值關(guān)系,所以樹模型更適用于本實驗。而XGBoost又優(yōu)于決策樹,因為XGBoost為集成算法,在單模型的基礎(chǔ)上可以有效提高預(yù)測精度。
綜上,四種不平衡處理方法都在一定程度上增加了正例類的召回率。但結(jié)合精確度和F1值指標,可以看出四種預(yù)測算法中SMOTE表現(xiàn)最優(yōu)。當使用決策樹和XGBoost時,SMOTE均表現(xiàn)最好。其中,SMOTE-XGBoost略勝一籌,因而以SMOTE-XGBoost作為最終預(yù)測方案,這一方案優(yōu)于之前的變壓器缺陷預(yù)測模型[7,9],可以有效的預(yù)測變壓器缺陷問題。
變壓器是電力設(shè)備中的重要組成部分,其健康狀態(tài)的診斷監(jiān)測對電網(wǎng)的正常運行至關(guān)重要。但變壓器狀態(tài)數(shù)據(jù)集存在嚴重的類別不平衡問題,這降低了診斷的正確率。因此,提高變壓器不平衡樣本的缺陷預(yù)測精度非常關(guān)鍵。而現(xiàn)有對變壓器缺陷預(yù)測的研究很少考慮樣本不平衡問題。為了豐富這方面的研究,本文利用SMOTE-XGBoost模型進行預(yù)測以提高變壓器缺陷診斷的準確率。
本文采用四種不平衡數(shù)據(jù)集處理方法對變壓器缺陷樣本進行處理,然后分別采用四種預(yù)測模型進行對比分析實驗。實證結(jié)果表明基于SMOTE-XGBoost模型在變壓器缺陷預(yù)測中表現(xiàn)最優(yōu)。該模型不僅解決了變壓器的數(shù)據(jù)集的不平衡問題,且提高了缺陷預(yù)測精度。SMOTE方法簡單有效地減輕了數(shù)據(jù)不平衡對預(yù)測精度的影響。在預(yù)測變壓器的缺陷時,XGBoost支持并行處理,可以加快算法的計算速度,該算法比其他算法快十倍以上[26]。參數(shù)調(diào)整后,SMOTE和XGBoost算法可較為準確快速地預(yù)測變壓器的缺陷,有效幫助電力企業(yè)開展變壓器健康狀態(tài)監(jiān)測工作,實現(xiàn)電力設(shè)備管理維護智能化。