馬宏忠, 王健, 楊啟帆, 倪一銘
(河海大學 能源與電氣學院,江蘇 南京 211100)
電力變壓器作為電力系統(tǒng)各樞紐節(jié)點及發(fā)送電環(huán)節(jié)的重要設(shè)備,其運行穩(wěn)定性直接影響電網(wǎng)安全,電力變壓器發(fā)生故障還將造成巨大社會經(jīng)濟損失[1]。由于變壓器狀態(tài)具有漸變性,產(chǎn)生的突發(fā)性故障往往由長期運行或磨損導致的絕緣問題引起[2],因此在運維中對變壓器進行準確狀態(tài)評估,及時排除潛在隱患具有現(xiàn)實意義。
針對變壓器機械松動問題,現(xiàn)有研究基于激勵響應(yīng)的原理提出了如低壓脈沖、頻率響應(yīng)等故障診斷方法。文獻[3]和文獻[4]分別對不同電壓等級的變壓器施加激勵信號進行離線繞組診斷。但激勵源引入會對變壓器正常運行產(chǎn)生影響,必要時還需停機配合,實時性較差。為滿足變壓器在線監(jiān)測需求,基于振動信號的松動識別方法逐漸成為電網(wǎng)研究熱點。文獻[5]將變壓器振動與典型電流電壓信息相結(jié)合,形成一種投影算法進行狀態(tài)區(qū)分,但該方法要求多種信息融合對傳感器的選型、同步要求較高。文獻[6]研究了直流偏磁下的變壓器振動與噪聲特性,但該研究的振動傳感器安裝條件復雜,需與箱體直接接觸。而本文采用的聲振識別方法源于工況振動,同時具有完全電氣隔離、設(shè)備安裝安全簡單、受環(huán)境限制少的優(yōu)點,信息獲取豐富簡單,著重監(jiān)測變壓器存在的隱患問題,應(yīng)用前景良好。
目前聲振特征的分析方法主要分為梅爾頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)和暫態(tài)兩類。文獻[7]采用了短時傅里葉變換對變壓器繞組的短路沖擊過程聲紋進行分析,文獻[8]則采用融合了小波變換的自適應(yīng)稀疏S變換,但暫態(tài)分析的時域尺度較小,應(yīng)用于非短時突變信號的狀態(tài)識別時特征冗余模糊,易導致訓練效率低下。文獻[9]根據(jù)MFCC提取了變壓器聲紋特征,適合分析短時平穩(wěn)信號,文獻[10]提出了一種基于F比的MFCC特征優(yōu)化算法,但MFCC提取的特征對信號本身能量分布描述模糊,難以按特征實際重要性進行區(qū)分,從而直接優(yōu)化效果一般。故本文在特征輸入前將根據(jù)特征貢獻進行權(quán)重再分配,以提高與電氣識別強關(guān)聯(lián)特征在訓練時的影響力。
學習模型不依賴電氣理論,常見應(yīng)用于電力系統(tǒng)的模型包括支持向量機(support vector machine,SVM)、鄰近算法(K-nearest neighbor,KNN)、K-means、神經(jīng)網(wǎng)絡(luò)、隨機森林[11]等,從而對模型優(yōu)化也提出了一系列要求。文獻[12]基于方差分析對特征進行篩選,并利用改進BO-SVM算法進行變壓器故障診斷,但BO(Bayesian optimization)優(yōu)化種群類別較多,優(yōu)化復雜,因此準確率提升效果一般;文獻[13]針對變壓器特征樣本存在的數(shù)量不平衡性提出了一種過采樣方法用于模型優(yōu)化,但過采樣方法擴充大量的模擬樣本,容易降低學習速率;文獻[14]從鯨魚算法(whale optimization algorithm,WOA)出發(fā),改良PNN(product-based neural network,PNN)網(wǎng)絡(luò)的平滑因子,但WOA算法在損失抑制和收斂速度上較弱。此外,變壓器聲振信號應(yīng)用MFCC提取特征時存在環(huán)境影響較大、樣本大小不平衡的問題,提取結(jié)果僅從宏觀表征信號能量分布,因而無監(jiān)督優(yōu)化的識別準確率低下。
鑒此,本文提出一種基于集成極限梯度提升樹(extreme gradient boosting,XGBoost)和黏菌算法(slime mould algorithm,SMA)優(yōu)化的SVM狀態(tài)識別方法。首先根據(jù)XGBoost算法中MFCC特征訓練的指標化貢獻及決策對特征的依賴程度區(qū)分特征顯隱性,反映特征蘊含有效電氣信息量情況;其次應(yīng)用SMA優(yōu)化向量機,根據(jù)特征類型分別設(shè)12維特征權(quán)重及初始參數(shù)范圍,采用25組黏菌代理位置檢索變壓器狀態(tài)識別的Focal損失最小值更新權(quán)重;最后應(yīng)用優(yōu)化模型對測試樣本進行預測分析?,F(xiàn)場數(shù)據(jù)的測試結(jié)果表明,與傳統(tǒng)識別方法相比,基于SMA優(yōu)化的SVM識別方法能有效減少訓練損失,提高識別準確率,并在干擾環(huán)境中具備一定魯棒性能;與早期優(yōu)化算法相比SMA的優(yōu)化時間和損失控制效果都更突出。
變壓器聲振特征的提取采用目前應(yīng)用較成熟的MFCC算法。該算法適用于短時穩(wěn)態(tài)信號[15],但提取的聲振特征易受環(huán)境影響并隨故障類型、變壓器容量、負載等條件變化明顯,特征僅描述信號宏觀能量分布,從而無法據(jù)每個特征的來源進行有效區(qū)分,作為識別模型輸入不確定性較大。
XGBoost即極限梯度提升常用于監(jiān)督學習問題,并在目標函數(shù)中引入正則項控制模型的準確度和復雜程度避免過擬合,具有學習效率高、可多線程并行處理等優(yōu)點[16]。由于XGBoost隸屬集成樹,當一種樹模型在局部訓練表現(xiàn)不好時,算法將從原樹模型中提取不良部分采用其他模型訓練,以此類推直到訓練全局呈現(xiàn)良好結(jié)果,其中cover的貢獻度計算為
(1)
式中:貢獻V為某特征進行訓練時,對應(yīng)樣本二階導數(shù)和的均值;T表示樹總數(shù);N(t)表示第t棵樹非葉節(jié)點數(shù);I為指示函數(shù);β(t,i)、Hγ(t,i)分別表示第t棵數(shù)中第i個非子葉節(jié)點劃分結(jié)果與二階導數(shù)和。該類貢獻計算不會過度擬合目標函數(shù),且不受目標函數(shù)量綱影響[15]。
采用XGBoost算法對變壓器MFCC特征數(shù)據(jù)進行初步訓練測試,子葉最大深度取8,各特征對辨識的cover貢獻如圖1所示。
圖1 不同聲振特征對訓練貢獻Fig.1 Contribution of different acoustic vibration features to training
圖1中不同MFCC特征對于狀態(tài)識別的貢獻各異,為詳細區(qū)分辨別標準,需要對該貢獻值進行初步量化,故建立以下指標:
1)貢獻成分占比為:
(2)
(3)
式中:以迭代次數(shù)n作為貢獻率μ參考權(quán)重,這是由于迭代次數(shù)增加時,訓練準確率及特征的挖掘深度也隨之提高,希望挖掘深度高的貢獻在占比計算中權(quán)處于主導地位,以減少初始訓練的干擾;σ為成分占比。
2)迭代次數(shù)每增加25的單位貢獻下降率為:
(4)
式中:下降率δ由相鄰迭代次數(shù)的單位貢獻下降比構(gòu)成,越活躍特征在訓練開始部分單位貢獻越高,隨后進入快速衰減過程的下降率也較高;此外引入了n次方約束,n越大下降率越偏向活躍部分,n取3;γ1、γ2用于合理分配迭代增長不為25時對應(yīng)權(quán)重,滿足和為1。
3)去中心化貢獻為:
(5)
(6)
式中去中心化沿中位數(shù)展開,為抵消訓練次數(shù)不多時產(chǎn)生的大量模糊貢獻,同樣以迭代次數(shù)為權(quán)重。測試過程中當?shù)螖?shù)為10時準確率不足80%,貢獻度評分無分辨價值,因此進行去中心化分析是有必要的。具體分析結(jié)果如表1所示。
表1 樣本貢獻量化結(jié)果Table 1 Quantitative results of sample contribution
測試結(jié)果表明,活躍特征在表1訓練次數(shù)中的下降率普遍高于7%,當訓練次數(shù)達到300以上時,下降率則接近2%趨于穩(wěn)定。主要占比按貢獻度大小排列,其中去中心化貢獻在特征1、3,3、5,2、6,6、10,8、11間跨度較大超過整體的9.5%。故綜合考慮以6號及以上特征為高貢獻度,8號以下特征為低貢獻度,其余特征貢獻情況模糊。
區(qū)分MFCC特征顯隱性的核心是分析其蘊含有效電氣信息大小。變壓器不同頻段產(chǎn)生的特征信息有效性不盡相同,往往高頻部分有效信息集中但易受突變量干擾,中低頻部分有效信息分散但魯棒性更高[17]。這些信息通過離散余弦變換構(gòu)成具體特征時,分布在各頻段處的有效信息將以不同比例送入各新特征中,具體為
n=1,2,…,L。
(7)
式中,離散余弦變換的每個變換值ω(n)都從所有特征F(m)中提取相應(yīng)權(quán)重量構(gòu)成新的特征,且各特征間線性無關(guān),并通常按信息蘊含量排列。定義顯性特征蘊含變壓器電氣信息量豐富,對識別有直觀影響的特征;隱性特征則對訓練識別影響有限,有效信息量較少。
粗糙集賦權(quán)法依賴各特征的實際試驗貢獻度,具體應(yīng)用該算法時首先從決策域中刪除某一特征,然后分析缺失該特征情況下訓練準確度變化。簡單采用粗糙集計算各特征對識別影響能有效降低傳統(tǒng)分析的主觀因素,提高指標體系可靠性。故除上述基于XGBoost的貢獻分析外,結(jié)合單個MFCC特征被刪除后識別準確率波動大小分析決策集對該特征的依賴程度,具體分析結(jié)果如圖2所示,以12維特征總體為決策系統(tǒng)。
圖2 特征刪除后識別準確率波動Fig.2 Fluctuation of recognition accuracy after feature removal
根據(jù)準確率波動情況將特征分為2組:
1、3、5、9、10、6為高影響度特征,刪除后平均準確率下降均高于0.5%,且9號特征達到2%以上,決策依賴度較高。
7、2、4、8、11、12為低影響度特征,刪除后平均準確率波動低于0.5%,2號特征刪減甚至不影響訓練結(jié)果。
結(jié)合表1的貢獻度占比和去噪貢獻大小,按滿足高影響度、高貢獻度及高活躍度劃分標準兩條以上為顯性,選擇特征1、3、5、9、10、6為顯性特征,特征4、8、11、12為隱性特征,其中7號和2號特征認為處于邊界狀態(tài)。
黏菌算法是近年根據(jù)黏菌生長行為而提出的優(yōu)化算法,生物學中黏菌總會向營養(yǎng)最大化層面生長,將該靜脈網(wǎng)態(tài)生長過程模擬至目標函數(shù)的尋優(yōu)即SMA基本思想[18]。目前SMA算法在變壓器狀態(tài)識別中應(yīng)用案例較少,其結(jié)構(gòu)簡單、穩(wěn)定性優(yōu)秀,具有良好的應(yīng)用前景。
SMA算法較傳統(tǒng)優(yōu)化算法在黏菌枝在生長過程中除食物濃度外還將考慮自身質(zhì)量因素,該質(zhì)量大小由對應(yīng)位置適應(yīng)度決定。質(zhì)量越大則該方向迭代權(quán)重越大,相對更有可能在周圍找到更優(yōu)食物解,反之迭代權(quán)重越小,形成負反饋避免向食物匱乏區(qū)域過度生長[19]。
應(yīng)用SMA算法首先隨機初始化N個代理(黏菌)位置和維度,即:
X=(x1,x2,…,xN),xi=(y1,y2,…,yM)。
(8)
式中:X表示黏菌的所有位置;x表示單個黏菌位置;y表示代理所在M維空間的坐標。
其次為每個代理位置確定適應(yīng)度大小F為
F(xi)=F(y1,y2,…,yM)=Gloss(y1,y2,…,yM)。
(9)
式中Gloss表示在該代理位置下,訓練算法產(chǎn)生的損失對應(yīng)適應(yīng)值大小,以最小化為目標。
根據(jù)適應(yīng)度決定黏菌質(zhì)量w:
(10)
(11)
式中rand表示取值在0到1的隨機參數(shù),適應(yīng)度在前50%的黏菌個體采用式(10)計算取值在1到1.3之間,后50%的個體采用式(11)計算取值在0.7到1之間。
最后,根據(jù)適應(yīng)度F選擇黏菌下一代生長方式,包括了隨機位置、最優(yōu)位置附近、原位置附近生長3類方式。其中隨機位置生長類似基因突變,產(chǎn)生概率在3%以下,能一定程度避免局部最優(yōu)。最優(yōu)位置或原位置附近生長取決于代理和最優(yōu)適應(yīng)度間的相對差值,差值越大選擇最優(yōu)位置的概率越大,反之選擇原位置的概率越大,即:
(12)
式中:rand1、rand2為0到1隨機參數(shù);randA、randB為隨迭代次數(shù)衰減rand參數(shù);qi將適應(yīng)度映射到0到1范圍;ω取10。
在學習器中,SMA算法能夠有效對MFCC特征進行權(quán)重分配??紤]特征顯隱性即電氣信息關(guān)聯(lián)程度,顯性特征具有更大的賦值空間取0.1~10范圍,而隱性特征則在小空間內(nèi)波動取0.1~2,邊界特征取0.1~3。一方面為縮減尋優(yōu)空間大小,降低無用迭代次數(shù);另一方面限定尋優(yōu)范圍,減少了訓練過程陷入局部最優(yōu)的概率。
計及聲振樣本正常與異常狀態(tài)間的不平衡影響,引入Focal函數(shù)作為適應(yīng)度F的參考,多分類Focal Loss的適應(yīng)度計算[20]為
(13)
式中:α和γ分別為第i個狀態(tài)樣本平衡與辨識難度的超參數(shù);輸出準確度pi與SVM多分類的Hinge Loss或識別準確率保持一致,即
(14)
在Focal函數(shù)中為保持輸入的連貫性,對輸入的不同準確度相關(guān)量進行Softmax編碼,若pi正相關(guān)量為Hi,則
(15)
這樣根據(jù)式(13),高準確度樣本對應(yīng)的損失權(quán)重較低準確度更低,從而SMA尋優(yōu)重心能夠分配到低pi的難分樣本上。
結(jié)合上述特征分類,以SVM算法為核心,對核函數(shù)及其參數(shù)、訓練步長、懲罰系數(shù)、支持向量數(shù)等可控參量進行設(shè)計,選擇一種參數(shù)最優(yōu)SVM算法進行SMA特征優(yōu)化,盡可能使測試樣本預測準確率更高。
學習模型本質(zhì)是對最小化梯度函數(shù)的參數(shù)篩選優(yōu)化,常用模型包括了線性、SVM、KNN、神經(jīng)網(wǎng)絡(luò)、綜合模型如XGBoost提升樹模型等[22]。在電力系統(tǒng)中,SVM及KNN模型適應(yīng)程度較好且結(jié)構(gòu)簡單,神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)相對復雜但可塑性更高。SVM較KNN在模型構(gòu)建上需要更高成本,但在預測速率上僅依賴分割平面,無需搜尋整個訓練空間,因此能較好滿足變壓器狀態(tài)評估實時性要求。
為滿足聲振樣本潛在的非線性要求,選擇采用高斯核函數(shù)(radial basis function,RBF)進行SVM分類訓練[23]。基于其他核函數(shù)的訓練效果如圖3所示,盡管訓練精度能達到類似,但多項式核的訓練速度隨次數(shù)增加顯著下降,最高次數(shù)達4時訓練時間已遠超RBF核5倍以上。
圖3 SVM不同核函數(shù)訓練結(jié)果Fig.3 Results of SVM with different kernel functions
RBF核函數(shù)關(guān)鍵參數(shù)包括γ參數(shù)和系統(tǒng)懲罰系數(shù)C[24],其中懲罰系數(shù)與式(14)中的ε一致,通常選擇在1附近最大不超過10;γ為RBF超參數(shù),決定了樣本空間的映射結(jié)果,應(yīng)盡可能使映射樣本線性可分,取12維特征則在0.01至0.50間優(yōu)化較好,均以SMA尋優(yōu)進行,SVM采用5次交叉驗證。此外樣本特征權(quán)重和RBF參數(shù)優(yōu)化需分開,避免空間尺度差異引起局部最優(yōu)。
在評估過程中,相似性高的樣本誤分概率高,樣本鄰近程度可預先通過皮爾森相關(guān)系數(shù)(Pearson product-moment correlation coefficient,PCCs)對樣本平均特征量進行相關(guān)性分析得到[25],兩樣本間協(xié)方差和標準差的商為
(16)
對5種10 kV變壓器運行狀態(tài)的MFCC特征先取均值,再進行PCCs分析結(jié)果如圖4所示。
圖4 PCCs狀態(tài)鄰近分析結(jié)果Fig.4 PCCs state proximity analysis results
計算結(jié)果表明,正常狀態(tài)和異常狀態(tài)鄰近性均低于0.5;不同鐵心松動狀態(tài)間鄰近性在0.75附近;其中箱體松動和鐵心完全松動鄰近性最高達0.95,輕微松動和完全松動達0.89,其余在0.71左右。因此在SVM模型訓練中希望SMA優(yōu)化聚焦松動狀態(tài)識別,正負樣本識別應(yīng)較為穩(wěn)定。
從樣本輸入的權(quán)重和模型參數(shù)出發(fā),采用XGBoost指標化及粗糙集劃分特征類型,并據(jù)劃分結(jié)果分別進行SMA損失最小化尋優(yōu),最終輸出RBF核的SVM模型,整體流程如圖5所示。
圖5 基于聲振特征區(qū)分的SVM優(yōu)化識別Fig.5 SVM optimized identification based on acoustic vibration feature division
具體分為以下步驟:
1)采集變壓器不同狀態(tài)有效聲振信息并通過MFCC提取5種狀態(tài)的共12維離散特征;
2)利用式(2)~式(6)計算各特征貢獻指標,并結(jié)合粗糙區(qū)分特征類型,確定SMA特征權(quán)重輸入范圍;
3)按式(16)分析樣本鄰近程度,并根據(jù)1.4節(jié)確定Focal損失參數(shù)使SMA尋優(yōu)聚焦松動狀態(tài)識別;
4)采用SMA算法對樣本特征權(quán)重和SVM懲罰系數(shù)C(劃分間距ε)及RBF超參數(shù)γ進行分別尋優(yōu)。特征尋優(yōu)初始化25組黏菌代理,種群共更新100代,最終形成優(yōu)化SVM評估方法;
5)據(jù)測試集樣本對識別方法進行預測準確度分析,并增加干擾樣本重新訓練優(yōu)化SVM模型,以評估其魯棒性能。
為驗證提出SMA優(yōu)化SVM模型的準確性與優(yōu)越性,在實測中選擇S-13-M-200/10 kV變壓器繞組不同松動狀態(tài)下的聲振信號作為測試樣本,并對原始數(shù)據(jù)進行特征提取和貢獻指標劃分,該部分具體計算結(jié)果已在上述特征優(yōu)化部分展開說明。變壓器狀態(tài)按松動類型和松動程度被劃分為:正常、20%力矩松動、50%力矩松動、完全松動以及外部螺栓松動5類。實驗安裝布置如圖6所示。
松動程度按扭力扳手對變壓器內(nèi)部壓緊螺絲施加力的大小確定,認定變壓器出廠時為正常狀態(tài),剛好使得螺絲松開的力矩為M=15 N·m。由于松動關(guān)系不和力矩大小成正比,綜合考慮取輕微松動時力矩為原始力矩的80%,嚴重松動時為50%,完全松動時不對機械產(chǎn)生壓力。
具體測量方案如圖7所示,在實驗變壓器四面中心處各布置一傳感器,傳感器型號為40PH,可靠采樣范圍達10~10 000 Hz,誤差在±0.06 dB內(nèi)。以5 kHz采樣頻率同時采集4通道數(shù)據(jù),平均每次采集15 s信號長度,經(jīng)傳感器間接收信號對比,選擇以長邊高壓側(cè)位置接收信號作為測試樣本。
圖7 10 kV變壓器信號測量布置Fig.7 10 kV transformer signal measurement arrangement
總樣本分布如表2所示,訓練樣本取總體的85%,測試樣本取15%,留出總樣本5%的裕度用于驗證模型的魯棒性。
表2 總樣本分布及劃分Table 2 Total sample distribution and division
算法在CPU為Intel i7-7700HQ@2.8 GHz四核,內(nèi)存為8G DDR4 2400 MHz,顯卡NVIDIA GeForce GTX 1050/Intel(R)HD Graphics 630,操作系統(tǒng)64位Windows 10的運行條件下運行。
首先對SVM超參數(shù)進行優(yōu)化。由于僅考慮懲罰因子C和映射參數(shù)γ,SMA收斂速度很快,故選擇以10組代理對多種不同樣本劃分情況各作50次尋優(yōu)節(jié)約時間,優(yōu)化結(jié)果如圖8所示。
圖8 SVM超參數(shù)優(yōu)化結(jié)果Fig.8 SVM hyperparameter optimization results
據(jù)圖8的尋優(yōu)結(jié)果分析,樣本空間在SVM懲罰因子C隨不同劃分方式取0.7或1.8左右,映射參數(shù)γ取0.09左右時能達到最優(yōu)識別效果。初始準確率差異大是由SMA算法隨機初始化造成的,但都在種群迭代次數(shù)5次以內(nèi)完成初始收斂。優(yōu)化后原始MFCC特征在Seed1~Seed3中識別平均準確率為96.34%,平均損失為0.141。
具體SMA黏菌種群大小和優(yōu)化過程如表3所示,取50次迭代總數(shù),樣本初始化隨機。
表3 不同種群大小優(yōu)化結(jié)果Table 3 Optimization results of different population sizes
在實際運行中,種群全體迭代穩(wěn)定后,SMA算法運行速度顯著增加,因此考慮運行效率時,希望穩(wěn)定迭代前總運行次數(shù)盡可能少。同時,若種群數(shù)不足則易受初始化影響,從而花費大量時間在隨機尋優(yōu)過程,且陷入局部最優(yōu)后跳出能力薄弱,穩(wěn)定迭代后出現(xiàn)種群突變后恢復能力較差;種群數(shù)量過多則信息傳遞能力不足,整體優(yōu)化更新較慢。綜合考慮SMA種群波動和優(yōu)化程度,取種群大小25對特征進行優(yōu)化。
特征優(yōu)化分別在進行和不進行顯隱性評估的情況下設(shè)置檢索范圍,共做6次不同樣本劃分,每次迭代100代種群,基于SMA的準確率與損失優(yōu)化結(jié)果分別如圖9(a)、圖9(b)所示。
圖9 SMA特征優(yōu)化對比結(jié)果Fig.9 SMA feature optimization comparison results
由圖9可知,對于12維MFCC特征樣本,進行特征區(qū)分后的SMA優(yōu)化收斂速度和準確率提升均優(yōu)于無區(qū)分優(yōu)化。有特區(qū)分的SMA在平均第21代達到無區(qū)分平均第32代得到的較優(yōu)種群,并通常在后續(xù)迭代中得到更優(yōu)特征權(quán)重。相同樣本劃分情況下Seed1~Seed6的平均最高歷史準確率分別為98.83%和98.61%,其中Seed3最高達99.24%。且進行評估后SMA訓練時間更短,平均總耗時分別為2 489 s和2 719 s節(jié)約8.5%,初始5代種群的平均準確率高出無評估27.50%,平均種群波動分別為7.06%和12.17%,平均損失低于無區(qū)分優(yōu)化0.005即10%左右。
為橫向驗證SMA對SVM的優(yōu)化效果,具將該方法的診斷精度和誤分情況與其他識別方法的對比,如表4所示。
表4 不同訓練算法對比結(jié)果Table 4 Comparison results of different training algorithms %
由表4可知,基于SMA特征優(yōu)化的SVM狀態(tài)識別方法準確率為98.83%,較僅超參數(shù)優(yōu)化的MFCC特征識別準確率提升2.48%,較其他訓練模型準確率平均高出3.66%,其中輕微松動識別準確率平均提升6%。優(yōu)化前后SVM對5 530組樣本的平均訓練速度為1.43 s和0.47 s,節(jié)約了67.1%,對992組樣本識別速度平均為0.11 s和0.05 s,節(jié)約了54.5%。相較神經(jīng)網(wǎng)絡(luò)除識別準確率提高5.02%外,還顯著節(jié)約了運行內(nèi)存和模型存儲空間。
為驗證SMA算法性能的優(yōu)越性,與粒子群(particle swarm optimization,PSO)、帶貪心蝗蟲(grasshopper optimization algorithm,GOA)和WOA算法的特征優(yōu)化結(jié)果進行對比,均采用某一相同樣本劃分方式。由于超參數(shù)優(yōu)化檢索簡單,上述算法都能得到相近結(jié)果,取C為1.98,γ為0.115,具體特征優(yōu)化準確率和效率如表5所示。
表5 不同優(yōu)化算法優(yōu)化對比Table 5 Comparison of different optimization algorithms
為方便進行算法優(yōu)化程度對比,采用每代種族的最優(yōu)位置作為每代的優(yōu)化結(jié)果,損失仍取平均損失,種群數(shù)均采用25組,對比如圖10所示。
圖10 不同優(yōu)化算法尋優(yōu)對比Fig.10 Comparison of different optimization algorithms for optimization
由表5和圖10的種群優(yōu)化結(jié)果表明,SMA算法較PSO和GOA在MFCC特征上初始收斂速度更快,并始終保持最優(yōu)種群準確率,在第30代時準確率已達98.50%,在第82代時達到98.79%。
GOA算法雖然在第7代進入穩(wěn)定狀態(tài),但算法跳出局部最優(yōu)能力很差,在上述運行環(huán)境中易陷入局部最優(yōu),最高準確率僅達96.85%。PSO算法全局尋優(yōu)能力較好,在第70代準確率達98.50%,但收斂能力一般在第42代才進入穩(wěn)定狀態(tài),且前20代尋優(yōu)效果很差,運行時間最長。WOA算法優(yōu)化效率最高,準確率及損失收斂速度都最快,運行時間僅為1 617 s,但全局優(yōu)化能力一般,僅第18代達到97.90%。故綜合3組算法對比分析能夠說明,SMA算法在樣本特征優(yōu)化中性能優(yōu)越,兼顧全局尋優(yōu)和收斂能力的同時效率適中。
具體基于SMA、WOA、PSO及GOA算法的識別誤分情況如圖11混淆矩陣所示。
圖11 不同優(yōu)化算法混淆矩陣Fig.11 Confusion matrix for different algorithms
由圖11的混淆矩陣可以發(fā)現(xiàn),SMA較其他3種優(yōu)化算法主要減少了識別效果不良樣本誤分量,即PCCs中高相似特征間的誤分量。并使得正常狀態(tài)和嚴重松動狀態(tài)的識別率達到100%,與表4中的誤分情況分析一致,說明該優(yōu)化過程確實聚焦松動狀態(tài)識別準確率提升。
進一步增加5%的無關(guān)樣本進入訓練樣本,以驗證存在干擾時SMA優(yōu)化的SVM算法魯棒性能,其中設(shè)置的無效樣本和實際樣本的PCCs系數(shù)絕對值均低于0.2,具體如圖12所示。
圖12 無關(guān)樣本PCCs分析Fig.12 Analysis of PCCs of generalized samples
逐步引入無關(guān)樣本后,SMA對MFCC特征優(yōu)化前后的識別準確率變化如表6所示。
表6 干擾樣本對SVM準確率影響Table 6 Effect of generalized samples on SVM accuracy
準確率波動絕對值均在0.3%以內(nèi),并未由于SMA-SVM模型本身識別準確率高而更易產(chǎn)生邊界誤分。完全引入無關(guān)樣本后,對數(shù)據(jù)集重新進行多次SMA隨機優(yōu)化訓練,訓練結(jié)果如圖13所示。
圖13 引入干擾樣本后模型訓練Fig.13 Model training after introduction of generalized samples
由圖13可知,經(jīng)重新訓練后該識別方法的準確率仍能夠回到98.65%,且新增誤分量均為無關(guān)樣本。引入無關(guān)樣本的訓練效果與4.1類似但過程波動更大,Seed1~Seed3的平均訓練時間為3 144 s,增加了26.3%在可接受范圍內(nèi),從而說明SMA優(yōu)化SVM當存在低相關(guān)干擾時具有良好魯棒性。實際工程中,采集變壓器聲振信號時若出現(xiàn)突發(fā)性噪聲導致部分樣本不具備識別特征,SMA算法同樣能夠有效減少該類樣本對識別準確率影響,進而提高SVM識別的抗干擾性能。
本文針對MFCC提取的變壓器聲振特征無法清晰描述信號本身能量分布的局限性,提出一種基于特征顯隱性區(qū)分的SMA優(yōu)化SVM狀態(tài)識別方法。得到以下結(jié)論:
1)本文從XGBoost訓練過程的cover貢獻出發(fā),通過多種方式將貢獻值指標化,并結(jié)合粗糙集分析的結(jié)果,按狀態(tài)識別對所提取特征的依賴性將其劃分為顯性和隱性兩類,從而為特征優(yōu)化提供了側(cè)重方向;
2)本文采用SMA算法對輸入SVM的MFCC特征進行權(quán)重優(yōu)化,并根據(jù)顯隱性約束優(yōu)化范圍,從而構(gòu)建對變壓器狀態(tài)識別更敏感的新特征量。相較傳統(tǒng)SVM,該方法的準確率提高2.48%,訓練速度提高67.1%;較無約束優(yōu)化收斂速度更快,穩(wěn)定后波動更小,跳出局部最優(yōu)能力更強,通常能得到更優(yōu)目標的種群迭代結(jié)果;
3)較WOA、PSO及GOA優(yōu)化算法,本文采用的SMA算法在實際工程中綜合應(yīng)用效果最優(yōu)。全局尋優(yōu)能力強于WOA和GOA,不易陷入局部最優(yōu),最優(yōu)準確率達98.78%;運行效率和收斂速度強于PSO和GOA,運行時間僅為2 616 s,在第30代已達到PSO第70代得到的優(yōu)化結(jié)果;
4)當訓練樣本中存在與樣本相關(guān)性低的干擾量時,本文提出的識別方法魯棒性能較強,原模型不易產(chǎn)生大量樣本偏離,能夠帶噪訓練,因此在實際工程中具有抗干擾價值。