汪徐陽(yáng),易映萍,李田豐
(上海理工大學(xué) 機(jī)械工程學(xué)院,上海 200093)
油浸式電力變壓器是電力傳輸和能量轉(zhuǎn)換的樞紐設(shè)備,電力變壓器的運(yùn)行故障是導(dǎo)致系統(tǒng)大面積停電的關(guān)鍵之處,及時(shí)、準(zhǔn)確發(fā)現(xiàn)變壓器的早期潛伏故障對(duì)確保電網(wǎng)安全、穩(wěn)定運(yùn)行具有重要作用[1]。油中溶解氣體分析(Dissolved Gas Analysis,DGA)是檢測(cè)油浸式變壓器內(nèi)部絕緣潛伏性故障診斷的關(guān)鍵技術(shù),通過對(duì)油中溶解氣體濃度及比例進(jìn)行在線監(jiān)測(cè)可及時(shí)發(fā)現(xiàn)內(nèi)部隱患?;贒GA的分析方法有傳統(tǒng)三比值法、IEC三比值法、大衛(wèi)三角形法以及Rogers比值法[2]等,這些方法均先按特征氣體的比例編碼,然后進(jìn)行相應(yīng)的故障診斷。故障診斷方法大致分為基于模型、信號(hào)處理[3]以及數(shù)據(jù)驅(qū)動(dòng)3種,而數(shù)據(jù)驅(qū)動(dòng)方法可以用于難以建立精確模型或提取信號(hào)特征的復(fù)雜系統(tǒng)。為了充分挖掘海量數(shù)據(jù)價(jià)值,基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法已廣泛應(yīng)用于變壓器故障診斷領(lǐng)域,包括BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)[4]、支持向量機(jī)(Support Vector Machine,SVM)[5]、模糊邏輯(Fuzzy Logic,FL)[6]等。上述淺層機(jī)器學(xué)習(xí)模型克服了傳統(tǒng)三比值法的不足,但都存在算法原理簡(jiǎn)單以及對(duì)于數(shù)據(jù)量的要求較小等問題,容易造成特征不足,陷入局部最優(yōu)的后果。
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一大分支,具有自主學(xué)習(xí)能力,能夠?qū)崿F(xiàn)基于高維數(shù)據(jù)的抽象表達(dá)與分類。與淺層的機(jī)器學(xué)習(xí)模型相比,深度學(xué)習(xí)能夠有效提取樣本特征,泛化能力更強(qiáng)。深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)、波爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是常用的深度學(xué)習(xí)模型。文獻(xiàn)[7]利用DBN分類器對(duì)變壓器的故障類型進(jìn)行分類,該方法具有良好的特征提取能力和自適應(yīng)性。文獻(xiàn)[8]提出了一種基于分類受限玻爾茲曼機(jī)(Classification Restricted Boltzmann Machines,CRBM) 的故障診斷方法,在保留原始特征的基礎(chǔ)上將診斷準(zhǔn)確率以概率形式輸出。隨著更加深層次的探究深度學(xué)習(xí),研究者發(fā)現(xiàn)使用卷積神經(jīng)網(wǎng)絡(luò)可以減少網(wǎng)絡(luò)深度,提高泛化能力,使準(zhǔn)確率大幅度提高。CNN是一種經(jīng)典的深度學(xué)習(xí)模型,可以自動(dòng)學(xué)習(xí)樣本特征,將特征進(jìn)行提取分類,在圖像分類、語(yǔ)義分割等熱點(diǎn)研究領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)[9]提出了代價(jià)敏感的一維CNN(CS-1DCNN)訓(xùn)練過程以便更多關(guān)注少數(shù)群體,準(zhǔn)確率僅為88.41%。文獻(xiàn)[10]提出了一種利用RGB原理構(gòu)造二維動(dòng)態(tài)圖,將特征氣體的百分比作為輸入進(jìn)行識(shí)別訓(xùn)練,具有較好的分類效果,準(zhǔn)確率達(dá)到90%。
本文提出了一種數(shù)據(jù)增強(qiáng)方法,通過改變矩陣維度,將原始一維時(shí)間序列數(shù)據(jù)轉(zhuǎn)換成二維圖像,利用例如LeNet-5模型之類的二維卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行圖像識(shí)別。本文詳細(xì)介紹了基于二維卷積神經(jīng)網(wǎng)絡(luò)的故障診斷優(yōu)化策略,包括數(shù)據(jù)增強(qiáng)、卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的選擇與調(diào)整以及神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的選擇,最后對(duì)模型進(jìn)行訓(xùn)練以驗(yàn)證改進(jìn)模型的診斷準(zhǔn)確率。
一維卷積神經(jīng)網(wǎng)絡(luò)模型容易在特征提取時(shí)出現(xiàn)特征丟失和過擬合現(xiàn)象,因此需要加深神經(jīng)網(wǎng)絡(luò)深度來獲取更大的感受野。本文采用LeNet-5網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示的二維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在圖像處理領(lǐng)域廣泛使用,可較大程度地保留原始樣本特征。
圖1 二維卷積神經(jīng)網(wǎng)絡(luò)LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)Figure 1. LeNet-5 network structure of two dimensional convolutional neural network
基于二維卷積神經(jīng)網(wǎng)絡(luò)的故障診斷流程如圖2所示,對(duì)于原始訓(xùn)練樣本進(jìn)行擴(kuò)充,轉(zhuǎn)換為二維圖片輸入到卷積神經(jīng)網(wǎng)絡(luò)中,在訓(xùn)練完畢的網(wǎng)絡(luò)中輸入測(cè)試樣本,進(jìn)行訓(xùn)練優(yōu)化以得到目標(biāo)類別。
圖2 變壓器故障診斷流程Figure 2. Flow of transformer fault diagnosis
本文采用的變壓器特征氣體數(shù)據(jù)存在數(shù)據(jù)量少和樣本不均衡等問題,而深度學(xué)習(xí)網(wǎng)絡(luò)模型訓(xùn)練需要海量的數(shù)據(jù)支持,數(shù)據(jù)量直接影響網(wǎng)絡(luò)模型測(cè)試精度。一維卷積神經(jīng)網(wǎng)絡(luò)只能對(duì)數(shù)據(jù)進(jìn)行歸一化處理,依然不能解決數(shù)據(jù)特征量少的問題。為了滿足卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練要求,使模型對(duì)具有同一規(guī)律的學(xué)習(xí)集以外的數(shù)據(jù)也能給出合適的輸出,提高診斷精度,本文在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充。
先對(duì)樣本數(shù)據(jù)進(jìn)行篩選,刪除一些無標(biāo)簽和特征數(shù)據(jù)丟失的無效數(shù)據(jù),再進(jìn)行數(shù)據(jù)增強(qiáng)。得到相對(duì)平衡的數(shù)據(jù)集后,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的輸入要求將樣本轉(zhuǎn)化為二維的10×10矩陣,在輸入二維信號(hào)的基礎(chǔ)上可以使用在圖像分類領(lǐng)域應(yīng)用廣泛的二維卷積神經(jīng)網(wǎng)絡(luò)。將一維數(shù)據(jù)集轉(zhuǎn)化為二維圖像的具體步驟如下:
設(shè)一組特征氣體樣本值xi為{x1,x2,x3,x4,x5},xi∈R1×5,每個(gè)xi分為整數(shù)和小數(shù)部分,各擴(kuò)展為10位的二進(jìn)制數(shù)。
整數(shù)部分按正序除2取余數(shù),直至商為0,得到xii。小數(shù)部分按逆序乘2取整數(shù),直至第10位,用到了mod函數(shù),得到xij。最后將xii和xij合并為20位二進(jìn)制數(shù),xi即為100×1的一維數(shù)據(jù)。
數(shù)據(jù)集最后是以[None,100]的數(shù)據(jù)格式存放,針對(duì)卷積神經(jīng)網(wǎng)絡(luò),需要保存圖像的位置信息,因此在神經(jīng)網(wǎng)絡(luò)的輸入端對(duì)數(shù)據(jù)樣本進(jìn)行重構(gòu),將其轉(zhuǎn)化為[None,10,10,1]的二維圖片格式輸入到模型中進(jìn)行訓(xùn)練。
在二維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,有局部感知域、權(quán)值共享和池化3個(gè)基本工作機(jī)制。在網(wǎng)絡(luò)結(jié)構(gòu)中,輸入層到隱藏層的映射為特征映射(Feature Map,FM),特征映射的權(quán)重為共享權(quán)值(Shared Weights,SW)。共享權(quán)值和偏置既可以保證在參數(shù)較少的情況下獲取更大的感知野,又可以提升網(wǎng)絡(luò)的深度,有效抑制過擬合。一般在卷積層后加入池化層,簡(jiǎn)化輸出信息,與共享權(quán)值與偏置三者組成一個(gè)完整的卷積神經(jīng)網(wǎng)絡(luò)。最終使用如圖3所示的二維神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來提取特征值。
圖3 二維卷積神經(jīng)網(wǎng)絡(luò)模型Figure 3. Two-dimensional convolutional neural network model
二維CNN故障診斷模型共有7層,每?jī)蓪泳矸e層后添加一層采樣層來保留主要特征,可減少計(jì)算量??紤]核個(gè)數(shù)、大小、步長(zhǎng)與準(zhǔn)確率的關(guān)系,設(shè)計(jì)二維卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)端到端的訓(xùn)練和分類。二維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示。
表1 二維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
第1層C1采用32個(gè)3×3的堆疊卷積層,卷積層特征的計(jì)算式如式(1)所示
(1)
其中,xi表示從第C1層到第S2層要產(chǎn)生的Feature數(shù)量,即3×3=9個(gè);b代表Bias數(shù)量,本文設(shè)Bias為1;Padding設(shè)置為SAME邊緣填0。
第1層池化層采用步長(zhǎng)為2的最大池化(Max-pooling),用于縮小在卷積時(shí)獲取的樣本特征,從C1的深度可計(jì)算得出卷積層C1共有32×(3×3+1)個(gè)參數(shù),再與前一個(gè)輸入層的像素相連,共有8×8×320=20 480個(gè)連接。
對(duì)于S2的最大池化層,用2×2的最大池化可以減少特征的個(gè)數(shù),對(duì)C1進(jìn)行降維處理,將特征變?yōu)樵瓉淼?/4,此處共有32×2個(gè)參數(shù),有16×14×4×4個(gè)連接(Connection),也減少了之后層的參數(shù)個(gè)數(shù)。
同樣的提取方式,第2層卷積層為64個(gè)卷積核,可提取64個(gè)4×4的特征圖,再經(jīng)過S4得到64×2×2的特征圖。
卷積層C5可將數(shù)據(jù)降維,得到100個(gè)1×1的特征圖,加入Dropout層對(duì)模型進(jìn)行正則化,全連接層有100個(gè)節(jié)點(diǎn),采用傳統(tǒng)Sigmoid激活函數(shù)。
最后在輸出層中使用激活函數(shù)Softmax,將上一層的數(shù)據(jù)進(jìn)行歸一化,轉(zhuǎn)化為(0,1)區(qū)間內(nèi)的數(shù)值,作為多分類的目標(biāo)預(yù)測(cè)值,將其轉(zhuǎn)化為概率實(shí)現(xiàn)對(duì)變壓器故障的分類。
在深度學(xué)習(xí)中,優(yōu)化問題影響模型的泛化能力,兩者緊密聯(lián)系,因?yàn)槟P褪諗康淖钚≈禌Q定了模型泛化的程度,可以利用優(yōu)化器對(duì)CNN模型參數(shù)進(jìn)行管理并更新[11],使得模型輸出與實(shí)際的診斷結(jié)果更加貼近。目前,在深度學(xué)習(xí)中較常用的梯度優(yōu)化算法主要有SGD(Stochastic Gradient Descent)、RMSProp和Adam算法。
隨機(jī)梯度下降SGD是較基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)優(yōu)化方法[11],每次參數(shù)更新時(shí)僅選取單個(gè)樣本計(jì)算其梯度,但由于樣本的隨機(jī)性,SGD會(huì)發(fā)生震蕩使得訓(xùn)練不能收斂,在最小值附近波動(dòng)。
設(shè)單個(gè)樣本為(x(i);y(i)),其中x是輸入數(shù)據(jù),y是標(biāo)簽,計(jì)算式如式(2)所示。
θ=θ-lr×?θJ(θ;x(i);y(i))
(2)
RMSprop是一種未發(fā)表的自適應(yīng)學(xué)習(xí)率方法,對(duì)權(quán)重W和偏置b使用了微分平方加權(quán)平均數(shù),并在更新W和b時(shí)使用除以根號(hào)求平均值的方法,使梯度大幅度減小,迭代過程如式(3)~式(6)所示
SdW=βSdW+(1-β)dW2
(3)
Sdb=βSdb+(1-β)db2
(4)
(5)
(6)
式中,SdW和Sdb分別是損失函數(shù)在前t-1輪迭代過程中累積的梯度動(dòng)量;β是梯度累積的一個(gè)指數(shù);RMSprop算法將學(xué)習(xí)速率除以平方梯度的指數(shù)衰減平均值,使網(wǎng)絡(luò)函數(shù)收斂更快。
Adam是一種基于動(dòng)量的算法和基于自適應(yīng)學(xué)習(xí)率的優(yōu)化算法[12],經(jīng)過偏置修正,在每一次迭代過程中將學(xué)習(xí)率保持在一個(gè)固定區(qū)間內(nèi),能夠保證參數(shù)的平穩(wěn)性。從訓(xùn)練集中采包含m個(gè)樣本{x(1),x(2),…,x(m)}的小批量,對(duì)應(yīng)目標(biāo)為y(i)。設(shè)完成一次學(xué)習(xí)之后的參數(shù)值為θ,衰減率為β1和β2,極小值為ε,初始學(xué)習(xí)率為lr。一般情況下取β1、β2的值分別為0.900和0.999,ε取值為10-8,而學(xué)習(xí)率需要在訓(xùn)練過程中結(jié)合實(shí)際情況及時(shí)進(jìn)行調(diào)整,優(yōu)化更新過程如式(7)和式(8)所示
mt=β1mt-1+(1-β1)gt
(7)
(8)
Adam梯度下降法更新梯度如式(9)所示。
(9)
由于在迭代初期誤差較大,為了保證算法的收斂,通過修正梯度均值,減小誤差對(duì)初始訓(xùn)練效果的影響。更新有偏一階矩估計(jì)Mt和更新有偏一階矩估計(jì)Vt如式(10)和式(11)所示。
(10)
(11)
參數(shù)更新計(jì)算式如式(12)、式(13)所示。
(12)
θt=θt-1+Δθt
(13)
測(cè)試誤差θt+1為
θt+1=θt-vt-λlrθt
(14)
式中,λ為權(quán)重衰減系數(shù);λlrθt為額外的權(quán)重衰減項(xiàng)。
Adam算法是目前神經(jīng)網(wǎng)絡(luò)架構(gòu)中效果比較顯著的自適應(yīng)學(xué)習(xí)率優(yōu)化方法[13],但該算法在保證準(zhǔn)確率的同時(shí)也會(huì)產(chǎn)生測(cè)試誤差,或者發(fā)生震蕩錯(cuò)失全局最優(yōu)解。本文通過添加到損失函數(shù)中的權(quán)重,更新卷積神經(jīng)網(wǎng)絡(luò)中的權(quán)值和閾值來提高衰減效果[14-15],改進(jìn)后的參數(shù)值如式(15)所示。
(15)
改進(jìn)后的Adam算法能夠快速收斂,解決局部最優(yōu)問題,適用于比較稀疏的數(shù)據(jù)集以及訓(xùn)練架構(gòu)更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。
卷積神經(jīng)網(wǎng)絡(luò)是一種有監(jiān)督學(xué)習(xí)算法,訓(xùn)練樣本須是有標(biāo)簽的數(shù)據(jù)。當(dāng)變壓器出現(xiàn)故障時(shí),由放電位置產(chǎn)生電弧,使得絕緣油分解成CH4、C2H6、C2H4、C2H2以及H2這5種氣體,將變壓器DGA數(shù)據(jù)作為網(wǎng)絡(luò)模型的輸入進(jìn)行故障診斷。根據(jù)文獻(xiàn)[16]選取5種氣體作為特征樣本,本文使用的變壓器特征氣體數(shù)據(jù)以及對(duì)應(yīng)故障類型均源自文獻(xiàn)[17],故障樣本數(shù)據(jù)集組成如表2所示。建立基于Tensorflow2.2.1和Keras2.3的深度學(xué)習(xí)平臺(tái),利用Python3.7.2編寫卷積神經(jīng)網(wǎng)絡(luò)模型的程序,分別進(jìn)行基于一維CNN模型和二維CNN模型的變壓器故障診斷,并采用不同梯度下降優(yōu)化算法進(jìn)行訓(xùn)練,對(duì)比分析故障診斷的結(jié)果。
表2 故障樣本數(shù)據(jù)集組成
由于在不同故障類型下產(chǎn)生的5種氣體含量不同,按照故障特征可將故障類型分為熱故障和放電故障,放電故障包括低能放電、高能放電以及局部放電,熱故障包括高溫過熱、中低溫過熱,可采用One-Hot編碼的方式將其進(jìn)行分類來區(qū)分每一條特征信息,故障類型和對(duì)應(yīng)One-Hot編碼如表3所示。
表3 故障類型和對(duì)應(yīng)One-Hot編碼
由表3可知,將6個(gè)分類存入Tensorflow中,將分類值映射到二進(jìn)制數(shù),由于本文用于訓(xùn)練的特征變量值較少且各類別相互獨(dú)立,使用One-Hot編碼分類可以提高擬合效果和訓(xùn)練效率。
本文選取323條變壓器樣本數(shù)據(jù),其中,正常、低能放電、高能放電、中低溫過熱以及高溫過熱、局部放電狀態(tài)分別為44、39、43、120、42和35條。將數(shù)據(jù)集分別以6∶4、7∶3和8∶2的比例建立相對(duì)應(yīng)的訓(xùn)練集R1、R2、R3和測(cè)試集T1、T2、T3,進(jìn)行數(shù)據(jù)預(yù)處理和網(wǎng)絡(luò)模型搭建,比較一維CNN和二維CNN進(jìn)行變壓器故障診斷的效果,驗(yàn)證二維CNN模型的有效性。一維CNN和二維CNN的診斷準(zhǔn)確率對(duì)比如表4所示。
表4 一維CNN與二維CNN診斷準(zhǔn)確率對(duì)比
一維CNN診斷模型的輸入也是變壓器油中溶解的5種特征氣體。由于各個(gè)氣體的數(shù)量級(jí)差別較大,先對(duì)其進(jìn)行歸一化,再搭建經(jīng)典7層LeNet-5神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)包含了32個(gè)卷積核尺寸為3×1的卷積層,32個(gè)步長(zhǎng)為2的最大池化層,1個(gè)全連接層以及Softmax輸出層。在特征量較少的情況下,采用Sigmoid和Tahn激活函數(shù)容易產(chǎn)生提取梯度遲緩,可能丟失重要特征,因此采用ReLU激活函數(shù)可以加速收斂,防止過擬合。
本文提出二維CNN診斷方法對(duì)數(shù)據(jù)維度進(jìn)行擴(kuò)充,在保證網(wǎng)絡(luò)平衡的同時(shí)使CNN網(wǎng)絡(luò)結(jié)構(gòu)可以更高效地提取樣本特征。在參數(shù)選擇時(shí),一維CNN模型中采用3×1的結(jié)構(gòu),兩個(gè)卷積核以6個(gè)權(quán)值為代價(jià),只能獲取5×1的感受野。二維CNN結(jié)構(gòu)常用3×3的堆疊卷基層,既可以保證在參數(shù)較少的情況下獲取更大的感知野,又提升了網(wǎng)絡(luò)的深度,有效地抑制了過擬合。進(jìn)行比較實(shí)驗(yàn)后由表4可知,傳統(tǒng)一維CNN模型不僅參數(shù)復(fù)雜,而且時(shí)間消耗大,診斷準(zhǔn)確率也較低,因此一維CNN的性能一般。二維CNN診斷模型在3個(gè)不同比例的測(cè)試集下均保持了較高的故障診斷準(zhǔn)確率,平均準(zhǔn)確率達(dá)到了94.94%,并且準(zhǔn)確率模型參數(shù)較少,節(jié)約了計(jì)算成本,訓(xùn)練時(shí)間較短,且在每個(gè)測(cè)試集上都達(dá)到了93%及以上,說明診斷模型的泛化能力較強(qiáng)。其相比傳統(tǒng)一維CNN模型精度具有較明顯提升,傳統(tǒng)一維CNN模型的平均診斷率為91.48%。
基于上述CNN模型與SVM模型[17]進(jìn)行簡(jiǎn)要分析對(duì)比。
場(chǎng)景1S1:將拓展DGA數(shù)據(jù)進(jìn)行特征選擇后的5維DGA數(shù)據(jù)并經(jīng)過樣本預(yù)處理后輸入SVM模型,進(jìn)行變壓器故障診斷。
場(chǎng)景2S2:將原始DGA數(shù)據(jù)進(jìn)行樣本預(yù)處理后輸入二維CNN模型,進(jìn)行變壓器故障診斷。針對(duì)以上兩個(gè)場(chǎng)景,使用50個(gè)測(cè)試樣本,具體訓(xùn)練結(jié)果如表5所示。
表5 兩種算法準(zhǔn)確度對(duì)比
由表5可知,原始DGA數(shù)據(jù)集在CNN模型測(cè)試集上的準(zhǔn)確度高于SVM,呈現(xiàn)出深度學(xué)習(xí)模型準(zhǔn)確率高于淺層學(xué)習(xí)模型(SVM)準(zhǔn)確率的效果。
在訓(xùn)練過程中,迭代步數(shù)為1 000次,每批處理的樣本個(gè)數(shù)batch_size為16,在選用10×10大小的二維輸入情況下以準(zhǔn)確率最終值為指標(biāo),依次使用3種神經(jīng)網(wǎng)絡(luò)優(yōu)化器進(jìn)行故障診斷,各個(gè)優(yōu)化算法參數(shù)如表6所示。本文取學(xué)習(xí)率lr為0.01,β為衰減率,β1、β2為一階、二階矩估計(jì)衰減值,ε為最終收斂誤差值。
表6 不同優(yōu)化算法參數(shù)表
使用3種梯度優(yōu)化算法對(duì)CNN模型進(jìn)行優(yōu)化后的診斷結(jié)果如圖4所示。
(a)
由圖4可知,SGD算法識(shí)別精度較低,在訓(xùn)練過程中發(fā)生震蕩,在迭代次數(shù)為500次之前訓(xùn)練難以收斂到極小值,可能被困在鞍點(diǎn),準(zhǔn)確率一直在某個(gè)值附近。隨著迭代次數(shù)增多,診斷準(zhǔn)確率開始增長(zhǎng),在迭代次數(shù)達(dá)到1 000次時(shí)仍然有震蕩現(xiàn)象產(chǎn)生,診斷效果不佳。在使用RMSprop優(yōu)化算法的訓(xùn)練過程中,準(zhǔn)確率隨著迭代次數(shù)的增大而增高,相較于SGD算法比較平穩(wěn)但也有小幅度地波動(dòng)。傳統(tǒng)的Adam優(yōu)化算法在迭代次數(shù)為200次時(shí)能夠較快地進(jìn)行收斂并且能穩(wěn)定在95%附近,訓(xùn)練的模型擬合性較好,未發(fā)生震蕩,兼顧了訓(xùn)練的精度和平穩(wěn)性。經(jīng)過改進(jìn)后的Adam優(yōu)化算法在迭代次數(shù)為300次時(shí)突然發(fā)生震蕩,但最后隨著迭代次數(shù)的增加,訓(xùn)練過程趨于平穩(wěn),最后收斂于一個(gè)較小的訓(xùn)練誤差,實(shí)現(xiàn)了較高的訓(xùn)練精度。由圖5可知,改進(jìn)后的Adam算法準(zhǔn)確率優(yōu)于其他3種算法,并且隨著迭代次數(shù)的增加,準(zhǔn)確率明顯提高。
圖5 不同優(yōu)化算法下的診斷準(zhǔn)確率對(duì)比Figure 5. Comparison of diagnostic accuracy under different optimization algorithms
在迭代步數(shù)1 000次的情況下,3種不同的優(yōu)化算法下訓(xùn)練時(shí)間和診斷精度的對(duì)比如表7所示。
表7 不同優(yōu)化算法下的綜合性能對(duì)比
由表7可知,除了SGD優(yōu)化算法,其他3種優(yōu)化方法的訓(xùn)練集準(zhǔn)確率都達(dá)到了100%,說明SGD算法識(shí)別精度較低,會(huì)發(fā)生震蕩使極小值被困在鞍點(diǎn),準(zhǔn)確率一直保持在94.0%附近。隨著迭代次數(shù)增加,準(zhǔn)確率增長(zhǎng)到94.2%,診斷效果較差。但是該算法每次迭代只使用一個(gè)樣本,訓(xùn)練速度低至每批次0.04 s。RMSprop優(yōu)化算法迭代初期的訓(xùn)練過程不穩(wěn)定,收斂誤差較大,最終得到的模型訓(xùn)練精度僅為92.82%
經(jīng)過改進(jìn)的Adam算法存儲(chǔ)了過去梯度的平方Vt的指數(shù)衰減平均值,并且保留了了過去梯度Mt的指數(shù)衰減平均值,比RMSprop和傳統(tǒng)Adam算法的效果更好,并且在Tensorflow環(huán)境中訓(xùn)練時(shí)是一個(gè)不斷尋找最優(yōu)參數(shù)的過程,Adam的分布式計(jì)算可以大幅節(jié)約時(shí)間,完成高效、高質(zhì)量的訓(xùn)練。從表7可看出,改進(jìn)后的Adam優(yōu)化算法可以兼顧收斂性、訓(xùn)練速度和訓(xùn)練精度,準(zhǔn)確率高達(dá)96.2%,同時(shí)也證明了模型的泛化能力較強(qiáng)、穩(wěn)定性良好。
Dropout層可以有效地緩解過擬合現(xiàn)象,能夠達(dá)到正則化的效果[18],在模型全連接層之前加入Dropout層可以有效地優(yōu)化模型性能。在實(shí)驗(yàn)中發(fā)現(xiàn)Adam優(yōu)化算法的學(xué)習(xí)率和Dropout比率會(huì)影響變壓器故障診斷結(jié)果,如圖6所示。
圖6 學(xué)習(xí)率和Dropout比率對(duì)診斷準(zhǔn)確率的影響Figure 6. Impact of learning rate and Dropout rate on diagnostic accuracy
從圖6可以看出,當(dāng)Dropout比率為0.1時(shí),診斷的準(zhǔn)確率最高,當(dāng)學(xué)習(xí)率分別被設(shè)置為0.1000、0.0100、0.0010、0.000 1時(shí),診斷結(jié)果準(zhǔn)確率隨著學(xué)習(xí)率的減小而降低,設(shè)置較小的學(xué)習(xí)率導(dǎo)致?lián)p失下降過慢,而設(shè)置較大的學(xué)習(xí)率會(huì)有更快的初始學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,當(dāng)學(xué)習(xí)率和Dropout值選擇合適時(shí),模型并不會(huì)發(fā)生過擬合現(xiàn)象,證明了基于改進(jìn)Adam優(yōu)化算法的二維卷積神經(jīng)網(wǎng)絡(luò)模型能夠有效防止過擬合,同時(shí)合理設(shè)置Dropout比率參數(shù)增強(qiáng)了模型的穩(wěn)定性。
針對(duì)基于傳統(tǒng)一維卷積神經(jīng)網(wǎng)絡(luò)的故障診斷方法由于樣本特征量不足導(dǎo)致模型診斷性能較差問題,本文采用二維卷積神經(jīng)網(wǎng)絡(luò)方法對(duì)油浸式變壓器進(jìn)行故障診斷。通過數(shù)據(jù)增強(qiáng)方法將原始一維時(shí)間序列數(shù)據(jù)轉(zhuǎn)換為二維圖片,使用在圖像識(shí)別領(lǐng)域應(yīng)用廣泛的二維卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。將該方法與改進(jìn)的Adam算法相結(jié)合,比較了3種不同的梯度下降方法在訓(xùn)練效果和分類精度上的差異,得出如下兩點(diǎn)結(jié)論:
1)本文所得方法采用數(shù)據(jù)增強(qiáng)技術(shù),在保留了原始數(shù)據(jù)特征的前提下得到相對(duì)平衡的二維數(shù)據(jù),相較于傳統(tǒng)的一維CNN方法具有更高的診斷準(zhǔn)確率。
2)實(shí)驗(yàn)結(jié)果表明,本文使用的自適應(yīng)優(yōu)化算法能夠減少震蕩,使訓(xùn)練過程比較平穩(wěn),提高了網(wǎng)絡(luò)的收斂速度和泛化能力,能更快地達(dá)到較高的識(shí)別準(zhǔn)確率。