于達(dá),張瑋,王輝
(1.齊魯工業(yè)大學(xué)(山東省科學(xué)院)電氣工程與自動(dòng)化學(xué)院,濟(jì)南 250353;2.山東大學(xué)電氣工程學(xué)院,濟(jì)南 250061)
在電力系統(tǒng)中,電力變壓器是最重要的設(shè)備之一,電力變壓器的運(yùn)行狀態(tài)可以直接影響電力系統(tǒng)的供電與安全。據(jù)不完全統(tǒng)計(jì),目前我國(guó)在運(yùn)110 kV及以上的電力變壓器已經(jīng)達(dá)到30 000 余臺(tái),總?cè)萘窟_(dá)到了3 400 000 MVA[1]。因此變壓器監(jiān)測(cè)與故障檢測(cè)技術(shù)對(duì)電網(wǎng)預(yù)防故障的能力與安全穩(wěn)定的運(yùn)行有著十分重要的意義。
電力變壓器發(fā)生的故障主要以絕緣故障為主,有些非絕緣的原發(fā)故障能夠轉(zhuǎn)變成絕緣故障,導(dǎo)致變壓器發(fā)生絕緣劣化的因素是由多種因素造成的[2-4]。研究顯示,局部放電的異常狀態(tài)是絕緣劣化主要的原因,而且也是絕緣劣化的先兆及顯現(xiàn)的形式[5],所以針對(duì)于電力變壓器異常狀態(tài)診斷就顯得極其重要。目前針對(duì)變壓器異常與故障診斷的方法主要有油色譜診斷,振動(dòng)診斷,紅外熱成像診斷,聲學(xué)診斷以及光譜診斷[6]。在這些診斷方式中,聲學(xué)診斷相較于其他診斷方式擁有裝配方便、診斷速度快、不與設(shè)備直接接觸等優(yōu)點(diǎn)。運(yùn)用聲音進(jìn)行異常以及故障診斷的方法大多都是靠有經(jīng)驗(yàn)的人通過(guò)人耳去聽(tīng),然后進(jìn)行診斷。但這種方法人為影響偏大,僅僅適用于比較明顯的故障發(fā)生的狀況。因此運(yùn)用聲紋自動(dòng)診斷技術(shù)監(jiān)測(cè)變壓器的運(yùn)行狀態(tài),能夠?qū)⒙曇粼\斷方式的優(yōu)勢(shì)充分發(fā)揮出來(lái)。目前對(duì)于變壓器聲學(xué)故障診斷的方法大多都是建立模型、特征提取等方法上,對(duì)于將聲音與深度學(xué)習(xí)相結(jié)合進(jìn)行識(shí)別的方法研究較少,但是這種方法在其他領(lǐng)域取得了優(yōu)異的診斷效果。黎煊等人運(yùn)用深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)建立模型,并應(yīng)用于識(shí)別豬的咳嗽聲,提取聲音的梅爾頻率倒譜系數(shù)(Mel-frequency Cepstral Coefficients,MFCC)與短時(shí)能量結(jié)合成1030 維的特征數(shù)據(jù),將此特征數(shù)據(jù)通過(guò)DBN 進(jìn)行學(xué)習(xí),通過(guò)五折交叉驗(yàn)證得到的識(shí)別的準(zhǔn)確率可以達(dá)到90%左右[7]。楊豪鴿通過(guò)聲音的預(yù)處理抽取出MFCC 參數(shù)與伽瑪通頻率倒譜系數(shù)(Gammatone Frequency Cepstrum Coefficient,GFCC)特征組成聲音的特征矢量在Tensorflow 框架下與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)以及前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks,F(xiàn)NN)相結(jié)合,識(shí)別平均準(zhǔn)確率達(dá)到了95%,并擁有較優(yōu)異的魯棒性[8]。戚敏惠采用三元組損失與CNN網(wǎng)絡(luò)結(jié)合提出了基于SE 注意力機(jī)制的深度卷積網(wǎng)絡(luò)(Squeeze-and-Excitation Convolutional Neural Network,SECNN)模型和注意力機(jī)制的深度卷積網(wǎng)絡(luò)模型(Attentive Convolutional Neural Network,Attentive CNN)模型,并在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練與測(cè)試,將訓(xùn)練好的模型對(duì)說(shuō)話人身份進(jìn)行識(shí)別,并取得了優(yōu)異的成果[9]。
本文針對(duì)變壓器異常狀態(tài)的聲學(xué)診斷,提出了一種采用變壓器的聲音與深度學(xué)習(xí)相結(jié)合的變壓器異常狀態(tài)在線監(jiān)測(cè)診斷的深度學(xué)習(xí)方法,運(yùn)用變壓器正常運(yùn)行以及發(fā)生異常時(shí)(以過(guò)載和放電為例)的聲音,通過(guò)梅爾倒譜系數(shù)與長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-short Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)相結(jié)合,對(duì)變壓器是否發(fā)生放電及過(guò)載進(jìn)行精準(zhǔn)識(shí)別。
變壓器在正常狀態(tài)下運(yùn)轉(zhuǎn),交流電流經(jīng)繞組會(huì)生成交變磁通,這種磁通具有周期性會(huì)引起鐵芯發(fā)生周期性振動(dòng),使變壓器發(fā)出“嗡嗡”的聲音[10],由聲音波形圖(圖1)可知這種聲音是有規(guī)律的,如果變壓器發(fā)生放電的情況則發(fā)動(dòng)機(jī)運(yùn)行的聲音中會(huì)夾雜“噼啪”的聲音,聲音的規(guī)律性沒(méi)有正常狀態(tài)下的明顯,如圖2 所示。發(fā)生過(guò)載時(shí),則發(fā)動(dòng)機(jī)的嗡鳴聲較正常運(yùn)行時(shí)的聲音更大[11],如圖3 所示。
圖1 正常狀態(tài)聲音波形Fig.1 Sound waveform in normal status
圖2 放電狀態(tài)聲音波形Fig.2 Sound waveform in discharge status
圖3 過(guò)載狀態(tài)聲音波形Fig.3 Sound waveform in overload status
本文針對(duì)這3 種聲音的差異性,以110 kV 油浸式主變壓器為例提出了一種監(jiān)測(cè)方案,為了保證采集聲音樣本的統(tǒng)一性,采集時(shí)均采用同一設(shè)備采集,采集頻率為44 100 Hz,單聲道,以10 s 為一個(gè)采集樣本,錄制格式均為WAV 格式,所采集的正常運(yùn)行、放電及過(guò)載的聲音數(shù)據(jù)來(lái)源于變電站的110 kV油浸式主變壓器。
聲音檢測(cè)的整體流程為將采集到的變壓器正常運(yùn)行的聲音與放電聲音先進(jìn)行數(shù)據(jù)的預(yù)處理并劃分成訓(xùn)練樣本及測(cè)試樣本,運(yùn)用MFCC 與一階、二階差分將聲音特征提取,將訓(xùn)練樣本的聲音特征輸入到LSTM 網(wǎng)絡(luò)模型中學(xué)習(xí)訓(xùn)練;同時(shí)輸入測(cè)試樣本對(duì)模型進(jìn)行測(cè)試,模型訓(xùn)練好后,將模型運(yùn)用到監(jiān)測(cè)系統(tǒng)中,開(kāi)始實(shí)施對(duì)變壓器運(yùn)行狀態(tài)的實(shí)時(shí)診斷。監(jiān)測(cè)方案如圖4 所示。
圖4 變壓器異常聲紋監(jiān)測(cè)方案流程圖Fig.4 Flow chart of abnormal voiceprint monitoring scheme for transformer
將聲音通過(guò)預(yù)加重、歸一化、分幀和加窗等處理方法消除采集聲音信號(hào)的設(shè)備所產(chǎn)生的混疊、高次諧波失真、高頻等問(wèn)題對(duì)聲音信號(hào)能量及頻率的影響[12]。盡量使之后的聲音處理獲取的聲音信號(hào)更加均勻、平順,為下一步的特征提取輸入高質(zhì)量的參數(shù),提升聲音信號(hào)特征提取的效果。
由于變壓器運(yùn)行時(shí)發(fā)出的聲音,低頻段幅度較大而高頻段幅度較小,所以為了平衡頻譜,改善聲音信號(hào)的信噪比(Signal-to-Noise Ratio,SNR),式(1)的一階濾波器將預(yù)加重濾波器應(yīng)用于信號(hào)x。
式中:y(t)為預(yù)加重濾波器的輸出值;x(t)為聲音信號(hào);α為濾波器系數(shù),取0.97。
雖然采集樣本使用的是同一個(gè)設(shè)備,但是由于各種因素的影響,采集到的個(gè)體聲音樣本之間也存在很多差別,比如某一時(shí)刻會(huì)有環(huán)境的雜音等。這些問(wèn)題均會(huì)對(duì)采集的聲音樣本的質(zhì)量造成一定的影響,所以在預(yù)加重之后,運(yùn)用歸一化方法對(duì)聲音信號(hào)進(jìn)行處理,使聲音數(shù)據(jù)都有統(tǒng)一的形式,這樣不僅方便計(jì)算,而且還降低了不同樣本間因采集因素所造成的差異[13]。因此使用線性歸一化方法對(duì)信號(hào)進(jìn)行歸一化,如式(2)所示:
式中:Ynom為歸一化后的聲音能量;X為經(jīng)過(guò)預(yù)加重處理的聲音信號(hào);Xmin,Xmax為聲音信號(hào)的最小值、最大值
聲音信號(hào)是一種時(shí)變信號(hào),通過(guò)時(shí)間軸顯現(xiàn)出非平穩(wěn)的特征,但是能夠看作在很短的時(shí)間內(nèi)(一般為10~30 ms)聲音信號(hào)幾乎沒(méi)有變化,因此聲音信號(hào)擁有短時(shí)平穩(wěn)性[14]。通過(guò)這一特性就能把聲音信號(hào)劃分為一系列短段(稱(chēng)為分析幀)并進(jìn)行后續(xù)的處理。為了獲取平穩(wěn)的信號(hào),則要通過(guò)分幀加窗的方式對(duì)聲音進(jìn)行處理。但是聲音具有連續(xù)性與關(guān)聯(lián)性,不能單純地對(duì)聲音進(jìn)行連續(xù)分段的處理,需要運(yùn)用交疊分段的方式,即上一幀的幀尾要與下一幀的幀頭有一定的重疊,目的是使幀與幀之間平滑過(guò)渡,保持其連續(xù)性。上一幀和下一幀重疊的部分叫做幀移,幀移和幀長(zhǎng)的比值通常為0~0.5 之間,本文根據(jù)實(shí)際情況取幀長(zhǎng)為0.025,幀移為0.01。將聲音信號(hào)切分成短幀后,為了減少頻譜泄露,需要在每一幀加上一個(gè)窗口函數(shù),本文選用的是漢明窗。漢明窗是一種余弦窗,它的主瓣寬、旁瓣低,不僅有效地減少了頻譜的泄露,還可使低通特性更加平滑。式(3)為漢明窗表達(dá)式:
式中:w(n)為樣本索引n處的窗口系數(shù);n為樣本索引,0<=n<=G-1;G為窗長(zhǎng)。
在聲音信號(hào)中,包含有大量的特征參數(shù),其中的每個(gè)特征向量分別代表著各自的物理意義和聲學(xué)意義。特征提取的作用是通過(guò)選出和縮減聲音信號(hào)中與識(shí)別沒(méi)有直接聯(lián)系的信息影響,縮小之后識(shí)別階段需要處理的信息量,選擇合適的特征參數(shù)有利于改善識(shí)別率。常見(jiàn)的聲音特征參數(shù)有線性預(yù)測(cè)倒譜系數(shù)(Linear Predictive Cepstral Coefficient,LPCC)和MFCC[15]。LPCC 參數(shù)是基于聲道模型生成的特征參數(shù),大多應(yīng)用在聲道響應(yīng)方面。MFCC 參數(shù)是通過(guò)人類(lèi)聽(tīng)覺(jué)特征并運(yùn)用聽(tīng)覺(jué)的臨界帶效應(yīng),在梅爾標(biāo)度的頻率范圍內(nèi)抽取出的倒譜特征參數(shù),是基于人類(lèi)聽(tīng)覺(jué)系統(tǒng)的特性去模擬人耳對(duì)各頻段聲音的感知[16]。
本文采用MFCC 算法與一階、二階相結(jié)合提取聲音中的特征向量。特征提取的流程如圖5 所示。
圖5 特征提取的流程Fig.5 Process of feature extraction
通常信號(hào)在時(shí)域上的變換很難看出信號(hào)的特性,所以在大多數(shù)情況下將它通過(guò)快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)轉(zhuǎn)化成頻域上的能量分布進(jìn)行特性觀察。通過(guò)乘上漢明窗,每幀須運(yùn)用離散傅里葉變換來(lái)獲取頻譜上的能量分布[17]。快速傅里葉變換計(jì)算公式如式(4)所示:
式中:Xa(k)為幅度譜;Y(n)為經(jīng)過(guò)預(yù)加重與歸一化以及分幀與加窗的聲音信號(hào);N為傅里葉的變換點(diǎn)數(shù),取512;k為頻率。
通過(guò)對(duì)Xa(k)取模得到信號(hào)功率譜。將FFT 的結(jié)果輸入到梅爾尺度濾波器組,各濾波器的頻率范圍隨中心頻率增大而增大(如圖6 所示),頻率響應(yīng)為:
圖6 Mel濾波器組頻響特性曲線Fig.6 Frequency response characteristic curve of Mel filter bank
式中:f(m)為濾波器中心頻率;m代表濾波器的順序;Hm(k)為三角濾波器的頻率響應(yīng)。
其中濾波器并不是均勻分布在頻率坐標(biāo)軸上,在低頻段濾波器分布較密集個(gè)數(shù)也較多,在高頻段,分布較稀疏而且個(gè)數(shù)也很少,因此通過(guò)梅爾譜會(huì)使低頻信號(hào)被精密的顯示,而高頻信號(hào)則會(huì)被粗略顯示。這是因?yàn)槿说亩鋵?duì)頻率這種標(biāo)度單位并不是線性感知關(guān)系的,即人耳對(duì)低頻的聲音感知較靈敏,對(duì)于高頻段的聲音人耳的感知是很遲鈍的[18]。所以人耳對(duì)頻率的關(guān)系用log 這種非線性關(guān)系更好描述,各個(gè)濾波器組輸出的對(duì)數(shù)能量為:
式中:s(m)為第m個(gè)濾波器輸出的對(duì)數(shù)能量;M為三角濾波器個(gè)數(shù)。
然后把所求得的對(duì)數(shù)能量采用離散余弦變換(Discrete Conine Transform,DCT)進(jìn)行去相關(guān)濾波器組系數(shù)并產(chǎn)生濾波器組的壓縮表示,并求出L階的Melscale Cepstrum 參數(shù)。DCT 變換如式(7)所示:
式中:L為MFCC 系數(shù)階數(shù)。
針對(duì)自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),所得到的倒譜系數(shù)2 至13 保存,其他系數(shù)表示濾波器組系數(shù)的變化比較快,并且這些細(xì)節(jié)不會(huì)有助于ASR,所以被去掉。這樣就得到了一個(gè)13 維的MFCC 參數(shù)。因?yàn)槁曇粜盘?hào)在時(shí)域上具有連續(xù)的特性,每幀的MFCC 特征僅僅反映了本幀聲音的特征,為了進(jìn)一步體現(xiàn)聲音特征的關(guān)聯(lián)性與變化率,將13 維的MFCC 參數(shù)進(jìn)行一二階差分,將差分結(jié)果合并到MFCC 參數(shù)中,將特征擴(kuò)充為39 維,這樣就獲取了一個(gè)39 維的特征向量,即每幀聲音數(shù)據(jù)有39 個(gè)特征。
圖7—9 為變壓器正常運(yùn)行、放電及過(guò)載時(shí)的語(yǔ)譜圖。語(yǔ)譜圖是聲音的時(shí)頻域表示,相比單一時(shí)域波形圖,其可綜合表征時(shí)間方向上的頻率和語(yǔ)音能量信息,表達(dá)出更為深層的聲紋特征,有利于模型的充分學(xué)習(xí)[19]。語(yǔ)譜圖的顏色代表在某一頻率與時(shí)刻下聲音的能量,由于對(duì)聲音數(shù)據(jù)進(jìn)行了歸一化,所以聲音能量范圍在0 到1 之間,黃色代表聲音能量高,綠色代表聲音能量低,從3 個(gè)維度表現(xiàn)出頻譜的構(gòu)成方式。因此,語(yǔ)譜圖兼具聲音數(shù)據(jù)表征和圖像形式處理的特點(diǎn),采用二維圖像表述三維信息。
圖7 變壓器正常運(yùn)行時(shí)語(yǔ)譜圖Fig.7 Speech spectrogram for transformer during normal operation
圖8 變壓器放電時(shí)的語(yǔ)譜圖Fig.8 Speech spectrogram for transformer when discharging
圖9 變壓器過(guò)載時(shí)的語(yǔ)譜圖Fig.9 Speech spectrogram for transformer overloading
從圖7—9 可以看出,變壓器正常運(yùn)行時(shí)的聲音主要集中在低頻段,而變壓器放電時(shí)的聲音的頻率范圍覆蓋到了高頻段,當(dāng)變壓器過(guò)載時(shí),可以看出在全頻段范圍內(nèi),聲音的強(qiáng)度都要大于正常運(yùn)行時(shí)的聲音強(qiáng)度。
RNN 為一種通常用來(lái)解決帶有時(shí)序數(shù)據(jù)問(wèn)題的神經(jīng)網(wǎng)絡(luò),RNN 的輸入為時(shí)序數(shù)據(jù),在計(jì)算單元中,前t時(shí)刻數(shù)據(jù)xt與t-1 時(shí)刻輸出生成的ht-1作為輸入,輸出輸出層的值yt并且生成ht,ht將被傳入下一時(shí)刻進(jìn)行計(jì)算[20],LSTM 是一種特殊的RNN 模型,它能夠避免長(zhǎng)期依賴(lài)問(wèn)題,相較于RNN,LSTM 在輸出時(shí)增加了遺忘門(mén),LSTM 結(jié)構(gòu)如圖10 所示。
圖10 LSTM單元結(jié)構(gòu)Fig.10 LSTM unit structure
LSTM 單元結(jié)構(gòu)中含有遺忘門(mén)、記憶門(mén)、輸出門(mén)3 個(gè)門(mén)。遺忘門(mén)含有1 個(gè)sigmoid 神經(jīng)網(wǎng)絡(luò)層,如圖11 所示,其作用是對(duì)前一單元的信息進(jìn)行選擇性遺忘如式(8),將t時(shí)刻輸入信號(hào)xt與t-1 時(shí)刻輸出信號(hào)ht-1相結(jié)合,一并輸入進(jìn)sigmoid 神經(jīng)網(wǎng)絡(luò)層中,輸出一個(gè)數(shù)值大小為0~1 的輸出信號(hào)ft,此值為保留傳遞信息的百分比。
圖11 LSTM單元中的遺忘門(mén)Fig.11 Forget gate in LSTM unit
式中:Wf為遺忘門(mén)的權(quán)重矩陣;[ ]ht-1,xt為2 個(gè)向量連接成更長(zhǎng)的向量;bf為遺忘門(mén)的偏置項(xiàng);σ為sigmoid 函數(shù)。
記憶門(mén)包含2 個(gè)部分:1 個(gè)sigmoid 神經(jīng)網(wǎng)絡(luò)層和1 個(gè)tanh 神經(jīng)網(wǎng)絡(luò)層,如圖12 所示,其作用是決定輸入信號(hào)中哪些信息將被保留。sigmoid 神經(jīng)網(wǎng)絡(luò)層的作用與遺忘門(mén)一樣,接受輸入信號(hào),輸出一個(gè)0 到1 的數(shù)值it,決定哪些信息需要被更新,如式(9)所示。tanh 神經(jīng)網(wǎng)絡(luò)層的功能是將輸入的xt和ht-1整合,通過(guò)一個(gè)tanh 神經(jīng)網(wǎng)絡(luò)層創(chuàng)造一個(gè)新的狀態(tài)候選向量Ct0,其值的范圍在-1~1 之間。輸出時(shí)通過(guò)it與Ct0相乘篩選哪些信息將被加入到t時(shí)刻細(xì)胞狀態(tài)Ct中。
圖12 LSTM單元中的記憶門(mén)Fig.12 Memory gate in LSTM unit
式中:Wi和Wc為記憶門(mén)的權(quán)重矩陣;bi與bc為記憶門(mén)的偏置項(xiàng)。
輸出門(mén)就是將t-1 時(shí)刻傳遞過(guò)來(lái)經(jīng)過(guò)遺忘門(mén)與記憶門(mén)選擇后的細(xì)胞狀態(tài)Ct-1與xt,ht-1通過(guò)式(11)與式(12)整合到一起作為輸出信號(hào),同時(shí)作為下一時(shí)刻的輸入,如圖13 所示。輸出門(mén)的計(jì)算公式如式(11)所示。
圖13 LSTM單元中的輸出門(mén)Fig.13 Output gate in LSTM unit
式中:ot為輸出門(mén);WO為輸出門(mén)的權(quán)重矩陣;bO為輸出門(mén)的偏置項(xiàng)。
目前用于聲紋識(shí)別的神經(jīng)網(wǎng)絡(luò)模型主要有RNN 網(wǎng)絡(luò)、CNN 網(wǎng)絡(luò)、BP 神經(jīng)網(wǎng)絡(luò)和LSTM 神經(jīng)網(wǎng)絡(luò)等[21]。傳統(tǒng)的RNN 神經(jīng)網(wǎng)絡(luò)對(duì)信息沒(méi)有挑選能力,它會(huì)將所有的信息都保存下來(lái),而且它沒(méi)有細(xì)胞狀態(tài),激活函數(shù)只有tanh,當(dāng)步數(shù)較多時(shí)有可能會(huì)發(fā)生梯度消失和梯度下降,所以只能處理短期依賴(lài)問(wèn)題。LSTM 是一種特殊的RNN 神經(jīng)網(wǎng)絡(luò),相較于傳統(tǒng)的RNN 神經(jīng)網(wǎng)絡(luò),其增加了門(mén)控裝置,可以通過(guò)細(xì)胞狀態(tài)來(lái)記憶信息,而且LSTM 通過(guò)其三個(gè)門(mén)控引入sigmod 函數(shù)并與tanh 函數(shù)相結(jié)合,增加求和的步驟,縮減梯度消失和梯度爆炸的可能性,既能解決短期依賴(lài)的問(wèn)題又能解決長(zhǎng)期依賴(lài)問(wèn)題[22-25]。傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)與RNN 網(wǎng)絡(luò)有著相似的問(wèn)題,不能處理過(guò)長(zhǎng)的序列,因?yàn)檫^(guò)長(zhǎng)的數(shù)據(jù)在傳遞過(guò)程中會(huì)被不斷縮減,到最后幾乎不能造成對(duì)輸出的影響,若一段序列的重要部分就在這前面一段,那么處理的結(jié)果就會(huì)極不理想。CNN 在圖像識(shí)別上具有優(yōu)異的效果,但是在處理聲音信號(hào)等時(shí)序數(shù)據(jù)時(shí),識(shí)別效果會(huì)下降很多,因?yàn)闀r(shí)序信號(hào)中的前一幀與后一幀有著很大的關(guān)聯(lián)性,而卷積網(wǎng)絡(luò)中因?yàn)榫矸e核大小的制約無(wú)法捕捉長(zhǎng)時(shí)的關(guān)系,只能解決一些簡(jiǎn)單的時(shí)序問(wèn)題。聲音是一種長(zhǎng)時(shí)序信號(hào),因此使用LSTM 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練并進(jìn)行識(shí)別的效果會(huì)比上述幾種網(wǎng)絡(luò)更有優(yōu)勢(shì)。為了進(jìn)一步對(duì)比,本文在實(shí)驗(yàn)階段會(huì)對(duì)BP 神經(jīng)網(wǎng)絡(luò)、CNN 網(wǎng)絡(luò)與LSTM 神經(jīng)網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練,并通過(guò)結(jié)果比較它們的準(zhǔn)確性。
本文采用雙向傳輸?shù)腖STM 結(jié)構(gòu),每層隱藏單元的個(gè)數(shù)為120,與全連接層連接,實(shí)現(xiàn)網(wǎng)絡(luò)分類(lèi),激活函數(shù)選用RULE 函數(shù),模型采用有監(jiān)督學(xué)習(xí),輸入聲音的MFCC 及一、二階差分組合的特征與聲音標(biāo)簽,網(wǎng)絡(luò)的損失函數(shù)采用交叉熵?fù)p失函數(shù),優(yōu)化方法采用梯度下降,運(yùn)用大量的數(shù)據(jù)迭代,實(shí)現(xiàn)網(wǎng)絡(luò)模型的訓(xùn)練。本文所構(gòu)建的網(wǎng)絡(luò)模型為:第一二層為L(zhǎng)STM 層,輸入維度為199×39,第三層為全連接層,第四層為分類(lèi)層,對(duì)正常運(yùn)行、放電以及過(guò)載3 種狀態(tài)進(jìn)行分類(lèi)。
將10 s 的聲音樣本進(jìn)行2 s 的切分,將1 個(gè)樣本切分成3 個(gè)樣本,將安靜環(huán)境下的樣本和嘈雜環(huán)境下的樣本打亂順序進(jìn)行隨機(jī)排序,然后依次放入模型中進(jìn)行訓(xùn)練,以8∶2 的比例隨機(jī)劃分訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)。各種情況下的樣本如表1 所示。
表1 110 kV變壓器各情況聲音樣本數(shù)量Table 1 Number of sound samples of 110 kV transformer in two environments個(gè)
本文的性能評(píng)價(jià)指標(biāo)是識(shí)別正確率,即識(shí)別正確的語(yǔ)音數(shù)量與測(cè)試集中語(yǔ)音總數(shù)的比值。圖14給出了訓(xùn)練集與測(cè)試集上的實(shí)驗(yàn)結(jié)果曲線,可以看出訓(xùn)練集的準(zhǔn)確率(train_acc)與測(cè)試集的準(zhǔn)確度(test_acc)在迭代300 之后開(kāi)始收斂并趨于穩(wěn)定,且訓(xùn)練集準(zhǔn)確度達(dá)到了100%,測(cè)試集的最佳準(zhǔn)確度達(dá)到了99.30%。測(cè)試結(jié)果如表2 所示。
表2 LSTM神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率Table 2 Recognition accuracy of LSTM neural network %
圖14 中,train_loss 為訓(xùn)練集的損失,val_loss 為驗(yàn)證集的損失,val_acc 為驗(yàn)證集的準(zhǔn)確率。
圖14 LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練集與測(cè)試集的準(zhǔn)確率與損失函數(shù)曲線Fig.14 Accuracy and loss function curves of LSTM neural network training set and test set
從表2 中能發(fā)現(xiàn),采用LSTM 神經(jīng)網(wǎng)絡(luò)對(duì)變壓器3 種工況的識(shí)別準(zhǔn)確率都達(dá)到了99%以上,為了進(jìn)一步對(duì)比,在原聲音數(shù)據(jù)不變的情況下,將LSTM模型更換為傳統(tǒng)CNN 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練識(shí)別,模型訓(xùn)練結(jié)果如圖15 所示,CNN 神經(jīng)網(wǎng)絡(luò)在迭代400 次時(shí)逐漸達(dá)到穩(wěn)定狀態(tài),雖然訓(xùn)練集的準(zhǔn)確度達(dá)到了100%,但是測(cè)試集的準(zhǔn)確度只達(dá)到了94%,采用相同的測(cè)試樣本進(jìn)行對(duì)模型的驗(yàn)證,測(cè)試結(jié)果如表3 所示。
圖15 CNN神經(jīng)網(wǎng)絡(luò)訓(xùn)練集與測(cè)試集的準(zhǔn)確率與損失函數(shù)曲線Fig.15 Accuracy and loss function curves of CNN neural network training set and test set
從表3 可以看出,CNN 神經(jīng)網(wǎng)絡(luò)識(shí)別的準(zhǔn)確率能達(dá)到95%左右,將網(wǎng)絡(luò)模型換成傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò),用相同的樣本對(duì)BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練與驗(yàn)證,測(cè)試結(jié)果如表4 所示。
表3 CNN神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率Table 3 Recognition accuracy of CNN neural network %
表4 BP神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率Table 4 Recognition accuracy of BP neural network %
從表4 可知傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)對(duì)3 種狀態(tài)識(shí)別的準(zhǔn)確率為87.53%。經(jīng)以上3 種典型的神經(jīng)網(wǎng)絡(luò)對(duì)變壓器3 種狀態(tài)下識(shí)別準(zhǔn)確率的比較可得知,LSTM 網(wǎng)絡(luò)模型的識(shí)別率較傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)提升了11.77%,較CNN 網(wǎng)絡(luò)提升了5.3%。
實(shí)驗(yàn)結(jié)果印證了本文對(duì)聲紋特征提取和聲紋識(shí)別方法的論述,將LSTM 神經(jīng)網(wǎng)絡(luò)與MFCC 特征有效結(jié)合,實(shí)現(xiàn)對(duì)變壓器正常運(yùn)行以及兩種異常狀態(tài)的高正確率聲紋識(shí)別。
在進(jìn)入大數(shù)據(jù)時(shí)代之后,生產(chǎn)生活過(guò)程中會(huì)產(chǎn)生大量數(shù)據(jù),為了保證工作效率,神經(jīng)網(wǎng)絡(luò)和人工智能在設(shè)備監(jiān)測(cè)中得以應(yīng)用,有效地減少了人力資源的投入,并改善了設(shè)備診斷的精確度[26]。聲音作為設(shè)備運(yùn)行的最主要的特征之一,包含了設(shè)備運(yùn)行時(shí)的大量信息,本文通過(guò)采集的真實(shí)場(chǎng)景下變壓器的聲音,并結(jié)合深度學(xué)習(xí)在聲紋領(lǐng)域中的研究,提出了一種基于LSTM 神經(jīng)網(wǎng)絡(luò)的變壓器異常診斷的方法,輸入聲音樣本的特征向量,通過(guò)LSTM 神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)訓(xùn)練,并取得了高準(zhǔn)確度,因此將聲音與深度學(xué)習(xí)相結(jié)合對(duì)設(shè)備運(yùn)行狀態(tài)進(jìn)行監(jiān)測(cè),或?qū)⒊蔀槁暭y識(shí)別領(lǐng)域未來(lái)的研究方向。