于 浩,張 東,方文墨,孫 明,孫志強(qiáng),寧兆秋,白佳慶,崔馨元
(1.沈陽工程學(xué)院a.電力學(xué)院;b.新能源學(xué)院,遼寧 沈陽 110136;2.沈陽飛機(jī)工業(yè)(集團(tuán))有限公司,遼寧 沈陽 110034)
現(xiàn)如今我國新能源企業(yè)飛速發(fā)展,人們對綠色能源的使用越來越重視。由于風(fēng)電場、光伏發(fā)電站等新能源發(fā)電站逐步向偏僻地帶轉(zhuǎn)移,這就導(dǎo)致了風(fēng)電機(jī)組的工作條件不能得到保證,并且增大了檢測診斷的難度[1]。風(fēng)電機(jī)的故障率與風(fēng)電機(jī)組的復(fù)雜工作狀況有很大聯(lián)系,并且電機(jī)一旦發(fā)生故障,相關(guān)設(shè)備都會(huì)受到很大的影響甚至?xí)和9ぷ?,這就需要很高的檢修費(fèi)用[2]。所以,對風(fēng)機(jī)進(jìn)行在線故障監(jiān)控和故障診斷的研究是很有價(jià)值的。當(dāng)今,大數(shù)據(jù)處理和深度學(xué)習(xí)等技術(shù)領(lǐng)域迅速發(fā)展,利用數(shù)據(jù)處理分類分析和神經(jīng)網(wǎng)絡(luò)處理數(shù)據(jù)庫可以完成風(fēng)電機(jī)的在線故障監(jiān)控、實(shí)時(shí)反應(yīng)風(fēng)機(jī)工作狀態(tài)、高效診斷風(fēng)機(jī)故障類型等。這對控制風(fēng)場的發(fā)電成本和提高發(fā)電效益有很大幫助,不僅提高了企業(yè)的經(jīng)濟(jì)效益和能源利用率,還能降低風(fēng)電企業(yè)的維護(hù)成本。
張芳芳等[3]結(jié)合了位移實(shí)驗(yàn)和最小二乘支持向量機(jī)診斷法,特點(diǎn)是減少診斷計(jì)算量,在診斷的速度上也有了明顯改善。風(fēng)機(jī)故障診斷方法有很多,其中從故障特征值對風(fēng)機(jī)進(jìn)行工作狀態(tài)的監(jiān)控和故障檢修的預(yù)測方法占比較大[4]。針對實(shí)際生產(chǎn)中難以獲得足量的故障樣本數(shù)據(jù)而導(dǎo)致訓(xùn)練中樣本不均衡、樣本不足、缺少故障數(shù)據(jù)等問題,提出了一種基于關(guān)聯(lián)分析的生成式對抗神經(jīng)網(wǎng)絡(luò)的風(fēng)電機(jī)組故障診斷方法,并將其與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)成風(fēng)電機(jī)組故障診斷模型。該模型對風(fēng)電機(jī)組故障數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,使用FP-tree 法對樣本數(shù)據(jù)進(jìn)行整理;根據(jù)特征值排序進(jìn)行分類可以有效減少樣本數(shù)據(jù)被二次掃描的情況,縮短處理時(shí)間,快速找出頻繁項(xiàng)集,完成故障特征的提??;通過生成式對抗神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)庫擴(kuò)充,實(shí)現(xiàn)風(fēng)電機(jī)組的故障診斷。該模型有較好的抗噪性能,在噪聲環(huán)境下,具有較高的故障診斷準(zhǔn)確率。
Apriori 算法應(yīng)用在大量規(guī)則集合中篩選出最為有用的相關(guān)規(guī)則中。這種數(shù)據(jù)關(guān)聯(lián)分析法能夠選擇出兩種及兩種以上數(shù)據(jù)之間的關(guān)系,通過特征值比較對其進(jìn)行分類拆分。風(fēng)機(jī)工作受環(huán)境影響較大,為了得到風(fēng)機(jī)故障與環(huán)境因素之間的關(guān)系,使用關(guān)聯(lián)分析法對風(fēng)機(jī)發(fā)生的不同故障與所處不同環(huán)境下的環(huán)境因素進(jìn)行數(shù)據(jù)發(fā)掘分析,將故障與環(huán)境因素間的頻繁程度作為參考。
設(shè)x為項(xiàng)集,x?y為從x指向y的規(guī)則,T是給定數(shù)據(jù)庫的一組事務(wù)。
支持度表示項(xiàng)集x在事務(wù)集T中出現(xiàn)的頻率。項(xiàng)集x在事務(wù)集T中的支持度定義包含項(xiàng)集x事務(wù)在事務(wù)集T中的比例,可表示為
最小支持度(min-sup)是項(xiàng)集的最小支持閾值,為關(guān)聯(lián)規(guī)則的最低重要性。
置信度表示規(guī)則在事務(wù)集中出現(xiàn)的頻率。規(guī)則x?y在事務(wù)集T中的支持度是指同一事件中既包含項(xiàng)集x也包含項(xiàng)集y事務(wù)的比例,可表示為
最小置信度(min-conf)是置信度的最小值,為關(guān)聯(lián)規(guī)則的最低可信度。
首先,將故障數(shù)據(jù)進(jìn)行掃描數(shù)據(jù)集處理,完成初次數(shù)據(jù)集掃描,輸出頻繁項(xiàng)集的1 項(xiàng)集集合,然后按照支持度降低的順序進(jìn)行排列,得到的結(jié)果為L1={{z,5},{z,4},{z,3},{z,3},{z,3},{z,3}};其次,建立FP-tree,依據(jù)根結(jié)點(diǎn)(記為“null”)制作頻繁項(xiàng)集且清空鏈表;最后,再次掃描故障數(shù)據(jù),對數(shù)據(jù)樣本中每一項(xiàng)的次序按照L1中排序并過濾掉不頻繁的項(xiàng)。FP-tree流程如圖1所示。
圖1 FP-tree流程
關(guān)聯(lián)分析法最重要的部分就是對數(shù)據(jù)樣本的最小支持度閾值和最小置信度閾值的確定,必須滿足這兩個(gè)值才能被稱為強(qiáng)關(guān)聯(lián)規(guī)則。由于環(huán)境條件狀態(tài)的不同,會(huì)對其取不同的值,首先對數(shù)據(jù)進(jìn)行分類,然后根據(jù)特征值再對其進(jìn)行拆分,建立特征樹與特征樹分支,這樣系統(tǒng)可以根據(jù)掃描特征樹避免多次掃描分支數(shù)據(jù)而耗費(fèi)時(shí)間,可以很好地配合神經(jīng)網(wǎng)絡(luò)對故障數(shù)據(jù)庫進(jìn)行擴(kuò)充。數(shù)據(jù)關(guān)聯(lián)分析結(jié)構(gòu)如圖2所示。
圖2 數(shù)據(jù)關(guān)聯(lián)分析結(jié)構(gòu)
通過數(shù)據(jù)關(guān)聯(lián)分析法,將數(shù)據(jù)進(jìn)行分類處理,達(dá)到快速訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目的,起到對風(fēng)機(jī)故障數(shù)據(jù)擴(kuò)充及檢測的作用。
生成式對抗神經(jīng)網(wǎng)絡(luò)主要是由生成器和判別器構(gòu)成。生成器的功能是生成大量的隨機(jī)樣本,將伴隨現(xiàn)存的少量歷史故障數(shù)據(jù)輸入到判別器中;判別器的功能是識別生成器端輸入的大量數(shù)據(jù),判別其真?zhèn)危瑢⒓贁?shù)據(jù)篩除,真數(shù)據(jù)重新導(dǎo)入到生成器端口[5-6]。生成式對抗神經(jīng)網(wǎng)絡(luò)就是生成器與判別器的博弈。在對抗中,生成器優(yōu)化自身的生成能力,判別器也通過不斷地更新優(yōu)化提高其識別能力,最后生成的數(shù)據(jù)也更接近真實(shí)數(shù)據(jù)。具體工作流程如圖3所示。
圖3 生成式對抗神經(jīng)網(wǎng)絡(luò)工作流程
采用目標(biāo)函數(shù)調(diào)整生成器和判別器。首先,選出故障數(shù)據(jù)中的特征值,再從歷史故障數(shù)據(jù)中選取樣本x,將這些樣本數(shù)據(jù)輸入到生成式對抗神經(jīng)網(wǎng)絡(luò)中;其次,生成器生成的大量數(shù)據(jù)進(jìn)入判別器鑒別,對這些數(shù)據(jù)的真實(shí)概率進(jìn)行分析,先把50%的數(shù)據(jù)作為真實(shí)數(shù)據(jù),另外50%的數(shù)據(jù)作為偽數(shù)據(jù),其目的是讓最后的輸出數(shù)據(jù)接近于真實(shí)數(shù)據(jù)。風(fēng)機(jī)故障較多,在此對較為常見的故障進(jìn)行標(biāo)簽,對不同故障進(jìn)行分類,具體樣本標(biāo)簽及標(biāo)簽值如表1所示。
表1 樣本標(biāo)簽
判別器不斷檢測出假數(shù)據(jù)降低真實(shí)概率,生成器不斷生成數(shù)據(jù),這兩端的能力在對抗中不斷優(yōu)化,最終這兩部分將達(dá)到納什均衡(也就是說G(z)的生成樣本將符合訓(xùn)練數(shù)據(jù)的分布,并且對于所有的x,D(x)=1/2)。
損失函數(shù)是衡量神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置是否合理的重要指標(biāo)。生成式對抗神經(jīng)網(wǎng)絡(luò)生成器與判別器都是由不同函數(shù)構(gòu)成的:生成器的定義函數(shù)為G,輸入為z,參數(shù)為β(G);判別器的定義函數(shù)為D,輸入為x,參數(shù)為β(D)。生成器與判別器各函數(shù)都有相應(yīng)的參數(shù)。判別器JD(βD,βG)與生成器JG(βD,βG)只能通過調(diào)節(jié)各自的參數(shù)βD和βG實(shí)現(xiàn)損失函數(shù)最小化的目標(biāo)。生成器與判別器的最優(yōu)效果都受βD、βG的影響,但是生成器與判別器卻不能控制對方的參數(shù)。
大多數(shù)生成式對抗網(wǎng)絡(luò)用相同的判別器損失函數(shù)JD,不同網(wǎng)絡(luò)的區(qū)別在于生成器損失函數(shù)JG[7-8]。判別器損失函數(shù)JD:
式中,x-Pdata代表x真實(shí)樣本數(shù)據(jù)的統(tǒng)計(jì)分布Pdata,即x屬于真實(shí)樣本數(shù)據(jù);D(x)代表判別器輸入函數(shù);G(z)代表生成器輸入函數(shù)。
期望判別器的輸出盡量接近于1(判定為真實(shí)數(shù)據(jù)),因此期望D(x)接近于1,當(dāng)logD(x)=0 時(shí),訓(xùn)練損失率為0;反之,若判別器的判別能力較弱,輸出接近于0,那么logD(x)為負(fù)無窮大,而-logD(x)則為正無窮大,因此會(huì)造成生成式對抗神經(jīng)網(wǎng)絡(luò)的損失率超過50%。對于“偽造數(shù)據(jù)”,期望判別器D[G(z) ]的輸出盡量為0(判定為偽造數(shù)據(jù)),則1-D[G(z) ]無限接近于1,從而log{1-[DG(z)]}無限接近于0,生成式對抗神經(jīng)網(wǎng)絡(luò)的損失率為0,且訓(xùn)練損失率逐漸趨于平穩(wěn),如圖4所示。
圖4 訓(xùn)練損失率
根據(jù)樣本數(shù)據(jù)分析圖5 可知:生成的故障數(shù)據(jù)的真實(shí)性越來越高,生成器越來越優(yōu)化,輸出端數(shù)據(jù)的真實(shí)性無限接近于1,定子電流和振動(dòng)頻率分布較為均勻。通過神經(jīng)網(wǎng)絡(luò)對故障數(shù)據(jù)進(jìn)行擴(kuò)充,不斷優(yōu)化生成式對抗神經(jīng)網(wǎng)絡(luò)的生成器和判別器,損失訓(xùn)練率降低且趨于穩(wěn)定,不但解決了風(fēng)機(jī)故障診斷中樣本容量不足的問題,還解決了神經(jīng)網(wǎng)絡(luò)因樣本容量不足而導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率不高的問題,提高了神經(jīng)網(wǎng)絡(luò)的泛化能力,為風(fēng)機(jī)故障數(shù)據(jù)不足提供了新的解決方法。真實(shí)值與擴(kuò)充所得到的故障數(shù)據(jù)樣本趨于一致,這種方法為深度學(xué)習(xí)因樣本容量不足而造成學(xué)習(xí)效率低下的問題提供了新的解決方法。
圖5 樣本數(shù)據(jù)分布
生成器不斷輸入數(shù)據(jù),判別器不斷檢測數(shù)據(jù),這兩端進(jìn)行反復(fù)對抗。生成器與判別器損失函數(shù)之和為0[9],即
對于生成器G而言,在式(3)中只能影響-D[G(z) ],生成器的主要任務(wù)在于盡量生成“高仿真”的偽造數(shù)據(jù),使得判斷器無法區(qū)分其數(shù)據(jù)是“偽造”還是“真實(shí)”。因此,生成器G的D[G(z)]值越大,則1-D[G(z) ]的值就越小,對應(yīng)的函數(shù)JG就越小,損失值也越小。
生成器函數(shù)值JG越小越好。根據(jù)式(4)可知:函數(shù)值JG越小,判別器函數(shù)值JD就越大。零和博弈的價(jià)值函數(shù)為
則生成器的最優(yōu)解為
生成器使用的損失函數(shù)式(4)雖然在理論分析上效果顯著,可是在實(shí)際應(yīng)用中的效果卻不能讓人滿意。在GAN 中,交叉熵既要最小化,也要最大化。對于生成器來說,若判別器在某一置信值時(shí),能夠準(zhǔn)確地判斷出由生成器制造的“仿造樣本”,則會(huì)導(dǎo)致生成器的梯度消失。為了解決生成器梯度消失的現(xiàn)象,研究人員提出了利用交叉熵最小化處理生成器函數(shù)(即直接利用目標(biāo)函數(shù)來構(gòu)建交叉熵?fù)p失函數(shù)),而不是利用判別器的損失函數(shù)獲取生成器損失[10-11]。這時(shí)生成器的損失函數(shù)可變?yōu)?/p>
根據(jù)式(3)和式(7)可得生成GAN網(wǎng)絡(luò)的優(yōu)化目標(biāo)函數(shù)為
式中,z-pz(z)表示z符合編碼的統(tǒng)計(jì)pz,即z為從編碼的統(tǒng)計(jì)分布中采樣的隨機(jī)數(shù)。
為了解決風(fēng)機(jī)樣本數(shù)據(jù)不足,提高風(fēng)電機(jī)組故障檢測預(yù)測的準(zhǔn)確率,通過采集風(fēng)機(jī)樣本數(shù)據(jù)與仿真平臺,制作生成式對抗神經(jīng)網(wǎng)絡(luò),對仿真結(jié)果進(jìn)行分析對比。風(fēng)機(jī)主要參數(shù)如表2所示。
表2 實(shí)驗(yàn)風(fēng)機(jī)主要參數(shù)
本文以定子電流信號和振動(dòng)信號作為特征量。仿真平臺使用動(dòng)率分析儀采集電機(jī)定子電流信號,將2 個(gè)振動(dòng)傳感器分別連接在電機(jī)軸端和底座上,用來采集振動(dòng)信號,另外還有1個(gè)噪聲傳感器。
生成式對抗神經(jīng)網(wǎng)絡(luò)在訓(xùn)練中的損失率是0。將測試樣本放入訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)中進(jìn)行風(fēng)機(jī)故障判斷訓(xùn)練,且通過生成器與判別器不斷地升級進(jìn)化,訓(xùn)練順勢率波動(dòng)越來越小并且不斷降低,如圖6所示。
圖6 神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果
本文提出了一種基于關(guān)聯(lián)分析的生成式對抗神經(jīng)網(wǎng)絡(luò)的風(fēng)電機(jī)組故障診斷方法。該方法通過計(jì)算支持度和置信度的最小閾值,對少量故障數(shù)據(jù)庫進(jìn)行故障數(shù)據(jù)特征提取,避免了大量處理無關(guān)故障特征值,將帶有特征值的少量樣本帶入到生成式對抗神經(jīng)網(wǎng)絡(luò)中,經(jīng)過生成器與判別器的反復(fù)優(yōu)化升級,生成大量真實(shí)數(shù)據(jù),通過神經(jīng)網(wǎng)絡(luò)解決了風(fēng)電機(jī)組故障數(shù)據(jù)較少的問題。風(fēng)力發(fā)電在未來發(fā)電量中會(huì)占有越來越大的比重,利用大數(shù)據(jù)分析技術(shù)降低風(fēng)電場中風(fēng)電機(jī)組設(shè)備的維修率,對風(fēng)電機(jī)組狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控,可降低發(fā)電成本,提高生產(chǎn)效率。