黃鶴鳴
(中國直升機設(shè)計研究所,江西 景德鎮(zhèn) 333001)
直升機機電系統(tǒng)結(jié)構(gòu)復雜,因而其產(chǎn)品可靠性差、使用壽命短。其中發(fā)電機是機電系統(tǒng)中故障率較高的關(guān)鍵設(shè)備,發(fā)電機的運行狀態(tài)直接影響直升機的飛行安全。機電系統(tǒng)可靠性提升方法研究面臨的一大挑戰(zhàn)是如何檢測雙饋發(fā)電機的運行狀態(tài)并進一步診斷雙饋發(fā)電機的故障。通常,早發(fā)的部件松動等不健康狀態(tài)會逐漸造成雙饋發(fā)電機的故障,從而導致機電系統(tǒng)的運行和維護成本增加[1-3]。檢測和診斷雙饋發(fā)電機的健康狀態(tài)有助于運行維護人員及時做出決策,以保持直升機發(fā)電的可靠性和可用性。
在20年的雙饋發(fā)電機設(shè)計壽命中不可避免地會出現(xiàn)組件故障或運行不正常的情況[4-5]。為了保證雙饋發(fā)電機的安全運行,需要對雙饋發(fā)電機進行兩種類型的維護,即基于時間的維護(Time-Based Maintenance, TBM)和基于狀態(tài)的維護(Condition-Based Maintenance, CBM)[6]。與TBM相比,CBM在某些情況下成本更低。狀態(tài)檢測在CBM中扮演著最重要的角色,例如故障診斷和不健康狀態(tài)檢測,因此本文旨在研究異常狀態(tài)檢測系統(tǒng)的開發(fā)。傳統(tǒng)的狀態(tài)檢測方法主要分為兩類:基于模型的方法和基于數(shù)據(jù)的方法?;谀P偷姆椒ㄒ劳袑嶋H的物理模型,主要是對從各個雙饋發(fā)電機子系統(tǒng)收集的振動信號進行頻譜分析[7]。這類方法在診斷不同子系統(tǒng)[8-9]中的機械故障方面具有優(yōu)勢,例如變速箱和軸承,發(fā)電機,電力電子設(shè)備,轉(zhuǎn)子等。為了檢測特定故障,通常使用信號變換,例如傅里葉變換,希爾伯特-黃(Hilbert-Huang)變換,小波變換等[10-16]。這些方法在實時故障診斷中也很有效,但是在分析具有復雜動態(tài)響應(yīng)的組件或系統(tǒng)時會受到一定限制。而基于各種非線性算法的數(shù)據(jù)驅(qū)動方法可以克服這一不足。另一方面,由于雙饋發(fā)電機的健康狀況涉及多個因素,例如環(huán)境,電力系統(tǒng),負載,雙饋發(fā)電機組件,因此在狀態(tài)監(jiān)測(Condition Monitoring, CM)和健康監(jiān)測(Health Monitoring, HM)中數(shù)據(jù)驅(qū)動方法比信號處理分析方法更有效[17]。例如,在文獻[18]中使用了分層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來診斷軸承狀態(tài);在文獻[19],[20]中討論了幾種數(shù)據(jù)驅(qū)動模型用以檢測旋翼和齒輪箱中的故障狀態(tài);在文獻[21]- [23]中,許多其他先進的方法也用于故障診斷和狀態(tài)檢測。但是,在CM中應(yīng)注意一個限制數(shù)據(jù)驅(qū)動模型準確性的問題,即不均衡數(shù)據(jù)問題。眾所周知,不均衡數(shù)據(jù)始終是分類中的重點話題,而雙饋發(fā)電機狀態(tài)的檢測則由數(shù)據(jù)驅(qū)動模型中的分類器來實現(xiàn)。尤其是在健康和不健康狀態(tài)檢測中,有大量健康數(shù)據(jù)和一些處于不健康狀態(tài)的數(shù)據(jù)。為了有效地區(qū)分不健康數(shù)據(jù)中的不同故障,不均衡數(shù)據(jù)問題始終是數(shù)據(jù)驅(qū)動建模過程中需要解決的主要障礙。
基于以上概述的問題,本文提出了一種數(shù)據(jù)驅(qū)動方法和組合方案,以檢測雙饋發(fā)電機的異常運行狀態(tài)。該方法設(shè)計了一個兩階段的數(shù)據(jù)驅(qū)動模型。在第一階段,提出利用支持向量數(shù)據(jù)描述(SVDD)來區(qū)分健康數(shù)據(jù)和不健康數(shù)據(jù)。由于SVDD是單分類方法[24],在將異常數(shù)據(jù)與正常數(shù)據(jù)分開方面具備優(yōu)勢,因此可用于從大量健康數(shù)據(jù)中提取雙饋發(fā)電機的不健康數(shù)據(jù)。在第二階段,提出使用極限學習機(ELM)對不同的不健康狀態(tài)進行分類,區(qū)分出那些通常會導致雙饋發(fā)電機停止工作的非運行狀態(tài)。由于這些非運行狀態(tài)會導致雙饋發(fā)電機降低或停止輸出功率,所以提前進行檢測可以幫助制定最佳的電能分配計劃并確保供電的穩(wěn)定性。因此,檢測雙饋發(fā)電機的非運行狀態(tài)是本文的主要目標。ELM是一種簡單的免調(diào)諧算法,具有良好的泛化性能和極高的學習速度[25],因此廣泛用于故障診斷和分類問題,例如在機械組件、液壓管測試儀、串聯(lián)補償、傳輸線中的應(yīng)用等[26-27]。在案例分析時,采用了工業(yè)數(shù)據(jù)來檢測雙饋發(fā)電機的不健康狀態(tài)。對六個模型的檢測結(jié)果進行對比,驗證了所提出的模型是可行的,并且在檢測雙饋發(fā)電機異常運行狀態(tài)方面優(yōu)于其他模型。
預先檢測不健康狀態(tài),尤其是非運行狀態(tài),有助于防止雙饋發(fā)電機異常運行。因此,本文提出了一種數(shù)據(jù)驅(qū)動的方法來檢測不同類型的非運行狀態(tài),并指導制定合適的檢修和能量調(diào)控決策。
通常,機械設(shè)備的CM和HM的實現(xiàn)需要基于對從雙饋發(fā)電機收集的時間序列數(shù)據(jù)進行模式識別。檢測雙饋發(fā)電機的非運行狀態(tài)涉及五個因素(環(huán)境因素,電力系統(tǒng)因素,制造商因素,異常停機和設(shè)備因素),所以其復雜度很高。為此,本文提出了一種針對HM的數(shù)據(jù)驅(qū)動方法,并分兩個階段應(yīng)用兩種數(shù)據(jù)挖掘算法來實現(xiàn)有效的雙饋發(fā)電機異常運行狀態(tài)檢測。該方法的框架如圖1所示。
圖1 兩階段雙饋發(fā)電機異常運行狀態(tài)檢測方法框架
如圖1所示,該方法首先從傳感器(包含環(huán)境傳感器和雙饋發(fā)電機內(nèi)部傳感器)中獲得雙饋發(fā)電機運行數(shù)據(jù)。這些數(shù)據(jù)包含大量參數(shù),因此必須選取包含必要模式的特征以構(gòu)建有效的模型。其次,不健康數(shù)據(jù)與健康數(shù)據(jù)不均衡,這給不健康狀態(tài)的分類帶來了巨大挑戰(zhàn)。SVDD是一種旨在處理單分類問題的分類算法[28],用以分離不健康數(shù)據(jù)。由于不健康數(shù)據(jù)通常涉及多種非運行狀態(tài),因此提取特定非運行狀態(tài)的數(shù)據(jù)以構(gòu)成均衡數(shù)據(jù)集。然后,基于此均衡數(shù)據(jù)集,通過ELM[29]構(gòu)建有效的分類器以檢測雙饋發(fā)電機異常運行狀態(tài)。通過這種兩階段數(shù)據(jù)驅(qū)動模型,可以檢測出不健康數(shù)據(jù)和特定的非運行狀態(tài)。它們可以作為雙饋發(fā)電機控制策略和維護計劃的重要決策指南。
根據(jù)前文對所提方法的描述,可以將本文創(chuàng)新性歸納為以下三個方面:
1)針對不健康狀態(tài)進行預先檢測,而不是進行故障診斷,有利于事前預警,降低維護成本。由于這種應(yīng)用環(huán)境涉及分類和預測,因此構(gòu)建了數(shù)據(jù)驅(qū)動模型來檢測雙饋發(fā)電機異常運行狀態(tài),而不是通過對振動信號進行頻譜分析來檢測雙饋發(fā)電機故障。數(shù)據(jù)驅(qū)動模型的優(yōu)點是可以從數(shù)據(jù)中找出異常運行狀態(tài)信息,尤其是在雙饋發(fā)電機仍處于非運行狀態(tài)的預警期且振動信號頻率變化不明顯的情況下。
2)提出了一個兩階段模型來解決雙饋發(fā)電機異常運行狀態(tài)檢測問題。該模型分步實現(xiàn)了不健康數(shù)據(jù)檢測和非運行狀態(tài)檢測。以此方式,如果在第一階段下以健康狀態(tài)測試數(shù)據(jù),則不需要對非運行狀態(tài)進行分類計算。同樣,只有在檢測到不健康數(shù)據(jù)時,才會激活第二階段。
3)提出利用SVDD處理不均衡數(shù)據(jù)問題,并通過ELM建立有效的分類器。SVDD是一種單分類算法,因此適合分離不均衡數(shù)據(jù),即不健康數(shù)據(jù)和健康數(shù)據(jù)。ELM具有較快的學習速度和良好的泛化能力,可以構(gòu)建一個有效的分類器來檢測由不同因素引起的雙饋發(fā)電機非運行狀態(tài)。
為了構(gòu)建有效的數(shù)據(jù)驅(qū)動模型,數(shù)據(jù)預處理是必要的。雙饋發(fā)電機的CM和HM數(shù)據(jù)非常龐大,有必要在建模中選擇最重要的參數(shù)并降低特征空間的維度。本文提出了三個用于特征選擇的指標,即基尼系數(shù)、信息值和Cramer’sV[30]。
1)基尼系數(shù)(Gini Index,GI)
在特征選擇中,GI通常用于在決策樹中拆分變量[31]。 基于GI的分類樹避免了在標準不純度測量時的特征選擇偏差,因此可以實現(xiàn)較高的分類精度。對測量特征的不純度進行分類,重要特征將具有較小的不純度。如果使用具體數(shù)值來衡量各參數(shù)的分類能力,則基礎(chǔ)二分類問題的最大值為0.5。因此可以看出,具有較小GI值的參數(shù)更相關(guān)。
假設(shè)S是具有k個類別 {Li,i=1, 2,…,k} 的測試數(shù)據(jù)集,則根據(jù)分類,將屬于類別Li的樣本分組為子集Si。假設(shè)si是子集Si中的樣本,則集合S的基尼系數(shù)定義為公式(1)。
(1)
式中,pi是子集Si的概率,由si/s估計;GI的最小值為0,這意味著集合S中的所有樣本都屬于同一類,并且獲得了最大的有用信息。當所有樣本均等地分配給各個類別時,GI的值最大,這意味著獲得的有用信息最少。
2)信息值(Information Value,IV)
信息值(IV)統(tǒng)計量是一種流行的度量標準,用于在特征選擇中篩選重要參數(shù)。假設(shè)參數(shù)x及其二進制目標y,IV的計算如公式(2)所示。
(2)
式中,k是x中的分區(qū)級別數(shù),應(yīng)在[2,20]內(nèi)適當設(shè)置。在計算過程中,必須先對連續(xù)參數(shù)進行初步分箱,首個分箱不包含零單元格,第k個分箱表示為Xk。gi和bi分別代表對應(yīng)x∈X的“好”和“壞”的百分比。通常,log(gi/bi) 表示g和b的分布之間的偏差,而(gi-bi) 表示偏差的重要度。
3)Cramer’sV
Cramer’sV是基于卡方檢驗的特征選擇指標,是在維度大于2×2的表中關(guān)聯(lián)度的度量。相關(guān)性的強度由Cramer’sV計算得出,其返回值在 0和1。較強的關(guān)聯(lián)被認為Cramer’sV值更接近1。因此,它在預測相關(guān)性和統(tǒng)計獨立性之間具有很好的區(qū)分能力。Cramer’sV的計算公式如公式(3)所示。
(3)
τ=min(r-1,c-1)
(4)
當Cramer’sV的值為0時,參數(shù)之間不存在相關(guān)性。僅當兩個參數(shù)的邊距相等時,其值才達到1。考慮到直接比較具有不同維度的表很困難,Cramer’sV通過使用維度信息進行關(guān)聯(lián)度量來糾正此問題。然后可以比較任意兩個交叉分類表之間的關(guān)聯(lián)強度。Cramer’sV值較大的表格被認為具有很強的相關(guān)參數(shù)。反之,較小的值表示弱相關(guān)的參數(shù)。
從上面的描述可以看出,所有這些指標都考慮了數(shù)據(jù)的模式,因此它們的值可以合理地反映變量對模式識別的影響。
從圖1中可以看出,所提方法主要包含兩個階段,以實現(xiàn)對雙饋發(fā)電機狀態(tài)的檢測。第一階段是分離健康數(shù)據(jù)和不健康數(shù)據(jù);第二階段是對不同的不健康狀態(tài)進行分類,即雙饋發(fā)電機的各種非運行狀態(tài)。
在第一階段,利用SVDD將不健康數(shù)據(jù)與大量健康數(shù)據(jù)分開。SVDD是從支持向量機(SVM)理論[24]發(fā)展而來的單分類算法。首先將原始數(shù)據(jù)映射到一個高維超球體中,該球體用于描述數(shù)據(jù)點的空間分布。預期大多數(shù)數(shù)據(jù)點或整個數(shù)據(jù)集位于超球體內(nèi)部,而少數(shù)奇異點則位于超球體外部(如圖2所示)。由于此屬性,它可以有效地用于離群值檢測。在雙饋發(fā)電機的CM中,不健康的數(shù)據(jù)很少,因為大多數(shù)數(shù)據(jù)點都是在正常運行狀態(tài)下測量的。同時包含健康和不健康數(shù)據(jù)的雙饋發(fā)電機數(shù)據(jù)是典型的不均衡數(shù)據(jù)集,這會給有效分類帶來困難。SVDD適用于提取不健康數(shù)據(jù)以構(gòu)成均衡數(shù)據(jù)集,從而避免非運行狀態(tài)分類時的數(shù)據(jù)淹沒問題。
圖2 SVDD原理圖
1)SVDD算法
假設(shè)數(shù)據(jù)序列為{x1,x2,… ,xN},xi∈Rn,N是訓練樣本的數(shù)量,n是特征選擇后特征空間的維數(shù)。SVDD的目標是最大程度地減少包含一個類別的所有數(shù)據(jù)點的超球的體積,因此目標函數(shù)定義如下:
minr2
(5)
式中,r和c分別代表超球體的半徑和中心。 通常,引入松弛變量ξ和懲罰因子C以增加對奇異點的容忍度,然后將目標函數(shù)重新定義如下:
i=1,2,…,N;ξi≥0;
(6)
式中,ξi允許對一些訓練樣本進行錯誤分類,例如不健康數(shù)據(jù);C表示數(shù)據(jù)量和誤差之間的權(quán)衡??紤]到原始數(shù)據(jù)點的分布不是超球面,使用非線性變換將原始數(shù)據(jù)映射到更高維的特征空間,如下所示:
Φ:Rn→H
(7)
式中,Rn代表原始空間;H代表高維空間;Φ是通常被選作核函數(shù)的非線性變換。引入核函數(shù)和拉格朗日乘數(shù)后,上述目標函數(shù)的對偶公式如下:
(8)
式中,α是拉格朗日乘數(shù),K(x,y) 表示核函數(shù)。根據(jù)Karush-Kuhn-Tucker(KKT)條件[32],從上述對偶公式獲得了公式(9)中的三種情況:
(9)
由于僅需要具有非零αi的樣本,因此將它們稱為支持向量。使用選定的支持向量,超球體的半徑r0計算如下:
(10)
式中,x0是選定的支持向量。類似地,任何測試數(shù)據(jù)點xt與超球面中心c之間的距離rt也可以根據(jù)公式(10)計算。如果rt>r0,則意味著xt在超球面之外,xt被檢測為不健康數(shù)據(jù)。
2)SVDD參數(shù)優(yōu)化
根據(jù)以上SVDD算法的描述,需要核函數(shù)來描述超球體。然而,對于具有核函數(shù)的非線性變換,存在一些不確定的參數(shù)(例如,所選核函數(shù)的參數(shù)和懲罰因子C)影響其性能。在建模中選擇最佳參數(shù)有助于實現(xiàn)不健康數(shù)據(jù)檢測的高精度。在許多參考資料中,基于粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法的框架都用于支持向量機(Support Vector Machine,SVM)的參數(shù)選擇??紤]到SVDD和SVM都基于結(jié)構(gòu)風險最小(Structural Risk Minimum,SRM)準則,本文采用PSO優(yōu)化SVDD參數(shù)。
PSO是一種進化計算方法,通過信息的社會共享來開發(fā)該模型,以構(gòu)建基于種群的搜索技術(shù),該技術(shù)最初是基于鳥群模擬[33]。PSO中的個體稱為粒子,它們在超維空間中飛行,并且所有粒子組成了一個群。粒子的位置變化基于每個個體模仿其他個體的社會心理趨勢。變化后每個粒子的位置取決于對經(jīng)驗、知識及其鄰居的考慮。因此可以看出,對這種社會搜索行為進行建模需要考慮群體中的其他粒子,并且搜索過程的最終結(jié)果是粒子隨機返回搜索空間中以前成功的區(qū)域。
在PSO算法中,有大量的粒子,每個粒子代表一個可能的解決方案。每個粒子都在位置變化時保持其坐標的軌跡,并且還跟蹤了群中的最佳坐標。這些坐標的解分別稱為每個粒子的最佳適應(yīng)度和全局適應(yīng)度。在優(yōu)化的迭代中,每個粒子都會改變其速度,并朝其最佳適應(yīng)度和全局適應(yīng)度位置移動。生成獨立的隨機項并對其加權(quán),以朝著這兩個位置加速。更新第i個粒子的速度和位置的公式如下:
vi(t+1)=λ[vi(t)+c1rand1(pbesti-pi(t))+
c2rand2(gbest-xi(t))]
(11)
pi(t+1)=pi(t)+vi(t+1)
(12)
φ=c1+c2,φ>4
(13)
式中,pi= [pi1,pi2,… ,pin]T和vi= [vi1,vi2,… ,vin]T分別是第i個粒子在n維搜索空間中的位置和速度;pbesti是第i個粒子的最佳位置;gbest是所有粒子中的最佳位置;λ是收縮因子;t是迭代步驟;c1和c2是兩個正的常數(shù);r1和r2是在[0,1]內(nèi)通過均勻概率分布生成的兩個隨機數(shù)。
不健康的數(shù)據(jù)通常包含由不同不確定因素引起的各種雙饋發(fā)電機非運行狀態(tài)。為了根據(jù)特定狀態(tài)有針對性地制定雙饋發(fā)電機的能量調(diào)控策略和運維計劃,在異常狀態(tài)檢測中需要對非運行狀態(tài)進行分類。在本文中,提出用ELM來對雙饋發(fā)電機的異常運行狀態(tài)進行分類和檢測。
1)基礎(chǔ)ELM算法
ELM是一種高級的單隱層前饋神經(jīng)網(wǎng)絡(luò)(Single-hidden-Layer Feedforward Neural Networks,SLFN)[25]。ELM由于不需要調(diào)整隱層神經(jīng)元,因此學習速度很快,可廣泛用于分類和回歸。ELM旨在獲得最小的訓練誤差和最小的輸出權(quán)重范數(shù),其基本結(jié)構(gòu)如圖3所示。
圖3 ELM的結(jié)構(gòu)圖
根據(jù)圖3的描述,ELM算法由三層組成:輸入層、隱層和輸出層。假設(shè)訓練集為(xi,yi),則輸入xi∈Rn,輸出yi∈Rm。單個輸出節(jié)點的輸出可以如下計算:
(14)
式中,L是隱層節(jié)點的數(shù)量;g(ai,bi,x)是激勵函數(shù);βi是第i個隱層節(jié)點連接到輸出節(jié)點的權(quán)重;對于L個隱層節(jié)點,隱層輸出h(x) = [g(a1,b1,x),…,g(aL,bL,x)],β= [β1,β2,… ,βL]T。g(*) 中的兩個參數(shù)分別是隱層與輸入層之間的權(quán)重向量a和隱層神經(jīng)元偏差b。
假設(shè)N個樣本的模型輸出與期望目標之間的誤差為零,則ELM可以表示為矩陣格式:
Hβ=T
(15)
(16)
式中,H是由g(a,b,x) 組成的激勵函數(shù)矩陣;T是表示為[y1,y2,… ,yn]T的目標矩陣。
在獲得上述模型后,我們可以通過以下步驟獲得最終的ELM模型:
步驟1:隨機分配隱層節(jié)點參數(shù)a和b;
步驟2:通過式(16)計算隱層輸出矩陣H;
步驟3:基于式(15),可以計算輸出權(quán)重β為β=H+T,其中H+是H的Moore-Penrose廣義逆。
2)用于分類的ELM算法
假設(shè)對二分類問題進行建模,則m=1且y∈[0,1]。然后將式(14)中的ELM輸出函數(shù)重寫如下:
f(x)=sign(h(x)·β)
(17)
為了獲得良好的ELM泛化性能,需要小的訓練誤差和權(quán)重范數(shù)。因此,可以將使訓練誤差最小化的目標函數(shù)描述如下:
(18)
(19)
其中,K0=HTH,L0=HTT。如果H是一個奇異矩陣,則添加一個常數(shù)對角線矩陣以使其非奇異,因為K0=HTH+λI,其中λ是一個很小的常數(shù)。
對于多分類問題(m≥2),輸出yi表示為yi=[yi,1,yi,2,…,yi,m]。因此,目標矩陣T的維數(shù)為N×m,表示為TN×m=[T1,T2,…,Tm]。類似地,權(quán)重矩陣β被擴展為βL×m=[β1,β2,……,βm]。式(18)中的目標函數(shù)可以如下詳細表示:
(20)
根據(jù)以上描述可以看出,多分類ELM模型與多分類中的“一對全”(One-vs-All,OVA)方法[34]相似,它們都由多個ELM二分類器組成。同時,ELM在式(20)目標函數(shù)的構(gòu)建中考慮了聚合策略。
根據(jù)以上描述,不健康數(shù)據(jù)檢測和非運行狀態(tài)檢測都涉及分類。因此,為了評估所提方法的性能,提出了混淆矩陣(表1)進行量化35]。
表1 混淆矩陣
表1給出了混淆矩陣中相關(guān)事件的定義。TP(True Positive)代表真陽性事件;FN(False Negative)代表假陰性事件;FP(False Positive)代表假陽性事件;TN(True Negative)代表真陰性事件;NN代表所有事件。基于這些事件,定義了一系列指標,例如,查全率Recall(R),查準率Precision(P),準確率Accuracy(Acc),誤差率Error(Err),F度量等。通常將前四個指標作為分類的評價指標,其定義如下:
(21)
式中,card(*)是計數(shù)函數(shù);R描述了在所有觀察到的陽性事件中真陽性事件的百分比;P描述了所有預測的陽性事件中真陽性事件的百分比;Acc描述了所有事件中真事件的百分比。因此,在具有良好性能的系統(tǒng)中,要求這三個指標的值較大,而代表預測誤差的Err值則應(yīng)較小。
從以上定義可以看出,這四個指標是根據(jù)通用二分類定義的。為了評估檢測多個雙饋發(fā)電機非運行狀態(tài)的性能,仍然采用OVA方法的思想作為標準,即在每個評估中將一個測試類別設(shè)置為陽性類別,將其他類別設(shè)置為陰性類別。通過這種方式,可以計算出每個雙饋發(fā)電機狀態(tài)的四個指標。
為了檢測雙饋發(fā)電機的異常運行狀態(tài),本文以雙饋發(fā)電機工業(yè)數(shù)據(jù)為研究案例。數(shù)據(jù)集中總共有52,560個樣本,采樣間隔為10 min。我們將數(shù)據(jù)集的70%作為訓練集,其余作為測試集。
原始的數(shù)據(jù)集巨大,總共有235個參數(shù)。這些參數(shù)主要分為五類:計數(shù)器數(shù)據(jù),電力系統(tǒng)數(shù)據(jù)(例如電壓、電流、頻率等),環(huán)境數(shù)據(jù),雙饋發(fā)電機狀態(tài)數(shù)據(jù)(例如部件壓力、警報代碼、位置數(shù)據(jù))和溫度數(shù)據(jù)。可以看出,某些參數(shù)與CM和HM無關(guān),如計數(shù)器數(shù)據(jù)。因此,特征選擇在數(shù)據(jù)預處理中對于降低維度是必要的,并且對于確定最重要的建模參數(shù)也很有用。本文將公式(1)、公式(3)中的三個指標用于特征選擇,并以區(qū)分健康數(shù)據(jù)和不健康數(shù)據(jù)的模式作為HM所需的參考標準。表2列出了不同變量上的三個指標值。
表2 特征選取中的三個指標值
表2展示了10個最重要參數(shù)的三個特征指標值。可以看出,不同類型的參數(shù)對檢測不健康數(shù)據(jù)和檢測非運行狀態(tài)有影響。例如,發(fā)電機轉(zhuǎn)速和轉(zhuǎn)子轉(zhuǎn)速代表與雙饋發(fā)電機制造商有關(guān)的因素;風速是環(huán)境因素;A、B、C三相的有功功率和電流是影響不健康狀態(tài)的電網(wǎng)因素;齒輪箱軸承和齒輪箱油的溫度是與雙饋發(fā)電機的運行狀態(tài)有關(guān)的因素。
為了在建模中進一步選擇必要的參數(shù),我們需要對這些參數(shù)的重要性進行排序。根據(jù)本文第1節(jié),如果參數(shù)相關(guān)且重要,則其GI值將在[0,0.5]之間,而IV和CramerV的值將在[0,1]之間。但不難理解的是,參數(shù)不能始終獲得三個指標的最佳值。因此,我們給出了考慮這三個指標的公式,以綜合評估參數(shù)的重要性,如下所示:
RImportance=(exp(-α·GI)+IV/Nb+
Cramer’sV)/3
(22)
式中,RImportance是綜合指標;α是不確定的參數(shù),此處可以設(shè)置為5;Nb是計算IV時的分箱數(shù),設(shè)置為5。
參數(shù)重要性等級Rank可以通過RImportance的值與RImportance的最大值之比來計算,計算結(jié)果如表2所示?;谶@些度量的前十個最重要的參數(shù)被計算出來如圖4所示。
圖4 特征選取
圖4展示了三個指標的值,并按重要性對給定的10個參數(shù)進行了排名。可以看出,這10個參數(shù)的重要性等級大于0.5。如果在特征選擇中將等級閾值設(shè)置為0.5,則可以從235個雙饋發(fā)電機參數(shù)中選擇表2中的前8個參數(shù),這對于檢測雙饋發(fā)電機的不健康狀態(tài)非常有用。
以8個最重要的參數(shù)為輸入,SVDD算法首先用于從雙饋發(fā)電機的所有運行數(shù)據(jù)中檢測不健康數(shù)據(jù)。如本文第1節(jié)中的描述,輸入數(shù)據(jù)被映射到更高維度的空間中以描述其非線性特征。映射函數(shù)考慮使用高斯核函數(shù),其定義如式(23)所示:
(23)
式中,x和y代表兩個變量;σ是核函數(shù)參數(shù)。
包括公式(8)中的懲罰因子C在內(nèi),共有兩個不確定的參數(shù)會影響SVDD模型的性能。假設(shè)這兩個參數(shù)組成矢量V=[C,σ],則應(yīng)用PSO算法優(yōu)化這些參數(shù)。根據(jù)對PSO的描述,選擇粒子群中每個粒子的位置作為對這兩個參數(shù)值進行編碼的向量V。由于第一階段的目標是將健康和不健康的數(shù)據(jù)分開,因此可以基于區(qū)分健康和不健康的數(shù)據(jù)的模式將適應(yīng)度函數(shù)[36]設(shè)置為SVDD的分類精度。具有高分類精度的顆粒將產(chǎn)生高適應(yīng)度值。將粒子總數(shù)設(shè)置為20,將最大迭代次數(shù)選擇為200,并將迭代終止條件設(shè)置為誤差達到10-3。使用PSO算法優(yōu)化SVDD參數(shù)的步驟如下:
步驟1:(初始化)隨機生成Np=20個初始粒子及其位置pi,i=1,2,…,Np。
步驟2:(適應(yīng)度)計算粒子群中每個粒子的適應(yīng)度。
步驟3:(更新)基于公式(11)、公式(13),計算每個粒子的速度vi。
步驟4:(構(gòu)建)對于每個粒子,移動到新位置并計算新適應(yīng)度。
步驟5:(終止)如果滿足給定的終止條件,則停止;如果不是,則返回步驟2。當?shù)_到給定的最大迭代次數(shù)時,也會停止迭代。
圖5展示了PSO的迭代過程以及優(yōu)化SVDD參數(shù)的適應(yīng)度結(jié)果。根據(jù)圖5的結(jié)果,將最佳參數(shù)設(shè)定為V=[C,σ]=[0.7726,0.01]。然后,構(gòu)建具有選定最佳參數(shù)的SVDD模型以檢測不健康的數(shù)據(jù)。不健康數(shù)據(jù)檢測的結(jié)果如圖6所示。
圖5 SVDD參數(shù)優(yōu)化結(jié)果
圖6 訓練集中的不健康數(shù)據(jù)檢測
圖6展示了訓練集2,000個數(shù)據(jù)點的檢測結(jié)果。圖中的紅實線表示SVDD模型中超球體的半徑;y軸表示每個數(shù)據(jù)點到超球體中心的距離。位于紅線下方和上方的數(shù)據(jù)點分別是健康數(shù)據(jù)和不健康數(shù)據(jù)??梢钥闯?健康數(shù)據(jù)和不健康數(shù)據(jù)被SVDD分開,并且數(shù)據(jù)明顯是不均衡的(含有大量的健康數(shù)據(jù)和少數(shù)不健康數(shù)據(jù)),驗證了在對雙饋發(fā)電機的非運行狀態(tài)進行分類之前檢測不健康數(shù)據(jù)的必要性。
本文中的不健康數(shù)據(jù)幾乎都是從雙饋發(fā)電機非運行狀態(tài)收集的數(shù)據(jù)。這些非運行狀態(tài)背后的原因主要可以從警報代碼中反映出來。因此,為了保持電力系統(tǒng)功率平衡,應(yīng)診斷出不同的非運行狀態(tài)從而進行控制和調(diào)節(jié)。根據(jù)SVDD的結(jié)果,在圖6中可以區(qū)分出不健康數(shù)據(jù)和健康數(shù)據(jù),但是由不同因素引起的非運行狀態(tài)并沒有明顯分開,如圖7所示。
圖7 不健康數(shù)據(jù)中的各種非運行狀態(tài)
在圖7中,我們選擇了100個數(shù)據(jù)點,并通過警報代碼標記了一些典型的非運行狀態(tài)。可以看出,圖中的數(shù)據(jù)沒有區(qū)分出三種警報代碼所表示的非運行狀態(tài)。其中,代碼228反映了由于過速而將雙饋發(fā)電機切斷以進行保護;代碼393反映了雙饋發(fā)電機由于策略性空氣控制(Tactical Air Control,TAC84)振動保護模塊檢測到異常振動而停止工作;代碼612反映出由于發(fā)電能力過剩或發(fā)電削減,雙饋發(fā)電機被遠程控制而降額運行或停機。因此,為了檢測特定的非運行狀態(tài)從而有針對性地做出決策,需要建立一個分類模型。
本文利用ELM算法建立分類器模型。考慮到整個數(shù)據(jù)集中存在多種報警代碼,為方便起見,在建模中僅選擇兩個通用代碼(代碼393和612)以及部分健康數(shù)據(jù)組成一個均衡數(shù)據(jù)集。因此,本文中訓練好的模型僅用于檢測給定的兩個非運行狀態(tài)?;跇?gòu)造的ELM分類器,表3給出了算法對不同的非運行狀態(tài)進行分類的性能。
表3 ELM在訓練數(shù)據(jù)上的分類性能
表3列出了SVDD檢測完不健康數(shù)據(jù)之后,在均衡數(shù)據(jù)集上ELM對不健康狀態(tài)進行分類的性能。性能由公式(20)中的四個指標的值反映。從超過0.97的R,P,Acc值可以看出,ELM在檢測不同的非運行狀態(tài)方面表現(xiàn)出了出色的性能。三種狀態(tài)(健康狀態(tài)、代碼393和代碼612)的分類結(jié)果如圖8所示??紤]到輸入空間是高維的,因此圖8選擇兩個參數(shù)以方便展示,展示了三種狀態(tài)的分布。
圖8 健康數(shù)據(jù)、代碼612和代碼393三種狀態(tài)的分類結(jié)果
為了分析所提出的方法在檢測雙饋發(fā)電機非運行狀態(tài)時的性能,將該方法與眾多參考文獻中提出的模型進行了比較。例如,在故障診斷中使用主成分分析(PCA)方法來減小特征維度[37]。支持向量機(SVM)則是一種有用的分類算法,已廣泛應(yīng)用于狀態(tài)檢測和故障診斷[38]。因此,本文選用PCA和SVM分別與SVDD和ELM進行比較。在測試過程中,測試數(shù)據(jù)也由提出的兩階段模型進行處理,并且僅討論與三個給定狀態(tài)關(guān)聯(lián)的數(shù)據(jù)以進行性能評估。
首先,我們比較狀態(tài)檢測中SVM和ELM的性能。當直接使用不均衡數(shù)據(jù)作為輸入時,無需SVDD檢測,因此可以構(gòu)造兩個分類器來檢測不同的非運行狀態(tài)。表4和表5中展示了三種狀態(tài)(健康數(shù)據(jù)、代碼393和代碼612)的四個性能指標。
表4 SVM在異常狀態(tài)檢測上的性能
表5 ELM在異常狀態(tài)檢測上的性能
從表4和表5可以看出,當SVDD未檢測到不健康數(shù)據(jù)時,除了代碼393上的R值,ELM的分類性能要優(yōu)于SVM。
其次,為了比較所提出的方法中的SVDD的性能,構(gòu)建了四個模型(PCA-SVM,PCA-ELM,SVDD-SVM,SVDD-ELM)。表6顯示了各種模型檢測非運行狀態(tài)的性能。表中黑體加粗的數(shù)據(jù)表示最佳的檢測性能。
表6 異常狀態(tài)檢測性能
為了進一步分析所提方法檢測雙饋發(fā)電機中非運行狀態(tài)的性能,研究了具有更多狀態(tài)的新情況。該數(shù)據(jù)集來自另一臺雙饋發(fā)電機??紤]了兩個額外的非運行狀態(tài),例如反映未扭轉(zhuǎn)警報的代碼205和代表高轉(zhuǎn)速警報的代碼228。然后,根據(jù)所提方法實施相同的檢測過程。四個評價指標的結(jié)果如表7所示。表中黑體加粗的數(shù)據(jù)表示最佳的檢測性能。
表7 新算例的異常狀態(tài)檢測性能
對比表6和表7的結(jié)果,可以得出以下幾點結(jié)論:
1)通過檢測不健康的數(shù)據(jù)來處理不均衡數(shù)據(jù)問題,提高了對健康數(shù)據(jù)和非運行狀態(tài)進行分類的準確性,指標P上的少數(shù)情況除外。
2)通過在建模中比較ELM和SVM的性能,可以看出ELM作為分類器在非運行狀態(tài)分類中的性能優(yōu)于SVM。
3)通過對這兩張表的綜合分析,可以看出使用SVDD檢測不健康數(shù)據(jù)有利于狀態(tài)檢測,并且ELM算法可以在檢測不同的非運行狀態(tài)時取得良好的性能。
4)這些算例成功驗證了基于兩階段數(shù)據(jù)驅(qū)動模型(SVDD-ELM)的雙饋發(fā)電機異常運行狀態(tài)檢測方法的有效性,并且可以同時檢測不健康數(shù)據(jù)和雙饋發(fā)電機的非運行狀態(tài)。
為了降低雙饋發(fā)電機的維護成本,保證雙饋發(fā)電機的運行,本文提出了基于數(shù)據(jù)驅(qū)動的SVDD和ELM方法來檢測雙饋發(fā)電機的異常運行狀態(tài)。首先,從235個雙饋發(fā)電機參數(shù)中選擇十個最重要的參數(shù),以減小建模的維度。其次,構(gòu)建由PSO優(yōu)化參數(shù)的SVDD模型。該模型可在檢測特定的非運行狀態(tài)之前實現(xiàn)對不健康數(shù)據(jù)的檢測。第三,通過將健康狀態(tài)數(shù)據(jù)和四個特定的非運行狀態(tài)數(shù)據(jù)組成均衡數(shù)據(jù)集,可以構(gòu)建有效的ELM分類器。最后與結(jié)合了SVM,ELM,PCA和SVDD的六個模型進行比較,工業(yè)數(shù)據(jù)的案例研究驗證了該方法的優(yōu)越性。因此,使用該方法來檢測雙饋發(fā)電機的不正常狀態(tài)是可行的,同時該方法的結(jié)果將為預先制定合理的故障控制策略和維護計劃提供指導。雖然這里僅討論了四種特定的非運行狀態(tài),本文的結(jié)果在實際的工業(yè)應(yīng)用中受到一定限制,但可以肯定的是,未來可以針對實際應(yīng)用環(huán)境,將所提方法擴展到檢測雙饋發(fā)電機的更多非運行狀態(tài)中。