曹惠玲,高 升,闞玉祥
(中國(guó)民航大學(xué)航空工程學(xué)院,天津 300300)
數(shù)據(jù)挖掘作為發(fā)動(dòng)機(jī)故障診斷的重要研究手段已相對(duì)成熟。在不明確各參數(shù)函數(shù)關(guān)系的情況下,依照數(shù)據(jù)挖掘所建模型,即可完成發(fā)動(dòng)機(jī)的狀態(tài)監(jiān)控與故障診斷,受到了很多學(xué)者的關(guān)注。常見(jiàn)的數(shù)據(jù)挖掘方法包括人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、模糊集、遺傳規(guī)劃、免疫機(jī)理等。
發(fā)動(dòng)機(jī)故障診斷指印圖是實(shí)際診斷中的重要工具,標(biāo)識(shí)了不同故障對(duì)應(yīng)的發(fā)動(dòng)機(jī)主要?dú)饴沸阅軈?shù)的小偏差量,如圖1所示。其原理是根據(jù)以往大量故障現(xiàn)象及故障時(shí)發(fā)動(dòng)機(jī)性能參數(shù)的變化,總結(jié)出有規(guī)律的典型故障樣板,將發(fā)動(dòng)機(jī)的具體性能參數(shù)變化情況與故障樣板對(duì)照,用以判定發(fā)動(dòng)機(jī)的狀態(tài),再利用其他手段進(jìn)行故障隔離和定位[1]。
航空發(fā)動(dòng)機(jī)在一定的飛行條件和工作狀態(tài)下,都有一組與之相對(duì)應(yīng)的特性參數(shù),如高壓轉(zhuǎn)子轉(zhuǎn)速、低壓轉(zhuǎn)子轉(zhuǎn)速、排氣溫度和燃油流量等。同一運(yùn)行條件下,當(dāng)發(fā)動(dòng)機(jī)出現(xiàn)故障時(shí),各性能參數(shù)隨之變化。不同故障對(duì)應(yīng)不同的參數(shù)偏差量,可作為故障診斷依據(jù)[2]。由于指印圖中的數(shù)據(jù)來(lái)源于大量實(shí)際故障的統(tǒng)計(jì),所以可利用數(shù)據(jù)挖掘方法,首先還原指印圖數(shù)據(jù)所代表的各類故障,將其作為基礎(chǔ)數(shù)據(jù)來(lái)源,以此進(jìn)行有效擴(kuò)充,來(lái)建立故障診斷模型。
圖1 發(fā)動(dòng)機(jī)故障診斷指印圖Fig.1 Finger-print of aero-engine fault diagnosis
Adaboost算法是一種組合分類方法[3-5],其核心思想是加大分類錯(cuò)誤的樣本分布權(quán)重,降低分類正確的樣本權(quán)重,從而得到新的樣本分布,在新的樣本分布下再次訓(xùn)練得到新的弱分類器。以此類推,得到若干弱分類器,經(jīng)一定權(quán)重的疊加(boost),從而形成強(qiáng)分類器。由于循環(huán)訓(xùn)練對(duì)樣本分布權(quán)重不斷更新,模型會(huì)越來(lái)越關(guān)注分類錯(cuò)誤的樣本。只需要調(diào)節(jié)訓(xùn)練輪數(shù)T,要求每輪循環(huán)中的分類器精度高于隨機(jī)猜想即可,而正確率會(huì)隨著訓(xùn)練輪數(shù)T的增加而提高,理論上可以趨近于1。通常情況下,組合分類的效果會(huì)比單個(gè)分類器的分類效果好,也更適合樣本不對(duì)稱的數(shù)據(jù)集。發(fā)動(dòng)機(jī)故障診斷是一個(gè)多分類問(wèn)題,Adaboost用于多分類問(wèn)題時(shí),可采用Adaboost.SAMME算法。
由于Adaboost算法只是一種用來(lái)提升分類精度的組合策略,算法本身并不能對(duì)樣本進(jìn)行分類,因此,解決分類診斷問(wèn)題時(shí),還需要選擇適合所要解決問(wèn)題的基礎(chǔ)分類器。
圖2 發(fā)動(dòng)機(jī)故障診斷的多分類Adaboost算法流程Fig.2 Flow chart of multi-classification with combined Adaboost diagram for engine fault diagnosis
結(jié)合Adaboost.SAMME算法,以SVM作為基礎(chǔ)弱分類器,設(shè)計(jì)基于Adaboost的航空發(fā)動(dòng)機(jī)故障診斷流程,如圖2所示。輸入訓(xùn)練樣本后,根據(jù)交叉驗(yàn)證方法,選定SVM參數(shù)范圍:設(shè)定適當(dāng)訓(xùn)練循環(huán)數(shù)M,規(guī)則化常數(shù)C值,σ初始值σini,σ下限值σmin,以及σ減小步長(zhǎng)σstep。采用SAMME算法對(duì)分類器權(quán)重α(m)進(jìn)行調(diào)整,以適應(yīng)發(fā)動(dòng)機(jī)故障類型的多分類情況;以SVM為基礎(chǔ)分類器,以適應(yīng)航空發(fā)動(dòng)機(jī)故障診斷中故障樣本數(shù)量少、不對(duì)稱、高維度等特點(diǎn)。
在數(shù)據(jù)挖掘過(guò)程中,訓(xùn)練數(shù)據(jù)的選取對(duì)模型的準(zhǔn)確度有很大影響。根據(jù)小偏差故障數(shù)據(jù)的特點(diǎn),不同程度的同類故障數(shù)據(jù)之間存在比值關(guān)系。實(shí)際偏差數(shù)據(jù)與指印圖偏差數(shù)據(jù)比值為1時(shí),表示該故障與指印圖中對(duì)應(yīng)故障的類型和程度完全一致;當(dāng)比值為N時(shí),表示該故障與指印圖中對(duì)應(yīng)故障的類型一致[3],但程度不同。
運(yùn)用指印圖進(jìn)行故障診斷,需考慮如何正確識(shí)別不同程度的同類型故障。為將通過(guò)指印圖所得診斷模型用于實(shí)際診斷,應(yīng)選擇有效方法處理指印圖中的故障標(biāo)識(shí)數(shù)據(jù),以便得到適應(yīng)范圍更廣的訓(xùn)練數(shù)據(jù)。文獻(xiàn)[6]中的相關(guān)系數(shù)法和比值系數(shù)法,此基礎(chǔ)上增加單位向量法進(jìn)行數(shù)據(jù)擴(kuò)充。在圖1所示指印圖中,除基本性能參數(shù)小偏差外,EGT/FF也可作為診斷指標(biāo),需要時(shí)可用以擴(kuò)充數(shù)據(jù)識(shí)別維度。選取PW4000發(fā)動(dòng)機(jī)指印圖,提取性能參數(shù)小偏差,作為模型訓(xùn)練基礎(chǔ)數(shù)據(jù),如表1所示。
表1 PW4000指印圖故障偏差數(shù)據(jù)Tab.1 Finger-print deviation data for aero-engine fault diagnosis
從指印圖得到基礎(chǔ)數(shù)據(jù)后,應(yīng)采用不同數(shù)據(jù)處理方法,來(lái)識(shí)別不同程度的同類型故障。比值系數(shù)法利用故障偏差的相對(duì)比值來(lái)表征故障類別。ΔFF通常不為0,故可將指印圖各故障偏差數(shù)據(jù)ΔEGT、ΔN2、ΔN1轉(zhuǎn)換為 ΔEGT/ΔFF、ΔN2/ΔFF、ΔN1/ΔFF。相關(guān)系數(shù)法是原始故障偏差數(shù)據(jù)之間某一故障與各故障之間的線性相關(guān)系數(shù),將4維表征數(shù)據(jù)變?yōu)?4維。經(jīng)過(guò)這樣的處理后,能夠用新的標(biāo)識(shí)數(shù)據(jù)代替基礎(chǔ)數(shù)據(jù),表示出不同程度的同類型故障。新提出的單位向量法是將指印圖中各偏差數(shù)據(jù)進(jìn)行單位向量化,使各故障向量落于單位向量組成的“球”空間中,從而避免同一故障程度差異的影響,如表2所示。
表2 單位向量法故障標(biāo)識(shí)Tab.2 Failure identification with method of unit vector
噪聲的添加可使診斷模型適應(yīng)隨機(jī)偏差的影響,增加模型的魯棒性。利用指印圖故障偏差數(shù)據(jù)添加噪聲進(jìn)行訓(xùn)練時(shí),存在兩種噪聲添加思路。
1)在表1所示的原始偏差數(shù)據(jù)中加入一定程度的隨機(jī)噪聲,然后用比值系數(shù)等方法處理,所得數(shù)據(jù)作為訓(xùn)練和測(cè)試樣本。診斷時(shí),需將實(shí)際參數(shù)的偏差數(shù)據(jù)利用比值方法等進(jìn)行處理,得到類似表2中的轉(zhuǎn)化數(shù)據(jù),再進(jìn)行診斷。
2)在表2的數(shù)據(jù)中,直接根據(jù)已轉(zhuǎn)化的數(shù)據(jù)進(jìn)行噪聲添加。此時(shí)如果直接引入同一程度的隨機(jī)誤差,顯然對(duì)各標(biāo)識(shí)數(shù)據(jù)影響程度不同。因此應(yīng)添加與自身數(shù)值呈一定比例的偏差,來(lái)保證噪聲數(shù)據(jù)也呈故障的線性比例。
第1種思路采用比值系數(shù)法相除后會(huì)將偏差放大,單位向量各故障標(biāo)識(shí)數(shù)據(jù)之間差異較小。因此,原始數(shù)據(jù)不宜加入過(guò)大噪聲,而相關(guān)系數(shù)維數(shù)增加、故障類型增多會(huì)使問(wèn)題復(fù)雜化,不適用于故障問(wèn)題較多的情況。第2種思路可以加入較大的噪聲,但應(yīng)根據(jù)具體故障標(biāo)識(shí)數(shù)據(jù)采用不同程度的噪聲添加。
通過(guò)以上準(zhǔn)備,確定了訓(xùn)練數(shù)據(jù)和模型算法,即可建立相應(yīng)的診斷模型。訓(xùn)練數(shù)據(jù)準(zhǔn)備方法的不同對(duì)訓(xùn)練結(jié)果會(huì)產(chǎn)生較大影響,由于第1種噪聲添加思路加入噪聲較小,理論上生成的訓(xùn)練數(shù)據(jù)診斷正確率較高,但不能反映出Adaboost算法的提升效果。而第2種噪聲添加思路則通過(guò)加入較大噪聲來(lái)體現(xiàn)Adaboost算法的提升效果,并進(jìn)行診斷模型的分析。
構(gòu)造相應(yīng)方法下的訓(xùn)練集24×200組、測(cè)試集24×100組數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試。首先,用交叉驗(yàn)證法分別尋找不同訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的基礎(chǔ)分類器(支持向量機(jī))參數(shù)C與σ合適的取值范圍。在訓(xùn)練多分類Adaboost診斷模型時(shí),預(yù)先設(shè)置訓(xùn)練輪數(shù)M=50次來(lái)觀察訓(xùn)練情況,循環(huán)中σ的減小步長(zhǎng)σstep的設(shè)置對(duì)最終性能的影響不大,通常為1~3,實(shí)驗(yàn)中設(shè)置為1。
弱分類器的個(gè)數(shù)選擇會(huì)直接影響到訓(xùn)練時(shí)間和精度,圖3顯示了運(yùn)用Adaboost算法,不同診斷模型的錯(cuò)誤率隨分類器個(gè)數(shù)增加的變化情況。可以看出,當(dāng)分類器個(gè)數(shù)增多時(shí)錯(cuò)誤率明顯下降最后趨于相對(duì)穩(wěn)定的波動(dòng)。相關(guān)系數(shù)法與單位向量法的診斷模型正確率在分類器個(gè)數(shù)小于10時(shí)趨于收斂;而比值系數(shù)法模型正確率則在分類器個(gè)數(shù)將近20時(shí)才接近收斂。
同時(shí)從圖3中可看出,相關(guān)系數(shù)法和單位向量法的相關(guān)診斷模型錯(cuò)誤率并沒(méi)有隨著弱分類器個(gè)數(shù)的增加而進(jìn)一步減小。分析發(fā)現(xiàn),與比值系數(shù)法相比,采用相關(guān)系數(shù)法和單位向量法準(zhǔn)備的一些故障數(shù)據(jù)標(biāo)識(shí)過(guò)于相似(如表3中第7、8、9類故障)、容易混淆。而SAMME算法雖然放寬弱分類器錯(cuò)誤率限制,但未關(guān)注到弱分類器的質(zhì)量,不能保證每次被弱分類器正確分類的訓(xùn)練樣本權(quán)值一定大于其錯(cuò)分到其他任一類別的訓(xùn)練樣本權(quán)重,從而不能確保最終強(qiáng)分類器正確率的提升[7],即算法中多個(gè)弱分類器將某一故障固定地診斷為另一種故障引起的診斷錯(cuò)誤。
圖3 不同模型診斷錯(cuò)誤率與弱分類器個(gè)數(shù)的關(guān)系Fig.3 Test errors of different models with increasing number of weak classifiers
由于Adaboost算法實(shí)質(zhì)是以犧牲時(shí)間效率來(lái)提高正確率,因此可根據(jù)計(jì)算時(shí)間和診斷準(zhǔn)確率綜合確定弱分類器的數(shù)量,設(shè)置比值系數(shù)法弱分類器個(gè)數(shù)為20個(gè),其余3種為15個(gè)。各數(shù)據(jù)準(zhǔn)備方法下用多分類Adaboost算法在進(jìn)行對(duì)應(yīng)次數(shù)迭代訓(xùn)練后,模型診斷正確率如表4所示(其中,A、B分別表示在第1種、第2種噪聲添加思路下所建的模型,下同)。
通過(guò)表4可看出:比值系數(shù)法A、B和單位向量法A的正確率較高,優(yōu)于其余模型;第1種噪聲添加方法的正確率高于第2種方法,符合之前的預(yù)期。
表3 相關(guān)系數(shù)法中數(shù)值相似的故障標(biāo)識(shí)(7、8、9類故障)Tab.3 Failure identification with similar values of correlation coefficient method(Fault No.7,8,9)
表4 模型訓(xùn)練數(shù)據(jù)類型及診斷正確率Tab.4 Training data category and diagnosing accuracy
綜上可知,初始訓(xùn)練數(shù)據(jù)對(duì)診斷結(jié)果影響較大,各種數(shù)據(jù)準(zhǔn)備方法所構(gòu)建的數(shù)據(jù),在反映不同故障特征時(shí)有差異。由測(cè)試集正確率可知,應(yīng)優(yōu)先考慮比值系數(shù)法和第1種噪聲思路下的單位向量法,其余診斷模型可適當(dāng)考慮。
選取某航空公司3起未造成嚴(yán)重后果、只引起特征參數(shù)不正常的故障實(shí)例進(jìn)行診斷分析。通過(guò)監(jiān)控軟件觀察到發(fā)動(dòng)機(jī)參數(shù)短時(shí)間有較大變化,表明發(fā)動(dòng)機(jī)狀態(tài)不正常,由各參數(shù)與基線值的偏差分析,得到相應(yīng)參數(shù)偏差值[8],如表5所示。
表5 實(shí)例性能參數(shù)小偏差值Tab.5 Performance parameter minor deviation of instances
采用所建診斷模型進(jìn)行診斷,結(jié)果如表6所示。
表6 實(shí)例診斷結(jié)果Tab.6 Results of case diagnoses
由表6可知,訓(xùn)練數(shù)據(jù)準(zhǔn)備方法不同,則診斷結(jié)果有所差異。比值系數(shù)法B和單位向量法A診斷全部正確,符合表4中這兩種方法正確率優(yōu)于其他模型的結(jié)論。比值系數(shù)法A雖然正確率較高,但也出現(xiàn)了錯(cuò)誤診斷。其余診斷模型均有一定的誤診,診斷結(jié)果可作為參考。綜合分析表6各分類模型診斷結(jié)果,最有可能的故障類型為7、7、1,根據(jù)指印圖可知第7類故障為高壓壓氣機(jī)組件性能損失,第1種為總溫指示偏差。由圖4所示,實(shí)例1為高壓壓氣機(jī)葉片出現(xiàn)損壞,實(shí)例2為某2.5級(jí)放氣活門連接曲柄與連接環(huán)出現(xiàn)脫落,實(shí)例3為Tt2探頭覆蓋鳥(niǎo)毛。實(shí)例1和實(shí)例3診斷結(jié)果完全正確,實(shí)例2中,2.5級(jí)放氣活門問(wèn)題影響高壓壓氣機(jī)組件效率,與指印圖中故障7有直接聯(lián)系。實(shí)際診斷中需采用進(jìn)一步手段進(jìn)行故障隔離。
好的診斷效果。由此可知,采用比值系數(shù)法和單位向量法可進(jìn)行相應(yīng)診斷,但通常情況下,綜合多個(gè)模型的診斷結(jié)果會(huì)更加準(zhǔn)確。
上述分析與診斷已經(jīng)驗(yàn)證了以上方法的有效性。應(yīng)用比值系數(shù)法和單位向量法中正確率較高的方法,對(duì)應(yīng)指印圖生成訓(xùn)練數(shù)據(jù)進(jìn)行建模,用于其他型號(hào)發(fā)動(dòng)機(jī)的故障診斷,來(lái)檢驗(yàn)該方法的可推廣性。兩種不同型號(hào)發(fā)動(dòng)機(jī)在發(fā)生故障時(shí)對(duì)應(yīng)氣路參數(shù)的小偏差值,以及診斷模型判斷屬于指印圖的故障類型與實(shí)際故障類型的對(duì)比如表7所示。
由表7可知,將指印圖的數(shù)據(jù)進(jìn)行相關(guān)處理,建立診斷模型的方法同樣適用于其他機(jī)型,能夠得到較
圖4 故障實(shí)例排故檢測(cè)結(jié)果Fig.4 Actual troubleshooting results of fault instances
表7 發(fā)動(dòng)機(jī)實(shí)際故障案例Tab.7 Practical engine fault cases
使用比值系數(shù)法、相關(guān)系數(shù)法和單位向量法對(duì)指印圖中的故障標(biāo)識(shí)數(shù)據(jù)進(jìn)行處理,得到不同的診斷模型訓(xùn)練數(shù)據(jù)。在Adaboost算法及其改進(jìn)算法基礎(chǔ)上,以支持向量機(jī)為基礎(chǔ)分類器,建立對(duì)應(yīng)訓(xùn)練數(shù)據(jù)的故障診斷模型,然后由各模型診斷結(jié)果綜合判斷故障類型,避免單一模型診斷某些故障的不確定性。通過(guò)實(shí)例檢驗(yàn),證明了該方法對(duì)實(shí)際故障診斷的有效性。對(duì)于如何運(yùn)用指印圖或在故障數(shù)據(jù)量較少的情況下進(jìn)行實(shí)際故障診斷具有較好的參考意義。