馮子蕓, 王治紅, 戴一陽
(1.西南石油大學 化學化工學院,四川 成都 610500;2.四川大學 化學工程學院,四川 成都 610065)
化工過程的故障診斷技術(shù)是化工過程在自動化程度與日俱增情況下,保障化工行業(yè)安全運行的一個重要手段。隨著化工企業(yè)硬件條件的提升和大數(shù)據(jù)技術(shù)的高速發(fā)展,化工過程的數(shù)字化、智能化發(fā)展腳步日益加速,基于數(shù)據(jù)驅(qū)動的故障診斷方法也成為研究最廣、應(yīng)用前景最廣泛的方法。利用大量的歷史數(shù)據(jù)訓練診斷模型,不僅能快速地檢測出故障,更能有效識別故障類別,從而可以在實際操作中指導(dǎo)操作員做出正確響應(yīng)。
傳統(tǒng)的基于多元統(tǒng)計和降維的方法,如:偏最小二乘法(Partial Least Squares,PLS)[1]和主成分分析法(Principal Component Analysis,PCA)[2]等,在故障檢測的研究中表現(xiàn)出了良好的性能,但在故障類型的識別上表現(xiàn)不盡如人意。而一些基于模式識別的機器學習方法在故障檢測和故障識別領(lǐng)域都有較好的表現(xiàn),如:支持向量機(Support Vector Machine,SVM)[3]、k最小近鄰(k-Nearest Neighbors,kNN)[4]、貝葉斯網(wǎng)絡(luò)(Bayesian Network,BN)[5]和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)[6]等。隨著深度學習的不斷發(fā)展,深度信念網(wǎng)絡(luò)[7](Deep Belief Network,DBN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[8]方法在大數(shù)據(jù)條件下的故障診斷中表現(xiàn)出了優(yōu)異的能力。
然而,化工過程現(xiàn)場采集到的監(jiān)測數(shù)據(jù),常因傳感器故障、傳輸路線損壞及儀器量程溢出等原因而失真,出現(xiàn)數(shù)據(jù)的缺失、漂移或卡死等問題,影響故障診斷方法的準確性。因此,對存在不可靠數(shù)據(jù)的化工過程進行故障診斷研究具有重要意義。
基于數(shù)據(jù)不完整情況下的故障診斷已有不少報道。Liu等[9]針對數(shù)據(jù)不完整的熱泵故障系統(tǒng),提出了一種基于反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)和最大似然估計(Maximum Likelihood Estimation,MLE)的方法,對不完整的數(shù)據(jù)集進行估算,再利用BN建立分類器模型,完成故障類型的識別。Askarian等[10]采用了ANN、KNN、均值法等方法完成對缺失數(shù)據(jù)集的修補,再與不同的分類方法進行組合,最后通過魯棒性和準確性等指標對采用不同組合方法故障診斷結(jié)果進行評價。然而,先估算不可靠數(shù)據(jù)再進行故障診斷的兩步方法,在實際應(yīng)用過程中可能會出現(xiàn)時間滯后,影響故障的及時診斷和處置。同時,在實際過程中,監(jiān)測數(shù)據(jù)不僅存在缺失的現(xiàn)象,同時還存在漂移、卡死、噪聲等其他異常情況。監(jiān)測數(shù)據(jù)的異常情況通常更難發(fā)現(xiàn),導(dǎo)致無法高效識別故障類型。
隨機森林(RF)方法具有分類精度高和泛化能力強的特點,對噪聲和異常值的穩(wěn)健性較好。該方法在數(shù)字識別、圖像處理和數(shù)據(jù)挖掘等眾多領(lǐng)域受到廣泛關(guān)注[11-13]。筆者針對田納西-伊斯曼過程(Tennessee Eastman,TE)數(shù)據(jù)缺失、漂移和卡死3種不可靠情況,提出將隨機森林方法用于不可靠數(shù)據(jù)的化工過程故障診斷研究,并將該方法與反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network,RBFNN)和深度信念網(wǎng)絡(luò)(DBN)方法進行比較,以考察基于隨機森林的方法在處理存在不可靠數(shù)據(jù)的化工過程故障診斷中的表現(xiàn)。
2001年,Breiman將自舉匯聚法(Bagging)與Ho提出的隨機子空間方法相結(jié)合,在Bagging的基礎(chǔ)上引入了隨機屬性,提出了隨機森林(RF)學習方法[14],并闡述了RF的數(shù)學理論,證明了RF不會出現(xiàn)決策樹的過擬合問題。在RF模型訓練過程中隨機選取樣本和特征屬性,從而能夠提高模型的不確定性和多樣性。具體如下:
(1)隨機樣本:從原樣本集中有放回地隨機抽取,得到K個訓練樣本集。未被抽取的數(shù)據(jù)叫做袋外數(shù)據(jù)(OOB, Out of bag),用于檢驗決策樹的分類效果。
(2)隨機屬性:從M個總特征中,等概率地隨機選取m個特征(m通常取M的平方根)作為特征子集。
RF采用分類與回歸樹(CART)對K個訓練樣本集進行訓練,以隨機的方式構(gòu)建K棵決策樹。各決策樹在相應(yīng)的子集中選擇一個最優(yōu)屬性作為分裂節(jié)點進行分裂,并按照最優(yōu)分裂原則進行最大化生長,且各決策樹的訓練相互獨立。最后采用投票法根據(jù)各決策樹的預(yù)測結(jié)果得到最終輸出的分類結(jié)果。
基于上述方法構(gòu)建的隨機森林中,每顆決策樹的特征變量不完全相同。在分類投票時,即使部分變量不可靠也只會影響包含該特征變量的一部分決策樹,不會影響其他樹的分類結(jié)果,通過投票能夠減小不可靠變量對最終分類結(jié)果的影響。鑒于此,本研究利用隨機森林的投票機制,開發(fā)化工過程故障診斷模型,有望克服無關(guān)變量的干擾和數(shù)據(jù)不可靠對診斷結(jié)果的影響。RF算法的流程如圖1所示。
圖1 隨機森林算法流程圖Fig.1 Flowchart of the random forest algorithm
田納西-伊斯曼(TE)過程是Downs和Vogel根據(jù)美國Eastman化學公司的實際化工反應(yīng)過程開發(fā)的仿真平臺[15]。該過程被廣泛應(yīng)用于故障診斷方法的性能測試,成為評價診斷方法的一個標桿?;赗F的故障診斷方法以TE過程為研究對象,測試其診斷存在不可靠數(shù)據(jù)的化工過程故障的能力。其診斷框架如圖2所示。
圖2 基于隨機森林的故障診斷框架Fig.2 The framework of fault diagnosis based on RF
基于RF的TE過程故障診斷流程分為以下幾個步驟:
(1)采集TE過程的原始故障數(shù)據(jù),對其進行歸一化預(yù)處理,并將處理后的數(shù)據(jù)分為:訓練集和測試集,其中X和Y分別是變量特征和故障類型標簽。
(2)將訓練集輸入隨機森林網(wǎng)絡(luò)進行訓練,訓練過程中不斷調(diào)整網(wǎng)絡(luò),得到最優(yōu)的RF分類器。即決策樹的數(shù)量K為2500,隨機屬性的個數(shù)m為8。
(3)對TE過程的測試集進行數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死的處理,得到本研究所需要的不可靠數(shù)據(jù)集。
(4)將存在數(shù)據(jù)不可靠的測試集輸入訓練好的RF分類器進行故障診斷。采用相對多數(shù)投票原則,由各決策樹投票數(shù)量確定最終分類結(jié)果,分類公式為:
(1)
(2)
(5)采用故障診斷率(Fault Diagnosis Rate,FDR)作為故障診斷的分類評價指標,對診斷結(jié)果進行分析。
(3)
式(3)中:T(True)和P(Positive)分別表示真實、正類;TP為真正類,表示樣本的真實類別是正類,并且預(yù)測類別也為正類;FP為假正類,表示樣本的真實類別是負類,但預(yù)測類別為正類; TP和FP可由混淆矩陣[16]得到。
測試數(shù)據(jù)來自于MIT的BraatzGroup實驗室的標準樣本集。該樣本集包括52個變量及21種預(yù)先設(shè)定的故障類型。每種故障的訓練數(shù)據(jù)來自故障狀態(tài)下仿真24 h產(chǎn)生480組樣本數(shù)據(jù);其測試數(shù)據(jù)來自過程正常運行8 h后引入相應(yīng)故障而得到960組數(shù)據(jù),其中前160組為正常狀況下的數(shù)據(jù),后800組樣本為對應(yīng)故障的數(shù)據(jù)。將52個變量作為RF分類器的輸入,故障類型作為輸出。
對測試樣本進行數(shù)據(jù)不可靠處理,分別得到數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死3種情況下的測試集。以反應(yīng)原料D的進料流量為例,對第100個采樣點后的數(shù)據(jù)進行數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死處理,并經(jīng)過歸一化處理后得到如圖3所示的監(jiān)測變量數(shù)據(jù)集。
針對TE過程數(shù)據(jù)缺失、漂移和卡死3種不可靠情況,采用基于RF的故障診斷方法進行故障分析測試,并以FDR為指標與采用BPNN、RBFNN和DBN方法診斷進行性能比較。
化工過程的監(jiān)測數(shù)據(jù)往往存在缺失的現(xiàn)象,使得故障診斷模型的輸入不完整,嚴重影響故障診斷的準確性。研究在監(jiān)測數(shù)據(jù)完整、單變量數(shù)據(jù)缺失、多變量數(shù)據(jù)缺失和隨機變量數(shù)據(jù)缺失等多種情況下,分析不同故障診斷方法的診斷效果。
3.1.1 數(shù)據(jù)完整和單變量數(shù)據(jù)缺失
在TE過程的52個變量數(shù)據(jù)完整和單一變量數(shù)據(jù)缺失2種情況下,采用RF、BPNN、RBFNN、DBN診斷方法的平均診斷率如圖4所示。由圖4可知,在數(shù)據(jù)完整情況下,RF方法的平均診斷率超過70%,DBN、BPNN、RBFNN方法的平均診斷率依次下降。當存在單變量數(shù)據(jù)缺失的情況時,RF方法的診斷率波動最小,診斷效果最好,其中當變量21、45、46和51缺失時,RF方法的平均診斷率有較明顯的下降趨勢;BPNN和DBN方法僅個別變量數(shù)據(jù)缺失時的診斷率保持穩(wěn)定,多數(shù)單一變量數(shù)據(jù)缺失時診斷率波動很大;RBFNN方法的診斷波動最大、效果最差。
圖3 D進料流量的不可靠數(shù)據(jù)集Fig.3 Unreliable data set of D feed flow(a) Data missing; (b) Data drifting; (c) Data stuck
3.1.2 多變量數(shù)據(jù)缺失
針對多個變量數(shù)據(jù)同時缺失情況,如2個或3個變量數(shù)據(jù)同時缺失時,考察不同診斷方法的診斷效果。
圖4 單一變量數(shù)據(jù)缺失時不同診斷方法的診斷率(FDR)Fig.4 FDR of different methods at univariate missing(a) RF; (b) BPNN; (c) RBFNN; (d) DBN
對于2個變量同時缺失的情況,以變量1與k(其他51個變量之一)同時數(shù)據(jù)缺失為例,不同診斷方法的診斷結(jié)果如圖5所示。由圖5可知:當2個變量數(shù)據(jù)同時缺失時,RF方法的平均診斷率整體上低于數(shù)據(jù)完整和單變量數(shù)據(jù)缺失的診斷率,但診斷基本處于穩(wěn)定狀態(tài),表明隨機森林方法具有良好的穩(wěn)健性和泛化性;采用BPNN、RBFNN、DBN方法對相同數(shù)據(jù)集進行分類診斷,其診斷結(jié)果波動劇烈,且整體上大幅低于數(shù)據(jù)完整時的診斷率。因此,當2個變量數(shù)據(jù)同時缺失時,RF的診斷效果明顯優(yōu)于其他診斷方法。
由于單變量數(shù)據(jù)缺失和雙變量數(shù)據(jù)缺失時,各方法診斷結(jié)果的趨勢相同,針對3個變量數(shù)據(jù)同時缺失的情況,僅討論RF方法的診斷結(jié)果。當變量1、2與k(其他50個變量之一)數(shù)據(jù)同時缺失時,RF方法的故障診斷結(jié)果如圖6所示。由圖6可知,當3個變量數(shù)據(jù)同時缺失時,RF方法的診斷結(jié)果依然能夠保持較好的穩(wěn)定性。
上述結(jié)果表明,RF方法無論在單變量、雙變量或三變量數(shù)據(jù)缺失時都能夠有效地識別故障類型。RF方法在不同個數(shù)變量數(shù)據(jù)缺失時(類型I—數(shù)據(jù)完整;類型II—單一變量數(shù)據(jù)缺失;類型III—2個變量數(shù)據(jù)缺失;類型IV—3個變量數(shù)據(jù)缺失),各故障類型的診斷結(jié)果如表1所示。由表1可知,在單變量數(shù)據(jù)缺失情況下,各故障類型的平均診斷率僅比數(shù)據(jù)完整情況下的平均診斷率低1.28%;在2個或3個變量數(shù)據(jù)同時缺失時,其平均診斷率仍然高達67%。
3.1.3 變量數(shù)據(jù)隨機缺失
對TE過程的測試樣本數(shù)據(jù),分別按5%、10%、15%和20%的比例進行隨機變量數(shù)據(jù)缺失處理,獲得相應(yīng)的測試集,將新的測試集分別輸入RF、BPNN、RBFNN和DBN診斷方法,診斷結(jié)果如圖7所示。由圖7可知:當數(shù)據(jù)完整時,RF、BPNN、DBN診斷方法的診斷率均超過60%;當缺失數(shù)據(jù)比例為5%時,BPNN方法的診斷率下降40%, DBN方法的診斷率下降20%,而RF方法的診斷率僅下降8%;隨著缺失比例的增大,RF方法的診斷率的下降幅度較小,其余3種方法的診斷率下降幅度很大;當測試數(shù)據(jù)的缺失達到20%時,RF、DBN、RBFNN和BPNN方法的診斷率分別約為55%、30%、10%和10%,RF方法診斷效果最好。由上述結(jié)果顯示可知,隨著變量數(shù)據(jù)缺失比例增加,基于RF的診斷方法仍能保持較好的診斷效果。
圖6 3個變量數(shù)據(jù)同時缺失時RF方法的診斷率Fig.6 FDR of RF at three variables missing
在化工過程數(shù)據(jù)的采集過程中,傳感器會受到環(huán)境的影響,導(dǎo)致監(jiān)測數(shù)據(jù)較真實值發(fā)生漂移,進而影響故障診斷結(jié)果。采用不同的診斷方法分別對監(jiān)測變量數(shù)據(jù)存在正、負漂移的情況進行診斷分析,如圖8和圖9所示。由圖8和圖9可知,對于數(shù)據(jù)存在正、負漂移的情況,除個別變量外,多數(shù)變量數(shù)據(jù)的漂移對RF方法的故障診斷影響很?。籇BN方法的診斷效果雖優(yōu)于BPNN和RBFNN方法,但波動也很大。這說明RF方法具有較強的抗噪能力,在數(shù)據(jù)漂移時的診斷分析中具有較高的精確度。
表1 不同數(shù)據(jù)缺失情況下的診斷效果比較Table 1 Performance of different data missing
圖7 不同數(shù)據(jù)缺失比例下不同診斷方法的平均診斷率Fig.7 Average FDR of different methods at differentdata missing ratios
針對監(jiān)測變量數(shù)據(jù)卡死的情況,以TE測試樣本的第100個監(jiān)測點卡死為例,各變量數(shù)據(jù)分別卡死情況下,采用RF、BPNN、RBFNN、DBN方法診斷的結(jié)果如圖10所示。由圖10可知,變量數(shù)據(jù)卡死時,RF方法的診斷效果明顯優(yōu)于其他3種方法,其平均診斷率比數(shù)據(jù)完整情況下診斷率約低0.5%。當以RF作為分類方法時,僅在變量9、21、45、51數(shù)據(jù)卡死情況下,其診斷率有較明顯的波動。DBN方法整體的診斷率的波動也比較小,但其在變量9、10、17、18、19、20、21、44、45、46、50、51、52數(shù)據(jù)卡死時的診斷效果有較明顯的下降。因此,對于變量數(shù)據(jù)卡死情況,診斷效果最好的是RF方法,其次是DBN方法。
圖8 變量數(shù)據(jù)正漂移時不同診斷方法的診斷率Fig.8 FDR of different methods at variable data positive drifting(a) RF; (b) BPNN; (c) RBFNN; (d) DBN
圖9 變量數(shù)據(jù)負漂移時不同診斷方法的診斷率Fig.9 FDR of different methods at variable data negative drifting(a) RF; (b) BPNN; (c) RBFNN; (d) DBN
圖10 變量數(shù)據(jù)卡死情況時不同診斷方法的診斷率Fig.10 FDR of different methods at variable data stuck(a) RF; (b) BPNN; (c) RBFNN; (d) DBN
針對TE過程數(shù)據(jù)缺失、漂移和卡死3種數(shù)據(jù)不可靠的情況,提出了基于RF的故障診斷方法。比較采用RF與BPNN、RBFNN、DBN方法對化工過程故障的診斷結(jié)果表明:在數(shù)據(jù)完整情況下,基于RF的故障診斷方法的故障診斷率最高;當數(shù)據(jù)存在不可靠的情況時,RF方法的故障識別受數(shù)據(jù)不可靠的干擾最小,診斷率波動最小,其他3種方法的診斷率明顯下降,且波動很大;隨著數(shù)據(jù)不可靠程度的上升,RF方法的故障診斷率下降速率較慢、波動較小,其他3種方法的診斷率下降速率較快,下降幅度很大,且波動明顯。因此,基于RF的故障診斷方法分類精度高、泛化能力強、對不可靠的數(shù)據(jù)的容錯能力較好。
基于RF的故障診斷方法對絕大多數(shù)變量的數(shù)據(jù)不可靠情況保持穩(wěn)定的故障診斷率,但仍有少數(shù)變量數(shù)據(jù)不可靠會導(dǎo)致其診斷率有明顯的下降。