亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機森林的不可靠數(shù)據(jù)化工過程故障診斷方法

2021-01-27 01:52:12馮子蕓王治紅戴一陽

石油學報(石油加工) 2021年1期

馮子蕓，王治紅，戴一陽

(1.西南石油大學化學化工學院，四川成都 610500；2.四川大學化學工程學院，四川成都 610065)

化工過程的故障診斷技術(shù)是化工過程在自動化程度與日俱增情況下，保障化工行業(yè)安全運行的一個重要手段。隨著化工企業(yè)硬件條件的提升和大數(shù)據(jù)技術(shù)的高速發(fā)展，化工過程的數(shù)字化、智能化發(fā)展腳步日益加速，基于數(shù)據(jù)驅(qū)動的故障診斷方法也成為研究最廣、應(yīng)用前景最廣泛的方法。利用大量的歷史數(shù)據(jù)訓練診斷模型，不僅能快速地檢測出故障，更能有效識別故障類別，從而可以在實際操作中指導(dǎo)操作員做出正確響應(yīng)。

傳統(tǒng)的基于多元統(tǒng)計和降維的方法，如：偏最小二乘法(Partial Least Squares，PLS)[1]和主成分分析法(Principal Component Analysis，PCA)[2]等，在故障檢測的研究中表現(xiàn)出了良好的性能，但在故障類型的識別上表現(xiàn)不盡如人意。而一些基于模式識別的機器學習方法在故障檢測和故障識別領(lǐng)域都有較好的表現(xiàn)，如：支持向量機(Support Vector Machine，SVM)[3]、k最小近鄰(k-Nearest Neighbors，kNN)[4]、貝葉斯網(wǎng)絡(luò)(Bayesian Network，BN)[5]和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks，ANN)[6]等。隨著深度學習的不斷發(fā)展，深度信念網(wǎng)絡(luò)[7](Deep Belief Network，DBN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks，CNN)[8]方法在大數(shù)據(jù)條件下的故障診斷中表現(xiàn)出了優(yōu)異的能力。

然而，化工過程現(xiàn)場采集到的監(jiān)測數(shù)據(jù)，常因傳感器故障、傳輸路線損壞及儀器量程溢出等原因而失真，出現(xiàn)數(shù)據(jù)的缺失、漂移或卡死等問題，影響故障診斷方法的準確性。因此，對存在不可靠數(shù)據(jù)的化工過程進行故障診斷研究具有重要意義。

基于數(shù)據(jù)不完整情況下的故障診斷已有不少報道。Liu等[9]針對數(shù)據(jù)不完整的熱泵故障系統(tǒng)，提出了一種基于反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network，BPNN)和最大似然估計(Maximum Likelihood Estimation，MLE)的方法，對不完整的數(shù)據(jù)集進行估算，再利用BN建立分類器模型，完成故障類型的識別。Askarian等[10]采用了ANN、KNN、均值法等方法完成對缺失數(shù)據(jù)集的修補，再與不同的分類方法進行組合，最后通過魯棒性和準確性等指標對采用不同組合方法故障診斷結(jié)果進行評價。然而，先估算不可靠數(shù)據(jù)再進行故障診斷的兩步方法，在實際應(yīng)用過程中可能會出現(xiàn)時間滯后，影響故障的及時診斷和處置。同時，在實際過程中，監(jiān)測數(shù)據(jù)不僅存在缺失的現(xiàn)象，同時還存在漂移、卡死、噪聲等其他異常情況。監(jiān)測數(shù)據(jù)的異常情況通常更難發(fā)現(xiàn)，導(dǎo)致無法高效識別故障類型。

隨機森林(RF)方法具有分類精度高和泛化能力強的特點，對噪聲和異常值的穩(wěn)健性較好。該方法在數(shù)字識別、圖像處理和數(shù)據(jù)挖掘等眾多領(lǐng)域受到廣泛關(guān)注[11-13]。筆者針對田納西-伊斯曼過程(Tennessee Eastman，TE)數(shù)據(jù)缺失、漂移和卡死3種不可靠情況，提出將隨機森林方法用于不可靠數(shù)據(jù)的化工過程故障診斷研究，并將該方法與反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network，RBFNN)和深度信念網(wǎng)絡(luò)(DBN)方法進行比較，以考察基于隨機森林的方法在處理存在不可靠數(shù)據(jù)的化工過程故障診斷中的表現(xiàn)。

1 隨機森林理論

2001年，Breiman將自舉匯聚法(Bagging)與Ho提出的隨機子空間方法相結(jié)合，在Bagging的基礎(chǔ)上引入了隨機屬性，提出了隨機森林(RF)學習方法[14]，并闡述了RF的數(shù)學理論，證明了RF不會出現(xiàn)決策樹的過擬合問題。在RF模型訓練過程中隨機選取樣本和特征屬性，從而能夠提高模型的不確定性和多樣性。具體如下：

(1)隨機樣本：從原樣本集中有放回地隨機抽取，得到K個訓練樣本集。未被抽取的數(shù)據(jù)叫做袋外數(shù)據(jù)(OOB, Out of bag)，用于檢驗決策樹的分類效果。

(2)隨機屬性：從M個總特征中，等概率地隨機選取m個特征(m通常取M的平方根)作為特征子集。

RF采用分類與回歸樹(CART)對K個訓練樣本集進行訓練，以隨機的方式構(gòu)建K棵決策樹。各決策樹在相應(yīng)的子集中選擇一個最優(yōu)屬性作為分裂節(jié)點進行分裂，并按照最優(yōu)分裂原則進行最大化生長，且各決策樹的訓練相互獨立。最后采用投票法根據(jù)各決策樹的預(yù)測結(jié)果得到最終輸出的分類結(jié)果。

基于上述方法構(gòu)建的隨機森林中，每顆決策樹的特征變量不完全相同。在分類投票時，即使部分變量不可靠也只會影響包含該特征變量的一部分決策樹，不會影響其他樹的分類結(jié)果，通過投票能夠減小不可靠變量對最終分類結(jié)果的影響。鑒于此，本研究利用隨機森林的投票機制，開發(fā)化工過程故障診斷模型，有望克服無關(guān)變量的干擾和數(shù)據(jù)不可靠對診斷結(jié)果的影響。RF算法的流程如圖1所示。

圖1 隨機森林算法流程圖Fig.1 Flowchart of the random forest algorithm

2 基于RF的TE過程故障診斷方法

田納西-伊斯曼(TE)過程是Downs和Vogel根據(jù)美國Eastman化學公司的實際化工反應(yīng)過程開發(fā)的仿真平臺[15]。該過程被廣泛應(yīng)用于故障診斷方法的性能測試，成為評價診斷方法的一個標桿?；赗F的故障診斷方法以TE過程為研究對象，測試其診斷存在不可靠數(shù)據(jù)的化工過程故障的能力。其診斷框架如圖2所示。

圖2 基于隨機森林的故障診斷框架Fig.2 The framework of fault diagnosis based on RF

基于RF的TE過程故障診斷流程分為以下幾個步驟：

(1)采集TE過程的原始故障數(shù)據(jù)，對其進行歸一化預(yù)處理，并將處理后的數(shù)據(jù)分為：訓練集和測試集，其中X和Y分別是變量特征和故障類型標簽。

(2)將訓練集輸入隨機森林網(wǎng)絡(luò)進行訓練，訓練過程中不斷調(diào)整網(wǎng)絡(luò)，得到最優(yōu)的RF分類器。即決策樹的數(shù)量K為2500，隨機屬性的個數(shù)m為8。

(3)對TE過程的測試集進行數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死的處理，得到本研究所需要的不可靠數(shù)據(jù)集。

(4)將存在數(shù)據(jù)不可靠的測試集輸入訓練好的RF分類器進行故障診斷。采用相對多數(shù)投票原則，由各決策樹投票數(shù)量確定最終分類結(jié)果，分類公式為：

(1)

(2)

(5)采用故障診斷率(Fault Diagnosis Rate,FDR)作為故障診斷的分類評價指標，對診斷結(jié)果進行分析。

(3)

式(3)中：T(True)和P(Positive)分別表示真實、正類；TP為真正類，表示樣本的真實類別是正類，并且預(yù)測類別也為正類；FP為假正類，表示樣本的真實類別是負類，但預(yù)測類別為正類； TP和FP可由混淆矩陣[16]得到。

測試數(shù)據(jù)來自于MIT的BraatzGroup實驗室的標準樣本集。該樣本集包括52個變量及21種預(yù)先設(shè)定的故障類型。每種故障的訓練數(shù)據(jù)來自故障狀態(tài)下仿真24 h產(chǎn)生480組樣本數(shù)據(jù)；其測試數(shù)據(jù)來自過程正常運行8 h后引入相應(yīng)故障而得到960組數(shù)據(jù)，其中前160組為正常狀況下的數(shù)據(jù)，后800組樣本為對應(yīng)故障的數(shù)據(jù)。將52個變量作為RF分類器的輸入，故障類型作為輸出。

對測試樣本進行數(shù)據(jù)不可靠處理，分別得到數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死3種情況下的測試集。以反應(yīng)原料D的進料流量為例，對第100個采樣點后的數(shù)據(jù)進行數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死處理，并經(jīng)過歸一化處理后得到如圖3所示的監(jiān)測變量數(shù)據(jù)集。

3 診斷結(jié)果分析

針對TE過程數(shù)據(jù)缺失、漂移和卡死3種不可靠情況，采用基于RF的故障診斷方法進行故障分析測試，并以FDR為指標與采用BPNN、RBFNN和DBN方法診斷進行性能比較。

3.1 數(shù)據(jù)缺失

化工過程的監(jiān)測數(shù)據(jù)往往存在缺失的現(xiàn)象，使得故障診斷模型的輸入不完整，嚴重影響故障診斷的準確性。研究在監(jiān)測數(shù)據(jù)完整、單變量數(shù)據(jù)缺失、多變量數(shù)據(jù)缺失和隨機變量數(shù)據(jù)缺失等多種情況下，分析不同故障診斷方法的診斷效果。

3.1.1 數(shù)據(jù)完整和單變量數(shù)據(jù)缺失

在TE過程的52個變量數(shù)據(jù)完整和單一變量數(shù)據(jù)缺失2種情況下，采用RF、BPNN、RBFNN、DBN診斷方法的平均診斷率如圖4所示。由圖4可知，在數(shù)據(jù)完整情況下，RF方法的平均診斷率超過70%，DBN、BPNN、RBFNN方法的平均診斷率依次下降。當存在單變量數(shù)據(jù)缺失的情況時，RF方法的診斷率波動最小，診斷效果最好，其中當變量21、45、46和51缺失時，RF方法的平均診斷率有較明顯的下降趨勢；BPNN和DBN方法僅個別變量數(shù)據(jù)缺失時的診斷率保持穩(wěn)定，多數(shù)單一變量數(shù)據(jù)缺失時診斷率波動很大；RBFNN方法的診斷波動最大、效果最差。

圖3 D進料流量的不可靠數(shù)據(jù)集Fig.3 Unreliable data set of D feed flow(a) Data missing; (b) Data drifting; (c) Data stuck

3.1.2 多變量數(shù)據(jù)缺失

針對多個變量數(shù)據(jù)同時缺失情況，如2個或3個變量數(shù)據(jù)同時缺失時，考察不同診斷方法的診斷效果。

圖4 單一變量數(shù)據(jù)缺失時不同診斷方法的診斷率(FDR)Fig.4 FDR of different methods at univariate missing(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

對于2個變量同時缺失的情況，以變量1與k(其他51個變量之一)同時數(shù)據(jù)缺失為例，不同診斷方法的診斷結(jié)果如圖5所示。由圖5可知：當2個變量數(shù)據(jù)同時缺失時，RF方法的平均診斷率整體上低于數(shù)據(jù)完整和單變量數(shù)據(jù)缺失的診斷率，但診斷基本處于穩(wěn)定狀態(tài)，表明隨機森林方法具有良好的穩(wěn)健性和泛化性；采用BPNN、RBFNN、DBN方法對相同數(shù)據(jù)集進行分類診斷，其診斷結(jié)果波動劇烈，且整體上大幅低于數(shù)據(jù)完整時的診斷率。因此，當2個變量數(shù)據(jù)同時缺失時，RF的診斷效果明顯優(yōu)于其他診斷方法。

由于單變量數(shù)據(jù)缺失和雙變量數(shù)據(jù)缺失時，各方法診斷結(jié)果的趨勢相同，針對3個變量數(shù)據(jù)同時缺失的情況，僅討論RF方法的診斷結(jié)果。當變量1、2與k(其他50個變量之一)數(shù)據(jù)同時缺失時，RF方法的故障診斷結(jié)果如圖6所示。由圖6可知，當3個變量數(shù)據(jù)同時缺失時，RF方法的診斷結(jié)果依然能夠保持較好的穩(wěn)定性。

上述結(jié)果表明，RF方法無論在單變量、雙變量或三變量數(shù)據(jù)缺失時都能夠有效地識別故障類型。RF方法在不同個數(shù)變量數(shù)據(jù)缺失時(類型I—數(shù)據(jù)完整；類型II—單一變量數(shù)據(jù)缺失；類型III—2個變量數(shù)據(jù)缺失；類型IV—3個變量數(shù)據(jù)缺失)，各故障類型的診斷結(jié)果如表1所示。由表1可知，在單變量數(shù)據(jù)缺失情況下，各故障類型的平均診斷率僅比數(shù)據(jù)完整情況下的平均診斷率低1.28%；在2個或3個變量數(shù)據(jù)同時缺失時，其平均診斷率仍然高達67%。

3.1.3 變量數(shù)據(jù)隨機缺失

對TE過程的測試樣本數(shù)據(jù)，分別按5%、10%、15%和20%的比例進行隨機變量數(shù)據(jù)缺失處理，獲得相應(yīng)的測試集，將新的測試集分別輸入RF、BPNN、RBFNN和DBN診斷方法，診斷結(jié)果如圖7所示。由圖7可知：當數(shù)據(jù)完整時，RF、BPNN、DBN診斷方法的診斷率均超過60%；當缺失數(shù)據(jù)比例為5%時，BPNN方法的診斷率下降40%， DBN方法的診斷率下降20%，而RF方法的診斷率僅下降8%；隨著缺失比例的增大，RF方法的診斷率的下降幅度較小，其余3種方法的診斷率下降幅度很大；當測試數(shù)據(jù)的缺失達到20%時，RF、DBN、RBFNN和BPNN方法的診斷率分別約為55%、30%、10%和10%，RF方法診斷效果最好。由上述結(jié)果顯示可知，隨著變量數(shù)據(jù)缺失比例增加，基于RF的診斷方法仍能保持較好的診斷效果。

圖6 3個變量數(shù)據(jù)同時缺失時RF方法的診斷率Fig.6 FDR of RF at three variables missing

3.2 數(shù)據(jù)漂移

在化工過程數(shù)據(jù)的采集過程中，傳感器會受到環(huán)境的影響，導(dǎo)致監(jiān)測數(shù)據(jù)較真實值發(fā)生漂移，進而影響故障診斷結(jié)果。采用不同的診斷方法分別對監(jiān)測變量數(shù)據(jù)存在正、負漂移的情況進行診斷分析，如圖8和圖9所示。由圖8和圖9可知，對于數(shù)據(jù)存在正、負漂移的情況，除個別變量外，多數(shù)變量數(shù)據(jù)的漂移對RF方法的故障診斷影響很?。籇BN方法的診斷效果雖優(yōu)于BPNN和RBFNN方法，但波動也很大。這說明RF方法具有較強的抗噪能力，在數(shù)據(jù)漂移時的診斷分析中具有較高的精確度。

表1 不同數(shù)據(jù)缺失情況下的診斷效果比較Table 1 Performance of different data missing

圖7 不同數(shù)據(jù)缺失比例下不同診斷方法的平均診斷率Fig.7 Average FDR of different methods at differentdata missing ratios

3.3 變量數(shù)據(jù)卡死

針對監(jiān)測變量數(shù)據(jù)卡死的情況，以TE測試樣本的第100個監(jiān)測點卡死為例，各變量數(shù)據(jù)分別卡死情況下，采用RF、BPNN、RBFNN、DBN方法診斷的結(jié)果如圖10所示。由圖10可知，變量數(shù)據(jù)卡死時，RF方法的診斷效果明顯優(yōu)于其他3種方法，其平均診斷率比數(shù)據(jù)完整情況下診斷率約低0.5%。當以RF作為分類方法時，僅在變量9、21、45、51數(shù)據(jù)卡死情況下，其診斷率有較明顯的波動。DBN方法整體的診斷率的波動也比較小，但其在變量9、10、17、18、19、20、21、44、45、46、50、51、52數(shù)據(jù)卡死時的診斷效果有較明顯的下降。因此，對于變量數(shù)據(jù)卡死情況，診斷效果最好的是RF方法，其次是DBN方法。

圖8 變量數(shù)據(jù)正漂移時不同診斷方法的診斷率Fig.8 FDR of different methods at variable data positive drifting(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

圖9 變量數(shù)據(jù)負漂移時不同診斷方法的診斷率Fig.9 FDR of different methods at variable data negative drifting(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

圖10 變量數(shù)據(jù)卡死情況時不同診斷方法的診斷率Fig.10 FDR of different methods at variable data stuck(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

4 結(jié) 論

針對TE過程數(shù)據(jù)缺失、漂移和卡死3種數(shù)據(jù)不可靠的情況，提出了基于RF的故障診斷方法。比較采用RF與BPNN、RBFNN、DBN方法對化工過程故障的診斷結(jié)果表明：在數(shù)據(jù)完整情況下，基于RF的故障診斷方法的故障診斷率最高；當數(shù)據(jù)存在不可靠的情況時，RF方法的故障識別受數(shù)據(jù)不可靠的干擾最小，診斷率波動最小，其他3種方法的診斷率明顯下降，且波動很大；隨著數(shù)據(jù)不可靠程度的上升，RF方法的故障診斷率下降速率較慢、波動較小，其他3種方法的診斷率下降速率較快，下降幅度很大，且波動明顯。因此，基于RF的故障診斷方法分類精度高、泛化能力強、對不可靠的數(shù)據(jù)的容錯能力較好。

基于RF的故障診斷方法對絕大多數(shù)變量的數(shù)據(jù)不可靠情況保持穩(wěn)定的故障診斷率，但仍有少數(shù)變量數(shù)據(jù)不可靠會導(dǎo)致其診斷率有明顯的下降。