亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林的不可靠數(shù)據(jù)化工過程故障診斷方法

        2021-01-27 01:52:12馮子蕓王治紅戴一陽
        石油學報(石油加工) 2021年1期
        關(guān)鍵詞:卡死診斷率決策樹

        馮子蕓, 王治紅, 戴一陽

        (1.西南石油大學 化學化工學院,四川 成都 610500;2.四川大學 化學工程學院,四川 成都 610065)

        化工過程的故障診斷技術(shù)是化工過程在自動化程度與日俱增情況下,保障化工行業(yè)安全運行的一個重要手段。隨著化工企業(yè)硬件條件的提升和大數(shù)據(jù)技術(shù)的高速發(fā)展,化工過程的數(shù)字化、智能化發(fā)展腳步日益加速,基于數(shù)據(jù)驅(qū)動的故障診斷方法也成為研究最廣、應(yīng)用前景最廣泛的方法。利用大量的歷史數(shù)據(jù)訓練診斷模型,不僅能快速地檢測出故障,更能有效識別故障類別,從而可以在實際操作中指導(dǎo)操作員做出正確響應(yīng)。

        傳統(tǒng)的基于多元統(tǒng)計和降維的方法,如:偏最小二乘法(Partial Least Squares,PLS)[1]和主成分分析法(Principal Component Analysis,PCA)[2]等,在故障檢測的研究中表現(xiàn)出了良好的性能,但在故障類型的識別上表現(xiàn)不盡如人意。而一些基于模式識別的機器學習方法在故障檢測和故障識別領(lǐng)域都有較好的表現(xiàn),如:支持向量機(Support Vector Machine,SVM)[3]、k最小近鄰(k-Nearest Neighbors,kNN)[4]、貝葉斯網(wǎng)絡(luò)(Bayesian Network,BN)[5]和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)[6]等。隨著深度學習的不斷發(fā)展,深度信念網(wǎng)絡(luò)[7](Deep Belief Network,DBN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[8]方法在大數(shù)據(jù)條件下的故障診斷中表現(xiàn)出了優(yōu)異的能力。

        然而,化工過程現(xiàn)場采集到的監(jiān)測數(shù)據(jù),常因傳感器故障、傳輸路線損壞及儀器量程溢出等原因而失真,出現(xiàn)數(shù)據(jù)的缺失、漂移或卡死等問題,影響故障診斷方法的準確性。因此,對存在不可靠數(shù)據(jù)的化工過程進行故障診斷研究具有重要意義。

        基于數(shù)據(jù)不完整情況下的故障診斷已有不少報道。Liu等[9]針對數(shù)據(jù)不完整的熱泵故障系統(tǒng),提出了一種基于反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)和最大似然估計(Maximum Likelihood Estimation,MLE)的方法,對不完整的數(shù)據(jù)集進行估算,再利用BN建立分類器模型,完成故障類型的識別。Askarian等[10]采用了ANN、KNN、均值法等方法完成對缺失數(shù)據(jù)集的修補,再與不同的分類方法進行組合,最后通過魯棒性和準確性等指標對采用不同組合方法故障診斷結(jié)果進行評價。然而,先估算不可靠數(shù)據(jù)再進行故障診斷的兩步方法,在實際應(yīng)用過程中可能會出現(xiàn)時間滯后,影響故障的及時診斷和處置。同時,在實際過程中,監(jiān)測數(shù)據(jù)不僅存在缺失的現(xiàn)象,同時還存在漂移、卡死、噪聲等其他異常情況。監(jiān)測數(shù)據(jù)的異常情況通常更難發(fā)現(xiàn),導(dǎo)致無法高效識別故障類型。

        隨機森林(RF)方法具有分類精度高和泛化能力強的特點,對噪聲和異常值的穩(wěn)健性較好。該方法在數(shù)字識別、圖像處理和數(shù)據(jù)挖掘等眾多領(lǐng)域受到廣泛關(guān)注[11-13]。筆者針對田納西-伊斯曼過程(Tennessee Eastman,TE)數(shù)據(jù)缺失、漂移和卡死3種不可靠情況,提出將隨機森林方法用于不可靠數(shù)據(jù)的化工過程故障診斷研究,并將該方法與反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network,RBFNN)和深度信念網(wǎng)絡(luò)(DBN)方法進行比較,以考察基于隨機森林的方法在處理存在不可靠數(shù)據(jù)的化工過程故障診斷中的表現(xiàn)。

        1 隨機森林理論

        2001年,Breiman將自舉匯聚法(Bagging)與Ho提出的隨機子空間方法相結(jié)合,在Bagging的基礎(chǔ)上引入了隨機屬性,提出了隨機森林(RF)學習方法[14],并闡述了RF的數(shù)學理論,證明了RF不會出現(xiàn)決策樹的過擬合問題。在RF模型訓練過程中隨機選取樣本和特征屬性,從而能夠提高模型的不確定性和多樣性。具體如下:

        (1)隨機樣本:從原樣本集中有放回地隨機抽取,得到K個訓練樣本集。未被抽取的數(shù)據(jù)叫做袋外數(shù)據(jù)(OOB, Out of bag),用于檢驗決策樹的分類效果。

        (2)隨機屬性:從M個總特征中,等概率地隨機選取m個特征(m通常取M的平方根)作為特征子集。

        RF采用分類與回歸樹(CART)對K個訓練樣本集進行訓練,以隨機的方式構(gòu)建K棵決策樹。各決策樹在相應(yīng)的子集中選擇一個最優(yōu)屬性作為分裂節(jié)點進行分裂,并按照最優(yōu)分裂原則進行最大化生長,且各決策樹的訓練相互獨立。最后采用投票法根據(jù)各決策樹的預(yù)測結(jié)果得到最終輸出的分類結(jié)果。

        基于上述方法構(gòu)建的隨機森林中,每顆決策樹的特征變量不完全相同。在分類投票時,即使部分變量不可靠也只會影響包含該特征變量的一部分決策樹,不會影響其他樹的分類結(jié)果,通過投票能夠減小不可靠變量對最終分類結(jié)果的影響。鑒于此,本研究利用隨機森林的投票機制,開發(fā)化工過程故障診斷模型,有望克服無關(guān)變量的干擾和數(shù)據(jù)不可靠對診斷結(jié)果的影響。RF算法的流程如圖1所示。

        圖1 隨機森林算法流程圖Fig.1 Flowchart of the random forest algorithm

        2 基于RF的TE過程故障診斷方法

        田納西-伊斯曼(TE)過程是Downs和Vogel根據(jù)美國Eastman化學公司的實際化工反應(yīng)過程開發(fā)的仿真平臺[15]。該過程被廣泛應(yīng)用于故障診斷方法的性能測試,成為評價診斷方法的一個標桿?;赗F的故障診斷方法以TE過程為研究對象,測試其診斷存在不可靠數(shù)據(jù)的化工過程故障的能力。其診斷框架如圖2所示。

        圖2 基于隨機森林的故障診斷框架Fig.2 The framework of fault diagnosis based on RF

        基于RF的TE過程故障診斷流程分為以下幾個步驟:

        (1)采集TE過程的原始故障數(shù)據(jù),對其進行歸一化預(yù)處理,并將處理后的數(shù)據(jù)分為:訓練集和測試集,其中X和Y分別是變量特征和故障類型標簽。

        (2)將訓練集輸入隨機森林網(wǎng)絡(luò)進行訓練,訓練過程中不斷調(diào)整網(wǎng)絡(luò),得到最優(yōu)的RF分類器。即決策樹的數(shù)量K為2500,隨機屬性的個數(shù)m為8。

        (3)對TE過程的測試集進行數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死的處理,得到本研究所需要的不可靠數(shù)據(jù)集。

        (4)將存在數(shù)據(jù)不可靠的測試集輸入訓練好的RF分類器進行故障診斷。采用相對多數(shù)投票原則,由各決策樹投票數(shù)量確定最終分類結(jié)果,分類公式為:

        (1)

        (2)

        (5)采用故障診斷率(Fault Diagnosis Rate,FDR)作為故障診斷的分類評價指標,對診斷結(jié)果進行分析。

        (3)

        式(3)中:T(True)和P(Positive)分別表示真實、正類;TP為真正類,表示樣本的真實類別是正類,并且預(yù)測類別也為正類;FP為假正類,表示樣本的真實類別是負類,但預(yù)測類別為正類; TP和FP可由混淆矩陣[16]得到。

        測試數(shù)據(jù)來自于MIT的BraatzGroup實驗室的標準樣本集。該樣本集包括52個變量及21種預(yù)先設(shè)定的故障類型。每種故障的訓練數(shù)據(jù)來自故障狀態(tài)下仿真24 h產(chǎn)生480組樣本數(shù)據(jù);其測試數(shù)據(jù)來自過程正常運行8 h后引入相應(yīng)故障而得到960組數(shù)據(jù),其中前160組為正常狀況下的數(shù)據(jù),后800組樣本為對應(yīng)故障的數(shù)據(jù)。將52個變量作為RF分類器的輸入,故障類型作為輸出。

        對測試樣本進行數(shù)據(jù)不可靠處理,分別得到數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死3種情況下的測試集。以反應(yīng)原料D的進料流量為例,對第100個采樣點后的數(shù)據(jù)進行數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死處理,并經(jīng)過歸一化處理后得到如圖3所示的監(jiān)測變量數(shù)據(jù)集。

        3 診斷結(jié)果分析

        針對TE過程數(shù)據(jù)缺失、漂移和卡死3種不可靠情況,采用基于RF的故障診斷方法進行故障分析測試,并以FDR為指標與采用BPNN、RBFNN和DBN方法診斷進行性能比較。

        3.1 數(shù)據(jù)缺失

        化工過程的監(jiān)測數(shù)據(jù)往往存在缺失的現(xiàn)象,使得故障診斷模型的輸入不完整,嚴重影響故障診斷的準確性。研究在監(jiān)測數(shù)據(jù)完整、單變量數(shù)據(jù)缺失、多變量數(shù)據(jù)缺失和隨機變量數(shù)據(jù)缺失等多種情況下,分析不同故障診斷方法的診斷效果。

        3.1.1 數(shù)據(jù)完整和單變量數(shù)據(jù)缺失

        在TE過程的52個變量數(shù)據(jù)完整和單一變量數(shù)據(jù)缺失2種情況下,采用RF、BPNN、RBFNN、DBN診斷方法的平均診斷率如圖4所示。由圖4可知,在數(shù)據(jù)完整情況下,RF方法的平均診斷率超過70%,DBN、BPNN、RBFNN方法的平均診斷率依次下降。當存在單變量數(shù)據(jù)缺失的情況時,RF方法的診斷率波動最小,診斷效果最好,其中當變量21、45、46和51缺失時,RF方法的平均診斷率有較明顯的下降趨勢;BPNN和DBN方法僅個別變量數(shù)據(jù)缺失時的診斷率保持穩(wěn)定,多數(shù)單一變量數(shù)據(jù)缺失時診斷率波動很大;RBFNN方法的診斷波動最大、效果最差。

        圖3 D進料流量的不可靠數(shù)據(jù)集Fig.3 Unreliable data set of D feed flow(a) Data missing; (b) Data drifting; (c) Data stuck

        3.1.2 多變量數(shù)據(jù)缺失

        針對多個變量數(shù)據(jù)同時缺失情況,如2個或3個變量數(shù)據(jù)同時缺失時,考察不同診斷方法的診斷效果。

        圖4 單一變量數(shù)據(jù)缺失時不同診斷方法的診斷率(FDR)Fig.4 FDR of different methods at univariate missing(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

        對于2個變量同時缺失的情況,以變量1與k(其他51個變量之一)同時數(shù)據(jù)缺失為例,不同診斷方法的診斷結(jié)果如圖5所示。由圖5可知:當2個變量數(shù)據(jù)同時缺失時,RF方法的平均診斷率整體上低于數(shù)據(jù)完整和單變量數(shù)據(jù)缺失的診斷率,但診斷基本處于穩(wěn)定狀態(tài),表明隨機森林方法具有良好的穩(wěn)健性和泛化性;采用BPNN、RBFNN、DBN方法對相同數(shù)據(jù)集進行分類診斷,其診斷結(jié)果波動劇烈,且整體上大幅低于數(shù)據(jù)完整時的診斷率。因此,當2個變量數(shù)據(jù)同時缺失時,RF的診斷效果明顯優(yōu)于其他診斷方法。

        由于單變量數(shù)據(jù)缺失和雙變量數(shù)據(jù)缺失時,各方法診斷結(jié)果的趨勢相同,針對3個變量數(shù)據(jù)同時缺失的情況,僅討論RF方法的診斷結(jié)果。當變量1、2與k(其他50個變量之一)數(shù)據(jù)同時缺失時,RF方法的故障診斷結(jié)果如圖6所示。由圖6可知,當3個變量數(shù)據(jù)同時缺失時,RF方法的診斷結(jié)果依然能夠保持較好的穩(wěn)定性。

        上述結(jié)果表明,RF方法無論在單變量、雙變量或三變量數(shù)據(jù)缺失時都能夠有效地識別故障類型。RF方法在不同個數(shù)變量數(shù)據(jù)缺失時(類型I—數(shù)據(jù)完整;類型II—單一變量數(shù)據(jù)缺失;類型III—2個變量數(shù)據(jù)缺失;類型IV—3個變量數(shù)據(jù)缺失),各故障類型的診斷結(jié)果如表1所示。由表1可知,在單變量數(shù)據(jù)缺失情況下,各故障類型的平均診斷率僅比數(shù)據(jù)完整情況下的平均診斷率低1.28%;在2個或3個變量數(shù)據(jù)同時缺失時,其平均診斷率仍然高達67%。

        3.1.3 變量數(shù)據(jù)隨機缺失

        對TE過程的測試樣本數(shù)據(jù),分別按5%、10%、15%和20%的比例進行隨機變量數(shù)據(jù)缺失處理,獲得相應(yīng)的測試集,將新的測試集分別輸入RF、BPNN、RBFNN和DBN診斷方法,診斷結(jié)果如圖7所示。由圖7可知:當數(shù)據(jù)完整時,RF、BPNN、DBN診斷方法的診斷率均超過60%;當缺失數(shù)據(jù)比例為5%時,BPNN方法的診斷率下降40%, DBN方法的診斷率下降20%,而RF方法的診斷率僅下降8%;隨著缺失比例的增大,RF方法的診斷率的下降幅度較小,其余3種方法的診斷率下降幅度很大;當測試數(shù)據(jù)的缺失達到20%時,RF、DBN、RBFNN和BPNN方法的診斷率分別約為55%、30%、10%和10%,RF方法診斷效果最好。由上述結(jié)果顯示可知,隨著變量數(shù)據(jù)缺失比例增加,基于RF的診斷方法仍能保持較好的診斷效果。

        圖6 3個變量數(shù)據(jù)同時缺失時RF方法的診斷率Fig.6 FDR of RF at three variables missing

        3.2 數(shù)據(jù)漂移

        在化工過程數(shù)據(jù)的采集過程中,傳感器會受到環(huán)境的影響,導(dǎo)致監(jiān)測數(shù)據(jù)較真實值發(fā)生漂移,進而影響故障診斷結(jié)果。采用不同的診斷方法分別對監(jiān)測變量數(shù)據(jù)存在正、負漂移的情況進行診斷分析,如圖8和圖9所示。由圖8和圖9可知,對于數(shù)據(jù)存在正、負漂移的情況,除個別變量外,多數(shù)變量數(shù)據(jù)的漂移對RF方法的故障診斷影響很?。籇BN方法的診斷效果雖優(yōu)于BPNN和RBFNN方法,但波動也很大。這說明RF方法具有較強的抗噪能力,在數(shù)據(jù)漂移時的診斷分析中具有較高的精確度。

        表1 不同數(shù)據(jù)缺失情況下的診斷效果比較Table 1 Performance of different data missing

        圖7 不同數(shù)據(jù)缺失比例下不同診斷方法的平均診斷率Fig.7 Average FDR of different methods at differentdata missing ratios

        3.3 變量數(shù)據(jù)卡死

        針對監(jiān)測變量數(shù)據(jù)卡死的情況,以TE測試樣本的第100個監(jiān)測點卡死為例,各變量數(shù)據(jù)分別卡死情況下,采用RF、BPNN、RBFNN、DBN方法診斷的結(jié)果如圖10所示。由圖10可知,變量數(shù)據(jù)卡死時,RF方法的診斷效果明顯優(yōu)于其他3種方法,其平均診斷率比數(shù)據(jù)完整情況下診斷率約低0.5%。當以RF作為分類方法時,僅在變量9、21、45、51數(shù)據(jù)卡死情況下,其診斷率有較明顯的波動。DBN方法整體的診斷率的波動也比較小,但其在變量9、10、17、18、19、20、21、44、45、46、50、51、52數(shù)據(jù)卡死時的診斷效果有較明顯的下降。因此,對于變量數(shù)據(jù)卡死情況,診斷效果最好的是RF方法,其次是DBN方法。

        圖8 變量數(shù)據(jù)正漂移時不同診斷方法的診斷率Fig.8 FDR of different methods at variable data positive drifting(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

        圖9 變量數(shù)據(jù)負漂移時不同診斷方法的診斷率Fig.9 FDR of different methods at variable data negative drifting(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

        圖10 變量數(shù)據(jù)卡死情況時不同診斷方法的診斷率Fig.10 FDR of different methods at variable data stuck(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

        4 結(jié) 論

        針對TE過程數(shù)據(jù)缺失、漂移和卡死3種數(shù)據(jù)不可靠的情況,提出了基于RF的故障診斷方法。比較采用RF與BPNN、RBFNN、DBN方法對化工過程故障的診斷結(jié)果表明:在數(shù)據(jù)完整情況下,基于RF的故障診斷方法的故障診斷率最高;當數(shù)據(jù)存在不可靠的情況時,RF方法的故障識別受數(shù)據(jù)不可靠的干擾最小,診斷率波動最小,其他3種方法的診斷率明顯下降,且波動很大;隨著數(shù)據(jù)不可靠程度的上升,RF方法的故障診斷率下降速率較慢、波動較小,其他3種方法的診斷率下降速率較快,下降幅度很大,且波動明顯。因此,基于RF的故障診斷方法分類精度高、泛化能力強、對不可靠的數(shù)據(jù)的容錯能力較好。

        基于RF的故障診斷方法對絕大多數(shù)變量的數(shù)據(jù)不可靠情況保持穩(wěn)定的故障診斷率,但仍有少數(shù)變量數(shù)據(jù)不可靠會導(dǎo)致其診斷率有明顯的下降。

        猜你喜歡
        卡死診斷率決策樹
        不銹鋼螺釘卡死現(xiàn)象工藝分析與預(yù)防方法
        X 線CT聯(lián)合檢查對非典型性肺結(jié)核的臨床診斷效果研究
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        自潤滑軸承在大型四通換向閥的應(yīng)用
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        提升機雙鏈輪同步性分析及改進方法
        科技風(2017年24期)2017-05-30 17:46:16
        解決零件槽口裝配不協(xié)調(diào)的問題
        基于決策樹的出租車乘客出行目的識別
        2010~2014年中山市情感障礙住院患者的臨床特征及診斷構(gòu)成變化
        肺炎支原體抗體聯(lián)合白細胞計數(shù)、超敏C反應(yīng)蛋白檢測在小兒支原體肺炎感染診斷中的臨床價值
        久久国产自偷自免费一区100| 亚洲中文字幕高清av| 亚洲一区二区刺激的视频| 91亚洲国产成人久久精品网站| 亚洲精品综合久久中文字幕| av免费在线播放一区二区| 国产精品自产拍在线18禁 | 99精品国产高清一区二区麻豆| 亚洲国产精品无码久久电影| 国产亚洲欧洲AⅤ综合一区| 久久精品中文字幕亚洲| 免费观看国产激情视频在线观看| 91精品人妻一区二区三区久久久| 亚洲av男人的天堂一区| 亚洲av综合一区二区在线观看| 精品三级av无码一区| 国产精品美女一区二区三区| 五月中文字幕| 国产精品国产三级国产专区51区 | 亚洲一区二区三区天堂av| 日韩性感av一区二区三区| 久久中文字幕亚洲综合| 久久不见久久见免费视频6| 玩中年熟妇让你爽视频 | 国产视频网站一区二区三区 | 草逼视频免费观看网站| 新婚人妻不戴套国产精品| 99久久国产综合精品女图图等你| 午夜色大片在线观看| 熟妇人妻中文av无码| 久久成人永久免费播放| 久久精品av一区二区免费| 日韩av在线不卡一区二区| 五月天激情电影| 国产自偷亚洲精品页65页| 亚洲一区二区婷婷久久| 亚洲精品在线观看一区二区| 亚洲综合中文字幕日韩| 少妇高潮太爽了在线视频| 特级毛片爽www免费版| 久久aⅴ无码av免费一区|