亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于PCA-RFR的傳感器故障定位方法

2020-04-30 04:40:28趙忠蓋

計(jì)算機(jī)測量與控制 2020年4期

潘磊,趙忠蓋,劉飛

(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院，江蘇無錫 214122)

0 引言

隨著現(xiàn)代工業(yè)過程傳感器檢測的廣度和深度逐漸擴(kuò)展，基于數(shù)據(jù)驅(qū)動(dòng)的故障檢測和診斷方法也越來越具有吸引力，在保證工況安全運(yùn)行的同時(shí)，還能有效地提高產(chǎn)品質(zhì)量[1]。主成分分析(principal component analysis，PCA)作為一種常用的工業(yè)數(shù)據(jù)信息提取方法，可提取樣本中的特征信息和殘差信息，在過程監(jiān)控中得到了廣泛的應(yīng)用[2]。PCA方法通過提取統(tǒng)計(jì)量對過程進(jìn)行監(jiān)控，若待檢測樣本統(tǒng)計(jì)量大于統(tǒng)計(jì)量控制限，則認(rèn)為此時(shí)發(fā)生了故障[2-3]。在PCA方法檢測到故障后需要對故障進(jìn)行定位，典型的定位方法包括貢獻(xiàn)圖[4]、重構(gòu)法[5]和重構(gòu)貢獻(xiàn)[6](reconstruction- based contribution，RBC)。這些故障定位方法認(rèn)為變量貢獻(xiàn)值越大越有可能是故障變量，然而由于受到拖尾效應(yīng)的影響，一些非故障變量的貢獻(xiàn)值同樣增大并可能會(huì)超過故障變量貢獻(xiàn)值，從而導(dǎo)致誤診[2]?；赑CA的傳統(tǒng)故障定位方法的本質(zhì)是基于數(shù)據(jù)之間的相關(guān)關(guān)系而不是因果關(guān)系[7]，而這就使得其無法從根本上解決拖尾效應(yīng)的影響，從而影響其在實(shí)際應(yīng)用中的效果。

基于數(shù)據(jù)驅(qū)動(dòng)的因果分析方法由于其在厘清變量之間因果關(guān)系中的作用，近些年來，開始逐漸應(yīng)用在工業(yè)過程的故障定位與故障路徑識(shí)別中。其中，文獻(xiàn)[8]使用互相關(guān)函數(shù)法對帶時(shí)滯的變量進(jìn)行因果關(guān)系假設(shè)檢驗(yàn)，但該方法僅適用于線性系統(tǒng)。針對非線性過程，文獻(xiàn)[9]提出的傳遞熵(transfer entropy)因果分析方法對變量間傳遞的信息熵進(jìn)行因果關(guān)系假設(shè)檢驗(yàn)，但該方法易受噪聲影響，且計(jì)算量大。對此文獻(xiàn)[10]提出一種符號(hào)化傳遞熵(symbolic transfer entropy，STE)的因果分析方法，相比于傳遞熵中的核概率密度估計(jì)，該方法對序列進(jìn)行符號(hào)化來得到變量的概率分布，從而大大減小了計(jì)算量，但該方法需要優(yōu)化選擇的參數(shù)較多，并且樣本量較少時(shí)會(huì)影響估計(jì)的概率分布的準(zhǔn)確性，從而影響最終預(yù)測的結(jié)果。由于基于數(shù)據(jù)驅(qū)動(dòng)的因果分析方法都需要對變量進(jìn)行逐對分析，當(dāng)過程變量數(shù)為n，則需要求出n×(n-1)組變量之間的因果關(guān)系，然而實(shí)際工業(yè)過程故障發(fā)生后，在控制回路的作用下，收到故障影響的變量可能有限，這就會(huì)導(dǎo)致大量無用的計(jì)算，進(jìn)而影響故障定位的效率。對此文獻(xiàn)[7]提出一種利用重構(gòu)貢獻(xiàn)篩選出貢獻(xiàn)率大的故障候選變量集，再針對平穩(wěn)、非平穩(wěn)變量序列，分別使用格蘭杰因果(granger causality，GC)和動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping，DTW)對篩選出來的變量集進(jìn)行因果分析。與之相似，文獻(xiàn)[11]提出使用lasso重構(gòu)篩選故障候選變量集，再使用高斯回歸進(jìn)行故障因果分析。雖然這二種方法縮小了故障定位范圍降低了計(jì)算量，但變量篩選是否可能會(huì)遺漏掉故障變量并不可知。文獻(xiàn)[12]為降低計(jì)算量提出一種計(jì)算過程變量對于統(tǒng)計(jì)量的動(dòng)態(tài)歸一符號(hào)化傳遞熵(symbolic dynamic-based normalized transfer entropy，SDNTE)的故障定位方法，該方法僅需求得n組過程變量對于統(tǒng)計(jì)量的STE因果關(guān)系系數(shù)，從而顯著縮小了故障定位所需花費(fèi)的時(shí)間，但該方法使用的是STE方法來度量變量間的因果關(guān)系，存在前文所提的優(yōu)化選擇的參數(shù)過多、估計(jì)概率分布時(shí)對樣本需求量大等限制。因此，在SDNTE方法的框架下，如何使用一種更加簡潔并能適應(yīng)于小樣本集的方法對因果關(guān)系系數(shù)進(jìn)行度量是一個(gè)值得研究的問題。

綜上，本文在SDNTE方法的思路下提出一種基于PCA與隨機(jī)森林回歸算法(random forest regression，RFR)[13]相結(jié)合的PCA-RFR故障定位新方法，通過利用RFR的變量重要性度量得到過程變量對統(tǒng)計(jì)量的因果關(guān)系系數(shù)，辨識(shí)其中值最大的變量作為故障變量。相比于SDNTE方法，PCA-RFR無需優(yōu)化選擇參數(shù)，并且可以對小樣本集建立良好的模型。最后通過一個(gè)數(shù)值仿真，并在TE過程仿真實(shí)驗(yàn)中將本文提出的方法與RBC、GC[7]和SDNTE方法的定位效果進(jìn)行了對比，表明該方法定位效果的優(yōu)越性。

1 基本理論

1.1 基于PCA的統(tǒng)計(jì)過程監(jiān)控方法

PCA統(tǒng)計(jì)過程監(jiān)控方法是將數(shù)據(jù)投影到二個(gè)正交的主元空間和殘差空間上，并分別構(gòu)建相應(yīng)的檢測統(tǒng)計(jì)量來進(jìn)行監(jiān)控過程運(yùn)行狀況的一種方法。

假設(shè)正常工況下的樣本集為X∈Rn×m，n為樣本數(shù)，m為變量數(shù)。標(biāo)準(zhǔn)化處理后，使其均值為0標(biāo)準(zhǔn)差為1。對協(xié)方差矩陣S奇異值分解得到：

(1)

任意一個(gè)樣本可分解為：

(2)

PCA故障檢測統(tǒng)計(jì)量指標(biāo)包括T2、SPE以及φ統(tǒng)計(jì)量，其中φ統(tǒng)計(jì)量作為T2和SPE統(tǒng)計(jì)量的合成指標(biāo)，使用起來更加方便簡單[14]。

SPE統(tǒng)計(jì)量：

(3)

T2統(tǒng)計(jì)量：

T2(x)=xTPΛ-1PTx=xTDx

(4)

φ統(tǒng)計(jì)量：

(5)

1.2 RFR算法

隨機(jī)森林(random forest，RF)算法是一種由很多學(xué)習(xí)器組成的集成學(xué)習(xí)算法，它通過數(shù)據(jù)的隨機(jī)重采樣(bootstrap)和結(jié)點(diǎn)隨機(jī)分裂技術(shù)的應(yīng)用來降低決策樹之間的相關(guān)性，進(jìn)而提高模型的預(yù)測性能。RF常用于分類和回歸，基礎(chǔ)學(xué)習(xí)器使用的是分類回歸樹(classification and regression tree，CART)，它是一種結(jié)構(gòu)為二叉樹的決策樹。

對于CART回歸樹的構(gòu)建，假設(shè)x與y分別為輸入和輸出，并且是連續(xù)變量。在x所在的空間中，每個(gè)輸入特征空間被遞歸的劃分為二個(gè)子區(qū)域，并令每個(gè)子區(qū)域樣本對應(yīng)的y的均值作為輸出值，使用平方誤差最小化準(zhǔn)則進(jìn)行特征選擇，構(gòu)建二叉回歸決策樹。

RFR算法由多個(gè)CART回歸樹集成而成，具體建模過程如圖1所示。利用bootstrap重采樣出b組訓(xùn)練樣本集xi(i=1,2,…,b)和相應(yīng)的袋外數(shù)據(jù)(out-of-bag，OOB)集oobi(i=1,2,…,b)，由于是等量隨機(jī)重采樣，其中每組訓(xùn)練樣本集中會(huì)隨機(jī)抽取到原始樣本中約63%的樣本，原始樣本中剩余的37%樣本即為OOB數(shù)據(jù)。OOB數(shù)據(jù)被用來進(jìn)行模型測試以及變量重要性度量。將每組訓(xùn)練樣本使用結(jié)點(diǎn)隨機(jī)分裂技術(shù)生成CART回歸樹hi(i=1,2,…,b)，并將生成的b顆決策樹組成隨機(jī)森林回歸模型f={h1,h2,…,hb}。當(dāng)對待檢測樣本進(jìn)行預(yù)測時(shí)，將b顆決策樹預(yù)測值的均值作為最終預(yù)測結(jié)果。

圖1 隨機(jī)森林回歸模型

2 基于PCA-RFR的故障定位方法

2.1 變量重要性度量測量因果關(guān)系系數(shù)

由于PCA模型下的統(tǒng)計(jì)量是對所有過程變量在相應(yīng)空間變化信息的度量，從本質(zhì)上說，所有過程變量對于統(tǒng)計(jì)量都存在因果關(guān)系。在預(yù)測模型下，通過去除變量x的作用，判斷其對于預(yù)測輸出變量y的影響程度即可得到該變量對于y的因果關(guān)系系數(shù)。

當(dāng)對訓(xùn)練數(shù)據(jù)建立好隨機(jī)森林回歸模型后，變量重要性度量作為隨機(jī)森林回歸模型的一個(gè)屬性，通過對OOB數(shù)據(jù)中輸入變量x隨機(jī)置換后(消除變量x信息影響)對于輸出變量y預(yù)測精度的降低程度來衡量該輸入變量對于輸出變量的重要性。本文這里將其借以利用，將其作為輸入變量對于輸出變量的因果關(guān)系大小的度量。

對于變量重要性度量的計(jì)算主要分為以下4個(gè)部分：

1)對已建好的RFR模型f={h1,h2,...,hb}，將oobi(i=1,2,...,b)數(shù)據(jù)帶入相應(yīng)的決策樹進(jìn)行預(yù)測，得到均方誤差MSEi(i=1,2,..,b)，均方誤差的定義為：

(6)

3)計(jì)算決策樹hi(j=1,2,...,b)在變量xj隨機(jī)置換前后的均方誤差的差：

(7)

4)變量xj的變量重要性度量值：

(8)

SDNTE方法在計(jì)算變量間因果關(guān)系系數(shù)時(shí)需要對符號(hào)數(shù)、窗口大小等參數(shù)進(jìn)行優(yōu)化選擇，同時(shí)需求大量樣本建立概率統(tǒng)計(jì)模型，文獻(xiàn)[12]中使用多達(dá)72 000組樣本。相比較而言，變量重要性度量的計(jì)算就要簡單容易的多，無需優(yōu)化選擇參數(shù)，隨機(jī)森林回歸模型一旦建好，即可得到變量重要性度量的數(shù)值，同時(shí)也能應(yīng)用在少量樣本場合，如對幾百個(gè)樣本便可建立良好的模型。由于隨機(jī)森林回歸通過并行構(gòu)建決策樹，這使得模型的構(gòu)建也非常快速。

2.2 基于PCA-RFR的故障定位流程

PCA模型下的混合指標(biāo)φ是對樣本在主元和殘差空間變化程度的度量，當(dāng)發(fā)生故障時(shí)，φ統(tǒng)計(jì)量會(huì)增加并超過控制限，通過判斷過程變量對于統(tǒng)計(jì)量指標(biāo)φ的因果關(guān)系系數(shù)大小就可以進(jìn)一步辨識(shí)出故障變量。

本文首先通過PCA模型篩選出發(fā)生故障的數(shù)據(jù)段，再將故障數(shù)據(jù)段的過程變量作為輸入，對應(yīng)的φ統(tǒng)計(jì)量作為輸出建立RFR模型，最后通過模型的變量重要性度量系數(shù)值，系數(shù)值越大則表明該變量越有可能是引起φ統(tǒng)計(jì)量變化的變量，因此可將其辨識(shí)為故障變量。

基于PCA-RFR的因果分析故障定位流程如圖2所示。具體步驟如下：

1)對工業(yè)過程的正常歷史樣本數(shù)據(jù)建立PCA模型，并得到統(tǒng)計(jì)量φ的控制限。

2)結(jié)合建立好的PCA模型和φ統(tǒng)計(jì)量控制限對離線采集數(shù)據(jù)進(jìn)行故障檢測，篩選出故障數(shù)據(jù)段并得到與其對應(yīng)的φ統(tǒng)計(jì)量。

3)建立故障數(shù)據(jù)段的過程變量與φ統(tǒng)計(jì)量的RFR模型。

4)通過模型得到過程變量的變量重要性度量，對于變量重要性度量值最大的變量辨識(shí)為故障變量。

圖2 基于隨機(jī)森林回歸的故障定位方法流程

3 仿真

3.1 數(shù)值仿真

參照文獻(xiàn)[6]的數(shù)值仿真案例，其系統(tǒng)結(jié)構(gòu)如式(9)所示：

(9)

其中:t1,t2和t3為均值為0，標(biāo)準(zhǔn)差分別為1，0.8，0.6的隨機(jī)變量。噪聲的均值為0，標(biāo)準(zhǔn)差為0.2。

通過對該仿真模型生成1000組正常樣本并建立PCA模型。再通過對變量x3添加一個(gè)均值為0標(biāo)準(zhǔn)差為1的隨機(jī)故障，生成1000組故障樣本，建立該1000組故障樣本變量數(shù)據(jù)與其φ統(tǒng)計(jì)量的隨機(jī)森林回歸模型，得到6個(gè)輸入變量的變量重要性度量如圖3所示，由圖可知，PCA-RFR算法可以得到故障變量3的準(zhǔn)確定位。

圖3 數(shù)值仿真變量重要性度量

3.2 TE過程仿真

Tenessee Eastman(TE)過程是一個(gè)由納西-伊斯曼公司公開的基于實(shí)際化工生產(chǎn)過程仿真系統(tǒng)，TE過程很好地模擬了實(shí)際復(fù)雜工業(yè)過程的主要特征，因此被廣泛地應(yīng)用于控制、優(yōu)化、過程監(jiān)控和故障診斷的研究中，其過程流程參見文獻(xiàn)[17]。TE過程共有5個(gè)操作單元組成：反應(yīng)器、分離器、循環(huán)壓縮機(jī)、汽提塔和冷凝器。包含41個(gè)測量變量和12個(gè)控制變量，其中測量變量又分為22個(gè)過程測量變量和19個(gè)成分測量變量。TE過程有21種故障類型，包括階躍、隨機(jī)、緩慢漂移、閥粘滯等故障類型。

因?yàn)榛跀?shù)據(jù)驅(qū)動(dòng)的因果分析方法大多存在變量序列為平穩(wěn)的限制，因此，本文采用22個(gè)連續(xù)過程測量變量進(jìn)行研究，選擇故障8-12共5種隨機(jī)故障進(jìn)行分析。正常和故障條件下的運(yùn)行時(shí)間都為960個(gè)時(shí)刻，采樣時(shí)間為3分鐘，其中故障均從160時(shí)刻加入。

首先對正常數(shù)據(jù)建立PCA模型，選擇故障條件下第161到960時(shí)刻共800個(gè)樣本作為故障樣本集，然后將故障樣本集的過程變量作為輸入，對應(yīng)的φ統(tǒng)計(jì)量作為輸出建立隨機(jī)森林回歸模型。隨機(jī)森林回歸算法在Sklearn機(jī)器學(xué)習(xí)庫中決策樹數(shù)量的默認(rèn)參數(shù)為10顆，為了保證模型預(yù)測性能，這里將決策樹數(shù)量參數(shù)選擇為100顆。

故障11是反應(yīng)器冷卻水入口溫度變化的隨機(jī)故障，直接與之相關(guān)聯(lián)的變量是變量x9(反應(yīng)器溫度)和變量x21(反應(yīng)器冷卻水出口溫度)?；贕C、RBC、SDNTE以及PCA-RFR方法對故障11的故障定位結(jié)果分別如圖4的(a)、(b)、(c)、(d)所示，其中GC因果分析方法首選通過篩選出故障候選變量集x3,x4,x5.x6,x8,x9,x14,x17，再通過變量間的因果關(guān)系指向識(shí)別出故障變量x9，但圖中其余的孤立變量，無法判斷其中是否存在故障變量。其余三種方法雖然同樣都實(shí)現(xiàn)了故障變量x9的識(shí)別，但PCA-RFR對于變量x9的定位效果要明顯更加突出。

圖4 故障11的故障定位

故障12是冷凝器冷卻水入口溫度變化的隨機(jī)故障，通過影響冷凝器對氣體的冷凝效果直接影響到下游的變量x13(分離器壓力變量)。基于GC、RBC、SDNTE以及PCA-RFR方法對故障11的故障定位結(jié)果分別如圖5的(a)、(b)、(c)、(d)所示。其中GC方法定位出故障變量x12，篩選變量時(shí)遺漏了故障變量x13,基于RBC方法定位出故障變量x15，基于SDNTE方法定位出故障變量x22,而基于PCA-RFR方法定位出故障x13。因此，對于故障12僅有PCA-RFR實(shí)現(xiàn)了對故障變量的準(zhǔn)確識(shí)別。

對于TE過程的5種隨機(jī)故障，基于GC、RBC、SDNTE和PCA-RFR方法故障定位結(jié)果如表1所示。通過對比可以看出僅有PCA-RFR實(shí)現(xiàn)了對所有故障變量的準(zhǔn)確識(shí)別。其在這5組故障中的定位效果要明顯優(yōu)于其他方法，驗(yàn)證了該方法的有效性和優(yōu)越性。

表1 故障定位方法對比

4 結(jié)束語

提出了一種基于PCA-RFR的故障定位新方法，該方法利用變量重要性度量來衡量故障數(shù)據(jù)中過程變量對于φ統(tǒng)計(jì)量的因果關(guān)系大小，認(rèn)定其中值越大的變量越有可能是故障變量。通過仿真實(shí)驗(yàn)驗(yàn)證了PCA-RFR方法在故障定位中的有效性。但該方法目前僅應(yīng)用于離線數(shù)據(jù)故障定位中，基于隨機(jī)森林回歸模型的在線故障定位還有待進(jìn)一步的研究。