鄭文靜,李紹軍,蔣達(dá)
(華東理工大學(xué)化工過(guò)程先進(jìn)控制和優(yōu)化技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,上海 200237)
D-vine copulas混合模型及其在故障檢測(cè)中的應(yīng)用
鄭文靜,李紹軍,蔣達(dá)
(華東理工大學(xué)化工過(guò)程先進(jìn)控制和優(yōu)化技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,上海 200237)
過(guò)程監(jiān)控技術(shù)是保證現(xiàn)代流程工業(yè)安全平穩(wěn)運(yùn)行及產(chǎn)品質(zhì)量的有效手段。傳統(tǒng)的過(guò)程監(jiān)控方法大多采用維度約簡(jiǎn)方法提取數(shù)據(jù)特征,且要求過(guò)程數(shù)據(jù)必須服從高斯分布、線性等限制條件,對(duì)復(fù)雜工況條件下發(fā)生的故障難以取得較好的檢測(cè)效果。因此,提出了混合D-vine copulas故障診斷模型,在不降維的情況下直接刻畫(huà)數(shù)據(jù)中存在的復(fù)雜相關(guān)關(guān)系,構(gòu)建過(guò)程變量的統(tǒng)計(jì)模型實(shí)現(xiàn)對(duì)存在非線性與非高斯性過(guò)程的精確描述。通過(guò)EM算法和偽極大似然估計(jì)優(yōu)化混合模型參數(shù),然后結(jié)合高密度區(qū)域(HDR)與密度分位數(shù)法等理論,構(gòu)建廣義貝葉斯概率(GBIP)指標(biāo)實(shí)現(xiàn)對(duì)過(guò)程的實(shí)時(shí)監(jiān)測(cè)。數(shù)值例子及在TE過(guò)程上的仿真結(jié)果說(shuō)明了該混合模型的有效性及在故障檢測(cè)中的良好性能。
過(guò)程監(jiān)控;非線性非高斯;相關(guān)性分析;D-vine copulas
化工過(guò)程行業(yè)日益增多的安全事故使人們關(guān)注的焦點(diǎn)轉(zhuǎn)向了研究如何保證生產(chǎn)過(guò)程的安全性、可持續(xù)性和穩(wěn)定性上。實(shí)時(shí)的過(guò)程監(jiān)控是保證工業(yè)過(guò)程安全平穩(wěn)運(yùn)行以及產(chǎn)品質(zhì)量的關(guān)鍵技術(shù)和有效手段[1]。隨著實(shí)時(shí)數(shù)據(jù)采集系統(tǒng)及數(shù)據(jù)處理技術(shù)在流程工業(yè)中的廣泛應(yīng)用,基于數(shù)據(jù)驅(qū)動(dòng)的過(guò)程監(jiān)控技術(shù)也得到迅速發(fā)展。其中,多變量統(tǒng)計(jì)過(guò)程監(jiān)測(cè)方法(multivariate statistical process monitoring,MSPM)利用多元投影技術(shù)將高維數(shù)據(jù)空間投影到低維的特征空間,提取數(shù)據(jù)特征進(jìn)行統(tǒng)計(jì)建模實(shí)現(xiàn)對(duì)過(guò)程的監(jiān)測(cè),已成為過(guò)程監(jiān)控領(lǐng)域的研究熱點(diǎn)[2]。此類(lèi)算法通常假定過(guò)程變量之間是線性相關(guān)的且變量均服從高斯分布。然而實(shí)際過(guò)程比模型假設(shè)更為復(fù)雜,對(duì)于存在非線性、非高斯特性的工業(yè)過(guò)程難以取得較好的監(jiān)測(cè)效果。針對(duì)如何處理這些約束問(wèn)題,許多新的過(guò)程監(jiān)控方法也相繼提出,如基于神經(jīng)網(wǎng)絡(luò)的非線主元分析(principal component analysis,PCA)方法[3]、基于支持向量機(jī)的核PCA(kernel principal component analysis,KPCA)方法[4]用來(lái)解決非線性問(wèn)題,Cai等[5]提出的基于魯棒獨(dú)立成分分析(independent component analysis,ICA)方法通過(guò)穩(wěn)健白化算法提取非高斯特征、Ge等[6]研究的基于 ICA-PCA兩步信息提取策略的過(guò)程監(jiān)測(cè)方法來(lái)處理非高斯問(wèn)題。然而降維或去耦合過(guò)程仍是MSPM的主要思想。盡管這些改進(jìn)方法在不同程度上提升了監(jiān)測(cè)效果,但降維的過(guò)程必定會(huì)帶來(lái)信息損失。在不降維的情況下直接利用數(shù)據(jù)的分布信息刻畫(huà)數(shù)據(jù)存在的復(fù)雜相關(guān)性行為,構(gòu)建數(shù)據(jù)的分布模型進(jìn)行過(guò)程監(jiān)測(cè)具有很大的發(fā)展?jié)摿Α?/p>
近年來(lái),copula作為一種用于描述復(fù)雜隨機(jī)變量之間的相關(guān)性的有效統(tǒng)計(jì)工具,越來(lái)越廣泛應(yīng)用在經(jīng)濟(jì)、金融和氣象學(xué)中,甚至化工過(guò)程系統(tǒng)中[7-9]。而傳統(tǒng)多元 copula(如多元正態(tài) copula、多元t-copula、多元Archimedean copula等)理論因其繁瑣、低效的優(yōu)化過(guò)程目前很少應(yīng)用在過(guò)程監(jiān)測(cè)領(lǐng)域。1996年,Joe[10]提出了vine結(jié)構(gòu)來(lái)分析不同的相關(guān)性結(jié)構(gòu),將多元copula分解成若干個(gè)二元copula的組合形式,高維變量的相關(guān)性?xún)?yōu)化問(wèn)題則相應(yīng)地轉(zhuǎn)化成一系列二元copula的參數(shù)優(yōu)化問(wèn)題,極大地降低了計(jì)算復(fù)雜度。有限元混合模型由于其較強(qiáng)的靈活性廣泛用于復(fù)雜多元數(shù)據(jù)的統(tǒng)計(jì)建模中,出現(xiàn)了將copula理論與有限元混合模型結(jié)合并應(yīng)用在模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域[11-13]。例如,Nguyen等[14]建立了 Clayton、Frank、Gumbel和 Joe copulas的混合模型用于捕獲股票市場(chǎng)和黃金價(jià)格之間的相關(guān)信息,以?xún)?yōu)化組合投資和風(fēng)險(xiǎn)評(píng)估。Nikoloulopoulos等[15]提出有限正態(tài)混合copulas的多元離散數(shù)據(jù)建模并詳細(xì)分析了混合模型的優(yōu)良性質(zhì)。
本研究提出了D-vine copulas混合模型,對(duì)多維數(shù)據(jù)的內(nèi)在相關(guān)結(jié)構(gòu)進(jìn)行分析,選擇典型的D-vine copula進(jìn)行建模。將D-vine copula與有限元混合模型相結(jié)合,不僅能更全面挖掘隨機(jī)變量間不同的相關(guān)性結(jié)構(gòu),而且為統(tǒng)計(jì)建模賦予了更強(qiáng)的靈活性。針對(duì)復(fù)雜工業(yè)過(guò)程數(shù)據(jù)建立 D-vine copulas混合模型,并結(jié)合高密度區(qū)域(HDR)與密度分位數(shù)法等理論,構(gòu)建了廣義貝葉斯推斷概率(GBIP)指標(biāo)[16],通過(guò)查詢(xún)靜態(tài)密度分位數(shù)表對(duì)混合模型下存在非線性、非高斯特性的故障數(shù)據(jù)進(jìn)行故障檢測(cè)。在數(shù)值例子及TE過(guò)程中的應(yīng)用,表明該混合模型在過(guò)程監(jiān)控中有較好的檢測(cè)效果。
copula理論最早是由Sklar[17]于1959年提出的一種用于描述變量之間相關(guān)性的統(tǒng)計(jì)理論。根據(jù)Sklar定理,copu la是以服從均勻分布U[0, 1]的邊緣分布函數(shù)為自變量而構(gòu)成的多元分布函數(shù),將聯(lián)合分布函數(shù)用各變量的邊緣分布函數(shù)和其相關(guān)性結(jié)構(gòu)(即 copula函數(shù))進(jìn)行替代。對(duì)于 d維隨機(jī)變量其聯(lián)合分布函數(shù)可以表示為[18]
ui是第i個(gè)變量的邊緣累積分布函數(shù),滿足
其中,fi(xi)為第i個(gè)變量xi的邊緣概率密度函數(shù)。C表示多元copula函數(shù),若各個(gè)變量的邊緣累積分布函數(shù)連續(xù),那么有唯一一個(gè)copula函數(shù)與其相對(duì)應(yīng)。如果C可微,則各隨機(jī)變量相對(duì)應(yīng)的聯(lián)合概率密度函數(shù)(probability distribution function,PDF)
式(3)中的密度函數(shù)c定義為
一旦copula的結(jié)構(gòu)和參數(shù)確定,多維數(shù)據(jù)的聯(lián)合密度分布函數(shù)就可以通過(guò)式(3)獲得。顯然,隨著變量維數(shù)的增加,利用樣本數(shù)據(jù)擬合式(4)的求解過(guò)程會(huì)變得更加困難,造成傳統(tǒng)多元copula計(jì)算量增加的問(wèn)題。
1.1 二元copula結(jié)構(gòu)
在copula族中,用于刻畫(huà)二元隨機(jī)變量相關(guān)性結(jié)構(gòu)的二元 copula是最為常見(jiàn)也最為簡(jiǎn)單的一類(lèi)copula,其優(yōu)化過(guò)程是一個(gè)易于實(shí)現(xiàn)的問(wèn)題。vine copula模型可將一個(gè)多元聯(lián)合分布分解成多個(gè)二元copula函數(shù)和各個(gè)變量邊緣分布的組合形式。此時(shí)高維變量的相關(guān)性?xún)?yōu)化問(wèn)題則相應(yīng)地轉(zhuǎn)化成一系列二元 copula的參數(shù)估計(jì)問(wèn)題。對(duì)于 d維隨機(jī)向量其PDF可以分解成如下形式
進(jìn)一步分解式(5)中的條件分布[19],有
其中,v=x-i表示不包括變量xi的d-1維向量,vj為向量v中的任意一個(gè)元素,v-j為v去掉元素vj后所得的向量,ci,j|v-j為對(duì)應(yīng)的條件二元copula密度。
常見(jiàn)的二元copula有Elliptical族(包括Gaussian、Student-t等二元copula)與Archimedean族(包括Clayton、Gumbel、Frank 等二元 copula)[20]。
1.2 D-vine copula
采用D-vine copula來(lái)描述d個(gè)變量之間相關(guān)性時(shí),該相關(guān)性模型由d-1棵樹(shù)組成每棵樹(shù)由節(jié)點(diǎn)和連接節(jié)點(diǎn)的邊組成,T1樹(shù)上的節(jié)點(diǎn)表示變量,邊表示變量之間的相關(guān)關(guān)系,即二元copula對(duì)。第1棵樹(shù)以外的其他節(jié)點(diǎn)選自于上一棵樹(shù)的對(duì)應(yīng)邊,整個(gè)模型共包含d(d-1)/2個(gè)二元copula函數(shù)。D-vine copula結(jié)構(gòu)的聯(lián)合密度函數(shù)的表達(dá)式為
其中,θ表示相對(duì)應(yīng)的copula參數(shù)。與式(3)相比,d維copula密度函數(shù)即轉(zhuǎn)化為式(7)中個(gè)二元copula(即)相乘的形式,避免了式(4)中的多次求導(dǎo)過(guò)程。
式(7)中的二元copula包含了條件分布函數(shù),如何分析這些條件分布函數(shù)直接關(guān)系到模型的可實(shí)現(xiàn)性。Aas等[21]提出了計(jì)算上述條件分布函數(shù)的 h函數(shù),具體表達(dá)形式如下
D-vine copula中一系列的條件分布函數(shù)均是基于式(8)迭代計(jì)算獲得。
為了便于理解,以四維變量為例,圖1展示了D-vine copula的結(jié)構(gòu)分解圖。如圖所示,四維D-vine copula的分解結(jié)構(gòu)有3棵樹(shù),樹(shù)Tj由5-j個(gè)節(jié)點(diǎn)和4-j條邊組成,每條邊代表一個(gè)二元copula函數(shù),整個(gè)D-vine結(jié)構(gòu)共需要確定6個(gè)二元copula函數(shù)。樹(shù)Tj是在樹(shù)Tj-1的基礎(chǔ)上確定的,樹(shù)T1的節(jié)點(diǎn)和邊確定之后才能確定樹(shù)T2,然后再往下逐層推導(dǎo)。
圖1 四維D-vine copula結(jié)構(gòu)圖Fig.1 Graphical model of four-dimensional D-vine copula
φ表示D-vine密度的所有參數(shù)集。
vine copula函數(shù)在刻畫(huà)復(fù)雜變量之間的高度非線性及尾部特性等方面具有很好的性能,而且在構(gòu)建多變量相關(guān)結(jié)構(gòu)上具有更強(qiáng)的靈活性。將D-vine copula與混合模型相結(jié)合,不僅可以更全面地刻畫(huà)復(fù)雜數(shù)據(jù)間內(nèi)在的相關(guān)性結(jié)構(gòu),還可以表示出任意復(fù)雜的概率密度函數(shù)。在此分布模型的基礎(chǔ)上,利用高密度區(qū)域知識(shí)及密度分位數(shù)理論構(gòu)建基于概率的檢測(cè)指標(biāo),實(shí)現(xiàn)對(duì)過(guò)程數(shù)據(jù)的實(shí)時(shí)估計(jì)。
2.1 D-vine copulas混合模型及參數(shù)估計(jì)
2.1.1 EM 算法 作為處理有限混合模型的通用方法,這里也采用EM算法來(lái)估計(jì)給定的M元D-vine混合模型的參數(shù) φ,通過(guò)極大似然估計(jì)的方法進(jìn)行參數(shù)估計(jì)。
引入潛在變量zn=(zn1,…,znm,…,znM),若第 n個(gè)觀測(cè)值xn產(chǎn)生于第m個(gè)D-vine元,則znm=1,否則znm=0。假設(shè)zn相互獨(dú)立且服從多項(xiàng)分布,即zn~Mult(M,π=(π1,…,πm))。完備數(shù)據(jù)(xn,zn)的對(duì)數(shù)似然函數(shù)lc(φ)為[23]
通過(guò)EM算法來(lái)估計(jì)M元D-vine混合模型的參數(shù),具體步驟如下。
給定參數(shù)的初始值φ(0),然后重復(fù) E-步、M-步迭代計(jì)算得到連續(xù)的參數(shù)估計(jì)值φ(s),s=1,2,…。E-步:在給定的觀測(cè)數(shù)據(jù)和當(dāng)前的參數(shù)估計(jì)值φ(s)下,計(jì)算對(duì)數(shù)似然函數(shù)lc(φ)的條件期望,即計(jì)算在當(dāng)前參數(shù)估計(jì)值下的觀測(cè)值xn屬于第 m個(gè) D-vine元的后驗(yàn)概率M-步:通過(guò)最大化E-步的期望對(duì)數(shù)似然函數(shù),單獨(dú)計(jì)算每個(gè)D-vine元的參數(shù)估計(jì)值(,…,)和權(quán)重參數(shù)第m個(gè)D-vine元的copula密度參數(shù)相當(dāng)于式(7)通過(guò)加權(quán)后的參數(shù)估計(jì)值。R軟件中的優(yōu)化函數(shù)optim和constrOptim可以用來(lái)最大化式(12)中對(duì)應(yīng)于參數(shù)θm的第2項(xiàng),得到第m個(gè)D-vine元的copula參數(shù)。
對(duì)于性能較好的EM算法,式(11)的似然函數(shù) l(θ)在迭代過(guò)程中會(huì)不斷增大直至收斂,即l(θ(s+1))≥l(θ(s))。因此,迭代終止條件可設(shè)為讓l(θ(s+1))l(θ(s))的值小于一個(gè)預(yù)先設(shè)定的允許值,如0.00001。有限元混合模型的似然函數(shù)存在多個(gè)局部最大值[24]。所以,在給定初始值下執(zhí)行EM算法,在找到的多個(gè)局部最大值中選取一個(gè)使對(duì)數(shù)似然函數(shù)最大的一組解作為最優(yōu)解。初始值:本文應(yīng)用K-means算法獲得初步的聚類(lèi),K-means算法可以看作是一次硬性的 E-步。進(jìn)行K-means聚類(lèi)后,后驗(yàn)概率為
2.1.2 模型的選取 不同結(jié)構(gòu)的二元copula對(duì)應(yīng)著不同類(lèi)型的相關(guān)性結(jié)構(gòu),尤其是在對(duì)尾部相關(guān)關(guān)系的描述上。如 Clayton能夠刻畫(huà)二維數(shù)據(jù)的低尾相關(guān)性,Gumbel能刻畫(huà)高尾相關(guān)性,而 Gaussian則不具備刻畫(huà)數(shù)據(jù)尾部相關(guān)性的能力。由于混合模型相關(guān)性結(jié)構(gòu)的異構(gòu)性不可觀測(cè),不能獲得單個(gè)數(shù)據(jù)點(diǎn)對(duì)相關(guān)性結(jié)構(gòu)貢獻(xiàn)率的先驗(yàn)信息。為簡(jiǎn)化優(yōu)化過(guò)程,避免優(yōu)化過(guò)程過(guò)于繁瑣,縮短優(yōu)化時(shí)間,選取4 種典型的二元 copula(Gaussian、Clayton、Gumbel、Frank)作為D-vine copulas混合模型中二元copula的備選類(lèi)型,并且假設(shè)每個(gè) D-vine元的所有二元copula類(lèi)型相同。
在選定的二元 copula下,混合模型的 D-vine元個(gè)數(shù) M 的取值范圍為 1~M*。M*一般設(shè)置在3~5之間,M*值設(shè)置過(guò)小不利于變量間復(fù)雜相關(guān)性結(jié)構(gòu)刻畫(huà),M*值設(shè)置過(guò)大又會(huì)導(dǎo)致過(guò)擬合現(xiàn)象,也會(huì)造成計(jì)算量的徒然增加。當(dāng)M=1時(shí),M 元D-vine copulas混合模型就退化成單個(gè) D-vine copula模型。如果每個(gè)D-vine元的二元copula個(gè)數(shù)為S,則可選的整個(gè)混合模型的個(gè)數(shù)為SM*×。
為了確定混合模型的D-vine元個(gè)數(shù)M及每個(gè)D-vine元中二元copula的類(lèi)型,這里采用應(yīng)用最為廣泛的模型選取準(zhǔn)則:赤池信息準(zhǔn)則(Akaike information criterion,AIC)[26]。
從S×M*個(gè)混合模型中選擇最合適的模型(D-vine元個(gè)數(shù)M及二元copula類(lèi)型),找到使模型選取準(zhǔn)則AIC取值最小的混合模型。
2.2 故障檢測(cè)指標(biāo)的構(gòu)建
本節(jié)的主要目的是在D-vine copulas混合模型的基礎(chǔ)上,實(shí)現(xiàn)對(duì)非線性、非高斯過(guò)程的故障檢測(cè)。這種基于概率的過(guò)程監(jiān)測(cè)的關(guān)鍵任務(wù)是設(shè)計(jì)出當(dāng)前樣本數(shù)據(jù)距離正常數(shù)據(jù)分布的概率性度量指標(biāo)。Ren等[16]提出的VCDD過(guò)程監(jiān)測(cè)方法實(shí)際上就是一種基于數(shù)據(jù)分布模型的過(guò)程監(jiān)測(cè)方法。該監(jiān)測(cè)方法根據(jù)高密度區(qū)域(HDR)與密度分位數(shù)法等理論,構(gòu)建了廣義貝葉斯推斷概率(GBIP)指標(biāo),通過(guò)查詢(xún)靜態(tài)密度分位數(shù)表的形式,實(shí)現(xiàn)對(duì)過(guò)程的實(shí)時(shí)監(jiān)測(cè)。
假設(shè)過(guò)程存在M個(gè)D-vine元Dm(m=1,2,…,M),各過(guò)程變量間存在復(fù)雜的非線性相關(guān)性。定義第m個(gè)D-vine元Dm的聯(lián)合PDF為fm(x),GBIP指標(biāo)定義如下
其中,P(Dm|xt)表示當(dāng)前監(jiān)控?cái)?shù)據(jù) xt屬于第 m 個(gè)D-vine元Dm的后驗(yàn)概率
下的樣本空間且區(qū)域內(nèi)每個(gè)點(diǎn)的概率密度要大于等于區(qū)域外的點(diǎn)的概率密度。xt關(guān)于D-vine元Dm的GLP指標(biāo)定義為
其中fm(x)表示d維隨機(jī)變量x經(jīng)過(guò)自身PDF映射后的一維隨機(jī)向量。最后利用離線建立好的靜態(tài)密度分位數(shù)表計(jì)算出GLP指標(biāo)的區(qū)間估計(jì)值,對(duì)于給定的控制限 CL[CL(0, 1)],判斷最終計(jì)算出的GBIP指標(biāo)是否超過(guò)了控制限,更多詳細(xì)過(guò)程可參見(jiàn)文獻(xiàn)[16]。
2.3 基于D-vine copulas混合模型的故障檢測(cè)算法流程
基于D-vine copulas混合模型的故障檢測(cè)過(guò)程分為兩個(gè)階段:離線建模和在線監(jiān)控,具體實(shí)現(xiàn)步驟總結(jié)如下。
離線建模:
(1)獲得正常工況下測(cè)試數(shù)據(jù)的正則化秩。(2)從備選二元 copula中為混合模型選擇不同的二元copula類(lèi)型。
(3)在選定的二元 copula下,確定混合模型的D-vine元個(gè)數(shù)M,M的取值可由1到M*。
(4)根據(jù)AIC準(zhǔn)則選取,從SM*×個(gè)混合模型中選擇最終模型。
(5)對(duì)于給定的控制限CL,計(jì)算訓(xùn)練樣本的聯(lián)合PDF值,構(gòu)建過(guò)程的靜態(tài)密度分位數(shù)表。
在線監(jiān)測(cè):
(1)利用式(16)結(jié)合密度分位數(shù)表計(jì)算當(dāng)前監(jiān)測(cè)數(shù)據(jù)的GBIP指標(biāo)。
(2)判斷GBIP指標(biāo)是否超限,完成在線的實(shí)時(shí)過(guò)程監(jiān)控。
本章通過(guò)數(shù)值案例及在TE過(guò)程中的應(yīng)用驗(yàn)證混合D-vine copulas模型的有效性及在處理具有非高斯、非線性的過(guò)程數(shù)據(jù)的故障檢測(cè)中的良好性能。并分別與有限元高斯混合模型(finite Gaussian mixture models,F(xiàn)GMM)方法[28]和KPCA方法[29]作對(duì)比,表明該混合模型取得了較好的檢測(cè)效果。
3.1 數(shù)值實(shí)例
通過(guò) R軟件的 CDVine軟件包中的函數(shù)CDVineSim生成測(cè)試數(shù)據(jù):500組觀測(cè)數(shù)據(jù)產(chǎn)生于二元(M2)三維(d3)D-vine密度函數(shù),兩個(gè)D-vine元具有相同的比例(π1=π2=0.5),各D-vine元的所有二元copula類(lèi)型為Frank copulas。對(duì)測(cè)試數(shù)據(jù)的設(shè)定如下:過(guò)程在初始的前 50時(shí)刻正常運(yùn)行,然后在接下來(lái)的100個(gè)時(shí)刻,變量X1被賦予一個(gè)0.5的偏移項(xiàng)與一個(gè)非線性漂移項(xiàng)(故障1),然后過(guò)程恢復(fù)正常,在最后的150時(shí)刻,給以變量X2一個(gè)4的偏移(故障2),變量X3始終處于正常狀態(tài)。圖2給出了500組測(cè)試數(shù)據(jù)的時(shí)序圖(故障數(shù)據(jù)已用紅色標(biāo)記)。
圖2 數(shù)值例子測(cè)試數(shù)據(jù)時(shí)序圖Fig.2 Time-series plots of testing data for numerical example
FGMM是建立混合模型的常見(jiàn)方法,通常用來(lái)處理非高斯問(wèn)題。而KPCA方法則是一種非線性方法,其主要思想是將向量空間中的隨機(jī)向量通過(guò)一個(gè)非線性函數(shù)映射到高維特征空間中,然后在高維空間中進(jìn)行線性方法研究[29]。為了驗(yàn)證 D-vine copulas混合模型在故障檢測(cè)中的有效性,用FGMM與KPCA方法作為對(duì)比。注意,因?yàn)榇藴y(cè)試數(shù)據(jù)來(lái)源于一個(gè)模態(tài),只涉及利用 HDR建立密度分位數(shù)表的過(guò)程,F(xiàn)GMM 模型中 BIP指標(biāo)就相應(yīng)變成了GLP指標(biāo)。
圖3給出了上述3種方法(FGMM、KPCA、MD-vine)的實(shí)時(shí)監(jiān)控圖(置信水平0.95)。
為了量化不同方法的檢測(cè)效果,表1統(tǒng)計(jì)了3種方法的監(jiān)測(cè)評(píng)價(jià)指標(biāo):故障檢測(cè)率(fault detection rates,F(xiàn)DR)和誤報(bào)率(missing detection rates,MDR)。
檢測(cè)結(jié)果表明,對(duì)于故障1(線性漂移),基于MD-vine模型的故障檢測(cè)方法較FGMM與KPCA方法,故障檢測(cè)率有明顯提高,誤報(bào)率也相應(yīng)降低。3種檢測(cè)方法都能實(shí)現(xiàn)對(duì)故障2(偏移)的完全檢測(cè),但 MD-vine模型的誤報(bào)率最低,說(shuō)明了 D-vine copulas混合模型通過(guò)準(zhǔn)確刻畫(huà)出數(shù)據(jù)的分布形式及復(fù)雜相關(guān)性,找到適用于任意分布的概率性指標(biāo),提高了過(guò)程的監(jiān)測(cè)效果。
3.2 TE過(guò)程
TE過(guò)程是由 Eastman化學(xué)公司創(chuàng)建的一個(gè)用于評(píng)價(jià)過(guò)程控制和監(jiān)控方法的仿真系統(tǒng),能較好地模擬實(shí)際復(fù)雜工業(yè)過(guò)程系統(tǒng),作為仿真例子在過(guò)程監(jiān)控領(lǐng)域得到了廣泛的應(yīng)用[30]。TE過(guò)程包含41個(gè)測(cè)試變量和12個(gè)操作變量以及21種過(guò)程故障,本研究采用了測(cè)試變量中的 22個(gè)連續(xù)過(guò)程變量進(jìn)行分析。在正常運(yùn)行狀態(tài)下,采集500組數(shù)據(jù)作為訓(xùn)練樣本,采樣間隔為 3 min。測(cè)試數(shù)據(jù)集包含 960個(gè)數(shù)據(jù)樣本,在第161個(gè)樣本點(diǎn)引入故障。
圖3 數(shù)值例子基于不同方法的實(shí)時(shí)檢測(cè)圖Fig.3 Real-time monitoring charts based on different methods for numerical example
表1 數(shù)值例子監(jiān)控效果對(duì)比分析Table 1 Monitoring performance analysis in comparison study for numerical example
對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行離線建模,建立靜態(tài)密度分位數(shù)表,然后對(duì)測(cè)試數(shù)據(jù)進(jìn)行在線監(jiān)測(cè),并分別與FGMM和 KPCA方法作對(duì)比。其中,KPCA選取85%的主元,核函數(shù)采用高斯核函數(shù)圖4為3種監(jiān)測(cè)方法對(duì)故障20的實(shí)時(shí)監(jiān)測(cè)圖(置信水平 0.98)。顯然,MD-vine在開(kāi)始階段的檢測(cè)率明顯高于 FGMM 方法,且兩種方法的檢測(cè)效果均顯著優(yōu)于KPCA方法。
圖4 3種監(jiān)控方法對(duì)故障20的實(shí)時(shí)檢測(cè)圖Fig.4 Real-time monitoring charts based on three methods for fault 20
TE過(guò)程21個(gè)故障中,故障1~7為階躍變化,故障8~12是隨機(jī)性故障,故障13是反應(yīng)動(dòng)力學(xué)中的緩慢漂移,故障14、15和21是與閥黏滯有關(guān)的故障,故障16~20未知[31]。表2給出3種方法對(duì)各種不同類(lèi)型的故障都給出了一些具有代表性的檢測(cè)結(jié)果。
由表2可以看出,對(duì)于故障1、6、8、13、14,3種檢測(cè)方法都能取得很好的、相近的檢測(cè)效果;對(duì)于較難檢測(cè)的故障 4、15,均未取得較好的檢測(cè)結(jié)果,但相對(duì)而言,MD-vine方法檢測(cè)率略好;而對(duì)于故障10、16、19、20及21,MD-vine方法與另外兩種方法相比有較明顯的優(yōu)勢(shì)??傮w看來(lái),本研究提出的基于MD-vine模型的故障檢測(cè)方法較兩種傳統(tǒng)監(jiān)測(cè)方法的監(jiān)控性能有所提升。對(duì)于具有非高斯特征的數(shù)據(jù),F(xiàn)GMM中基于馬氏距離的概率指標(biāo)刻畫(huà)異常數(shù)據(jù)點(diǎn)的能力降低,而KPCA在數(shù)據(jù)變換和特征提取的過(guò)程中必然造成數(shù)據(jù)信息的缺失。D-vine copulas混合模型充分利用變量間的相關(guān)關(guān)系,準(zhǔn)確刻畫(huà)出數(shù)據(jù)間的分布信息,并且在檢測(cè)方法上采用更適合非高斯過(guò)程的高密度區(qū)域法,從而取得比FGMM、KPCA監(jiān)測(cè)方法更佳的檢測(cè)效果。
表2 TE過(guò)程故障檢測(cè)率對(duì)比分析Table 2 Monitoring performance analysis in comparison study on TE
提出了一種D-vine copulas混合模型,采用EM算法、偽極大似然估計(jì)對(duì)模型參數(shù)進(jìn)行優(yōu)化,根據(jù)模型選擇準(zhǔn)則確定最終的估計(jì)模型。該混合模型能在不進(jìn)行降維過(guò)程的情況下更深入準(zhǔn)確地捕獲多元數(shù)據(jù)間復(fù)雜的相關(guān)關(guān)系,并以得到的分布模型為基礎(chǔ)結(jié)合高密度區(qū)域與密度分位數(shù)法等理論實(shí)現(xiàn)對(duì)存在非線性、非高斯過(guò)程故障的實(shí)時(shí)監(jiān)測(cè)。通過(guò)對(duì)數(shù)值實(shí)例和 TE過(guò)程進(jìn)行仿真實(shí)驗(yàn),并與 FGMM 與KPCA方法對(duì)比,結(jié)果表明此混合模型具有更高的故障檢測(cè)率和較低的故障誤報(bào)率。這說(shuō)明該混合模型方法作為一種新的過(guò)程監(jiān)測(cè)方法具有較強(qiáng)的實(shí)用性。與降維進(jìn)行數(shù)據(jù)特征提取、劃分子空間等思想相比,構(gòu)建數(shù)據(jù)的分布模型具有更大的優(yōu)勢(shì)。此外,該混合模型可以視為半?yún)?shù)模型,兼顧了全參數(shù)模型和非參數(shù)模型的優(yōu)點(diǎn),具有更強(qiáng)的適應(yīng)性和解釋能力,適用范圍也更為廣泛。在刻畫(huà)數(shù)據(jù)間內(nèi)在的相關(guān)性方面,D-vine copulas混合模型具有良好的性能。為簡(jiǎn)化優(yōu)化過(guò)程,提高參數(shù)的優(yōu)化效率,假設(shè)每個(gè)D-vine元的所有二元copula類(lèi)型相同,并且選取了4種典型的二元copula作為D-vine copulas混合模型中二元copula的備選類(lèi)型。實(shí)際上,二元copula族中存在數(shù)十種類(lèi)型的copula。因此,此混合模型在二元copula的選擇上仍然有進(jìn)一步改進(jìn)的空間。
References
[1] PIOVOSO M J, HOO K. Multivariate statistics for process control [J].IEEE Control Syst. Mag., 2000, 22: 8-9.
[2] 葛志強(qiáng). 復(fù)雜工況過(guò)程統(tǒng)計(jì)監(jiān)控方法研究 [D]. 杭州:浙江大學(xué),2009.GE Z Q. Statistical process monitoring methods for complex processes [D]. Hangzhou: Zhejiang University, 2009.
[3] KRAMER M A. Nonlinear principal component analysis using auto associative neural networks [J]. AIChE Journal, 1991, 37 (2):233-243.
[4] ZHANG Y W. Fault detection and diagnosis of nonlinear processes using improved kernel independent component analysis (KICA) and support vector machine (SVM) [J]. Industrial and Engineering Chemistry Research, 2008, 47 (18): 6961-6971.
[5] CAI L F, TIAN X M. A new fault detection method for non-Gaussian process based on robust independent component analysis [J]. Process Safety and Environmental Protection, 2014, 92: 645-658.
[6] GE Z Q, SONG Z H. Process monitoring based on independent component analysis-principal component analysis (ICA-PCA) and similarity factors [J]. Industrial and Engineering Chemistry Research,2007, 46: 2054-2063.
[7] DISSMANN J, BRECHMANN E, CZADO C, et al. Selecting and estimating regular vine copula and application to financial returns [J].Computational Statistics and Data Analysis, 2013, 59: 52-69.
[8] SCHOLZEL C, FRIEDERICHS P. Multivariate non-normally distributed random variables in climate research-introduction to the copula approach [J]. Nonlin Processes Geophys, 2008, 15 (5):761-772.
[9] AHOOYI T M, SOROUSH M, ARBOGAST J E, et al.Maximum-likelihood maximum-entropy constrained probability density function estimation for prediction of rare events [J]. AIChE Journal, 2014, 60: 1013-1026.
[10] JOE H. Families of m-variate distributions with given margins and m(m-1)/2 bivariate dependence parameters [J]. Distributions with Fixed Marginals and Related Topics, 1996, 28: 120-141.
[11] ETIENNE C, MNOIQUE N F. Clayton copula and mixture decomposition [J]. Applied Stochastic Models and Data Analysis,2005, 5: 699-708.
[12] WEI? GREGOR N F, MARCUS S. Mixture pair-copulaconstructions [J]. Journal of Banking & Finance, 2015, 54: 175-191.
[13] ANANDARUP R, SWAPAN K P. Pair-copula based mixture models and their application in clustering [J]. Pattern Recognition, 2014, 47:1689-1697.
[14] NGUYEN C, BHATTI M I, MAGDA K. Gold price and stock markets nexus under mixed-copulas [J]. Economic Modeling, 2016,58: 283-292.
[15] NIKOLOULOPOULOS A K, KARLIS D. Finite normal mixture copulas for multivariate discrete data modeling [J]. Journal of Statistical Planning and Inference, 2009, 139: 3878-3890.
[16] REN X, TIAN Y, LI S J. Vine copula-based dependence description for multivariate multimode process monitoring [J]. Ind. Eng. Chem.Res, 2015, 54 (41): 10001-10019.
[17] SKLAR A. Fonctions de répartition à n dimensions et leurs marges[J]. Publ. Inst. Statist. Univ. Paris, 1959, 8: 229-231.
[18] REN X, LI S J, Lü C, et al. Sequential dependence modeling using Bayesian theory and D-vine copula and its application on chemical process risk prediction [J]. Ind. Eng. Chem. Res., 2014, 53 (38):14788-14801.
[19] BEDFORD T, COOKE R M. Vines—a new graphical model for dependent random variables [J]. Ann. Stat., 2002, 30: 1031-1068.
[20] CHRISTIAN G, ANNE C F. Everything you always wanted to know about copula modeling but were afraid to ask [J]. Journal of Hydrologic Engineering, 2007, 12 (4): 347-368.
[21] AAS K, CZADO C, FEIGESSI A. Pair-copula construction of multiple dependence [J]. Insurance Math Economic, 2009, 44 (2):182-198.
[22] OAKES D. A model for association in bivariate survival data [J].Journal of the Royal Statistical Society, Series B, 1982, 44 (3):414-422.
[23] ANANDARUP R, SWAPAN K P. Pair-copula based mixture models and their application in clustering [J]. Pattern Recognition, 2014, 47:1689-1697.
[24] JEFF WU C F. On the convergence properties of the EM algorithm[J]. The Annals of Statistics, 1983, 11 (1): 95-103.
[25] CHUNG Y J, LINDSAY B G. Convergence of the EM algorithm for continuous mixing distributions [J]. Statistics & Probability Letters,2015, 12: 190-195.
[26] AKAIKE H. Information Theory and an Extension of the Maximum Likelihood Principle [M]. Budapest: Akadémiai Kiadó, 1973: 267-281.
[27] HYNDMAN R J. Computing and graphing highest density regions[J]. Ann. Stat., 1996, 50 (2): 120-126.
[28] YU J. Multimode process monitoring with Bayesian inference-based finite Gaussian mixture models [J]. AIChE Journal, 2008, 54 (7):1811-1829.
[29] LEE J M, YOO C K, SANG W C. Nonlinear process monitoring using kernel principal component analysis [J]. Chemical Engineering Science, 2004, 59 (1): 223-234.
[30] DOWNS J J, VOGEL E F. A plant-wide industrial process control problem [J]. Comput. Chem. Eng., 1993, 17: 245-255.
[31] JIANG Q C, YAN X F, TONG C D. Double-weighted independent component analysis for non-Gaussian chemical process monitoring[J]. Ind. Eng. Chem. Res., 2013, 52: 14396-14405.
Mixture of D-vine copulas model and its application in fault detection
ZHENG Wenjing, LI Shaojun, JIANG Da
(Key Laboratory of Advanced Control and Optimization for Chemical Processes of Ministry of Education, East China University of Science and Technology, Shanghai 200237, China)
Process monitoring technology is an effective means to guarantee operation safety and product quality of modern industrial processes. Most of traditional process monitoring methods extract data features by dimensionality reduction and require process data obeying Gaussian distribution, linearity and other conditions.Therefore, traditional methods cannot obtain preferable detection results for faults occurred under complex operating conditions. A mixture of D-vine copulas model was proposed for fault detection. First, complex correlation among process variables were directly extracted without dimensionality reduction and a statistical model of process variables was established to accurately describing nonlinear and non-Gaussian processes. Then,model parameters were optimized by expectation maximization (EM) algorithm and maximum pseudo-likelihood estimation. Finally, a generalized Bayesian inference-based probability (GBIP) index was constructed for real-time monitoring by optimized model parameters as well as theories of the highest density region (HDR) and density quantile. Application of the proposed mixture model to a numerical example and the Tennessee Eastman (TE)benchmark process illustrated effectiveness and performance in fault detection.
process monitoring; nonlinear and non-Gaussian; dependence analysis; D-vine copulas
date:2016-11-28.
Prof. LI Shaojun, lishaojun@ecust.edu.cn
supported by the National Natural Science Foundation of China (21406064, 21676086) and the Natural Science Foundation of Shanghai (14ZR1410500).
TP 277
A
0438—1157(2017)07—2851—08
10.11949/j.issn.0438-1157.20161682
2016-11-28收到初稿,2017-03-29收到修改稿。
聯(lián)系人:李紹軍。
鄭文靜(1992—),女,碩士研究生。
國(guó)家自然科學(xué)基金項(xiàng)目(21406064, 21676086);上海市自然科學(xué)基金項(xiàng)目(14ZR1410500)。