, , ,
(華東理工大學(xué)化工過程先進(jìn)控制和優(yōu)化技術(shù)教育部重點(diǎn)實驗室,上海 200237)
基于譜聚類特征向量分析的模態(tài)劃分方法
南男,楊健,趙晶晶,侍洪波
(華東理工大學(xué)化工過程先進(jìn)控制和優(yōu)化技術(shù)教育部重點(diǎn)實驗室,上海200237)
在實際生產(chǎn)過程中,過程數(shù)據(jù)的多模態(tài)特性會對數(shù)據(jù)建模產(chǎn)生一定的影響,進(jìn)行模態(tài)劃分有利于獲取精確的模型。目前常用的模態(tài)劃分方法,如k-means、c-means等聚類方法,在有過渡過程的模態(tài)劃分應(yīng)用中,有時不能得到理想的結(jié)果。本文提出了一種通用的模態(tài)劃分方法,以譜聚類算法中相似矩陣的特征向量分析為基礎(chǔ),基于相似矩陣的特征向量與其所包含的聚類信息的關(guān)系,使用高斯曼哈頓距離構(gòu)造模態(tài)標(biāo)簽,并用小窗口思想實現(xiàn)動態(tài)多模態(tài)過程的模態(tài)劃分。通過對穩(wěn)態(tài)與帶過渡過程的多模態(tài)數(shù)據(jù)的實驗驗證了該算法的有效性。
多模態(tài)數(shù)據(jù); 模態(tài)劃分; 過渡過程; 譜聚類
在實際生產(chǎn)過程中,由于生產(chǎn)條件或生產(chǎn)目標(biāo)的變化,過程數(shù)據(jù)呈現(xiàn)出多模態(tài)的特性,而傳統(tǒng)的基于數(shù)據(jù)建模的多元統(tǒng)計過程控制算法(Multivariate Statistical Process Control,MSPC)假設(shè)過程數(shù)據(jù)來自于單一穩(wěn)定的生產(chǎn)模態(tài)并滿足獨(dú)立同分布,用于多模態(tài)過程監(jiān)控及故障診斷將會產(chǎn)生較大的誤差。針對這一問題,最直接的解決思路是對不同模態(tài)建立不同的模型進(jìn)行相應(yīng)的過程監(jiān)控步驟,因此需要在建立多模型監(jiān)控策略之前對多模態(tài)數(shù)據(jù)進(jìn)行模態(tài)劃分。
目前較為常用的模態(tài)劃分方法[1-3]一般采取流行的聚類算法,如k-means、c-means、GMM等。近年來一些新的模態(tài)劃分方法被提出。楊雅偉等[4]提出利用差分策略以及LOOP 算法實現(xiàn)針對多模態(tài)數(shù)據(jù)的模態(tài)劃分,可以根據(jù)差分矩陣中不同模態(tài)樣本差分的點(diǎn)來找到模態(tài)切換點(diǎn),相較于以上流行的聚類算法,具有不需要提前確定模態(tài)個數(shù)以及不會陷入局部最優(yōu)的優(yōu)點(diǎn),但是該聚類算法僅適用于穩(wěn)態(tài)多模態(tài)過程,對于含有過渡過程的動態(tài)多模態(tài)過程不能很好聚類。Song等[5]提出了一種時間窗口與遞歸局部離群因子相結(jié)合的模態(tài)劃分方法,可以將一個穩(wěn)定模態(tài)的數(shù)據(jù)劃分為一個子數(shù)據(jù)集,將一個完整的過渡模態(tài)劃分為多個過渡子模態(tài)。張淑美等[6]提出了一種系統(tǒng)的全自動離線模態(tài)識別方法。首先選取長度為H的切割窗口對離線建模數(shù)據(jù)進(jìn)行切割,并使用改進(jìn)的k-means算法對窗口均值向量進(jìn)行聚類,以實現(xiàn)穩(wěn)定模態(tài)和過渡模態(tài)的初步劃分;在初步確定模態(tài)的基礎(chǔ)上,選定一個小滑動窗口L,對穩(wěn)定模態(tài)及過渡模態(tài)交接區(qū)域進(jìn)一步細(xì)劃分,準(zhǔn)確定位穩(wěn)定模態(tài)與過渡模態(tài)的分割點(diǎn),實現(xiàn)多模態(tài)建模數(shù)據(jù)的模態(tài)識別。薛寧靜[7]提出使用譜聚類算法進(jìn)行模態(tài)劃分,將熵值估計引入譜聚類特征選擇中,可以更加有效地提取出數(shù)據(jù)間的聚類特性,為后續(xù)的聚類分析提供方便。但是在實際生產(chǎn)過程中,從一個模態(tài)到另一個模態(tài)的切換是一個漸變的過程,即存在一定時間長度的過渡區(qū)域,并且在這個過渡區(qū)域內(nèi),變量關(guān)系以及數(shù)據(jù)集形狀較為復(fù)雜。k-means、GMM等傳統(tǒng)的聚類方法在存在過渡過程的模態(tài)劃分應(yīng)用中并不能得到較理想的結(jié)果,目前對于過渡過程的模態(tài)劃分問題仍然是研究的熱點(diǎn)。一些簡單的過程具有模態(tài)指示變量,可以通過檢測模態(tài)指示變量識別出模態(tài)的變化以及過渡過程;對于復(fù)雜過程,一種可行的思路是構(gòu)建模態(tài)標(biāo)簽,通過檢測模態(tài)標(biāo)簽識別出模態(tài)的變化以及過渡過程。
譜聚類[8-9]是最近幾年發(fā)展起來的一種聚類方法,它建立在譜圖理論基礎(chǔ)上,與傳統(tǒng)的聚類算法如k-means、c-means相比,它具有能在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解的優(yōu)點(diǎn),因此,譜聚類算法在數(shù)據(jù)分析領(lǐng)域尤其是模式識別領(lǐng)域成為關(guān)注的焦點(diǎn)。王玲等[10]提出的基于密度敏感的相似性度量的譜聚類算法,不僅能夠處理多尺度聚類問題,而且對參數(shù)選擇相對不敏感。楊藝芳等[11]提出的基于核模糊相似度度量的譜聚類算法,通過利用基于核模糊C均值聚類算法得到的劃分矩陣中隸屬度的分布特點(diǎn),提出了一個新的核模糊相似度度量,并將基于所提出的新的相似度度量的譜聚類算法應(yīng)用于圖像分割中,取得了不錯的效果。Semertzidis等[12]提出的基于成對約束連接組件的譜聚類算法,在處理大規(guī)模數(shù)據(jù)集時取得了不錯的結(jié)果。Wang等[13]提出的基于非負(fù)矩陣因子分解的譜聚類算法,彌補(bǔ)了基于稀疏表示的譜聚類的不足,有望處理高維數(shù)據(jù)。譜聚類算法的核心思想是通過對相似矩陣或拉普拉斯矩陣的特征向量聚類從而達(dá)到對數(shù)據(jù)集聚類的目的,即認(rèn)為特征向量中包含有一定的聚類信息。k-means與c-means等流行的聚類算法已經(jīng)被廣泛應(yīng)用在多模態(tài)過程的模態(tài)劃分,譜聚類方法在模態(tài)劃分中的應(yīng)用卻很少,根據(jù)譜聚類的特性,可以提取相似矩陣特征向量中的聚類信息并構(gòu)造出一個模態(tài)標(biāo)簽變量來進(jìn)行模態(tài)劃分。
本文提出了一種通用的模態(tài)劃分方法。以譜聚類算法中相似矩陣的矩陣分析為基礎(chǔ),根據(jù)譜聚類特征向量與其所包含的聚類信息的關(guān)系,使用高斯曼哈頓距離構(gòu)造一個可以識別出各個生產(chǎn)模態(tài)的模態(tài)標(biāo)簽,從而實現(xiàn)多模態(tài)過程的模態(tài)劃分。通過分析田納西-伊斯曼過程仿真的多模態(tài)數(shù)據(jù)驗證了該算法的有效性。
譜聚類算法建立在譜圖理論[14-15]基礎(chǔ)上,設(shè)數(shù)據(jù)集V=[v1,v2,…,vn]是待聚類數(shù)據(jù)集,譜聚類算法將待聚類的每一點(diǎn)看作是圖上一點(diǎn),在求得相似矩陣之后,譜聚類算法便將點(diǎn)的聚類問題轉(zhuǎn)化為圖的劃分問題。實現(xiàn)圖的劃分的關(guān)鍵步驟是挑選出特征向量構(gòu)成特征向量矩陣,通過對特征向量矩陣行向量聚類達(dá)到最終的聚類目標(biāo)。不同的譜聚類算法主要體現(xiàn)在譜圖劃分準(zhǔn)則的不同,對應(yīng)著特征向量的不同選擇方法。目前流行的選擇方法是選擇最大的幾個特征值所對應(yīng)的特征向量。
近幾年有文獻(xiàn)提出,相似度矩陣的特征值越大,其所對應(yīng)的特征向量攜帶的分類信息并非越多,而且每個特征向量所攜帶的分類信息也不盡相同,因此需要根據(jù)實際需要進(jìn)行特征向量的選取。文獻(xiàn)[16]對于K類聚類問題提出基于均值的特征向量選擇方法,從拉普拉斯矩陣計算3K個最大特征值的平均值,然后選擇其特征值最接近平均特征值的K個特征向量。文獻(xiàn)[17]通過定義一個相關(guān)性度量函數(shù),用來表征每個待選的特征向量所攜帶的分類信息,然后選取所有相關(guān)性度量值大于0.5的特征向量進(jìn)行下一步聚類。文獻(xiàn)[18]首先從數(shù)據(jù)集中獲得一定量的監(jiān)督信息,并利用監(jiān)督信息定義一個用來評價特征向量對于聚類貢獻(xiàn)度的指標(biāo),然后根據(jù)這個指標(biāo)采用免疫克隆選擇算法來確定最優(yōu)的特征向量組合。
以上幾種譜聚類算法的差別只是選取的矩陣及特征向量不同,并沒有闡釋矩陣的譜和特征矩陣與聚類之間的關(guān)系。田錚等[19]使用矩陣的擾動理論,通過研究理想情況下相似矩陣的譜和特征向量與聚類之間的關(guān)系并推廣至一般情況,得到了相似矩陣的特征向量和聚類之間的關(guān)系。
假設(shè)本文研究的數(shù)據(jù)是理想分布的,即從某個穩(wěn)定模態(tài)開始,并且按時間順序排列。首先分析無擾動情況下的相似矩陣,設(shè)數(shù)據(jù)集V={v1,v2,…vn}有k類且數(shù)據(jù)元素按順序?qū)儆诿恳活愡M(jìn)行排列,即
利用高斯核函數(shù)Aij=exp[-d2(vi,vj)/2σ2]求任意兩點(diǎn)間的相似度構(gòu)成相似矩陣A,相似矩陣形式如下:
(1)
其中:Ai是相似矩陣A的子矩陣,對應(yīng)著第i個模態(tài)Vi,如果第i個模態(tài)中有ni個點(diǎn),則有Ai∈Rni×ni為全1方陣。所以,在理想情況下,取A最大的k個特征值對應(yīng)的特征向量X1~Xk構(gòu)成特征向量矩陣X=[X1,X2,…,Xk],根據(jù)矩陣?yán)碚?X矩陣形式如下[19]:
(2)
式中,xi是ni維全1列向量[20]。
2.1穩(wěn)態(tài)多模態(tài)過程劃分
在穩(wěn)態(tài)多模態(tài)過程劃分問題中,由于生產(chǎn)過程中噪聲的影響,相似矩陣A也會受到影響。把相似矩陣A的約束條件放寬:在式(1)中,將Ai從全1陣弱化為數(shù)值小于等于1 (接近于1)的實對稱矩陣,則特征向量空間X仍然可以用式(2)表示,只是xi不再是全1矩陣。令?i為X的第i行,則?i所攜帶的分類信息對應(yīng)于原數(shù)據(jù)的第i個點(diǎn),可以通過對?i的聚類達(dá)到對原數(shù)據(jù)進(jìn)行聚類的目的。
(3)
以上分析只是放松了同類間的約束,在實際情況中,還應(yīng)考慮不同類間的擾動。當(dāng)vi與vj不在同一類時,Aij不再等于0,此時式(3)不再成立。文獻(xiàn)[19]以數(shù)值計算形式說明擾動約束在一定范圍內(nèi),當(dāng)特征矩陣的行向量夾角的余弦值cos(?i,?j)>0.387時,對應(yīng)的vi和vj屬于同一類;當(dāng)cos(?i,?j)<0.387時,vi和vj不屬于同一類。定義tagi=1-cos(?i,?i+1)為模態(tài)變化標(biāo)簽,即tagi的值可以揭示模態(tài)是否發(fā)生變化,則穩(wěn)態(tài)多模態(tài)過程劃分算法步驟如下:
(1) 利用以下公式求出多模態(tài)過程數(shù)據(jù)集V的相似矩陣A。
其中vi和vj是V中第i點(diǎn)與第j點(diǎn)。
(2) 求A的最大的k個特征值與其對應(yīng)的特征向量X1,X2,…,Xk,構(gòu)造特征向量矩陣X。
(3) 對X進(jìn)行一次中值濾波,濾波后的結(jié)果仍記為X。
(4) 令?i為X的第i行,求出tagi=1-cos(?i,?i+p)。
(5) 當(dāng)tagi>0.613(理想情況應(yīng)接近于0)時,找到離i最近的點(diǎn)f,使得tagf<0.613,則認(rèn)為第f點(diǎn)為下一個模態(tài)開始的起點(diǎn)(p取5~10)。
(6) 找到所有的k-1個跳變點(diǎn),即可以完成模態(tài)的劃分。
2.2動態(tài)多模態(tài)過程劃分
由以上結(jié)論可知,穩(wěn)態(tài)多模態(tài)待劃分樣本V相似矩陣的最大k個特征值對應(yīng)的特征向量所組成的矩陣X包含了原始數(shù)據(jù)的k類模態(tài)信息。將X的第i行看作新的待劃分點(diǎn)?i,則?i對應(yīng)著樣本V中的第i點(diǎn),通過對?i的劃分實現(xiàn)對樣本V劃分的目的。當(dāng)加入過渡過程后,考慮兩個穩(wěn)態(tài)中包含一個過渡過程的情況。取樣本V相似矩陣最大的兩個特征值對應(yīng)的特征向量組成矩陣X,由于過渡數(shù)據(jù)點(diǎn)是從第1個穩(wěn)態(tài)到第2個穩(wěn)態(tài)逐漸變化的,所以這些點(diǎn)所對應(yīng)的行向量?也是逐漸變化。由于過渡過程對應(yīng)的行向量變化比較復(fù)雜,cos(?i,?j)攜帶的信息不足以指示模態(tài)劃分,所以需要提出一個新的指標(biāo)。因為使用一個二維的行向量?來儲存模態(tài)信息,且屬于不同模態(tài)的點(diǎn)對應(yīng)的行向量理想情況下正交,因此,利用曼哈頓距離可以充分提取聚類信息。高斯曼哈頓距離可以放大處于不同模態(tài)下兩點(diǎn)間的差別而且可以通過調(diào)節(jié)參數(shù)h改變高斯函數(shù)的形狀。設(shè)兩點(diǎn)v1=(x1,y1),v2=(x2,y2),高斯曼哈頓距離定義如下:
(4)
本文使用?i各點(diǎn)到基準(zhǔn)點(diǎn)?base的高斯曼哈頓距離作為模態(tài)標(biāo)簽。高斯曼哈頓距離攜帶足夠的模態(tài)信息,與基準(zhǔn)點(diǎn)有相同高斯曼哈頓距離的點(diǎn)屬于同一模態(tài),如果兩點(diǎn)間的高斯曼哈頓距離為零,則這兩個點(diǎn)也屬于同一模態(tài),當(dāng)有擾動存在時,只要給定適當(dāng)?shù)拈撝狄部梢詫崿F(xiàn)模態(tài)劃分。在求出第i點(diǎn)到基準(zhǔn)點(diǎn)的高斯曼哈頓距離記為模態(tài)標(biāo)簽di后,接下來的問題就是如何根據(jù)di精準(zhǔn)劃分過渡過程。本文將使用小窗口[21]的思想來實現(xiàn)這一目的。首先定義系統(tǒng)的穩(wěn)定模態(tài)的最小運(yùn)行長度為H,然后選取H為窗口的長度,將待劃分的多模態(tài)過程分成一系列按順序排列的長度為H的窗口,每個窗口內(nèi)有H個樣本點(diǎn)。
通過定義并分析第i個窗口Hi與穩(wěn)定模態(tài)基準(zhǔn)時段的相似度γH(i,base)確定過渡過程所在的大致區(qū)域,相似度γH(i,base)計算方法如下:
Hi窗口中各點(diǎn)模態(tài)標(biāo)簽值均值:
(5)
與穩(wěn)定模態(tài)基準(zhǔn)時段相似度:
ΔMi=|Mi-M1|
(6)
其中:式(5)計算的是第i個大窗口Hi中各點(diǎn)模態(tài)標(biāo)簽值均值Mi,Mi可以認(rèn)為是大窗口Hi的窗口模態(tài)標(biāo)簽,具有相同均值或均值差在給定閾值之內(nèi)的兩個窗口屬于同一模態(tài)。式(6)計算第i個窗口Hi與穩(wěn)定模態(tài)基準(zhǔn)時段(認(rèn)為第1個模態(tài)即為基準(zhǔn)時段)的相似度γH(i,base),其中ΔMi表示第i個窗口Hi與第1個窗口H1的窗口模態(tài)標(biāo)簽值的差,ΔMi小于給定的閾值,兩個窗口屬于同一模態(tài),ΔMi大于給定的閾值,兩個窗口屬于不同模態(tài)。ΔMi越大,γH(i,base)越小;ΔMi越小,γH(i,base)越大。
依次計算第i個窗口Hi與穩(wěn)定模態(tài)基準(zhǔn)時段的相似度γH(i,base)從中揭示過程模態(tài)特性沿著時間方向的發(fā)展變化,進(jìn)而判斷穩(wěn)定模態(tài)與過渡模態(tài)的范圍。如果γH(i,base)大于給定的過渡過程開始閾值(取ΔMi/ΔMmax=0.05),認(rèn)為當(dāng)前窗口屬于第1個穩(wěn)態(tài);相反,如果γH(i,base)小于這個閾值,則認(rèn)為當(dāng)前窗口的過程特性發(fā)生變化,由穩(wěn)定模態(tài)進(jìn)入過渡模態(tài)。窗口再向后推移,隨后當(dāng)前窗口與基準(zhǔn)窗口相似度γH(i,base)持續(xù)小于另一個給定的過渡過程結(jié)束閾值(取ΔMi/ΔMmax=0.95),則認(rèn)為對應(yīng)的數(shù)據(jù)點(diǎn)開始進(jìn)入第2個穩(wěn)態(tài)。
根據(jù)H窗口可以大致找到第1個穩(wěn)態(tài)的結(jié)束與第2個穩(wěn)態(tài)的開始,但是無法精準(zhǔn)地判斷過渡過程的起點(diǎn)與終點(diǎn)。由于過渡模態(tài)的過程特性變化較為劇烈,如果繼續(xù)選用較長長度的H窗口,過渡過程的細(xì)節(jié)信息(過渡過程開始的時間、過渡過程結(jié)束的時間等)都無法準(zhǔn)確判斷。為了準(zhǔn)確地獲得過渡過程的這些細(xì)節(jié)信息,選擇一個較小的窗口長度L(L定義為“最小過渡子模態(tài)長度”,是涵蓋一段相同過渡子過程特性的最短運(yùn)行時間長度),通過分析L窗口內(nèi)模態(tài)標(biāo)簽進(jìn)而準(zhǔn)確地判斷過渡模態(tài)的開始時間和結(jié)束時間。
動態(tài)多模態(tài)過程劃分算法步驟如下:
(1) 對待聚類數(shù)據(jù)集V進(jìn)行中值濾波,消除擾動的影響得到新的數(shù)據(jù)集仍記為V。
(2) 利用以下公式求出多模態(tài)過程數(shù)據(jù)集V的相似矩陣A。
其中vi和vj是V中第i點(diǎn)與第j點(diǎn)。
(3) 求A的最大的兩個特征值對應(yīng)的特征向量X1,X2,構(gòu)造特征向量矩陣X=[X1,X2]。
(4) 取X的第i行?i記為第i點(diǎn),?i=(xi,yi),求出各點(diǎn)與基準(zhǔn)點(diǎn)的高斯曼哈頓距離記為模態(tài)標(biāo)簽di。
(7)
(5) 選取長度為H的窗口,從左到右滑動窗口將樣本切成長度為H的連續(xù)片段。計算第i個大窗口Hi與穩(wěn)定模態(tài)基準(zhǔn)時段的相似度γH(i,base)。找到γH(i,base)<0.951的第1個窗口Hp,認(rèn)為第p個窗口脫離第1個穩(wěn)態(tài)。從第q個窗口開始,γH(i,base)<0.387,則認(rèn)為從第Hq+1窗口開始進(jìn)入第2個穩(wěn)態(tài)。
(8) 在Ls與Lt中,根據(jù)di精確確定過渡過程的起點(diǎn)s與終點(diǎn)t。
3.1概述
本文的實驗數(shù)據(jù)來源于田納西-伊斯曼過程的仿真[22],該過程是一個基于真實工業(yè)過程的仿真。TE過程的狀態(tài)變量共有42個,在實驗過程中監(jiān)控所有的42個狀態(tài)變量。模擬70 h的仿真過程,每小時采樣100次,穩(wěn)定模態(tài)最短運(yùn)行時間為1 h。在過程運(yùn)行到10 h時改變設(shè)定值過程由穩(wěn)定模態(tài)A進(jìn)入過渡模態(tài)A-B,在15 h進(jìn)入第2個穩(wěn)定模態(tài)B。共改變兩次設(shè)定值得到3種穩(wěn)定模態(tài)的運(yùn)行數(shù)據(jù)以及兩次過渡模態(tài)數(shù)據(jù),關(guān)于各個模態(tài)的說明及其對應(yīng)的樣本點(diǎn)序號如表1所示,其中過渡模態(tài)A-B開始于1 002點(diǎn)結(jié)束于1 500點(diǎn)。
3.2穩(wěn)態(tài)多模態(tài)過程劃分實驗
實驗選取穩(wěn)定模態(tài)A、B、C作為待劃分樣本V(V中共5 502點(diǎn),1~1 001點(diǎn)屬于第1個穩(wěn)態(tài),1 002~3 502點(diǎn)屬于第2個穩(wěn)態(tài),3 503~5 502點(diǎn)屬于第3個穩(wěn)態(tài)),隨機(jī)選取TE過程中的4個變量(變量15、27、34、47)作樣本,實驗結(jié)果如圖1所示。
使用k-means與GMM算法對樣本V進(jìn)行模態(tài)劃分,結(jié)果如圖2所示,使用本文算法的劃分結(jié)果如圖3所示。
表1 TE過程仿真多模態(tài)過程說明
圖1 穩(wěn)態(tài)多模態(tài)TE過程樣本4個變量變化曲線Fig.1 Curves of four variables in TE process
圖2 k-means、GMM模態(tài)劃分結(jié)果Fig.2 Verification results based on k-means and GMM
圖3 基于譜聚類的模態(tài)劃分結(jié)果Fig.3 Verification results based on spectral clustering
圖1顯示TE過程的42個狀態(tài)變量在過程狀態(tài)發(fā)生變化時并不是同步變化,如變量47在3種模態(tài)下的值各不相同且差別較大;變量27與變量34在模態(tài)1與模態(tài)2下的值維持穩(wěn)定,在模態(tài)3下的值變小,且變量27的變化幅度大于變量34;變量15在3種模態(tài)下的值都是穩(wěn)定的。由于缺乏先驗知識,每個變量所占權(quán)重未知,因此不能確定以哪個變量為標(biāo)準(zhǔn)進(jìn)行模態(tài)劃分,故無法直接根據(jù)過程變量進(jìn)行模態(tài)劃分。
圖2示出了使用k-means與GMM進(jìn)行模態(tài)劃分得到的結(jié)果,縱坐標(biāo)為模態(tài)標(biāo)簽,具有相同模態(tài)標(biāo)簽值的兩點(diǎn)屬于同一模態(tài)。k-means劃分的1~1 001點(diǎn)屬于第1個穩(wěn)態(tài),1 002~3 502點(diǎn)屬于第2個穩(wěn)態(tài),3 503~5 502點(diǎn)屬于第3個穩(wěn)態(tài),劃分結(jié)果與樣本吻合;GMM劃分的2~1 001點(diǎn)屬于第1個穩(wěn)態(tài),第1點(diǎn)、1 002~3 502點(diǎn)屬于第2穩(wěn)態(tài),3 503~5 502點(diǎn)屬于第3個穩(wěn)態(tài),僅有第1點(diǎn)劃分錯誤,其他點(diǎn)均劃分正確。圖3示出了使用本文算法進(jìn)行模態(tài)劃分得到的結(jié)果,縱坐標(biāo)是模態(tài)變化標(biāo)簽tagi,如果樣本點(diǎn)的tagi>0.618,則認(rèn)為在這個樣本點(diǎn)附近模態(tài)發(fā)生變化,進(jìn)一步分析確定模態(tài)跳變點(diǎn)是1 002與3 503,劃分結(jié)果與樣本吻合。針對樣本V,k-means、GMM與本文算法都得到了正確的結(jié)果,且k-means與GMM作為流行的穩(wěn)態(tài)多模態(tài)過程劃分方法已經(jīng)得到廣泛應(yīng)用,間接驗證了本文算法的有效性。但是k-means算法適用于超球形分布的數(shù)據(jù)集,在其他形狀數(shù)據(jù)集上有時不能得到很好的效果。GMM算法的性能受限于初始值的選擇,算法性能不穩(wěn)定,在實驗過程中出現(xiàn)過大范圍誤分的情況。而譜聚類的聚類結(jié)果受數(shù)據(jù)集形狀影響很小,它具有能在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解的優(yōu)點(diǎn),所以本文提出的模態(tài)劃分方法應(yīng)用范圍更廣。
3.3動態(tài)多模態(tài)過程劃分實驗
實驗中選取模態(tài)A、A-B、B作為樣本V(V中共4 002點(diǎn),1~1 001點(diǎn)屬于第1個穩(wěn)態(tài),1 002~1 501點(diǎn)屬于過渡模態(tài),1 502~4 002點(diǎn)屬于第2個穩(wěn)態(tài)),隨機(jī)選取TE過程中的4個變量(變量15、27、34,47)作樣本,變化曲線如圖4所示。
圖4 動態(tài)多模態(tài)TE過程樣本4個變量變化曲線Fig.4 Curves of four variables in TE process
使用k-means、GMM算法對以上數(shù)據(jù)集進(jìn)行模態(tài)劃分得到的結(jié)果如圖5所示,使用本文算法進(jìn)行模態(tài)劃分得到的結(jié)果如圖6所示。
圖5 k-means、GMM模態(tài)劃分結(jié)果Fig.5 Verification results based on k-means、GMM
圖6 基于譜聚類的模態(tài)劃分結(jié)果Fig.6 Verification results based on spectral clustering
圖5(a)示出了使用k-means進(jìn)行模態(tài)劃分得到的結(jié)果,兩條豎線之間的樣本點(diǎn)為劃分出的過渡過程。根據(jù)模態(tài)標(biāo)簽可以確定過渡過程開始于1 002點(diǎn),但是過渡過程結(jié)束點(diǎn)很難確定,從圖中大致可以確定過渡過程位于樣本點(diǎn)1 002~1 400點(diǎn)。圖5(b)示出了使用GMM進(jìn)行模態(tài)劃分得到的結(jié)果,縱坐標(biāo)表示樣本點(diǎn)對應(yīng)于兩個模態(tài)的后驗概率,虛線表示樣本點(diǎn)屬于模態(tài)1的后驗概率,實線表示屬于模態(tài)2的后驗概率,將樣本點(diǎn)劃分至后驗概率更大的模態(tài),進(jìn)一步分析得到過渡過程位于樣本點(diǎn)1 003~1 024點(diǎn)。圖6示出了使用本文算法進(jìn)行模態(tài)劃分得到的結(jié)果,縱坐標(biāo)為模態(tài)標(biāo)簽,大致可以判斷過渡過程位于1 000~1 600點(diǎn),根據(jù)小窗口思想,選取H=100、L=10,最終確定過渡過程開始于1 002點(diǎn)結(jié)束于1 500點(diǎn)。本文采用正確率與歸一化互信息(Normalized Mutual Information,NMI)[23]兩個評價指標(biāo)來評價模態(tài)劃分結(jié)果。
正確率定義為模態(tài)劃分算法識別出的過渡過程數(shù)據(jù)點(diǎn)總數(shù)與待劃分樣本中已知過渡過程數(shù)據(jù)點(diǎn)總數(shù)的比值,k-means、GMM及本文算法的結(jié)果對比如表2所示。由表2可以看出,對于帶有過渡過程的多模態(tài)數(shù)據(jù),k-means算法結(jié)果較差,GMM算法最差,這是由于k-means算法對形狀復(fù)雜的數(shù)據(jù)集聚類結(jié)果較差,GMM算法適用于穩(wěn)態(tài)多模態(tài)過程劃分,對于動態(tài)多模態(tài)過程劃分效果較差,而本文算法劃分結(jié)果優(yōu)于兩種算法且準(zhǔn)確率很高。
表2 TE過程數(shù)據(jù)結(jié)果對比
本文針對多模態(tài)過程的模態(tài)劃分問題提出了基于譜聚類特征向量分析的模態(tài)劃分方法?;谧V聚類特征向量分析的模態(tài)劃分方法利用相似矩陣特征向量所攜帶的聚類信息提出模態(tài)劃分的指示變量用來指導(dǎo)模態(tài)劃分。對于穩(wěn)態(tài)多模態(tài)過程劃分問題,使用特征向量的行向量相互之間的余弦值作為模態(tài)變化標(biāo)簽進(jìn)行模態(tài)劃分,并與流行的k-means、GMM模態(tài)劃分方法作對比,都可以取得不錯的劃分結(jié)果,但是本文提出的算法應(yīng)用范圍更廣。針對動態(tài)多模態(tài)過程劃分問題,提出特征向量的行向量相互之間的高斯曼哈頓距離作為模態(tài)標(biāo)簽并使用小窗口的思想,提出窗口相似度的概念精確定位過渡過程開始點(diǎn)與終止點(diǎn),在TE過程仿真實驗中,目前流行的k-means、GMM算法并不能精確定位過渡過程的開始點(diǎn)與終止點(diǎn),而本文提出的算法可以對過渡過程精準(zhǔn)劃分,且結(jié)果準(zhǔn)確性很高。
[1] 趙春暉,王福利,姚遠(yuǎn),等.基于時段的間歇過程統(tǒng)計建模、在線監(jiān)測及質(zhì)量預(yù)報[J].自動化學(xué)報,2010,36 (3):366-374.
[2] GE Z,SONG Z.Multimode process monitoring based on Bayesian method[J].Journal of Chemometrics,2009,23(12):636-650.
[3] YU J,QIN S J.Multimode process monitoring with Bayesian inference:Based finite Gaussian mixture models[J].AIChE Journal,2008,54(7):1811-1829.
[4] 楊雅偉,宋冰,侍洪波.多SVDD模型的多模態(tài)過程監(jiān)控方法[J].化工學(xué)報,2015,66(11):4526-4533.
[5] SONG B,TAN S,SHI H,etal.Key principal components with recursive local outlier factor for multimode chemical process monitoring[J].Journal of Process Control,2016,47:136-149.
[6] 張淑美,王福利,譚帥.多模態(tài)過程的全自動離線模態(tài)識別方法[J].自動化學(xué)報,2016,42(1):60-80.
[7] 薛寧靜.生產(chǎn)狀態(tài)的熵值評估譜聚類分析[J].計算機(jī)工程與應(yīng)用,2012,48(19):230-233.
[8] BACH F R,JORDAN M I.Learning spectral clustering[J].Neural Information Processing Systems,2004,16(2):2006-2019.
[9] XING E,XING E P,JORDAN M,etal.On semidefinite relaxations for normalized k-cut and connections to spectral clustering[R].USA:University of California at Berkeley,2003.
[10] 王玲,薄列峰,焦李成.密度敏感的譜聚類[J].電子學(xué)報,2007,35(8):1577-1581.
[11] 楊藝芳,王宇平.基于核模糊相似度度量的譜聚類算法[J].儀器儀表學(xué)報,2015,36(7):1562-1569.
[12] SEMERTZIDIS T,RAFAILIDIS D,STRINTZIS M G,etal.Large-scale spectral clustering based on pairwise constraints[J].Information Processing and Management,2015,51(5):616-624.
[13] WANG S,FANG C,FANG J,etal.Spectral clustering of high-dimensional data via nonnegative matrix factorization[C]// International Symposium on Neural Networks.USA:IEEE,2015:1-8.
[14] DONATH W E,HOFFMAN A J.Lower bounds for the partitioning of graphs[J].IBM Journal of Research and Development,1973,17(5):420-425.
[15] FIEDLER M.A property of eigenvectors of nonnegative symmetric matrices and its application to graph theory[J].Czechoslovak Mathematical Journal,1975,25(4):619-633.
[16] 王森洪,戴青云,曹江中,等.基于均值的譜聚類特征向量選擇算法[J].計算機(jī)與現(xiàn)代化,2013(5):7-9.
[17] XIANG T,GONG S.Spectral clustering with eigenvector selection[J].Pattern Recognition,2008,41(3):1012-1029.
[18] 趙鳳,焦李成,劉漢強(qiáng),等.半監(jiān)督譜聚類特征向量選擇算法[J].模式識別與人工智能,2011,24(1):48-56.
[19] 田錚,李小斌,句彥偉.譜聚類的擾動分析[J].中國科學(xué):技術(shù)科學(xué),2007,37(4):527-543.
[20] 孔萬增,孫志海,楊燦,等.基于本征間隙與正交特征向量的自動譜聚類[J].電子學(xué)報,2010,38(8):1880-1885.
[21] 譚帥.多模態(tài)過程統(tǒng)計建模及在線監(jiān)測方法研究[D].沈陽:東北大學(xué),2012.
[22] CHIANG L H,RUSSELL E L,BRAATZ R D,etal.Fault detection and diagnosis in industrial systems[J].Measurement Science and Technology,2001,12(10):1745-1745.
[23] ANA L,JAIN A K.Robust data clustering[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition.Computer Vision and Pattern Recognition.USA:IEEE, 2003:128-133.
ModePartitioningMethodBasedonEigenvectorAnalysisinSpectralClustering
NANNan,YANGJian,ZHAOJing-jing,SHIHong-bo
(KeyLaboratoryofAdvancedControlandOptimizationforChemicalProcesses,MinistryofEducation,EastChinaUniversityofScienceandTechnology,Shanghai200237,China)
The multimode characteristics of the process data in actual production process will have a certain impact on the data modeling.Moreover,k-means,c-means and other clustering are several commonly used methods on mode analysis.However,these algorithms may not perform well in mode partitioning of the transition process.In this work,a general mode division method is proposed,in which the spectral clustering analysis of the similarity matrix is utilized.Moreover,by means of the relationship between the eigenvector of the similarity matrix and the involved classification information,a Gauss Manhattan distance is constructed for indicator variable such that the mode partitioning is achieved via the small window.Finally,the effectiveness of the proposed algorithm is verified by the experiment of multimode data with transition and nontransition process.
multimode data; mode partitioning; transient process; spectral clustering
TP277
A
1006-3080(2017)05-0669-08
10.14135/j.cnki.1006-3080.2017.05.011
2016-11-15
國家自然科學(xué)基金(61374140,61673173)
南 男(1992-),男,山西忻州人,碩士生,研究方向為過程監(jiān)控、機(jī)器學(xué)習(xí)。
侍洪波,E-mail:hbshi@ecust.edu.cn