謝 瑩, 胡范超, 劉雪偉
(1.沈陽化工大學(xué) 信息工程學(xué)院, 遼寧 沈陽 110142;2.沈陽化工大學(xué) 遼寧省工業(yè)環(huán)境-資源協(xié)同控制與優(yōu)化技術(shù)重點實驗室, 遼寧 沈陽 110142)
在工業(yè)過程監(jiān)控中,故障分類對于追溯故障根源以及使操作人員采取及時、準確的補救措施具有至關(guān)重要的作用.然而,在工業(yè)生產(chǎn)過程中,由于數(shù)據(jù)的高維特征和復(fù)雜關(guān)系,從工業(yè)過程中采集的數(shù)據(jù)通常很難進行分類.因此,學(xué)者們提出了一些分類方法,常見的有FDA方法[1]、k近鄰方法[2-3]和支持向量機方法[4-5]等.這些方法都屬于有監(jiān)督的學(xué)習(xí)方法,即要求所有訓(xùn)練數(shù)據(jù)都帶有標簽.然而,在實際的工業(yè)生產(chǎn)過程中,由于帶有標簽的數(shù)據(jù)往往數(shù)量很少,并且對工業(yè)過程數(shù)據(jù)進行人工標注需要耗費大量的人力和物力,因此獲取大量的標記數(shù)據(jù)進而對故障過程進行分類非常困難.
為了解決標記數(shù)據(jù)不足的問題,近年來,半監(jiān)督學(xué)習(xí)方法在過程監(jiān)控領(lǐng)域得到了廣泛的研究[6-7],例如:Feng等[8]提出了一種半監(jiān)督主元分析方法,并將該方法應(yīng)用于過程監(jiān)控中;Yan等[9]提出了一種半監(jiān)督混合判別式框架,并應(yīng)用于注塑過程構(gòu)造;Zhong等[10]提出了一種半監(jiān)督FDA模型,并用于工業(yè)過程故障分類中.半監(jiān)督學(xué)習(xí)方法可以有效挖掘未標記數(shù)據(jù)的結(jié)構(gòu)和特征,從而在標記數(shù)據(jù)不足的情況下提高數(shù)據(jù)標簽的預(yù)測性能.
標簽傳播方法作為一種典型的半監(jiān)督學(xué)習(xí)方法,近年來引起了學(xué)者們的廣泛關(guān)注[11-12].標簽傳播方法是利用標記數(shù)據(jù)和未標記數(shù)據(jù)的相似性和初始狀態(tài),將標記數(shù)據(jù)的標簽傳播給未標記數(shù)據(jù)的一種常用方法.已有的標簽傳播方法按照能否直接處理樣本集以外的數(shù)據(jù)分為直推式標簽傳播方法和歸納式標簽傳播方法兩類.其中,直推式標簽傳播方法能夠處理樣本集內(nèi)給定的數(shù)據(jù),例如線性鄰域傳播方法[13]、特殊標簽傳播方法[14]、投影標簽傳播方法[15]、自適應(yīng)鄰域傳播方法[16]和正負標簽傳播方法[17]等.
由于直推式標簽傳播方法快速、簡單、高效的優(yōu)點,該方法已應(yīng)用于許多領(lǐng)域,例如:Zhou等[11]提出了標簽傳播方法,該方法關(guān)注已標記和未標記數(shù)據(jù)的內(nèi)在結(jié)構(gòu)并定義一個平滑的分類函數(shù),并且應(yīng)用在Toy數(shù)據(jù)、數(shù)字識別和文本分類等實驗中;Wang等[13]提出了一種線性鄰域傳播方法,該方法假設(shè)每個數(shù)據(jù)點都可以被其近鄰線性重構(gòu),通過線性鄰域?qū)撕瀼臉擞淈c傳播到整個數(shù)據(jù)集,并且具有足夠的平滑度,然后應(yīng)用于數(shù)據(jù)、數(shù)字和文本的分類過程;Zhang等[18]提出了一種自適應(yīng)非負投影傳播方法,該方法將自適應(yīng)標簽傳播、重構(gòu)權(quán)重學(xué)習(xí)和鄰域保持投影非負矩陣分解集成在一起,并應(yīng)用于圖像數(shù)據(jù)的分類過程中;Lin等[19]提出了一種動態(tài)圖融合標簽傳播方法,聯(lián)合考慮多圖的關(guān)系和每個圖的唯一分布,在傳播過程中建模多圖的各種相關(guān)性,并將其應(yīng)用于多模態(tài)過程分類.
然而,現(xiàn)有的標簽傳播方法存在一些潛在的缺點.首先,數(shù)據(jù)圖的構(gòu)建獨立于標簽傳播過程,根據(jù)之前的數(shù)據(jù)圖而計算得到的相似性權(quán)重對于后續(xù)的標簽傳播過程并不是最優(yōu)的;其次,未標記數(shù)據(jù)的初始標簽向量通常簡單地定義為零向量,沒有充分考慮未標記數(shù)據(jù)和已標記數(shù)據(jù)之間的內(nèi)部關(guān)系,而這些未標記數(shù)據(jù)和標記數(shù)據(jù)之間的關(guān)系和隱含的特征非常有價值.以上這些問題都可能導(dǎo)致故障分類的準確率降低.
針對工業(yè)過程中標記數(shù)據(jù)的有限性問題和故障分類問題,筆者研究了基于點密度標簽傳播(dot density label propagation,DDLP)的數(shù)據(jù)標簽預(yù)測方法和故障分類方法.首先,該方法構(gòu)建了一個基于數(shù)據(jù)圖和數(shù)據(jù)標簽的框架,該框架假設(shè)流形上的數(shù)據(jù)具有相似的結(jié)構(gòu),近鄰數(shù)據(jù)具有相似的標簽;其次,在標簽傳播的初始化階段,考慮未標記數(shù)據(jù)和歷史標記數(shù)據(jù)之間的內(nèi)在關(guān)系,定義了一個新的初始標簽矩陣;最后,通過Toy數(shù)據(jù)集和青霉素發(fā)酵過程驗證了所提出方法的有效性.
將給定的數(shù)據(jù)集映射到圖X=[XL,XU]∈Rs×n,圖中的每個數(shù)據(jù)對應(yīng)于圖中的一個節(jié)點,數(shù)據(jù)之間的相似性對應(yīng)于圖中的邊[14,20-21].XL=[x1,x2,…,xl]∈Rs×l表示已標記的數(shù)據(jù)集,XU=[xl+1,xl+2,…,xl+u]∈Rs×u表示未標記的數(shù)據(jù)集.其中:s表示每個數(shù)據(jù)的原始維度;l+u=n表示樣本數(shù).假設(shè)C={1,2,…,c}是一個分類標簽集,XL中的每個數(shù)據(jù)xi都有一個唯一的標簽ηi(i=1,2,…,l),當xi標記為j∈{1,2,...,c}時,ηi,j=1;否則,ηi,j=0.點密度標簽傳播模型的目標函數(shù)表示為:
minJ(P,W,F)=
s.t.PPT=I.
(1)
在對目標函數(shù)中的參數(shù)P、W和F進行優(yōu)化時,筆者采用迭代優(yōu)化方法,即在固定其中兩個參數(shù)的同時更新第三個參數(shù),反之亦然[22].目標函數(shù)的具體優(yōu)化過程如下:
首先,設(shè)置相似性權(quán)重矩陣W的初始值.如果i≠j,Wij=e-‖xi-xj‖2/2δ2;否則,Wij=0.其中δ是核函數(shù)的核寬度參數(shù),控制著函數(shù)的徑向作用范圍.采用核函數(shù)可以將兩點之間的距離轉(zhuǎn)化為相似度.其次,設(shè)置軟標簽矩陣F的初始值.當xi標記為j∈{1,2,…,c}時,fi,j=1;否則,fi,j=0[11-12].
然后,便可以計算低維流形的投影矩陣P[23-24].公式(1)中關(guān)于P的目標函數(shù)為[16]:
s.t.PPT=I.
(2)
在計算參數(shù)時對XLXT進行特征分解[25],選擇對應(yīng)于d個最小特征值的特征向量作為P,其中L=(I-W)T(I-W),I為單位矩陣,d表示低維流形空間的維數(shù).
接下來,更新相似性權(quán)重矩陣,關(guān)于W的目標函數(shù)表示為
(3)
W可通過對J(W)求導(dǎo)并設(shè)置為零得到.
最后,通過公式(4)更新軟標簽矩陣F.
(4)
對于給定數(shù)據(jù)集,無法準確得到每個樣本的特性,但是當樣本分布在一個簇中時,根據(jù)數(shù)據(jù)分布原理可知如果樣本點周圍有其他樣本點,那么該樣本點的分布密度會更高,這樣該樣本點對分類的影響也會更大.因此,本節(jié)將根據(jù)點密度思想來定義新的初始標簽矩陣,以充分挖掘未標記數(shù)據(jù)和歷史標記數(shù)據(jù)之間的內(nèi)在關(guān)系.首先,設(shè)置初始標簽矩陣G=[g1,g2,…,gl+u]T∈R(l+u)×c,該矩陣代表每個樣本點密度的影響力.具體來說,對于已標記的數(shù)據(jù),當xi標記為j∈{1,2,…,c}時,gi,j=1;否則gi,j=0.根據(jù)式(5)計算每個標記樣本的點密度.
1≤p≤l,1≤q≤n.
(5)
其次,對zp進行歸一化處理,便可以得到每個未標記數(shù)據(jù)的初始標簽為
(6)
然后,在得到初始標簽矩陣G之后,將公式(4)中J(F)關(guān)于F的導(dǎo)數(shù)設(shè)為零,即可得到迭代結(jié)果
F=[α(I-W)T(I-W)+βI]-1βG.
(7)
接下來,根據(jù)上述迭代方法更新參數(shù),直到滿足收斂條件‖F(xiàn)t+1-Ft‖2≤ε,當表示第(t+1)次與第t次迭代后的預(yù)測軟標簽沒有顯著差異時迭代結(jié)束,其中ε表示閾值.最后,根據(jù)fi中最大元素的列索引確定樣本的軟標簽.
在低維空間中,第j類數(shù)據(jù)的均值和協(xié)方差計算為:
(8)
采集新樣本并計算其低維投影z,首先將其代到每個類別數(shù)據(jù)的條件概率密度函數(shù)公式(9)[27-28]中.
(9)
引入Toy數(shù)據(jù)集和青霉素發(fā)酵過程兩個例子來驗證基于點密度標簽傳播的數(shù)據(jù)標簽預(yù)測方法和故障分類方法的有效性.
首先以Toy數(shù)據(jù)集[22,30]為研究對象來驗證所提出方法的標簽預(yù)測性能.Toy數(shù)據(jù)集中包括兩種數(shù)據(jù)類型,分別用類型1和類型2表示,每種類型的數(shù)據(jù)集分布在半月形中.在本次仿真中,引入了標簽傳播(LP)方法[11]和線性鄰域傳播(LNP)方法[13]與所提出的方法進行比較.
選取每種類型的60個樣本作為測試數(shù)據(jù)集,其分布情況如圖1所示.圖1上面的半月形表示類型1的數(shù)據(jù)分布,其中含5個已標記數(shù)據(jù),用紅色實心正方形表示;下面的半月形表示類型2的數(shù)據(jù)分布,其中含5個已標記數(shù)據(jù),用藍色實心三角形表示;110個未標記數(shù)據(jù)用黑色圓點表示.在本次仿真中,參數(shù)d設(shè)為1,α和β均為0.5,收斂閾值ε為e-6,δ2為500.
圖1 測試數(shù)據(jù)集
基于LP、LNP和本文提出的DDLP方法的仿真結(jié)果如圖2至圖4所示.通過仿真結(jié)果可以看出LP和LNP方法的標簽傳播正確率分別為65.5%和53.6%.相比而言,DDLP方法得到比較理想的標簽傳播結(jié)果,其標簽傳播準確率為90.9%.仿真結(jié)果表明:DDLP方法的點密度框架為標簽傳播提供了最優(yōu)的初始標簽矩陣,使得本方法能夠有效地挖掘和利用已標記數(shù)據(jù)和未標記數(shù)據(jù)中的信息,達到準確預(yù)測標簽的目的,標簽傳播性能得到了明顯提高.
圖2 LP方法的標簽傳播結(jié)果
圖3 LNP方法的標簽傳播結(jié)果
圖4 DDLP方法的標簽傳播結(jié)果
青霉素發(fā)酵過程是一個復(fù)雜的生化過程[31-34],其工藝流程如圖5所示.它包括兩個主要操作階段:細菌生長階段和青霉素發(fā)酵階段.由于該過程在不同的初始條件和運行模式下的過程數(shù)據(jù)歸屬于不同的類別,故本節(jié)通過青霉素發(fā)酵過程對提出的基于點密度標簽傳播的分類方法進行驗證.
本次仿真使用的數(shù)據(jù)由Pensim V2.0生成,選取青霉素發(fā)酵過程中的14個變量進行仿真,過程變量詳見表1.在本次仿真中,青霉素發(fā)酵過程運行在正常、故障1、故障2和故障3四種類別情況下.其中正常模式中的初始條件、設(shè)置點和溫度控制器均為默認設(shè)置值,并采用PID控制器對pH值進行調(diào)節(jié).故障1是由通風(fēng)率出現(xiàn)斜坡故障引起的,故障2是由攪拌器功率出現(xiàn)階躍故障引起的,故障3是由底物喂料流速出現(xiàn)斜坡故障引起的.
圖5 青霉素發(fā)酵工藝流程
表1 青霉素發(fā)酵過程變量
建模過程中訓(xùn)練數(shù)據(jù)集由300個樣本組成,其中包括120個正常樣本(含10個已標記樣本)、60個故障1樣本(含5個已標記樣本)、60個故障2樣本(含5個已標記樣本)和60個故障3樣本(含5個已標記樣本).通過Pensim V2.0生成測試數(shù)據(jù)集,包括100個正常樣本、50個故障1樣本、50個故障2樣本和50個故障3樣本,且它們依次出現(xiàn),并且故障1、故障2和故障3的故障幅度分別為0.9、2%和0.9.
通過LP、LNP和DDLP方法可以得到未標記數(shù)據(jù)的軟標簽,然后將這三種方法分別結(jié)合SFDA方法實現(xiàn)過程數(shù)據(jù)的分類.LP-SFDA、LNP-SFDA和DDLP-SFDA模型中的參數(shù)r均設(shè)為4.在DDLP-SFDA模型中,參數(shù)d設(shè)置為4,α和β均為0.5,ε為e-6,ω為0.7,δ2為500.
圖6至圖8為利用LP-SFDA、LNP-SFDA和DDLP-SFDA方法測試數(shù)據(jù)在低維空間的投影結(jié)果.圖6和圖7表明LP-SFDA和LNP-SFDA方法在低維空間獲得的投影比較接近,四種類別的數(shù)據(jù)不能較好地區(qū)分開,模型對這四種類別不能進行良好地判別.相比而言,圖8表明了用DDLP-SFDA方法獲得的4種類別在低維子空間的投影彼此之間明顯分離.這說明DDLP-SFDA方法對4種類別具有更好的判別效果,表明DDLP-SFDA方法可以獲得更好的判別子空間,從而得到更準確的判別結(jié)果.
圖6 LP-SFDA方法降維結(jié)果
圖7 LNP-SFDA方法降維結(jié)果
圖8 DDLP-SFDA方法降維結(jié)果
圖9至圖11給出了基于LP-SFDA、LNP-SFDA和DDLP-SFDA方法的分類結(jié)果,三種方法的分類準確率分別為87.6%、81.2%和98.0%.由圖9和圖10可以看出利用LP-SFDA和LNP-SFDA方法對四種類型的數(shù)據(jù)進行分類時存在一些錯誤的分類,準確率較低.相比而言,圖11表明DDLP-SFDA方法的分類正確率遠高于LP-SFDA和LNP-SFDA方法,故障分類性能得到了明顯提高.
圖9 LP-SFDA方法故障分類結(jié)果
圖10 LNP-SFDA方法故障分類結(jié)果
圖11 DDLP-SFDA方法故障分類結(jié)果
因此,根據(jù)對比結(jié)果可以看出DDLP-SFDA方法的故障分類準確率明顯高于其他兩種方法.以上結(jié)果表明:通過DDLP方法的標簽預(yù)測和SFDA模型的半監(jiān)督特性,所提出方法的分類性能得到了顯著提高.通過本次實驗也驗證了所提出方法在故障分類方面的有效性.
針對工業(yè)過程中的標記數(shù)據(jù)有限性問題和故障分類問題,研究了基于點密度標簽傳播的數(shù)據(jù)標簽預(yù)測方法和故障分類方法.首先,該方法基于數(shù)據(jù)圖和數(shù)據(jù)標簽理論,構(gòu)建了一個全局和局部一致性框架;然后,根據(jù)數(shù)據(jù)的分布特征和點密度定義了一個新的初始標簽矩陣,通過迭代方法得到最優(yōu)參數(shù)集;最后,通過Toy數(shù)據(jù)集和青霉素發(fā)酵過程驗證了所提出方法的有效性.結(jié)果表明本文所提出的方法在未標記數(shù)據(jù)的標簽預(yù)測中具有良好的性能,并且在故障分類方面使分類效果得到顯著提高,具有一定的理論意義和實際應(yīng)用價值.