張 勤,苗愛敏,李 鵬
(1.云南電網(wǎng)有限責(zé)任公司麗江供電局,云南 麗江 674100;2.云南大學(xué)信息學(xué)院,云南 昆明 650504)
局部特征關(guān)系下的數(shù)據(jù)回歸及軟測(cè)量建模
張 勤1,苗愛敏2,李 鵬2
(1.云南電網(wǎng)有限責(zé)任公司麗江供電局,云南 麗江 674100;2.云南大學(xué)信息學(xué)院,云南 昆明 650504)
針對(duì)復(fù)雜工業(yè)過程中存在的數(shù)據(jù)非線性的問題,對(duì)基于數(shù)據(jù)局部特征的回歸模型構(gòu)建和軟測(cè)量建模方法進(jìn)行研究?;卩徲虮3智度?NPE)算法思想,利用數(shù)據(jù)間局部關(guān)系特征,建立多目標(biāo)的回歸優(yōu)化函數(shù),提出了基于局部的數(shù)據(jù)回歸(LDR)算法。該方法基于數(shù)據(jù)的局部關(guān)系和鄰域特征,在保留輸入數(shù)據(jù)和輸出數(shù)據(jù)局部特征的同時(shí),獲取數(shù)據(jù)間的最大相關(guān)關(guān)系。通過數(shù)據(jù)低維潛變量獲取數(shù)據(jù)的回歸關(guān)系,并建立軟測(cè)量預(yù)測(cè)模型。將模型應(yīng)用于工業(yè)案例中,預(yù)估產(chǎn)品的質(zhì)量和難以在線測(cè)量的關(guān)鍵變量。脫丁烷塔的案例研究證明了所提出的方法在變量預(yù)測(cè)方面的有效性。與基于全局特征的軟測(cè)量模型的對(duì)比分析結(jié)果表明,所提出的LDR在獲取非線性數(shù)據(jù)相關(guān)性和增強(qiáng)數(shù)據(jù)預(yù)測(cè)精度方面具有顯著的改善效果。
工業(yè)過程; 鄰域保持嵌入; 數(shù)據(jù)回歸算法; 流形學(xué)習(xí); 軟測(cè)量; 數(shù)據(jù)建模; 局部特征; 質(zhì)量預(yù)測(cè)
在復(fù)雜工業(yè)過程中,需要對(duì)工業(yè)流程中的被控變量尤其是質(zhì)量參數(shù)進(jìn)行及時(shí)采集和監(jiān)控,但由于技術(shù)困難、環(huán)境條件限制和變量測(cè)量時(shí)間延遲等問題,部分過程變量很難實(shí)現(xiàn)直接在線測(cè)量。為了實(shí)現(xiàn)實(shí)時(shí)監(jiān)控,可靠的傳感器測(cè)量和數(shù)據(jù)收集至關(guān)重要。因此,開發(fā)了基于間接測(cè)量的軟測(cè)量技術(shù),并廣泛應(yīng)用于質(zhì)量預(yù)測(cè)和變量估計(jì)中[1-8]。其中,基于數(shù)據(jù)驅(qū)動(dòng)的軟測(cè)量建模方法得到了較大規(guī)模的應(yīng)用。該方法通過工業(yè)過程數(shù)據(jù)挖掘過程信息,利用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等方法建立輸入變量和輸出變量間的回歸關(guān)系[6-8]。
本文基于鄰域保持嵌入(neighborhood preserving embedding,NPE)算法,提出了新的基于數(shù)據(jù)驅(qū)動(dòng)的回歸模型。通過系統(tǒng)過程樣本和質(zhì)量樣本間的局部相關(guān)關(guān)系,構(gòu)建數(shù)據(jù)的軟測(cè)量模型,實(shí)現(xiàn)某些原本難以測(cè)量的樣本質(zhì)量變量的在線測(cè)量。
NPE算法根據(jù)局部線性的思想,利用其鄰域樣本的數(shù)據(jù)樣本點(diǎn)構(gòu)造重構(gòu)權(quán)系數(shù);降維后,通過保持該權(quán)值實(shí)現(xiàn)對(duì)樣本空間結(jié)構(gòu)的保留。該重構(gòu)權(quán)重表征了原始變量空間中隱藏的流形信息,反映了局部鄰域的幾何性質(zhì)[9-10]。
給定n個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)集X(x1,x2,…,xn)∈RD,首先使用K-近鄰法(K-nearest neighbors,K-NN)確定每個(gè)樣本點(diǎn)xi由近到遠(yuǎn)的近鄰點(diǎn)。通過最小化重構(gòu)誤差,構(gòu)造重構(gòu)權(quán)系數(shù)矩陣,重構(gòu)系數(shù)矩陣W通過最小化式(1)求得:
(1)
式中:Wij為重構(gòu)權(quán)重系數(shù),當(dāng)xj不在xi的鄰域時(shí),Wij為零。NPE算法的目標(biāo)是尋找一組投影向量A(a1,a2,…,ad),使得降維后數(shù)據(jù)T與原始空間數(shù)據(jù)具有相似的局部結(jié)構(gòu)。在NPE算法中,該投影目標(biāo)轉(zhuǎn)化為最小化的問題[10]:
(2)
式中:約束條件為TTT=aTXXTa=1。
NPE算法的最小化投影向量重構(gòu)誤差的目標(biāo)最終轉(zhuǎn)換為求解式(3)中的廣義特征值的問題[10]。
XMXTa=λXXTa
(3)
由于XMXT和XXT都是半正定矩陣,故求解式(3)可獲取原始數(shù)據(jù)的低維投影矩陣。
NPE算法本質(zhì)上是降維算法,其目標(biāo)是在降維的同時(shí)獲得測(cè)量數(shù)據(jù)的每一個(gè)細(xì)節(jié)結(jié)構(gòu)信息,使得高維數(shù)據(jù)空間中位置較近的點(diǎn)投影到低維空間后,位置關(guān)系依然較近。局部關(guān)系對(duì)于數(shù)據(jù)整體特征融合具有重要的作用,在有效挖掘相鄰點(diǎn)之間局部特征幾何結(jié)構(gòu)的同時(shí),通過鄰域數(shù)據(jù)之間的重疊,獲取非線性數(shù)據(jù)全局結(jié)構(gòu)的變化關(guān)系。
但NPE是一種無(wú)監(jiān)督的算法,在實(shí)現(xiàn)數(shù)據(jù)降維時(shí)不使用任何的先驗(yàn)標(biāo)簽信息。為了有效地利用數(shù)據(jù)全面的類別特征,展示輸入數(shù)據(jù)和輸出數(shù)據(jù)的映射特征和相關(guān)關(guān)系,本文利用數(shù)據(jù)的局部類別標(biāo)簽特征,改進(jìn)現(xiàn)有的NPE算法,提出針對(duì)基于局部的數(shù)據(jù)回歸(local based data regression,LDR)算法,通過建立可測(cè)量變量和預(yù)測(cè)變量的相關(guān)模型,實(shí)現(xiàn)對(duì)預(yù)測(cè)變量的估計(jì)。
2.1 基本算法
軟測(cè)量建模方法是選取一組易測(cè)量且與預(yù)測(cè)變量密切相關(guān)的過程變量作為輸入,以預(yù)測(cè)變量作為輸出,建立數(shù)學(xué)模型,對(duì)輸出進(jìn)行估計(jì)[11-12]。本回歸算法的建模目標(biāo)是在保留數(shù)據(jù)局部關(guān)系的同時(shí),最大化輸入、輸出數(shù)據(jù)的相關(guān)關(guān)系。
首先,收集正常工況的輸入、輸出數(shù)據(jù)組成建模訓(xùn)練樣本集,對(duì)輸入數(shù)據(jù)和輸出數(shù)據(jù)實(shí)施NPE運(yùn)算,實(shí)現(xiàn)數(shù)據(jù)降維并保留局部結(jié)構(gòu)特征。
針對(duì)樣本個(gè)數(shù)為n的D維的過程數(shù)據(jù)X,基于投影矩陣A(a1,a2,…,aD)∈RD×d和線性變換Ti=XiA,獲取X的低維投影T(T1,T2,…,Tn)∈Rd(i=1,2,…,n,d≤D),其降維目標(biāo)為:
(4)
式中:M=(I-W)T(I-W),W為通過式(1)的計(jì)算方法獲取的輸入數(shù)據(jù)權(quán)重矩陣。式(4)的最優(yōu)值通過式(3)求取。
假設(shè)輸出數(shù)據(jù)矩陣為Yi∈Rm(i=1,2,…,m),m為樣本維數(shù)。為了保留輸出數(shù)據(jù)的局部相關(guān)關(guān)系,構(gòu)建目標(biāo)函數(shù):
(5)
式中:M′=(I-W′)T(I-W′);Ui=YiP,P(P1,P2,…,Pm)為輸出數(shù)據(jù)的投影向量。
上述NPE算法的實(shí)現(xiàn)無(wú)監(jiān)督過程,且其低維空間投影在最大程度保留原始空間局部關(guān)系信息的同時(shí),實(shí)現(xiàn)了數(shù)據(jù)降維。
數(shù)據(jù)的局部結(jié)構(gòu)特征反映了非線性數(shù)據(jù)重要、真實(shí)的分布情況,基于該部分信息構(gòu)建的數(shù)據(jù)相關(guān)關(guān)系,也將會(huì)更好地反映原始過程數(shù)據(jù)的相關(guān)關(guān)系。基于此,利用輸入、輸出數(shù)據(jù)的投影向量構(gòu)建回歸模型。T和U分別為原始測(cè)量數(shù)據(jù)和質(zhì)量數(shù)據(jù)在低維方向的投影,因?yàn)橥队皵?shù)據(jù)中已經(jīng)包含了X和Y的大部分信息,因此LDR的基本思想是分別利用它們代替原始輸入、輸出變量?;诰€性回歸方程U=TB+E,該回歸關(guān)系通過求解式(6)獲取目標(biāo)函數(shù):
(6)
式中:E為殘差矩陣?;貧w的目的是要找到一個(gè)最佳的回歸矩陣B,使式(6)的重構(gòu)誤差最小化。式(6)的最優(yōu)值求解可以轉(zhuǎn)化為其對(duì)B的偏導(dǎo)為0,則可以得到B的方程式為:
B=(TTT)-1TU
(7)
整合式(5)的目標(biāo)函數(shù),加入投影約束條件,式(6)的目標(biāo)函數(shù)可以改進(jìn)為:
min(‖U-TB‖2+UTM′U)
s.t.UTU=PTYTYP=1
(8)
將式(7)代入式(8),則式(8)可以轉(zhuǎn)換為:min(‖U-TB‖2+UTM′U)=‖U-T(TTT)-1×TU‖2+UTM′U=[(I-T(TTT)-1T)U]T× (I-T(TTT)-1T)U+UTM′U=UTTU+UTM′U
(9)
式中:L=[I-T(TTT)-1T]T[I-T(TTT)-1T]。
利用拉格朗日乘子法包含約束來求解以上優(yōu)化問題,原問題轉(zhuǎn)化為求解投影矩陣P(P1,P2,…,Pm),建立如下的目標(biāo)函數(shù):
J(P)LDR=UT(T+M′)U+λ(UTU-1)=PTY(L+M)YP+λ(PTYTYP-1)
(10)
式(10)中,最優(yōu)化問題的求解要求其對(duì)P的偏導(dǎo)為0,即:
(11)
等價(jià)于:
YT(L+M)YP=λYTYP
(12)
因此,式(10)的優(yōu)化目標(biāo)可以通過求解式(12)的特征值分解問題得到。
通過求解式(4)獲取低維投影矩陣T,并求解式(12)中d個(gè)特征值λ1,λ2,…,λd(λ1≥λ2≥…≥λd)所對(duì)應(yīng)的特征向量,構(gòu)成數(shù)據(jù)投影矩陣P(P1,P2,…,Pm)。其中,d為降維維度。
基于式(4)中局部保持的優(yōu)化目標(biāo),獲取輸入數(shù)據(jù)的投影矩陣及其低維投影?;谑?8)的雙目標(biāo)優(yōu)化函數(shù),在保留局部特征的同時(shí)使得輸入、輸出特征的相關(guān)性最大,以獲取輸出數(shù)據(jù)的轉(zhuǎn)換矩陣及其低維投影。
2.2 算法分析
數(shù)據(jù)回歸分析的目的是構(gòu)建輸入變量和輸出變量之間的關(guān)系模型,因此,模型構(gòu)建的數(shù)據(jù)變量非常重要。為了獲取較高的回歸精度,應(yīng)用于預(yù)測(cè)輸出的輸入特征必須能夠反映原始數(shù)據(jù)特征,并且與輸出數(shù)據(jù)保持較強(qiáng)的相關(guān)性?;贚DR的回歸方法旨在保留局部鄰域結(jié)構(gòu)特征,使得相鄰的數(shù)據(jù)映射到低維空間后,能夠保持該鄰域的幾何特征,以更好地獲取高維的數(shù)據(jù)信息[13-14]。相較于流行的基于全局特征的回歸技術(shù),如主成分回歸(principal component regression,PCR),LDR可能會(huì)使得鄰近的數(shù)據(jù)映射到遙遠(yuǎn)的距離,造成數(shù)據(jù)局部和全局的幾何結(jié)構(gòu)扭曲[15],使模型構(gòu)建不準(zhǔn)確。針對(duì)測(cè)試數(shù)據(jù),數(shù)據(jù)的投影也會(huì)偏離正確的數(shù)據(jù)模型的方向,最終影響預(yù)測(cè)結(jié)果。
在工業(yè)過程中,復(fù)雜系統(tǒng)通常由不同性能的器件組成,從相同的子系統(tǒng)中收集的過程變量更容易表現(xiàn)出數(shù)據(jù)的局部相似性。在這種情況下,復(fù)雜工業(yè)過程可以通過連接數(shù)據(jù)的局部結(jié)構(gòu)來得到更好的表達(dá)。不同于傳統(tǒng)的建模方法,流形學(xué)習(xí)基于局部特征的特征提取策略,可以使目標(biāo)變量估計(jì)的精確度更高。
3.1 基于LDR的軟測(cè)量建模
LDR模型實(shí)現(xiàn)的過程如下。收集正常操作條件下的輸入變量X(x1,x2,…,xn)∈RD×n及其相應(yīng)的輸出變量Y(y1,y2,…,yn)∈Rm×n。針對(duì)訓(xùn)練數(shù)據(jù),其輸入數(shù)據(jù)的低維映射T和變換矩陣A基于式(4)獲得?;谑?12)獲取輸出數(shù)據(jù)Y的低維投影U以及轉(zhuǎn)移矩陣P。根據(jù)T和U之間的回歸優(yōu)化方程(7),得到回歸模型參數(shù)B。
對(duì)于給定的新數(shù)據(jù)xnew∈RD,其預(yù)測(cè)輸出ynew=f(xnew)應(yīng)根據(jù)訓(xùn)練數(shù)據(jù)模型和輸入數(shù)據(jù)獲取。首先,基于Tnew=xnewA,獲得xnew的低維投影。接著,根據(jù)式(7)的B值及關(guān)系式unew=TnewB,得到unew。進(jìn)一步利用unew=YiP,最小化公式J(P)=‖unew-YiP‖2,參考式(6)的優(yōu)化目標(biāo)求解,得到輸出ynew和P的關(guān)系為ynew=(PPT)-1Pu。基于此,軟測(cè)量預(yù)測(cè)輸出ynew可描述為:
ynew=(PPT)-1Punew=(PPT)-1PTnewB= (PPT)-1PXnewAB
(13)
式(13)中,在建模階段分別通過式(12)和式(7)獲取矩陣P和B,并通過求解式(4)的目標(biāo)函數(shù)獲取A。
為了評(píng)估算法變量預(yù)測(cè)能力,使用了兩種廣泛使用的評(píng)價(jià)標(biāo)準(zhǔn)。第一種是均方根誤差(root mean square error,RMSE)標(biāo)準(zhǔn)[16-17]:
(14)
另一種標(biāo)準(zhǔn)是軟測(cè)量的預(yù)測(cè)輸出值與實(shí)際輸出的決定系數(shù)R2[18]:
(15)
3.2 參數(shù)設(shè)置
在LDR中,近鄰數(shù)k和數(shù)據(jù)降維維度d應(yīng)提前設(shè)定。針對(duì)該問題,學(xué)者提出了多種處理方法[15,19-24]。首先,鄰域允許將整個(gè)數(shù)據(jù)分成若干個(gè)局部空間,若k很小,鄰近的數(shù)據(jù)點(diǎn)不足以反映局部的數(shù)據(jù)屬性,無(wú)法保證鄰域數(shù)據(jù)的重疊。相反,k越大,則在鄰域內(nèi)包含的不相關(guān)的數(shù)據(jù)信息越多,違反局部線性假設(shè)。參照文獻(xiàn)[23],重建誤差ε=∑i(xi-∑jWijxj)2最小時(shí)所對(duì)應(yīng)的k值為最優(yōu)。投影維度d應(yīng)該符合數(shù)據(jù)結(jié)構(gòu)維度值。參照文獻(xiàn)[15]和文獻(xiàn)[24],d的值根據(jù)訓(xùn)練數(shù)據(jù)的特征值估計(jì)得出。
通過脫丁烷塔的工業(yè)實(shí)例,評(píng)估本文提出的方法及其在軟測(cè)量建模的預(yù)測(cè)性能。為了測(cè)試LDR的優(yōu)越性,同時(shí)構(gòu)造基于PCR和核主成分回歸(kernel principal component regression,KPCR)的軟測(cè)量模型,基于RMSE和R2準(zhǔn)則進(jìn)行性能比較研究。
脫丁烷塔被認(rèn)為是脫硫石腦油分餾裝置的重要組成部分。在脫丁烷塔試驗(yàn)中,丙烷和丁烷從汽流油中逐漸分餾[25-26]。充分分餾之后,脫丁烷塔的目的是最大限度地穩(wěn)定塔頂汽油含量,同時(shí)盡量減少在脫丁烷塔底部的丁烷含量。
工業(yè)過程傳感器為在線測(cè)量過程變量和監(jiān)測(cè)產(chǎn)品質(zhì)量提供了便利。在脫丁烷塔底部的丁烷,其濃度可以通過間接測(cè)量得到。根據(jù)文獻(xiàn)[26],以最高溫度、頂壓、回流、進(jìn)程時(shí)間、第六塔板溫度、底部溫度和井底壓力等7個(gè)相關(guān)變量作為軟測(cè)量的輸入變量,以丁烷濃度為輸出變量。
在本試驗(yàn)中,首先采集1 200個(gè)過程樣本作為模型訓(xùn)練數(shù)據(jù)。此外,為了測(cè)試3個(gè)軟測(cè)量模型的預(yù)測(cè)性能,采集1 200個(gè)樣本作為測(cè)試數(shù)據(jù)。
k值由1變化到20時(shí),對(duì)應(yīng)的重建誤差值關(guān)系圖如圖1所示。
圖1 近鄰數(shù)與重建誤差值關(guān)系圖
在基于LDR、PCR和KPCR這三種方法的軟測(cè)量模型中,近鄰數(shù)k、降維維度d以及KPCR算法中使用的核參數(shù)需要提前確定。根據(jù)文獻(xiàn)[23],當(dāng)重構(gòu)誤差最小時(shí),其對(duì)應(yīng)的近鄰數(shù)k為其最優(yōu)值。
圖1中,從k=8開始,重構(gòu)誤差值逐漸趨近于0。為了減少算法的計(jì)算復(fù)雜度,本試驗(yàn)中k被設(shè)置為8。
降維維度d根據(jù)式(3)中NPE算法的特征值進(jìn)行估計(jì)[15,27]。建立NPE特征值與降維維度的關(guān)系如圖2所示。
圖2 NPE特征值與降維維度關(guān)系圖
圖2中:在d≤4時(shí)特征值均較小,且其值變化較?。划?dāng)d>4時(shí),特征值開始顯著增加,表明數(shù)據(jù)的本征維數(shù)是4。因此,數(shù)據(jù)維數(shù)d被設(shè)置為4。在KPCR模型中,選取高斯核函數(shù)k(x,y)=exp(-‖x-y‖2/σ),取σ=5d[28]。
表1給出了三種軟測(cè)量模型方法的預(yù)測(cè)結(jié)果,分別列出了其對(duì)應(yīng)的RMSE和R2。
表1 預(yù)測(cè)結(jié)果比較
由對(duì)比結(jié)果可以明顯看出,LDR的質(zhì)量預(yù)測(cè)性能具有相當(dāng)大的優(yōu)勢(shì),其均方根誤差值較低,同時(shí)相關(guān)系數(shù)較高,表明新提出的回歸算法具有較高的預(yù)測(cè)精度,實(shí)際過程測(cè)量值和本文算法模型預(yù)測(cè)值之間的吻合程度較高。相比于該擴(kuò)展模型,線性模型PCR具有較好的性能,這表明通過該擴(kuò)展方法并不總能有效改進(jìn)算法的非線性預(yù)測(cè)性能。這是因?yàn)樵摲椒]有考慮到非線性數(shù)據(jù)的細(xì)節(jié)結(jié)構(gòu)關(guān)系,無(wú)法探索復(fù)雜數(shù)據(jù)的內(nèi)在相關(guān)性。
三種算法在脫丁烷塔工藝中的預(yù)測(cè)結(jié)果如圖3所示。由圖3可以看出,所有方法都能夠捕獲數(shù)據(jù)穩(wěn)定狀態(tài)的特征。但當(dāng)處理操作從批次補(bǔ)料模式切換到分批補(bǔ)料模式,即過程數(shù)據(jù)模式發(fā)生改變時(shí),數(shù)據(jù)的波動(dòng)對(duì)預(yù)測(cè)值的影響較大,則預(yù)測(cè)誤差越來越大。這種過渡過程一般很難被跟蹤,但是,基于LDR模型的預(yù)測(cè)與實(shí)際輸出的軌跡比較吻合,預(yù)測(cè)方法能夠跟蹤數(shù)據(jù)變化的軌跡,而其他兩種方法預(yù)測(cè)值和實(shí)際測(cè)量有顯著的偏移。
圖3 三種算法在脫丁烷塔工藝中的預(yù)測(cè)結(jié)果
圖3的比較結(jié)果表明,LDR 對(duì)數(shù)據(jù)變化比較敏感,可以很好地對(duì)非線性數(shù)據(jù)進(jìn)行預(yù)測(cè)。無(wú)論是線性方法還是其內(nèi)核擴(kuò)展,基于局部的LDR方法能獲得比PCR和KPCR等基于全局的方法更好的預(yù)測(cè)結(jié)果??梢酝茢喑觯ㄟ^數(shù)據(jù)之間的局部關(guān)系,基于LDR的方法可以從過程數(shù)據(jù)和回歸模型中提取更多的內(nèi)在信息,并獲得更高的可靠性。
通過比較脫丁烷塔過程和發(fā)酵過程的結(jié)果可知,通過LDR獲得的預(yù)測(cè)結(jié)果符合實(shí)際測(cè)量結(jié)果,可以預(yù)測(cè)非線性過程的質(zhì)量變量。
本文將傳統(tǒng)的NPE算法模型擴(kuò)展到回歸模型LDR,并將其應(yīng)用于軟測(cè)量建模。LDR方法在捕捉輸入過程數(shù)據(jù)和輸出過程數(shù)據(jù)局部特征的同時(shí),根據(jù)數(shù)據(jù)局部特征間的非線性關(guān)系,構(gòu)建輸入特征變量與輸出數(shù)據(jù)的回歸關(guān)系。其目的是獲得更為準(zhǔn)確的非線性數(shù)據(jù)結(jié)構(gòu)。
將本文所提出的回歸方法應(yīng)用到實(shí)際工業(yè)過程中。與傳統(tǒng)的基于全局的軟測(cè)量模型相比,LDR在捕捉非線性過程變化特征方面具有更強(qiáng)大的功能,其預(yù)測(cè)結(jié)果與真實(shí)值更加接近,具有較低的預(yù)測(cè)誤差和較高的相關(guān)系數(shù)。通過該案例,驗(yàn)證了新提出算法在變量預(yù)測(cè)方面具有較高的可靠性和穩(wěn)定性。
[1] GONZAGA J C B,MELEIROL A C,KIANG C ,et al.ANN based soft-sensor for real-time process monitoring and control of an industrial polymerization process[J].Computers & Chemical Engineering,2009,33(1):43-49.
[2] DUFOUR P,BHARTIYA S,DHURJATI P S,et al.Neural network-based software sensor:Training set design and application to a continuous pulp digester [J].Control Engineering Practice,2005,13(2):135-143.
[3] ZHANG M,LIU X.A soft sensor based on adaptive fuzzy neural network and support vector regression for industrial melt index prediction [J].Chemometrics and Intelligent Laboratory Systems,2013(126):83-90.
[4] CHEN K,JI J,WANG H,et al.Adaptive local kernel-based learning for soft sensor modeling of nonlinear processes [J].Chemical Engineering Research and Design,2011,89(10):2117-2124.[5] 蔡宏斌,蘇成利.PCA-LSSVM方法的控制系統(tǒng)性能評(píng)估[J].自動(dòng)化儀表,2014,35(1):10-14.
[6] FUJIWARA K,KANO M,HASEBE S,et al.Soft-sensor development using correlation-based just-in-time modeling[J].American Institute of Chemical Engineer Journal,2009,55(7):1754-1765.[7] ROGINA A,IKO I,MOHLER I.Soft sensor for continuous product quality estimation (in crude distillation unit)[J].Chemical Engineering Research and Design,2011,89(10):2070-2077.
[8] KADLEC P,GABRYS B,STRANDT S.Data-driven soft sensors in the process industry [J].Computers & Chemical Engineering,2009,33(4):795-814.
[9] ROWEIS S T,SAULK K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(22):2323-2326.[10]HE X,CAI D,YAN S,et al.Neighborhood preserving embedding[C]//Tenth IEEE International Conference on Computer Vision,2005:1208-1213.
[11]BROSILOW C,TONG M.Inferential control of processes:Part II.The structure and dynamics of inferential control systems[J].Aiche Journal,1978,24(3):492-500.
[12]DONG D,MCAVOV T J,CHANG L J.Emission monitoring using multivariate soft sensors[C]//Proceedings of the 1995 American Control Conference,1995:458 - 460.
[13]MIAO A,GE Z,SONG Z,et al.Time neighborhood preserving embedding model and its application for fault detection[J].Industrial & Engineering Chemistry Research,2013,52(38):13717-13729.
[14]ZHANG M,GE Z,SONG Z,et al.Global-local structure analysis model and its application for fault detection and identification[J].Industrial & Engineering Chemistry Research,2011,50(11):6837-6848.
[15]SAUL L K,ROWEIS S T.Think globally,fit locally:unsupervised learning of low dimensional manifolds[J].The Journal of Machine Learning Research,2003,4(2):119-155.
[16]GE Z,SONG Z.A comparative study of just-in-time-learning based methods for online soft sensor modeling[J].Chemometrics and Intelligent Laboratory Systems,2010,104(2):306-317.
[17]XIE L,ZENG J,GAO C.Novel just-in-time learning-based soft sensor utilizing non-Gaussian information [J].IEEE Transactions on Control Systems Technology,2014,22(1):360-368.
[18]WANG G,OU Z,LIU D,et al.Face recognition using neighborhood preserving discriminant embedding[J].Journal of Dalian University of Technology,2008,48(3):14-15.
[19]ZHANG Z,WANG J,ZHA H.Adaptive manifold learning [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(2):253-265.
[20]SHAO C,WAN C.Selection of the neighborhood size for manifold learning based on Bayesian information criterion[J].Journal of Computational Information Systems,2012,8(7):3043-3050.
[21]FARAHMAND A M,SZEPESVARI C,AUDIBERT J Y.Manifold-adaptive dimension estimation[C]//Proceedings of the 24th International Conference on Machine Learning,2007:265-272.
[22]LIOU J W,LIOU C Y.Neighborhood selection and eigenvalues for embedding data complex in low dimension [M].Heidelberg:Springer Berlin Heidelberg,2012:413-422.
[23]KOUROPTEVA O,OKUN O,PIETIKAINEN M.Selection of the optimal parameter value for the locally linear embedding algorithm[J].Scandinavian Conference on Image Analysis,2002,3540(10):359-363.
[24]SHAO J,RONG G.Nonlinear process monitoring based on maximum variance unfolding projections[J].Expert Systems with Applications,2009,36(8):11332-11340.
[25]FORTUNA L,GRAZIANI S,XIBILIA M G.Soft sensors for product quality monitoring in debutanizer distillation columns[J].Control Engineering Practice,2005,13(4):499-508.
[26]YUAN X,GE Z,SONG Z.Locally weighted kernel principal component regression model for soft sensing of nonlinear time-variant processes [J].Industrial & Engineering Chemistry Research,2014,53(35):13736-13749.
[27]POLITO M,PERONA P.Grouping and dimensionality reduction by locally linear embedding[J].Advances in Neural Information Processing Systems,2001,14:1255-1262.
[28]CHOI S W,LEE C,LEE J M,et al.Fault detection and identification of nonlinear processes based on kernel PCA[J].Chemometrics and Intelligent Laboratory Systems,2005,75(1):55-67.
Data Regression and Soft Sensing Modeling Based on Local Feature Relation
ZHANG Qin1,MIAO Aimin2,LI Peng2
(1.Lijiang Power Supply Bureau,Yunnan Power Grid Co.,Ltd.,Lijiang 674100,China;2.School of Information,Yunnan University,Kunming 650504,China)
To solve the problem of data nonlinearity in complex industrial processes,the method of constructing regression model and soft sensing modelling based on local feature of data are researched.Based on the concept of neighbourhood preserving embedding (NPE) algorithm,the multi-object regression optimization function is established by using the local relational feature,and the local based data regression(LDR) algorithm is proposed.Based on the local relation and neighbourhood feature of data,the method makes the input data and output data keep the local features and obtains the maximum correlational relation of data.Through data low-dimensional latent variables,the regression relation of data nature is obtained,and the soft sensing prediction model is established.The model is applied in industrial case for predicting the quality of product and some of the critical variables that are difficult to measure on the production line.The research on the case of debutanizer column proves the effectiveness of the method proposed for variable prediction.Comparing with the soft sensing model based on global feature,the result shows that LDR can achieve significant improvement on prediction accuracy and getting data correlation for the nonlinear processes.
Industrial process; Neighbourhood preserving embedding; Data regression algorithm; Manifold learning; Soft sensing; Data modelling; Local feature; Quality prediction
國(guó)家自然科學(xué)基金資助項(xiàng)目(61540070)、云南省教育廳科學(xué)研究基金資助項(xiàng)目(2015Y019)、云南省科技計(jì)劃應(yīng)用基礎(chǔ)研究基金資助項(xiàng)目(2014FB112)
張勤(1983—),男,學(xué)士,工程師,主要從事電力系統(tǒng)在線過程監(jiān)控、軟測(cè)量建模方向的研究。E-mail:NoliheadYY@163.com。 苗愛敏(通信作者),女,博士,副教授,主要從事輸電系統(tǒng)安全診斷與預(yù)警、輸電電纜故障檢測(cè)、軟測(cè)量建模、數(shù)據(jù)挖掘與人工智能等方向的研究。E-mail:miaoaimin@ynu.edu.cn。
TH165;TP277
A
10.16086/j.cnki.issn1000-0380.201706002
修改稿收到日期:2017-02-05