羅順樺,王振雷,王昕
(1 華東理工大學(xué)能源化工過(guò)程智能制造教育部重點(diǎn)實(shí)驗(yàn)室,上海 200237;2 上海交通大學(xué)電工與電子技術(shù)中心,上海 200240)
在工業(yè)生產(chǎn)過(guò)程中,及時(shí)跟蹤和有效預(yù)測(cè)主導(dǎo)變量,例如產(chǎn)物的質(zhì)量指標(biāo),對(duì)保持生產(chǎn)過(guò)程的穩(wěn)定性與可靠性極為重要。為了解決主導(dǎo)變量難以直接測(cè)量的問(wèn)題,軟測(cè)量技術(shù)利用與主導(dǎo)變量密切相關(guān)的輔助變量,如易于測(cè)量的液位、溫度、進(jìn)料量等,構(gòu)建數(shù)學(xué)模型,對(duì)主導(dǎo)變量進(jìn)行在線預(yù)測(cè)。因此,相比于價(jià)格高昂且滯后大的在線儀表分析法,擁有經(jīng)濟(jì)可靠、動(dòng)態(tài)響應(yīng)迅速等優(yōu)勢(shì)的軟測(cè)量技術(shù)在工業(yè)生產(chǎn)中得到了廣泛的應(yīng)用[1-2]。
目前,常用的軟測(cè)量建模技術(shù)有基于過(guò)程反應(yīng)機(jī)理建模[3]、基于數(shù)據(jù)驅(qū)動(dòng)建模[4-5]以及混合建模方法[6]。不同于需要掌握復(fù)雜工藝機(jī)理的機(jī)理建模,基于數(shù)據(jù)驅(qū)動(dòng)的軟測(cè)量建模技術(shù)僅需利用輸入輸出等過(guò)程數(shù)據(jù)獲取輔助變量與主導(dǎo)變量之間的數(shù)學(xué)關(guān)系,常用的實(shí)現(xiàn)方法有回歸分析建模[7]、支持向量機(jī)(support vector machines,SVM)建模[8-10]以及人工神經(jīng)網(wǎng)絡(luò)[11-12]等。機(jī)器學(xué)習(xí)中將同時(shí)包含輔助變量和主導(dǎo)變量的數(shù)據(jù),即輸入和輸出的數(shù)據(jù)稱為有標(biāo)簽數(shù)據(jù);只包含輔助變量而缺失主導(dǎo)變量的數(shù)據(jù)稱為無(wú)標(biāo)簽數(shù)據(jù)。典型的基于數(shù)據(jù)驅(qū)動(dòng)的軟測(cè)量建模過(guò)程是有監(jiān)督學(xué)習(xí),需要大量的有標(biāo)簽數(shù)據(jù)。在很多工業(yè)生產(chǎn)過(guò)程中,相比于大量易于獲取的輔助變量數(shù)據(jù),主導(dǎo)變量數(shù)據(jù)的獲取通常依靠實(shí)驗(yàn)分析以及專業(yè)知識(shí)技術(shù),大量時(shí)間與資金的投入使獲取主導(dǎo)變量數(shù)據(jù)的成本隨之增加,這將導(dǎo)致軟測(cè)量建模中的輸入輸出數(shù)據(jù)失衡,模型擁有有限的有標(biāo)簽數(shù)據(jù),從而極大影響了軟測(cè)量模型的預(yù)測(cè)可靠性和系統(tǒng)的泛化能力。
不同于有監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)[13-15]利用大量的無(wú)標(biāo)簽數(shù)據(jù)并輔助少量有標(biāo)簽數(shù)據(jù)進(jìn)行模型的訓(xùn)練,通過(guò)捕獲無(wú)標(biāo)簽數(shù)據(jù)中的潛在信息,提升學(xué)習(xí)性能。根據(jù)方法的不同,半監(jiān)督學(xué)習(xí)方法主要分為四種,即基于生成式模型的方法(generative models)[16]、半監(jiān)督SVM 方法(transductive support vector machines)[17]、基于圖的方法(graph-based semi-supervised learning)[18]和協(xié)同訓(xùn)練算法(co-training)[19]。
對(duì)比于其他的半監(jiān)督學(xué)習(xí)方法,協(xié)同訓(xùn)練算法簡(jiǎn)單高效且理論比較完備,沒(méi)有對(duì)數(shù)據(jù)結(jié)構(gòu)的特殊要求。其基本原理為:首先使用有標(biāo)簽數(shù)據(jù)集建立兩個(gè)具有差異性的學(xué)習(xí)器,并在模型訓(xùn)練過(guò)程中不斷挑選無(wú)標(biāo)簽數(shù)據(jù)到對(duì)方學(xué)習(xí)器的數(shù)據(jù)集中,直到滿足指定條件。通過(guò)捕獲無(wú)標(biāo)簽數(shù)據(jù)中的有效信息,從而實(shí)現(xiàn)模型穩(wěn)定性與可靠性的進(jìn)一步改進(jìn)[20]。Pierce 等[21]運(yùn)用帶有人為糾正的協(xié)同訓(xùn)練算法挑選無(wú)標(biāo)簽數(shù)據(jù),提高基本名詞短語(yǔ)的識(shí)別能力。Steedman 等[22]利用未經(jīng)處理的句子作為無(wú)標(biāo)簽數(shù)據(jù),使用協(xié)同訓(xùn)練算法提高語(yǔ)法分析器的預(yù)測(cè)能力。Zhou 等[23]挖掘未標(biāo)記數(shù)據(jù)的信息,進(jìn)而提高基于內(nèi)容的圖像檢索能力。為了解決協(xié)同訓(xùn)練算法中的多視圖問(wèn)題,Goldman 等[24]提出不需要充分冗余視圖的算法,該算法思想是兩個(gè)或多個(gè)標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)算法可能在標(biāo)記的數(shù)據(jù)中檢測(cè)到不同的模式,從而生成兩個(gè)不同的分類器以進(jìn)行協(xié)同訓(xùn)練的方式來(lái)增強(qiáng)分類器性能。但由于使用交叉驗(yàn)證的方式挑選無(wú)標(biāo)簽數(shù)據(jù),因此該方法會(huì)產(chǎn)生巨大的計(jì)算開銷,同時(shí)僅適用于有標(biāo)簽數(shù)據(jù)較多的情況。Zhou 等[25]提出了更為簡(jiǎn)單與便于應(yīng)用的“三體訓(xùn)練法(tri-training)”,該算法通過(guò)建立三個(gè)分類器以解決對(duì)標(biāo)記置信度的顯式估計(jì)問(wèn)題,從而提高模型的泛化能力。但在多數(shù)分類器預(yù)測(cè)錯(cuò)誤的情況下,將會(huì)在迭代中挑選不合適的無(wú)標(biāo)簽數(shù)據(jù),從而導(dǎo)致模型的預(yù)測(cè)性能下降。
早期的半監(jiān)督學(xué)習(xí)研究主要聚焦在分類任務(wù)上,直到Zhou等[26]提出了協(xié)同訓(xùn)練回歸算法(CORGE),設(shè)計(jì)出適用于回歸任務(wù)中的標(biāo)記置信度估計(jì),并將協(xié)同訓(xùn)練算法應(yīng)用到軟測(cè)量技術(shù)上。Bao等[27]提出將數(shù)據(jù)集在變量維度上均分成兩組數(shù)據(jù),并結(jié)合偏最小二乘算法(PLS)進(jìn)行回歸訓(xùn)練的協(xié)同訓(xùn)練偏最小二乘模型。李東等[28]將有標(biāo)簽數(shù)據(jù)按照奇偶分組的方式分成兩份,結(jié)合遞歸PLS(RPLS)和遞歸bp(RBP)建立半監(jiān)督異構(gòu)自適應(yīng)軟測(cè)量模型co-traning RPLS-RBP。
利用兩組具有顯著差異性的數(shù)據(jù)集進(jìn)行協(xié)同訓(xùn)練建模,亦是協(xié)同訓(xùn)練回歸中的重要方向[29]。然而目前的研究較少涉及該方向,缺乏利用數(shù)據(jù)自身屬性與特征分析對(duì)數(shù)據(jù)集進(jìn)行分類的指導(dǎo)方法,數(shù)據(jù)集分組的隨機(jī)性與不確定性較強(qiáng),致使數(shù)據(jù)信息的分布混亂,模型難以聚焦并挖掘出數(shù)據(jù)自身的特性,學(xué)習(xí)器之間存在嚴(yán)重的訓(xùn)練特性交叉重疊現(xiàn)象,從而影響協(xié)同訓(xùn)練模型的預(yù)測(cè)精度。
為此本文提出一種基于二子空間協(xié)同訓(xùn)練算法的半監(jiān)督軟測(cè)量建模方法。該模型依據(jù)輔助變量自身與主成分子空間PCS 和殘差子空間RS 兩個(gè)特征子空間的相關(guān)性程度,將數(shù)據(jù)變量拆分成兩個(gè)具有分歧性的數(shù)據(jù)集,從而進(jìn)行協(xié)同訓(xùn)練,共同用于對(duì)主導(dǎo)變量的預(yù)測(cè)。因此,該模型不僅在數(shù)據(jù)降維中去除了冗余信息和噪聲以實(shí)現(xiàn)重要變量的提取,并在分組中同時(shí)考慮了PCS與RS的各自局部特征,最終拆分為兩組相互獨(dú)立分歧的數(shù)據(jù)集。最后通過(guò)乙烯精餾塔塔頂乙烷濃度軟測(cè)量建模和TE 平臺(tái)仿真驗(yàn)證本文所提模型的有效性。
主成分分析方法(principal component analysis,PCA)是一種使用最廣泛的數(shù)據(jù)特征提取和降維算法。在軟測(cè)量建模中,對(duì)輔助變量進(jìn)行特征提取,能有效地去除冗余信息、去除噪聲。PCA 的主要思想是將n維特征映射到k維特征空間(n>k),在降維的同時(shí)保留較多原始數(shù)據(jù)的信息。
給定一組n維樣本X={xi}m i=1,m為樣本個(gè)數(shù),其降維過(guò)程如下。
(1) 對(duì)樣本X進(jìn)行標(biāo)準(zhǔn)化處理得到X?,其中均值為:
(3)計(jì)算協(xié)方差矩陣的特征值與特征向量,并將特征值由大到小進(jìn)行排列,即為λ1≥λ2≥···≥λn,因此特征值所對(duì)應(yīng)的特征向量構(gòu)成矩陣Φ。
(4) 根據(jù)特征值累計(jì)貢獻(xiàn)率的要求α選擇降維后的維數(shù)k,假設(shè)α=80%。
(5) 特征向量q1,q2, ···,qk構(gòu)成主成分子空間PCS,而特征向量qk+1,qk+2, ···,qn構(gòu)成殘差子空間。
(6)將X?進(jìn)行低維映射得到低維數(shù)據(jù)Y。
KNN (K-nearest neighbour) 算法是一種較為成熟的惰性學(xué)習(xí)方法,既可運(yùn)用在分類任務(wù)中,也可以用于回歸問(wèn)題上。不同于神經(jīng)網(wǎng)絡(luò)模型,作為一種非參數(shù)的建模方法,KNN 無(wú)須單獨(dú)的訓(xùn)練階段而能快速地進(jìn)行回歸預(yù)測(cè),從而節(jié)省大量的時(shí)間,更加適用于擁有大量無(wú)標(biāo)簽數(shù)據(jù)的半監(jiān)督學(xué)習(xí)。KNN 的主要思想為:對(duì)于每一個(gè)新數(shù)據(jù)x,使用對(duì)應(yīng)的距離度量,找出基于x的k個(gè)最相近的樣本。由于不同距離的k個(gè)樣本對(duì)x將產(chǎn)生不同的權(quán)重影響,因此x的最終預(yù)測(cè)值為k個(gè)樣本輸出的加權(quán)平均值。其中常用的距離度量有:
(1)歐式距離
其中,a和b表示n維空間中的兩個(gè)點(diǎn)。
協(xié)同訓(xùn)練算法能有效地利用無(wú)標(biāo)簽數(shù)據(jù)中所包含的有效信息,進(jìn)而改善與提升模型的相關(guān)性能,是半監(jiān)督學(xué)習(xí)中常用的方法之一。協(xié)同訓(xùn)練算法(COREG)挑選置信度高的無(wú)標(biāo)簽數(shù)據(jù)到數(shù)據(jù)集中,實(shí)現(xiàn)模型的有效更新和改進(jìn)。
COREG的具體算法步驟如下:
設(shè)L={X,Y}={(x1,y1),(x2,y2), ···,(xl,yl)} 表示有標(biāo)簽數(shù)據(jù)集,U表示無(wú)標(biāo)簽數(shù)據(jù)集,其中X為輔助變量輸入數(shù)據(jù),Y為主導(dǎo)變量輸出數(shù)據(jù),l為有標(biāo)簽數(shù)據(jù)的個(gè)數(shù)。令L1=L2=L作為模型的兩組有標(biāo)簽數(shù)據(jù)集,使用帶有不同距離指標(biāo)系數(shù)p的KNN 算法分別建立出兩個(gè)初始回歸模型h1和h2。隨后,取i等于1和2,以計(jì)算第i個(gè)模型的相關(guān)參數(shù)。
(1)計(jì)算有標(biāo)簽數(shù)據(jù)集Li的均方根誤差Ri,針對(duì)每個(gè)無(wú)標(biāo)簽數(shù)據(jù)xu,使用hi計(jì)算其預(yù)測(cè)值yu。
(2) 將新樣本組合(xu,yu)添加到原數(shù)據(jù)集Li中組成新數(shù)據(jù)集Li',建立新的回歸模型hi',并計(jì)算Li'的均方根誤差Ri'。其中u為無(wú)標(biāo)簽數(shù)據(jù)的個(gè)數(shù)。
(3) 計(jì)算Ri和Ri'的差值Δxu作為每個(gè)無(wú)標(biāo)簽數(shù)據(jù)xu的置信度,從中挑選置信度最大值的無(wú)標(biāo)簽數(shù)據(jù)xu,組合成新的有標(biāo)簽數(shù)據(jù)(xu,hi(xu))交叉放置到數(shù)據(jù)集中,即(xu,h1(xu))放入L2,(xu,h2(xu))放入L1。其中置信度的公式為:
二子空間(two subspace,TS)是一種依據(jù)變量特性,將模型中的數(shù)據(jù)變量拆分為兩個(gè)獨(dú)特的子空間的分塊方法,形成兩個(gè)具有差異性的數(shù)據(jù)集。在傳統(tǒng)的PCA對(duì)數(shù)據(jù)進(jìn)行降維時(shí),數(shù)據(jù)被分解為兩個(gè)特征子空間,分別為主成分子空間PCS 和殘差子空間RS。TS方法首先定義輔助變量與PCS及RS的相關(guān)性指標(biāo),確定各輔助變量與這兩個(gè)特征子空間相關(guān)性系數(shù),隨后通過(guò)相關(guān)性的分類調(diào)整,將輔助變量進(jìn)行分割,從而形成兩個(gè)具有差異性的輔助變量子空間。
(1)P1R0子空間:即僅與PCS 相關(guān)而與RS 不相關(guān)的輔助變量所構(gòu)成的子空間;
(2)P0R1子空間:即與PCS 不相關(guān)僅與RS 相關(guān)的輔助變量所構(gòu)成的子空間。
其中,1 表示相關(guān),0 表示不相關(guān)。二子空間的形成具體步驟如圖1所示。
圖1 二子空間的構(gòu)建圖Fig.1 Construction of two subspace
如圖1所示,數(shù)據(jù)矩陣X經(jīng)過(guò)PCA 降維后,會(huì)分別形成主成分子空間PCS 和殘差子空間RS。這里使用復(fù)相關(guān)系數(shù)定義各輔助變量與PCS 和RS 的相關(guān)性指標(biāo)。
在計(jì)算得到各輔助變量xi對(duì)應(yīng)的相關(guān)性系數(shù)αi和βi后,由于缺乏先驗(yàn)知識(shí),本文利用相關(guān)性系數(shù)的均值作為閾值,以區(qū)分與PCS和RS相關(guān)或不相關(guān)的輔助變量,即
可以看出,相比于囊括全部變量的原始數(shù)據(jù)空間,使用二子空間進(jìn)行劃分而得的單個(gè)子空間擁有著數(shù)量更少的變量,且這部分變量代表了原始空間中的大部分特征信息。因此,二子空間方法在起到數(shù)據(jù)降維作用的同時(shí),也充分地保留了原始數(shù)據(jù)的信息,防止了潛在信息丟失的問(wèn)題。同時(shí),根據(jù)上述相關(guān)性規(guī)則劃分所得的子空間,包含著最具有密切關(guān)聯(lián)的輔助變量,且各輔助變量?jī)H存在于二子空間之一中,即不會(huì)發(fā)生變量重疊的問(wèn)題,由此二子空間彼此之間具有最大限度的差異性。在協(xié)同訓(xùn)練中,要求兩個(gè)數(shù)據(jù)集中數(shù)據(jù)具有相同的變量維度,然而根據(jù)TS 方法得出的兩個(gè)子空間中的數(shù)據(jù)的變量數(shù)有可能不完全相同(如P1R0子空間數(shù)據(jù)變量數(shù)為k1,P0R1子空間數(shù)據(jù)變量數(shù)為k2,假設(shè)k1>k2),此時(shí)需要根據(jù)相關(guān)性系數(shù),在變量數(shù)較多的子空間中,將相關(guān)性系數(shù)較低的變量剔除,以達(dá)到k1=k2。由于變量的多樣性,從目前的仿真結(jié)果看來(lái),并未出現(xiàn)k1比k2多很多或者k2比k1多很多的情況。若在未來(lái)的研究中出現(xiàn)此類情況,可探索新的定義閾值的方法,以使兩個(gè)子空間中的數(shù)據(jù)變量相對(duì)均勻。
協(xié)同訓(xùn)練算法要求算法中的兩個(gè)模型具有一定的差異性。在PCA 降維中,PCS和RS都是原始數(shù)據(jù)經(jīng)過(guò)線性投影所得,而輔助變量在投影過(guò)程中擁有著不同的投影權(quán)值,導(dǎo)致即使大部分的原始數(shù)據(jù)的信息保留到PCS中,但仍有小部分原始數(shù)據(jù)信息遺留在RS中。二子空間的方法利用數(shù)據(jù)自身的分布與特性,挖掘出數(shù)據(jù)與兩個(gè)特征子空間之間的潛在關(guān)系,通過(guò)數(shù)據(jù)集的拆分方法,形成兩組具有差異性的數(shù)據(jù)集,從而更加有效準(zhǔn)確地挑選無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行協(xié)同訓(xùn)練。
二子空間協(xié)同訓(xùn)練模型的主要步驟如下:首先,使用二子空間TS 方法,從輔助變量自身特性出發(fā),確定各輔助變量與PCS及RS兩個(gè)特征子空間相關(guān)性程度,通過(guò)相關(guān)性指標(biāo)對(duì)輔助變量進(jìn)行分割,由于輔助變量的獨(dú)立分布不重疊,原有的有標(biāo)簽數(shù)據(jù)集L將拆分為兩個(gè)具有顯著差異性的子空間分塊,即P1R0子空間L1={X1,Y1}和P0R1子空間L2={X2,Y2}。使用KNN算法對(duì)兩個(gè)子空間數(shù)據(jù)集建模,分別得到兩個(gè)獨(dú)特且擁有顯著差異性的回歸器模型hi(Li),其中i= 1,2。并通過(guò)模型hi(Li)計(jì)算出其對(duì)應(yīng)的均方根誤差Ri。接著,針對(duì)每個(gè)無(wú)標(biāo)簽數(shù)據(jù)xu,使用hi(Li)計(jì)算其預(yù)測(cè)值yu,并將新樣本組合(xu,yu)添加到原數(shù)據(jù)集Li中組成新數(shù)據(jù)集Li'={Li∪(xu,yu)},進(jìn)而建立新的回歸模型hi'(Li'),并計(jì)算Li'的均方根誤差Ri'。最后計(jì)算Ri和Ri'的差值Δxu作為每個(gè)無(wú)標(biāo)簽數(shù)據(jù)xu的置信度,對(duì)應(yīng)置信度最大值的無(wú)標(biāo)簽數(shù)據(jù)xu將被挑選出來(lái),組合成新的有標(biāo)簽數(shù)據(jù)(xu,hi(xu))交叉放置在L3-i中。
當(dāng)滿足停止條件,中止訓(xùn)練后,使用最終的有標(biāo)簽數(shù)據(jù)建立兩個(gè)新的回歸模型,且兩個(gè)新模型的回歸預(yù)測(cè)值作為最終的預(yù)測(cè)值。
基于二子空間協(xié)同訓(xùn)練模型TSCO-KNN 的步驟如表1所示。
表1 基于二子空間協(xié)同訓(xùn)練模型TSCO-KNN的算法流程Table 1 Algorithm based on two-subspace collaborative training model TSCO-KNN
為了驗(yàn)證本文所提基于二子空間協(xié)同訓(xùn)練算法的預(yù)測(cè)性能,分別對(duì)田納西-伊斯曼過(guò)程(TE process)的成分E 和乙烯精餾塔塔頂乙烷濃度進(jìn)行軟測(cè)量建模和比較。模型的評(píng)估指標(biāo)參數(shù)為以下三種,通過(guò)這些指標(biāo)衡量回歸預(yù)測(cè)算法的性能。
(1)均方誤差(MSE)。通過(guò)計(jì)算觀測(cè)值和真值差值的平方和與樣本個(gè)數(shù)m比值,MSE 可以評(píng)價(jià)數(shù)據(jù)的變化程度,MSE 的值越小,說(shuō)明預(yù)測(cè)模型對(duì)實(shí)驗(yàn)數(shù)據(jù)的描述具有更好的精確度。公式為:
其中,m表示觀測(cè)個(gè)數(shù);y?(i)表示第i個(gè)觀測(cè)值;y(i)表示第i個(gè)真值。
(2)均方根誤差(RMSE)。通過(guò)計(jì)算觀測(cè)值與真值偏差的平方和與樣本個(gè)數(shù)m比值的平方根,均方根誤差可衡量觀測(cè)值與真值之間的偏差,使結(jié)果的單位和數(shù)據(jù)集一致,從而避免出現(xiàn)量綱問(wèn)題。公式為:
(3)平均絕對(duì)誤差(MAE)。通過(guò)計(jì)算觀測(cè)值和真值的絕對(duì)值之和與觀測(cè)個(gè)數(shù)的比值,平均絕對(duì)誤差反映出觀測(cè)值誤差的實(shí)際情況。公式為:
為了驗(yàn)證本文模型的優(yōu)越性,將其與cotraining KNN(1)模型和co-training KNN(2)模型進(jìn)行對(duì)比分析,三組模型所用相近的樣本k均為5。cotraining KNN(1)模型為經(jīng)典的COREG 模型,使用歐式距離和曼哈頓距離作為不同的距離指標(biāo)系數(shù);cotraining KNN(2)模型將數(shù)據(jù)在變量維度上進(jìn)行對(duì)半拆分,使用前一半變量和后一半變量分別建立回歸模型。其中co-training KNN(2)模型與TSCO-KNN模型均使用歐式距離作為距離指標(biāo)系數(shù)。另外,訓(xùn)練的循環(huán)次數(shù)為80,原因在于對(duì)應(yīng)KNN這類傳統(tǒng)學(xué)習(xí)算法,當(dāng)訓(xùn)練樣本個(gè)數(shù)達(dá)到一定數(shù)量后,繼續(xù)增添訓(xùn)練集樣本個(gè)數(shù)難以對(duì)模型精度有顯著提升,反而會(huì)造成一定的時(shí)間浪費(fèi)。同理在實(shí)際工業(yè)生產(chǎn)過(guò)程中,如果每次循環(huán)都從大量的無(wú)標(biāo)簽樣本中選取最優(yōu)樣本,時(shí)間損耗將難以估計(jì)。因此,可根據(jù)實(shí)際情況設(shè)置循環(huán)次數(shù)和無(wú)標(biāo)簽數(shù)據(jù)樣本范圍。
依據(jù)實(shí)際化工反應(yīng)過(guò)程,美國(guó)Eastman 化學(xué)公司開發(fā)了具有開放性和挑戰(zhàn)性的化工模型仿真平臺(tái)Tennessee Eastman(TE)仿真平臺(tái),其產(chǎn)生的數(shù)據(jù)具有時(shí)變、強(qiáng)耦合和非線性特征,廣泛用于測(cè)試復(fù)雜工業(yè)過(guò)程的控制和故障診斷模型[30]。
TE 過(guò)程共包含著12個(gè)控制變量和41個(gè)測(cè)量變量,其中測(cè)量變量為A 進(jìn)料、反應(yīng)器壓力、氣提器溫度等22個(gè)過(guò)程變量,以及流6、9、11中的19個(gè)成分變量。本文使用22個(gè)過(guò)程變量作為輔助變量輸入,流6成分D、E、F作為主導(dǎo)變量輸出。將原有訓(xùn)練集和測(cè)試集數(shù)據(jù)集進(jìn)行合并,取前1000個(gè)樣本數(shù)據(jù)作為新訓(xùn)練集,剩余460個(gè)樣本數(shù)據(jù)作為新測(cè)試集。在仿真實(shí)驗(yàn)中,分別從訓(xùn)練樣本中隨機(jī)選取數(shù)據(jù)集中的10%、20%和50%作為有標(biāo)簽數(shù)據(jù)(即100組,200組,500 組),剩余的訓(xùn)練樣本對(duì)輸出變量進(jìn)行覆蓋,作為無(wú)標(biāo)簽數(shù)據(jù)以進(jìn)行模型的訓(xùn)練。訓(xùn)練的循環(huán)次數(shù)為80。當(dāng)訓(xùn)練結(jié)束后,使用模型對(duì)460 組測(cè)試樣本進(jìn)行對(duì)主導(dǎo)變量的數(shù)值預(yù)測(cè),以評(píng)估模型的預(yù)測(cè)性能。為了更加清晰地觀察實(shí)驗(yàn)結(jié)果,圖2 只選取了前200個(gè)樣本點(diǎn)進(jìn)行展示。
以有標(biāo)簽數(shù)據(jù)比例為50%為例,由表2 和圖2的仿真實(shí)驗(yàn)結(jié)果可以得出:對(duì)于流6 成分D、E、F,co-traning KNN(1)與co-traning KNN(2)的預(yù)測(cè)數(shù)值維持在小幅度范圍內(nèi)變化,在大部分時(shí)間點(diǎn)上數(shù)值都較為嚴(yán)重地偏離真實(shí)值,無(wú)法跟蹤變化波動(dòng)較大的數(shù)值。相比之下,TSCO-KNN 模型的預(yù)測(cè)效果明顯好于co-training KNN 模型,大部分的預(yù)測(cè)值能很好地?cái)M合真實(shí)值。其中,以流6 成分E 為例,相比于co-training KNN(1),本文模型在RMSE 指標(biāo)上提高了35.37%;在MSE指標(biāo)上提高了58.22%;在MAE指標(biāo)上提高了35.78%;相比于co-training KNN(2),本文模型在RMSE 指標(biāo)上提高了33.05%;在MSE 指標(biāo)上提高了55.17%;在MAE指標(biāo)上提高了34.02%。
圖2 有標(biāo)簽比例為50%的co-training KNN(1)、co-training KNN(2)、TSCO-KNN模型效果對(duì)比Fig.2 Comparison of the effects of co-training KNN(1),co-training KNN(2),and TSCO-KNN models with a label ratio of 50%
表2 有標(biāo)簽比例為50%下三種模型的性能評(píng)估(TE)Table 2 Evaluation(TE)of the three models with a label ratio of 50%
另外,以成分E 為例,圖3 表示在不同有標(biāo)簽比例下三組模型的RMSE 值對(duì)比??梢钥闯?,在任何有標(biāo)簽數(shù)據(jù)比例下,TSCO-KNN 模型的性能都遠(yuǎn)勝于co-traning KNN 模型。而且,隨著有標(biāo)簽數(shù)據(jù)比例的逐漸提高,模型性能提升的幅度也逐漸降低,原因在于使用數(shù)量較多有標(biāo)簽數(shù)據(jù)訓(xùn)練所得的模型已有一定的預(yù)測(cè)精度,在此基礎(chǔ)上利用無(wú)標(biāo)簽數(shù)據(jù)的潛在信息的效果甚微。另一方面,在有標(biāo)簽數(shù)據(jù)比例變化時(shí),co-training KNN 模型的RMSE 值僅有著微弱的改變,從中推測(cè)TE工業(yè)過(guò)程或適用于其他的回歸學(xué)習(xí)器,使用不同的回歸學(xué)習(xí)器或能產(chǎn)生更好的預(yù)測(cè)效果。
圖3 不同有標(biāo)簽數(shù)據(jù)比例下成分E的RMSE值Fig.3 RMSE values of component E under different labeled data ratios
本文使用乙烯工業(yè)過(guò)程中的乙烯精餾塔塔頂乙烷濃度軟測(cè)量來(lái)驗(yàn)證本文所提方法的有效性和優(yōu)越性。圖4 為乙烯精餾塔的生產(chǎn)流程圖,該塔主要實(shí)現(xiàn)將輸入的乙烷、乙烯及微量甲烷和氫氣等混合物,分離成為聚合級(jí)乙烯(塔頂釆出)和乙烷(塔釜釆出)。塔頂聚合級(jí)乙烯產(chǎn)品中乙烷濃度的有效測(cè)量和控制是精餾塔操作的關(guān)鍵。
圖4 乙烯精餾塔流程圖Fig.4 Ethylene distillation tower flow chart
選取乙烯精餾塔塔頂乙烷濃度作為軟測(cè)量模型的輸出;精餾塔的主要過(guò)程變量——塔頂壓力、塔頂溫度、塔底溫度、回流量、靈敏板溫度等38個(gè)變量為輔助變量。
根據(jù)實(shí)際生產(chǎn)現(xiàn)場(chǎng)的工藝流程,仿真數(shù)據(jù)為2016 年10 月18 日18 點(diǎn)38 分到2016 年10 月20 日3 點(diǎn)58 分之間的乙烯精餾塔的現(xiàn)場(chǎng)采集數(shù)據(jù),共為2000 組。為了驗(yàn)證TSCO-KNN 模型的有效性以及實(shí)驗(yàn)結(jié)果的可靠性,本文使用不同的有標(biāo)簽數(shù)據(jù)比例分別進(jìn)行仿真實(shí)驗(yàn)。首先將2000 組數(shù)據(jù)按照奇偶分組方式均分成兩部分,分別為1000組訓(xùn)練樣本和1000組測(cè)試樣本。并在仿真實(shí)驗(yàn)中,分別從訓(xùn)練樣本中隨機(jī)選取數(shù)據(jù)集中的10%、20%和50%作為有標(biāo)簽數(shù)據(jù)(即100 組,200 組,500 組),剩余的訓(xùn)練樣本對(duì)輸出變量進(jìn)行覆蓋,作為無(wú)標(biāo)簽數(shù)據(jù)以進(jìn)行模型的訓(xùn)練。當(dāng)訓(xùn)練結(jié)束后,使用模型對(duì)1000組測(cè)試樣本進(jìn)行對(duì)乙烯精餾塔塔頂乙烷濃度的數(shù)值預(yù)測(cè),以評(píng)估模型的預(yù)測(cè)性能。
由表3~表5和圖5、圖6的仿真實(shí)驗(yàn)結(jié)果可以得出:在各種有標(biāo)簽比例下,co-training KNN(1)模型的預(yù)測(cè)效果存在著較大的偏差,co-training KNN(2)模型的效果比前者稍好,而TSCO-KNN 模型的預(yù)測(cè)值都更好地跟蹤真實(shí)值的變化趨勢(shì),其預(yù)測(cè)效果明顯好于co-training KNN(1)模型和co-training KNN(2)模型。當(dāng)有標(biāo)簽比例為10%時(shí),相比于co-training KNN(1),TSCO-KNN 模型在RMSE 指標(biāo)上提高了39.51%,在MSE 指標(biāo)上提高了63.39%,在MAE 指標(biāo)上提高了35.63%;相比于co-training KNN(2),TSCO-KNN 模型在RMSE 指標(biāo)上提高了19.36%,在MSE 指標(biāo)上提高了34.92%,在MAE 指標(biāo)上提高了15.30%。當(dāng)有標(biāo)簽比例為20% 時(shí),相比于cotraining KNN(1),TSCO-KNN 模型在RMSE 指標(biāo)上提高了45.90%,在MSE 指標(biāo)上提高了70.52%,在MAE指標(biāo)上提高了41.18%;相比于co-training KNN(2),TSCO-KNN 模型在RMSE 指標(biāo)上提高了29.34%,在MSE 指標(biāo)上提高了49.65%,在MAE 指標(biāo)上提高了25.97%。當(dāng)有標(biāo)簽比例為50% 時(shí),相比于co-training KNN(1),TSCO-KNN 模型在RMSE 指標(biāo)上提高了52.74%,在MSE 指標(biāo)上提高了77.54%,在MAE指標(biāo)上提高了49.44%;相比于co-training KNN(2),TSCO-KNN 模型在RMSE 指標(biāo)上提高了35.94%,在MSE 指標(biāo)上提高了58.82%,在MAE 指標(biāo)上提高了32.57%。同時(shí),隨著有標(biāo)簽數(shù)據(jù)比例增加,兩個(gè)模型的性能評(píng)估參數(shù)值都在下降,模型的預(yù)測(cè)效果逐漸提高,與理論分析基本吻合。
圖5 有標(biāo)簽比例為10%和20%下的co-training KNN(1)、co-training KNN(2)、TSCO-KNN模型效果對(duì)比Fig.5 Comparison of co-training KNN(1),co-training KNN(2),TSCO-KNN model effects with label ratios of 10%and 20%
圖6 有標(biāo)簽比例為50%下的co-training KNN(1)、co-training KNN(2)、TSCO-KNN模型效果對(duì)比和差值對(duì)比Fig.6 Comparison of co-training KNN(1),co-training KNN(2),TSCO-KNN model effect and difference with a label ratio of 50%
表3 有標(biāo)簽比例為10%下三種模型的性能評(píng)估Table 3 Evaluation of the three models with a label ratio of 10%
表4 有標(biāo)簽比例為20%下三種模型的性能評(píng)估Table 4 Evaluation of the three models with a label ratio of 20%
表5 有標(biāo)簽比例為50%下三種模型的性能評(píng)估Table 5 Evaluation of the three models with a label ratio of 50%
上述兩組實(shí)驗(yàn)數(shù)據(jù)體現(xiàn)了TSCO-KNN 模型具有更高的預(yù)測(cè)性能。原因在于傳統(tǒng)的協(xié)同訓(xùn)練方法,囊括了全部變量的原始數(shù)據(jù)空間,致使學(xué)習(xí)器之間存在嚴(yán)重的訓(xùn)練特性交叉重疊。而TSCO-KNN 模型通過(guò)二子空間的數(shù)據(jù)分組后,一方面由于數(shù)據(jù)的變量維數(shù)降低,使用歐式距離作為距離度量的KNN回歸學(xué)習(xí)器能顯著地減少預(yù)測(cè)誤差,提高其自身的預(yù)測(cè)性能;另一方面,由于各自包含著與PCS和RS相關(guān)性程度最高的變量,且變量相互獨(dú)立不重疊,使得兩個(gè)子空間具有顯著的分歧性且各自代表著數(shù)據(jù)中局部重要特性。然而在不同的實(shí)際生產(chǎn)過(guò)程中,不同的回歸學(xué)習(xí)器或產(chǎn)生不同的預(yù)測(cè)效果,未來(lái)的研究中會(huì)進(jìn)一步探索最優(yōu)學(xué)習(xí)器的挑選和使用。
針對(duì)工業(yè)過(guò)程中有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)比例嚴(yán)重失衡的問(wèn)題,本文在傳統(tǒng)的協(xié)同訓(xùn)練回歸算法的基礎(chǔ)上,提出基于二子空間協(xié)同訓(xùn)練算法的半監(jiān)督軟測(cè)量建模方法。該模型利用數(shù)據(jù)變量自身特性將數(shù)據(jù)集拆分為兩個(gè)具有顯著差異性的輔助變量子空間,從而進(jìn)行協(xié)同訓(xùn)練。最后,從乙烯精餾塔和TE 的仿真實(shí)驗(yàn)看出,本文的TSCO-KNN 模型在不同標(biāo)簽比例的仿真中都表現(xiàn)出更高的預(yù)測(cè)性能。