羅順樺,王振雷,王昕
(1 華東理工大學能源化工過程智能制造教育部重點實驗室,上海 200237;2 上海交通大學電工與電子技術中心,上海 200240)
在工業(yè)生產過程中,及時跟蹤和有效預測主導變量,例如產物的質量指標,對保持生產過程的穩(wěn)定性與可靠性極為重要。為了解決主導變量難以直接測量的問題,軟測量技術利用與主導變量密切相關的輔助變量,如易于測量的液位、溫度、進料量等,構建數(shù)學模型,對主導變量進行在線預測。因此,相比于價格高昂且滯后大的在線儀表分析法,擁有經(jīng)濟可靠、動態(tài)響應迅速等優(yōu)勢的軟測量技術在工業(yè)生產中得到了廣泛的應用[1-2]。
目前,常用的軟測量建模技術有基于過程反應機理建模[3]、基于數(shù)據(jù)驅動建模[4-5]以及混合建模方法[6]。不同于需要掌握復雜工藝機理的機理建模,基于數(shù)據(jù)驅動的軟測量建模技術僅需利用輸入輸出等過程數(shù)據(jù)獲取輔助變量與主導變量之間的數(shù)學關系,常用的實現(xiàn)方法有回歸分析建模[7]、支持向量機(support vector machines,SVM)建模[8-10]以及人工神經(jīng)網(wǎng)絡[11-12]等。機器學習中將同時包含輔助變量和主導變量的數(shù)據(jù),即輸入和輸出的數(shù)據(jù)稱為有標簽數(shù)據(jù);只包含輔助變量而缺失主導變量的數(shù)據(jù)稱為無標簽數(shù)據(jù)。典型的基于數(shù)據(jù)驅動的軟測量建模過程是有監(jiān)督學習,需要大量的有標簽數(shù)據(jù)。在很多工業(yè)生產過程中,相比于大量易于獲取的輔助變量數(shù)據(jù),主導變量數(shù)據(jù)的獲取通常依靠實驗分析以及專業(yè)知識技術,大量時間與資金的投入使獲取主導變量數(shù)據(jù)的成本隨之增加,這將導致軟測量建模中的輸入輸出數(shù)據(jù)失衡,模型擁有有限的有標簽數(shù)據(jù),從而極大影響了軟測量模型的預測可靠性和系統(tǒng)的泛化能力。
不同于有監(jiān)督學習,半監(jiān)督學習[13-15]利用大量的無標簽數(shù)據(jù)并輔助少量有標簽數(shù)據(jù)進行模型的訓練,通過捕獲無標簽數(shù)據(jù)中的潛在信息,提升學習性能。根據(jù)方法的不同,半監(jiān)督學習方法主要分為四種,即基于生成式模型的方法(generative models)[16]、半監(jiān)督SVM 方法(transductive support vector machines)[17]、基于圖的方法(graph-based semi-supervised learning)[18]和協(xié)同訓練算法(co-training)[19]。
對比于其他的半監(jiān)督學習方法,協(xié)同訓練算法簡單高效且理論比較完備,沒有對數(shù)據(jù)結構的特殊要求。其基本原理為:首先使用有標簽數(shù)據(jù)集建立兩個具有差異性的學習器,并在模型訓練過程中不斷挑選無標簽數(shù)據(jù)到對方學習器的數(shù)據(jù)集中,直到滿足指定條件。通過捕獲無標簽數(shù)據(jù)中的有效信息,從而實現(xiàn)模型穩(wěn)定性與可靠性的進一步改進[20]。Pierce 等[21]運用帶有人為糾正的協(xié)同訓練算法挑選無標簽數(shù)據(jù),提高基本名詞短語的識別能力。Steedman 等[22]利用未經(jīng)處理的句子作為無標簽數(shù)據(jù),使用協(xié)同訓練算法提高語法分析器的預測能力。Zhou 等[23]挖掘未標記數(shù)據(jù)的信息,進而提高基于內容的圖像檢索能力。為了解決協(xié)同訓練算法中的多視圖問題,Goldman 等[24]提出不需要充分冗余視圖的算法,該算法思想是兩個或多個標準的監(jiān)督學習算法可能在標記的數(shù)據(jù)中檢測到不同的模式,從而生成兩個不同的分類器以進行協(xié)同訓練的方式來增強分類器性能。但由于使用交叉驗證的方式挑選無標簽數(shù)據(jù),因此該方法會產生巨大的計算開銷,同時僅適用于有標簽數(shù)據(jù)較多的情況。Zhou 等[25]提出了更為簡單與便于應用的“三體訓練法(tri-training)”,該算法通過建立三個分類器以解決對標記置信度的顯式估計問題,從而提高模型的泛化能力。但在多數(shù)分類器預測錯誤的情況下,將會在迭代中挑選不合適的無標簽數(shù)據(jù),從而導致模型的預測性能下降。
早期的半監(jiān)督學習研究主要聚焦在分類任務上,直到Zhou等[26]提出了協(xié)同訓練回歸算法(CORGE),設計出適用于回歸任務中的標記置信度估計,并將協(xié)同訓練算法應用到軟測量技術上。Bao等[27]提出將數(shù)據(jù)集在變量維度上均分成兩組數(shù)據(jù),并結合偏最小二乘算法(PLS)進行回歸訓練的協(xié)同訓練偏最小二乘模型。李東等[28]將有標簽數(shù)據(jù)按照奇偶分組的方式分成兩份,結合遞歸PLS(RPLS)和遞歸bp(RBP)建立半監(jiān)督異構自適應軟測量模型co-traning RPLS-RBP。
利用兩組具有顯著差異性的數(shù)據(jù)集進行協(xié)同訓練建模,亦是協(xié)同訓練回歸中的重要方向[29]。然而目前的研究較少涉及該方向,缺乏利用數(shù)據(jù)自身屬性與特征分析對數(shù)據(jù)集進行分類的指導方法,數(shù)據(jù)集分組的隨機性與不確定性較強,致使數(shù)據(jù)信息的分布混亂,模型難以聚焦并挖掘出數(shù)據(jù)自身的特性,學習器之間存在嚴重的訓練特性交叉重疊現(xiàn)象,從而影響協(xié)同訓練模型的預測精度。
為此本文提出一種基于二子空間協(xié)同訓練算法的半監(jiān)督軟測量建模方法。該模型依據(jù)輔助變量自身與主成分子空間PCS 和殘差子空間RS 兩個特征子空間的相關性程度,將數(shù)據(jù)變量拆分成兩個具有分歧性的數(shù)據(jù)集,從而進行協(xié)同訓練,共同用于對主導變量的預測。因此,該模型不僅在數(shù)據(jù)降維中去除了冗余信息和噪聲以實現(xiàn)重要變量的提取,并在分組中同時考慮了PCS與RS的各自局部特征,最終拆分為兩組相互獨立分歧的數(shù)據(jù)集。最后通過乙烯精餾塔塔頂乙烷濃度軟測量建模和TE 平臺仿真驗證本文所提模型的有效性。
主成分分析方法(principal component analysis,PCA)是一種使用最廣泛的數(shù)據(jù)特征提取和降維算法。在軟測量建模中,對輔助變量進行特征提取,能有效地去除冗余信息、去除噪聲。PCA 的主要思想是將n維特征映射到k維特征空間(n>k),在降維的同時保留較多原始數(shù)據(jù)的信息。
給定一組n維樣本X={xi}m i=1,m為樣本個數(shù),其降維過程如下。
(1) 對樣本X進行標準化處理得到X?,其中均值為:
(3)計算協(xié)方差矩陣的特征值與特征向量,并將特征值由大到小進行排列,即為λ1≥λ2≥···≥λn,因此特征值所對應的特征向量構成矩陣Φ。
(4) 根據(jù)特征值累計貢獻率的要求α選擇降維后的維數(shù)k,假設α=80%。
(5) 特征向量q1,q2, ···,qk構成主成分子空間PCS,而特征向量qk+1,qk+2, ···,qn構成殘差子空間。
(6)將X?進行低維映射得到低維數(shù)據(jù)Y。
KNN (K-nearest neighbour) 算法是一種較為成熟的惰性學習方法,既可運用在分類任務中,也可以用于回歸問題上。不同于神經(jīng)網(wǎng)絡模型,作為一種非參數(shù)的建模方法,KNN 無須單獨的訓練階段而能快速地進行回歸預測,從而節(jié)省大量的時間,更加適用于擁有大量無標簽數(shù)據(jù)的半監(jiān)督學習。KNN 的主要思想為:對于每一個新數(shù)據(jù)x,使用對應的距離度量,找出基于x的k個最相近的樣本。由于不同距離的k個樣本對x將產生不同的權重影響,因此x的最終預測值為k個樣本輸出的加權平均值。其中常用的距離度量有:
(1)歐式距離
其中,a和b表示n維空間中的兩個點。
協(xié)同訓練算法能有效地利用無標簽數(shù)據(jù)中所包含的有效信息,進而改善與提升模型的相關性能,是半監(jiān)督學習中常用的方法之一。協(xié)同訓練算法(COREG)挑選置信度高的無標簽數(shù)據(jù)到數(shù)據(jù)集中,實現(xiàn)模型的有效更新和改進。
COREG的具體算法步驟如下:
設L={X,Y}={(x1,y1),(x2,y2), ···,(xl,yl)} 表示有標簽數(shù)據(jù)集,U表示無標簽數(shù)據(jù)集,其中X為輔助變量輸入數(shù)據(jù),Y為主導變量輸出數(shù)據(jù),l為有標簽數(shù)據(jù)的個數(shù)。令L1=L2=L作為模型的兩組有標簽數(shù)據(jù)集,使用帶有不同距離指標系數(shù)p的KNN 算法分別建立出兩個初始回歸模型h1和h2。隨后,取i等于1和2,以計算第i個模型的相關參數(shù)。
(1)計算有標簽數(shù)據(jù)集Li的均方根誤差Ri,針對每個無標簽數(shù)據(jù)xu,使用hi計算其預測值yu。
(2) 將新樣本組合(xu,yu)添加到原數(shù)據(jù)集Li中組成新數(shù)據(jù)集Li',建立新的回歸模型hi',并計算Li'的均方根誤差Ri'。其中u為無標簽數(shù)據(jù)的個數(shù)。
(3) 計算Ri和Ri'的差值Δxu作為每個無標簽數(shù)據(jù)xu的置信度,從中挑選置信度最大值的無標簽數(shù)據(jù)xu,組合成新的有標簽數(shù)據(jù)(xu,hi(xu))交叉放置到數(shù)據(jù)集中,即(xu,h1(xu))放入L2,(xu,h2(xu))放入L1。其中置信度的公式為:
二子空間(two subspace,TS)是一種依據(jù)變量特性,將模型中的數(shù)據(jù)變量拆分為兩個獨特的子空間的分塊方法,形成兩個具有差異性的數(shù)據(jù)集。在傳統(tǒng)的PCA對數(shù)據(jù)進行降維時,數(shù)據(jù)被分解為兩個特征子空間,分別為主成分子空間PCS 和殘差子空間RS。TS方法首先定義輔助變量與PCS及RS的相關性指標,確定各輔助變量與這兩個特征子空間相關性系數(shù),隨后通過相關性的分類調整,將輔助變量進行分割,從而形成兩個具有差異性的輔助變量子空間。
(1)P1R0子空間:即僅與PCS 相關而與RS 不相關的輔助變量所構成的子空間;
(2)P0R1子空間:即與PCS 不相關僅與RS 相關的輔助變量所構成的子空間。
其中,1 表示相關,0 表示不相關。二子空間的形成具體步驟如圖1所示。
圖1 二子空間的構建圖Fig.1 Construction of two subspace
如圖1所示,數(shù)據(jù)矩陣X經(jīng)過PCA 降維后,會分別形成主成分子空間PCS 和殘差子空間RS。這里使用復相關系數(shù)定義各輔助變量與PCS 和RS 的相關性指標。
在計算得到各輔助變量xi對應的相關性系數(shù)αi和βi后,由于缺乏先驗知識,本文利用相關性系數(shù)的均值作為閾值,以區(qū)分與PCS和RS相關或不相關的輔助變量,即
可以看出,相比于囊括全部變量的原始數(shù)據(jù)空間,使用二子空間進行劃分而得的單個子空間擁有著數(shù)量更少的變量,且這部分變量代表了原始空間中的大部分特征信息。因此,二子空間方法在起到數(shù)據(jù)降維作用的同時,也充分地保留了原始數(shù)據(jù)的信息,防止了潛在信息丟失的問題。同時,根據(jù)上述相關性規(guī)則劃分所得的子空間,包含著最具有密切關聯(lián)的輔助變量,且各輔助變量僅存在于二子空間之一中,即不會發(fā)生變量重疊的問題,由此二子空間彼此之間具有最大限度的差異性。在協(xié)同訓練中,要求兩個數(shù)據(jù)集中數(shù)據(jù)具有相同的變量維度,然而根據(jù)TS 方法得出的兩個子空間中的數(shù)據(jù)的變量數(shù)有可能不完全相同(如P1R0子空間數(shù)據(jù)變量數(shù)為k1,P0R1子空間數(shù)據(jù)變量數(shù)為k2,假設k1>k2),此時需要根據(jù)相關性系數(shù),在變量數(shù)較多的子空間中,將相關性系數(shù)較低的變量剔除,以達到k1=k2。由于變量的多樣性,從目前的仿真結果看來,并未出現(xiàn)k1比k2多很多或者k2比k1多很多的情況。若在未來的研究中出現(xiàn)此類情況,可探索新的定義閾值的方法,以使兩個子空間中的數(shù)據(jù)變量相對均勻。
協(xié)同訓練算法要求算法中的兩個模型具有一定的差異性。在PCA 降維中,PCS和RS都是原始數(shù)據(jù)經(jīng)過線性投影所得,而輔助變量在投影過程中擁有著不同的投影權值,導致即使大部分的原始數(shù)據(jù)的信息保留到PCS中,但仍有小部分原始數(shù)據(jù)信息遺留在RS中。二子空間的方法利用數(shù)據(jù)自身的分布與特性,挖掘出數(shù)據(jù)與兩個特征子空間之間的潛在關系,通過數(shù)據(jù)集的拆分方法,形成兩組具有差異性的數(shù)據(jù)集,從而更加有效準確地挑選無標簽數(shù)據(jù)進行協(xié)同訓練。
二子空間協(xié)同訓練模型的主要步驟如下:首先,使用二子空間TS 方法,從輔助變量自身特性出發(fā),確定各輔助變量與PCS及RS兩個特征子空間相關性程度,通過相關性指標對輔助變量進行分割,由于輔助變量的獨立分布不重疊,原有的有標簽數(shù)據(jù)集L將拆分為兩個具有顯著差異性的子空間分塊,即P1R0子空間L1={X1,Y1}和P0R1子空間L2={X2,Y2}。使用KNN算法對兩個子空間數(shù)據(jù)集建模,分別得到兩個獨特且擁有顯著差異性的回歸器模型hi(Li),其中i= 1,2。并通過模型hi(Li)計算出其對應的均方根誤差Ri。接著,針對每個無標簽數(shù)據(jù)xu,使用hi(Li)計算其預測值yu,并將新樣本組合(xu,yu)添加到原數(shù)據(jù)集Li中組成新數(shù)據(jù)集Li'={Li∪(xu,yu)},進而建立新的回歸模型hi'(Li'),并計算Li'的均方根誤差Ri'。最后計算Ri和Ri'的差值Δxu作為每個無標簽數(shù)據(jù)xu的置信度,對應置信度最大值的無標簽數(shù)據(jù)xu將被挑選出來,組合成新的有標簽數(shù)據(jù)(xu,hi(xu))交叉放置在L3-i中。
當滿足停止條件,中止訓練后,使用最終的有標簽數(shù)據(jù)建立兩個新的回歸模型,且兩個新模型的回歸預測值作為最終的預測值。
基于二子空間協(xié)同訓練模型TSCO-KNN 的步驟如表1所示。
表1 基于二子空間協(xié)同訓練模型TSCO-KNN的算法流程Table 1 Algorithm based on two-subspace collaborative training model TSCO-KNN
為了驗證本文所提基于二子空間協(xié)同訓練算法的預測性能,分別對田納西-伊斯曼過程(TE process)的成分E 和乙烯精餾塔塔頂乙烷濃度進行軟測量建模和比較。模型的評估指標參數(shù)為以下三種,通過這些指標衡量回歸預測算法的性能。
(1)均方誤差(MSE)。通過計算觀測值和真值差值的平方和與樣本個數(shù)m比值,MSE 可以評價數(shù)據(jù)的變化程度,MSE 的值越小,說明預測模型對實驗數(shù)據(jù)的描述具有更好的精確度。公式為:
其中,m表示觀測個數(shù);y?(i)表示第i個觀測值;y(i)表示第i個真值。
(2)均方根誤差(RMSE)。通過計算觀測值與真值偏差的平方和與樣本個數(shù)m比值的平方根,均方根誤差可衡量觀測值與真值之間的偏差,使結果的單位和數(shù)據(jù)集一致,從而避免出現(xiàn)量綱問題。公式為:
(3)平均絕對誤差(MAE)。通過計算觀測值和真值的絕對值之和與觀測個數(shù)的比值,平均絕對誤差反映出觀測值誤差的實際情況。公式為:
為了驗證本文模型的優(yōu)越性,將其與cotraining KNN(1)模型和co-training KNN(2)模型進行對比分析,三組模型所用相近的樣本k均為5。cotraining KNN(1)模型為經(jīng)典的COREG 模型,使用歐式距離和曼哈頓距離作為不同的距離指標系數(shù);cotraining KNN(2)模型將數(shù)據(jù)在變量維度上進行對半拆分,使用前一半變量和后一半變量分別建立回歸模型。其中co-training KNN(2)模型與TSCO-KNN模型均使用歐式距離作為距離指標系數(shù)。另外,訓練的循環(huán)次數(shù)為80,原因在于對應KNN這類傳統(tǒng)學習算法,當訓練樣本個數(shù)達到一定數(shù)量后,繼續(xù)增添訓練集樣本個數(shù)難以對模型精度有顯著提升,反而會造成一定的時間浪費。同理在實際工業(yè)生產過程中,如果每次循環(huán)都從大量的無標簽樣本中選取最優(yōu)樣本,時間損耗將難以估計。因此,可根據(jù)實際情況設置循環(huán)次數(shù)和無標簽數(shù)據(jù)樣本范圍。
依據(jù)實際化工反應過程,美國Eastman 化學公司開發(fā)了具有開放性和挑戰(zhàn)性的化工模型仿真平臺Tennessee Eastman(TE)仿真平臺,其產生的數(shù)據(jù)具有時變、強耦合和非線性特征,廣泛用于測試復雜工業(yè)過程的控制和故障診斷模型[30]。
TE 過程共包含著12個控制變量和41個測量變量,其中測量變量為A 進料、反應器壓力、氣提器溫度等22個過程變量,以及流6、9、11中的19個成分變量。本文使用22個過程變量作為輔助變量輸入,流6成分D、E、F作為主導變量輸出。將原有訓練集和測試集數(shù)據(jù)集進行合并,取前1000個樣本數(shù)據(jù)作為新訓練集,剩余460個樣本數(shù)據(jù)作為新測試集。在仿真實驗中,分別從訓練樣本中隨機選取數(shù)據(jù)集中的10%、20%和50%作為有標簽數(shù)據(jù)(即100組,200組,500 組),剩余的訓練樣本對輸出變量進行覆蓋,作為無標簽數(shù)據(jù)以進行模型的訓練。訓練的循環(huán)次數(shù)為80。當訓練結束后,使用模型對460 組測試樣本進行對主導變量的數(shù)值預測,以評估模型的預測性能。為了更加清晰地觀察實驗結果,圖2 只選取了前200個樣本點進行展示。
以有標簽數(shù)據(jù)比例為50%為例,由表2 和圖2的仿真實驗結果可以得出:對于流6 成分D、E、F,co-traning KNN(1)與co-traning KNN(2)的預測數(shù)值維持在小幅度范圍內變化,在大部分時間點上數(shù)值都較為嚴重地偏離真實值,無法跟蹤變化波動較大的數(shù)值。相比之下,TSCO-KNN 模型的預測效果明顯好于co-training KNN 模型,大部分的預測值能很好地擬合真實值。其中,以流6 成分E 為例,相比于co-training KNN(1),本文模型在RMSE 指標上提高了35.37%;在MSE指標上提高了58.22%;在MAE指標上提高了35.78%;相比于co-training KNN(2),本文模型在RMSE 指標上提高了33.05%;在MSE 指標上提高了55.17%;在MAE指標上提高了34.02%。
圖2 有標簽比例為50%的co-training KNN(1)、co-training KNN(2)、TSCO-KNN模型效果對比Fig.2 Comparison of the effects of co-training KNN(1),co-training KNN(2),and TSCO-KNN models with a label ratio of 50%
表2 有標簽比例為50%下三種模型的性能評估(TE)Table 2 Evaluation(TE)of the three models with a label ratio of 50%
另外,以成分E 為例,圖3 表示在不同有標簽比例下三組模型的RMSE 值對比??梢钥闯觯谌魏斡袠撕灁?shù)據(jù)比例下,TSCO-KNN 模型的性能都遠勝于co-traning KNN 模型。而且,隨著有標簽數(shù)據(jù)比例的逐漸提高,模型性能提升的幅度也逐漸降低,原因在于使用數(shù)量較多有標簽數(shù)據(jù)訓練所得的模型已有一定的預測精度,在此基礎上利用無標簽數(shù)據(jù)的潛在信息的效果甚微。另一方面,在有標簽數(shù)據(jù)比例變化時,co-training KNN 模型的RMSE 值僅有著微弱的改變,從中推測TE工業(yè)過程或適用于其他的回歸學習器,使用不同的回歸學習器或能產生更好的預測效果。
圖3 不同有標簽數(shù)據(jù)比例下成分E的RMSE值Fig.3 RMSE values of component E under different labeled data ratios
本文使用乙烯工業(yè)過程中的乙烯精餾塔塔頂乙烷濃度軟測量來驗證本文所提方法的有效性和優(yōu)越性。圖4 為乙烯精餾塔的生產流程圖,該塔主要實現(xiàn)將輸入的乙烷、乙烯及微量甲烷和氫氣等混合物,分離成為聚合級乙烯(塔頂釆出)和乙烷(塔釜釆出)。塔頂聚合級乙烯產品中乙烷濃度的有效測量和控制是精餾塔操作的關鍵。
圖4 乙烯精餾塔流程圖Fig.4 Ethylene distillation tower flow chart
選取乙烯精餾塔塔頂乙烷濃度作為軟測量模型的輸出;精餾塔的主要過程變量——塔頂壓力、塔頂溫度、塔底溫度、回流量、靈敏板溫度等38個變量為輔助變量。
根據(jù)實際生產現(xiàn)場的工藝流程,仿真數(shù)據(jù)為2016 年10 月18 日18 點38 分到2016 年10 月20 日3 點58 分之間的乙烯精餾塔的現(xiàn)場采集數(shù)據(jù),共為2000 組。為了驗證TSCO-KNN 模型的有效性以及實驗結果的可靠性,本文使用不同的有標簽數(shù)據(jù)比例分別進行仿真實驗。首先將2000 組數(shù)據(jù)按照奇偶分組方式均分成兩部分,分別為1000組訓練樣本和1000組測試樣本。并在仿真實驗中,分別從訓練樣本中隨機選取數(shù)據(jù)集中的10%、20%和50%作為有標簽數(shù)據(jù)(即100 組,200 組,500 組),剩余的訓練樣本對輸出變量進行覆蓋,作為無標簽數(shù)據(jù)以進行模型的訓練。當訓練結束后,使用模型對1000組測試樣本進行對乙烯精餾塔塔頂乙烷濃度的數(shù)值預測,以評估模型的預測性能。
由表3~表5和圖5、圖6的仿真實驗結果可以得出:在各種有標簽比例下,co-training KNN(1)模型的預測效果存在著較大的偏差,co-training KNN(2)模型的效果比前者稍好,而TSCO-KNN 模型的預測值都更好地跟蹤真實值的變化趨勢,其預測效果明顯好于co-training KNN(1)模型和co-training KNN(2)模型。當有標簽比例為10%時,相比于co-training KNN(1),TSCO-KNN 模型在RMSE 指標上提高了39.51%,在MSE 指標上提高了63.39%,在MAE 指標上提高了35.63%;相比于co-training KNN(2),TSCO-KNN 模型在RMSE 指標上提高了19.36%,在MSE 指標上提高了34.92%,在MAE 指標上提高了15.30%。當有標簽比例為20% 時,相比于cotraining KNN(1),TSCO-KNN 模型在RMSE 指標上提高了45.90%,在MSE 指標上提高了70.52%,在MAE指標上提高了41.18%;相比于co-training KNN(2),TSCO-KNN 模型在RMSE 指標上提高了29.34%,在MSE 指標上提高了49.65%,在MAE 指標上提高了25.97%。當有標簽比例為50% 時,相比于co-training KNN(1),TSCO-KNN 模型在RMSE 指標上提高了52.74%,在MSE 指標上提高了77.54%,在MAE指標上提高了49.44%;相比于co-training KNN(2),TSCO-KNN 模型在RMSE 指標上提高了35.94%,在MSE 指標上提高了58.82%,在MAE 指標上提高了32.57%。同時,隨著有標簽數(shù)據(jù)比例增加,兩個模型的性能評估參數(shù)值都在下降,模型的預測效果逐漸提高,與理論分析基本吻合。
圖5 有標簽比例為10%和20%下的co-training KNN(1)、co-training KNN(2)、TSCO-KNN模型效果對比Fig.5 Comparison of co-training KNN(1),co-training KNN(2),TSCO-KNN model effects with label ratios of 10%and 20%
圖6 有標簽比例為50%下的co-training KNN(1)、co-training KNN(2)、TSCO-KNN模型效果對比和差值對比Fig.6 Comparison of co-training KNN(1),co-training KNN(2),TSCO-KNN model effect and difference with a label ratio of 50%
表3 有標簽比例為10%下三種模型的性能評估Table 3 Evaluation of the three models with a label ratio of 10%
表4 有標簽比例為20%下三種模型的性能評估Table 4 Evaluation of the three models with a label ratio of 20%
表5 有標簽比例為50%下三種模型的性能評估Table 5 Evaluation of the three models with a label ratio of 50%
上述兩組實驗數(shù)據(jù)體現(xiàn)了TSCO-KNN 模型具有更高的預測性能。原因在于傳統(tǒng)的協(xié)同訓練方法,囊括了全部變量的原始數(shù)據(jù)空間,致使學習器之間存在嚴重的訓練特性交叉重疊。而TSCO-KNN 模型通過二子空間的數(shù)據(jù)分組后,一方面由于數(shù)據(jù)的變量維數(shù)降低,使用歐式距離作為距離度量的KNN回歸學習器能顯著地減少預測誤差,提高其自身的預測性能;另一方面,由于各自包含著與PCS和RS相關性程度最高的變量,且變量相互獨立不重疊,使得兩個子空間具有顯著的分歧性且各自代表著數(shù)據(jù)中局部重要特性。然而在不同的實際生產過程中,不同的回歸學習器或產生不同的預測效果,未來的研究中會進一步探索最優(yōu)學習器的挑選和使用。
針對工業(yè)過程中有標簽數(shù)據(jù)和無標簽數(shù)據(jù)比例嚴重失衡的問題,本文在傳統(tǒng)的協(xié)同訓練回歸算法的基礎上,提出基于二子空間協(xié)同訓練算法的半監(jiān)督軟測量建模方法。該模型利用數(shù)據(jù)變量自身特性將數(shù)據(jù)集拆分為兩個具有顯著差異性的輔助變量子空間,從而進行協(xié)同訓練。最后,從乙烯精餾塔和TE 的仿真實驗看出,本文的TSCO-KNN 模型在不同標簽比例的仿真中都表現(xiàn)出更高的預測性能。