亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出模型研究

2021-07-12 01:38:46李東黃道平許翀劉乙奇

華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年6期

李東黃道平許翀劉乙奇

(華南理工大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院，廣東廣州 510640)

水處理過(guò)程包含了一系列復(fù)雜多變的生化反應(yīng)。近年來(lái)，國(guó)家對(duì)于污水處理過(guò)程中出水質(zhì)量指標(biāo)的管控越來(lái)越嚴(yán)格，但仍有許多重要的出水指標(biāo)(5日生化需氧量(BOD5)、化學(xué)需氧量(COD)等)都無(wú)法準(zhǔn)確地監(jiān)測(cè)，特別是偏遠(yuǎn)地區(qū)和農(nóng)村地區(qū)的污水廠(chǎng)。超大型城市的污水廠(chǎng)雖然安裝了在線(xiàn)監(jiān)測(cè)儀器儀表，但普遍存在價(jià)格昂貴、維護(hù)成本高、監(jiān)測(cè)精度差、使用壽命短等問(wèn)題。因此，利用軟測(cè)量技術(shù)實(shí)現(xiàn)對(duì)污水處理過(guò)程重要出水指標(biāo)的有效監(jiān)測(cè)具有重要的意義[1]。

軟測(cè)量技術(shù)通過(guò)收集污水處理過(guò)程中的易測(cè)量變量，分析易測(cè)量變量與難測(cè)量變量間的數(shù)理關(guān)系，從而建立預(yù)測(cè)模型，實(shí)現(xiàn)對(duì)難測(cè)量變量的預(yù)測(cè)。近年來(lái)，對(duì)于污水處理過(guò)程難測(cè)量變量的預(yù)測(cè)問(wèn)題，引起了眾多學(xué)者的廣泛關(guān)注。郭曉燕等[2]將粒子群算法與反饋(BP)神經(jīng)網(wǎng)絡(luò)結(jié)合實(shí)現(xiàn)了對(duì)污泥容積指數(shù)(SVI)的有效預(yù)測(cè)；趙超等[3]對(duì)最小二乘支持向量機(jī)(LSSVM)進(jìn)行改進(jìn)，實(shí)驗(yàn)表明，加權(quán)最小二乘支持向量機(jī)對(duì)總氮(TN)和總磷(TP)的預(yù)測(cè)結(jié)果最佳；然而，這些模型的迭代時(shí)間較長(zhǎng)，降低了模型的預(yù)測(cè)效率。邱禹等[4]提出了一種基于深層神經(jīng)網(wǎng)絡(luò)的多輸出自適應(yīng)軟測(cè)量模型，用于對(duì)多個(gè)出水變量(BOD、COD和SVI等)的同步在線(xiàn)預(yù)測(cè)；但是，要使多輸出模型發(fā)揮優(yōu)勢(shì)，建模數(shù)據(jù)的輸入-輸出分布要具備統(tǒng)一性。盧超等[5]針對(duì)氨氮的實(shí)時(shí)測(cè)量問(wèn)題，提出了一種基于尖峰自組織徑向基神經(jīng)網(wǎng)絡(luò)(RBF)的軟測(cè)量方法；然而，預(yù)測(cè)模型的建立需要收集大量的訓(xùn)練數(shù)據(jù)。

在污水處理過(guò)程中，標(biāo)記數(shù)據(jù)(同時(shí)包含輸入變量和輸出變量)和未標(biāo)記數(shù)據(jù)(僅包含輸入變量)間的比例嚴(yán)重失調(diào)。上述的監(jiān)督學(xué)習(xí)方法會(huì)丟棄大量未標(biāo)記數(shù)據(jù)，從而導(dǎo)致數(shù)據(jù)資源的浪費(fèi)[6]。此外，采用傳統(tǒng)化驗(yàn)測(cè)量的方法補(bǔ)充未標(biāo)記數(shù)據(jù)缺少的輸出變量，成本高昂且缺乏時(shí)效性。為了更加充分地使用未標(biāo)記數(shù)據(jù)，近年來(lái)，半監(jiān)督學(xué)習(xí)方法得到廣泛地研究。劉小蘭等[7]提出了一種基于最小熵正則化的半監(jiān)督分類(lèi)算法，該算法能夠在標(biāo)記數(shù)據(jù)較少的情況下，通過(guò)使用未標(biāo)記數(shù)據(jù)，保證模型仍具有較高的分類(lèi)質(zhì)量；史旭東等[8]對(duì)自訓(xùn)練的半監(jiān)督算法進(jìn)行改進(jìn)，并與GPR方法結(jié)合，實(shí)現(xiàn)對(duì)脫丁烷塔塔底丁烷濃度的預(yù)測(cè)；Yao等[9]用協(xié)同訓(xùn)練的半監(jiān)督方法迭代調(diào)用極限學(xué)習(xí)機(jī)，建立了可以廣泛應(yīng)用到工業(yè)過(guò)程的軟測(cè)量模型；但是，現(xiàn)有的半監(jiān)督軟測(cè)量模型多為離線(xiàn)的單輸出模型，模型經(jīng)過(guò)長(zhǎng)時(shí)間的使用后，預(yù)測(cè)結(jié)果已經(jīng)不夠理想。此外，隨著污水處理工藝越來(lái)越復(fù)雜，需要監(jiān)測(cè)的變量也隨之增多，傳統(tǒng)的單輸出模型效率低下，無(wú)法滿(mǎn)足需求。

為了提高模型的自適應(yīng)性，模型的優(yōu)化方法得到廣泛地研究。劉乙奇等[10]對(duì)即時(shí)學(xué)習(xí)算法進(jìn)行改進(jìn)，應(yīng)用到污水處理監(jiān)測(cè)中；Cong等[11]提出了一種自適應(yīng)加權(quán)融合的方法來(lái)優(yōu)化小波神經(jīng)網(wǎng)絡(luò)模型，在外部條件頻繁變化的情況下，對(duì)水質(zhì)COD的預(yù)測(cè)也能滿(mǎn)足監(jiān)測(cè)要求；吳菁等[12]利用時(shí)間差分方法改進(jìn)多核相關(guān)向量的動(dòng)態(tài)特征，提升了模型的預(yù)測(cè)性能。然而，這類(lèi)自適應(yīng)方法的優(yōu)化模式單一，泛化能力弱。

基于上述分析，文中提出了一種基于協(xié)同訓(xùn)練的集成自適應(yīng)多輸出軟測(cè)量模型，首先利用高斯過(guò)程回歸和相關(guān)向量機(jī)兩種不同類(lèi)別的方法建立一個(gè)異構(gòu)的軟測(cè)量模型；然后通過(guò)移動(dòng)窗口[13]和卡爾曼濾波[14]分別對(duì)模型的結(jié)構(gòu)和參數(shù)進(jìn)行更新；最后通過(guò)實(shí)際污水廠(chǎng)的實(shí)驗(yàn)對(duì)模型的預(yù)測(cè)性能和自適應(yīng)性進(jìn)行驗(yàn)證。

1 基本知識(shí)

1.1 高斯過(guò)程模型

高斯過(guò)程可以表示為隨機(jī)變量的集合，該集合中的任意隨機(jī)變量組合都服從聯(lián)合高斯分布。高斯過(guò)程模型是由均值函數(shù)和協(xié)方差函數(shù)唯一確定，并且通常情況下，均值函數(shù)可以假定為零，因此，只需要確定協(xié)方差函數(shù)便可以確定高斯過(guò)程模型[15]。文中，將高斯過(guò)程模型應(yīng)用到多輸出系統(tǒng)，同時(shí)對(duì)多個(gè)輸出變量預(yù)測(cè)；因此，在保留原有算法結(jié)構(gòu)的基礎(chǔ)上，將輸出變量定義為多維矩陣。文中將標(biāo)記數(shù)據(jù)記為

(X,Y)={(x1,y1),…,(xl,yl)},

其中：X∈Rl×m、Y∈Rl×n，m和n分別表示輸入和輸出的變量個(gè)數(shù)，l為數(shù)據(jù)數(shù)量。

輸入和輸出變量之間的關(guān)系如下：

Y=f(X)+ε

(1)

f(X)～GP(0,K(·,·))

(2)

協(xié)方差矩陣K的計(jì)算函數(shù)眾多，文中利用徑向基協(xié)方差函數(shù)計(jì)算協(xié)方差矩陣。

(3)

(4)

其中，k(xq)表示測(cè)試數(shù)據(jù)xq與每個(gè)訓(xùn)練數(shù)據(jù)之間的協(xié)方差向量，k(xq,xq)是xq與本身的協(xié)方差，K是訓(xùn)練數(shù)據(jù)集合的協(xié)方差矩陣。

對(duì)于小樣本、非線(xiàn)性但高維度的數(shù)據(jù)集合，高斯過(guò)程回歸可以達(dá)到令人滿(mǎn)意的預(yù)測(cè)效果。此外，由高斯過(guò)程回歸建立的預(yù)測(cè)模型，參數(shù)較少，計(jì)算過(guò)程更快，是一種高效且穩(wěn)定的概率預(yù)測(cè)方法。

1.2 相關(guān)向量機(jī)

相關(guān)向量機(jī)是一種基于稀疏貝葉斯原理的模型，多用于數(shù)據(jù)分類(lèi)和回歸[16]。由于文中建立的是多輸出預(yù)測(cè)模型，因此將現(xiàn)有的相關(guān)向量機(jī)模型推廣到多輸出系統(tǒng)中，主要的區(qū)別在于每個(gè)輸入樣本的權(quán)重值都是由同一組數(shù)據(jù)所共享的超參數(shù)控制，使得每一個(gè)輸出變量都與輸入變量存在依賴(lài)性，并且輸出變量之間也存在相關(guān)性[17]。這些超參數(shù)描述了權(quán)重值的后驗(yàn)分布情況，超參數(shù)數(shù)值在訓(xùn)練過(guò)程中通過(guò)迭代估計(jì)。其中，絕大多數(shù)的超參數(shù)數(shù)值接近于無(wú)窮大，導(dǎo)致后驗(yàn)分布可以將相應(yīng)的權(quán)重值設(shè)置為零，而其余對(duì)應(yīng)非零權(quán)重值的數(shù)據(jù)稱(chēng)為關(guān)聯(lián)向量。這種算法使本研究可以為多個(gè)輸出變量選擇相同的輸入變量集合，簡(jiǎn)化了建模結(jié)構(gòu)。具體的回歸函數(shù)為

yh=Φ(x)βh+h

(5)

其中:yh表示第h列的輸出向量;βh表示第h列的權(quán)值參數(shù);h表示均值為0、協(xié)方差為σ2的高斯白噪聲;Φ(x)是以輸入向量為基礎(chǔ)的函數(shù)，其函數(shù)形式為

Φ(x)=[1φ(x,x1)φ(x,x2) …φ(x,xl)]′

(6)

φ表示用于比較任意兩組輸入變量特性的函數(shù)，其中Gaussian、Polynomial和cubic等核函數(shù)都可以作為基本函數(shù)。本研究以Gaussian核函數(shù)作為基本函數(shù)。

(7)

通過(guò)期望最大化算法(EM)對(duì)參數(shù)進(jìn)行識(shí)別。該算法迭代兩步：第一步計(jì)算每個(gè)變量中映射函數(shù)的概率，第二步使用前一步中計(jì)算的概率估計(jì)每個(gè)映射函數(shù)的參數(shù)。

(8)

(9)

(10)

(11)

(12)

2 基于半監(jiān)督學(xué)習(xí)的集成自適應(yīng)多輸出軟測(cè)量模型

2.1 基于協(xié)同訓(xùn)練的集成自適應(yīng)多輸出軟測(cè)量模型

協(xié)同訓(xùn)練方法作為半監(jiān)督學(xué)習(xí)中最常見(jiàn)的方法之一[18]，它能夠?qū)?biāo)記數(shù)據(jù)均分為兩組，并同步對(duì)兩組數(shù)據(jù)集用不同種類(lèi)的回歸方法進(jìn)行互不影響的訓(xùn)練和建模，提高了回歸模型的獨(dú)立性和多樣性。此外，由兩個(gè)相互獨(dú)立的訓(xùn)練集合對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行評(píng)價(jià)和選取，減少了不合格未標(biāo)記數(shù)據(jù)的選入，提高了模型的精度。然而，軟測(cè)量模型在經(jīng)過(guò)長(zhǎng)時(shí)間的運(yùn)行后，預(yù)測(cè)性能會(huì)下降。為了解決這一問(wèn)題，本研究提出一種集成自適應(yīng)方法，將移動(dòng)窗口法與卡爾曼濾波結(jié)合，同時(shí)對(duì)模型的結(jié)構(gòu)和參數(shù)更新?；趨f(xié)同訓(xùn)練的集成自適應(yīng)多輸出軟測(cè)量模型的框架圖如圖1所示。

圖1 基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出模型框架圖

2.2 基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出模型

本研究以多輸出的高斯過(guò)程回歸和相關(guān)向量機(jī)作為回歸方法，構(gòu)建基于協(xié)同訓(xùn)練的集成自適應(yīng)異構(gòu)多輸出軟測(cè)量模型。半監(jiān)督學(xué)習(xí)方法的核心是利用未標(biāo)記數(shù)據(jù)所攜帶的數(shù)據(jù)信息，實(shí)現(xiàn)對(duì)預(yù)測(cè)模型的改進(jìn)和優(yōu)化。為了選擇出最合適的未標(biāo)記數(shù)據(jù)，文中以文獻(xiàn)[19]在協(xié)同訓(xùn)練回歸(Coreg)中提出的置信度評(píng)價(jià)標(biāo)準(zhǔn)作為依據(jù)，將置信度的計(jì)算公式也擴(kuò)展到多輸出系統(tǒng)：

(13)

此外，多輸出預(yù)測(cè)模型考慮輸出變量之間的相關(guān)性，通過(guò)一次建模實(shí)現(xiàn)對(duì)多個(gè)輸出變量的同步預(yù)測(cè)，有效地提高模型的預(yù)測(cè)效率。高斯過(guò)程回歸和相關(guān)向量機(jī)作為兩種不同的非線(xiàn)性回歸方法，無(wú)論是訓(xùn)練還是建模過(guò)程，都保證了模型之間的獨(dú)立性，增強(qiáng)了預(yù)測(cè)模型的泛化能力。最后，集成自適應(yīng)方法對(duì)預(yù)測(cè)模型的結(jié)構(gòu)和參數(shù)同步更新，互相補(bǔ)充，模型的自適應(yīng)性可以得到顯著地提升。

移動(dòng)窗口通過(guò)更新建模數(shù)據(jù)實(shí)現(xiàn)對(duì)模型結(jié)構(gòu)的更新：

(14)

基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出模型的具體步驟如下：

步驟1 將收集到的數(shù)據(jù)分為標(biāo)記數(shù)據(jù)集合L={(x1,y1),(x2,y2),…,(xl,yl)}和未標(biāo)記數(shù)據(jù)集合U={x1,x2,…,xu}。將標(biāo)記數(shù)據(jù)集合L編號(hào)后，利用奇偶分組的方法均分為L(zhǎng)1和L2(若l為奇數(shù),L1={(x1,y1),(x3,y3),…,(xl,yl)},L2={(x2,y2),(x4,y4),…,(xl-1,yl-1) }；若l為偶數(shù)，L1={(x1,y1),(x3,y3),…,(xl-1,yl-1) },L2={(x2,y2),(x4,y4),…,(xl,yl) }) ，再利用高斯過(guò)程回歸和相關(guān)向量機(jī)對(duì)L1和L2兩組標(biāo)記數(shù)據(jù)集合構(gòu)建回歸模型f1和f2。不同于隨機(jī)分組和前后均分的方法，奇偶分組的方法雖然破壞了數(shù)據(jù)的連續(xù)性，但分兩組標(biāo)記數(shù)據(jù)能夠包含全局信息，有利于建立更準(zhǔn)確的預(yù)測(cè)模型。用兩種不同類(lèi)型的回歸方法，可以提高訓(xùn)練和建模過(guò)程中模型的多樣性，減少不適合未標(biāo)記數(shù)據(jù)的選入。另一方面，多類(lèi)型的回歸方法，使模型的泛化能力得到提高，適用于更廣泛的工業(yè)數(shù)據(jù)。

步驟3 建立預(yù)測(cè)模型。對(duì)最終的標(biāo)記數(shù)據(jù)集合L1和L2分別用高斯過(guò)程回歸和相關(guān)向量機(jī)構(gòu)建預(yù)測(cè)模型h1和h2。兩個(gè)回歸模型相較于之前的回歸模型f1和f2，由于標(biāo)記數(shù)據(jù)組的數(shù)據(jù)數(shù)量和信息都得到了提高，模型的預(yù)測(cè)結(jié)果將更加準(zhǔn)確。

步驟4 由文中提出的集成自適應(yīng)方法，對(duì)模型進(jìn)行動(dòng)態(tài)優(yōu)化。利用移動(dòng)窗口法對(duì)建模數(shù)據(jù)實(shí)現(xiàn)動(dòng)態(tài)更新，以達(dá)到更新模型結(jié)構(gòu)的效果。由于工業(yè)過(guò)程中，各階段數(shù)據(jù)的狀態(tài)是不同的，利用移動(dòng)窗口法可以實(shí)現(xiàn)建模數(shù)據(jù)隨時(shí)間的變化而變化，模型的結(jié)構(gòu)也因?yàn)閿?shù)據(jù)信息的變化而更新。同時(shí)，在每一步的預(yù)測(cè)過(guò)程中，利用卡爾曼濾波中的卡爾曼增益系數(shù)，對(duì)預(yù)測(cè)模型h1和h2得到的預(yù)測(cè)結(jié)果加權(quán)，實(shí)現(xiàn)對(duì)模型參數(shù)的更新，得到最終的預(yù)測(cè)結(jié)果?？柭鲆嫦禂?shù)為Gk，由h1和h2計(jì)算得到的預(yù)測(cè)結(jié)果分別為h1(x)和h2(x)。

(15)

(16)

(17)

卡爾曼增益系數(shù)是由上一時(shí)刻的Ri(i=1,2)決定，因此。利用卡爾曼增益系數(shù)對(duì)預(yù)測(cè)模型h1和h2得到的預(yù)測(cè)結(jié)果加權(quán)有效地保留了上一時(shí)刻的預(yù)測(cè)信息，使得模型預(yù)測(cè)結(jié)果具有連續(xù)性。

2.3 模型分析和討論

本節(jié)分析和討論基于協(xié)同訓(xùn)練的集成高斯過(guò)程回歸-相關(guān)向量機(jī)模型(Co-training GPR-RVM)的優(yōu)點(diǎn)和缺點(diǎn)。首先，在數(shù)據(jù)的預(yù)處理階段，奇偶分組的方法將數(shù)據(jù)編號(hào)后按照奇偶屬性將標(biāo)記數(shù)據(jù)均分為兩組，雖然這種分組方法破壞了標(biāo)記數(shù)據(jù)的連續(xù)性，但是分組得到的兩組標(biāo)記數(shù)據(jù)集合都可以包含原始數(shù)據(jù)的全局信息，使得建立的訓(xùn)練模型更準(zhǔn)確。在模型結(jié)構(gòu)上，協(xié)同訓(xùn)練方法屬于半監(jiān)督學(xué)習(xí)方法，不同于監(jiān)督學(xué)習(xí)方法，半監(jiān)督學(xué)習(xí)方法可以充分使用未標(biāo)記數(shù)據(jù)來(lái)優(yōu)化模型，提高模型的預(yù)測(cè)性能。然而，半監(jiān)督學(xué)習(xí)方法需要對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行評(píng)價(jià)和選擇，因此，模型結(jié)構(gòu)變得更復(fù)雜。此外，文中提出的Co-training GPR-RVM模型通過(guò)應(yīng)用高斯過(guò)程回歸(GPR)和相關(guān)向量機(jī)(RVM)兩種相互獨(dú)立的非線(xiàn)性回歸算法建立和優(yōu)化模型，極大地提高了模型的多樣性，能夠使模型適用于不同的數(shù)據(jù)預(yù)測(cè)問(wèn)題。最后，文中提出的集成自適應(yīng)方法分別對(duì)模型的結(jié)構(gòu)和參數(shù)進(jìn)行了更新。在模型的在線(xiàn)應(yīng)用中，可以更全面地提高模型的自適應(yīng)能力，避免模型的衰退。

然而，Co-training GPR-RVM模型也存在一些缺點(diǎn)。相較于監(jiān)督學(xué)習(xí)模型，協(xié)同訓(xùn)練模型因?yàn)樵黾恿宋礃?biāo)記數(shù)據(jù)的評(píng)價(jià)和選擇過(guò)程，使得模型結(jié)構(gòu)更復(fù)雜，預(yù)測(cè)的效率更低。其次，不難發(fā)現(xiàn)的是模型在初始的預(yù)測(cè)階段，預(yù)測(cè)表現(xiàn)較差，這主要是因?yàn)樵谀Ｐ陀?xùn)練初期，初始的卡爾曼增益系數(shù)較差，需要通過(guò)不斷地調(diào)試來(lái)優(yōu)化;為解決這一問(wèn)題，可以通過(guò)不斷地調(diào)試，尋找最佳的初始卡爾曼增益系數(shù)。最后，集成自適應(yīng)方法容易受到數(shù)據(jù)中個(gè)別異常值的影響，從而影響模型整體的預(yù)測(cè)表現(xiàn)。

3 案例分析

本研究以加州大學(xué)數(shù)據(jù)庫(kù)(UCI)所收集到的污水?dāng)?shù)據(jù)為例對(duì)該方法的有效性進(jìn)行驗(yàn)證，以證明基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出模型能夠?qū)崿F(xiàn)對(duì)污水處理過(guò)程中難測(cè)量變量的有效預(yù)測(cè)。模型預(yù)測(cè)的表現(xiàn)不僅通過(guò)圖中預(yù)測(cè)曲線(xiàn)和真實(shí)曲線(xiàn)的擬合來(lái)反映，還可以通過(guò)均方根誤差(RMSE)、多元相關(guān)系數(shù)(RR)、對(duì)角線(xiàn)均方根平方和(RMSSD)以及相關(guān)系數(shù)(R)來(lái)評(píng)價(jià);其中，RMSE和RR是模型對(duì)各個(gè)變量的評(píng)價(jià)指標(biāo)，RMMSD和R是模型整體的評(píng)價(jià)指標(biāo)。

(18)

(19)

(20)

(21)

3.1 研究背景和變量選擇

UCI所收集的數(shù)據(jù)來(lái)自于一個(gè)采用活性污泥處理工藝的污水廠(chǎng)，該廠(chǎng)的污泥處理系統(tǒng)主要由預(yù)處理池、初沉池、曝氣罐、二沉池和污泥回流5部分組成，如圖2所示。該污水廠(chǎng)的污水處理量為3.5×104m3/d，主要對(duì)污水進(jìn)行去氮除磷處理。在處理過(guò)程中，由于需要大量的微生物對(duì)化學(xué)反應(yīng)進(jìn)行催化、對(duì)磷酸鹽進(jìn)行吸附，隨著生化反應(yīng)的進(jìn)行，微生物質(zhì)量和種類(lèi)數(shù)量會(huì)發(fā)生變化。因此，需要對(duì)整個(gè)污水處理的過(guò)程進(jìn)行全面的監(jiān)測(cè)[20]。

圖2 污水處理過(guò)程原理圖

由于該污水廠(chǎng)的結(jié)構(gòu)相對(duì)簡(jiǎn)易，監(jiān)測(cè)設(shè)備不足，UCI所收集的數(shù)據(jù)共包含38個(gè)變量，采樣周期為1 d，共400 d數(shù)據(jù)。其中前200 d的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)構(gòu)建模型，后200 d的數(shù)據(jù)用來(lái)檢驗(yàn)?zāi)Ｐ偷念A(yù)測(cè)性能。出水指標(biāo)化學(xué)需氧量(COD)、生物需氧量(BOD)和回流出水指標(biāo)RD-COD、RD-BOD在整個(gè)過(guò)程中最難監(jiān)測(cè)，將它們作為輸出變量對(duì)軟測(cè)量模型的預(yù)測(cè)性能進(jìn)行驗(yàn)證。根據(jù)對(duì)活性污泥處理工藝的機(jī)理分析，將各個(gè)階段其他變量，如懸浮物濃度(SS)、揮發(fā)性懸浮物濃度(SSV)、pH值等作為輸入變量，共計(jì)34個(gè)，詳細(xì)的變量介紹可參看文獻(xiàn)[21]。

3.2 預(yù)測(cè)結(jié)果對(duì)比和分析

為了驗(yàn)證模型的預(yù)測(cè)性能，文中在相同的數(shù)據(jù)及條件下，比較了以下4種模型的預(yù)測(cè)性能：監(jiān)督學(xué)習(xí)的異構(gòu)高斯過(guò)程回歸-相關(guān)向量機(jī)模型GPR-RVM；協(xié)同訓(xùn)練的高斯過(guò)程回歸模型Co-training GPR；協(xié)同訓(xùn)練的相關(guān)向量機(jī)模型Co-training RVM；協(xié)同訓(xùn)練的異構(gòu)高斯過(guò)程回歸-相關(guān)向量機(jī)模型Co-training GPR-RVM。

此外，為了驗(yàn)證文中提出的集成自適應(yīng)方法，分別對(duì)4種模型進(jìn)行集成自適應(yīng)處理后再次進(jìn)行對(duì)比。其中，未進(jìn)行集成自適應(yīng)處理的模型被稱(chēng)為離線(xiàn)模型，經(jīng)過(guò)集成自適應(yīng)處理的模型被稱(chēng)為在線(xiàn)模型。

各個(gè)模型預(yù)測(cè)結(jié)果見(jiàn)表1。首先，比較在集成自適應(yīng)方法下4種模型的預(yù)測(cè)結(jié)果，Co-training GPR-RVM模型的RMSSD值比GPR-RVM模型的RMSSD值減小了17.25%，這主要是因?yàn)閰f(xié)同訓(xùn)練方法能充分使用未標(biāo)記數(shù)據(jù)優(yōu)化模型，提高了模型的預(yù)測(cè)性能；此外，Co-training GPR-RVM模型的RMSSD值是最小的，為9.986 5，這說(shuō)明了在集成自適應(yīng)方法下，異構(gòu)多輸出軟測(cè)量模型的預(yù)測(cè)效果整體上優(yōu)于同構(gòu)模型。但是也不難發(fā)現(xiàn)，Co-trai-ning GPR-RVM模型對(duì)于個(gè)別輸出變量的預(yù)測(cè)效果并不是最佳的，主要的原因是在訓(xùn)練學(xué)習(xí)過(guò)程中，未標(biāo)記數(shù)據(jù)的置信度是在多輸出系統(tǒng)下計(jì)算得到，輸出變量間將會(huì)存在相互的影響，最終影響模型對(duì)個(gè)別輸出變量的預(yù)測(cè)表現(xiàn)。此外，為了更直觀(guān)地反映異構(gòu)模型和同構(gòu)模型的預(yù)測(cè)表現(xiàn)，文中給出了集成自適應(yīng)條件下3種協(xié)同訓(xùn)練模型預(yù)測(cè)結(jié)果的多元相關(guān)系數(shù)(RR)的條形圖，如圖3所示。

表1 模型預(yù)測(cè)結(jié)果對(duì)比

圖3 多元相關(guān)系數(shù)直方圖

由圖3可知，Co-training GPR-RVM模型對(duì)于每一個(gè)輸出變量的相關(guān)系數(shù)基本都是最大的，尤其是BOD和COD兩個(gè)重要出水指標(biāo)的，分別為0.899 2和0.872 8，這可以為污水處理廠(chǎng)在最終排污時(shí)，污水指標(biāo)是否達(dá)到安全指標(biāo)提供一個(gè)可靠的監(jiān)測(cè)結(jié)果。

為了驗(yàn)證集成自適應(yīng)方法對(duì)模型預(yù)測(cè)性能的影響，在相同的回歸方法下，比較在線(xiàn)模型與離線(xiàn)模型的RMSSD值可知，集成自適應(yīng)方法下模型的RMSSD都有顯著地降低，相較于離線(xiàn)的GPR-RVM、Co-training GPR、Co-training RVM 和Co-training GPR-RVM模型的RMSSD分別減小了12.78%，2.18%，8.14%和17.72%，尤其是Co-training GPR-RVM模型的優(yōu)化效果最為明顯。這說(shuō)明隨著時(shí)間的推移，集成自適應(yīng)方法能夠保證模型性能維持在一個(gè)令人滿(mǎn)意的狀態(tài)。

Co-training GPR-RVM模型在集成自適應(yīng)方法和離線(xiàn)方法下的預(yù)測(cè)結(jié)果如圖4所示。

圖4 模型的預(yù)測(cè)曲線(xiàn)

由圖4可見(jiàn)，兩種模型均表現(xiàn)出良好的跟蹤性能，但對(duì)于峰值和谷值點(diǎn)的擬合較差。相較于離線(xiàn)模型，集成自適應(yīng)模型對(duì)峰值與谷值點(diǎn)的跟蹤較好，這主要是因?yàn)榧勺赃m應(yīng)模型會(huì)根據(jù)上一時(shí)刻的預(yù)測(cè)誤差對(duì)這一時(shí)刻的模型系數(shù)進(jìn)行更新。對(duì)峰值與谷值點(diǎn)實(shí)現(xiàn)更好的跟蹤，可以對(duì)污水處理過(guò)程中的故障進(jìn)行及時(shí)地判斷和反饋，減少不必要的損失。

3.3 討論

針對(duì)UCI收集的采用活性污泥處理工藝的污水廠(chǎng)的數(shù)據(jù)，本研究提出的基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出模型實(shí)現(xiàn)了對(duì)出水指標(biāo) COD、BOD和回流出水指標(biāo)RD-COD、RD-BOD的有效預(yù)測(cè)。主要原因是：

首先，該污水廠(chǎng)由于結(jié)構(gòu)簡(jiǎn)易、監(jiān)測(cè)設(shè)備不足，導(dǎo)致數(shù)據(jù)量較小，嚴(yán)重影響預(yù)測(cè)模型的建立。文中采用協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)方法對(duì)標(biāo)記數(shù)據(jù)集合進(jìn)行擴(kuò)充，并且將非線(xiàn)性回歸算法GPR和RVM結(jié)合，建立了異構(gòu)的軟測(cè)量模型。

其次，由于污水處理是一個(gè)復(fù)雜且多變的工業(yè)過(guò)程，離線(xiàn)的軟測(cè)量模型無(wú)法滿(mǎn)足預(yù)測(cè)精度的要求。因此，文中提出的集成自適應(yīng)方法，利用移動(dòng)窗口和卡爾曼濾波同步對(duì)模型的結(jié)構(gòu)和參數(shù)進(jìn)行實(shí)時(shí)優(yōu)化，保證了模型的預(yù)測(cè)精度。

最后，在污水處理過(guò)程中，難測(cè)量變量間存在相關(guān)性，本研究將軟測(cè)量模型推廣到多輸出系統(tǒng)，實(shí)現(xiàn)了對(duì)多個(gè)變量的同步預(yù)測(cè)；不僅提高了模型的預(yù)測(cè)精度，模型的預(yù)測(cè)效率也得到提升。

4 結(jié)論

本研究以半監(jiān)督學(xué)習(xí)方法為出發(fā)點(diǎn)，提出了一種基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出軟測(cè)量模型，并以通過(guò)污水處理過(guò)程中的重要出水指標(biāo)變量(COD和BOD)驗(yàn)證了異構(gòu)的半監(jiān)督軟測(cè)量模型的預(yù)測(cè)性能和集成自適應(yīng)方法對(duì)模型的優(yōu)化能力。最后以實(shí)際污水廠(chǎng)為對(duì)象進(jìn)行了實(shí)驗(yàn)，對(duì)模型的預(yù)測(cè)性能和自適應(yīng)性進(jìn)行驗(yàn)證，結(jié)果表明該模型預(yù)測(cè)表現(xiàn)優(yōu)于同條件下同構(gòu)的半監(jiān)督軟測(cè)量模型，模型的自適應(yīng)性在集成自適應(yīng)方法優(yōu)化下也得到了顯著地提升。