李東 黃道平 許翀 劉乙奇
(華南理工大學(xué) 自動(dòng)化科學(xué)與工程學(xué)院,廣東 廣州 510640)
水處理過(guò)程包含了一系列復(fù)雜多變的生化反應(yīng)。近年來(lái),國(guó)家對(duì)于污水處理過(guò)程中出水質(zhì)量指標(biāo)的管控越來(lái)越嚴(yán)格,但仍有許多重要的出水指標(biāo)(5日生化需氧量(BOD5)、化學(xué)需氧量(COD)等)都無(wú)法準(zhǔn)確地監(jiān)測(cè),特別是偏遠(yuǎn)地區(qū)和農(nóng)村地區(qū)的污水廠(chǎng)。超大型城市的污水廠(chǎng)雖然安裝了在線(xiàn)監(jiān)測(cè)儀器儀表,但普遍存在價(jià)格昂貴、維護(hù)成本高、監(jiān)測(cè)精度差、使用壽命短等問(wèn)題。因此,利用軟測(cè)量技術(shù)實(shí)現(xiàn)對(duì)污水處理過(guò)程重要出水指標(biāo)的有效監(jiān)測(cè)具有重要的意義[1]。
軟測(cè)量技術(shù)通過(guò)收集污水處理過(guò)程中的易測(cè)量變量,分析易測(cè)量變量與難測(cè)量變量間的數(shù)理關(guān)系,從而建立預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)難測(cè)量變量的預(yù)測(cè)。近年來(lái),對(duì)于污水處理過(guò)程難測(cè)量變量的預(yù)測(cè)問(wèn)題,引起了眾多學(xué)者的廣泛關(guān)注。郭曉燕等[2]將粒子群算法與反饋(BP)神經(jīng)網(wǎng)絡(luò)結(jié)合實(shí)現(xiàn)了對(duì)污泥容積指數(shù)(SVI)的有效預(yù)測(cè);趙超等[3]對(duì)最小二乘支持向量機(jī)(LSSVM)進(jìn)行改進(jìn),實(shí)驗(yàn)表明,加權(quán)最小二乘支持向量機(jī)對(duì)總氮(TN)和總磷(TP)的預(yù)測(cè)結(jié)果最佳;然而,這些模型的迭代時(shí)間較長(zhǎng),降低了模型的預(yù)測(cè)效率。邱禹等[4]提出了一種基于深層神經(jīng)網(wǎng)絡(luò)的多輸出自適應(yīng)軟測(cè)量模型,用于對(duì)多個(gè)出水變量(BOD、COD和SVI等)的同步在線(xiàn)預(yù)測(cè);但是,要使多輸出模型發(fā)揮優(yōu)勢(shì),建模數(shù)據(jù)的輸入-輸出分布要具備統(tǒng)一性。盧超等[5]針對(duì)氨氮的實(shí)時(shí)測(cè)量問(wèn)題,提出了一種基于尖峰自組織徑向基神經(jīng)網(wǎng)絡(luò)(RBF)的軟測(cè)量方法;然而,預(yù)測(cè)模型的建立需要收集大量的訓(xùn)練數(shù)據(jù)。
在污水處理過(guò)程中,標(biāo)記數(shù)據(jù)(同時(shí)包含輸入變量和輸出變量)和未標(biāo)記數(shù)據(jù)(僅包含輸入變量)間的比例嚴(yán)重失調(diào)。上述的監(jiān)督學(xué)習(xí)方法會(huì)丟棄大量未標(biāo)記數(shù)據(jù),從而導(dǎo)致數(shù)據(jù)資源的浪費(fèi)[6]。此外,采用傳統(tǒng)化驗(yàn)測(cè)量的方法補(bǔ)充未標(biāo)記數(shù)據(jù)缺少的輸出變量,成本高昂且缺乏時(shí)效性。為了更加充分地使用未標(biāo)記數(shù)據(jù),近年來(lái),半監(jiān)督學(xué)習(xí)方法得到廣泛地研究。劉小蘭等[7]提出了一種基于最小熵正則化的半監(jiān)督分類(lèi)算法,該算法能夠在標(biāo)記數(shù)據(jù)較少的情況下,通過(guò)使用未標(biāo)記數(shù)據(jù),保證模型仍具有較高的分類(lèi)質(zhì)量;史旭東等[8]對(duì)自訓(xùn)練的半監(jiān)督算法進(jìn)行改進(jìn),并與GPR方法結(jié)合,實(shí)現(xiàn)對(duì)脫丁烷塔塔底丁烷濃度的預(yù)測(cè);Yao等[9]用協(xié)同訓(xùn)練的半監(jiān)督方法迭代調(diào)用極限學(xué)習(xí)機(jī),建立了可以廣泛應(yīng)用到工業(yè)過(guò)程的軟測(cè)量模型;但是,現(xiàn)有的半監(jiān)督軟測(cè)量模型多為離線(xiàn)的單輸出模型,模型經(jīng)過(guò)長(zhǎng)時(shí)間的使用后,預(yù)測(cè)結(jié)果已經(jīng)不夠理想。此外,隨著污水處理工藝越來(lái)越復(fù)雜,需要監(jiān)測(cè)的變量也隨之增多,傳統(tǒng)的單輸出模型效率低下,無(wú)法滿(mǎn)足需求。
為了提高模型的自適應(yīng)性,模型的優(yōu)化方法得到廣泛地研究。劉乙奇等[10]對(duì)即時(shí)學(xué)習(xí)算法進(jìn)行改進(jìn),應(yīng)用到污水處理監(jiān)測(cè)中;Cong等[11]提出了一種自適應(yīng)加權(quán)融合的方法來(lái)優(yōu)化小波神經(jīng)網(wǎng)絡(luò)模型,在外部條件頻繁變化的情況下,對(duì)水質(zhì)COD的預(yù)測(cè)也能滿(mǎn)足監(jiān)測(cè)要求;吳菁等[12]利用時(shí)間差分方法改進(jìn)多核相關(guān)向量的動(dòng)態(tài)特征,提升了模型的預(yù)測(cè)性能。然而,這類(lèi)自適應(yīng)方法的優(yōu)化模式單一,泛化能力弱。
基于上述分析,文中提出了一種基于協(xié)同訓(xùn)練的集成自適應(yīng)多輸出軟測(cè)量模型,首先利用高斯過(guò)程回歸和相關(guān)向量機(jī)兩種不同類(lèi)別的方法建立一個(gè)異構(gòu)的軟測(cè)量模型;然后通過(guò)移動(dòng)窗口[13]和卡爾曼濾波[14]分別對(duì)模型的結(jié)構(gòu)和參數(shù)進(jìn)行更新;最后通過(guò)實(shí)際污水廠(chǎng)的實(shí)驗(yàn)對(duì)模型的預(yù)測(cè)性能和自適應(yīng)性進(jìn)行驗(yàn)證。
高斯過(guò)程可以表示為隨機(jī)變量的集合,該集合中的任意隨機(jī)變量組合都服從聯(lián)合高斯分布。高斯過(guò)程模型是由均值函數(shù)和協(xié)方差函數(shù)唯一確定,并且通常情況下,均值函數(shù)可以假定為零,因此,只需要確定協(xié)方差函數(shù)便可以確定高斯過(guò)程模型[15]。文中,將高斯過(guò)程模型應(yīng)用到多輸出系統(tǒng),同時(shí)對(duì)多個(gè)輸出變量預(yù)測(cè);因此,在保留原有算法結(jié)構(gòu)的基礎(chǔ)上,將輸出變量定義為多維矩陣。文中將標(biāo)記數(shù)據(jù)記為
(X,Y)={(x1,y1),…,(xl,yl)},
其中:X∈Rl×m、Y∈Rl×n,m和n分別表示輸入和輸出的變量個(gè)數(shù),l為數(shù)據(jù)數(shù)量。
輸入和輸出變量之間的關(guān)系如下:
Y=f(X)+ε
(1)
f(X)~GP(0,K(·,·))
(2)
協(xié)方差矩陣K的計(jì)算函數(shù)眾多,文中利用徑向基協(xié)方差函數(shù)計(jì)算協(xié)方差矩陣。
(3)
(4)
其中,k(xq)表示測(cè)試數(shù)據(jù)xq與每個(gè)訓(xùn)練數(shù)據(jù)之間的協(xié)方差向量,k(xq,xq)是xq與本身的協(xié)方差,K是訓(xùn)練數(shù)據(jù)集合的協(xié)方差矩陣。
對(duì)于小樣本、非線(xiàn)性但高維度的數(shù)據(jù)集合,高斯過(guò)程回歸可以達(dá)到令人滿(mǎn)意的預(yù)測(cè)效果。此外,由高斯過(guò)程回歸建立的預(yù)測(cè)模型,參數(shù)較少,計(jì)算過(guò)程更快,是一種高效且穩(wěn)定的概率預(yù)測(cè)方法。
相關(guān)向量機(jī)是一種基于稀疏貝葉斯原理的模型,多用于數(shù)據(jù)分類(lèi)和回歸[16]。由于文中建立的是多輸出預(yù)測(cè)模型,因此將現(xiàn)有的相關(guān)向量機(jī)模型推廣到多輸出系統(tǒng)中,主要的區(qū)別在于每個(gè)輸入樣本的權(quán)重值都是由同一組數(shù)據(jù)所共享的超參數(shù)控制,使得每一個(gè)輸出變量都與輸入變量存在依賴(lài)性,并且輸出變量之間也存在相關(guān)性[17]。這些超參數(shù)描述了權(quán)重值的后驗(yàn)分布情況,超參數(shù)數(shù)值在訓(xùn)練過(guò)程中通過(guò)迭代估計(jì)。其中,絕大多數(shù)的超參數(shù)數(shù)值接近于無(wú)窮大,導(dǎo)致后驗(yàn)分布可以將相應(yīng)的權(quán)重值設(shè)置為零,而其余對(duì)應(yīng)非零權(quán)重值的數(shù)據(jù)稱(chēng)為關(guān)聯(lián)向量。這種算法使本研究可以為多個(gè)輸出變量選擇相同的輸入變量集合,簡(jiǎn)化了建模結(jié)構(gòu)。具體的回歸函數(shù)為
yh=Φ(x)βh+h
(5)
其中:yh表示第h列的輸出向量;βh表示第h列的權(quán)值參數(shù);h表示均值為0、協(xié)方差為σ2的高斯白噪聲;Φ(x)是以輸入向量為基礎(chǔ)的函數(shù),其函數(shù)形式為
Φ(x)=[1φ(x,x1)φ(x,x2) …φ(x,xl)]′
(6)
φ表示用于比較任意兩組輸入變量特性的函數(shù),其中Gaussian、Polynomial和cubic等核函數(shù)都可以作為基本函數(shù)。本研究以Gaussian核函數(shù)作為基本函數(shù)。
(7)
通過(guò)期望最大化算法(EM)對(duì)參數(shù)進(jìn)行識(shí)別。該算法迭代兩步:第一步計(jì)算每個(gè)變量中映射函數(shù)的概率,第二步使用前一步中計(jì)算的概率估計(jì)每個(gè)映射函數(shù)的參數(shù)。
(8)
(9)
(10)
(11)
(12)
協(xié)同訓(xùn)練方法作為半監(jiān)督學(xué)習(xí)中最常見(jiàn)的方法之一[18],它能夠?qū)?biāo)記數(shù)據(jù)均分為兩組,并同步對(duì)兩組數(shù)據(jù)集用不同種類(lèi)的回歸方法進(jìn)行互不影響的訓(xùn)練和建模,提高了回歸模型的獨(dú)立性和多樣性。此外,由兩個(gè)相互獨(dú)立的訓(xùn)練集合對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行評(píng)價(jià)和選取,減少了不合格未標(biāo)記數(shù)據(jù)的選入,提高了模型的精度。然而,軟測(cè)量模型在經(jīng)過(guò)長(zhǎng)時(shí)間的運(yùn)行后,預(yù)測(cè)性能會(huì)下降。為了解決這一問(wèn)題,本研究提出一種集成自適應(yīng)方法,將移動(dòng)窗口法與卡爾曼濾波結(jié)合,同時(shí)對(duì)模型的結(jié)構(gòu)和參數(shù)更新?;趨f(xié)同訓(xùn)練的集成自適應(yīng)多輸出軟測(cè)量模型的框架圖如圖1所示。
圖1 基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出模型框架圖
本研究以多輸出的高斯過(guò)程回歸和相關(guān)向量機(jī)作為回歸方法,構(gòu)建基于協(xié)同訓(xùn)練的集成自適應(yīng)異構(gòu)多輸出軟測(cè)量模型。半監(jiān)督學(xué)習(xí)方法的核心是利用未標(biāo)記數(shù)據(jù)所攜帶的數(shù)據(jù)信息,實(shí)現(xiàn)對(duì)預(yù)測(cè)模型的改進(jìn)和優(yōu)化。為了選擇出最合適的未標(biāo)記數(shù)據(jù),文中以文獻(xiàn)[19]在協(xié)同訓(xùn)練回歸(Coreg)中提出的置信度評(píng)價(jià)標(biāo)準(zhǔn)作為依據(jù),將置信度的計(jì)算公式也擴(kuò)展到多輸出系統(tǒng):
(13)
此外,多輸出預(yù)測(cè)模型考慮輸出變量之間的相關(guān)性,通過(guò)一次建模實(shí)現(xiàn)對(duì)多個(gè)輸出變量的同步預(yù)測(cè),有效地提高模型的預(yù)測(cè)效率。高斯過(guò)程回歸和相關(guān)向量機(jī)作為兩種不同的非線(xiàn)性回歸方法,無(wú)論是訓(xùn)練還是建模過(guò)程,都保證了模型之間的獨(dú)立性,增強(qiáng)了預(yù)測(cè)模型的泛化能力。最后,集成自適應(yīng)方法對(duì)預(yù)測(cè)模型的結(jié)構(gòu)和參數(shù)同步更新,互相補(bǔ)充,模型的自適應(yīng)性可以得到顯著地提升。
移動(dòng)窗口通過(guò)更新建模數(shù)據(jù)實(shí)現(xiàn)對(duì)模型結(jié)構(gòu)的更新:
(14)
基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出模型的具體步驟如下:
步驟1 將收集到的數(shù)據(jù)分為標(biāo)記數(shù)據(jù)集合L={(x1,y1),(x2,y2),…,(xl,yl)}和未標(biāo)記數(shù)據(jù)集合U={x1,x2,…,xu}。將標(biāo)記數(shù)據(jù)集合L編號(hào)后,利用奇偶分組的方法均分為L(zhǎng)1和L2(若l為奇數(shù),L1={(x1,y1),(x3,y3),…,(xl,yl)},L2={(x2,y2),(x4,y4),…,(xl-1,yl-1) };若l為偶數(shù),L1={(x1,y1),(x3,y3),…,(xl-1,yl-1) },L2={(x2,y2),(x4,y4),…,(xl,yl) }) ,再利用高斯過(guò)程回歸和相關(guān)向量機(jī)對(duì)L1和L2兩組標(biāo)記數(shù)據(jù)集合構(gòu)建回歸模型f1和f2。不同于隨機(jī)分組和前后均分的方法,奇偶分組的方法雖然破壞了數(shù)據(jù)的連續(xù)性,但分兩組標(biāo)記數(shù)據(jù)能夠包含全局信息,有利于建立更準(zhǔn)確的預(yù)測(cè)模型。用兩種不同類(lèi)型的回歸方法,可以提高訓(xùn)練和建模過(guò)程中模型的多樣性,減少不適合未標(biāo)記數(shù)據(jù)的選入。另一方面,多類(lèi)型的回歸方法,使模型的泛化能力得到提高,適用于更廣泛的工業(yè)數(shù)據(jù)。
步驟3 建立預(yù)測(cè)模型。對(duì)最終的標(biāo)記數(shù)據(jù)集合L1和L2分別用高斯過(guò)程回歸和相關(guān)向量機(jī)構(gòu)建預(yù)測(cè)模型h1和h2。兩個(gè)回歸模型相較于之前的回歸模型f1和f2,由于標(biāo)記數(shù)據(jù)組的數(shù)據(jù)數(shù)量和信息都得到了提高,模型的預(yù)測(cè)結(jié)果將更加準(zhǔn)確。
步驟4 由文中提出的集成自適應(yīng)方法,對(duì)模型進(jìn)行動(dòng)態(tài)優(yōu)化。利用移動(dòng)窗口法對(duì)建模數(shù)據(jù)實(shí)現(xiàn)動(dòng)態(tài)更新,以達(dá)到更新模型結(jié)構(gòu)的效果。由于工業(yè)過(guò)程中,各階段數(shù)據(jù)的狀態(tài)是不同的,利用移動(dòng)窗口法可以實(shí)現(xiàn)建模數(shù)據(jù)隨時(shí)間的變化而變化,模型的結(jié)構(gòu)也因?yàn)閿?shù)據(jù)信息的變化而更新。同時(shí),在每一步的預(yù)測(cè)過(guò)程中,利用卡爾曼濾波中的卡爾曼增益系數(shù),對(duì)預(yù)測(cè)模型h1和h2得到的預(yù)測(cè)結(jié)果加權(quán),實(shí)現(xiàn)對(duì)模型參數(shù)的更新,得到最終的預(yù)測(cè)結(jié)果??柭鲆嫦禂?shù)為Gk,由h1和h2計(jì)算得到的預(yù)測(cè)結(jié)果分別為h1(x)和h2(x)。
(15)
(16)
(17)
卡爾曼增益系數(shù)是由上一時(shí)刻的Ri(i=1,2)決定,因此。利用卡爾曼增益系數(shù)對(duì)預(yù)測(cè)模型h1和h2得到的預(yù)測(cè)結(jié)果加權(quán)有效地保留了上一時(shí)刻的預(yù)測(cè)信息,使得模型預(yù)測(cè)結(jié)果具有連續(xù)性。
本節(jié)分析和討論基于協(xié)同訓(xùn)練的集成高斯過(guò)程回歸-相關(guān)向量機(jī)模型(Co-training GPR-RVM)的優(yōu)點(diǎn)和缺點(diǎn)。首先,在數(shù)據(jù)的預(yù)處理階段,奇偶分組的方法將數(shù)據(jù)編號(hào)后按照奇偶屬性將標(biāo)記數(shù)據(jù)均分為兩組,雖然這種分組方法破壞了標(biāo)記數(shù)據(jù)的連續(xù)性,但是分組得到的兩組標(biāo)記數(shù)據(jù)集合都可以包含原始數(shù)據(jù)的全局信息,使得建立的訓(xùn)練模型更準(zhǔn)確。在模型結(jié)構(gòu)上,協(xié)同訓(xùn)練方法屬于半監(jiān)督學(xué)習(xí)方法,不同于監(jiān)督學(xué)習(xí)方法,半監(jiān)督學(xué)習(xí)方法可以充分使用未標(biāo)記數(shù)據(jù)來(lái)優(yōu)化模型,提高模型的預(yù)測(cè)性能。然而,半監(jiān)督學(xué)習(xí)方法需要對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行評(píng)價(jià)和選擇,因此,模型結(jié)構(gòu)變得更復(fù)雜。此外,文中提出的Co-training GPR-RVM模型通過(guò)應(yīng)用高斯過(guò)程回歸(GPR)和相關(guān)向量機(jī)(RVM)兩種相互獨(dú)立的非線(xiàn)性回歸算法建立和優(yōu)化模型,極大地提高了模型的多樣性,能夠使模型適用于不同的數(shù)據(jù)預(yù)測(cè)問(wèn)題。最后,文中提出的集成自適應(yīng)方法分別對(duì)模型的結(jié)構(gòu)和參數(shù)進(jìn)行了更新。在模型的在線(xiàn)應(yīng)用中,可以更全面地提高模型的自適應(yīng)能力,避免模型的衰退。
然而,Co-training GPR-RVM模型也存在一些缺點(diǎn)。相較于監(jiān)督學(xué)習(xí)模型,協(xié)同訓(xùn)練模型因?yàn)樵黾恿宋礃?biāo)記數(shù)據(jù)的評(píng)價(jià)和選擇過(guò)程,使得模型結(jié)構(gòu)更復(fù)雜,預(yù)測(cè)的效率更低。其次,不難發(fā)現(xiàn)的是模型在初始的預(yù)測(cè)階段,預(yù)測(cè)表現(xiàn)較差,這主要是因?yàn)樵谀P陀?xùn)練初期,初始的卡爾曼增益系數(shù)較差,需要通過(guò)不斷地調(diào)試來(lái)優(yōu)化;為解決這一問(wèn)題,可以通過(guò)不斷地調(diào)試,尋找最佳的初始卡爾曼增益系數(shù)。最后,集成自適應(yīng)方法容易受到數(shù)據(jù)中個(gè)別異常值的影響,從而影響模型整體的預(yù)測(cè)表現(xiàn)。
本研究以加州大學(xué)數(shù)據(jù)庫(kù)(UCI)所收集到的污水?dāng)?shù)據(jù)為例對(duì)該方法的有效性進(jìn)行驗(yàn)證,以證明基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出模型能夠?qū)崿F(xiàn)對(duì)污水處理過(guò)程中難測(cè)量變量的有效預(yù)測(cè)。模型預(yù)測(cè)的表現(xiàn)不僅通過(guò)圖中預(yù)測(cè)曲線(xiàn)和真實(shí)曲線(xiàn)的擬合來(lái)反映,還可以通過(guò)均方根誤差(RMSE)、多元相關(guān)系數(shù)(RR)、對(duì)角線(xiàn)均方根平方和(RMSSD)以及相關(guān)系數(shù)(R)來(lái)評(píng)價(jià);其中,RMSE和RR是模型對(duì)各個(gè)變量的評(píng)價(jià)指標(biāo),RMMSD和R是模型整體的評(píng)價(jià)指標(biāo)。
(18)
(19)
(20)
(21)
UCI所收集的數(shù)據(jù)來(lái)自于一個(gè)采用活性污泥處理工藝的污水廠(chǎng),該廠(chǎng)的污泥處理系統(tǒng)主要由預(yù)處理池、初沉池、曝氣罐、二沉池和污泥回流5部分組成,如圖2所示。該污水廠(chǎng)的污水處理量為3.5×104m3/d,主要對(duì)污水進(jìn)行去氮除磷處理。在處理過(guò)程中,由于需要大量的微生物對(duì)化學(xué)反應(yīng)進(jìn)行催化、對(duì)磷酸鹽進(jìn)行吸附,隨著生化反應(yīng)的進(jìn)行,微生物質(zhì)量和種類(lèi)數(shù)量會(huì)發(fā)生變化。因此,需要對(duì)整個(gè)污水處理的過(guò)程進(jìn)行全面的監(jiān)測(cè)[20]。
圖2 污水處理過(guò)程原理圖
由于該污水廠(chǎng)的結(jié)構(gòu)相對(duì)簡(jiǎn)易,監(jiān)測(cè)設(shè)備不足,UCI所收集的數(shù)據(jù)共包含38個(gè)變量,采樣周期為1 d,共400 d數(shù)據(jù)。其中前200 d的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)構(gòu)建模型,后200 d的數(shù)據(jù)用來(lái)檢驗(yàn)?zāi)P偷念A(yù)測(cè)性能。出水指標(biāo)化學(xué)需氧量(COD)、生物需氧量(BOD)和回流出水指標(biāo)RD-COD、RD-BOD在整個(gè)過(guò)程中最難監(jiān)測(cè),將它們作為輸出變量對(duì)軟測(cè)量模型的預(yù)測(cè)性能進(jìn)行驗(yàn)證。根據(jù)對(duì)活性污泥處理工藝的機(jī)理分析,將各個(gè)階段其他變量,如懸浮物濃度(SS)、揮發(fā)性懸浮物濃度(SSV)、pH值等作為輸入變量,共計(jì)34個(gè),詳細(xì)的變量介紹可參看文獻(xiàn)[21]。
為了驗(yàn)證模型的預(yù)測(cè)性能,文中在相同的數(shù)據(jù)及條件下,比較了以下4種模型的預(yù)測(cè)性能:監(jiān)督學(xué)習(xí)的異構(gòu)高斯過(guò)程回歸-相關(guān)向量機(jī)模型GPR-RVM;協(xié)同訓(xùn)練的高斯過(guò)程回歸模型Co-training GPR;協(xié)同訓(xùn)練的相關(guān)向量機(jī)模型Co-training RVM;協(xié)同訓(xùn)練的異構(gòu)高斯過(guò)程回歸-相關(guān)向量機(jī)模型Co-training GPR-RVM。
此外,為了驗(yàn)證文中提出的集成自適應(yīng)方法,分別對(duì)4種模型進(jìn)行集成自適應(yīng)處理后再次進(jìn)行對(duì)比。其中,未進(jìn)行集成自適應(yīng)處理的模型被稱(chēng)為離線(xiàn)模型,經(jīng)過(guò)集成自適應(yīng)處理的模型被稱(chēng)為在線(xiàn)模型。
各個(gè)模型預(yù)測(cè)結(jié)果見(jiàn)表1。首先,比較在集成自適應(yīng)方法下4種模型的預(yù)測(cè)結(jié)果,Co-training GPR-RVM模型的RMSSD值比GPR-RVM模型的RMSSD值減小了17.25%,這主要是因?yàn)閰f(xié)同訓(xùn)練方法能充分使用未標(biāo)記數(shù)據(jù)優(yōu)化模型,提高了模型的預(yù)測(cè)性能;此外,Co-training GPR-RVM模型的RMSSD值是最小的,為9.986 5,這說(shuō)明了在集成自適應(yīng)方法下,異構(gòu)多輸出軟測(cè)量模型的預(yù)測(cè)效果整體上優(yōu)于同構(gòu)模型。但是也不難發(fā)現(xiàn),Co-trai-ning GPR-RVM模型對(duì)于個(gè)別輸出變量的預(yù)測(cè)效果并不是最佳的,主要的原因是在訓(xùn)練學(xué)習(xí)過(guò)程中,未標(biāo)記數(shù)據(jù)的置信度是在多輸出系統(tǒng)下計(jì)算得到,輸出變量間將會(huì)存在相互的影響,最終影響模型對(duì)個(gè)別輸出變量的預(yù)測(cè)表現(xiàn)。此外,為了更直觀(guān)地反映異構(gòu)模型和同構(gòu)模型的預(yù)測(cè)表現(xiàn),文中給出了集成自適應(yīng)條件下3種協(xié)同訓(xùn)練模型預(yù)測(cè)結(jié)果的多元相關(guān)系數(shù)(RR)的條形圖,如圖3所示。
表1 模型預(yù)測(cè)結(jié)果對(duì)比
圖3 多元相關(guān)系數(shù)直方圖
由圖3可知,Co-training GPR-RVM模型對(duì)于每一個(gè)輸出變量的相關(guān)系數(shù)基本都是最大的,尤其是BOD和COD兩個(gè)重要出水指標(biāo)的,分別為0.899 2和0.872 8,這可以為污水處理廠(chǎng)在最終排污時(shí),污水指標(biāo)是否達(dá)到安全指標(biāo)提供一個(gè)可靠的監(jiān)測(cè)結(jié)果。
為了驗(yàn)證集成自適應(yīng)方法對(duì)模型預(yù)測(cè)性能的影響,在相同的回歸方法下,比較在線(xiàn)模型與離線(xiàn)模型的RMSSD值可知,集成自適應(yīng)方法下模型的RMSSD都有顯著地降低,相較于離線(xiàn)的GPR-RVM、Co-training GPR、Co-training RVM 和Co-training GPR-RVM模型 的RMSSD分別減小了12.78%,2.18%,8.14%和17.72%,尤其是Co-training GPR-RVM模型的優(yōu)化效果最為明顯。這說(shuō)明隨著時(shí)間的推移,集成自適應(yīng)方法能夠保證模型性能維持在一個(gè)令人滿(mǎn)意的狀態(tài)。
Co-training GPR-RVM模型在集成自適應(yīng)方法和離線(xiàn)方法下的預(yù)測(cè)結(jié)果如圖4所示。
圖4 模型的預(yù)測(cè)曲線(xiàn)
由圖4可見(jiàn),兩種模型均表現(xiàn)出良好的跟蹤性能,但對(duì)于峰值和谷值點(diǎn)的擬合較差。相較于離線(xiàn)模型,集成自適應(yīng)模型對(duì)峰值與谷值點(diǎn)的跟蹤較好,這主要是因?yàn)榧勺赃m應(yīng)模型會(huì)根據(jù)上一時(shí)刻的預(yù)測(cè)誤差對(duì)這一時(shí)刻的模型系數(shù)進(jìn)行更新。對(duì)峰值與谷值點(diǎn)實(shí)現(xiàn)更好的跟蹤,可以對(duì)污水處理過(guò)程中的故障進(jìn)行及時(shí)地判斷和反饋,減少不必要的損失。
針對(duì)UCI收集的采用活性污泥處理工藝的污水廠(chǎng)的數(shù)據(jù),本研究提出的基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出模型實(shí)現(xiàn)了對(duì)出水指標(biāo) COD、BOD和回流出水指標(biāo)RD-COD、RD-BOD的有效預(yù)測(cè)。主要原因是:
首先,該污水廠(chǎng)由于結(jié)構(gòu)簡(jiǎn)易、監(jiān)測(cè)設(shè)備不足,導(dǎo)致數(shù)據(jù)量較小,嚴(yán)重影響預(yù)測(cè)模型的建立。文中采用協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)方法對(duì)標(biāo)記數(shù)據(jù)集合進(jìn)行擴(kuò)充,并且將非線(xiàn)性回歸算法GPR和RVM結(jié)合,建立了異構(gòu)的軟測(cè)量模型。
其次,由于污水處理是一個(gè)復(fù)雜且多變的工業(yè)過(guò)程,離線(xiàn)的軟測(cè)量模型無(wú)法滿(mǎn)足預(yù)測(cè)精度的要求。因此,文中提出的集成自適應(yīng)方法,利用移動(dòng)窗口和卡爾曼濾波同步對(duì)模型的結(jié)構(gòu)和參數(shù)進(jìn)行實(shí)時(shí)優(yōu)化,保證了模型的預(yù)測(cè)精度。
最后,在污水處理過(guò)程中,難測(cè)量變量間存在相關(guān)性,本研究將軟測(cè)量模型推廣到多輸出系統(tǒng),實(shí)現(xiàn)了對(duì)多個(gè)變量的同步預(yù)測(cè);不僅提高了模型的預(yù)測(cè)精度,模型的預(yù)測(cè)效率也得到提升。
本研究以半監(jiān)督學(xué)習(xí)方法為出發(fā)點(diǎn),提出了一種基于協(xié)同訓(xùn)練的集成自適應(yīng)GPR-RVM多輸出軟測(cè)量模型,并以通過(guò)污水處理過(guò)程中的重要出水指標(biāo)變量(COD和BOD)驗(yàn)證了異構(gòu)的半監(jiān)督軟測(cè)量模型的預(yù)測(cè)性能和集成自適應(yīng)方法對(duì)模型的優(yōu)化能力。最后以實(shí)際污水廠(chǎng)為對(duì)象進(jìn)行了實(shí)驗(yàn),對(duì)模型的預(yù)測(cè)性能和自適應(yīng)性進(jìn)行驗(yàn)證,結(jié)果表明該模型預(yù)測(cè)表現(xiàn)優(yōu)于同條件下同構(gòu)的半監(jiān)督軟測(cè)量模型,模型的自適應(yīng)性在集成自適應(yīng)方法優(yōu)化下也得到了顯著地提升。