陳如清 ,李嘉春 ,俞金壽
?
基于通勤時間距離的LE污水處理過程故障檢測方法
陳如清1*,李嘉春2,俞金壽3
(1.嘉興學(xué)院機電工程學(xué)院,浙江 嘉興 314001;2.嘉興學(xué)院數(shù)理與信息工程學(xué)院,浙江 嘉興 314001;3.華東理工大學(xué)自動化研究所,上海 200237)
污水處理過程的性能監(jiān)測與故障診斷,對于保障污水處理過程正常運行及保證出水質(zhì)量達標(biāo)具有重要意義.針對污水處理過程數(shù)據(jù)具有非線性、不確定性及且易受隨機噪聲影響等特征,提出了一種新的基于通勤時間距離的LE流形學(xué)習(xí)算法實現(xiàn)對復(fù)雜過程數(shù)據(jù)的特征提取.改進算法采用通勤時間距離方式進行樣本間的相似度衡量并構(gòu)造鄰域圖,理論分析和仿真測試表明改進算法可有效克服基本LE算法的鄰域參數(shù)敏感問題并提高了算法的魯棒性.將基于通勤時間距離的LE流形學(xué)習(xí)算法用于污水處理過程故障檢測建模,在低維流形子空間構(gòu)造綜合統(tǒng)計量進行過程監(jiān)測.應(yīng)用結(jié)果表明,與基于PCA方法和LE方法的故障檢測模型相比,基于改進算法的故障檢測模型可及時探測故障的發(fā)生,具有較低的故障漏報率和故障誤報率.為污水處理等復(fù)雜工業(yè)過程的故障監(jiān)測提供了一種可行的解決方案.
污水生化處理過程;故障檢測建模;通勤時間距離;非線性噪聲數(shù)據(jù);LE算法
隨著生活污水和工業(yè)廢水排放量的持續(xù)增加,水資源污染日益嚴(yán)重,城鎮(zhèn)污水處理及再生利用是減少環(huán)境污染和緩解供水緊張的有效途徑.目前污水處理多采用生化法,是工業(yè)和城市污水處理的最主要方式[1].由于處理過程工藝復(fù)雜且各種影響因素存在很大的不確定性,系統(tǒng)運行中故障時有發(fā)生[2-3].考慮到污水處理過程具有工作連貫性及不可替代性等特征,一旦發(fā)生故障,便會造成嚴(yán)重后果和巨大損失.從控制理論角度看,污水處理過程是一個外界干擾強烈、時變性強、耦合性強的復(fù)雜非線性動態(tài)過程[4-5].污水處理過程的性能監(jiān)測與故障診斷,對于保障污水處理過程正常運行、降低運行維護成本及保證出水質(zhì)量達標(biāo),均具有重要意義和科學(xué)價值.
針對污水處理過程性能監(jiān)測及故障診斷問題,目前已有些研究.人工神經(jīng)網(wǎng)絡(luò)、模糊控制和專家系統(tǒng)等人工智能方法常被用于污水處理過程建模、控制與診斷.如Comas等[6]將離線、在線及啟發(fā)式知識有機融合,研發(fā)了用于檢測和解決活性污泥抗絮凝問題的專家系統(tǒng),文獻[7-8]建立了基于模糊神經(jīng)網(wǎng)絡(luò)的污水處理過程故障監(jiān)測模型.都取得了較好的研究成果.由于污水生化處理過程屬于典型的流程工業(yè),多變量統(tǒng)計過程監(jiān)測方法也常用于解決污水處理過程性能監(jiān)測及故障診斷問題[9].如Baklouti等[10]提出了一種基于改進粒子濾波算法的統(tǒng)計過程監(jiān)測方法.Liu等[11]提出了一種基于變分貝葉斯的PCA方法,用于污水處理廠的過程監(jiān)測與故障診斷. Li等[12]通過引入選擇性集成算法并提出一種改進的ICA方法,用于建立污水處理等非高斯過程的監(jiān)控模型.Smamuelsson等[13]將基于高斯過程回歸的機器學(xué)習(xí)方法,用于解決污水處理過程性能監(jiān)測及故障診斷問題.人工智能方法為工業(yè)過程的性能監(jiān)測與故障診斷問題提供了一類有效的解決途徑,現(xiàn)已取得了較好的成效.但針對強外界干擾、強時變性和強耦合性的復(fù)雜污水處理過程等建模問題,仍存在一定的局限性.如人工神經(jīng)網(wǎng)絡(luò)建模方法存在局部極小值、計算復(fù)雜度大和經(jīng)驗知識缺乏等問題.對于復(fù)雜非線性系統(tǒng),模糊控制方法存在模糊規(guī)則和隸屬函數(shù)難以生成、計算時間長和規(guī)則“組合爆炸”等問題,導(dǎo)致非線性系統(tǒng)的故障監(jiān)測效果不理想.專家系統(tǒng)建模方法存在專家知識“瓶頸”、推理方法不確定性和系統(tǒng)自學(xué)習(xí)與完善能力不強等不足.此外,現(xiàn)有多變量統(tǒng)計方法大多針對過程單一限制條件問題,而面對更為復(fù)雜工況(即若干種約束條件的組合)下的過程監(jiān)控問題,現(xiàn)有研究還不夠成熟.
作為一種新的機器學(xué)習(xí)和統(tǒng)計分析方法,流形學(xué)習(xí)(Manifold learning)基于局部線性和全局非線性的假設(shè),能有效挖掘非線性高維數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu),在數(shù)據(jù)特征提取和特征選擇等方面已得到成功應(yīng)用[14-15].拉普拉斯特征映射算法(Laplacian Eigenmap,LE)是一種典型流形學(xué)習(xí)方法,以保持流形局部近鄰信息為目標(biāo),通過Laplacian-Beltrami算子實現(xiàn)高維向量在低維空間的嵌入[16-17].與傳統(tǒng)過程監(jiān)測方法相比,LE等流形學(xué)習(xí)方法在特征提取過程中能較好保留原始數(shù)據(jù)的非線性和動態(tài)特性,準(zhǔn)確揭示過程數(shù)據(jù)的內(nèi)在變化規(guī)律[18].適用于對污水處理等復(fù)雜工業(yè)過程的性能監(jiān)測及故障診斷[19-20].
本文針對污水處理過程的運行特性和數(shù)據(jù)特征,引入流形學(xué)習(xí)中的一種經(jīng)典算法-LE算法并予以改良,用于解決污水處理過程的故障檢測建模問題.為克服現(xiàn)有LE算法對鄰域參數(shù)的敏感性并改善基本LE算法的魯棒性,在現(xiàn)有算法中引入基于通勤時間距離(Commute time distance,CTD)的相似性度量方法并提出一種改進的CTD-LE算法,仿真分析表明改進算法有效提高了基本LE算法的特征提取性能.將改進的CTD-LE算法用于構(gòu)建污水處理過程的故障檢測模型,實驗結(jié)果驗證了該故障檢測方法的有效性.
對于多維空間中的任意數(shù)據(jù)點x和x,相似度w通??啥x為:
式中:為相似度參數(shù),表示數(shù)據(jù)點x為x的個近鄰點之一,為鄰?N()域大小參數(shù).
已知數(shù)據(jù)集=(x)(=1,…,),根據(jù)K-最近鄰法得到近鄰圖= (,,),其中是節(jié)點即==(x)(i=1,…,n),是連接節(jié)點的邊,=(w)×n為近鄰圖的鄰接矩陣.
近鄰圖的Markov轉(zhuǎn)移概率矩陣為:
=(p)×n=-1(3)
由此便得到近鄰圖G的隨機游走模型[21].
在近鄰圖的基礎(chǔ)上定義Laplace矩陣=-,包含了近鄰圖中的梯度信息,即:
數(shù)據(jù)點x和x間的通勤時間距離可定義為[22]:
綜上所述,起源于概率論中的隨機游走(或隨機漫步)理論,數(shù)據(jù)點間的通勤時間距離描述了數(shù)據(jù)點在特征空間的差異程度[23-24].與其他數(shù)據(jù)的相似性度量方法(如歐氏距離、測地距離等)相比,通勤時間距離具有以下特征:
1)通勤時間距離以概率形式綜合考慮到兩個節(jié)點間的所有連接路徑,與傳統(tǒng)的歐氏距離或測地距離相比,一方面能更好地描述節(jié)點在近鄰圖上的分布情況;另一方面具有更強的魯棒性,減少噪聲帶來的負(fù)面影響.
2)通勤時間距離計算時只需完成一次Laplace矩陣的廣義逆矩陣的求解,具有較低的計算復(fù)雜度.
基于譜圖理論,Belkin和Niyogi等人提出了拉普拉斯特征映射算法.其主要思想是以保持流形局部近鄰信息為目標(biāo),通過Laplacian-Beltrami算子來實現(xiàn)高維向量在低維空間的嵌入,使高維原始空間中鄰近的點映射到低維特征空間后距離依然鄰近,揭示高維數(shù)據(jù)的內(nèi)在流形結(jié)構(gòu).
設(shè)高維數(shù)據(jù)集=(1,2,…,x),∈R,為高維數(shù)據(jù)集的維數(shù);低維嵌入=(1,2,…,y),∈R,表示目標(biāo)低維空間的維數(shù).LE算法的計算過程可描述如下:
1)構(gòu)造近鄰圖
產(chǎn)生一個包含全部數(shù)據(jù)點的近鄰圖,可采用超球標(biāo)準(zhǔn)或者近鄰標(biāo)準(zhǔn)來判斷近鄰點.
2)近鄰點邊賦權(quán)
設(shè)置近鄰點之間的權(quán)值W,構(gòu)造鄰接權(quán)矩陣.賦權(quán)方式可采用簡單賦權(quán)法或熱核函數(shù)法.其中,簡單賦權(quán)法為:若x與x鄰接,則相應(yīng)的鄰接權(quán)值W設(shè)置為1,否者鄰接權(quán)值W設(shè)置為0.熱核函數(shù)法為:若x與x鄰接,則相應(yīng)的鄰接權(quán)值W如式(6)所示,其中為熱核參數(shù);若x與x不鄰接,則鄰接權(quán)值W為0.
3)特征映射
對于以上構(gòu)造的近鄰圖,如果是連通圖,則求解式(7)所示的廣義特征分解問題.
(7)
上述計算過程可知,拉普拉斯特征映射算法的特點是將維數(shù)簡約的問題轉(zhuǎn)化為特征值的求解問題,無需進行迭代計算;整個求解過程簡單,運算速度快.適用于基于數(shù)據(jù)驅(qū)動的故障檢測與診斷等模式識別領(lǐng)域.
作為一種經(jīng)典的流形學(xué)習(xí)算法,LE算法較好地解決了非線性維數(shù)約簡問題,有效挖掘了非線性數(shù)據(jù)的內(nèi)部結(jié)構(gòu),在數(shù)據(jù)降維和特征選取方面已獲得成功應(yīng)用.但用于復(fù)雜高維數(shù)據(jù)降維時,也存在以下兩個問題:1)鄰域參數(shù)的敏感性問題.基本LE算法是采用歐氏距離方式進行樣本間的鄰域度量,理論分析表明歐氏距離方式僅在較小的鄰域大小參數(shù)范圍內(nèi)才能準(zhǔn)確學(xué)習(xí)和揭示原始高維數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu).鄰域參數(shù)若取值過小,在構(gòu)造近鄰圖G時易出現(xiàn)不連通或孤立的局部區(qū)域,難以真實反映原始數(shù)據(jù)集的全局特性.反之,鄰域參數(shù)若取值過大,則會出現(xiàn)“短路”現(xiàn)象,破壞了高維原始數(shù)據(jù)流形的拓?fù)湫?鄰域大小的選擇是LE算法成功的關(guān)鍵因素.2)算法的魯棒性問題.復(fù)雜情況下原始高維數(shù)據(jù)集中往往包含一定量的噪聲數(shù)據(jù),基于歐氏距離方式LE算法在構(gòu)造局部鄰域關(guān)系時不可避免地包含有噪聲點,從而加大了樣本鄰域?qū)颖军c的擬合誤差,降低了原始高維數(shù)據(jù)在低維空間的重構(gòu)精度.如何克服LE算法對鄰域參數(shù)的敏感性和提高算法的魯棒性能,是LE流形學(xué)習(xí)算法研究的重點問題.
針對LE算法存在的以上兩個方面不足,考慮在現(xiàn)有LE算法中引入通勤時間距離進行數(shù)據(jù)的相似性度量并提出一種改進的CTD-LE算法.改進算法在構(gòu)造近鄰圖G時采用通勤時間距離方式進行樣本間的相似度衡量,以降低LE算法對鄰域參數(shù)的敏感性并提高LE算法的魯棒性能.
此外,基于數(shù)據(jù)驅(qū)動的故障檢測與診斷是一類典型的模式分類與識別問題,故障數(shù)據(jù)大多屬于多流形數(shù)據(jù).LE等流形學(xué)習(xí)算法在用于對復(fù)雜高維數(shù)據(jù)降維時,為實現(xiàn)對多流形數(shù)據(jù)的有效分類,要求處于同一流形下的數(shù)據(jù)點之間的相似度盡量大或充分連通,處于不同流形下的數(shù)據(jù)點之間的相似度盡量小或避免連通.因此,在構(gòu)造近鄰圖G時要盡量減少處于不同流形下數(shù)據(jù)點間的連接邊,以準(zhǔn)確描述數(shù)據(jù)的分類結(jié)構(gòu).采用通勤時間距離方式構(gòu)造近鄰圖,近鄰圖中的“短路”邊和處于不同流形下數(shù)據(jù)點間的連接邊具有較大的通勤時間距離.因此,可根據(jù)通勤時間距離判別和去除近鄰圖中可能存在的“短路”邊和處于不同流形下數(shù)據(jù)點間的連接邊,降低流形間的連通性.
設(shè)高維數(shù)據(jù)集=(1,2,…,x),∈R,為高維數(shù)據(jù)集維數(shù);低維嵌入=(1,2,…,y),∈R,為低維目標(biāo)子空間維數(shù);為用于構(gòu)造近鄰圖的鄰域參數(shù);'為計算通勤時間距離的鄰域參數(shù);為相似度參數(shù);為用于判斷“短路”和連接邊的閾值.改進的CTD-LE算法的運算過程可描述如下:
1)對于高維數(shù)據(jù)集產(chǎn)生近鄰圖.參照基本LE算法,基于歐氏距離方式并采用k-最近鄰法,計算每個數(shù)據(jù)點的近鄰點,構(gòu)造近鄰圖.若數(shù)據(jù)點x是x的近鄰點,則用邊(,)連接,否則斷開.
2)計算通勤時間距離和基于CTD的最近鄰點集合.根據(jù)鄰域參數(shù)k'和相似度參數(shù)得到近鄰圖',對于任一數(shù)據(jù)點x,根據(jù)CTD的定義,依次計算鄰接矩陣、對角矩陣、Laplace矩陣及廣義逆矩陣+,得到通勤時間距離c=(c(,))×n.
3)判斷并刪除近鄰圖G中的“短路”邊和連接邊.若數(shù)據(jù)點x和x之間的通勤時間距離d(,)大于設(shè)定閾值,則認(rèn)為是“短路”邊或連接邊并從近鄰圖G中予以刪除.
4)計算高維數(shù)據(jù)集=(1,2,…,x)的低維嵌入=(1,2,…,y).如果近鄰圖G是連通圖,按式(7)和式(8)求解廣義特征分解問題,計算拉普拉斯算子的廣義特征向量并得到數(shù)據(jù)的低維嵌入.
與基本LE算法相比,改進的CTD-LE 算法涉及到4個參數(shù),即、'、和.參數(shù)用于創(chuàng)建近鄰圖G以計算最短路徑距離,由于在“步驟3)”采用通勤時間距離方式判斷和刪除近鄰圖G中可能存在的“短路”邊和連接邊,故改進算法對鄰域參數(shù)不敏感.參數(shù)'用于創(chuàng)建近鄰圖G'并計算數(shù)據(jù)點間的通勤時間距離,由于通勤時間距離以概率形式綜合考慮到了兩個節(jié)點間所有的連接途徑,故受近鄰圖中“短路”邊的影響較小或可以接受'值的更大范圍波動.相似度參數(shù)用于計算數(shù)據(jù)點間的相似度,影響數(shù)據(jù)點之間的Markov轉(zhuǎn)移概率,為了賦予長連接邊較小的轉(zhuǎn)移概率或相似度值,通常取較小值(如=1).閾值用于識別并刪除近鄰圖中可能存在的“短路”邊以及盡可能多的不同流形數(shù)據(jù)點之間的連接邊.通常這兩類邊的通勤時間距離比其余正常邊的數(shù)值更大,本文根據(jù)所有通勤時間距離之間的差值選取值.
為驗證本文所提出改進CTD-LE算法的有效性,進行了仿真測試實驗.實驗過程中以O(shè)RL人臉數(shù)據(jù)庫為對象,采用基本LE算法和改進CTD-LE算法兩種方法分別進行人臉識別,考察算法的識別性能.ORL數(shù)據(jù)集是一個由劍橋大學(xué)AT&T實驗室所收集的人臉數(shù)據(jù)庫,包含了從1992年4月至1994年4月期間該實驗室的40位成員共400張面部圖像,圖像間的差異主要體現(xiàn)在光照條件、面部表情與細(xì)節(jié)等方面的變化.ORL等人臉數(shù)據(jù)庫現(xiàn)已作為標(biāo)準(zhǔn)數(shù)據(jù)庫用于對各種流形學(xué)習(xí)算法進行性能分析與測試,較長時期以來被國內(nèi)外學(xué)者廣泛采用并得到認(rèn)可.為了評估改進CTD-LE算法的性能,尤其是對改進前后算法的性能進行分析對比,本文也引入該通用數(shù)據(jù)庫作為測試對象.先將ORL原始圖片統(tǒng)一處理成32×32的分辨率,即原始數(shù)據(jù)維數(shù)=1024,再將每個人的10幅圖像生成規(guī)模為400的樣本集,從中隨機提取一定規(guī)模的訓(xùn)練樣本和測試樣本.仿真測試過程分為以下兩種情況進行:1)從預(yù)處理后的圖片中隨機選取每個人的3、4、5、6幅圖片作為訓(xùn)練數(shù)據(jù),剩余圖片作為測試數(shù)據(jù);2)在預(yù)處理后的圖片中添加比例為10%的隨機位置像素噪聲,再從中隨機選取每個人的3、4、5、6幅圖片作為訓(xùn)練數(shù)據(jù),剩余圖片作為測試數(shù)據(jù).
LE算法和改進CTD-LE算法的主要參數(shù)設(shè)置為:近鄰點邊賦權(quán)方式均采用簡單賦權(quán)法;鄰域參數(shù)取值變化范圍為20~40(情況1)或30(情況2);計算通勤時間距離的鄰域參數(shù)'設(shè)置為30,相似度參數(shù)設(shè)置為1;值的設(shè)置,按通勤時間距離大小排序并計算相鄰距離的差值,將最大間隔值所對應(yīng)的通勤距離c(,)設(shè)置為閾值;對于鑒別維數(shù),現(xiàn)有流形學(xué)習(xí)方法的研究表明,隨著低維目標(biāo)空間維數(shù)由小到大緩慢增加,算法的特征提取性能呈上升趨勢;當(dāng)大到一定的數(shù)值后,算法的性能基本保持平穩(wěn).對于ORL人臉數(shù)據(jù)庫,實驗表明當(dāng)取值較小(如<30)時人臉識別率不高,而當(dāng)>65時算法的人臉識別率的提高不明顯.綜合權(quán)衡人臉識別率和算法的復(fù)雜度,鑒別維數(shù)設(shè)置為65.
表1為兩種算法在鄰域參數(shù)不同取值(取值范圍為20~40)下進行5次獨立實驗,取各次人臉識別率的平均值作為算法性能的評價指標(biāo).圖1為訓(xùn)練樣本數(shù)為4時兩種方法鄰域參數(shù)與人臉識別率的變化關(guān)系,可以看出:隨著取值從20到40的變化,LE算法人臉識別率的波動范圍為48%~81%,當(dāng)=32時人臉識別率最高為81%,平均人臉識別率僅為69.6%,表明鄰域參數(shù)對人臉識別率的影響較大;相比之下,CTD-LE算法人臉識別率的波動范圍為80%~ 91%,當(dāng)=30時人臉識別率最高為91%,平均人臉識別率達到85.0%,表明鄰域參數(shù)對人臉識別率的影響較小.
表1 不同鄰域參數(shù)下2種算法的人臉識別性能比較(%)
表1和圖1的仿真測試對比結(jié)果表明,改進的CTD-LE算法由于在構(gòu)造近鄰圖時采用通勤時間距離方式,可有效克服基本LE算法對鄰域參數(shù)的敏感性.針對不同的訓(xùn)練樣本數(shù)量,CTD-LE算法均具有較高的人臉識別率,鄰域參數(shù)取值的變化對算法的整體識別性能影響較小.相比之下,領(lǐng)域參數(shù)對基本LE算法的性能影響較大,隨著取值的不同算法的人臉識別率存在較大波動,整體識別性能次于CTD-LE算法.
表2為兩種算法在鄰域參數(shù)取值30且在測試樣本中添加10%的噪聲情況下進行5次獨立實驗,取各次人臉識別率的平均值作為算法性能的評價指標(biāo).仿真測試對比結(jié)果表明,與基本LE算法相比,CTD-LE算法的識別性能受噪聲影響更小,噪聲情況下仍能保持較高人臉識別率.主要是由于CTD-LE算法在維數(shù)簡約過程中通過計算數(shù)據(jù)間的通勤時間距離判斷和刪除了不同流形數(shù)據(jù)點之間的連接邊,一定程度上降低了不同流形間的連通性.改進的CTD-LE算法有效提高了基本LE算法的魯棒性.
圖1 兩種方法鄰域參數(shù)與人臉識別率的變化關(guān)系(訓(xùn)練樣本數(shù)為4)
表2 噪聲情況下2種算法的人臉識別性能比較(%)
將改進的CTD-LE算法用于對污水處理過程數(shù)據(jù)進行維數(shù)約簡,按式(9)構(gòu)造統(tǒng)計量2監(jiān)控低維流形子空間的變化情況并檢測污水處理過程的故障情況,即
2=yy(9)
基于改進CTD-LE算法的過程故障檢測過程主要由兩個階段構(gòu)成,其中“離線建?!彪A段包括步驟1)到步驟3),主要任務(wù)為將過程數(shù)據(jù)從高維原始空間映射到低維特征空間并構(gòu)造相應(yīng)的故障檢測統(tǒng)計量;“在線監(jiān)測”階段包括步驟4)到步驟6),主要任務(wù)為利用新的過程數(shù)據(jù)計算監(jiān)控統(tǒng)計量并進行過程監(jiān)測與故障預(yù)警.具體實現(xiàn)過程描述如下:
1)將采集到的正常情況下的污水處理過程數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,用于故障檢測建模;
2)利用CTD-LE算法對原始高維數(shù)據(jù)進行特征提取,將數(shù)據(jù)從高維原始空間映射到低維特征空間,計算拉普拉斯算子的廣義特征向量并獲取數(shù)據(jù)的低維嵌入;
3)對于低維嵌入,參照(9)式,在低維目標(biāo)子空間構(gòu)造2過程監(jiān)測統(tǒng)計量;
4)參照步驟1)將新的污水處理過程數(shù)據(jù)進行預(yù)處理;
5)根據(jù)CTD-LE算法的映射關(guān)系,將標(biāo)準(zhǔn)化處理后的過程數(shù)據(jù)投影至特征空間;
6)參照式(9)重新計算新樣本對應(yīng)的過程監(jiān)測統(tǒng)計量2并判斷是否超過正常運行狀態(tài)下參量的預(yù)設(shè)控制限,若超出則進行故障預(yù)警,表明出現(xiàn)故障.
為驗證本文所提出的改進CTD-LE算法及基于CTD-LE算法的污水處理過程故障檢測方法的有效性,本文引入一個廣泛采用的污水處理過程平臺-BSM1(Benchmark Simulation Model 1,BSM1)基準(zhǔn)模型,作為研究對象.
BSM1污水生化處理過程平臺是由國際水協(xié)會(IWA)和COST624工作小組于2002年聯(lián)合發(fā)布.BSM1采用污水處理過程常用的前置反硝化工藝,包括5個生化反應(yīng)池和1個二沉池.前2個生化反應(yīng)池為厭氧反應(yīng)池和缺氧反應(yīng)池,主要功能為利用反硝化反應(yīng)將硝酸鹽還原成氣態(tài)氮并從水中逸出;后3個反應(yīng)池為好氧池,主要功能為利用硝化反應(yīng)將氨氮氧化為硝酸鹽.流經(jīng)生化反應(yīng)池的污水,生物脫氮后一部分通過內(nèi)循環(huán)回流再進行脫氮;另外一部分流入二沉池沉淀.這里的二沉池假設(shè)分割為10層,上層為處理后的出水,下層的污泥一部分回流再利用,另外一部分當(dāng)剩余污泥處理.該仿真模型包含污水處理系統(tǒng)的裝置構(gòu)造、數(shù)學(xué)模型、進水負(fù)荷、測試軟件及評價標(biāo)準(zhǔn).
BSM1模型現(xiàn)已得到廣泛認(rèn)可,具有典型的非線性、非高斯和不確定性等特征,故障檢測是一個富有挑戰(zhàn)性的課題,常作為研究對象驗證污水處理過程各種控制策略和監(jiān)控算法的有效性[25].BSM1模型給出了污水處理過程的13種水質(zhì)參量和每日污水流量,水質(zhì)參量分為溶解性成分和顆粒性成分兩類.污水處理過程的14項參數(shù)具體描述如表3所示.
污水處理過程實際運行分析表明,在做飯和早晚洗漱時段屬于用水高峰,污水排放量較大;另外周末的污水排放量較工作日也有明顯地減少.根據(jù)居民日常用水的變化規(guī)律和污水處理過程典型變量的變化趨勢,數(shù)據(jù)預(yù)處理時考慮將原始過程數(shù)據(jù)與周末或工作日的典型流量值相減得到相應(yīng)的偏差值.對各變量的偏差值進行標(biāo)準(zhǔn)化處理后得到建模樣本數(shù)據(jù),為污水處理過程的故障檢測提供依據(jù).
表3 污水處理過程監(jiān)控變量
實際污水處理過程中,突變故障和漂移故障是兩類常見的傳感器故障.實驗過程中取樣了干燥天氣下的14d數(shù)據(jù),采樣間隔為15min,共獲取1344組觀測數(shù)據(jù)作為正常運行時的過程數(shù)據(jù).從1344組樣本數(shù)據(jù)中選取約2/3的數(shù)據(jù)即894組數(shù)據(jù)作為建模訓(xùn)練樣本,剩余450組數(shù)據(jù)作為測試樣本.為產(chǎn)生故障建模數(shù)據(jù),實驗過程中共模擬了1種正常運行工況和3種故障工況,具體描述如表4所示.
針對污水處理過程數(shù)據(jù)特征,構(gòu)建基于CTD- LE的故障檢測模型.為形成對比,引入PCA、基本LE和CTD-LE3種方法分別建立故障檢測模型.實驗過程中,利用正常運行下的過程數(shù)據(jù)對各個過程變量進行相關(guān)性分析,選擇常用且與污水處理過程運行工況密切關(guān)聯(lián)的14項易測過程參量用于過程監(jiān)控.采用上述3種故障檢測模型分別對污水處理過程的正常工況和3種典型故障工況下的過程數(shù)據(jù)進行測試.參數(shù)設(shè)置:近鄰點邊賦權(quán)方式均采用簡單賦權(quán)法;對于LE等流形學(xué)習(xí)算法鄰域參數(shù)的取值,目前并無統(tǒng)一規(guī)則,多通過具體實驗驗證的方式選擇.特征提取對象不同,取值范圍也不同,多次試驗表明取值為10較合適.將鄰域參數(shù)設(shè)置為10;計算通勤時間距離的鄰域參數(shù)'設(shè)置為10,與取值相同;相似度參數(shù)設(shè)置為1;特征空間維數(shù)參照現(xiàn)有方法設(shè)置.即用最大似然估計法進行污水處理過程數(shù)據(jù)的本征維數(shù)估計,通過構(gòu)建近鄰間距離的似然函數(shù)得到過程數(shù)據(jù)的本征維數(shù)估計值[15].最后設(shè)置為7;閾值取值方式同2.3節(jié);監(jiān)控統(tǒng)計量的置信度均為95%.
表5為4種工況下的故障檢測結(jié)果,性能參數(shù)為故障誤報率(即無故障情況下誤報警的樣本數(shù)與樣本總數(shù)之比值)和故障漏報率(即發(fā)生故障后沒有報警的樣本數(shù)與樣本總數(shù)之比值).S數(shù)值漂移故障情況下3種模型的故障檢測情況如圖2所示.
表4 4種污水處理過程故障類型
由表5和圖2的故障檢測結(jié)果可知:在用于4種工況下污水處理過程故障監(jiān)測的3種模型中,基于CTD-LE的故障檢測模型均具有最優(yōu)的故障檢測性能,在各類故障產(chǎn)生的初期就能及時探測到故障情況的存在,具有最低的故障漏報率和故障誤報率;其次是LE故障檢測模型,故障檢測性能較好;3種模型中故障漏報率和故障誤報率相對較高的是PCA故障檢測模型.
表5 3種方法污水處理過程故障檢測結(jié)果(漏報率、誤報率)
主要原因在于:PCA是一種理論完善的經(jīng)典數(shù)據(jù)分析方法,對于服從高斯分布(正態(tài)分布)或者具有線性結(jié)構(gòu)的原始數(shù)據(jù),具有良好的特征提取效果.但當(dāng)原始數(shù)據(jù)(如污水處理過程數(shù)據(jù))具有非線性和不確定性等特征時,PCA算法難以準(zhǔn)確揭示原始數(shù)據(jù)間所隱藏的非線性特征,存在一定的局限性.與PCA線性降維方法相比,LE算法則是在“保持降維前后近鄰點之間的近鄰關(guān)系不變”的前提下,尋找原始數(shù)據(jù)的局部幾何關(guān)系和特性,從數(shù)量有限且分布非均勻的非線性原始數(shù)據(jù)中挖掘低維流形分布結(jié)構(gòu)并揭示數(shù)據(jù)變化規(guī)律.而本文所提出的改進CTD-LE算法,在對非線性過程數(shù)據(jù)處理過程中,采用通勤時間距離方式對數(shù)據(jù)進行相似度衡量并構(gòu)造近鄰圖,較大程度地降低了基本LE算法對鄰域參數(shù)的敏感性并有效地改善了LE算法的魯棒性能.在4種不同類型的污水處理過程故障工況下,CTD-LE故障檢測模型性能均優(yōu)于PCA模型和基本LE模型,表明利用該算法構(gòu)建復(fù)雜非線性過程監(jiān)測模型是可行的.
4.1 針對現(xiàn)有LE算法存在對鄰域參數(shù)敏感和魯棒性差等問題,提出了一種改進的CTD-LE算法.一方面,在現(xiàn)有LE算法中引入了基于通勤時間距離的相似性度量方法,通過計算樣本之間的通勤距離構(gòu)造鄰域圖;另一方面,根據(jù)通勤距離大小去除近鄰圖中的“短路”邊和不同流形下數(shù)據(jù)點間的連接邊.理論分析和仿真實驗表明,改進算法能較好地揭示復(fù)雜非線性數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu),有效提高了基本LE算法的特征提取性能.
4.2 針對污水生化處理過程的數(shù)據(jù)特征,將改進的CTD-LE算法用于污水處理過程故障檢測建模,故障監(jiān)測結(jié)果表明該模型可及時探測到故障的發(fā)生,具有較低的故障漏報率和故障誤報率.為污水處理等復(fù)雜工業(yè)過程的污水處理過程性能監(jiān)測故障監(jiān)測提供了一種可行的解決方案.
[1] 王 劍,付正輝,郭懷成.基于區(qū)間兩階段的城鎮(zhèn)污水處理技術(shù)優(yōu)選模型 [J]. 中國環(huán)境科學(xué), 2017,37(1):108-115.Wang J, Fu Z H, Guo H C. An inexact two-stage stochastic programming model for optimization of sewage treatment technology [J]. China Environmental Science, 2017,37(1):108-115.
[2] 許玉格,鄧文凱,陳立定.基于核函數(shù)的加權(quán)極限學(xué)習(xí)機污水處理在線故障診斷 [J]. 化工學(xué)報, 2016,67(9):3817-3825.Xu Y G, Deng W K, Chen L D. Online fault diagnosis in wastewater treatment process by kernel-based weighted extreme learning machine [J]. CIESC Jorunal, 2016,67(9):3817-3825.
[3] 羅 曉,鄭向陽,趙叢叢,等.A/O工藝中污泥濃度對微生物群落結(jié)構(gòu)的影響 [J]. 中國環(huán)境科學(xué), 2018,38(1):275-283.Luo X, Zheng X Y, Zhao C C. Effects of sludge concentration on microbial community structure in A/O process [J]. China Environmental Science, 2018,38(1):275-283.
[4] 黃道平,邱 禹,劉乙奇,等.面向污水處理的數(shù)據(jù)驅(qū)動故障診斷及預(yù)測方法綜述 [J]. 華南理工大學(xué)學(xué)報(自然科學(xué)版), 2015,43(3): 111-120.Huang D P, Qiu Y, Liu Y Q, et al. Review of data-driven fault diagnosis and prognosis for wastewater treatment [J]. Journal of South China University of Technology (Natural Science Edition), 2015,43(3): 111-120.
[5] 肖紅軍,劉乙奇,黃道平.面向污水處理的動態(tài)變分貝葉斯混合因子故障診斷 [J]. 控制理論與應(yīng)用, 2016,33(11):1519-1526.Xiao H J, Liu Y Q, Huang D P. Dynamic fault diagnosis via variational Bayesian mixture factor analysis with application to wastewater treatment [J]. Control Theory & Applications, 2016,33(11):1519- 1526.
[6] Comas J, Rodriguez J, Sancgezmarre M, et al. A knowledge-based approach to the deflocculation problem: Integrating on-line, off-line, and heuristic information [J]. Water Research, 2003,37(10):2377- 2387.
[7] Han H G, Li Y, Qiao J F. A fuzzy neural network approach for online fault detection in waste water treatment process [J]. Computers & Electrical Engineering, 2014,40(7):2216-2226.
[8] Dovzan D, Logar V, Skrjanc I. Implementation of an evolving fuzzy model (eFuMo) in a monitoring system for a wastewater treatment process [J]. IEEE Transactions on Fuzzy Systems, 2015,23(5):1761- 1776.
[9] Daniel A, Christian R. Multivariate statistical monitoring of continuous wastewater treatment plants [J]. Engineering Applications of Artificial Intelligence, 2008,21(7):1080-1091.
[10] Baklouti I, Mansouri M, Ben H A, et al. Monitoring of wastewater treatment plants using improved univariate statistical technique [J]. Process safety and Environmental Protection, 2018,116(2):287-300.
[11] Liu Y Q, Pan Y P, Sun Z H, et al. Statistical monitoring of wastewater treatment plants using variational Bayesian PCA [J]. Industrial & Engineering Chemistry Research, 2014,53(8):3272-3282.
[12] Li Z C, Yan, X F. Adaptive selective ensemble-independent component analysis models for process monitoring [J]. Industrial & Engineering Chemistry Research, 2018,57(24):8240-8252.
[13] Samuelsson O, Bjork A, Zambrano J, et al. Gaussian process regression for monitoring and fault detection of wastewater treatment processes [J]. Water Science and Technology, 2017,75(12):2952-2963.
[14] Miao A M, Ge Z Q, Song Z H, et al. Nonlocal structure constrained neighborhood preserving embedding model and its application for fault detection [J]. Chemometrics and Intelligent Laboratory Systems, 2015,142:184-196.
[15] 陳如清.基于改進MVU的非線性動態(tài)過程故障檢測方法 [J]. 儀器儀表學(xué)報, 2013,34(9):2111-2117.Chen R Q. Improved MVU based fault detection method for nonlinear and dynamic process [J]. Chinese Journal of Scientific Instrument, 2013,34(9):2111-2117.
[16] Mao Q, Wang L, Tsang I W. A unified probabilistic framework for robust manifold learning and embedding [J]. Machine Learning, 2017,106(5):627-650.
[17] Bruneau M, Mottet T, Moulin S, et al. A clustering package for nucleotide sequences using Laplacian Eigenmaps and Gaussian mixture model [J]. Computers in Biology and Medicine, 2018,93(2): 66-74.
[18] Yan L, Niu X D. Spectral-Angle-based Laplacian Eigenmaps for nonlinear dimensionality reduction of hyperspectral imagery [J]. Photogrammetric Engineering and Remote Sensing, 2014,80(9):849- 861.
[19] Jiang Q S, Zhu Q X, Wang B F, et al. Nonlinear machine fault detection by semi-supervised Laplacian Eigenmaps [J]. Journal of Mechanical Science and Technology, 2017,31(8):3697-3703.
[20] Kazor K, Holloway R W, Cath T Y, et al. Comparison of linear and nonlinear dimension reduction techniques for automated process monitoring of a decentralized wastewater treatment facility [J]. Stochastic Environmental research and Risk Assessment, 2016,30(5): 1527-1544.
[21] Kim K H, Choi S. Walking on minimax paths for k-NN search [C]. Proc of the 27th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2013:518-525.
[22] Qiu H J, Hancock E R. Clustering and embedding using commute times [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007,29(11):1873-1890.
[23] Albano J A, Messinger D W, Rotman S R. Commute time distance transformation applied to spectral imagery and its utilization in material clustering [J]. Optical Engineering, 2012,51(7):397-407.
[24] 邵 超,張嘯劍.基于通勤時間距離的流形聚類與可視化 [J]. 計算機研究與發(fā)展, 2015,52(8):1757-1767.Shao C, Zhang X J. Manifold clustering and visualization with commute time distance [J]. Journal of Computer Research and Development, 2015,52(8):1757-1767.
[25] Carlsson B, Zambrano J. Fault detection and isolation of sensors in aeration control systems [J]. Water Science and Technology, 2015, 73(3):648-653.
Fault detection of wastewater treatment processes by using commute time distance based LE algorithm.
CHEN Ru-qing1*, LI Jia-chun2, YU Jin-shou3
(1.College of Mechanical and Electrical Engineering, Jiaxing University, Jiaxing 314001, China;2.College of Mathematics, Physics and Information Engineering, Jiaxing University, Jiaxing 314001, China;3.Research Institute of Automation, East China University of Science and Technology, Shanghai 200237, China)., 2019,39(2):657~665
Performance monitoring and fault diagnosis for wastewater treatment processes was of great significance for safeguarding the normal operation of the treatment process and ensuring the standard quality of effluent water. Aiming at the problems of nonlinearity, uncertainty and susceptibility to random noises in wastewater treatment process, an improved Laplacian Eigenmap (LE) manifold learning algorithm based on commuting time distance (CTD) was proposed to realize the feature extraction of the complex process data. In this algorithm, CTD was used to measure the similarity between samples and construct the neighborhood graph. Both theoretical analysis and simulation test proved that the proposed algorithm could efficiently overcome the sensitivity problem caused by neighborhood parameter and improve the robustness of the normal LE algorithm. Then the CTD based LE algorithm was applied in fault detection modeling for actual wastewater treatment process, and the fault monitoring statistic was constructed in the low-dimensional feature subspace. Application results showed that CTD-LE based model can timely detect the faults with lower missing rate and false rate as compared with normal PCA based model and normal LE based model. Application results showed that this method could provide a feasible solution for fault monitoring of complex industrial processes such as wastewater treatment.
wastewater biological treatment process;fault detection modeling;commute time distance;nonlinear noisy data;Laplacian Eigenmap
X703
A
1000-6923(2019)02-0657-09
陳如清(1979-),男,江西萍鄉(xiāng)人,副教授,博士,主要研究方向為復(fù)雜工業(yè)過程建模與故障診斷.發(fā)表論文40余篇.
2018-07-31
浙江省基礎(chǔ)公益研究計劃項目(LGG18F030011);國家自然科學(xué)基金資助項目(61603154)
* 責(zé)任作者, 副教授, 10555322@qq.com