林 安 阮 琥
(臺(tái)州市環(huán)境科學(xué)設(shè)計(jì)研究院浙江臺(tái)州318000)
探究污水處理中數(shù)據(jù)挖掘技術(shù)的運(yùn)用
林安阮琥
(臺(tái)州市環(huán)境科學(xué)設(shè)計(jì)研究院浙江臺(tái)州318000)
目前,科學(xué)技術(shù)水平的進(jìn)步與提升,人類(lèi)的生活以及工業(yè)用水也隨之增加,所排放的污水量也在不斷增大,為了能讓人人都有干凈的水喝,污水處理技術(shù)在人們的生存需求下迅速發(fā)展;污水處理過(guò)程并不是單一的污水過(guò)濾,其工藝過(guò)程相當(dāng)復(fù)雜,而當(dāng)前,對(duì)于污水處理的整個(gè)過(guò)程中,數(shù)據(jù)處理、發(fā)掘數(shù)據(jù)技能和故障診斷等都與其有很大的關(guān)聯(lián);因此本文就污水處理中數(shù)據(jù)挖掘技術(shù)的運(yùn)用進(jìn)行了闡述,并通過(guò)對(duì)污水處理數(shù)據(jù)的特點(diǎn),進(jìn)一步探究了數(shù)據(jù)挖掘在污水處理異常檢測(cè)中應(yīng)用的方法。
污水處理;數(shù)據(jù)挖掘;運(yùn)用
污水處理屬于處理工藝非常繁復(fù)的生化過(guò)程,無(wú)法一直保持穩(wěn)定的狀態(tài)。操作人員以及管理者們一直以來(lái)都是按照多年積累的經(jīng)驗(yàn),對(duì)污水處理的整個(gè)過(guò)程加以管理,這就需要操作人員及管理者們具備廣泛的知識(shí)以及較長(zhǎng)時(shí)間的實(shí)踐操作經(jīng)驗(yàn)。處理污水故障的專(zhuān)家在診斷系統(tǒng)知識(shí)庫(kù)時(shí),也需要依賴于污水處理專(zhuān)家的經(jīng)驗(yàn)進(jìn)行建立。當(dāng)污水處理在工作過(guò)程當(dāng)中,會(huì)由監(jiān)控設(shè)備獲取大量的污水狀態(tài)數(shù)據(jù)。而數(shù)據(jù)挖掘過(guò)程,就是從這些獲取的歷史數(shù)據(jù)中挖掘出可用的知識(shí)模式,運(yùn)用數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)歷史數(shù)據(jù)進(jìn)行分析,這也是極其實(shí)用的獲取知識(shí)的途徑。數(shù)據(jù)挖掘技術(shù)中涵蓋了無(wú)監(jiān)督的分類(lèi)技術(shù),可優(yōu)先對(duì)所收集的歷史數(shù)據(jù)對(duì)數(shù)據(jù)挖掘中的數(shù)據(jù)加以分析,再運(yùn)用專(zhuān)家的知識(shí)分析污水處理挖掘的有效數(shù)據(jù)知識(shí),進(jìn)而獲取污水處理廠設(shè)備的相關(guān)監(jiān)控進(jìn)行分析,例如污水處理設(shè)備故障檢測(cè)以及活性泥成分分析等。
污水處理是一個(gè)不簡(jiǎn)單的過(guò)程,因其高維且有較強(qiáng)的耦合性,加之?dāng)?shù)據(jù)量較大,儲(chǔ)存在數(shù)據(jù)庫(kù)中的數(shù)據(jù)經(jīng)過(guò)幾年以后,數(shù)據(jù)積累量非常大。此外,在污水處理的過(guò)程中,很多行為狀態(tài)是根據(jù)變量因素共同決定的,它們間有較強(qiáng)的非線性或者耦合關(guān)系存在,例如溫度的高低會(huì)給水的溶氧度值帶來(lái)影響,在污水處理自動(dòng)化中,其監(jiān)控設(shè)備所搜集到的數(shù)據(jù)有以下特點(diǎn),如圖1所示。
圖1 污水處理裝置
1.1工業(yè)噪聲以及處理過(guò)程中的不確定性
工業(yè)處理過(guò)程中,系統(tǒng)工作環(huán)境非常復(fù)雜,噪聲、磁以及電的干擾較強(qiáng),此外,系統(tǒng)內(nèi)有不確定性存在,以至于數(shù)據(jù)容易受到污染,導(dǎo)致監(jiān)控?cái)?shù)據(jù)失效或者丟失。
1.2動(dòng)態(tài)性與數(shù)據(jù)類(lèi)型的多樣性
污水處理,是屬于動(dòng)態(tài)變化的過(guò)程,每個(gè)處理步驟或者處理設(shè)備都會(huì)對(duì)進(jìn)入流程內(nèi)的污水加以處理,中和、加入以及將某些物質(zhì)過(guò)濾后,污水的每個(gè)屬性參數(shù)所占的比例都會(huì)無(wú)時(shí)無(wú)刻發(fā)生變化,在監(jiān)控中將數(shù)據(jù)獲取,對(duì)數(shù)據(jù)挖掘進(jìn)行深入分析,能夠獲取預(yù)測(cè)系統(tǒng)狀態(tài)以及系統(tǒng)狀態(tài)變化趨勢(shì)的有利知識(shí)。此外,監(jiān)控設(shè)備所采集污水處理過(guò)程當(dāng)中,其所取得的數(shù)據(jù)類(lèi)型也是不統(tǒng)一的:例如邏輯型、數(shù)據(jù)型以及非數(shù)據(jù)型等。
1.3不統(tǒng)一性與多時(shí)標(biāo)性
在儲(chǔ)存污水處理數(shù)據(jù)的數(shù)據(jù)庫(kù)當(dāng)中,經(jīng)常會(huì)有數(shù)據(jù)丟失的情況存在,通常對(duì)不相同的數(shù)據(jù)屬性使用信號(hào)所采集的頻率也不一樣,存儲(chǔ)時(shí)間無(wú)法同步存儲(chǔ),以至于數(shù)據(jù)出現(xiàn)不完整性的情況。
1.4多模態(tài)性
污水處理過(guò)程無(wú)法長(zhǎng)期處于正常的運(yùn)行狀態(tài),會(huì)有不同程度的異常設(shè)備故障出現(xiàn)。系統(tǒng)狀態(tài)變化的反應(yīng)可通過(guò)數(shù)據(jù)分析,由污水處理數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,能夠挖掘出異常的工作狀態(tài)。除此之外,在污水處理中,數(shù)據(jù)挖掘一般要對(duì)部分質(zhì)量指標(biāo)如能耗、出水水質(zhì)以及環(huán)境影響等加以評(píng)價(jià),加大了數(shù)據(jù)挖掘的整體難度。
因污水處理過(guò)程數(shù)據(jù)具有多種特點(diǎn),所以,數(shù)據(jù)挖掘應(yīng)用會(huì)有很大的限制,從數(shù)據(jù)緣由分析,目前,取得污水處理過(guò)程的知識(shí)要依賴于運(yùn)用直接運(yùn)行過(guò)程所得出的數(shù)據(jù)加以辨識(shí);利用實(shí)驗(yàn)室對(duì)系統(tǒng)的動(dòng)態(tài)性能和靜態(tài)性能進(jìn)行了詳細(xì)的探究;這兩種方式都均為從現(xiàn)有的數(shù)據(jù)中尋找可利用的知識(shí)。同時(shí),這也是數(shù)據(jù)挖掘以后要進(jìn)一步探討的內(nèi)容。而今,污水處理過(guò)程獲取知識(shí)的方式應(yīng)用主要分為預(yù)測(cè)模型以及異常診斷兩大類(lèi)。如圖2所示。
圖2 城市污水處理率
2.1污水處理過(guò)程中的異常檢測(cè)
污水處理這個(gè)過(guò)程非常的復(fù)雜,污水處理廠長(zhǎng)期穩(wěn)定運(yùn)行不僅較為困難,還受很多環(huán)境因素的影響,加之水量波動(dòng)以及進(jìn)水水質(zhì)的隨機(jī)干擾也較大。活性污泥在處理過(guò)程當(dāng)中,有污泥上浮、污泥膨脹以及泡沫等現(xiàn)象等,這些故障不僅導(dǎo)致污水處理工藝的故障,還加大了污水處理的整體能耗,影響了污水處理的出水水質(zhì)。所以,怎樣對(duì)污水處理工藝過(guò)程的故障進(jìn)行診斷,是目前需進(jìn)一步探究的問(wèn)題。污水處理,一般處于正常狀態(tài),而故障狀態(tài)對(duì)于個(gè)別性能來(lái)說(shuō),正常狀態(tài)下的數(shù)據(jù)點(diǎn)會(huì)大于數(shù)據(jù)點(diǎn)的故障狀態(tài),因此利用異常檢測(cè)的思想來(lái)識(shí)別異常值,根據(jù)異常檢測(cè)技術(shù)來(lái)收集異常數(shù)據(jù)信息,對(duì)異常檢測(cè)數(shù)據(jù)加以解釋?zhuān)_定好工藝處理的故障,及時(shí)的糾正并維護(hù)設(shè)備故障,進(jìn)而確保污水處理中出水的質(zhì)量,進(jìn)一步降低能耗。
2.2污水處理過(guò)程中的建模
模型結(jié)構(gòu)分為3種類(lèi)別,灰盒、白盒以及黑盒,從獲取污水處理過(guò)程知識(shí)的角度看,用到的主要是黑盒模型和灰盒模型,這是由于一旦對(duì)整個(gè)過(guò)程的各個(gè)細(xì)節(jié)和機(jī)理都了解的非常透徹,就無(wú)需再利用觀測(cè)數(shù)據(jù)學(xué)習(xí)。在創(chuàng)設(shè)黑盒及灰盒過(guò)程當(dāng)中,都需有模型參數(shù)的估量工作,待定的參數(shù)多則幾個(gè),少則一個(gè),其數(shù)目確定模型的整體結(jié)構(gòu);待定參數(shù)的確定通常有統(tǒng)計(jì)回歸法、時(shí)間序列模型法以及人工智能法等。不管利用哪種方式估計(jì)參數(shù),都確立在實(shí)驗(yàn)的最終結(jié)果以及數(shù)據(jù)觀測(cè)的基礎(chǔ)上。
數(shù)據(jù)的挖掘在污水處理異常檢測(cè)當(dāng)中,其應(yīng)用的時(shí)間很長(zhǎng),而這些都是以專(zhuān)家系統(tǒng)為基礎(chǔ)的,專(zhuān)家系統(tǒng)要求一定要具備豐富的污水處理實(shí)踐經(jīng)驗(yàn),近幾年,有部分研究人員開(kāi)始運(yùn)用異常數(shù)據(jù)點(diǎn)以及正常數(shù)據(jù)點(diǎn)獨(dú)有的特性,或是通過(guò)異常模型的建立,挖掘污水處理數(shù)據(jù),目前,污水處理異常檢測(cè)的幾種方法和模型。
3.1采用基于統(tǒng)計(jì)方法的異常檢測(cè)
以統(tǒng)計(jì)方法為基礎(chǔ)的異常檢測(cè)方法,該方法優(yōu)先將數(shù)據(jù)的每個(gè)屬性集做一個(gè)假設(shè),研究其是否與正態(tài)分布相符合,接著確定好每個(gè)聚類(lèi)簇的中心,這也是檢測(cè)異常數(shù)據(jù)的中心問(wèn)題,最后是通過(guò)分布特性檢測(cè)異常數(shù)據(jù)。因污水處理數(shù)據(jù)集的各個(gè)屬性維并不都是完全滿足正態(tài)分布,所以,在實(shí)際應(yīng)用中假設(shè)符合分布還是有局限性存在。
3.2對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè)
異常檢測(cè)過(guò)程采用聚類(lèi)-檢測(cè)兩個(gè)階段對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè)。該算法的重點(diǎn)是將數(shù)據(jù)聚類(lèi)所獲取的簇集合分成兩種,即“Small和Large”兩種類(lèi)型。Large簇指的是數(shù)據(jù)項(xiàng)比較多的某些簇,這些簇涵蓋了超過(guò)整個(gè)數(shù)據(jù)集中某個(gè)百分比的數(shù)據(jù)項(xiàng),剩余的部分簇就是Small簇。對(duì)于不同的簇使用不同的局部異常因子計(jì)算公式。數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的LCF愈來(lái)愈大就說(shuō)明有可能是異常的數(shù)據(jù),所以,該方式能夠根據(jù)用戶所規(guī)定的參數(shù)進(jìn)行調(diào)節(jié),但是需要挑選出合適的對(duì)屬性進(jìn)行離散化處理。系統(tǒng)運(yùn)用正反向混合推理方式,并利用推理樹(shù)的形式把知識(shí)庫(kù)中的知識(shí)組織形式向用戶公開(kāi),進(jìn)而方便用戶使用以及維護(hù)系統(tǒng)。
而今,科學(xué)技術(shù)的進(jìn)一步發(fā)展,鄉(xiāng)鎮(zhèn)及城市的污水總量在逐步增加,使污水在進(jìn)行實(shí)時(shí)監(jiān)控處理時(shí)的難度進(jìn)一步增加,此外,在污水總量逐漸增加的情況下,帶來(lái)的污水處理數(shù)據(jù)的監(jiān)控屬性也不斷增加,同時(shí),提高了污水?dāng)?shù)據(jù)的維度,讓運(yùn)用以往的挖掘技術(shù)算法面臨著非常嚴(yán)峻的考驗(yàn)。而在今后,希望可以通過(guò)數(shù)據(jù)的不同特點(diǎn)而利用不同的數(shù)據(jù)挖掘方法;此外在污水處理的過(guò)程中,像污水量的預(yù)測(cè)模型等方面具有數(shù)據(jù)挖掘技術(shù)存在很大的發(fā)展空間,同時(shí)也可以將污水處理做的更好。
[1]陶若.數(shù)據(jù)挖掘在銀行卡業(yè)務(wù)中的研究與應(yīng)用[D].南開(kāi)大學(xué)碩士學(xué)位論文,2006:8-20.
[2]李曉東.城市污水處理廠數(shù)據(jù)挖掘及相關(guān)技術(shù)研究[D].湖南大學(xué)博士學(xué)位論文,2007:17-18.
[3]夏姜虹.數(shù)據(jù)挖掘技術(shù)的常用方法分析[J].云南大學(xué)學(xué)報(bào), 2011,33(S2):173-175.