張世英,李 琦
(天津大學(xué)管理學(xué)院,天津 300072)
非線性檢驗(yàn)及預(yù)測(cè)在污水處理廠評(píng)價(jià)中的應(yīng)用
張世英,李 琦
(天津大學(xué)管理學(xué)院,天津 300072)
為了避免污水處理廠規(guī)模盲目擴(kuò)大造成的投資效率低下的現(xiàn)象發(fā)生,科學(xué)地預(yù)測(cè)合理的用水量必不可少?;谟盟康膶?shí)際歷史數(shù)據(jù),利用BDS檢驗(yàn)、Box-Pierce檢驗(yàn)和Box-Ljung檢驗(yàn)以及非線性檢驗(yàn),如代替數(shù)據(jù)檢驗(yàn)Surrogate date test、Hinich雙譜檢驗(yàn)、White人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)來(lái)選擇時(shí)間序列重構(gòu)預(yù)測(cè)模型。根據(jù)實(shí)際用水量情況,比較各種不同重構(gòu)模型預(yù)測(cè)誤差,包括線性AR模型以及隨機(jī)森林、隨機(jī)梯度Boosting、支持向量、人工神經(jīng)網(wǎng)絡(luò)和自適應(yīng)樣條等。結(jié)果表明,有著非線性關(guān)系的人工神經(jīng)網(wǎng)絡(luò)誤差最小,符合檢驗(yàn)結(jié)果。
用水量;非線性檢驗(yàn);預(yù)測(cè);隨機(jī)梯度Boosting
在污水處理廠的建設(shè)中,一般會(huì)結(jié)合經(jīng)濟(jì)發(fā)展和城市建設(shè)的總體規(guī)劃來(lái)考慮污水處理廠的建設(shè)規(guī)模,并以近期需求為主,適當(dāng)考慮長(zhǎng)遠(yuǎn)發(fā)展的需要來(lái)確定污水處理廠的使用周期。建設(shè)部已經(jīng)要求各地保證城鎮(zhèn)污水處理廠投入運(yùn)行后的實(shí)際處理負(fù)荷在一年內(nèi)不得低于設(shè)計(jì)能力的60%,三年內(nèi)不得低于設(shè)計(jì)能力的75%。目前,許多地方盲目追求政績(jī),不考慮實(shí)際情況,任意擴(kuò)大污水處理廠建設(shè)規(guī)模,致使建成的污水處理廠大部分處理能力閑置和投資資金效率低下的情況屢見(jiàn)不鮮。為了合理評(píng)價(jià)污水處理廠的建設(shè)規(guī)模,有必要對(duì)污水產(chǎn)量進(jìn)行科學(xué)預(yù)測(cè)。
通常情況下,污水處理廠的建設(shè)規(guī)模以本地排水管理處多年的觀測(cè)、調(diào)查、統(tǒng)計(jì)和分析污水量的結(jié)果為基礎(chǔ),根據(jù)排水規(guī)劃的服務(wù)面積、污水量標(biāo)準(zhǔn)并結(jié)合總體規(guī)劃,同時(shí)參考供水指標(biāo)和供水規(guī)劃來(lái)確定。在以上計(jì)算過(guò)程中,人均日用水量是個(gè)很重要的指標(biāo),關(guān)系生活用水和公建用水的預(yù)測(cè)。能否科學(xué)準(zhǔn)確預(yù)測(cè)未來(lái)年份人均日用水量,很大程度上決定了建設(shè)規(guī)模的合理性。目前用水量預(yù)測(cè)模型選擇過(guò)于隨意,缺乏必要的檢驗(yàn)[1-2]。本文利用各種非線性檢驗(yàn)方法,確定合理預(yù)測(cè)模型,提高預(yù)測(cè)精度。
從統(tǒng)計(jì)建模方面考慮,預(yù)測(cè)方法主要有兩種:一是利用歷史數(shù)據(jù)預(yù)測(cè)未來(lái)數(shù)值,典型方法就是時(shí)間序列;二是利用其他相關(guān)數(shù)據(jù)預(yù)測(cè)該類(lèi)指標(biāo)未來(lái)數(shù)據(jù)。第二類(lèi)預(yù)測(cè)方法所需數(shù)據(jù)較多,由于各種原因,不少城市缺乏生活用水資料,不易搜集數(shù)據(jù)。所以本文采用人均日用水量的歷史數(shù)據(jù)序列預(yù)測(cè)未來(lái)年份用水量。
時(shí)間序列預(yù)測(cè)法的基本特點(diǎn):一是假定事物的過(guò)去趨勢(shì)會(huì)延伸到未來(lái);二是預(yù)測(cè)所依據(jù)的數(shù)據(jù)具有不規(guī)則性;三是撇開(kāi)了與其他因素之間的因果關(guān)系。
給定一組數(shù)據(jù)選擇合適模型預(yù)測(cè)未來(lái)取值主要從以下三個(gè)方面考慮:一是數(shù)據(jù)的經(jīng)驗(yàn)特征是否符合模型的前提條件,如ARMA模型要求序列是平穩(wěn)的;二是模型擬合之后的假設(shè)檢驗(yàn)是否顯著,如線性回歸的顯著性檢驗(yàn);三是如果數(shù)據(jù)足夠充分,可以把數(shù)據(jù)分成兩部分,一部分用于建模,另一部分用于檢驗(yàn)擬合模型預(yù)測(cè)的精度。
時(shí)間序列各種模型一般要求序列平穩(wěn),而原始序列由于存在長(zhǎng)期趨勢(shì)和周期趨勢(shì)等,是非平穩(wěn)的。必須通過(guò)變換使其平穩(wěn)化,通常的一種變換是變化率變換 lnXt-lnXt-1,它的一階泰勒展開(kāi)就是變化率(Xt-Xt-1)/Xt-1。雖然不同城市之間人均日用水量存在一定的差別,但是其變化率相差不大??紤]到國(guó)內(nèi)城市用水資料搜集的困難性,采用澳大利亞Mawson地區(qū)2000年1月到2007年4月每月人均日用水量數(shù)據(jù),數(shù)據(jù)長(zhǎng)度88。基于其變化率預(yù)測(cè)其他城市人均日用水量變化率,逆變換得到原始用水量。
基于 BDS 檢驗(yàn)[3]、Box-Ljung 檢驗(yàn)[4]、Hinich 雙譜檢驗(yàn)[5]、代替數(shù)據(jù)檢驗(yàn)[6]、White 人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)[7]等方法辨識(shí)時(shí)間序列內(nèi)在變化模式,首先,判斷序列之間獨(dú)立還是相關(guān),如果相關(guān),然后進(jìn)一步檢驗(yàn)線性相關(guān)和非線性相關(guān)。這里存在兩種方法:一是直接判斷線性和非線性,如代替數(shù)據(jù)檢驗(yàn)和Hinich雙譜檢驗(yàn);二是剔除線性相關(guān)性,如果殘差獨(dú)立同分布,表明原始序列線性相關(guān),如果殘差繼續(xù)存在相關(guān)性,表明原始序列非線性相關(guān),所以獨(dú)立性檢驗(yàn)也可用于檢驗(yàn)線性和非線性,如果非線性相關(guān),還可以進(jìn)一步判斷是否存在混沌。通過(guò)各種檢驗(yàn)方法判斷人均日用水量變化率的變化模式,建立合理的線性或者非線性模型,預(yù)測(cè)未來(lái)人均日用水量變化率。假定不同城市人均日用水量變化率具有相同的變化模式,根據(jù)很少的用水資料可以預(yù)測(cè)未來(lái)年份人均日用水量,為合理評(píng)價(jià)污水處理廠建設(shè)規(guī)模提供參考,力求評(píng)價(jià)的科學(xué)性和準(zhǔn)確性。
澳大利亞Mawson地區(qū)2000年1月到2007年4月每月人均日用水量數(shù)據(jù)從澳大利亞數(shù)據(jù)中心http://aadc-aps.a(chǎn)d.gov.a(chǎn)u/aadc/soe/displayindicator.cfm?soeid=61#graph查詢得到。采用KPSS進(jìn)行平穩(wěn)性檢驗(yàn),統(tǒng)計(jì)量結(jié)果為0.058,對(duì)應(yīng)相伴概率為0.10,結(jié)論是平穩(wěn)的。BDS檢驗(yàn)獨(dú)立性檢驗(yàn)相伴概率與嵌入維數(shù)和相鄰點(diǎn)判斷參數(shù)有關(guān),不同組合的相伴概率不盡相同。因?yàn)榫芙^是有力的,而接受只是表示在目前水平下不拒絕原假設(shè),所以只要有一個(gè)組合拒絕原假設(shè),即可認(rèn)為拒絕原假設(shè),表示時(shí)序不是獨(dú)立同分布的,存在相關(guān)性或者獨(dú)立不同分布。BDS檢驗(yàn)結(jié)果表明,日用水量變化率獨(dú)立不同分布或者相關(guān)。為了進(jìn)一步檢驗(yàn)是否存在相關(guān)性,采用Box-Pierce和Box-Ljung獨(dú)立性檢驗(yàn),兩者相伴概率都小于0.05,在5%的顯著性水平下,拒絕原假設(shè),認(rèn)為人均日用水量變化率具有相關(guān)性。
判斷相關(guān)是線性相關(guān)還是非線性相關(guān),應(yīng)采用代替數(shù)據(jù)檢驗(yàn)。本文采用Schreiber等人[8]的IAAFT算法產(chǎn)生100組代替數(shù)據(jù),檢驗(yàn)統(tǒng)計(jì)量取平均互信息指數(shù)。檢驗(yàn)結(jié)果表明,在5%置信水平下不能斷定人均日用水量變化率存在非線性相關(guān)。
考慮弱非線性檢驗(yàn)——White人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)和Terasvirta人工神經(jīng)網(wǎng)絡(luò)[9],不是均值線性的時(shí)間序列稱為“弱非線性”。兩種檢驗(yàn)方法的相伴概率都小于5%,拒絕原假設(shè),說(shuō)明人均日用水量變化率確實(shí)不是均值線性,存在弱非線性相關(guān)。
Hinich的雙譜檢驗(yàn)可以直接檢驗(yàn)三階非線性和正態(tài)性。計(jì)算得到人均日用水量變化率雙譜非線性檢驗(yàn)的相伴概率為1.0,不認(rèn)為其具有三階非線性。
由于White人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)和Terasvirta人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)本文人均日用水量變化率存在弱非線性,為了進(jìn)一步判斷是否存在混沌,需要計(jì)算時(shí)間序列的最大Lyapunov指數(shù)。利用Rosenstein等人[10]方法和Nychka等人[11]的人工神經(jīng)網(wǎng)絡(luò)估計(jì)最大Lyapunov指數(shù)。Rosenstein等人的方法首先需要確定嵌入維數(shù)m和時(shí)間延滯d。它們也是相空間重構(gòu)中最重要的兩個(gè)參數(shù)。在預(yù)測(cè)過(guò)程中,采用相空間重構(gòu)方法恢復(fù)原始動(dòng)力系統(tǒng)。本文首先基于平均互信息指數(shù)確定最佳時(shí)間延滯d,然后采用虛假最近鄰法確定最優(yōu)嵌入維數(shù)m。最佳時(shí)間延滯d應(yīng)取2,最優(yōu)的嵌入維數(shù)m是3。用Rosenstein等人方法估計(jì)最大Lyapunov指數(shù)為0.373 6左右,Nychka等人人工神經(jīng)網(wǎng)絡(luò)估算的Lyapunov指數(shù)為0.263 5。一般只是Lyapunov指數(shù)的符號(hào)判斷混沌是否存在,由Lyapunov指數(shù)為正,說(shuō)明人均日用水量變化率存在混沌。
通過(guò)計(jì)算,估計(jì)最優(yōu)的時(shí)間延滯為2,嵌入維數(shù)是3,所以重構(gòu)模型為
式中:xt為重構(gòu)模型;f為未知非線性函數(shù);xt-2,xt-4,xt-6為 t-2,t-4,t-6 時(shí)刻指標(biāo)取值;εt為隨機(jī)噪聲。
機(jī)器學(xué)習(xí)的方法有多種,這里選取成熟穩(wěn)定的隨機(jī)森林、隨機(jī)梯度Boosting、支持向量、自適應(yīng)樣條和人工神經(jīng)網(wǎng)絡(luò)5種方法。由于用水量數(shù)據(jù)只是弱非線性,可以考慮線性時(shí)間序列的AR模型。為了從上述方法中選擇一種較好的方法,預(yù)留最后7組數(shù)據(jù)不用來(lái)訓(xùn)練,比較7組預(yù)留數(shù)據(jù)的相對(duì)誤差,預(yù)測(cè)值減去真實(shí)值除以真實(shí)值,選擇一種評(píng)比原則,得出較優(yōu)方法。
前面已經(jīng)檢驗(yàn)過(guò)用水量變化率的平穩(wěn)性,所以不用差分模型,直接選取AR模型。最優(yōu)嵌入維數(shù)為3,選取AR(3)模型。對(duì)于標(biāo)準(zhǔn)殘差不同滯后階數(shù)的Box-Ljung獨(dú)立性檢驗(yàn),易知相伴概率都大于0.05,不能拒絕原假設(shè),表明標(biāo)準(zhǔn)殘差獨(dú)立,選用AR(3)模型合理。從預(yù)留7組數(shù)據(jù)的相對(duì)誤差的均值和方差來(lái)看,人工神經(jīng)網(wǎng)絡(luò)都是最好的方法。在誤差比較中,一般人們只關(guān)心誤差的絕對(duì)大小,而不太重視正負(fù)符號(hào)。如果單純考慮相對(duì)誤差絕對(duì)值,其均值和方差最小的還是人工神經(jīng)網(wǎng)絡(luò),認(rèn)為人工神經(jīng)網(wǎng)絡(luò)更適用于本文用水量數(shù)據(jù)。
在向后預(yù)測(cè)過(guò)程中,由于重構(gòu)模型中自變量也是隨機(jī)變量,加上噪聲的干擾,每步預(yù)測(cè)的標(biāo)準(zhǔn)誤差不固定。由于人工神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜性,推導(dǎo)每步預(yù)測(cè)值的標(biāo)準(zhǔn)誤差無(wú)法完成。采用蒙特卡羅方法模擬。蒙特卡羅方法的思想是產(chǎn)生服從概率分布的偽隨機(jī)數(shù),代入復(fù)雜函數(shù)表達(dá)式,所得結(jié)果的經(jīng)驗(yàn)分布當(dāng)作所求分布的估計(jì)。預(yù)測(cè)值的不確定性來(lái)源于兩個(gè)方面:一是具有固定標(biāo)準(zhǔn)差σ的噪聲;二是重構(gòu)模型中自變量值的隨機(jī)性。噪聲的標(biāo)準(zhǔn)差σ可以通過(guò)殘差平方和估計(jì)。具體步驟如下:一是利用擬合殘差平方和估計(jì)噪聲標(biāo)準(zhǔn)差σ;二是產(chǎn)生2 000個(gè)零均值,標(biāo)準(zhǔn)差為σ的正態(tài)白噪聲;三是將前面預(yù)測(cè)值和噪聲代入擬合的人工神經(jīng)網(wǎng)絡(luò)重構(gòu)模型,得到2 000個(gè)新預(yù)測(cè)值;四是逆變換人均日用水量變化率到原始人均日用水量,exp(t時(shí)刻人均日用水量變化率)乘以t時(shí)刻人均日用水量得到t+1時(shí)刻原始人均日用水量;五是重復(fù)步驟二至四,直至達(dá)到需要預(yù)測(cè)的步數(shù);六是對(duì)于每步預(yù)測(cè),都存在2 000個(gè)預(yù)測(cè)值,其經(jīng)驗(yàn)標(biāo)準(zhǔn)差就看作該步預(yù)測(cè)的標(biāo)準(zhǔn)誤差。95%經(jīng)驗(yàn)置信區(qū)間看作該步預(yù)測(cè)值95%置信區(qū)間。
為了驗(yàn)證預(yù)測(cè)結(jié)果的可靠程度,從網(wǎng)站http://aadc-maps.a(chǎn)ad.gov.a(chǎn)u/aadc/soe/display indicator.cfm?soe id=61#graph上查詢2007年5月到2009年5月Mawson地區(qū)月人均日用水量數(shù)據(jù),基于人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果,預(yù)測(cè)2007年5月到2009年5月Mawson地區(qū)月人均日用水量見(jiàn)圖1。以散點(diǎn)表示的是真實(shí)用水量,中間有緩慢增長(zhǎng)趨勢(shì),以長(zhǎng)虛線表示的是預(yù)測(cè)均值,上下短虛線是預(yù)測(cè)值的95%置信上限和下限,體現(xiàn)用水量預(yù)測(cè)波動(dòng)的水平。從圖1中可以看出,真實(shí)用水量除去一個(gè)點(diǎn)在預(yù)測(cè)95%置信區(qū)間之外,其他所有點(diǎn)都在預(yù)測(cè)95%置信區(qū)間之內(nèi),證實(shí)了本文預(yù)測(cè)的可靠性。
圖1 人均日用水量及預(yù)測(cè)值
污水處理廠一般存在近期和遠(yuǎn)期規(guī)模,遠(yuǎn)期規(guī)模需要預(yù)測(cè)才能合理評(píng)價(jià)。人均日用水量是確定污水處理廠建設(shè)規(guī)模的一個(gè)重要指標(biāo),利用BDS檢驗(yàn)、Box-Pierce檢驗(yàn)和Ljung-Box檢驗(yàn)等獨(dú)立性檢驗(yàn),判斷人均日用水量時(shí)間序列存在相關(guān)性。代替數(shù)據(jù)檢驗(yàn)不能確定非線性相關(guān),Hinich雙譜檢驗(yàn)也不能確定三階非線性相關(guān),而White和Teravitra人工神經(jīng)網(wǎng)絡(luò)檢驗(yàn)判斷出弱非線性。計(jì)算Lyapunov指數(shù)為正,存在混沌。由于存在弱非線性,基于相空間重構(gòu),利用隨機(jī)森林、隨機(jī)梯度Boosting、支持向量、人工神經(jīng)網(wǎng)絡(luò)、自適應(yīng)樣條和線性AR模型6種方法擬合原始動(dòng)力系統(tǒng)。在預(yù)留七組數(shù)據(jù)中,人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)相對(duì)誤差的均值和方差最小,最后基于人工神經(jīng)網(wǎng)絡(luò)擬合結(jié)果,預(yù)測(cè)后兩年人均日用水量。
[1] 王洪禮,韓紅臣,李勝朋,等.城市用水量隨機(jī)梯度回歸分析[J].天津大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2008,10(3):225-227.
[2] 李 棟,王洪禮,杜忠曉.城市生活用水的支持向量回歸預(yù)測(cè)[J].天津大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2006,8(1):64-67.
[3] Brock W A,Dechert W D,Scheinkman J A.A Test for Independence Based on the Correlation Dimension[R].Madison:University of Wisconsin-Madison,1986.
[4] Ljung G M,Box G E P.On a measure of lack of fit in time series models[J].Biometrika,1978,65:553-564.
[5] Hinich M.Testing for Gaussianity and linearity of a stationary time series[J].Journal of Time Series Analysis,1982,3(3):169-176.
[6] Theiler J,Eubank S,Longtin A,et al.Testing for nonlinearity in time series:The method of surrogate data[J].Physical D Nonlinear Phenomena,1992,58:77-94.
[7] White H.An additional hidden unit test for neglected nonlinearity in multilayer feed-forward networks[C]//Proceedings of the International Joint Conference on Neural Networks.New York:IEEE Press,1989(2):451-455.
[8] Schreiber T,Schmitz A.Improved surrogate data for nonlinearity tests[J].Physical Review Letter,1996,77(4):635-638.
[9] Teraesvirta T,Lin C F,Granger C W J.Power of the Neural Network Linearity Test[J].Journal of Time Series Analysis,1993,14:209-220.
[10] Rosenstein M T ,Collins J J,Luca C J D.A practical method for calculating largest Lyapunov exponents from small data sets[J].Physical D,1993,65:117-134.
[11] Nychka D,Ellner S,Gallant A,et al.Finding chaos in noisy systems[J].Journal of Royal Statistical Society B,1992,54(2):399-426.
[12] 張 維,楊旭才,陸曉春,等.污水處理廠機(jī)器學(xué)習(xí)綜合評(píng)價(jià)[J].天津大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2008,10(2):118-121.
Application of Nonlinearity Test and Prediction in Assessment of Sewage Disposal Plants
ZHANG Shi-ying,LI Qi
(School of Management,Tianjin University,Tianjin 300072,China)
Scientific prediction of reasonable water consumption is inevitable to avoid blind expansion in sewage disposal plants with low efficiency of investment.Historical data were collected.Independent tests such as BDS,Box-Pierce and Box-Ljung tests and nonlinearity tests including surrogate data,Hinich's bispectrum and White's artificial neuron network tests were applied jointly.The reconstruction prediction model is selected through these tests.The prediction errors of AR,random forest,stochastic gradient boosting,support vector,artificial neuron network and multivariate adaptive regression splines were calculated based on real consumption.The results show that artificial neuron network with nonlinear relation exhibits the minimal error,which accords with the conclusion of all tests.
water consumption;nonlinearity test;prediction;stochastic gradient boosting
X730
A
1008-4339(2010)04-0318-04
2009-10-20.
國(guó)家自然科學(xué)基金資助項(xiàng)目(10772132);中國(guó)博士后科學(xué)基金資助項(xiàng)目(20060400706).
張世英(1936— ),男,教授.
李 琦,liqifree2003@yahoo.com.cn.
天津大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2010年4期