吳慧英,楊日劍,張 穎,蒙語樺
(湖南大學(xué) 土木工程學(xué)院,湖南 長(zhǎng)沙 410000)
?
基于PCA-SVR的池塘DO預(yù)測(cè)模型
吳慧英,楊日劍,張 穎,蒙語樺
(湖南大學(xué) 土木工程學(xué)院,湖南 長(zhǎng)沙 410000)
為解決傳統(tǒng)水質(zhì)預(yù)測(cè)模型泛化能力低、預(yù)測(cè)精度差等問題,提出了基于主成分分析和支持向量機(jī)相結(jié)合的養(yǎng)殖池塘溶解氧預(yù)測(cè)模型.該模型通過主成分分析篩選反映池塘水體溶解氧信息的關(guān)鍵指標(biāo),減少模型輸入變量,采用支持向量機(jī)算法建立水質(zhì)預(yù)測(cè)模型,并用于長(zhǎng)沙市喬口鎮(zhèn)與望城區(qū)池塘養(yǎng)殖溶解氧預(yù)測(cè)中.結(jié)果表明,該模型預(yù)測(cè)精度高,同時(shí)具有很強(qiáng)的泛化能力與適應(yīng)數(shù)據(jù)變化的能力,可用于池塘溶解氧預(yù)測(cè).
主成分分析;支持向量機(jī);水質(zhì)預(yù)測(cè);養(yǎng)殖池塘
溶解氧濃度是養(yǎng)殖區(qū)域水環(huán)境規(guī)劃和現(xiàn)代漁業(yè)健康養(yǎng)殖精準(zhǔn)化管理的重要基礎(chǔ)性工作,準(zhǔn)確的溶解氧預(yù)測(cè)對(duì)養(yǎng)殖水質(zhì)科學(xué)化調(diào)控、防范水質(zhì)惡化和控制水產(chǎn)品疾病爆發(fā)具有十分重要的經(jīng)濟(jì)價(jià)值和現(xiàn)實(shí)意義[1].目前常用的水質(zhì)預(yù)測(cè)方法有指數(shù)平滑法[2]、專家評(píng)估法[3]、多元回歸法[4]、灰色模型法[5-6]等.然而這些方法只適用于樣本數(shù)量較大、維數(shù)較低和線性程度較高的水質(zhì)預(yù)測(cè),對(duì)于非線性、高維數(shù)和小樣本水質(zhì)數(shù)據(jù)預(yù)測(cè)效果不佳.神經(jīng)網(wǎng)絡(luò)法具有較好的非線性預(yù)測(cè)能力,但也容易出現(xiàn)局部極值、過學(xué)習(xí)等問題[7-8].支持向量機(jī)是基于VC維和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的一種新型機(jī)器學(xué)習(xí)方法,不僅適用于非線性問題,還能夠克服傳統(tǒng)智能算法出現(xiàn)的過學(xué)習(xí)、小樣本時(shí)泛化能力差等多方面的缺點(diǎn)[9].
池塘養(yǎng)殖中溶解氧濃度預(yù)測(cè)需要多種水質(zhì)指標(biāo)作為輸入變量,但變量過多,會(huì)造成一定的信息重疊,同時(shí)造成計(jì)算復(fù)雜,易陷入局部?jī)?yōu)化問題,使預(yù)測(cè)結(jié)果準(zhǔn)確性下降.針對(duì)這些問題,筆者提出采用主成分分析與支持向量機(jī)相結(jié)合的方法進(jìn)行養(yǎng)殖水質(zhì)預(yù)測(cè),主成分分析法能夠從眾多水質(zhì)指標(biāo)中篩選出能夠反映水質(zhì)主要情況的關(guān)鍵性指標(biāo),剔除偽指標(biāo),然后將選取的主要水質(zhì)指標(biāo)作為輸入樣本建立支持向量機(jī)水質(zhì)預(yù)測(cè)模型,并以養(yǎng)殖水體為例進(jìn)行水質(zhì)預(yù)測(cè),該方法收斂速度快,預(yù)測(cè)精度較高.
1.1 主成分分析法
由于影響?zhàn)B殖池塘水質(zhì)的評(píng)價(jià)指標(biāo)較多,且每個(gè)指標(biāo)都能在一定程度上反應(yīng)水體的部分信息,同時(shí)指標(biāo)之間也存在相關(guān)或重疊的關(guān)系,這樣就導(dǎo)致在用多元統(tǒng)計(jì)方法進(jìn)行多變量問題求解時(shí),增加問題的復(fù)雜性及求解的計(jì)算量,還有可能導(dǎo)致問題求解精度下降.在實(shí)踐中人們希望盡可能地減少變量的個(gè)數(shù),用更少的變量反映盡可能多的信息,而主成分分析方法(principal component analysis,簡(jiǎn)稱PCA)正是一種將多維因子納入同一系統(tǒng)進(jìn)行定量化研究且理論比較完善的多元統(tǒng)計(jì)分析方法,在解決很多實(shí)際問題時(shí)已取得較好效果[10].
主成分分析法的基本思想是指采用降低維數(shù)的方法,在失去很少信息的前提下,將各種原始變量轉(zhuǎn)化為幾個(gè)指標(biāo)(稱之為主成分)之間的線性組合,剩下的信息稱之為原始變量[11].這樣在數(shù)據(jù)指標(biāo)較多的水質(zhì)評(píng)價(jià)研究中,就可以把復(fù)雜的多維問題轉(zhuǎn)化成低維問題且最大程度地保留原始數(shù)據(jù)信息.主成分分析法的主要步驟為:
(1) 數(shù)據(jù)標(biāo)準(zhǔn)化.設(shè)有n個(gè)樣本,每個(gè)樣本有m項(xiàng)指標(biāo),對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化為
(1)
其中:zij為標(biāo)準(zhǔn)化后的指標(biāo)值,xj是第j項(xiàng)指標(biāo)數(shù)據(jù)的平均值,sj是第j項(xiàng)指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)差.
(2) 計(jì)算相關(guān)矩陣.對(duì)標(biāo)準(zhǔn)化的數(shù)據(jù)進(jìn)行相關(guān)分析,計(jì)算相關(guān)矩陣R
(2)
(4) 計(jì)算主成分y
(3)
1.2 支持向量機(jī)預(yù)測(cè)方法
支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理基礎(chǔ)上的一種新的機(jī)器學(xué)習(xí)算法[10,12-15].該算法根據(jù)有限的樣本信息采用非線性映射Φ把數(shù)據(jù)映射到一個(gè)高維特征空間中去,使得樣本在高維空間中進(jìn)行線性回歸.由泛函模型可知,只要存在一種滿足Mercer條件的函數(shù)K(xi,xj),K(xi,xj)=Φ(xi)×Φ(xj),就與某一空間中的內(nèi)積相對(duì)應(yīng),這樣監(jiān)測(cè)數(shù)據(jù)在高維空間內(nèi)積可轉(zhuǎn)換為核函數(shù)內(nèi)積,使計(jì)算工作量大大減少.因此該非線性函數(shù)可構(gòu)造為
(4)
由式(4)可知,無需知道非線性映射Φ,而只要找到一個(gè)核函數(shù),就可以通過該核函數(shù)進(jìn)行非線性處理,對(duì)于函數(shù)的回歸問題,其估計(jì)函數(shù)就是核函數(shù)的線性組合.
1.3 養(yǎng)殖池塘組合預(yù)測(cè)模型的建立
基于主成分分析的支持向量機(jī)池塘養(yǎng)殖溶解氧組合預(yù)測(cè)模型原理是將參加水質(zhì)預(yù)測(cè)的水質(zhì)指標(biāo)進(jìn)行主成分分析,篩選出影響池塘養(yǎng)殖溶解氧濃度的關(guān)鍵指標(biāo)作為支持向量機(jī)的輸入向量,降低預(yù)測(cè)維數(shù),然后通過預(yù)測(cè)樣本訓(xùn)練此模型,使不同的輸入向量得到相應(yīng)的輸出值,從而建立一種水質(zhì)預(yù)測(cè)結(jié)果與實(shí)際值的非線性映射關(guān)系,經(jīng)過學(xué)習(xí)達(dá)到一定精度后,該非線性預(yù)測(cè)模型可成為養(yǎng)殖水體水質(zhì)組合預(yù)測(cè)的有效工具.具體步驟為:
(1) 選擇影響池塘溶解氧濃度關(guān)鍵指標(biāo).由于影響?zhàn)B殖水體溶解氧濃度的因素較多,關(guān)系較為復(fù)雜,對(duì)初始水質(zhì)指標(biāo)進(jìn)行主成分分析,篩選出養(yǎng)殖水體溶解氧關(guān)鍵指標(biāo).
(2) 數(shù)據(jù)歸一化.以主成分分析篩選的關(guān)鍵指標(biāo)作為預(yù)測(cè)模型輸入變量,采用最大-最小值法對(duì)變量進(jìn)行歸一化處理,消除指標(biāo)量綱之間影響.
(3) 建立支持向量機(jī)預(yù)測(cè)模型.選擇合適的SVR核函數(shù)和模型參數(shù),通過對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練構(gòu)造預(yù)測(cè)模型,并分析擬合誤差,當(dāng)模型精度達(dá)到預(yù)定要求時(shí)就完成相應(yīng)的預(yù)測(cè)建模.以測(cè)試樣本對(duì)模型進(jìn)行檢驗(yàn),驗(yàn)證其泛化性能.
2.1 研究區(qū)域及監(jiān)測(cè)指標(biāo)的選取
喬口鎮(zhèn)地理位置獨(dú)特,四面環(huán)水(湘江、柳林江、撇洪河、團(tuán)頭湖),養(yǎng)殖水面廣闊,除面積為8 000多畝的團(tuán)頭湖外,另有青草湖、南湖、湛湖等大小湖泊池塘近20 000畝,是望城區(qū)“百里水產(chǎn)走廊”的核心區(qū),因此,準(zhǔn)確預(yù)測(cè)喬口鎮(zhèn)池塘養(yǎng)殖水質(zhì)為當(dāng)?shù)厣a(chǎn)與管理提供可靠依據(jù),具有重要意義.
影響池塘溶解氧因素眾多,十分復(fù)雜,主要包括氣壓、溫度、光強(qiáng)、人工增壓、池塘中氧氣的消耗等,但上述影響因素在一定條件下具體到某一池塘監(jiān)測(cè)斷面時(shí)可認(rèn)為是不變的[16],而該課題在以國家“十二五”科技支撐項(xiàng)目“村鎮(zhèn)環(huán)境監(jiān)測(cè)與應(yīng)用示范”基礎(chǔ)上,綜合考慮各指標(biāo)在線監(jiān)測(cè)可能性的情況下,選擇總磷、總氮、氨氮、硝酸鹽、亞硝酸鹽、化學(xué)需要量、溫度、SS、電導(dǎo)率等指標(biāo)作為輸入變量進(jìn)行分析,溶解氧為輸出變量.
2.2 池塘養(yǎng)殖水質(zhì)關(guān)鍵指標(biāo)篩選
為消除數(shù)據(jù)間的多重共線性,提高預(yù)測(cè)速度,采用主成分分析法對(duì)養(yǎng)殖水質(zhì)進(jìn)行分析,篩選影響溶解氧值的關(guān)鍵指標(biāo).按照主成分分析法的步驟采用MATLAB軟件對(duì)養(yǎng)殖水體水質(zhì)指標(biāo)進(jìn)行篩選,因水質(zhì)數(shù)據(jù)間的非線性較強(qiáng),采用正態(tài)標(biāo)準(zhǔn)化方式進(jìn)行數(shù)據(jù)預(yù)處理,以此標(biāo)準(zhǔn)化數(shù)據(jù)為基礎(chǔ)得到主成分特征值與貢獻(xiàn)率,如表1所示.
表1 特征值與累計(jì)方差貢獻(xiàn)率
由表1可知,前3個(gè)成分的累計(jì)方差貢獻(xiàn)率達(dá)到88.76%,符合累計(jì)方差貢獻(xiàn)率大于等于 85% 作為提取主成分的原則,因此,可確定前3個(gè)因子代替原變量.
根據(jù)特征值及特征向量,計(jì)算各水質(zhì)指標(biāo)的主成分荷載,計(jì)算結(jié)果如表 2所示.
表2 主成分載荷矩陣
從表2可知,第1主成分中總磷和總氮的相關(guān)系數(shù)較高,絕對(duì)值超過了0.9,第2主成分中化學(xué)需氧量與溶解氧相關(guān)系數(shù)較其他水質(zhì)指標(biāo)高,絕對(duì)值超過0.65,第3主成分中起主要影響的為溫度,其相關(guān)系數(shù)絕對(duì)值為0.723.結(jié)合水體實(shí)際情況,筆者選用總氮、總磷、化學(xué)需氧量和溫度作為影響水質(zhì)溶解氧的關(guān)鍵指標(biāo),并以此為構(gòu)建支持向量機(jī)預(yù)測(cè)型的輸入樣本.
2.3 支持向量機(jī)預(yù)測(cè)模型
根據(jù)主成分分析法選擇的影響?zhàn)B殖水質(zhì)關(guān)鍵指標(biāo),以養(yǎng)殖水體最不利斷面連續(xù)15 d(2015年1月18日至2月1日)共30組的監(jiān)測(cè)數(shù)據(jù)為基礎(chǔ),并將數(shù)據(jù)分割成兩部分.以1月18日至1月28日數(shù)據(jù)為訓(xùn)練樣本,建立預(yù)測(cè)模型;以1月29日至2月1日為測(cè)試樣本,驗(yàn)證所建模型的準(zhǔn)確性及推廣能力,并與傳統(tǒng)的SVR模型和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較,驗(yàn)證模型的優(yōu)越性.各方法的預(yù)測(cè)結(jié)果見表3.
表3 溶解氧預(yù)測(cè)結(jié)果
由表3可知,在訓(xùn)練樣本較小時(shí),PCA-SVR模型預(yù)測(cè)值較SVR模型和人工神經(jīng)網(wǎng)絡(luò)模型更接近實(shí)際值,預(yù)測(cè)效果更好.
為進(jìn)一步分析對(duì)比PCA-SVR、SVR和BP神經(jīng)網(wǎng)絡(luò)三種預(yù)測(cè)模型效果,必須選擇一套客觀科學(xué)的評(píng)價(jià)指標(biāo)對(duì)預(yù)測(cè)效果進(jìn)行全方位的綜合性衡量和評(píng)價(jià),使得預(yù)測(cè)效果更加直接,更加可靠.按照預(yù)測(cè)效果評(píng)價(jià)原則和慣例,采用均方誤差(MSE)、平均絕對(duì)百分比誤差(MAPE)和均方百分比誤差(MSPE)作為評(píng)價(jià)指標(biāo),評(píng)價(jià)結(jié)果見表4.
表4 三種模型誤差對(duì)比
由表4可知,BP神經(jīng)網(wǎng)絡(luò)模型的均方誤差、平均絕對(duì)百分比誤差和均方百分比誤差分別為9.58%,7.85%和24.18%,SVR模型的均方誤差、平均絕對(duì)百分比誤差和均方百分比誤差分別為2.40%,19.39%,35.18%,而PCA-SVR模型的均方誤差、平均絕對(duì)百分比誤差和均方百分比誤差最小,分別為4.78%,3.43%,10.86%,說明無論是相對(duì)誤差、平均絕對(duì)百分比誤差還是均方百分比誤差PCA-SVR模型都比SVR模型和BP神經(jīng)網(wǎng)絡(luò)模型精度高,主要原因是人工神經(jīng)網(wǎng)絡(luò)模型只是建立局部?jī)?yōu)化的基礎(chǔ)上,容易造成局部極值,使訓(xùn)練失敗,傳統(tǒng)的SVR模型由于指標(biāo)數(shù)多,維數(shù)大,干擾大,造成信息過度重疊,預(yù)測(cè)精度降低,而PCA-SVR模型通過主成分分析保留了影響溶解氧濃度的關(guān)鍵信息,同時(shí)剔除了增加運(yùn)算時(shí)間和干擾預(yù)測(cè)性能的噪聲數(shù)據(jù),因此預(yù)測(cè)精度高,泛化能力強(qiáng).
2.4 預(yù)測(cè)應(yīng)用
將預(yù)測(cè)模型應(yīng)用到長(zhǎng)沙市某池塘養(yǎng)殖水體中,預(yù)測(cè)水體中溶解氧未來變化趨勢(shì),以進(jìn)一步驗(yàn)證該模型的普適性和精確性,步驟與上述類似,首先進(jìn)行主成分分析,選擇影響溶解氧的關(guān)鍵指標(biāo)作為輸入變量,考慮數(shù)據(jù)的可在線監(jiān)測(cè)性,主要選擇pH、BOD、COD、總磷、總氮、氨氮、硝態(tài)氮、亞硝態(tài)氮、溶解氧等指標(biāo)進(jìn)行分析,主成分分析結(jié)果列于表5.
表5 溶解氧影響系數(shù)
從表5可知,第1主成分中BOD5和COD的相關(guān)系數(shù)較高,絕對(duì)值超過了0.3;第2主成分中總磷與氨氮相關(guān)系數(shù)較其他水質(zhì)指標(biāo)高,絕對(duì)值超過0.1.因此結(jié)合水體實(shí)際情況,選用BOD5、COD、總磷和氨氮作為預(yù)測(cè)型的輸入樣本.
根據(jù)主成分分析法選擇的輸入變量,以該水體最不利斷面連續(xù)15 d的30組監(jiān)測(cè)數(shù)據(jù)為基礎(chǔ),以前11 d的22組數(shù)據(jù)為訓(xùn)練樣本,建立預(yù)測(cè)模型;對(duì)最后4 d的8組數(shù)據(jù)進(jìn)行預(yù)測(cè)對(duì)比,進(jìn)一步驗(yàn)證所建模型的準(zhǔn)確性和適用性,預(yù)測(cè)結(jié)果列于表6.
由表6可知,PCA-SVR模型預(yù)測(cè)值與實(shí)際值接近,預(yù)測(cè)精度較高,最大相對(duì)誤差僅為13.49%,而絕大部分誤差精度在10%以內(nèi),滿足實(shí)際應(yīng)用需求.因此,基于PCA-SVR的溶解氧預(yù)測(cè)模型能夠較準(zhǔn)確地預(yù)測(cè)池塘養(yǎng)殖水體溶解氧數(shù)據(jù)變化情況,具有使用價(jià)值.
表6 預(yù)測(cè)結(jié)果對(duì)比
作者將主成分分析與支持向量機(jī)結(jié)合進(jìn)行養(yǎng)殖水質(zhì)預(yù)測(cè),主成分分析提取影響?zhàn)B殖水體溶解氧濃度的關(guān)鍵指標(biāo),可以降低模型輸入變量維數(shù),提高模型的訓(xùn)練速度,從而提高水質(zhì)預(yù)測(cè)的實(shí)時(shí)性,而支持向量機(jī)預(yù)測(cè)模型具有預(yù)測(cè)精度高,泛化能力強(qiáng),抗噪性能強(qiáng)等優(yōu)點(diǎn).通過與傳統(tǒng)SVR模型和BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果的對(duì)比分析可以看出,筆者文中提出的PCA-SVR預(yù)測(cè)方法得到令人滿意的結(jié)果,是預(yù)測(cè)水質(zhì)較理想方法,可以用于實(shí)際生產(chǎn).
[1] 劉雙印,徐龍琴,李振波,等.基于PCA-MCAFA-LSSVM的養(yǎng)殖水質(zhì)pH值預(yù)測(cè)模型[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2014,45 (5):239-246.
[2] 李燕斌,張久菊,肖俊明.基于指數(shù)平滑法的灰色預(yù)測(cè)模型[J].中原工學(xué)院學(xué)報(bào),2015,26 (4):1-4.
[3] 李昌鑄,王麗云.特爾斐專家評(píng)估法在公路橋梁評(píng)價(jià)中的應(yīng)用[J].中國公路學(xué)報(bào),1993,6 (2):47-53.
[4] 湯志成,孫涵.最優(yōu)化因子處理及加權(quán)多重回歸模型[J].氣象學(xué)報(bào),1992,50 (4):514-517.
[5] 張秀芝,王靜,張雨山,等.基于GM(1,1)灰色模型預(yù)測(cè)沿海城市用水量——以大連市為例[J].海洋技術(shù)學(xué)報(bào),2014,33 (2):47-51.
[6] DELLANA S,WEST D.Predictive modeling for wastewater application:linear approaches[J].Environmental Modeling and Software,2009,24 (1):96-106.
[7] ?MER FARUK D.A hybrid neural network and ARIMA model for water quality time series prediction[J].Engineering Applications of Artificial Intelligence,2010,23 (4):586-594.
[8] PALANI S,LIONG S Y,TKALICH P.An efficient self-organizing RBF neural network memory structures for basin water quality forecasting[J].International Journal of Forecasting,2011,27 (3):777-803.
[9] 李黎武,施周.基于小波支持向量機(jī)的城市用水量非線性組合預(yù)測(cè)[J].中國給水排水,2010,26 (1):54-57.
[10] 庫路巴依,白云鵬,王玲.主成分分析法在水庫水質(zhì)綜合評(píng)價(jià)中的應(yīng)用[EB/OL].北京:中國科技論文在線 [2008-02-28].http://www.paper.edu.cn/releasepaper/content/200802-357.
[11] ZHANG X,WU J,SONG B.Application of principal component analysis in groundwater quality assessment [C]// Water Resource and Environmental Protection (ISWREP),2011 International Symposium on IEEE,2011:177-183.
[12] 宋來洲,白明華,李健.微濾分離膜在城市污水深度處理中的應(yīng)用[J].安全與環(huán)境學(xué)報(bào),2004,4 (5):12-15.
[13] 王紅瑞,劉曉紅,唐奇,等.基于小波變換的支持向量機(jī)水文過程預(yù)測(cè)[J].清華大學(xué)學(xué)報(bào) (自然科學(xué)版),2010,50 (9):1378-1382.
[14] 張土喬,俞亭超.提高支持向量機(jī)洪水峰值預(yù)報(bào)精度研究[J].水力發(fā)電學(xué)報(bào),2005,24 (2):35-39.
[15] 劉雙印,徐龍琴,李道亮,等.基于時(shí)間相似數(shù)據(jù)的支持向量機(jī)水質(zhì)溶解氧在線預(yù)測(cè)[J].農(nóng)業(yè)工程學(xué)報(bào),2014,30 (3):155-162.
[16] 郭連喜,鄧長(zhǎng)輝.基于模糊神經(jīng)網(wǎng)絡(luò)的池塘溶解氧預(yù)測(cè)模型[J].水產(chǎn)學(xué)報(bào),2006,30 (2):225-229.
(責(zé)任編輯 于 敏)
Forecasting model for DO of pond water quality based on PCA-SVR
WU Huiying,YANG Rijian,ZHANG Ying,MENG Yuhua
(College of Civil Engineering College,Hunan University,Changsha 410000,China)
In order to solve the problem of low prediction accuracy and poor generalization ability of the traditional forecasting methods in water quality,this paper proposed forecasting model for DO value of pond water quality based on PCA-SVR.The model picks key indicators which can reflect DO condition of pond water environment by the principal component analysis,reduce the model input variables,uses support vector machine algorithm for establishing water quality prediction model and adapts it to pond aquaculture water of Qiaokou town and Wang cheng district,Changsha.The application examples show that the model prediction has strong generalization ability and adaptability to change of data and functions,meanwhile has high prediction precision,it can be used to forecast aquaculture water dissolved oxygen quality.
principal component analysis;support vector machine;water quality forecast;pond aquaculture water
10.3969/j.issn.1000-2162.2016.06.017
2015-08-28
“十二五”國家科技支撐項(xiàng)目(2012BAJ24B03)
吳慧英(1967-),女,湖南長(zhǎng)沙人,湖南大學(xué)副教授,研究生導(dǎo)師.
TV213
A
1000-2162(2016)06-0103-06
安徽大學(xué)學(xué)報(bào)(自然科學(xué)版)2016年6期