白曉哲, 張慧妍, 王小藝, 王 立, 許繼平, 于家斌
(北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院 食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100048)
動(dòng)態(tài)聚類最近鄰法在湖庫(kù)藍(lán)藻水華預(yù)測(cè)中的應(yīng)用
白曉哲, 張慧妍, 王小藝, 王 立, 許繼平, 于家斌
(北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100048)
[目的] 探索湖庫(kù)藍(lán)藻水華的有效預(yù)測(cè)方法,為水環(huán)境污染防治關(guān)鍵問(wèn)題的解決提供科學(xué)依據(jù)。 [方法] 結(jié)合藍(lán)藻水華演化中表現(xiàn)出的混沌類隨機(jī)特點(diǎn),提出一種基于有效性函數(shù)優(yōu)化的動(dòng)態(tài)聚類算法,以實(shí)現(xiàn)藍(lán)藻水華動(dòng)態(tài)、小范圍近鄰優(yōu)化預(yù)測(cè)的目的。首先,基于動(dòng)態(tài)聚類算法對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行典型類的客觀劃分,為后續(xù)有效減小搜索空間,提高預(yù)測(cè)精度奠定基礎(chǔ);而后采用粒子群算法優(yōu)化得到各類的最佳近鄰個(gè)數(shù),以確定參與回歸建模的觀測(cè)值數(shù)量;最后依據(jù)最近鄰觀測(cè)數(shù)據(jù)建立動(dòng)態(tài)回歸預(yù)測(cè)模型。 [結(jié)果] 采用太湖金墅監(jiān)測(cè)站點(diǎn)2011年葉綠素a濃度測(cè)定值進(jìn)行建模,之后對(duì)2012年葉綠素a濃度進(jìn)行短期預(yù)測(cè)。新建模型的預(yù)測(cè)值與實(shí)際值運(yùn)行趨勢(shì)一致,且相對(duì)誤差為12.02%,而基于傳統(tǒng)聚類線性回歸算法的相對(duì)誤差為15.21%,基于BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)算法的相對(duì)誤差為19.51%,相空間重構(gòu)算法的相對(duì)誤差為38.42%。 [結(jié)論] 算例結(jié)果表明該方法的預(yù)測(cè)精度相對(duì)較高,證明了所提優(yōu)化預(yù)測(cè)方法的可行性與有效性。
藍(lán)藻水華; 動(dòng)態(tài)聚類; 最近鄰法; 預(yù)測(cè)
文獻(xiàn)參數(shù): 白曉哲, 張慧妍, 王小藝, 等.動(dòng)態(tài)聚類最近鄰法在湖庫(kù)藍(lán)藻水華預(yù)測(cè)中的應(yīng)用[J].水土保持通報(bào),2017,37(4):161-165.DOI:10.13961/j.cnki.stbctb.2017.04.027; Bai Xiaozhe, Zhang Huiyan, Wang Xiaoyi, et al. Dynamic clustering based on nearest neighbors for predicting of cyanobacteria bloom in lakes and reservoirs[J]. Bulletin of Soil and Water Conservation, 2017,37(4):161-165.DOI:10.13961/j.cnki.stbctb.2017.04.027
隨著中國(guó)工農(nóng)業(yè)的迅猛發(fā)展以及城市化進(jìn)程的加快,水體富營(yíng)養(yǎng)化問(wèn)題日益突出。水體富營(yíng)養(yǎng)化是指水體接納過(guò)量的氮、磷等營(yíng)養(yǎng)性物質(zhì),使得水體中藻類以及其他水生生物異常過(guò)度繁殖,出現(xiàn)水體溶解氧含量下降,透明度降低,動(dòng)植物大批死亡,造成水質(zhì)惡化,使水域生態(tài)和水功能受到阻礙和破壞,嚴(yán)重的甚至發(fā)生水華,給湖泊水環(huán)境及其生態(tài)系統(tǒng)帶來(lái)嚴(yán)重后果[1]。水體富營(yíng)養(yǎng)污染誘發(fā)水華暴發(fā)是一個(gè)多因素耦合、多維度消漲和具有內(nèi)在強(qiáng)非線性耗散結(jié)構(gòu)的復(fù)雜動(dòng)力學(xué)體系[2]。國(guó)內(nèi)學(xué)者王海云[3]對(duì)三峽庫(kù)區(qū)支流水華暴發(fā)的污染演變效應(yīng)進(jìn)行了分析,發(fā)現(xiàn)在水域、水文、時(shí)間、藻類組成、浮游生物指標(biāo)等因素上存在著大量的變化不明顯、關(guān)系模糊、突變、約束、開(kāi)放、自組織的混沌非線性行為效應(yīng),演變過(guò)程軌跡符合非線性行為效應(yīng)特征;王小藝[4]在對(duì)湖庫(kù)藍(lán)藻水華生成過(guò)程進(jìn)行機(jī)理研究的基礎(chǔ)上,對(duì)其進(jìn)行混沌特性判斷,結(jié)合復(fù)雜網(wǎng)絡(luò)的統(tǒng)計(jì)特征參數(shù),提出一種新的藍(lán)藻水華預(yù)測(cè)方法。由于混沌理論為具有隨機(jī)性、動(dòng)態(tài)性的非線性復(fù)雜系統(tǒng)提供了可行的研究途徑,并且已經(jīng)在一些領(lǐng)域得到應(yīng)用[5-8]。
目前,有關(guān)混沌時(shí)間序列的預(yù)測(cè)方法主要有全局預(yù)測(cè)法和局域預(yù)測(cè)法,其基本思路都是根據(jù)觀測(cè)數(shù)據(jù),重構(gòu)相空間,然后采用適當(dāng)?shù)慕7椒ㄔ谙嗫臻g中找到一個(gè)局部線性模型逼近系統(tǒng)動(dòng)態(tài)特性,實(shí)現(xiàn)一定時(shí)段內(nèi)的短時(shí)預(yù)測(cè),但它們有一定的局限性:一是模型階數(shù)較低,導(dǎo)致估計(jì)精度不高、魯棒性較差;二是需要的基礎(chǔ)知識(shí)較多、數(shù)據(jù)量及計(jì)算量較大、不便于理解。本文基于運(yùn)行工作點(diǎn)局部線性化思想,提出利用有效性函數(shù)依據(jù)研究對(duì)象的數(shù)據(jù)特征動(dòng)態(tài)劃分典型數(shù)據(jù)進(jìn)行聚類,而后基于最近鄰相似原則,通過(guò)粒子群算法優(yōu)化確定參與建模的最佳近鄰數(shù)量,最后應(yīng)用回歸算法構(gòu)建預(yù)測(cè)模型,有效地利用了鄰域內(nèi)的多個(gè)歷史信息。最后針對(duì)太湖金墅監(jiān)測(cè)站點(diǎn)的葉綠素a濃度實(shí)測(cè)數(shù)據(jù)進(jìn)行研究,結(jié)果表明該算法簡(jiǎn)潔、有效,具有較好的預(yù)測(cè)精度。
傳統(tǒng)的單變量混沌時(shí)間序列預(yù)測(cè)是基于Packard等人提出的相空間重構(gòu)方法[9],其中關(guān)鍵參數(shù)的選取存在一定的不確定性與不一致性。
1.1 基于動(dòng)態(tài)聚類的混沌時(shí)間序列模型
聚類是一種無(wú)監(jiān)督學(xué)習(xí)過(guò)程。K-means聚類是基于距離的聚類算法,具有算法簡(jiǎn)單快速、適于處理大數(shù)據(jù)集等優(yōu)點(diǎn),是聚類分析中使用最為廣泛的算法之一。
目前K-means聚類在應(yīng)用中存在兩個(gè)需要解決的問(wèn)題:一是最佳聚類數(shù)的確定;二是K-means聚類中邊界位置有用信息的處理。這兩個(gè)問(wèn)題的有效處理,對(duì)于后續(xù)預(yù)測(cè)精度的提高具有重要意義。為此,本文提出從以下兩個(gè)方面對(duì)傳統(tǒng)K-means聚類算法進(jìn)行改進(jìn)。
1.1.1 建立聚類有效性指標(biāo),確定最佳聚類數(shù) 構(gòu)建有效性指標(biāo),指標(biāo)函數(shù)取值最優(yōu)時(shí)對(duì)應(yīng)的聚類結(jié)果即為最優(yōu)聚類劃分。研究[10-11]表明,沒(méi)有一種有效性指標(biāo)能夠在任何情況下都具有普遍適用性,目前常用的4種聚類有效性指標(biāo)為Calinski-Harabasz(CH)指標(biāo)[12]、Hartigan(Ht)指標(biāo)[13]、Homogeneity-Separation(HS)指標(biāo)[14]、Krzanowski-Lai(KL)指標(biāo)[15]。本文基于前期對(duì)葉綠素a濃度預(yù)測(cè)研究經(jīng)驗(yàn),提出一種新的聚類有效性指標(biāo),即用聚類結(jié)果分布的自然屬性來(lái)評(píng)價(jià)類內(nèi)緊密性與類間分離性。
(1)
式中:Dwc(c)——聚類數(shù)為c時(shí)的類內(nèi)距離;c——聚類個(gè)數(shù);nw——第w(w=1,2,…,c)個(gè)子類的樣本數(shù)目;xnw,i,xnw,j——含有nw個(gè)樣本的子類中第i個(gè)樣本和第j個(gè)樣本,且i,j=1,2,…,nw。
(2) 類間距離。將兩個(gè)聚類中心點(diǎn)之間的歐式距離定義為2個(gè)類的類間距離。類間距離公式為:
(2)
式中:Dbc(c)——聚類數(shù)為c時(shí)的類間距離;cu,cv——第u個(gè)聚類中心和第v個(gè)聚類中心, 且u,v=1,2,…,c。
(3)
式中:Coq——聚類數(shù)為c時(shí)的聚類綜合質(zhì)量;ε,p,q——平衡聚類類內(nèi)距離與類間距離的權(quán)值,一般情況下p,q>0,0<ε<1。為了簡(jiǎn)化計(jì)算,取p=1,q=1;若類內(nèi)距離的值較小,而類間距離的值較大,為了避免較大的類間距離對(duì)較小的類內(nèi)距離的削弱作用,可增大類內(nèi)距離的權(quán)值,本文中針對(duì)葉綠素a濃度的數(shù)據(jù)分布特點(diǎn)取ε=0.7。顯然,聚類綜合質(zhì)量越大,表明聚類劃分效果越好。
1.1.2 確定聚類區(qū)域,提高樣本搜索精度 本文提出一種新的確定聚類半徑的方法,用于確定有效聚類區(qū)域,可提高類內(nèi)樣本搜索速度與精度。
聚類半徑公式為:
(4)
式中:Cra——聚類半徑;N——某子類的樣本個(gè)數(shù);yd——第d個(gè)樣本,且(d=1,2,…,N);C——聚類中心;Dd——第d個(gè)樣本與聚類中心的距離。
迭代過(guò)程中需要不斷重新劃定聚類區(qū)域,用更新后的聚類半徑分離出邊界點(diǎn)。則此子類邊界點(diǎn)集合為:
Bin={Dd│Dd>Cra}
(5)
總邊界點(diǎn)集合為:
BIN={Bin1,Bin2,…,Binc}
(6)
式中:BIN——總邊界點(diǎn)集合; Binc——第c個(gè)子類的邊界點(diǎn)集合。
后續(xù)則可依據(jù)未知對(duì)象所屬的子類與邊界點(diǎn)的集合來(lái)確定該未知對(duì)象的搜索空間。
1.2 粒子群算法
在確定了最佳聚類劃分后,希望通過(guò)采用相似性樣本信息構(gòu)建模型逼近預(yù)測(cè)值,在這個(gè)過(guò)程中選取樣本點(diǎn)的個(gè)數(shù)是一項(xiàng)較困難的工作。粒子群優(yōu)化算法(particle swarm optimization, PSO)是由Eberhart與Kennedy[16]根據(jù)鳥(niǎo)類捕食行為而發(fā)明的一種新的全局優(yōu)化進(jìn)化算法。本文采用粒子群算法利用群體中的個(gè)體樣本對(duì)信息的共享,實(shí)現(xiàn)問(wèn)題求解空間從無(wú)序到有序的演化過(guò)程,從而獲得最優(yōu)解。其中,粒子m的第b維速度與位置按如下公式進(jìn)行更新:
(7)
(8)
這樣,基于動(dòng)態(tài)的局部?jī)?yōu)化思想,利用粒子群算法分別對(duì)劃分后的聚類集合進(jìn)行最佳鄰居個(gè)數(shù)優(yōu)化。最終確定在每類中選取 個(gè)最近鄰樣本數(shù)據(jù)建立回歸模型進(jìn)行預(yù)測(cè)應(yīng)用。
回歸模型為:
Y=βX+E=β0+β1X1+β2X2+…+βkXk+E
(9)
式中:k——粒子群優(yōu)化得到的最佳鄰居個(gè)數(shù);βk——回歸系數(shù);E——隨機(jī)誤差。
1.3 模型預(yù)測(cè)
預(yù)測(cè)通常分為單步預(yù)測(cè)和多步預(yù)測(cè),假設(shè)樣本數(shù)為M,以單變量時(shí)間序列為研究對(duì)象的單步預(yù)測(cè)是指:利用t時(shí)刻前的M個(gè)觀測(cè)值作為模型的輸入數(shù)據(jù),得到第t+1時(shí)刻的預(yù)測(cè)值;多步預(yù)測(cè)是指利用該M個(gè)樣本不僅可以單步預(yù)測(cè)第t+1時(shí)刻的值,也可以預(yù)測(cè)第t+2,t+3,…,t+T個(gè)時(shí)刻的值,T——預(yù)測(cè)步長(zhǎng),即通過(guò)已知的樣本集可以外推進(jìn)行T步預(yù)測(cè)[17]。
(10)
考慮本文所選水華數(shù)據(jù)具有混沌屬性,采用間接多步預(yù)測(cè)可有效利用新信息逼近預(yù)測(cè)值,故本文應(yīng)用了間接多步預(yù)測(cè)法進(jìn)行葉綠素a濃度預(yù)測(cè)。
2.1 研究區(qū)概況與數(shù)據(jù)資料
太湖是中國(guó)第3大淡水湖,位于長(zhǎng)江三角洲南部,面積2 338 km2,平均水深1.9 m,屬于大型淺水湖泊。它不僅是旅游勝地,也是流域內(nèi)大中城市的重要水源。近年來(lái),隨著太湖地區(qū)經(jīng)濟(jì)的迅速發(fā)展,環(huán)境保護(hù)和治理相對(duì)滯后,入湖主要河道和湖區(qū)的水質(zhì)污染日益嚴(yán)重,特別是水體的富營(yíng)養(yǎng)化,已經(jīng)成為太湖水環(huán)境的主要問(wèn)題。太湖的富營(yíng)養(yǎng)化不僅制約著湖泊的可持續(xù)利用,而且直接影響到人民群眾的身體健康,太湖藍(lán)藻大規(guī)模爆發(fā)的條件短期內(nèi)難以消除,太湖水華是個(gè)需要長(zhǎng)期應(yīng)對(duì)的問(wèn)題,因此,建立水華預(yù)測(cè)系統(tǒng),采取有力措施遏制水華迫在眉睫。本文將基于時(shí)間序列的優(yōu)化動(dòng)態(tài)聚類模型應(yīng)用在具有混沌特性的湖庫(kù)藍(lán)藻水華表征因子——葉綠素a濃度的預(yù)測(cè)中。由于已證實(shí)藍(lán)藻水華演化過(guò)程中具有混沌屬性[4],而混沌系統(tǒng)非常敏感的特性會(huì)因?yàn)橐粋€(gè)微小擾動(dòng)導(dǎo)致演化軌跡的巨大差異,因此,混沌系統(tǒng)不能進(jìn)行長(zhǎng)期預(yù)測(cè);另一方面,混沌系統(tǒng)蘊(yùn)含著一定的有序規(guī)律,軌跡發(fā)散但逃逸不出奇異吸引子的約束,這使得短期預(yù)測(cè)是可行的。基于此特性,本文中預(yù)測(cè)建模數(shù)據(jù)采用太湖金墅站點(diǎn)2011年1月至2011年12月每隔4 h采集的2 000組葉綠素a濃度數(shù)據(jù),測(cè)試數(shù)據(jù)為2012年1月1日至2012年1月7日40組葉綠素a濃度數(shù)據(jù)。
2.2 最佳聚類數(shù)的確定
基于本文提出的有效性指標(biāo)對(duì)預(yù)測(cè)建模數(shù)據(jù)進(jìn)行優(yōu)化聚類計(jì)算,得到聚類綜合質(zhì)量最大時(shí)對(duì)應(yīng)的最佳聚類數(shù)為 。
對(duì)相同的數(shù)據(jù)集,采用上面提到的4種常用聚類有效性指標(biāo)CH指標(biāo)、Ht指標(biāo)、HS指標(biāo)、KL指標(biāo)進(jìn)行仿真試驗(yàn),最后得到各個(gè)指標(biāo)關(guān)于聚類數(shù)的變化曲線(圖1)。CH指標(biāo)、KL指標(biāo)、HS指標(biāo)將指標(biāo)函數(shù)達(dá)到最大值時(shí)的聚類數(shù)作為最佳聚類數(shù),Ht指標(biāo)將指標(biāo)函數(shù)值小于等于10的最小聚類數(shù)作為最佳聚類數(shù)。由圖1可得,CH指標(biāo)得到的最佳聚類數(shù)c=7;KL指標(biāo)得到的最佳聚類數(shù)為c=6;HS指標(biāo)得到的最佳聚類數(shù)為c=4;Ht指標(biāo)得到的最佳聚類數(shù)為c=1。
圖1 基于常用有效性指標(biāo)曲線的聚類結(jié)果圖
2.3 模型求解
對(duì)聚類劃分的每個(gè)子類進(jìn)行粒子群優(yōu)化確定最佳近鄰個(gè)數(shù)。粒子群算法的參數(shù)設(shè)置為:粒子維數(shù)為1維,迭代次數(shù)為100次,加速因子設(shè)置為2,因?yàn)榫€性權(quán)重比常數(shù)權(quán)重有更好的優(yōu)化效果,這里采用線性遞減權(quán)重;粒子群中的每一個(gè)粒子的位置值代表鄰居個(gè)數(shù)的取值,粒子的變化范圍設(shè)置為[10,100];適應(yīng)度函數(shù)為回歸模型計(jì)算值與實(shí)際值的誤差。優(yōu)化結(jié)果確定最佳近鄰個(gè)數(shù)為10。
這表明后續(xù)在已確定的典型類中可通過(guò)動(dòng)態(tài)選取10個(gè)最近鄰數(shù)據(jù)樣本,建立回歸預(yù)測(cè)模型。本文采用間接多步預(yù)測(cè)法進(jìn)行之后40個(gè)時(shí)間點(diǎn)葉綠素a濃度預(yù)測(cè)以考察模型的有效性,得到預(yù)測(cè)值與實(shí)測(cè)值的對(duì)比圖(圖2)。仿真結(jié)果表明基于本文提出的優(yōu)化動(dòng)態(tài)聚類局部K最近鄰法的預(yù)測(cè)值與表征水華形成的葉綠素a的實(shí)際值的運(yùn)行趨勢(shì)一致,并具有較好的預(yù)測(cè)精度。
圖2 基于動(dòng)態(tài)聚類算法的預(yù)測(cè)結(jié)果對(duì)比圖
2.4 模型評(píng)價(jià)與分析
為了評(píng)價(jià)本模型的精度與所提有效性指標(biāo)的有效性,針對(duì)同一數(shù)據(jù)集,分別采用相空間重構(gòu)算法、基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)算法、基于傳統(tǒng)聚類的回歸算法對(duì)葉綠素a濃度進(jìn)行對(duì)比預(yù)測(cè),評(píng)價(jià)指標(biāo)采用平均相對(duì)誤差和最大相對(duì)誤差。
相對(duì)誤差的計(jì)算公式為:
(11)
式中:erz——相對(duì)誤差; Acvz——第z組葉綠素a濃度實(shí)際值; Pcvz——第z組葉綠素a濃度預(yù)測(cè)值;
平均相對(duì)誤差的計(jì)算公式為:
(12)
式中:erav——平均相對(duì)誤差; g——預(yù)測(cè)長(zhǎng)度。
最大相對(duì)誤差的計(jì)算公式為:
ermax=max(│erz│)
(13)
式中:ermax——最大相對(duì)誤差。
基于不同算法的預(yù)測(cè)值與實(shí)測(cè)值的對(duì)比圖(圖3),預(yù)測(cè)誤差詳見(jiàn)表1。
由圖3和表1可得,與相空間重構(gòu)算法、基于BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)算法和基于傳統(tǒng)聚類的回歸算法等相比,本文的預(yù)測(cè)方法精度相對(duì)較高;同時(shí)基于各種有效性指標(biāo)的預(yù)測(cè)結(jié)果也驗(yàn)證了本文所提有效性指標(biāo)——聚類綜合質(zhì)量的合理性與有效性。雖然采用HS指標(biāo)得到的最佳聚類數(shù)與本文提出的聚類有效性指標(biāo)結(jié)果相同,但是其計(jì)算方法難于理解、評(píng)估性和通用性不強(qiáng),而本文提出的有效性指標(biāo)計(jì)算方便、容易理解,具有很強(qiáng)的實(shí)用性與普適性。
圖3 預(yù)測(cè)模型結(jié)果對(duì)比
預(yù)測(cè)方法 平均相對(duì)誤差最大相對(duì)誤差相空間重構(gòu)算法0.38421.1000BP神經(jīng)網(wǎng)絡(luò)算法0.19510.4736傳統(tǒng)聚類線性回歸算法0.15210.5863動(dòng)態(tài)聚類線性回歸算法(基于Ht指標(biāo))0.14520.3957動(dòng)態(tài)聚類線性回歸算法(基于KL指標(biāo))0.12650.4753動(dòng)態(tài)聚類線性回歸算法(基于CH指標(biāo))0.13090.6370動(dòng)態(tài)聚類線性回歸算法(基于聚類綜合質(zhì)量)0.12020.3867
在考慮藍(lán)藻水華表征因素葉綠素a濃度具有混沌特性的基礎(chǔ)上,借鑒非線性系統(tǒng)局部動(dòng)態(tài)建模的思想,提出一種基于聚類質(zhì)量的有效性函數(shù)優(yōu)化的動(dòng)態(tài)聚類算法。其中優(yōu)化動(dòng)態(tài)聚類局部K最近鄰方法中提出的有效性函數(shù)與一般常用的有效性函數(shù)相比能較好地劃分葉綠素a濃度時(shí)間序列的典型類,高效地精簡(jiǎn)了建模與搜索范圍;同時(shí),采用粒子群算法優(yōu)化確定類內(nèi)的最近鄰個(gè)數(shù)為后續(xù)非線性時(shí)間序列在典型區(qū)域內(nèi)利用最近鄰樣本逼近預(yù)測(cè)值問(wèn)題奠定了基礎(chǔ);最終基于太湖金墅站點(diǎn)葉綠素a濃度的預(yù)測(cè)分析結(jié)果表明,所提方法有效提高了具有混沌屬性的葉綠素a濃度的非線性預(yù)測(cè)趨勢(shì)與精度,且計(jì)算簡(jiǎn)便、可行性好,為非線性預(yù)測(cè)問(wèn)題提供了很好的思路。
[1]GubelitYI,BerezinaNA.Thecausesandconsequencesofalgalblooms:TheCladophoraglomeratabloomandtheNevaEstuary(EasternBalticSea)[J].MarinePollutionBulletin, 2010,61(4/6):183-188.
[2] 陳蘭蓀.非線性生物動(dòng)力系統(tǒng)[M].北京:科學(xué)出版社,1993.
[3] 王海云.三峽庫(kù)區(qū)水華暴發(fā)演變的非線性行為效應(yīng)研究[J].人民長(zhǎng)江,2010,41(19):48-51.
[4] 王小藝.基于復(fù)雜網(wǎng)絡(luò)的城市湖庫(kù)藻類水華混沌時(shí)間序列預(yù)測(cè)方法:中國(guó),201510128961.5[P].2015-03-24.
[5] 王一頡.多元混沌時(shí)間序列相關(guān)性分析及預(yù)測(cè)方法研究[D].遼寧 大連:大連理工大學(xué),2008.
[6] 呂金虎.混沌時(shí)間序列分析及其應(yīng)用[M].湖北 武漢:武漢大學(xué)出版社,2002.
[7]ZhangLichao,KongLiang,HanXiaodong,etal.Structuralclasspredictionofproteinusingnovelfeatureextractionmethodfromchaosgamerepresentationofpredictedsecondarystructure[J].JournalofTheoreticalBiology, 2016,400:1-10.
[8]YounesianD,NorouziH.ChaospredictioninnonlinearviscoelasticplatessubjectedtosubsonicflowandexternalloadusingextendedMelnikov’smethod[J].NonlinearDynamics, 2016,84(3):1163-1179.
[9] 韓敏,史志偉,郭偉.儲(chǔ)備池狀態(tài)空間重構(gòu)與混沌時(shí)間序列預(yù)測(cè)[J].物理學(xué)報(bào),2007,56(1):43-50.
[10] 周世兵.聚類分析中的最佳聚類數(shù)確定方法研究及應(yīng)用[D].江蘇 無(wú)錫:江南大學(xué),2011.
[11] 王開(kāi)軍,李健,張軍英,等.聚類分析中類數(shù)估計(jì)方法的試驗(yàn)比較[J].計(jì)算機(jī)工程,2008,34(9):198-199.
[12]CalinskiRB,HarabaszJ.Adendritemethodforclusteranalysis[J].CommunicationsinStatistics, 1974,3(1):1-27.
[13]HartiganJA,WongMA.AlgorithmAS136:AK-MeansClusteringAlgorithm[J].AppliedStatistics, 1979,28(1):100-108.
[14]ChenG,JaradatSA,BanerjeeN,etal.EvaluationandcomparisonofclusteringalgorithmsinanalyzingEScellgeneexpressiondata[J].StatisticaSinica, 2002,12(1):241-262.
[15]KrzanowskiWJ,LaiYT.Acriterionfordeterminingthenumberofgroupsinadatasetusingsum-of-squaresclustering[J].Biometrics, 1988,44(1):23-34.
[16] 姚德倉(cāng),宋松柏.設(shè)計(jì)洪水頻率曲線的粒子群優(yōu)化適線法研究[J].水土保持通報(bào),2007,27(6):112-115.
[17] 殷禮勝,何怡剛,董學(xué)平,等.交通流量VNNTF神經(jīng)網(wǎng)絡(luò)模型多步預(yù)測(cè)研究[J].自動(dòng)化學(xué)報(bào),2014,40(9):2066-2072.
[18] 謝景新.非線性多步預(yù)測(cè)與優(yōu)化方法及其在水文預(yù)報(bào)中的應(yīng)用[D].遼寧 大連:大連理工大學(xué),2006.
Dynamic Clustering Based on Nearest Neighbors for Predicting of Cyanobacteria Bloom in Lakes and Reservoirs
BAI Xiaozhe, ZHANG Huiyan, WANG Xiaoyi, WANG Li, XU Jiping, YU Jiabin
(Beijing Key Laboratory of Big Data Technology for Food Safety, College of Computer and Information Engineering, Beijing Technology and Business University, Beijing 100048, China)
[Objective] It is one of the key basic issue in the prevention and control of water environment by exploring effective prediction methods about cyanobacteria bloom in lakes and reservoirs. [Methods] Combined with the class random characteristic showed in the chaotic evolution of cyanobacteria bloom, this paper proposed a dynamic clustering algorithm based on the optimization of validity functions to achieve the optimal cluster number of cyanobacteria bloom and small-scale neighborhood optimal prediction. First of all, monitoring data were classified objectively by the proposed dynamic clustering algorithm to reduce effectively the search space and to improve the prediction accuracy. Then the optimal number of neighbors for all kinds was obtained using the particle swarm optimization algorithm, which was used to determine the number of participating in the local regressive algorithm. Finally, a dynamic regressive prediction model was established. [Results] The model established using the concentration data of chlorophyll a at the Jinshu monitoring site of Taihu Lake in 2011 was used to model and predict short-term variation of it in 2012. The predicted value of the model was consistent with the actual trend and the relative error was 12.02%, and was smaller than the ones predicted by other models, such as linear regression algorithm based on traditional clustering, BP neural network , and phase space reconstruction algorithm, whose relative errors were 15.21%, 19.51% and 38.42%. [Conclusion] Numerical results showed that the prediction accuracy of this method was relatively high, hence the feasibility and effectiveness of the optimization prediction method proposed were proved.
cyanobacteriabloom;dynamicclustering;nearestneighbormethod;prediction
B
: 1000-288X(2017)04-0161-05
: TP14, X524
2016-10-22
:2016-11-08
北京市屬高校創(chuàng)新能力提升計(jì)劃項(xiàng)目“北京河湖水環(huán)境監(jiān)測(cè)與智能管理物聯(lián)網(wǎng)應(yīng)用平臺(tái)”(PXM2014_014213_000033); 北京市教委科技重點(diǎn)項(xiàng)目(KZ201510011011); 北京市屬高校青年拔尖人才培育計(jì)劃(CIT&TCD201404031)
白曉哲(1993—),女(漢族),河北省邢臺(tái)市人,碩士研究生,研究方向?yàn)樗{(lán)藻水華預(yù)測(cè)。E-mail:15031269259@163.com。
張慧妍(1973—),女(漢族),黑龍江省齊齊哈爾市人,博士,副教授,主要從事水質(zhì)監(jiān)測(cè)、數(shù)據(jù)建模、分類與預(yù)測(cè)方面的研究。E-mail:zhanghuiyan369@126.com。