劉合香 ,簡(jiǎn)茂球
(1.廣西師范學(xué)院數(shù)學(xué)科學(xué)學(xué)院,廣西 南寧 530023;2.中山大學(xué)環(huán)境科學(xué)與工程學(xué)院大氣科學(xué)系,廣東 廣州 510275)
近30年來(lái),非線性智能計(jì)算方法被廣泛應(yīng)用于數(shù)學(xué)、大氣、經(jīng)濟(jì)、物理化學(xué)等學(xué)科[1-4]。隨著非線性智能計(jì)算方法的不斷發(fā)展,各種線性和非線性因子處理方法以及各類非線性模型,已越來(lái)越多地被人們所認(rèn)識(shí),尤其是如何選擇適當(dāng)?shù)囊蜃犹幚矸绞脚c建立的數(shù)學(xué)模型進(jìn)行優(yōu)化組合,是改進(jìn)預(yù)測(cè)模型、提高預(yù)測(cè)精度的重要途徑。Jin 等[5]針對(duì)神經(jīng)網(wǎng)絡(luò)方法在預(yù)測(cè)建模中存在的“過(guò)擬合”(over fitting)現(xiàn)象和提高泛化性能(gentralitation capability)問(wèn)題,提出了采用主成分分析構(gòu)造神經(jīng)網(wǎng)絡(luò)低維學(xué)習(xí)矩陣的預(yù)測(cè)建模方法。Yao等[6]針對(duì)季風(fēng)指數(shù)具有顯著的非線性變化特點(diǎn)及采用一般人工神經(jīng)網(wǎng)絡(luò)方法進(jìn)行預(yù)測(cè)建模難以客觀確定預(yù)測(cè)模型的網(wǎng)絡(luò)結(jié)構(gòu)問(wèn)題,采用非線性遺傳神經(jīng)網(wǎng)絡(luò)集成預(yù)測(cè)建模方法進(jìn)行了月季時(shí)間尺度的季風(fēng)強(qiáng)度指數(shù)預(yù)測(cè)方法研究。吳建生等[7]針對(duì)于BP神經(jīng)網(wǎng)絡(luò)在實(shí)際預(yù)測(cè)應(yīng)用中,網(wǎng)絡(luò)結(jié)構(gòu)難以確定以及網(wǎng)絡(luò)極易陷入局部解問(wèn)題,提出一種基于神經(jīng)網(wǎng)絡(luò)的粒子群集成學(xué)習(xí)算法的預(yù)測(cè)模型。萬(wàn)中英等[8]分析了遺傳算法和粒子群算法的優(yōu)缺點(diǎn),將兩者有效地結(jié)合在一起,建立了遺傳-粒子群的投影尋蹤模型,解決了投影方向的尋優(yōu)問(wèn)題。
然而,上述這些方法在因子處理的控制過(guò)程中,或采取線性的自然正交展開方法、或采用粒子尋蹤方法,都難以全面提取因子中所含的線性和非線性的信息。本文通過(guò)研究自然正交展開、粒子群-投影尋蹤和遺傳-神經(jīng)網(wǎng)絡(luò)模型的特點(diǎn),利用自然正交展開和粒子尋蹤,將高維非線性的數(shù)據(jù),投影到低維空間,濃縮并析取高維非線性數(shù)據(jù)的線性和非線性信息,再將其作為遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測(cè)模型的輸入,構(gòu)建一種新的非線性預(yù)測(cè)模型,并將該模型應(yīng)用于影響華南臺(tái)風(fēng)頻數(shù)預(yù)測(cè)試驗(yàn)。
在進(jìn)行預(yù)測(cè)建模研究時(shí),本文嘗試對(duì)選擇的預(yù)測(cè)因子進(jìn)行線性降維(自然正交展開)和非線性降維(粒子群-投影尋蹤),同時(shí)進(jìn)行預(yù)測(cè)信息的挖掘計(jì)算。
自然正交展開是一種可以將多維向量空間場(chǎng)資料壓縮到少數(shù)幾個(gè)主要模態(tài)的特征提取方法,主要包括以下步驟:
1)設(shè)預(yù)測(cè)因子距陣
(1)
將(1)分解成時(shí)間函數(shù)Z和空間向量V兩部分:
X=VZ
(2)
V是列向量構(gòu)成的特征向量矩陣,Z是所有主成分序列為行向量構(gòu)成的矩陣。
2)計(jì)算協(xié)方差矩陣
(3)
其中,XT為X的轉(zhuǎn)置。
通過(guò)計(jì)算實(shí)對(duì)稱矩陣S的特征值λ1,λ2,…,λm(λ1≥λ2≥…≥λm)和特征向量V=(v1,v2,…,vm),各主成分為原因子變量的線性組合為:
ξi=υi1x1+υi2x2+···+υinxn
(4)
3)進(jìn)一步標(biāo)準(zhǔn)化主成分:
Z=VTX=(ξ1,ξ2,···,ξn)T
(5)
采用上述主成分計(jì)算方法,將原來(lái)的大量因子壓縮成少數(shù)幾個(gè)與預(yù)測(cè)量相關(guān)高的主成分因子,將此作為預(yù)測(cè)模型輸入的一部分。
由于變量ξi與ξj是相互獨(dú)立的,從而協(xié)方差Cov(ξi,ξj)=0,進(jìn)而,相關(guān)系數(shù)ρ(ξi,ξj)=0,說(shuō)明變量ξi與ξj不相關(guān),即主成分各因子變量之間是正交的,所以不會(huì)產(chǎn)生復(fù)共線性影響。
投影尋蹤是用來(lái)處理高維空間里一些非正態(tài)分布和非線性數(shù)據(jù)的統(tǒng)計(jì)方法。它能夠?qū)ふ曳从掣呔S空間數(shù)據(jù)的結(jié)構(gòu)或特征的投影方向,將高維數(shù)據(jù)投影到低維空間,達(dá)到在低維空間研究和分析高維空間數(shù)據(jù)的目的。以往的研究[9-11]都是采用遺傳算法尋找最佳的投影方向,但遺傳算法對(duì)初始種群的選擇有一定的依賴性,而且收斂速度慢,可行解不一定是最優(yōu)解。粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法是由Kennedy and Eberhart于1995年提出的全局優(yōu)化進(jìn)化算法[12-13],Bonabeau et al.[14]通過(guò)對(duì)蟻群的研究,完善了該算法。該算法中有一個(gè)被優(yōu)化函數(shù)決定的適應(yīng)值,根據(jù)每一個(gè)粒子的位置和速度決定搜索方向,各個(gè)粒子通過(guò)相互之間的作用,記憶、追隨當(dāng)前的最優(yōu)粒子,在解空間中不斷地搜索復(fù)雜空間的最優(yōu)區(qū)域,如果找到較好的解,將會(huì)以此為依據(jù)來(lái)尋找下一個(gè)解。用粒子群算法優(yōu)化投影方向的具體過(guò)程如下:
設(shè)預(yù)測(cè)的因子矩陣如式(1),投影方向矩陣為:
R={rij;i=1,2,…m,j=1,2,…p}
(p (6) 通過(guò) Z=X·R={zij;i=1,2,…,n,j=1,2,…,p} (7) 把原數(shù)據(jù)綜合成低維子空間的數(shù)據(jù)。通過(guò)計(jì)算投影值的標(biāo)準(zhǔn)差 (8) 和投影值的局部密度: ·u(t)·(K-dij) (9) 進(jìn)一步構(gòu)造投影指標(biāo)函數(shù): QR=Sz·Dz (10) 從而使局部投影點(diǎn)密集并凝結(jié)成團(tuán),以確定投影方向。 由于傳統(tǒng)方法難以求解復(fù)雜的非線性優(yōu)化問(wèn)題,所以,定義粒子群算法的適應(yīng)度函數(shù) Fit(rij)=QR (11) 利用粒子群優(yōu)化算法求解投影方向: maxQR=Sz·Dz rj≥0 (12) 具體實(shí)施如下: ① 初始化粒子群。每個(gè)粒子看作解空間的一個(gè)點(diǎn),在[0,1]上隨機(jī)產(chǎn)生N個(gè)隨機(jī)數(shù)作為個(gè)體,用m×p個(gè)浮點(diǎn)數(shù)表示粒子位置和速度的投影系數(shù)矩陣; ②通過(guò)式(11)和(12),計(jì)算每個(gè)粒子的適應(yīng)度Fit(rij),設(shè)第i(i=1,2,…,N)個(gè)粒子的速度為Vi,位置為Xi,它經(jīng)歷的最好位置為pb(i),群體中最好粒子的位置為pgb(i); ③對(duì)每個(gè)粒子,用它的適應(yīng)度Fit(rij)與個(gè)體所經(jīng)歷的最好位置的適應(yīng)度pb(i)比較,如果Fit(rij)>pb(i),就用Fit(rij)替換pb(i);然后,用Fit(rij)與全局所經(jīng)歷的最好位置的適應(yīng)度pgb(i)比較,如果Fit(rij)>pgb(i),用Fit(rij)替換pgb(i); ④根據(jù)粒子進(jìn)化方程: Vi+1=ω·Vi+c1r1[pb(i)-Xi]+c2r2[pgb(i)-Xi]Xi+1=Xi+Vi+1 更新第i(i=1,2,…,N)個(gè)粒子的速度和位置。其中,c1,c2為學(xué)習(xí)因子,r1,r2是[0,1]間的隨機(jī)數(shù),ω為慣性權(quán)重; ⑤ 重復(fù)②-④步,直至適應(yīng)度達(dá)到進(jìn)化代數(shù)的要求; ⑥ 從進(jìn)化到最后一代中選取k個(gè)適應(yīng)度較高的個(gè)體,得到k個(gè)較優(yōu)投影方向R={rij,i=1,2,…,n,j=1,2,…,k},新的因子矩陣為: (13) 遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測(cè)模型是采用進(jìn)化計(jì)算的遺傳算法和人工神經(jīng)網(wǎng)絡(luò)技術(shù)集成的模型構(gòu)建方法[6,15-16]。其主要思想和過(guò)程是利用進(jìn)化計(jì)算的遺傳算法結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)生成m個(gè)(數(shù)10個(gè))神經(jīng)網(wǎng)絡(luò)模型,然后利用每個(gè)預(yù)測(cè)模型個(gè)體的預(yù)測(cè)結(jié)果做集成,得到最終的集合預(yù)測(cè)結(jié)果。集合預(yù)測(cè)個(gè)體的神經(jīng)網(wǎng)絡(luò)模型是采用較為通用的三層前饋網(wǎng)絡(luò)模型[17-18]。該網(wǎng)絡(luò)模型的基本算法可以歸結(jié)為: 1)隨機(jī)給出網(wǎng)絡(luò)模型輸入層到隱層,隱層到輸出層的連接權(quán)和閾值,設(shè)定模型的總體收斂誤差,利用式(14): γhi+θi) (14) 計(jì)算輸入層到隱含層的激勵(lì)值(bi),其中rhi為輸入層到隱含層的連接權(quán),ah為相應(yīng)的輸入樣本,θi為相應(yīng)的閾值。進(jìn)一步利用式(15): ηj) (15) f(x)=1/(1+e-x) (16) 2)根據(jù)學(xué)習(xí)矩陣樣本,對(duì)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)訓(xùn)練,計(jì)算由式(15)得到的模型輸出與期望輸出的誤差,并調(diào)整輸入層到隱含層和隱含層到輸出層的連接權(quán)系數(shù)、閾值。 3)當(dāng)模型的計(jì)算收斂誤差大于設(shè)定的收斂誤差時(shí),轉(zhuǎn)到b,否則學(xué)習(xí)結(jié)束,并根據(jù)網(wǎng)絡(luò)模型的連接權(quán)、閾值和預(yù)測(cè)樣本的輸入因子,得出模型輸出值。 上述計(jì)算過(guò)程簡(jiǎn)單給出了作為集合預(yù)測(cè)個(gè)體的單個(gè)神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)過(guò)程。而如何構(gòu)造m個(gè)神經(jīng)網(wǎng)絡(luò)模型個(gè)體,本文是采用了進(jìn)化計(jì)算的遺傳算法(Genetic Algorithms)[15,18]。該算法是一種由選擇(繁殖),交叉(重組)和變異(突變)三個(gè)遺傳算子組成的全局搜索進(jìn)化算法。由遺傳算法生成神經(jīng)網(wǎng)絡(luò)集合個(gè)體的計(jì)算主要可歸結(jié)為3個(gè)部分: 1) 采用二進(jìn)制和實(shí)數(shù)的混合編碼方法,將每個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型個(gè)體的連接權(quán),閾值按順序排成一串,形成一個(gè)染色體作為一個(gè)遺傳個(gè)體。初始時(shí)段,采用隨機(jī)數(shù)生成m個(gè)神經(jīng)網(wǎng)絡(luò)遺傳個(gè)體,得到一個(gè)用于進(jìn)化計(jì)算的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型遺傳種群。 2)通過(guò)對(duì)遺傳種群個(gè)體解碼,利用前面的式(14)和式(15)計(jì)算遺傳種群中每個(gè)神經(jīng)網(wǎng)絡(luò)個(gè)體輸入層到隱層的輸出和隱層到輸出層的輸出值。進(jìn)一步利用: (17) 計(jì)算各個(gè)神經(jīng)網(wǎng)絡(luò)個(gè)體的總體誤差。并將總體誤差的倒數(shù)定義為適應(yīng)度函數(shù): (18) 3)對(duì)由隨機(jī)數(shù)生成的初始遺傳種群(設(shè)由m個(gè)遺傳個(gè)體組成遺傳種群),采用選擇,交叉和變異三個(gè)遺傳算子,對(duì)初始遺傳種群進(jìn)行進(jìn)化計(jì)算操作,其中,① 選擇算子操作:該算子是采用輪盤選擇方法,先將遺傳種群的每個(gè)個(gè)體解碼,并根據(jù)式(18)計(jì)算每個(gè)遺傳個(gè)體的適應(yīng)度值,再計(jì)算出全部遺傳個(gè)體的適應(yīng)度總和以及每個(gè)遺傳個(gè)體被選擇的概率: (19) 以保證在輪盤選擇中具有較大適應(yīng)度的遺傳個(gè)體有更大的可能被遺傳到下一代。 ② 交叉算子操作:交叉算子操作是采用多點(diǎn)交叉方法,它是對(duì)經(jīng)過(guò)選擇算子操作后,除了被選擇操作算子選擇到下一代遺傳種群以外的其它遺傳個(gè)體,以交叉概率pc對(duì)遺傳個(gè)體作多點(diǎn)交叉的基因變換,形成新的遺傳個(gè)體。 ③ 變異算子操作:變異算子也是對(duì)輪盤選擇,選擇下一代遺傳種群以外的其它遺傳個(gè)體,以概率pm對(duì)遺傳個(gè)體的基因與另一個(gè)遺傳個(gè)體作等位基因替換形成新的遺傳個(gè)體。 利用以上3個(gè)遺傳算子對(duì)初始遺傳種群進(jìn)行進(jìn)化計(jì)算,形成新一代遺傳種群。并以此進(jìn)行反復(fù)的進(jìn)化計(jì)算,每進(jìn)行一次進(jìn)化計(jì)算,遺傳種群就進(jìn)化一代,一直進(jìn)化到預(yù)先設(shè)定的第N代,進(jìn)化計(jì)算結(jié)束。將遺傳種群的每個(gè)遺傳個(gè)體解碼,得到m個(gè)神經(jīng)網(wǎng)絡(luò)模型個(gè)體,這m個(gè)模型個(gè)體即為集合預(yù)測(cè)的集合個(gè)體。本文采用等權(quán)方法,對(duì)m個(gè)集合個(gè)體成員賦予相同的權(quán)重,進(jìn)行集合預(yù)測(cè)建模,即對(duì)每一個(gè)神經(jīng)網(wǎng)絡(luò)個(gè)體賦予相同的權(quán)重,將m個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的預(yù)測(cè)值作累加并計(jì)算平均值,得出遺傳-神經(jīng)網(wǎng)絡(luò)集合預(yù)測(cè)模型的集合預(yù)測(cè)值。 大量的研究和實(shí)踐表明,預(yù)測(cè)對(duì)象和預(yù)測(cè)因子之間存在著十分復(fù)雜的線性和非線性關(guān)系,因此,要提高預(yù)測(cè)模型的精度,既要設(shè)法提取和濃縮原始因子序列中所包含的線性信息,同時(shí),也要析取其中的非線性信息。通過(guò)自然正交展開,可以較好地提取和濃縮原始數(shù)據(jù)中的線性信息,而粒子尋蹤則具有提取和濃縮非線性信息的特點(diǎn)。綜合以上兩種方法,可以較為全面地提取和濃縮原始數(shù)據(jù)序列中的有用信息。此外,非線性模型的泛化性能也是評(píng)價(jià)模型優(yōu)劣的另一關(guān)鍵因素。與普通的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型不同,遺傳-神經(jīng)網(wǎng)絡(luò)集成數(shù)學(xué)模型,不僅可以客觀地確定網(wǎng)絡(luò)結(jié)構(gòu),還具有非常好的泛化性能。 鑒于自然正交展開、粒子尋蹤以及遺傳-神經(jīng)網(wǎng)絡(luò)集成模型的優(yōu)點(diǎn),提出基于粒子尋蹤和遺傳-神經(jīng)網(wǎng)絡(luò)集成相結(jié)合的非線性預(yù)測(cè)模型,建模的具體步驟:① 對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,形成新的數(shù)據(jù)序列。② 將標(biāo)準(zhǔn)化處理后形成的新數(shù)據(jù)序列進(jìn)行自然正交展開,提取若干因子。③同時(shí),通過(guò)粒子尋蹤對(duì)標(biāo)準(zhǔn)化處理后形成的新數(shù)據(jù)序列做降維處理,提取若干因子。④將第②③步得到的因子作為遺傳-神經(jīng)網(wǎng)絡(luò)集成模型的輸入。⑤ 進(jìn)行遺傳-神經(jīng)網(wǎng)絡(luò)集成訓(xùn)練,并建立數(shù)學(xué)模型。 華南沿海(廣東,廣西和海南省沿海)是我國(guó)沿海熱帶氣旋活動(dòng)最頻繁、出現(xiàn)個(gè)數(shù)最多、影響程度最嚴(yán)重、全年受影響期最長(zhǎng)的區(qū)域之一。但年影響的頻數(shù)變幅大,最多時(shí)9個(gè),最少時(shí)1個(gè)。影響頻數(shù)的因子與頻數(shù)存在十分復(fù)雜的線性和非線性關(guān)系,很多學(xué)者提出了許多預(yù)測(cè)模型[15,19-21],但是,目前尚未見(jiàn)有利用粒子群-投影尋蹤算法將高維空間上的因子進(jìn)行逐次降維計(jì)算,進(jìn)一步利用非線性人工智能技術(shù)建模,進(jìn)行臺(tái)風(fēng)頻數(shù)預(yù)測(cè)的研究工作報(bào)道。本節(jié)應(yīng)用上一節(jié)所構(gòu)造的模型進(jìn)行華南臺(tái)風(fēng)頻數(shù)的遺傳-神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)試驗(yàn),探索臺(tái)風(fēng)頻數(shù)預(yù)測(cè)的新方法。 本文研究的數(shù)據(jù)來(lái)源于臺(tái)風(fēng)年鑒(1949-1988年)和熱帶氣旋年鑒(1989-2009),選取了1949-2009年影響華南的臺(tái)風(fēng)頻數(shù)。并以1949-2004年56個(gè)樣本作為預(yù)測(cè)的建模樣本,2005-2009年5個(gè)樣本作為獨(dú)立的預(yù)測(cè)樣本。 以NCEP再分析資料的500 hPa月平均高度場(chǎng)及月平均的海溫場(chǎng)作為基本的預(yù)測(cè)因子場(chǎng)。統(tǒng)計(jì)計(jì)算了臺(tái)風(fēng)頻數(shù)序列與前期(當(dāng)年1月至5月,上一年6-12月)各月預(yù)測(cè)因子場(chǎng)的相關(guān)關(guān)系。以臺(tái)風(fēng)頻數(shù)與前期各月預(yù)測(cè)因子場(chǎng)的相關(guān)系數(shù)絕對(duì)值≥0.20(達(dá)到0.02相關(guān)顯著性水平)的格點(diǎn)作為一個(gè)預(yù)測(cè)因子區(qū),再對(duì)相關(guān)區(qū)內(nèi)的格點(diǎn)進(jìn)行自然正交展開,進(jìn)一步計(jì)算臺(tái)風(fēng)頻數(shù)與自然正交展開后各分量的相關(guān)關(guān)系,提取高相關(guān)的各主分量,保證預(yù)測(cè)因子的高相關(guān)性。表1給出了臺(tái)風(fēng)頻數(shù)序列(樣本長(zhǎng)度為56)與月平均海溫、月平均500hPa的高度場(chǎng)前期各月相關(guān)普查計(jì)算后的高相關(guān)預(yù)測(cè)因子區(qū),進(jìn)行自然正交展開后計(jì)算得出的臺(tái)風(fēng)頻數(shù)與各主分量的相關(guān)系數(shù),取相關(guān)系數(shù)絕對(duì)值≥0.20的27個(gè)(其中海溫場(chǎng)的5個(gè),500 hPa高度場(chǎng)22個(gè))初選因子做建模樣本和預(yù)測(cè)試驗(yàn)。 表1 兩個(gè)物理量場(chǎng)高相關(guān)區(qū)自然正交展開后各主分量與臺(tái)風(fēng)頻數(shù)的相關(guān)系數(shù) 對(duì)上述27個(gè)因子采用逐步回歸方法,取F=3,從27個(gè)因子中篩選出9個(gè)因子,再對(duì)這9個(gè)預(yù)測(cè)因子作自然正交展開計(jì)算,并以方差貢獻(xiàn)大(分別是18.73%、15.6%、11.36%)、且與預(yù)測(cè)量相關(guān)高(分別為0.62、-0.36和0.26)的3個(gè)主分量作為預(yù)測(cè)因子。同時(shí),為了進(jìn)一步有效挖掘預(yù)測(cè)因子的有用預(yù)測(cè)信息,再對(duì)27個(gè)因子中篩選的9個(gè)因子采用粒子群優(yōu)化投影方法逐次降成1維(1維預(yù)測(cè)因子與預(yù)測(cè)量的相關(guān)系數(shù)為0.204)。利用3個(gè)主分量預(yù)測(cè)因子和1個(gè)粒子群投影尋蹤降維因子共4因子作為模型輸入,采用前面第3節(jié)的遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測(cè)建模方法建立臺(tái)風(fēng)頻數(shù)的預(yù)測(cè)模型。其中進(jìn)化計(jì)算的遺傳種群數(shù)取100,進(jìn)化代數(shù)為100代,遺傳操作的交叉概率為0.9,變異概率取0.05,加權(quán)系數(shù)下限取0.1、上限取0.9,投影維數(shù)取3,學(xué)習(xí)因子取1.5,位置下限取0、上限取1,速度下限取0、上限取1。并以神經(jīng)網(wǎng)絡(luò)輸入節(jié)點(diǎn)的0.5~1.5倍作為網(wǎng)絡(luò)模型結(jié)構(gòu)的搜索空間。網(wǎng)絡(luò)訓(xùn)練次數(shù)為200次,進(jìn)化計(jì)算結(jié)束后,對(duì)100個(gè)遺傳個(gè)體解碼,得到100個(gè)神經(jīng)網(wǎng)絡(luò)集成預(yù)測(cè)個(gè)體,再采用平均集成算法,得到臺(tái)風(fēng)頻數(shù)的遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測(cè)模型。利用該預(yù)測(cè)模型,對(duì)2005-2009年進(jìn)行了逐年的獨(dú)立樣本的預(yù)測(cè)試驗(yàn),預(yù)測(cè)結(jié)果見(jiàn)表2。由表2可以看出,這種新建的預(yù)測(cè)模型對(duì)臺(tái)風(fēng)頻數(shù)有較好的預(yù)測(cè)效果,5 年預(yù)測(cè)的平均絕對(duì)誤差為0.81個(gè),相對(duì)誤差為13%。 表2 基于自然正交展開和粒子尋蹤的遺傳-神經(jīng)網(wǎng)絡(luò)集成的臺(tái)風(fēng)頻數(shù)預(yù)測(cè)結(jié)果 本文提出的臺(tái)風(fēng)頻數(shù)預(yù)測(cè)方法,在前期物理量預(yù)測(cè)因子處理方法和預(yù)測(cè)模型輸入的設(shè)計(jì)構(gòu)造上進(jìn)行了新的嘗試,這種新的設(shè)計(jì)和計(jì)算處理方法是否有優(yōu)越性,需要作進(jìn)一步的分析比較。首先,分析在遺傳-神經(jīng)網(wǎng)絡(luò)的集合預(yù)測(cè)模型輸入中,如果不采用粒子群優(yōu)化投影方向,將高維非線性數(shù)據(jù)投影到低維空間,來(lái)構(gòu)造臺(tái)風(fēng)頻數(shù)系統(tǒng)的影響因子,而是利用月平均海溫場(chǎng)、500 hPa高度場(chǎng)經(jīng)過(guò)自然正交展開后得出的3個(gè)主分量預(yù)測(cè)因子,作為集合預(yù)測(cè)模型輸入,同樣建立一個(gè)遺傳-神經(jīng)網(wǎng)絡(luò)的臺(tái)風(fēng)頻數(shù)預(yù)測(cè)模型。并且在預(yù)測(cè)建模過(guò)程中,進(jìn)化計(jì)算的遺傳種群數(shù)等各項(xiàng)參數(shù)全部與3.2節(jié)一樣。利用該預(yù)測(cè)模型同樣對(duì)2005-2009年5年獨(dú)立樣本作預(yù)測(cè)試驗(yàn)。預(yù)測(cè)結(jié)果見(jiàn)表3。由表3結(jié)果可以看到,該預(yù)測(cè)模型的5 a獨(dú)立樣本預(yù)測(cè)平均絕對(duì)誤差為1.10,平均相對(duì)誤差為0.22,預(yù)測(cè)誤差明顯大于3.2節(jié)表2的預(yù)測(cè)結(jié)果。由此對(duì)比分析可以看出,用粒子群投影尋蹤降維方法進(jìn)一步挖掘預(yù)測(cè)信息是有效的。 表3 基于自然正交展開的遺傳-神經(jīng)網(wǎng)絡(luò)集成的臺(tái)風(fēng)頻數(shù) 另外,為了更進(jìn)一步客觀地分析評(píng)價(jià)預(yù)測(cè)模型輸入的降維處理計(jì)算方法和遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測(cè)模型的預(yù)測(cè)性能,將這種預(yù)測(cè)建模方法與常規(guī)的逐步回歸預(yù)測(cè)建模方法進(jìn)行了預(yù)測(cè)比較試驗(yàn)。首先仍然以前面計(jì)算得出的月平均海溫場(chǎng)5個(gè)相關(guān)因子區(qū), 500 hPa月平均的高度場(chǎng)22個(gè)相關(guān)因子區(qū),共27個(gè)高相關(guān)預(yù)測(cè)因子作為初選預(yù)測(cè)因子。為了作客觀的比較,根據(jù)這27個(gè)預(yù)測(cè)因子我們分別取F=2、3、4、5時(shí),由逐步回歸方法自動(dòng)從這27個(gè)預(yù)測(cè)因子中篩選出13個(gè),10個(gè),9個(gè)和6個(gè)預(yù)測(cè)因子建立4個(gè)逐步回歸預(yù)測(cè)方程(預(yù)測(cè)方程的建模樣本長(zhǎng)度同樣為56)。分別用這4個(gè)回歸方程對(duì)2005-2009年5年的獨(dú)立樣本進(jìn)行預(yù)測(cè)試驗(yàn)。從表4的結(jié)果可以看出,采用常規(guī)的逐步回歸預(yù)測(cè)方法和選擇預(yù)測(cè)因子的方法,所建立的預(yù)測(cè)模型,其獨(dú)立樣本的預(yù)測(cè)精度均明顯差于本文提出的這種新的預(yù)測(cè)因子處理和預(yù)測(cè)建模方法。進(jìn)一步對(duì)比分析可以看出,在4個(gè)逐步回歸方程中,對(duì)5年獨(dú)立樣本預(yù)測(cè)精度最高的是F=4時(shí)10個(gè)預(yù)測(cè)因子的回歸方程,其5年獨(dú)立樣本的平均絕對(duì)誤差為0.92 ,平均相對(duì)誤差為0.17,誤差明顯大于表3的0.81和0.13。而4個(gè)回歸方程中預(yù)測(cè)最差的(F=5,6個(gè)因子的預(yù)測(cè)方程)方程對(duì)5年獨(dú)立樣本的預(yù)測(cè)平均絕對(duì)誤差和相對(duì)誤差,更是達(dá)到2.52和0.42。另外,當(dāng)F=3時(shí),逐步回歸方程選出的9個(gè)預(yù)測(cè)因子,就是表2和表3預(yù)測(cè)方法依據(jù)的相同的9個(gè)預(yù)測(cè)因子。從結(jié)果比較可以看出,相同的9個(gè)預(yù)測(cè)因子,采用回歸方法,同樣5年的獨(dú)立樣本預(yù)測(cè)平均絕對(duì)誤差和平均相對(duì)誤差分別為1.19和0.19,誤差明顯偏大。而從總體的對(duì)比分析可以看到,4個(gè)逐步回歸方程所依據(jù)的初選得出的27個(gè)預(yù)測(cè)因子與表2預(yù)測(cè)模型所依據(jù)的預(yù)測(cè)因子是完全一樣的,4個(gè)回歸方程也完全是客觀計(jì)算得到的。因此,可以看出,由本文提出的這種預(yù)測(cè)因子的計(jì)算處理方法和預(yù)測(cè)建模方法,在預(yù)測(cè)初選因子相同,獨(dú)立預(yù)測(cè)樣本相同情況下,預(yù)測(cè)精度是有明顯提高的。這表明本文提出的這種預(yù)測(cè)因子的處理方法,對(duì)于挖掘預(yù)測(cè)因子的預(yù)測(cè)信息,提高預(yù)測(cè)模型的預(yù)測(cè)性能是十分有益的。 表4 逐步回歸方法預(yù)測(cè)模型的臺(tái)風(fēng)頻數(shù)預(yù)測(cè)結(jié)果1) 本文根據(jù)預(yù)測(cè)對(duì)象和預(yù)測(cè)因子存在復(fù)雜的線性和非線性關(guān)系的特點(diǎn),在數(shù)學(xué)建模上,通過(guò)自然正交展開的線性降維計(jì)算處理和粒子群-投影尋蹤方法的非線性預(yù)測(cè)因子降維處理,將高維非線性數(shù)據(jù)投影到低維空間,構(gòu)造遺傳-神經(jīng)網(wǎng)絡(luò)集合預(yù)測(cè)模型,對(duì)華南臺(tái)風(fēng)頻數(shù)進(jìn)行了預(yù)測(cè)試驗(yàn),并進(jìn)一步將預(yù)測(cè)結(jié)果與常規(guī)的線性統(tǒng)計(jì)預(yù)測(cè)方法進(jìn)行了對(duì)比分析。結(jié)果表明,本文提出的這種新的非線性集合預(yù)測(cè)模型,比常規(guī)方法預(yù)測(cè)效果均有明顯的改進(jìn),主要是因?yàn)檫@種新的預(yù)測(cè)建模方法,不僅能從預(yù)測(cè)因子中,充分挖掘初選預(yù)測(cè)因子的有用預(yù)測(cè)信息,為預(yù)測(cè)模型提供更多有用的預(yù)測(cè)信息。并且在預(yù)測(cè)建模方法上,采用的遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測(cè)方法,該方法的激勵(lì)函數(shù)為非線性Sigmoid函數(shù),這種非線性預(yù)測(cè)方法可能比線性的逐步回歸方法更適合臺(tái)風(fēng)頻數(shù)的非線性年變化特征。本文為進(jìn)一步探索研究其他預(yù)測(cè)對(duì)象(如自然災(zāi)害、經(jīng)濟(jì)金融等領(lǐng)域)預(yù)測(cè)建模提供了新的思路和方法,但是由于采用自然正交展開和粒子群算法與投影尋蹤方法相結(jié)合來(lái)挖掘預(yù)測(cè)因子的預(yù)測(cè)信息是一種有效的新嘗試,如何合理地確定粒子群-投影尋蹤降維的維數(shù)還需要依據(jù)不同預(yù)測(cè)對(duì)象作進(jìn)一步深入研究。 參考文獻(xiàn): [1]趙占蕓,羅躍虎,沈世鎰.特征向量計(jì)算的神經(jīng)網(wǎng)絡(luò)方法[J].應(yīng)用數(shù)學(xué)學(xué)報(bào),2000,23(2):233-239. [2]TANG Y,HSIEH W.Coupling neural networks to incomplete dynamical systems via variational data assimilation[J].Mon Wea Rev,2001,129(4): 818-83. [3]蘇順華,蘇順兵.中國(guó)上市公司企業(yè)規(guī)模的模糊神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)[J].模糊系統(tǒng)與數(shù)學(xué),2007,21(1):150-158. [4]鄧勇,杜志敏,陸燕妮.神經(jīng)網(wǎng)絡(luò)優(yōu)化組合預(yù)測(cè)模型在油氣產(chǎn)量預(yù)測(cè)中的應(yīng)用[J].高校應(yīng)用數(shù)學(xué)學(xué)報(bào),2008,23(1):1-6. [5]JIN L,KUANG X Y,HUANG H H.Study on the overfitting of the artificial neural network forecasting model[J].Acta Meteorologica Sinica,2005,19(2): 90-99. [6]YAO C,JIN L,ZHAO H S.Ensemble prediction of monsoon index with a genetic neural network model[J].Acta Meteorologica Sinica,2009,23(6):701-712 . [7]吳建生,劉麗萍,金龍.粒子群-神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)算法氣象預(yù)測(cè)建模研究[J].熱帶氣象學(xué)報(bào),2008,24(6):679-686. [8]萬(wàn)中英,廖海波,王明文.遺傳-粒子群的投影尋蹤模型[J].計(jì)算機(jī)工程與應(yīng)用,2010,46 (20): 210-212,240. [9]劉合香,徐慶娟.區(qū)域洪澇災(zāi)害風(fēng)險(xiǎn)的模糊綜合評(píng)價(jià)與預(yù)測(cè)[J].災(zāi)害學(xué),2007,22(4): 38-42. [10]劉合香,徐慶娟.基于r維正態(tài)擴(kuò)散的區(qū)域熱帶氣旋災(zāi)害模糊風(fēng)險(xiǎn)分析[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2011,41(3):150-159. [11]LIU H X,ZHANG D L.Analysis and prediction of hazard risks caused by tropical cyclones in Southern China with fuzzy mathematical and grey models[J].Applied Mathematical Modelling.doi:10.1016/j.apm.2011.07.024 36 (2012) 626-637. [12]KENNEDY J,EBERHART R C.Particle swarm optimization[C]//Pro IEEE International Conference on Neural Networks Vol.IV:1942-1948.IEEE Service Center,Piscataway,NJ,1995. [13]EBERHART R C,KENNEDY J.A new optimizer using Particle swarm theory[C]//Proceedings of the Sixth International Symposium on Micro Machine and Human Science: 39-43.IEEE service center,Piscataway,NJ Nagoya,Japan,1995. [14]BONABEAU E,DORIGO M,THERAULAZ G.Inspiration for optimization from social insect behavior[J].Nature,2000,406(6):39-42. [15]姚才,金龍,黃明策等.遺傳算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的熱帶氣旋強(qiáng)度預(yù)報(bào)方法試驗(yàn)[J].海洋學(xué)報(bào),2007,29(4):11-19. [16]金龍,吳建生,林開平等.基于遺傳算法的神經(jīng)網(wǎng)絡(luò)短期氣候預(yù)測(cè)模型[J].高原氣象,2005,24(6):981-987. [17]周明,孫樹棟.遺傳算法原理及應(yīng)用[M].國(guó)防工業(yè)出版社,2002. [18]JIN L,JU W M,LIAO Q L.Study on Ann-based Mutti-step Prediction Model of Short-term Climate Variation[J].Advances in Atmospheric Sciences,2000,17(1): 157-164. [19]尹宜舟,羅勇,GEMMER Marco,等.基于BP神經(jīng)網(wǎng)絡(luò)技術(shù)的西北太平洋熱帶氣旋年頻數(shù)預(yù)測(cè)[J].熱帶氣象學(xué)報(bào),2010,26(5):614-619. [20]陸虹,金龍,繆啟龍,等.影響廣西熱帶氣旋年頻數(shù)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型[J].南京氣象學(xué)院學(xué)報(bào),2003,26(1):56-62. [21]應(yīng)明,萬(wàn)日金.影響我國(guó)的熱帶氣旋年頻數(shù)預(yù)測(cè)[J].應(yīng)用氣象學(xué)報(bào),2011,22(1):66-76.2 非線性預(yù)測(cè)模型的構(gòu)建
2.1 遺傳-神經(jīng)網(wǎng)絡(luò)集成預(yù)測(cè)模型
2.2 基于粒子群-投影尋蹤和遺傳神經(jīng)網(wǎng)絡(luò)集成的預(yù)測(cè)模型
3 實(shí)例分析與比較
3.1 數(shù)據(jù)來(lái)源與數(shù)據(jù)處理
3.2 華南臺(tái)風(fēng)頻數(shù)的預(yù)測(cè)試驗(yàn)
3.3 預(yù)測(cè)模型的性能分析
4 結(jié) 論