王曉彤,蔣洪迅
(中國(guó)人民大學(xué)信息學(xué)院,北京 100872)
東北老工業(yè)區(qū)的空氣污染問題,既影響經(jīng)濟(jì)也危害民生,是當(dāng)?shù)鼐用裆眢w健康的一大隱患.[1-5]在諸多空氣污染物中,細(xì)顆粒物PM2.5的影響非常大.細(xì)顆粒物PM2.5指環(huán)境空氣中空氣動(dòng)力學(xué)當(dāng)量直徑小于等于2.5 μm的顆粒物,其在空氣中濃度越大,代表空氣污染程度越高.相較于其他污染物,PM2.5由于其直徑較小,能在大氣中停留較久并隨氣流運(yùn)動(dòng)距離較遠(yuǎn),對(duì)人類的健康影響巨大[6].由于PM2.5等顆粒物的濃度上升,導(dǎo)致全球每年約210萬人死于心血管和呼吸道疾病(93%)、肺癌(7%)[7].在我國(guó)PM2.5已成為最主要空氣污染物之一.因此,PM2.5濃度預(yù)測(cè)研究,對(duì)國(guó)計(jì)民生具有重要的意義和價(jià)值.如果能提供較為準(zhǔn)確的預(yù)報(bào)結(jié)果,不僅可以敦促居民進(jìn)行提前預(yù)防,諸如出行佩戴口罩、減少戶外活動(dòng)等,還可以通過預(yù)測(cè)過程建模和數(shù)據(jù)挖掘,探索產(chǎn)生高濃度PM2.5的污染來源和形成條件,為空氣污染防治提供重要的理論依據(jù)和數(shù)據(jù)支持.
目前,針對(duì)PM2.5或者其他空氣污染物的預(yù)測(cè)主要可以劃分為數(shù)據(jù)建模和方法建模兩大類:
數(shù)據(jù)建模是指輸入數(shù)據(jù)的選取和增減,即從數(shù)據(jù)工程或特征工程的角度出發(fā),研究PM2.5濃度相關(guān)的經(jīng)濟(jì)、社會(huì)、人類行為以及氣象條件的數(shù)據(jù)特征,增減預(yù)測(cè)模型的輸入數(shù)據(jù)維度和幅度,以探求最優(yōu)的預(yù)測(cè)效果.現(xiàn)有的空氣質(zhì)量預(yù)測(cè),一般來說,都是在選定某種預(yù)測(cè)模型或者某幾種模型集成的條件,基于現(xiàn)有的歷史空氣質(zhì)量數(shù)據(jù)(如PM2.5,PM10,O3,SO2,CO2等),再結(jié)合對(duì)應(yīng)時(shí)空環(huán)境下的氣象條件數(shù)據(jù)(如溫度、濕度、風(fēng)速、風(fēng)向、氣壓、光照時(shí)間等)進(jìn)行機(jī)器學(xué)習(xí)和訓(xùn)練.
方法建模是指預(yù)測(cè)方法的調(diào)優(yōu)與改進(jìn),即在給定的輸入數(shù)據(jù)不變的情況下,通過對(duì)比多個(gè)預(yù)測(cè)模型選擇效果較好的方法,或者通過針對(duì)某一給定預(yù)測(cè)模型的方法改進(jìn),或者通過參數(shù)調(diào)優(yōu)獲得更好的預(yù)測(cè)結(jié)果,抑或集成兩種或兩種以上預(yù)測(cè)模型以取長(zhǎng)補(bǔ)短、提高預(yù)測(cè)準(zhǔn)確度的方法.空氣質(zhì)量預(yù)測(cè)的方法建模,其主要模型可以歸結(jié)為多元回歸、神經(jīng)網(wǎng)絡(luò)和群智能模型等幾大類方法.許多學(xué)者采用了多元回歸模型進(jìn)行了空氣質(zhì)量預(yù)測(cè)研究[9-11];自神經(jīng)網(wǎng)絡(luò)出現(xiàn)以來,人們開始使用神經(jīng)網(wǎng)絡(luò)模型對(duì)空氣質(zhì)量進(jìn)行預(yù)測(cè)[12-18];基于進(jìn)化計(jì)算(Evolutionary Algorithm,EA)的群智能模型,也是預(yù)測(cè)領(lǐng)域一類重要的研究方法.而遺傳規(guī)劃(Genetic Programming,GP)是相對(duì)出現(xiàn)較晚的一種EA方法.不少學(xué)者將GP及其變體應(yīng)用在氣象、水文預(yù)測(cè)等研究領(lǐng)域中,也取得了較好的效果.[19-26]
本文提出一種基于多基因遺傳規(guī)劃(Multi-Gene Genetic Programming,MGGP)的空氣質(zhì)量預(yù)測(cè)模型,是在經(jīng)典遺傳規(guī)劃基礎(chǔ)上發(fā)展出來的一種群進(jìn)化智能模型,對(duì)于多維時(shí)間序列預(yù)測(cè)問題比較有效且具有更強(qiáng)的魯棒性,特別適合于城市空氣質(zhì)量預(yù)測(cè).
遺傳規(guī)劃(Genetic Programming,GP)是遺傳算法(Genetic Algorithm,GA)的一個(gè)分支,而MGGP是遺傳規(guī)劃的一種魯棒性變體.為了更好地定義與規(guī)范基于MGGP的空氣質(zhì)量預(yù)測(cè)模型,首先要限定面向預(yù)測(cè)領(lǐng)域的經(jīng)典GP模型基本范式和方法框架.
GP的基本算法框架與GA相同,都是模仿達(dá)爾文的進(jìn)化論,即選擇性地淘汰種群中不適應(yīng)環(huán)境的個(gè)體,并從優(yōu)秀的個(gè)體中繁育新一代個(gè)體.進(jìn)化的核心機(jī)制是代際更替中的優(yōu)勢(shì)個(gè)體之間的交叉遺傳以及隨機(jī)變異演化,通過一個(gè)預(yù)先設(shè)定的質(zhì)量標(biāo)準(zhǔn)形式評(píng)判“種群”解集中每個(gè)個(gè)體適應(yīng)度,基于此提供被保留到下一代的概率,經(jīng)過若干次迭代滿足終止條件后,可得到一個(gè)最優(yōu)解或近優(yōu)解.一般來說,終止條件既可以是設(shè)定的最高進(jìn)化代數(shù),也可以是判定的最小誤差等適應(yīng)度(fitness)標(biāo)準(zhǔn).
GP跟GA相比不同的是可以生成適用問題模型的啟發(fā)式規(guī)則,或者說是其編碼形式可具解釋性.以最常見的樹形編碼為例,GP的演化運(yùn)算是對(duì)解析樹(parse tree)進(jìn)行操作,而不是傳統(tǒng)地對(duì)比特串(bit string)進(jìn)行操作.PM2.5濃度預(yù)測(cè)模型的GP編碼案例見圖1,其編碼形式顯然具有邏輯上的可解釋性,其對(duì)應(yīng)表達(dá)式為T(t)/RH(t)-[sin(p(t))+PM(t-1)],其中T(t)為t時(shí)刻的氣溫,RH(t)表示t時(shí)刻的相對(duì)濕度,p(t)表示t時(shí)刻的氣壓,PM(t-1)則是上一時(shí)刻的PM2.5濃度.一般來說,解析樹是由一個(gè)終止符集(terminal set,TS)和一個(gè)函數(shù)集(function set,F(xiàn)S)組成.其中,TS包括函數(shù)的各項(xiàng)參數(shù)和變量(常數(shù)、邏輯常量、變量等);FS包括基本算術(shù)運(yùn)算、標(biāo)準(zhǔn)編程操作、標(biāo)準(zhǔn)數(shù)學(xué)函數(shù)、邏輯函數(shù)或其他數(shù)學(xué)函數(shù).
已有的研究表明,PM2.5是由空氣中原有污染物在一定的氣象條件下,經(jīng)過一系列未知的物理化學(xué)過程形成的氣溶膠性質(zhì)懸浮顆粒物.目前已知影響因素中,PM2.5濃度與SO2和NO2等污染物排放及濕度、日照、風(fēng)力、風(fēng)向等氣象條件有關(guān),甚至與人類活動(dòng)、地形環(huán)境等諸多因素都相關(guān).由于遺傳規(guī)劃GP不僅在復(fù)雜非線性回歸空間上具有高成功率,而且能夠生成適用問題模型的啟發(fā)式規(guī)則表達(dá)式,從而為一些潛在的過程提供一些可能的解釋,所以GP在空氣質(zhì)量預(yù)測(cè)領(lǐng)域中特別是PM2.5濃度預(yù)測(cè)中具有明顯的優(yōu)勢(shì).
MGGP是傳統(tǒng)遺傳規(guī)劃GP的一種變體,即通過線性組合低深度的GP樹來提高傳統(tǒng)GP的適應(yīng)性和魯棒性.[27]由于使用較小的解析樹,MGGP有望提供比傳統(tǒng)GP更簡(jiǎn)單的模型[28]. 在MGGP中,預(yù)測(cè)變量通過多基因程序中的每個(gè)基因(即解析樹)的加權(quán)輸出加上偏移項(xiàng)來計(jì)算. 例如,MGGP個(gè)體使用包括t時(shí)刻的氣溫、相對(duì)濕度、氣壓,上一時(shí)刻PM2.5濃度,通過其輸入數(shù)據(jù)的2個(gè)基因來預(yù)測(cè)t時(shí)刻PM2.5濃度(見圖2),在數(shù)學(xué)上,這個(gè)模型可以寫成
(1)
其中d0為偏移項(xiàng),d1,d2為回歸系數(shù)(即每個(gè)基因的權(quán)重).通常,系數(shù)由每個(gè)MGGP個(gè)體的普通最小二乘法確定[29].因此,MGGP采用經(jīng)典線性回歸方法來捕獲非線性行為,而不需要預(yù)先指定非線性結(jié)構(gòu).
在MGGP中,每個(gè)基因都是一個(gè)簡(jiǎn)單的GP解析樹,不會(huì)任何隱含或明確地參考同一染色體中的其他基因.每個(gè)初始染色體可能包含一個(gè)或幾個(gè)標(biāo)準(zhǔn)的低深度GP解析樹,染色體中基因的最大數(shù)量和基因的深度可自行定義.然后,使用標(biāo)準(zhǔn)的子樹交叉和變異轉(zhuǎn)換以及直接復(fù)制來產(chǎn)生后代.在MGGP中,除了經(jīng)典的GP子樹交叉算子之外,還可以使用被稱為“兩點(diǎn)高級(jí)交叉”的樹交叉算子來交換染色體之間的基因.可以設(shè)置每個(gè)GP運(yùn)算符的相對(duì)概率.
圖1 GP的樹形遺傳編碼案例 圖2 MGGP個(gè)體舉例
對(duì)于典型回歸方法,其模型結(jié)構(gòu)和系數(shù)通常在初始階段就需確定,而在初始階段如何合理有效確定這些因素卻非常困難.而對(duì)于MGGP,僅有TS和FS需要初始化,學(xué)習(xí)方法會(huì)自主地找到模型的最佳形式和參數(shù).而且MGGP還有一個(gè)優(yōu)勢(shì),它能夠自動(dòng)從輸入變量中尋找對(duì)模型有利的變量加以使用,并忽略對(duì)模型建立沒有幫助的變量,有效地減少模型的維度,同時(shí)增強(qiáng)模型的可理解性.
1.3.1 變量集TS的設(shè)定
考慮因素相關(guān)性和數(shù)據(jù)可獲得性,本文選取沈陽地區(qū)11個(gè)空氣質(zhì)量監(jiān)測(cè)站的PM2.5濃度歷史數(shù)據(jù)、相應(yīng)時(shí)空環(huán)境下的氣象條件數(shù)據(jù)作為MGGP模型輸入數(shù)據(jù).各類數(shù)據(jù)的類型、符號(hào)和單位,如表1所示.
表1 氣象學(xué)數(shù)據(jù)及其符號(hào)表示
RH即單位體積空氣中含有的水汽密度與同溫度下飽和的水汽密度的百分比.相對(duì)濕度越大,則空氣中所含水蒸氣越多.由于相對(duì)濕度為百分?jǐn)?shù),故本文用RH(t)表示t時(shí)刻的相對(duì)濕度的100倍;風(fēng)向(Wind Direction,WD)是指風(fēng)吹來的風(fēng)向,一般以角度表示,正北方向?yàn)?°(或360°),正東方向?yàn)?0°,正南方向?yàn)?80°,正西方向?yàn)?70°,其余風(fēng)向均由此計(jì)算得出,以WD(t)表示t時(shí)刻的風(fēng)向.顯而易見的是前一時(shí)段的PM2.5濃度與下一時(shí)段的PM2.5濃度有著較強(qiáng)相關(guān)性,因此,將前一時(shí)段PM2.5濃度也作為輸入數(shù)據(jù)之一;用PM(t-1)表示t-1時(shí)刻的PM2.5濃度.在后續(xù)實(shí)驗(yàn)中,實(shí)現(xiàn)提前1 d(24 h)、提前2 d(48 h)、提前3 d(72 h)預(yù)測(cè)當(dāng)前的PM2.5濃度,表2中提到的t-1時(shí)刻在不同實(shí)驗(yàn)中分別代表24,48及72 h前的PM2.5濃度.
1.3.2 FS的設(shè)定
在函數(shù)集中,除了基本的數(shù)學(xué)四則預(yù)算以及IF-THEN條件函數(shù)以外,新模型還引入了一元運(yùn)算符和三元運(yùn)算符等較為復(fù)雜的計(jì)算函數(shù).如SQRT表示平方,EXP表示以自然常數(shù)e為底的指數(shù)函數(shù),ADD3表示三元加法,即3個(gè)變量或常數(shù)連續(xù)相加,MULT3表示三元乘法,即3個(gè)變量或常數(shù)連續(xù)相乘.
1.3.3 基因數(shù)的設(shè)定
影響MGGP算法性能的相關(guān)事項(xiàng)中,一個(gè)最主要因素是基因數(shù)目.為摸清基因數(shù)目對(duì)模型預(yù)測(cè)準(zhǔn)確性和算法時(shí)間復(fù)雜度的影響,本文針對(duì)基因數(shù)進(jìn)行了參數(shù)嘗試的預(yù)實(shí)驗(yàn)(見圖3).結(jié)果表明,在提前24 h的PM2.5濃度預(yù)測(cè)中,基因數(shù)目小于5時(shí),均方根誤差RMSE隨基因數(shù)增加而不斷降低;基因數(shù)目大于等于5的情況下,RMSE變化不再是基因數(shù)目的單調(diào)減函數(shù),而是偶有反彈波動(dòng);隨著基因數(shù)目的增加,RMSE下降速度逐漸變緩.類似地,在提前48和72 h的濃度預(yù)測(cè)中,RMSE分別在基因數(shù)為6和4時(shí)開始上下波動(dòng),不再單調(diào)遞減,且下降速度變緩.
圖4描述了不同基因數(shù)MGGP模型所需計(jì)算時(shí)長(zhǎng)的變化.顯然,隨基因數(shù)目不斷增加,MGGP所用時(shí)間整體不斷延長(zhǎng).其中,提前24 h的預(yù)實(shí)驗(yàn)所用時(shí)間在基因數(shù)為3和8時(shí)均有顯著的增加;提前48和72 h的預(yù)實(shí)驗(yàn)時(shí)長(zhǎng)則分別在基因數(shù)為6和7時(shí)開始激增;當(dāng)基因數(shù)為10時(shí),3個(gè)時(shí)段的PM2.5濃度預(yù)測(cè)所需時(shí)長(zhǎng)已近似達(dá)到基因數(shù)目為6時(shí)實(shí)驗(yàn)所用時(shí)間的2倍、基因數(shù)目為2時(shí)實(shí)驗(yàn)所用時(shí)間的4倍.
圖3 不同基因數(shù)目對(duì)模型預(yù)測(cè)準(zhǔn)確度的影響 圖4 不同基因數(shù)目計(jì)算時(shí)長(zhǎng)
綜上所述,同時(shí)考慮模型準(zhǔn)確性和算法復(fù)雜性,基因數(shù)為6時(shí)RMSE相較于基因數(shù)為2時(shí)已有顯著下降,而后下降變緩或反彈,且基因數(shù)為6時(shí)實(shí)驗(yàn)用時(shí)顯著低于基因數(shù)為7~10的情況,故本文選取6作為模型基因數(shù)設(shè)定.
1.3.4 MGGP模型其他參數(shù)的設(shè)定
本文提出的MGGP空氣質(zhì)量預(yù)測(cè)模型的其他各項(xiàng)參數(shù)設(shè)置見表2.其中:競(jìng)爭(zhēng)規(guī)模是指在每一代種群中選擇參與競(jìng)爭(zhēng)的個(gè)體數(shù);競(jìng)爭(zhēng)規(guī)模越大則適應(yīng)度較弱的個(gè)體被選擇參與遺傳的可能性越小,本文將競(jìng)爭(zhēng)規(guī)模設(shè)為15,即在每代種群中選擇15個(gè)個(gè)體進(jìn)行競(jìng)爭(zhēng);精英比例表示每一代中可不進(jìn)行改變而直接進(jìn)入下一代的最優(yōu)個(gè)體比例,本文將精英比例設(shè)為0.1,則在每代的1 000個(gè)個(gè)體中,適應(yīng)度最優(yōu)的前100個(gè)個(gè)體可直接進(jìn)入下一代,而不必進(jìn)行變換;遺傳操作比例是指參與遺傳的個(gè)體使用不同遺傳操作的比例(亦即概率),本文將變異比例設(shè)為14%,交叉比例設(shè)為84%,復(fù)制比例設(shè)為2%.本文使用均方根誤差RMSE作為個(gè)體適應(yīng)度衡量標(biāo)準(zhǔn),RMSE越低,表示預(yù)測(cè)回歸誤差越小,適應(yīng)度越高,本文設(shè)置當(dāng)RMSE降至0.003及以下時(shí),停止進(jìn)化,否則一直進(jìn)化至500代.
表2 多基因遺傳規(guī)劃參數(shù)設(shè)置
在代碼實(shí)現(xiàn)方面采用GPTIPS2.0工具包作為MGGP的求解平臺(tái).GPTIPS2.0是一個(gè)基于MATLAB的可完成多基因遺傳規(guī)劃的開源工具包,具有很好的通用性和可擴(kuò)展性,且不需要其他MATLAB工具包來輔助完成MGGP的實(shí)現(xiàn).[28]
本文選取沈陽地區(qū)11個(gè)空氣質(zhì)量監(jiān)測(cè)站,自2016年1月1日0:00到2016年3月26日8:00每小時(shí)的各項(xiàng)氣象數(shù)據(jù)及對(duì)應(yīng)PM2.5濃度共22 528組,刪去其中信息殘缺非常嚴(yán)重的107組數(shù)據(jù),使用剩余22 421組數(shù)據(jù)進(jìn)行實(shí)驗(yàn).從 22 421組數(shù)據(jù)中隨機(jī)抽取20 179組作為訓(xùn)練集,剩余2 242組作為測(cè)試集.
在對(duì)比實(shí)驗(yàn)中,本文將選取BP神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)GP遺傳規(guī)劃模型作為對(duì)照組模型,來衡量MGGP在PM2.5濃度預(yù)測(cè)中的實(shí)際效果.神經(jīng)網(wǎng)絡(luò)在PM2.5濃度預(yù)測(cè)中的表現(xiàn)普遍優(yōu)于多元線性回歸,且BP神經(jīng)網(wǎng)絡(luò)作為一種多層前饋神經(jīng)網(wǎng)絡(luò),近年來因其較好的穩(wěn)定性和準(zhǔn)確性而較多地應(yīng)用于預(yù)測(cè)領(lǐng)域,并被不斷改良使用.[31-34]本文分別使用MGGP和BP神經(jīng)網(wǎng)絡(luò)對(duì)PM2.5濃度進(jìn)行全站點(diǎn)和分站點(diǎn)的提前24,48和72 h的預(yù)測(cè),并對(duì)預(yù)測(cè)誤差RMSE進(jìn)行比較分析.另外,為體現(xiàn)MGGP相較于傳統(tǒng)GP的優(yōu)勢(shì),也使用了GP的PM2.5濃度預(yù)測(cè)作為對(duì)照實(shí)驗(yàn),其參數(shù)設(shè)置除不使用多個(gè)基因外,其他均與MGGP相同.
針對(duì)11個(gè)站點(diǎn)的全部數(shù)據(jù),在提前24 h的PM2.5濃度預(yù)測(cè)實(shí)驗(yàn)中,種群最優(yōu)適應(yīng)度及平均適應(yīng)度變化見圖5.初始種群中,最優(yōu)適應(yīng)度為40.149 3,平均適應(yīng)度為49.601 1,隨著種群不斷進(jìn)化,適應(yīng)度(即均方根誤差RMSE)不斷下降,由于初始種群是有程序隨機(jī)生成,誤差較大,因此初始幾代進(jìn)化較快,誤差迅速減少,隨后進(jìn)化速度漸緩,進(jìn)化500代后得到最優(yōu)適應(yīng)度為38.188.同時(shí),MGGP在進(jìn)化時(shí)優(yōu)先滿足每代種群的最優(yōu)適應(yīng)度不斷降低,因此在整個(gè)進(jìn)化過程中,各代種群的平均適應(yīng)度并非是嚴(yán)格的單調(diào)遞減函數(shù),且收斂相對(duì)于最優(yōu)適應(yīng)度稍緩,但整體仍呈下降趨勢(shì),說明種群在進(jìn)化過程中不斷優(yōu)化.計(jì)算公式為:
-0.000 454 7(x4-1.0x5+x6+cos(x2)+10.69)2-186.6;
(2)
(3)
(4)
0.004 151x2(x2+x6+x3+x4+10.87)+0.002 075x5(x2+10.94)(2.0x2+x4);
(5)
-0.000 526 3(x2+10.94)(x3+2.0x5)(x3+2.0x5+2.0cos(x2));
(6)
(7)
最優(yōu)個(gè)體計(jì)算公式為:
(8)
表3自變量及其含義對(duì)應(yīng)情況
自變量變量含義 x1p(t)x2T(t)x3RH(t)x4WD(t)x5WS(t)x6PM(t-1)
公式(2)—(7)分別為最優(yōu)個(gè)體的6個(gè)基因及偏差項(xiàng),其中偏差項(xiàng)與第1個(gè)基因同在公式(2)中體現(xiàn),6個(gè)基因組成的最優(yōu)個(gè)體用公式(8)表示,其中自變量與具體輸入變量含義對(duì)應(yīng)情況見表3.
MGGP提前48 h的PM2.5濃度預(yù)測(cè)實(shí)驗(yàn)中,種群最優(yōu)適應(yīng)度及平均適應(yīng)度變化曲線見圖6,初始最優(yōu)適應(yīng)度為41.282 5,平均適應(yīng)度為51.001 2,進(jìn)化過程中適應(yīng)度變化趨勢(shì)與提前24 h的PM2.5濃度預(yù)測(cè)實(shí)驗(yàn)中變化趨勢(shì)類似,進(jìn)化500代后最優(yōu)個(gè)體的適應(yīng)度為38.925 2,略高于提前24 h的PM2.5預(yù)測(cè)情況.最優(yōu)個(gè)體的6個(gè)基因及偏差項(xiàng)計(jì)算公式為:
0.000 522 2-x2(x1-1.0x2)(x4-1.0x6)-18.95;
(9)
(10)
(11)
11.79sin(sin(cos(x5)));
(12)
0.545 9x2(x4-1.0x6);
(13)
0.041 37(x3-x5)2+0.041 37x1-0.082 74x4+0.082 74x6+0.279 5.
(14)
最優(yōu)個(gè)體計(jì)算公式為:
(15)
圖5 MGGP提前24 h PM2.5濃度預(yù)測(cè)情況 圖6 MGGP提前48 h PM2.5濃度預(yù)測(cè)情況
各自變量及其對(duì)應(yīng)含義見表3.提前72 h的PM2.5濃度預(yù)測(cè)中,種群最優(yōu)適應(yīng)度及平均適應(yīng)度變化情況見圖7,初始最優(yōu)適應(yīng)度為41.030 2,平均適應(yīng)度為50.659 9,進(jìn)化過程中適應(yīng)度變化趨勢(shì)與前兩項(xiàng)實(shí)驗(yàn)中變化趨勢(shì)類似,進(jìn)化500代后最優(yōu)個(gè)體的適應(yīng)度為38.829 8.最優(yōu)個(gè)體的6個(gè)基因及偏差項(xiàng)計(jì)算公式為:
(16)
(17)
(18)
0.000 289 8(x2+x5)(2.0x2+x3)(2.0x2+x4-x6-7.33);
(19)
(20)
(21)
最優(yōu)個(gè)體計(jì)算公式為:
(22)
本文使用相同數(shù)據(jù)對(duì)BP神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)遺傳規(guī)劃GP進(jìn)行預(yù)測(cè)訓(xùn)練,得到提前24,48及72 h預(yù)測(cè)PM2.5濃度最小誤差與對(duì)應(yīng)MGGP最小誤差進(jìn)行對(duì)比(見表4).從表4可以看出,在PM2.5 濃度預(yù)測(cè)效果上,MGGP與BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果受預(yù)測(cè)時(shí)間間隔的影響較小,在提前24,48或72 h的預(yù)測(cè)中,均能保證預(yù)測(cè)誤差的相對(duì)穩(wěn)定,相比之下,傳統(tǒng)GP則受預(yù)測(cè)時(shí)間間隔影響更大,預(yù)測(cè)誤差隨時(shí)間間隔增大而不斷上升.MGGP與BP神經(jīng)網(wǎng)絡(luò)及GP相比體現(xiàn)出了更好的性能,在提前24,48,72 h的濃度預(yù)測(cè)中產(chǎn)生的誤差,MGGP比BP神經(jīng)網(wǎng)絡(luò)降低了4%~10%;而傳統(tǒng)GP在提前24 h的預(yù)測(cè)中,誤差低于BP神經(jīng)網(wǎng)絡(luò),但在提前48和72 h的預(yù)測(cè)中,誤差明顯提高,并高于BP神經(jīng)網(wǎng)絡(luò).此外,MGGP在不同時(shí)段PM2.5濃度預(yù)測(cè)中所產(chǎn)生的誤差的標(biāo)準(zhǔn)差比BP神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)GP降低了13%~63%,體現(xiàn)了MGGP在不同時(shí)段PM2.5濃度預(yù)測(cè)中的魯棒性優(yōu)于BP神經(jīng)網(wǎng)絡(luò)及傳統(tǒng)GP.
表4 MGGP與BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)情況對(duì)比
MGGP與GP種群進(jìn)化收斂情況見圖8.GP可在100代以內(nèi)完成收斂,100代之后RMSE下降緩慢,而MGGP從200代后RMSE才開始下降變緩,這是由于MGGP中每個(gè)個(gè)體由多個(gè)基因(解析樹)組成種群復(fù)雜度高,因此相比于GP收斂稍慢.但因其基因的多樣性,雖然GP與MGGP的初始種群均由系統(tǒng)隨機(jī)產(chǎn)生,MGGP初始的最優(yōu)適應(yīng)度卻均低于GP,收斂過后3 h段的最終預(yù)測(cè)準(zhǔn)確性均明顯高于GP,體現(xiàn)了多基因的種群優(yōu)勢(shì).同時(shí),隨著預(yù)測(cè)時(shí)間間隔的增加,二者性能差距不斷擴(kuò)大,MGGP在不同時(shí)段的預(yù)測(cè)中,誤差變化較小,尤其在提前48和72 h的預(yù)測(cè)中,誤差相差更小,且提前72 h的預(yù)測(cè)誤差略低于提前48 h的預(yù)測(cè)誤差,說明當(dāng)預(yù)測(cè)時(shí)間間隔較大時(shí),MGGP幾乎不受時(shí)間間隔變化的影響;而GP提前48和72 h的預(yù)測(cè)誤差明顯高于提前24 h的誤差,且提前72與48 h的PM2.5濃度預(yù)測(cè)誤差也相差較大,說明使用MGGP預(yù)測(cè)PM2.5濃度的魯棒性也顯著優(yōu)于GP.
圖7 提前72 h PM2.5濃度預(yù)測(cè)情況 圖8 MGGP與GP種群進(jìn)化情況
針對(duì)區(qū)分站點(diǎn)的PM2.5濃度預(yù)測(cè),各個(gè)站點(diǎn)數(shù)據(jù)使用不同預(yù)測(cè)模型分別提前24,48,72 h的PM2.5 濃度預(yù)測(cè)結(jié)果見表5,其中黑體部分?jǐn)?shù)據(jù)表示該站點(diǎn)在該預(yù)測(cè)時(shí)段中不同模型預(yù)測(cè)結(jié)果相比的最佳表現(xiàn).從表5可以看出,在11個(gè)站點(diǎn)3個(gè)時(shí)段預(yù)測(cè)的33個(gè)預(yù)測(cè)情形中,MGGP在其中32個(gè)情形下的預(yù)測(cè)誤差低于GP及BP神經(jīng)網(wǎng)絡(luò),且穩(wěn)定性明顯優(yōu)于GP和BP神經(jīng)網(wǎng)絡(luò).同時(shí),在分站點(diǎn)預(yù)測(cè)的實(shí)驗(yàn)中,提前24,48,72 h的預(yù)測(cè)誤差上,GP均大多高于BP神經(jīng)網(wǎng)絡(luò),與全站點(diǎn)中的情況不同;這可能是由于分站點(diǎn)后訓(xùn)練數(shù)據(jù)顯著減少,導(dǎo)致GP生成的預(yù)測(cè)模型表現(xiàn)明顯下降,這也從側(cè)面體現(xiàn)了MGGP比GP的穩(wěn)定.此外,BP神經(jīng)網(wǎng)絡(luò)在分站點(diǎn)的預(yù)測(cè)實(shí)驗(yàn)中偶爾會(huì)出現(xiàn)較高的誤差,如渾南東路站點(diǎn)提前48 h、京沈路提前72 h及新秀街提前72 h的PM2.5預(yù)測(cè)誤差,RMSE達(dá)到了80~90,同樣從側(cè)面反映出MGGP較高的穩(wěn)定性.
表5 不同站點(diǎn)中不同模型的預(yù)測(cè)結(jié)果對(duì)比
本文提取氣象條件數(shù)據(jù)及PM2.5濃度歷史數(shù)據(jù),采用多基因遺傳規(guī)劃MGGP對(duì)PM2.5濃度進(jìn)行了全站點(diǎn)及分站點(diǎn)分別提前24,48和72 h的預(yù)測(cè),并與BP神經(jīng)網(wǎng)絡(luò)及傳統(tǒng)GP的預(yù)測(cè)水平進(jìn)行了比較.實(shí)驗(yàn)結(jié)果表明,MGGP在PM2.5預(yù)測(cè)上具有較好性能,且預(yù)測(cè)誤差不受時(shí)段間隔長(zhǎng)短的影響,在不同時(shí)段的預(yù)測(cè)中誤差近似,不會(huì)因時(shí)間間隔的增加而顯著降低預(yù)測(cè)的準(zhǔn)確率.相較于BP神經(jīng)網(wǎng)絡(luò),MGGP在性能上具有顯著優(yōu)勢(shì),在提前24,48和72 h的預(yù)測(cè)中均有更小的均方根誤差,且在不同站點(diǎn)不同預(yù)測(cè)時(shí)段的誤差也絕大多數(shù)低于BP神經(jīng)網(wǎng)絡(luò)及GP,反映了MGGP對(duì)于預(yù)測(cè)時(shí)長(zhǎng)變化及空間變化具有更好的魯棒性.但由于基因數(shù)目更多,MGGP比傳統(tǒng)GP收斂速度略低.
東北師大學(xué)報(bào)(自然科學(xué)版)2018年3期