韓桂蘭, 李雪姣
(新疆財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,新疆 烏魯木齊 830000)
近年來(lái),我國(guó)經(jīng)濟(jì)發(fā)展速度加快,部分企業(yè)為加快生產(chǎn)速度不惜以犧牲環(huán)境為代價(jià),能源的消耗和大量工業(yè)廢棄物的排放給城市帶來(lái)嚴(yán)重危害,其中最為嚴(yán)重的污染就是大氣中的顆粒物。據(jù)科學(xué)調(diào)查細(xì)顆粒物會(huì)降低人們的能見度,同時(shí)還會(huì)引發(fā)多種呼吸道方面的系統(tǒng)疾病,增加發(fā)病概率與死亡概率。細(xì)顆粒物濃對(duì)于身體健康與環(huán)境質(zhì)量都構(gòu)成了嚴(yán)重威脅。受疫情影響,我國(guó)經(jīng)濟(jì)發(fā)展受到重創(chuàng),在2020年經(jīng)濟(jì)發(fā)展在如此嚴(yán)峻的情形下,經(jīng)濟(jì)高質(zhì)量發(fā)展的熱潮仍未減退,可見國(guó)家對(duì)環(huán)境保護(hù)工作的重視。從高速增長(zhǎng)轉(zhuǎn)變?yōu)樽非蟾哔|(zhì)量發(fā)展這樣一個(gè)質(zhì)的跨越,環(huán)境質(zhì)量問(wèn)題被政府提上日程,其中以PM2.5為主的空氣問(wèn)題尤為突出,引起了國(guó)內(nèi)與國(guó)外社會(huì)的高度重視。大量學(xué)者開始研究相關(guān)課題,采用不同數(shù)學(xué)方法和模型預(yù)測(cè)細(xì)顆粒物濃度,并提出符合該地區(qū)的政策及建議。本文為預(yù)測(cè)出青海海東工業(yè)園內(nèi)的細(xì)顆粒物濃度,采用了BP神經(jīng)網(wǎng)絡(luò)、RBF 神經(jīng)網(wǎng)絡(luò)、Elman神經(jīng)網(wǎng)絡(luò)三種模型,在對(duì)比和分析之后,找到準(zhǔn)確性最高最具合理性的模型,有效彌補(bǔ)其他神經(jīng)網(wǎng)絡(luò)模型所預(yù)測(cè)的細(xì)顆粒物濃度值的不足之處,在一定程度上可以幫助其他城市檢測(cè)自己工業(yè)園內(nèi)的細(xì)顆粒物濃度。
選取2019年1月-2019年12月期間的月度數(shù)據(jù)均來(lái)自中國(guó)統(tǒng)計(jì)年鑒以及海南政府網(wǎng),青海海東工業(yè)園區(qū)監(jiān)測(cè)站在工業(yè)園內(nèi)設(shè)置了監(jiān)測(cè)站點(diǎn),同步監(jiān)測(cè)細(xì)顆粒物濃度值與其他的氣象信息,針對(duì)風(fēng)速、濕度以及風(fēng)向等數(shù)據(jù)監(jiān)測(cè)空氣中含有的細(xì)顆粒物濃度、一氧化碳、臭氧、二氧化硫等物質(zhì)濃度。
BP神經(jīng)網(wǎng)絡(luò)屬于典型的向前型網(wǎng)絡(luò),具有高度的非線性映射能力,目前是應(yīng)用較廣的網(wǎng)絡(luò)模型[1]。
BP 神經(jīng)網(wǎng)絡(luò)由輸入層x1…xn,輸出層y1…yn以及隱含層三部分組成。其中存在于輸層和輸出層間的神經(jīng)元,稱為隱含層,它與外界并無(wú)直接聯(lián)系,卻會(huì)間接影響整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的變動(dòng)。
該模型是由J.Moody和C.Darken在上世紀(jì)80年代末提出的,徑向基函數(shù)方法在某種程度水平上運(yùn)用嚴(yán)格多個(gè)空間差異的傳統(tǒng)差值法[2]。
輸入空間到隱含層空間的非線性變換層,第i個(gè)隱單元的輸出為
γ(·)作為隱單元的變動(dòng)函數(shù)(也就是RBF函數(shù)),采用局部分散模式,對(duì)中心點(diǎn)徑向?qū)λp的非線性函數(shù);其中ri為第i個(gè)隱單元的變動(dòng)函數(shù)的中心;bi為第i個(gè)非線性變換的寬度;‖·‖ 為歐式范數(shù),通過(guò)閱讀相關(guān)文獻(xiàn),大多數(shù)學(xué)者都將范數(shù)默認(rèn)為2;X為n維輸入向量,X可取x1,x2,…,xn-1,xn。
圖1 三層BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖
RBF神經(jīng)網(wǎng)絡(luò)的模型函數(shù)還可以用不同形式表達(dá),(2)多二次函數(shù)、(3)逆多二次函數(shù)、(4)高斯函數(shù),其中高斯函數(shù)為多數(shù)學(xué)者所常用的函數(shù)。
上世紀(jì)九十年代初,J.L.Elman 就語(yǔ)音問(wèn)題提出了一些處理方法,與其他網(wǎng)絡(luò)不一樣,這種處理方式是一種代表性的回歸型網(wǎng)絡(luò),和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)較為相似。Elman網(wǎng)絡(luò)模型和2.1的BP 神經(jīng)網(wǎng)絡(luò)相比,多了反饋層,其中,xc(k)為反饋層輸出,式子(5)為它的網(wǎng)絡(luò)描述,xk為隱藏層、y(k)為網(wǎng)絡(luò)輸出層。可被描述為(6),(7)。wI1為反饋層到隱層的連接權(quán)矩陣,wI2是輸入層到隱層的連接權(quán)矩陣;wI3是隱層到輸出層的連接權(quán)矩陣.而f為非線性作用函數(shù)(8),目標(biāo)函數(shù)為(9)。
圖2 為Elman神經(jīng)網(wǎng)絡(luò)模型的總體結(jié)構(gòu)展示圖。
圖2 Elman神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖
在分析和預(yù)測(cè)青海海東工業(yè)園區(qū)監(jiān)測(cè)站的細(xì)顆粒物平均濃度值的基礎(chǔ)上,任意選取少量樣本,其中選取十個(gè)作為測(cè)試樣本數(shù)據(jù),每個(gè)模型都需進(jìn)行十次預(yù)測(cè),將所得數(shù)據(jù)的平均值做對(duì)比和分析。本文用相對(duì)誤差可以判斷出預(yù)測(cè)結(jié)果的可靠性。
監(jiān)測(cè)站大氣重金屬在線分析儀每小時(shí)都會(huì)出一組PM2.5數(shù)據(jù),對(duì)數(shù)值進(jìn)行處理,本文保留2位小數(shù),據(jù)《2012環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》得知M2.5計(jì)算日均值至少需要20個(gè)有效小時(shí)數(shù)據(jù),才可獲得PM2.5日均值。風(fēng)向的變化為8個(gè),氣壓變壓的情況可分為6個(gè),在開始網(wǎng)絡(luò)訓(xùn)練前,先用數(shù)字1-8和1-6分別對(duì)應(yīng)8個(gè)風(fēng)向和6種不同氣壓變壓情況
完成上述處理后,用上文介紹的公式計(jì)算,根據(jù)每天的氣象日平均值數(shù)據(jù)來(lái)對(duì)應(yīng)處理得到的細(xì)顆粒物濃度值,空缺指標(biāo)進(jìn)行刪除后重新篩選。結(jié)果表明BP 和RBF 神經(jīng)網(wǎng)絡(luò)模型的樣本數(shù)一致,進(jìn)行預(yù)測(cè)的樣本數(shù)量有412個(gè),選取其中392個(gè)作為訓(xùn)練樣本,剩余20個(gè)作為測(cè)試樣本;而使用Elman神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的樣本數(shù)量有582 個(gè),其中可以用來(lái)訓(xùn)練的樣本有562個(gè),同樣剩余20個(gè)作為測(cè)試樣本。由于數(shù)據(jù)集大、運(yùn)算效率慢,為去除單位的量綱限制,使網(wǎng)絡(luò)呈現(xiàn)更好的收斂性,需要對(duì)樣本數(shù)據(jù)進(jìn)行歸一化處理
3.2.1 BP神經(jīng)網(wǎng)絡(luò)模型
三層BP 神經(jīng)網(wǎng)絡(luò)模型,輸入層中有六個(gè)節(jié)點(diǎn),隱含層有十個(gè)節(jié)點(diǎn),最后的輸出層有且僅有一個(gè)節(jié)點(diǎn),構(gòu)成了6-10-1形式的網(wǎng)絡(luò)結(jié)構(gòu),其中輸入層的六個(gè)節(jié)點(diǎn)分別為風(fēng)速、風(fēng)向日變化、溫度、濕度、氣壓以及氣壓發(fā)生變化的實(shí)際情況[8]。該模型共訓(xùn)練了一千次,在訓(xùn)練期間,最低誤差控制在0.001,設(shè)置了0.1的學(xué)習(xí)率。首先,產(chǎn)生訓(xùn)練集,可以隨機(jī)產(chǎn)生也可以有規(guī)律的產(chǎn)生,建立網(wǎng)絡(luò)后通過(guò)sim 函數(shù)實(shí)現(xiàn)仿真測(cè)試,獲得最終的細(xì)顆粒物濃度。結(jié)果顯示,實(shí)際預(yù)測(cè)得到的平均值是和預(yù)測(cè)平均值分別為53.6%,61.5%。誤差值百分比的范圍在[-16.22,50.38]間,最大誤差高達(dá)50.38%,實(shí)際預(yù)測(cè)得到值與預(yù)測(cè)得到的值之間沒有幾乎沒有差距。極個(gè)別相差較大的誤差,并不影響平均相對(duì)誤差的結(jié)果,BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)真實(shí)值的擬合性較高。
3.2.2 RBF神經(jīng)網(wǎng)絡(luò)模型
與BP神經(jīng)網(wǎng)絡(luò)相同,RBF神經(jīng)網(wǎng)絡(luò)中輸入層的六個(gè)節(jié)點(diǎn)分別說(shuō)明了不同指標(biāo)的實(shí)際情況,訓(xùn)練期間會(huì)隨機(jī)分配隱含層的節(jié)點(diǎn)個(gè)數(shù)。輸出層的節(jié)點(diǎn)寬度是0.67,訓(xùn)練目標(biāo)最低誤差是0.001。由RBF神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)所得的實(shí)際平均值與預(yù)測(cè)平均值分別為58.2%,57.1%,誤差值百分比的范圍處于[-36.27,59.12]間,平均誤差值為23.56%。
3.2.3 Elman神經(jīng)網(wǎng)絡(luò)模型
Elman神經(jīng)網(wǎng)絡(luò)運(yùn)用elmannet函數(shù)進(jìn)行建立,迭代次數(shù)為1000次,為獲得更好訓(xùn)練效果,使網(wǎng)絡(luò)呈現(xiàn)更好的收斂性,訓(xùn)練前需對(duì)樣本數(shù)據(jù)進(jìn)行歸一化處理 之后用自身訓(xùn)練數(shù)據(jù)做測(cè)試,選取原始數(shù)據(jù)的前562個(gè)作為訓(xùn)練數(shù)據(jù),后20個(gè)為測(cè)試樣本 將已經(jīng)訓(xùn)練過(guò)的網(wǎng)絡(luò)存放于文件中優(yōu)先加載這一文件,另將完成訓(xùn)練的Elman網(wǎng)絡(luò)引入其中。訓(xùn)練輸入為持續(xù)五天的每天平均細(xì)顆粒物濃度,第六天的細(xì)顆粒物就是與之對(duì)應(yīng)的期望輸出。這一模型預(yù)測(cè)的實(shí)際平均值和預(yù)測(cè)得到的平均值分別為89.3%,81.3%,誤差值百分比的范圍在[-51.53,73.25]間,最高值達(dá)到71.98%,相對(duì)誤差值達(dá)到31.27%。Elman神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果相對(duì)于其他兩個(gè)模型誤差最大,但三者相對(duì)接近,差距不大,都具有一定的擬合性
如圖3所示,將三種不同的神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)得到的結(jié)果與實(shí)際結(jié)果做對(duì)比,三種神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)得到的平均值誤差分別是BP為13.4%,RBP為23.6%,Elman的平均值誤差最大,為31.3%。根據(jù)數(shù)據(jù)可以發(fā)現(xiàn),三種不同的神經(jīng)網(wǎng)絡(luò)模型所預(yù)測(cè)得到的結(jié)果存在差距,且BP 和RBF 神經(jīng)網(wǎng)絡(luò)的擬合性較好,Elman的擬合性相對(duì)較差。
圖3 PM2.5真實(shí)值與三種網(wǎng)絡(luò)預(yù)測(cè)值對(duì)比圖
BP預(yù)測(cè)得到的結(jié)果誤差絕對(duì)值不超過(guò)20.5%,相對(duì)誤差控制在13.4%,而RBF神經(jīng)網(wǎng)絡(luò)模型和ELman神經(jīng)網(wǎng)絡(luò)模型的相對(duì)誤差分別為23.6%和31.3%,結(jié)果相比BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果高。因此,通過(guò)對(duì)比可以分析出預(yù)測(cè)精度最高的為BP神經(jīng)網(wǎng)絡(luò),擬合性最優(yōu)。
基于三種不同神經(jīng)網(wǎng)絡(luò)模型對(duì)海東工業(yè)園區(qū)的PM2.5濃度進(jìn)行預(yù)測(cè),選取相對(duì)誤差值較大的天數(shù)進(jìn)行分析,發(fā)現(xiàn)相對(duì)誤差較大的預(yù)測(cè)值通常處于波峰和波谷階段,這一結(jié)論在本文所選的三個(gè)模型中都存在。其中Elman神經(jīng)網(wǎng)絡(luò)模型所測(cè)量出的誤差值更大,使用該模型,需要使用連續(xù)五天里的細(xì)顆粒物濃度值,存在一定的記憶性。一旦數(shù)據(jù)稍有變動(dòng),誤差便會(huì)發(fā)生變化。通過(guò)數(shù)據(jù)可得出BP神經(jīng)網(wǎng)絡(luò)模型與RBF 神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)得到的結(jié)果相對(duì)更穩(wěn)定一些,學(xué)習(xí)樣本數(shù)據(jù),之后創(chuàng)建輸入和輸出變量間的關(guān)系,可以很好的實(shí)現(xiàn)逐一映射,因此存在更強(qiáng)的適用性和合理性。
通過(guò)神經(jīng)網(wǎng)絡(luò)工具箱,運(yùn)用Matlab在樣本數(shù)據(jù)中隨機(jī)獲取一定數(shù)量的訓(xùn)練樣本,選其中的20個(gè)數(shù)據(jù)作為測(cè)試樣本,由于獲取數(shù)據(jù)的過(guò)程為隨機(jī)選取,因此需分別對(duì)三個(gè)模型進(jìn)行10次預(yù)測(cè)后取均值,最后作對(duì)比分析,所得結(jié)論:
1)使用三種神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)出每天空氣中包含的細(xì)顆粒物,經(jīng)數(shù)據(jù)的分析比較,發(fā)現(xiàn)給RBF與Elman神經(jīng)網(wǎng)絡(luò)模型帶來(lái)的影響較大,BP神經(jīng)網(wǎng)絡(luò)模型更具適用性。通過(guò)研究得知,三種神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)得到的平均值誤差分別為13.4%,23.6%,31.3%,從這三個(gè)數(shù)據(jù)發(fā)現(xiàn),三種不同神經(jīng)網(wǎng)絡(luò)模型所預(yù)測(cè)得到的平均值誤差較為接近,均在13%-32%間,結(jié)果才能在一定差距。
2)通常在出現(xiàn)較大誤差的時(shí)候,預(yù)測(cè)值都是處于波峰和波谷地段,這種情況在三種模型中都有遇到過(guò)。Elman神經(jīng)網(wǎng)絡(luò)模型對(duì)比前兩種模型,所測(cè)量出來(lái)的誤差值更大,為31.3%。
3)通過(guò)人工神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)空氣里包含的細(xì)顆粒物存在一定擬合性,可以很好的獲得預(yù)測(cè)結(jié)果,并且所得預(yù)測(cè)結(jié)果具有一定真實(shí)性和準(zhǔn)確性,有利于防止環(huán)境污染的加重,促進(jìn)政府對(duì)環(huán)保工作的順利開展,加快實(shí)現(xiàn)經(jīng)濟(jì)高質(zhì)量發(fā)展的道路。