,,,,
(北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
隨著近幾年霧霾天氣在全國(guó)范圍內(nèi)的頻繁出現(xiàn),細(xì)微顆粒物(Fine Particulate Matter, PM2.5)受到了公眾的廣泛關(guān)注。PM2.5通常指環(huán)境空氣中空氣動(dòng)力學(xué)當(dāng)量直徑小于等于 2.5 微米的顆粒物。PM2.5能較長(zhǎng)時(shí)間懸浮于空氣中,其在空氣中含量濃度越高,代表空氣污染越嚴(yán)重。與較粗的環(huán)境空氣顆粒物相比,PM2.5粒徑小,活性強(qiáng),極易附帶有毒、有害物質(zhì)(例如,重金屬、微生物等),且在大氣中的停留時(shí)間長(zhǎng)、輸送距離遠(yuǎn),因而對(duì)人體健康和大氣環(huán)境質(zhì)量的影響更大。如何有效的對(duì)空氣PM2.5濃度進(jìn)行準(zhǔn)確的預(yù)測(cè)和預(yù)報(bào),對(duì)于保護(hù)公眾身體健康,環(huán)境治理具有重要的意義。由于PM2.5濃度受到多方面因素的影響,呈現(xiàn)出明顯的不規(guī)則和不確定性波動(dòng),很難對(duì)其進(jìn)行有效的數(shù)學(xué)建模。
近年來(lái)深度學(xué)習(xí)技術(shù)[1]在人工智能領(lǐng)域取得顯著成就。深度神經(jīng)網(wǎng)絡(luò)可以對(duì)數(shù)據(jù)抽象特征進(jìn)行提取,并且擁有強(qiáng)大的對(duì)高維數(shù)據(jù)進(jìn)擬合的能力,可以有效地根據(jù)PM2.5歷史數(shù)據(jù),構(gòu)建預(yù)測(cè)模型。本文基于深度學(xué)習(xí)中LSTM[2](Long Short-Term Memory)循環(huán)神經(jīng)網(wǎng)絡(luò),依據(jù)過(guò)去20小時(shí)采集的空氣數(shù)據(jù),預(yù)測(cè)未來(lái)5個(gè)小時(shí)PM2.5濃度指數(shù)。實(shí)驗(yàn)數(shù)據(jù)表明本文提出的算法模型達(dá)到了良好的效果,可以有效的預(yù)測(cè)出未來(lái)5小時(shí)內(nèi)空氣中PM2.5濃度值。
最近幾年,學(xué)術(shù)界對(duì)PM2.5濃度預(yù)測(cè)進(jìn)行了也許多研究。文獻(xiàn)[3]基于非線性回歸模型建立預(yù)測(cè)模型,并設(shè)計(jì)出一個(gè)基于逆風(fēng)PM2.5濃度的附加參數(shù),用于增強(qiáng)預(yù)測(cè)模型的表現(xiàn),取得了良好的效果。文獻(xiàn)[4]首次提出了一種基于數(shù)據(jù)預(yù)處理和分析的混合EEMD-GRNN(集合經(jīng)驗(yàn)?zāi)B(tài)分解 - 通用回歸神經(jīng)網(wǎng)絡(luò))模型,用于提前一天預(yù)測(cè)PM2.5濃度。文獻(xiàn)[5]提出優(yōu)化神經(jīng)網(wǎng)絡(luò)的大氣PM2.5污染指數(shù)預(yù)測(cè)方法,利用主成分分析法對(duì)大氣PM2.5污染指數(shù)的各種影響因素進(jìn)行分析,保留影響因素的主要特征成分,并作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本,利用遺傳算法進(jìn)行BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)的尋優(yōu),并利用最優(yōu)參數(shù)構(gòu)建BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型,獲得準(zhǔn)確地預(yù)測(cè)結(jié)果。文獻(xiàn)[6]使用貝葉斯kriged卡爾曼濾波模型對(duì)PM2.5時(shí)空過(guò)程進(jìn)行短期預(yù)測(cè),利用Kriging方法建立模型的空間預(yù)測(cè)并使用馬爾可夫鏈蒙特卡羅技術(shù)實(shí)現(xiàn),在時(shí)間和空間上獲得良好的預(yù)測(cè)效果。文獻(xiàn)[7]提出了一種基于地理的模型,使用MLP提前三天預(yù)測(cè)SO2,CO和PM10的日平均濃度,其采用了3種地理模型:?jiǎn)握军c(diǎn)鄰域模型,雙站點(diǎn)鄰域模型和基于距離的模型。實(shí)驗(yàn)結(jié)果表明,基于地理的模型優(yōu)于普通模型,特別是基于距離的模型。如果在地理模型中增加更多的氣象變量,預(yù)計(jì)仍有很大的改進(jìn)空間。文獻(xiàn)[8]提出了一種新的混合ARIMA-ANN模型,以提高PM10預(yù)報(bào)精度,取得了較好的預(yù)測(cè)精度。
盡管之前許多學(xué)者在PM2.5和其他空氣質(zhì)量預(yù)測(cè)算法上取得了不少突破性進(jìn)展,但是大部分現(xiàn)有算法模型都需要復(fù)雜的數(shù)據(jù)處理和設(shè)置外部參數(shù)條件,而這一過(guò)程需要很強(qiáng)的專業(yè)知識(shí),增加了模型的實(shí)現(xiàn)復(fù)雜程度,同時(shí)也降低了其易用性。本文提出的基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)PM2.5預(yù)測(cè)算法模型,能夠有效地根據(jù)歷史數(shù)據(jù)預(yù)測(cè)出未來(lái)時(shí)刻PM2.5濃度值,同時(shí)模型具較低的實(shí)現(xiàn)復(fù)雜度和開(kāi)發(fā)成本。
原始的神經(jīng)網(wǎng)絡(luò)一般都是全連接網(wǎng)絡(luò),而且非相鄰的網(wǎng)絡(luò)之間沒(méi)有連接,沒(méi)有辦法有效處理不定長(zhǎng)的時(shí)序數(shù)據(jù)。RNN(Recurrent Neural Network)是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),為了更有效的處理時(shí)序數(shù)據(jù),RNN將網(wǎng)絡(luò)的隱藏層相連接,可以理解為多個(gè)具有相同結(jié)構(gòu)和參數(shù)的前向神經(jīng)網(wǎng)絡(luò)的循環(huán)堆積。循環(huán)的次數(shù)和輸入序列的長(zhǎng)度一致,且要求在序列中毗鄰狀態(tài)的對(duì)應(yīng)網(wǎng)絡(luò)的隱層之間互聯(lián)。RNN網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖1所示。
圖1 RNN結(jié)構(gòu)圖
在RNN中網(wǎng)絡(luò)每一個(gè)時(shí)刻除了要接受輸入層的參數(shù)以外,還要接收自身網(wǎng)絡(luò)上一時(shí)刻隱層輸出。RNN的隱層控制著序列數(shù)據(jù)的信息傳遞。不同的時(shí)刻之前連接的權(quán)重代表著過(guò)去時(shí)刻信息對(duì)當(dāng)前時(shí)刻的影響。
RNN網(wǎng)絡(luò)的輸入記為{x0,x1,…xt,x(t+1)…},輸出集記為{y0,y1,…yt,y(t+1)…},隱藏層的輸出記為{s0,s1,…st,s(t+1)…}。RNN能夠處理時(shí)序信息隱層單元起了關(guān)鍵作用。數(shù)據(jù)信息的流向是從輸入層到輸出層,并跟隨隱藏層的狀態(tài)傳遞下去。具體計(jì)算過(guò)程如公式(1)(2)(3)所示。
st=σ(Uxt+Wst-1+bi)
(1)
ot=Vht+bo
(2)
yt=softmax(ot)
(3)
在上式中U,W,V分別是網(wǎng)絡(luò)輸入層,隱藏層,和輸出層權(quán)重參數(shù),bi和bo分別是輸入層偏置和輸出層偏置參數(shù),σ是激活函數(shù),一般會(huì)選擇一般會(huì)選擇tanh函數(shù)。
理論上RNN可以處理任何長(zhǎng)度序列數(shù)據(jù),但是當(dāng)處理序列過(guò)長(zhǎng)時(shí)會(huì)導(dǎo)致歷史時(shí)時(shí)刻信息的影響削弱甚至消失,稱之為梯度消失。對(duì)RNN的改進(jìn)主要是集中在隱層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)做優(yōu)化。如LSTM和GRU[9](Gated Recurrent Unit)在隱層網(wǎng)絡(luò)中增加了門控制單元,使得網(wǎng)絡(luò)可以保留住歷史時(shí)刻比較重要的信息。
RNN的關(guān)鍵作用是可以依據(jù)隱藏層之前的轉(zhuǎn)態(tài)傳遞處理序列問(wèn)題,即做當(dāng)前時(shí)刻的任務(wù)是可以考慮到過(guò)去時(shí)刻的影響。但是RNN處理較長(zhǎng)時(shí)序數(shù)據(jù)時(shí)會(huì)很難訓(xùn)練,表現(xiàn)極差。LSTM是長(zhǎng)短期記憶網(wǎng)絡(luò),通過(guò)相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)改變來(lái)避免長(zhǎng)期依賴問(wèn)題。在RNN中通過(guò)隱藏層連接重復(fù)同一個(gè)網(wǎng)絡(luò)模塊。LSTM同樣延續(xù)了與RNN同樣的重復(fù)連接結(jié)構(gòu),不同的是在LSTM網(wǎng)絡(luò)中增加細(xì)胞狀態(tài)ct。ct也會(huì)隨著不同的時(shí)刻傳遞下去,細(xì)胞轉(zhuǎn)態(tài)ct代表了長(zhǎng)期記憶。LSTM的關(guān)鍵就是細(xì)胞狀態(tài),在整個(gè)序列的運(yùn)算過(guò)程中只有少量的線性交互,所以可以有效保存過(guò)去較長(zhǎng)時(shí)刻的信息。
LSTM的細(xì)胞結(jié)構(gòu)如圖2所示,當(dāng)接收到前一個(gè)時(shí)刻隱藏層輸出ht-1和當(dāng)前時(shí)刻輸入xt,首先會(huì)用遺忘門決定細(xì)胞狀態(tài)丟棄不重要的信息。遺忘門運(yùn)算如公式(4)所示:
ft=σ(Wxfxt+Whfh(t-1)+Wcfc(t-1)+bf)
(4)
在上式中Wxf,Whf,Wcf,bf代表遺忘門的網(wǎng)絡(luò)參數(shù)。σ代表sigmoid激活函數(shù),ft是遺忘門輸出向量,其中向量中的每一個(gè)元素都在(0,1)范圍內(nèi)。代表著當(dāng)前時(shí)刻細(xì)胞狀態(tài)ct中每個(gè)元素的重要程度。
圖2 LSTM神經(jīng)元示意圖
LSTM還要確定當(dāng)前時(shí)刻,細(xì)胞狀態(tài)哪些位置的信息需要更新和確定更新后的值。這個(gè)決定通過(guò)輸入門來(lái)完成。輸入門的運(yùn)算過(guò)程如公式(5)(6)所示:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
(5)
(6)
當(dāng)遺忘門和輸入門運(yùn)算完成,LSTM會(huì)更新當(dāng)前時(shí)刻的細(xì)胞狀態(tài),更新細(xì)胞狀態(tài)的計(jì)算過(guò)程如公式(7)所示:
ct=ftc(t-1)+itct
(7)
式中,ft是遺忘門的輸出,代表著哪些信息需要遺忘,哪些信息需要保留。
LSTM最后會(huì)計(jì)算當(dāng)前需要確定什么樣的信息需要輸出,這個(gè)任務(wù)主要靠輸出門根據(jù)當(dāng)前的細(xì)胞狀態(tài)ct來(lái)完成。公式(8)計(jì)算確定哪些部分的細(xì)胞狀態(tài)需要輸出,公式(9)把細(xì)胞狀態(tài)通過(guò)tanh函數(shù)處理,得到一個(gè)(-1,1)范圍的值,并將其和ot相乘得到當(dāng)前時(shí)刻最終的隱藏層輸出。
ot=σ(Wxoxt+Whoht-1+bo)
(8)
ht=ottanh(ct)
(9)
式中,Wxo,Who和bo是輸出門的參數(shù),ht是當(dāng)前時(shí)刻的隱層輸出。
LSTM在RNN的基礎(chǔ)上增加了三個(gè)門控制,分別是遺忘門,輸入門和輸出門。遺忘門和輸入門負(fù)責(zé)對(duì)細(xì)胞狀態(tài)的ct的更新。在網(wǎng)絡(luò)中ct會(huì)保留住序列數(shù)據(jù)的重要信息并可以傳遞較長(zhǎng)的時(shí)刻,能夠有效的緩解長(zhǎng)期依賴。LSTM目前已被廣泛的應(yīng)用于序列標(biāo)注,機(jī)器翻譯和語(yǔ)音識(shí)別等自然語(yǔ)言處理等任務(wù)中。
本文采用LSTM神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),算法模型根據(jù)當(dāng)前時(shí)刻最近20個(gè)小時(shí)的歷史空氣質(zhì)量觀測(cè)數(shù)據(jù)預(yù)測(cè)未來(lái)5個(gè)小時(shí)PM2.5濃度值。這是個(gè)典型的時(shí)序預(yù)測(cè)問(wèn)題,LSTM能夠有效的處理時(shí)序數(shù)據(jù)。算法網(wǎng)絡(luò)模型的整體結(jié)構(gòu)圖如下圖3所示。
圖3 算法模型結(jié)構(gòu)圖
在模型中x1,x2…x20代表某個(gè)觀測(cè)地點(diǎn)采集的最近20個(gè)小時(shí)歷史空氣數(shù)據(jù)。h1,h2…h(huán)20代表每個(gè)時(shí)刻輸出隱狀態(tài)向量。對(duì)于第時(shí)刻輸入數(shù)據(jù)xt={PM2.5, PM2.5_24h, PM10, PM10_24h, AQI}。xt為5維的向量數(shù)據(jù),其中PM2.5是t時(shí)刻的PM2.5測(cè)量值,PM2.5_24h是t時(shí)刻PM2.5最近的24小時(shí)測(cè)量均值,PM10是時(shí)刻的PM10測(cè)量值,PM10_24h是時(shí)刻PM10最近的24小時(shí)測(cè)量均值。AQI(Air Quality Index)代表時(shí)刻的空氣污染指數(shù)。模型會(huì)依據(jù)20個(gè)小時(shí)的歷史數(shù)據(jù),抽取特征,完成參數(shù)的學(xué)習(xí),來(lái)預(yù)測(cè)未來(lái)5個(gè)小時(shí)的PM2.5濃度值。
模型輸入為最近20個(gè)小時(shí)歷史的測(cè)量數(shù)據(jù)x1,x2…x20,然后根據(jù)公式(4)(5)(6)(7)(8)(9)所述得到h1,h2…h(huán)20輸出隱狀態(tài)向量,經(jīng)過(guò)公式(10)合并,得到編碼向量。
h=Concat(h1,h(2)…h(huán)20)
(10)
m=σ(Whmh+bhm)
(11)
PM2.5o=Wmom+bmo
(12)
公式(10)中代表對(duì)向量首位相連拼接合并,完成對(duì)歷史時(shí)刻數(shù)據(jù)的編碼。根據(jù)公式(11)對(duì)向量h經(jīng)過(guò)一次全連接層線性變化得到模型最終的特征向量m,此時(shí)向量m就是模型對(duì)歷史數(shù)據(jù)抽取的抽象特征。在公式(11)中W_hm和b_hm代表全連接層的權(quán)重和偏置。在輸出層中,如公式(12)所示,模型會(huì)會(huì)根據(jù)特征向量預(yù)測(cè)出未來(lái)時(shí)刻的PM2.5,用PM2.5o表示。PM2.5o是一個(gè)5維的實(shí)數(shù)向量,包含預(yù)測(cè)出的未來(lái)5個(gè)小時(shí)的輸出值PM2.51h,PM2.52h,PM2.53h,PM2.54h,PM2.55h。
模型的訓(xùn)練階段采用均方誤差MSE作為的損失函數(shù),具體計(jì)算過(guò)程如公式(13)所示:
(13)
式中,N代表樣本的總數(shù),j代表未來(lái)第小時(shí),PM2.5j代表第j小時(shí)的預(yù)測(cè)值,yj代表第j小時(shí)的真實(shí)值。梯度優(yōu)化過(guò)程中使用Adagrad[10]策略進(jìn)行參數(shù)更新,初始的學(xué)習(xí)率設(shè)置為0.01。
算法模型的完整訓(xùn)練過(guò)程如算法1所述。
算法1:基于LSTM的PM2.5預(yù)測(cè)算法
1: 初始化LSTM神經(jīng)網(wǎng)絡(luò)參數(shù),(公式(4)(5)(6)(7)(8)(9)中的W和b)
2: 初始化全連接層網(wǎng)絡(luò)參數(shù),Whm和bhm
3: 初始化輸出層網(wǎng)絡(luò)參數(shù)Wmo和bmo
1: 定義M為訓(xùn)練集總共batch數(shù)
2: for each iteration i=1,2,…,Mdo
3: 采樣一個(gè)batch的訓(xùn)練樣本序列x,y
4: 根據(jù)公式(4)-(9)得到歷史序列隱狀態(tài)序列h1,h2,… ,h20
5: 根據(jù)公式(10)串聯(lián)合并h1,h2,… ,h20
6: 根據(jù)公式(11)(12)得到預(yù)測(cè)結(jié)果PM2.51h,PM2.52h...PM2.55h
7: 根據(jù)公式(13)計(jì)算模型損失
8: 計(jì)算網(wǎng)絡(luò)所有參數(shù)值的梯度
9: 更新參數(shù)值
10: end for
本文選擇網(wǎng)絡(luò)公開(kāi)的北京空氣質(zhì)量數(shù)據(jù)作為實(shí)驗(yàn)評(píng)測(cè)數(shù)據(jù),數(shù)據(jù)包含2014年1月1日到2014年12月31日北京市內(nèi)35個(gè)數(shù)據(jù)收集地點(diǎn)每小時(shí)的采集數(shù)據(jù)。實(shí)驗(yàn)按照25個(gè)小時(shí)大小的滑動(dòng)窗口切分?jǐn)?shù)據(jù),取前20個(gè)小時(shí)數(shù)據(jù)作為模型輸入數(shù)據(jù),后5個(gè)小時(shí)的數(shù)據(jù)作為預(yù)測(cè)數(shù)據(jù),生成樣本對(duì)數(shù)據(jù)集。在樣本對(duì)數(shù)據(jù)集中,本文隨機(jī)選擇20%作為測(cè)試數(shù)據(jù),剩下的80%作為訓(xùn)練數(shù)據(jù)。舍棄含有空值和異常數(shù)據(jù)樣本,共搜集得到517 476條訓(xùn)練樣本,129 370條測(cè)試樣本。
本實(shí)驗(yàn)環(huán)境主要參數(shù)CPU:Intel(R) Core(TM) i7-6800K CPU @ 3.40GHz,GPU顯卡:1 080 ti4,內(nèi)存為32 GB,操作系統(tǒng)為Ubuntu 16.04 64 bit。實(shí)驗(yàn)設(shè)置訓(xùn)練迭代epochs為100,LSTM隱狀態(tài)維度為128維,損失函數(shù)選擇回歸預(yù)測(cè)常用的MSE均方誤差,batch size設(shè)置為64。迭代完成100次訓(xùn)練,模型訓(xùn)練學(xué)習(xí)曲線如圖4所示。
圖4 模型訓(xùn)練學(xué)習(xí)曲線
由圖可知,隨著迭代次數(shù)的增加,訓(xùn)練誤差和測(cè)試誤差都下降很快。當(dāng)?shù)降螖?shù)(epoch)達(dá)到100時(shí),測(cè)試誤差和訓(xùn)練誤差明顯有分叉的跡象,為避免模型發(fā)生過(guò)擬合,本文選擇到迭代次數(shù)到100次停止繼續(xù)訓(xùn)練。可以看出來(lái),測(cè)試集誤差不斷下降,說(shuō)明算法模型學(xué)到了數(shù)據(jù)的真實(shí)分布和潛在規(guī)律。
為驗(yàn)證所提出算法的有效性,文本選取了3種機(jī)器學(xué)習(xí)算法作為對(duì)比參考,分別是ARIMA[11],SVM[12]和GBDT[13]。對(duì)比實(shí)驗(yàn)各個(gè)算法根據(jù)給定大小的訓(xùn)練數(shù)據(jù)集訓(xùn)練模型,在同樣的測(cè)試集上得到測(cè)試結(jié)果,以MSE和準(zhǔn)確率做為評(píng)價(jià)標(biāo)準(zhǔn)。準(zhǔn)確率以不同的相對(duì)誤差作為條件,給定最近20個(gè)小時(shí)的歷史觀測(cè)數(shù)據(jù)預(yù)測(cè)未來(lái)5個(gè)小時(shí)的PM2.5濃度。誤差實(shí)驗(yàn)結(jié)果如表1所示。
表1 MSE(均方誤差)實(shí)驗(yàn)結(jié)果表
在實(shí)驗(yàn)結(jié)果中LSTM取得了最小的均方誤差,在誤差評(píng)價(jià)指標(biāo)上表現(xiàn)出較好的預(yù)測(cè)能力。準(zhǔn)確率實(shí)驗(yàn)結(jié)果如表2所示,在實(shí)驗(yàn)過(guò)程中分別考慮了相對(duì)誤差在0.1,0.2和0.3的范圍內(nèi),對(duì)比不同算法取得的準(zhǔn)確率,LSTM同樣取得了最好的預(yù)測(cè)效果,在準(zhǔn)確率上表現(xiàn)出良好的時(shí)序列預(yù)測(cè)能力。
表2 準(zhǔn)確率實(shí)驗(yàn)結(jié)果表
為驗(yàn)證本算法模型穩(wěn)定性和實(shí)用性,本文選取測(cè)試數(shù)據(jù)中三個(gè)不同數(shù)據(jù)采樣地點(diǎn)并隨機(jī)采樣20天數(shù)據(jù)作為時(shí)間軸對(duì)比不同的算法預(yù)測(cè)效果,實(shí)驗(yàn)結(jié)果如圖5、圖6和圖7所示。從三個(gè)采樣地點(diǎn)預(yù)測(cè)值與真實(shí)值對(duì)比來(lái)看,LSTM預(yù)測(cè)值與真實(shí)值的擬合更加好,沒(méi)有出現(xiàn)較大的明顯偏差。在圖5、圖6和圖7中,ARIMA,SVM和GBDT三個(gè)對(duì)比預(yù)測(cè)算法均出現(xiàn)了在序列拐點(diǎn)處的滯后性,與真實(shí)值有較大的偏差,說(shuō)明三個(gè)預(yù)測(cè)算法,直接用歷史數(shù)據(jù)作為特征或者對(duì)歷史數(shù)據(jù)的簡(jiǎn)單處理作為特征,并不能表現(xiàn)出其更深層次的序列規(guī)律。LSMT也表現(xiàn)出神經(jīng)網(wǎng)絡(luò)特有的優(yōu)勢(shì),通過(guò)多種非線性運(yùn)算能夠?qū)Ω呔S數(shù)據(jù)抽取抽象和深層的特征,展現(xiàn)出比較好的預(yù)測(cè)和擬合效果。通多對(duì)同一種算法在不相同采樣地點(diǎn)的橫向?qū)Ρ?,發(fā)現(xiàn)本文提出的LSTM預(yù)測(cè)算法具有更好的穩(wěn)定性。如對(duì)比SVM算法分別在圖5、圖6和圖7中的表現(xiàn),可以看到SVM在圖7中的擬合效果要比圖5和圖6中的效果差很多,而LSTM算法在三個(gè)圖中均表現(xiàn)出了不錯(cuò)的效果,沒(méi)有根據(jù)不同采樣地點(diǎn)數(shù)據(jù)的變化而受到很大的影響。
圖5 算法預(yù)測(cè)對(duì)比圖(前門觀測(cè)點(diǎn)數(shù)據(jù))
圖6 算法預(yù)測(cè)對(duì)比圖(天壇觀測(cè)點(diǎn)數(shù)據(jù))
圖7 算法預(yù)測(cè)對(duì)比圖(通州觀測(cè)點(diǎn)數(shù)據(jù))
文本提出了基于深度學(xué)習(xí)LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的PM2.5預(yù)測(cè)算法,算法模型不需要對(duì)數(shù)據(jù)進(jìn)行復(fù)雜的專業(yè)處理,LSTM可以抽取數(shù)據(jù)的時(shí)序特征,對(duì)未來(lái)時(shí)刻PM2.5進(jìn)行有效的回歸預(yù)測(cè)。實(shí)驗(yàn)結(jié)果也表明,本文提出的預(yù)測(cè)模型得到了良好的預(yù)測(cè)效果,可以依據(jù)某個(gè)為位置的最近20小時(shí)歷史測(cè)量數(shù)據(jù),對(duì)未來(lái)5個(gè)小時(shí)的PM2.5值進(jìn)行有效的預(yù)測(cè)。未來(lái)研究工作中可以對(duì)PM2.5濃度變化規(guī)律和機(jī)理進(jìn)行深入的分析研究,結(jié)合更多的理論基礎(chǔ)對(duì)PM2.5進(jìn)行更加精準(zhǔn)的長(zhǎng)時(shí)間段預(yù)測(cè)。