亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于二次分解和深度學(xué)習(xí)的PM2.5 集成預(yù)測方法

        2021-07-05 07:46:42周堯民黃恒君
        統(tǒng)計學(xué)報 2021年3期
        關(guān)鍵詞:模態(tài)信號模型

        周堯民,黃恒君

        (蘭州財經(jīng)大學(xué)統(tǒng)計學(xué)院,甘肅蘭州730020)

        一、引言

        改革開放以來,我國的工業(yè)、交通和服務(wù)業(yè)等發(fā)展迅速,其發(fā)展水平、實力和規(guī)模均達(dá)到世界先進(jìn)水平,人們的生活水平不斷提高,物質(zhì)需求得到極大的滿足。隨著工業(yè)發(fā)展和城市開發(fā),能源消耗急劇增加,化石燃料、汽車尾氣等排放到大氣中,大氣環(huán)境受到嚴(yán)重污染,霧霾天氣頻發(fā),且從局部污染向區(qū)域性污染擴(kuò)散。大氣污染已經(jīng)成為制約經(jīng)濟(jì)發(fā)展的重要因素之一,影響了人們的正常生活以及社會的安定(漆威,2015;宋凱藝和卞元超,2019)[1,2]。

        近十年來,PM2.5(可吸入顆粒物,即大氣中直徑小于或等于2.5 微米的顆粒物)一直是我國大部分地區(qū)環(huán)境的首要污染物,其在大氣中的含量雖然很少,但對空氣質(zhì)量和能見度的影響很大(解堊,2011)[3]。更重要的是,PM2.5直徑小,成分復(fù)雜,含大量的有毒、有害物質(zhì),且包含多種細(xì)小顆粒物。細(xì)小顆粒物進(jìn)入人體后會附著在呼吸道及肺葉上,對人體的一系列系統(tǒng)產(chǎn)生危害,而有害氣體、重金屬等會溶解于血液中,對人體健康的傷害更大(張義和王愛君,2020)[4]。PM2.5可以在大氣中長時間停留,長期高水平的PM2.5濃度會對生態(tài)環(huán)境、公共健康及社會經(jīng)濟(jì)構(gòu)成嚴(yán)重威脅(薛濤等,2020)[5]。全球疾病負(fù)擔(dān)研究中心(GBD)發(fā)布的報告顯示,2015 年全球約有400萬人因PM2.5污染而過早死亡,而我國就有100 多萬人,遠(yuǎn)高于歐洲和北美地區(qū)(Wang et al.,2020)[6]。PM2.5污染不僅會對健康造成直接損害,而且會增加健康支出,帶來經(jīng)濟(jì)損失。因此,PM2.5污染已經(jīng)引起研究者的廣泛關(guān)注(康曉明等,2015)[7]。

        準(zhǔn)確預(yù)測PM2.5濃度的變化,從數(shù)據(jù)的角度來講,就是實時提供未來某時段PM2.5濃度的相關(guān)信息,使人們及時采取防護(hù)措施,從而在一定程度上降低大氣污染對人體的危害。基于此,本文利用“分解—聚類—集成”的學(xué)習(xí)范式,提取時間序列的各部分特征和長期趨勢,構(gòu)建先分解、再聚類、后集成的預(yù)測模型,并以北京市日均PM2.5濃度序列進(jìn)行實際預(yù)測研究。本文首先利用自適應(yīng)加噪聲完備集成經(jīng)驗?zāi)B(tài)分解(CEEMDAN)將原始序列進(jìn)行分解,并依據(jù)各分量的正則化長短時記憶神經(jīng)網(wǎng)絡(luò)(ELSTM)模型的預(yù)測效果,將預(yù)測效果不好的高頻分量利用變分模態(tài)分解(VMD)進(jìn)行二次分解,然后運(yùn)用基于形狀的時間序列聚類(K-shape)算法將子序列進(jìn)行聚類,將聚類結(jié)果作為預(yù)測模塊的輸入,并對各個預(yù)測結(jié)果進(jìn)行集成得到最終值。本文構(gòu)建的CEEMDANVMD-K-ELSTM 二次分解組合模型,可以提高模型的預(yù)測精度。

        通過對城市空氣污染的研究文獻(xiàn)進(jìn)行梳理可以發(fā)現(xiàn),PM2.5濃度預(yù)測屬于時間序列研究的一類問題,而時間序列預(yù)測問題一直受到眾多學(xué)者的關(guān)注,其采用的預(yù)測方法主要有經(jīng)典統(tǒng)計模型、支持向量機(jī)模型、神經(jīng)網(wǎng)絡(luò)模型等。經(jīng)典統(tǒng)計模型側(cè)重于線性回歸。Sun 等(2013)[8]為應(yīng)對某些關(guān)鍵氣象因素以及PM2.5濃度在先驗中所呈現(xiàn)出的非高斯分布,采用服從對數(shù)正態(tài)分布、Gamma 分布和廣義極值分布(GeV)的隱馬爾科夫模型,較為準(zhǔn)確地預(yù)測了北加州某地的PM2.5濃度超限天數(shù),有效地減少了虛假警示。龔明等(2016)[9]建立了灰色馬爾科夫鏈模型,并在此基礎(chǔ)上對殘差進(jìn)行修正,融合了灰色模型和馬爾科夫模型的優(yōu)點(diǎn),提高了預(yù)測精度以及預(yù)測值與實際值的吻合度。沈勁等(2020)[10]采用氣象因子聚類和多元回歸方法,基于廣東省的空氣質(zhì)量數(shù)據(jù)建立了統(tǒng)計預(yù)報模型,發(fā)現(xiàn)該模型能夠較好地模擬NO2、SO2、CO、PM10、PM2.5的日均濃度水平和變化趨勢。但這類方法容易受到各種空氣污染物濃度變化的影響,而且確切掌握其變化有著較大的難度,其預(yù)測精度往往有限。因此,經(jīng)典統(tǒng)計模型難以適應(yīng)時間序列內(nèi)含的非平穩(wěn)、含噪聲等特點(diǎn),在預(yù)測中得不到較為準(zhǔn)確的結(jié)果。

        由于經(jīng)典統(tǒng)計模型存在局限性,更多的學(xué)者開始采用時間序列法對PM2.5濃度進(jìn)行預(yù)測。自回歸移動平均模型(Autoregressive Integrated Moving Average Model,ARIMA)在時間序列的線性特征提取方面表現(xiàn)較好,Jian Le 等(2012)[11]利用 ARIMA 分析了氣壓、風(fēng)速、溫度和相對濕度在細(xì)微顆粒物濃度預(yù)測中的顯著影響作用。但這類模型在非線性特征的提取上表現(xiàn)不佳,時間序列的復(fù)雜性和非線性使其不能達(dá)到令人滿意的效果。為了解決以上問題,研究者開始采用機(jī)器學(xué)習(xí)方法進(jìn)行研究。其中,支持向量機(jī)(Support Vector Machine,SVM)在小樣本、非線性及高維模式識別中具有獨(dú)特優(yōu)勢。Sun 等(2017)[12]利用主成分分析和最小二乘支持向量機(jī)的混合模型對PM2.5濃度進(jìn)行了短期預(yù)測。李龍(2014)[13]則使用最小二乘SVM 模型結(jié)合氣象因素和污染物濃度特征預(yù)測PM2.5濃度,其與傳統(tǒng)的SVM 模型相比具有更好的預(yù)測精度和泛化能力。Zhou 等(2019)[14]將多任務(wù)算法(Multi-task Learning,MTL)與多輸入支持向量機(jī)(Multi-output Support Vector Machine,M-SVM)相結(jié)合,利用MTL 對M-SVM 模型進(jìn)行訓(xùn)練,以優(yōu)化模型參數(shù)提取非線性特征,并利用臺北市多個檢測站點(diǎn)的PM2.5濃度進(jìn)行了多步預(yù)測,以驗證模型的有效性。但是,PM2.5這類時間序列的樣本量往往很大,SVM 在處理較大的數(shù)據(jù)集時存在計算量大、處理時間長等問題。因此,部分學(xué)者利用神經(jīng)網(wǎng)絡(luò)配合其他算法處理較大規(guī)模的數(shù)據(jù)并進(jìn)行海量數(shù)據(jù)計算,取得了長足的進(jìn)步。在PM2.5濃度預(yù)測領(lǐng)域,石峰等(2017)[15]建立了基于灰狼群智能最優(yōu)化算法的神經(jīng)網(wǎng)絡(luò)預(yù)測模型,從非機(jī)理模型的角度結(jié)合氣象因素和空氣污染物對上海市的PM2.5濃度進(jìn)行了預(yù)測,其模型精度優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)模型和支持向量回歸(Support Vector Regression,SVR)模型。周杉杉等(2018)[16]提出基于互信息最大相關(guān)和最小冗余準(zhǔn)則并結(jié)合粒子群優(yōu)化算法的混合特征選擇算法,利用遞歸模糊神經(jīng)網(wǎng)絡(luò)以最少的特征獲得最小的預(yù)測誤差,說明該方法適用于PM2.5濃度預(yù)測。

        為了充分利用不同模型的優(yōu)勢,一些學(xué)者開始研究組合模型預(yù)測方法。Wang 等(2015)[17]利用泰勒展開修正模型誤差項將神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)相結(jié)合,預(yù)測了太原市的SO2和PM10濃度。機(jī)器學(xué)習(xí)在時間序列預(yù)測中的運(yùn)用本質(zhì)上是對序列特征的監(jiān)督學(xué)習(xí),只有最大限度地學(xué)習(xí)序列的時間窗特征,才能更好地提高機(jī)器學(xué)習(xí)類方法的預(yù)測效果,而這是一般的機(jī)器學(xué)習(xí)模型難以做到的。在深度學(xué)習(xí)中,長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)在空氣質(zhì)量預(yù)測中的應(yīng)用可以克服上述問題。Huang 等(2018)[18]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)模型與 LSTM 模型相互融合,利用CNN 提取過去24 小時PM2.5濃度、風(fēng)力等信息,并將其序列輸入到LSTM 預(yù)測網(wǎng)絡(luò)中,其預(yù)測誤差小于 SVR、隨機(jī)森林(Random Forest,RF)等傳統(tǒng)模型以及單獨(dú)使用CNN 或LSTM 進(jìn)行預(yù)測的誤差。白盛楠等(2019)[19]采用灰色關(guān)聯(lián)度分析方法對多個氣象、大氣污染指標(biāo)進(jìn)行了關(guān)聯(lián)度分析,并通過搭建多變量的LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)PM2.5預(yù)測模型,實現(xiàn)了PM2.5日值濃度的準(zhǔn)確預(yù)測。蔣洪迅等(2021)[20]構(gòu)建了一種集成雙向長短期記憶網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)預(yù)測模 型 DLENN (Double -LSTM Ensemble Neural Network),以內(nèi)含的兩個方向LSTM 分別刻畫PM2.5濃度變化的趨勢性和周期性,并利用線性回歸復(fù)合神經(jīng)網(wǎng)絡(luò)捕捉PM2.5濃度變化的隨機(jī)性,其結(jié)果證明了DLENN 預(yù)測模型穩(wěn)定優(yōu)于其他集成模型。

        鑒于結(jié)合機(jī)器學(xué)習(xí)方法建立的組合預(yù)測模型存在非平穩(wěn)數(shù)據(jù)學(xué)習(xí)能力不足以及優(yōu)化過程容易過擬合等問題,一些學(xué)者提出了“分解—集成”的研究框架,將信號分解方法用于時間序列分析。Xiong 等(2019)[21]開展的時間序列預(yù)測工作就是從信號分解出發(fā),有效降低了時間序列的非線性和非平穩(wěn)性。黃恒君和王偉科(2020)[22]將多模態(tài)分解與深度學(xué)習(xí)相結(jié)合,并利用多視角學(xué)習(xí),提高了模型的預(yù)測精度。蔣峰等(2021)[23]利用變分模態(tài)分解(Variational Mode Decomposition,VMD)對 PM2.5濃度序列進(jìn)行分解并引入樣本熵對其進(jìn)行重構(gòu),采用改進(jìn)的探路者算法優(yōu)化極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM),最后利用極限學(xué)習(xí)機(jī)對每個重構(gòu)子序列進(jìn)行預(yù)測和集成,其預(yù)測的精度和穩(wěn)健性均有顯著的提升。為了更好地改進(jìn)預(yù)測效果,部分學(xué)者提出以二次分解的方式進(jìn)一步提取數(shù)據(jù)特征。Wang 等(2017)[24]研究了二次分解結(jié)構(gòu),將經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)所產(chǎn)生的分解信號利用小波分解(Wavelet Packet Decomposition,WPD)進(jìn)一步分解獲得最終的子序列?;诖?,本文在空氣污染研究中也采用二次分解結(jié)構(gòu),以提高PM2.5濃度序列預(yù)測精度,并利用自適應(yīng)加噪聲的完備集成經(jīng)驗?zāi)B(tài)分解(CEEMDAN),改進(jìn)集成經(jīng)驗?zāi)B(tài)分解(EEMD)所缺失的完備性。

        二、理論模型設(shè)計

        雖然已有學(xué)者將二次分解技術(shù)運(yùn)用到時間序列預(yù)測中,并取得了一定的效果,但二次分解方法運(yùn)算時間過長以及運(yùn)算效率低等問題仍比較突出。因此,本文將二次分解與聚類相結(jié)合,合理減少子序列的數(shù)量并將其作為LSTM 神經(jīng)網(wǎng)絡(luò)的輸入,建立了多模態(tài)集成預(yù)測模型。首先,本文對數(shù)據(jù)進(jìn)行預(yù)先處理,運(yùn)用三次樣條插值法填補(bǔ)缺失值,并將無監(jiān)督序列轉(zhuǎn)化為有監(jiān)督序列,以配合LSTM 模型的輸入。其次,本文采用CEEMDAN 方法將原序列進(jìn)行分解,以避免模態(tài)混疊現(xiàn)象,改進(jìn)EEMD 對信號分解的不完整性,并進(jìn)一步將高頻信號利用VMD 進(jìn)行分解,以提取復(fù)雜分信號的潛在特征。再次,本文利用基于形狀相似度的時間序列聚類算法(K-shape)對分信號進(jìn)行聚類,用以區(qū)分所有成分之間的差異,并依據(jù)它們的特性將數(shù)據(jù)劃分為K 類。具體而言,各分信號和殘差成分的預(yù)測值可以分成不同的類別,每個類別中的序列具有相似的特征。第四,本文將LSTM 神經(jīng)網(wǎng)絡(luò)加入正則化項,在規(guī)避遞歸神經(jīng)網(wǎng)絡(luò)梯度爆炸問題的同時,提高模型的穩(wěn)定性及泛化能力。第五,本文采用“分解—聚類—集成”框架作為組合模型的運(yùn)行機(jī)制,以更好地適應(yīng)時間序列非平穩(wěn)、高波動、含噪聲的特點(diǎn)。具體而言,為了改善PM2.5濃度序列的預(yù)測精度,本文在“分解—聚類—集成”的研究范式下,從信號分解、信號預(yù)測以及對結(jié)果進(jìn)行集成等方面對已有模型進(jìn)行優(yōu)化和改進(jìn),構(gòu)建了CEEMDAN-VMD-K-ELSTM 二次分解組合模型。模型的基本流程如圖1 所示。

        在圖1 的框架中,本文采用如下方法構(gòu)建二次分解集成預(yù)測模型,即CEEMDAN-VMD-KELSTM:(1)利用自適應(yīng)白噪聲的完備集成經(jīng)驗?zāi)B(tài)分解(CEEMDAN),對PM2.5的原序列進(jìn)行信號分解;(2)將高頻信號通過變分模態(tài)分解(VMD)進(jìn)行二次分解,進(jìn)一步提取數(shù)據(jù)序列中的非線性和非平穩(wěn)性特征;(3)運(yùn)用基于形狀相似度的時間序列聚類算法(K-shape)將二次分解后的分信號進(jìn)行聚類,以減少預(yù)測模塊的計算量及運(yùn)行時間;(4)將聚類結(jié)果作為預(yù)測模塊的輸入,通過彈性正則化長短時神經(jīng)網(wǎng)絡(luò)(ELSTM)輸出各分信號的預(yù)測值;(5)對各分信號預(yù)測結(jié)果進(jìn)行集成,取其重復(fù)10 次的結(jié)果做平均,將其最終結(jié)果與基準(zhǔn)模型進(jìn)行比較分析,從而降低模型評價結(jié)果的隨機(jī)性。

        圖1 CEEMDAN-VMD-K-ELSTM 模型流程

        (一)集成經(jīng)驗?zāi)B(tài)分解(EEMD)

        集成經(jīng)驗?zāi)B(tài)分解(EEMD)來源于經(jīng)驗?zāi)B(tài)分解(EMD),而EMD 是一種提取信號中非線性和非平穩(wěn)特征的技術(shù),其本質(zhì)是將信號分解為具有不同頻率的本征模態(tài)分量(IMF)(陳仁祥等,2012)[25]。但分解過程中出現(xiàn)的跳躍式變化,會使EMD 的分解結(jié)果產(chǎn)生模態(tài)混疊現(xiàn)象,即一個IMF 中包含差異極大的特征時間尺度,或者相近的特征時間尺度分布在不同的IMF 中,出現(xiàn)相鄰兩個IMF 波形混疊難以分辨,從而使分解結(jié)果失去實際意義(張袁元等,2016)[26]。EEMD則可以有效改善EMD 所產(chǎn)生的模態(tài)混疊,其步驟可以簡述為:(1)s(t)為原始信號序列,vi(t)代表第i 次實驗中添加的白噪聲序列,其分布為標(biāo)準(zhǔn)正態(tài)分布,第i 次的信號序列可以表示為Si(t)=s(t)+vi(t),其中,i=1,…,i 代表實驗的次數(shù);(2)將分信號序列 si(t)利用EMD 進(jìn)行分解,得到其中,k=1,…,K代表分解的模態(tài)個數(shù);(3)s(t)的k 個模態(tài)分量為IMFk,對進(jìn)行平均可以得到

        (二)自適應(yīng)完備集成經(jīng)驗?zāi)B(tài)分解(CEEMDAN)

        EEMD 所添加的白噪聲序列會對原始信號產(chǎn)生一定程度的破壞并有殘余,而且求均值過程的處理較為復(fù)雜。針對以上問題,Torres 等(2011)[27]提出自適應(yīng)加噪聲的完備經(jīng)驗?zāi)B(tài)分解(CEEMDAN),即引入自適應(yīng)高斯白噪聲這一概念,通過在每個階段添加有限次的自適應(yīng)白噪聲,實現(xiàn)在較少的平均次數(shù)下,其重構(gòu)誤差接近于0。CEEMDAN 可以有效避免模態(tài)混疊問題的出現(xiàn),并彌補(bǔ)EEMD 分解不完整的缺點(diǎn),解決EEMD 計算效率低的問題(李峰等,2016)[28]。本文歸納出CEEMDAN 的算法步驟。

        第一,利用EEMD 算法分解得到第一個模態(tài)分量:

        第二,在第一階段(k=1)計算第一個余量:

        第三,分解R1[n]+ε1E1(ωi[n])(i=1,…,I)到第一個模態(tài)分量,則第二個模態(tài)分量可以表示為:

        第四,對于k=2,…,K,我們計算第k 個余量:

        第五,分解Rk[n]+εkEk(ωi[n])(i=1,…,I)到第k個模態(tài)分量上,則第k+1 個模態(tài)分量可以表示為:

        第六,重復(fù)第四和第五步,直到殘差分量不適合被分解時停止分解。最終的余量滿足:R[n]=X[n]-其中,K 表示分解得到的固有模態(tài)函數(shù)的數(shù)量,參數(shù)X[n]表示為

        (三)變分模態(tài)分解(VMD)

        變分模態(tài)分解(VMD)是Dragomiretskiy 和Zosso在2014 年提出的,它是一種新的混沌數(shù)據(jù)處理技術(shù)。VMD 分解是將信號分解為K 個本征模態(tài)函數(shù)(IMF),通過尋找一系列模態(tài)及各模態(tài)的中心頻率,重構(gòu)原始數(shù)據(jù)。VMD 分解的目的是使K 個本征模態(tài)函數(shù)的帶寬之和達(dá)到最小,進(jìn)而利用L2范數(shù)的平方最小達(dá)到上述要求。因此,分信號的瞬時頻譜具有一定的現(xiàn)實物理意義,其具體步驟分為兩步。

        首先,構(gòu)造變分問題。假設(shè)原始信號f 被分解為k 個分量,為保證分解序列為具有中心頻率的有限帶寬的模態(tài)分量,同時確保各模態(tài)的估計帶寬之和最小,其約束條件為所有模態(tài)之和與原始信號f 相等。具體的變分約束表達(dá)式為:

        式中,{uk}={u1,u2,…,uk}是模態(tài),{ωk}={ω1,ω2,…,ωk}是模態(tài)的中心頻率,δ(t)為狄利克雷函數(shù),*為卷積運(yùn)算。

        其次,求解變分問題。我們引入拉格朗日乘子λ,轉(zhuǎn)變?yōu)闊o約束變分問題,得到如下增廣拉格朗日表達(dá)式:

        式中,α 為平衡參數(shù),其作用是減少高斯噪聲的干擾(朱敏等,2018)[29]。式(7)的優(yōu)化問題采用迭代方向乘子法(ADMM),即利用式(8)至式(10),迭代更新 u、ω、λ。

        (四)基于形狀的時間序列聚類算法(K-shape)

        由于時序數(shù)據(jù)具有特殊性,其聚類方法與截面數(shù)據(jù)聚類有所區(qū)別,因此,本文根據(jù)動態(tài)規(guī)劃原理,對時間序列進(jìn)行扭曲,進(jìn)行必要的錯位處理,以計算出最合適的距離,并依據(jù)時序數(shù)據(jù)的形狀相似性,將形狀相似的序列聚為一類,即K-shape 聚類算法(Gravano et al.,2016)[30]。

        1.時間序列形狀相似度?;ハ嚓P(guān)測度是一種統(tǒng)計度量,由此可以確定x 和y 兩個序列的相似性。要實現(xiàn)平移不變性,計算互相關(guān)時應(yīng)保持y 序列不變,并將x 在y 上滑動,計算x 的每一個位移s 的內(nèi)積。若考慮所有的移動,CCw(x,y)=(c1,c2,…,cw),我們可以得到的互相關(guān)序列長度為2m-1,則有如下定義:

        我們計算出使CCw(x,y)最大的ω,進(jìn)而得到x相對于y 的最佳移動s=w-m,進(jìn)而得到距離測度:

        取值范圍是[0,2],0 表示兩個序列最相似。

        2.時間序列形狀提取。時間序列分析中的許多任務(wù)依賴于通過一個序列有效地總結(jié)一組時間序列的方法,這個摘要序列通常被稱為平均序列,其在聚類中則被稱為質(zhì)心。我們的目標(biāo)是找到與類內(nèi)所有其他時間序列之間距離平方和的最小值,這就變?yōu)橐粋€優(yōu)化問題:

        該式需要對類內(nèi)所有的時間序列計算一個最佳的偏移。因為這里提到的方法是用在迭代聚類當(dāng)中,所以需要把前一次計算得到的聚類中心作為參考,并把所有的序列與這個參考的序列對齊。省略式(14)的分母可以得到:

        為了簡單起見,我們用向量表示此方程,并假設(shè)序列已經(jīng)進(jìn)行了歸一化處理,得到下式:

        歸一化數(shù)據(jù),令 μk=μkQ,其中是單位矩陣,O 是全幺矩陣。用 S 代替我們得到:

        其中,M=QT·S·Q,最大值 μk即為求瑞利商(Rayleigh quotient)最大化問題,同時最大值為矩陣M 對應(yīng)最大特征值的特征向量。

        3.基于形狀的時間序列聚類。K-shape 算法需執(zhí)行兩個步驟:(1)在分配步驟中,算法通過將每個時間序列與所有摘要序列進(jìn)行比較,并將每個時間序列分配給最接近摘要序列的一類,以更新聚類中的成員關(guān)系;(2)在細(xì)化步驟中,通過更新聚類中心,反映前一步中聚類成員的變化。算法重復(fù)這兩個步驟,直到集群成員沒有變化,或者達(dá)到允許的最大迭代次數(shù)。在賦值步驟中,算法主要依賴時間序列形狀相似度中的距離測度,而在細(xì)化步驟中,算法主要依賴時間序列形狀提取中的聚類中心進(jìn)行計算。具體的算法流程如下:

        (五)ELSTM 神經(jīng)網(wǎng)絡(luò)

        長短時記憶神經(jīng)網(wǎng)絡(luò)最早是由Hochreiter 和Schmidhuber 提出的,它是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的改進(jìn)和發(fā)展(Dragomiretskiy,2014)。LSTM 因其獨(dú)特的單元結(jié)構(gòu),在處理長期相關(guān)關(guān)系方面具有較明顯的優(yōu)勢,其結(jié)構(gòu)如圖2 所示。

        從圖2 中可以看出,LSTM 包含一個或多個儲存器以及三個自適應(yīng)乘法門,分別為輸入門、輸出門和遺忘門。其中,輸入門是控制是否允許寫入,遺忘門是控制記憶單元的值是否需要更新,輸出門是控制是否允許輸出,通過這三個門就可以實現(xiàn)信息的保存和控制。

        圖2 LSTM 神經(jīng)網(wǎng)絡(luò)的神經(jīng)元結(jié)構(gòu)

        在時刻t,設(shè)xt代表PM2.5的時間序列,yt代表LSTM 的預(yù)測結(jié)果,ct和ht分別為神經(jīng)元狀態(tài)值和隱藏層狀態(tài)值,則LSTM 各單元的更新情況如下:

        其中,Wih、Wfh、Wch、Woh分別是隱藏層狀態(tài)值 ht的權(quán)重矩陣,Wix、Wfx、Wcx、Wox分別是時間序列 xt的權(quán)重矩陣,Wic、Wfc、Woc分別是神經(jīng)元狀態(tài)值 ct與三個門函數(shù)的對角矩陣,bi、bf、bc、bo分別是偏置向量,Wyh和by是LSTM 網(wǎng)絡(luò)的輸出權(quán)重和偏置向量,σ(*)是 sigmoid 激活函數(shù),g(*)和 h(*)是 tanh 激活函數(shù),Φ 是softmax 激活函數(shù)。上述模型中所需學(xué)習(xí)訓(xùn)練的參數(shù)有:各個節(jié)點(diǎn)間的有偏連接權(quán)重、神經(jīng)元內(nèi)部的輸入連接權(quán)重、神經(jīng)元遞歸連接權(quán)重。我們對權(quán)重學(xué)習(xí)設(shè)置了不同系數(shù)的正則化項,進(jìn)而使用彈網(wǎng)懲罰項將其添加到目標(biāo)函數(shù)中,以防止模型學(xué)習(xí)過程中的過擬合,即有:

        當(dāng) λ1≠0,λ2≠0 時,上式即為彈網(wǎng)懲罰,可以構(gòu)成ELSTM 模型,以提高模型的泛化能力。

        三、實證分析

        (一)數(shù)據(jù)描述

        本文所用的北京市PM2.5濃度數(shù)據(jù)來自于中國空氣質(zhì)量在線監(jiān)測平臺(http://www.cnemc.cn)。北京四季分明,冬天寒冷干燥,夏天炎熱少雨,再加上城市汽車總量和燃煤需求量大以及周邊城市的影響,北京的霧霾天氣頻發(fā),一年中大多數(shù)時間的PM2.5濃度都高出正常值,呈現(xiàn)出明顯的非線性和非平穩(wěn)性特征(馬忠玉和肖宏偉,2017)。因此,選取北京市PM2.5濃度序列進(jìn)行預(yù)測,可以對模型的有效性進(jìn)行全面、系統(tǒng)的檢驗。本文以2014—2018 年的日均數(shù)據(jù)作為訓(xùn)練集,以2019 年一年的數(shù)據(jù)作為測試集,對預(yù)測模型進(jìn)行有效性檢驗。

        圖3 PM2.5 濃度原始序列

        從圖3 中可以看出,原始數(shù)據(jù)序列具有含噪音、高波動等特點(diǎn)。將月平均數(shù)據(jù)點(diǎn)標(biāo)注在圖中可以發(fā)現(xiàn),每個年份的數(shù)據(jù)集均呈現(xiàn)較明顯的周期性和季節(jié)性。在長期趨勢中,北京市PM2.5濃度在2014—2017 年度水平較高、極值較多,在2018—2019 年度PM2.5濃度水平有所改善,突破 200(μg/m3)的天數(shù)明顯減少,總體呈現(xiàn)下降趨勢。

        表1 PM2.5 數(shù)據(jù)的描述性統(tǒng)計分析

        從表1 來看,數(shù)據(jù)集為非對稱分布,偏度較高,峰度值為6.83,數(shù)據(jù)較標(biāo)準(zhǔn)正態(tài)分布更為陡峭。在數(shù)據(jù)的前期處理中,本文運(yùn)用拉伊達(dá)法則(張德然,2003)對數(shù)據(jù)中的異常點(diǎn)進(jìn)行處理,對數(shù)據(jù)原有缺失點(diǎn)和被剔除的異常點(diǎn)利用三次樣條插值法進(jìn)行重新插值,得到處理后的數(shù)據(jù)集。以上的數(shù)據(jù)分布以及描述性統(tǒng)計分析充分說明,使用基于分布理論的傳統(tǒng)統(tǒng)計預(yù)測方法難以在PM2.5濃度序列預(yù)測中取得理想的效果。同時,數(shù)據(jù)的高波動、含噪聲、含缺失以及非線性等特點(diǎn)也證明了在進(jìn)行預(yù)測分析前進(jìn)行數(shù)據(jù)預(yù)處理具有合理性和必要性。

        (二)評判標(biāo)準(zhǔn)

        為了檢驗聚類任務(wù)的效果,本文利用輪廓系數(shù)評價聚類結(jié)果。輪廓系數(shù)可以同時計算類內(nèi)聚集度與類間分離度,檢驗簇內(nèi)樣本緊密程度以及簇間樣本遠(yuǎn)離程度。樣本i 的輪廓系數(shù)如下:

        其中,a 為某個樣本與其所在簇內(nèi)其他樣本的平均距離,b 為某個樣本與其他簇樣本的平均距離。本文計算所有樣本對應(yīng)的輪廓系數(shù)并取均值作為該聚類結(jié)果的評價指標(biāo),其取值范圍為[-1,1],越接近1 說明聚類效果越好。

        為了檢驗?zāi)P偷挠行裕疚牟捎昧巳N誤差分析方法,即平均絕對誤差(MAE)、均方根誤差(RMSE)和平均絕對誤差百分比(MAPE),這三種誤差分析方法的計算公式如下:

        其中,yt和分別代表t 時刻的真實值和預(yù)測值,N 代表測試集中的時間點(diǎn)個數(shù),即測試集的大小。

        為了進(jìn)一步從統(tǒng)計學(xué)視角對不同預(yù)測模型的水平精度進(jìn)行比較分析,本文采用Diebold-Mariano 統(tǒng)計量測試不同模型的統(tǒng)計顯著性(孫少龍,2016)。DM 檢驗的原假設(shè)是測試模型與基準(zhǔn)模型的預(yù)測精度處于同一水準(zhǔn),備擇假設(shè)是測試模型的預(yù)測精度顯著優(yōu)于基準(zhǔn)模型,損失函數(shù)選擇均方誤差(MSE),則DM 統(tǒng)計量的定義如下:

        本文在集成預(yù)測時采用了滑動窗口前向滑動測試的方式,其目的是適應(yīng)時間序列數(shù)據(jù)的測試要求,即在測試集上統(tǒng)計真實值與預(yù)測值誤差的同時,隨測試的不斷進(jìn)行,將前一天的真實值納入模型的歷史數(shù)據(jù)集中,同時更新窗寬。該方式較固定分段的測試方式和不斷更新窗口的測試方式更符合預(yù)測時間序列的實際運(yùn)用,能夠在最近歷史數(shù)據(jù)和較遠(yuǎn)歷史數(shù)據(jù)的影響之間取得平衡。

        (三)預(yù)測過程

        本文將原始PM2.5濃度時間序列分解為多個子序列,其結(jié)果如圖4 所示。

        圖4 PM2.5 原始序列CEEMDAN 分解

        在圖4 所示的時域圖中,原始序列被分解為8條分量以及1 條趨勢項(Residual),且各個分量按照頻率從高到低依次排列,不同的分解信號反映了不同的信息。高頻數(shù)據(jù)分信號1 與分信號2 包含原始序列的震蕩信息,趨勢項則包含原始PM2.5濃度序列的趨勢信息。本文使用ELSTM 模型預(yù)測每一條分量與趨勢項,在ELSTM 模型的預(yù)測過程中,利用PM2.5濃度序列的連續(xù)7 個數(shù)據(jù)點(diǎn)預(yù)測第8 個數(shù)據(jù)點(diǎn)并依次向后滑動。由于本文采用的是日均數(shù)據(jù),考慮到實際情況,每日的PM2.5濃度與附近7 日的PM2.5濃度應(yīng)有較明顯的相關(guān)關(guān)系,故按此設(shè)置,并對數(shù)據(jù)進(jìn)行一階差分,以緩解數(shù)據(jù)的不平穩(wěn)性。算法的迭代次數(shù)為100 次,每個小批量中包含的樣本數(shù)為50。為了確保對比的公平性和有效性,以上參數(shù)將用于本文所有的對比算法中。

        基于上述設(shè)定,本文利用ELSTM 對每一條分量和趨勢項進(jìn)行預(yù)測,并對高頻分量的預(yù)測結(jié)果進(jìn)行展示。在圖5 的預(yù)測結(jié)果中,預(yù)測值與真實值較為接近,但頻率波動較大,包含的非線性特征明顯,預(yù)測效果也較差。因此,為了提高模型的預(yù)測能力,本文對難以準(zhǔn)確預(yù)測的高頻分量運(yùn)用VMD 方法進(jìn)行二次分解。VMD 方法要求預(yù)先設(shè)定分解模態(tài)數(shù)K,本文通過觀察各模態(tài)中心頻率的接近程度確定K 值,即各分量中心頻率出現(xiàn)相近的值時,就認(rèn)為出現(xiàn)VMD 過分解現(xiàn)象(陳東寧,2017)。高頻信號經(jīng)VMD分解后,不同K 值下各模態(tài)分量的中心頻率如表2所示。

        圖5 高頻信號序列的ELSTM 預(yù)測

        表2 不同K 值對應(yīng)的中心頻率

        由表2 可知,模態(tài)數(shù)為10 時出現(xiàn)了中心頻率相近的模態(tài)分量,即出現(xiàn)過分解,故分信號數(shù)量確定為9。圖6 為高頻信號經(jīng)VMD 分解后的時域圖。

        圖6 高頻信號VMD 分解時域

        將高頻信號做二次分解可以獲取高頻信號中的非線性特征,但這同時會使子序列的數(shù)量成倍增加,加之ELSTM 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程本來就很復(fù)雜,這樣會使預(yù)測模塊的訓(xùn)練時間過長。因此,本文采用時間序列聚類算法(K-shape),將具有相似特征的分信號進(jìn)行聚類,并將輪廓系數(shù)作為評價指標(biāo)。高頻信號1 的聚類結(jié)果如表3 所示。

        表3 不同聚類中心數(shù)對應(yīng)的輪廓系數(shù)

        由表3 可知,當(dāng)聚類中心數(shù)量為3 時,輪廓系數(shù)值最大,聚類效果最好。進(jìn)一步地,本文將所有高頻信號和低頻信號的分解結(jié)果進(jìn)行聚類,以提高預(yù)測模塊的運(yùn)行效率,降低預(yù)測模塊的運(yùn)行時間。

        本文利用上述運(yùn)算得到的數(shù)據(jù)以及確定的模型參數(shù)作為預(yù)測的初始參數(shù),對每個分信號進(jìn)行數(shù)據(jù)集分割、模型學(xué)習(xí)與預(yù)測。在訓(xùn)練模型之前,考慮時間序列的順序特點(diǎn),本文將數(shù)據(jù)轉(zhuǎn)化為監(jiān)督問題的可訓(xùn)練形式,與ELSTM 神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入要求進(jìn)行匹配,并將預(yù)測結(jié)果進(jìn)行逆差分轉(zhuǎn)換,還原為目標(biāo)預(yù)測值,最后進(jìn)行集成預(yù)測,將各個分信號的預(yù)測結(jié)果進(jìn)行疊加,作為最終的預(yù)測值。模型的預(yù)測效果如圖7 所示。

        圖7 多模態(tài)集成預(yù)測效果

        四、模型比較和魯棒性

        為了說明基于“分解—聚類—集成”研究范式的二次分解組合模型的有效性,本文將CEEMDANVMD-K-ELSTM 模型與單一模型、一次分解集成模型、二次分解集成模型進(jìn)行對比,以探究模型復(fù)雜度的提升以及分解方法的組合對預(yù)測結(jié)果的影響,并利用DM 檢驗分析模型的預(yù)測精度是否存在顯著性差異。表4 為各個模型在北京市PM2.5濃度預(yù)測中的誤差值,本文分別從RMSE、MAE 和MAPE 標(biāo)準(zhǔn)方面對所有預(yù)測模型的性能進(jìn)行評價。

        表4 不同模型的預(yù)測結(jié)果對比

        由表4 的預(yù)測結(jié)果可知,ELSTM 較其他神經(jīng)網(wǎng)絡(luò)模型的精度更高,預(yù)測效果更好?;凇胺纸狻垲悺伞钡慕M合模型在預(yù)測性能上均優(yōu)于單一模型,表明“分解—聚類—集成”研究范式可以有效克服PM2.5濃度數(shù)據(jù)的高波動性、非線性特征對模型預(yù)測精度造成的影響,顯著提高模型的預(yù)測能力。本文所提出的二次分解模型在RMSE 和MAE 兩類評價中取得的效果最好,表明不同分解技術(shù)的組合對預(yù)測效果也有一定的影響,CEEMDAN 方法與VMD 方法組合的二次分解方法使得實驗結(jié)果達(dá)到最優(yōu)。

        為了判斷CEEMDAN-VMD-K-ELSTM 模型的預(yù)測結(jié)果是否在統(tǒng)計學(xué)上顯著優(yōu)于基準(zhǔn)模型,本文利用DM 統(tǒng)計量進(jìn)行檢驗。DM 檢驗是根據(jù)DM 統(tǒng)計量的值判斷模型之間的預(yù)測精度是否在統(tǒng)計意義上具有顯著差異,表5 為DM 檢驗結(jié)果。

        表5 DM 檢驗結(jié)果

        (續(xù)表5)

        由表5 可知,以本文提出的CEEMDAN-VMDK-ELSTM 作為測試模型時,其預(yù)測精度在0.01 的顯著性水平上顯著優(yōu)于其他基準(zhǔn)模型,二次分解組合模型顯著優(yōu)于一次分解模型,而單一模型中的ELSTM 神經(jīng)網(wǎng)絡(luò)顯著優(yōu)于其他網(wǎng)絡(luò)。

        為了進(jìn)一步驗證模型的有效性,檢驗數(shù)據(jù)變化對模型的魯棒性影響,本文利用2015 年1 月1 日至2020 年6 月31 日的日均PM2.5濃度序列檢驗?zāi)P褪欠袢阅鼙3州^好的預(yù)測性能及穩(wěn)定性。窗寬設(shè)定為 30,驗證集數(shù)據(jù)為 2020 年 3 月 31 至 2020 年 6月 31 日。圖 8 為 CEEMDAN-VMD-K-ELSTM 模型與基準(zhǔn)模型在不同數(shù)據(jù)集上的預(yù)測比較結(jié)果。

        圖8 不同數(shù)據(jù)集上的預(yù)測模型誤差對比

        由圖 8 可知,CEEMDAN-VMD-K-ELSTM 組合模型在RMSE 和MAE 標(biāo)準(zhǔn)下仍具有最高的預(yù)測精度,即模型能夠?qū)Σ煌腜M2.5濃度時間序列進(jìn)行較為準(zhǔn)確的預(yù)測,具有良好的魯棒性。

        五、結(jié)論與展望

        空氣質(zhì)量研究一直是國內(nèi)重點(diǎn)關(guān)注的問題,污染物濃度預(yù)測更是空氣質(zhì)量研究的重中之重,其不僅可以有效預(yù)防嚴(yán)重空氣污染事件的發(fā)生,還可以幫助人們及時采取應(yīng)對措施。因此,構(gòu)建一個行之有效的空氣質(zhì)量預(yù)測模型具有重要的現(xiàn)實意義。

        本文引入分解算法作為預(yù)處理工具,以提取輸入原始數(shù)據(jù)的內(nèi)在特征,而分解算法和深度學(xué)習(xí)在自然語言處理、計算機(jī)視覺等領(lǐng)域已經(jīng)取得很大的成就,尤其是在空氣質(zhì)量預(yù)測方面。由于數(shù)據(jù)存在非線性、非平穩(wěn)性及波動性的特性,以往的空氣質(zhì)量預(yù)測準(zhǔn)確率并不能令人滿意。因此,本文通過將不同的模態(tài)分解技術(shù)與常用機(jī)器學(xué)習(xí)模型、神經(jīng)網(wǎng)絡(luò)模型進(jìn)行組合對比分析,提出一種二層分解多模態(tài)集成預(yù)測方法,并在“分解—集成”的研究范式下進(jìn)行進(jìn)一步的拓展,將“分解—聚類—集成”的研究范式應(yīng)用于PM2.5濃度序列預(yù)測,采用基于時間序列形狀的聚類算法將分解后的時序數(shù)據(jù)進(jìn)行聚類,提高了模型整體的運(yùn)行效率。本文對北京市PM2.5濃度的實證分析,證明了二層分解與ELSTM 神經(jīng)網(wǎng)絡(luò)的組合在時間序列預(yù)測上可以獲得更為精準(zhǔn)的預(yù)測效果。

        本文提出的基于聚類的二次分解集成模型還可以應(yīng)用于其他一些較為困難的預(yù)測任務(wù),如金融時間序列預(yù)測、風(fēng)速預(yù)測、電力消耗預(yù)測等。就空氣質(zhì)量預(yù)測問題而言,本文依然存在諸多可拓展之處。首先,由實證分析可知,數(shù)據(jù)分解在混合集成學(xué)習(xí)范式中具有重要地位,今后應(yīng)探索更高效、可行的數(shù)據(jù)分解算法。其次,在單一預(yù)測中,為保證預(yù)測精度所使用的復(fù)雜模型,其時間復(fù)雜度大大提高,今后應(yīng)探究更高效的數(shù)據(jù)壓縮算法,以加快單一預(yù)測的速度。再次,影響PM2.5濃度的溫度、空氣、濕度等因素的相關(guān)數(shù)據(jù)量都較大,這使得精確預(yù)測PM2.5濃度存在困難,今后應(yīng)加入氣象數(shù)據(jù)、地理信息數(shù)據(jù)等影響空氣污染的其他因素,以提高預(yù)測精度,這有助于研究者提高對空氣質(zhì)量預(yù)測問題的認(rèn)知,構(gòu)建更廣義的數(shù)據(jù)融合預(yù)測模型。此外,人口規(guī)模、經(jīng)濟(jì)產(chǎn)業(yè)結(jié)構(gòu)與量級、政府空氣污染治理政策等因素也是除空氣和氣象地理數(shù)據(jù)之外應(yīng)考慮的重要方面,如何將這些因素與空氣質(zhì)量研究相結(jié)合也是一個需要解決的實際問題。

        猜你喜歡
        模態(tài)信號模型
        一半模型
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        重要模型『一線三等角』
        完形填空二則
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        基于FPGA的多功能信號發(fā)生器的設(shè)計
        電子制作(2018年11期)2018-08-04 03:25:42
        3D打印中的模型分割與打包
        基于LabVIEW的力加載信號采集與PID控制
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        亚洲av综合色一区二区| 999精品全免费观看视频| 香蕉亚洲欧洲在线一区| 蜜桃视频一区视频二区| 国产在线第一区二区三区| 熟妇人妻av中文字幕老熟妇| 亚洲av日韩av综合aⅴxxx| 国产猛男猛女超爽免费av| 国产精品女老熟女一区二区久久夜 | 98在线视频噜噜噜国产| 精品国产一区二区三区毛片| 国产91精品高潮白浆喷水| 朝鲜女人大白屁股ass| 国产中文制服丝袜另类| 天堂av中文在线官网| 91成人自拍国语对白| 亚洲精品美女久久久久99| 在线观看国产一区亚洲bd| 日韩在线精品免费观看| 狠狠躁18三区二区一区| 色婷婷五月综合亚洲小说| 北岛玲精品一区二区三区| 久久精品国产亚洲av性瑜伽| 日日碰狠狠添天天爽| 精品无码久久久九九九AV| 国产在线视频一区二区三区| 婷婷五月深深久久精品| 国产小受呻吟gv视频在线观看| 黑人一区二区三区在线| 99久久免费看精品国产一| 欧美天天综合色影久久精品| 国产高清精品自在线看| 最新日本女优中文字幕视频| 日本高清视频wwww色| 国产精品一区二区暴白浆| 成av人片一区二区三区久久| 亚洲精品在线国产精品| 手机在线看永久av片免费| 四虎国产精品成人影院| 激情五月我也去也色婷婷| 99精品国产一区二区三区a片|