亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于燭臺(tái)圖模式匹配的PM2.5擴(kuò)散特征的提取

        2023-05-24 03:18:28文益民沈世銘
        計(jì)算機(jī)應(yīng)用 2023年5期
        關(guān)鍵詞:燭臺(tái)卷積污染物

        許 睿,梁 爽,萬(wàn) 航,文益民,沈世銘,李 建

        (1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004;2.南方海洋科學(xué)與工程廣東省實(shí)驗(yàn)室(廣州),廣州 511458;3.衛(wèi)星導(dǎo)航定位與位置服務(wù)國(guó)家地方聯(lián)合工程研究中心(桂林電子科技大學(xué)),廣西 桂林 541004)

        0 引言

        實(shí)現(xiàn)經(jīng)濟(jì)和環(huán)境協(xié)同發(fā)展已經(jīng)成為全球關(guān)注的熱點(diǎn),而大氣環(huán)境污染是目前主要的環(huán)境問(wèn)題之一。造成環(huán)境污染的細(xì)顆粒物種類眾多,主要包括氮氧化物、硫氧化物、臭氧、一氧化碳等。大氣污染物濃度監(jiān)測(cè)是環(huán)境治理的一個(gè)重要手段,不僅可以識(shí)別大氣中的污染物質(zhì),還能掌握其分布和擴(kuò)散規(guī)律,監(jiān)視大氣污染源的排放和控制情況。大氣污染物濃度預(yù)測(cè)方法特點(diǎn)對(duì)比如表1 所示。在眾多的污染物濃度預(yù)測(cè)方法中,基于深度學(xué)習(xí)的方法以其學(xué)習(xí)能力強(qiáng)、適應(yīng)性強(qiáng)、可移植性好以及準(zhǔn)確率高等特點(diǎn)被廣泛應(yīng)用。本文考慮結(jié)合股票預(yù)測(cè)中廣泛使用的K 線圖技術(shù)分析方法,充分挖掘PM2.5(大氣細(xì)顆粒物污染)濃度擴(kuò)散數(shù)據(jù),以有效提取大氣污染物擴(kuò)散過(guò)程特征。

        表1 大氣污染物濃度預(yù)測(cè)方法特性對(duì)比Tab.1 Comparison of characteristics of air pollutant concentration prediction methods

        本文提出了一種基于燭臺(tái)圖(Candlestick Chart,也稱作K 線圖)表示的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取大氣污染數(shù)值序列特征——基于燭臺(tái)圖模式匹配(Candlestick Pattern Matching,CPM)的PM2.5擴(kuò)散特征提取方法,通過(guò)聚類分析網(wǎng)絡(luò)中燭臺(tái)圖的特征判斷將會(huì)發(fā)生的趨勢(shì)反轉(zhuǎn)情況。燭臺(tái)圖被廣泛應(yīng)用在股票市場(chǎng)用來(lái)記錄和預(yù)測(cè)價(jià)格走勢(shì),燭臺(tái)圖分析技術(shù)的使用解決了非線性數(shù)據(jù)龐大無(wú)章的問(wèn)題,同時(shí)保留了數(shù)據(jù)的語(yǔ)義關(guān)系。本文在引入燭臺(tái)圖的基礎(chǔ)上,使用在深度學(xué)習(xí)領(lǐng)域廣泛應(yīng)用的VGG(Visual Geometry Group)網(wǎng)絡(luò)提取污染物濃度變化特征,并對(duì)最終走勢(shì)進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明:本文的預(yù)測(cè)方法可以有效提取PM2.5趨勢(shì)特征,驗(yàn)證了基于CPM 的方法在預(yù)測(cè)未來(lái)污染物濃度周期變化時(shí)的有效性。

        1 相關(guān)工作

        隨著當(dāng)今世界經(jīng)濟(jì)的發(fā)展,人們對(duì)環(huán)境污染的問(wèn)題也越來(lái)越重視,PM2.5已成為大氣污染與擴(kuò)散領(lǐng)域的重點(diǎn)研究對(duì)象。一個(gè)旨在預(yù)測(cè)空氣質(zhì)量變化的模型,不僅要充分考慮多種復(fù)雜因素的影響,如氣候、交通、地形地貌、理化過(guò)程等,還需要充分保護(hù)數(shù)據(jù)的原始性,并考慮污染物濃度擴(kuò)散的全局趨勢(shì)以及局部變化特征。因此,將單純時(shí)序數(shù)據(jù)與大氣污染物擴(kuò)散過(guò)程相對(duì)應(yīng),充分提取變化特征的研究具備實(shí)用性和學(xué)術(shù)價(jià)值。

        目前針對(duì)污染物濃度數(shù)據(jù)的分析中,利用傳統(tǒng)的物理模型以及人工神經(jīng)網(wǎng)絡(luò)等各類方法對(duì)空氣質(zhì)量指標(biāo)未來(lái)走勢(shì)進(jìn)行分析是大氣環(huán)境監(jiān)測(cè)領(lǐng)域的一個(gè)重要方向。例如,Zhang 等[1]全面評(píng)估了具有在線耦合氣象-化學(xué)的三維實(shí)時(shí)空氣質(zhì)量預(yù)測(cè)(3-D Real-Time Air Quality Forecasting,3-D RT-AQF)模型;李威凌等[2]分別采用高斯模型和空間插值法對(duì)空間擴(kuò)散情況進(jìn)行模擬;Sun 等[3]提出了一種混合深度空氣質(zhì)量 預(yù)測(cè)模 型(Mixing Depth Air Quality Prediction,HDAQP)來(lái)預(yù)測(cè)空氣質(zhì)量指標(biāo)。現(xiàn)在基于人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法中,普遍集中在將初始處理的數(shù)據(jù)預(yù)處理成各種維度的數(shù)據(jù)向量后作為神經(jīng)網(wǎng)絡(luò)的輸入樣本。這些方法在對(duì)初始數(shù)據(jù)進(jìn)行處理,或?qū)斎霐?shù)據(jù)的維度進(jìn)行確定時(shí),都對(duì)最原始的數(shù)據(jù)進(jìn)行了改變和篩選,限定了原始數(shù)據(jù)呈現(xiàn)特征的形式,可能損失很多隱藏信息。

        在眾多的數(shù)據(jù)分析方法中,燭臺(tái)圖被認(rèn)為是能夠最好保存時(shí)序數(shù)據(jù)指標(biāo)的一種形式,燭臺(tái)圖模式對(duì)應(yīng)數(shù)據(jù)走勢(shì)中的濃度變化。例如,Takeuchi 等[4]設(shè)計(jì)了改良的K 線;Li 等[5]將壓力模式定義為一系列燭臺(tái)圖;魏連江等[6]從K 線圖角度對(duì)瓦斯異常模式進(jìn)行研究。但是,K 線圖對(duì)各類紛繁復(fù)雜的分析規(guī)則的應(yīng)用主要依賴分析者個(gè)人的經(jīng)驗(yàn),因此利用科學(xué)統(tǒng)計(jì)的方法真正抓住K 線圖中預(yù)測(cè)漲跌的特征信號(hào)顯得尤為重要。

        隨著深度學(xué)習(xí)研究的日益發(fā)展,CNN 在圖片識(shí)別領(lǐng)域的應(yīng)用取得了巨大成就。例如,Hu 等[7]將深度學(xué)習(xí)方法(卷積自動(dòng)編碼器)與K 線圖分析技術(shù)相結(jié)合并應(yīng)用在股票分析中;Chen 等[8]使 用CNN 和格拉 姆角場(chǎng)(Gramian Angular Field,GAF)圖像捕獲了8 種主要的燭臺(tái)形式;Huang 等[9]通過(guò)閱讀燭臺(tái)圖表而不是財(cái)務(wù)報(bào)告中的數(shù)值來(lái)預(yù)測(cè)價(jià)格走勢(shì);張智軍等[10]則將含有需要識(shí)別的金融K 線形態(tài)圖像和該形態(tài)對(duì)應(yīng)的坐標(biāo)作為神經(jīng)網(wǎng)絡(luò)的輸入。通過(guò)深度學(xué)習(xí)算法在K 線形態(tài)圖像識(shí)別的應(yīng)用,不僅克服了現(xiàn)有時(shí)間序列數(shù)據(jù)量化程序難以表達(dá)分析師根據(jù)經(jīng)驗(yàn)得到的K 線形態(tài)特征的問(wèn)題,還能自主學(xué)習(xí)那些需要被識(shí)別的K 線形態(tài)后再用于包含K 線形態(tài)特征的實(shí)時(shí)圖像識(shí)別中。

        在將神經(jīng)網(wǎng)絡(luò)應(yīng)用于大氣質(zhì)量預(yù)測(cè)時(shí),現(xiàn)有研究多集中于采集監(jiān)測(cè)站中各種維度和各種頻率的數(shù)據(jù),然后進(jìn)行插值和剔除等預(yù)處理,之后再輸入到深度神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)訓(xùn)練[11],但少有方法能將原始數(shù)據(jù)不經(jīng)破壞地保留下來(lái)。部分學(xué)者已經(jīng)嘗試在各個(gè)領(lǐng)域?qū)D像分析方法和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合,但還未單獨(dú)考慮神經(jīng)網(wǎng)絡(luò)對(duì)于燭臺(tái)圖的識(shí)別分類問(wèn)題[12-14],沒有將此技術(shù)分析方法應(yīng)用到大氣環(huán)境領(lǐng)域。因此,本文將K 線分析技術(shù)與CNN 相結(jié)合,探討由PM2.5生成的燭臺(tái)圖所包含的可以預(yù)測(cè)未來(lái)濃度變化的信息。

        2 研究區(qū)概況

        污染物濃度序列種類繁多,具有動(dòng)態(tài)、非線性、混亂等特點(diǎn),是大氣環(huán)境技術(shù)分析與量化投資領(lǐng)域的重要研究?jī)?nèi)容。從海量的歷史污染物時(shí)間序列數(shù)據(jù)中,表征并捕獲某種特征的擴(kuò)散過(guò)程,是構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)[15-17]。本次研究采用桂林市大氣質(zhì)量在線監(jiān)測(cè)站的監(jiān)測(cè)數(shù)據(jù),如圖1 所示。桂林地處中國(guó)華南,由于桂林特有的氣象和地形條件,市區(qū)PM2.5擴(kuò)散十分緩慢。燭臺(tái)圖的生成需要泄放時(shí)間較長(zhǎng)的連續(xù)泄漏型數(shù)據(jù),這使K 線圖像分析技術(shù)在大氣環(huán)境領(lǐng)域的應(yīng)用變得合理。這種泄放時(shí)間較長(zhǎng)的連續(xù)型數(shù)據(jù)恰好利于燭臺(tái)圖的生成以及變化特征的提取,為后續(xù)大氣污染物濃度的預(yù)測(cè)提供數(shù)據(jù)基礎(chǔ)。

        圖1 桂林市大氣質(zhì)量在線監(jiān)測(cè)站分布Fig.1 Distribution of air quality online monitoring stations in Guilin

        本文結(jié)合在股票價(jià)格預(yù)測(cè)中廣泛使用的分析方法與深度學(xué)習(xí)技術(shù)來(lái)預(yù)測(cè)PM2.5在桂林市的濃度水平變化。在傳統(tǒng)的燭臺(tái)圖表分析中,總會(huì)根據(jù)一些特殊燭臺(tái)圖表或趨勢(shì)反轉(zhuǎn)信號(hào)的出現(xiàn)來(lái)判斷趨勢(shì)變化。然而,不同的站點(diǎn)會(huì)有不同的濃度變化機(jī)制,當(dāng)帶有趨勢(shì)反轉(zhuǎn)信號(hào)的燭臺(tái)圖出現(xiàn)時(shí),當(dāng)前污染物的濃度變化將會(huì)繼續(xù)或是反轉(zhuǎn),這取決于站點(diǎn)對(duì)污染物濃度的擴(kuò)散模式[18-20]。因此,需要找出污染物濃度的擴(kuò)散模式,以幫助預(yù)測(cè)具體的濃度改變數(shù)值。

        3 理論基礎(chǔ)與模型構(gòu)建

        3.1 模型框架

        在燭臺(tái)圖聚類分析和污染物濃度擴(kuò)散機(jī)制相互聯(lián)系的基礎(chǔ)上,基于燭臺(tái)圖模式匹配(CPM)的大氣質(zhì)量預(yù)測(cè)框架如圖2 所示,主要流程包括數(shù)據(jù)采集與預(yù)處理、特征提取與燭臺(tái)圖生成、模式匹配、趨勢(shì)預(yù)測(cè)和結(jié)果分析。

        圖2 基于CPM的大氣質(zhì)量預(yù)測(cè)框架Fig.2 Air quality prediction framework based on CPM

        3.2 燭臺(tái)圖庫(kù)的生成

        PM2.5濃度K 線圖中主要包括4 類數(shù)據(jù),即起始值(First)、最高值(Highest)、最低值(Lowest)、結(jié)束值(Last)。PM2.5濃度擴(kuò)散規(guī)律也是圍繞這4 個(gè)數(shù)據(jù)進(jìn)行研究。圖3 中展示了污染物1 天內(nèi)的變化信息,以及PM2.5濃度的燭臺(tái)圖對(duì)應(yīng)過(guò)程。

        圖3 1天中PM2.5濃度變化與對(duì)應(yīng)的燭臺(tái)圖Fig.3 Candlestick chart corresponding to PM2.5 concentration change in one day

        為了建立一個(gè)明確的參考模型用于對(duì)未來(lái)模式研究進(jìn)行合理分類,Hu 等[21]提出了103 個(gè)已知燭臺(tái)圖案的綜合形式規(guī)范。根據(jù)繪圖規(guī)則,兩種基本的燭臺(tái)形狀如圖4 所示,所有可能存在燭臺(tái)圖的形狀如圖5。

        圖4 兩種基本的濃度燭臺(tái)圖形狀Fig.4 Two basic concentration candlestick charts

        圖5 12種類別燭臺(tái)圖Fig.5 Twelve types of candlestick charts

        3.3 大氣污染擴(kuò)散過(guò)程特征提取

        每一天內(nèi)的濃度波動(dòng)信息都通過(guò)5 個(gè)基本特征來(lái)描述,將污染物濃度擴(kuò)散過(guò)程定義為一系列的燭臺(tái)圖表,然后進(jìn)行濃度匹配,預(yù)測(cè)當(dāng)前污染物趨勢(shì)發(fā)生逆轉(zhuǎn)還是保持不變。

        3.3.1 濃度燭臺(tái)圖的特征描述

        污染物濃度燭臺(tái)圖特征向量表示為:

        通過(guò)從燭臺(tái)圖中提取5 個(gè)不同且有實(shí)際意義的特征fi1,fi2,…,fi5來(lái)反映1 天內(nèi)整體的濃度情況,分別對(duì)應(yīng)以下特征:

        1)類別特征(Category Shape):通過(guò)區(qū)分濃度的升降、實(shí)體的有無(wú)、上下影線的有無(wú),燭臺(tái)圖被定義為12 種不同的形狀,類別特征表示為CShape∈{1,2,…,12}。

        2)實(shí)體特征(Entity Features Length):在燭臺(tái)圖中,實(shí)體的長(zhǎng)短表征著污染物濃度上升/下降的強(qiáng)度,較長(zhǎng)實(shí)體的燭臺(tái)表征明顯的增加/減少的趨勢(shì)。實(shí)體特征的計(jì)算方法為:

        其中:Openi為第i天起始濃度值,Closei為第i天結(jié)束濃度值。

        3)上影線特征(Upper Hatch Feature Length):具有較長(zhǎng)上影線的濃度燭臺(tái)圖表示濃度趨勢(shì)下降的幅度很明顯,甚至在下一個(gè)時(shí)間間隔內(nèi),持續(xù)下降的可能性更大。上影線的計(jì)算方法為:

        其中:Highi為第i天最高濃度值。

        4)下影線特征(Undercut Feature Length):具有較長(zhǎng)下影線的濃度燭臺(tái)圖表示濃度趨勢(shì)上升的信號(hào)很強(qiáng)烈,這將導(dǎo)致下一個(gè)時(shí)間點(diǎn)濃度的增加。下影線的計(jì)算公式為:

        其中:Lowi為第i天最低濃度值。

        5)變化率特征(Rate Change):比較兩個(gè)相鄰位置的燭臺(tái)圖,計(jì)算出平均濃度變化趨勢(shì)的信息,來(lái)鎖定對(duì)當(dāng)前時(shí)刻有用的污染物濃度模式。在一天當(dāng)中,整體的濃度水平用平均濃度變化來(lái)表征,并以此作為濃度燭臺(tái)的中心。此項(xiàng)特征將通過(guò)當(dāng)天與前一天的濃度水平變化來(lái)描述,即:

        通過(guò)提取帶有濃度變化趨勢(shì)的燭臺(tái)圖模式特征,捕捉出反轉(zhuǎn)信號(hào)。如圖6 展示了一些帶有濃度反轉(zhuǎn)信號(hào)的燭臺(tái)圖,表征趨勢(shì)的轉(zhuǎn)折點(diǎn),當(dāng)過(guò)去幾天出現(xiàn)連續(xù)的濃度增加,而這種信號(hào)減少的燭臺(tái)圖出現(xiàn)時(shí),預(yù)示未來(lái)濃度可能會(huì)降低。其中,濃度遞減燭臺(tái)圖(1~4)和具有長(zhǎng)上影線的燭臺(tái)圖(5、6)代表具有遞減反轉(zhuǎn)信號(hào)的燭臺(tái)圖。此外,那些不具備實(shí)體的特殊形狀的燭臺(tái)圖(7~9)也可被看作是可能存在的轉(zhuǎn)折點(diǎn)。同樣,帶有遞增反轉(zhuǎn)信號(hào)的燭臺(tái)圖特征也是如此。

        圖6 濃度增加/減少過(guò)程中可能存在轉(zhuǎn)折點(diǎn)的PM2.5燭臺(tái)圖Fig.6 PM2.5 candlestick charts with possible turning points in concentration increasing/decreasing process

        3.3.2 污染物濃度模式匹配

        1)濃度增加/減小周期:在連續(xù)的時(shí)間間隔t1,t2,…,tn,當(dāng)i=2,3,…,n-1 時(shí),如果滿 足Ci,avg>max(Ci-1,avg,Ci+1,avg),則Ci,avg是濃度周期的峰值;當(dāng)i=2,3,…,n-1 時(shí),如果滿 足Ci,avg<min(Ci-1,avg,Ci+1,avg),則Ci,avg是濃度周期的谷值。比如,Ci1,avg、Ci3,avg是兩個(gè)最近相鄰的濃度谷值,Ci2,avg是兩者之間的濃度峰值,并且i1 <i2 <i3,則濃度谷值Ci1,avg和下一個(gè)濃度峰值Ci2,avg之間的連續(xù)時(shí)間間隔被視為濃度增加周期,濃度谷值Ci2,avg和下一個(gè)濃度峰值Ci3,avg之間的連續(xù)時(shí)間間隔被視為濃度減小周期。

        2)濃度模式:濃度模式是由濃度燭臺(tái)圖特征向量PCFi組成的序列,即M=在每個(gè)濃度增加或減少的周期中,K是濃度周期的長(zhǎng)度。鑒于最近的燭臺(tái)圖能夠?qū)ξ磥?lái)預(yù)測(cè)提供更有用的信息,按照從后向前的順序進(jìn)行匹配。定義匹配率ρ,指K組特征中有ρ組參數(shù)能夠完成匹配,并通過(guò)距離衡量?jī)蓚€(gè)燭臺(tái)的特征向量的匹配率。如果匹配距離低于某一個(gè)閾值,則認(rèn)為匹配成功。距離公式定義為:

        其中:wi(i=1,2,…,5)是權(quán)重因子=1。本文方法的權(quán)重采用層次分析(Analytic Hierarchy Process,AHP)算法確定。距離當(dāng)前天數(shù)最近的燭臺(tái)圖能夠描述更加有用的信息,因此對(duì)應(yīng)的權(quán)重w1將被賦予最高的數(shù)值。對(duì)于類別特征CShape,要求匹配的準(zhǔn)確率最高。

        針對(duì)實(shí)體、上影線、下影線、變化率四個(gè)特征,本文采用Z-score 標(biāo)準(zhǔn)化對(duì)原始監(jiān)測(cè)數(shù)據(jù)進(jìn)行歸一化處理,以加快深度學(xué)習(xí)模型的收斂。

        3.4 卷積神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì)

        3.4.1 網(wǎng)絡(luò)模型的結(jié)構(gòu)

        在圖像識(shí)別和分類領(lǐng)域,廣泛使用CNN 處理實(shí)際問(wèn)題。CNN 因具有極小的特征工程需求而被廣泛應(yīng)用,這為深度學(xué)習(xí)在大氣質(zhì)量領(lǐng)域的合理應(yīng)用提供了技術(shù)支持。深度卷積神經(jīng)網(wǎng)絡(luò)VGG(Visual Geometry Group)是CNN 的經(jīng)典模型,在特征提取和分類方面均表現(xiàn)優(yōu)秀[22-24]。基于VGG 的濃度趨勢(shì)預(yù)測(cè)框架如圖7 所示。污染過(guò)程的局部特征由卷積層提取,對(duì)應(yīng)大氣污染物擴(kuò)散過(guò)程。即第一天污染將對(duì)第二天和第三天污染造成的影響,此類模式的特征被卷積層捕獲;池化層進(jìn)一步加強(qiáng)統(tǒng)計(jì)特征層的信息,使網(wǎng)絡(luò)強(qiáng)特征表現(xiàn)更明顯,弱特征作用相對(duì)較小。污染過(guò)程的全局趨勢(shì)信息由全連接層進(jìn)行整合,能提高預(yù)測(cè)大氣污染變化趨勢(shì)的準(zhǔn)確性。

        圖7 基于VGG的PM2.5濃度趨勢(shì)預(yù)測(cè)框架Fig.7 PM2.5 concentration trend prediction framework

        如圖7 所示,將連續(xù)3 天的PM2.5濃度數(shù)據(jù)通過(guò)K 線發(fā)生器生成污染物燭臺(tái)圖,然后通過(guò)模式匹配,輸入VGG 網(wǎng)絡(luò)結(jié)構(gòu)中。

        最后,綜合評(píng)估了網(wǎng)絡(luò)的效果和可用的計(jì)算機(jī)硬件條件,確定用以下CNN 結(jié)構(gòu)進(jìn)行研究:第一個(gè)卷積層設(shè)計(jì)32 個(gè)卷積核,第二個(gè)卷積層設(shè)計(jì)32 個(gè)卷積核,第三個(gè)卷積層設(shè)計(jì)16 個(gè)卷積核,卷積核大小為3×3。

        在該網(wǎng)絡(luò)模型中,激活函數(shù)都采用線性整流單元(Rectified Linear Unit,ReLU),ReLU 的使用不僅可以解決梯度消失的現(xiàn)象,還可以有效加速模型的訓(xùn)練。通過(guò)max()函數(shù)描述ReLU 的過(guò)程,并加入Dropout 層,以隨機(jī)斷開鏈接的方式防止模型過(guò)擬合。還在模型的最后一個(gè)卷積層加入Flatten 層,將多維數(shù)據(jù)壓縮成一維。

        3.4.2 網(wǎng)絡(luò)模型的訓(xùn)練準(zhǔn)備

        本文設(shè)置批次大小batch_size=200,即每輸入200 張圖片訓(xùn)練后,網(wǎng)絡(luò)進(jìn)行權(quán)重校正并完成參數(shù)迭代。在前面設(shè)計(jì)的CNN 預(yù)訓(xùn)練期間,7~9 次的訓(xùn)練可以使神經(jīng)網(wǎng)絡(luò)達(dá)到最好收斂狀態(tài),因此在所有對(duì)比實(shí)驗(yàn)中設(shè)置epochs=10。

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 數(shù)據(jù)收集及預(yù)處理

        4.1.1 數(shù)據(jù)收集

        本次研究采用桂林市大氣質(zhì)量在線監(jiān)測(cè)站的監(jiān)測(cè)數(shù)據(jù),桂林市總共配有61 個(gè)監(jiān)測(cè)站負(fù)責(zé)監(jiān)控大氣環(huán)境質(zhì)量,其中10 個(gè)是固定站,51 個(gè)為微型站。數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)通過(guò)服務(wù)設(shè)備每5 min 記錄一次相應(yīng)站點(diǎn)對(duì)應(yīng)的污染物和氣象數(shù)據(jù)。其中,氣象數(shù)據(jù)有大氣的氣壓、降雨量、風(fēng)速、風(fēng)向、濕度、溫度等;污染物濃度數(shù)據(jù)包括NO2、SO2、CO、O3、PM2.5、PM10等。數(shù)據(jù)時(shí)間窗口選擇自2019 年8 月8 日—2021 年8 月7 日,共計(jì)3 年的日污染物濃度數(shù)據(jù)。本次實(shí)驗(yàn)通過(guò)Hadoop引擎連接大數(shù)據(jù)系統(tǒng),導(dǎo)出研究所用數(shù)據(jù)集。

        4.1.2 數(shù)據(jù)預(yù)處理

        數(shù)據(jù)的預(yù)處理分為兩部分:首先是對(duì)數(shù)據(jù)集的基本面預(yù)處理,然后是對(duì)數(shù)據(jù)進(jìn)行初始分類,包括極端值或缺失值處理、Z-score 標(biāo)準(zhǔn)化處理等。為避免因不同站點(diǎn)的污染物濃度數(shù)據(jù)差異較大對(duì)模型預(yù)測(cè)結(jié)果產(chǎn)生影響,本次實(shí)驗(yàn)采用Z-score 方法對(duì)歷史PM2.5濃度數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。Z-score將不同量級(jí)的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換成同一量級(jí),并統(tǒng)一用計(jì)算出的Z-Score 值來(lái)衡量,以保證數(shù)據(jù)之間的可對(duì)比性。

        4.2 評(píng)價(jià)指標(biāo)

        評(píng)估分類模型的評(píng)價(jià)指標(biāo)中最常見的是混淆矩陣。在本次實(shí)驗(yàn)中,最終輸出結(jié)果將會(huì)展示未來(lái)污染物濃度上升還是下降,考慮到污染物濃度上升會(huì)對(duì)環(huán)境產(chǎn)生的不良影響,故將濃度在分類型模型中表現(xiàn)上升設(shè)為positive,濃度在分類型模型中表現(xiàn)為下降設(shè)定為negative。

        準(zhǔn)確率指模型預(yù)測(cè)正確的樣本數(shù)占樣本總數(shù)的比重,可以直觀衡量模型總體性能,如式(6)所示:

        精確率指在模型預(yù)測(cè)是positive 的所有結(jié)果中,模型預(yù)測(cè)對(duì)的比重,如式(7)所示:

        召回率指在預(yù)測(cè)出的分類樣本中被正確預(yù)測(cè)的比重,如式(8)所示:

        F1 分?jǐn)?shù)是P與R的加權(quán)平均值,計(jì)算公式如式(10):

        4.3 模型對(duì)比分析

        為評(píng)價(jià)本文提出的基于CPM 的PM2.5擴(kuò)散特征提取方法,對(duì)比了未考慮大氣污染擴(kuò)散過(guò)程的VGG 的方法,以及在相同實(shí)驗(yàn)條件下基于支持向量機(jī)(Support Vector Machine,SVM)、AlexNet 的預(yù)測(cè)方法。實(shí)驗(yàn)結(jié)果表明本文方法表現(xiàn)出了更好的性能。

        通過(guò)對(duì)圖5 中的12 種不同外觀的燭臺(tái)圖進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn),濃度燭臺(tái)形狀3 和4 最為常見,占比分別為48.74%和31.31%。圖8 是帶有濃度燭臺(tái)圖序列的大氣污染物時(shí)間序列片段??梢钥闯?,當(dāng)伴有反轉(zhuǎn)信號(hào)的燭臺(tái)圖出現(xiàn)時(shí),污染物濃度的變化趨勢(shì)不會(huì)立刻反轉(zhuǎn),因此,通過(guò)濃度擴(kuò)散模式進(jìn)行判斷。在獲取污染物濃度模式的過(guò)程中,跳過(guò)了沒有任何數(shù)據(jù)的時(shí)間間隔,只考慮完整的濃度循環(huán)周期。

        圖8 PM2.5濃度模式匹配圖Fig.8 PM2.5 concentration pattern matching diagram

        匹配率ρ被用來(lái)調(diào)控匹配時(shí)間,從時(shí)間序列片段中提取兩個(gè)濃度模式:模式1 和模式3,如圖8 所示,即代表第10~15天的污染物濃度增加模式以及第21~24 天的污染物濃度減小模式。匹配過(guò)程中,調(diào)整匹配率ρ=1 時(shí),會(huì)無(wú)法找到這兩種模式對(duì)應(yīng)的精確匹配;當(dāng)設(shè)ρ=0.8 時(shí),成功找到了歷史模式中對(duì)應(yīng)的模式2 和4 與之匹配。表2 顯示了不同匹配率的預(yù)測(cè)結(jié)果,最終選擇匹配率0.8 作為本文模型的參數(shù)。

        表2 匹配率變化時(shí)的預(yù)測(cè)誤差Tab.2 Prediction error when matching rate changes

        分別利用SVM、AlexNet、VGG 和本文方法的改進(jìn)VGG 模型進(jìn)行訓(xùn)練。此次實(shí)驗(yàn)選用的多源數(shù)據(jù)所包含的內(nèi)容信息如4.1.1 節(jié)所示,劃分其中70%的樣本作為訓(xùn)練集,30%樣本用來(lái)測(cè)試,并以準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)作為模型評(píng)價(jià)指標(biāo)。為了控制變量,均采取50 個(gè)epoch 作為每個(gè)網(wǎng)絡(luò)的訓(xùn)練批次。

        不同預(yù)測(cè)方法的準(zhǔn)確率比較結(jié)果如表3 所示,本文方法取得了最高的準(zhǔn)確率,為95.1%,與基于普通VGG 的方法相比,準(zhǔn)確率提高了1.9 個(gè)百分點(diǎn),也優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法(SVM)和其他圖像識(shí)別模型(AlexNet)。這是因?yàn)椋瑔渭兊腣GG 沒有充分融入一天內(nèi)的污染物濃度擴(kuò)散過(guò)程;而后兩種方法在捕獲轉(zhuǎn)折點(diǎn)變化信號(hào)時(shí),過(guò)分注重整體趨勢(shì),往往會(huì)忽略一些小的短期濃度波動(dòng),準(zhǔn)確率更低。

        表3 不同預(yù)測(cè)方法的準(zhǔn)確率比較 單位:%Tab.3 Accuracy comparison of different methods unit:%

        污染物濃度隨著長(zhǎng)期的濃度循環(huán)變化,短期波動(dòng)也會(huì)很大,基于CPM 的卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法可以捕捉更細(xì)粒度上的濃度變化信息。在精確率、召回率和F1 分?jǐn)?shù)指標(biāo)上,不同方法對(duì)PM2.5濃度上升、下降和不變情況的預(yù)測(cè)結(jié)果對(duì)比如表4 所示,本文方法同樣取得了最好的結(jié)果。SVM 模型預(yù)測(cè)精確率高于AlexNet 模型,但召回率卻較低,這是因?yàn)椋琒VM 在尋找重要的污染物濃度趨勢(shì)轉(zhuǎn)折點(diǎn)時(shí)更有效,但卻沒辦法捕獲一些小的趨勢(shì)變化信號(hào),存在一定的滯后現(xiàn)象。VGG 在捕獲短期濃度變化信號(hào)時(shí)表現(xiàn)敏感,但會(huì)產(chǎn)生過(guò)擬合的現(xiàn)象。

        表4 不同方法對(duì)PM2.5濃度變化情況的預(yù)測(cè)對(duì)比Tab.4 Comparison of different methods for predicting change of PM2.5 concentration

        顯然,基于CPM 設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)出的性能明顯優(yōu)于基于普通時(shí)間序列的其他網(wǎng)絡(luò)。因此,將股票分析中被廣泛應(yīng)用的K 線圖應(yīng)用到大氣污染物分析領(lǐng)域,不僅能完整保存數(shù)據(jù)信息,還能夠充分提取大氣污染擴(kuò)散過(guò)程中污染物濃度變化過(guò)程的局部變化信息,從而為大氣污染物濃度趨勢(shì)變化提供指導(dǎo)。

        5 結(jié)語(yǔ)

        提高大氣污染物的預(yù)測(cè)精度是大氣環(huán)境監(jiān)測(cè)領(lǐng)域面臨的重要任務(wù)。目前,眾多的污染物濃度預(yù)測(cè)模型都未曾充分提取原始數(shù)據(jù)的變化特征,也無(wú)法融入大氣擴(kuò)散機(jī)制。因此,本文提出了一種基于燭臺(tái)圖時(shí)空聚類的深度學(xué)習(xí)預(yù)測(cè)方法。實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)集由一組時(shí)間序列數(shù)據(jù)構(gòu)建而成,其中包括歷史PM2.5濃度數(shù)據(jù)、相關(guān)污染物數(shù)據(jù)以及氣象關(guān)聯(lián)參數(shù)。首先,利用燭臺(tái)圖形式化表示污染物擴(kuò)散周期性變化;然后,通過(guò)濃度模式匹配融入大氣物理擴(kuò)散機(jī)制;最后,結(jié)合其余情景參數(shù),通過(guò)卷積神經(jīng)網(wǎng)絡(luò)VGG 提取局部特征,并進(jìn)行趨勢(shì)預(yù)測(cè)。

        通過(guò)實(shí)驗(yàn)對(duì)本文方法的整體性能進(jìn)行了評(píng)估,并與基于傳統(tǒng)的時(shí)間預(yù)測(cè)模型(AlexNet)、普通的機(jī)器學(xué)習(xí)模型(SVM)以及不結(jié)合燭臺(tái)圖的深度學(xué)習(xí)模型(VGG)的方法進(jìn)行了比較。結(jié)果表明,本文方法的準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)均取得了最好的結(jié)果。燭臺(tái)圖簡(jiǎn)潔直觀、立體感強(qiáng),還能夠全面透徹地觀察到污染物濃度的真正變化,將K 線分析技術(shù)應(yīng)用到大氣污染領(lǐng)域,具有很高的實(shí)用性。

        但本文方法僅預(yù)測(cè)了污染物未來(lái)的濃度水平變化,還無(wú)法預(yù)測(cè)下一個(gè)具體的濃度水平。因此,未來(lái)將進(jìn)一步分析PM2.5的長(zhǎng)期依賴特征提取,以捕捉大氣污染物的濃度變化行為。

        猜你喜歡
        燭臺(tái)卷積污染物
        菌株出馬讓畜禽污染物變廢為寶
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        環(huán)境科學(xué)研究(2021年6期)2021-06-23 02:39:54
        環(huán)境科學(xué)研究(2021年4期)2021-04-25 02:42:02
        你能找出污染物嗎?
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        水晶燭臺(tái)
        另一個(gè)燭臺(tái)
        上帝的燭臺(tái)
        久久久久亚洲av无码尤物| 国偷自拍av一区二区三区| 成人免费无遮挡在线播放| 国产精品jizz视频| 日韩欧美在线观看成人| 中文字幕一区二区三区精品在线| 亚洲另类丰满熟妇乱xxxx| 免费成人在线电影| 亚洲av无码乱码国产精品fc2| 国产精品色内内在线播放| 丰满巨臀人妻中文字幕| 免费大片黄国产在线观看| 青青久在线视频免费观看| 久久中文字幕久久久久| 一区二区三区在线日本视频| 老熟女富婆激情刺激对白| 亚洲综合无码无在线观看| 国产小屁孩cao大人| 亚洲无av码一区二区三区| 狠狠色欧美亚洲狠狠色www| 午夜成人理论无码电影在线播放| 国产视频网站一区二区三区| 日韩一级137片内射视频播放| 五十六十日本老熟妇乱| 国产精品视频一区二区噜噜| 欧美中出在线| 一道之本加勒比热东京| 蜜臀av999无码精品国产专区| 精品久久久久久久久午夜福利| 中文字幕人成乱码中文乱码 | 国产亚洲午夜高清国产拍精品 | 全部孕妇毛片| 国产国拍亚洲精品永久69| 国产片AV在线永久免费观看| 蜜臀av一区二区三区精品| 香蕉成人伊视频在线观看| 无码一区二区三区中文字幕| 久久国产色av| 日韩av一区在线播放| 中文字幕在线亚洲三区| 久久精品99久久香蕉国产色戒|