李 敏, 程茂華, 潘 穎, 李 雄
(1.南寧師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,廣西 南寧 530023;2.廣西科技師范學(xué)院,廣西 來賓 546199;3.廣西氣象臺(tái),廣西 南寧 530022)
在目前的研究中,經(jīng)常使用數(shù)學(xué)領(lǐng)域中的統(tǒng)計(jì)學(xué)方法對(duì)濕度、大氣能見度與氣溶膠PM10進(jìn)行研究,分析顯示PM10濃度增大以及顆粒物吸濕性增長可導(dǎo)致能見度數(shù)值降低[1]。但總體而言,當(dāng)下仍缺乏濕度、大氣能見度與氣溶膠PM10存在何種相關(guān)性的研究。
此外,氣象領(lǐng)域在處理氣象數(shù)據(jù)的問題上使用的多是投入耗費(fèi)大的傳統(tǒng)方法。云計(jì)算的低成本運(yùn)算快成為了出來當(dāng)前大數(shù)據(jù)的熱門途徑,但需要適當(dāng)?shù)奶幚眢w系結(jié)構(gòu)與密集任務(wù)的協(xié)調(diào)性。因此挑選合適的機(jī)器學(xué)習(xí)算法可以高效率地處理與分析大規(guī)模的數(shù)據(jù)。并行性以及運(yùn)算效率是大數(shù)據(jù)計(jì)算需要攻克的難題。
本文基于中國氣象局氣象數(shù)據(jù)中心和南寧市環(huán)保局環(huán)境監(jiān)測站歷年氣象數(shù)據(jù)。設(shè)計(jì)云環(huán)境下DMLR(Distributed Multiple Linear Regression)模型用于能見度、濕度與氣溶膠PM10相關(guān)性的研究,實(shí)驗(yàn)分析表明,濕度區(qū)間一致大氣氣溶膠PM10濃度越大能見度就越小,能見度區(qū)間一致大氣氣溶膠PM10濃度越低濕度越大。實(shí)驗(yàn)結(jié)果還發(fā)現(xiàn)濕度介于40%-90%,能見度介于8km-19kmDMLR預(yù)測效果最好。
國內(nèi)外人員提出了各種分布式數(shù)據(jù)分析方法以解決傳統(tǒng)的數(shù)據(jù)挖掘計(jì)算及保存能力不夠的問題。宋欣、王翠榮[2]提出回歸模型的參數(shù)信息代替實(shí)際感知數(shù)據(jù)的線性回歸分析方法構(gòu)建感知數(shù)據(jù)模型,仿真實(shí)驗(yàn)結(jié)果表明,文中提出的數(shù)據(jù)采集優(yōu)化策略能通過較小的通信量有效地實(shí)現(xiàn)事件監(jiān)測區(qū)域感知數(shù)據(jù)的預(yù)測,降低網(wǎng)絡(luò)的總能耗,延長網(wǎng)絡(luò)的生命周期。付倩嬈[3]提出一種在線樣本更新的多元線性回歸的霧霾預(yù)測方法,通過在線樣本更新的多元線性回歸建立了PM2.5含量預(yù)測模型,并將氣象要素作為霧霾的判斷標(biāo)準(zhǔn)。實(shí)驗(yàn)結(jié)果證明提出的方法對(duì)一周以內(nèi)的PM2.5含量預(yù)測準(zhǔn)確率較高。戴李杰[4]等提出基于機(jī)器學(xué)習(xí)的PM2.5短期濃度動(dòng)態(tài)預(yù)報(bào)模型,聯(lián)合應(yīng)用支持向量機(jī)(SVM)和粒子群優(yōu)化(PSO)算法建立滾動(dòng)預(yù)報(bào)模型,對(duì)PM2.5未來24小時(shí)濃度進(jìn)行預(yù)報(bào),同時(shí)對(duì)未來一天的晝、夜均值及日均值濃度進(jìn)行預(yù)報(bào),并與徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)、多元線性回歸法(MLR)、模式預(yù)報(bào)(WRF-Chem)作對(duì)比。實(shí)驗(yàn)表明,所提出的SVM模型較其他方法提高了PM2.5未來1小時(shí)濃度預(yù)報(bào)精度;所提模型能對(duì)PM2.5未來24小時(shí)濃度進(jìn)行較好的預(yù)報(bào),能對(duì)未來一天的晝均值、夜均值及日均值進(jìn)行有效預(yù)報(bào),并且對(duì)未來12小時(shí)的逐時(shí)濃度及未來一天的夜均值濃度的預(yù)報(bào)準(zhǔn)確度較高。
國外已有針對(duì)空氣中PM10濃度問題的相關(guān)性研究。Song Liu等人[5]提出基于MODIS數(shù)據(jù)估算的能見度和相對(duì)濕度檢測霧霾及其強(qiáng)度。實(shí)驗(yàn)表明在這兩個(gè)指數(shù)中,能見度在影響檢測精度方面比相對(duì)濕度起著更重要的作用。Nan Ma[6]等人提出一種新的基于PM2.5,能見度和相對(duì)濕度區(qū)分霧和霧霾的方法,基于霧霾與霧的物理性質(zhì)的差異,本研究提出了一種利用PM2.5,能見度和相對(duì)濕度的實(shí)時(shí)測量來區(qū)分霧霾和霧的新方法。在該方法中,可以基于粒子數(shù)量大小分布和氣溶膠吸濕性的局部歷史數(shù)據(jù)來建立標(biāo)準(zhǔn)。根據(jù)該標(biāo)準(zhǔn)可區(qū)分霧和霧霾。我國在1970年開始,也對(duì)空氣中的顆粒物進(jìn)行大量的研究,董繼元等[7]對(duì)蘭州市大氣相對(duì)濕度與PM10濃度和大氣能見度進(jìn)行相關(guān)性分析,利用蘭州2002—2012年的環(huán)境氣象資料,對(duì)相對(duì)濕度RH、PM10濃度與能見度之間的對(duì)應(yīng)關(guān)系進(jìn)行統(tǒng)計(jì)分析,以揭示RH與PM10濃度和大氣能見度之間的直觀聯(lián)系,加深對(duì)灰霾形成過程的認(rèn)識(shí)。該研究表明:PM10平均值與RH平均值表現(xiàn)為負(fù)相關(guān),相對(duì)濕度較高時(shí)大氣顆粒物含量較高。劉凡等[8]分析了成都市冬季相對(duì)濕度對(duì)顆粒物濃度和大氣能見度的影響,利用2015年12月的連續(xù)在線觀測數(shù)據(jù),探討RH對(duì)顆粒物濃度和大氣能見度的影響。結(jié)果表明,高顆粒物濃度和高RH協(xié)同作用導(dǎo)致低能見度事件。隨著RH增加,PM2.5∕PM10顯著增加,表明高RH會(huì)加重細(xì)顆粒物污染。隨著PM2.5濃度增加,能見度呈冪指數(shù)下降;在相同PM2.5濃度下,RH越高,能見度越低。基于上述研究,探討南寧區(qū)域的氣溶膠與能見度、濕度之間的相關(guān)性意義重大。但目前對(duì)氣溶膠PM10、能見度以及濕度的研究只是簡單、定性的統(tǒng)計(jì)分析,不能很好地反映他們之間的相關(guān)性。
建模的思想在處理大數(shù)據(jù)分析的研究中作用很大。線性回歸是其中較為經(jīng)典的建模形式,其表達(dá)形式為y=w′x+e,e為誤差服從均值為0的正態(tài)分布。線性回歸中只有一個(gè)回歸變量和一個(gè)依賴變量,稱為一元線性回歸[9]。線性回歸中有兩個(gè)以上的回歸變量,且回歸變量之間存在線性關(guān)性,則稱為多重線性回歸[9]。多重線性回歸方程:
y=β0+β1X1+β2X2+…+βj-1Xp-1+ε
(1)
上式子中y表示因變量;Xp是自變量,p=1,2,3,…,p-1;βj是y基于每個(gè)Xp單元變化的變化量,j=1,2,3,…,j-1;殘差ε。本文使用最小二乘逼近來擬合模型。式(2)是對(duì)樣本數(shù)據(jù)集(xi1,xi2,xi3,…,xi(p-1),yi)的回歸模型:
(2)
矩陣表示:
(3)
(4)
(5)
采取劃分模塊將輸入樣本在云平臺(tái)多個(gè)集群上運(yùn)算以達(dá)到并行加速效果。并行化設(shè)計(jì)中各特征上的梯度元素進(jìn)行累加:
(6)
(1)導(dǎo)入訓(xùn)練集、測試集并設(shè)置迭代輪數(shù)100以及更新步長A的值;
(2)將訓(xùn)練集分塊到B個(gè)計(jì)算節(jié)點(diǎn);
(3)對(duì)每一個(gè)計(jì)算節(jié)點(diǎn)采樣計(jì)算損失值LB與梯度LB,并對(duì)分片目標(biāo)向量更新即LB;
(5)迭代運(yùn)行步驟(3)、(4)至目標(biāo)值收斂;
(6)將測試數(shù)據(jù)集預(yù)測結(jié)果輸入到評(píng)估模型評(píng)估。
本文在云環(huán)境下面向PM10—能見度—濕度相關(guān)性的研究提出DMLR模型。DMLR線性回歸模型數(shù)據(jù)集訓(xùn)練實(shí)驗(yàn)流程如圖1:讀取實(shí)驗(yàn)數(shù)據(jù)集并對(duì)數(shù)據(jù)直方圖統(tǒng)計(jì)、全表統(tǒng)計(jì)和拆分操作;本文實(shí)驗(yàn)將拆分參數(shù)設(shè)置為0.7,70%作訓(xùn)練集,30%作測試集。然后使用DMLR模型對(duì)輸入的訓(xùn)練集進(jìn)行訓(xùn)練并結(jié)合測試集預(yù)測,最后使用評(píng)估模型來評(píng)估線性回歸模型的預(yù)測準(zhǔn)確程度以及氣溶膠PM10濃度的變化與濕度、大氣能見度的相關(guān)性。
圖1 DMLR模型實(shí)驗(yàn)流程
實(shí)驗(yàn)過程中使用廣西南寧環(huán)保局環(huán)境監(jiān)測站以及中國氣象局氣象數(shù)據(jù)中心歷年氣象數(shù)據(jù),氣溶膠PM10為1989—2017年數(shù)據(jù);能見度為1980—2017年數(shù)據(jù);濕度為1980—2017年數(shù)據(jù)。
實(shí)驗(yàn)將濕度、能見度各劃分三個(gè)等級(jí)如表1所示:
表1 濕度、能見度等級(jí)劃分表
然后對(duì)這六個(gè)區(qū)間等級(jí)進(jìn)行兩兩組合構(gòu)成共9個(gè)實(shí)驗(yàn)數(shù)據(jù)源,其中數(shù)據(jù)源2的部分?jǐn)?shù)據(jù)如表2所示。
按照?qǐng)D1的DMLR模型實(shí)驗(yàn)流程對(duì)以上數(shù)據(jù)表進(jìn)行預(yù)測分析,表3為數(shù)據(jù)表2(濕度值<40%,8km<=能見度值<=19km組合)的DMLR模型的PM10預(yù)測結(jié)果,表4為回歸模型評(píng)估結(jié)果。
表2 數(shù)據(jù)源2部分?jǐn)?shù)據(jù)
表4 數(shù)據(jù)源2評(píng)估結(jié)果
R表示多重相關(guān)系數(shù),R2表示判定系數(shù),RMSE表示均方根誤差,SSE表示誤差平方和;SSR表示回歸平方和,SST表示總平方和,yMean表示原始因變量均值,prediction Mean表示預(yù)測值的平均值。
根據(jù)上文的9種組合方式各數(shù)據(jù)源的實(shí)驗(yàn)分析結(jié)果如表5所示:
表3 數(shù)據(jù)表2DMLR模型的PM10預(yù)測結(jié)果
表5 濕度、能見度等級(jí)劃分表
圖2 數(shù)據(jù)源2預(yù)測值與原值擬合圖
置信概率(confidence probability)是用來衡量統(tǒng)計(jì)推斷可靠程度的概率。其意義是指在進(jìn)行統(tǒng)計(jì)推斷時(shí).被估參數(shù)包含在某一范圍內(nèi)的概率;本文顯著性閾值設(shè)置為95%。實(shí)驗(yàn)證明數(shù)據(jù)源2、數(shù)據(jù)源3、數(shù)據(jù)源7、數(shù)據(jù)源8、數(shù)據(jù)源9顯著性較強(qiáng),置信率高;數(shù)據(jù)源1、4、6的實(shí)驗(yàn)數(shù)據(jù)限制于滿足本文設(shè)置提取的實(shí)驗(yàn)數(shù)據(jù)量太少,實(shí)驗(yàn)結(jié)果顯著性較低,置信率低。下文給出了數(shù)據(jù)源2、7、8的實(shí)驗(yàn)預(yù)測值與實(shí)驗(yàn)數(shù)據(jù)原值的擬合圖及相對(duì)應(yīng)的DMLR模型輸出結(jié)果。
實(shí)驗(yàn)結(jié)果表明濕度在40%-90%、能見度在8km-19km區(qū)間范圍內(nèi)預(yù)測效果最優(yōu),濕度小于40%、能見度在8km-19km區(qū)間范圍內(nèi)預(yù)測效果偏差。實(shí)驗(yàn)得出結(jié)論以下結(jié)論:
表6 數(shù)據(jù)源2DMLR模型輸出結(jié)果
表7 數(shù)據(jù)源7DMLR模型輸出結(jié)果
表8 數(shù)據(jù)源8DMLR模型結(jié)果輸出
1.在同一濕度區(qū)間內(nèi),能見度與PM10呈負(fù)相關(guān),即能見度越小PM10濃度就越大。
2.在同一能見度區(qū)間內(nèi),濕度與PM10呈負(fù)相關(guān),即濕度值越大PM10濃度就越低。
圖3 數(shù)據(jù)源7預(yù)測值與原值擬合圖
圖4 數(shù)據(jù)源8預(yù)測值與原值擬合圖
另外實(shí)驗(yàn)結(jié)果表明PM10濃度與能見度、濕度的相關(guān)系數(shù),能見度的相關(guān)系數(shù)更高。集合實(shí)驗(yàn)結(jié)果分析三者之間的關(guān)系如圖5所示。
比較DMLR算法模型與傳統(tǒng)回歸模型實(shí)驗(yàn)運(yùn)行時(shí)間(圖6)。在數(shù)據(jù)表2、5、7、9中,DMLR算法模型運(yùn)行時(shí)間明顯少于傳統(tǒng)回歸模型,其減少幅度為10%;而在表1、3、4、6、8中,DMLR算法模型和傳統(tǒng)回歸模型實(shí)驗(yàn)運(yùn)行時(shí)間相同??傮w而言,DMLR算法模型在時(shí)間性能方面要優(yōu)于傳統(tǒng)回歸模型。
圖5 PM10—能見度—濕度相關(guān)圖
圖6 DMLR模型與傳統(tǒng)回歸模型運(yùn)行時(shí)間
本文提出一個(gè)基于云平臺(tái)的DMLR機(jī)器學(xué)習(xí)模型,分析以濕度值和能見度值作為自變量,PM10氣溶膠值作為因變量的相關(guān)性。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)濕度介于40%-90%,能見度介于8km-19kmDMLR預(yù)測效果最好,DMLR算法模型在時(shí)間性能方面要優(yōu)于傳統(tǒng)回歸模型。此外,在云環(huán)境下對(duì)能見度、濕度與PM10的相關(guān)性提出DMLR模型,在可行性方面得到了驗(yàn)證,具有一定的應(yīng)用意義。
我們的工作存在如下不足:在未來的研究中需要解決的問題,如實(shí)驗(yàn)氣象因子(如風(fēng)速、降水等)需加強(qiáng);區(qū)域不同是否對(duì)氣溶膠與能見度、濕度之間的相關(guān)性影響并未加入考量。