廣東工業(yè)大學自動化學院 雷 寶
基于大數(shù)據(jù)的探索性空氣質(zhì)量數(shù)據(jù)分析
廣東工業(yè)大學自動化學院 雷 寶
隨著城市工業(yè)化的不斷推進,城市空氣污染越來越嚴重,至今已經(jīng)變成了一個全球性的問題。開展城市空氣質(zhì)量監(jiān)測、數(shù)據(jù)分析及可視化的研究能夠全面地掌握城市空氣污染源的排放數(shù)據(jù)和城市空氣質(zhì)量的等級分布狀況,可以對影響城市空氣質(zhì)量的因素有著更加全面的了解和掌握,從而能夠?qū)Τ鞘锌諝馕廴具M行有效的治理。本文利用大數(shù)據(jù)可視化技術(shù),對時空序列的空氣質(zhì)量數(shù)據(jù)進行了探索性分析。通過探索和分析這些監(jiān)測數(shù)據(jù),結(jié)果表明人類的活動對環(huán)境空氣質(zhì)量有著消極影響。還發(fā)現(xiàn)天氣也會影響空氣質(zhì)量,當溫度下降時,空氣質(zhì)量呈現(xiàn)好轉(zhuǎn)的趨勢。分析結(jié)果可用于研究環(huán)境空氣質(zhì)量的時空分布及其動態(tài)變化。
空氣質(zhì)量;大數(shù)據(jù);可視化;探索性數(shù)據(jù)分析
近年來我國地區(qū)城市空氣污染加劇,其中城市大氣污染的主要表現(xiàn)是霧霾污染,這引起了普通民眾和科學界的廣泛關(guān)注??諝馕廴緦Τ鞘芯用竦慕】碉L險、以及造成的經(jīng)濟損失都是無法估量的??諝馕廴局饕ㄟ^三條途徑危害人體[1]:一是人體接觸到污染物后受到傷害,二是食用了含有大氣污染物的食物和水,三是吸入污染的空氣??諝馕廴具€會危害生物的生存和發(fā)育,也會腐蝕儀器、設(shè)備和建筑物等,此外臭氧層破壞、酸雨腐蝕和全球氣候變暖等現(xiàn)象也和空氣污染息息相關(guān)。世界衛(wèi)生組織和聯(lián)合國環(huán)境組織發(fā)表的一份報告指出:“空氣污染已成為全世界城市居民生活中一個無法逃避的現(xiàn)實[6]?!背鞘泄I(yè)化的發(fā)展,在為人類創(chuàng)造巨大財富的同時,也將大量的有害物質(zhì)排放到大氣之中,從而對人類和環(huán)境帶來了巨大災難。
1977年,在美國約翰?懷爾德杜克(John Wilder Tukey)的《探索性數(shù)據(jù)分析》一書中,探索性數(shù)據(jù)分析第一次被系統(tǒng)地論述。他的主要觀點是[8]:探索性數(shù)據(jù)分析(EDA)與驗證性數(shù)據(jù)分析(Confirmatory Data Analysis)有所不同:前者注重于對數(shù)據(jù)進行概括性的描述,不受數(shù)據(jù)模型和科研假設(shè)的限制,而后者只注重對數(shù)據(jù)模型和研究假設(shè)的驗證。他認為統(tǒng)計分析應(yīng)該充分利用探索性數(shù)據(jù)分析的優(yōu)勢,從而發(fā)現(xiàn)新的理論假設(shè)和數(shù)據(jù)模型,而不應(yīng)該僅僅重視模型和假設(shè)的驗證[8]。大數(shù)據(jù)時代已經(jīng)來臨,每天我們都能夠通過各種渠道和方式收集到海量的各種混亂,非結(jié)構(gòu)化及多媒體數(shù)據(jù)。如何找出這些數(shù)據(jù)中的規(guī)則、分析數(shù)據(jù)模型和提出理論假設(shè)已經(jīng)成為新的挑戰(zhàn)。
大數(shù)據(jù)時代來臨,使得數(shù)據(jù)行業(yè)展現(xiàn)出蓬勃的發(fā)展趨勢,傳統(tǒng)的數(shù)據(jù)可視化手段已經(jīng)不能滿足數(shù)據(jù)行業(yè)的需求,大數(shù)據(jù)可視化技術(shù)開始涌現(xiàn)。大數(shù)據(jù)可視化技術(shù)主要是希望通過可視分析的方式來探索大數(shù)據(jù)中的不易被發(fā)現(xiàn)的有價值的信息。
大數(shù)據(jù)可視化技術(shù)充分地將計算機的計算能力和人的認知能力有效的整合在一起,從而使人能夠快速地、精確地洞察大數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和規(guī)律。就目前而言,對于大數(shù)據(jù)可視化技術(shù)的研究仍然比較初步,對于這一研究領(lǐng)域的理論、方法和技術(shù)體系至今尚未形成[3]。
目前,大數(shù)據(jù)可視化的主要研究領(lǐng)域包括文本可視化、網(wǎng)絡(luò)可視化、時空數(shù)據(jù)可視化、多維數(shù)據(jù)可視化[7]。
大數(shù)據(jù)可視化流程如圖1所示。首先需要將原始數(shù)據(jù)導入大數(shù)據(jù)平臺上,之后,對大數(shù)據(jù)平臺上的大批量數(shù)據(jù)進行優(yōu)化存儲。為了提高數(shù)據(jù)訪問時的效率,將數(shù)據(jù)存儲在數(shù)據(jù)倉庫Hive中,通過Hive的分區(qū)等功能來實現(xiàn)數(shù)據(jù)存儲優(yōu)化。然后通過JDBC的方式訪問Hive中的數(shù)據(jù),經(jīng)過簡單的數(shù)據(jù)格式轉(zhuǎn)換后使用可視化工具完成在web端的可視化。
圖1 大數(shù)據(jù)可視化流程
空氣質(zhì)量指數(shù)(AQI)是反應(yīng)環(huán)境空氣質(zhì)量好壞的無量綱指數(shù),其數(shù)值越大,說明空氣污染狀況越嚴重,對人體危害就越大??諝赓|(zhì)量指數(shù)的大小取決于空氣中污染物的濃度水平。但空氣污染是一個復雜現(xiàn)象,污染物濃度在特定時間和地點受到許多因素的影響[4]。固定和移動源的人為排放量是影響空氣質(zhì)量的主要因素之一,包括車輛尾氣排放,工業(yè)污染,生活和暖氣,垃圾焚燒等。除了這些因素外,城市發(fā)展密度,地形和天氣也將影響空氣質(zhì)量。目前,城市空氣質(zhì)量監(jiān)測網(wǎng)監(jiān)測的主要污染物有:SO2,NO2,CO,O3,PM10,PM2.5??諝赓|(zhì)量指數(shù)(AQI)用于測量空氣污染程度。首先根據(jù)六種污染物的濃度及其相應(yīng)的較低和較高的標準濃度值計算各個指標。然后將最大的子指標值確定為空氣質(zhì)量指數(shù)(AQI)。當AQI>50時,具有最大子指標值的相應(yīng)污染物被認為是主要污染物。AQI及其等級如表1所示:
表1 空氣質(zhì)量指數(shù)及相關(guān)信息
實驗數(shù)據(jù)來自于廣州市的11個環(huán)境監(jiān)測站,包括有廣州市2016年的全年日??諝赓|(zhì)量監(jiān)測數(shù)據(jù)以及廣州地區(qū)的氣象數(shù)據(jù)。該數(shù)據(jù)是從青悅開放環(huán)境數(shù)據(jù)中心下載(https://wat.epmap.org/)。部分數(shù)據(jù)如表2所示。
表2 廣州空氣質(zhì)量數(shù)據(jù)
3.3.1 空氣質(zhì)量分布趨勢
實驗數(shù)據(jù)的時間范圍是從2016年1月到2016年11月。通過對這些時空序列的空氣質(zhì)量數(shù)據(jù)進行分析,我們可以發(fā)現(xiàn)空氣污染的分布和發(fā)展趨勢。圖2是幾個監(jiān)測站一年內(nèi)空氣質(zhì)量指數(shù)AQI的變化趨勢。從圖中可以看出2016年的1月初與4月初的時候空氣污染明顯加重,4、5、6、7月空氣質(zhì)量相對較好、且較穩(wěn)定。從圖3可以看出森林公園監(jiān)測站的全年空氣質(zhì)量比其他三個站點要好,這也證明了人類活動對環(huán)境空氣質(zhì)量的負面影響。
圖2 2016年空氣質(zhì)量指數(shù)(AQI)的變化趨勢
圖3 2016年四個監(jiān)測站空氣質(zhì)量類別為優(yōu)的天數(shù)
3.3.2 天氣對空氣質(zhì)量的影響
在大家的認知中,天氣的變化是會對空氣質(zhì)量有一定影響的,因此我們分析了氣溫對空氣質(zhì)量的影響變化。如圖4、圖5所示,它們展示的是空氣質(zhì)量指數(shù)、pm2.5指數(shù)、SO2指數(shù)和NO2指數(shù)和氣溫的變化情況。從圖中可以看出氣溫的變化在一定程度上影響著空氣質(zhì)量。隨著氣溫的降低,空氣質(zhì)量指數(shù)、pm2.5指數(shù)、SO2指數(shù)和NO2指數(shù)有著下降的趨勢,這說明空氣質(zhì)量好轉(zhuǎn)。
圖4 2016年1月空氣質(zhì)量指數(shù)和氣溫的變化趨勢
圖5 2016年1月pm2.5、SO2、NO2和氣溫的變化曲線
在本文中,收集了2016年廣州市日常環(huán)境空氣質(zhì)量數(shù)據(jù)以及氣象數(shù)據(jù)。在大數(shù)據(jù)的時代背景下,利用大數(shù)據(jù)可視化技術(shù),對空氣質(zhì)量數(shù)據(jù)進行了探索性分析,嘗試著去找出空氣質(zhì)量數(shù)據(jù)的時空分布趨勢和隱藏模式。通過相關(guān)分析,試圖去解釋天氣和人類活動對環(huán)境空氣質(zhì)量的影響。通過探索和分析這些監(jiān)測數(shù)據(jù),結(jié)果表明人類的活動對環(huán)境空氣質(zhì)量有著消極影響。還發(fā)現(xiàn)天氣也會影響空氣質(zhì)量,當溫度下降時,空氣質(zhì)量呈現(xiàn)好轉(zhuǎn)的趨勢。最后要感謝青悅開放環(huán)境數(shù)據(jù)中心給予的支持與幫助。
[1]王德敏.空氣污染數(shù)據(jù)可視化方法研究及可視化系統(tǒng)實現(xiàn)[D].山東大學,2012.
[2]Zhang R M,Zou X J,Gu B J,et al.Research of time series data based on exploratory analysis[J].Journal of System Simulation,2006.
[3]王瑞松.大數(shù)據(jù)環(huán)境下時空多維數(shù)據(jù)可視化研究[D].計算機科學與技術(shù)學院,2016.
[4]HeHctor Jorquera,Wilfredo Palma,JoseH Tapia.An intervention analysis of quality data at Santiago,Chile[J].Atmospheric Environment 2000,34:4073-4084.
[5]Zhang yannan.Visualization Research of environment monitoring spatial and temporal data based on R language[D].Dissertation of wuhan university2016.(In Chinese).
[6]武裝,覃愛明.基于大數(shù)據(jù)的空氣質(zhì)量數(shù)據(jù)可視化[J].廣角鏡,2015,3: 249-251.
[7]Intel IT Center.“Big Data Visualization:Turning Big Data Into Big Insights”White Paper,March 2013,pp.1-14.
[8]天善智能.說說什么是探索式數(shù)據(jù)分析、驗證性數(shù)據(jù)分析[OL].http://www.36dsj.com/archives/42301,2016.