王有帥,陳 梅,陳藝丹
(蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070)
空氣是人類賴以生存的寶貴資源,近年來遭到嚴(yán)重的破壞,空氣污染已成為一個亟待解決且嚴(yán)重威脅人類健康生活的世界性問題.據(jù)科學(xué)報告[1-3],人類因呼吸疾病導(dǎo)致的死亡率與空氣污染加劇具有明顯的相關(guān)性關(guān)系,尤其是可吸入顆粒物,如PM2.5、PM10、SO2、NO2及O3等,可浸透入肺部和心血管系統(tǒng)導(dǎo)致中風(fēng)和肺癌等嚴(yán)重疾病[4].因此,對空氣質(zhì)量進(jìn)行評估可讓人們了解自己所處的空氣質(zhì)量情況.在戶外時做好防護(hù)準(zhǔn)備,從而提高人們的環(huán)保意識,減少污染排放.
環(huán)境研究者們?yōu)榻鉀Q空氣污染問題曾提出了多種空氣質(zhì)量評估系統(tǒng).Dionova 等提出利用模糊推理系統(tǒng)進(jìn)行環(huán)境室內(nèi)空氣質(zhì)量評價系統(tǒng)[5],該系統(tǒng)采用4 種室內(nèi)空氣污染物(IAP)和4 種熱舒適污染物(TCP),使用室內(nèi)空氣質(zhì)量指數(shù)(EIAQI)對污染狀況進(jìn)行量化,采用聚類算法對模糊邏輯控制器的IAQI 值和TCI 值進(jìn)行劃分,從而有效區(qū)分室內(nèi)空氣和熱舒適污染物.Jasim等提出集成化智能算法和地理信息系統(tǒng)建模的城市空氣質(zhì)量評估系統(tǒng)[6],使用機(jī)器學(xué)習(xí)和地理信息系統(tǒng)建立空氣污染模型,并用主成分分析算法和支持向量回歸對該模型進(jìn)行優(yōu)化,對空氣質(zhì)量進(jìn)行有效的評估.Xu 等提出基于云模型的空氣質(zhì)量評估系統(tǒng)[7],使用云模型空氣質(zhì)量評估方法對空氣質(zhì)量數(shù)據(jù)進(jìn)行定性和定量分析,結(jié)合熵值和超熵值對分析結(jié)果的模糊性和隨機(jī)性進(jìn)行深入分析,得出大氣污染等級.張澍一等提出氣象調(diào)整下的區(qū)域空氣質(zhì)量評估[8],使用一種消除氣象干擾的時空調(diào)整方法.通過控制氣象條件調(diào)整污染物的時空平均濃度,捕捉到潛在排放量的變化,從而規(guī)避因氣象條件造成的污染物濃度的變化.Xu 等提出的中國城市空氣質(zhì)量預(yù)警系統(tǒng)[9],采用“分解與集成”理論,結(jié)合數(shù)據(jù)處理技術(shù)、支持向量機(jī)、仿生優(yōu)化算法和留置一權(quán)決策策略提出了一種混合預(yù)測模型,該模型與模糊評估方法共同組成了空氣質(zhì)量的評價系統(tǒng),在預(yù)測和評估方面具有一定的優(yōu)勢.上述提到的空氣質(zhì)量評估方式在某些特定的情況下,評估效果較好,但不能大規(guī)模使用,具有一定的局限性.
本文針對上述空氣質(zhì)量評估系統(tǒng)評估形式單一、準(zhǔn)確度欠佳等缺點(diǎn)提出了空氣信息管理評估系統(tǒng),旨在應(yīng)用多樣化方法提高空氣質(zhì)量評估準(zhǔn)確度和以多種方式展示評估結(jié)果.在文中介紹了空氣質(zhì)量數(shù)據(jù)收集、加工處理及空氣質(zhì)量評估展示,實(shí)現(xiàn)了空氣質(zhì)量數(shù)據(jù)一站式處理,評估結(jié)果多樣化展示.文中對系統(tǒng)的架構(gòu)設(shè)計、系統(tǒng)功能、主要技術(shù)及系統(tǒng)展示進(jìn)行了詳細(xì)的介紹.
本系統(tǒng)針對現(xiàn)有系統(tǒng)評估形式單一,準(zhǔn)確度低,評估范圍有限等缺點(diǎn)設(shè)計的一套集數(shù)據(jù)預(yù)處理、標(biāo)準(zhǔn)化及多樣化評估為一體的空氣質(zhì)量評估系統(tǒng).系統(tǒng)采用BS 分層架構(gòu),具有開發(fā)及維護(hù)成本低,分布性和共享性強(qiáng),訪問簡單等優(yōu)勢.如圖1所示,該系統(tǒng)由3 部分組成:數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)準(zhǔn)化和空氣質(zhì)量評估.數(shù)據(jù)預(yù)處理是對原始數(shù)據(jù)進(jìn)行抽取、清洗、單位轉(zhuǎn)化等;數(shù)據(jù)標(biāo)準(zhǔn)化是將數(shù)據(jù)進(jìn)行多種標(biāo)準(zhǔn)化處理;空氣質(zhì)量評估是通過按時、日、月、采集點(diǎn)和污染物等多種檢索方式對空氣質(zhì)量進(jìn)行評估展示.
圖1 系統(tǒng)架構(gòu)圖
系統(tǒng)流程圖如圖2所示,系統(tǒng)運(yùn)行由數(shù)據(jù)導(dǎo)入開始.檢測數(shù)據(jù)是否有缺失值和無效值,若有則根據(jù)圖3進(jìn)行缺失值填充或圖4 進(jìn)行無效值替換.然后根據(jù)式(1)-式(4)對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理.標(biāo)準(zhǔn)化處理后的數(shù)據(jù)可以通過檢索進(jìn)行空氣質(zhì)量評估展示,也可以保存至本地數(shù)據(jù)庫或以文件的方式導(dǎo)出.
圖2 系統(tǒng)流程圖
圖3 缺失值填充
圖4 無效值替換
空氣質(zhì)量智能評估系統(tǒng)的核心目標(biāo)是實(shí)現(xiàn)各種空氣質(zhì)量數(shù)據(jù)的統(tǒng)一收集、處理、存儲及對空氣質(zhì)量的評估展示.功能主要有數(shù)據(jù)導(dǎo)入、數(shù)據(jù)加工、數(shù)據(jù)存儲、導(dǎo)出及空氣質(zhì)量評估展示,數(shù)據(jù)流圖如圖5所示.
圖5 數(shù)據(jù)流圖
(1)數(shù)據(jù)導(dǎo)入.將從空氣質(zhì)量檢測站、空氣質(zhì)量數(shù)據(jù)網(wǎng)站或行業(yè)共享等收集到的空氣質(zhì)量數(shù)據(jù)導(dǎo)入系統(tǒng).按業(yè)務(wù)需求將數(shù)據(jù)分發(fā)給數(shù)據(jù)加工模塊,也可以存儲在數(shù)據(jù)庫或以文件的形式導(dǎo)出.
(2)數(shù)據(jù)加工.按需求對接收到的數(shù)據(jù)進(jìn)行抽取、清洗、標(biāo)準(zhǔn)化、單位轉(zhuǎn)化、污染物分類等,提交給空氣質(zhì)量評估模塊,也可以將處理后的數(shù)據(jù)存儲在數(shù)據(jù)庫或以文件的形式導(dǎo)出.
(3)空氣質(zhì)量評估展示.通過對數(shù)據(jù)加工后的數(shù)據(jù)進(jìn)行計算空氣質(zhì)量指數(shù),然后按時、日、月、監(jiān)測站位置及污染物種類等檢索方式對空氣質(zhì)量進(jìn)行評估展示.
本文采用Flask 框架[10]開發(fā),該框架為Python 語言中輕量級框架,具有核心簡單、靈活、輕便高效和使用文檔完整等優(yōu)勢.空氣質(zhì)量數(shù)據(jù)存儲的難點(diǎn)在于數(shù)據(jù)量大、維度高、內(nèi)容復(fù)雜及存取頻繁等.傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL[11],Oracle[12]等無法實(shí)現(xiàn)動態(tài)擴(kuò)容,且在數(shù)據(jù)量較大時,存取效率低,讀寫成本高.本文采用MongoDB 文檔數(shù)據(jù)庫[13]進(jìn)行數(shù)據(jù)存儲,具有高擴(kuò)展、弱一致性、支持大容量存儲、讀寫高效及具有failover 機(jī)制[14]等.
空氣質(zhì)量評估的關(guān)鍵在于空氣質(zhì)量數(shù)據(jù),為了全面和準(zhǔn)確的評估該地區(qū)的空氣質(zhì)量情況,需要選擇最具代表性的數(shù)據(jù)來源.通常情況下,空氣質(zhì)量數(shù)據(jù)從環(huán)境監(jiān)測網(wǎng)站或行業(yè)共享獲得,從網(wǎng)站采用網(wǎng)絡(luò)爬蟲爬取,行業(yè)共享是通過大氣研究人員共享獲得.以上兩種方式獲取的數(shù)據(jù)各有特點(diǎn),網(wǎng)站爬取的數(shù)據(jù)量大,標(biāo)準(zhǔn)不統(tǒng)一,數(shù)據(jù)缺失嚴(yán)重等,需要經(jīng)過嚴(yán)格的清洗、補(bǔ)充等預(yù)處理.行業(yè)共享獲得的數(shù)據(jù)已經(jīng)過預(yù)處理,只需要標(biāo)準(zhǔn)化處理.以蘭州市為例,通過行業(yè)共享和網(wǎng)絡(luò)爬蟲獲得了蘭州市多年的監(jiān)測數(shù)據(jù),涵蓋了蘭大榆中校區(qū)、蘭苑賓館、師范大學(xué)、生物制品所、職工醫(yī)院、舟曲中學(xué)、西固環(huán)保局和鐵路設(shè)計院等遍布蘭州市的空氣檢測站,如圖6所示.
圖6 蘭州市空氣檢測站布局
在通常情況下,空氣檢測設(shè)備收集的污染物種類繁多,數(shù)據(jù)量巨大,難免會收集到無效值和缺失值,在本文中對數(shù)值為0 的數(shù)據(jù)視為無效值.如圖4所示,無效值替換是指對數(shù)值為0 的數(shù)據(jù)統(tǒng)一替換為0.01.缺失值補(bǔ)充采用前5 后3 處理[15],如圖3所示,前5 后3 指取缺失值的前5 位和后3 位相加求均值進(jìn)行補(bǔ)充.
在本文中使用的數(shù)據(jù)標(biāo)準(zhǔn)化方法有0-1 標(biāo)準(zhǔn)化、Z-score 標(biāo)準(zhǔn)化、小數(shù)定標(biāo)標(biāo)準(zhǔn)化和均值歸一化,下面進(jìn)行詳細(xì)的介紹,
(1)0-1 標(biāo)準(zhǔn)化[16],按式(1)將原始數(shù)據(jù)縮放到[0,1]區(qū)間內(nèi).
其中,x為原始數(shù)據(jù),xmin為總體數(shù)據(jù)中的最小值,xmax為總體數(shù)據(jù)中的最大值.
(2)Z-score 標(biāo)準(zhǔn)化[17],利用總體數(shù)據(jù)的均值和標(biāo)準(zhǔn)差對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,如式(2)所示.
其中,μ為總體數(shù)據(jù)的平均值,σ為總體數(shù)據(jù)的標(biāo)準(zhǔn)差.
(3)小數(shù)定標(biāo)標(biāo)準(zhǔn)化,通過移動數(shù)據(jù)小數(shù)點(diǎn)的位置對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,如式(3)所示.
其中,a為使max(|x|)<1的最小值.
(4)均值歸一化[18],通過原始數(shù)據(jù)得到的均值、最大值和最小值對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,如式(4)所示.
其中,μ為總體數(shù)據(jù)的均值,xmax為總數(shù)據(jù)中的最大值,xmin為總體數(shù)據(jù)中的最小值.
根據(jù)中國環(huán)境部門2012年發(fā)布的《環(huán)境空氣質(zhì)量指數(shù)(AQI)技術(shù)規(guī)定(試行)》(HJ633-2012)[19]和《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》(GB3095-2012)[20]規(guī)定,采用空氣質(zhì)量指數(shù)AQI衡量空氣質(zhì)量.通常情況下,空氣污染物含有很多種類,如PM2.5、PM10、SO2、NO2及O3等,首先用各污染物的實(shí)測濃度值,按式(5)分別計算空氣質(zhì)量分指數(shù)IAQI(individual air quality index)[19]:
其中,IAQIp為相應(yīng)地區(qū)的污染物P的空氣質(zhì)量分指數(shù);Cp為相應(yīng)地區(qū)的污染物P的濃度值;BPHi為空氣質(zhì)量分指數(shù)對應(yīng)的污染物濃度限值表中與Cp相近的污染物濃度限值的高位值;BPLo為空氣質(zhì)量分指數(shù)對應(yīng)的污染物濃度值限制表中與Cp相近的污染物濃度限值的低位值;IAQIHi為空氣質(zhì)量分指數(shù)對應(yīng)的污染物濃度限值表中與BPHi對應(yīng)的空氣質(zhì)量分指數(shù);IAQILo為空氣質(zhì)量分指數(shù)對應(yīng)的污染物濃度限值表中與BPHi對應(yīng)的空氣質(zhì)量分指數(shù).在得到各個污染物空氣質(zhì)量分指數(shù)后,由式(6)計算空氣質(zhì)量指數(shù)[19].
其中,IAQI為空氣污染物分指數(shù),n為污染物.由式(6)可得,AQI取污染物分指數(shù)IAQI的最大值.當(dāng)AQI大于50 時,IAQI最大的污染物為首要污染物;若IAQI最大的污染物為兩項或更多時,并列為首要污染物;當(dāng)IAQI大于100 時,該污染物為超標(biāo)污染物.如表1所示,本文根據(jù)當(dāng)?shù)谹QI值給出當(dāng)前空氣質(zhì)量等級、類別、表示顏色、對健康生活影響及對各類人群應(yīng)采取的措施等.
表1 空氣質(zhì)量指數(shù)對照表
依據(jù)如圖1所示的系統(tǒng)架構(gòu)設(shè)計,本文系統(tǒng)功能如圖7所示,空氣信息綜合管理評估系統(tǒng)由數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)準(zhǔn)化處理、空氣質(zhì)量評估和系統(tǒng)管理4 個模塊構(gòu)成.其中,數(shù)據(jù)預(yù)處理模塊由數(shù)據(jù)導(dǎo)入、缺失值填充和無效值替換構(gòu)成;數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊由0-1 標(biāo)準(zhǔn)化、Z-score 標(biāo)準(zhǔn)化、小數(shù)點(diǎn)定標(biāo)標(biāo)準(zhǔn)化和均值歸一化組成;空氣質(zhì)量評估由按時、日、月、監(jiān)測站位置及污染物種類空氣質(zhì)量評估組成;系統(tǒng)管理模塊由用戶管理、日志管理和自定義管理組成.
圖7 系統(tǒng)功能
本文系統(tǒng)空氣質(zhì)量評估采用多樣化檢索方式,由按時、日、月、監(jiān)測站位置及污染物種類評估組成.下面對系統(tǒng)運(yùn)行效果的部分功能進(jìn)行展示.圖8 是在多個監(jiān)測站按污染物種類以餅圖、柱狀圖和折線圖的檢索方式展示以月為單位的環(huán)境污染物濃度情況,用戶按需求選擇污染物及展示方式.
圖8 部分監(jiān)測站按需求展示結(jié)果
圖9 是空氣質(zhì)量數(shù)據(jù)進(jìn)行如圖3、圖4 的無效值和缺失值處理后的展示;圖10 是對經(jīng)過如圖9 處理之后的數(shù)據(jù)進(jìn)行0-1 標(biāo)準(zhǔn)化、Z-score 標(biāo)準(zhǔn)化、小數(shù)定標(biāo)標(biāo)準(zhǔn)化和均值歸一法數(shù)據(jù)標(biāo)準(zhǔn)化展示;圖11 是對標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行按時空氣質(zhì)量評估展示;圖12 是對標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行按日空氣質(zhì)量評估展示.
圖9 缺失值及無效值檢測處理
圖10 數(shù)據(jù)標(biāo)準(zhǔn)化處理
圖11 按時計算空氣質(zhì)量指數(shù)
圖12 按日計算空氣質(zhì)量指數(shù)
在得到污染物的空氣質(zhì)量指數(shù)后,參考表1 獲取空氣質(zhì)量評估信息.如圖13所示,計算空氣質(zhì)量分指數(shù)IAQI,獲取IAQI中的最大值為空氣質(zhì)量指數(shù)AQI,經(jīng)分析得首要污染物為PM2.5,無超標(biāo)污染物,當(dāng)天空氣質(zhì)量指數(shù)級別為三級、屬于輕度污染;易感人群癥狀有輕度加劇,健康人群出現(xiàn)刺激癥狀;建議兒童、老年人及患有心臟病或呼吸系統(tǒng)疾病的人應(yīng)減少長時間、高強(qiáng)度的戶外鍛煉.
圖13 按日空氣質(zhì)量評估
在本文評估系統(tǒng)中,按需求選擇檢測站,按月評估為根據(jù)當(dāng)月的空氣質(zhì)量數(shù)據(jù),計算空氣質(zhì)量等級為優(yōu)、良、輕度污染、中度污染和重度污染的天數(shù),及其所占的概率.如圖14所示,在鐵路設(shè)計院空氣監(jiān)測站某年1月份的空氣質(zhì)量評估結(jié)果中,空氣質(zhì)量等級為優(yōu)和重度污染的天數(shù)為0、良為16 天,輕度污染為14 天及重度污染為1 天.以扇形圖表示空氣質(zhì)量等級,等級為優(yōu)和重度污染占0%,等級為良占51.62%,等級為輕度污染占45.17%,等級為中度污染占3.23%.
圖14 按月空氣質(zhì)量評估
本系統(tǒng)已開發(fā)完畢,且已在2021年6月掛載在阿里云服務(wù)器,訪問地址為http://47.242.77.108:5001/,目前使用于蘭州市空氣質(zhì)量評估,使用效果較好.運(yùn)行環(huán)境為1 vCPU,16 GB 內(nèi)存,40 GB 高效云盤,1 Mb/s 帶寬及Linux 操作系統(tǒng).
空氣信息綜合管理評估系統(tǒng)構(gòu)建了集數(shù)據(jù)預(yù)處理、標(biāo)準(zhǔn)化及多樣評估為一體的多功能評估平臺.主要進(jìn)承擔(dān)了各地的空氣質(zhì)量評估,為用戶提供實(shí)時的空氣質(zhì)量情況及出行建議.并對系統(tǒng)進(jìn)行優(yōu)化處理,響應(yīng)速度快、功能完善、界面友好,為空氣污染數(shù)據(jù)處理、空氣質(zhì)量評估提供了良好的支撐,得到眾多大氣污染相關(guān)科研人員的一致肯定,接下來的研究工作是進(jìn)一步擴(kuò)充完善系統(tǒng)功能,提升數(shù)據(jù)支撐和評估能力.