藺旭東+張孟強(qiáng)+陳婧+劉佳
摘 要:隨著經(jīng)濟(jì)的持續(xù)發(fā)展,我國的生態(tài)環(huán)境保護(hù)問題變得越發(fā)復(fù)雜。大數(shù)據(jù)技術(shù)的出現(xiàn),正好適應(yīng)了生態(tài)環(huán)境保護(hù)問題的發(fā)展現(xiàn)狀。本文從分析生態(tài)環(huán)境相關(guān)數(shù)據(jù)入手,對大數(shù)據(jù)技術(shù)在生態(tài)環(huán)境保護(hù)領(lǐng)域的應(yīng)用架構(gòu)及關(guān)鍵技術(shù)展開論述。
關(guān)鍵詞:大數(shù)據(jù) Hadoop;生態(tài)系統(tǒng);生態(tài)環(huán)境保護(hù)
DOI:10.16640/j.cnki.37-1222/t.2015.24.202
1 引言
生態(tài)環(huán)境的保護(hù)問題,具有復(fù)雜性和時變性,涉及多部門、多地區(qū)和多領(lǐng)域,需要處理海量的各類數(shù)據(jù),這為問題的解決增加了不小的難度[1]。本文從分析生態(tài)環(huán)境相關(guān)數(shù)據(jù)入手,對利用大數(shù)據(jù)技術(shù),整合各類生態(tài)環(huán)境相關(guān)的數(shù)據(jù)資源,建立生態(tài)環(huán)境大數(shù)據(jù)平臺的架構(gòu)及關(guān)鍵技術(shù)展開論述。
2 生態(tài)環(huán)境相關(guān)數(shù)據(jù)的現(xiàn)狀分析
目前,應(yīng)用于生態(tài)環(huán)境保護(hù)領(lǐng)域的數(shù)據(jù)資源主要包括三類:
地面監(jiān)測數(shù)據(jù):此類數(shù)據(jù)主要來源于各地的生態(tài)環(huán)境在線監(jiān)測系統(tǒng)。由于各系統(tǒng)開發(fā)時期不同,技術(shù)手段各異,數(shù)據(jù)格式多樣,各系統(tǒng)之間很難形成信息共享。
遙感監(jiān)測數(shù)據(jù):此類數(shù)據(jù)主要來源于衛(wèi)星遙感數(shù)據(jù)和航空遙感數(shù)據(jù)。
地理信息數(shù)據(jù):此類數(shù)據(jù)的來源主要有野外采集、地圖數(shù)字化和航天遙感采集、攝影測量等。
目前,傳統(tǒng)的信息化技術(shù)在環(huán)境數(shù)據(jù)整合工作中仍占據(jù)主導(dǎo)地位,而利用大數(shù)據(jù)技術(shù),實(shí)現(xiàn)上述三類數(shù)據(jù)的統(tǒng)一存儲、協(xié)調(diào)工作,真正建立起實(shí)用價值大,適用性廣泛的生態(tài)環(huán)境大數(shù)據(jù)平臺,還沒有相關(guān)的工作開展。
3 大數(shù)據(jù)技術(shù)概述
大數(shù)據(jù)技術(shù)是近年來興起的一種綜合性信息技術(shù)[2],對于處理超出傳統(tǒng)數(shù)據(jù)庫系統(tǒng)存儲、管理和分析處理能力的多來源的、海量的數(shù)據(jù)集群,具備天然的技術(shù)優(yōu)勢。大數(shù)據(jù)技術(shù)的主流應(yīng)用框架是Hadoop生態(tài)系統(tǒng)。它以HDFS分布式文件系統(tǒng)和MapReduce分布式計算框架為核心,可以對大數(shù)據(jù)進(jìn)行高效的分布式處理。
4 大數(shù)據(jù)平臺的構(gòu)建
生態(tài)環(huán)境問題涉及大氣、土壤、水、生物圈、氣候等方方面面。為此,我們在推進(jìn)大數(shù)據(jù)技術(shù)與生態(tài)環(huán)境保護(hù)工作相互結(jié)合的過程中,采取了以點(diǎn)帶面,逐步推進(jìn)的策略。
在本文中,我們選取對環(huán)境影響比較突出的大氣污染問題作為研究的切入點(diǎn),利用Hadoop生態(tài)系統(tǒng)中的HDFS技術(shù),建立起秦皇島地區(qū)的大氣污染防治大數(shù)據(jù)平臺。未來,通過建立基于此平臺的大氣業(yè)務(wù)應(yīng)用系統(tǒng),我們可以對秦皇島地區(qū)的大氣污染物來源情況進(jìn)行準(zhǔn)確有效的分析。這一應(yīng)用模式的探索,也將為未來更廣泛生態(tài)環(huán)境數(shù)據(jù)的綜合性分析與應(yīng)用,打下良好的基礎(chǔ)。
平臺所采用的地面監(jiān)測數(shù)據(jù)包括:工業(yè)企業(yè)污染排放情況、火電企業(yè)污染排放情況、鋼鐵冶煉企業(yè)污染排放情況、水泥企業(yè)污染排放情況等。
平臺所采用的遙感氣象數(shù)據(jù)主要是用美國國家環(huán)境預(yù)報中心(NCEP)發(fā)布的Final Operational Global Analysis(FNL)資料[3]。我們不直接使用FNL的原始數(shù)據(jù),而是采用經(jīng)過NOAA-Air Resources Laboratory(ARL)預(yù)處理模塊轉(zhuǎn)化后的數(shù)據(jù)?;贔NL資料,可以計算在某一時段內(nèi)抵達(dá)秦皇島地區(qū)的后向氣流軌跡,從而有助于配合地面監(jiān)測數(shù)據(jù)揭示秦皇島地區(qū)大氣污染的可能來源。
納入平臺的地理信息數(shù)據(jù)主要有兩類:(1)圖形數(shù)據(jù):此部分?jǐn)?shù)據(jù)以矢量圖形的形式存儲于HDFS系統(tǒng)中。它們的來源主要是利用搜狗地圖所提供的靜態(tài)地圖API。(2)文本數(shù)據(jù):此部分?jǐn)?shù)據(jù)包括:a)監(jiān)測污染源的位置數(shù)據(jù);b)交通擁堵情況;c)氣流軌跡數(shù)據(jù):此類數(shù)據(jù)由FNL資料計算而得。各類文本數(shù)據(jù)都將構(gòu)成獨(dú)立的圖層,利用搜狗地圖提供的API,標(biāo)注于圖形數(shù)據(jù)之上。
5 關(guān)鍵技術(shù)研究
各類數(shù)據(jù)會被存入統(tǒng)一的大數(shù)據(jù)平臺。我們采用Hadoop分布式集群結(jié)構(gòu)作為大數(shù)據(jù)平臺的存儲結(jié)構(gòu)。我們使用100臺PC級電腦構(gòu)建起分布式數(shù)據(jù)存儲集群,每個節(jié)點(diǎn)同時承擔(dān)計算和存儲的角色。各個數(shù)據(jù)節(jié)點(diǎn)中存放大氣污染相關(guān)的大數(shù)據(jù)。元數(shù)據(jù)主節(jié)點(diǎn)則存放各類大數(shù)據(jù)在數(shù)據(jù)節(jié)點(diǎn)中的副本分布位置。元數(shù)據(jù)輔助節(jié)點(diǎn)承擔(dān)與元數(shù)據(jù)主節(jié)點(diǎn)類似的任務(wù),當(dāng)元數(shù)據(jù)主節(jié)點(diǎn)宕機(jī)時,可以重新啟動元數(shù)據(jù)主節(jié)點(diǎn)。元數(shù)據(jù)主節(jié)點(diǎn)上保存著訪問HDFS文件系統(tǒng)的索引信息,它們主要來源于數(shù)據(jù)預(yù)處理過程中提取的元數(shù)據(jù)。對于修改元數(shù)據(jù)主節(jié)點(diǎn)信息的操作,事務(wù)日志中都會插入相應(yīng)的記錄。而數(shù)據(jù)索引到數(shù)據(jù)存儲的映射,副本的位置及編號等信息,都存儲在元數(shù)據(jù)主節(jié)點(diǎn)所在的本地文件系統(tǒng)中的一個映射文件中。
對于大數(shù)據(jù)而言,要想實(shí)現(xiàn)數(shù)據(jù)的高效穩(wěn)定的訪問機(jī)制,需要做好兩方面的工作:(1)對數(shù)據(jù)分塊存儲并建立適宜的物理數(shù)據(jù)副本規(guī)模;(2)采用適宜的副本存放策略和數(shù)據(jù)讀寫策略[4]。我們采取了搜集數(shù)據(jù)訪問反饋信息的策略,利用統(tǒng)計學(xué)方法實(shí)現(xiàn)了副本規(guī)模的動態(tài)調(diào)整。而對于副本的存放策略,我們考慮將不同副本存放于不同機(jī)架的電腦上,以保證一個機(jī)架出現(xiàn)故障時不致丟失數(shù)據(jù),并且還能在讀數(shù)據(jù)時充分利用不同機(jī)架的帶寬。數(shù)據(jù)的讀取策略則采用從距離讀請求節(jié)點(diǎn)最近的存儲節(jié)點(diǎn)上讀取數(shù)據(jù)。同時,我們將對數(shù)據(jù)加工的相關(guān)業(yè)務(wù)代碼從加工請求所在的電腦發(fā)送至數(shù)據(jù)副本所在的電腦執(zhí)行,盡可能不在電腦之間進(jìn)行數(shù)據(jù)副本的傳遞,以提高寫數(shù)據(jù)的效率。
6 結(jié)論
本文將大數(shù)據(jù)技術(shù)引入生態(tài)環(huán)境保護(hù)的工作之中,將秦皇島地區(qū)的地面監(jiān)測數(shù)據(jù)、遙感監(jiān)測數(shù)據(jù)、地理信息數(shù)據(jù)整合在一起,建立起秦皇島地區(qū)大氣污染防治大數(shù)據(jù)平臺,使相關(guān)的業(yè)務(wù)應(yīng)用有了一個統(tǒng)一的底層數(shù)據(jù)支持。未來,我們可以基于此平臺建立大氣污染數(shù)據(jù)分析系統(tǒng)等業(yè)務(wù)應(yīng)用系統(tǒng),對秦皇島地區(qū)的大氣污染物來源情況進(jìn)行準(zhǔn)確有效的分析。
參考文獻(xiàn):
[1]張永亮,俞海.中國生態(tài)環(huán)境保護(hù)管理體制改革思路與方向:國際社會的觀察和建議[J].中國環(huán)境管理,2015(01):43-47.
[2]肖筱華,周棟.大數(shù)據(jù)技術(shù)及標(biāo)準(zhǔn)發(fā)展研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2014(04):34-38.
[3]趙恒,王體健,江飛,謝旻.利用后向軌跡模式研究TRACE-P期間香港大氣污染物的來源[J].熱帶氣象學(xué)報,2009,25(02):181-186.
[4]宮婧,王文君.大數(shù)據(jù)存儲中的容錯關(guān)鍵技術(shù)綜述[J].南京郵電大學(xué)學(xué)報,2014,34(04):20-25.
基金項目:河北省社會科學(xué)基金項目(HB14LJ001);河北省軟科學(xué)研究計劃項目(15450317D)
作者簡介:藺旭東(1974-),男,河北秦皇島人,博士,副教授,研究方向:信息檢索、環(huán)境信息化。endprint