張達(dá)剛,陳海寧,陳 華,張光怡
1(北京恒輝信達(dá)技術(shù)有限公司,北京 100045)
2(北京市環(huán)保局,北京 100048)
近年來,國家高度重視大數(shù)據(jù)在推進(jìn)生態(tài)文明建設(shè)中的地位和作用,各區(qū)域各行業(yè)都在努力貫徹落實加強(qiáng)生態(tài)環(huán)境大數(shù)據(jù)綜合應(yīng)用和集成分析的策略要求,環(huán)保部門也希望借助新的技術(shù)解決新的數(shù)據(jù)問題,為生態(tài)環(huán)境保護(hù)科學(xué)決策提供有力支撐[1].通過研究發(fā)現(xiàn),環(huán)境監(jiān)測數(shù)據(jù)符合大數(shù)據(jù)的容量大、種類多、增長速度快、價值大的特征,通過傳統(tǒng)的數(shù)據(jù)處理方法獲取其中有用數(shù)據(jù),難以滿足業(yè)務(wù)的發(fā)展需求.本文通過對相關(guān)技術(shù)及方案的探討,為深度挖掘環(huán)評監(jiān)測數(shù)據(jù)的業(yè)務(wù)價值提供支撐.
根據(jù)北京市環(huán)境保護(hù)局發(fā)布的《建設(shè)項目環(huán)境影響評價分類管理名錄》,環(huán)境影響分類從A 類(水利)、B 類(農(nóng)、林、牧、漁、海洋)一直到W 類(核與輻射),共計23 個大類,199 個子類.每個子類具有多種不同監(jiān)測指標(biāo),代表著總數(shù)量大概幾千個評估維度.從對污染物監(jiān)測數(shù)據(jù)采樣數(shù)量看,例如《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》(GB3095-2012)列出的大氣主要污染物(二氧化硫、一氧化碳、顆粒物等),每一種的采樣頻度如果是10 分鐘,以每個監(jiān)測點一次1 KB(1024 字節(jié))的采樣數(shù)據(jù)為例,一年的數(shù)據(jù)大小是1 KB×7(污染物)×6(10 分鐘采樣周期)×24(一天小時數(shù))×365(一年天數(shù))=360 MB,保守估計京津冀地區(qū)10 萬個重點監(jiān)測企業(yè),假設(shè)每個企業(yè)的監(jiān)測點為100 個,大氣監(jiān)測一年的數(shù)據(jù)量為:360 MB×100 000×100=3.35 PB.如此多的維度和數(shù)據(jù)數(shù)量,以及對數(shù)據(jù)傳輸速度、存儲和提取速度等方面的實際要求,遠(yuǎn)遠(yuǎn)超出傳統(tǒng)數(shù)據(jù)管理和分析方法所能達(dá)到的限度,對超海量數(shù)據(jù)處理的多維度分析、性能優(yōu)化、彈性擴(kuò)展等方面提出技術(shù)挑戰(zhàn).
通過對數(shù)據(jù)湖、彈性擴(kuò)展、大規(guī)模并行處理、流處理、機(jī)器學(xué)習(xí)等技術(shù)的研究,應(yīng)對環(huán)境評估大數(shù)據(jù)需求,我們設(shè)計環(huán)境評估業(yè)務(wù)的數(shù)據(jù)管理平臺,實現(xiàn)適用的數(shù)據(jù)資源傳輸交換、存儲管理和分析處理功能,為環(huán)境評估業(yè)務(wù)應(yīng)用提供統(tǒng)一的數(shù)據(jù)支撐服務(wù).經(jīng)過前期調(diào)研分析,我們利用基礎(chǔ)關(guān)系型數(shù)據(jù)庫、分析型數(shù)據(jù)庫以及Hadoop 平臺的部分組件搭建了NoSQL和SQL 集成一體的環(huán)評文件數(shù)據(jù)提取系統(tǒng),通過較為簡單的數(shù)據(jù)建模,初步驗證了大數(shù)據(jù)技術(shù)平臺的能力,包括能夠?qū)崿F(xiàn)數(shù)據(jù)傳輸交換、管理監(jiān)控、共享開放、分析挖掘等基本功能,支撐分布式計算、流式數(shù)據(jù)處理、大數(shù)據(jù)關(guān)聯(lián)分析、趨勢分析、空間分析,支撐大數(shù)據(jù)產(chǎn)品研發(fā)和應(yīng)用等,這些為后續(xù)付諸實用的環(huán)境評估大數(shù)據(jù)管理平臺,做出相應(yīng)的初步驗證.
環(huán)保監(jiān)測與評估的數(shù)據(jù)分析維度眾多,而且數(shù)據(jù)量日益增長,造成歷史數(shù)據(jù)需要壓縮保存,部分?jǐn)?shù)據(jù)需要定期清空以回收資源,另外,不同維度的數(shù)據(jù)如大氣、土壤、水質(zhì)等數(shù)據(jù)需要分庫分路徑保管,這些對存儲和計算資源提出了彈性擴(kuò)展、回收重用的重要需求.
彈性擴(kuò)展指的是云應(yīng)用本身的一種動態(tài)的擴(kuò)展,也就是在云應(yīng)用運行期間實現(xiàn)支撐云應(yīng)用的虛擬機(jī)實例個數(shù)的動態(tài)增加或者減少[2].彈性擴(kuò)展并不是簡單的資源復(fù)制,而是通過計算能力、存儲能力的調(diào)配以及配套的集群、安全管控等功能形成的完整的資源按需分配,可以在不改變平臺部署架構(gòu)的情況下實現(xiàn)環(huán)保海量數(shù)據(jù)動態(tài)增容功能.
流式數(shù)據(jù)是大數(shù)據(jù)環(huán)境下的一種數(shù)據(jù)形態(tài),與靜態(tài)、批處理和持久化的數(shù)據(jù)庫處理相比,流式計算以連續(xù)、無邊界和瞬時性為特征,適合高速并發(fā)和大規(guī)模數(shù)據(jù)實時處理的場景[3].當(dāng)前很多環(huán)境評估數(shù)據(jù),例如噪聲數(shù)據(jù),具有多源并發(fā)、瞬間發(fā)生、快速失效的特點,采用流處理技術(shù)就實時采集和處理瞬時數(shù)據(jù)的相關(guān)指標(biāo),從而解決環(huán)保監(jiān)測的實時性問題.
大數(shù)據(jù)環(huán)境下,流式數(shù)據(jù)作為一種新型的數(shù)據(jù)類型,是實時數(shù)據(jù)處理所面向的數(shù)據(jù)類型,其相關(guān)研究發(fā)展迅速.這種實時的流式數(shù)據(jù),存在如下幾個特征:
1)實時、高速:數(shù)據(jù)能以高并發(fā)的方式迅速到達(dá),業(yè)務(wù)計算要求快速連續(xù)相應(yīng).數(shù)據(jù)處理的速度至少能夠匹配數(shù)據(jù)到達(dá)的速度.
2)無邊界:數(shù)據(jù)到達(dá)、處理和向后傳遞均是持續(xù)不斷的.
3)瞬時性和有限持久性:通常情況下,原始數(shù)據(jù)在掃描處理后丟棄,并不進(jìn)行保存;只有計算結(jié)果和部分中間數(shù)據(jù)在有限時間內(nèi)被保存和向后傳遞.
4)價值的時間偏倚性:隨著時間的流逝,數(shù)據(jù)中所蘊含的知識價值往往也在衰減,也即流中數(shù)據(jù)項的重要程度是不同的,最近到達(dá)的數(shù)據(jù)往往比早先到達(dá)的數(shù)據(jù)更有價值.
數(shù)據(jù)湖是一種在系統(tǒng)或存儲庫中以自然格式存儲數(shù)據(jù)的方法,它有助于以各種模式和結(jié)構(gòu)形式配置數(shù)據(jù).數(shù)據(jù)湖的主要思想是對企業(yè)中的所有數(shù)據(jù)進(jìn)行統(tǒng)一存儲,從原始數(shù)據(jù)(這意味著源系統(tǒng)數(shù)據(jù)的精確副本)轉(zhuǎn)換為用于報告、可視化、分析和機(jī)器學(xué)習(xí)等各種任務(wù)的轉(zhuǎn)換數(shù)據(jù).湖中的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)(行和列數(shù)據(jù))、半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON 的日志)、非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻)等.數(shù)據(jù)湖能夠形成一個集中式數(shù)據(jù)存儲,容納所有形式的數(shù)據(jù)[4].
源于數(shù)據(jù)倉庫概念的數(shù)據(jù)湖理論,更好地解決了數(shù)據(jù)倉庫和大數(shù)據(jù)處理技術(shù)表現(xiàn)出來的部分弊端,即能夠接收來自多種數(shù)據(jù)源的輸入,同時保留原始數(shù)據(jù)的真實性和數(shù)據(jù)傳輸狀態(tài),并滿足實時分析的需要,也能夠作為數(shù)據(jù)倉庫滿足批處理和數(shù)據(jù)挖掘的需要,從而滿足環(huán)保監(jiān)測與評估數(shù)據(jù)需要多種數(shù)據(jù)源的集成、不限制數(shù)據(jù)對象集合、保留數(shù)據(jù)精確度的處理要求,例如大氣污染和地域、氣象等等多種因素相關(guān),只有通過數(shù)據(jù)湖進(jìn)行數(shù)據(jù)融合才能進(jìn)行有針對性的后續(xù)處理.
數(shù)據(jù)湖具有如下作用.
1)數(shù)據(jù)的集中存放管理:數(shù)據(jù)湖是平臺用于存放所有所需數(shù)據(jù)的地方,這些數(shù)據(jù)包括來自傳統(tǒng)數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的文本數(shù)據(jù),包括企業(yè)內(nèi)部生成的數(shù)據(jù),外部數(shù)據(jù)以及服務(wù)數(shù)據(jù),也包括媒體數(shù)據(jù),傳感器采集數(shù)據(jù)和很多企業(yè)正在學(xué)習(xí)使用的遙測數(shù)據(jù).
2)強(qiáng)大的交叉分析平臺:數(shù)據(jù)湖可以看作是一個大數(shù)據(jù)分析平臺,不僅僅可以實現(xiàn)所有種類數(shù)據(jù)的存放,也可以用于數(shù)據(jù)分析,以及找到數(shù)據(jù)新的關(guān)聯(lián)性.許多商業(yè)分析中的突破并不是來源于數(shù)據(jù)的多少和分析的熟練程度,而是來源于能顯示出商業(yè)表現(xiàn)的數(shù)據(jù)新式組合.
3)為商業(yè)個體提供所需數(shù)據(jù)的最優(yōu)解:數(shù)據(jù)湖也同樣協(xié)調(diào)了商業(yè)個體真正需要的數(shù)據(jù)和企業(yè)經(jīng)常使用標(biāo)準(zhǔn)數(shù)據(jù)的不匹配問題,它是一種共享資源,不僅包含了精心管理的數(shù)據(jù),也提供了一個商業(yè)個體搜尋真正需要的數(shù)據(jù)組合的平臺.
大規(guī)模并行處理(MPP)系統(tǒng)由眾多松耦合處理單元組成,每個單元內(nèi)的處理器都有自己私有的資源,如總線、內(nèi)存、硬盤等,在每個單元內(nèi)都有操作系統(tǒng)和管理數(shù)據(jù)庫的實例副本,這種結(jié)構(gòu)最大的特點是不共享資源[5].MPP 是將任務(wù)并行分散到多個服務(wù)器和存儲節(jié)點上,在每個節(jié)點上計算完成后,將各自部分的結(jié)果匯總在一起得到最終的結(jié)果.
隨著對環(huán)境評估時效性要求的提高,大量環(huán)境監(jiān)測采集數(shù)據(jù)需要得到快速處理,以便及時為決策和執(zhí)行提供依據(jù),因此,我們有必要采用大規(guī)模并行處理技術(shù)來加速海量數(shù)據(jù)的處理,其中主要使用到MPP 架構(gòu)的數(shù)據(jù)庫.
機(jī)器學(xué)習(xí)技術(shù)包括數(shù)據(jù)存儲和模式設(shè)計、不同組件的模塊化、單獨架構(gòu)每個獨立的可擴(kuò)展組件、系統(tǒng)和性能測試,以及數(shù)據(jù)可視化等.典型的機(jī)器學(xué)習(xí)工作流包括,使用數(shù)據(jù)流處理技術(shù)讀取不同來源的數(shù)據(jù),使用SQL 過濾、聚合,并執(zhí)行數(shù)據(jù)集上的其他初始化處理,然后,使用計算引擎將處理過的數(shù)據(jù)轉(zhuǎn)換以創(chuàng)建特征向量,對模型進(jìn)行訓(xùn)練和評估,并使機(jī)器學(xué)習(xí)與SQL 解析和流處理技術(shù)達(dá)到深度集成[6].環(huán)境監(jiān)測數(shù)據(jù)具有數(shù)據(jù)量大,數(shù)據(jù)維度復(fù)雜的特點,并且常用查詢維度的集中度很大,所以深度學(xué)習(xí)環(huán)境監(jiān)測的數(shù)據(jù)訪問規(guī)律可以大大提升數(shù)據(jù)訪問速度.
在機(jī)器學(xué)習(xí)技術(shù)的實現(xiàn)中,我們采用深度學(xué)習(xí)技術(shù).深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中表征學(xué)習(xí)算法,使用包含復(fù)雜結(jié)構(gòu)或由多重非線性變換構(gòu)成的多個處理層對數(shù)據(jù)進(jìn)行高層抽象計算,將用于監(jiān)督式或半監(jiān)督式的特征學(xué)習(xí)和分層特征提取的高效算法來替代手工獲取.基于數(shù)據(jù)的深度學(xué)習(xí)過程是數(shù)據(jù)庫系統(tǒng)掌控應(yīng)用系統(tǒng)的訪問規(guī)律,動態(tài)調(diào)整系統(tǒng)資源,找到最快速、最高效的訪問路徑,給用戶帶來越用越快的用戶體驗的過程[7].
環(huán)境評估大數(shù)據(jù)管理平臺采用云計算環(huán)境作為基礎(chǔ)設(shè)施,即以云計算基礎(chǔ)架構(gòu)即服務(wù)(IAAS)層作為物理支撐,從中得到可彈性擴(kuò)展的計算服務(wù)、存儲服務(wù)、數(shù)據(jù)傳輸服務(wù)、安全管控服務(wù)等基礎(chǔ)服務(wù).環(huán)境評估大數(shù)據(jù)管理平臺的主要作用是大數(shù)據(jù)管理,是整個環(huán)境評估服務(wù)系統(tǒng)的核心,分為數(shù)據(jù)層、分析層和業(yè)務(wù)層,通過對各類數(shù)據(jù)的收集、抽取、存儲、清洗、標(biāo)準(zhǔn)化、關(guān)聯(lián)、標(biāo)記、深度加工、可視化等處理,形成數(shù)據(jù)資源中心,并為上層應(yīng)用提供統(tǒng)一數(shù)據(jù)服務(wù).
平臺的數(shù)據(jù)層負(fù)責(zé)大數(shù)據(jù)存儲,將各種類型和特點的數(shù)據(jù)統(tǒng)一存儲管理,為分析層提供海量數(shù)據(jù)和快速提取的服務(wù)功能,分析層負(fù)責(zé)大數(shù)據(jù)融合,通過流處理、并行計算、深度學(xué)習(xí)等技術(shù)將數(shù)據(jù)進(jìn)行融合處理,為業(yè)務(wù)層提供可用原始數(shù)據(jù)和整合數(shù)據(jù)的靈活訪問服務(wù)功能,業(yè)務(wù)層負(fù)責(zé)業(yè)務(wù)應(yīng)用的大數(shù)據(jù)接入,對數(shù)據(jù)進(jìn)行綜合提取和展現(xiàn),提供數(shù)據(jù)的增值服務(wù)功能,供給不同的業(yè)務(wù)應(yīng)用進(jìn)行接入和使用,參見圖1.
3.1.1 數(shù)據(jù)層
數(shù)據(jù)層主要是通過數(shù)據(jù)湖技術(shù)和彈性擴(kuò)展技術(shù)對數(shù)據(jù)進(jìn)行接收、存儲和初步處理,主要解決了海量數(shù)據(jù)和多元數(shù)據(jù)問題,包括來自環(huán)保數(shù)據(jù)采集系統(tǒng)和業(yè)務(wù)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),和來自采集端點的實時數(shù)據(jù)、業(yè)務(wù)系統(tǒng)采集生成的多種格式非結(jié)構(gòu)化數(shù)據(jù)等.
圖1 大數(shù)據(jù)管理平臺架構(gòu)
(1)結(jié)構(gòu)化數(shù)據(jù)的行式存儲和列式存儲
使用最廣的數(shù)據(jù)存儲方式是行式存儲,把一行數(shù)據(jù)作為一個整體來存儲,但行式存儲在維護(hù)大量的索引和物化視圖場景下,在處理時間和存儲空間方面成本過高.列式存儲數(shù)據(jù)庫以列為單位進(jìn)行數(shù)據(jù)存儲,每一列單獨存放,并由一個線程來處理,這樣既可以充分利用處理器的多核心特性,又能夠大大降低系統(tǒng)I/O 開銷,因此我們采用擅長隨機(jī)讀操作的行式數(shù)據(jù)庫與擅長條件查詢的列式數(shù)據(jù)庫相結(jié)合的方式,來管理結(jié)構(gòu)化數(shù)據(jù).
作為CDM的各參與方,項目業(yè)主、咨詢機(jī)構(gòu)、第三方審核機(jī)構(gòu)、金融機(jī)構(gòu)等主體,應(yīng)及時關(guān)注國內(nèi)碳交易市場建立的相關(guān)政策和進(jìn)展,夯實自身基礎(chǔ),盡早布局國內(nèi)市場,為將來扮演好各自角色做好充分準(zhǔn)備。
(2)非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲和彈性擴(kuò)展
非結(jié)構(gòu)化數(shù)據(jù)需要分布式存儲,并且保證按需的彈性擴(kuò)展功能.平臺的分布式存儲充分利用HDFS 的低成本、高容錯、高吞吐特性來管理數(shù)據(jù),經(jīng)由并行數(shù)據(jù)路徑完成與MPP 數(shù)據(jù)庫服務(wù)器的數(shù)據(jù)交換,通過彈性控制管理模塊聯(lián)動數(shù)據(jù)協(xié)調(diào)分發(fā)模塊提供數(shù)據(jù)的彈性擴(kuò)展管理,參見圖2.
對于彈性擴(kuò)展在彈性控制管理模塊中采用特定語言進(jìn)行描述,通過描述中的內(nèi)容進(jìn)行靈活的擴(kuò)展,例如,描述一個擴(kuò)展節(jié)點,包括硬件、軟件特征和配置必須明確規(guī)定,并以特定的方式進(jìn)行表述,再使用自動化任務(wù)解析、執(zhí)行這些相關(guān)的描述文檔,從而實現(xiàn)相應(yīng)擴(kuò)展功能.
(3)支持處理的數(shù)據(jù)類型
平臺支持對常用的所有數(shù)據(jù)類型進(jìn)行處理,包括:
1)關(guān)系數(shù)據(jù):支持關(guān)系數(shù)據(jù)的各種數(shù)值類型、字符類型、二進(jìn)制數(shù)據(jù)類型、日期時間類型、布爾類型等.
2)空間數(shù)據(jù):支持幾何特征和離散特點的地理要素,即空間對象數(shù)據(jù),如點、線、面、體等對象的數(shù)據(jù)組件,以及GIS 柵格、圖層、坐標(biāo)等數(shù)據(jù)存取.
3)NoSQL 數(shù)據(jù):支持NoSQL 數(shù)據(jù)類型、位串類型、數(shù)組類型、復(fù)合類型等.
平臺對數(shù)據(jù)的管理都采用圖形化界面進(jìn)行操作,例如對NoSQL 數(shù)據(jù)的管理已實現(xiàn)如圖3的界面.
圖2 彈性擴(kuò)展
圖3 NoSQL 數(shù)據(jù)管理界面
3.1.2 分析層
分析層對數(shù)據(jù)進(jìn)行融合處理,是一種針對環(huán)保檢測和評估數(shù)據(jù)的容量大、種類多、增長速度快、價值大等特征的集成技術(shù),包括:流處理技術(shù)、大規(guī)模并行處理技術(shù)、機(jī)器學(xué)習(xí)技術(shù)、并行算法等.
平臺通過增加并行度確保使用整個集群的資源,而不是把任務(wù)集中在幾個特定的節(jié)點上.對于包含Apache Spark Shuffle 的操作,增加其并行度以確保更為充分地使用集群資源;同時,流處理默認(rèn)將接收到的數(shù)據(jù)序列化后存儲,以減少內(nèi)存的使用,但是序列化和反序列化需要更多的處理器資源,因此優(yōu)化的序列化方式和自定義的序列化接口可以更高效地使用處理器資源,參見圖4.
圖4 流處理序列和反序列
在流處理中,任務(wù)之間有可能存在依賴關(guān)系,后面的任務(wù)必須確保前面的作業(yè)執(zhí)行結(jié)束后才能提交,通常情況下分析型數(shù)據(jù)庫框架能夠高效地確保任務(wù)及時分發(fā).但是,如果前面的任務(wù)執(zhí)行的時間超出了批處理時間間隔,那么后面的任務(wù)就無法按時提交,這樣就會進(jìn)一步拖延接下來的任務(wù),造成后續(xù)任務(wù)的阻塞,因此分析層會設(shè)置一個合理的批處理間隔以確保作業(yè)能夠在這個批處理間隔內(nèi)結(jié)束;同樣,當(dāng)批處理間隔非常小(小于500 毫秒)時,提交和分發(fā)任務(wù)的延遲就變得不可接受了,通過經(jīng)驗對比,我們采用Spark 的Standalone和Coarse-grained Mesos 模式減少因任務(wù)提交和分發(fā)所帶來的延遲.
對于數(shù)據(jù)的底層模型設(shè)計,因需要進(jìn)行基于多維模型的交叉分析來有效發(fā)現(xiàn)問題,所以數(shù)據(jù)的維度越豐富所能實現(xiàn)的交叉也越豐富和靈活;但相應(yīng)的,如果要盡可能地豐富各維度的交叉分析,對基層模型的要求也就越高.因此,我們引用數(shù)據(jù)立方體來實現(xiàn)模型設(shè)計,參見圖5.
圖5 數(shù)據(jù)立方體示例
用數(shù)據(jù)立方體來拓展數(shù)據(jù)細(xì)節(jié)有兩種方向,一類是縱深拓展,也就是基于一個維度的細(xì)分,例如一個月細(xì)分到每一天,一條記錄將會被拓展成30 條;另一類是橫向拓展、多個維度的交叉,就像立方體中添加了空氣污染物維和區(qū)域維.這樣存儲的數(shù)據(jù)就從原本單一的時間維度擴(kuò)展成了時間、污染物和區(qū)域三個維度,也就是三維立方體所能展現(xiàn)的形式,而且維度可以繼續(xù)擴(kuò)展,四個、五個直到數(shù)十個,理論上都是可行的.以三個維度進(jìn)行舉例:對于數(shù)據(jù)存儲而言,橫向的拓展與縱深拓展的影響是一樣的,記錄數(shù)都是以倍乘的方式增長,假設(shè)有20 個污染物大類,再加上十六個區(qū),那么經(jīng)過縱深和橫向拓展之后,原先每月的1 條記錄就變成了:1 × 30 × 20 × 16 = 9600 (條).
在功能實現(xiàn)方面,經(jīng)過數(shù)據(jù)的多維分析后,平臺在數(shù)據(jù)準(zhǔn)備區(qū)進(jìn)行ETL 處理,數(shù)據(jù)經(jīng)過抽取、轉(zhuǎn)換后加載到數(shù)據(jù)倉庫中,分析完主題和數(shù)據(jù)元后建立數(shù)據(jù)模型(概念模型、邏輯模型、物理模型)并形成事實表和緯度表,然后通過粒度分析將歷史記錄先抽取整合,最后再根據(jù)決策者可能用到的數(shù)據(jù)集合分解成若干記錄,同時利用OLAP 工具技術(shù)進(jìn)行數(shù)據(jù)的分析導(dǎo)出,以供給業(yè)務(wù)層進(jìn)行數(shù)據(jù)可視化處理.
3.1.3 業(yè)務(wù)層
在業(yè)務(wù)層,系統(tǒng)關(guān)注將分析層提供的數(shù)據(jù)進(jìn)行可視化展現(xiàn),其中的重點就是使用知識圖譜.知識圖譜基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點和邊組成,每個節(jié)點表示現(xiàn)實世界中存在的具有多種屬性的“實體”,每條邊為實體與實體之間的“關(guān)系”.知識圖譜把所有不同種類的信息連接在一起而得到一個關(guān)系網(wǎng)絡(luò),提供了從“關(guān)系”的角度去分析問題的能力,是關(guān)系的最有效的表示方式[8].
基于知識圖譜,我們也嘗試提供數(shù)據(jù)智能搜索服務(wù).智能搜索的功能類似于知識圖譜在互聯(lián)網(wǎng)搜索引擎上的應(yīng)用,也就是說,對于每一個搜索的關(guān)鍵詞,我們可以通過知識圖譜來返回更豐富,更全面的信息.比如搜索某個監(jiān)測點的污染情況,我們的智能搜索引擎可以返回與這個監(jiān)測點相關(guān)的所有類型的污染記錄,包括水污染、大氣污染、土壤污染等,并同時返回區(qū)域涉及的建設(shè)項目信息、污染物排放標(biāo)準(zhǔn)等環(huán)境保護(hù)相關(guān)信息,參見圖6.
另外,通過可視化技術(shù)把復(fù)雜的信息以非常直觀的方式呈現(xiàn)出來,參見圖7,使得我們對隱藏信息的情況也一目了然.數(shù)據(jù)可視化是指以柱狀圖、餅狀圖、線型圖等圖形方式展示數(shù)據(jù),讓決策者更高效地了解業(yè)務(wù)的重要信息和細(xì)節(jié)層次.大量實踐表明,人通過圖形獲取信息的速度比通過閱讀文字獲取信息的速度要快很多,因此通過可視化展現(xiàn)配合門戶服務(wù),幫助環(huán)保局管理人員實現(xiàn)高效、系統(tǒng)的數(shù)據(jù)識別和決策.
圖6 知識圖譜關(guān)聯(lián)
圖7 數(shù)據(jù)可視化展現(xiàn)示例
云基礎(chǔ)架構(gòu)使得計算、存儲、網(wǎng)絡(luò)等可以通過資源池化而按需獲得,我們重點關(guān)注的是這些資源的整合以及基于此的動態(tài)變化管理策略,形成一個有機(jī)的、可靈活調(diào)度和擴(kuò)展的資源池,面向大數(shù)據(jù)管理平臺實現(xiàn)自動化的部署、監(jiān)控、管理和運維.
參見圖8,我們采用典型的云基礎(chǔ)架構(gòu)融合部署方案.例如,通過虛擬防火墻與虛擬機(jī)之間的融合,可以實現(xiàn)虛擬防火墻對虛擬機(jī)的感知、關(guān)聯(lián),確保虛擬機(jī)遷移、新增或減少時,防火墻策略也能夠自動關(guān)聯(lián).此外,虛擬機(jī)與負(fù)載均衡設(shè)備形成聯(lián)動,即在業(yè)務(wù)突發(fā)時,自動按需增加相應(yīng)數(shù)量的虛擬機(jī),與負(fù)載均衡聯(lián)動實現(xiàn)業(yè)務(wù)負(fù)載分擔(dān);同時,當(dāng)業(yè)務(wù)量減小時,可以自動減少相應(yīng)數(shù)量的虛擬機(jī),節(jié)省資源.不僅有效解決虛擬化環(huán)境中面臨的負(fù)載突變問題,而且大大提升了業(yè)務(wù)響應(yīng)的效率和智能化.再有,云基礎(chǔ)架構(gòu)通過虛擬化技術(shù)與管理層的融合,提升了IT 系統(tǒng)的可靠性.例如,虛擬化平臺可與網(wǎng)絡(luò)管理、計算管理、存儲管理聯(lián)動,當(dāng)設(shè)備出現(xiàn)故障影響虛擬機(jī)業(yè)務(wù)時,可自動遷移虛擬機(jī),保障業(yè)務(wù)正常訪問;對于設(shè)備正常、操作系統(tǒng)正常、但某個業(yè)務(wù)系統(tǒng)無法訪問的情況,虛擬化平臺還可以與應(yīng)用管理聯(lián)動,探測應(yīng)用系統(tǒng)的狀態(tài),例如Web、應(yīng)用、數(shù)據(jù)庫等響應(yīng)速度,當(dāng)某個應(yīng)用無法正常提供訪問時,自動重啟虛擬機(jī),恢復(fù)業(yè)務(wù)正常訪問.
圖8 云基礎(chǔ)架構(gòu)融合部署
本文對環(huán)境評估大數(shù)據(jù)管理平臺涉及的關(guān)鍵技術(shù)和平臺邏輯架構(gòu)、物理架構(gòu)設(shè)計進(jìn)行闡述,該平臺是行業(yè)數(shù)據(jù)和數(shù)據(jù)庫技術(shù)相結(jié)合的系統(tǒng)工程,以大數(shù)據(jù)技術(shù)為支撐,通過彈性擴(kuò)展、流處理、數(shù)據(jù)湖、并行處理、機(jī)器學(xué)習(xí)等技術(shù)為手段,不斷結(jié)合環(huán)境監(jiān)測與評估數(shù)據(jù)的需求分析調(diào)整技術(shù)方法,實現(xiàn)環(huán)境監(jiān)測和軟件工程的軟著陸,為開展生態(tài)環(huán)境綜合決策、環(huán)境監(jiān)管和公共服務(wù)提供基礎(chǔ)數(shù)據(jù)支撐,為生態(tài)環(huán)境管理和決策提供服務(wù).