石松
面向業(yè)務(wù)創(chuàng)新的分析決策是國(guó)土資源大數(shù)據(jù)的應(yīng)用核心,也是國(guó)土資源大數(shù)據(jù)平臺(tái)首要構(gòu)建目標(biāo)。國(guó)土資源大數(shù)據(jù)不僅具有海量、多源、異構(gòu)、時(shí)序性的顯著特點(diǎn),而且還由于其作為基礎(chǔ)數(shù)據(jù)的特殊性地位,面臨著多樣化的決策分析需求,因此對(duì)大數(shù)據(jù)平臺(tái)架構(gòu)的定制性、敏捷性、可擴(kuò)展性與服務(wù)能力提出了更高要求。
本文分析了主流的架構(gòu)設(shè)計(jì)方法論,以國(guó)土資源大數(shù)據(jù)應(yīng)用決策需求為出發(fā)點(diǎn),對(duì)面向分析決策的國(guó)土資源大平臺(tái)架構(gòu)進(jìn)行系統(tǒng)研究。
云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等新一代信息技術(shù)的迅猛發(fā)展及其在國(guó)土資源領(lǐng)域的逐步推廣應(yīng)用,為開展業(yè)務(wù)創(chuàng)新、實(shí)現(xiàn)智能決策提供了技術(shù)保障,通過實(shí)現(xiàn)國(guó)土資源大數(shù)據(jù)的匯聚,促進(jìn)國(guó)土資源決策科學(xué)化、監(jiān)管精準(zhǔn)化、服務(wù)便利化,有效提升國(guó)土資源大數(shù)據(jù)利用水平,是智能決策的主要目標(biāo)。國(guó)土資源數(shù)據(jù)可以劃分為空間數(shù)據(jù)與非空間數(shù)據(jù)兩大類型,空間數(shù)據(jù)主要是描述國(guó)土資源實(shí)體位置關(guān)系的數(shù)據(jù),非空間數(shù)據(jù)包括業(yè)務(wù)數(shù)據(jù)與知識(shí)數(shù)據(jù),這些數(shù)據(jù)具有海量、異構(gòu)、多源多時(shí)相的顯著特點(diǎn)。因此,采集、存儲(chǔ)、管理、分析與挖掘都面臨比較大的技術(shù)挑戰(zhàn)。
架構(gòu)的本質(zhì)是對(duì)信息系統(tǒng)進(jìn)行建模,從而實(shí)現(xiàn)將業(yè)務(wù)功能和需求以合理的方式映射到 IT系統(tǒng)。為了實(shí)現(xiàn)智能決策,需要將大數(shù)據(jù)技術(shù)與人工智能技術(shù)融合,實(shí)現(xiàn)國(guó)土資源數(shù)據(jù)的統(tǒng)一采集、存儲(chǔ)、管理、分析與挖掘。基于此,本文在分析主流的架構(gòu)設(shè)計(jì)方法論的基礎(chǔ)上,面向國(guó)土資源大數(shù)據(jù)的特點(diǎn),設(shè)計(jì)并驗(yàn)證了新型的國(guó)土資源大數(shù)據(jù)平臺(tái)架構(gòu),為解決國(guó)土資源大數(shù)據(jù)采集、融合、分析、挖掘與智能決策應(yīng)用的重點(diǎn)難點(diǎn)問題奠定了技術(shù)基礎(chǔ),為國(guó)土資源大數(shù)據(jù)平臺(tái)應(yīng)用提供了新的范式。
架構(gòu)(Architecture)是系統(tǒng)的基本組織,包括其組成部分、相互關(guān)系和環(huán)境,以及指導(dǎo)其設(shè)計(jì)和演化的原則。架構(gòu)設(shè)計(jì)需要有科學(xué)方法作為指導(dǎo)。信息系統(tǒng)的架構(gòu)設(shè)計(jì)主要遵循 Zachman企業(yè)架構(gòu)框架、FEA聯(lián)邦企業(yè)架構(gòu)和TOGAF開放群組架構(gòu)框架,架構(gòu)設(shè)計(jì)的本質(zhì)是從系統(tǒng)的需求和定位出發(fā),從業(yè)務(wù)、數(shù)據(jù)、應(yīng)用、技術(shù)等多個(gè)角度對(duì)系統(tǒng)進(jìn)行建模,從而在需求和系統(tǒng)間搭建橋梁,因此在架構(gòu)設(shè)計(jì)中需要貫徹技術(shù)與業(yè)務(wù)分離、設(shè)計(jì)與實(shí)現(xiàn)分離這一核心原則。
對(duì)于行業(yè)性大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)的研究已有很多,包括電力企業(yè)大數(shù)據(jù)基礎(chǔ)平臺(tái)的功能架構(gòu)研究、農(nóng)業(yè)大數(shù)據(jù)平臺(tái)的架構(gòu)研究、電信大數(shù)據(jù)平臺(tái)的架構(gòu)研究、公共交通大數(shù)據(jù)平臺(tái)研究,這些研究都針對(duì)各自的業(yè)務(wù)領(lǐng)域提出了合理的設(shè)計(jì),但是這些行業(yè)應(yīng)用大數(shù)據(jù)類型都相對(duì)比較單一,多以海量的結(jié)構(gòu)化管理數(shù)據(jù)為主,缺少數(shù)據(jù)融合,更多的是面向傳統(tǒng)BI的決策,而國(guó)土資源數(shù)據(jù)類型極端多樣,既有遙感影像、矢量圖形,又有管理數(shù)據(jù)、知識(shí)數(shù)據(jù),“4V”特征非常明顯,同時(shí)又由于國(guó)土資源數(shù)據(jù)是關(guān)乎國(guó)計(jì)民生的基礎(chǔ)數(shù)據(jù),應(yīng)用場(chǎng)景豐富,采用包括遙感影像信息自動(dòng)提取、多源數(shù)據(jù)融合等技術(shù)方法是國(guó)土資源大數(shù)據(jù)利用的全新方向,因此,對(duì)國(guó)土資源大數(shù)據(jù)平臺(tái)的架構(gòu)設(shè)計(jì)必然提出更高的要求。
國(guó)土資源大數(shù)據(jù)分析決策的核心需求
核心需求包括核心的業(yè)務(wù)需求和技術(shù)需求。基于國(guó)土資源大數(shù)據(jù)智能決策的核心業(yè)務(wù)需求圍繞國(guó)土資源發(fā)展態(tài)勢(shì)提供監(jiān)管、預(yù)警、分析與評(píng)價(jià)服務(wù),從而更深刻地揭示人地關(guān)系,服務(wù)于國(guó)家生態(tài)文明建設(shè)。
由于業(yè)務(wù)需求的多樣性,通過對(duì)業(yè)務(wù)需求的分析,進(jìn)一步抽取出共性的技術(shù)需求,劃分為三類:
(1)數(shù)據(jù)服務(wù)的技術(shù)需求。構(gòu)建并管理國(guó)土資源數(shù)據(jù)資源體系,實(shí)現(xiàn)國(guó)土資源數(shù)據(jù)的采集、管理、處理和分析應(yīng)用。
(2)計(jì)算服務(wù)的技術(shù)需求。融合數(shù)據(jù)、知識(shí)、指標(biāo)、模型、算法等決策要素,圍繞監(jiān)管、預(yù)警、決策、評(píng)價(jià)四大類型需求,提供大數(shù)據(jù)計(jì)算服務(wù),需要支持實(shí)時(shí)、準(zhǔn)實(shí)時(shí)及離線計(jì)算等不同應(yīng)用場(chǎng)景。
(3)集成服務(wù)的技術(shù)需求。根據(jù)服務(wù)協(xié)議或服務(wù)標(biāo)準(zhǔn),將數(shù)據(jù)服務(wù)和計(jì)算服務(wù)以接口的形式提供給平臺(tái)服務(wù)消費(fèi)者。
國(guó)土資源大數(shù)據(jù)平臺(tái)架構(gòu)的設(shè)計(jì)路線
基于上述需求理解,基于對(duì)國(guó)土資源大數(shù)據(jù)平臺(tái)核心需求的分析,本文采用Zachman企業(yè)架構(gòu)設(shè)計(jì)方法論來進(jìn)行國(guó)土資源大數(shù)據(jù)平臺(tái)的架構(gòu)設(shè)計(jì),即分別從業(yè)務(wù)架構(gòu)、應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)以及技術(shù)架構(gòu)四個(gè)不同的視角對(duì)國(guó)土資源大數(shù)據(jù)平臺(tái)進(jìn)行建模。其中業(yè)務(wù)架構(gòu)是對(duì)國(guó)土資源大數(shù)據(jù)平臺(tái)業(yè)務(wù)能力的分解和細(xì)化,描述業(yè)務(wù)目標(biāo)、業(yè)務(wù)場(chǎng)景及業(yè)務(wù)流程。應(yīng)用架構(gòu)解決國(guó)土資源大數(shù)據(jù)平臺(tái)的應(yīng)用劃分。數(shù)據(jù)架構(gòu)定義數(shù)據(jù)模型、數(shù)據(jù)標(biāo)準(zhǔn)、服務(wù)于數(shù)據(jù)融合。技術(shù)架構(gòu)定義國(guó)土資源大數(shù)據(jù)平臺(tái)的系統(tǒng)框架、組件框架、集成框架與部署框架。
國(guó)土資源大數(shù)據(jù)平臺(tái)業(yè)務(wù)架構(gòu)設(shè)計(jì)
業(yè)務(wù)架構(gòu)來自對(duì)國(guó)土資源大數(shù)據(jù)平臺(tái)核心需求的導(dǎo)入與分析,從中提煉出平臺(tái)的業(yè)務(wù)和技術(shù)能力。
國(guó)土資源大數(shù)據(jù)平臺(tái)作為服務(wù)于業(yè)務(wù)的技術(shù)平臺(tái),業(yè)務(wù)能力不應(yīng)僅僅體現(xiàn)業(yè)務(wù)功能,也需要體現(xiàn)技術(shù)功能,從而才能實(shí)現(xiàn)業(yè)務(wù)元素和技術(shù)的有機(jī)整合,業(yè)務(wù)架構(gòu)為應(yīng)用架構(gòu)和數(shù)據(jù)架構(gòu)提供關(guān)鍵輸入。
平臺(tái)的業(yè)務(wù)功能至下而上,依次是:
(1)數(shù)據(jù)采集:數(shù)據(jù)采集包括外網(wǎng)數(shù)據(jù)采集(如衛(wèi)星傳感器、耕地紅線視頻監(jiān)控等),內(nèi)網(wǎng)數(shù)據(jù)采集,包括綜合研究數(shù)據(jù)、調(diào)查評(píng)價(jià)數(shù)據(jù)、土地規(guī)劃數(shù)據(jù)、災(zāi)害監(jiān)測(cè)數(shù)據(jù)以及基礎(chǔ)地理數(shù)據(jù)等。
(2)數(shù)據(jù)清洗與入庫:即采用ETL工具,將采集的數(shù)據(jù)清洗入庫,國(guó)土資源大數(shù)據(jù)平臺(tái)構(gòu)建七大庫,即業(yè)務(wù)數(shù)據(jù)庫、知識(shí)庫、關(guān)系圖數(shù)據(jù)庫、空間數(shù)據(jù)庫、決策指標(biāo)庫、決策模型庫、業(yè)務(wù)規(guī)則庫。
(3)三大基礎(chǔ)服務(wù):分別是數(shù)據(jù)管理服務(wù),主要致力于數(shù)據(jù)目錄構(gòu)建,以及空間數(shù)據(jù)的管理和分析;影像分析服務(wù),對(duì)遙感影像以及視頻圖像進(jìn)行分析,通過影像來分析地物變化、自動(dòng)提取地物實(shí)體進(jìn)行矢量化后進(jìn)行統(tǒng)一管理。決策支持服務(wù),即通過數(shù)據(jù)分析融合,流程定制、模型組合來實(shí)現(xiàn)智能決策與分析。這三個(gè)服務(wù)本質(zhì)上都是數(shù)據(jù)服務(wù)和計(jì)算服務(wù)的統(tǒng)一,需要用到大數(shù)據(jù)平臺(tái)的實(shí)時(shí)計(jì)算與離線計(jì)算能力。
(4)四大決策分析:將國(guó)土資源智能決策分析能力進(jìn)一步細(xì)分為監(jiān)管分析、預(yù)警分析、決策分析與評(píng)價(jià)分析,特別說明分析能力的提供是通過服務(wù)能力的組合來提供的。
(5)五大應(yīng)用專題:包括智慧執(zhí)法、智慧地災(zāi)、智慧土地、智慧礦產(chǎn)以及生態(tài)保護(hù)專題應(yīng)用。
(6)四大集成方式:國(guó)土資源大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)沙箱、頁面集成、接口調(diào)用以及智能推送能力。
國(guó)土資源大數(shù)據(jù)平臺(tái)應(yīng)用架構(gòu)設(shè)計(jì)
應(yīng)用架構(gòu)來自于業(yè)務(wù)架構(gòu)的導(dǎo)入。應(yīng)用架構(gòu)的設(shè)計(jì)工作包括識(shí)別應(yīng)用功能、定義應(yīng)用劃分、確定應(yīng)用系統(tǒng)邊界、界定應(yīng)用風(fēng)格、明確應(yīng)用分布,形成應(yīng)用架構(gòu)藍(lán)圖。應(yīng)用架構(gòu)需要依據(jù)業(yè)務(wù)需求,抽取關(guān)鍵用例,通過系統(tǒng)分析,建立應(yīng)用與業(yè)務(wù)能力之間的映射關(guān)系。
應(yīng)用架構(gòu)需要綜合考慮業(yè)務(wù)流程的連續(xù)性,業(yè)務(wù)數(shù)據(jù)的完整性與流動(dòng)性,對(duì)應(yīng)用功能進(jìn)行邏輯組合與劃分根據(jù)應(yīng)用合并與重組的原則,將國(guó)土資源大數(shù)據(jù)平臺(tái)進(jìn)一步劃分為四大應(yīng)用平臺(tái):
(1)大數(shù)據(jù)管理平臺(tái):下設(shè)數(shù)據(jù)采集與匯聚子系統(tǒng),用以實(shí)現(xiàn)國(guó)土資源各類數(shù)據(jù)的采集與匯聚,平臺(tái)分析子系統(tǒng)、平臺(tái)查詢子系統(tǒng)、平臺(tái)管理子系統(tǒng)與平臺(tái)運(yùn)維子系統(tǒng)。
(2)影像基礎(chǔ)服務(wù)平臺(tái),用以開展基于各類不同傳感器、不同分辨率、不同光譜遙感影像通過深度學(xué)習(xí)提取地物信息服務(wù)
(3)數(shù)據(jù)共享開放平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的共享與交換,包括數(shù)據(jù)質(zhì)檢、數(shù)據(jù)目錄、共享交換與日志管理等。
(4)門戶平臺(tái):開發(fā)建設(shè)綜合門戶、實(shí)現(xiàn)資源匯聚和權(quán)限管理。
國(guó)土資源大數(shù)據(jù)平臺(tái)數(shù)據(jù)架構(gòu)設(shè)計(jì)
數(shù)據(jù)架構(gòu)來自于業(yè)務(wù)和應(yīng)用需求,在設(shè)計(jì)中重點(diǎn)考慮了兩個(gè)關(guān)鍵點(diǎn):一是基于統(tǒng)一的數(shù)據(jù)管理視角,以應(yīng)用對(duì)國(guó)土資源數(shù)據(jù)進(jìn)行組織和規(guī)劃,提高跨系統(tǒng)間數(shù)據(jù)存貯和共享的效率;二是從數(shù)據(jù)資產(chǎn)管理的角度,對(duì)整個(gè)數(shù)據(jù)生命周期中數(shù)據(jù)的處理、存貯、轉(zhuǎn)換、整合制定策略、模型、流程以及支持這些策略、模型、流程的技術(shù)架構(gòu)方案。
為了有效地管理多源化的國(guó)土資源數(shù)據(jù),在數(shù)據(jù)架構(gòu)設(shè)計(jì)中引入了元數(shù)據(jù)管理平臺(tái),實(shí)現(xiàn)對(duì)數(shù)據(jù)的統(tǒng)一管理。通過元數(shù)據(jù)管理平臺(tái)對(duì)大數(shù)據(jù)平臺(tái)中各類業(yè)務(wù)數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、影像數(shù)據(jù)進(jìn)行管理,從而實(shí)現(xiàn)對(duì)應(yīng)用的全面支撐。
在數(shù)據(jù)應(yīng)用落地的具體過程中,將國(guó)土資源大數(shù)據(jù)最重要的綜合研究、調(diào)查評(píng)價(jià)、土地規(guī)劃、變更數(shù)據(jù)、遙感影像、基礎(chǔ)地理、國(guó)民經(jīng)濟(jì)、社會(huì)發(fā)展、地質(zhì)調(diào)查、災(zāi)害監(jiān)測(cè)等數(shù)據(jù)通過采集至貼源數(shù)據(jù)區(qū),并使用ESB總線對(duì)以上數(shù)據(jù)提供實(shí)時(shí)的訂閱、發(fā)布、管理服務(wù)。在貼源數(shù)據(jù)區(qū)中,使用ETL組件及工作流將數(shù)據(jù)進(jìn)行整合,通過數(shù)據(jù)清洗規(guī)則對(duì)數(shù)據(jù)進(jìn)行清洗,最終將部分具有實(shí)時(shí)計(jì)算需求屬性的數(shù)據(jù)導(dǎo)入預(yù)加載預(yù)計(jì)算區(qū)域,支撐快速數(shù)據(jù)查詢及展示。
另一方面,通過數(shù)據(jù)目錄將業(yè)務(wù)數(shù)據(jù)組成各類體系、模型、規(guī)則,通過業(yè)務(wù)、時(shí)間、詳細(xì)程度將基礎(chǔ)數(shù)據(jù)進(jìn)行分類,兩類數(shù)據(jù)集合成為主題數(shù)據(jù),采用面向主題、時(shí)間、主題模型等方式進(jìn)行存儲(chǔ),最終形成面向不同專題應(yīng)用的國(guó)土資源數(shù)據(jù)集市。
國(guó)土資源大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)設(shè)計(jì)
平臺(tái)技術(shù)架構(gòu)則重點(diǎn)關(guān)注支撐國(guó)土資源大數(shù)據(jù)智能決策應(yīng)用所需的信息化技術(shù)和基礎(chǔ)設(shè)施平臺(tái),識(shí)別關(guān)鍵技術(shù)組件、定義技術(shù)標(biāo)準(zhǔn)體系,為應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)提供技術(shù)支撐。為了確保技術(shù)先進(jìn)、成熟、開放與成長(zhǎng)性,國(guó)土資源大數(shù)據(jù)平臺(tái)中的主要技術(shù)組件均基于業(yè)內(nèi)成熟的開源框架進(jìn)行搭建,集成和擴(kuò)展實(shí)現(xiàn)了數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)共享與開放、數(shù)據(jù)挖掘等一體化的技術(shù)支撐。
技術(shù)架構(gòu)說明如下:
1.數(shù)據(jù)接入層:解決本平臺(tái)所需的各類數(shù)據(jù)接入問題。包括采用外網(wǎng)爬蟲服務(wù)以獲得外網(wǎng)數(shù)據(jù),通過空間數(shù)據(jù)訪問服務(wù)以獲得空間數(shù)據(jù),通過ETL/SQOOP獲得業(yè)務(wù)數(shù)據(jù)以及視頻數(shù)據(jù)。通過FLUME獲得日志數(shù)據(jù)。
還有指標(biāo)和模型數(shù)據(jù)需要采集入庫,考慮到數(shù)據(jù)采集與入庫可能存在性能上的差異,采用kafka消息中間件進(jìn)行處理。同時(shí)還提供各種數(shù)據(jù)轉(zhuǎn)換入庫的規(guī)則配置,各種采集策略及模板配置等。
2.數(shù)據(jù)存儲(chǔ)層:通過接口方式解決各類數(shù)據(jù)的存儲(chǔ)問題。關(guān)系型數(shù)據(jù)庫寫入Postgrel,地圖數(shù)據(jù)庫寫入HDFS/HBASE,索引數(shù)據(jù)寫入Elastic Search,圖關(guān)系數(shù)據(jù)庫寫入Neo4j,交互式分析采用Pig/Hive/Impla。
3.數(shù)據(jù)訪問層:提供數(shù)據(jù)訪問接口,以實(shí)現(xiàn)對(duì)各類數(shù)據(jù)的訪問。
4.計(jì)算能力層:提供流式計(jì)算組件、批處理計(jì)算組件、并行計(jì)算組件、SmartBI建模、資源調(diào)度與管理組件、性能監(jiān)控等。
5.機(jī)器學(xué)習(xí)層:提供傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)能力,實(shí)現(xiàn)數(shù)據(jù)標(biāo)注、模型訓(xùn)練、特征提取、模型預(yù)測(cè)、模型評(píng)估、參數(shù)調(diào)優(yōu)的能力。
6.技術(shù)組件層:提供公共技術(shù)支撐組件,包括流程與表單管理、決策支持管理、可視化分析管理、多源數(shù)據(jù)融合、視頻分析、空間分析、特征識(shí)別與提取、圖譜計(jì)算、高性能渲染等。
7.綜合應(yīng)用層:在上述數(shù)據(jù)與服務(wù)的基礎(chǔ)上,進(jìn)一步構(gòu)建智慧執(zhí)法監(jiān)察系統(tǒng)、智慧地災(zāi)管理監(jiān)察系統(tǒng)以及數(shù)據(jù)共享與開放業(yè)務(wù)系統(tǒng)。
本文基于傳統(tǒng)的企業(yè)架構(gòu)設(shè)計(jì)方法論,針對(duì)國(guó)土資源大數(shù)據(jù)的自身特點(diǎn),對(duì)面向智能決策的國(guó)土資源大數(shù)據(jù)平臺(tái)的架構(gòu)進(jìn)行了多維度、多視角的建模,論述了國(guó)土資源大數(shù)據(jù)平臺(tái)的業(yè)務(wù)架構(gòu)、應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)以及技術(shù)架構(gòu),為國(guó)土資源大數(shù)據(jù)價(jià)值挖掘提供了技術(shù)基礎(chǔ)。