舒 田,熊康寧
(1.貴州師范大學(xué) 喀斯特研究院,貴州 貴陽(yáng) 550001;2.國(guó)家喀斯特石漠化防治工程技術(shù)研究中心,貴州 貴陽(yáng) 550001;3.貴州省農(nóng)業(yè)科學(xué)院 科技信息研究所,貴州 貴陽(yáng) 550006)
隨著智能感知、無(wú)線傳感、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算及區(qū)塊鏈等新興信息技術(shù)的快速發(fā)展,人類進(jìn)入了大數(shù)據(jù)時(shí)代[1]。具有規(guī)模性(volume)、高速率(velocity)、多樣性(variety)、高價(jià)值(value)和真實(shí)性(veracity)“5V”特征[2-3]的大數(shù)據(jù),集數(shù)據(jù)、技術(shù)和應(yīng)用為一體,在農(nóng)業(yè)、經(jīng)濟(jì)、貿(mào)易、氣象、交通、醫(yī)療、電力、通訊、生態(tài)、環(huán)保、軍事等領(lǐng)域取得有效應(yīng)用[4-6],為科學(xué)決策問(wèn)題提供強(qiáng)有力支撐。大數(shù)據(jù)技術(shù)對(duì)于處理超出傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)存儲(chǔ)管理與分析處理能力的多源海量數(shù)據(jù)集群,具有極其強(qiáng)大的技術(shù)優(yōu)勢(shì)[7]。
喀斯特石漠化是指在喀斯特脆弱生態(tài)環(huán)境背景下,受人類不合理社會(huì)經(jīng)濟(jì)活動(dòng)影響,導(dǎo)致地表植被大量破壞,造成強(qiáng)烈水蝕作用,土壤嚴(yán)重侵蝕,基巖大面積裸露,土地生產(chǎn)力下降甚至喪失,地表出現(xiàn)類似荒漠化景觀的土地退化現(xiàn)象[8-11]。石漠化問(wèn)題突出表現(xiàn)在生態(tài)環(huán)境脆弱、植被破壞、土壤侵蝕、基巖裸露以及土地退化,由此造成石漠化地區(qū)生物多樣性銳減、生態(tài)系統(tǒng)失調(diào)、水土流失、土壤養(yǎng)分缺失、貧困加劇的惡性循環(huán)。石漠化問(wèn)題往往涉及多部門、多學(xué)科、多尺度和多因素,過(guò)程復(fù)雜、驅(qū)動(dòng)因子眾多,需要處理海量的地質(zhì)、氣候、水文、地貌、生物、土壤等自然地理數(shù)據(jù)以及社會(huì)、經(jīng)濟(jì)等數(shù)據(jù),這為喀斯特石漠化的監(jiān)測(cè)治理、生態(tài)產(chǎn)業(yè)扶貧和決策支持等關(guān)鍵技術(shù)研發(fā)增加了較大難度。為此,國(guó)家林業(yè)和草原局呼吁建立石漠化大數(shù)據(jù)系統(tǒng),逐步實(shí)現(xiàn)石漠化變化的年度監(jiān)測(cè)[12]。中國(guó)科學(xué)院地球化學(xué)研究所已建立了喀斯特科學(xué)數(shù)據(jù)中心,提供了部分基礎(chǔ)地理數(shù)據(jù)庫(kù)、基礎(chǔ)背景數(shù)據(jù)庫(kù)、專題數(shù)據(jù)庫(kù)以及“普定站”和喀斯特槽谷石漠化專題數(shù)據(jù)等數(shù)據(jù),為開(kāi)展石漠化研究與治理提供了分析資料。億利生態(tài)大數(shù)據(jù)平臺(tái)在治沙、治水、治氣、治地和環(huán)境修復(fù)等生態(tài)建設(shè)過(guò)程中積累了大量“山水林田湖草”數(shù)據(jù),平臺(tái)為生態(tài)文明建設(shè)從政策咨詢與決策支持、環(huán)境監(jiān)管、精準(zhǔn)修復(fù)和生態(tài)治理等提供一系列、全鏈條的數(shù)據(jù)服務(wù)[13]。受中國(guó)科學(xué)院地球化學(xué)研究所喀斯特科學(xué)數(shù)據(jù)中心和億利生態(tài)大數(shù)據(jù)平臺(tái)啟發(fā),將大數(shù)據(jù)技術(shù)引入喀斯特石漠化領(lǐng)域,構(gòu)建喀斯特石漠化大數(shù)據(jù)平臺(tái),充分發(fā)揮大數(shù)據(jù)的技術(shù)優(yōu)勢(shì),高效分析和解決石漠化治理相關(guān)問(wèn)題,為喀斯特石漠化綜合治理與智能監(jiān)測(cè)、生態(tài)產(chǎn)業(yè)發(fā)展與精準(zhǔn)扶貧提供信息技術(shù)支撐和決策支持。
大數(shù)據(jù)(Big data)是指數(shù)據(jù)規(guī)模巨大,超出了傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)獲取、存儲(chǔ)、管理和分析處理能力的多源海量數(shù)據(jù)集[7,14-15]。大數(shù)據(jù)具有數(shù)據(jù)量龐大、處理速度快、數(shù)據(jù)來(lái)源及構(gòu)成復(fù)雜且關(guān)聯(lián)性強(qiáng)、數(shù)據(jù)真實(shí)感強(qiáng)等特征[2-3,7],具有很高的應(yīng)用價(jià)值。大數(shù)據(jù)既是一種數(shù)據(jù),又是一種技術(shù);既是一種應(yīng)用,又是一種思維[15],在喀斯特石漠化動(dòng)態(tài)監(jiān)測(cè)和治理決策中具有廣闊的應(yīng)用前景。
喀斯特石漠化大數(shù)據(jù)定義有廣義和狹義之分,廣義的喀斯特石漠化大數(shù)據(jù)是指與石漠化共生的地理空間的相關(guān)數(shù)據(jù)集,是石漠化物理空間到數(shù)字空間的映射和提煉。通過(guò)分析石漠化相關(guān)數(shù)據(jù)特征,提出有效應(yīng)對(duì)石漠化問(wèn)題的決策行為。狹義的喀斯特石漠化大數(shù)據(jù)是指分散在地學(xué)領(lǐng)域中的石漠化相關(guān)數(shù)據(jù)及其解決、預(yù)測(cè)、分析過(guò)去、現(xiàn)在和未來(lái)石漠化發(fā)生發(fā)展綜合防治的技術(shù)和方法,即運(yùn)用大數(shù)據(jù)理念、技術(shù)和方法,解決地學(xué)領(lǐng)域中喀斯特石漠化發(fā)生發(fā)展規(guī)律及其綜合治理等相關(guān)數(shù)據(jù)的采集、處理、存儲(chǔ)、分析、管理和應(yīng)用。石漠化大數(shù)據(jù)是運(yùn)用大數(shù)據(jù)理論和技術(shù)在喀斯特石漠化研究與治理領(lǐng)域的綜合應(yīng)用與實(shí)踐。因此,喀斯特石漠化大數(shù)據(jù)不僅包括一般大數(shù)據(jù)的基本屬性,還具有地理時(shí)空性,涉及多部門、多行業(yè)、多尺度的喀斯特石漠化相關(guān)數(shù)據(jù)內(nèi)容。其數(shù)據(jù)內(nèi)容更龐雜,服務(wù)需求更為專業(yè)性。隨著物聯(lián)網(wǎng)、傳感器、無(wú)線網(wǎng)絡(luò)技術(shù)、云計(jì)算等現(xiàn)代信息技術(shù)的發(fā)展,地理時(shí)空數(shù)據(jù)迅猛增長(zhǎng),這為石漠化大數(shù)據(jù)提供了可靠來(lái)源。
喀斯特石漠化的形成背景、演化和治理與水、大氣、生物、巖石等自然環(huán)境條件及人類活動(dòng)密切關(guān)聯(lián),是多種因素相互作用的結(jié)果。有效實(shí)施石漠化治理,需要開(kāi)展土地石漠化成因機(jī)制的研究,只有獲得喀斯特石漠化成因理論的有力支撐,才能有效地避免大規(guī)模生態(tài)重建的盲目性和風(fēng)險(xiǎn)性[16],這就使得海量數(shù)據(jù)從存儲(chǔ)管理到分析挖掘面臨巨大挑戰(zhàn)。如何協(xié)調(diào)各行業(yè)部門的利益,實(shí)現(xiàn)跨行業(yè)、跨部門的數(shù)據(jù)共享機(jī)制,解決障礙壁壘,把分散在不同學(xué)科領(lǐng)域的多來(lái)源、多種類、多尺度的石漠化相關(guān)數(shù)據(jù)進(jìn)行有效融合并集成共享,分析挖掘石漠化數(shù)據(jù)的潛在價(jià)值,提高石漠化治理能力,是石漠化大數(shù)據(jù)領(lǐng)域面臨的重要課題。當(dāng)前,我國(guó)石漠化信息有效融合與集成共享還不足,多源異構(gòu)數(shù)據(jù)管理與挖掘利用欠缺,喀斯特石漠化大數(shù)據(jù)平臺(tái)建設(shè)還面臨較大困難。
將大數(shù)據(jù)技術(shù)引入到喀斯特石漠化研究與治理領(lǐng)域,把隱藏在不同領(lǐng)域的多渠道、多種類、多尺度復(fù)雜分散的喀斯特石漠化自然地理本底數(shù)據(jù)(地質(zhì)、巖性、地貌、水文、坡度、土壤、植被等)、土地利用數(shù)據(jù)、地面監(jiān)測(cè)數(shù)據(jù)、多源遙感數(shù)據(jù)、生態(tài)產(chǎn)業(yè)數(shù)據(jù)、治理工程數(shù)據(jù)、經(jīng)濟(jì)社會(huì)數(shù)據(jù)、相關(guān)專項(xiàng)調(diào)查數(shù)據(jù)、能源結(jié)構(gòu)數(shù)據(jù)以及相關(guān)科學(xué)研究數(shù)據(jù)等海量數(shù)據(jù)有效融合集成,構(gòu)建喀斯特石漠化大數(shù)據(jù)平臺(tái),平臺(tái)界面設(shè)想如圖1所示。借助大數(shù)據(jù)技術(shù)對(duì)集成數(shù)據(jù)進(jìn)行存儲(chǔ)管理、綜合分析和信息挖掘,開(kāi)展石漠化遙感信息自動(dòng)識(shí)別與提取,多尺度立體動(dòng)態(tài)監(jiān)測(cè),多源異構(gòu)數(shù)據(jù)匯聚機(jī)制與智能模型構(gòu)建,挖掘算法的設(shè)計(jì),石漠化治理及生態(tài)產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)構(gòu)建等重大關(guān)鍵技術(shù)研發(fā),構(gòu)建以“數(shù)據(jù)-服務(wù)-價(jià)值”為核心的大數(shù)據(jù)決策支持系統(tǒng)[17],以期為高效地分析和解決石漠化治理相關(guān)問(wèn)題提供共享數(shù)據(jù),為喀斯特石漠化綜合治理與智能監(jiān)測(cè)、生態(tài)產(chǎn)業(yè)發(fā)展與精準(zhǔn)扶貧提供信息技術(shù)支撐和決策支持。
圖1 喀斯特石漠化大數(shù)據(jù)平臺(tái)登錄界面Fig.1 Login interface of big data platform for karst rocky desertification
一個(gè)完整通用的大數(shù)據(jù)平臺(tái),至少需要涵蓋數(shù)據(jù)的收集、存儲(chǔ)、計(jì)算、分析和管理等方面。為確保數(shù)據(jù)生產(chǎn)管理的安全性和存儲(chǔ)管理的需要,平臺(tái)一般基于私有云環(huán)境進(jìn)行設(shè)計(jì)與開(kāi)發(fā)。因此,喀斯特石漠化大數(shù)據(jù)平臺(tái)建設(shè)應(yīng)基于大數(shù)據(jù)系統(tǒng)框架,集物聯(lián)網(wǎng)、傳感器、無(wú)線通訊及“天空地一體化”等技術(shù)在數(shù)據(jù)采集與獲取方面的優(yōu)勢(shì),以及分布式數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、人工智能、云計(jì)算等技術(shù)在大數(shù)據(jù)處理分析方面的優(yōu)勢(shì)和大數(shù)據(jù)庫(kù)管理系統(tǒng)技術(shù)在數(shù)據(jù)管理的優(yōu)勢(shì),建設(shè)實(shí)時(shí)、穩(wěn)定、開(kāi)放、高效的應(yīng)用平臺(tái),實(shí)現(xiàn)喀斯特石漠化大數(shù)據(jù)平臺(tái)的自動(dòng)化、專業(yè)化和智能化,從而提升喀斯特石漠化風(fēng)險(xiǎn)預(yù)警預(yù)報(bào)水平,為石漠化治理和政府管理決策提供科技支撐,為從原理和機(jī)理上破解世界性生態(tài)難題提供保障。研究平臺(tái)參照一般大數(shù)據(jù)系統(tǒng)架構(gòu)從大數(shù)據(jù)平臺(tái)、基礎(chǔ)設(shè)施平臺(tái)、技術(shù)平臺(tái)、應(yīng)用服務(wù)平臺(tái)和運(yùn)維平臺(tái)5個(gè)方面設(shè)計(jì)了喀斯特石漠化大數(shù)據(jù)平臺(tái)的總體架構(gòu)(圖2)。
圖2 喀斯特石漠化大數(shù)據(jù)平臺(tái)架構(gòu)Fig.2 Architecture of big data platform for karst rocky desertification
數(shù)據(jù)源是大數(shù)據(jù)平臺(tái)的第一要素,是喀斯特石漠化大數(shù)據(jù)平臺(tái)建設(shè)的關(guān)鍵支撐。如何增強(qiáng)數(shù)據(jù)采集與獲取能力,有效集成并融合石漠化各類相關(guān)數(shù)據(jù),是構(gòu)建喀斯特石漠化大數(shù)據(jù)平臺(tái)的前提和基礎(chǔ)??λ固厥瘮?shù)據(jù)類型多樣,不僅包括自然地理環(huán)境本底數(shù)據(jù)、土地利用現(xiàn)狀數(shù)據(jù)、實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)、多源遙感數(shù)據(jù),還包括石漠化生態(tài)產(chǎn)業(yè)數(shù)據(jù)、社會(huì)經(jīng)濟(jì)調(diào)查數(shù)據(jù)、能源結(jié)構(gòu)分布數(shù)據(jù)、專項(xiàng)調(diào)查數(shù)據(jù)、石漠化治理工程數(shù)據(jù)、科學(xué)研究數(shù)據(jù)、監(jiān)測(cè)站水文站等收集的數(shù)據(jù),并且這些數(shù)據(jù)分布在自然資源、地質(zhì)、發(fā)改、規(guī)劃、農(nóng)業(yè)、林業(yè)、統(tǒng)計(jì)、氣象、水利、能源、科研院所等眾多部門。例如,地理本底數(shù)據(jù)中包含有地形、地貌、水文、洞穴分布、土壤、巖性、植被等也分屬在不同部門;土地利用現(xiàn)狀數(shù)據(jù)、各類遙感影像及解譯數(shù)據(jù)、水土流失等國(guó)土數(shù)據(jù);各地面氣象站、氣象衛(wèi)星、氣象雷達(dá)等監(jiān)測(cè)的氣象數(shù)據(jù);石漠化治理的工程布局?jǐn)?shù)據(jù)、治理產(chǎn)業(yè)布局、農(nóng)林草生態(tài)工程數(shù)據(jù)等各類工程數(shù)據(jù);石漠化區(qū)石漠化現(xiàn)狀等級(jí)、土壤養(yǎng)分、理化性質(zhì)及野外調(diào)查數(shù)據(jù)等各類科研數(shù)據(jù)。疊加社會(huì)、經(jīng)濟(jì)等人文要素,再考慮1 a、10 a、30 a、50 a不同時(shí)間尺度,全球、國(guó)家、縣域、小流域不同空間尺度,從而形成了多源異構(gòu)、時(shí)空交替、復(fù)雜非線性的海量數(shù)據(jù)。
隨著物聯(lián)網(wǎng)、5G技術(shù)及“天空地一體化”技術(shù)發(fā)展,喀斯特石漠化數(shù)據(jù)來(lái)源將不斷擴(kuò)展,多媒體、各類APP數(shù)據(jù)、地理位置數(shù)據(jù)、文字短報(bào)數(shù)據(jù)、各類傳感器設(shè)備采集數(shù)據(jù)等也成為喀斯特石漠化數(shù)據(jù)來(lái)源的新渠道。大數(shù)據(jù)時(shí)代,喀斯特石漠化數(shù)據(jù)的空間分布范圍更廣、時(shí)效性更強(qiáng)、數(shù)據(jù)量更大、內(nèi)容更龐雜,這對(duì)石漠化大數(shù)據(jù)的采集獲取、存儲(chǔ)管理及處理分析等提出了更高要求[7]。
作為大數(shù)據(jù)平臺(tái)的運(yùn)行基礎(chǔ),基礎(chǔ)設(shè)施平臺(tái)為喀斯特石漠化大數(shù)據(jù)平臺(tái)提供堅(jiān)強(qiáng)的軟硬件支撐?;A(chǔ)設(shè)施平臺(tái)中硬件資源就包括處理數(shù)據(jù)的計(jì)算機(jī)、通信網(wǎng)絡(luò)和存儲(chǔ)設(shè)備,軟件資源包括操作系統(tǒng)、數(shù)據(jù)庫(kù)管理系統(tǒng)以及中間件等[7]??λ固厥髷?shù)據(jù)基礎(chǔ)設(shè)施平臺(tái)從物理資源層和虛擬資源層進(jìn)行建設(shè)。物理資源層是大數(shù)據(jù)平臺(tái)架構(gòu)的最底層,由通用服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)設(shè)備(交換機(jī)、路由器)組成;虛擬層由虛擬機(jī)、虛擬化工具、虛擬服務(wù)和虛擬化應(yīng)用組成,通過(guò)虛擬化工具把物理層設(shè)備變成全局統(tǒng)一的虛擬資源池,供上層服務(wù)調(diào)取使用,用戶無(wú)需購(gòu)買相關(guān)硬件設(shè)備和系統(tǒng)軟件,直接在虛擬化資源平臺(tái)上構(gòu)建自己的平臺(tái)和應(yīng)用,按各自需求對(duì)資源進(jìn)行動(dòng)態(tài)管理和分配,從而實(shí)現(xiàn)對(duì)喀斯特石漠化數(shù)據(jù)資源的高效利用[18]。
技術(shù)平臺(tái)是喀斯特石漠化大數(shù)據(jù)平臺(tái)的內(nèi)核,包括數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)計(jì)算和數(shù)據(jù)分析4個(gè)基本連續(xù)模塊,如圖3。利用上述基礎(chǔ)設(shè)施平臺(tái),依托現(xiàn)代先進(jìn)的數(shù)據(jù)采集、存儲(chǔ)和處理技術(shù),構(gòu)建數(shù)據(jù)采集與處理、存儲(chǔ)與管理、計(jì)算與分析等一系列的工具模塊對(duì)多源異構(gòu)的喀斯特石漠化數(shù)據(jù)進(jìn)行預(yù)處理、標(biāo)準(zhǔn)化、存儲(chǔ)管理和計(jì)算分析,從而形成整個(gè)大數(shù)據(jù)平臺(tái)的技術(shù)核心[19],為喀斯特石漠化大數(shù)據(jù)應(yīng)用服務(wù)平臺(tái)的建設(shè)提供前期保障和技術(shù)支撐。
圖3 喀斯特石漠化大數(shù)據(jù)技術(shù)平臺(tái)Fig.3 Technology platform of big data for karst rocky desertification
3.3.1 數(shù)據(jù)獲取
喀斯特石漠化大數(shù)據(jù)的數(shù)據(jù)源包括用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)方式記錄的結(jié)構(gòu)化數(shù)據(jù),有可識(shí)別的模式并可以解析的文本數(shù)據(jù)文件、來(lái)自傳感器記錄的自描述的文本方式記錄的半結(jié)構(gòu)化數(shù)據(jù),還有語(yǔ)音、圖像和視頻等格式的非結(jié)構(gòu)化數(shù)據(jù)以及具有不規(guī)則數(shù)據(jù)格式的文本數(shù)據(jù),使用工具可以使之格式化的準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)獲取就是通過(guò)不同方式、不同渠道獲取的數(shù)據(jù)源進(jìn)行傳輸、預(yù)處理、再挖掘和集成操作的過(guò)程。
3.3.1.1 數(shù)據(jù)采集
數(shù)據(jù)采集就是搜集符合數(shù)據(jù)挖掘要求的原始數(shù)據(jù)[14-15]。數(shù)據(jù)采集在大數(shù)據(jù)研究與應(yīng)用極為重要。數(shù)據(jù)采集工作做得好,大數(shù)據(jù)集成、分析與管理工作才能有序進(jìn)行[20]。根據(jù)采集數(shù)據(jù)的類型可以分為不同的采集方式,主要有傳感器采集、網(wǎng)絡(luò)數(shù)據(jù)采集、系統(tǒng)日志采集以及其他數(shù)據(jù)采集[7,14,17]等??λ固厥鷳B(tài)環(huán)境數(shù)據(jù)采集最常用、操作簡(jiǎn)單的手段就是通過(guò)傳感器采集,外業(yè)科技人員利用無(wú)線或有線傳感器設(shè)備采集了大量的地質(zhì)災(zāi)害調(diào)查、石漠化治理監(jiān)測(cè)、生態(tài)環(huán)境監(jiān)測(cè)與調(diào)查、植被監(jiān)測(cè)和水土流失監(jiān)測(cè)等,常用的土壤溫濕度、空氣溫濕度、雨量、光照傳感器等都是生態(tài)環(huán)境監(jiān)測(cè)的必配;網(wǎng)絡(luò)數(shù)據(jù)采集主要針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的采集,是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具或網(wǎng)頁(yè)公開(kāi)的API從各類網(wǎng)頁(yè)上獲取的非結(jié)構(gòu)數(shù)據(jù),并以結(jié)構(gòu)化的方式存儲(chǔ)到統(tǒng)一的本地?cái)?shù)據(jù)文件。對(duì)于網(wǎng)絡(luò)流量的采集還可以使用DPI或DFI等帶寬管理技術(shù)進(jìn)行處理。Apache的Chukwa、Cloudera的Flume、Facebook的Scribe和Linkedin的Kafka等[17,19,21]均采用系統(tǒng)日志采集,也是大多數(shù)互聯(lián)網(wǎng)企業(yè)[21]對(duì)海量數(shù)據(jù)采集的主要工具。另外,國(guó)家規(guī)定的保密性數(shù)據(jù),必須按照國(guó)家信息技術(shù)大數(shù)據(jù)安全相關(guān)標(biāo)準(zhǔn)嚴(yán)格遵守保密規(guī)定;對(duì)于企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或科學(xué)研究數(shù)據(jù)等保密性數(shù)據(jù),通過(guò)簽訂保密協(xié)議、技術(shù)合作或有償購(gòu)買服務(wù),在遵守國(guó)家數(shù)據(jù)保密相關(guān)標(biāo)準(zhǔn)和數(shù)據(jù)保護(hù)知識(shí)產(chǎn)權(quán)的情況下,采用使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù),確保數(shù)據(jù)的安全性。
3.3.1.2 數(shù)據(jù)傳輸
數(shù)據(jù)傳輸就是把數(shù)據(jù)從本地傳送到其他地方的通信過(guò)程。采集完成后的源數(shù)據(jù)被送到數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施存儲(chǔ),然后對(duì)其進(jìn)行計(jì)算、分析和挖掘處理。采集的源數(shù)據(jù)通過(guò)無(wú)線或有線網(wǎng)絡(luò)傳輸?shù)綌?shù)據(jù)中心,數(shù)據(jù)中心內(nèi)部間通過(guò)高容量的光纖線路實(shí)現(xiàn)多個(gè)中心之間的海量數(shù)據(jù)傳輸、共享和備份存儲(chǔ),最終完成大數(shù)據(jù)的輸送過(guò)程。
3.3.1.3 數(shù)據(jù)預(yù)處理
沒(méi)有高質(zhì)量的數(shù)據(jù)就沒(méi)有高質(zhì)量的數(shù)據(jù)挖掘結(jié)果。由于原始數(shù)據(jù)可能存在的不完整、含噪聲和不一致等問(wèn)題。因此,需要對(duì)數(shù)據(jù)進(jìn)行必要的預(yù)處理。數(shù)據(jù)預(yù)處理是指在數(shù)據(jù)深度挖掘前,對(duì)原始數(shù)據(jù)進(jìn)行必要的清洗、集成、轉(zhuǎn)換、離散和歸約等一系列的處理工作,從而達(dá)到數(shù)據(jù)分析算法和工具所要求的最低規(guī)范和標(biāo)準(zhǔn)[22]。數(shù)據(jù)預(yù)處理的目的就是填補(bǔ)數(shù)據(jù)殘缺、糾正數(shù)據(jù)錯(cuò)誤、去除數(shù)據(jù)冗余,將所需數(shù)據(jù)抽取出來(lái)進(jìn)行有效集成融合,并將數(shù)據(jù)轉(zhuǎn)換為所要求的格式,從而達(dá)到數(shù)據(jù)類型和格式標(biāo)準(zhǔn)統(tǒng)一、數(shù)據(jù)存儲(chǔ)集中[23-26]。大數(shù)據(jù)預(yù)處理包括從數(shù)據(jù)清洗[23-24]、數(shù)據(jù)集成[24-26]、數(shù)據(jù)歸約、數(shù)據(jù)變換和數(shù)據(jù)離散化的處理步驟。
3.3.2 數(shù)據(jù)存儲(chǔ)與管理
數(shù)據(jù)存儲(chǔ)與管理是喀斯特石漠化大數(shù)據(jù)技術(shù)平臺(tái)的基礎(chǔ),它對(duì)于數(shù)據(jù)后期的計(jì)算、統(tǒng)計(jì)分析和應(yīng)用決策具有重要作用。為保護(hù)數(shù)據(jù)存儲(chǔ)的安全和提供數(shù)據(jù)的持續(xù)可用性,需建立能應(yīng)付各種災(zāi)難環(huán)境的數(shù)據(jù)容災(zāi)系統(tǒng),從而滿足隨著存儲(chǔ)量的增加而提供水平擴(kuò)展,以及后續(xù)多種信息分析和提取算法對(duì)數(shù)據(jù)的不同需求??λ固厥髷?shù)據(jù)的數(shù)據(jù)存儲(chǔ)采用分布式的存儲(chǔ)方式,數(shù)據(jù)的元信息保存和查詢以NoSQL為主,其存儲(chǔ)管理包括文件系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)兩類。數(shù)據(jù)倉(cāng)庫(kù)作為一個(gè)數(shù)據(jù)庫(kù)集合,選擇合適的用于海量數(shù)據(jù)存儲(chǔ)與管理的數(shù)據(jù)倉(cāng)庫(kù)是非常關(guān)鍵的。
3.3.3 數(shù)據(jù)計(jì)算模式
傳統(tǒng)的計(jì)算技術(shù)不能滿足大數(shù)據(jù)時(shí)代計(jì)算的需求。因此,有必要建立一種能夠處理海量數(shù)據(jù)的大數(shù)據(jù)計(jì)算模式,以滿足大數(shù)據(jù)技術(shù)的處理要求。目前,大數(shù)據(jù)技術(shù)的計(jì)算模式包括針對(duì)靜態(tài)數(shù)據(jù)的批量處理,針對(duì)在線數(shù)據(jù)的流式處理,實(shí)時(shí)交互處理以及針對(duì)圖數(shù)據(jù)的綜合處理等4種[26]。其中,重要的圖數(shù)據(jù)在喀斯特石漠化領(lǐng)域已取得廣泛應(yīng)用,包括喀斯特石漠化的地質(zhì)地貌、地層巖性、氣象水文等圖片數(shù)據(jù),以及像無(wú)人機(jī)、航空航天的遙感平臺(tái)獲取數(shù)據(jù)等。圖數(shù)據(jù)計(jì)算模式在喀斯特石漠化大數(shù)據(jù)平臺(tái)構(gòu)建中,具有廣闊應(yīng)用前景和重要現(xiàn)實(shí)意義。
3.3.4 數(shù)據(jù)分析
數(shù)據(jù)分析是數(shù)據(jù)處理流程的核心。大數(shù)據(jù)最主要的特征就是多源異構(gòu),多源是指數(shù)據(jù)的來(lái)源廣,數(shù)據(jù)量大,隨著“天空地一體化”加快發(fā)展,海量數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng);異構(gòu)是指數(shù)據(jù)的類型和特征不一致。數(shù)據(jù)分析過(guò)程是逐層抽象、降維、概括和解讀的過(guò)程。目前,大數(shù)據(jù)分析常用的方法有統(tǒng)計(jì)分析、深度挖掘、人工智能、人機(jī)交互、機(jī)器學(xué)習(xí)、可視化分析等[7,21,27]。統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和人工智能是大數(shù)據(jù)分析的基礎(chǔ),人機(jī)交互技術(shù)、機(jī)器學(xué)習(xí)和可視化分析是大數(shù)據(jù)分析的關(guān)鍵技術(shù)。結(jié)合喀斯特石漠化大數(shù)據(jù)特點(diǎn),簡(jiǎn)要介紹以下幾種大數(shù)據(jù)分析方法在大數(shù)據(jù)平臺(tái)構(gòu)建中的應(yīng)用。
3.3.4.1 統(tǒng)計(jì)分析
數(shù)據(jù)的核心價(jià)值在于數(shù)據(jù)間的相互關(guān)聯(lián),數(shù)據(jù)間關(guān)聯(lián)性越強(qiáng),數(shù)據(jù)越有價(jià)值。剖析數(shù)據(jù)間的數(shù)理關(guān)系,挖掘數(shù)據(jù)間的潛在價(jià)值,是大數(shù)據(jù)分析應(yīng)用的關(guān)鍵[7]。統(tǒng)計(jì)分析是大數(shù)據(jù)分析中最常用的技術(shù),通常包括線性分析、聚類分析、時(shí)間序列分析、回歸分析和主成分分析等方法??λ固厥髷?shù)據(jù)不僅具有一般數(shù)據(jù)的特性,還具有地理時(shí)空數(shù)據(jù)特征,石漠化在地理空間上的分布特征與時(shí)間動(dòng)態(tài)變化分析都離不開(kāi)空間分析技術(shù)。各類統(tǒng)計(jì)分析和空間分析軟件如SPSS和SAS、地理信息軟件的空間分析模塊如Arc GIS的Spatial Analyst等開(kāi)發(fā)應(yīng)用,為解決石漠化相關(guān)原理問(wèn)題提供有力的技術(shù)支撐。
3.3.4.2 深度挖掘
統(tǒng)計(jì)分析和軟件技術(shù)為大數(shù)據(jù)平臺(tái)的信息挖掘提供了強(qiáng)有力手段,但對(duì)于解決成因復(fù)雜的石漠化問(wèn)題遠(yuǎn)遠(yuǎn)不夠。相比其他領(lǐng)域,石漠化相關(guān)研究需要更專業(yè)的技術(shù)和服務(wù)來(lái)提高數(shù)據(jù)分析挖掘能力。石漠化發(fā)生、演化及驅(qū)動(dòng)機(jī)制和潛在影響因素,均需要過(guò)程模型和大數(shù)據(jù)的結(jié)合才能揭示石漠化發(fā)生發(fā)展及動(dòng)態(tài)變化過(guò)程。通過(guò)石漠化發(fā)生發(fā)展驅(qū)動(dòng)機(jī)制,將石漠化過(guò)程模型、石漠化發(fā)展模型、石漠化治理模型和石漠化治理模式與大量地面監(jiān)測(cè)數(shù)據(jù)的融合,提高模型的模擬精度,從而揭示石漠化過(guò)程的演變機(jī)制,探尋石漠化治理的最佳方式。
3.3.4.3 人工智能
人工智能是指對(duì)人的意識(shí)和思維的信息過(guò)程的模擬,更要超過(guò)人的智能[28]。通過(guò)近30 a來(lái)從石漠化概念的提出到石漠化形成、演化及其機(jī)理的深入研究,已積累了許多科學(xué)的研究方法和成功的石漠化治理模式與技術(shù)。在喀斯特石漠化大數(shù)據(jù)平臺(tái)的基礎(chǔ)上,利用計(jì)算機(jī)學(xué)習(xí)石漠化領(lǐng)域的相關(guān)理論、治理模式和專家知識(shí),建立各類石漠化治理模型庫(kù)和知識(shí)庫(kù),實(shí)現(xiàn)石漠化大數(shù)據(jù)平臺(tái)的智能化應(yīng)用,從而提高石漠化治理水平和能力。
3.3.4.4 人機(jī)交互與可視化
人機(jī)交互是人與計(jì)算機(jī)或智能空間的通信過(guò)程,可視化是對(duì)數(shù)據(jù)進(jìn)行分析的有效手段??梢暬夹g(shù)通過(guò)交互可視界面,使數(shù)據(jù)分析過(guò)程透明化。精簡(jiǎn)和梳理復(fù)雜數(shù)據(jù)流,幫助用戶高效篩選數(shù)據(jù),從復(fù)雜數(shù)據(jù)流中獲得新發(fā)現(xiàn),分享新經(jīng)驗(yàn)??梢暬治鰧⑷说慕?jīng)驗(yàn)智慧與機(jī)器的運(yùn)算能力緊密結(jié)合,可視化結(jié)果搭建起人與機(jī)器合作的橋梁。大數(shù)據(jù)分析最終目的就是讓用戶看到統(tǒng)計(jì)分析的結(jié)果,文圖表相結(jié)合,解決用戶的需求和問(wèn)題,做到服務(wù)于用戶。
喀斯特石漠化的應(yīng)用服務(wù)是指通過(guò)不同渠道、不同方式,直接或間接地將有價(jià)值的石漠化資源信息提供給政府機(jī)構(gòu)、科研院所及行業(yè)主管部門等用戶,實(shí)現(xiàn)石漠化信息利用、信息傳播、科研交流和其他社會(huì)價(jià)值服務(wù),全面展現(xiàn)我國(guó)喀斯特石漠化空間分布及動(dòng)態(tài)變化以及治理現(xiàn)狀和成效,綜合揭示石漠化發(fā)生的內(nèi)外因變化規(guī)律和原理,為喀斯特石漠化的綜合治理、石漠化衍生產(chǎn)業(yè)發(fā)展和社會(huì)公眾等提供全面準(zhǔn)確的石漠化相關(guān)信息資源。服務(wù)平臺(tái)的建設(shè)重在應(yīng)用,提供喀斯特石漠化大數(shù)據(jù)應(yīng)用服務(wù)是構(gòu)建和發(fā)展喀斯特石漠化大數(shù)據(jù)平臺(tái)的最終目的?;诖髷?shù)據(jù)技術(shù),可以為用戶提供石漠化數(shù)據(jù)查詢和下載、專題分析、石漠化風(fēng)險(xiǎn)評(píng)估、政府決策支持、石漠化治理推薦模式,以及為政府機(jī)構(gòu)、企事業(yè)單位、科研院所和公眾等提供相關(guān)石漠化公共業(yè)務(wù)需求服務(wù)。政府機(jī)構(gòu)通過(guò)掌握喀斯特石漠化大數(shù)據(jù)科學(xué)分析的結(jié)果,定期向社會(huì)發(fā)布區(qū)域石漠化現(xiàn)狀公報(bào),提出本階段石漠化治理任務(wù)、實(shí)施石漠化治理工程和生態(tài)措施、發(fā)展石漠化治理生態(tài)產(chǎn)業(yè),建立石漠化綜合治理體系,從而提高石漠化治理的信息化、產(chǎn)業(yè)化水平以及預(yù)警石漠化風(fēng)險(xiǎn)能力。企事業(yè)單位利用石漠化大數(shù)據(jù)平臺(tái)挖掘新的知識(shí)信息,創(chuàng)造更多的社會(huì)價(jià)值??蒲性核柚λ固厥髷?shù)據(jù)平臺(tái),可以獲得更多的石漠化信息資源和數(shù)據(jù)成果,更好地開(kāi)展基礎(chǔ)性的、前瞻性、科學(xué)性的機(jī)理機(jī)制等研究工作,為石漠化大數(shù)據(jù)平臺(tái)建設(shè)提供方向性、技術(shù)性指導(dǎo),加快推進(jìn)平臺(tái)建設(shè),為全國(guó)性石漠化治理整體推進(jìn)、產(chǎn)業(yè)發(fā)展與鄉(xiāng)村振興提供前瞻性技術(shù)服務(wù)。公眾是大數(shù)據(jù)平臺(tái)服務(wù)的最終對(duì)象,基于喀斯特石漠化平臺(tái)建立高效的公共服務(wù)體系,更好地發(fā)揮石漠化治理數(shù)據(jù)資源對(duì)各類經(jīng)濟(jì)社會(huì)活動(dòng)的服務(wù)作用。
運(yùn)維就是后臺(tái)對(duì)數(shù)據(jù)進(jìn)行管理和維護(hù),能夠有效監(jiān)控系統(tǒng)的安全態(tài)勢(shì),為安全決策提供數(shù)據(jù)支持[29]。隨著大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)種類多、數(shù)據(jù)量大、系統(tǒng)復(fù)雜,維護(hù)量大,大數(shù)據(jù)運(yùn)維面臨巨大挑戰(zhàn)。石漠化大數(shù)據(jù)運(yùn)維平臺(tái)主要是對(duì)大數(shù)據(jù)采集的運(yùn)維、基礎(chǔ)設(shè)施的運(yùn)維、整個(gè)系統(tǒng)的運(yùn)維、監(jiān)控告警分析和安全管理等。數(shù)據(jù)采集的運(yùn)維主要是對(duì)系統(tǒng)的日常監(jiān)控、數(shù)據(jù)備份和監(jiān)控以及報(bào)警、故障的處理等;基礎(chǔ)設(shè)施的運(yùn)維是對(duì)基礎(chǔ)設(shè)施平臺(tái)設(shè)備和網(wǎng)絡(luò)的健康和異常狀態(tài)的監(jiān)控維護(hù)及應(yīng)用服務(wù)的管理;大數(shù)據(jù)系統(tǒng)監(jiān)控告警分析和安全管理的運(yùn)維是對(duì)平臺(tái)運(yùn)行過(guò)程中的系統(tǒng)配置管理、故障管理、安全管理、性能管理、應(yīng)用變更管理及服務(wù)資源管理,并作出響應(yīng)和運(yùn)營(yíng)分析。
喀斯特石漠化大數(shù)據(jù)平臺(tái)需要專業(yè)的計(jì)算機(jī)、地理學(xué)、地質(zhì)學(xué)、數(shù)學(xué)、生態(tài)學(xué)和地理信息系統(tǒng)方面的專業(yè)人才共同打造建設(shè),這對(duì)石漠化大數(shù)據(jù)的分析、管理、決策、更新、維護(hù)提出更高要求。
分析了喀斯特石漠化大數(shù)據(jù)的定義,提出喀斯特石漠化大數(shù)據(jù)平臺(tái)構(gòu)建的初步構(gòu)想。通過(guò)大數(shù)據(jù)平臺(tái)、基礎(chǔ)設(shè)施平臺(tái)、技術(shù)平臺(tái)、應(yīng)用服務(wù)平臺(tái)和運(yùn)維平臺(tái)的搭建,初步完成喀斯特石漠化大數(shù)據(jù)平臺(tái)的總體架構(gòu)。目前,平臺(tái)正在組建中,平臺(tái)獲取的喀斯特石漠化相關(guān)數(shù)據(jù)量約100 TB,相比大數(shù)據(jù)技術(shù)要求還遠(yuǎn)遠(yuǎn)不夠,主要涵蓋了遙感影像、地層巖性、地形地貌、石漠化解譯、土地利用、水文氣象、植被、土壤、產(chǎn)業(yè)及地面監(jiān)測(cè)數(shù)據(jù)等方面。加強(qiáng)大數(shù)據(jù)產(chǎn)業(yè)鏈建設(shè),促進(jìn)大數(shù)據(jù)的應(yīng)用創(chuàng)新,實(shí)現(xiàn)石漠化大數(shù)據(jù)跨平臺(tái)跨領(lǐng)域協(xié)同發(fā)展,使大數(shù)據(jù)真正成為提高石漠化監(jiān)測(cè)和綜合治理的信息化手段,是我們建設(shè)喀斯特石漠化大數(shù)據(jù)應(yīng)用平臺(tái)的最終目標(biāo)。建設(shè)實(shí)時(shí)、開(kāi)放、高效的石漠化大數(shù)據(jù)應(yīng)用平臺(tái),實(shí)現(xiàn)“天空地一體”數(shù)據(jù)與人工智能的有機(jī)結(jié)合,從海量的、雜亂的、無(wú)序的數(shù)據(jù)和信息中深度挖掘那些隱含的、不為人知的信息和知識(shí),發(fā)現(xiàn)那些對(duì)石漠化生態(tài)治理至關(guān)重要的知識(shí)、智能和智慧,研究石漠化發(fā)生發(fā)展演變與地形地貌、植被覆蓋、土地利用、土壤類型、海拔坡度、氣象水文之間的關(guān)系規(guī)律和模型,從機(jī)制機(jī)理上破解石漠化生態(tài)科學(xué)難題。爭(zhēng)取通過(guò)各方面的努力早日實(shí)現(xiàn)喀斯特石漠化大數(shù)據(jù)平臺(tái)上線應(yīng)用,為石漠化綜合治理和監(jiān)測(cè)預(yù)警提供平臺(tái)應(yīng)用和技術(shù)支撐。
數(shù)據(jù)量的大小是喀斯特石漠化大數(shù)據(jù)平臺(tái)分析處理的關(guān)鍵。如何協(xié)調(diào)各行業(yè)部門的利益,把分散隱藏在不同領(lǐng)域的多學(xué)科、多來(lái)源、多種類、多尺度的石漠化相關(guān)數(shù)據(jù)有效融合并集成共享,是建設(shè)喀斯特石漠化大數(shù)據(jù)平臺(tái)的基礎(chǔ)。我國(guó)跨行業(yè)、跨部門的數(shù)據(jù)共享機(jī)制還未成熟,仍存在很大障礙壁壘,集成海量數(shù)據(jù)去探尋隱藏在數(shù)據(jù)中的相關(guān)性,揭示石漠化演變規(guī)律和內(nèi)在機(jī)制。當(dāng)前,我國(guó)石漠化數(shù)據(jù)共享機(jī)制還不完善,如何在石漠化治理空間數(shù)據(jù)獲取與聚合方法、表征模型、信息提取與知識(shí)發(fā)現(xiàn)機(jī)理研究的基礎(chǔ)上開(kāi)展大數(shù)據(jù)挖掘算法、多源異構(gòu)數(shù)據(jù)匯聚機(jī)制和模型的構(gòu)建等重大關(guān)鍵技術(shù)研發(fā)[14-15],實(shí)現(xiàn)喀斯特石漠化大數(shù)據(jù)平臺(tái)及決策支持系統(tǒng)的推廣,是當(dāng)前亟需解決的難題。