亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)技術的水情云數(shù)據(jù)中心設計與研究

        2019-02-27 03:43:26邱超許金濤元曉華
        浙江大學學報(理學版) 2019年1期

        邱超,許金濤,元曉華

        (1.浙江省水文局,浙江杭州310009;2.浙江大學環(huán)境與資源學院農業(yè)遙感與信息技術應用研究所,浙江杭州310058)

        隨著浙江省水情信息化建設的大力推進,全省水情數(shù)據(jù)量已擴展到TB/PB級,包括地形地理數(shù)據(jù)、水利工情數(shù)據(jù)、高頻次海量遙測及人工的實時與歷史水雨情數(shù)據(jù)、水文預測預報數(shù)據(jù)等結構化數(shù)據(jù)和遙感圖像、重要河道斷面圖像視頻、水文分析總結成果文檔等非結構化數(shù)據(jù)兩類。傳統(tǒng)的數(shù)據(jù)采集和存儲管理方式已不適應當前對應用數(shù)據(jù)的需求。從應用角度看,水情數(shù)據(jù)是水利防汛的重要信息來源。隨著“以人為本”防汛理念的提出,對防汛的要求日益提高,特別是近幾年極端氣候頻發(fā),河流源短流急,小流域山洪具有突發(fā)性、水量集中流速大、沖刷破壞力強等特點[1],勢必對水情數(shù)據(jù)管理系統(tǒng)的運行效率有更高的要求。全國大數(shù)據(jù)戰(zhàn)略的提出,為水情大數(shù)據(jù)中心的建設提供了很好的發(fā)展契機,相關技術也已相對成熟[2-3]。充分運用成熟的大數(shù)據(jù)存儲、管理、挖掘分析技術,建設水情云數(shù)據(jù)中心,為后續(xù)水情信息的信息化推進及數(shù)據(jù)挖掘共享提供強大的動力。

        1 國內外研究進展

        近年來,遙感、遙測等信息收集技術在水文領域的快速發(fā)展與大量應用,極大豐富了水情數(shù)據(jù)的時間尺度、空間尺度以及數(shù)據(jù)類型,水情數(shù)據(jù)量急劇膨脹,種類趨向多元化。

        水情數(shù)據(jù)中心用于管理的這些高頻異構水情數(shù)據(jù),是搭建水信息資源共享環(huán)境與服務體系的核心,亦是推動我國水利行業(yè)精細化、現(xiàn)代化管理的必要條件。早在2008年初,水利部便印發(fā)了《水利數(shù)據(jù)中心建設指導意見》,制定了《國家水利數(shù)據(jù)中心建設基本技術要求》。如今,各地水利數(shù)據(jù)中心建設成績斐然。

        廣東省水利數(shù)據(jù)中心作為國內首個省級水利數(shù)據(jù)中心,建立了存儲結構化數(shù)據(jù)的25類數(shù)據(jù)庫、存儲非結構化數(shù)據(jù)的分塊云存儲和多級元數(shù)據(jù)存儲,整合了各類信息資源數(shù)據(jù)記錄和GIS圖層水利數(shù)據(jù)專題要素,實現(xiàn)了全省的數(shù)據(jù)交換共享平臺。統(tǒng)一的數(shù)據(jù)標準、標準的服務模塊與接口、高效的水情數(shù)據(jù)處理及發(fā)布共享,極大提高了廣東省水利工作的效率,同時也形成了豐富的成果[4-5]。吉林省為建設水情數(shù)據(jù)中心,規(guī)范全省水情數(shù)據(jù)的統(tǒng)一標準、統(tǒng)一格式、統(tǒng)一管理,初步做到了水情數(shù)據(jù)的互聯(lián)互通和資源共享[6]。山東省水情數(shù)據(jù)中心將運營管理平臺部署在云服務器上,云平臺為數(shù)據(jù)中心分配虛擬機,并為應用系統(tǒng)建設分配數(shù)據(jù)庫和數(shù)據(jù)庫容量,創(chuàng)建中心文檔庫,存儲非結構化數(shù)據(jù)[7]。

        目前,研究者已著于從技術層面優(yōu)化水情數(shù)據(jù)中心的架構和部署。馬澤生等[8]圍繞低碳能效型水情數(shù)據(jù)中心的建設,利用虛擬化技術整合服務器、存儲器、網絡等基礎設施,將水情數(shù)據(jù)中心的利用率提高至80%以上。吳涵宇等[9]采用物理遷移與邏輯遷移的方式匯集異構的、分布式水情數(shù)據(jù),并以GIS空間數(shù)據(jù)為框架,通過統(tǒng)一的數(shù)據(jù)模型和對象編碼,構建物理集中與邏輯映射相結合的數(shù)據(jù)庫群,對數(shù)據(jù)中心的數(shù)據(jù)資源進行管理和維護。王海峰[10]探索了物聯(lián)網、虛擬化和云計算等技術在寧夏水利數(shù)據(jù)中心的應用。陳德清等[11]將網格技術用于水利數(shù)據(jù)中心的異構數(shù)據(jù)庫的數(shù)據(jù)集成,實現(xiàn)了分散數(shù)據(jù)的集成訪問和應用。胡金龍等[12]對水情數(shù)據(jù)中心的數(shù)據(jù)交互以及應用服務技術做了研究,為異構數(shù)據(jù)庫之間頻繁的數(shù)據(jù)匯集問題、數(shù)據(jù)中心不同用戶節(jié)點的數(shù)據(jù)共享問題等設計了解決方案。龔琪慧等[13]總結了水利大數(shù)據(jù)架構、實時數(shù)據(jù)處理和元數(shù)據(jù)等關鍵技術,提出了傳統(tǒng)關系型數(shù)據(jù)庫與分布式文件系統(tǒng)相結合的水利數(shù)據(jù)中心架構。楊楚驊[14]以廣州市水利數(shù)據(jù)中心建設為例,提出了基于面向服務架構的水利地理信息數(shù)據(jù)中心的建設思路,給出了水情數(shù)據(jù)的整合與共享建議。

        存儲、處理、分析高頻且異構的水情數(shù)據(jù)并不容易,傳統(tǒng)的數(shù)據(jù)倉庫等技術均無法勝任。過去10年,大數(shù)據(jù)技術在數(shù)據(jù)存儲、分發(fā)、查詢和分析上取得了重大進展。計算機及數(shù)據(jù)領域的學者開發(fā)了許多工具,用于操控大型數(shù)據(jù)集。例如穩(wěn)定地匯集和傳輸海量異構的數(shù)據(jù)、快捷地查詢數(shù)據(jù)、高效地分析發(fā)布數(shù)據(jù)等。SHAFIEE等[15]將大數(shù)據(jù)技術用于水情系統(tǒng)中的水情數(shù)據(jù)匯集和分析模塊,并對數(shù)據(jù)中心的高效自動化數(shù)據(jù)匯集以及異構數(shù)據(jù)的建模進行了展望。HU等[16]使用基于Hadoop的云計算技術和基于多項式混沌擴展的方差分解方法,利用大量大規(guī)模的水文模型和異構水情數(shù)據(jù),評估流域地下水位的下降程度,計算和處理速度較傳統(tǒng)方法提升了500倍。

        將大數(shù)據(jù)、云平臺等技術運用于水情數(shù)據(jù)中心,是國內外水文行業(yè)研究和應用的熱點。本文研究了先進的分布式水情數(shù)據(jù)采集技術、智能數(shù)據(jù)過濾技術、大數(shù)據(jù)存儲技術,以浙江省為研究區(qū)域,將分散的水情數(shù)據(jù)進行整合,實現(xiàn)對水情大數(shù)據(jù)的質量控制、深度挖掘和高效共享,以滿足水利業(yè)務和事務的現(xiàn)代化發(fā)展需要。

        2 浙江省水情數(shù)據(jù)現(xiàn)狀

        目前,浙江省水情數(shù)據(jù)中心總數(shù)據(jù)量已達PB級,日處理數(shù)據(jù)量在TB級以上,主要包括以下幾方面數(shù)據(jù):

        2.1 全省高精度的地形、地理數(shù)據(jù)

        全省地形、地理數(shù)據(jù)主要包括:全省萬分之一的地形數(shù)據(jù)(局部地區(qū)分辨率達100 m)、高精度的河道數(shù)據(jù)、水情站點及水利工程分布數(shù)據(jù)、行政區(qū)劃數(shù)據(jù)、地形數(shù)據(jù)等,總數(shù)據(jù)量達到TB級。

        2.2 高頻次海量實時遙測水雨情數(shù)據(jù)

        遙測站點的數(shù)量、采集頻次及要素均發(fā)生了質的變化:(1)遙測站從初期的幾百家增加到現(xiàn)在的6 000家左右,增加了10多倍。(2)采集頻率也從以前的1次·h-1提高到現(xiàn)在的0.2次·min-1,個別潮位站點甚至提高到 1次·min-1,增加了 12倍以上。(3)采集要素從最初的雨量水位,到現(xiàn)在的流量、蒸發(fā)、氣溫、氣壓等,要素量也增加了2倍以上。

        這些變化導致數(shù)據(jù)量增加了240倍以上,數(shù)據(jù)量從以前的年GB級增加到現(xiàn)在的TB級,日處理遙測數(shù)據(jù)量也在GB級以上。

        2.3 不斷增長的歷史水情數(shù)據(jù)

        已存有從20世紀50年代至今60多年的水文歷史數(shù)據(jù),包括文本數(shù)據(jù)、圖片掃描數(shù)據(jù)以及經整編的水情結構化數(shù)據(jù),數(shù)據(jù)量已達TB級以上。近年來,隨著站點的不斷建設,數(shù)據(jù)呈指數(shù)級增長。

        2.4 每年更新的全省河道斷面及河道地形數(shù)據(jù)

        2010年,浙江省開展了分布式洪水預報系統(tǒng)的建設,對主要河流進行了洪水預報。該系統(tǒng)需高精度的河道斷面數(shù)據(jù)和河道地形數(shù)據(jù)做支撐,目前數(shù)據(jù)量已達TB級。隨著全省主要流域分布式洪水預報建設的發(fā)展,河道斷面及地形數(shù)據(jù)將以指數(shù)級遞增,急需一個支持大數(shù)據(jù)的存儲系統(tǒng)。

        2.5 高頻次多波段大尺度遙感衛(wèi)片數(shù)據(jù)

        浙江省近年引入了遙感數(shù)據(jù)分析系統(tǒng),對全省的災情和旱情進行實時監(jiān)視。遙感系統(tǒng)每天會接收10 GB以上的原始數(shù)據(jù),對數(shù)據(jù)進行分析處理,生成各類分析專題圖表。隨著系統(tǒng)開發(fā)的深入,遙感數(shù)據(jù)量越來越大,現(xiàn)有的存儲和分析系統(tǒng)將面臨較大的運行瓶頸。

        2.6 大量非結構化的水文分析和總結文檔

        當前,省、地市及縣級水文分析成果都匯集到現(xiàn)有的水情中心,其中含有大量文檔、圖片和視頻材料等非結構性數(shù)據(jù)。目前所用的結構化分析方法已無法滿足異構數(shù)據(jù)深度分析的要求,只有采用深度數(shù)據(jù)挖掘技術以及非結構化存儲方式,才能對從異構數(shù)據(jù)中挖掘到的有價值的信息進行高效科學的分析。

        3 系統(tǒng)建設主要內容

        本研發(fā)系統(tǒng)將采用大數(shù)據(jù)存儲分析技術,通過全面整合分散的各類水情數(shù)據(jù),實現(xiàn)對大數(shù)據(jù)量水情信息的深度挖掘分析,生成科學的分析報告。對有價值的信息資源進行資源共享,以滿足新形勢下水利防汛對水情業(yè)務的要求。系統(tǒng)總體架構如圖1所示。

        圖1 系統(tǒng)總體架構圖Fig.1 The overall architecture of the system

        水情云數(shù)據(jù)中心建設,主要包括以下內容:

        3.1 分布式水情信息采集子系統(tǒng)

        水情信息資源中心需對不同來源的異構數(shù)據(jù)進行實時匯集,主要包括采集數(shù)據(jù)、基層節(jié)點數(shù)據(jù)及其他領域交換的數(shù)據(jù)。采用數(shù)據(jù)實時抽取技術,對多源、異構、多時空尺度數(shù)據(jù)進行動態(tài)抽取和集成,生成標準化的數(shù)據(jù)存儲結構,并統(tǒng)一存儲在混合型的存儲系統(tǒng)中。

        3.2 海量水情信息存儲子系統(tǒng)

        水情大數(shù)據(jù)中心架構將對結構性數(shù)據(jù)存儲系統(tǒng)和非結構性數(shù)據(jù)存儲系統(tǒng)進行融合,共同支撐水情大數(shù)據(jù)存儲。2種存儲系統(tǒng)之間可以通過抽取轉換進行相互通訊,實現(xiàn)數(shù)據(jù)的無縫對接。并采用元數(shù)據(jù)技術,對各種數(shù)據(jù)進行描述和定義,為系統(tǒng)提供更高的可用性和易有性。

        3.3 水情信息分發(fā)子系統(tǒng)

        系統(tǒng)可通過高效的數(shù)據(jù)分發(fā)機制,通過數(shù)據(jù)的分發(fā)定制功能,將應用端定制的各種水情信息資源實時分發(fā)到各個應用部門或社會相關機構,為各服務對象提供高質、高效的數(shù)據(jù)資源支持。

        3.4 水情云數(shù)據(jù)中心管理平臺

        用戶通過PC端或移動終端,對水情云數(shù)據(jù)中心平臺進行在線管理和監(jiān)視。管理用戶可在線監(jiān)視系統(tǒng)運行的各項參數(shù),同時可設定一些關鍵參數(shù),及時監(jiān)控預警,確保系統(tǒng)正常有序運行。

        4 系統(tǒng)建設關鍵技術及難點

        4.1 分布式水情數(shù)據(jù)采集

        采用分布式采集技術可采集到各類與水情相關的數(shù)據(jù),水情數(shù)據(jù)種類繁多,按格式分,有:(1)結構化數(shù)據(jù),例如實時水雨情數(shù)據(jù)、水文預報數(shù)據(jù)、數(shù)值降雨預報數(shù)據(jù)、工情數(shù)據(jù)、采集設備狀態(tài)數(shù)據(jù)等;(2)半結構化數(shù)據(jù),例如衛(wèi)星云圖、衛(wèi)星降雨數(shù)據(jù)產品、衛(wèi)星土壤墑情數(shù)據(jù)、衛(wèi)星洪水淹沒監(jiān)測數(shù)據(jù)、多普勒雷達數(shù)據(jù)、臺風路徑數(shù)據(jù)、氣象數(shù)據(jù)產品等;(3)非結構化數(shù)據(jù),例如視頻監(jiān)控影像、地質災害預警報告、水文專題總結報告、無人機采集影像數(shù)據(jù)等。按數(shù)據(jù)來源分,有水文行業(yè)自有數(shù)據(jù)(水雨情數(shù)據(jù)、水文分析數(shù)據(jù)等)、合作方提供數(shù)據(jù)(如氣象局)和公共數(shù)據(jù)資源(如互聯(lián)網上抓取的氣象產品及地理信息等)。

        采集子系統(tǒng)的功能架構如圖2所示,覆蓋數(shù)據(jù)從標準化預處理、抽取、校驗、過濾、清洗直至加載到大數(shù)據(jù)存儲系統(tǒng)的全過程。

        分布式數(shù)據(jù)采集子系統(tǒng)可以針對不同的數(shù)據(jù)源類型和格式,提供多種數(shù)據(jù)抽取方式與之適配,例如數(shù)據(jù)庫直連、Web service接口連接、RESTful API調用、共享文件讀取、FTP服務器文件下載、文件導入、手工錄入等,并對數(shù)據(jù)進行校驗、清洗、加載等操作,最終將數(shù)據(jù)存儲到大數(shù)據(jù)存儲子系統(tǒng)中。

        圖2 分布式數(shù)據(jù)采集子系統(tǒng)架構Fig.2 Architecture of distributed data acquisition subsystem

        針對不同的數(shù)據(jù)類型,采取不同的引擎實現(xiàn)多源、異構、分布式數(shù)據(jù)采集。水文大數(shù)據(jù)的采集任務由Datahub流式數(shù)據(jù)采集引擎和阿里云StreamCompute流式處理采集引擎共同完成。

        4.1.1 流式采集引擎

        相較傳統(tǒng)的以SDK或服務的形式采集數(shù)據(jù)的方式,流式采集引擎具有高吞吐、低延遲、單條任務TB級別的寫入能力,配置更靈活,且接口簡單,可滿足不同的場景需求。

        針對數(shù)據(jù)源格式多樣、復雜的特性,批處理采集任務可采用定制的ETL(extract transform load)工具來實現(xiàn),使用Java開發(fā)框架并利用JVM實現(xiàn)一次開發(fā)多平臺(不受操作系統(tǒng)局限)使用。ETL工具數(shù)據(jù)流設計示例如圖3所示。

        ETL工具的另一優(yōu)勢是不僅完美支持結構化數(shù)據(jù),而且也支持半結構化、非結構化數(shù)據(jù),且以文件的形式采集進入大數(shù)據(jù)存儲平臺。開發(fā)的采集任務以JAR形式打包,已運行在多臺云服務器ECS中,并通過了元數(shù)據(jù)管理。采集子系統(tǒng)操作界面提供JAR包的調用配置,由門戶配置調度系統(tǒng)提供的定時輪詢觸發(fā)執(zhí)行采集任務。

        圖3 ETL工具數(shù)據(jù)流設計Fig.3 Data flow design using ETL

        4.1.2 流式處理引擎

        與批處理引擎擅長處理離線數(shù)據(jù)不同,流式處理引擎由存儲和計算2個模塊組成,擅長實時處理[17]。阿里云最新一代的流式引擎Blink是一種較為純粹和完善的流計算技術,在理論模型上具備了流計算的所有特質。StreamCompute為以Blink流式計算引擎為核心技術構建的流式計算框架,滿足了海量數(shù)據(jù)實時分析的需求。StreamCompute流式計算框架的數(shù)據(jù)源可不斷更新,即收到一條數(shù)據(jù)處理一條[18]。通過StreamCompute提供可靠的處理無限數(shù)據(jù)流能力,可實時進行數(shù)據(jù)清洗,同時還可實現(xiàn)對視頻流的實時處理和專業(yè)模型的實時計算。

        4.2 原始采集數(shù)據(jù)質量控制

        在通過分布式采集技術采集的數(shù)據(jù)中,存在大量不合格或錯誤數(shù)據(jù),通過建立數(shù)據(jù)質量管控體系對進入系統(tǒng)的數(shù)據(jù)進行有效管理。

        4.2.1 數(shù)據(jù)質量分類

        按等級分,數(shù)據(jù)可分為錯誤數(shù)據(jù)和可疑數(shù)據(jù),見圖4。系統(tǒng)有針對性地采取不同的處理策略對校驗后數(shù)據(jù)構建完整的質量管控體系。

        4.2.2 數(shù)據(jù)質量管控流程

        圖4 數(shù)據(jù)質量分類Fig.4 Data quality classification

        錯誤數(shù)據(jù)可分為系統(tǒng)性錯誤數(shù)據(jù)和業(yè)務型錯誤數(shù)據(jù),系統(tǒng)性錯誤數(shù)據(jù)(如測量時間明顯錯誤)會直接被攔截,原始水文數(shù)據(jù)在ODS臨時存儲中,保留其原始數(shù)據(jù)格式。其他數(shù)據(jù)在進入系統(tǒng)前不會被攔截和過濾,而是在根據(jù)配置信息對其進行校驗后標注數(shù)據(jù)質量(校驗置信度的計算并標注),根據(jù)標注的數(shù)據(jù)質量(是否為業(yè)務型錯誤數(shù)據(jù))由下一環(huán)節(jié)對其進行過濾,過濾后的數(shù)據(jù)進入后續(xù)處理環(huán)節(jié)。業(yè)務型錯誤數(shù)據(jù)根據(jù)基于簡單的上下限區(qū)間設置來判斷。由系統(tǒng)提供的規(guī)則配置頁面按站點的錯誤數(shù)據(jù)上下限進行配置,操作界面的測站數(shù)據(jù)類別略有不同,如雨量、河道、水庫、潮位、日蒸發(fā)量、河道均值、水庫均值、降水量等。具體流程如圖5所示。

        4.2.3 可疑數(shù)據(jù)校驗算法

        有別于錯誤數(shù)據(jù),對采集的可疑數(shù)據(jù)的處理原則是先放行,但要有可疑數(shù)據(jù)警示標注。過去的可疑數(shù)據(jù)校驗與錯誤數(shù)據(jù)校驗方法類似,基于預先設定好的可疑上下限參數(shù)配置采用一刀切方法,無法準確計算數(shù)據(jù)的有效性。

        如圖6所示的水位過程線,B點的數(shù)值雖然超出了可疑上限設置,但相對于當時的水位來說,數(shù)據(jù)質量無任何問題。從對應的測量時間點來看,A點所標注的測量數(shù)據(jù)顯然是錯誤的,但僅依賴固定邊界值尚無法準確甄別可疑數(shù)據(jù)。

        新的水文數(shù)據(jù)資源中心將采用更智能的校驗算法檢驗實時水雨情數(shù)據(jù)質量。如對上文描述的質量管控場景,可采用移動均值等時間序列平滑預測手段,結合對數(shù)據(jù)偏離度上限的配置進行更加準確科學的數(shù)據(jù)質量智能校驗。

        應用智能算法,校驗上文描述場景的效果改良示意圖見圖7。

        圖5 數(shù)據(jù)質量管控流程Fig.5 Process of data quality control

        圖6 傳統(tǒng)的可疑數(shù)據(jù)校驗Fig.6 Traditional suspicious data validation

        除時間序列預測方法在數(shù)據(jù)質量校驗中的應用外,系統(tǒng)還提供其他定制開發(fā)的智能數(shù)據(jù)檢驗算法,將復雜的算法與雷達、云圖、周邊站點、空間位置及上下游關系相結合,專門建立相應的質控模型,進行數(shù)據(jù)質量的挖掘分析。

        4.3 大數(shù)據(jù)存儲

        水文數(shù)據(jù)中心采用關系型數(shù)據(jù)存儲、分布式NoSQL數(shù)據(jù)庫存儲和分布式文件對象存儲相結合的方式,支持不同的數(shù)據(jù)類型(結構化、非結構化、半結構化)。3種數(shù)據(jù)庫對應的公有云服務組件分別為RDS關系型數(shù)據(jù)庫、TableStore表格存儲以及OSS對象存儲。

        4.3.1 RDS關系型數(shù)據(jù)庫存儲

        RDS是傳統(tǒng)關系型數(shù)據(jù)庫的云端服務化實現(xiàn),可提供與傳統(tǒng)關系型數(shù)據(jù)庫完全一致的功能。平臺將采用與源數(shù)據(jù)相同技術的RDS for SQL Server,將校驗失敗的采集數(shù)據(jù),按源數(shù)據(jù)格式原封保存。

        圖7 可疑數(shù)據(jù)智能校驗Fig.7 Intelligent verification of suspicious data

        4.3.2 TableStore表格存儲

        表格存儲服務中的數(shù)據(jù)存儲模式可類比開源技術中的Hbase,是基于鍵值(key-value)實現(xiàn)的大數(shù)據(jù)寬表存儲。不同的鍵值將按取值范圍分配到不同的存儲單元,由集群底層架構實現(xiàn)分布式存儲及備份,并對鍵值建立高速索引。水雨情遙測數(shù)據(jù)通常以“時間+站點”作為key值,數(shù)據(jù)采集頻率高且數(shù)量驚人,非常適合表格存儲的行鍵(rowkey)特性實現(xiàn)高速寫入及掃描,實現(xiàn)數(shù)據(jù)的海量存儲及高效調用。

        4.3.3 OSS對象存儲

        對象存儲可以簡單理解為一個云端的文件磁盤,用來存儲數(shù)量龐大的文件。同時,公有云對象存儲還可提供針對多媒體數(shù)據(jù)的便捷操作服務,如視頻數(shù)據(jù)的編碼解碼、圖像文件的直接調用等。

        4.4 水情云數(shù)據(jù)中心管理

        管理中心為各類用戶提供統(tǒng)一和便捷的數(shù)據(jù)訪問及系統(tǒng)管理入口。用戶角色類型包括各級系統(tǒng)管理員、各類相關部門用戶、訪客等,并支持自定義角色和權限。

        對于非結構化數(shù)據(jù)的管理,云平臺采用Hadoop中的分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)。HDFS具有高容錯性、高吞吐量等特點,能對PB級數(shù)據(jù)進行快速并行處理,且成本較低。對半結構化數(shù)據(jù),在云平臺上部署NoSQL服務進行存儲管理;對結構化數(shù)據(jù),繼續(xù)使用傳統(tǒng)的關系型數(shù)據(jù)庫。這些數(shù)據(jù)庫服務均部署在云上,通過集成融合平臺進行集中管理,需要時,通過共享交換平臺提取。

        4.5 可配置的數(shù)據(jù)分發(fā)

        水文數(shù)據(jù)中心需要實現(xiàn)定制化的業(yè)務數(shù)據(jù)分發(fā),并提供界面進行管理。系統(tǒng)滿足分布式數(shù)據(jù)分發(fā)的特點,只要互聯(lián)網能聯(lián)通,就能執(zhí)行數(shù)據(jù)分發(fā)或調用請求。需通過統(tǒng)計手段對水文數(shù)據(jù)資源分發(fā)與調用的種類、數(shù)量、效率等指標實現(xiàn)監(jiān)控。根據(jù)實際情況,以可配置方式設定調用數(shù)量,提高數(shù)據(jù)的安全管控能力。

        5 系統(tǒng)建設創(chuàng)新點

        5.1 水情數(shù)據(jù)的分布式匯集

        以結構化水情數(shù)據(jù)的匯集為例,傳統(tǒng)的數(shù)據(jù)匯集思路是基于數(shù)據(jù)集中的物理整合,本文所采用的整合方式是基于服務的邏輯數(shù)據(jù)。這種分布式的數(shù)據(jù)匯集方式不強求物理上的集中,而是將各個數(shù)據(jù)源的數(shù)據(jù)通過接口包裝成服務,注冊到服務總線,通過服務總線提供統(tǒng)一的數(shù)據(jù)服務,實現(xiàn)數(shù)據(jù)在邏輯上的整合。

        5.2 基于元數(shù)據(jù)的多源異構數(shù)據(jù)集成

        傳統(tǒng)的水情數(shù)據(jù)中心僅支持結構化的關系表數(shù)據(jù),難以存儲多源、非結構化的數(shù)據(jù)。本文設計的水情云數(shù)據(jù)中心支持多數(shù)據(jù)源、異構數(shù)據(jù),能管理多個物理數(shù)據(jù)源,數(shù)據(jù)源之間可以無縫集成。

        針對本數(shù)據(jù)中心所提供的各類服務,將以元數(shù)據(jù)的方式進行描述,并建立相應的注冊機制,在多用戶、多平臺、多數(shù)據(jù)源的復雜異構環(huán)境下,實現(xiàn)數(shù)據(jù)共享和數(shù)據(jù)集成。異構數(shù)據(jù)集成共享機制主要包括一個中心元數(shù)據(jù)服務器和多個分布式數(shù)據(jù)服務器以及遠程客戶端,元數(shù)據(jù)服務器包含所有用于共享的異構數(shù)據(jù)元數(shù)據(jù),各個數(shù)據(jù)服務器則存儲共享的異構數(shù)據(jù),用戶在遠程客戶端通過分布式網絡數(shù)據(jù),先訪問元數(shù)據(jù)庫,通過對元數(shù)據(jù)的解釋,選擇合適的數(shù)據(jù)接口訪問存儲在不同數(shù)據(jù)服務器中的異構數(shù)據(jù)。

        5.3 以數(shù)據(jù)為中心的業(yè)務聯(lián)動(DDA架構)

        基于全局共享交換的需求建設水情大數(shù)據(jù)中心,旨在通過大數(shù)據(jù)技術打通內外部數(shù)據(jù)中心之間的共享壁壘,完成數(shù)據(jù)的高效共享,提高數(shù)據(jù)集成度,通過數(shù)據(jù)融合實現(xiàn)業(yè)務融合。更進一步,水情大數(shù)據(jù)中心通過數(shù)據(jù)驅動業(yè)務的方式,對基于大數(shù)據(jù)中心精心設計的業(yè)務系統(tǒng),通過數(shù)據(jù)事件直接驅動業(yè)務邏輯運行,為各業(yè)務應用系統(tǒng)難以橫向拓展這一難題提供一站式解決方案。

        5.4 以平臺為基礎的大數(shù)據(jù)分析服務

        水情大數(shù)據(jù)分析平臺實現(xiàn)了水情信息資源的綜合深入利用,多層面挖掘數(shù)據(jù)價值,實現(xiàn)大數(shù)據(jù)應用,為決策和管理提供技術支撐。平臺提供大數(shù)據(jù)分析的基礎服務,能夠快速按需部署分析集群。其主要功能是將數(shù)據(jù)中心的業(yè)務數(shù)據(jù)按業(yè)務主題進行重新組織,建設統(tǒng)一的大數(shù)據(jù)分析平臺,利用分布式數(shù)據(jù)庫、信息處理等技術,針對水文狀況進行統(tǒng)計分析,并進行成果資源轉換。建立面向主題的數(shù)據(jù)倉庫或數(shù)據(jù)集市,并通過前端展現(xiàn)工具以查詢分析結果、固定格式報表以及靈活分析報表的形式展現(xiàn)給最終用戶。

        大數(shù)據(jù)分析平臺和數(shù)據(jù)資源中心是大數(shù)據(jù)挖掘和智慧分析的基礎支撐平臺。大數(shù)據(jù)平臺可以整合數(shù)據(jù)查詢、數(shù)據(jù)集成、機器學習、數(shù)據(jù)可視化等高級組件和服務。通過客戶分析模型與經營分析模型,實現(xiàn)區(qū)域、單位、項目等多維度分析,形成數(shù)據(jù)鉆取、數(shù)據(jù)聯(lián)動等多種分析效果。

        6 總結

        基于大數(shù)據(jù)云平臺技術的浙江省水情云數(shù)據(jù)中心,對多源異構數(shù)據(jù)的高效匯集、存儲和應用進行了全新設計,并進行高可靠性的數(shù)據(jù)質量管控,顯著提升了水情數(shù)據(jù)資源的質和量。云數(shù)據(jù)中心的數(shù)據(jù)流轉效率較原數(shù)據(jù)中心提高了2倍多;數(shù)據(jù)質量的管控水平亦顯著提高;數(shù)據(jù)挖掘分析能力有了質的飛躍;特別是多源異構數(shù)據(jù)集成后的大數(shù)據(jù)中心,為拓展水情分析的深度和廣度、提升綜合分析能力、豐富水情的社會化服務產品、提供更為科學的決策依據(jù)奠定了堅實的數(shù)據(jù)基礎。

        人成综合视频在线播放| 亚洲Av无码专区尤物| 国产一区不卡视频在线| 一区二区亚洲精品在线| 国产精品激情| a毛片全部免费播放| 国产精品久久一区性色a| 东风日产车是不是国产的 | 国产熟女高潮视频| 日韩国产欧美成人一区二区影院 | 欧美综合区自拍亚洲综合| 亚洲精彩av大片在线观看| 色多多性虎精品无码av| 无码少妇一区二区三区芒果| 一区欧美在线动漫| 日韩五码一区二区三区地址| 亚洲精品乱码久久久久久中文字幕 | 在线看片免费人成视频久网下载| 色综合久久丁香婷婷| 日韩人妖一区二区三区| 亚洲综合精品中文字幕| 激情综合色五月丁香六月亚洲| 久久天堂av色综合| 青青久久精品一本一区人人| 老子影院午夜伦不卡| 免费人成年小说在线观看| 国产亚洲av人片在线播放| 亚洲永久国产中文字幕| 毛片a级毛片免费观看| 亚洲不卡无码高清视频| 邻居少妇太爽在线观看| 无码中文字幕日韩专区| 亚洲国产区男人本色| av日本一区不卡亚洲午夜| 精品人妻va一区二区三区| ā片在线观看免费观看| 日本久久久久| av在线天堂国产一区| 久久综合九色综合97欧美| 国产精品自产拍在线18禁| 中文字幕亚洲中文第一|