亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向海洋氣象的數(shù)據(jù)匯聚平臺

        2019-11-01 10:08:58謝志敏1爽2張彤彤
        關(guān)鍵詞:數(shù)據(jù)庫系統(tǒng)

        謝志敏1,宋 爽2,張彤彤,李 翀

        1.海軍軍事海洋環(huán)境建設(shè)辦公室,北京 100081

        2.軍事科學(xué)院,北京 100091

        3.中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心,北京 100190

        引言

        中國是一個海洋大國,海洋是中國實(shí)現(xiàn)可持續(xù)發(fā)展的重要空間和資源保障。得益于遙感、航天技術(shù)的快速發(fā)展和應(yīng)用普及,我國海洋事業(yè)總體上進(jìn)入了歷史上最好的發(fā)展時期。海洋氣象學(xué)是研究海上大氣物理特征和動力特征、以及海洋與大氣相互作用規(guī)律的學(xué)科,涉及的內(nèi)容涵蓋海洋、大氣、它們之間的相互作用,以及它們與邊緣海岸帶的相互影響等多種復(fù)雜領(lǐng)域,是多學(xué)科結(jié)合領(lǐng)域[1]。海洋氣象數(shù)據(jù)來源眾多,沿海地區(qū)和近海的氣象復(fù)雜多變,環(huán)境多有不同,經(jīng)常發(fā)生海洋氣象災(zāi)害,如大風(fēng)、暴雨、大霧和海上強(qiáng)對流天氣等[2]。目前我國針對海洋相關(guān)水文、天氣、海岸帶等方面已建成大量基礎(chǔ)設(shè)施,通過不同類型的海面氣象傳感器 (溫度、氣壓、濕度、風(fēng)、能見度、雨量等)和水文傳感器 (水溫、潮位等) 來獲取海洋、氣象、水文信息[3],采集了大量海洋氣象數(shù)據(jù),數(shù)據(jù)總量早已超過TB級,區(qū)別于陸上氣象,這些數(shù)據(jù)包括云、有效水平能見度、最小水平能見度、天氣現(xiàn)象、風(fēng)、氣壓、水汽壓、海面空氣溫度、相對濕度和降雨量等[4],這些數(shù)據(jù)來自于不同的部門和系統(tǒng),且數(shù)據(jù)格式各異、質(zhì)量不齊,尚未一個形成全面的、多維度的、滿足多種需求的面向海洋氣象大數(shù)據(jù)平臺。

        海洋氣象數(shù)據(jù)在防災(zāi)減災(zāi)、應(yīng)對氣候變化、國民經(jīng)濟(jì)建設(shè)、科學(xué)研究、軍事國防等方面都具有重要的作用,滿足不同階段、不同用戶的功能需求,建設(shè)能夠高效存儲具有以上特點(diǎn)的海洋氣象水文數(shù)據(jù)的存儲中心,為海洋氣象動態(tài)監(jiān)管、氣象預(yù)測、水文分析、環(huán)境保護(hù)、生態(tài)建設(shè)等應(yīng)用場景提供數(shù)據(jù)基礎(chǔ)和決策依據(jù),擴(kuò)展海洋氣象水文數(shù)據(jù)使用場景,挖掘相關(guān)數(shù)據(jù)深層價值,提高技術(shù)投入產(chǎn)出效益等方面具有重要意義,也是當(dāng)前海洋事業(yè)數(shù)字化、信息化進(jìn)程的研究熱點(diǎn)。

        基于以上分析,本文通過研究相關(guān)氣象、水文大數(shù)據(jù)匯聚分析研究現(xiàn)狀,聚焦海洋氣象大數(shù)據(jù)的采集、匯聚、治理和管理需求,采用網(wǎng)絡(luò)爬蟲技術(shù)對各公開數(shù)據(jù)集、氣象水文數(shù)據(jù)站進(jìn)行定向數(shù)據(jù)爬取,并使用數(shù)據(jù)庫、ETL[5]等技術(shù)對來源于業(yè)務(wù)系統(tǒng)、網(wǎng)絡(luò)、海洋基站等多源數(shù)據(jù)進(jìn)行清洗、匯聚、融合,構(gòu)建海洋大數(shù)據(jù)匯聚存儲中心,并對數(shù)據(jù)進(jìn)行一系列轉(zhuǎn)換、清洗、治理,為高效利用海洋數(shù)據(jù)進(jìn)行各業(yè)務(wù)領(lǐng)域的輔助決策提供數(shù)據(jù)基礎(chǔ)。

        1 研究現(xiàn)狀及相關(guān)工作

        海洋是連接世界各大洲的水域,海上航行是世界性、國際間的經(jīng)濟(jì)活動與人文交流,而海洋氣象管理是海上活動的保障與基礎(chǔ),需要國際合作和資源共享[1]。目前在世界范圍內(nèi)建有多個海洋數(shù)據(jù)和服務(wù)系統(tǒng)[1,5],如

        (1) 世界氣象組織 (WMO,World Meteorological Organization) 信息系統(tǒng),提供來自WMO和相關(guān)國際項(xiàng)目與計劃的全球共享數(shù)據(jù);

        (2) 海洋數(shù)據(jù)門戶網(wǎng)站 (IOC/IODE/ODP),海洋資料來自美國國家海洋資料中心(http://www.oceandataportal.org/);

        (3) 海洋數(shù)據(jù)網(wǎng) (http://www.seadatanet.org),是歐盟資助項(xiàng)目,旨在創(chuàng)建和運(yùn)營泛歐海洋數(shù)據(jù)管理基礎(chǔ)設(shè)施;

        (4) 海洋氣候資料系統(tǒng),提供來自 JCOMM(The Joint WMO/IOC Technicaal Commission for Oceanography and Marine Meteorology,海洋學(xué)和海洋氣象學(xué)聯(lián)合技術(shù)委員會) 組織的各項(xiàng)調(diào)查活動所獲取的多種海洋氣象數(shù)據(jù);

        世界各國均將海洋資料的獲取、管理作為自身海洋事業(yè)發(fā)展的重要戰(zhàn)略組成,海洋數(shù)據(jù)獲取手段在由傳統(tǒng)手段逐漸向應(yīng)用高新技術(shù)轉(zhuǎn)變,信息獲取途徑由點(diǎn)及面,從特定用途一次性獲取到全時段、全方位持續(xù)監(jiān)測采集,從單一要素研究調(diào)查到融合多學(xué)科集成分析,海洋數(shù)據(jù)越發(fā)多樣,其蘊(yùn)含的價值也成倍增加,海洋數(shù)據(jù)的管理與使用已進(jìn)入大規(guī)模數(shù)據(jù)、集成應(yīng)用時代。同時世界范圍內(nèi)海洋戰(zhàn)略資源的爭奪愈演愈烈,海洋信息科技更為先進(jìn)、掌握更多數(shù)據(jù)的國家均逐步減少了開放數(shù)據(jù)的數(shù)量并降低了數(shù)據(jù)精度,免費(fèi)可用的海洋數(shù)據(jù)逐步減少[7]。

        我國經(jīng)過長期的海洋調(diào)查、觀測、檢測、專項(xiàng)調(diào)查、衛(wèi)星遙感、其他各專項(xiàng)調(diào)查資料,以及國際交換資料等方式,已經(jīng)累積了海量的海洋信息數(shù)據(jù),在海洋相關(guān)的各領(lǐng)域內(nèi)發(fā)揮著重要作用。海洋資料的收集力度和管理水平也在不斷提升,各科研院所及單位已建立包括海洋信息綜合數(shù)據(jù)庫、海洋大數(shù)據(jù)中心、海洋科學(xué)數(shù)據(jù)共享平臺在內(nèi)的各類海洋數(shù)據(jù)載體,提供多用途面向全國、全社會乃至全球的共享服務(wù),海洋大數(shù)據(jù)共享應(yīng)用愈發(fā)成熟,海洋數(shù)據(jù)的治理使用也愈發(fā)精準(zhǔn)快速。

        另外海洋資源豐富、儲量巨大,海洋信息涵蓋了海洋環(huán)境、海洋資源、海洋開發(fā)等其他與海洋有關(guān)的科學(xué)數(shù)據(jù),如海底地形數(shù)據(jù)、海洋遙感資料、船測數(shù)據(jù)、浮標(biāo)資料等數(shù)據(jù),這些數(shù)據(jù)具有海量性、多類性、模糊性等特點(diǎn)[8]。因此海洋資料的管理難度大、時間跨度長,數(shù)據(jù)整合質(zhì)量關(guān)系到數(shù)據(jù)匯聚后可采用的方式方法和實(shí)際應(yīng)用效果。由于海洋資料交匯機(jī)制以及種種客觀因素,海洋數(shù)據(jù)整合效果欠佳,目前在海洋信息領(lǐng)域仍然存在大量“信息孤島”,系統(tǒng)分散、數(shù)據(jù)獨(dú)立是普遍現(xiàn)象。標(biāo)準(zhǔn)各異、結(jié)構(gòu)多樣的海洋信息數(shù)據(jù)與實(shí)際應(yīng)用所需存在脫節(jié)。海洋數(shù)據(jù)的敏感性,包括其復(fù)雜性在內(nèi)的特點(diǎn)使其在應(yīng)用大數(shù)據(jù)、云計算等技術(shù)時存在諸多限制,對大量原始數(shù)據(jù)進(jìn)行匯聚整合成為亟待解決的問題。此外采取自主手段多方位、全面獲取海洋數(shù)據(jù)是擴(kuò)充海洋信息資源的必要方法,可以利用國內(nèi)外公開的海洋、氣象、水文數(shù)據(jù),及時高效多維度補(bǔ)充數(shù)據(jù),拓寬數(shù)據(jù)多樣性,使海洋大數(shù)據(jù)能夠更加全面、權(quán)威。

        2 技術(shù)介紹

        2.1 數(shù)據(jù)融合技術(shù)

        ETL,是英文 Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取 (extract)、轉(zhuǎn)換(transform)、加載 (load) 至目的端的過程。ETL 技術(shù)常用在數(shù)據(jù)倉庫的實(shí)現(xiàn)過程,但其數(shù)據(jù)處理技術(shù)并不限于數(shù)據(jù)倉庫應(yīng)用,ETL 技術(shù)適合任何需要數(shù)據(jù)整合的場景,即任何從一個或多個數(shù)據(jù)源抽取數(shù)據(jù),經(jīng)過一定的轉(zhuǎn)換處理加載到目標(biāo)環(huán)境的場景,包括數(shù)據(jù)庫之間、數(shù)據(jù)庫與數(shù)據(jù)倉庫之間、數(shù)據(jù)倉庫之間、文件系統(tǒng)之間等。

        目前比較流行的ETL 工具分為兩大類,一類是商業(yè) ETL 工具,如 Oracle 公司的ODI (Oracle DataIntegrator)、Informatic 公司的Informatica、IBM的DataStage和微軟公司的SSIS;另一類是開源的ETL 工具,比如Jaspersoft ETL Talend和Pentaho Kettle[10]。開源 ETL 工具的擴(kuò)展性是商業(yè)軟件沒有的,使用開源 ETL 工具可以按需進(jìn)行二次開發(fā),另外由于投入產(chǎn)出效率的要求,開源ETL工具在中小型企業(yè)的項(xiàng)目開發(fā)中得到更廣泛的使用。本文對于常用的開源 ETL 工具進(jìn)行了對比分析

        經(jīng)過以上分析,本文使用數(shù)據(jù)處理更加高效穩(wěn)定的Kettle 作為ETL 工具,對海洋信息數(shù)據(jù)進(jìn)行按需整合。

        表1 Talend 對比 KettleTable1 Talend vs Kettle

        2.2 開源爬蟲技術(shù)

        海洋數(shù)據(jù)獲取包括多種途徑,如衛(wèi)星遙感、監(jiān)測基站、調(diào)查資料等等,另外通過網(wǎng)絡(luò)爬蟲技術(shù)從國內(nèi)外相關(guān)網(wǎng)站爬取數(shù)據(jù)也是獲取海洋信息數(shù)據(jù)的重要途徑。世界上已經(jīng)成型的爬蟲軟件多達(dá)上百種,只需對這些爬蟲進(jìn)行適當(dāng)?shù)母倪M(jìn)就可以滿足項(xiàng)目需求,更可以依據(jù)需求開發(fā)定向爬取工具[9]。按照開發(fā)語言區(qū)分,目前較為成熟的開源爬蟲軟件主要分為Java 類和python 類,如表2所示,

        Nutch屬于分布式爬蟲,Web Magic,WebCollector,Heritrix3,Crawler4j,Scrapy 屬于單機(jī)爬蟲。Nutch在爬取搜索引擎數(shù)據(jù)時最為常用,并不適合本文場景,另外本文開發(fā)背景中主要開發(fā)語言為Java,從以上單機(jī)爬蟲中選取了 Crawler4j 作為網(wǎng)絡(luò)海洋氣象水文數(shù)據(jù)爬取工具。Crawler4j 爬蟲最大的特點(diǎn)就是簡單易用,只需繼承指定的類就可以實(shí)現(xiàn)自己的爬蟲類,通過覆蓋函數(shù)實(shí)現(xiàn)網(wǎng)頁解析和內(nèi)容抓取,支持設(shè)置爬取深度、二進(jìn)制內(nèi)容抓取、設(shè)置代理服務(wù)器、圖像爬取、將爬取內(nèi)容保存到 JDBC 驅(qū)動連接的數(shù)據(jù)庫等等功能。

        3 系統(tǒng)設(shè)計

        3.1 總體設(shè)計

        系統(tǒng)的總體功能是進(jìn)行海洋氣象水文數(shù)據(jù)獲取和互聯(lián)網(wǎng)相關(guān)數(shù)據(jù)采集、匯聚交換到海洋氣象數(shù)據(jù)庫中,并通過一系列數(shù)據(jù)處理技術(shù)對數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的檢驗(yàn)和治理,處理后的數(shù)據(jù)另外存儲到分布式數(shù)據(jù)庫中,對外提供統(tǒng)一的數(shù)據(jù)格式和接口。系統(tǒng)原理如圖1所示。

        數(shù)據(jù)采集、匯集、治理、監(jiān)控功能采用B/S架構(gòu)設(shè)計完成,后端使用SpringMVC 框架,融合Crawler4j 網(wǎng)絡(luò)爬蟲技術(shù)及 Kettle 進(jìn)行數(shù)據(jù)獲取和整合,前端基于Angular4.0 框架和PrimeNG 組件庫,實(shí)現(xiàn)前后端分離的系統(tǒng)架構(gòu)。

        相對 C/S 架構(gòu),采用B/S架構(gòu)易于維護(hù)和升級、安全性高、擴(kuò)展性強(qiáng)。系統(tǒng)通過瀏覽器與SpringMVC交互,SpringMVC 控制 Kettle中作業(yè)、轉(zhuǎn)換的布置與執(zhí)行,同時對作業(yè)轉(zhuǎn)換執(zhí)行進(jìn)行監(jiān)控管理,并通過數(shù)據(jù)庫獲取原始數(shù)據(jù)、Kettle 作業(yè)執(zhí)行結(jié)果、系統(tǒng)用戶和站點(diǎn)管理信息等,整合后的數(shù)據(jù)按照不同類型分別存入 MySQL 數(shù)據(jù)庫和MongoDB 數(shù)據(jù)庫中,數(shù)據(jù)處理流程如圖2所示。

        系統(tǒng)不僅需要采集網(wǎng)絡(luò)海洋氣象數(shù)據(jù),也需要對接現(xiàn)有的氣象水文數(shù)據(jù)信息管理系統(tǒng),以及部分以離線文件形式存在的信息源。對于生產(chǎn)系統(tǒng)中的數(shù)據(jù)獲取,通過設(shè)置前置機(jī)實(shí)現(xiàn)生產(chǎn)系統(tǒng)與數(shù)據(jù)匯聚中心的隔離,如此間接交互有利于保證各系統(tǒng)的安全穩(wěn)定運(yùn)行。存入前置機(jī)的小部分干凈數(shù)據(jù)可直接使用,小部分結(jié)構(gòu)化數(shù)據(jù)可以通過 SQL 語句完成數(shù)據(jù)的一次性轉(zhuǎn)換,絕大部分實(shí)時更新的數(shù)據(jù)仍要經(jīng)過 ETL 子系統(tǒng)的長期整合,處理后的數(shù)據(jù)存入數(shù)據(jù)庫集群中,供前端使用或其他數(shù)據(jù)分析場景調(diào)用。

        3.2 詳細(xì)設(shè)計

        1.數(shù)據(jù)整合模塊

        圖1 系統(tǒng)原理Fig.1 The system principle diagram

        表2 開源爬蟲分類Table2 Types of open-source crawler

        圖2 系統(tǒng)數(shù)據(jù)處理流程Fig.2 System data processing flowchart

        系統(tǒng)中數(shù)據(jù)整合部分通過 ETL 子系統(tǒng)實(shí)現(xiàn),子系統(tǒng)采用Kettle 集群構(gòu)建,支持多種關(guān)系型數(shù)據(jù)庫作為數(shù)據(jù)源,如 Oracle、MySQL、DB2、SQL Server等,可以通過任務(wù)調(diào)度的方式來定時的獲取相關(guān)的數(shù)據(jù)。子系統(tǒng)通過 Kettle中的兩種主要腳本 job和transformation 設(shè)計數(shù)據(jù)處理流程,其核心是SQL 語句嵌入,通過在流程中融合 SQL 模板完成復(fù)雜的數(shù)據(jù)流處理,提供數(shù)據(jù)清洗、加密、去重、去漏等數(shù)據(jù)治理功能,另外結(jié)合 Kettle中的Carte 組件進(jìn)行任務(wù)監(jiān)控和異常告警,以獲取任務(wù)執(zhí)行狀態(tài)、處理異常情況。

        2.離線文件上傳

        離線數(shù)據(jù)通過文件的形式上傳到數(shù)據(jù)匯聚存儲中心,可以支持 Excel、XML 以及 CSV 等多種文件格式。主要提供兩種上傳入口:

        (1) 通過登錄數(shù)據(jù)采集模塊的WEB 界面,進(jìn)行WEB 界面直接上傳相關(guān)數(shù)據(jù)。

        (2) 通過搭建的FTP 服務(wù),將所需要上傳的資料通過 FTP 上傳到前置庫中。

        數(shù)據(jù)離線匯聚支持大附件上傳、批量上傳、斷點(diǎn)續(xù)傳等功能,同時能夠保障數(shù)據(jù)的傳輸速度和傳輸質(zhì)量。

        3.網(wǎng)絡(luò)數(shù)據(jù)采集

        互聯(lián)網(wǎng)數(shù)據(jù)采集通過建立一個可靠準(zhǔn)確高效的定向采集系統(tǒng),從指定網(wǎng)站獲取指定的數(shù)據(jù)資源。網(wǎng)頁數(shù)據(jù)采集需要經(jīng)過構(gòu)造采集模板、配置采集參數(shù)、登錄授權(quán)、URL 去重、HTML 解析和分頁數(shù)據(jù)采集等步驟來完成,主要通過模擬訪問、Crawler4j 抓取互聯(lián)網(wǎng)的數(shù)據(jù),存儲到數(shù)據(jù)匯聚存儲中心。另外需要設(shè)計實(shí)現(xiàn)站點(diǎn)管理、模板管理、定時計劃、采集規(guī)則、數(shù)據(jù)類型管理等功能用以高效采集和管理。

        4.數(shù)據(jù)匯聚存儲

        數(shù)據(jù)經(jīng)過整合重新匯聚到系統(tǒng)中,關(guān)系型數(shù)據(jù)存儲在不同節(jié)點(diǎn)的關(guān)系型數(shù)據(jù)庫中,文件類型則根據(jù)配置信息和策略,選擇不同的存儲位置和方式,在此過程中,要記錄數(shù)據(jù)的來源、獲取時間、此次交換的數(shù)據(jù)量等信息,進(jìn)行數(shù)據(jù)留痕的工作。這些過程都在運(yùn)維監(jiān)控模塊下進(jìn)行,系統(tǒng)可以記錄過程中發(fā)生的問題,并及時進(jìn)行報警提示,便于及時處理過程中發(fā)生的問題,保證存儲過程的順利進(jìn)行。對采集匯總的數(shù)據(jù),要進(jìn)行相應(yīng)的管理,包括元數(shù)據(jù)管理、目錄管理、數(shù)據(jù)資源維護(hù)管理。

        5.運(yùn)維監(jiān)控

        監(jiān)控功能是對數(shù)據(jù)獲取、治理、匯聚工作進(jìn)行監(jiān)控管理,以保證系統(tǒng)各個功能正常運(yùn)行。在海洋氣象信息管理系統(tǒng)數(shù)據(jù)采集過程中,對采集過程進(jìn)行監(jiān)控,實(shí)現(xiàn)數(shù)據(jù)采集的全流程監(jiān)督,同時提供采集異常處理機(jī)制,如采集任務(wù)中斷、采集數(shù)據(jù)失敗等相關(guān)異?,F(xiàn)象時,實(shí)現(xiàn)相關(guān)的補(bǔ)采,或通過告警的方式通知系統(tǒng)用戶等。數(shù)據(jù)采集過程的日志推送到系統(tǒng)運(yùn)營管理平臺、報錯推送到數(shù)據(jù)提供部門的代辦事宜。

        4 系統(tǒng)實(shí)現(xiàn)

        4.1 數(shù)據(jù)抽取實(shí)現(xiàn)

        數(shù)據(jù)抽取是實(shí)現(xiàn)數(shù)據(jù)治理、匯聚的前提,且抽取效率影響平臺整體實(shí)現(xiàn)效果。海洋氣象管理系統(tǒng)全天候不停歇運(yùn)轉(zhuǎn),對于數(shù)據(jù)量較大的表,無法全量抽取,只能增量抽取,而如何判斷哪些數(shù)據(jù)是增量是一個難點(diǎn)問題。主流的方法包括:時間戳、ORACLE的CDC、以及數(shù)據(jù)備份日志等。本文通過時間戳判斷增量數(shù)據(jù),設(shè)計并實(shí)現(xiàn)數(shù)據(jù)增量抽取的Kettle 作業(yè)及轉(zhuǎn)換,采用三個表來記錄數(shù)據(jù)源信息、表名信息、最后同步時間信息,三個表具體字段如表3、4、5所示。

        通過一個主作業(yè)定時執(zhí)行同步過程,作業(yè)中包含三個子轉(zhuǎn)換,主作業(yè)如圖3所示,主作業(yè)按照上述三個表對應(yīng)的字段信息循環(huán)執(zhí)行各表增量同步,每個表增量同步都需要獲取各項(xiàng)參數(shù),參數(shù)獲取如圖4所示。

        4.2 頁面開發(fā)實(shí)現(xiàn)

        系統(tǒng)前端采用PrimeNG 組件庫開發(fā),具有完善的從數(shù)據(jù)獲取到治理到存儲入庫功能,系統(tǒng)主界面如圖5所示。

        表3 數(shù)據(jù)源連接表Table3 Data source association info table

        表4 數(shù)據(jù)源表信息表Table4 Data source information table

        表5 同步時間信息表Table5 Synchronization time information table

        圖3 增量同步主作業(yè)Fig.3 Increment synchronization main task

        系統(tǒng)功能分為三大模塊:采集管理、匯聚交換、數(shù)據(jù)治理,各模塊分別完成上一小節(jié)詳細(xì)設(shè)計所述功能,另外對系統(tǒng)各功能執(zhí)行進(jìn)度進(jìn)行匯總展示,

        篇幅所限,僅就系統(tǒng)各模塊中的部分功能進(jìn)行展示。網(wǎng)頁數(shù)據(jù)采集功能如所圖6所示,配合站點(diǎn)管理、數(shù)據(jù)類型管理、采集規(guī)則管理、代理服務(wù)器管理等功能,配置采集參數(shù),新建采集任務(wù)。采集模塊還包括任務(wù)調(diào)度管理、任務(wù)列表查看等功能,可以查看所有采集任務(wù)的執(zhí)行狀態(tài),完成的訂單數(shù)量,并控制其啟停。文件保留設(shè)置則可以在存儲到期后進(jìn)行自動刪除,防止人工操作遺漏,高效利用存儲空間。

        數(shù)據(jù)治理包括去重、去漏、脫敏以及數(shù)據(jù)加密功能。去重為對包含重復(fù)字段的數(shù)據(jù)進(jìn)行處理,去漏為查證和補(bǔ)充包含空值的字段;對一些較為敏感數(shù)據(jù),可以直接供分析計算使用,但是具體數(shù)據(jù)查詢或者瀏覽的時候,需要脫敏處理,如替換部分?jǐn)?shù)據(jù)為***;對于一些非常重要敏感的數(shù)據(jù)需要進(jìn)行加密存儲,加密功能可以提供多種加密算法,需要計算或者使用數(shù)據(jù)時進(jìn)行解密即可。

        圖4 單表增量同步參數(shù)注入Fig.4 Single table incremental synchronous-parameter injection

        圖5 系統(tǒng)主界面Fig.5 Main interface of system

        圖6 互聯(lián)網(wǎng)數(shù)據(jù)采集Fig.6 Internet data collection

        圖7 數(shù)據(jù)去重Fig.7 Data deduplication

        圖7為數(shù)據(jù)去重功能。對每一個數(shù)據(jù)集,可以定義多個字段的組合,當(dāng)這些字段的值相同的時候,可以判斷為數(shù)據(jù)重復(fù),通過用戶自定義規(guī)則將多余的數(shù)據(jù)刪除或者修改其中的某些數(shù)據(jù)的值,提高數(shù)據(jù)的質(zhì)量。

        5 結(jié)束語

        本文基于海洋氣象信息化研究現(xiàn)狀,設(shè)計了海洋氣象大數(shù)據(jù)匯聚平臺,支持多途徑數(shù)據(jù)獲取,包括互聯(lián)網(wǎng)海洋氣象數(shù)據(jù)采集、海洋信息管理業(yè)務(wù)系統(tǒng)數(shù)據(jù)接入以及以文件形式存儲的大量數(shù)據(jù)導(dǎo)入,對來源眾多、結(jié)構(gòu)各異的數(shù)據(jù)進(jìn)行數(shù)據(jù)統(tǒng)一治理,根據(jù)數(shù)據(jù)類型不同分別存儲在關(guān)系型數(shù)據(jù)庫和Nosql數(shù)據(jù)庫中,并對數(shù)據(jù)處理全生命周期進(jìn)行監(jiān)控管理,針對開源ETL 工具設(shè)計實(shí)現(xiàn)了增量抽取邏輯復(fù)用,完成了海洋氣象水文等多源大數(shù)據(jù)匯聚整合,統(tǒng)一并標(biāo)準(zhǔn)化異構(gòu)數(shù)據(jù),為后續(xù)進(jìn)一步挖掘分析打下了堅(jiān)實(shí)基礎(chǔ)。

        猜你喜歡
        數(shù)據(jù)庫系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        數(shù)據(jù)庫
        財經(jīng)(2017年15期)2017-07-03 22:40:49
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        亚洲av天堂在线免费观看| 国产剧情国产精品一区| 日韩丝袜亚洲国产欧美一区| 男女性高爱潮免费观看| 国产一级在线现免费观看| 色佬易精品视频免费在线观看| 国产精品久久久三级18| 初女破初的视频| 国产精品爽爽va在线观看网站| 久久亚洲春色中文字幕久久久综合| 文字幕精品一区二区三区老狼| 精品淑女少妇av久久免费| 99久久人妻无码精品系列蜜桃| 美女草逼视频免费播放| 妃光莉中文字幕一区二区| 88久久精品无码一区二区毛片| 亚洲AV无码成人精品区天堂| 久久青青草原一区网站| 国产精品永久久久久久久久久 | 国产精品va在线播放我和闺蜜| 中文精品久久久久中文| 亚洲一区二区综合精品| 国产精品多人p群无码| 久久婷婷色综合一区二区| 亚洲熟女国产熟女二区三区| 一本久道在线视频播放| 亚洲综合国产成人丁香五月激情| 品色永久免费| 美女视频很黄很a免费国产| 日日麻批免费高清视频| 99久久精品午夜一区二区| 国产鲁鲁视频在线播放| 久久少妇呻吟视频久久久| 国产亚洲精品久久午夜玫瑰园| 无遮挡边摸边吃奶边做视频免费| 久久这里有精品国产电影网| 日日麻批免费高清视频| 成人国产精品一区二区视频| 国产亚洲视频在线观看网址| 久久这里只精品国产2| 视频一区精品中文字幕|