鐘磊
廣東邦鑫數(shù)據(jù)科技股份有限公司 廣東廣州 510310
大數(shù)據(jù)也被稱為巨量數(shù)據(jù),是指數(shù)據(jù)規(guī)模較大、在短時間內(nèi)無法進行人工截取和管理,需要通過計算機技術對數(shù)據(jù)進行處理,涵蓋大數(shù)據(jù)平臺和相關指數(shù)體系,是目前助力產(chǎn)業(yè)發(fā)展和城市建設的先進技術形式。現(xiàn)階段,大數(shù)據(jù)技術包括數(shù)據(jù)采集、預處理、挖掘和存儲等多方面內(nèi)容,數(shù)據(jù)采集主要通過傳統(tǒng)的MySQL和Oracle等數(shù)據(jù)庫,對網(wǎng)絡數(shù)據(jù)進行識別與收集,目前由于數(shù)據(jù)技術的發(fā)展,通過開源Kettle和Talend,可實現(xiàn)對主流數(shù)據(jù)庫之間的同步與集成,使得非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)得到統(tǒng)一處理,達到對本地數(shù)據(jù)資源的采集與優(yōu)化管理[1]。
海洋測繪數(shù)據(jù)種類繁多,不僅包括溫度、鹽度、深度等水文信息,也包含地址信息、生物信息以及遙感信息等,這些不同類型的數(shù)據(jù)有不同的特點,在對它們進行存儲和處理時需要考慮到它們的處理需求和存儲格式。在分析了海量的海洋測繪數(shù)據(jù)后可以發(fā)現(xiàn),海洋測繪數(shù)據(jù)的特點如下:
(1)海量。在進行海洋測繪時會有大量的監(jiān)測點,它們收集到的數(shù)據(jù)結(jié)構(gòu)復雜,而且是動態(tài)變化的,這就決定了勢必會產(chǎn)生大量的測繪數(shù)據(jù),僅僅使用本地存儲難以滿足海量數(shù)據(jù)的存儲需求。
(2)數(shù)據(jù)格式及結(jié)構(gòu)存在差異。不同的測繪數(shù)據(jù)的記錄格式是不同的,存儲結(jié)構(gòu)也隨之不同,造成測繪數(shù)據(jù)在存儲時并沒有一個統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)標準。已經(jīng)收集到的海量海洋測繪數(shù)據(jù)包含了海洋、地址、水文等多方面工作人員的辛勞汗水,所以在收集到的數(shù)據(jù)的積累、存儲等方面需要慎重考慮,需要結(jié)合海洋測繪數(shù)據(jù)的特點提高存儲、處理的高效性和安全性;另外,還需要考慮海洋測繪數(shù)據(jù)的穩(wěn)定性。海洋測繪數(shù)據(jù)的種類很多,比如海底地形數(shù)據(jù)、海岸帶航空遙感數(shù)據(jù)、海岸線測量數(shù)據(jù)等,不同種類的數(shù)據(jù)格式也存在很大的差異,這就需要對這些有差異的數(shù)據(jù)進行數(shù)據(jù)加工處理,形成標準統(tǒng)一的矢量數(shù)字海圖、航空攝影正射數(shù)字影像等。
對于采集到的海洋測繪數(shù)據(jù),一般都會先保存在本地系統(tǒng)之中,然后在大數(shù)據(jù)技術的支持下,借助Hadoop所提供的API將采集到的有關數(shù)據(jù)上傳到HDFS文件系統(tǒng)中。對于測繪過程中所布置不同的測繪點而言,在大數(shù)據(jù)技術下能夠以一個統(tǒng)一的身份將采集到的海洋測繪數(shù)據(jù)傳送到HDFS文件系統(tǒng)中,并且能夠成功上傳到HDFS文件系統(tǒng)的數(shù)據(jù)一般都是以一種透明的組織形式存在的,即HDFS文件系統(tǒng)會與本地存儲系統(tǒng)擁有一個對應的位置,而采集到的海洋測繪數(shù)據(jù)會不間斷地傳送到這個位置上,同時會按照固定的時間間隔傳送到HDFS文件系統(tǒng)中。數(shù)據(jù)傳送到HDFS文件系統(tǒng)的過程如圖1所示。
圖1 數(shù)據(jù)傳送到HDFS文件系統(tǒng)的過程圖
經(jīng)過一系列的過程將采集到的海洋測繪數(shù)據(jù)上傳到HDFS文件系統(tǒng)中后,就要面對存儲的大量的海洋測繪數(shù)據(jù)進行相應的數(shù)據(jù)挖掘分析,從而找到有價值并滿足相關需求的數(shù)據(jù)信息,而在這個過程中就會用到相應的數(shù)據(jù)挖掘工具。數(shù)據(jù)挖掘工具的管理層主要作用是用于海洋測繪數(shù)據(jù)和用戶之間進行信息交互的交互界面,相關用戶通過借助數(shù)據(jù)挖掘工具的管理層,就可以實現(xiàn)對采集到的海洋測繪數(shù)據(jù)進行上傳、下載或者瀏覽等操作,從而對數(shù)據(jù)進行有效的處理。數(shù)據(jù)挖掘工具的計算層通常會給用戶提供常用的數(shù)據(jù)挖掘分析算法,用戶通過使用相應的和數(shù)據(jù)挖掘分析算法,就可以對大量的海洋測繪數(shù)據(jù)進行相應的計算,從而得到自己需要的數(shù)據(jù)信息。而用戶通過數(shù)據(jù)挖掘工具的存儲層,可以借助HDFS文件系統(tǒng)對海洋測繪數(shù)據(jù)相關的文件進行很好的保存,并且在存儲大量的海洋測繪數(shù)據(jù)的同時,也能夠?qū)崿F(xiàn)數(shù)據(jù)的冗余備份[2]。
通常在進行數(shù)據(jù)挖掘的時候,Hadoop分布式計算平臺中的HDFS分布式文件系統(tǒng)內(nèi),并沒有與之相關的文件,這個時候就需要將海洋測繪數(shù)據(jù)上傳到HDFS文件系統(tǒng)中。在對大量的海洋測繪數(shù)據(jù)進行相應的數(shù)據(jù)挖掘后,就會得到相應的中間文件和結(jié)果文件,這兩種文件也都是保存在HDFS文件系統(tǒng)中,如果用戶想要在本地對這些文件進行訪問來獲取相應的信息,就需要再將這些文件下載到本地的文件系統(tǒng)中,然后進行相應的查詢。
由于我國的海洋面積遼闊,在進行海洋測繪的過程中就會出現(xiàn)種類繁多并且復雜的數(shù)據(jù),海量的海洋測繪數(shù)據(jù)在存儲方面也是值得重點關注的問題,而在當今計算機信息技術和物聯(lián)網(wǎng)技術快速發(fā)展的背景下,大數(shù)據(jù)技術已經(jīng)普遍的應用于社會中的多個領域,在數(shù)據(jù)的處理方面表現(xiàn)出強大的能力。