孫 偉 苗炳迪 吳二立
(1.寧波海洋研究院 浙江寧波315042;2.浙江大京生態(tài)環(huán)境科技有限公司 浙江寧波315042;3.寧波市天一測繪設(shè)計研究有限公司 浙江寧波315100)
在計算機(jī)信息技術(shù)快速發(fā)展的背景下,社會已經(jīng)進(jìn)入了信息化時代,大量的數(shù)據(jù)產(chǎn)生于社會中的各個領(lǐng)域,同時大數(shù)據(jù)技術(shù)在數(shù)據(jù)信息的處理上也得到了普遍的應(yīng)用。在對海洋資源進(jìn)行開發(fā)的過程中,對海洋環(huán)境的變化進(jìn)行有效的測繪,就需要實現(xiàn)采集、存儲和處理相應(yīng)的海洋測繪數(shù)據(jù),這時對于海量海洋測繪數(shù)據(jù)的處理和應(yīng)用也成為了越來越多學(xué)者關(guān)注的問題。隨著大數(shù)據(jù)技術(shù)的出現(xiàn),在海洋測繪數(shù)據(jù)的采集、存儲和處理方面,大數(shù)據(jù)技術(shù)都發(fā)揮著越來越重要的作用。
隨著計算機(jī)信息技術(shù)以及物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大數(shù)據(jù)技術(shù)在社會眾多領(lǐng)域中都得到了較為普遍的應(yīng)用,而在當(dāng)前環(huán)境下,應(yīng)用較為廣泛的大數(shù)據(jù)技術(shù)包括Hadoop、Hbase、Hive 等技術(shù)。其中Hadoop作為一種分布式計算平臺,其結(jié)構(gòu)中主要包含HDFS文件系統(tǒng)以及Map Re duce 計算框架,其中HDFS文件系統(tǒng)是一個并行的文件系統(tǒng),具有高擴(kuò)展性和高容錯性的功能,能夠保證分布式系統(tǒng)的正常穩(wěn)定運行和對大量的海洋測繪數(shù)據(jù)進(jìn)行存儲和管理[1]。大數(shù)據(jù)技術(shù)概述圖如圖1 所示。
圖1 大數(shù)據(jù)技術(shù)概述圖
HDFS 作為一個分布式文件系統(tǒng),其具有較好的擴(kuò)展性,在對大量的海洋測繪數(shù)據(jù)進(jìn)行存儲的時候,不再需要一個額外的服務(wù)器集中存放海洋測繪數(shù)據(jù),而是可以進(jìn)行分散存儲于系統(tǒng)的不同節(jié)點。HDFS 文件系統(tǒng)的應(yīng)用目的主要就是對海量的海洋測繪數(shù)據(jù)進(jìn)行存儲,所以對于大量的海洋測繪數(shù)據(jù),HDFS 文件系統(tǒng)能夠很好滿足其使用的需求[2]。而Hadoop 分布式計算平臺的Map Re duce 計算框架作為Hadoop 的核心組件,其作為一種并行的計算模型能夠利用大量計算機(jī)的運算處理能力,從而解決一些比較復(fù)雜的技術(shù)問題。
Hbase 作為一個分布式NoSQL 數(shù)據(jù)庫,和傳統(tǒng)的關(guān)系型數(shù)據(jù)庫具有一定的差異,其主要的目的就是處理大量的數(shù)據(jù),同時其具有非常高的數(shù)據(jù)處理能力,通常Hbase 會與HDFS 文件系統(tǒng)有效結(jié)合在一起,對海量的數(shù)據(jù)進(jìn)行相應(yīng)的處理。Hbase 中的映射表是稀疏的并且具有多維度的,數(shù)據(jù)庫中的行索引包括了行關(guān)鍵字、列關(guān)鍵字以及時間戳,數(shù)據(jù)庫中的所有數(shù)據(jù)的類型都是字符串類型。基于HDFS 文件系統(tǒng)的Hive 是一種數(shù)據(jù)倉庫框架,在其組成中包括ETL 工具,其能夠?qū)崿F(xiàn)數(shù)據(jù)的存儲管理以及查詢大型的數(shù)據(jù)集,其中對于數(shù)據(jù)集的查詢是通過相應(yīng)的HiveQL 來實現(xiàn)的。
我國具有遼闊的海洋面積以及豐富的海洋資源,在對海洋資源進(jìn)行相應(yīng)的測繪時會得到海水的溫度、鹽度以及海洋的深度等各種信息,不同類型的數(shù)據(jù)具有不同的特點,在對這些海量測繪數(shù)據(jù)進(jìn)行存儲和處理的時候,就需要對不同類型數(shù)據(jù)的處理需求以及存儲的格式進(jìn)行充分的考慮[3]。
在陸地上進(jìn)行測繪的過程中,對點三維坐標(biāo)的測量需要采用不同裝置以及利用不同的方法進(jìn)行分別測量。而在海洋測量中對船體下深度即垂直坐標(biāo)進(jìn)行測量時,需要與船體平面的位置進(jìn)行一起測量。在海洋測繪中一般不容易建立相應(yīng)的控制點,這個時候就需要盡可能的選擇相應(yīng)的海島作為監(jiān)測點,或者在海底建立相應(yīng)的控制點,具有較大的間隔距離。所以海洋測繪要比陸地測繪具有較長的測量作用距離,普通陸地的測量作用距離最長不會超過50km,而普通海洋的測量作用距離一般在50km~500km,有的甚至?xí)^1000km 的測量作用距離。
海洋的測繪與陸地的測繪進(jìn)行比較,海洋測繪會處于一種動態(tài)變化的過程,需要相關(guān)測量人員進(jìn)行不間斷的觀測,需要隨時將觀測的結(jié)果裝換成點位,與陸地觀測相比具有較低的精確性。由于海洋測繪一般具有較長的測量作用距離,所以與陸地測量相比較,在測量期間選擇的傳播信號會表現(xiàn)出一定的差異性。一般在海洋測繪過程中會使用到低頻電磁波信號,但是其傳播速度不能夠簡單的做勻速運動,所以只海水中需要選擇聲波作為信號源。
通過對大量的海洋測繪數(shù)據(jù)進(jìn)行相應(yīng)的分析,可以發(fā)現(xiàn)海洋測繪數(shù)據(jù)具有以下的一些特點:
(1)數(shù)量巨大。對海洋進(jìn)行測繪的時候需要布置大量的監(jiān)測點,而不同的監(jiān)測點所采集到的海洋數(shù)據(jù)具有較為復(fù)雜的結(jié)構(gòu),并且是處于一種動態(tài)變化的過程,這就導(dǎo)致在進(jìn)行測繪的過程中會出現(xiàn)大量的數(shù)據(jù),而面對這些海量的海洋測繪數(shù)據(jù),僅僅使用本地存儲已經(jīng)很難滿足大量數(shù)據(jù)的存儲要求。
(2)海洋測繪數(shù)據(jù)的結(jié)構(gòu)和格式存在一定的差異。在進(jìn)行海洋測繪的時候會使用到大量的監(jiān)測點,而對于不同的測繪數(shù)據(jù),其記錄格式也是不同的,同時其存儲結(jié)構(gòu)也會發(fā)生相應(yīng)的變化,這就造成了大量的海洋測繪數(shù)據(jù)并沒有一個統(tǒng)一規(guī)范的數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)來進(jìn)行相應(yīng)的存儲。
在采集到的大量的海洋測繪數(shù)據(jù)中,一般都包含地址以及水文等多個方面的數(shù)據(jù)信息,所以在對采集到的數(shù)據(jù)進(jìn)行相應(yīng)的積累、存儲時就需要進(jìn)行特別的考慮,要充分考慮海洋測繪數(shù)據(jù)的不同特點,通過利用相應(yīng)的技術(shù)來提高數(shù)據(jù)存儲以及處理的效率,同時也要保證數(shù)據(jù)的安全性,以及確保海洋測繪數(shù)據(jù)的穩(wěn)定性。不同于以往的單一的海洋測繪,現(xiàn)如今的海洋測繪會采集到種類繁多的測繪數(shù)據(jù),在這些數(shù)據(jù)中一般包括海底的地形數(shù)據(jù)、海岸帶的遙感數(shù)據(jù)以及海岸線的測量數(shù)據(jù)等。對于不同種類的數(shù)據(jù)一般都具有不同的數(shù)據(jù)特點,在對這些數(shù)據(jù)進(jìn)行處理的時候就需要充分考慮到數(shù)據(jù)之間存在的差異性。
對于采集到的海洋測繪數(shù)據(jù),一般都會先保存在本地系統(tǒng)之中,然后在大數(shù)據(jù)技術(shù)的支持下,借助Hadoop 所提供的API 將采集到的有關(guān)數(shù)據(jù)上傳到HDFS 文件系統(tǒng)中。對于測繪過程中所布置不同的測繪點而言,在大數(shù)據(jù)技術(shù)下能夠以一個統(tǒng)一的身份將采集到的海洋測繪數(shù)據(jù)傳送到HDFS 文件系統(tǒng)中,并且能夠成功上傳到HDFS 文件系統(tǒng)的數(shù)據(jù)一般都是以一種透明的組織形式存在的,即HDFS 文件系統(tǒng)會與本地存儲系統(tǒng)擁有一個對應(yīng)的位置,而采集到的海洋測繪數(shù)據(jù)會不間斷地傳送到這個位置上,同時會按照固定的時間間隔傳送到HDFS 文件系統(tǒng)中[4]。數(shù)據(jù)傳送到HDFS 文件系統(tǒng)的過程如圖2所示。
圖2 數(shù)據(jù)傳送到HDFS 文件系統(tǒng)的過程圖
經(jīng)過一系列的過程將采集到的海洋測繪數(shù)據(jù)上傳到HDFS 文件系統(tǒng)中后,就要面對存儲的大量的海洋測繪數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)挖掘分析,從而找到有價值并滿足相關(guān)需求的數(shù)據(jù)信息,而在這個過程中就會用到相應(yīng)的數(shù)據(jù)挖掘工具。
數(shù)據(jù)挖掘工具的管理層主要作用是用于海洋測繪數(shù)據(jù)和用戶之間進(jìn)行信息交互的交互界面,相關(guān)用戶通過借助數(shù)據(jù)挖掘工具的管理層,就可以實現(xiàn)對采集到的海洋測繪數(shù)據(jù)進(jìn)行上傳、下載或者瀏覽等操作,從而對數(shù)據(jù)進(jìn)行有效的處理。數(shù)據(jù)挖掘工具的計算層通常會給用戶提供常用的數(shù)據(jù)挖掘分析算法,用戶通過使用相應(yīng)的和數(shù)據(jù)挖掘分析算法,就可以對大量的海洋測繪數(shù)據(jù)進(jìn)行相應(yīng)的計算,從而得到自己需要的數(shù)據(jù)信息。而用戶通過數(shù)據(jù)挖掘工具的存儲層,可以借助HDFS 文件系統(tǒng)對海洋測繪數(shù)據(jù)相關(guān)的文件進(jìn)行很好的保存,并且在存儲大量的海洋測繪數(shù)據(jù)的同時,也能夠?qū)崿F(xiàn)數(shù)據(jù)的冗余備份。
通常在進(jìn)行數(shù)據(jù)挖掘的時候,Hadoop 分布式計算平臺中的HDFS 分布式文件系統(tǒng)內(nèi),并沒有與之相關(guān)的文件,這個時候就需要將海洋測繪數(shù)據(jù)上傳到HDFS 文件系統(tǒng)中。在對大量的海洋測繪數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)挖掘后,就會得到相應(yīng)的中間文件和結(jié)果文件,這兩種文件也都是保存在HDFS 文件系統(tǒng)中,如果用戶想要在本地對這些文件進(jìn)行訪問來獲取相應(yīng)的信息,就需要再將這些文件下載到本地的文件系統(tǒng)中,然后進(jìn)行相應(yīng)的查詢[5]。
由于我國的海洋面積遼闊,在進(jìn)行海洋測繪的過程中就會出現(xiàn)種類繁多并且復(fù)雜的數(shù)據(jù),海量的海洋測繪數(shù)據(jù)在存儲方面也是值得重點關(guān)注的問題,而在當(dāng)今計算機(jī)信息技術(shù)和物聯(lián)網(wǎng)技術(shù)快速發(fā)展的背景下,大數(shù)據(jù)技術(shù)已經(jīng)普遍的應(yīng)用于社會中的多個領(lǐng)域,在數(shù)據(jù)的處理方面表現(xiàn)出強(qiáng)大的能力。
在本文中介紹了在海洋測繪過程中所應(yīng)用到的大數(shù)據(jù)技術(shù),對目前情況下常常用到的大數(shù)據(jù)技術(shù)做了相應(yīng)的介紹,其中應(yīng)用最廣泛的是大數(shù)據(jù)技術(shù)是Hadoop 技術(shù)。用戶可以很好地對采集到的海洋測繪數(shù)據(jù)進(jìn)行存儲、處理等操作,在海洋測繪數(shù)據(jù)的處理上表現(xiàn)出了很大的優(yōu)勢。本研究結(jié)論針對海量的海洋測繪數(shù)據(jù)所存在的復(fù)雜性、異構(gòu)性,采用具有并行存儲、分布數(shù)計算等特點的大數(shù)據(jù)技術(shù),能夠幫助用戶有效地解決海洋測繪數(shù)據(jù)所存在的問題,從而為海洋資源的開發(fā)和利用提供相應(yīng)的保障。