文/陜西省測(cè)繪檔案資料館 施小溪
大數(shù)據(jù)處理技術(shù)在測(cè)繪地理信息檔案管理中的應(yīng)用
文/陜西省測(cè)繪檔案資料館 施小溪
隨著測(cè)繪技術(shù)的不斷進(jìn)步以及地理信息服務(wù)的社會(huì)化應(yīng)用不斷深入,測(cè)繪地理信息數(shù)據(jù)急劇增長(zhǎng),在對(duì)這些數(shù)據(jù)進(jìn)行檔案管理的時(shí)候存在著很大的難度。而隨著計(jì)算機(jī)技術(shù)的逐漸成熟,大數(shù)據(jù)處理技術(shù)被運(yùn)用在其中。本文就常見的幾種大數(shù)據(jù)處理技術(shù)進(jìn)行簡(jiǎn)要介紹,在此基礎(chǔ)上詳細(xì)闡述其在測(cè)繪地理信息檔案管理中的具體運(yùn)用。
大數(shù)據(jù)處理;地理信息檔案;管理運(yùn)用
最近幾年,大數(shù)據(jù)對(duì)我國(guó)的科學(xué)技術(shù)、經(jīng)濟(jì)發(fā)展以及社會(huì)發(fā)展等方面造成了很大的影響。大數(shù)據(jù)處理技術(shù)存在的優(yōu)勢(shì)使其在各個(gè)領(lǐng)域中被廣泛運(yùn)用,其中存在的數(shù)據(jù)儲(chǔ)存以及分析等方面的問題也逐漸突顯。在對(duì)測(cè)繪地理信息檔案進(jìn)行管理的同時(shí),也面臨了檔案內(nèi)容多以及維護(hù)成本高的情況。而使用大數(shù)據(jù)處理技術(shù)正好能有效地解決這些問題。
(一)HDFS文件管理系統(tǒng)。在大數(shù)據(jù)的發(fā)展背景下,尤其是將Hadoop作為核心的非結(jié)構(gòu)文檔分布式儲(chǔ)存文件系統(tǒng)的運(yùn)用,它能夠?yàn)闄n案管理實(shí)施出有效的解決方式。它基本上存在以下幾個(gè)特點(diǎn):其一是運(yùn)用成本低,能夠布置在比較低廉的硬件上,在系統(tǒng)中的擴(kuò)容成本比較低,在實(shí)施的時(shí)候比較簡(jiǎn)單便捷。其二是能夠支持高吞吐量以及高并發(fā)訪問運(yùn)用程序的數(shù)據(jù),而且可以使用在超大數(shù)據(jù)集群中,并且可以訪問并發(fā)量比較大的文件管理中。其三是具有很強(qiáng)的擴(kuò)張性。使用MapPeduce實(shí)行分布式運(yùn)算,在計(jì)算機(jī)集簇進(jìn)行配置數(shù)據(jù)并且進(jìn)行運(yùn)算任務(wù),這些集簇能夠便捷地?cái)U(kuò)展至數(shù)以千計(jì)的節(jié)點(diǎn)中。所以HDFS可以解決檔案管理中文檔無法進(jìn)行集中儲(chǔ)存的問題。除此之外,其中還支持了文檔、音像以及圖片等相關(guān)的格式,并且在HDFS數(shù)據(jù)庫的基礎(chǔ)上,包含了HIVE與Impala相關(guān)的結(jié)構(gòu)化數(shù)據(jù)庫,可以進(jìn)行查詢以及更新工作。
(二)云存儲(chǔ)。所謂云存儲(chǔ),是在云計(jì)算上延展出來的新概念,是一種新的網(wǎng)絡(luò)儲(chǔ)存技術(shù),經(jīng)過集群運(yùn)用、網(wǎng)絡(luò)技術(shù)或者是HDFS等相關(guān)的功能把網(wǎng)絡(luò)中多種種類的儲(chǔ)存設(shè)備經(jīng)過應(yīng)用軟件集合在一起進(jìn)行協(xié)調(diào)工作,一起對(duì)外進(jìn)行數(shù)據(jù)儲(chǔ)存與業(yè)務(wù)訪問的系統(tǒng)??偠灾?,云存儲(chǔ)是把儲(chǔ)存資源放置在云上提供人們儲(chǔ)存和提取的一種新技術(shù)。
(三)知識(shí)圖譜。作為知識(shí)圖譜,其是一種建設(shè)在圖數(shù)據(jù)基礎(chǔ)上的結(jié)構(gòu),其根本是語義網(wǎng)絡(luò)經(jīng)由節(jié)點(diǎn)與邊構(gòu)成。知識(shí)圖譜中,節(jié)點(diǎn)能夠表現(xiàn)實(shí)際世界中存在實(shí)體,每個(gè)條邊是實(shí)體和實(shí)體間的關(guān)系。知識(shí)圖譜是對(duì)關(guān)系進(jìn)行具體呈現(xiàn)的方式。它是將全部不同類型的信息連接在一起獲得關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜能夠在關(guān)系的立場(chǎng)上對(duì)問題進(jìn)行分析,在知識(shí)圖譜被逐漸運(yùn)用廣泛的情況下,很多公司都把其運(yùn)用在文檔管理中,可以有效管理文檔間關(guān)系,并且對(duì)文檔知識(shí)點(diǎn)進(jìn)行獲取,為后期的文檔管理提供支持。
(一)建設(shè)測(cè)繪地理信息檔案資源大數(shù)據(jù)處理平臺(tái)。測(cè)繪地理信息檔案資源中包含了大地測(cè)量,航空、航天攝影測(cè)量,工程測(cè)量等相關(guān)的成果檔案。除去地理坐標(biāo)信息成果以外,還包含了大量技術(shù)文檔、文本、航片以及各種視頻信息等相關(guān)的非結(jié)構(gòu)化數(shù)據(jù)。特別是歷史檔案資源,這種資源形成的年代比較遠(yuǎn),信息化程度比較低,這樣就必定會(huì)存在著大量的非結(jié)構(gòu)化數(shù)據(jù)。且目前大數(shù)據(jù)中心建設(shè)及數(shù)據(jù)共建共享戰(zhàn)略實(shí)施,對(duì)地理信息檔案進(jìn)行管理的時(shí)候,會(huì)面臨著多源異構(gòu)檔案數(shù)據(jù),其可以使用大數(shù)據(jù)處理技術(shù)構(gòu)建地理信息檔案數(shù)據(jù)處理平臺(tái)。其首先使用HadoopHDFS建設(shè)檔案管理群,因?yàn)檫@個(gè)系統(tǒng)對(duì)單一節(jié)點(diǎn)硬件資源要求低,在初級(jí)階段中可以使用檔案中存在的硬件資源建設(shè)成50到100節(jié)點(diǎn)的檔案管理集群,這個(gè)群中全部的節(jié)點(diǎn)一起工作對(duì)數(shù)據(jù)的儲(chǔ)存與計(jì)算進(jìn)行負(fù)責(zé)。在后續(xù)工作中可以依據(jù)檔案管理的實(shí)際要求,隨時(shí)實(shí)行節(jié)點(diǎn)擴(kuò)展,以此符合逐漸增長(zhǎng)的檔案數(shù)據(jù)在儲(chǔ)存空間與計(jì)算方面的要求。之后再使用Hbase數(shù)據(jù)工程將大量半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)實(shí)行處理,產(chǎn)生結(jié)構(gòu)化的數(shù)據(jù),之后存放在Hadoop數(shù)據(jù)庫中,設(shè)置HIve數(shù)據(jù)倉(cāng)庫,將結(jié)構(gòu)化數(shù)據(jù)管理入庫。經(jīng)過Hive、Hbase進(jìn)行共同運(yùn)用,以此達(dá)到結(jié)構(gòu)化和非結(jié)構(gòu)兩種地理信息進(jìn)行大量數(shù)據(jù)共同處理的目的。這樣就構(gòu)成了一個(gè)處在Hadoop、HDFS以及Hive等功能基礎(chǔ)上的完整性地理信息檔案大數(shù)據(jù)處理平臺(tái)。
(二)對(duì)測(cè)繪地理信息檔案資源數(shù)據(jù)進(jìn)行深入挖掘。目前三維激光掃描、多傳感器集成移動(dòng)測(cè)繪等技術(shù)的廣泛應(yīng)用,數(shù)據(jù)獲取手段多樣化,相關(guān)檔案資源數(shù)據(jù)逐漸增多,再加上多年積累的歷史數(shù)據(jù)檔案,構(gòu)成了大量的檔案資源。若要在其中挖掘出知識(shí)財(cái)富,單純依靠人工方式是沒有辦法完成的,要使用相關(guān)的技術(shù)來進(jìn)行,因此大數(shù)據(jù)處理技術(shù)就是最好的選擇。在大數(shù)據(jù)處理中,數(shù)據(jù)分析是其中的核心,怎樣運(yùn)用數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)將大數(shù)據(jù)實(shí)行分析,是大數(shù)據(jù)時(shí)代知識(shí)發(fā)展的關(guān)鍵方向,也是檔案管理部門進(jìn)行服務(wù)的關(guān)鍵方式。使用相關(guān)的技術(shù)對(duì)館藏中的大量多源異構(gòu)數(shù)據(jù)進(jìn)行清洗、收取以及集成等構(gòu)成一種方便分析的模式,之后載入文件系統(tǒng)數(shù)據(jù)倉(cāng)庫中,構(gòu)建一個(gè)完整測(cè)繪地理信息檔案大數(shù)據(jù)處理平臺(tái)之后,將數(shù)據(jù)實(shí)行挖掘與知識(shí)發(fā)現(xiàn)的條件已經(jīng)具備。最后再結(jié)合知識(shí)圖譜,使用ES搜索引擎對(duì)數(shù)據(jù)進(jìn)行了解,提升搜索質(zhì)量,為用戶提供更加精準(zhǔn)的信息。
大數(shù)據(jù)存在的優(yōu)勢(shì)使其在信息檔案管理中被充分使用,對(duì)大量非結(jié)構(gòu)數(shù)據(jù)處理存在很大的優(yōu)勢(shì)。在HDFS基礎(chǔ)上對(duì)數(shù)據(jù)集中存放進(jìn)行處理,使用Hadoop建設(shè)測(cè)繪地理信息檔案資源大數(shù)據(jù)處理平臺(tái)等相關(guān)的工作,以此提升測(cè)繪地理信息檔案管理工作的質(zhì)量。
[1]胡瑛.大數(shù)據(jù)處理技術(shù)在地理信息檔案管理中的應(yīng)用[J].測(cè)繪通報(bào),2016,39(9):56-58.