劉云峰,李發(fā)紅,曹廣強
(1. 國家測繪地理信息局第一航測遙感院,陜西 西安 710054; 2. 地理國情監(jiān)測國家測繪地理信息局工程技術(shù)研究中心,陜西 西安 710054)
Hadoop框架下海量影像數(shù)據(jù)庫管理系統(tǒng)的研究與實現(xiàn)
劉云峰1,2,李發(fā)紅1,曹廣強1
(1. 國家測繪地理信息局第一航測遙感院,陜西 西安 710054; 2. 地理國情監(jiān)測國家測繪地理信息局工程技術(shù)研究中心,陜西 西安 710054)
針對傳統(tǒng)影像管理方式不能進(jìn)行T級及以上量級影像數(shù)據(jù)管理的難題,基于開源分布式云平臺Hadoop框架,研究設(shè)計了云計算環(huán)境下的遙感影像數(shù)據(jù)組織模型(RSC-DOM),利用鑲嵌數(shù)據(jù)集技術(shù)、影像無縫集成技術(shù)等多種新技術(shù),構(gòu)建了海量影像數(shù)據(jù)庫管理系統(tǒng),實現(xiàn)了海量影像數(shù)據(jù)的高效組織、管理及應(yīng)用。
Hadoop框架;鑲嵌數(shù)據(jù)集;影像數(shù)據(jù)庫
遙感技術(shù)的發(fā)展和應(yīng)用使得獲取同一地區(qū)的多個平臺、多種傳感器、不同分辨率、不同時相的遙感影像數(shù)據(jù)越來越多,同時集群式影像處理系統(tǒng)可以快速地進(jìn)行影像處理,如何有效組織和管理這些不同尺度的海量成果影像數(shù)據(jù)是影像高效應(yīng)用的前提。
傳統(tǒng)影像數(shù)據(jù)管理的主要方法是采用空間數(shù)據(jù)引擎技術(shù),其實質(zhì)是位于客戶端和服務(wù)器端之間的中間件,其管理能力只能達(dá)到百GB級,對于管理更大量級的多源海量影像數(shù)據(jù)顯得無能為力。本文從管理海量的航空影像和衛(wèi)星影像成果的實際需求出發(fā),基于開源分布式云平臺Hadoop框架,利用多種影像處理新技術(shù)研發(fā)了能對T級及以上量級影像數(shù)據(jù)進(jìn)行高效存儲、管理和應(yīng)用的海量影像數(shù)據(jù)庫管理系統(tǒng)。
海量影像數(shù)據(jù)庫管理系統(tǒng)主要管理的是成果影像數(shù)據(jù),支持海量、多分辨率、多波段影像的存儲和管理;可以對數(shù)據(jù)庫的影像進(jìn)行統(tǒng)計分析、疊加分析、動態(tài)融合處理等;支持快速定位和提取指定區(qū)域、指定類型的影像等。該系統(tǒng)包括4個主要的方面,分別為影像數(shù)據(jù)庫、影像管理、影像共享、影像應(yīng)用。系統(tǒng)總體架構(gòu)如圖1所示。
1. 影像數(shù)據(jù)庫
影像數(shù)據(jù)庫是整個系統(tǒng)的數(shù)據(jù)“倉庫”,可以永久保存所有入庫的成果影像數(shù)據(jù),同時通過影像入庫功能不定期地寫入數(shù)據(jù),使得數(shù)據(jù)庫不斷進(jìn)行更新。基于Hadoop架構(gòu)中HDFS對影像數(shù)據(jù)進(jìn)行分布式存儲,并生成相應(yīng)的鑲嵌數(shù)據(jù)集,有利于分類整理海量影像數(shù)據(jù),并提高查詢、顯示效率。
圖1 系統(tǒng)總體架構(gòu)
2. 影像管理
影像管理在整個系統(tǒng)的運行過程中起管理控制作用,按規(guī)則進(jìn)行影像入庫,同時對影像數(shù)據(jù)庫中影像生成鑲嵌數(shù)據(jù)集;處理用戶檢索請求并實施檢索過程;監(jiān)控各部分的狀態(tài)并對異常情況進(jìn)行處理;對特定存儲站點的任務(wù)進(jìn)行啟動、取消及更新,不斷優(yōu)化分配網(wǎng)絡(luò)連接資源等。
3. 影像共享
影像共享在整個系統(tǒng)中起到承上啟下的作用,主要將各種影像處理結(jié)果以服務(wù)的方式進(jìn)行發(fā)布??梢蕴峁┑貓D服務(wù),影像查詢、統(tǒng)計等服務(wù)和對鑲嵌數(shù)據(jù)集進(jìn)行疊加、全色與多光譜影像動態(tài)融合等處理服務(wù),使得影像應(yīng)用中所有請求能夠快速實現(xiàn)。
4. 影像應(yīng)用
影像應(yīng)用是整個系統(tǒng)和用戶的交互接口,通過系統(tǒng)自定義的查詢語句或命令,提交瀏覽、查詢、統(tǒng)計、分析、處理等請求。影像管理根據(jù)整個系統(tǒng)及各部分的狀態(tài)信息查找索引塊,影像應(yīng)用收集匯總后的查詢結(jié)果,通過視圖、界面、列表等多種方式呈現(xiàn)給用戶查看。
1. 數(shù)據(jù)組織模型研究與設(shè)計
采用分布式架構(gòu)中基于云計算環(huán)境的遙感影像數(shù)據(jù)組織模型(remote sensing data organization model based on cloud computing,RSC-DOM)。該模型為網(wǎng)絡(luò)中分布著多個存儲站點,存儲管理中心站點負(fù)責(zé)管理虛擬存儲空間,映射各個分布式存儲站點。中心站點靜態(tài)地將存儲系統(tǒng)劃分為M個虛擬磁盤空間(virtual disk space)。M個VDS映射到N個分布式的存儲站點上(其中N≤M),VDS和分布式存儲站點需通過中心站點上部署的映射表進(jìn)行映射關(guān)聯(lián),VDS存儲結(jié)構(gòu)如圖2所示。
圖2 VDS存儲結(jié)構(gòu)
每個VDS由一個嵌入式索引文件(embedded index file,EIF)和一個數(shù)據(jù)存儲結(jié)構(gòu)(data store infra-structure,DSI)組成。所有數(shù)據(jù)文件的屬性信息(直接尋址的路徑信息)都記錄在嵌入式索引文件EIF中,同時創(chuàng)建索引,索引文件記錄與數(shù)據(jù)的變更同步進(jìn)行。每個存儲站點實際上是一個小型的監(jiān)控管理端,不但可以管理和維護存儲在本站點所有的VDS,而且可以進(jìn)行實時的數(shù)據(jù)更新,檢索本站點上的VDS等,同時支持大流量的并發(fā)訪問,此時單個存儲站點就類似于一個存儲云端。
VDS中按照“傳感器類型衛(wèi)星類型年月...金字塔層級號被存放的目標(biāo)數(shù)據(jù)”來組織管理影像數(shù)據(jù)。解析一切來自客戶端的服務(wù)請求,根據(jù)服務(wù)請求中心站點同時給多個存儲站點下達(dá)任務(wù)命令。存儲站點收到來自于中心站點的命令后,根據(jù)命令執(zhí)行相應(yīng)的操作:檢索用戶請求的目標(biāo)數(shù)據(jù)、下載用戶請求的目標(biāo)數(shù)據(jù)、自動上傳等待存儲的數(shù)據(jù)等。各個存儲站點同時獨立執(zhí)行任務(wù),執(zhí)行任務(wù)完畢后將結(jié)果返回給服務(wù)中心,通過中心站點將最終結(jié)果反饋給用戶。
2. Hadoop框架
Hadoop是Apache基金會近年來開發(fā)的一種分布式系統(tǒng)基礎(chǔ)架構(gòu),該架構(gòu)能使用戶不了解分布式底層細(xì)節(jié),就可開發(fā)各種分布式程序,充分利用集群進(jìn)行高速運算和存儲,Hadoop的主要組成為HDFS(hadoop distributed file system)和MapReduce。
HDFS存儲Hadoop集群中全部存儲節(jié)點上的文件,對外部的客戶機而言,HDFS就像一個傳統(tǒng)的分級文件系統(tǒng)。存儲在其中的文件是由多個文件塊組成,然后將這些塊復(fù)制到多個存儲站點中。這完全不同于傳統(tǒng)的RAID架構(gòu),塊的大小(通常為64 MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議。
MapReduce是處理大量半結(jié)構(gòu)化數(shù)據(jù)集合的編程模型。MapReduce應(yīng)用程序由3部分組成:Map函數(shù)、Reduce函數(shù)和main函數(shù)。作業(yè)控制和文件輸入/輸出由main函數(shù)結(jié)合起來。同時Hadoop提供了大量的接口和抽象類,為Hadoop應(yīng)用程序開發(fā)人員提供許多工具,用于調(diào)試和性能度量等。在系統(tǒng)開發(fā)中RSC-DOM是由Hadoop架構(gòu)中的HDFS來實現(xiàn)的,HDFS有高容錯性的特點,普通硬件上就可以部署;通過高吞吐量來訪問應(yīng)用程序的數(shù)據(jù);利用MapReduce極強的并行處理大數(shù)據(jù)集的能力來實現(xiàn)影像數(shù)據(jù)的快速查詢、顯示及處理,保障海量影像數(shù)據(jù)庫管理系統(tǒng)的高效平穩(wěn)運行。
3. 鑲嵌數(shù)據(jù)集技術(shù)
鑲嵌數(shù)據(jù)集(mosaic dataset)是由Esri公司推出的管理柵格數(shù)據(jù)的影像新技術(shù),是一項由柵格數(shù)據(jù)集和柵格目錄相結(jié)合的混合技術(shù)。采用與非托管的柵格目錄相一致的方法管理柵格數(shù)據(jù),不但可以對數(shù)據(jù)集進(jìn)行索引,而且可對集合執(zhí)行查詢。
對影像生成鑲嵌數(shù)據(jù)集時,只會在空間數(shù)據(jù)庫中建立影像索引,不會對原有的影像數(shù)據(jù)進(jìn)行任何改動,該數(shù)據(jù)仍然存儲在數(shù)據(jù)庫中。此種方式充分發(fā)揮了存儲系統(tǒng)和數(shù)據(jù)庫系統(tǒng)各自的優(yōu)勢。利用這種技術(shù),鑲嵌數(shù)據(jù)集不但能夠?qū)A坑跋襁M(jìn)行管理,而且能夠通過鑲嵌視圖進(jìn)行可視化和分析,具有高級柵格查詢功能及實時處理函數(shù)功能是其最大優(yōu)勢,可用作提供影像服務(wù)。
開發(fā)中利用最新的鑲嵌數(shù)據(jù)集模型,以其為核心組織和管理數(shù)據(jù)庫中的海量影像。該模型中的動態(tài)鑲嵌和實時處理技術(shù)不僅能夠達(dá)到影像管理目的,海量影像訪問速度也極大加快,處理時間極大減少,同時減小了數(shù)據(jù)冗余。
系統(tǒng)功能設(shè)計分為影像入庫、影像管理、影像共享、影像應(yīng)用4個模塊。
1. 影像入庫
數(shù)據(jù)入庫時對各種數(shù)據(jù)類型、數(shù)據(jù)格式進(jìn)行嚴(yán)格的檢查操作,首先進(jìn)行預(yù)備入庫,各種檢查符合要求后,才能利用HDFS將影像存儲到數(shù)據(jù)庫的相應(yīng)位置。數(shù)據(jù)類型、數(shù)據(jù)格式的檢查主要是在Web頁面中完成,由專門編寫的腳本語言來實現(xiàn)這一功能,保證了數(shù)據(jù)錄入的完整性和可靠性。
2. 影像管理
影像管理采用Visual Studio 2012開發(fā)工具,Web模式進(jìn)行程序開發(fā)實現(xiàn)多種功能。影像處理主要是對影像生成鑲嵌數(shù)據(jù)集、影像動態(tài)融合、疊加分析等;影像管理主要是指影像的修改、刪除、備份等。為了防止誤刪掉影像的重要信息,造成不必要的損失,這里的刪除指的是暫時刪除而不是永久意義上的物理刪除。
3. 影像共享
影像共享基于ArcGIS Server服務(wù),將鑲嵌數(shù)據(jù)集共享。利用影像無縫集成技術(shù)、小波影像壓縮等技術(shù)將影像管理中生成的鑲嵌數(shù)據(jù)集及對鑲嵌數(shù)據(jù)集的各種操作、內(nèi)嵌的地圖等以服務(wù)的方式進(jìn)行發(fā)布,提高影像應(yīng)用的效率。
4. 影像應(yīng)用
影像應(yīng)用采用B/S架構(gòu),基于Silverlight5富互聯(lián)網(wǎng)技術(shù),開發(fā)了按區(qū)域、圖幅、傳感器類型、元數(shù)據(jù)、數(shù)據(jù)源、分辨率等10多種統(tǒng)計、查詢方式,不但方便用戶根據(jù)多種方式查詢、統(tǒng)計所需影像數(shù)據(jù),而且可以對影像相關(guān)參數(shù)進(jìn)行瀏覽、維護等。瀏覽主要是針對普通用戶而言,系統(tǒng)應(yīng)用如圖3所示。
圖3 影像比對圖
為了測試系統(tǒng)的實際性能,選取4個測區(qū)不同數(shù)據(jù)源約3 TB影像數(shù)據(jù)進(jìn)行入庫及對各種功能進(jìn)行測試,測試環(huán)境見表1。
表1 測試環(huán)境及配置
測試中影像數(shù)據(jù)可以順利進(jìn)行入庫,可以實現(xiàn)影像數(shù)據(jù)的增減,可以實現(xiàn)按照傳感器類型、影像獲取時間、太陽高度角、太陽方位角、測區(qū)、圖幅號,輸入經(jīng)緯度、繪制圖形等多種方式對成果分幅數(shù)據(jù)、成果整景數(shù)據(jù)進(jìn)行查詢、統(tǒng)計;元數(shù)據(jù)信息顯示、影像比對分析、動態(tài)融合等功能也能正常使用,系統(tǒng)運行較為穩(wěn)定,目標(biāo)功能全部實現(xiàn)。系統(tǒng)影像查詢、顯示效率見表2。
表2 影像查詢顯示效率測試表
從表2可以看出,系統(tǒng)查詢影像、顯示影像的時間完全滿足用于查詢、瀏覽的需求;系統(tǒng)對入庫影像的數(shù)據(jù)量沒有限制,只跟磁盤的容量有關(guān)系,有足夠的存儲空間即可。在區(qū)域城鄉(xiāng)規(guī)劃監(jiān)管項目測試中,利用該系統(tǒng)進(jìn)行影像數(shù)據(jù)分析、查找較傳統(tǒng)的方式可以節(jié)省至少60%的時間。
本文對云計算環(huán)境下的海量影像數(shù)據(jù)庫管理系統(tǒng)提出了一套框架設(shè)計思路,利用Hadoop架構(gòu)中的HDFS實現(xiàn)了海量遙感影像分布式存儲管理,基于鑲嵌數(shù)據(jù)集技術(shù)和富互聯(lián)網(wǎng)技術(shù)開發(fā)的海量影像數(shù)據(jù)庫管理系統(tǒng),實現(xiàn)了海量遙感影像數(shù)據(jù)的快速查詢、瀏覽、比對分析、統(tǒng)計等功能,驗證了該套設(shè)計思路的可行性。該系統(tǒng)克服了傳統(tǒng)影像管理方式的不足,提高了海量影像數(shù)據(jù)管理和利用效率,可為應(yīng)急測繪保障、地理國情監(jiān)測、影像數(shù)據(jù)資料的分析服務(wù)提供支持,對提高遙感影像管理和應(yīng)用能力具有實用價值。
[1] 楊眉,劉建軍,張元杰,等.國家級多源海量數(shù)字正射影像數(shù)據(jù)庫的設(shè)計與構(gòu)建 [J]. 測繪通報,2016(4):106-109.
[2] 胡文元.T級影像數(shù)據(jù)庫建庫方案研究[J]. 測繪通報,2009(12):46-48.
[3] 張芬,高炎.多分辨率無縫數(shù)據(jù)庫在影像數(shù)據(jù)庫系統(tǒng)中的應(yīng)用[J]. 測繪通報,2005(4):40-42.
[4] 廖安平,嚴(yán)榮華,湯海.國家基礎(chǔ)多源數(shù)字正射影像數(shù)據(jù)庫的設(shè)計與建立[J]. 地理信息世界,2006(4):10-14.
[5] 樊小泊,陳紅. 海量影像數(shù)據(jù)庫管理系統(tǒng)關(guān)鍵技術(shù)研究[J]. 地理信息世界,2006(30):10-13.
[6] 王愛玲,李京,劉素紅,等.多尺度遙感影像數(shù)據(jù)庫管理的設(shè)計與實現(xiàn)[J]. 計算機工程與應(yīng)用,2007,43(3):227-229.
[7] 陳海燕. 一種分布式大數(shù)據(jù)管理系統(tǒng)的設(shè)計與實現(xiàn)[J]. 計算機科學(xué),2014,41(11A):393-395.
[8] 王密, 龔健雅, 李德仁.大型無縫影像數(shù)據(jù)庫管理系統(tǒng)的設(shè)計與實現(xiàn)[J].武漢大學(xué)學(xué)報(信息科學(xué)版), 2001,28(5): 295-300.
[9] 林星, 張毅, 劉瑜. 基于關(guān)系數(shù)據(jù)庫的柵格數(shù)據(jù)存儲和訪問技術(shù)研究[J]. 高技術(shù)通訊, 2005, 15(1): 12-16.
[10] 劉鵬, 畢建濤, 曹彥榮,等.遙感影像數(shù)據(jù)庫引擎設(shè)計與實現(xiàn) [J].地球信息科學(xué), 2005, 7(2): 105-110.
[11] 胡金星,潘懋.空間數(shù)據(jù)庫實現(xiàn)及其集成技術(shù)要求 [J].計算機應(yīng)用研究, 2003,20(3):12-14.
[12] 郝樹魁. Hadoop HDFS和MapReduce架構(gòu)淺析 [J].郵電設(shè)計技術(shù), 2012(7):37-42.
Research and Implementation of Massive Image Database Management System Based on the Hadoop Framework
LIU Yunfeng,LI Fahong,CAO Guangqiang
2016-09-12;
測繪地理信息公益性行業(yè)科研專項(201412008)
劉云峰(1970—),男,碩士,主要從事航空攝影測量和地理信息系統(tǒng)的設(shè)計和研究工作。E-mail:3362203937@qq.com
劉云峰,李發(fā)紅,曹廣強.Hadoop框架下海量影像數(shù)據(jù)庫管理系統(tǒng)的研究與實現(xiàn)[J].測繪通報,2016(12):74-76.
10.13474/j.cnki.11-2246.2016.0405.
P237
B
0494-0911(2016)12-0074-03
修回日期:2016-11-03