黃 穎,謝陽生
(1.北京林業(yè)大學水土保持學院,北京 100083;2.中國林業(yè)科學研究院資源信息研究所,北京 100091)
全國林業(yè)資源數(shù)據(jù)集群存儲技術(shù)研究
黃 穎1,2,謝陽生2
(1.北京林業(yè)大學水土保持學院,北京 100083;2.中國林業(yè)科學研究院資源信息研究所,北京 100091)
為解決全國大規(guī)模一體化林業(yè)資源管理,設計了適用于全國林業(yè)資源數(shù)據(jù)的分布式空間數(shù)據(jù)存儲系統(tǒng)。通過數(shù)據(jù)分塊、索引分級、集群合并,將各省和國家的林業(yè)資源數(shù)據(jù)集群在邏輯上合并成一個大數(shù)據(jù)集群。分布式空間數(shù)據(jù)存儲系統(tǒng)的應用和全國數(shù)據(jù)集群的合并加快了數(shù)據(jù)處理速度,統(tǒng)一了數(shù)據(jù)管理過程,建立了全向的并發(fā)數(shù)據(jù)通道。為實現(xiàn)林業(yè)資源數(shù)據(jù)的全國一體化應用做了積極探索。
林業(yè)資源;大數(shù)據(jù);集群數(shù)據(jù);集群數(shù)據(jù)存儲;林地一張圖
全國林業(yè)資源數(shù)據(jù)的一體化應用是林業(yè)信息化發(fā)展的趨勢。目前我國的林業(yè)資源數(shù)據(jù)分散存儲在各地分別管理和應用,難以實現(xiàn)林業(yè)資源數(shù)據(jù)的一體化應用。在存儲和管理林業(yè)資源數(shù)據(jù)的部門中,多數(shù)將這些數(shù)據(jù)存儲在單一數(shù)據(jù)庫中,而且數(shù)據(jù)塊大小沒有統(tǒng)一標準,實際運行中訪問大量的小數(shù)據(jù)塊或讀取過大的數(shù)據(jù)塊,都會導致系統(tǒng)速度急劇下降。有的部門由于數(shù)據(jù)容量的問題將數(shù)據(jù)塊存儲在磁盤陣列中,這樣雖擴大了存儲量,但受限于硬件接口的吞吐能力,不能滿足大規(guī)模并發(fā)處理的需求。在數(shù)據(jù)的一體化應用上,一些專家學者借助數(shù)據(jù)平臺解決跨省數(shù)據(jù)訪問的問題[1-4]。這樣能以統(tǒng)一的方式訪問數(shù)據(jù),但數(shù)據(jù)經(jīng)過多層包裝轉(zhuǎn)換,會產(chǎn)生額外的時間開銷。在數(shù)據(jù)管理上,單一數(shù)據(jù)庫擴容及數(shù)據(jù)遷移的成本也非常高[5-7]。
要解決這些問題只能改變數(shù)據(jù)的訪問機制,筆者分析了林業(yè)資源數(shù)據(jù)構(gòu)成、存儲及應用特點以及數(shù)據(jù)集群的構(gòu)成,提出將國家級和省級的數(shù)據(jù)在集群內(nèi)按地理區(qū)域、時間和類型進行分類,將數(shù)據(jù)塊按統(tǒng)一大小分割后均勻分布存儲在大量的數(shù)據(jù)服務器上,每個數(shù)據(jù)服務器上都運行獨立的數(shù)據(jù)庫,然后建立數(shù)據(jù)、數(shù)據(jù)塊索引[8-10],在不改變底層數(shù)據(jù)庫軟件結(jié)構(gòu)的基礎(chǔ)上實現(xiàn)數(shù)據(jù)處理過程的并發(fā)處理,最后通過索引同步將國家和各省的數(shù)據(jù)集群在邏輯上合并成一個大數(shù)據(jù)集群。實現(xiàn)了數(shù)據(jù)集群間的全向、并發(fā)的數(shù)據(jù)交互,大幅提高了數(shù)據(jù)處理速度,實現(xiàn)了國家和省級數(shù)據(jù)的統(tǒng)一管理。
1 )林業(yè)資源數(shù)據(jù)構(gòu)成。林業(yè)資源數(shù)據(jù)從林業(yè)業(yè)務的角度主要由森林資源、濕地、荒漠化和生物多樣性四大類數(shù)據(jù)構(gòu)成。其中森林資源、濕地和荒漠化是連續(xù)或區(qū)域集中連續(xù)的數(shù)據(jù),從全國的范圍來說,數(shù)據(jù)呈現(xiàn)連續(xù)且規(guī)模大的特點。例如全國林地“一張圖”中所使用的全國林地資源數(shù)據(jù),數(shù)據(jù)量達到12.4 TByte。而生物多樣性數(shù)據(jù)則呈現(xiàn)數(shù)據(jù)分散且數(shù)據(jù)多的特點。因此從數(shù)據(jù)的管理上,林業(yè)資源數(shù)據(jù)構(gòu)成表現(xiàn)出兩種特點:數(shù)據(jù)文件少,但數(shù)據(jù)體量大;數(shù)據(jù)文件數(shù)量多,但數(shù)據(jù)分散。
2 )林業(yè)資源數(shù)據(jù)存儲及應用特點。從數(shù)據(jù)存儲的角度,目前國家級林業(yè)資源數(shù)據(jù)主要集中在國家林業(yè)局及四大直屬院的相關(guān)部門中存儲和管理,省級林業(yè)資源數(shù)據(jù)有的相對集中存儲于省林業(yè)廳信息中心及省級林業(yè)規(guī)劃部門,同時也有的分散于省級各業(yè)務部門。在應用上,由于國家、各省及各部門信息化程度的不同,數(shù)據(jù)的應用程度也有區(qū)別。信息化程度相對較高的國家級及省級單位,已經(jīng)形成數(shù)據(jù)集群,能對數(shù)據(jù)庫進行一定程度的并發(fā)訪問,但并發(fā)量有限。
3 )林業(yè)資源數(shù)據(jù)集群構(gòu)成。目前的數(shù)據(jù)集群一般由應用服務器、功能服務器、數(shù)據(jù)庫服務器、磁盤陣列及三層內(nèi)部交換網(wǎng)絡構(gòu)成。核心服務器通常處于同一網(wǎng)段中,通過千兆局域網(wǎng)或光纖連接。磁盤陣列一般會進行數(shù)據(jù)冗余保障數(shù)據(jù)安全,服務器進行多機負載均衡提高并發(fā)性能,通過雙、多機備份保障應用穩(wěn)定。隨著林業(yè)專網(wǎng)建設的推進,目前已有一些國家級和省級單位接入專網(wǎng),實現(xiàn)了數(shù)據(jù)的互通。
整體而言,我國森林資源數(shù)據(jù)類型多、總量大、存儲分散,各級管理單位有一定的硬件基礎(chǔ),單位之間也有一定的網(wǎng)絡連通條件,這些是全國林業(yè)資源數(shù)據(jù)一體化應用的基礎(chǔ)。
針對目前全國林業(yè)資源數(shù)據(jù)的存儲、應用及管理情況,為解決全國大規(guī)模一體化林業(yè)資源數(shù)據(jù)管理,筆者設計了分布式空間數(shù)據(jù)存儲系統(tǒng)管理全國的林業(yè)資源數(shù)據(jù),通過數(shù)據(jù)分塊、分級索引和集群合并解決這些問題。
圖1 分布式空間數(shù)據(jù)存儲系統(tǒng)與單庫存儲的比較Fig.1 Comparison of distributed spatial data storage system and single database storage
分布式空間數(shù)據(jù)存儲系統(tǒng)與目前常用的單庫存儲模式不同,它在多個數(shù)據(jù)庫實例上同時處理數(shù)據(jù),數(shù)據(jù)塊分布在多臺數(shù)據(jù)服務器上。如圖1所示,右側(cè)為分布式空間數(shù)據(jù)存儲系統(tǒng),數(shù)據(jù)處理在多個數(shù)據(jù)庫實例中同時進行,數(shù)據(jù)庫軟件可從多個數(shù)據(jù)服務器上同時讀取數(shù)據(jù)。
應用分布式空間數(shù)據(jù)存儲系統(tǒng),首先要將數(shù)據(jù)進行分塊存儲。數(shù)據(jù)分塊是指將數(shù)據(jù)分類后,分成相同大小的數(shù)據(jù)塊,然后均勻分布存儲在所有的數(shù)據(jù)服務器上。分布存儲相同大小的數(shù)據(jù)塊可以提高單機讀取速度,也是數(shù)據(jù)庫軟件分布管理數(shù)據(jù)塊的基礎(chǔ)。在數(shù)據(jù)處理過程中,要訪問在磁盤中大小不同的數(shù)據(jù)塊就必須支持隨機讀寫,而訪問固定大小的數(shù)據(jù)塊則只需要支持順序讀寫。隨機讀寫過程涉及的數(shù)據(jù)操作比順序讀寫過程復雜得多,因此,在數(shù)據(jù)處理過程中減少數(shù)據(jù)操作耗時,能在很大程度上提高單次數(shù)據(jù)處理的速度,數(shù)據(jù)量越大,則速度差別越明顯。數(shù)據(jù)庫軟件可基于分布式文件存儲系統(tǒng)[11,12]管理分布存儲的數(shù)據(jù)塊。
將需要存儲的數(shù)據(jù)根據(jù)時間、地域、圖層分類后按照固定大小M分塊。如圖2所示,由于數(shù)據(jù)塊大小不可能都被M整除,分割后每類數(shù)據(jù)都可能產(chǎn)生一定的剩余小塊數(shù)據(jù)。為了能通過順序讀寫同一類數(shù)據(jù),這些零散的數(shù)據(jù)不能混合,并且剩余數(shù)據(jù)不管大小都必須占用M大小的存儲空間。為了在應用中盡可能并發(fā)處理數(shù)據(jù),同類、連續(xù)的數(shù)據(jù)塊必須盡可能均勻地分布在不同的數(shù)據(jù)服務器上。
圖2 數(shù)據(jù)塊分割過程Fig.2 Process of data block partition
數(shù)據(jù)塊大小M在實際運行環(huán)境中通過測試決定。實際情況較為復雜不可能通過公式計算出M的大小,只能在M的取值范圍內(nèi)驗證測試一些取值,然后根據(jù)測試結(jié)果選取比較合適的值。假設在實際運行環(huán)境中發(fā)起一次網(wǎng)絡連接的最長需時為t(s),最慢的服務器平均每秒能處理Vs(MByte)的數(shù)據(jù),網(wǎng)絡中平均每秒能傳輸Vn(MByte)的數(shù)據(jù),則M>t。M太小,則新建網(wǎng)絡連接的時間可能大于傳輸文件的時間開銷,處理數(shù)據(jù)所需的總時間反而增加;M太大,則處理時間接近傳輸時間,總體性能沒有得到提升。在筆者的測試環(huán)境中,選取的文件塊大小M為64 MByte。
數(shù)據(jù)分布存儲到大量的數(shù)據(jù)服務器后,業(yè)務系統(tǒng)在處理數(shù)據(jù)時,必須知道需要訪問的數(shù)據(jù)服務器。因此,在分布式空間數(shù)據(jù)存儲系統(tǒng)中需要主服務器對數(shù)據(jù)、數(shù)據(jù)塊建立索引。文獻[13]為分布存儲的林業(yè)資源數(shù)據(jù)管理設計了一種快速索引,該索引分為在主服務器索引和數(shù)據(jù)節(jié)點索引兩級,結(jié)構(gòu)上都由一棵SB樹和一棵RQ樹構(gòu)成,以實現(xiàn)空間與屬性數(shù)據(jù)的分布式存儲并行訪問。對分布式存儲的數(shù)據(jù)塊建立分級快速索引后,業(yè)務系統(tǒng)能通過主服務器上的第1級索引快速找到數(shù)據(jù)所在的數(shù)據(jù)服務器,并通過數(shù)據(jù)服務器上建立的第2級索引,快速判斷自己是否存有所需數(shù)據(jù)。經(jīng)過兩級索引的過濾,業(yè)務系統(tǒng)可同時向存在所需數(shù)據(jù)的多個數(shù)據(jù)服務器發(fā)送數(shù)據(jù)請求,同時避免在不存在所需數(shù)據(jù)的數(shù)據(jù)服務器中盲目查詢而影響系統(tǒng)的整體效率。
經(jīng)過數(shù)據(jù)文件分塊和分級索引的建立,林業(yè)資源數(shù)據(jù)在集群內(nèi)可以進行統(tǒng)一管理并在機制上解決并發(fā)處理問題。之后是通過國家、省級數(shù)據(jù)集群的合并解決全國一體化應用的問題。
數(shù)據(jù)集群合并的過程如圖3所示,已經(jīng)進行數(shù)據(jù)分塊并建立了數(shù)據(jù)索引的省級數(shù)據(jù)集群和國家級的數(shù)據(jù)集群,其主服務器通過林業(yè)專網(wǎng)遠程實現(xiàn)索引同步。在進行索引同步后,網(wǎng)絡中的所有主服務器都將同步存儲全國所有的數(shù)據(jù)索引,形成全國的主服務器群,物理分布的所有數(shù)據(jù)集群將在邏輯上形成全國的大數(shù)據(jù)集群。應用程序可通過任一主服務器獲取到全國所有的數(shù)據(jù)文件訪問地址,并同時在全國所有的數(shù)據(jù)服務器上處理數(shù)據(jù)。
圖3 集群合并過程Fig.3 Process of clustermerging
為了驗證分布式空間數(shù)據(jù)存儲系統(tǒng)的效果,筆者設置了5臺服務器進行測試,其中一臺使用較高配置,另外4臺配置使用相對較低的配置。首先按傳統(tǒng)方式,用配置較高的服務器安裝數(shù)據(jù)庫軟件和空間數(shù)據(jù)引擎,數(shù)據(jù)存儲在真實的磁盤陣列中,其次依次記錄查詢從50~10 000條林地小班邊界所需的時間,每條小班邊界數(shù)據(jù)包含約85個字段的屬性數(shù)據(jù);然后用筆者所建分布式空間數(shù)據(jù)存儲系統(tǒng),用配置較高的服務器作為主服務器,另外4臺服務器作為數(shù)據(jù)服務器,記錄查詢相同數(shù)據(jù)所需時間。測試結(jié)果如表1所示。
表1 兩種存儲方式的處理時間對比Tab.1 Comparison of processing time of two types of storage
結(jié)果表明,在查詢的數(shù)據(jù)量達到2007后,筆者所述分布式空間數(shù)據(jù)存儲系統(tǒng)處理速度優(yōu)于單庫存儲方式,處理的數(shù)據(jù)量越大,優(yōu)勢越明顯。
通過測試驗證后,將筆者設計的分布式空間數(shù)據(jù)存儲系統(tǒng)應用于管理全國林地保護利用規(guī)劃數(shù)據(jù),建立了全國林地一張圖管理系統(tǒng),成功實現(xiàn)全國林地數(shù)據(jù)的統(tǒng)一管理以及快速的跨省數(shù)據(jù)訪問,系統(tǒng)界面如圖4所示。
圖4 全國林地一張圖管理系統(tǒng)Fig.4 National forestry land resourcesmanagement system
筆者設計的分布式空間數(shù)據(jù)存儲系統(tǒng)在林地保護利用規(guī)劃數(shù)據(jù)的管理上得到了良好的應用,進一步接入森林資源、濕地、荒漠化和生物多樣性等數(shù)據(jù),可實現(xiàn)對全國林業(yè)資源數(shù)據(jù)的統(tǒng)一管理和一體化應用。分布存儲數(shù)據(jù)塊并通過兩級索引進行管理和訪問,可以解決數(shù)據(jù)體量過大和數(shù)據(jù)零散導致的性能下降問題,能快速完成數(shù)據(jù)庫擴容和遷移,為大規(guī)模并發(fā)計算提供支持。備份數(shù)據(jù)塊和大量的數(shù)據(jù)庫實例能保障數(shù)據(jù)的安全和服務的不間斷。合并數(shù)據(jù)集群可以全面管理調(diào)度在各地存儲的數(shù)據(jù),實現(xiàn)全向的并發(fā)操作,真正實現(xiàn)林業(yè)資源數(shù)據(jù)的全國一體化應用。
該分布式空間數(shù)據(jù)存儲系統(tǒng)底層是支持分布式文件存儲系統(tǒng)的關(guān)系型數(shù)據(jù)庫,需要空間數(shù)據(jù)引擎支持空間數(shù)據(jù)的存儲管理。將來可以進一步研究面向?qū)ο髷?shù)據(jù)庫對空間數(shù)據(jù)分布存儲的支持,同時也能通過在數(shù)據(jù)庫內(nèi)建立動態(tài)空間索引,進一步加快數(shù)據(jù)的處理速度。
[1]張冬有,臧淑英,馮仲科.黑龍江省林業(yè)地理信息公共服務平臺設計[J].北京林業(yè)大學學報,2007,29(2):26-30.
ZHANG Dongyou,ZANG Shuying,F(xiàn)ENG Zhongke.Design of Forestry Geographic Information Public Service Platform in Heilongjiang Province[J].Journal of Beijing Forestry University,2007,29(2):26-30.
[2]龐麗峰,唐小明,劉鵬舉.基于WebGIS省級林業(yè)信息共享平臺的研發(fā)[J].西北林學院學報,2011,26(2):180-184.
PANG Lifeng,TANG Xiaoming,LIU Pengju.Development of the Provincial Forestry Information Sharing Platform Based on WebGIS[J].Journal of Northwest Forestry University,2011,26(2):180-184.
[3]田波,丁麗霞,周云軒,等.多層分布式林業(yè)信息服務平臺的構(gòu)建[J].浙江林學院學報,2006,23(4):429-434.
TIAN Bo,DING Lixia,ZHOU Yunxuan,et al.Construction of a Multi-Layered Distributed Forestry Information Service Platform[J].Journal of Zhejiang Forestry College,2006,23(4):429-434.
[4]張旭,李增元,鄧廣,等.數(shù)字林業(yè)平臺技術(shù)研究與實現(xiàn)[J].林業(yè)科學,2006,42(1):37-40.
ZHANG Xu,LI Zengyuan,DENG Guang,et al.Research and Implementation on Digital Forestry Platform [J].Scientia Silvae Sinicae,2006,42(1):37-40.
[5]張廣艷,丘建平.分級存儲系統(tǒng)中一種數(shù)據(jù)自動遷移方法[J].計算機研究與發(fā)展,2012,49(8):1804-1810.
ZHANG Guangyan,QIU Jianping.An Approach for Migrating Data Adaptively in Hierarchical Storage Systems[J].Journal of Computer Research and Development,2012,49(8):1804-1810.
[6]NAHAR P,JOSHI A,SAUPP A.Cloud Computing in Emerging Markets(CCEM) [C]∥2012 IEEE International Conference.Waltham,MA:[s.n.],2012:11-12.
[7]ADAM JACOBS.The Pathologies of Big Data[J].Communications of the ACM,2009,52(8):36-44.
[8]SANJAY GHEMAWAT,HOWARD GOBIOFF,SHUN-TAK LEUNG.The Google File System[C]∥19th ACM Symposium on Operating Systems Principles.Lake George,NY:[s.n.],2003.
[9]FRANKSCHMUCK,ROGER HASKIN.GPFS:A Shared-Diskfile System for Large Computing Clusters[C]∥Proceedings of the First USENIX Conference on File and Storage Technologies.Monterey,California:[s.n.],2002.
[10]DHRUBA BORTHAKUR.The Hadoop Distributed File System:Architecture and Design[M].[S.l.]:The Apache Software Foundation,2007.
[11]何林幫,李鋼,王孝強,等.在Unix與Oracle環(huán)境下ArcSDE的優(yōu)化[J].測繪科學,2012,37(3):178-180.
HE Linbang,LIGang,WANG Xiaoqiang,et al.ArcSDEOptimization in the Unix and Oracle Environment[J].Science of Surveying and Mapping,2012,37(3):178-180.
[12]師洪波,吳振新.基于HDFS的分布式長期保存系統(tǒng)實現(xiàn)研究[J].圖書館學研究,2012(1):29-35.
SHIHongbo,WU Zhenxin.A Study of Distributed Long-Term Preservation System Based on HDFS[J].Research on Library Science,2012(1):29-35.
[13]李惺穎,謝陽生,唐小明,等.林業(yè)資源數(shù)據(jù)集群的快速索引設計[J].吉林大學學報:理學版,2013,51(6):1111-1117.
LIXingying,XIE Yangsheng,TANG Xiaoming,etal.Design of Fast Index for Forest Resources Data Cluster[J].Journal of Jilin University:Science Edition,2013,51(6):1111-1117.
Study of Data Cluster Storage Technology of National Forestry Resources
HUANG Ying1,2,XIE Yangsheng2
(1.School of Soil and Water Conservation,Beijing Forestry University,Beijing 100083,China;2.Research Institute of Resource and Information,Chinese Academy of Forestry,Beijing 100091,China)
In order to solve large-scale integration of national forest resourcemanagement,a distributed spatial data storage system suitable for forestry resources data is designed.Through three steps,block data files,index classification and merge cluster,without changing the underlying database software structure,provinces'and national's data clusters are logically combined into a whole big data cluster.Application of the distributed spatial data storage system and merging of clusters increase the speed of data processing,unifiy data management process,establish omnidirectional concurrency data channel,is an active exploration for realizing forestry resources data for national integration application.
forestry resources;big data;data cluster;cluster data storage;forestry land resources on singlemap
TP311
A
1671-5896(2014)03-0316-05
2014-03-04
中央級公益性科研院所基本科研業(yè)務費專項基金資助項目(IFRIT201101);林業(yè)公益性科研專項基金資助項目(201304215)
黃穎(1989— ),女,四川宜賓人,北京林業(yè)大學碩士研究生,主要從事GIS開發(fā)與應用研究,(Tel)86-18600838756(E-mail)cafhuangying@gmail.com;通訊作者:謝陽生(1975— ),女,貴陽人,中國林業(yè)科學研究院助理研究員,博士,主要從事GIS開發(fā)與應用研究,(Tel)86-010-62888453(E-mail)Xieys@caf.ac.cn。
劉東亮)