劉永杰,李 暉
(1.嶺南師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣東 湛江 524048;2.國(guó)家林業(yè)和草原局調(diào)查規(guī)劃設(shè)計(jì)院,北京 100714)
林地?cái)?shù)據(jù)反映了森林資源現(xiàn)狀和變化情況,是制定我國(guó)生態(tài)建設(shè)管理決策的重要依據(jù)。全國(guó)林地“一張圖”匯集了全國(guó)基礎(chǔ)地理、遙感影像、地形、林地變更調(diào)查小班數(shù)據(jù)及各類(lèi)專(zhuān)題圖,數(shù)據(jù)總量超過(guò)500TB,針對(duì)不同的林地?cái)?shù)據(jù)有不同的存儲(chǔ)管理方式。為了滿(mǎn)足林地?cái)?shù)據(jù)日常管理與應(yīng)用的需要,首先要解決的是將全國(guó)各類(lèi)林地?cái)?shù)據(jù),通過(guò)統(tǒng)一的框架進(jìn)行組織管理。這個(gè)框架要既能滿(mǎn)足林地?cái)?shù)據(jù)本身的多尺度、離散性地理空間特征,實(shí)現(xiàn)唯一性標(biāo)識(shí),即在同一空間區(qū)域的信息具有相同的標(biāo)識(shí),還要求框架能利用極微小的處理過(guò)程,以極小的代價(jià)完成數(shù)據(jù)的高效組織。
GeoSOT網(wǎng)格是程承旗等[1-2]提出的一種全球經(jīng)緯度剖分網(wǎng)格模型,它構(gòu)建了地球空間信息剖分組織體系,在此基礎(chǔ)上實(shí)現(xiàn)各類(lèi)數(shù)據(jù)統(tǒng)一的組織管理。呂雪鋒等[3-4]對(duì) GeoSOT 區(qū)位標(biāo)識(shí)編碼模型進(jìn)行了研究,分析了其特性及典型應(yīng)用方法,提出基于GeoSOT區(qū)位標(biāo)識(shí)的多源遙感數(shù)據(jù)組織方法,對(duì)遙感數(shù)據(jù)實(shí)現(xiàn)了高效、易用的組織管理;關(guān)麗等[5-6]提出基于球面剖分格網(wǎng)系統(tǒng)的矢量數(shù)據(jù)組織模型,以期更有效地存儲(chǔ)和管理大范圍多模式的矢量數(shù)據(jù);廖永豐等[7]提出了基于“空間面片“統(tǒng)一組織管理多元災(zāi)害信息數(shù)據(jù)的方法,對(duì)多元多尺度災(zāi)害信息數(shù)據(jù)進(jìn)行統(tǒng)一編碼。本文基于GeoSOT全球剖分格網(wǎng),對(duì)林地?cái)?shù)據(jù)建立一套具有全球唯一性、多尺度性和離散性的空間信息區(qū)位標(biāo)識(shí)剖分編碼模型,利用GeoSOT剖分理論框架對(duì)林地?cái)?shù)據(jù)進(jìn)行統(tǒng)一的編碼和組織管理,以期解決在林地?cái)?shù)據(jù)管理應(yīng)用中多源數(shù)據(jù)一體化組織管理、高效索引的問(wèn)題。
林地?cái)?shù)據(jù)是以高分辨率遙感影像、森林資源調(diào)查數(shù)據(jù)和基礎(chǔ)地理信息為基礎(chǔ),以林地界線為核心內(nèi)容的多源數(shù)據(jù)集合,目前基礎(chǔ)地理數(shù)據(jù)按照標(biāo)準(zhǔn)分幅和行政區(qū)劃組織管理;遙感影像數(shù)據(jù)根據(jù)影像管理要求,按照原始影像、校正影像、融合假彩色影像、融合真彩色影像進(jìn)行管理,有些按照景為單位組織,有些按照標(biāo)準(zhǔn)分幅組織,有些按照一張圖進(jìn)行組織;林地落界和林地更新數(shù)據(jù)按照行政區(qū)劃組織管理;專(zhuān)題成果數(shù)據(jù)按照現(xiàn)狀、規(guī)劃以及統(tǒng)計(jì)結(jié)果三類(lèi)管理;森林資源檔案數(shù)據(jù)按照矢量數(shù)據(jù)(征占、采伐、造林、撫育等的圖形和屬性數(shù)據(jù))、柵格數(shù)據(jù)(審批文件的掃描件、現(xiàn)場(chǎng)照片資料等);元數(shù)據(jù)等沒(méi)有統(tǒng)一的組織框架,零散以數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)管理,數(shù)據(jù)種類(lèi)多樣(包括矢量數(shù)據(jù)、柵格數(shù)據(jù)和屬性數(shù)據(jù)),尺度不同(國(guó)家、省、縣),每類(lèi)數(shù)據(jù)的存儲(chǔ)組織方式和區(qū)位標(biāo)識(shí)方式各不相同,不利于林地?cái)?shù)據(jù)的一體化組織管理。
通過(guò)對(duì)數(shù)據(jù)的分析,針對(duì)林地?cái)?shù)據(jù),采用構(gòu)建區(qū)位標(biāo)識(shí)剖分編碼來(lái)組織管理,以GeoSOT剖分網(wǎng)格作為林地?cái)?shù)據(jù)區(qū)位標(biāo)識(shí)、矢-柵數(shù)據(jù)索引、屬性及統(tǒng)計(jì)信息、文檔信息區(qū)位組織的統(tǒng)一網(wǎng)格基礎(chǔ)框架,其一體化組織機(jī)理如圖1所示。
圖1 數(shù)據(jù)組織方式
林地?cái)?shù)據(jù)空間剖分以GeoSOT剖分網(wǎng)格作為林地?cái)?shù)據(jù)區(qū)位標(biāo)識(shí)、矢-柵數(shù)據(jù)索引、屬性及統(tǒng)計(jì)信息區(qū)位組織的統(tǒng)一網(wǎng)格基礎(chǔ)框架,根據(jù)每類(lèi)數(shù)據(jù)管理上的要求,具體定義剖分層級(jí)和網(wǎng)格尺寸。
1) 遙感數(shù)據(jù)。剖分的核心思路是根據(jù)數(shù)據(jù)本身空間分辨率特征和用戶(hù)對(duì)數(shù)據(jù)展示的要求等多種因素,選取最符合條件的剖分層級(jí)和網(wǎng)格尺寸作為剖分標(biāo)準(zhǔn);文檔型數(shù)據(jù),包括林地屬性表數(shù)據(jù)、林地專(zhuān)題成果數(shù)據(jù)以及元數(shù)據(jù),林地規(guī)劃專(zhuān)題成果數(shù)據(jù)會(huì)直接關(guān)聯(lián)其統(tǒng)計(jì)單位,統(tǒng)計(jì)單位關(guān)聯(lián)到政區(qū),而有些數(shù)據(jù)其所表示的信息是具有空間位置的,數(shù)據(jù)表達(dá)的內(nèi)容是空間上的一個(gè)點(diǎn),或者一個(gè)區(qū)域。因此可以通過(guò)相應(yīng)的計(jì)算或識(shí)別,得到該類(lèi)數(shù)據(jù)的空間位置或分布范圍,然后基于GeoSOT網(wǎng)格建立區(qū)位標(biāo)識(shí)剖分編碼,這些經(jīng)過(guò)統(tǒng)一編碼后的數(shù)據(jù),就可以與具有相同空間區(qū)域?qū)傩缘氖噶亢蜄鸥裥蛿?shù)據(jù)建立空間區(qū)位聯(lián)系。
2) 林地矢量數(shù)據(jù)。主要是調(diào)查范圍界數(shù)據(jù)和林地小班數(shù)據(jù)。調(diào)查范圍界的最小級(jí)別是按照村(林班)進(jìn)行組織管理的,分為縣(林業(yè)局、管理局)行政區(qū)數(shù)據(jù)、鄉(xiāng)(林場(chǎng)、管理站)行政區(qū)數(shù)據(jù)以及村級(jí)行政區(qū)數(shù)據(jù),調(diào)查范圍界各個(gè)級(jí)別數(shù)據(jù)在空間上是存在明確的空間包含關(guān)系的,在應(yīng)用場(chǎng)景中往往涉及到逐級(jí)過(guò)濾、顯示以及基于區(qū)域的統(tǒng)計(jì)分析,為便于檢索應(yīng)該針對(duì)調(diào)查范圍界數(shù)據(jù),自上而下,在上下級(jí)之間建立剖分層級(jí)過(guò)渡關(guān)系(表1)。經(jīng)過(guò)對(duì)全國(guó)省、市、縣、鄉(xiāng)、村的圖斑分布進(jìn)行統(tǒng)計(jì)分析,根據(jù)其跨度差異,確定各類(lèi)政區(qū)級(jí)別向下剖分的層級(jí),其中村的向下剖分層級(jí),需要參考小班的剖分層級(jí),以便建立過(guò)渡關(guān)系,在滿(mǎn)足業(yè)務(wù)應(yīng)用要求的前提下,最大限度減少數(shù)據(jù)冗余,降低存儲(chǔ),提高運(yùn)算性能。
表1 調(diào)查范圍界數(shù)據(jù)剖分方案
3) 林地小班數(shù)據(jù)。相對(duì)政區(qū)數(shù)據(jù)其應(yīng)用復(fù)雜度更高,從空間分析與數(shù)據(jù)統(tǒng)計(jì)層面考慮:一方面從空間數(shù)據(jù)角度,不僅要考慮到小班圖形的拓?fù)湟恢滦?還要考慮到小班與村政區(qū)的邊界一致性;另一方面從數(shù)據(jù)統(tǒng)計(jì)的角度,考慮到針對(duì)其面積統(tǒng)計(jì)的便捷性,應(yīng)該考慮統(tǒng)一其定位分面片所在的層級(jí),而不是對(duì)不同的矢量要素單獨(dú)分析定位面片層級(jí)。如經(jīng)過(guò)對(duì)某一區(qū)域的小班做統(tǒng)計(jì)分析,得到林地地塊的平均經(jīng)緯度跨度為16.23″對(duì)應(yīng)的剖分層級(jí)是在17級(jí),可以在此級(jí)別選擇其定位剖分面片。對(duì)于小班地塊向下剖分的級(jí)數(shù)的確定,根據(jù)林業(yè)基于調(diào)查和經(jīng)營(yíng)管理的需求,地塊管理最小面積定是0.066 7hm2(1畝),經(jīng)計(jì)算其長(zhǎng)寬約為25.82m,對(duì)應(yīng)赤道的經(jīng)緯度間隔為1″,對(duì)應(yīng)的剖分層級(jí)是在21級(jí),所以確定小班的定位面片層面從17~21級(jí)(表2)。
表2 林地?cái)?shù)據(jù)剖分方案
構(gòu)建林地?cái)?shù)據(jù)統(tǒng)一的剖分編碼主要是便于全國(guó)林地更新過(guò)程中,對(duì)需要更新區(qū)域數(shù)據(jù)的快速檢索。GeoSOT 現(xiàn)有的多套基礎(chǔ)編碼體系有各自不同的優(yōu)點(diǎn)與適合的方向,選擇與本業(yè)務(wù)應(yīng)用需要契合度最高的方法進(jìn)行編制,定位在空間關(guān)系明顯便于在數(shù)據(jù)庫(kù)中檢索查詢(xún)特點(diǎn)上。四進(jìn)制經(jīng)緯形式編碼方法相對(duì)于其它的編碼方法,空間關(guān)系更為明顯,以1個(gè)小班數(shù)據(jù)為例,1個(gè)面積約1.1hm2的小班(左下角坐標(biāo)111°13′41″,27°53′1″,右上角坐標(biāo)111°13′47″,27°53′5″),其四進(jìn)制編碼為G001123133221303101,其四至范圍的粒度位于第18級(jí),為8″格網(wǎng),大小小于1個(gè)格網(wǎng),緯向切片數(shù)量及經(jīng)向切片數(shù)量均為1,直接通過(guò)對(duì)編碼的解讀就可以大致覆蓋范圍,而且由于采用的是顯性的編碼方式,可以直接利用數(shù)據(jù)庫(kù)的查詢(xún)檢索機(jī)制快速進(jìn)行定位,與現(xiàn)有林地?cái)?shù)據(jù)的管理方式更為切合且改動(dòng)最小,也充分利用了現(xiàn)有管理方法的優(yōu)勢(shì)。因此本模型選用四進(jìn)制1維GeoSOT編碼為最優(yōu)基礎(chǔ)編碼方法。
林地信息數(shù)據(jù)存儲(chǔ)主要包括柵格數(shù)據(jù)存儲(chǔ)(遙感影像、航空影像、無(wú)人機(jī)影像),矢量數(shù)據(jù)存儲(chǔ)(森林資源調(diào)查數(shù)據(jù)、基礎(chǔ)地理數(shù)據(jù))和屬性數(shù)據(jù)存儲(chǔ)(屬性數(shù)據(jù)、統(tǒng)計(jì)報(bào)表)。
1) 柵格數(shù)據(jù)存儲(chǔ)。柵格數(shù)據(jù)采用文件系統(tǒng)與數(shù)據(jù)庫(kù)混合方式存儲(chǔ)。文件系統(tǒng)按照傳感器和軌道行列號(hào)對(duì)柵格數(shù)據(jù)進(jìn)行存儲(chǔ)。數(shù)據(jù)表則記錄了柵格數(shù)據(jù)的基礎(chǔ)元數(shù)據(jù)、太陽(yáng)-觀測(cè)信息、GeoSOT編碼和文件存儲(chǔ)信息,基礎(chǔ)元數(shù)據(jù)包括了傳感器的基本信息、數(shù)據(jù)獲取時(shí)間、4個(gè)角點(diǎn)的經(jīng)緯度、空間分辨率、數(shù)據(jù)行數(shù)和列數(shù)等,文件存儲(chǔ)信息包括文件類(lèi)型、文件大小、文件名稱(chēng)、文件存儲(chǔ)位置等。
2) 矢量數(shù)據(jù)存儲(chǔ)。根據(jù)矢量數(shù)據(jù)編碼方案,林地矢量數(shù)據(jù)采用關(guān)系數(shù)據(jù)表存儲(chǔ),同時(shí)新建縣級(jí)行政區(qū)劃空間地理數(shù)據(jù)表,通過(guò)縣級(jí)行政區(qū)名稱(chēng)與林地矢量數(shù)據(jù)表進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)林地矢量數(shù)據(jù)的GeoSOT編碼。
3) 屬性數(shù)據(jù)存儲(chǔ)。根據(jù)屬性數(shù)據(jù)編碼方案,林地屬性數(shù)據(jù)也是采用關(guān)系數(shù)據(jù)表存儲(chǔ),同時(shí)新建縣級(jí)行政區(qū)劃空間地理數(shù)據(jù)表,通過(guò)縣級(jí)行政區(qū)名稱(chēng)與林地屬性數(shù)據(jù)表進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)林地屬性數(shù)據(jù)的GeoSOT編碼。
為快速查詢(xún)一定空間范圍的多元林地信息數(shù)據(jù),本文采用“二次匹配”技術(shù)對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢索。第一次匹配采用空間范圍外包矩形檢索GeoSOT剖分空間面片,實(shí)現(xiàn)選擇范圍與空間面片的粗匹配;第二次匹配采用經(jīng)緯度檢索第一次粗匹配選中的空間面片,實(shí)現(xiàn)對(duì)目標(biāo)數(shù)據(jù)的精確檢索。其中,第一次匹配是多元林地信息查詢(xún)檢索的關(guān)鍵環(huán)節(jié),其匹配結(jié)果的記錄數(shù)量直接決定了第二次匹配的效率。第一次粗匹配技術(shù)方案主要是:首先根據(jù)所選空間范圍外包矩形長(zhǎng)邊計(jì)算GeoSOT網(wǎng)格體系中包含該范圍的最小層級(jí)n,并對(duì)外包矩形4個(gè)角點(diǎn)進(jìn)行編碼,編碼位數(shù)為n;然后用該外包矩形4個(gè)角點(diǎn)的編碼檢索整個(gè)GeoSOT剖分面片數(shù)據(jù)表,選擇編碼前n位子字符串與該外包矩形編碼完全相同的空間面片進(jìn)入第二次匹配的數(shù)據(jù)集,完成第一次檢索。
在第一次粗匹配中,所選范圍外包矩形與檢索目標(biāo)數(shù)據(jù)有包含、相交和相離3種空間關(guān)系。如果外包矩形在GeoSOT網(wǎng)絡(luò)體系中的層級(jí)高于檢索目標(biāo)所在的層級(jí),將檢索出大量與外包矩形相離的數(shù)據(jù),導(dǎo)致二次檢索數(shù)據(jù)集過(guò)大,影響二次檢索的效率。為提高第一次粗匹配效率,本文設(shè)計(jì)了一種新的技術(shù)方案:首先根據(jù)數(shù)據(jù)的GeoSOT剖分面片編碼長(zhǎng)度n對(duì)所選空間范圍進(jìn)行劃分,計(jì)算所選空間范圍包含的n級(jí)面片編碼,面片個(gè)數(shù)記為m;然后將數(shù)據(jù)庫(kù)中數(shù)據(jù)記錄的剖分面片編碼與m個(gè)面片編碼相同數(shù)據(jù)進(jìn)入第二次匹配的數(shù)據(jù)集,完成第一次檢索。
林地信息管理實(shí)驗(yàn)系統(tǒng)主要是基于編碼后的林地?cái)?shù)據(jù),依據(jù)林地更新業(yè)務(wù)模型,按照更新業(yè)務(wù)流程對(duì)整個(gè)數(shù)據(jù)檢索組織進(jìn)行實(shí)驗(yàn),驗(yàn)證基于統(tǒng)一剖分標(biāo)識(shí)的按區(qū)位組織數(shù)據(jù)的可行性和效率。為了更好地驗(yàn)證效率,選取省級(jí)單位林地?cái)?shù)據(jù)作為實(shí)驗(yàn)對(duì)象,包括行政區(qū)數(shù)據(jù)(村級(jí)行政區(qū)數(shù)據(jù)要素約5 000個(gè))、林地小班數(shù)據(jù)(要素約310 000個(gè))、一幅遙感影像數(shù)據(jù)(0.2m)、相關(guān)的技術(shù)文檔成果數(shù)據(jù)等。
試驗(yàn)的硬件環(huán)境為筆記本電腦,配置為 Intel(R) Core(TM)i7-4500U CPU,雙核主頻 1.8 GHz,內(nèi)存8 GB,采用SQLite數(shù)據(jù)庫(kù)。開(kāi)發(fā)語(yǔ)言:C#;開(kāi)發(fā)環(huán)境:Microsoft Visual Studio 2010;.NET Framework 4.0;Enterprise Architect 8.0;Microsoft Office 2003/2007/2010;開(kāi)發(fā)框架:C/S框架;三層架構(gòu)(界面、業(yè)務(wù)邏輯、數(shù)據(jù)訪問(wèn));Spring.NET(IOC)機(jī)制。
按照林地更新業(yè)務(wù)流程,首先應(yīng)用端根據(jù)用戶(hù)所負(fù)責(zé)的地區(qū),發(fā)出對(duì)某一行政區(qū)范圍的林地?cái)?shù)據(jù)的請(qǐng)求,通過(guò)統(tǒng)一訪問(wèn)模塊中的數(shù)據(jù)查詢(xún)服務(wù),將行政區(qū)轉(zhuǎn)換為剖分面片坐標(biāo),讀取行政區(qū)數(shù)據(jù)中的剖分編碼,再?gòu)钠史志幋a中直接尋址定位到面片存儲(chǔ)單元。當(dāng)獲取目標(biāo)區(qū)域信息時(shí),通過(guò)主題查詢(xún)服務(wù)判斷該目標(biāo)區(qū)域信息是屬于某個(gè)剖分層級(jí)的某個(gè)剖分面片,還是屬于某個(gè)剖分層級(jí)的多個(gè)剖分面片或者屬于多個(gè)剖分層級(jí)的多個(gè)剖分面片區(qū)域;如果其屬于某個(gè)剖分層級(jí)的某個(gè)剖分面片,利用剖分編碼可以直接定位獲取目標(biāo)信息;如果屬于某個(gè)剖分層級(jí)的多個(gè)剖分面片或者屬于多個(gè)剖分層級(jí)的多個(gè)剖分面片區(qū)域時(shí),根據(jù)剖分編碼集合訪問(wèn)相關(guān)面片存儲(chǔ)單元中的剖分?jǐn)?shù)據(jù),通過(guò)數(shù)據(jù)聚合獲得所需要的目標(biāo)信息。流程如圖2所示。
圖2 數(shù)據(jù)組織調(diào)度的流程
從基于GeoSOT區(qū)位標(biāo)識(shí)的區(qū)域林地?cái)?shù)據(jù)檢索時(shí)間試驗(yàn)來(lái)看,與經(jīng)緯度坐標(biāo)相比,林地?cái)?shù)據(jù)的GeoSOT區(qū)位標(biāo)識(shí)在一定程度上降低了區(qū)域數(shù)據(jù)的檢索時(shí)間。通過(guò)剖分編碼技術(shù),可以正確地檢索到所需要的政區(qū)數(shù)據(jù),被檢索的數(shù)據(jù)可以圖形化展示出來(lái)。
本文采用相對(duì)成熟的GeoSOT全球剖分模型,圍繞林地管理業(yè)務(wù)需求,對(duì)剖分模型在林地管理上的應(yīng)用進(jìn)行了詳細(xì)的分析。結(jié)果表明,通過(guò)剖分編碼技術(shù),可以正確地檢索到所需要的林地?cái)?shù)據(jù);整個(gè)檢索過(guò)程較為迅速快捷,能夠滿(mǎn)足林地更新管理業(yè)務(wù)需求;被檢索的數(shù)據(jù)可以圖形化展示。本文在分析GeoSOT剖分理論框架的基礎(chǔ)上,提出利用剖分編碼模型對(duì)林地管理中多源數(shù)據(jù)進(jìn)行一體化的組織管理,詳細(xì)描述了林地?cái)?shù)據(jù)的組織機(jī)制、剖分方案以及編碼方案,并搭建實(shí)驗(yàn)驗(yàn)證平臺(tái),按照林地更新業(yè)務(wù)流程,驗(yàn)證了基于統(tǒng)一區(qū)位標(biāo)識(shí)編碼的數(shù)據(jù)一體化組織調(diào)度的可行性和科學(xué)性。
從技術(shù)實(shí)現(xiàn)來(lái)看,項(xiàng)目的研究對(duì)現(xiàn)有系統(tǒng)改造較少,可以為不同類(lèi)型、不同格式、不同來(lái)源的數(shù)據(jù)提供統(tǒng)一的空間數(shù)據(jù)組織與檢索體系。研究實(shí)踐中的不足在于,管理的大部分林地?cái)?shù)據(jù)為記錄型數(shù)據(jù),存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)中,建立剖分編碼后,在數(shù)億級(jí)記錄上一維編碼檢索受限于BTree索引,所以性能受到一定的影響。但是,如果基于HBase等分布式數(shù)據(jù)庫(kù)技術(shù),對(duì)剖分編碼序列使用分布式存儲(chǔ)管理后,其并行讀取、運(yùn)算的效率必將得到明顯提高。