伍錦程,王占昌,張紅英,石小亞
(中國地質(zhì)調(diào)查局西安地質(zhì)調(diào)查中心,陜西 西安710054)
為深入貫徹“國土資發(fā)[2010]113號(hào)”《推進(jìn)地質(zhì)資料信息服務(wù)集群化產(chǎn)業(yè)化工作方案》文件精神,按照“集成集群、深度開發(fā),實(shí)現(xiàn)資料信息化,服務(wù)社會(huì)化,發(fā)展產(chǎn)業(yè)化”[1]的方針,依托國土資源部“十二五”地調(diào)計(jì)劃項(xiàng)目“地質(zhì)資料信息服務(wù)集群化產(chǎn)業(yè)化試點(diǎn)研究”,以現(xiàn)代化的信息技術(shù)為手段,搭建面向公眾服務(wù)的共享平臺(tái),逐步消除地質(zhì)資料信息孤島,形成有效的地質(zhì)資料信息集群化產(chǎn)業(yè)化運(yùn)行機(jī)制與服務(wù)模式。
地質(zhì)資料信息服務(wù)集群化產(chǎn)業(yè)化共享平臺(tái),首先應(yīng)解決地質(zhì)資料多元異構(gòu)數(shù)據(jù)的統(tǒng)一化描述問題,形成具有通用性和兼容性的數(shù)據(jù)格式。本文分析了現(xiàn)有地質(zhì)資料的分類情況以及數(shù)據(jù)的存儲(chǔ)格式,并參照開放式地理信息系統(tǒng)協(xié)會(huì)(Open GIS Consortium,OGC)[2]標(biāo)準(zhǔn),采用 XML結(jié)構(gòu)化文本語言對(duì)基于Web服務(wù)的地質(zhì)資料數(shù)據(jù)進(jìn)行了統(tǒng)一化描述。
地質(zhì)資料是指在長期地質(zhì)調(diào)查工作中形成的文字、圖表、音視頻等形式的原始地質(zhì)資料、成果地質(zhì)資料和樣品等實(shí)物地質(zhì)資料,以及地質(zhì)資料信息系統(tǒng)。地質(zhì)資料數(shù)據(jù)具有多源、異構(gòu)、多維、海量等特點(diǎn),從地質(zhì)專業(yè)[3]劃分,包括區(qū)域地質(zhì)調(diào)查資料、礦產(chǎn)勘查資料、海洋地質(zhì)資料、工程地質(zhì)資料、環(huán)境地質(zhì)、災(zāi)害地質(zhì)資料、物探、化探地質(zhì)資料、石油、天然氣、煤層地質(zhì)資料,其他地質(zhì)資料等。
因不同類別的原始地質(zhì)資料數(shù)字化過程中所使用的軟件不同,造成現(xiàn)有地質(zhì)資料數(shù)據(jù)格式的多樣性。具有典型的多元異構(gòu)特點(diǎn),既有結(jié)構(gòu)化的屬性數(shù)據(jù)、空間數(shù)據(jù),還包括大量非結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)格式主要有 GIS數(shù)據(jù)(MapGIS、ArcGIS、AutoCAD等)、柵格數(shù)據(jù)(TIFF、BMP、JPG等)、表格(Excel)、文檔(Word)、文本(Text)、數(shù)據(jù)庫(Access、Visual Foxpro、SQL Server等)、元數(shù)據(jù)(XML)等等。
地質(zhì)資料信息服務(wù)集群化產(chǎn)業(yè)化平臺(tái),應(yīng)以“節(jié)點(diǎn)群”為集結(jié)單元,通過構(gòu)建集群節(jié)點(diǎn)體系等技術(shù)手段建立節(jié)點(diǎn)之間的高效服務(wù)和對(duì)等通道,實(shí)現(xiàn)地質(zhì)資料信息共享發(fā)布與聯(lián)動(dòng)服務(wù),向外界呈現(xiàn)無縫服務(wù)窗口。各集群節(jié)點(diǎn)之間需要通過網(wǎng)絡(luò)實(shí)現(xiàn)跨區(qū)域協(xié)同服務(wù),進(jìn)行數(shù)據(jù)的對(duì)等與交互操作,而傳統(tǒng)的地質(zhì)資料數(shù)據(jù)(如MapGIS、ArcGIS等數(shù)據(jù))為二進(jìn)制文件,數(shù)據(jù)文件過大,且因?yàn)g覽器、防火墻等安全策略限制,不適合用于跨區(qū)域網(wǎng)絡(luò)、跨操作系統(tǒng)之間的數(shù)據(jù)傳輸。XML為輕量級(jí)結(jié)構(gòu)化文本數(shù)據(jù),傳統(tǒng)地質(zhì)數(shù)據(jù)可轉(zhuǎn)換為XML格式,進(jìn)行文件存儲(chǔ)、網(wǎng)絡(luò)傳輸和數(shù)據(jù)交換。從而提升集群節(jié)點(diǎn)之間數(shù)據(jù)傳輸過程中的安全性、高效性以及穩(wěn)定性。
XML結(jié)構(gòu)化文本數(shù)據(jù)[4]用于網(wǎng)絡(luò)傳輸?shù)闹饕獌?yōu)點(diǎn)如下所示。
1)互操作性強(qiáng):Xml為純文本格式數(shù)據(jù),純文本文件可以方便的穿越網(wǎng)絡(luò)防火墻,可在不同操作系統(tǒng)上的應(yīng)用系統(tǒng)之間相互通信。
2)規(guī)范統(tǒng)一:XML具有統(tǒng)一的標(biāo)準(zhǔn)語法,任何操作系統(tǒng)都支持XML文檔,使得XML具有了跨平臺(tái)跨系統(tǒng)的特性。
3)內(nèi)容和結(jié)構(gòu)完全分離:基于該特點(diǎn),系統(tǒng)可輕松實(shí)現(xiàn)內(nèi)容管理和流程管理的徹底分離,系統(tǒng)研發(fā)人員可以只關(guān)注流程運(yùn)轉(zhuǎn)中各環(huán)節(jié)的接口定義,而用戶則可以專注在內(nèi)容發(fā)布和數(shù)據(jù)維護(hù)之上。
4)支持多種編碼:相對(duì)普通文本文檔而言,XML文檔本身包含了所使用編碼的記錄,方便多語言系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行處理。
5)XML加密優(yōu)勢(shì):對(duì)WEB中數(shù)據(jù)保護(hù)的常用技術(shù)有數(shù)據(jù)加密、數(shù)字簽名和訪問控制,而XML作為一種元語言,已經(jīng)成為WEB異構(gòu)環(huán)境下不同類型和不同領(lǐng)域數(shù)據(jù)交換的開放標(biāo)準(zhǔn)。XML文檔的訪問控制機(jī)制與一般的訪問控制機(jī)制不同,傳統(tǒng)的訪問控制機(jī)制不能直接應(yīng)用于對(duì)XML文檔的訪問控制中。這是因?yàn)閄ML查詢語言(Xquery)的存在,能直接尋找到每一個(gè)XML語義元素。訪問控制模型必須能以多種粒度級(jí)別對(duì)XML語義元素制定訪問控制,一般的訪問控制對(duì)此沒有特殊要求。
為使集群節(jié)點(diǎn)間地質(zhì)資料數(shù)據(jù)通過互聯(lián)網(wǎng)進(jìn)行快速存儲(chǔ)、交換和解析,本文依據(jù)中國地質(zhì)調(diào)查局頒發(fā)的各類地學(xué)空間數(shù)據(jù)庫建設(shè)指南,并兼顧國際開放型OGC[5]標(biāo)準(zhǔn)、協(xié)議和表達(dá)方式,從多元異構(gòu)地質(zhì)資料空間信息中抽取共性描述特征,采用輕量型XML結(jié)構(gòu)化文本格式數(shù)據(jù)對(duì)地質(zhì)資料數(shù)據(jù)進(jìn)行了統(tǒng)一化描述。經(jīng)統(tǒng)一描述后的地質(zhì)資料數(shù)據(jù)格式遵照XML架構(gòu)標(biāo)準(zhǔn)進(jìn)行規(guī)范化定義,使得地質(zhì)資料信息能實(shí)現(xiàn)跨平臺(tái)(如 Windows、Linux、Mac等)共享交換并可穿越異構(gòu)網(wǎng)絡(luò)(如以太網(wǎng)、令牌環(huán)網(wǎng)、無線網(wǎng)等)環(huán)境。該XML數(shù)據(jù)的表現(xiàn)形式及各節(jié)點(diǎn)元素定義如下所述。
該XML數(shù)據(jù)格式將地質(zhì)資料空間信息按“點(diǎn)、線、面、貼圖”四類特征進(jìn)行統(tǒng)一化描述和細(xì)粒度劃分,并按照數(shù)據(jù)倉-數(shù)據(jù)集-數(shù)據(jù)庫-數(shù)據(jù)層四級(jí)分類體系進(jìn)行了有限劃分和映射,形成金字塔狀目錄結(jié)構(gòu)樹,以便符合公眾對(duì)地質(zhì)資料信息的記錄習(xí)慣和使用習(xí)慣。其中,一個(gè)數(shù)據(jù)倉可對(duì)應(yīng)多個(gè)數(shù)據(jù)集(如地質(zhì)資料按地域劃分),一個(gè)數(shù)據(jù)集可對(duì)應(yīng)多個(gè)數(shù)據(jù)庫(如地質(zhì)資料按專業(yè)分類),一個(gè)數(shù)據(jù)庫可對(duì)應(yīng)多個(gè)圖層(如地質(zhì)資料按比例尺分級(jí)),每個(gè)圖層可同時(shí)容納任意多個(gè)點(diǎn)、線、面和貼圖要素,而每個(gè)圖形要素可按獨(dú)立的數(shù)據(jù)結(jié)構(gòu)進(jìn)行描述,從而擺脫了GIS傳統(tǒng)觀念的束縛,充分體現(xiàn)了多元異構(gòu)思想。例如圖1為經(jīng)XML數(shù)據(jù)格式描述的地質(zhì)資料目錄數(shù)據(jù)庫在WEB應(yīng)用系統(tǒng)上的展示,左側(cè)為具有四層分類體系的地質(zhì)資料目錄結(jié)構(gòu)樹,右側(cè)為圖層下某個(gè)點(diǎn)要素的屬性窗口。
數(shù)據(jù)格式中節(jié)點(diǎn)元素定義與OGC推薦的GML保持一致,并進(jìn)行了功能性擴(kuò)充,尤其體現(xiàn)在安全策略、幾何范圍、拓?fù)鋵傩缘确矫妗a槍?duì)每份地質(zhì)資料,XML格式定義提供了空間定位信息、可視化參數(shù)控制信息、資料描述或特征屬性信息,在吸收OGC標(biāo)準(zhǔn)的基礎(chǔ)上擴(kuò)充了拓?fù)洌ㄈ鐖D元空間范圍、幾何中點(diǎn)、多邊形內(nèi)點(diǎn)、長度、周長、面積、行署區(qū)劃等)信息,以便支持XPATH軸遍歷和圖形要素空間約束過濾技術(shù),此外還支持各類多媒體超鏈接以便支持非結(jié)構(gòu)化數(shù)據(jù)。XML數(shù)據(jù)格式中各節(jié)點(diǎn)定義如下所示。
1)數(shù)據(jù)倉定義:按XML規(guī)定及要求,數(shù)據(jù)倉應(yīng)映射集群海量數(shù)據(jù)中心頂層架構(gòu)。在XML中用<Dataware>節(jié)點(diǎn)描述數(shù)據(jù)倉,并定義兩個(gè)節(jié)點(diǎn)元素<name>、<description>,分別用于表示數(shù)據(jù)倉的名稱以及該數(shù)據(jù)倉的描述信息,最后設(shè)置可視化控制參數(shù)控制數(shù)據(jù)倉的表現(xiàn)形式(顯示或隱藏、打開或關(guān)閉)。
2)數(shù)據(jù)集定義:數(shù)據(jù)集可用于映射專題資料包或按行政區(qū)劃、形成年代等劃分的資料種類。在XML中用<Dataset>節(jié)點(diǎn)描述數(shù)據(jù)集,并定義兩個(gè)節(jié)點(diǎn)元素,分別用于表示數(shù)據(jù)集的名稱以及該數(shù)據(jù)集的描述信息,最后設(shè)置可視化控制參數(shù)控制數(shù)據(jù)集的表現(xiàn)形式(顯示或隱藏、打開或關(guān)閉)。
3)數(shù)據(jù)庫定義:數(shù)據(jù)庫可用于映射按專業(yè)類別或依不同比例尺劃分的數(shù)據(jù)類型。在XML中用<Database>節(jié)點(diǎn)描述數(shù)據(jù)庫,并定義兩個(gè)節(jié)點(diǎn)元素,分別用于表示數(shù)據(jù)庫的名稱以及該數(shù)據(jù)庫的描述信息,最后設(shè)置可視化控制參數(shù)控制數(shù)據(jù)庫的表現(xiàn)形式(顯示或隱藏、打開或關(guān)閉)。
4)數(shù)據(jù)層定義:數(shù)據(jù)層可用于映射圖元要素邏輯類別如礦種、歸屬單位等。在XML中用<Layer>節(jié)點(diǎn)描述數(shù)據(jù)層,并定義兩個(gè)節(jié)點(diǎn)元素,分別用于表示數(shù)據(jù)層的名稱以及該數(shù)據(jù)層的描述信息,最后設(shè)置可視化控制參數(shù)控制數(shù)據(jù)層的表現(xiàn)形式(顯示或隱藏、打開或關(guān)閉)。并增加權(quán)限控制參數(shù),用于控制用戶對(duì)該圖層的讀寫權(quán)限。
5)點(diǎn)要素定義:首先抽取地質(zhì)資料數(shù)據(jù)點(diǎn)文件的共性描述特征(如:點(diǎn)文件屬性表中的字段號(hào)、字段名、經(jīng)緯度坐標(biāo)信息等),并制作點(diǎn)元素子圖集,然后在XML數(shù)據(jù)中描述點(diǎn)要素節(jié)點(diǎn)。用節(jié)點(diǎn)元素<mane>描述點(diǎn)要素屬性表中的字段號(hào),<field>描述點(diǎn)要素屬性表中字段名稱,<Point>描述點(diǎn)要素的子圖號(hào),<coordinates>描述該點(diǎn)要素的十進(jìn)制經(jīng)緯度坐標(biāo),<LatLonBox>描述該點(diǎn)要素子圖的位置和范圍。并增加權(quán)限控制參數(shù),用于控制用戶對(duì)該點(diǎn)要素的操作權(quán)限。
6)線要素定義:首先抽取地質(zhì)資料數(shù)據(jù)線文件的共性描述特征(如:線文件屬性表中的字段序號(hào)、字段名、線中各點(diǎn)的經(jīng)緯度坐標(biāo)信息等),然后在XML數(shù)據(jù)中描述線要素節(jié)點(diǎn)。用節(jié)點(diǎn)元素<mane>描述線要素屬性表中的字段序號(hào)以及線元素中點(diǎn)坐標(biāo)信息,<field>描述線要素屬性表中字段名稱,<LineString>描述線的寬度、透明度以及顏色,<coordinates>描述該線要素各點(diǎn)的十進(jìn)制經(jīng)緯度坐標(biāo)流,<LatLonBox>描述線的位置和范圍。并增加權(quán)限控制參數(shù),用于控制用戶對(duì)該線要素的操作權(quán)限。
7)面要素定義:首先抽取面文件的共性描述特征(如:面文件屬性表中的字段號(hào)、字段名、以及面文件邊界點(diǎn)的經(jīng)緯度坐標(biāo)信息等,然后在XML數(shù)據(jù)中描述面要素節(jié)點(diǎn)。用節(jié)點(diǎn)元素<mane>描述面要素屬性表中的字段序號(hào)以及面元素的最佳內(nèi)點(diǎn)坐標(biāo)信息,<field>描述面要素屬性表中字段名稱、<LinearRing>元素描述邊界線寬、邊界線透明度、邊界線顏色、面透明度以及面的顏色,<coordinates>描述各邊界線上點(diǎn)的十進(jìn)制經(jīng)緯度坐標(biāo)信息,<LatLonBox>描述面要素位置和范圍、并增加權(quán)限控制參數(shù),用于控制用戶對(duì)該面要素的操作權(quán)限。
8)貼圖要素定義:貼圖要素用于描述非結(jié)構(gòu)化的圖形要素,如GIF、JPG等格式圖件。在XML數(shù)據(jù)中描述貼圖要素,用<name>元素描述字段序號(hào),<field>元素描述字段名稱,<href>元素描述貼圖要素的地址信息,<LatLonBox>元素描述貼圖要素的位置和范圍。
圖1 地質(zhì)資料目錄結(jié)構(gòu)樹及點(diǎn)要素屬性窗口
隨著地質(zhì)資料信息服務(wù)集群化產(chǎn)業(yè)化試點(diǎn)研究項(xiàng)目的深入,基于WEB的地質(zhì)資料信息服務(wù)集群化產(chǎn)業(yè)化平臺(tái)必將成為公益性地質(zhì)資料服務(wù)的新模式,而傳統(tǒng)的地質(zhì)資料數(shù)據(jù)格式需進(jìn)行統(tǒng)一化結(jié)構(gòu)描述,轉(zhuǎn)換成輕量級(jí)XML格式數(shù)據(jù),以適應(yīng)節(jié)點(diǎn)群之間網(wǎng)絡(luò)數(shù)據(jù)的傳輸與交換。
[1]國土資源部.[2010]113號(hào)文《推進(jìn)地質(zhì)資料信息服務(wù)集群化產(chǎn)業(yè)化工作方案》[G].2010.
[2]鐘廣銳.基于OGC規(guī)范的WebGIS解決方案研究[J].微計(jì)算機(jī)信息,2007,23(31):4-8.
[3]辛繼升.試論地質(zhì)資料管理與社會(huì)化服務(wù)[J].國土資源情報(bào),2008(11):26-30.
[4]李雯,謝輔雯,鄒道明.XML數(shù)據(jù)交換技術(shù)的應(yīng)用與研究[J].計(jì)算機(jī)與現(xiàn)代化,2008(1):30-34.
[5]李新通,何建邦.GIS互操作與OGC規(guī)范[J].地理信息世界,2003,1(5):15-18.