奧勇,李美麗,趙永華,孫佳佳,付泉
分布式數(shù)據(jù)庫中數(shù)據(jù)集成與共享的研究進展*
奧勇,李美麗,趙永華,孫佳佳,付泉
(長安大學(xué) 地球科學(xué)與資源學(xué)院/土地工程學(xué)院,陜西 西安 710054;陜西省土地污染整治重點實驗室,陜西 西安 710054)
分布式數(shù)據(jù)庫是地理信息系統(tǒng)(GIS)發(fā)展的重要的研究熱點和難點,數(shù)據(jù)集成與共享是其研究核心。從分布式數(shù)據(jù)庫數(shù)據(jù)集成與共享的角度出發(fā),基于國內(nèi)外研究現(xiàn)狀,對現(xiàn)有的分布式數(shù)據(jù)庫、數(shù)據(jù)集、數(shù)據(jù)共享的典型模式進行了綜合分析,總結(jié)其在研究技術(shù)方面存在的問題。結(jié)合計算機網(wǎng)絡(luò)技術(shù)及分布式數(shù)據(jù)庫管理方式的優(yōu)化升級,論述了如何提高空間數(shù)據(jù)集成與共享的效率結(jié)合及使用率這一問題,并對地理空間數(shù)據(jù)集成與共享的應(yīng)用前景進行了展望。
分布式數(shù)據(jù)庫;地理信息系統(tǒng)(GIS);空間數(shù)據(jù);數(shù)據(jù)集成
隨著GIS技術(shù)自身的發(fā)展及社會應(yīng)用的需要,不同系統(tǒng)之間數(shù)據(jù)的共享和互操作受到人們越來越多的關(guān)注[1]。然而,GIS的迅速發(fā)展和廣泛應(yīng)用積累了大量的地理數(shù)據(jù)資源,它們分別以不同的格式存儲在不同地理位置的不同系統(tǒng)中,給數(shù)據(jù)綜合利用共享帶來了很大不便,特別是給數(shù)據(jù)在網(wǎng)絡(luò)環(huán)境下的集成和共享構(gòu)成了障礙[2]。同時,大數(shù)據(jù)、云技術(shù)、時態(tài)GIS的發(fā)展,以及人工智能和智慧城市的提出,GIS服務(wù)的要求不僅僅局限于數(shù)據(jù)表層,更是對數(shù)據(jù)深層含義的挖掘。地理空間數(shù)據(jù)的分布性、復(fù)雜性、變長記錄、載體多樣性、海量數(shù)據(jù)、多尺度性和時空、多語義等特性造成空間數(shù)據(jù)的管理混亂和使用效率較低,數(shù)據(jù)的重復(fù)采集和無組織分布都是對地理空間數(shù)據(jù)的極大浪費??臻g數(shù)據(jù)的集成和共享是提高數(shù)據(jù)利用率達的有效途徑。因此,數(shù)據(jù)集成和共享技術(shù)的更新及優(yōu)化,盡可能提高空間數(shù)據(jù)的管理和使用效率是GIS當(dāng)前和今后研究的熱點和重點之一,分布式數(shù)據(jù)庫中數(shù)據(jù)集成和共享為數(shù)據(jù)的高效利用提供更多的思路和解決方法。本文分析了分布式數(shù)據(jù)庫與傳統(tǒng)集中式數(shù)據(jù)庫的優(yōu)缺點、當(dāng)前存在的數(shù)據(jù)集成與共享的優(yōu)勢和不足;總結(jié)現(xiàn)有數(shù)據(jù)集成與共享方法存在的問題,并對其存在問題提出了合理改進意見,對其應(yīng)用前景提出展望。
分布式數(shù)據(jù)庫系統(tǒng)是數(shù)據(jù)庫技術(shù)與計算機網(wǎng)絡(luò)技術(shù)相結(jié)合的產(chǎn)物[3-4],是解決地理數(shù)據(jù)、軟件及硬件等資源共享和進行遠程互操作及互運算的有效途徑,是當(dāng)前地理信息系統(tǒng)領(lǐng)域研究的熱點和前沿[5]。其主要技術(shù)涉及并行計算、分布策略、數(shù)據(jù)分片、查詢優(yōu)化以及分布式數(shù)據(jù)庫系統(tǒng)的并發(fā)控制[6]、事務(wù)處理與恢復(fù)技術(shù)等。簡而言之,分布式數(shù)據(jù)庫是用計算機網(wǎng)絡(luò)將物理上分散的多個數(shù)據(jù)庫單元連接起來組成的一個邏輯統(tǒng)一的數(shù)據(jù)庫。數(shù)據(jù)分布的主要目的是就地訪問,而不是分布訪問,只是有時為了提高可用性或者達到各個節(jié)點的負載均衡,才分布數(shù)據(jù)[7]。即通過數(shù)據(jù)的合理分布,盡可能使更多的數(shù)據(jù)能夠就地存放,以減少遠距離的數(shù)據(jù)訪問,但在任何分布式數(shù)據(jù)庫中,所有數(shù)據(jù)的局部化訪問是不可能的,即使多復(fù)本也只能達到讀取的完全局部化。
信息量和用戶的增多,給分布式數(shù)據(jù)庫的信息查詢、計算和事務(wù)處理等方面都帶來了極大的挑戰(zhàn)。要想實現(xiàn)空間地理數(shù)據(jù)的集成與共享,前提是必須保證數(shù)據(jù)的一致性和完整性[8],這就要求分布式數(shù)據(jù)庫不僅要對網(wǎng)絡(luò)系統(tǒng)相關(guān)功能進行分析,還要對各個節(jié)點上獨立存在的數(shù)據(jù)庫系統(tǒng)進行有針對性的分析和解剖,才可以有效解決在不同站點上數(shù)據(jù)的相互訪問與交流問題,從而實現(xiàn)數(shù)據(jù)的一致性與完整性。針對維護分布式多源異構(gòu)空間數(shù)據(jù)的完整性與一致性這一亟待解決的問題,從技術(shù)層面研究了分布式空間數(shù)據(jù)庫的同步更新技術(shù),馬東波提供了一種可行的解決方法,并得到實驗驗證[9]。徐愛萍等人以水文及水環(huán)境數(shù)據(jù)交換架構(gòu)和數(shù)據(jù)共享平臺的構(gòu)建為基礎(chǔ),采用異構(gòu)多源數(shù)據(jù)庫引擎中間件解決了不同種類數(shù)據(jù)庫之間的數(shù)據(jù)交換問題,使用數(shù)據(jù)目錄注冊的方式使得集成平臺的管理和使用便捷通用[10]。基于多屬性決策的分布式多空間數(shù)據(jù)信息快速融合方法利用模糊理論、歐氏距離、測熵值等來確定各信息屬性的局部融合權(quán)重,得到各個空間信息源的全局融合權(quán)重,以此為依據(jù)完成對分布式多源空間數(shù)據(jù)庫數(shù)據(jù)的快速融合[11]。鄔倫等人通過對空間數(shù)據(jù)分布特征的分析,提出了多空間數(shù)據(jù)庫系統(tǒng)集成的基本思路——異構(gòu)同化,同構(gòu)整體化,提出建立分布式多空間數(shù)據(jù)庫系統(tǒng)來實現(xiàn)異構(gòu)空間數(shù)據(jù)源的互操作,以達到空間信息共享的目的[12]。
按數(shù)據(jù)庫對數(shù)據(jù)管理的集中程度可以分為分布式數(shù)據(jù)庫和集中式數(shù)據(jù)庫。分布式數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫比較如表1所示。
表1 分布式數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫比較
數(shù)據(jù)庫類型優(yōu)點缺點 傳統(tǒng)集中式數(shù)據(jù)庫系統(tǒng)運行成本低,應(yīng)用軟件和數(shù)據(jù)庫表結(jié)構(gòu)的更新與升級優(yōu)越性高,利于數(shù)據(jù)的集中查詢中心主機的建設(shè)成本高,網(wǎng)絡(luò)完全性和主機安全性低、可擴展性有限,數(shù)據(jù)安全性不高 分布式數(shù)據(jù)庫數(shù)據(jù)的讀取速率高,可擴展性強,提供更大的用戶并發(fā)訪問量系統(tǒng)運行成本高,不能共享全部的數(shù)據(jù),數(shù)據(jù)的安全性不高
綜上所述,集中式數(shù)據(jù)庫可以對數(shù)據(jù)進行集中式管理,減少各級計算機機房和服務(wù)器建設(shè)的費用,但其中心節(jié)點的網(wǎng)絡(luò)故障將導(dǎo)致整個數(shù)據(jù)庫系統(tǒng)不能正常運轉(zhuǎn),而且數(shù)據(jù)的安全性也不高。分布式數(shù)據(jù)庫雖然要維護多個節(jié)點的服務(wù)器機器操作系統(tǒng)正常運行,但是,這種組織數(shù)據(jù)庫的方法克服了物理中心數(shù)據(jù)庫組織的弱點,降低了數(shù)據(jù)傳送的代價,在很大程度上還提高了系統(tǒng)的可靠性和數(shù)據(jù)的安全性,而且便于系統(tǒng)的擴展。分布式數(shù)據(jù)庫為了保證數(shù)據(jù)的高可靠性和高訪問速度,往往采用備份的策略實現(xiàn)容錯,所以,在讀取數(shù)據(jù)的時候,客戶端可以并發(fā)地從多個備份服務(wù)器中同時讀取,從而提高數(shù)據(jù)的訪問速度。
更重要的是,分布式數(shù)據(jù)庫的發(fā)展對數(shù)據(jù)的集成與共享提供了很大的便利,提高了數(shù)據(jù)的使用效率,為地理信息服務(wù)提供了廣闊的應(yīng)用前景。
分布式地理信息系統(tǒng)是政府辦公、企業(yè)及部門生產(chǎn)管理、國家空間信息基礎(chǔ)設(shè)施、全球空間數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)字地球、智慧城市等一切信息系統(tǒng)的技術(shù)支撐。網(wǎng)絡(luò)和科學(xué)技術(shù)的飛速發(fā)展,地理信息系統(tǒng)的發(fā)展趨勢要求GIS數(shù)據(jù)的來源更加多樣化,同時也將改變其數(shù)據(jù)的獲取、管理、分析和輸出的形式。最突出的變化就是空間信息將從“地表空間”向“全空間”發(fā)展。空間數(shù)據(jù)的高效存取將是GIS設(shè)計者和使用者的共同需求。分布式GIS的出現(xiàn)為解決地理數(shù)據(jù)的復(fù)雜操作、數(shù)據(jù)的保密性和完整性這些問題提供新的思路和解決方法。
空間數(shù)據(jù)集成是將具有某種或多種異質(zhì)性的數(shù)據(jù)集通過重新建模整合到統(tǒng)一框架下,對數(shù)據(jù)形式特征(如格式、單位、分辨率、精度等)和內(nèi)部特征(屬性、內(nèi)容等)作全部或部分調(diào)整、轉(zhuǎn)化、合成、分解等操作,旨在提供數(shù)據(jù)分布式高效使用和數(shù)據(jù)共享的數(shù)據(jù)深加工范式[13]。數(shù)據(jù)共享可以使更多部門使用非己有的數(shù)據(jù),更加充分、有效地利用數(shù)據(jù),減少重復(fù)勞動和數(shù)據(jù)采集的費用以及數(shù)據(jù)的維護和管理費用,使GIS系統(tǒng)更容易集成,能夠使GIS開發(fā)重點集中在新的應(yīng)用方面。采用數(shù)據(jù)引擎思想實現(xiàn)空間數(shù)據(jù)的集成與共享,類似于ODBC中驅(qū)動程序提供動態(tài)鏈接庫的方式,通過數(shù)據(jù)引擎,驅(qū)動程序接到請求后,動態(tài)地把請求轉(zhuǎn)換成其數(shù)據(jù)源可以處理的命令格式,從而獲取所需數(shù)據(jù)信息[14]。
傳統(tǒng)的數(shù)據(jù)集成所采用的方法基本可以分為兩大類:數(shù)據(jù)復(fù)制方法和模式映射方法[15]??臻g數(shù)據(jù)集成之間存在的語法、模式和語義異質(zhì)性[16]相應(yīng)地存在3個層次,即語法、模式和語義層次上的空間數(shù)據(jù)集成。
早期空間數(shù)據(jù)集成研究受系統(tǒng)數(shù)據(jù)結(jié)構(gòu)和邏輯模型不同的驅(qū)使,集中在語法和模式層次上,發(fā)展了數(shù)據(jù)轉(zhuǎn)換、互操作和直接訪問3種語法集成方法[17-20]及半自動模式集成方法[21]。斯坦福大學(xué)DB Group的數(shù)據(jù)集成方案是以數(shù)據(jù)復(fù)制方式進行數(shù)據(jù)集成的代表性方案。然而在應(yīng)用領(lǐng)域中,信息源數(shù)據(jù)通常含有企業(yè)商業(yè)機密信息或政府部門公眾機密信息,不能讓數(shù)據(jù)集成系統(tǒng)訪問這些信息或基表[22]。
模式集成(Schema Integration)是人們最早采用的數(shù)據(jù)集成方法,也是其他數(shù)據(jù)集成方法的基礎(chǔ)。其基本思想是,在構(gòu)建集成系統(tǒng)時,將各數(shù)據(jù)源共享的數(shù)據(jù)視圖集成為全局模式(Global Schema),供用戶按照全局模式透明地訪問各數(shù)據(jù)源的數(shù)據(jù)。該方法不需要重復(fù)存儲大量數(shù)據(jù),能保證查詢到最新的數(shù)據(jù),比較適合集成數(shù)據(jù)多、更新變化快的異構(gòu)數(shù)據(jù)源集成[15]。崔鐵軍等人針對用戶對于地理空間數(shù)據(jù)的迫切需求,提出地理數(shù)據(jù)模型的融合、地理要素語義的融合和地理數(shù)據(jù)投影和坐標系的統(tǒng)一是多源地理空間矢量數(shù)據(jù)集成與融合基本理論與方法。給出了實現(xiàn)多源數(shù)據(jù)集成的數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)互操作和直接數(shù)據(jù)訪問方法[23]。劉云漢通過研究數(shù)據(jù)集成的相關(guān)技術(shù),采用基于Web Service的技術(shù)構(gòu)建了包括數(shù)據(jù)層、業(yè)務(wù)邏輯層和應(yīng)用層的異構(gòu)數(shù)據(jù)集成平臺。其中數(shù)據(jù)采用通用的數(shù)據(jù)訪問接口,業(yè)務(wù)邏輯層以Web服務(wù)的形式發(fā)布,降低了層間耦合,實現(xiàn)了局部數(shù)據(jù)源的自治性、業(yè)務(wù)邏輯接口的通用性、響應(yīng)的實時性和平臺的易維護性[24]。基于JAVA/XML的松耦合的數(shù)據(jù)同步集成關(guān)系,以XML作為數(shù)據(jù)交換集成的載體,允許使用非常規(guī)的編程進行快速的商業(yè)系統(tǒng)集成,具有開放性、可伸縮性、可移植性和靈活性,可以高效實現(xiàn)數(shù)據(jù)的共享[25]。陳超等人提出了使用NoSQL存儲地圖瓦片數(shù)據(jù)的方法,解決了傳統(tǒng)關(guān)系數(shù)據(jù)應(yīng)對多發(fā)訪問的瓶頸問題[26]。于小洋等人針對Web Service數(shù)據(jù)的多源異構(gòu)性,提出基于本體和Karma建模的快速集成方法,并將其應(yīng)用于天氣信息的領(lǐng)域中[27]。YAN提出對NoSQL數(shù)據(jù)庫的兩種設(shè)計理念和五種不同的優(yōu)化查詢方法,為地理空間數(shù)據(jù)集成與共享提供了很好的數(shù)據(jù)庫基礎(chǔ)。李紹俊等人結(jié)合GIS領(lǐng)域空間大數(shù)據(jù)存儲對數(shù)據(jù)庫存儲能力的可擴展性及數(shù)據(jù)處理和訪問的高并發(fā)要求,提出基于內(nèi)存數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫的空間大數(shù)據(jù)分布式存儲與綜合處理策略,并開發(fā)了原型系統(tǒng),對提出的存儲策略的可行性和有效性進行了驗證[28]。
大數(shù)據(jù)環(huán)境為傳統(tǒng)的科技服務(wù)提供了新的環(huán)境,面向區(qū)域共享平臺復(fù)雜化、個性化的服務(wù)需求,探索大數(shù)據(jù)環(huán)境下區(qū)域共享平臺的云服務(wù)模式,對提升平臺集成服務(wù)能力,豐富平臺管理方法具有重要的現(xiàn)實意義[29-30]。當(dāng)前典型的分布式數(shù)據(jù)庫有以下幾大類。分布式數(shù)據(jù)庫數(shù)據(jù)集成方法的對比分析如表2所示。
表2 分布式數(shù)據(jù)庫數(shù)據(jù)集成方法的對比分析
數(shù)據(jù)庫優(yōu)點缺點 NoSQL存儲空間大數(shù)據(jù)的成本低、高可擴展、高可用性;高通量I/O的持久化存儲和數(shù)據(jù)提??;既滿足了大數(shù)據(jù)存儲的需要,又保證了整個系統(tǒng)對外提供的GIS功能不退化[28]操作方式、查詢方式有局限性,單一空間索引算法的局限[31-39] Mongo DB支持動態(tài)查詢,支持完全索引,模式自由、支持復(fù)制和故障恢復(fù),數(shù)據(jù)存儲高效,自動處理碎片,支持云計算的擴展不支持SQL查詢,自身分片技術(shù)的限制,數(shù)據(jù)在各點分布不均勻 基于Haodoop的SQL數(shù)據(jù)庫有效減少數(shù)據(jù)的檢索時間,提高系統(tǒng)的整體性能,可以對海量數(shù)據(jù)進行存儲和處理[40-41],高并發(fā)、低成本、高可靠性[42]不適合低延遲數(shù)據(jù)訪問,無法高效存儲大量小文件,不支持多用戶寫入及任意修改文件 Apache HBase節(jié)省存儲空間、支持非結(jié)構(gòu)化的存儲;列動態(tài)增加且列為空就不存儲數(shù)據(jù);自動切分數(shù)據(jù);提高海量數(shù)據(jù)的處理能力和速度,系統(tǒng)可靠性高;有效降低數(shù)據(jù)共享中出現(xiàn)的障礙對整個系統(tǒng)的影響[43]不支持條件查詢、只支持按照Row Key來查詢,不支持Master Server的障切換 Apache CouchB節(jié)點之間的數(shù)據(jù)增量復(fù)制數(shù)據(jù)格式無限制;系統(tǒng)擴展便利;支持云計算;可存儲半結(jié)構(gòu)化數(shù)據(jù);支持海量數(shù)據(jù)存儲;支持分區(qū)容忍性和數(shù)據(jù)可用性;支持數(shù)據(jù)一致性;提供rest數(shù)據(jù)訪問API,簡化開發(fā)過程;數(shù)據(jù)格式為json,更開放、貼切移動開發(fā);提供andorid和ios版客戶端數(shù)據(jù)庫沒有DB2簡單 Riak數(shù)據(jù)模型靈活;沒有主節(jié)點的概念,用Erlang編寫Erlang沒有使用共享內(nèi)存 hypertable可處理海量數(shù)據(jù);實現(xiàn)高效查詢,高可用性;免受傳統(tǒng)文件存儲系統(tǒng)無法避免的失敗影響不支持SQL查詢空間數(shù)據(jù)運算
從各種集成方法的優(yōu)缺點、適用情況及數(shù)據(jù)操作難度幾個方面分析可知,Apache HBase數(shù)據(jù)庫雖然在一定程度上可以節(jié)省數(shù)據(jù)的存儲空間,但是它只支持按照Row Key來查詢;Apache CouchB數(shù)據(jù)庫技術(shù)很復(fù)雜,僅適用于專業(yè)用戶;Mongo DB數(shù)據(jù)庫系統(tǒng)靈活性高、擴展性強、容錯性好、數(shù)據(jù)存儲高效,但其自身數(shù)據(jù)分布方式的不均衡,導(dǎo)致后期數(shù)據(jù)的利用和共享不順利[44];Riak數(shù)據(jù)庫用Erlang適用于開發(fā)NoSQL數(shù)據(jù)存儲等應(yīng)用程序,只能通過發(fā)送/接受異步消息進行相互合作,數(shù)據(jù)的使用效率較低,會造成后期數(shù)據(jù)遷移耗費大量的資金;hypertable數(shù)據(jù)庫可處理海量數(shù)據(jù),具有較高的可靠性和較高的查詢效率,但查詢模式單一、產(chǎn)品還不成熟、應(yīng)用不廣泛?;贜oSQL進行二次開發(fā)的是目前用到最廣泛的數(shù)據(jù)庫,其成本低、可用性高、適用于大數(shù)據(jù),符合各行各業(yè)的發(fā)展需求。
分布式數(shù)據(jù)庫數(shù)據(jù)共享的解決方法有:直接訪問模式、數(shù)據(jù)格式轉(zhuǎn)換模式、數(shù)據(jù)互操作模式、數(shù)據(jù)標準化模式、空間數(shù)據(jù)共享平臺模式、元數(shù)據(jù)庫訪問等。空間數(shù)據(jù)共享模式對比如表3所示。
綜上分析,不同的數(shù)據(jù)集成與共享模式有其自身的優(yōu)勢和局限性,目前并不存在“通用”的數(shù)據(jù)集成與共享方法。
任何一種數(shù)據(jù)集成和共享的方法都不能滿足所有用戶的需求,但每種方法有其自身的優(yōu)勢和適用領(lǐng)域,要想提高數(shù)據(jù)的集成和共享效率,必須在清楚使用目的和應(yīng)用領(lǐng)域的基礎(chǔ)上綜合考慮所用數(shù)據(jù)類型及其特點,選擇合適的數(shù)據(jù)集成和共享方法。
直接數(shù)據(jù)訪問模式和數(shù)據(jù)轉(zhuǎn)換模式雖然很難達到高要求和大面積的數(shù)據(jù)共享,但是如果在某領(lǐng)域內(nèi)有通用的數(shù)據(jù)模型和格式,這兩種方法也可以繼續(xù)得到很好的應(yīng)用;空間數(shù)據(jù)標準模式雖然提出很多年,但一直沒有制訂一個公認的標準,如果某些相近行業(yè)之間可以建立公用的數(shù)據(jù)共享標準,也會對數(shù)據(jù)的集成與共享帶來很大的推動作用。
互聯(lián)網(wǎng)+時空大數(shù)據(jù)平臺構(gòu)建的背景下,基于本體的數(shù)據(jù)集成與共享模式雖然是最理想的數(shù)據(jù)共享模式,但它也不是完全獨立的,需要綜合利用其他數(shù)據(jù)共享模式的優(yōu)勢,揚長避短,最大程度提高數(shù)據(jù)的使用率??梢栽诂F(xiàn)有存儲系統(tǒng)共享模式的基礎(chǔ)上開發(fā)圖像和語音識別系統(tǒng),再結(jié)合深度學(xué)習(xí)和機器學(xué)習(xí)來訓(xùn)練模型,更好地將非結(jié)構(gòu)費寓意的信息進行存儲和共享,提高空間數(shù)據(jù)的使用效率。
表3 空間數(shù)據(jù)共享模式對比
數(shù)據(jù)共享模式優(yōu)點缺點適用領(lǐng)域 直接訪問模式無需轉(zhuǎn)換數(shù)據(jù)模式易造成空間數(shù)據(jù)的丟失、精度損失,數(shù)據(jù)類型不能完全對應(yīng),數(shù)據(jù)一致性差,轉(zhuǎn)換后存在數(shù)據(jù)冗余、亂碼等情況局域內(nèi)的數(shù)據(jù)共享 數(shù)據(jù)格式轉(zhuǎn)換模式間接使用模式有局限性、過程復(fù)雜、工作量大、轉(zhuǎn)換時間長、數(shù)據(jù)管理很難做到連續(xù)性,容易造成數(shù)據(jù)流失對數(shù)據(jù)精度要求不高的行業(yè) 數(shù)據(jù)互操作模式通過數(shù)據(jù)庫之間穩(wěn)定的接口動態(tài)地進行數(shù)據(jù)的調(diào)用和共享,數(shù)據(jù)的完整性高無統(tǒng)一的技術(shù)規(guī)范和轉(zhuǎn)換機制,OGC成員效率和積極性不確定,不能處理非OpenGIS數(shù)據(jù)企業(yè)的各部門或者分公司之間的數(shù)據(jù)交流及政府辦公 數(shù)據(jù)標準化模式在很大程度上推動了地理數(shù)據(jù)的集成和共享數(shù)據(jù)存在不兼容的問題,模式不成熟有相同標準或數(shù)據(jù)規(guī)范的行業(yè)、部門 空間數(shù)據(jù)共享平臺模式采用C/S服務(wù)器體系結(jié)構(gòu),數(shù)據(jù)的一致性高技術(shù)體系不夠完整,沒有足夠強大的公共平臺可以支持部分領(lǐng)域、部門 元數(shù)據(jù)庫訪問模式可以有效定位、評價、比較,可以高效查詢、獲取和使用相關(guān)地理數(shù)據(jù)必須建立在數(shù)據(jù)互操作模式和數(shù)據(jù)標準化模式基礎(chǔ)之上,元數(shù)據(jù)自身的標準定制還不完善部分領(lǐng)域、部門 基于本體的數(shù)據(jù)共享通過語義因子分解和建立概念來集成不同地理本體,有效解決數(shù)據(jù)的多語義問題,應(yīng)用廣泛,過程本體的有關(guān)研究成果有助于過程地理信息系統(tǒng)的研究與發(fā)展[45]目前只能根據(jù)輔助信息或由經(jīng)驗知識豐富或熟悉研究區(qū)的專家,根據(jù)經(jīng)驗知識進行人機交互細化各領(lǐng)域和部門
[1]梅士員,江南.GIS數(shù)據(jù)共享技術(shù)[J].遙感信息,2002(4):46-49,64.
[2]艾海濱,孟令奎,林志勇.基于XML的分布式異構(gòu)地理數(shù)據(jù)集成與共享[J].遙感信息,2002(4):50-56.
[3]劉威.分布式數(shù)據(jù)庫及其技術(shù)[J].長春大學(xué)學(xué)報,2000(1):27-30.
[4]楊東,謝菲,楊曉剛,等.分布式數(shù)據(jù)庫技術(shù)的研究與實現(xiàn)[J].電子科學(xué)技術(shù),2015,2(1):87-94.
[5]周國義.分布式GIS的研究[J].測繪科學(xué),2003(3):43-45,85.
[6]ASTROM K J,WITTWNMARK B.Computer-controlled systems:theory and design[J].Iee Review,1997,31(31):237–248.
[7]馬東波.分布式數(shù)據(jù)庫的研究新趨勢[J].產(chǎn)業(yè)與科技論壇,2017,16(18):79-80.
[8]陳靜,向隆剛,朱欣焰.分布式異構(gòu)柵格數(shù)據(jù)的集成管理研究[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2011,36(9):1094-1096.
[9]馬東波.分布式數(shù)據(jù)庫系統(tǒng)的安全機制[J].產(chǎn)業(yè)與科技論壇,2017,16(16):45-46.
[10]徐愛萍,宋先明,徐武平.分布式異構(gòu)數(shù)據(jù)庫集成系統(tǒng)研究與實現(xiàn)[J].計算機工程與科學(xué),2015,37(10):1909-1916.
[11]江洲,李琦,王凌云.空間信息融合與地理編碼數(shù)據(jù)庫的開發(fā)[J].計算機工程,2004(5):1-2,153.
[12]鄔倫,張毅.分布式多空間數(shù)據(jù)庫系統(tǒng)的集成技術(shù)[J].地理學(xué)與國土研究,2002(1):6-10.
[13]李軍,費川云.地球空間數(shù)據(jù)集成研究概況[J].地理科學(xué)進展,2000(3):203-211.
[14]吳小芳,蔡忠亮,鄔國鋒,等.基于數(shù)據(jù)引擎思想的GIS數(shù)據(jù)集成與共享[J].測繪工程,2003(3):14-17.
[15]鐘秋燕.數(shù)據(jù)集成技術(shù)綜述[J].電腦知識與技術(shù),2008(24):1120-1122.
[16]BISHR Y.Overcoming the semantic and other barriers to GIS interoperability[J].International Journal of GeographicalInformation Science,1998,12(4):299-314.
[17]閭國年,張書亮,龔敏霞,等.地理信息系統(tǒng)集成原理與方法[M].北京:科學(xué)出版社,2003.
[18]宋關(guān)福,鐘耳順,劉紀遠,等.多源空間數(shù)據(jù)無縫集成研究[J].地理科學(xué)進展,2000,19(2):110-115.
[19]劉占偉,劉厚泉.基于GML的多源異構(gòu)空間數(shù)據(jù)集成系統(tǒng)的設(shè)計[J].計算機工程與設(shè)計,2007,28(8):1962-1965.
[20]曠建中,馬勁松,蔣民鋒.基于GML的多源空間數(shù)據(jù)集成模型研究[J].計算機應(yīng)用研究,2005,22(6):105-107.
[21]DEVOGELE T,PARENT C,SPACCAPIETRA S.On spatial database integration[J].International Journal of Geographical Information Science,1998,12(4):335-352.
[22]HAMMER J,GARCIA-MOLINA H,WIDOM J,et al.The stanford data warehousing project[J].In IEEE Data Engineering Bulletin,1995,18(2):41- 48.
[23]崔鐵軍,郭黎.多源地理空間矢量數(shù)據(jù)集成與融合方法探討[J].測繪科學(xué)技術(shù)學(xué)報,2007(1):1-4.
[24]劉云漢.基于Web Service的異構(gòu)數(shù)據(jù)集成平臺設(shè)計與實現(xiàn)[J].電腦知識與技術(shù),2017,13(30):19-22.
[25]董永峰,侯向丹,袁超,等.分布式異構(gòu)數(shù)據(jù)庫同步集成的研究與應(yīng)用[J].計算機應(yīng)用與軟件,2012,29(6):122-124.
[26]陳超,王亮,閆浩文,等.一種基于NoSQL的地圖瓦片數(shù)據(jù)存儲技術(shù)[J].測繪科學(xué),2013,38(1):142-143,159.
[27]于小洋,云紅艷,賀英,等.利用語義技術(shù)實現(xiàn)Web Service數(shù)據(jù)的快速集成[J].青島大學(xué)學(xué)報(自然科學(xué)版),2017,30(1):79-84.
[28]李紹俊,楊海軍,黃耀歡,等.基于NoSQL數(shù)據(jù)庫的空間大數(shù)據(jù)分布式存儲策略[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2017,42(2):163-169.
[29]程淑娥.大數(shù)據(jù)環(huán)境下區(qū)域科技資源共享平臺云服務(wù)模式研究[D].哈爾濱:哈爾濱理工大學(xué),2017.
[30]王宏起,李力,李玥.區(qū)域科技資源共享平臺集成服務(wù)流程與管理研究[J].情報理論與實踐,2014,37(8):69-73.
[31]ZHONG Y,HAN J,ZHANG T,et al.A distributed geospatial data storage and processing framework for Large-scale webGIS[C]//The 20th International Conference on Geoinformatics,2012.
[32]HAN D,STROULIA E.HGrid:a data model for Large geospatial data sets in HBASE[C]//Proceedings of the 2013 IEEE Sixth International Conference on Cloud Computing,2013.
[33]WEI L Y,HSU Y T,PENGeng W C,et al.Indexing spatial data in cloud data managements[J].pervasive and Mobile Computing,2014(15):48-61.
[34]陳崇成,林劍鋒,吳小竹,等.基于NoSQL的海量空間數(shù)據(jù)云存儲與服務(wù)方法[J].地球信息科學(xué)學(xué)報,2013,15(2):166-174.
[35]CHANG F,DEAN J,GHEMAWAT S,et al.Bigtable:a distributed storage system for structured data[J].ACM Transactions on Computer System,2008,26(2):1-26.
[36]GHEMAWAT S,GOBIOFF H,LEUNG S T.The google file system[C]//19th ACM Symposium on Operating System Principles,2006.
[37]BURROWS M.The chubby Lock service for loosely- coupled distributed system[C]//Proceedings of the 7th Symposium on Operating System Design and Implementation,2006.
[38]陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J].計算機工程與科學(xué),2013,35(10):25-35.
[39]HECHT R,JABLONSKI S.NoSQL evaluation:a use case oriented survey[C]//2011 International Conference on Cloud and Service Computing,2011.
[40]陳紅.基于Hadoop的分布式SQL數(shù)據(jù)庫索引設(shè)計與實踐[J].艦船電子工程,2018,38(4):73-77.
[41]王凌暉,解云月,周美華.Hadoop分布式存儲架構(gòu)的性能分析[J].現(xiàn)代電子技術(shù),2018,41(18):92-95.
[42]張振猛.基于Hadoop的海量文件存儲系統(tǒng)的分析與設(shè)計[D].北京:北京工業(yè)大學(xué),2015.
[43]陸文星,涂竹松,梁焱.基于HBase的數(shù)據(jù)共享模型研究[J].計算機技術(shù)與發(fā)展,2016,26(4):36-40,45.
[44]李崇欣.分布式數(shù)據(jù)庫HBase快照的設(shè)計與實現(xiàn)[D].杭州:浙江大學(xué),2011.
[45]蘇奮振,周成虎.過程地理信息系統(tǒng)框架基礎(chǔ)與原型構(gòu)建[J].地理研究,2006,25(3):477-484.
TP311
A
10.15913/j.cnki.kjycx.2020.01.009
2095-6835(2020)01-0031-05
國家自然基金項目“秦嶺火地塘森林景觀土壤微生物空間格局”(編號:31670549);陜西省土地整治重點實驗室開放基金“污損土地遙感調(diào)查與評估研究”(編號:2018-JC08);自然資源部退化及未利用土地整治工程重點實驗室開放基金(編號:SXDJ2019-8)
奧勇,男,長安大學(xué)地球科學(xué)與資源學(xué)院副教授,碩士研究生導(dǎo)師,陜西土地整治重點實驗室信息室主任。
李美麗(1992—),女,碩士研究生。
〔編輯:嚴麗琴〕