李曉敏,李晶河北省地質調查院
淺析地質數據倉庫的特點及數據組織
李曉敏,李晶
河北省地質調查院
摘要:在我國地質行業(yè)的不斷發(fā)展中,研究人員獲得了大量有價值的地質數據。有效地對海量數據進行存儲、管理和利用,是提升地質行業(yè)發(fā)展速度和水平的關鍵。因此,有必要建立強大的數據倉庫管理系統(tǒng),來更好地對地質數據進行管理。本文對地質數據倉庫的特點以及數據組織進行了具體分析,希望對我國地質行業(yè)的快速發(fā)展有所幫助。
關鍵詞:地質數據倉庫;特點;數據組織
數據倉庫指的是集成的、面向主題的、反映歷史變化的數據集合,是一種對海量數據進行管理和分析的技術,具有能方便研究人員存取相關數據信息以及對當下問題作出科學決策的作用。從類型上,數據倉庫可分為屬性數據庫、多媒體數據庫以及空間數據庫等三種。地質數據倉庫的建立,極大地方便了地質工作者對地質資料的管理,它通過友好的界面和便捷的操作流程為廣大行業(yè)人員的研究工作提供了有力支持。
2.1空間性特點
根據目前的地質資料所建立的地質數據倉庫,具有較為明顯的空間性的特點。在數據信息的收集過程中,工作人員通常選取的都是靜態(tài)的、描述性的數據信息,這些信息在一段時間內可被認為是不隨時間變化的。同時,這些數據信息所構造的整體在整個空間都有分布,通過立體三維方式來展現地質情況。因此,地質數據倉庫在構建時,要注意考慮空間方面的特點,從而更好的展現數據信息的內在聯系,從而構造清晰明了的數據體系。
2.2非永久性特點
地質數據并不像大多數據那樣具有永久不變的特點。地質情況隨著時間的累積,處在不斷變化之中,變化速度也有長有短。一般情況下,實際數據信息的變化速度較慢,往往幾年或幾十年才會發(fā)生顯著改變,且質變發(fā)生時其特征不容易被人們捕獲,因此,有必要在一定期限內對數據進行重新調查和錄入,及時用新信息替代已失效信息,從而保證相關人員在使用數據庫時得到真實有效的數據。
2.3類型復雜的特點
地質倉庫數據由于包含聲音、圖像、原始信號以及其他各種類型的信息,只是用整型、實型、字符型等簡單的數據類型已無法對所有地質資料數據進行描述,個別情況下甚至需要設立專門的表示方法和手段,包括使用技術上的處理等方式。面對海量的數據再加上其種類繁多復雜,使得地質數據倉庫的建設人員有必要采用跨學科跨行業(yè)的新技術手段來完成這一棘手的工作。唯有創(chuàng)新數據的管理方式,根據數據類型及使用特點有針對性的建立地質數據倉庫,才能使其真正地發(fā)揮作用。
2.4集成性特點
地質數據倉庫在結構上采用的是集成的方式,與一般數據庫類似,該種方式可極大地提升數據的管理和存取效率,將分散的數據進行集成管理,從而使工作更加系統(tǒng)和科學。同時,這種方式還能將數據內部的聯系顯露出來,方便研究人員對數據的控制和存取??偠灾尚蕴攸c大大簡化了地質數據倉庫的結構,而且很好地解決了地質資料數量眾多和種類繁雜的特點,對數據庫作用的發(fā)揮具有很大意義。
2.5多源性特點
地質數據倉庫中的數據來源十分廣泛,主要包括了工程地質、水文地質、地震地質、地質災害、地質環(huán)境以及地質資源等眾多類別。數據庫的多源性給數據系統(tǒng)的建設和管理帶來很大挑戰(zhàn),又由于數據的離散性較大,造成了數據異構的現象,形成了較多的信息“孤島”,為數據信息的管理者帶來不小麻煩,也對研究人員進行信息提取和分發(fā)共享等工作帶來困擾。因此,有必要建立一定的行業(yè)標準,對各種數據源進行合理規(guī)范,使其成為標準、統(tǒng)一的數據源,從而使地質數據倉庫更加方便的被使用和管理。
2.6多層次特點
一個結構完整功能完善的地質數據倉庫其框架必然至少包括以下幾個層次:1、存儲層。該層的作用主要是對海量的地質資料數據進行存儲,采用面向主題的方式進行分類,而這一層次又可細分為三部分:元數據、公用庫和數據集市。數據集市是以某一內容作為主題的部分數據的集合,它是數據存儲的主體;公用庫由方法庫、模型庫和代碼庫等組成;元數據則是最基本的數據信息。2、分析層。通過對存儲層的數據進行分析,從而使研究人員獲取所需的信息,在具體運作時一般都會采用數據挖掘技術和多維分析工具作為分析手段。3、表達層。該層的作用是將分析層的結果轉化為研究人員能夠直接理解的類型并顯示出來。
3.1數據組織結構
地質數據倉庫的數據組織結構與一般數據庫不同,主要體現在如下幾點:1、數據的流向有差異。在一般的數據庫中,各層都能直接接受外界的數據,而在地質數據倉庫中,只有部分結構能接受外界的數據,并且其它結構的數據也只能由這一部分得來,這就在一定程度上使地質數據倉庫具有很大的局限性,且數據的更新變得復雜和繁瑣;2、度量參數的選擇不同。一般數據庫都是選擇時間作為相關數據的度量參數,而在地質數據倉庫中,需要用空間作為度量參數方能全面系統(tǒng)的對數據進行管理和描述,這在一定程度上增加了數據倉庫建設的復雜程度,給相關人員帶來一定難度;3、可更新屬性有差異。地質數據倉庫的數據是可以更新的,這也是實際情況的要求,因為外在環(huán)境處在不斷變化之中,而數據若沒有及時更新,會產生因失效導致的研究工作出現差錯等問題。同時,數據的更新還具有整體性,即對于基層數據的修改也會影響到上層數據,最后全體數據都可能因此發(fā)生變動,這也是數據在改動時需要注意的地方。
3.2粒度與分割
一般數據庫與地質數據倉庫在關于粒度的概念上并沒有多大差異,表示的都是對數據綜合程度的度量或采樣率的高低。而分割則是將數據進行分散,通過與各自的物理單元相配合,提升數據的處理效率,而在地質數據的物理組織上,則采用空間尺寸來作為分割標準。
地質數據倉庫對于地質行業(yè)的發(fā)展具有重大意義,建立和完善地質數據倉庫系統(tǒng)不僅能使海量地質資料信息得到更加有效的管理,方便研究人員的工作,還能促使人們發(fā)現數據之間的潛在聯系,從更加立體的角度來看待實際地質情況。本文對地質數據倉庫的特點進行了仔細分析,并客觀詳細地說明了其內部的數據組織形式,為相關研究人員提供了一定幫助。
參考文獻:
[1]王珊.數據倉庫技術與聯系分析處理[J].科學出版社,2013.
[2]屠躍明.數字檔案信息融匯服務系統(tǒng)的研究與實踐[J].檔案學研究,2014,(4):65-70.
[3]張紅軍,李亞芬,周小林.大型數據庫應用系統(tǒng)中基于角色的權限管理方案[J].現代計算機,2014,(5).