茍在明+姜維軍+王彥兵+王海峰+劉靜+徐景東
摘 要:文章分析了寧夏全業(yè)務水利數(shù)據(jù)模型的研究背景,闡述了模型的研究路徑,介紹了模型的需求分析、模型設計和數(shù)據(jù)建模內(nèi)容,以期發(fā)揮水利信息化的優(yōu)勢,促進行業(yè)發(fā)展。
關鍵詞:水利信息化;全業(yè)務;水利數(shù)據(jù)模型;寧夏
中圖分類號:TV222文獻標志碼:A 文章編號:2095-2945(2017)31-0122-03
1 背景
長期以來,寧夏水利信息化建設按照項目應用方式建設,數(shù)據(jù)庫建設及數(shù)據(jù)庫的物理部署缺少統(tǒng)一統(tǒng)籌規(guī)劃,呈現(xiàn)數(shù)據(jù)庫類型和數(shù)據(jù)庫結構異構現(xiàn)象普遍,數(shù)據(jù)建設內(nèi)容突出表現(xiàn)為專項業(yè)務數(shù)據(jù),數(shù)據(jù)資源被縱向(地域)橫向(業(yè)務部門)切成了若干碎片,造成數(shù)據(jù)庫條塊分割和數(shù)據(jù)庫交叉重復建設的現(xiàn)象,形成存在入庫數(shù)據(jù)量分布不均、入庫數(shù)據(jù)種類不全、入庫數(shù)據(jù)規(guī)模偏小、數(shù)據(jù)分類不齊全、編碼不統(tǒng)一、數(shù)據(jù)零散孤立且缺少關聯(lián)的數(shù)據(jù)質量差的事實,導致數(shù)據(jù)資源的“一數(shù)一源”難以保證,數(shù)據(jù)更新和數(shù)據(jù)安全得不到有效保障。這嚴重降低了寧夏水利數(shù)據(jù)資源的利用率,減緩了寧夏水利信息化現(xiàn)代化水平的發(fā)展。
綜上各種因素,為了滿足寧夏水利數(shù)據(jù)資源的全局共享、應用和統(tǒng)一管理需求,適應當前“互聯(lián)網(wǎng)+”、大數(shù)據(jù)技術的發(fā)展趨勢,發(fā)揮水利信息化的最大社會經(jīng)濟效益,為寧夏水利數(shù)據(jù)資源的“資源集約、信息集中、業(yè)務集成”數(shù)據(jù)環(huán)境提供支撐,需要研究一套“結構清、數(shù)據(jù)明、使用暢、管理范”的寧夏全業(yè)務水利數(shù)據(jù)模型是非常有必要的。
2 研究路徑
基于《水利數(shù)據(jù)中心建設基本技術要求》中對數(shù)據(jù)層的建設要求,以寧夏水利信息資源規(guī)劃理論為指導、借助于其他行業(yè)的成功經(jīng)驗,以及云計算、大數(shù)據(jù)等新技術的拓展要求,進行寧夏“全業(yè)務水利數(shù)據(jù)模型”的研究與設計工作。寧夏全業(yè)務水利數(shù)據(jù)模型按照“需求分析”→“數(shù)據(jù)模型設計”→“數(shù)據(jù)建?!钡难芯柯窂竭M行研究、設計和實現(xiàn)。首先通過對寧夏水利業(yè)務職能分析確定寧夏水利全業(yè)務范圍和數(shù)據(jù)資源范圍,其次對確定的水利業(yè)務范圍流程進行分析,形成業(yè)務資源目錄、職能分布等分析成果,最后進行根據(jù)業(yè)務流程,對業(yè)務流程環(huán)境蘊含的數(shù)據(jù)資源的數(shù)據(jù)及數(shù)據(jù)流程進行分析,形成數(shù)據(jù)資源目錄、數(shù)據(jù)分類及編碼等成果。通過業(yè)務數(shù)據(jù)關系成果確定業(yè)務和數(shù)據(jù)的映射,從業(yè)務角度,可劃分業(yè)務所包含的數(shù)據(jù)、數(shù)據(jù)內(nèi)容。保證從數(shù)據(jù)角度,可規(guī)范數(shù)據(jù)的業(yè)務分類。
在需求分析的基礎上,數(shù)據(jù)模型設計工作,按照“客觀信息表述”→“客觀信息到計算機過渡”→“計算機物理實現(xiàn)”的數(shù)據(jù)模型設計過程進行概念數(shù)據(jù)模型→邏輯數(shù)據(jù)模型→物理數(shù)據(jù)模型設計。
在完成數(shù)據(jù)模型設計的基礎上,著手進行數(shù)據(jù)建模工作,包含建模型方法、數(shù)據(jù)庫邏輯劃分、制定數(shù)據(jù)庫規(guī)范、數(shù)據(jù)庫模型優(yōu)化等內(nèi)容。
3 需求分析
3.1 職能域分析
職能域模型決定了數(shù)據(jù)中心的業(yè)務建設范圍。職能域是對寧夏水利相關單位范圍內(nèi)主要業(yè)務活動領域的抽象。對寧夏水利職能域的劃分,應在充分了解寧夏水利各機構單位職能的基礎上,辨別業(yè)務相關度,進行合理的、粗細適宜的劃分。
3.2 業(yè)務分析
按照寧夏職能域劃分需求,將寧夏水利業(yè)務劃分為17大類業(yè)務,包括:防汛抗旱、水文水資源勘測、水土保持、水利工程移民、農(nóng)村水利建設、規(guī)劃計劃、水利建設項目管理、水利科技教育、水利經(jīng)濟管理、安全生產(chǎn)管理、水務運營、財務審計、人事管理、黨政管理,每一大類業(yè)務最多可詳細劃分到3級業(yè)務。
3.3 數(shù)據(jù)分析
在對寧夏職能域的業(yè)務流程分析基礎上,根據(jù)業(yè)務與數(shù)據(jù)關系分析,依據(jù)國家對水利信息分類的相關標準,結合目前對寧夏水利業(yè)務數(shù)據(jù)情況,對寧夏水利數(shù)據(jù)資源進行數(shù)據(jù)分類,并對分類數(shù)據(jù)按照一定的編碼規(guī)則進行編碼,用以唯一表述分類數(shù)據(jù)。
4 模型設計
在對寧夏水利相關的各類數(shù)據(jù)深入的分析基礎上,進行邏輯數(shù)據(jù)庫的設計和劃分;基于數(shù)據(jù)標準,完成數(shù)據(jù)的概念模型、邏輯模型、物理模型的設計。
4.1 數(shù)據(jù)模型設計過程
針對各類數(shù)據(jù)庫中數(shù)據(jù)模型的設計,采用從概念數(shù)據(jù)模型到邏輯數(shù)據(jù)模型,最終到物理數(shù)據(jù)模型的設計方法進行數(shù)據(jù)建模。數(shù)據(jù)庫建設方案以概念數(shù)據(jù)模型和邏輯數(shù)據(jù)模型設計為主。物理數(shù)據(jù)模型可根據(jù)選用的數(shù)據(jù)庫管理系統(tǒng)的不同,從概念模型或邏輯模型中導出生成。
數(shù)據(jù)中心的數(shù)據(jù)庫是個復雜的系統(tǒng),包含內(nèi)容眾多,需按照一定調理進行設計。無論是概念模型還是邏輯模型均采用分層化設計。按照數(shù)據(jù)間關系及數(shù)據(jù)劃分,頂層概念模型表示了各類數(shù)據(jù)間的轉換和使用關系,頂層邏輯模型描述了各邏輯庫劃分及關聯(lián)關系,以下各層將逐層細化。
專用數(shù)據(jù)庫的設計應依據(jù)各應用數(shù)據(jù)庫設計而定,主題庫設計視不同主題設計各自的數(shù)據(jù)庫結構,元數(shù)據(jù)庫設計應以元數(shù)據(jù)建設規(guī)范為依據(jù),設計元數(shù)據(jù)庫包含的內(nèi)容和結構。
4.2 概念數(shù)據(jù)模型設計
數(shù)據(jù)庫概念模型設計是一種面向問題的數(shù)據(jù)模型,是從用戶的角度,按照用戶的觀點對水利業(yè)務和管理數(shù)據(jù)和信息進行描述,按照現(xiàn)實的工作流程和流轉的信息抽象成數(shù)據(jù)庫的概念模型。概念模型獨立于數(shù)據(jù)庫邏輯結構,也獨立于支持數(shù)據(jù)庫的DBMS和計算機系統(tǒng),是現(xiàn)實實體和信息化系統(tǒng)中實體的中介,一方面能夠充分反映現(xiàn)實世界,包括實體與實體、實體與屬性之間的關系,同時又易于向關系、網(wǎng)狀、層次等各種數(shù)據(jù)模型轉換,它將現(xiàn)實世界的信息結構統(tǒng)一用屬性、實體以及實體間的聯(lián)系來描述,因此概念模型設計是數(shù)據(jù)庫設計的關鍵一步。
(1)頂層數(shù)據(jù)概念模型
寧夏全業(yè)務水利概念數(shù)據(jù)模型如圖1。
(2)二層概念數(shù)據(jù)模型
二層概念數(shù)據(jù)模型包括專用數(shù)據(jù)內(nèi)部概念模型和基礎數(shù)據(jù)內(nèi)部概念模型。專用數(shù)據(jù)內(nèi)部根據(jù)關聯(lián)的不同應用劃分成不同的專用數(shù)據(jù)子集,相互之間無交互關系,通過基礎數(shù)據(jù)、主題數(shù)據(jù)共享信息,因此相互相對獨立。基礎數(shù)據(jù)相互之間雖獨立存儲,但存在著相互影響的關聯(lián)關系,圖2為各類數(shù)據(jù)的概念模型。endprint
(3)主題數(shù)據(jù)概念模型
主題數(shù)據(jù)內(nèi)部按照不同主題劃分成不同的數(shù)據(jù)子集,相互之間相對獨立。
(4)元數(shù)據(jù)概念模型
元數(shù)據(jù)內(nèi)部,內(nèi)聯(lián)映射元數(shù)據(jù)實現(xiàn)技術元數(shù)據(jù)與業(yè)務元數(shù)據(jù)的層間映射,元數(shù)據(jù)概念模型如圖3。
3.3 邏輯數(shù)據(jù)模型設計
邏輯數(shù)據(jù)模型反映的是設計者對數(shù)據(jù)存儲的觀點,是對概念數(shù)據(jù)模型進一步的分解和細化。邏輯數(shù)據(jù)模型是根據(jù)業(yè)務規(guī)則確定的,關于業(yè)務對象、業(yè)務對象的數(shù)據(jù)項及業(yè)務對象之間關系的基本藍圖。邏輯數(shù)據(jù)模型的內(nèi)容包括所有的實體和關系,確定每個實體的屬性,定義每個實體的主鍵,指定實體的外鍵,需要進行范式化處理。邏輯數(shù)據(jù)模型的目標是盡可能詳細的描述數(shù)據(jù),但并不考慮數(shù)據(jù)在物理上如何來實現(xiàn)。
邏輯數(shù)據(jù)建模不僅會影響數(shù)據(jù)庫設計的方向,還間接影響最終數(shù)據(jù)庫的性能和管理。充分詳細地邏輯數(shù)據(jù)模型設計,可在物理數(shù)據(jù)模型設計時有更多可供選擇的方法。
3.4 物理數(shù)據(jù)模型設計
物理數(shù)據(jù)模型是面向計算機物理表示的模型,描述了數(shù)據(jù)在儲存介質上的組織結構。每一種邏輯數(shù)據(jù)模型在實現(xiàn)時都有其對應的物理數(shù)據(jù)模型。依據(jù)和邏輯數(shù)據(jù)模型的對應關系,包括專用數(shù)據(jù)庫物理模型、基礎數(shù)據(jù)庫物理數(shù)據(jù)模型。
(1)專用數(shù)據(jù)庫物理數(shù)據(jù)模型
專用數(shù)據(jù)庫是以各個單一業(yè)務應用為主,通過對現(xiàn)有各業(yè)務應用系統(tǒng)數(shù)據(jù)庫的整合同步、數(shù)據(jù)處理形成。各應用系統(tǒng)根據(jù)功能及實現(xiàn)需根據(jù)數(shù)據(jù)中心相關規(guī)范設計,自行設計項目庫數(shù)據(jù)模型,并完成相關的數(shù)據(jù)庫,寧夏水利數(shù)據(jù)中心提供各專用數(shù)據(jù)庫的物理結構實現(xiàn)。
(2)基礎數(shù)據(jù)庫物理數(shù)據(jù)模型
基礎數(shù)據(jù)庫是數(shù)據(jù)中心體系的核心,存儲從專用數(shù)據(jù)庫抽取來的基礎明細數(shù)據(jù)以及部分輕度匯總數(shù)據(jù)和派生指標數(shù)據(jù)或水利相關部門業(yè)務中產(chǎn)生的業(yè)務數(shù)據(jù),包括水利對象基礎數(shù)據(jù)和基礎業(yè)務數(shù)據(jù)等內(nèi)容。
借助于面向水利對象的設計思路,以水利數(shù)據(jù)對象為主線,設計基礎數(shù)據(jù)庫物理數(shù)據(jù)模型,把寧夏水利相關的12基礎業(yè)務數(shù)據(jù)有機組織為一個整體?;A數(shù)據(jù)庫數(shù)據(jù)物理模型主要用于存放水務對象的個體屬性、關系(如對象間關系、編碼關系等),以及字典信息,具有共性的水利業(yè)務數(shù)據(jù)。
(3)元數(shù)據(jù)庫物理數(shù)據(jù)模型
根據(jù)制定的符合寧夏水利情況的元數(shù)據(jù)標準,設計數(shù)據(jù)中心元數(shù)據(jù)庫數(shù)據(jù)模型,元數(shù)據(jù)庫存儲用于對數(shù)據(jù)中心各類實體數(shù)據(jù)進行描述的元數(shù)據(jù)信息、元數(shù)據(jù)的字典信息、信息資源目錄信息。用來主要描述實體數(shù)據(jù)的定義、內(nèi)容、質量、表示方式、空間參考系、管理方式以及數(shù)據(jù)集的其他特征等,提供對寧夏梳理數(shù)據(jù)資源統(tǒng)一描述、應用和管理支撐能力。
(4)主題數(shù)據(jù)庫物理數(shù)據(jù)模型
面向業(yè)務決策的需求建模,其數(shù)據(jù)源包括基礎庫、元數(shù)據(jù)庫以及外部共享數(shù)據(jù)。其中前兩類數(shù)據(jù)源的使用可以通過數(shù)據(jù)挖掘技術,按照應用需求,從基礎數(shù)據(jù)庫通過抽取和輕量級匯總,抽取匯集到一起,形成數(shù)據(jù)立方,進行多維度的統(tǒng)計分析,提供面向主題的數(shù)據(jù)服務。外部共享數(shù)據(jù)源包括互聯(lián)網(wǎng)上的實時信息以及可獲得的外部單位提供的共享信息,對其的使用可以借助寧夏水利數(shù)據(jù)中心的應用服務平臺,通過大數(shù)據(jù)分析技術形成面向主題的成果供業(yè)務分析和決策支持使用,得到按主題劃分的主題庫匯總數(shù)據(jù)層的數(shù)據(jù)模型。主題數(shù)據(jù)庫物理數(shù)據(jù)模型架構如圖4所示:
4 數(shù)據(jù)建模
4.1 數(shù)據(jù)庫邏輯劃分
根據(jù)寧夏水利數(shù)據(jù)分類,按照用途和業(yè)務屬性,可將數(shù)據(jù)中心分成四個邏輯數(shù)據(jù)庫,即:元數(shù)據(jù)庫、專用數(shù)據(jù)庫、基礎數(shù)據(jù)庫、主題數(shù)據(jù)庫。其中元數(shù)據(jù)庫內(nèi)容包括技術元數(shù)據(jù)、業(yè)務元數(shù)據(jù)和內(nèi)聯(lián)映射元數(shù)據(jù);專用數(shù)據(jù)庫按照不同的應用系統(tǒng)劃分為不同的邏輯數(shù)據(jù)庫;基礎數(shù)據(jù)庫根據(jù)數(shù)據(jù)分類包括28個邏輯子庫;主題數(shù)據(jù)庫按照挖掘的不同主題包括多個對應的數(shù)據(jù)庫表群。
4.2 制定數(shù)據(jù)庫規(guī)范
數(shù)據(jù)規(guī)范化的設計和建立是將數(shù)據(jù)庫各類標識名稱統(tǒng)一化、規(guī)范化,有助于確立信息之間的一一對應關系,保證信息的可靠性、可比性和適用性,保證信息存儲及交換的一致性與唯一性,便于信息資源的高度共享。綜合國家已制定各類標準,結合寧夏水利信息化本地情況,制定符合寧夏水利情況、滿足寧夏水利需求的數(shù)據(jù)庫標識符標準。
4.3 數(shù)據(jù)庫性能優(yōu)化
分析并優(yōu)化數(shù)據(jù)庫的“時-空”效率,盡可能的“提高處理速度”并降低“數(shù)據(jù)占用空間”是數(shù)據(jù)庫性能優(yōu)化設計的主要依據(jù)。數(shù)據(jù)庫性能優(yōu)化主要包括數(shù)據(jù)庫的物理存儲優(yōu)化、數(shù)據(jù)庫結構優(yōu)化、數(shù)據(jù)庫運行優(yōu)化。物理存儲優(yōu)化涵蓋數(shù)據(jù)庫實例、表空間等方面優(yōu)化,數(shù)據(jù)庫運行優(yōu)化涵蓋表分區(qū)、索引、查詢優(yōu)化等。
5 結束語
研究和設計寧夏全業(yè)務水利數(shù)據(jù)模型對滿足寧夏水利數(shù)據(jù)資源的全局共享、應用和統(tǒng)一管理需求,適應當前“互聯(lián)網(wǎng)+”、大數(shù)據(jù)技術的發(fā)展趨勢,發(fā)揮水利信息化的最大社會經(jīng)濟效益具有重要意義。
參考文獻:
[1]賀挺.面向水利應用網(wǎng)格的數(shù)據(jù)中心設計與開發(fā)[D].西安理工大學,2010.
[2]賀挺,解建倉,李建勛,等.一種面向水利網(wǎng)格的數(shù)據(jù)中心設計與開發(fā)[J].中國水利,2009(16).
[3]成建國,錢峰,艾萍.國家水利數(shù)據(jù)中心建設方案研究[J].中國水利,2008(19).endprint