張梅 張新陽
摘 要:當今社會,不同生產、生活領域信息化程度的逐步加深,電子文檔與數據資料的大量積累,使得電力管理與開發(fā)數據資源成為實現組織單位快速發(fā)展的重要途徑。元數據可以看作是對數據的描述,當前階段的元數據模型通常采用都柏林標準,即利用一個元數據對不同種類的數據資源進行描述,便于信息開發(fā)人員更好地管理著錄格式,提高信息檢索、描述的效率。
關鍵詞:元數據標準;模型驅動;數據訪問
科技社會的數字化進程逐步推進,使得以原數據為基礎的資源管理、開發(fā)模式進入了成熟發(fā)展的階段,可以實現快速獲取信息、統一視圖的功能。然而,大數據資源管理趨勢的影響下,電力行業(yè)表格數據以及統計數據的規(guī)模更加龐大、類型更加多樣化。靜態(tài)、單一的元數據管理模式無法完全實現數據的一致、系統管理,無法兼顧元數據與數據的描述,如果每一類的數據都通過靜態(tài)元數據描述,將會產生數量極多的元數據實例,增加數據維護的投入成本。因此,本文深入研究電力行業(yè)數據開發(fā)的情況,通過元數據的動態(tài)管理模型構建,對元數據的應用與管理進行系統的探析。
一、元數據的標準及其質量評估
1、元數據的標準
元數據的標準主要是指描述特定資料數據的規(guī)則集合,分為語義層次方面的著錄規(guī)則以及語法層次的規(guī)則。其中,語義層次的規(guī)則主要對數據不同領域的概念進行描述,按照規(guī)則類型的不同分為類、約束以及屬性等,屬于比較具體的元數據規(guī)則。與此相對應的,語法層次的規(guī)則是一種元語言,通過定義使用的語言、語法,對數據的格式以及結構進行描述。元數據產生及發(fā)展的過程中,其實際的標準被不斷地修訂,逐步完善元數據在不同領域適應過程中的規(guī)則。從元數據研發(fā)至今,國外學者針對元數據的規(guī)則與標準進行深入研究,將單一的元數據劃分規(guī)則演化為多種數據集的規(guī)則,在此基礎之上,以都柏林為核心提出了元數據的可擴展標準,進一步細化了核心元數據的定義、說明、報名規(guī)則、擴展規(guī)則以及特定元數據概念。國內相關元數據的標準化建設成果包括2014年的圖書館系類著錄規(guī)則以及元數據規(guī)范叢書等著作的集中出版,體現了我國元數據規(guī)則研究的發(fā)展進程。
2、元數據的質量評估以及具體控制
對元數據的質量進行評估以及控制主要指以功能需求為導向,對元數據的質量進行具體控制,保證元數據質量符合應用的實際需求,確保元數據的利用水平達到設計的預期效果。相關學者對元數據的具體評估指標與資源管理體系的研究重點在于評估指標的選擇、數據應用環(huán)境以及應用目標等。國外相關的元數據綜合評估與控制課題的研究已經取得了系統性的成果。在國內,專家學者也陸續(xù)發(fā)表了如《基于元數據的數據質量控制與評估模型研究》等學術成果,對元數據質量的影響因素進行了綜合分析,同時對數據流動的質量檢測、控制、評估等內容開展了研究工作,提出了以元數據為基礎對數據資源進行質量控制的模型。
二、以元數據為基礎的資源管理系統
針對現階段靜態(tài)元數據應用的漏洞,本文提出了以元數據為基礎的動態(tài)數據模型,對數據資源進行系統管理,并在電力單位進行實踐的過程中取得了較為顯著的成效。該種數據管理模式主要是利用元數據的模型,對管理的數據對象開展標準化模型建設工作,然后利用動態(tài)數據對資源進行管理。這種利用元數據的動態(tài)管理模式,可以對數據進行實例描述,在確保模型一致性的同時,保證了多種形式數據資源的統一管理效率。
1、數據管理的范圍
動態(tài)資源管理與靜態(tài)數據控制都是以元數據為基礎建立模型的,從電力管理統一性以及元數據控制標準化角度來說,數據資源的主要范圍包括:
(1)基礎元數據(標準元數據)
基礎范圍的元數據屬于對領域中一般性業(yè)務進行抽象,得出的標準化模型,主要功能在于為數據實例提供標準的管理視圖。
(2)領域元數據(擴展元數據)
擴展元數據是依照不同類型的業(yè)務特征提取出來的特殊數據模型,對數據資源的不同功能進行描述。
(3)數據資源
數據資源包含的內容較多,不僅涵蓋了不同格式的數據文件(office文件、視頻文件、音頻文件、數據庫及其他),還包括數據本身(統計數據、個人信息、憑證等)
(4)標準數據
標準數據是指符合國家標準、國軍標與國際標準以及領域內標準數據規(guī)則的數據,包括固定范圍內的分類標準以及數據字典。
(5)數據規(guī)則與數據約束
通常情況下,只有數據信息與標準數據才具備約束、關聯等局限性條件,屬于數據復雜性的深度體現。
2、動態(tài)元數據體系的分層描述
數據資源的管理對象不同,使用的管理形式與模型構建方法也存在差異,通過分層管理,可以實現由簡單到復雜的系統管理,最終通過數據映射保證動態(tài)管理的目的。
(1)元元模型
元元模型對全部的數據類型進行定義,包括字符、整型等。
(2)元模型
對領域的元數據進行基礎的定義,該種模型能夠利用分類體系對不同領域的元模型進行動態(tài)管理,同時通過不同的版本對分層的元數據演化進行區(qū)分。
(3)元數據
以元模型為基礎對數據進行管理,從數據庫的角度出發(fā),可以視為一種表單,對管理領域的實際資料數據進行存儲。
(4)實例
實例也可以稱為INFO,是一種能夠真實存儲的資源。其第二與第三列分別對應模型的內容與實現手段。以元元模型為例,作為一般性的通用語言,對抽象數據的全部數據格式進行了定義,為更復雜管理層的信息描述提供基礎。
以電力單位需要進行檢修的設備為例,修理數據包括:單位名稱、負責人、生產信息、修理日期以及設備編號等數據,分層管理模型的構建流程為:首先對元元數據進行定義,涉及字符型、數字型、日期型等;其次,對元數據模型進行定義,以都柏林體系或領域要求為基礎,進行模型創(chuàng)建,具體包括:創(chuàng)建者、創(chuàng)建時間、資源名稱與類型等;第三,定義元數據、模型,內容為單位名稱、修理日期、負責人、設備編號等,其中元模型和數據模型中,每項都是通過元元模型進行描述;第四,實例,是構建完成后基于元數據的動態(tài)數據資源模型的存儲表,一般為主從表的二維關系映射。
3、模型驅動機制
為了實現元數據分層模型,從技術實現角度,采用模型驅動的方法完成從平臺無關到平臺實現的遞進實現。其中元元數據和元數據模型構建是平臺無關的,針對領域數據資源進行邏輯模型構建,形成PIM。在邏輯模型校驗和審核無誤后,可以進行平臺相關的物理模型構建,形成PSM。最后根據平臺約束轉換成平臺依賴的腳本庫及代碼,完成模型的最終構建。這里和數據庫建模的過程基本一致,但是最大的不同在于,基于元數據的動態(tài)數據資源管理模型構建,是以模型管理和領域分類管理為核心,最終會形成以元數據模型為基礎的數據資源體系。
三、動態(tài)元數據管理的技術架構
根據模型驅動原理和分層設計體系,采用SOA面向服務的技術架構,實現分層模型定義、模型轉換和數據訪問的一體化動態(tài)數據資源管理平臺,便于電力單位對數據資源進行系統化管理。
1、可視化模型設計器
開發(fā)框架由系統框架層,技術框架層構成。在系統框架層,包括操作系統層和數據庫層。在技術框架層,包含各種企業(yè)應用開發(fā)必須的技術控件,包括數據交換引擎、業(yè)務應用服務、IOC容器、數據持久化框架、ESA及各類引擎等。各種服務和工具都基于SOA架構,可以實現靈活的接口輸出。使用模型設計器創(chuàng)建分層模型并發(fā)布。平臺如下圖所示。
2、數據訪問架構
平臺模型構建中通過引入對象-關系映射系統中間件,實現數據庫的快速開發(fā)。平臺可通過JDBC實現單獨的持久化層,把數據庫訪問操作封裝起來,提供簡潔的API,供業(yè)務層統一調用,實現了獨立的ORM系統。最上層提供了基于元數據的持久化接口。可以實現對模型數據對象持久化操作,比如基本的增、刪、查、改等操作。電力單位通過這些持久化服務可以進行對模型數據的數據庫操作。同時業(yè)務建??蚣苓€提供了代碼生成和SQL生成的相關功能。其中代碼生成用于生成模型對象(元數據實體)的類代碼。
四、以原數據為基礎進行資源管理的應用情況
現階段,元數據的應用范圍主要包括:數字圖書館、數字化的檔案館、教育以及政府電子資源組織幾個領域。
1、數字化檔案館
元數據屬于數據資源管理的重要基礎,在圖書館、檔案館與博物館等領域應用范圍較廣。三館作為文化遺產保護單位、歷史文化管理單位與書籍資料存儲單位,是元數據應用的重點發(fā)展方向?;谌^合一基礎,開展元數據的動態(tài)管理,不僅可以打破數據資源的相對孤立情況,提升數據關聯的效率,還可以為用戶提供更加便捷的數據服務。具體的管理優(yōu)勢表現在以下幾方面:首先,元數據管理能夠更快的建立起檔案之間的內在關聯;其次,元數據可以使檔案的管理更加高效化、科學化;第三,檔案館通過元數據模型的構建,能夠提供多元化的信息服務平臺。
2、教育領域
元數據在教育領域的應用主要體現在兩方面:一方面是教育資源的深度開發(fā)上。相較于其他信息資源,教育資源具備共享程度低、多源異構以及互操作性差等局限問題。通過元數據的深入應用,可以為教育資源的共享、開發(fā)提供更加廣闊的服務平臺。與此同時,嵌入聚類算法的管理機制能夠幫助用戶更加快速、精準的定位需求資源,保障學習者的E-Learning環(huán)境和諧;另一方面,電子課本、書包等資源模式,也是現代教育關注的重點之一,以元數據為基礎的電子課本對電子元數據的體系進行了層次化動態(tài)管理,保證了內容、類別之間的管理一致性。通過研發(fā)電子課本的數據資源約束、XML綁定等,提升了教育資源的共享性。除此之外,現階段遠程教育與MOOC(幕課)的研究與發(fā)展,使得數據資源的管理越發(fā)的復雜,因此需要通過元數據與本體技術等手段,保證遠程教育知識共享的實踐性與穩(wěn)定性。
結論:元數據理論與應用在不同領域的深入發(fā)展,使得以元數據為基礎的動態(tài)資源管理系統成為數據資源開發(fā)的重點。在此基礎之上,本文結合電力單位的數據開發(fā)情況,從管理需求、數據定義、技術實現等方面出發(fā),結合實際案例對數據資源動態(tài)管理的模型進行了具體分析。該平臺可以在高效處理大數據的基礎上,通過一致性、系統性的管理,為用戶提供更便捷的數據服務。
參考文獻:
[1]楊博文,劉太敏.基于元數據的軍用數據資源采集匯總系統的設計與實現[C]//中國指揮控制大會.2018;
[2]張錚.基于XML元數據的農作物光譜信息管理系統的研究與設計[D].華中農業(yè)大學,2016;
[3]劉婧.基于元數據的多源異構海洋情報數據交互共享研究[J].情報雜志,2016,35(9);
[4]高勁松,劉洪秋.基于生命周期理論的文物元數據開放機制研究[J].圖書情報工作,2017(12).