亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于統(tǒng)一管控體系的數(shù)據(jù)倉庫的建設方法

        2019-09-12 06:20:32王小紅周炳
        計算機時代 2019年8期
        關鍵詞:元數(shù)據(jù)數(shù)據(jù)倉庫

        王小紅 周炳

        摘? 要: 數(shù)據(jù)倉庫建設作為信息社會中人們提取信息的關鍵技術,已經相當成熟。但是傳統(tǒng)數(shù)據(jù)倉庫單獨建設ETL調度子系統(tǒng)、數(shù)據(jù)質量管理子系統(tǒng)和元數(shù)據(jù)管理子系統(tǒng)的數(shù)據(jù)倉庫體系,容易導致配套子系統(tǒng)描述的不一致。文章闡述了一種基于統(tǒng)一管控體系的數(shù)據(jù)倉庫建設思路及其架構,通過構建新的管控體系改變傳統(tǒng)的數(shù)據(jù)處理和管理方式,實現(xiàn)數(shù)據(jù)“統(tǒng)一采集、統(tǒng)一存儲、統(tǒng)一管理、統(tǒng)一運營、統(tǒng)一服務”,解決了傳統(tǒng)數(shù)據(jù)倉庫各子功能系統(tǒng)之間無法良好協(xié)同、描述不一致的問題。該系統(tǒng)在實際應用中取得了較好的效果,具有較高的應用價值。

        關鍵詞: 數(shù)據(jù)倉庫; ETL; 元數(shù)據(jù); 統(tǒng)一管控體系; 數(shù)據(jù)生產線

        中圖分類號:TP311.52? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)08-40-04

        Abstract: The construction of data warehouse, as a key technology for people to extract information in the information society, has been quite matured. However, traditional data warehouse can lead to the inconsistency of supporting subsystems, because subsystem of ETL scheduling, subsystem of data quality management and subsystem of metadata management are built separately. So a method of establishing data warehouse based on uniform data management and control system is introduced in this paper. The aim of "unified collection, unified storage, unified management, unified operation and unified service" can be achieved by the new management and control system, which substitutes the traditional data processing and management methods, and solves the problem that the sub-function systems of traditional data warehouse can not cooperate well and describe inconsistently. This system has achieved good effects, and has good practicability and high application value.

        Key words: data warehouse; ETL; metadata; uniform data management and control system; data assembly line

        0 引言

        隨著社會的發(fā)展和技術的進步,數(shù)據(jù)已成為人類社會重要的資源,而社會信息化的發(fā)展也使數(shù)據(jù)量急劇增長,人們?yōu)榱藦拇罅繑?shù)據(jù)中提取出能對預測、輔助決策有用的信息,使用各種技術手段,如可視化、BI、人工智能、大數(shù)據(jù)等,這些技術的實現(xiàn)均需良好的數(shù)據(jù)架構作為支撐基礎,數(shù)據(jù)庫已無法滿足這種需求,主要體現(xiàn)在以下三個方面:一是歷史數(shù)據(jù)量大,盡管軟硬件的性能持續(xù)得到大幅度提升,但是仍然無法滿足快速增長的數(shù)據(jù)量所需要的環(huán)境;二是輔助決策信息涉及多個部門、多個系統(tǒng)、多種格式的數(shù)據(jù),而這些多樣化的數(shù)據(jù)在數(shù)據(jù)庫中是難以集成的;三是數(shù)據(jù)庫主要用于OLTP,對于處理數(shù)據(jù)查詢等OLAP操作的能力不足,對大量數(shù)據(jù)的訪問性能明顯下降。為了解決上述問題,人們提出了數(shù)據(jù)倉庫的概念,并研究出數(shù)據(jù)倉庫的建設方法。

        然而,傳統(tǒng)的數(shù)據(jù)倉庫單獨建設ETL調度子系統(tǒng)、數(shù)據(jù)質量管理子系統(tǒng)和元數(shù)據(jù)管理子系統(tǒng)等,這樣容易導致各子系統(tǒng)之間無法良好協(xié)同,對同一數(shù)據(jù)的描述往往不一致,基于此我們提出建立包括ETL調度、元數(shù)據(jù)管理和數(shù)據(jù)質量等功能在內的統(tǒng)一的數(shù)據(jù)管控體系,改變傳統(tǒng)的數(shù)據(jù)處理和管理方式。

        1 數(shù)據(jù)倉庫的基本內容

        1.1 數(shù)據(jù)倉庫

        數(shù)據(jù)倉庫是向業(yè)務主題的、集成的、基于歷史的、信息本身相對穩(wěn)定的數(shù)據(jù)及應用集合[1,2,3\,4],它通過建立面向數(shù)據(jù)分析服務的統(tǒng)一的數(shù)據(jù)存儲平臺,實現(xiàn)不同業(yè)務系統(tǒng)原始數(shù)據(jù)的清洗、整合和標準化,其主要內容包括三個方面。

        ⑴ 制定統(tǒng)一的數(shù)據(jù)標準[5]

        數(shù)據(jù)標準是一套符合系統(tǒng)自身實際,涵蓋定義、操作、應用多層次數(shù)據(jù)的標準化體系,是數(shù)據(jù)倉庫建設的一項重要工作。

        數(shù)據(jù)標準包括數(shù)據(jù)定義規(guī)范的標準化、數(shù)據(jù)編碼的標準化、元數(shù)據(jù)標準化和數(shù)據(jù)質量的標準化等。

        ⑵ 實現(xiàn)內部數(shù)據(jù)的歸口管理

        歸口管理指所有下游應用分析所需數(shù)據(jù)支持均平臺統(tǒng)一提供,避免數(shù)據(jù)源的多頭出口,從而提高各系統(tǒng)之間數(shù)據(jù)標準化和安全性。

        ⑶ 實現(xiàn)“一次采集、多次使用”

        “一次采集、多次使用”是指下游應用系統(tǒng)由對生產系統(tǒng)的直接依賴變?yōu)橐蕾囉诟鞣N粒度的匯總數(shù)據(jù),這些不同粒度的數(shù)據(jù)由數(shù)據(jù)倉庫統(tǒng)一加工且統(tǒng)一存儲,從而減輕其對生產系統(tǒng)壓力, 降低數(shù)據(jù)冗余和資源浪費,提高數(shù)據(jù)處理和數(shù)據(jù)分析的效率。

        1.2 數(shù)據(jù)倉庫的配套體系

        數(shù)據(jù)倉庫的建設和實施除了基礎存儲的建設外還包括周邊的配套體系,包括ETL調度、元數(shù)據(jù)管理和數(shù)據(jù)質量管理等。

        ETL[6-8] 是對操作數(shù)據(jù)庫中的業(yè)務數(shù)據(jù)進行抽取、清洗、轉換并將其載入數(shù)據(jù)倉庫存儲庫的數(shù)據(jù)集成工具,其主要作用在于對各類業(yè)務數(shù)據(jù)進行清理、標準化和匯總,為基于數(shù)據(jù)倉庫的決策分析應用提供高質量的數(shù)據(jù)。ETL負責按照統(tǒng)一的規(guī)則清洗并整合不同來源的數(shù)據(jù),完成數(shù)據(jù)源向數(shù)據(jù)倉庫轉化的過程,是數(shù)據(jù)倉庫的核心和關鍵環(huán)節(jié)。

        元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)是描述數(shù)據(jù)倉庫內數(shù)據(jù)的結構和建立方法的數(shù)據(jù),它實現(xiàn)了對數(shù)據(jù)全生命周期的管控,包括數(shù)據(jù)的描述、數(shù)據(jù)與數(shù)據(jù)之間的依賴關系以及數(shù)據(jù)流轉情況等信息,幫助數(shù)據(jù)管理員、開發(fā)人員和分析人員方便地找到他們所關心的數(shù)據(jù)[9,10,11,14]。

        數(shù)據(jù)質量管理是對支持業(yè)務需求的數(shù)據(jù)進行全面質量管理,通過相關辦法、流程、軟件等,及時發(fā)現(xiàn)并解決數(shù)據(jù)質量問題,提升數(shù)據(jù)的完整性、及時性、準確性及一致性,提升業(yè)務價值[12-13]。

        1.3 數(shù)據(jù)倉庫的體系架構

        數(shù)據(jù)倉庫的體系架構是以基礎數(shù)據(jù)存儲平臺為數(shù)據(jù)集合,在此基礎上建設ETL調度子系統(tǒng)、數(shù)據(jù)質量管理子系統(tǒng)和元數(shù)據(jù)管理子系統(tǒng)等功能,如圖1所示。

        1.4 傳統(tǒng)數(shù)據(jù)倉庫體系存在的問題

        由于傳統(tǒng)的數(shù)據(jù)倉庫體系單獨建設ETL調度子系統(tǒng)、數(shù)據(jù)質量管理子系統(tǒng)和元數(shù)據(jù)管理子系統(tǒng),因此存在以下幾個問題:一是數(shù)據(jù)處理邏輯優(yōu)化及ETL改造而相關描述文檔未及時更新可能導致元數(shù)據(jù)與實際數(shù)據(jù)處理不一致;二是元數(shù)據(jù)不可信導致多角色的不能有效溝通;三是ETL與數(shù)據(jù)質量管理體系獨立導致數(shù)據(jù)質量的可靠性無法隨時掌控,且與數(shù)據(jù)處理過程無法互動。這些問題導致各子系統(tǒng)之間無法良好協(xié)同。

        2 基于統(tǒng)一管控體系的數(shù)據(jù)倉庫的架構體系

        為了有效地解決傳統(tǒng)數(shù)據(jù)倉庫體系存在的描述不一致問題,我們提出了建立包括ETL調度、元數(shù)據(jù)管理和數(shù)據(jù)質量等功能在內的基于統(tǒng)一管控體系的數(shù)據(jù)倉庫。

        2.1 統(tǒng)一數(shù)據(jù)管控體系

        統(tǒng)一數(shù)據(jù)管控體系是依托于數(shù)據(jù)倉庫作為基礎的數(shù)據(jù)存儲平臺,通過整合包括ETL調度管理、元數(shù)據(jù)管理和數(shù)據(jù)質量等功能建立全新的數(shù)據(jù)管控體系,改變傳統(tǒng)的數(shù)據(jù)處理和管理方式。

        2.2 基于統(tǒng)一管控體系的數(shù)據(jù)倉庫的架構體系

        基于統(tǒng)一管控體系的數(shù)據(jù)倉庫的架構體系是以前端各業(yè)務系統(tǒng)的原始數(shù)據(jù)為數(shù)據(jù)源,通過ETL調度服務,定期將源數(shù)據(jù)抽取、加工并統(tǒng)一存儲,由數(shù)據(jù)管控模塊在此基礎上開展一系列數(shù)據(jù)管控工作。

        首先,數(shù)據(jù)管控模塊提供數(shù)據(jù)對象之間依賴影響關系的管理,形成基于元數(shù)據(jù)的數(shù)據(jù)對象流,作為調度的惟一管理載體將多個數(shù)據(jù)源定期遷移至平臺內部,并加工成長期的、變化的基礎數(shù)據(jù)以及能夠滿足下游應用系統(tǒng)特定結構的結果數(shù)據(jù),同時根據(jù)不同的數(shù)據(jù)結構及用途存儲在相應的數(shù)據(jù)層或存儲區(qū)域。

        其次,ETL過程會根據(jù)所制訂的數(shù)據(jù)標準及相關規(guī)范,對進入平臺的數(shù)據(jù)進行清洗、標準化處理以及數(shù)據(jù)整合,最終形成清洗完成的、標準化的數(shù)據(jù),供后續(xù)使用。

        再次,數(shù)據(jù)管控模塊根據(jù)預設的數(shù)據(jù)質量檢查規(guī)則定期對數(shù)據(jù)對象進行監(jiān)控,并將結果以發(fā)送報告、報表和告警等形式反饋給相應環(huán)節(jié)。這為保證系統(tǒng)數(shù)據(jù)質量提供數(shù)據(jù)校驗手段和管理控制手段,具體系統(tǒng)架構見圖2。

        與圖1所示的傳統(tǒng)數(shù)據(jù)倉庫的體系架構相比,圖2所示的基于統(tǒng)一管控體系數(shù)據(jù)倉庫系統(tǒng)采用的統(tǒng)一數(shù)據(jù)管控平臺集中提供ETL調度、元數(shù)據(jù)管理、數(shù)據(jù)質量管理等功能。

        3 基于統(tǒng)一管控體系數(shù)據(jù)倉庫的內容與建設

        3.1 基于統(tǒng)一管控體系數(shù)據(jù)倉庫的主要內容

        基于統(tǒng)一管控體系數(shù)據(jù)倉庫通過改變傳統(tǒng)的數(shù)據(jù)處理和管理方式,實現(xiàn)數(shù)據(jù)“統(tǒng)一采集、統(tǒng)一存儲、統(tǒng)一管理、統(tǒng)一運營、統(tǒng)一服務”,具體包括以下幾點。

        ⑴ 構建面向數(shù)據(jù)處理的統(tǒng)一管控框架

        構建面向數(shù)據(jù)處理的統(tǒng)一管控框架是通過標準化數(shù)據(jù)處理模式,基于可視化、規(guī)范化的數(shù)據(jù)處理手段,實現(xiàn)系統(tǒng)后臺數(shù)據(jù)處理合理的業(yè)務透明度,徹底杜絕技術實現(xiàn)的黑盒化,實現(xiàn)數(shù)據(jù)資產業(yè)務化的“可視、可管、可控”。

        ⑵ 實現(xiàn)模型和數(shù)據(jù)處理的標準化、規(guī)范化

        實現(xiàn)模型和數(shù)據(jù)處理的標準化、規(guī)范化是指標準化數(shù)據(jù)處理流程和代碼編寫規(guī)范,對命名規(guī)則、分層模型進行統(tǒng)一管理,能夠對數(shù)據(jù)處理過程輸出的元數(shù)據(jù)進行規(guī)范性、完整性、時效性檢查控制,從而保證數(shù)據(jù)處理質量。

        ⑶ 實現(xiàn)數(shù)據(jù)處理過程中元數(shù)據(jù)、數(shù)據(jù)質量的統(tǒng)一管控

        實現(xiàn)數(shù)據(jù)處理過程中元數(shù)據(jù)、數(shù)據(jù)質量的統(tǒng)一管控是指對元數(shù)據(jù)強制前向獲取、規(guī)范性的數(shù)據(jù)處理、數(shù)據(jù)質量控制方法和技術管理手段,實現(xiàn)數(shù)據(jù)處理鏈路的追根溯源和全程審計。建立保證業(yè)務元數(shù)據(jù)、技術元數(shù)據(jù)和代碼的強一致性保障機制并通過數(shù)據(jù)管控平臺承載,有效降低數(shù)據(jù)處理過程中的監(jiān)管成本,實現(xiàn)管理流程和技術手段的良好融合和相互促進。

        ⑷ 建設系統(tǒng)知識庫

        建設系統(tǒng)知識庫是通過技術手段保證數(shù)據(jù)處理經驗的有效傳承,降低開發(fā)人員個性和流失帶來影響;通過知識管理手段,降低對文檔系統(tǒng)的依賴。

        3.2 基于統(tǒng)一管控體系數(shù)據(jù)倉庫的建設方法

        基于統(tǒng)一管控體系數(shù)據(jù)倉庫借鑒了制造業(yè)的生產方法,提出以數(shù)據(jù)為中心采用工具化、流程化、自動化的手段開展一切數(shù)據(jù)生產和管理活動。

        首先,對數(shù)據(jù)加工處理過程進行抽象,把數(shù)據(jù)加工處理分為數(shù)據(jù)輸入、加工處理、數(shù)據(jù)輸出三個步驟,對應這三個步驟,數(shù)據(jù)從原材料轉變?yōu)榘氤善罚罱K成為成品(如決策分析報表)(見圖3)。

        最后,通過將不同數(shù)據(jù)對象的組合,實現(xiàn)數(shù)據(jù)工廠的核心——數(shù)據(jù)生產線。數(shù)據(jù)生產線以數(shù)據(jù)對象關系圖(即元數(shù)據(jù)血緣圖)作為核心調度,描述了數(shù)據(jù)以時間為軸的加工順序,形成數(shù)據(jù)對象流調度。每個數(shù)據(jù)對象需要管理好自己的元數(shù)據(jù),并完成對自己的所有加工和質量控制的操作。

        因此,之前的ETL調度和監(jiān)控、元數(shù)據(jù)管理以及數(shù)據(jù)質量管理,不再是獨立的實體,而是數(shù)據(jù)生產線的視圖(見圖5)。

        模型的定義和開發(fā)、模型的管理和調度、模型的運行和監(jiān)控、元數(shù)據(jù)管理、數(shù)據(jù)質量管理等均基于同一套數(shù)據(jù)對象流并在不同視圖中展示,提升對系統(tǒng)、數(shù)據(jù)的管控能力:

        ⑴ 通過數(shù)據(jù)對象實現(xiàn)知識的集中化管理,數(shù)據(jù)對象融合了庫內外加工、元數(shù)據(jù)、數(shù)據(jù)質量管理、調度管理等功能,解決了不同功能之間互動和一致性保證的難題。

        ⑵ 系統(tǒng)調度的邏輯就是元數(shù)據(jù)的血緣分析圖,由多組單向的數(shù)據(jù)對象的流動構成的一張由數(shù)據(jù)對象構成的單向無環(huán)圖(Directed Acyclic Graph),內嵌在數(shù)據(jù)對象里的質量控制,可以低成本高效地解決傳統(tǒng)調度面臨的問題定位和修復問題最小代價等難題。

        ⑶ 業(yè)務元數(shù)據(jù)驅動的數(shù)據(jù)對象流,可以實現(xiàn)數(shù)據(jù)全程的可控,最小化了業(yè)務和技術溝通的成本。

        4 結束語

        基于統(tǒng)一管控體系的數(shù)據(jù)倉庫,改變了容易導致各系統(tǒng)之間無法良好協(xié)同傳統(tǒng)分散的數(shù)據(jù)處理和管理方式,解決了傳統(tǒng)的數(shù)據(jù)倉庫各子功能系統(tǒng)之間無法良好協(xié)同的問題,降低了數(shù)據(jù)倉庫系統(tǒng)的復雜度和開發(fā)維護成本,保障系統(tǒng)的基于統(tǒng)一數(shù)據(jù)對象管理下的可視、可管、可控,促進系統(tǒng)持續(xù)、穩(wěn)定、健康的發(fā)展,滿足多樣化的業(yè)務應用分析需求。

        參考文獻(References):

        [1] W H Inmon.王志海等譯. 數(shù)據(jù)倉庫(第3版)[M].機械工業(yè)出版社,2003.

        [2] 余丹.銀行企業(yè)級數(shù)據(jù)倉庫建設研究[D].吉林大學碩士學位論文,2009.

        [3] 高翔,劉峰,張殿東.商業(yè)銀行數(shù)據(jù)倉庫建模研究與設計[J].計算機與數(shù)字工程,2010.38 (8):81-82

        [4] 王威. 個人征信數(shù)據(jù)倉庫系統(tǒng)的設計[D]. 對外經濟貿易大學,2006.

        [5] 劉晨,蘇穎.一種面向數(shù)據(jù)倉庫項目數(shù)據(jù)接入的基于數(shù)據(jù)元素的數(shù)據(jù)質量管理方法[C]//科技信息資源共享促進國際會議,2011.

        [6] 張暉. 基于工作流和元數(shù)據(jù)的ETL工具研究與實現(xiàn)[D].河北工業(yè)大學, 2006.

        [7] 孫偉,張忠能.ETL架構研究[J].微型電腦應用,2005.21(3):34-37

        [8] 王克龍等.數(shù)據(jù)倉庫中 ETL 技術的探討與實踐[J].計算機應用與軟件,2005.22(11):30-3

        [9] 羅兵.基于元數(shù)據(jù)控制的ETL系統(tǒng)應用研究[D]. 西南大學,2006.

        [10] 陳德莉. 元數(shù)據(jù)實施方法的研究[C]//中國煙草學會學術年會.2011.

        [11] 孫力君,仇道霞,方峻峰,宋楠. 淺析數(shù)據(jù)倉庫中的元數(shù)據(jù)管理技術[J].齊魯工業(yè)大學學報(自然科學版),2009.23 (2):58-62

        [12] 孫中東.企業(yè)級數(shù)據(jù)治理框架下的數(shù)據(jù)質量管理[J].金融電子化,2011.6:57-60

        [13] 程大慶,鄭承滿. 數(shù)據(jù)倉庫數(shù)據(jù)質量的治理及體系構建[J].中國金融電腦,2011.6:28-34

        [14] 欒曉宇.基于元數(shù)據(jù)驅動的企業(yè)級數(shù)據(jù)倉庫系統(tǒng)[J].計算機系統(tǒng)應用,2015.24(2):99-107

        猜你喜歡
        元數(shù)據(jù)數(shù)據(jù)倉庫
        基于數(shù)據(jù)倉庫的數(shù)據(jù)傾斜解決方案研究
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設信息系統(tǒng)整合研究
        頁巖氣工程大數(shù)據(jù)倉庫建設與管理系統(tǒng)開發(fā)
        錄井工程(2017年3期)2018-01-22 08:39:50
        基于來源的組織機構元數(shù)據(jù)構建研究
        檔案管理(2017年1期)2017-01-17 19:09:04
        分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設計
        電子制作(2016年15期)2017-01-15 13:39:15
        元數(shù)據(jù)與社會化標簽在微視頻搜索中的應用
        軟件導刊(2016年11期)2016-12-22 21:55:33
        高等院校智慧校園建設規(guī)劃與實現(xiàn)
        探析電力系統(tǒng)調度中數(shù)據(jù)倉庫技術的應用
        歸檔網絡信息價值判斷的元數(shù)據(jù)描述研究綜述
        財會信息資源元數(shù)據(jù)標準的研究
        亚洲永久精品日韩成人av| 久久99精品国产99久久6尤物| 91久久精品色伊人6882| 午夜时刻免费入口| 亚洲日韩欧美一区、二区| 三男一女吃奶添下面| 97精品人妻一区二区三区香蕉| 精品亚洲国产探花在线播放| 在线视频一区二区在线观看| 日本免费视频一区二区三区| 中文字幕人妻丝袜成熟乱| 亚洲av无码精品蜜桃| 波多野结衣aⅴ在线| 国产人成视频免费在线观看| 永久中文字幕av在线免费| 亚洲 日本 欧美 中文幕| 国产精品自在线拍国产| 99热久久这里只精品国产www| 亚洲中文字幕久爱亚洲伊人| 国产三级一区二区三区在线观看| 亚洲白嫩少妇在线喷水| 亚洲第一女人的天堂av| 久久天堂精品一区二区三区四区 | 97人人超碰国产精品最新o| 激情久久无码天堂| 亚洲素人日韩av中文字幕| 午夜视频一区二区在线观看| 一二三四区中文字幕在线| 97人人模人人爽人人喊网| 日产国产精品亚洲系列| 在线亚洲AV成人无码一区小说| 久久精品久久精品中文字幕| 丝袜av乱码字幕三级人妻| 日本人妻伦理在线播放| 国产免码va在线观看免费| 末成年女a∨片一区二区| 中国年轻丰满女人毛茸茸| 色婷婷色99国产综合精品| 成人影院视频在线播放| 人妻丰满熟妇aⅴ无码| 中文字幕av一区二区三区人妻少妇|