江飛
摘 要:隨著互聯(lián)網(wǎng)+、物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、區(qū)塊鏈等信息技術(shù)的迅猛發(fā)展,催生了超越以往任何年代的巨量數(shù)據(jù),需要配套的數(shù)據(jù)治理與管理機(jī)制,結(jié)合商業(yè)智能可視化分析,將數(shù)據(jù)作為組織的寶貴資產(chǎn)應(yīng)用于業(yè)務(wù)、管理、戰(zhàn)略決策中,發(fā)揮數(shù)據(jù)資產(chǎn)的商業(yè)價(jià)值,為企業(yè)帶來(lái)不可替代的競(jìng)爭(zhēng)優(yōu)勢(shì)。隨著移動(dòng)通訊4G網(wǎng)絡(luò)的快速發(fā)展,以及手持式設(shè)備的普及,BI的展示就可以擴(kuò)展到移動(dòng)手持設(shè)備。
關(guān)鍵詞:數(shù)據(jù)治理;商業(yè)智能;元數(shù)據(jù)管理
中圖分類號(hào):F272 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2018)14-0054-02
1 數(shù)據(jù)治理概覽
從范圍來(lái)講,數(shù)據(jù)治理涵蓋了從前端事務(wù)處理系統(tǒng)、后端業(yè)務(wù)數(shù)據(jù)庫(kù)到終端的數(shù)據(jù)分析。從目的來(lái)講,數(shù)據(jù)治理就是要對(duì)數(shù)據(jù)的獲取、處理、使用進(jìn)行監(jiān)管,保證數(shù)據(jù)的有效性、可訪問(wèn)性、高質(zhì)量、一致性、可審計(jì)和安全性。從分類來(lái)講,數(shù)據(jù)治理分為應(yīng)對(duì)性數(shù)據(jù)治理和主動(dòng)型數(shù)據(jù)治理。
(1)應(yīng)對(duì)性數(shù)據(jù)治理。應(yīng)對(duì)型數(shù)據(jù)治理是指將前端應(yīng)用產(chǎn)生的數(shù)據(jù),通過(guò)數(shù)據(jù)移動(dòng)工具批量移動(dòng)到主數(shù)據(jù)管理(MDM)系統(tǒng)中。數(shù)據(jù)經(jīng)過(guò)整理、匹配和合并,然后同步回原系統(tǒng)、企業(yè)的其它應(yīng)用程序以及數(shù)據(jù)倉(cāng)庫(kù)或商業(yè)智能/分析系統(tǒng)。由于主要是通過(guò)批量方式進(jìn)行主數(shù)據(jù)的移動(dòng),批量操作帶來(lái)的時(shí)間延遲,可能導(dǎo)致業(yè)務(wù)部門繼續(xù)操作“過(guò)時(shí)的”主數(shù)據(jù)。(2)主動(dòng)型數(shù)據(jù)治理。直接在MDM系統(tǒng)中錄入數(shù)據(jù),通過(guò)預(yù)設(shè)的業(yè)務(wù)規(guī)則,以整理、匹配和合并數(shù)據(jù)。這樣的優(yōu)勢(shì)在于:數(shù)據(jù)經(jīng)過(guò)預(yù)設(shè)的規(guī)則進(jìn)行選擇性填寫,可在源頭獲得高質(zhì)量的主數(shù)據(jù)。保證了數(shù)據(jù)的初始質(zhì)量,并且不會(huì)再有數(shù)據(jù)從其它源系統(tǒng)中傳入,就實(shí)現(xiàn)了主數(shù)據(jù)管理的主要目標(biāo)——保證和保持主數(shù)據(jù)的“干凈”;通過(guò)使MDM成為錄入系統(tǒng)及記錄系統(tǒng),能從本質(zhì)上將數(shù)據(jù)維持在“零延遲”狀態(tài),新記錄實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的方式發(fā)布到其它應(yīng)用系統(tǒng)。
2 數(shù)據(jù)治理要點(diǎn)
數(shù)據(jù)治理包含數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)架構(gòu)管理、數(shù)據(jù)開發(fā)、數(shù)據(jù)操作管理、數(shù)據(jù)安全管理、參考數(shù)據(jù)和主數(shù)據(jù)管理、數(shù)據(jù)倉(cāng)庫(kù)和商務(wù)智能管理、文檔和內(nèi)容管理、元數(shù)據(jù)管理。數(shù)據(jù)治理邏輯架構(gòu)如圖1所示。
2.1 元數(shù)據(jù)管理
元數(shù)據(jù)管理,是指通過(guò)建立元數(shù)據(jù)工作配套的組織、制度和平臺(tái),對(duì)元數(shù)據(jù)的采集、檢驗(yàn)、發(fā)布、應(yīng)用進(jìn)行一系列的管理活動(dòng)。
元數(shù)據(jù)指對(duì)數(shù)據(jù)內(nèi)容、質(zhì)量、所處語(yǔ)境等特征的基礎(chǔ)性定義或結(jié)構(gòu)化描述,也被稱為關(guān)于數(shù)據(jù)的數(shù)據(jù),是信息交換和數(shù)據(jù)共享的基礎(chǔ)和前提。元數(shù)據(jù)按照存放內(nèi)容可分為技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)和操作元數(shù)據(jù)。
技術(shù)元數(shù)據(jù),指用于系統(tǒng)設(shè)計(jì)及日常管理相關(guān)數(shù)據(jù)信息,主要包括數(shù)據(jù)模型、應(yīng)用系統(tǒng)以及數(shù)據(jù)遷移與轉(zhuǎn)換規(guī)則等。
業(yè)務(wù)元數(shù)據(jù),指和業(yè)務(wù)相關(guān)的數(shù)據(jù)信息,用于輔助定位、理解及訪問(wèn)業(yè)務(wù)信息,主要包括業(yè)務(wù)術(shù)語(yǔ)、業(yè)務(wù)規(guī)則、業(yè)務(wù)指標(biāo)、業(yè)務(wù)報(bào)表、概念模型、數(shù)據(jù)標(biāo)準(zhǔn)以及數(shù)據(jù)質(zhì)量規(guī)則等內(nèi)容。
操作元數(shù)據(jù),指系統(tǒng)日常運(yùn)行產(chǎn)生的操作信息,主要包括應(yīng)用作業(yè)程序配置信息以及應(yīng)用作業(yè)運(yùn)行次數(shù)、運(yùn)行開始時(shí)間、運(yùn)行結(jié)束時(shí)間、運(yùn)行結(jié)果、處理數(shù)據(jù)量、異常數(shù)據(jù)量等內(nèi)容。
2.2 數(shù)據(jù)質(zhì)量管理
數(shù)據(jù)質(zhì)量管理(Data Quality Management),是指對(duì)數(shù)據(jù)的生命周期(計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡)的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問(wèn)題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過(guò)改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。
數(shù)據(jù)質(zhì)量問(wèn)題主要有如下幾類:
數(shù)據(jù)完備性?;蚍Q為數(shù)完整性,主要體現(xiàn)在數(shù)據(jù)缺失未填,丟失關(guān)鍵數(shù)值?;驍?shù)據(jù)值為NULL。
數(shù)據(jù)有效性。主要體現(xiàn)在數(shù)據(jù)無(wú)意義,或數(shù)據(jù)有意義但不符合業(yè)務(wù)定義,或代碼取值越界,或關(guān)聯(lián)字段不匹配。
數(shù)據(jù)唯一性。主要體現(xiàn)在業(yè)務(wù)關(guān)鍵屬性組合不唯一。
數(shù)據(jù)一致性。主要體現(xiàn)為數(shù)據(jù)的維度與度量值之間的引用關(guān)系斷開,或引用關(guān)系正常但同一數(shù)據(jù)不同表格內(nèi)取值不同,或匯總數(shù)據(jù)不一致。
數(shù)據(jù)精確性。主要體現(xiàn)為數(shù)據(jù)精度不夠,不符合業(yè)務(wù)需求。
數(shù)據(jù)時(shí)效性。主要體現(xiàn)在數(shù)據(jù)時(shí)效太低,不滿足統(tǒng)計(jì)及需求?;蚴褂昧恕斑^(guò)期”的數(shù)據(jù)版本。
數(shù)據(jù)真實(shí)性。主要體現(xiàn)為數(shù)據(jù)不是真實(shí)的業(yè)務(wù)數(shù)據(jù)。
3 數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間變化的、但信息本身相對(duì)穩(wěn)定的數(shù)據(jù)集合,用于對(duì)管理決策過(guò)程的支持。
數(shù)據(jù)倉(cāng)庫(kù)主要有如下特點(diǎn):
主題導(dǎo)向。不同于數(shù)據(jù)庫(kù)面向事務(wù)的特性,數(shù)據(jù)倉(cāng)庫(kù)按主題進(jìn)行組織,即按數(shù)據(jù)的意義將其歸類至相同的主題區(qū)。主題是指用戶使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,如銷售記錄等。
集成性。數(shù)據(jù)來(lái)自企業(yè)內(nèi)的各個(gè)數(shù)據(jù)庫(kù),經(jīng)過(guò)數(shù)據(jù)抽取、清理、轉(zhuǎn)換、系統(tǒng)加工、匯總和整理,消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
數(shù)據(jù)隨時(shí)間變化。數(shù)據(jù)倉(cāng)庫(kù)是隨時(shí)間而變化的,數(shù)據(jù)的變動(dòng),在數(shù)據(jù)倉(cāng)庫(kù)中會(huì)被紀(jì)錄以及追蹤變化的,有助于反映出數(shù)據(jù)隨著時(shí)間變化的軌跡。
數(shù)據(jù)不可更新。數(shù)據(jù)一旦確認(rèn)寫入數(shù)據(jù)倉(cāng)庫(kù)后是不會(huì)被取代或刪除的,即便數(shù)據(jù)是錯(cuò)誤的也是如此。
圖2描述了一個(gè)典型的企業(yè)信息工廠模型,數(shù)據(jù)倉(cāng)庫(kù)匯總數(shù)據(jù),并為后續(xù)分析提供數(shù)據(jù)支持。
4 商務(wù)智能
商務(wù)智能(Business Intelligence,簡(jiǎn)稱BI),是一套用來(lái)將企業(yè)中現(xiàn)有的數(shù)據(jù)進(jìn)行有效的整合,快速準(zhǔn)確的提供報(bào)表并提出決策依據(jù),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的完整的解決方案。
從技術(shù)層面來(lái)看,BI由數(shù)據(jù)倉(cāng)庫(kù)(或數(shù)據(jù)集市)、查詢報(bào)表、數(shù)據(jù)分析、數(shù)據(jù)挖掘等部分組成。
從技術(shù)成熟度來(lái)看,報(bào)表系統(tǒng)是BI的初級(jí)階段,數(shù)據(jù)分析是BI的中級(jí)階段,數(shù)據(jù)挖掘是BI的高級(jí)階段。
4.1 商務(wù)智能的實(shí)施步驟
需求分析。商務(wù)智能本身也是一個(gè)項(xiàng)目,所以從項(xiàng)目管理的角度來(lái)講,必須全面地理解用戶的各項(xiàng)要求,做好需求分析。包括需要分析的主題,實(shí)現(xiàn)這些主題需要查看的維度等等。
數(shù)據(jù)倉(cāng)庫(kù)建模。通過(guò)前期的需求分析,建立企業(yè)數(shù)倉(cāng)庫(kù)的邏輯模型和物理模型,按照規(guī)劃好的架構(gòu),將各類數(shù)據(jù)按照分析主題進(jìn)行組織和歸類。
數(shù)據(jù)抽取。依據(jù)分析模型將數(shù)據(jù)倉(cāng)庫(kù)建立起來(lái)之后,就需要將數(shù)據(jù)從源端(各個(gè)業(yè)務(wù)系統(tǒng))抽取到數(shù)據(jù)倉(cāng)庫(kù)。抽取規(guī)程中,還需要將數(shù)據(jù)按照既定的業(yè)務(wù)規(guī)則,進(jìn)行轉(zhuǎn)換和清洗,加載到各個(gè)分析主題中。
建立可視化分析報(bào)表??山柚髁鰾I工具FineBI,通過(guò)拖拉的方式,進(jìn)行可視化分析報(bào)表的制作。
4.2 商務(wù)智能的發(fā)展趨勢(shì)
傳統(tǒng)的商務(wù)智能,如SAP BO、Oracle BIEE、IBM Cognos,產(chǎn)品采購(gòu)成本以及后續(xù)的硬件、軟件維護(hù)、咨詢、培訓(xùn)成本均很高,不具有普適性。其次,傳統(tǒng)的商務(wù)智能實(shí)施,考慮到后期的性能和可擴(kuò)展性,對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)規(guī)范要求很高,實(shí)施周期較長(zhǎng)。再者,傳統(tǒng)商務(wù)智能是純粹的IT驅(qū)動(dòng),對(duì)于業(yè)務(wù)部門的服務(wù)響應(yīng)周期很長(zhǎng),不適應(yīng)業(yè)務(wù)快速發(fā)展的需要。
新一代商業(yè)分析平臺(tái),gartner稱之為modern BI platform,以允許業(yè)務(wù)人員“自服務(wù)”為標(biāo)志。由IT驅(qū)動(dòng)轉(zhuǎn)變?yōu)闃I(yè)務(wù)驅(qū)動(dòng),IT負(fù)責(zé)基礎(chǔ)數(shù)據(jù)架構(gòu)的整理和接口開發(fā)維護(hù),業(yè)務(wù)人員作為分析主體和需求主體,使用基于人機(jī)交互和符合人的認(rèn)知規(guī)律的分析方法,把人所具備的、機(jī)器并不擅長(zhǎng)的認(rèn)知能力融入分析過(guò)程中,進(jìn)行快速的可視化分析和報(bào)表分析維護(hù)。這樣的改變的好處是顯而易見的,整個(gè)BI流程就變得更加敏捷。而且拖拽式這種簡(jiǎn)單而友好的使用方式,使得上至高層管理人員,下至基層服務(wù)人員,都可以快速獲得所需的報(bào)表。高層可以快速準(zhǔn)確決策,基層可以精準(zhǔn)有效服務(wù),整個(gè)企業(yè)的效能將會(huì)大幅提升。
同時(shí),隨著移動(dòng)通訊4G網(wǎng)絡(luò)的快速發(fā)展,以及手持式設(shè)備的普及,BI的展示就可以擴(kuò)展到移動(dòng)手持設(shè)備。管理高層可以更加便捷,隨時(shí)隨地的查看報(bào)表、做決策,大大提高辦公效率?;鶎尤藛T也可以更加貼近用戶,提供高質(zhì)量的服務(wù)。
參考文獻(xiàn)
[1]DAMA International著.馬歡,劉晨,等譯.DAMA數(shù)據(jù)管理知識(shí)體系指南.2012年7月第1版.清華大學(xué)出版社,2012:148-149.
[2]William H.Inmon著.王志海等譯.數(shù)據(jù)倉(cāng)庫(kù).機(jī)械工業(yè)出版社,2006.