葉宇航,賀仁龍,2,程曉旭
(1.中國電信股份有限公司上海研究院 上海200122;2.東華大學(xué)旭日工商管理學(xué)院 上海200051)
為應(yīng)對激烈的市場競爭,運營商越來越依托于精確化的數(shù)據(jù)統(tǒng)計分析以實現(xiàn)科學(xué)管理與決策。數(shù)據(jù)質(zhì)量的好壞直接關(guān)系到信息提供的準(zhǔn)確程度,數(shù)據(jù)質(zhì)量問題得不到有效的解決,數(shù)據(jù)資產(chǎn)將不能有效反映企業(yè)運營和市場事實,經(jīng)營決策將失去可靠依據(jù)。因此,有必要圍繞企業(yè)數(shù)據(jù)生命周期,實現(xiàn)對關(guān)鍵數(shù)據(jù)的全過程質(zhì)量監(jiān)控,包括業(yè)務(wù)指標(biāo)、維度、數(shù)據(jù)模型、接口文件等,加強數(shù)據(jù)稽核工作,保障數(shù)據(jù)的準(zhǔn)確、及時、有效和可信,提升數(shù)據(jù)質(zhì)量,從而提高經(jīng)營分析以及決策支持的準(zhǔn)確性,協(xié)助業(yè)務(wù)人員實現(xiàn)準(zhǔn)確、迅速的市場決策以及經(jīng)營分析,獲得可持續(xù)市場發(fā)展能力。
MIT-TDQM(麻省理工全面數(shù)據(jù)質(zhì)量管理)數(shù)據(jù)質(zhì)量改進模型提出了基于信息系統(tǒng)所生產(chǎn)的數(shù)據(jù)產(chǎn)品的質(zhì)量管理體系。數(shù)據(jù)質(zhì)量管理的方法基于TDQM的思想,應(yīng)包括質(zhì)量的定義、度量、分析和改進(即 DMAI)4個過程,如圖1所示。數(shù)據(jù)作為信息系統(tǒng)所生產(chǎn)的產(chǎn)品,也應(yīng)該將其作為具有生產(chǎn)周期的產(chǎn)品進行管理,要由專門的人員按照如下4個環(huán)節(jié)管理數(shù)據(jù)產(chǎn)生的過程和結(jié)果。
圖1 全面數(shù)據(jù)質(zhì)量管理方法論
數(shù)據(jù)質(zhì)量即數(shù)據(jù)的“完好性”,反映了數(shù)據(jù)提供者、生產(chǎn)者和管理者對數(shù)據(jù)不同角度的質(zhì)量要求,是數(shù)據(jù)滿足使用需要的合適程度。數(shù)據(jù)質(zhì)量的基本要求為數(shù)據(jù)的五性:準(zhǔn)確性、及時性、一致性、完整性、邏輯性,具體介紹見表1。
數(shù)據(jù)質(zhì)量的度量是用數(shù)據(jù)的一組固有特性來衡量滿足要求的程度,是數(shù)據(jù)可用性的判斷標(biāo)準(zhǔn),只有明確了質(zhì)量標(biāo)準(zhǔn),才可以識別出哪些數(shù)據(jù)是好數(shù)據(jù),哪些數(shù)據(jù)是臟數(shù)據(jù)、劣質(zhì)數(shù)據(jù)。根據(jù)數(shù)據(jù)及其質(zhì)量定義,確定指標(biāo)體系,跟蹤數(shù)據(jù)的量度,監(jiān)控數(shù)據(jù)質(zhì)量,見表2。
數(shù)據(jù)質(zhì)量分析應(yīng)從數(shù)據(jù)生命周期全過程著手,按照數(shù)據(jù)度量標(biāo)準(zhǔn)的要求,分析質(zhì)量問題出現(xiàn)的原因,形成數(shù)據(jù)質(zhì)量分析報告,見表3。
數(shù)據(jù)質(zhì)量的提升與改進應(yīng)當(dāng)包括如下3方面。
·與計劃目標(biāo)找差異:針對評估報告與數(shù)據(jù)質(zhì)量度量標(biāo)準(zhǔn),確定差異點,按應(yīng)用重點和影響度圈定重點影響范圍。
·制定提升策略:根據(jù)對標(biāo)差異,依據(jù)實際選擇重點提升目標(biāo),制定當(dāng)期重點質(zhì)量提升計劃,納入企業(yè)整個質(zhì)量體系改進計劃。
表1 數(shù)據(jù)質(zhì)量“五性”
表2 數(shù)據(jù)質(zhì)量的度量維度
表3 數(shù)據(jù)全生命周期的數(shù)據(jù)質(zhì)量分析
·審計、分析、評估:根據(jù)數(shù)據(jù)質(zhì)量檢查的情況,定期或不定期地生成相關(guān)的數(shù)據(jù)質(zhì)量評估報告。
在企業(yè)數(shù)據(jù)倉庫中,數(shù)據(jù)經(jīng)過接口數(shù)據(jù)層、整合數(shù)據(jù)層、匯總數(shù)據(jù)層進行層層匯總,接口數(shù)據(jù)可能被上層多個數(shù)據(jù)集中使用,底層的數(shù)據(jù)問題很容易被放大,產(chǎn)生“誤差放大”的效應(yīng);由于數(shù)據(jù)倉庫中的數(shù)據(jù)存在這種層次間放大的特點,數(shù)據(jù)稽核必須重視最初的數(shù)據(jù)處理環(huán)節(jié),從數(shù)據(jù)接口開始就必須進行認(rèn)真核查,并且整個過程中每個環(huán)節(jié)完成之后都要進行,以避免數(shù)據(jù)錯誤被不斷擴大。數(shù)據(jù)稽核的目的是保證數(shù)據(jù)在處理過程中各個環(huán)節(jié)數(shù)據(jù)的正確、完整,因此應(yīng)在數(shù)據(jù)處理的每個環(huán)節(jié)完成時對數(shù)據(jù)進行稽核,總體上包含接口數(shù)據(jù)層稽核、整合層數(shù)據(jù)稽核、匯總層數(shù)據(jù)稽核3部分。
接口數(shù)據(jù)層稽核見表4。對接口數(shù)據(jù)與源系統(tǒng)數(shù)據(jù)的一致性進行檢查,以保證數(shù)據(jù)的一致性;對源系統(tǒng)提供的數(shù)據(jù)進行邏輯性檢查,保證邏輯性的正確,具體包括文件規(guī)范性檢查、文件傳送完整性檢查、文件加載正確性檢查。
整合數(shù)據(jù)層稽核見表5。對整合的數(shù)據(jù)進行檢查,一方面檢查與源系統(tǒng)的一致性,另一方面從數(shù)據(jù)庫約束規(guī)則和記錄級的業(yè)務(wù)規(guī)則方面進行正確性檢查,還要比較接口層和整合層數(shù)據(jù)的邏輯性。
匯總數(shù)據(jù)層稽核見表6。通過電信匯總級的業(yè)務(wù)規(guī)則,對企業(yè)數(shù)據(jù)倉庫生成的匯總數(shù)據(jù)進行檢查,以驗證數(shù)據(jù)的正確性。
數(shù)據(jù)質(zhì)量管理的整個過程可以抽象為一個閉環(huán)處理流程。數(shù)據(jù)源、元數(shù)據(jù)的變更有可能引發(fā)稽核點/稽核規(guī)則的變更,從而導(dǎo)致系統(tǒng)出現(xiàn)異常,產(chǎn)生告警,告警達到嚴(yán)重等級時,將升級為數(shù)據(jù)質(zhì)量問題。告警及問題的處理經(jīng)驗和方案不斷被匯總,充實數(shù)據(jù)質(zhì)量監(jiān)控及評估報告等。這些理論知識的積累將進一步促進系統(tǒng)功能的提升,完善數(shù)據(jù)質(zhì)量的管控。
表4 接口數(shù)據(jù)層稽核
表5 整合數(shù)據(jù)層稽核
表6 匯總數(shù)據(jù)層稽核
圖2 數(shù)據(jù)質(zhì)量管理與稽核流程
數(shù)據(jù)質(zhì)量管理與稽核流程如圖2所示,包括如下幾個方面。
(1)數(shù)據(jù)稽核變更控制流程
生產(chǎn)系統(tǒng)數(shù)據(jù)源變更、企業(yè)數(shù)據(jù)倉庫元數(shù)據(jù)變更或者發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題(如告警閾值需調(diào)整)等引發(fā)稽核點或者稽核規(guī)則變更時,將觸發(fā)數(shù)據(jù)稽核變更控制流程。
(2)數(shù)據(jù)質(zhì)量告警處理流程
數(shù)據(jù)質(zhì)量管理系統(tǒng)在監(jiān)控過程中發(fā)現(xiàn)異常時,自動觸發(fā)告警后的相應(yīng)處理過程。此時的告警為非嚴(yán)重告警,企業(yè)數(shù)據(jù)倉庫運維人員通過分析,判定是否將告警轉(zhuǎn)置為數(shù)據(jù)質(zhì)量問題,從而進入數(shù)據(jù)質(zhì)量問題處理流程。
(3)數(shù)據(jù)質(zhì)量問題處理流程
數(shù)據(jù)質(zhì)量管理系統(tǒng)發(fā)現(xiàn)嚴(yán)重告警、企業(yè)數(shù)據(jù)倉庫運維人員或業(yè)務(wù)部門等發(fā)現(xiàn)數(shù)據(jù)問題時,將引發(fā)數(shù)據(jù)質(zhì)量問題處理流程。數(shù)據(jù)質(zhì)量管理員接收到數(shù)據(jù)質(zhì)量問題后,組織協(xié)調(diào)企業(yè)數(shù)據(jù)倉庫運維、生產(chǎn)系統(tǒng)運維或者業(yè)務(wù)部門人員進行問題的分析與處理。
(4)數(shù)據(jù)質(zhì)量報告管理流程
需要進行數(shù)據(jù)質(zhì)量監(jiān)控狀況或者數(shù)據(jù)質(zhì)量評估結(jié)果匯報時,由數(shù)據(jù)質(zhì)量管理人員根據(jù)需要定期生成數(shù)據(jù)質(zhì)量監(jiān)控報告、數(shù)據(jù)質(zhì)量評估報告等,從而引發(fā)數(shù)據(jù)質(zhì)量報告的生成、評估、發(fā)布及歸檔等一系列的管理流程。
結(jié)合數(shù)據(jù)質(zhì)量管理與稽核流程,為保證數(shù)據(jù)質(zhì)量問題能夠及時、有效地得到解決,有必要構(gòu)建數(shù)據(jù)質(zhì)量管理與稽核系統(tǒng)。在企業(yè)數(shù)據(jù)倉庫的數(shù)據(jù)處理主要階段設(shè)置數(shù)據(jù)質(zhì)量稽核點,實現(xiàn)對數(shù)據(jù)源系統(tǒng)數(shù)據(jù)接口質(zhì)量的監(jiān)控,支持對數(shù)據(jù)質(zhì)量的全程監(jiān)控;并在各數(shù)據(jù)質(zhì)量監(jiān)測點上,實現(xiàn)數(shù)據(jù)質(zhì)量稽核規(guī)則的靈活配置,并提供常見問題的處理方法,促進數(shù)據(jù)質(zhì)量管理的標(biāo)準(zhǔn)化、自動化、日?;贿M一步加強對數(shù)據(jù)源側(cè)數(shù)據(jù)質(zhì)量的監(jiān)控和分析,并實現(xiàn)企業(yè)數(shù)據(jù)倉庫數(shù)據(jù)管理與稽核流程和數(shù)據(jù)源側(cè)相關(guān)管理流程的對接,促進跨系統(tǒng)的數(shù)據(jù)質(zhì)量管理過程的協(xié)調(diào)和互動。
通過對數(shù)據(jù)質(zhì)量管理與稽核流程的分析,設(shè)計的系統(tǒng)功能框架如圖3所示,主要包括數(shù)據(jù)集合點管理、數(shù)據(jù)稽核任務(wù)管理、數(shù)據(jù)質(zhì)量告警管理、稽核問題管理和數(shù)據(jù)質(zhì)量評估5個模塊。
其中,各模塊功能見表7,數(shù)據(jù)交互關(guān)系介紹如下。
·稽核指標(biāo)配置產(chǎn)生的指標(biāo)數(shù)據(jù)會作為稽核規(guī)則配置的輸入,稽核規(guī)則配置產(chǎn)生的規(guī)則數(shù)據(jù)會作為稽核點配置的輸入,稽核點配置產(chǎn)生的稽核點數(shù)據(jù)會作為任務(wù)定義的輸入。
圖3 數(shù)據(jù)管理與稽核系統(tǒng)功能框架
表7 數(shù)據(jù)質(zhì)量管理系統(tǒng)功能要求
·任務(wù)定義產(chǎn)生的任務(wù)規(guī)格數(shù)據(jù)以及告警規(guī)則配置產(chǎn)生的告警規(guī)則會被任務(wù)調(diào)度引用;任務(wù)調(diào)度產(chǎn)生的告警信息、數(shù)據(jù)質(zhì)量信息會作為任務(wù)運行監(jiān)控、告警查詢、告警處理、數(shù)據(jù)質(zhì)量報表的數(shù)據(jù)來源;告警處理會作為問題生成的來源之一。
·問題監(jiān)控處理產(chǎn)生的數(shù)據(jù)會作為稽核問題處理報表的數(shù)據(jù)來源,問題監(jiān)控總結(jié)產(chǎn)生的知識會作為數(shù)據(jù)質(zhì)量知識管理的數(shù)據(jù)來源。
·數(shù)據(jù)質(zhì)量報表和稽核問題處理報表都可以作為數(shù)據(jù)質(zhì)量評估報告管理的輸入。
本文在全面研究數(shù)據(jù)質(zhì)量管理理論的基礎(chǔ)上,形成了針對電信企業(yè)數(shù)據(jù)質(zhì)量的定義、度量、分析與改進的閉環(huán)管理方法,并結(jié)合對電信企業(yè)數(shù)據(jù)倉庫開展數(shù)據(jù)稽核方案的探討,完成了數(shù)據(jù)質(zhì)量管理與稽核系統(tǒng)的構(gòu)建,實現(xiàn)數(shù)據(jù)質(zhì)量管理與稽核全過程的自動化處理,為電信業(yè)界開展數(shù)據(jù)質(zhì)量管理工作提供了幫助。
1 侯延湘.數(shù)據(jù)質(zhì)量管理及在數(shù)據(jù)倉庫實現(xiàn)探討.吉林大學(xué)碩士學(xué)位論文,2007
2 姚宇峰.電信收入保障中數(shù)據(jù)稽核平衡關(guān)系式的研究.電腦知識與技術(shù),2009,5(20):5 348~5 350