張 恒,曹麗娟,程新洲,徐樂西(中國聯通研究院,北京 100048)
大數據平臺可用性是一項重要的平臺運行指標,一個優(yōu)秀的大數據平臺,首先能夠讓操作者快速發(fā)現和理解數據,最終實現數據的高效應用。因此在整個過程中,平臺中數據獲取后的質量管控非常重要,只有對采集的數據進行嚴格的分析治理和質量管控,發(fā)現并完善數據的質量問題,才能解決用戶對數據可用性的疑慮,保證后期業(yè)務的準確性和有效性。
數據質量管理主要依靠管理制度和事后稽核。在平臺建設過程中,設計者通過改變模型管理和數據開發(fā)的模式,將后向管理變更為前向管理,從數據源頭保障數據質量。
數據質量稽核從流程上可以分為以下3個層級。
a)元數據管理:最基礎性的管理機制,可以識別、評價、追蹤資源,達到有效管理。
b)數據的標準化管理:建立標準化體系,保證數據的統(tǒng)一運營和維護。
c)數據質量稽核:實現數據的深度質量檢查,打造優(yōu)質數據資產。
元數據管理應具備對元數據本身質量進行檢查的功能,保證元數據自身的數據質量。元數據質量檢查包含但不限于以下內容:元數據一致性、元數據關系的健全性、元數據屬性的填充率、元數據名稱重復性和元數據關鍵屬性值的唯一性。大數據平臺一般會提供專門的界面進行元數據質量管控和呈現檢查結果。
a)平臺將提供在開發(fā)階段定義好對象的元數據質量規(guī)則,并要求開發(fā)者在開發(fā)過程中按照規(guī)則錄入元數據信息,并由系統(tǒng)進行統(tǒng)一檢查。
b)平臺提供元數據質量檢查機制,及時發(fā)現、報告和處理元數據的數據質量問題。檢查包括自動檢查和人工檢查2種方式。
c)平臺提供可視化元數據血緣分析圖,可進行影響分析、血緣分析,同時可以在血緣分析圖中修改元數據信息,增加質量規(guī)則。
d)對于一些必須手工維護的元數據可通過開發(fā)維護人員進行手工維護、審批、發(fā)布。同時檢查所提供的元數據與生產環(huán)境上元數據的一致性,形成元數據質量報告,產生手工維護的任務單,以確保元數據質量和可用性。
數據標準是大數據平臺數據治理的基礎性工作,是數據治理建設中的首要環(huán)節(jié),為大數據平臺提供統(tǒng)一的數據標準定義和平臺邏輯模型,是大數據平臺進行數據治理的依據和根本,同時也是衡量大數據平臺數據資產運營和管理的評估依據,最終能實現對大數據平臺全網數據的統(tǒng)一運營管理。
平臺通過建立統(tǒng)一的數據標準,結合制度約束、系統(tǒng)控制等手段,實現大數據平臺中數據的完整性、有效性、一致性、規(guī)范性、開放性和共享性管理,提高大數據平臺的數據治理水平。
數據資產標準化主要包括以下內容。
a)標準化的命名規(guī)則:數據的名稱、編碼、層級、層的屬性名稱等協調一致,統(tǒng)一管理,改變各源系統(tǒng)不規(guī)范的命名方式,避免同名不同意,同意不同名的現象。
b)統(tǒng)一數據擴展規(guī)則:對指標代碼、元數據、子類等擴展要素的擴展規(guī)則進行統(tǒng)一限定,保證后續(xù)數據的持續(xù)規(guī)范管理。
c)標準化規(guī)范執(zhí)行:平臺通過對數據資產產生過程的監(jiān)控(包括命名規(guī)范、信息完整性、合理性、基礎信息完整性等以及存儲周期、數據安全敏感信息和加密信息、權限賦權)以確保數據滿足整體規(guī)劃要求。
數據質量體系需要通過實踐和規(guī)劃的相互促進,不斷完善改進,為此,需要確保數據架構合理,條理清晰,過程可控,知識積累傳承,并通過監(jiān)控和審計不斷促進質量水平的持續(xù)提升。
數據質量管理是對采集入庫的數據進行全面質量管理。開發(fā)者制定相應的技術手段和組織、流程、評價考核規(guī)則,通過平臺操作,及時發(fā)現并解決數據質量問題,提升數據的完整性、及時性、準確性及一致性,提升業(yè)務價值。
數據質量規(guī)則配置如下。
a)提供便捷的IDE 界面,可通過圖形化或者標準SQL的方式,實現對數據質量規(guī)則的配置,允許對校驗規(guī)則進行維護、優(yōu)化等處理。
b)根據預先定義的質量規(guī)則,在應用運行時進行自動化監(jiān)控。
c)提供元數據質量檢查機制,及時發(fā)現、報告和處理元數據的數據質量問題。
d)提供問題定位分析,對問題的節(jié)點進行回溯,定位問題可能原因,分析其處理路徑上可能存在的問題;提供問題影響分析,能對問題的嚴重性、影響面做出判斷,并對重要問題提前進行預警。
數據質量監(jiān)控功能設計如下。
a)提供數據映射分析,以拓撲圖的形式對各類數據實體、數據處理過程元數據進行分層次的圖形化展現,滿足開發(fā)、運維或者業(yè)務上不同應用場景的圖形查詢和輔助分析需要。
b)根據預先定義的質量規(guī)則,在應用運行時進行自動化監(jiān)控。
c)對數據采集層數據質量進行監(jiān)控,主要包括文件接口、數據庫接口、采集接口監(jiān)控。
d)對數據處理過程進行監(jiān)控,主要包括數據處理任務執(zhí)行的情況,包括是否按時調度,是否成功等狀態(tài)消息。
e)定期提供數據質量監(jiān)控報告,根據系統(tǒng)健康狀態(tài)按模板生成文本、圖形等結果信息。
數據質量體系需要通過實踐和規(guī)劃的相互促進,不斷完善改進,為此,需要確保數據架構合理,條理清晰,過程可控,知識積累傳承,并通過監(jiān)控和審計不斷促進質量水平的持續(xù)提升。
設定稽核規(guī)則:通過不同的內置規(guī)則,可以對數據進行一定的計算處理,如空值、去重、最大、最小等,從而對數據有個直觀的認識,發(fā)現數據缺陷,具體操作如圖1所示。
圖1 規(guī)則設置
創(chuàng)建稽核模型:通過流程化的操作,操作者首先確定數據來源,根據不同數據源和目標,進行分區(qū)配置,從而建立對應的數據稽核模型,具體如圖2所示。
圖2 數據配置
稽核任務的創(chuàng)建:平臺在使用過程中,操作者首先選擇要進行稽核的數據時間、范圍等要素,再加載對應的數據稽核模型,從而完成任務創(chuàng)建。
數據精度決定后期業(yè)務分析的準確性,在平臺使用分析中,操作者一般通過對比目標值與來源的真實情況來進行分析評估,流程如下。
a)選擇用于比較的源數據和目標數據的集合和字段。
b)將目標字段與源字段進行關系映射。
c)將源數據集和目標數據集進行分區(qū)配置。
d)對分析模型進行配置,包括名稱、參數、閾值等。
數據剖析是檢查現有數據集中可用數據,同時收集相關數據的統(tǒng)計信息的過程,主要包括以下內容,具體如圖3所示。
圖3 數據結果詳情
a)選擇需要進行剖析的目標數據集和字段。
b)定義將應用于所選字段的語法檢查邏輯。
c)將目標數據集進行分區(qū)配置。
d)對分析模型進行配置,包括名稱、參數、閾值等。
在所有分析中,數據模型的建立是最重要的一環(huán),不同的數據模型可以分析不同的數據質量。數據模型可以根據分析需求和數據類型,從5 個維度進行設計,首先建立相應的模型,其次定義模型詳細的源、目標、以及映射關系等的屬性,最終在任務中可調用該模型進行數據任務的設定。本文以平臺中的“數據準確性校驗模型1”為例進行說明。
5.3.1 模型信息
模型信息是對模型的基本情況的展示,包括類型、源、源分區(qū)、源條件、目標、目標分區(qū)、目標條件和責任人等信息,能夠清晰地呈現該模型的屬性,以方便使用,具體如圖4所示。
圖4 模型信息說明
5.3.2 模型精確度計算映射信息
該映射代表了源數據各字段與目標字段的一致性對比結果,其中source 和target 代表了不同的數據源,id、age、desc代表要對比的具體字段。
精度計算公式如下:
該公式分子代表了2 個數據源(demo_tgt 和demo_src)的匹配結果為一致的數量,分母代表了demo_tgt 中的匹配的數據數量,demo_tgt 和demo_src代表了2個對比數據源。該計算公式可以計算出稽查數據的準確率。
通過建立任務可以將模型應用到不同數據的稽核中,給出數據準確性的結果,圖5 是針對2021 年10月28 號到10 月29 號入庫的2 批不同數據的稽核結果,橫坐標是以小時為單位,可以看出不同時間對應數據的稽核結果,以方便使用人員針對問題進行后期處理。
圖5 準確度檢驗結果
圖5 為2 類數據準確性校驗模型的處理結果,從圖5 可以看出隨著數據的不斷采集和入庫,數據稽核任務以小時為周期持續(xù)性進行,因此,數據使用者可以實時查看數據準確性,以方便及時發(fā)現處理數據問題。
評分是以分值來展示數據的質量,從而形成直觀的數據質量感受,評估一般包括以下3個層面。
a)質量評分=參與評分的各質量維度評分總和/參與評估維度項。
b)某個維度質量評分=參與該維度評估的任務的評分總和/參與該維度評估的任務的總數。
c)任務某個維度評分=該維度下參與評估各項規(guī)則得分之和。
5級維度數據質量說明如下。
a)準確性:度量數據是否與指定的目標值匹配,如金額的校驗,校驗成功的記錄與總記錄數的比值。
b)完整性:度量數據是否缺失,包括記錄數缺失、字段缺失,屬性缺失。
c)差異性:度量數據記錄是否重復,屬性是否重復;常見度量為hive表主鍵值是否重復。
d)及時性:度量數據達到指定目標的時效性。
e)有效性:度量數據是否符合約定的類型、格式和數據范圍等規(guī)則。
大數據是未來數字化的重要能力。數據質量是保證業(yè)務順利執(zhí)行的重要要素,因此數據質量稽核非常重要。數據稽核包括普通的數據完整度、完善性等核查,同時根據不同數據的來源及業(yè)務特點,可以建立不同的特征模型進行針對性的稽核,這樣可以保證數據業(yè)務特征的準確性。因此未來數據稽核更關鍵的是針對性的稽核,尤其是針對不同業(yè)務特點的定制化數據稽核,它是保證數據質量的關鍵方法。