路勁
(云南電網(wǎng)公司信息中心,昆明 650051)
數(shù)據(jù)(Information Data):是指信息系統(tǒng)在應(yīng)用過程中通過采集、分類、錄入、儲存、統(tǒng)計分析、統(tǒng)計檢驗等產(chǎn)生的定量和定性的數(shù)據(jù)。數(shù)據(jù)質(zhì)量指滿足某種定義和規(guī)則要求指標的數(shù)據(jù),通常從以下五個方面對數(shù)據(jù)質(zhì)量進行約束:
數(shù)據(jù)規(guī)范性:數(shù)據(jù)的定義和取值是否滿足相關(guān)規(guī)范要求,如數(shù)據(jù)類型、數(shù)據(jù)精度、字符長度、數(shù)據(jù)格式、取值范圍、唯一性、編碼等方面是否滿足規(guī)范要求
數(shù)據(jù)準確性:數(shù)據(jù)值是否真實反映業(yè)務(wù)情況,或數(shù)據(jù)是否被準確記錄。
數(shù)據(jù)完整性:業(yè)務(wù)所需的關(guān)鍵數(shù)據(jù)項是否在系統(tǒng)中有定義,關(guān)鍵數(shù)據(jù)項是否被采集。
數(shù)據(jù)及時性:數(shù)據(jù)是否在規(guī)定的期限內(nèi)獲取、錄入、更新、加工、刪除。
數(shù)據(jù)一致性:不同系統(tǒng)或同一系統(tǒng)內(nèi)不同表單的相同數(shù)據(jù)項取值是否一致,關(guān)聯(lián)數(shù)據(jù)之間的邏輯關(guān)系是否正確和完整。
圖1 數(shù)據(jù)質(zhì)量提升過程
如圖1 所示,數(shù)據(jù)質(zhì)量提升過程通常包括五個主要環(huán)節(jié):制定規(guī)則、校驗分析、問題量化、數(shù)據(jù)整治、總結(jié)分析,形成一個閉環(huán)過程。在實際運作過程中,數(shù)據(jù)質(zhì)量提升往往遵循一個螺旋上升的過程,通過階段性的分析整治提升,逐步推進整體數(shù)據(jù)質(zhì)量。
數(shù)據(jù)作為一種特殊而極其重要的資源,與物理資源相比具有其獨特的性質(zhì):
1)數(shù)據(jù)有生命周期:計劃、獲取、存儲、共享、維護、應(yīng)用、消亡等不同階段,各生命周期階段對數(shù)據(jù)質(zhì)量可能存在不同維度的約束指標要求。
2)數(shù)據(jù)的不穩(wěn)定性:數(shù)據(jù)容易受到外界環(huán)境動態(tài)變換的影響,諸如企業(yè)戰(zhàn)略調(diào)整、生產(chǎn)經(jīng)營目標的變更、管理制度的改革、工作流程的變化等都可能導致數(shù)據(jù)的變化,而數(shù)據(jù)的變化意味著數(shù)據(jù)質(zhì)量的約束指標也可能需要隨之改變。
3)數(shù)據(jù)的增長性:隨著業(yè)務(wù)活動的開展,大量的新數(shù)據(jù)會被產(chǎn)生,對于新產(chǎn)生的數(shù)據(jù),其數(shù)據(jù)質(zhì)量是缺乏評估的,需要動態(tài)的對新生數(shù)據(jù)進行評估確認,以保證其合規(guī)性。
一方面,數(shù)據(jù)的上述變化特性,決定了數(shù)據(jù)質(zhì)量的治理需隨數(shù)據(jù)的變化而變化;另一方面,數(shù)據(jù)質(zhì)量提升的過程本身也是一個周期性調(diào)整的過程。因此,在數(shù)據(jù)質(zhì)量校驗實施過程中,如何確保校驗規(guī)則的動態(tài)可調(diào)整將是至關(guān)重要的。
問題數(shù)據(jù)的追蹤與定位,是整個數(shù)據(jù)質(zhì)量提升過程中的關(guān)鍵所在。作為問題分析與整治的前提條件,如何有效按照數(shù)據(jù)質(zhì)量約束條件有效識別出不合規(guī)的問題數(shù)據(jù),是數(shù)據(jù)質(zhì)量提升需要解決的首要問題。
2.1.1 支持校驗規(guī)則動態(tài)配置
為了確保數(shù)據(jù)質(zhì)量切實有效提升,數(shù)據(jù)質(zhì)量管理平臺必須滿足數(shù)據(jù)動態(tài)治理這一基本要求。數(shù)據(jù)質(zhì)量管理平臺借助校驗規(guī)則庫的思想,實現(xiàn)數(shù)據(jù)校驗的動態(tài)調(diào)整。在數(shù)據(jù)質(zhì)量管理平臺中,校驗規(guī)則項作為最基本的數(shù)據(jù)質(zhì)量約束指標,統(tǒng)一存放于校驗規(guī)則庫中。用戶可以根據(jù)實際的數(shù)據(jù)校驗需求,新增校驗規(guī)則項添加至校驗規(guī)則庫中,或是對已有的校驗規(guī)則項進行修改調(diào)整。每次執(zhí)行數(shù)據(jù)校驗時,從校驗規(guī)則庫中按需選取規(guī)則組成校驗?zāi)P停ㄟ^執(zhí)行引擎對校驗?zāi)P偷恼{(diào)度執(zhí)行,實現(xiàn)一個批次校驗規(guī)則對數(shù)據(jù)的校驗。通過對校驗執(zhí)行前規(guī)則項的維護調(diào)整,達到按需動態(tài)校驗的目的。
2.1.2 松散耦合的非侵入式掃描
數(shù)據(jù)質(zhì)量管理平臺的定位,在于協(xié)助各業(yè)務(wù)系統(tǒng)識別出其內(nèi)部的問題數(shù)據(jù)。在數(shù)據(jù)質(zhì)量管理平臺對各業(yè)務(wù)系統(tǒng)數(shù)據(jù)進行校驗的過程中,不可避免的會與各業(yè)務(wù)系統(tǒng)產(chǎn)生交互。為了降低數(shù)據(jù)質(zhì)量管理平臺和各業(yè)務(wù)系統(tǒng)的耦合性,數(shù)據(jù)質(zhì)量管理平臺將采用非侵入式的掃描方式來執(zhí)行數(shù)據(jù)校驗。在執(zhí)行數(shù)據(jù)校驗掃描時,數(shù)據(jù)質(zhì)量管理平臺不需要在目標系統(tǒng)中植入任何程序,通過標準協(xié)議實現(xiàn)對目標系統(tǒng)數(shù)據(jù)源的直連,進而開展數(shù)據(jù)校驗掃描。通過使用標準訪問協(xié)議,降低對目標系統(tǒng)的依賴性,提高數(shù)據(jù)質(zhì)量管理平臺的通用性。
圖2 數(shù)據(jù)質(zhì)量管理平臺技術(shù)架構(gòu)
支持自定義規(guī)則的動態(tài)配置,能夠以松散耦合、非侵入式的方式,實現(xiàn)對任意業(yè)務(wù)系統(tǒng)數(shù)據(jù)源的校驗掃描,是數(shù)據(jù)質(zhì)量管理平臺最大的技術(shù)特點。在設(shè)計上,數(shù)據(jù)質(zhì)量管理平臺主要由數(shù)據(jù)層、功能組件、連接適配器、應(yīng)用界面四部分組成。
數(shù)據(jù)層主要由規(guī)則庫、缺陷池、連接源等數(shù)據(jù)組成。規(guī)則庫是動態(tài)校驗的基礎(chǔ)保障,規(guī)則在實現(xiàn)上體現(xiàn)為SQL 查詢語句模板,數(shù)據(jù)校驗的業(yè)務(wù)規(guī)則通過SQL 語句的查詢條件體現(xiàn)。缺陷池存儲掃描出來的問題數(shù)據(jù)詳細信息,為問題數(shù)據(jù)整治提供參考依據(jù)。連接源存儲了供連接適配器使用的標準協(xié)議訪問參數(shù)。
功能組件主要由報表管理、數(shù)據(jù)源管理、規(guī)則管理、執(zhí)行管理、調(diào)度引擎組成。報表管理負責根據(jù)掃描出的問題數(shù)據(jù)記錄項生成統(tǒng)計報表,以便用戶對數(shù)據(jù)質(zhì)量進行宏觀決策。數(shù)據(jù)源管理、規(guī)則管理提供了對數(shù)據(jù)層中的連接源和規(guī)則庫進行維護的功能。執(zhí)行管理可以將一批規(guī)則組合為一個數(shù)據(jù)校驗?zāi)P?,并通過指定數(shù)據(jù)源構(gòu)成一個校驗任務(wù)。調(diào)度引擎是功能組件中的核心部分,它通過解析執(zhí)行管理設(shè)置的任務(wù)信息,按照任務(wù)設(shè)定完成目標系統(tǒng)數(shù)據(jù)源的數(shù)據(jù)掃描,并將問題數(shù)據(jù)寫入缺陷池中。
連接適配器是實現(xiàn)松散耦合的非侵入式掃描的關(guān)鍵所在。數(shù)據(jù)質(zhì)量管理平臺通過連接適配器,建立與目標系統(tǒng)數(shù)據(jù)庫的直接連接。在此基礎(chǔ)上,調(diào)度引擎根據(jù)任務(wù)信息中存儲的數(shù)據(jù)校驗?zāi)P?,?zhí)行對應(yīng)的校驗規(guī)則SQL 語句,從而找出業(yè)務(wù)系統(tǒng)中的問題數(shù)據(jù)。
圖3 數(shù)據(jù)質(zhì)量管理平臺使用流程
數(shù)據(jù)質(zhì)量管理平臺的典型應(yīng)用場景主要由準備階段和使用階段構(gòu)成。在準備階段中,需要完成數(shù)據(jù)校驗基礎(chǔ)信息的錄入。首先,通過數(shù)據(jù)源管理功能,完成目標系統(tǒng)數(shù)據(jù)庫連接參數(shù)的設(shè)置;其次,通過規(guī)則管理功能,將需要校驗的業(yè)務(wù)規(guī)則編制為對應(yīng)的SQL 模板,存入規(guī)則庫中。
在使用階段,首先通過執(zhí)行管理對本次掃描任務(wù)進行配置,確定連接適配器使用的數(shù)據(jù)源數(shù)據(jù)源,選擇需要使用的校驗規(guī)則組成數(shù)據(jù)校驗?zāi)P?。在完成任?wù)的設(shè)置之后,即可開始 執(zhí)行校驗。校驗完成后,校驗出的問題數(shù)據(jù)會被存入數(shù)據(jù)質(zhì)量管理平臺的缺陷池中,同時數(shù)據(jù)質(zhì)量管理平臺會根據(jù)缺陷池信息生成數(shù)據(jù)質(zhì)量報表,供用戶分析決策使用。
綜上所述,針對業(yè)務(wù)數(shù)據(jù)動態(tài)變化的特性,以動態(tài)校驗技術(shù)為核心,搭建了數(shù)據(jù)質(zhì)量管理平臺。借助該平臺,用戶可以使用自定義的校驗規(guī)則,以松散耦合的非侵入式方式實現(xiàn)對業(yè)務(wù)系統(tǒng)數(shù)據(jù)的校驗掃描,有效識別出問題數(shù)據(jù),為業(yè)務(wù)數(shù)據(jù)整改及數(shù)據(jù)質(zhì)量有效提升奠定基礎(chǔ)。
[1]陳勇成,趙傳征、廣西電網(wǎng)公司營銷基礎(chǔ)數(shù)據(jù)質(zhì)量評價管理系統(tǒng)設(shè)計分析、《廣西電業(yè)》、2012.4 (總第144 期)、P29-P32
[2]楊璽,譚健聰,張俊、數(shù)據(jù)質(zhì)量管理在電力安全生產(chǎn)信息系統(tǒng)中的應(yīng)用、《電子世界》、2013 (22),P234-P235
[3]盧紹年、淺析企業(yè)信息化建設(shè)與數(shù)據(jù)質(zhì)量、《廣西電業(yè)》、2013.3 (總第155 期)、P88-P89
[4]鄭芒英、數(shù)據(jù)質(zhì)量管理平臺的研究及應(yīng)用、《寧波職業(yè)技術(shù)學院學報》、2013.1 (第17 卷第1 期)、P105-P107