[摘 要] 本文提出了數(shù)據(jù)質(zhì)量評價模型、質(zhì)量校驗與評價方法,論述了“數(shù)據(jù)質(zhì)量分析評價系統(tǒng)”的程序?qū)崿F(xiàn)流程、總體結(jié)構(gòu)及功能,介紹了系統(tǒng)的關(guān)鍵技術(shù)及進一步的研究方向。
[關(guān)鍵詞] 質(zhì)量模型 質(zhì)量檢驗 質(zhì)量評價
數(shù)據(jù)作為一種資源,是支撐信息化建設(shè)和應(yīng)用的主體,根據(jù)“進去的是垃圾,出來的也是垃圾”這條原理,為了支持正確決策,就要求我們所管理的數(shù)據(jù)可靠,沒有錯誤,能夠準(zhǔn)確地反映采油廠的實際情況。勝利采油廠數(shù)據(jù)中心存放了5千萬條的數(shù)據(jù),還在以每天2萬條的速度加載,如何使這些海量數(shù)據(jù)在生產(chǎn)管理、科學(xué)研究、企業(yè)決策中發(fā)揮應(yīng)有作用,使用戶能用、敢用、愿用,使數(shù)據(jù)真正為企業(yè)服務(wù),這是幾乎所有信息化企業(yè)亟需迫切解決的問題。為解決數(shù)據(jù)質(zhì)量問題,各種管理手段、技術(shù)手段和新的數(shù)據(jù)評價體系不斷被應(yīng)用在數(shù)據(jù)的采集和加工過程中。
一、數(shù)據(jù)質(zhì)量評價模型的提出背景
采油廠的數(shù)據(jù)資源具有:橫跨專業(yè)多,數(shù)據(jù)采集密度大、頻度高,數(shù)據(jù)處理流程復(fù)雜等特點,為了保證數(shù)據(jù)的可用性,數(shù)據(jù)管理人員在客戶端、服務(wù)器端均設(shè)置了數(shù)據(jù)質(zhì)量審核規(guī)則,但是依然不可避免存在比例較高的數(shù)據(jù)質(zhì)量問題,典型的有記錄不全、數(shù)據(jù)遺漏、數(shù)據(jù)錯誤、多義字段、矛盾值、違背業(yè)務(wù)規(guī)則、無法關(guān)聯(lián)等。產(chǎn)生數(shù)據(jù)問題的根本原因可以歸結(jié)為以下幾個方面:
1.沒有從數(shù)據(jù)資源的戰(zhàn)略高度對數(shù)據(jù)質(zhì)量進行統(tǒng)一完整的定義,導(dǎo)致數(shù)據(jù)的分析評估沒有統(tǒng)一可靠的標(biāo)準(zhǔn);
2.數(shù)據(jù)質(zhì)量還停留在定性評價,不能實現(xiàn)精確的量化評價,只是在業(yè)務(wù)需要某個數(shù)據(jù)時,才到庫里去手動統(tǒng)計,無法動態(tài)記錄某個單位、某個月的真實數(shù)據(jù)質(zhì)量發(fā)生情況,導(dǎo)致數(shù)據(jù)質(zhì)量考核缺乏可信的數(shù)據(jù)依據(jù),大大影響考核力度;
3.沒有一個能同時面對用戶、專業(yè)部門、數(shù)據(jù)管理人員的可視化的數(shù)據(jù)質(zhì)量監(jiān)控評價平臺,三方無法共享一個平臺,共同實行數(shù)據(jù)管控一體化,導(dǎo)致業(yè)務(wù)規(guī)則的變更滯后,問題數(shù)據(jù)在庫中的長期滯留;
4.也許有了N個業(yè)務(wù)模型,但是沒有把它放到時間軸上去控制流程,導(dǎo)致實際生產(chǎn)中應(yīng)該發(fā)生的活動的部分生產(chǎn)數(shù)據(jù)遺漏;
雖然影響采油廠數(shù)據(jù)質(zhì)量的原因是多方面的,但主要的原因還是集中在管理、制度和數(shù)據(jù)采集加工規(guī)范化方面。對于如何通過管理、制度、標(biāo)準(zhǔn)和流程來控制數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)可信度,我們提出建立采油廠統(tǒng)一的數(shù)據(jù)質(zhì)量分析評價模型,使用管理手段和技術(shù)手段相結(jié)合的辦法,建立一套完善的數(shù)據(jù)定義、控制、評估流程,依托科學(xué)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)監(jiān)督和質(zhì)量控制體系持續(xù)地改進數(shù)據(jù)質(zhì)量。
二、數(shù)據(jù)質(zhì)量分析評價模型構(gòu)成
構(gòu)成數(shù)據(jù)質(zhì)量分析評估模型的要素分別為:基礎(chǔ)模型、數(shù)據(jù)質(zhì)量輔助模型、數(shù)據(jù)質(zhì)量定義模型、數(shù)據(jù)質(zhì)量控制模型、數(shù)據(jù)質(zhì)量評價模型。
1.基礎(chǔ)模型?;A(chǔ)模型部分是整個模型框架的支撐核心部分,其他質(zhì)量模型的定義和控制必須以基礎(chǔ)模型中的計劃和標(biāo)準(zhǔn)為依據(jù)?;A(chǔ)模型主要是映射、定義數(shù)據(jù)采集標(biāo)準(zhǔn),上載分單位的采集計劃,同時納入了約束規(guī)則定義規(guī)范、控制規(guī)則定義規(guī)范、模板定義規(guī)范。
數(shù)據(jù)標(biāo)準(zhǔn):分兩部分,一部分是直接映射應(yīng)用中的標(biāo)準(zhǔn),例如源數(shù)據(jù)庫標(biāo)準(zhǔn);另一部分是針對新增應(yīng)用庫和項目庫標(biāo)準(zhǔn)的定義規(guī)范,包括代碼定義標(biāo)準(zhǔn)、數(shù)據(jù)項定義標(biāo)準(zhǔn)(例如是取英文還是漢語拼音,取幾個字符)、值域定義標(biāo)準(zhǔn)等等新增表準(zhǔn)的建立規(guī)范;
采集計劃:采集單位的每月上載的日度、月度、年度的采集計劃;
約束規(guī)則定義規(guī)范:主要描述質(zhì)量定義模型中的語法構(gòu)成;
控制規(guī)則定義規(guī)范:針對服務(wù)器負(fù)載和采集表的及時性要求建立的后臺執(zhí)行過程的控制方式的使用說明;
2.數(shù)據(jù)質(zhì)量定義模型。數(shù)據(jù)質(zhì)量定義模型的建立實現(xiàn)了以基礎(chǔ)模型為前提對數(shù)據(jù)質(zhì)量的統(tǒng)一規(guī)范的定義,是數(shù)據(jù)質(zhì)量分析評價的依據(jù)和基礎(chǔ)。數(shù)據(jù)質(zhì)量定義模型可以使用質(zhì)量特性描述。數(shù)據(jù)質(zhì)量特性歸納為數(shù)據(jù)的一致性、數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)的完整性、數(shù)據(jù)的及時性4個關(guān)鍵特性。
(1)數(shù)據(jù)的一致性。數(shù)據(jù)一致性,包括源系統(tǒng)之間同一數(shù)據(jù)是否一致,源數(shù)據(jù)與抽取的數(shù)據(jù)是否一致,數(shù)據(jù)中心內(nèi)部各處理環(huán)節(jié)數(shù)據(jù)是否一致等。例如:單井基礎(chǔ)信息、油井日數(shù)據(jù)中的單元代碼應(yīng)該和本年度的單元代碼表保持一致;05應(yīng)用庫中抽取的數(shù)據(jù)項要與源頭庫保持一致等等。
一致性的量化評價指標(biāo):字段一致率、表間字段一致率、表間記錄一致率。
(2)數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)準(zhǔn)確性,包括數(shù)據(jù)源是否準(zhǔn)確、數(shù)據(jù)值域是否符合業(yè)務(wù)規(guī)則和客觀事實、編碼映射關(guān)系是否準(zhǔn)確、處理邏輯是否準(zhǔn)確等。例如:作業(yè)日記的數(shù)據(jù)應(yīng)該來源于作業(yè)隊而不是采油隊;一天的生產(chǎn)時間最大不可能超過24小時;水井干線壓力要介于0~40兆帕之間。
準(zhǔn)確性的量化評價指標(biāo):準(zhǔn)確率、差錯率、問題字段個數(shù)、問題記錄覆蓋率
(3)數(shù)據(jù)的及時性。數(shù)據(jù)及時性,包括數(shù)據(jù)處理(獲取、整理、加載等)的及時性,數(shù)據(jù)異常檢測的及時性,數(shù)據(jù)處理更新的及時性等,例如:一口井油轉(zhuǎn)水了,采集單位沒有及時更改數(shù)據(jù),不僅會影響隊到礦,礦到廠的產(chǎn)量,更會影響廠到局的產(chǎn)量和油水井?dāng)?shù),而且取自于該源數(shù)據(jù)的所有應(yīng)用系統(tǒng)今天的診斷決策都會發(fā)生偏差。數(shù)據(jù)滯后的更新將嚴(yán)重影響生產(chǎn)的正?;?。
及時性的量化評價指標(biāo):采集項目及時率;單位入庫及時率
(4)數(shù)據(jù)的完整性。數(shù)據(jù)的完整性,包括數(shù)據(jù)源是否完整、數(shù)據(jù)取值是否完整、實體類型、屬性特征、維度取值是否完整等。例如:要完成井筒的計算機屏幕再現(xiàn),它所包含的數(shù)據(jù)包括鉆井?dāng)?shù)據(jù)、固井?dāng)?shù)據(jù)、套管數(shù)據(jù)、井徑測井?dāng)?shù)據(jù)、井斜數(shù)據(jù)等等,這里邊存在多個數(shù)據(jù)源情況,如果數(shù)據(jù)源不完整,或者套管數(shù)據(jù)中缺失數(shù)據(jù)項下深或者壁厚,井筒就不可能完整成像。
完整性的量化評價指標(biāo):字段缺失數(shù)、缺失記錄覆蓋率、計劃完成率。
3.數(shù)據(jù)質(zhì)量控制模型。數(shù)據(jù)質(zhì)量控制模型以數(shù)據(jù)質(zhì)量定義模型為基礎(chǔ),按照定義的檢查范圍和時間以自動或手工方式完成對數(shù)據(jù)質(zhì)量的檢查工作。在質(zhì)量控制過程中違反了數(shù)據(jù)質(zhì)量定義的,視為數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)質(zhì)量問題直接通過數(shù)據(jù)質(zhì)量的關(guān)鍵特性和指標(biāo)反映出來。數(shù)據(jù)質(zhì)量控制模型的控制內(nèi)容表現(xiàn)在:對數(shù)據(jù)檢查對象、數(shù)據(jù)檢查頻度、數(shù)據(jù)檢查時間、數(shù)據(jù)檢查方式等方面進行控制。
(1)數(shù)據(jù)檢查對象:是指根據(jù)采集計劃設(shè)定需要檢查的用戶、專業(yè)數(shù)據(jù)表、數(shù)據(jù)庫實體。
(2)數(shù)據(jù)檢查頻度;是指根據(jù)數(shù)據(jù)表的采集計劃和實際發(fā)生的頻度,設(shè)定存儲過程的檢查執(zhí)行頻率。
(3)數(shù)據(jù)檢查時間:是指根據(jù)每日生產(chǎn)應(yīng)用的密集時間以及數(shù)據(jù)發(fā)生到采集入庫的密集時間,綜合設(shè)定一個檢查開始執(zhí)行的時刻。
(4)數(shù)據(jù)檢查方式:是指執(zhí)行檢查過程的方式可以由后臺過程自動控制,每間隔2小時自動檢查一次;也可以由人工干預(yù)手動檢查,任意時刻都可以執(zhí)行檢查(當(dāng)然盡量選擇數(shù)據(jù)庫流量比較低的時候)。
4.數(shù)據(jù)質(zhì)量評價模型
數(shù)據(jù)質(zhì)量評價模型,是以數(shù)據(jù)質(zhì)量定義模型為依據(jù),由數(shù)據(jù)質(zhì)量控制模型操控執(zhí)行,根據(jù)反饋的質(zhì)量檢查結(jié)果表,評議出數(shù)據(jù)質(zhì)量的關(guān)鍵指標(biāo),實現(xiàn)對數(shù)據(jù)質(zhì)量的量化診斷和評價。
數(shù)據(jù)質(zhì)量分析評價模型功能核心是,通過對基礎(chǔ)模型中的采集計劃和質(zhì)量定義模型中的約束規(guī)則的處理,由控制模型調(diào)用可以實現(xiàn)檢查分析的后臺存儲過程在實體庫中執(zhí)行檢查,形成查詢結(jié)果,再由分析程序進行分析、計算、分類、匯總,生成反映采集計劃完成情況和數(shù)據(jù)質(zhì)量量化指標(biāo)的結(jié)果,存儲到分析結(jié)果表中,從前臺調(diào)用這個分析結(jié)果表,就可以生成一份詳盡的反映數(shù)據(jù)質(zhì)量問題各類量化指標(biāo)的數(shù)據(jù)質(zhì)量分析評估報告,展現(xiàn)所評估實體庫的數(shù)據(jù)入庫的及時率、數(shù)據(jù)上報的完整性、數(shù)據(jù)采集的一致性、數(shù)據(jù)入庫的準(zhǔn)確率。
5.數(shù)據(jù)質(zhì)量輔助管理模型
數(shù)據(jù)質(zhì)量輔助管理包括報告模版管理、權(quán)限管理、數(shù)據(jù)庫資源占用情況等等。
三、數(shù)據(jù)質(zhì)量評價模型的在《數(shù)據(jù)質(zhì)量評價系統(tǒng)》中的實現(xiàn)
1.系統(tǒng)模塊構(gòu)成圖
數(shù)據(jù)庫采用三層框架結(jié)構(gòu),數(shù)據(jù)層用于存儲各種質(zhì)量標(biāo)準(zhǔn)數(shù)據(jù)、檢查與評價過程數(shù)據(jù)及結(jié)果數(shù)據(jù),邏輯層用于質(zhì)量檢查的各種邏輯處理,表現(xiàn)層是通過用戶界面將檢驗與評價結(jié)果以用戶易懂的可視化方式表達出來。
2.程序?qū)崿F(xiàn)流程圖
四、結(jié)論及建議
在分析數(shù)據(jù)質(zhì)量模型及質(zhì)量檢驗工作流程的基礎(chǔ)上,“數(shù)據(jù)質(zhì)量分析評價系統(tǒng)” 實現(xiàn)了在同一平臺下從分析方案制定、質(zhì)量檢查、質(zhì)量評價、評估報告生成、錯誤信息反饋整個工作流程,從而提高了數(shù)據(jù)質(zhì)量分析與評價的自動化水平,滿足大批量數(shù)據(jù)質(zhì)量控制需要,實現(xiàn)了對數(shù)據(jù)采集的完整性、及時性、準(zhǔn)確性、一致性等關(guān)鍵指標(biāo)進行量化分析和評價。
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”