[譚志遠 宮云平]
隨著大數據處理技術的蓬勃發(fā)展,基于海量數據的存儲、處理、挖掘分析得到了充分的技術保障,基于海量數據的挖掘分析結果將直接影響企業(yè)的決策和市場競爭,而數據質量的好壞將直接影響數據挖掘分析的結果,劣質的數據將可能給企業(yè)決策和市場競爭帶來難以預估的傷害。因此為了高效支撐企業(yè)數據的價值挖掘,數據質量的全面評估迫在眉睫。那么我們該從哪些方面對數據質量進行評估,如何體系化的評價所使用數據的質量是否滿足數據挖掘的需要呢?
數據質量評估是數據質量管理的主要內容之一,那什么是數據質量管理呢?參考業(yè)界權威DAMA(數據管理學會)在《DAMA 數據管理的知識體系和指南(DAMADMBOK)》一書中的定義,即數據質量管理是指通過管理和技術手段,對數據處理全過程每個環(huán)節(jié)的數據質量進行識別、度量、監(jiān)控、預警等一系列管理活動,并通過改善和提高組織的管理水平提升數據質量。
結合DAMA 對數據質量管理的定義,以及我們實際工作需要,對于數據質量管理,我們可以這么理解即在數據處理的全生命周期(數據生成、數據采集、數據傳輸、數據處理、數據使用等)中,通過技術和管理手段,始終圍繞著數據質量的提升開展相關工作。在這個過程中,首先必須梳理清楚,從哪些方面或者維度去識別數據質量問題,這些問題該如何評估,如何通過一個可以量化的方法或指標去評估,在此基礎上構建數據質量評估體系,從而結合監(jiān)控及告警系統(tǒng)對我們所關注的評估指標進行監(jiān)控及預警。
不同單位、組織或個人在結合自身實際需要的情況下,提出了不同評估維度(或稱度量維度),如表1 所述。
表1 不同組織/單位提出的數據質量評估維度對照表
DAMA 提出的數據質量評估維度主要包括:準確性、完整性、一致性、時效性、精確度、隱私(訪問控制和使用監(jiān)控)、合理性、參照完整性、及時性、有效性等。
百度百科在數據質量管理(DQM:Data Quality Management)中提出的數據質量評估維度主要包括:完整性、規(guī)范性、一致性、準確性、唯一性、關聯性。
國際貨幣基金組織(IMF)在其通用性數據質量評估框架(DQAF:Data Quality Assessment Framework)中提出通過相關性、準確性、可靠性、適用性、可獲得性等五個維度來評估數據的質量。DQAF 更注重對統(tǒng)計活動進行全面質量管理,而我們更關注數據本身的質量,但其對過程質量的管控值得我們借鑒。
業(yè)界相關公司提出的數據質量評估維度,如普元信息技術股份有限公司在其大數據中臺軟件數據質量平臺中提出采用關聯性、正確性、完全性、一致性、合規(guī)性等維度來評估。
從表1 可以看出,各組織/單位從不同的出發(fā)點考慮,對數據質量評估的角度是不一樣的,且差異較大。誠然數據質量評估的維度越多越能更好、更全面地評估數據質量的好壞,但是太多的評估維度,給我們實際操作會帶來極大的不適應。主要問題如下。
(1)太多相似的度量名稱,容易混淆,不利于數據質量評估工作的開展,如及時性與時效性,合規(guī)性、有效性和規(guī)范性等。
(2)部分度量維度其實際評估目的是一致的,或者在實際操作中判斷數據好壞的手段或方法是類似的,其實沒必要拆分那么多維度,因此這類度量維度完全可以合并。例如準確性、合規(guī)性、規(guī)范性、精確度等幾個維度,其目的都是為了判斷數據是否準確,在判斷數據是否準確的手段上,都是基于數據處理程序在數據處理過程中借助約定好的規(guī)則庫,對數據進行校驗是否符合預先配置的規(guī)則等。
(3)部分維度屬于主觀判斷無法通過軟件客觀分析,缺乏可操作性。如:合理性、適用性等。
(4)每項評估維度都必須耗費資源去評估,在滿足業(yè)務開展需要的前提下,減少非必要的評估維度。
高質量的數據最基本的要求是所使用的數據務必是客觀真實情況的反映,數據是準確的、完整的,不同數據間相同內容表述是一致的,在某些對數據時延要求嚴格的場景還需要評估數據處理時延是否是滿足及時性要求。因此,在滿足可操作(能客觀評估,非由人主觀判斷),避免維度命名混淆,合并可基于相同規(guī)則評估的維度的前提下,重新整合上述各類評估維度,僅采用準確性、完整性、一致性和及時性等4 個維度來評估數據質量。重新整合并劃分評估維度如表2 所述。
表2 評估維度重新整合表
在參考不同組織和單位對數據質量評估維度及其定義后,結合現階段大數據挖掘分析對數據質量的要求,重新對數據質量的準確性、完整性、一致性和及時性定義如下。
準確性:指數據的準確程度。數據記錄的信息符合業(yè)務或技術定義、標準、規(guī)范;數據處理過程嚴格遵循相關業(yè)務、技術定義的規(guī)則,沒有進行人為篡改和調整。準確性方面的評估指標,可根據實際評估需要制定,如:關鍵字段合規(guī)率,關鍵字段非空率等。
完整性:指端到端的數據處理過程中數據完整程度。主要包括信息實體不缺失、屬性不缺失、記錄不缺失、字段不缺失等。完整性方面的評估指標,如:文件數完整率,記錄數完整率,時間粒度完整率(如:某天中各小時的數據是否完整)。
一致性:指在業(yè)務定義一致性的情況下,關聯數據間的邏輯關系是正確和完整的,差異原因可解釋、可追溯。主要體現在各系統(tǒng)遵循企業(yè)或行業(yè)數據規(guī)范標準,同一信息主體在不同系統(tǒng)中相應信息屬性是相同的;業(yè)務定義相同的信息主體原則上在跨專業(yè)系統(tǒng)的取值是相同的,差異原因可解釋、可追溯。一致性方面的評估指標如:某字段的關聯率,字段值在參考數據中的覆蓋率等。
及時性:指數據處理的及時程度。主要包括在規(guī)定時限內(滿足相關規(guī)范或業(yè)務處理要求),完成數據的刷新、處理、提供等操作。及時性方面的評估指標如:數據處理及時率等。
在開展某項數據挖掘工作時,將可能涉及多種類型的數據,把這些不同的數據看成一個數據集,在評估這個數據集的總體質量是否滿足我們業(yè)務開展的需要,我們可以制定一個KQI(Key Quality Indicators 關鍵質量指標)指標來評估數據集的總體優(yōu)良率是否滿足業(yè)務要求。參考下圖1 所示,把業(yè)務總體KQI 指標再細分到這個數據集中每項數據的KQI 指標,每項數據再根據評估需要逐級向下分解到具體的KPI 指標(Key Performance Indicators 關鍵業(yè)績指標),而每個具體的KPI 指標由基礎的統(tǒng)計指標計算得到。
評估模型從層次上劃分為三部分,分別是:基礎性統(tǒng)計指標、評估維度指標(準確性、完整性、及時性、一致性)、優(yōu)良率指標(含總體優(yōu)良率指標),層次關系如圖1 所示。
圖1 數據質量評估模型示意圖
為便于指標引用針對圖1 中各層級指標進行編號(如圖2 所示),把指標分成兩級,一級指標用一個字母(實際可根據需要用能增加識別度的縮寫或其他簡稱,此處僅舉例)代表指標的類型(如:A 代表基礎性統(tǒng)計指標,B代表準確性相關的指標,C 代表完整性相關的指標等),二級指標用四位數字對指標進行順序編號。如:基礎性統(tǒng)計指標,可以用A_1001、A_2001、A_3001 等表示。
圖2 指標編號規(guī)則
針對各評估維度(如:準確性、完整性、一致性、及時性等),結合評估期望,制定其基礎統(tǒng)計指標,舉例如表3 所示(實際應用過程中,可根據需要擴展,此處僅提供示例)。
表3 基礎性統(tǒng)計指標命名舉例(不局限如下指標)
根據前面確定的4 個評估維度,分別制定各維度對應的評估指標(如表4 所示)。例如:評估數據的準確性,制定“關鍵字段值準確率”的評估指標;評估數據的完整性,制定“處理文件數完整率”和“文件按時間序列完整率”(具體可根據需要命名);評估數據的一致性,制定“數據關聯率”和“數據覆蓋率”;評估數據的及時性,制定“文件處理及時率”和“文件處理平均時延”等指標對數據進行評估。
表4 評估維度指標應用舉例(不局限如下指標)
優(yōu)良率指標主要包括:各數據項的優(yōu)良率指標和數據集的總體優(yōu)良率指標。數據集中各數據項的優(yōu)良率指標和數據集的總體優(yōu)良率指標,都可以有多種計算方法(如表5 所示),如:平均優(yōu)良率(對各維度指標取平均值)、加權優(yōu)良率(根據考核或評估側重點,不同維度指標賦不同的權重)、最低優(yōu)良率(多個維度指標取最低值),具體可結合實際需要選擇不同的計算方式。
表5 優(yōu)良率指標舉例(不局限如下指標)
在實際開展某數據集的質量評估時,可參考如上指標模型的構建方式,根據評估側重點,選取相應的維度和評估指標進行綜合評估,舉例如下:
總體優(yōu)良率指標(Z_0001)=數據A 優(yōu)良率指標(Y_0001)*權重A+數據B 優(yōu)良率指標(Y_0002)*權重B。其中權重A+權重B=100%。
數據A 優(yōu)良率指標(Y_0001)=權重1*準確性指標(B_1001)+權重2*完整性指標(C_1001)+權重3*及時性指標(E_0001)+...。其中權重1+權重2+權重3+...=100%。
其中及時性指標,如:統(tǒng)計A 數據文件采集及時率(E_0001)=A_4003/A_2002*100%,其中公式中涉及的基礎性統(tǒng)計指標包括:采集文件總數(A_2002),采集時延符合要求的文件數(A_4003)。
本文通過分析業(yè)界數據質量評估現狀,從實際出發(fā)依據可操作性、避免混淆等原則,確定4 個數據質量評估維度,在此基礎上提出數據質量評估模型,并結合實際應用給出模型應用示例,希望讀者在進行數據質量評估過程中有所啟發(fā)。