袁 滿, 劉 峰, 曾 超, 謝 蘭
(1. 東北石油大學 計算機與信息技術學院, 黑龍江 大慶 163318; 2. 華北油田 數(shù)據(jù)中心, 河北 任丘 062552)
隨社會信息化進程的不斷加速, 企業(yè)即將由IT時代進入DT時代, 數(shù)據(jù)在企業(yè)的發(fā)展中將扮演越來越重要的角色。然而, 目前有許多企業(yè)的數(shù)據(jù)質量達不到標準, 無法滿足人們對企業(yè)的數(shù)據(jù)質量要求。因此, 數(shù)據(jù)質量問題得到社會與企業(yè)越來越多的關注, 如何管控數(shù)據(jù), 保障企業(yè)所存儲數(shù)據(jù)質量達標, 這是人們一直在研究的問題。在國內(nèi)數(shù)據(jù)質量的研究者對完整性、 一致性等的稱謂不同, 例如在文獻[1]中稱其為數(shù)據(jù)質量指標, 在文獻[2]則稱其為數(shù)據(jù)質量屬性, 但在文獻[3]則稱其為數(shù)據(jù)質量特性或性質, 目前應用比較廣泛的是稱其為數(shù)據(jù)質量維度[4]。如果數(shù)據(jù)質量維度是研究數(shù)據(jù)質量的基礎, 則數(shù)據(jù)質量框架則是研究數(shù)據(jù)質量必不可缺少的體系架構。國際和國內(nèi)可用的數(shù)據(jù)質量框架有很多, 但國內(nèi)比較常用的只有TDQM(Total Data Quality Management)、 DQAF(Data Quality Assessment Framework)等幾種框架。對如何選擇適合需求的數(shù)據(jù)質量框架可能比較迷茫, 因此筆者對數(shù)據(jù)質量框架進行研究對比, 選擇適合需求的數(shù)據(jù)質量框架。
在許多文獻中, 數(shù)據(jù)質量DQ(Data Quality)與信息質量IQ(Information Quality)兩個術語通用[5]。目前對數(shù)據(jù)質量并沒有一個明確的定義, 但是對于數(shù)據(jù)質量的一些定義可以追溯到1996年, Wang等[6]給出了一個初步的定義, 即“適合數(shù)據(jù)消費者使用的數(shù)據(jù)”。2001年Redman[7]給出了對數(shù)據(jù)質量的定義, 如果數(shù)據(jù)符合其在操作、 決策和規(guī)劃中的預期用途, 則其具有高質量; 如果數(shù)據(jù)沒有缺陷并且具有期望的特征, 則適合使用。2002年Strong等[8]對初步數(shù)據(jù)質量的定義進行了完善, 認為數(shù)據(jù)質量是“符合規(guī)格、 滿足或超過消費者的期望”。2003年Olson[9]也給出了一個關于數(shù)據(jù)質量的定義“如果數(shù)據(jù)滿足其預期用途的要求, 那么數(shù)據(jù)具有質量”。2009年國際標準化組織ISO 8000將質量定義成為“質量是一組固有特性滿足要求的程度”[10]。
數(shù)據(jù)質量維度是數(shù)據(jù)質量評估的基礎, 由于不同領域和不同的人對其認知差異比較大, 而目前數(shù)據(jù)質量越來越趨于規(guī)范。因此筆者從國內(nèi)外最原始的數(shù)據(jù)質量維度定義出發(fā), 對其歷史演變進行了分析、 研究與總結對比。
1) 維度就是提供測量和管理信息數(shù)據(jù)的方式, 維度是由因素(factor)逐漸演變而來, 維度的提出最早追溯到1978年, 人們根據(jù)影響客戶滿意度提出了準確性、 可靠性、 及時性、 一致性和充分性等10條因素。1983年Bailey等[11]通過對大量文獻的分析總結出38條影響用戶滿意度的因素。
2) 由于不同的人對影響客戶滿意度的因素理解不同, 1985年Bollou等[12]給出了對于準確性、 及時性、 完整性和一致性的定義。
3) Wang等[6]通過兩次調(diào)查得到了消費者比較關心的數(shù)據(jù)質量屬性(維度)。第1次調(diào)查得到179個屬性(維度), 第2次調(diào)查得到118個屬性并給出了他們1-9的重要性評分。 然后根據(jù)因素分析方法和因素的穩(wěn)定性方法得出了比較重要的20個屬性(維度), 這些屬性后來減少到15個, 并且根據(jù)初步概念框架分為固有質量、 關聯(lián)方面的質量、 代表性方面的質量和可訪問性方面的質量4大類。并且Wang等[13]通過分析大量文獻總結出了數(shù)據(jù)質量維度的有關定義。
① 準確性(Accuracy and Precision)。文獻[13]還沒有給出準確性的明確定義。
② 可靠性(Reliability)。 可靠性還沒有普遍接受的定義, 不同文獻對其解釋也不同。
定義1 信息正確和可靠的程度。
定義2 可靠性已經(jīng)被認為是衡量期望和能力之間的協(xié)議。
定義3 可靠性是指防止錯誤或失敗的概率。
定義4 可靠性是指輸出信息的一致性和可靠程度。
③ 及時性(Timeliness and Currency)
定義5 及時性是指數(shù)據(jù)是否過時。
定義6 及時性是指輸出時間的有效性。
定義7 與及時性密切相關的概念是流通性, 解釋為一個數(shù)據(jù)項存儲的時間。
④ 完整性(Completeness)。完整性是記錄某個變量的所有值。
⑤ 一致性(Consistency)。分析文獻[13]發(fā)現(xiàn)一致性包括3方面的數(shù)據(jù): 1) 數(shù)據(jù)的值; 2) 數(shù)據(jù)的表示; 3) 數(shù)據(jù)的物理表示。
4) Strong等[8]根據(jù)對數(shù)據(jù)質量維度的理解, 給出了一些數(shù)據(jù)質量基本維度定義, 并說明了數(shù)據(jù)質量維度如何在PSP/IQ(產(chǎn)品和服務信息質量的性能模型)模型中應用, 充分證明了數(shù)據(jù)質量維度的重要性。
5) Matthew等[14]通過對數(shù)據(jù)質量的理解總結了AI1RI2, 即可訪問性、 可解釋性、 相關性、 完整性的定義。
可訪問性: 為使用必須能得到信息。
可解釋性: 能了解任何信息, 并且可以獲得信息的意義。
相關性: 在可訪問性和可解釋性的基礎上, 與消費者感興趣的領域相關聯(lián)程度。
完整性: 得到可解釋和相關聯(lián)的信息要完整。
2009年Carlo等[15]總結出了比較全面的數(shù)據(jù)質量維度以及相關的指標。
數(shù)據(jù)質量維度是數(shù)據(jù)質量評估的基礎, 為確保數(shù)據(jù)質量達到預期的目標, 一個完整的數(shù)據(jù)質量維度是必不可少的。因此研讀并分析大量有關數(shù)據(jù)質量方面的文獻, 可以為使用者提供可參考的數(shù)據(jù)質量維度以及數(shù)據(jù)質量管控的框架標準。
若數(shù)據(jù)質量維度為質量評估提供了基礎, 則數(shù)據(jù)質量框架則為數(shù)據(jù)質量研究提供了完整的體系結構。體系結構為數(shù)據(jù)質量的研究提供核心的過程及其之間的關系, 下面就對數(shù)據(jù)質量框架的研究進行總結。
數(shù)據(jù)質量框架方法是描述數(shù)據(jù)質量的完整體系, 國內(nèi)外提出的數(shù)據(jù)質量框架方法有許多種, 但使用者對框架方法在使用時如何選擇往往比較迷茫, 為此, 筆者將對國內(nèi)外已有的各種典型的數(shù)據(jù)質量框架方法進行研究和分類對比。
國外根據(jù)數(shù)據(jù)質量框架的適用范圍, 通常劃分為Web領域、 協(xié)同、 數(shù)據(jù)倉庫、 分布式、 以及集中式, 下面根據(jù)這5種類別進行分類敘述。
3.1.1 Web領域
2002年Eppler等[16]提出了適合Web數(shù)據(jù)的信息質量框架IQM(Information Quality Measurement), 該方法將數(shù)據(jù)質量問題定義為4個階段: 評估計劃、 評估配置、 評估及后續(xù)活動。IQM方法有助于根據(jù)數(shù)據(jù)質量的優(yōu)異支持網(wǎng)站管理員在創(chuàng)建、 管理和維護網(wǎng)站時個性化工具選擇; 提供了確保評估所需的數(shù)據(jù)質量基本維度, 包括可達性、 一致性、 時效性、 簡潔性、 可維護性、 流通性和適用性等。此外, 還包括兩套準則, 即定義數(shù)據(jù)質量標準的信息質量框架準則和執(zhí)行質量評估行動計劃準則。
3.1.2 協(xié)同系統(tǒng)領域數(shù)據(jù)質量框架
適合協(xié)同系統(tǒng)數(shù)據(jù)質量框架包括ISTAT(ISTAT Methodology)方法、 DaQuinCIS(Data Quality in Cooperative Information Systems)方法、 DQAF方法和CDQ(Comprehensive Methodology for Data Quality Management)方法。
1) ISTAT方法。ISTAT方法是2003年Falorsi等[17]為意大利國家統(tǒng)計局普查收集和維護意大利公民和企業(yè)統(tǒng)計數(shù)據(jù)質量而提出的。該方法解決如何保證從多個地方的數(shù)據(jù)庫匯集到中央數(shù)據(jù)集的質量問題。該方法定義了評估階段、 全面改善階段、 地方數(shù)據(jù)庫的改善活動和中央?yún)f(xié)調(diào)數(shù)據(jù)庫改善活動階段, 同時提供了多種簡單而有效的質量測量統(tǒng)計技術。此外, 它還提供了數(shù)據(jù)清洗工具, 2004年意大利國家統(tǒng)計局在該方法的基礎之上制定了一系列規(guī)范[18]。
2) DaQuinCIS方法。2004年Scannapieco[19]提出了DaQuinCIS方法, 定義了數(shù)據(jù)質量定義、 質量分析、 質量評估, 質量認證和質量改進5個階段。該方法涉及準確性、 完整性、 一致性、 流通性和可信性等維度, 而且其對數(shù)據(jù)質量具有很好的擴展性。DaQuinCIS方法解決了協(xié)同系統(tǒng)中數(shù)據(jù)質量問題: 即一個是數(shù)據(jù)質量取決于組織間的信任, 另一個是差的數(shù)據(jù)質量可能會阻礙合作。為解決第1個問題, DaQuinCIS方法引入了數(shù)據(jù)質量認證的概念, 該概念是將數(shù)據(jù)與相應的質量措施聯(lián)系起來, 而且這些措施隨數(shù)據(jù)在組織間進行交換; 第2個問題通過提供基于數(shù)據(jù)質量的數(shù)據(jù)選擇機制得到解決, 通過這種方式, 利用協(xié)同實現(xiàn)提高數(shù)據(jù)質量。
3) DQAF方法。國際貨幣基金組織(IMF)的數(shù)據(jù)質量評估框架旨在提供一個通用的數(shù)據(jù)質量評估框架(DQAF)和一個共同的方法[20], 該通用數(shù)據(jù)質量評估框架采用級聯(lián)式結構, 它能描述全部數(shù)據(jù)集中共有的數(shù)據(jù)質量維度, 其他數(shù)據(jù)集也可共享這些維度。整個評估框架包括從保障數(shù)據(jù)質量的法律和制度環(huán)境再到數(shù)據(jù)質量維度誠信保證、 方法的健全性、 準確性和可靠性、 適用性、 可獲取性6個維度。DQAF具有一些鮮明特點: ① 在結構方面, 該評估框架將數(shù)據(jù)質量的評估標準按照“從共性到特性”的遞進順序進行組織, 從而增加了應用中的靈活性和可操作性; ② 在內(nèi)容方面, 該評估框架不僅涵蓋了反映數(shù)據(jù)質量主要維度指標, 而且還考慮了與數(shù)據(jù)質量相關的統(tǒng)計體系的法制環(huán)境, 拓展了對數(shù)據(jù)質量評估與管理的范圍; ③ 在6個專項評估框架之間, 既保持了基本結構和內(nèi)容的一致, 又充分體現(xiàn)了各個特定數(shù)據(jù)集的技術特色, 強化了數(shù)據(jù)質量評估規(guī)范的統(tǒng)一性和專業(yè)性。
4) CDQ方法。2006年Batini等[21]對數(shù)據(jù)質量的內(nèi)容、 方法論、 改進技術和工具進行介紹, 并對CDQ方法有了初步的構思。2008年, Batini等[22]在前人研究的基礎上提出了CDQ框架方法。該方法定義了狀態(tài)重建、 評估和最佳改進過程選擇3個階段。最后, 通過執(zhí)行成本效益分析選擇最合適的改進過程。CDQ方法是通過考慮現(xiàn)有的技術和工具, 并將它們整合到一個可以在組織內(nèi)和組織間工作的框架中, 并且可應用于所有數(shù)據(jù)類型, 包括結構化、 半結構化和非結構化的數(shù)據(jù)。該方法是靈活的, 因為它支持用戶在每個階段和任何上下文中選擇最合適的技術和工具。并且CDQ方法對質量維度具有很好的擴展能力。CDQ框架比較簡單, 主要是因為它分階段組織, 每個階段都具有特定目標。
3.1.3 數(shù)據(jù)倉庫領域
DWQ(The Datawarehouse Quality Methodology)方法是在1998年由Jeusfeld等[23]在歐洲的數(shù)據(jù)倉庫質量項目的基礎上提出的, 它適合于數(shù)據(jù)倉庫領域的數(shù)據(jù)質量管控。
DWQ是用于解決數(shù)據(jù)倉庫中數(shù)據(jù)質量問題的, 考慮質量目標的多樣性, 定義了相應的元數(shù)據(jù)。將整個過程劃分為定義、 測量、 分析以及改進4個階段。維度除了定義了一致性、 及時性和可訪問性之外, 還定義了準確性(Accuracy)和完整性(Completeness)[24], 同時也包括了Wang等[25]提出的4類數(shù)據(jù)質量維度, 即固有、 關聯(lián)、 代表性和可訪問性的數(shù)據(jù)質量維度, 還包括其他一些維度, 例如數(shù)據(jù)驗證(Data Validation)、 可追溯性(Traceability)、 可信性(Credibility)和20多個維度周期(Cycle Time)等, 該方法對維度具有很好的擴展性, 但DWQ只提供一般流程建模的步驟, 并沒有提供執(zhí)行的細節(jié)。
3.1.4 分布式系統(tǒng)領域
適合分布式系統(tǒng)領域的數(shù)據(jù)質量框架包括TDQM方法、 TIQM(Total Information Quality Management)方法、 AIMQ(A Methodology for Information Quality Assessment)方法、 CIHI(Canadian Institute for Health Information Methodology)方法、 DQA(Data Quality Assessment)方法、 ISTAT方法、 DaQuinCIS方法和CDQ方法。
1) TDQM方法。1998年, Wang等[26]提出全面數(shù)據(jù)質量管理(TDQM)方法。該方法根據(jù)戴明環(huán)原理建立了全面數(shù)據(jù)質量管理的循環(huán)周期, 即定義、 測量、 分析以及改進4個階段, 并且把文獻[6]提出的四大類15種維度運用到該方法中。其缺點是該方法中的質量維度是固定的, 不能得到擴展。該方法是在文獻[27]提出的全面質量管理(TQM)方法的擴展, 目前, 很多企業(yè)都使用TQM方法保證產(chǎn)品的質量, 但它在支持決策等方面存在一些不足。
2) TIQM方法。1999年, English[28]提出了支持數(shù)據(jù)倉庫項目的TIQM方法。該方法假定將數(shù)據(jù)源合并成一個特殊的一體化的數(shù)據(jù)庫, 用于提供聚合構建數(shù)據(jù)倉庫時所需的所有數(shù)據(jù)類型, 這種集成消除了源數(shù)據(jù)庫的錯誤和異質性。TIQM方法從管理員的角度定義3個階段: 評估、 改進以及改進管理和監(jiān)測, 其中第3階段提供了根據(jù)數(shù)據(jù)質量管理要求以及用于成本效益評估的經(jīng)濟學方法。目標是不僅實現(xiàn)更高的數(shù)據(jù)質量水平, 而且只在經(jīng)濟效益可行的情況下才采取改進行動。TIQM重點關注了負責運營數(shù)據(jù)源整合的管理活動, 并且為管理員更好地進行成本效益的分析, 提供了成本和收益的詳細分類。TIQM方法的有關維度包括完整性(Completeness), 業(yè)務規(guī)則一致性(Business Rules Conformance), 準確性(Accuracy)和成本(Cost)等, 但是不足之處是數(shù)據(jù)質量維度是固定的。
3) AIMQ方法。AIMQ方法是2002年由Lee等[29]提出的。首先該方法通過調(diào)查得出一個矩陣信息質量產(chǎn)品和服務績效矩陣(PSP/IQ), 以及根據(jù)用戶和管理員的觀點對Wang等[6]確定的數(shù)質量維度進行分類, 并且開發(fā)了信息質量評估工具(IQA)。該方法系統(tǒng)地把信息質量的評估和改進結合起來, 操作性比較好; 定義了評估以及評估分析和解釋兩個階段, 但是其只關注評估活動, 而沒有提供改進活動的指南、 技術和工具。雖然AIMQ方法是目前為止唯一關注信息質量基準方法, 但是其對應用所需的基準數(shù)據(jù)庫沒有提供任何描述, 只是提倡用差距分析技術作為基準和解釋結果的標準方法。特別是建議兩種差距分析技術: 一個是信息質量基準差距, 另一個是信息質量角色差距。前者是將一個組織的數(shù)據(jù)質量值與最佳實踐組織的數(shù)據(jù)質量值進行比較。后者比較了由不同組織角色提供的數(shù)據(jù)質量評估, 即IS專業(yè)人員和信息用戶。這是一個客觀的和特定領域的技術數(shù)據(jù)質量評估方法。
4) DQA方法。2002年, Pipino等[30]提出了指導數(shù)據(jù)質量指標定義的一般性原則的DQA方法。該方法定義了主觀和客觀評估、 主觀和客觀評估對比以及改進3個階段。在該方法中數(shù)據(jù)質量指標大多被定義為特定的, 即用于解決特定問題的指標, 因此數(shù)據(jù)質量指標取決于所考慮的問題。該方法是主觀和客觀質量指標的結合, 主觀質量指標反映的是信息用戶的需求, 而客觀指標被劃分為任務獨立和任務相關兩部分。
5) CIHI方法。2005年, Long等[31]為實現(xiàn)評估和提高加拿大健康信息研究所的數(shù)據(jù)質量, 提出了CIHI方法。CIHI方法主要解決的是數(shù)據(jù)庫規(guī)模及其異質性質量。CIHI方法支持選擇一個數(shù)據(jù)子集進行質量評估, 同時還定義了評估異質性指標。該方法把質量評估劃分為兩個階段: 一個是質量框架的定義, 另一個是對訪問頻率高的數(shù)據(jù)的深入分析。其中第1階段又包括3步: 數(shù)據(jù)質量信息的標準化、 制定數(shù)據(jù)質量評估策略和為CIHI數(shù)據(jù)管理定義一個識別數(shù)據(jù)質量優(yōu)先級并實施持續(xù)數(shù)據(jù)改進程序的工作流程。第2階段也分為3步: 數(shù)據(jù)質量分析、 評估和文件報告。
3.1.5 集中式系統(tǒng)領域
很多數(shù)據(jù)質量框架一般都適合在集中式系統(tǒng)中使用, 下面給出用于集中系統(tǒng)領域的COLDQ(Cost-Effect of Low Data Quality)方法和QAFD(Methodology for the Quality Assessment of Financial Data)方法。
1) COLDQ方法。2004年, Loshin[32]為對獲得不良信息對業(yè)務流程影響程度的定量評估, 提出了COLDQ方法。COLDQ定義了6個階段: 信息鏈映射(Mapping the Information Chain)、 分析(Analysis)、 隔離缺陷數(shù)據(jù)(Isolating Flawed Data)、 識別影響域(Identifying the Impact Domain)、 評估成本(Evalution of Costs)和聚合(Aggregating the Total), 并且提供了一個影響經(jīng)濟效益的分類, 而且還為每個分類賦予了一個經(jīng)濟值。最后, 通過評估和匯總質量改進項目的成本支持成本效益分析。COLDQ方法的基本目標是提供一個數(shù)據(jù)質量記分卡, 以支持對低數(shù)據(jù)質量的成本效應的評估, 與TIQM相似, 提供了一個成本與利益的詳細分類。由于該方法采用了改進技術, 避免了低質量成本, 可獲得直接效益。COLDQ方法的有關維度包括模式層的全面性(Comprehensiveness)、 靈活性等以及關于數(shù)據(jù)的冗余性(Redundancy)、 成本(Cost)等, 但數(shù)據(jù)質量維度在該方法中是固定的。
2) QAFD方法。2004年, Amicis等[33]提出了QAFD方法。QAFD方法定義了財務變量選擇、 分析和數(shù)據(jù)模型支持的客觀評估、 業(yè)務專家、 客戶和數(shù)據(jù)質量專家的主觀評估以及客觀和主觀評估對比的5個階段。該方法結合了定量和定性評估的方法確定數(shù)據(jù)質量問題和選擇適當?shù)臄?shù)據(jù)質量改進措施。分析階段主要是確定語法/語義準確性、 內(nèi)部/外部一致性、 完整性、 流通性和唯一性維度的規(guī)則, 但該方法的維度是固定的。QAFD方法是目前為止財務領域數(shù)據(jù)質量評估的唯一方法, 已被確定為金融業(yè)務數(shù)據(jù)的措施標準, 從而減少質量測量工具的成本。
雖然國外提出了很多數(shù)據(jù)質量框架方法, 但國內(nèi)研究者根據(jù)已有研究領域也提出了一些框架方法。下面對國內(nèi)的一些數(shù)據(jù)質量框架進行詳細闡述。
1) AMEQ方法。2004年Su等[34]為符合組織目標的產(chǎn)品信息質量(PIQ)評估和改進提供嚴格的理論基礎而提出了AMEQ(Activity-based Measuring and Evaluating of Product Information Quality Methodology)方法, 并定義了5個階段: 建立數(shù)據(jù)質量環(huán)境、 定義、 評估、 分析和改進。該方法在第1階段使用了信息質量管理成熟度網(wǎng)格評估數(shù)據(jù)質量環(huán)境, 在第4和第5階段用于評估制造公司的數(shù)據(jù)質量, 并且提供了一種方法和方法論指導信息和生產(chǎn)相關流程的建模。該方法通過面向對象建模的方法對業(yè)務過程中相應的信息產(chǎn)品進行建模, 并且建立了8個模型: 人力資源、 信息資源、 企業(yè)活動、 資源輸入、 資源流程、 資源輸出、 績效測量和企業(yè)目標。AMEQ方法的維度是根據(jù)業(yè)務活動的相關性進行定義和分類的, 具有很好的擴展能力。但是AMEQ方法不提供具體的實施方法和工具, 只是從理論上提供一般性指導。
2) 模塊功能可定制的數(shù)據(jù)清洗框架。由于市場上的各種數(shù)據(jù)抽取、 轉化和裝載工具或多或少提供了一些數(shù)據(jù)清洗功能, 但是都缺乏擴展性。因此郭志懋等[1]較早地認識到數(shù)據(jù)質量研究的重要價值, 并開展了一系列的研究工作, 提出了一個模塊功能可定制的數(shù)據(jù)清洗框架和一種基于N-Gram的相似重復記錄檢測方法, 在一定程度上解決了記錄檢測問題, 但該方法不適用于中文數(shù)據(jù)環(huán)境, 后來針對中文特性研究了一種檢測多語言數(shù)據(jù)重復記錄的綜合方法。
3) 數(shù)據(jù)質量評估模型。楊青云等[35]使用了6元組的形式描述數(shù)據(jù)質量評估模型, 經(jīng)過4個步驟構造數(shù)據(jù)質量評估模型: 確定數(shù)據(jù)集評估應用視圖、 選擇評估指標、 制定規(guī)則集和計算規(guī)則結果得分。該模型是一個6元組M={D,I,R,W,E,S},D需進行評估的數(shù)據(jù)集;I進行評估的指標;R與評估指標相對應的規(guī)則, 規(guī)則可使用規(guī)范化的自然語言或形式化語言書寫, 以便于轉換成程序腳本。W給予規(guī)則的權值, 描述了該規(guī)則在所有規(guī)則中所占的比重;E對規(guī)則R給出的期望值, 是在評估之前對該規(guī)則所期望得到的結果;S是最終的結果, 給出了構造模型的方法和如何計算指標。該模型的主要創(chuàng)新是對于數(shù)據(jù)質量的評估給出了量化的指標。
4) 數(shù)據(jù)清洗的框架。莊曉青等[36]對數(shù)據(jù)質量及其在數(shù)據(jù)倉庫中的應用進行了研究, 他們主要是對數(shù)據(jù)質量進行分類并提出對這些分類的解決方法, 并在其基礎上提出了一個數(shù)據(jù)清洗的框架。一般的數(shù)據(jù)清理被分為以下幾個階段: 數(shù)據(jù)分析, 定義清理, 執(zhí)行清理和數(shù)據(jù)清理的一般框架。其框架分成清理設計工具和清理工具。清理設計工具完成清理的前兩個階段,將設計的結果保存到清理元數(shù)據(jù)庫中, 清理工具根據(jù)清理元數(shù)據(jù)庫中的元數(shù)據(jù)自動進行清理。清理設計工具采用圖形化界面, 用戶可直接讀取原始數(shù)據(jù)進行原始數(shù)據(jù)分析, 然后設計清理流程。一般具有自動發(fā)現(xiàn)數(shù)據(jù)問題的功能, 使用數(shù)據(jù)剖析和數(shù)據(jù)挖掘的方法進行自動分析發(fā)現(xiàn)。清理工具一般采用批量處理的方法將輸入數(shù)據(jù)清理, 然后輸出到目的地。
通過上面的文獻調(diào)研, 將各個模型對不同因素支持的程度列在表1中。不同的行業(yè)或企業(yè)可依據(jù)其對數(shù)據(jù)質量的需求進行參考和選擇。
表1 數(shù)據(jù)質量框架比較
通過對數(shù)據(jù)質量維度和數(shù)據(jù)質量框架方法的分析與對比研究, 明確了數(shù)據(jù)質量維度的定義及其與指標的關系。同時通過對數(shù)據(jù)框架的分析、 對比研究, 明確了不同的數(shù)據(jù)質量框架的應用范圍以及所包含的質量維度, 對于領域選擇適合數(shù)據(jù)質量框架和數(shù)據(jù)質量維度, 對數(shù)據(jù)質量的整體評估和改進都有很重要的作用。上述研究成果為具體應用選擇適合需求的數(shù)據(jù)質量框架、 維度與指標提供了科學的依據(jù)。為企業(yè)實現(xiàn)數(shù)據(jù)質量的管控節(jié)省大量的時間、 人力和物力。相關領域的數(shù)據(jù)質量框架相對已經(jīng)比較成熟, 但是不同的領域需求會有所不同, 此外, 不同領域對數(shù)據(jù)質量維度與指標的需求也會有所差別, 但是未來不同的領域會借鑒已有的數(shù)據(jù)質量框架進行完善與補充, 必將朝著領域標準化的質量框架方向發(fā)展。