黃俊超HUANG Jun-chao
(空軍勤務學院研究生大隊,徐州 221000)
管理信息系統是以人為核心因素,由計算機技術、設施及其他信息手段組成,并用于管理信息的系統[1],其運行需要充足、全方位、高質量的數據作為保障。然而,伴隨著管理信息系統的廣泛使用,所產生的數據愈來愈多,許多數據已經超出了管理與控制的范圍?!皵祿S富,信息貧乏”問題時常發(fā)生,原因之一就是數據質量差,導致數據不能有效地被運用,進而降低管理信息系統的效率,甚至造成嚴重決策失誤。
當前對數據質量的研究中,數據清洗、數據修復、數據標準化、數據質量控制等方面都取得了長足的進展,然而許多學者都認為數據質量評價是基礎,是對數據質量現狀的準確反映。近些年來數據質量評價指標體系、評價模型等方面的研究不斷增加。本文對管理信息系統數據質量的定義與維度、數據質量評價指標、評價方法進行全面梳理,以期能夠為管理信息系統數據質量相關研究的學者提供一定的借鑒。
理清數據質量的定義與維度是評價指標體系的建立的基礎。數據質量的研究起源于1980 年初,稍滯后于信息系統發(fā)展[2]。起初人們將數據質量理解為數據準確性,隨著信息技術的發(fā)展,準確性這一概念已不足以清晰完整描述數據質量。1999 年,Kuan-Tsae Huang 等人對數據質量作了較簡單的定義:滿足用戶需求和期望的程度[3]。同樣的,盧本新[4]對數據倉庫中的數據質量定義為能夠滿足客戶需求的數據占比。齊藝蘭[23]給出了ERP 系統的數據質量定義:ERP 系統中的數據滿足最終需求的程度。
信息系統的使用者通過對數量大、種類多、屬性不同的數據進行分析處理從而獲得信息,進而用于輔助決策,因此在信息系統中,數據質量的定義偏向于“滿足程度”的概念的同時更強調多維化。盡管因為數據質量針對對象不同,不同對象要求不同,研究者們仍沒有對數據質量有精準的、恰當的定義,但一般認為,數據質量通常分解為具體的數據質量維度[5-6]。數據質量維度為度量和管理數據的質量提供了一種途徑和標準[7]。陳遠[8]認為對數據質量定義的把握不應僅僅局限于輸入端的正確與否,而是對信息系統在開發(fā)、使用過程中數據的正確性、準確性、不矛盾性、一致性、完整性、集成性六個方面的描述。趙宇[9]通過對多篇文獻的整理認為信息系統中的準確性、時效性、完整性和一致性被滿足的程度是當下學者對數據質量定義較為一致的觀點。劉向民[10]認為信息系統數據內在質量反映在數據真實性、數據完整性、數據精確性、數據時效性、數據可用性、數據可信性、數據邏輯一致性上。
綜上所述,目前對數據質量定義主要是面向使用方的,強調“適合使用”的程度。管理信息系統中數據具有數據量大、時效性強、數據關系復雜、多源化、系統安全系數要求高的特點,數據的應用又格外強調數據的準確性、時效性、一致性、完整性和安全性。因此結合研究者們對據質量定義以及管理信息系統的特點,可以給出如下定義:管理信息系統數據質量是指數據在準確性、時效性、一致性、完整性和安全性等各個維度中,數據實例能夠滿足最終需求的程度。
要想進行評價首先要理清楚評價的方面,數據質量評價指標體系的建立遵循科學性原則、系統性原則、可擴充性原則[11],并以數據質量的定義與維度為基礎,是進行數據質量評價并做出正確判斷的實踐依據。各個領域中由于評價目標和評價方法各不相同,研究者所建立的評價指標體系也不盡相同。表1 展示了21 世紀以來不同學者對于信息系統數據質量評價指標的界定。
表1 數據質量評價指標
通過對以往文獻研究發(fā)現,數據質量的評價指標能夠進行分類,可劃分為數據的基礎要求、數據內容、效能作用三個維度。每個維度包含評價指標如圖1 所示。
圖1 數據質量評價指標維度劃分
數據基礎要求維度中的評價指標是指系統在設計之初對數據的精度、形式等進行的約束,是最基礎、最廣泛使用的指標。主要評價指標有規(guī)范性、完整性、表達形式合理性等。規(guī)范性是指數據符合格式要求、值域約束等強制性標準的程度;完整性是字段數、記錄數等滿足要求的程度;表達形式合理性用于評價數據的各項特征、表達方式符合要求的程度。
數據內容維度中的評價指標是對現有數據本身具體內容的評價。主要評價指標有準確性、正確性、真實性、邏輯一致性等。準確性是指數據反映真實值的程度;正確性與準確性概念有所區(qū)分,是指數據在所界定的范圍之內,有些數據雖然是準確的,但并不一定能夠準確反映現實情況;真實性為數據反映真實情況的程度;邏輯一致性指字段與表映射是否異常、同一字段上下文表述是否一致。
數據效能作用維度中的評價指標是對已有數據能夠發(fā)揮作用的評價。由于數據質量的定義是指數據實例能夠滿足最終需求的程度,所以該維度的評價指標較多。主要評價指標有時效性、可訪問性、可維護性、全面性、安全性等。時效性為數據在預期時間內能夠被正確使用的程度;可訪問性是指數據可用的程度以及檢索速度的高低;可維護性為數據能夠按照管理者目標進行更新、修改的程度;全面性是指相對于數據總體或全體相關對象的數據覆蓋程度;安全性是指數據在使用維護過程中是否存在丟失、被盜的可能。
數據質量評價方法是數據質量評價的核心部分,合適的評價方法能夠快速、準確反映出所存在的數據質量問題,得出可靠的結果。國內外關于數據質量評價方法的研究層出不窮,通過整理歸納,可將常見的評價方法歸納為以下5 類。
第一類是國外較為典型的評價模型[23]。一是國際貨幣基金組織提出的數據質量評價通用模型(DQAF)是對統計數據質量進行定性評價的一種方法,為數據質量評價提供了一個通用的框架,囊括了數據質量評價的絕大多數維度[24];二是麻省理工學院TDQM 項目組所研究的信息管理質量評價(AIMQ)方法[25],提出了信息質量評價以及差別分析判斷方法,并且能夠進行數據質量提升,實用性較強。
這類方法較為經典,但僅適用于部分領域。DQAF 模型面向統計數據,操作簡便,實用性強,但尚未有國內學者將其引進應用,AIMQ 強調將數據看作產品,更側重于管理方向。
第二類是傳統直接評價法,將現有數據與各項評價指標進行比對,運用簡單數理統計計算來進行,如簡單比率法、缺陷扣分法、加權平均法、最小或最大運算方法。
劉偉[26]根據簡單比率法,基于質量約束規(guī)則,構建了對完整性、一致性、時效性、準確性評價的元數據算法模型。荀挺[27]基于統計學原理,從多個角度提取數據質量的評價指標對數據質量綜合分析與評價。王軍玲[15]依據數據質量評價定量指標,給出了數據質量缺陷等級,以逐層遞進的方式,采用線性內插法、算術平均法、加權平均法等算法,分別計算目標數據集的一級、二級質量指標,最終得到數據集整體質量的評分。
這類方法以數據質量問題作為切入點進行評價,對質量問題的反應較為靈敏,并且易于量化,運算簡易,并且加入加權統計的思想后,其使用起來更加靈活,所以應用較為廣泛。但不足之處在于由于缺陷的定義本身具有模糊性,對缺陷與非缺陷之間的灰色地帶無法進行準確評價,并且這種剛性的量化方法會導致結果偏于嚴重化。同時,其對指標體系的依賴性強,若指標體系存在缺陷,得出的評價結果將不盡人意。
第三類是不確定理論評價法。鑒于上述缺點,研究者們使用不確定性理論來進行數據質量的評價,主要包括粗糙集理論、模糊綜合評判法等。
宋俊典[28]提出了一種面向多維度數據質量的模糊綜合評價方法,采用德爾菲法和層次分析法對各指標賦予權重,確定隸屬度函數和特征向量,并進行模糊轉換和模糊計算,最終根據最大隸屬度原則得到質量評級。Davod[29]使用模糊AHP 方法評價數據質量各個維度。胡小靜[30]對空間數據進行評價,針對其不確定性的特點,提出了多層次模糊綜合評判的方法。
該類方法的基本思想是假定對事物的狀態(tài)以及狀態(tài)的變化方式缺少準確的判斷[31],將評價指標量化、客觀化。所以在面對不確定、復雜、綜合性強的問題時,該類方法具有較為明顯的優(yōu)勢。
第四類方法是組合模型評價方法。所有評價方法都有可能存在局限之處,采用具有互補性的方法建立組合模型來進行數據質量的評價,能夠彌補各種方法的缺陷,突出各類方法的優(yōu)點,使評價的結論更加精確可靠。
王帆飛[32]在確定質量等級后,利用加權平均的缺陷扣分法得到數據的質量得分,最后評價出數據集的質量等級。莊廣新[33]提出了基于層次分析法與灰色聚類分析的道路交通流數據質量評價方法,確定權重后,采用灰色系統理論白化權函數建立各指標關聯度矩陣模型。楊棟樞[34]通過構建基于熵權與層次分析法的電力企業(yè)運營監(jiān)控中心數據質量組合權重評價模型,并通過實際數據驗證了評價模型的有效性。
第五類是基于元數據的評價方法。元數據是包含數據基本信息的數據,是對數據各個方面進行最基本描述。元數據的應用使得數據更易被查找、管理和使用,因此很多學者如劉偉[26]、李天陽[35]、黃剛[36]、張董強[37]都提出通過建立元數據模型進行數據質量的評價。
該類方法首先建立各評價指標的數據質量約束規(guī)則,再設計各個實體的約束規(guī)則元模型,然后建立評價算法元模型進行評價,利用元數據的基本特性進行數據質量評價,體現了靈活性、通用性的特點。在使用中只需簡單維護元數據,便可以實現任何數據庫及任意數據質量評價約束的數據質量評價。但在評價算法的選擇上較為簡單,劉偉提出了兩種評價算法,一種是簡單比對法,從數據質量的幾類關鍵特性出發(fā),計算出每類關鍵特性的錯誤數據個數,與數據總數的比值,最后得出問題發(fā)生率;另外一種就是屬性加權法,考慮到每個關鍵特性對于數據的重要性可能不同,為了區(qū)分不同關鍵特性所占的比重,使用加權算法進行評價。上述學者在研究中普遍使用一些定性指標進行人工打分評價,在數據量大、數據關系復雜的情況下,人工打分評價可能導致評估結果不盡人意。
基于所掌握的相關文獻,對管理信息系統數據質量的研究進展進行梳理歸納。首先對數據質量的定義與維度進行梳理,其次從數據質量評價指標、評價方法兩個方面對管理信息系統數據質量評價的研究內容進行整合。研究發(fā)現,當前針對管理信息系統數據質量評價指標、評價方法的研究取得了一定成果,但仍存在一定不足:①數據質量的定義是研究數據質量的基礎,但當前對于管理信息系統數據質量的定義仍然較為模糊,不同學者有不同的看法,尤其是針對管理信息系統領域,還未有統一的標準;②由于研究領域不同,對數據質量評價指標的認識存在較大差異,不同評價指標雖然字面不同,但意義差別并不大,且繁雜的評價指標體系不利于進一步的評價,可能會造成評價結果失真;③基于元數據能夠更加準確、快速地進行評價,但評價算法方面還較為單一,所評價的內容層面較淺。
立足于現有研究的不足,今后的研究可側重于以下幾個方面:①深入分析各領域數據應用現狀,進一步理清管理信息系統數據質量的定義與維度,為評價指標體系建立打好基礎;②完善數據質量評價指標體系。針對不同研究領域建立概括性強、簡潔明了、層次分明的評價指標體系,避免評價指標繁雜對評價結果的影響;③豐富基于元數據的數據質量評價方法,可采用組合方法、深度學習等算法進行評價,達到更準確的評價效果。