劉金晶,王 梅
(1.北京銳安科技有限公司 大數(shù)據(jù)分析部,北京 100192;2.北京銳安科技有限公司 研究院,北京 100192)
人類歷史上從未有哪個(gè)時(shí)代像現(xiàn)在一樣,任何活動(dòng)都帶來了大量的數(shù)據(jù)[1],完全不受時(shí)間、地點(diǎn)的限制。由此進(jìn)入的大數(shù)據(jù)時(shí)代,數(shù)據(jù)成為了一種基礎(chǔ)資源、戰(zhàn)略資源[2],已然在業(yè)界形成了共識(shí)。但大數(shù)據(jù)產(chǎn)生的背景,使得大數(shù)據(jù)有其自身的典型特點(diǎn),其價(jià)值不是顯性的可以被直接獲取使用的,而是需要像沙里淘金一樣,通過建立適當(dāng)?shù)姆治瞿P停⑦\(yùn)用相應(yīng)的技術(shù)手段進(jìn)行有效的深加工和挖掘分析[3],發(fā)現(xiàn)隱含在大數(shù)據(jù)中的價(jià)值并加以利用,進(jìn)而指導(dǎo)決策,才能將大數(shù)據(jù)的真正效用發(fā)揮到極致。
而進(jìn)行數(shù)據(jù)分析和挖掘,數(shù)據(jù)質(zhì)量則是一個(gè)至關(guān)重要的因素。根據(jù)“垃圾進(jìn),垃圾出(garbage in,garbage out)”[4]的原理,如果數(shù)據(jù)質(zhì)量存在問題,系統(tǒng)運(yùn)算、分析的結(jié)果極有可能是錯(cuò)誤的[5],甚至與真實(shí)世界南轅北轍。因此,數(shù)據(jù)質(zhì)量是發(fā)揮大數(shù)據(jù)價(jià)值的必要條件。
數(shù)據(jù)質(zhì)量是一種通過測(cè)量和改善數(shù)據(jù)綜合特征來優(yōu)化數(shù)據(jù)價(jià)值的過程[6]。提高和保障數(shù)據(jù)質(zhì)量,首先要建立的是數(shù)據(jù)質(zhì)量評(píng)估體系。雖然數(shù)據(jù)質(zhì)量不是一個(gè)新事物,但在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)質(zhì)量相比傳統(tǒng)行業(yè),面臨的問題更加突出和急迫[2]。數(shù)據(jù)質(zhì)量的保障,需要多環(huán)節(jié)、全方位的一套治理體系。在這些環(huán)節(jié)中,數(shù)據(jù)質(zhì)量評(píng)估是提高數(shù)據(jù)質(zhì)量的基礎(chǔ)和必要前提[7]。
對(duì)于數(shù)據(jù)質(zhì)量評(píng)估,雖然業(yè)界已進(jìn)行了大量的學(xué)術(shù)研究和應(yīng)用探索,但在目前還沒有完全統(tǒng)一的定義和體系化的標(biāo)準(zhǔn)。
文獻(xiàn)[8-10]從不同的方面提出了數(shù)據(jù)質(zhì)量的評(píng)估方法,文獻(xiàn)[11]介紹了數(shù)據(jù)質(zhì)量的評(píng)估過程,文獻(xiàn)[4]介紹了統(tǒng)計(jì)學(xué)界的一些公認(rèn)指標(biāo),主要包括準(zhǔn)確性、時(shí)效性、相關(guān)性、客觀性、可銜接性、完整性、可理解性、透明性、可操作性、可取性、可解釋性、效益性、安全性等,以及UN下屬的經(jīng)濟(jì)委員會(huì)提出的包含11個(gè)指標(biāo)變量的數(shù)據(jù)質(zhì)量評(píng)價(jià)體系。在國(guó)內(nèi),蔡莉等主導(dǎo)的研究中提出了包含5個(gè)指標(biāo)的大數(shù)據(jù)質(zhì)量評(píng)價(jià)體系,它們分別是可獲得性、可靠性、可用性、相關(guān)性、可表達(dá)性。文獻(xiàn)[12]則結(jié)合所在的石油行業(yè)的需求提出了完整性、準(zhǔn)確性、一致性、深度性、及時(shí)性、冗余性等6個(gè)關(guān)鍵特性。
可以看到,眾多的研究都集中在對(duì)數(shù)據(jù)質(zhì)量關(guān)鍵特性的評(píng)價(jià)指標(biāo)定義上面。而關(guān)于如何將概念定義落實(shí)到量化的、可采集、可計(jì)算的評(píng)價(jià)指標(biāo)的行業(yè)實(shí)踐經(jīng)驗(yàn),均較少涉及。
筆者通過參考這些公認(rèn)的質(zhì)量評(píng)價(jià)指標(biāo),結(jié)合行業(yè)領(lǐng)域、數(shù)據(jù)類型、應(yīng)用目的、信息系統(tǒng)使用的技術(shù)等多方面的相關(guān)影響因素,構(gòu)建了一套在行業(yè)領(lǐng)域內(nèi)適用的質(zhì)量評(píng)價(jià)指標(biāo)并用于實(shí)踐,取得了一定的效果。
構(gòu)建一套質(zhì)量評(píng)價(jià)體系,首先需要對(duì)質(zhì)量評(píng)價(jià)的模型進(jìn)行確定。筆者參考了國(guó)內(nèi)外的眾多研究成果,評(píng)估了質(zhì)量評(píng)估模型與所在行業(yè)、信息系統(tǒng)特點(diǎn)的相關(guān)程度之后,最終以文獻(xiàn)[7]所提出的模型作為基礎(chǔ),結(jié)合數(shù)據(jù)采集、數(shù)據(jù)集成、數(shù)據(jù)整合與清洗、數(shù)據(jù)處理與加工、數(shù)據(jù)持久化等數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的特點(diǎn),建立了一個(gè)簡(jiǎn)單且有效可行的數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)框架。
文獻(xiàn)[7]提出數(shù)據(jù)質(zhì)量評(píng)價(jià)體系需至少包含以下兩個(gè)方面的基本評(píng)估指標(biāo):
(1)數(shù)據(jù)對(duì)用戶必須是可信的,其中包括精確性、完整性、一致性、有效性、唯一性等指標(biāo)。這些指標(biāo)的具體含義如下:
精確性:描述數(shù)據(jù)是否與其對(duì)應(yīng)的客觀實(shí)體的特征相一致。
完整性:描述數(shù)據(jù)是否存在缺失記錄或缺失字段。
一致性:描述同一實(shí)體的同一屬性的值在不同的系統(tǒng)或數(shù)據(jù)集中是否一致。
有效性:描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的值域范圍內(nèi)。
唯一性:描述數(shù)據(jù)是否存在重復(fù)記錄。
(2)數(shù)據(jù)對(duì)用戶必須是可用的,其中包括時(shí)間性、穩(wěn)定性等指標(biāo)。這些指標(biāo)的具體含義:
時(shí)間性:描述數(shù)據(jù)是當(dāng)前數(shù)據(jù)還是歷史數(shù)據(jù)。
穩(wěn)定性:描述數(shù)據(jù)是否是穩(wěn)定的,是否在其有效期內(nèi)。
文獻(xiàn)[8,13]總結(jié)了數(shù)據(jù)質(zhì)量的評(píng)價(jià)方法,有以下幾種方式:
(1)簡(jiǎn)單比率法:指期望的結(jié)果(E)占總值(T)的比率即E/T,反映數(shù)據(jù)質(zhì)量某些方面的好壞程度。當(dāng)結(jié)果等于或接近于1時(shí),表明數(shù)據(jù)質(zhì)量情況好,否則質(zhì)量情況差。該計(jì)算方式還能用來進(jìn)行縱向比較,反映數(shù)據(jù)質(zhì)量的改進(jìn)情況。
(2)最小/最大值法:適用于衡量數(shù)據(jù)質(zhì)量中需要對(duì)多種指標(biāo)進(jìn)行加總的維度,評(píng)價(jià)的關(guān)鍵是要找出各類指標(biāo)中的最小值或最大值。最小值和最大值分別代表了最保守和最激進(jìn)的評(píng)價(jià)方法,一般適用于比較復(fù)雜的度量體系。
(3)加權(quán)平均法:對(duì)于復(fù)雜的多指標(biāo)的評(píng)價(jià),如果評(píng)價(jià)者對(duì)每個(gè)指標(biāo)在總體評(píng)價(jià)中的重要程度很容易量化,則可以使用加權(quán)平均法。為每個(gè)單獨(dú)的指標(biāo)設(shè)置權(quán)重λi,取值在0和1之間,且λi的和等于1,即λ1+λ2+…+λn=1,則最終的總體評(píng)價(jià)指標(biāo)為X=λ1X1+λ2X2+…+λnXn,Xi代表不同的基礎(chǔ)指標(biāo)。
根據(jù)實(shí)際情況,筆者擴(kuò)展了最小/最大值法,增加了平均值的評(píng)估方法。如果說最小值和最大值分別代表了最保守和最激進(jìn)的評(píng)估方法,那么對(duì)這些指標(biāo)求平均值,相對(duì)而言則是一個(gè)更穩(wěn)妥、適中的評(píng)價(jià)方式。
筆者綜合考慮了所在公安大數(shù)據(jù)領(lǐng)域的大數(shù)據(jù)處理平臺(tái)的特點(diǎn)以及數(shù)據(jù)處理流程、數(shù)據(jù)來源、用戶使用數(shù)據(jù)以及數(shù)據(jù)模型等多方面影響因素,分別從數(shù)據(jù)自身的質(zhì)量、數(shù)據(jù)處理過程的質(zhì)量和數(shù)據(jù)效能三個(gè)方面,提出了評(píng)價(jià)指標(biāo)框架,對(duì)全生命周期的數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估和度量。
根據(jù)指標(biāo)是否具有對(duì)所有處理環(huán)節(jié)的數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià)的共通性,分為通用指標(biāo)和特定指標(biāo)兩大類。通用指標(biāo)指的是與數(shù)據(jù)的具體形態(tài)、處理的具體環(huán)節(jié)無關(guān)的評(píng)價(jià)指標(biāo),評(píng)價(jià)的是數(shù)據(jù)和數(shù)據(jù)處理過程本身的質(zhì)量。而特定指標(biāo)則和數(shù)據(jù)的形態(tài)格式與數(shù)據(jù)處理的具體環(huán)節(jié)緊密相關(guān),在不同的實(shí)際環(huán)境中,會(huì)根據(jù)使用的數(shù)據(jù)接口、數(shù)據(jù)處理技術(shù)和功能的不同有不同的評(píng)價(jià)指標(biāo)。
根據(jù)能否通過采集到的信息直接進(jìn)行計(jì)算,又可以分為基礎(chǔ)指標(biāo)和綜合指標(biāo)兩大類?;A(chǔ)指標(biāo)是通過采集信息就可以通過簡(jiǎn)單的計(jì)算得出,而綜合指標(biāo)則需要結(jié)合對(duì)數(shù)據(jù)的使用需求、數(shù)據(jù)重要程度考量、指標(biāo)計(jì)算的可行性等多方面因素之后形成規(guī)則,依據(jù)規(guī)則再進(jìn)行計(jì)算得到的評(píng)價(jià)指標(biāo),一般使用的評(píng)價(jià)方法為最小/最大值法、平均值法或加權(quán)平均法。
最后,構(gòu)建質(zhì)量評(píng)價(jià)指標(biāo)框架,如圖1所示。
圖1 數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)結(jié)構(gòu)
2.2.1 評(píng)價(jià)數(shù)據(jù)質(zhì)量的指標(biāo)
結(jié)合文獻(xiàn)[7]提出的評(píng)估指標(biāo)和現(xiàn)有系統(tǒng)的數(shù)據(jù)處理與使用的特性,最終選取了以下幾類指標(biāo):
完整性:數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況;
可用性:數(shù)據(jù)對(duì)使用者來說是否是可用的、有效的,合并了一致性、有效性和準(zhǔn)確性;
重復(fù)性:根據(jù)指定的判重規(guī)則計(jì)算重復(fù)率。
詳細(xì)的評(píng)價(jià)指標(biāo)與評(píng)價(jià)方法如表1所示。
表1 數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)
續(xù)表1
其中,zip包可用率就是一個(gè)典型的特定指標(biāo)。某個(gè)數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)中,定義的數(shù)據(jù)接口是遵循行業(yè)規(guī)范對(duì)數(shù)據(jù)文件和數(shù)據(jù)描述文件進(jìn)行壓縮后的zip包,其中數(shù)據(jù)文件的命名、數(shù)據(jù)分隔符、數(shù)據(jù)描述文件的格式、里面包含的數(shù)據(jù)項(xiàng)內(nèi)容、數(shù)據(jù)項(xiàng)的值等都需要遵循相應(yīng)的行業(yè)標(biāo)準(zhǔn)規(guī)范。如果輸入的數(shù)據(jù)不符合定義的格式和要求,那么數(shù)據(jù)將無法被解析,等同于無效數(shù)據(jù)。因此,在這個(gè)環(huán)節(jié),zip數(shù)據(jù)包的可用率就是一個(gè)非常重要且必要的特定監(jiān)測(cè)指標(biāo)。
2.2.2 評(píng)價(jià)數(shù)據(jù)處理過程的指標(biāo)
數(shù)據(jù)處理的基本過程一般包括校驗(yàn)、傳輸、清洗、提取、持久化等類型。每一個(gè)處理過程都有可能帶來數(shù)據(jù)處理前后的數(shù)量變化、質(zhì)量變化。不同的數(shù)據(jù)處理過程不同,衡量其處理質(zhì)量的指標(biāo)也存在差別。
同時(shí),質(zhì)量高的處理過程應(yīng)該在處理時(shí)效有保證的前提下,提升輸出數(shù)據(jù)相對(duì)輸入數(shù)據(jù)的質(zhì)量。因此,處理過程的質(zhì)量也不能孤立的使用過程指標(biāo)就能判定,還需要配合處理前后的數(shù)據(jù)質(zhì)量才進(jìn)行綜合判定。
因此,對(duì)數(shù)據(jù)處理過程[14]的質(zhì)量可以提出以下評(píng)價(jià)指標(biāo),如表2所示。
表2 數(shù)據(jù)處理過程評(píng)價(jià)指標(biāo)
圖中不同環(huán)節(jié)的質(zhì)量指標(biāo)雖然評(píng)價(jià)的處理環(huán)節(jié)不同,但卻也與具體的處理技術(shù)和細(xì)節(jié)無關(guān)。因此,如果在實(shí)際系統(tǒng)中,對(duì)監(jiān)控更細(xì)節(jié)的處理質(zhì)量存在需求,則可以根據(jù)實(shí)際情況添加更具體的評(píng)價(jià)指標(biāo)。
2.2.3 評(píng)估數(shù)據(jù)效能的指標(biāo)
數(shù)據(jù)最終需要為應(yīng)用、為終端用戶所用才能展現(xiàn)價(jià)值,其質(zhì)量的好壞才有意義。前面數(shù)據(jù)采集的再好、質(zhì)量保證的再高、處理的再快,如果用戶不用或極少使用這些數(shù)據(jù),或者使用的效果不如用戶所期望,那么這些數(shù)據(jù)的價(jià)值也不算得到了體現(xiàn),需要根據(jù)用戶的需求進(jìn)行調(diào)整。
考慮到應(yīng)用系統(tǒng)對(duì)數(shù)據(jù)的訪問、使用情況能在一定程度上反映數(shù)據(jù)的利用價(jià)值,因此提出如表3所示的指標(biāo),作為評(píng)估數(shù)據(jù)最終價(jià)值也即數(shù)據(jù)效能的指標(biāo)。同時(shí)也可以作為數(shù)據(jù)的使用情況反饋,為數(shù)據(jù)分析和數(shù)據(jù)處理的優(yōu)化、調(diào)整提供參考依據(jù)。
表3 數(shù)據(jù)效能指標(biāo)
簡(jiǎn)單比率法按其定義,其指標(biāo)反映的是相對(duì)期望值(一般為1)的符合程度,其值越是接近1,表明質(zhì)量越高,否則反之。但對(duì)于評(píng)價(jià)數(shù)據(jù)的使用效能而言,數(shù)據(jù)字段和數(shù)據(jù)集的訪問率是不可能以1為期望值的。所以這兩個(gè)指標(biāo)更多用來做排名,查看訪問率排名靠前的數(shù)據(jù)集和字段是否如需求所期望的,如果不是,那么就可以指導(dǎo)設(shè)計(jì)人員或開發(fā)人員進(jìn)行相應(yīng)的調(diào)整。同時(shí),這個(gè)指標(biāo)也可以用來做縱向?qū)Ρ?,即調(diào)整之后的訪問率相比調(diào)整之前的訪問率,是不是有相應(yīng)的提升,提升的幅度是否達(dá)到了調(diào)整的期望。
而平均返回?cái)?shù)據(jù)量,也是根據(jù)用戶期望的需求不同而不同,因此,沒有很統(tǒng)一的標(biāo)準(zhǔn),需要根據(jù)實(shí)際情況制定參考標(biāo)準(zhǔn)。
基于上述指標(biāo)框架,筆者所在單位開發(fā)了一套數(shù)據(jù)KPI監(jiān)控的系統(tǒng),數(shù)據(jù)質(zhì)量的指標(biāo)已經(jīng)完全在系統(tǒng)中實(shí)現(xiàn),數(shù)據(jù)處理環(huán)節(jié)的指標(biāo)有部分已經(jīng)實(shí)現(xiàn),目前已用于對(duì)大數(shù)據(jù)平臺(tái)的整個(gè)數(shù)據(jù)流的質(zhì)量進(jìn)行監(jiān)控,取得了良好的效果。在沒有進(jìn)行質(zhì)量監(jiān)控之前,問題數(shù)據(jù)的發(fā)現(xiàn)往往都是在后端,通過倒推檢查才能找到問題的源頭,問題發(fā)現(xiàn)的晚,解決耗時(shí)長(zhǎng)。而通過這套質(zhì)量KPI系統(tǒng),每一個(gè)環(huán)節(jié)的質(zhì)量數(shù)據(jù)即時(shí)產(chǎn)生,即時(shí)評(píng)估,不符合質(zhì)量指標(biāo)及時(shí)告警,及時(shí)解決,大大提升了問題暴露的速度和解決效率,給系統(tǒng)運(yùn)維人員和用戶帶來了很大的便利,也提升了整個(gè)平臺(tái)的數(shù)據(jù)質(zhì)量。
而數(shù)據(jù)效能指標(biāo),涉及到用戶對(duì)數(shù)據(jù)的價(jià)值評(píng)估,根據(jù)數(shù)據(jù)-信息-知識(shí)-智慧[15]的金字塔體系,按照文獻(xiàn)[16]的定義,歸屬于信息質(zhì)量的范疇,目前業(yè)界大部分工作也還只處在研究階段,筆者所做的嘗試就是提出了一些可以進(jìn)行采集與計(jì)算的量化指標(biāo),將概念上的信息質(zhì)量變成了可以進(jìn)行評(píng)價(jià)比較的數(shù)據(jù),但實(shí)際應(yīng)用效果還需要進(jìn)行不斷的調(diào)整與實(shí)踐驗(yàn)證。
通過綜合國(guó)內(nèi)外對(duì)數(shù)據(jù)質(zhì)量評(píng)價(jià)體系的研究成果,結(jié)合所在行業(yè)和大數(shù)據(jù)系統(tǒng)的特點(diǎn),提出了一種評(píng)價(jià)指標(biāo)框架,并在實(shí)際系統(tǒng)中進(jìn)行了實(shí)踐應(yīng)用,取得了良好的效果,為當(dāng)前大數(shù)據(jù)處理平臺(tái)下的數(shù)據(jù)治理提供了重要的研究和實(shí)踐經(jīng)驗(yàn)。通過以上實(shí)踐,實(shí)現(xiàn)了對(duì)現(xiàn)有系統(tǒng)的數(shù)據(jù)質(zhì)量和數(shù)據(jù)處理過程的質(zhì)量進(jìn)行量化評(píng)估,是提升數(shù)據(jù)質(zhì)量進(jìn)而挖掘數(shù)據(jù)價(jià)值的第一步,讓數(shù)據(jù)質(zhì)量從理論研究到實(shí)踐應(yīng)用往前多走了一步,為后續(xù)進(jìn)行持續(xù)的數(shù)據(jù)改進(jìn)、數(shù)據(jù)治理、從數(shù)據(jù)價(jià)值到信息價(jià)值的提煉打下了基礎(chǔ)。