洪學海,王志強,楊青海
1. 中國科學院計算技術研究所,北京 100190;2. 中國標準化研究院,北京 100191
面向共享的政府大數(shù)據(jù)質(zhì)量標準化問題研究
洪學海1,王志強2,楊青海2
1. 中國科學院計算技術研究所,北京 100190;2. 中國標準化研究院,北京 100191
回顧了國內(nèi)外數(shù)據(jù)質(zhì)量研究與實踐的進展,重點對ISO 8000數(shù)據(jù)質(zhì)量國際標準提出的數(shù)據(jù)質(zhì)量框架、主數(shù)據(jù)質(zhì)量、事務數(shù)據(jù)質(zhì)量和產(chǎn)品數(shù)據(jù)質(zhì)量進行了探討,對面向共享的政府大數(shù)據(jù)質(zhì)量標準化的方法和測度理論進行了研究,最后對我國政府進行大數(shù)據(jù)質(zhì)量控制及其標準化建設提出了建議。
government big data, master data, product data, data quality, ISO 8000
大數(shù)據(jù)時代的到來,對我國政府的決策模式、治理模式和工作方式等都提出了新的挑戰(zhàn)。推進政府大數(shù)據(jù)戰(zhàn)略對實現(xiàn)政府治理有重要的意義,是政府治理實現(xiàn)的強力助推器。
當前,不論在整個社會的哪個行業(yè)、哪個部門、哪個單位、哪個個人,“數(shù)據(jù)”成為其核心屬性,“數(shù)據(jù)”成為其核心業(yè)務紐帶或重要的標識工具,即“數(shù)據(jù)”貫穿著集體或個人業(yè)務信息的“采集、存儲、傳輸、處理、應用”的全過程,“拿數(shù)據(jù)說話”成為共識。
對于政府管理來說,“拿數(shù)據(jù)說話”就是借助大數(shù)據(jù)分析、挖掘等技術,對政府獲得的方方面面的大數(shù)據(jù)進行深度分析,建立關系、找出問題、發(fā)現(xiàn)規(guī)律等,從而輔助政府管理部門和主要領導對政府管理的方方面面的工作進行決策,提高決策的有效性和科學性。而這個前提就是政府數(shù)據(jù)能夠共享,并且共享的數(shù)據(jù)是準確的,一定程度上是標準化的,只有保障政府大數(shù)據(jù)能夠共享,并且數(shù)據(jù)準確、完整,那么在此基礎上進行輔助政府決策的大數(shù)據(jù)分析,才能夠表現(xiàn)出發(fā)現(xiàn)問題準確、建立問題之間聯(lián)系的關系脈絡清晰、發(fā)現(xiàn)的規(guī)律有跡可循等特點。因此,研究政府大數(shù)據(jù),首先要解決的是政府大數(shù)據(jù)開放與共享問題,其次最重要的是政府大數(shù)據(jù)的質(zhì)量標準化問題。
政府大數(shù)據(jù)一方面來自政府部門本身的業(yè)務積累,如醫(yī)療管理部門、交通管理部門、城市經(jīng)濟管理部門等,另一方面來自專門單位的采集,如地理信息、生態(tài)環(huán)境信息等。來源可謂廣泛,種類可謂繁多。政府大數(shù)據(jù)是國家和全社會的公共財富,價值密度高。然而,在筆者的研究過程中發(fā)現(xiàn),真正要實現(xiàn)政府大數(shù)據(jù)的潛在價值,不僅技術方面面臨著大數(shù)據(jù)復雜性帶來的問題(如數(shù)據(jù)本身的復雜性、計算的復雜性和信息系統(tǒng)的復雜性),而且政府大數(shù)據(jù)融合方面還面臨著政府大數(shù)據(jù)資源的管理、質(zhì)量和標準化等一系列的問題和挑戰(zhàn),主要有以下幾個方面。
(1)數(shù)據(jù)本身的變化
數(shù)據(jù)的價值,從單一轉(zhuǎn)向多元;政府數(shù)據(jù)資源的形態(tài),以結(jié)構化為主轉(zhuǎn)向以非結(jié)構化為主,從離線靜態(tài)數(shù)據(jù)轉(zhuǎn)變?yōu)樵诰€動態(tài)、實時數(shù)據(jù);數(shù)據(jù)資源的戰(zhàn)略地位,從機構組織層轉(zhuǎn)向跨機構組織、區(qū)域和國家層;數(shù)據(jù)權由簡變繁,并具有不確定性,涉及信息主體的所有權、刪除或留存處置權、利用權、授權他人利用的許可和審批權、隱私保護權等,甚至涉及國家數(shù)據(jù)主權議題等。
(2)數(shù)據(jù)管理主體的變化
數(shù)據(jù)管理主體從數(shù)據(jù)的控制者轉(zhuǎn)變?yōu)閿?shù)據(jù)的提供者、保護者和獲取權利的協(xié)調(diào)者;從追求部門局部利益最大化轉(zhuǎn)向追求政府整體效益及社會利益的最大化;從信息孤島轉(zhuǎn)向跨界、跨領域、跨部門、跨系統(tǒng)、跨層級的信息融合;需要多主體聯(lián)盟與跨學科復合型數(shù)據(jù)人才支持。
(3)數(shù)據(jù)管理活動過程的變化
政府數(shù)據(jù)資源的采集,從單一來源轉(zhuǎn)向多源異構,從基于目標的局部采集轉(zhuǎn)向基于場景的全面采集;政府數(shù)據(jù)的存儲,從分布式、冷備份存儲轉(zhuǎn)向云端、熱備份存儲;政府數(shù)據(jù)的利用,從個別部門的數(shù)據(jù)公開轉(zhuǎn)向政府數(shù)據(jù)集的整體開放,從處置邊界明確轉(zhuǎn)向互聯(lián)互通,邊界模糊;政府數(shù)據(jù)的維護,從信息化管理轉(zhuǎn)向數(shù)據(jù)化、網(wǎng)絡化、智能化、“互聯(lián)網(wǎng)+”的現(xiàn)代化治理。
上述這些挑戰(zhàn)在筆者研究“寧波市政府大數(shù)據(jù)項目的數(shù)據(jù)開放與社會化利用”等課題的過程中已經(jīng)充分暴露出來。突出表現(xiàn)首先是政府各個部門的數(shù)據(jù)標準不一、質(zhì)量千差萬別,沒有基準(benchmark),甚至同一個市民的個人屬性數(shù)據(jù)在公安、社保等部門的數(shù)據(jù)項、數(shù)據(jù)集等都不統(tǒng)一,同一個人的屬性數(shù)據(jù)甚至還“打架”。上述存在的這些問題和挑戰(zhàn)可歸結(jié)為:如何在技術和政策上保障政府大數(shù)據(jù)共享目標能夠?qū)崿F(xiàn);在技術保障上,除了共享的信息網(wǎng)絡系統(tǒng)體系外,作為政府大數(shù)據(jù)本身,如何保障共享的數(shù)據(jù)可用、可融合,就是政府大數(shù)據(jù)開放共享最基礎性的工作。若數(shù)據(jù)不準確或數(shù)據(jù)缺失,即使共享也沒有價值;若數(shù)據(jù)標準沒有統(tǒng)一,即使共享也難以發(fā)揮大數(shù)據(jù)融合帶來的令人期盼的效果。政府大數(shù)據(jù)質(zhì)量問題在現(xiàn)階段比較突出,這給依賴于政府大數(shù)據(jù)進行政府重大事項的決策帶來很大的風險。
大數(shù)據(jù)質(zhì)量問題是數(shù)據(jù)質(zhì)量問題在這個新階段(大數(shù)據(jù)環(huán)境)表現(xiàn)的一個新形式,是數(shù)據(jù)質(zhì)量歷史的一個階段??梢灶A見,伴隨著信息技術的發(fā)展和不斷演化,數(shù)據(jù)質(zhì)量會呈現(xiàn)出不同的變化形式。
20世紀80年代以來,國際上對數(shù)據(jù)質(zhì)量的概念也從狹義向廣義轉(zhuǎn)變,準確性不再是衡量數(shù)據(jù)質(zhì)量的唯一標準。20世紀90年代,美國麻省理工學院(Massachusetts Institute of Technology,MIT)開展 的全面數(shù)據(jù)質(zhì)量管理 (total data quality management,TDQM)活動,提出基于信息生產(chǎn)系統(tǒng)生產(chǎn)的數(shù)據(jù)產(chǎn)品的質(zhì)量管理體系,在數(shù)據(jù)生產(chǎn)過程中形成的數(shù)據(jù)質(zhì)量(如精度、一致性、完整性等)成為基本要求。數(shù)據(jù)用戶要求的滿意程度也成為衡量數(shù)據(jù)質(zhì)量的重要指標,認為數(shù)據(jù)質(zhì)量就是要“反映出數(shù)據(jù)對特定應用的滿足程度”[1]。例如,在智能制造系統(tǒng)中,數(shù)據(jù)是應用程序的初始原料和最終產(chǎn)品,并經(jīng)過應用程序的組織,提供給用戶[2]。同樣的一組數(shù)據(jù),面對不同的應用要求,可能表現(xiàn)出不同的數(shù)據(jù)質(zhì)量。
傳統(tǒng)的數(shù)據(jù)質(zhì)量的研究和實踐總體上可歸納為“自上而下”和“自下而上”兩種方式[3]?!白陨隙隆狈椒ㄍǔJ窍忍岢鰯?shù)據(jù)質(zhì)量框架(data quality framework)和數(shù)據(jù)質(zhì)量維度(data quality dimension),數(shù)據(jù)質(zhì)量維度也稱為數(shù)據(jù)質(zhì)量屬性、數(shù)據(jù)質(zhì)量元素、數(shù)據(jù)質(zhì)量衡量指標、數(shù)據(jù)質(zhì)量特征等,然后在應用中通過與具體的需求相結(jié)合,構建可執(zhí)行的細化的數(shù)據(jù)質(zhì)量維度;而“自下而上”則是從具體需求出發(fā),提煉出一系列的數(shù)據(jù)質(zhì)量維度,通過實際應用的驗證,最后歸納形成數(shù)據(jù)質(zhì)量框架。在具體的應用實踐中,既存在理論上構建數(shù)據(jù)質(zhì)量框架但不細化到可操作的維度的現(xiàn)象,也存在僅在具體操作層面定義數(shù)據(jù)質(zhì)量維度、改善數(shù)據(jù)質(zhì)量狀況但不上升到數(shù)據(jù)質(zhì)量框架的具體應用,而且在實際實踐中后者更多。
當前,在大數(shù)據(jù)環(huán)境下,研究數(shù)據(jù)質(zhì)量標準化問題,一個顯著的不同于傳統(tǒng)的數(shù)據(jù)質(zhì)量標準化的問題是強調(diào)保障多目標數(shù)據(jù)融合的實現(xiàn),這也是發(fā)揮大數(shù)據(jù)價值的重要方式。由于數(shù)據(jù)來源不同、數(shù)據(jù)種類異構以及數(shù)據(jù)類型繁雜,使得用傳統(tǒng)的數(shù)據(jù)質(zhì)量標準框架和質(zhì)量維度定義大數(shù)據(jù)質(zhì)量標準體系存在不適應問題,因為傳統(tǒng)的數(shù)據(jù)質(zhì)量體系是針對單一來源數(shù)據(jù)和單一類型數(shù)據(jù)的。同時,現(xiàn)在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)質(zhì)量體系是將各種單一來源甚至單一數(shù)據(jù)類型的數(shù)據(jù)進行“混合”,形成非單一來源、非單一數(shù)據(jù)類型的“數(shù)據(jù)集”,應圍繞數(shù)據(jù)融合的目標而定義新的大數(shù)據(jù)質(zhì)量體系,并且數(shù)據(jù)融合的粒度大小決定了大數(shù)據(jù)質(zhì)量框架和質(zhì)量維度是細粒度還是粗粒度。因此,研究大數(shù)據(jù)環(huán)境下的數(shù)據(jù)質(zhì)量體系需要在傳統(tǒng)數(shù)據(jù)質(zhì)量體系的基礎上,再研究新的大數(shù)據(jù)質(zhì)量體系框架和質(zhì)量維度。
國際上到目前為止,對于大數(shù)據(jù)質(zhì)量標準化的研究和制定工作都還在起步階段,主要是依賴數(shù)據(jù)技術體系,從基礎、技術、產(chǎn)品和應用的不同角度進行分析,形成大數(shù)據(jù)質(zhì)量標準化體系框架。主要由ISO/IEC JTC1 SC32 的“數(shù)據(jù)管理與交換”分技術委員會、ISO/IEC JTC1 WG9大數(shù)據(jù)工作組 、國際電信聯(lián)盟(International Telecommunication Union,ITU)以及美國國家標準技術研究院(National Institute of Standards and Technology,NIST)等相關組織和機構開展此項研究和標準編制工作。我國主要是全國信息技術標準化技術委員會在進行大數(shù)據(jù)標準化工作,期望與國際標準接軌。但是可以預見的是,考慮大數(shù)據(jù)質(zhì)量問題的標準化工作難度較大。
4.1 數(shù)據(jù)質(zhì)量國際標準——ISO 8000
ISO 8000是一套國際通用的數(shù)據(jù)質(zhì)量管理標準,立足于工業(yè)數(shù)據(jù)質(zhì)量,旨在為政府、公共機構和各類公司、制造企業(yè)以及應用提供更可靠、可信數(shù)據(jù)的國際標準。ISO 8000涵蓋從概念設計到廢棄處置整個數(shù)據(jù)生命周期中的質(zhì)量特征。ISO 8000列出的特種數(shù)據(jù)包括但不限于:主數(shù)據(jù)、事務數(shù)據(jù)和產(chǎn)品數(shù)據(jù)。ISO 8000給出了一個用于改善某種特定數(shù)據(jù)的數(shù)據(jù)質(zhì)量框架。該框架可獨立使用,也可與質(zhì)量管理系統(tǒng)協(xié)同使用。ISO 8000定義了一組特征,數(shù)據(jù)供應鏈中的任何組織都可用其測試數(shù)據(jù)是否與ISO 8000保持一致。
ISO 8000是ISO 9000質(zhì)量管理體系的擴充,以滿足質(zhì)量管理體系內(nèi)數(shù)據(jù)產(chǎn)品質(zhì)量的需求。實踐證明,如果不能保證數(shù)據(jù)質(zhì)量,ISO 9000是不能真正實現(xiàn)其質(zhì)量目標的。ISO 9000標準家族是國際標準化組織于1987年制定并經(jīng)過后續(xù)不斷修改完善而成的系列標準,可幫助組織實施、有效運行質(zhì)量管理體系,是質(zhì)量管理體系通用的要求或指南[4]。它不受具體的行業(yè)或經(jīng)濟部門限制,可廣泛適用于各種類型和規(guī)模的組織。
圖1 ISO 8000、 ISO 9000和其他數(shù)據(jù)產(chǎn)品標準之間的關系
圖11 顯示了ISO 8000、ISO 9000和其他數(shù)據(jù)產(chǎn)品標準之間的關系。數(shù)據(jù)描述標準規(guī)定交換數(shù)據(jù)的模型和格式,ISO 8000以這些標準為基礎,增加了關于這些標準的使用要求,以確保交換數(shù)據(jù)的高質(zhì)量。ISO 8000彌合了ISO 9000和數(shù)據(jù)產(chǎn)品標準之間的差距[5]。
ISO 8000數(shù)據(jù)質(zhì)量國際標準由系列部分組成[6],各部分的側(cè)重不同,ISO 8000由以下部分組成。
● 第1~99部分:數(shù)據(jù)質(zhì)量綜述。
● 第100~199部分:主數(shù)據(jù)質(zhì)量。
● 第200~299部分:事務數(shù)據(jù)質(zhì)量。
● 第300~399部分:產(chǎn)品數(shù)據(jù)質(zhì)量。
其中,主數(shù)據(jù)標識和描述了個人、組織、地點、物品、服務、過程、規(guī)則和標準。該系列標準描述定義主數(shù)據(jù)質(zhì)量的特性,規(guī)定了一些主數(shù)據(jù)信息,這些信息應在總體上確保信息發(fā)送方和接收方數(shù)據(jù)通信的可靠性。
事務數(shù)據(jù)規(guī)定和描述了時間事件,包括個人、組織、地點、物品、服務、過程、規(guī)則和標準。該系列標準描述定義事務數(shù)據(jù)質(zhì)量的特性,規(guī)定了一些業(yè)務事務數(shù)據(jù)信息,這些信息應在總體上確保信息發(fā)送方和接收方數(shù)據(jù)通信的可靠性。
產(chǎn)品數(shù)據(jù)質(zhì)量是產(chǎn)品數(shù)據(jù)正確性和適用性的度量,產(chǎn)品數(shù)據(jù)可保證數(shù)據(jù)能及時地提供給需要這些數(shù)據(jù)的用戶,產(chǎn)品數(shù)據(jù)是產(chǎn)品從概念到制造需要的數(shù)據(jù)。
在政府大數(shù)據(jù)相關開發(fā)與利用的應用實踐中,數(shù)據(jù)質(zhì)量標準化具有極其重要的戰(zhàn)略地位。可以借鑒國內(nèi)外業(yè)已成功應用ISO 8000數(shù)據(jù)質(zhì)量國際標準的行業(yè)經(jīng)驗,研究ISO 8000數(shù)據(jù)質(zhì)量國際標準在政府大數(shù)據(jù)領域的應用,建立和完善數(shù)據(jù)質(zhì)量管理體系,提高政府大數(shù)據(jù)質(zhì)量,深化質(zhì)量標準體系,為發(fā)掘政府大數(shù)據(jù)價值提供保障。
4.2 面向共享的政府大數(shù)據(jù)質(zhì)量標準體系框架
到目前為止,對政府大數(shù)據(jù)的范圍或邊界還沒有形成共識,因此,在研究政府大數(shù)據(jù)質(zhì)量體系的過程中,要遵循“循序漸進”的策略,從政府各個相關管理部門的管理職責范疇考慮政府大數(shù)據(jù)的最小元數(shù)據(jù)集,由此逐步向外延展。
政府大數(shù)據(jù)數(shù)據(jù)質(zhì)量框架是面向政府管理的數(shù)據(jù)質(zhì)量問題的基本概念及其解決方案、實施指導的抽象化結(jié)構表達。它表現(xiàn)為一組構件及構件實施指導、實例交互方法,能夠在具體應用中靈活定制質(zhì)量工作架構,較適合政府管理部門范圍內(nèi)數(shù)據(jù)質(zhì)量問題復雜多樣且統(tǒng)一解決方案的需求。
從一般意義上來看,國家大數(shù)據(jù)標準體系由6個類別的標準組成,分別為:基礎標準、數(shù)據(jù)處理標準、數(shù)據(jù)安全標準、數(shù)據(jù)質(zhì)量標準、產(chǎn)品和平臺標準及應用和服務標準。而從政府大數(shù)據(jù)角度看,面向共享的政府大數(shù)據(jù)質(zhì)量標準體系是政府大數(shù)據(jù)質(zhì)量標準體系的有機組成部分。
由此建立的政府大數(shù)據(jù)質(zhì)量指標體系主要有:數(shù)據(jù)源質(zhì)量、數(shù)據(jù)規(guī)模質(zhì)量、數(shù)據(jù)結(jié)構質(zhì)量、數(shù)據(jù)時效質(zhì)量、數(shù)據(jù)價值密度質(zhì)量。這5個指標體系是政府大數(shù)據(jù)質(zhì)量標準的5個一級指標,數(shù)據(jù)源質(zhì)量指標是數(shù)據(jù)一般性質(zhì)量,另外4個質(zhì)量描述的是大數(shù)據(jù)的四大特征質(zhì)量。一直以來,數(shù)據(jù)質(zhì)量框架是粗粒度研究數(shù)據(jù)質(zhì)量問題和解決方案的重要內(nèi)容和方向。筆者提出的政府大數(shù)據(jù)質(zhì)量體系框架是一個參考模型,在評價各個政府大數(shù)據(jù)質(zhì)量的過程中,需因地制宜。
此外,還需要考慮政府大數(shù)據(jù)質(zhì)量維度問題。有些參考文獻將數(shù)據(jù)質(zhì)量問題直接定義為一組屬性(特征),如正確性、適時性、完全性、一致性和相關性等。數(shù)據(jù)質(zhì)量判斷依賴于使用數(shù)據(jù)的個體,不同環(huán)境下不同人員使用的適合性不同,數(shù)據(jù)質(zhì)量是相對的,不能獨立于使用數(shù)據(jù)的消費者來評價數(shù)據(jù)質(zhì)量。由此可見,政府大數(shù)據(jù)的質(zhì)量問題從數(shù)據(jù)質(zhì)量維度來看,可以為建立面向共享的政府大數(shù)據(jù)質(zhì)量評價體系的二級乃至三級指標體系提供多維度的指標,從而可以構建不同目標、不同方式的面向共享的政府大數(shù)據(jù)的質(zhì)量評價體系框架。
在以后的研究中,需要分析面向共享的政府大數(shù)據(jù)標準化需求,研究大數(shù)據(jù)質(zhì)量的特殊性,研究大數(shù)據(jù)標準化的特殊性。針對典型應用,理解大數(shù)據(jù)共享的主要價值,研究政府大數(shù)據(jù)共享現(xiàn)狀,研究政府大數(shù)據(jù)質(zhì)量現(xiàn)狀,分析政府大數(shù)據(jù)質(zhì)量標準化需求。根據(jù)當前信息技術及其應用的發(fā)展趨勢,研究政府大數(shù)據(jù)資源共享的未來前景,研究典型應用中政府大數(shù)據(jù)質(zhì)量問題,研究政府大數(shù)據(jù)質(zhì)量標準化當前以及未來的總體需求。同時,需要提出標準體系框架與明細表,梳理政府大數(shù)據(jù)質(zhì)量技術標準,研究政府大數(shù)據(jù)質(zhì)量標準與技術發(fā)展、業(yè)務領域的關聯(lián)性,對政府大數(shù)據(jù)質(zhì)量標準進行全景式分類研究,給出適用的政府大數(shù)據(jù)標準分類描述體系。在此基礎上,提出政府大數(shù)據(jù)標準體系框架,建立政府大數(shù)據(jù)標準明細表。
面向政府大數(shù)據(jù)共享,開展大數(shù)據(jù)質(zhì)量標準化方法研究意義重大,包括標準化循環(huán)改進過程研究和標準化演化機理研究。大數(shù)據(jù)質(zhì)量標準化循環(huán)改進過程如圖22所示。以政府的行政管理為主要應用領域,基于過程控制方法,建立大數(shù)據(jù)質(zhì)量保證方法,通過構建大數(shù)據(jù)質(zhì)量評估模型,實現(xiàn)大數(shù)據(jù)質(zhì)量的改進和完善。通過大數(shù)據(jù)質(zhì)量計劃、大數(shù)據(jù)質(zhì)量實施、大數(shù)據(jù)質(zhì)量評價、大數(shù)據(jù)質(zhì)量改進來實現(xiàn)大數(shù)據(jù)的質(zhì)量目標。對大數(shù)據(jù)的質(zhì)量評價應建立在與大數(shù)據(jù)質(zhì)量標準化、大數(shù)據(jù)標準體系密切關聯(lián)的大數(shù)據(jù)質(zhì)量測度模型的基礎上。大數(shù)據(jù)質(zhì)量標準化與質(zhì)量改進,需要滿足大數(shù)據(jù)質(zhì)量需求,并實現(xiàn)大數(shù)據(jù)質(zhì)量效益的目標。
從時間維、空間維和業(yè)務維3個維度探索大數(shù)據(jù)質(zhì)量標準化發(fā)展變化的客觀規(guī)律,研究大數(shù)據(jù)質(zhì)量標準化的動態(tài)演化機理。研究大數(shù)據(jù)質(zhì)量標準化過程的主要特點和規(guī)律,包括其復雜性、網(wǎng)絡化、自組織等特性。
● 復雜性包括涉及大數(shù)據(jù)生命周期各階段的時間復雜性、涉及不同層級相關組織的空間復雜性、涉及各領域應用對象的業(yè)務復雜性。
● 網(wǎng)絡化是指在大數(shù)據(jù)質(zhì)量標準化演化中,不同層級的相關組織形成的多種形式的關聯(lián)關系。
● 自組織是指大數(shù)據(jù)質(zhì)量標準化的過程是一個自行改進、優(yōu)勝劣汰的系統(tǒng)過程。
政府大數(shù)據(jù)質(zhì)量具有其特殊性,一是數(shù)據(jù)來源的多樣性,帶來豐富的數(shù)據(jù)類型,增加了數(shù)據(jù)質(zhì)量評測的難度;二是數(shù)據(jù)規(guī)模的海量性,使得難以在合理的時間內(nèi)判斷數(shù)據(jù)質(zhì)量的好壞;三是數(shù)據(jù)變化的快速性,使得難以形成相對穩(wěn)定的數(shù)據(jù)質(zhì)量評測體系和方法。這也就決定了在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)質(zhì)量的測度理論和評價方法與傳統(tǒng)數(shù)據(jù)質(zhì)量測度和評價相比會有顯著不同。大數(shù)據(jù)質(zhì)量是全景式的數(shù)據(jù)質(zhì)量,包括面向數(shù)據(jù)生命周期的時間維、面向不同層級邏輯組織的空間維、面向不同領域應用對象的業(yè)務維。
面向政府大數(shù)據(jù)共享,開展大數(shù)據(jù)質(zhì)量測度理論方法研究,包括測度模型的研究和評價方法的研究。圖33為大數(shù)據(jù)全景式數(shù)據(jù)質(zhì)量測度模型,分為時間維、空間維、業(yè)務維3個維度。時間維面向大數(shù)據(jù)生命周期,包括大數(shù)據(jù)產(chǎn)生、采集、傳輸、存儲、分析、使用等環(huán)節(jié)??臻g維面向大數(shù)據(jù)的邏輯組織空間,包括企業(yè)/子部門內(nèi)、行業(yè)/部門內(nèi)、跨行業(yè)/部門等多個層級。業(yè)務維面向大數(shù)據(jù)的主要業(yè)務對象,包括商貿(mào)、監(jiān)管、工業(yè)、交通、安全、醫(yī)療等政府相關業(yè)務領域。時間維、空間維、業(yè)務維3個維度以及各個維度上的要素,反映了大數(shù)據(jù)質(zhì)量的多個視角、關鍵影響要素,共同構成大數(shù)據(jù)共享質(zhì)量測度的模型,為大數(shù)據(jù)共享質(zhì)量評價奠定理論基礎。
圖2 大數(shù)據(jù)質(zhì)量標準化循環(huán)改進過程
圖3 全景式數(shù)據(jù)質(zhì)量測度模型
大數(shù)據(jù)的來源和應用都是多學科的,對大數(shù)據(jù)的質(zhì)量評價不是單一階段、單一組織、單一領域的技術問題,而是一個跨周期、跨部門、跨業(yè)務的綜合性問題,是一項系統(tǒng)工程。需要研究測度模型及其各個視圖投影,研究多維度的綜合評價方法以及某個視角的特定評價方法。
針對以上特點,大數(shù)據(jù)質(zhì)量測度需要建立全景式測度模型,從而綜合考慮各個環(huán)節(jié)、各個層級、各個領域的特殊性和普遍性,以提升大數(shù)據(jù)質(zhì)量測度模型的科學性和適用性。
大數(shù)據(jù)時代的到來對我國政府的決策模式、治理模式和工作方式等都提出了新的挑戰(zhàn)。推進政府大數(shù)據(jù)戰(zhàn)略對實現(xiàn)政府治理有著重要的意義,是政府治理實現(xiàn)的強力助推器。當前,這一工作的推進面臨著數(shù)據(jù)公開缺乏社會規(guī)范條件、數(shù)據(jù)格式缺乏統(tǒng)一、數(shù)據(jù)共享缺乏有效體制保障和大數(shù)據(jù)數(shù)據(jù)質(zhì)量參差不齊等問題。更為重要的是,政府數(shù)據(jù)質(zhì)量問題對于我國政府大數(shù)據(jù)共享至關重要。政府大數(shù)據(jù)質(zhì)量的提高涉及技術、設計、流程、人員和基礎設施等多個方面。對政府大數(shù)據(jù)質(zhì)量開展研究,進而提出改善數(shù)據(jù)質(zhì)量的方法和對策,保障政府大數(shù)據(jù)質(zhì)量,具有非常重大的意義。
結(jié)合目前我國政府大數(shù)據(jù)的數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量管理等現(xiàn)狀以及ISO 8000等數(shù)據(jù)質(zhì)量國際標準,建議從以下4個方面著手提高政府數(shù)據(jù)質(zhì)量。
(1)建立政府大數(shù)據(jù)質(zhì)量標準
在深入研究ISO 8000等數(shù)據(jù)質(zhì)量標準體系的基礎上,結(jié)合我國政府大數(shù)據(jù)現(xiàn)狀,建立面向共享的政府大數(shù)據(jù)質(zhì)量標準,為政府大數(shù)據(jù)質(zhì)量管理提供全面的遵從依據(jù),從數(shù)據(jù)權屬和治理的角度,提出大數(shù)據(jù)標準化運行機制。
(2)建立政府大數(shù)據(jù)數(shù)據(jù)質(zhì)量管理流程
基于ISO 8000 等數(shù)據(jù)質(zhì)量標準體系,結(jié)合我國各地政府部門大數(shù)據(jù)現(xiàn)狀,建立數(shù)據(jù)質(zhì)量管理體系流程,規(guī)范數(shù)據(jù)質(zhì)量管理過程,提升數(shù)據(jù)質(zhì)量管理的科學性,保障數(shù)據(jù)質(zhì)量標準在政府大數(shù)據(jù)共享中的落地,也確保政府大數(shù)據(jù)不僅能“共”,而且還能共“享”。
(3)構建政府大數(shù)據(jù)數(shù)據(jù)質(zhì)量評價模型及考核方式
基于ISO 8000的數(shù)據(jù)質(zhì)量標準體系,構建政府大數(shù)據(jù)數(shù)據(jù)質(zhì)量評價模型并固化,結(jié)合現(xiàn)有政府大數(shù)據(jù)數(shù)據(jù)質(zhì)量通報等考核方式,為全面管控各級政府數(shù)據(jù)質(zhì)量情況提供支撐。
(4)建立政府大數(shù)據(jù)質(zhì)量管理信息化支撐工具
繼承并擴展現(xiàn)有政府大數(shù)據(jù)管理信息化系統(tǒng),為政府大數(shù)據(jù)質(zhì)量標準落地、管理流程落地、評價模型落地及考核落地提供信息化支撐。
[1] LEE Y W, STRONG D M. Kn owing-why about date processes and data quality[J]. Journal of Management Information System, 2003, 20(3): 13-39.
[2] LEE Y W, PIPINO L, STRONG D M, et al. Process-embedded data intergerity[J]. Journal of Datebase Management, 2004, 15(1): 87-103.
[3] 胡良霖, 黎建輝, 劉寧, 等. 科學數(shù)據(jù)質(zhì)量實踐與若干思考[J]. 科研信息化技術與應用, 2012, 3(2): 10-18. HU L L, LI J H, LIU N, et al. Practice and some thoughts on quality of scientific data[J]. e-Science Technology & Application, 2012, 3(2): 10-18.
[4] 王軍玲, 李華, 王強. ISO 8000 數(shù)據(jù)質(zhì)量系列標準探析[J]. 標準科學, 2010(12): 44-46. WANG J L, LI H, WANG Q. Research on ISO 8000 series standards for data quality[J]. World Standardization & Quality Management, 2010(12): 44-46.
[5] STRONG D M, LEE Y W, WANG R Y. 10 potholes in the road to information quality[J].IEEE Computer, 1997, 30(8): 38-46.
[6] 國際標準化組織. 數(shù)據(jù)質(zhì)量第1部分:綜述: ISO/TS 8000-1:2011[S]. [出版地不詳:出版者不詳], 2011. International Organization for Standardization. Data quality-Part 1: overview: ISO/TS 8000-1:2011[S]. [S.l:s.n.], 2011.
Research on the quality control of sharing big data for government
HONG Xuehai1, WANG Zhiqiang2, YANG Qinghai2
1. Institute of Computing Technology, Chinese Academy of Science, Beijing 100190, China 2. China National Institute of Standardization, Beijing 100191, China
The progress of research and practice in data quality standardization was reviewed, and the framework of data quality was introduced, which was put forward by the international standard of ISO 8000 data quality. The master data quality, transaction data quality and product data quality were discussed. The method and measurement theory of the large data quality standardization for sharing were discussed. At last, suggestions for China’s government in the big data quality control and standardization were put forward.
The National Natural Science Foundation of China(No.91646127)
F253.3,L70
A
10.11959/j.issn.2096-0271.2017029
洪學海(1967-),男,博士,中國科學院計算技術研究所研究員,信息技術戰(zhàn)略研究中心常務副主任,兼任中國科學院計算機網(wǎng)絡信息中心信息化戰(zhàn)略與評估中心主任,主要從事高性能計算、信息服務計算以及信息技術與信息化發(fā)展戰(zhàn)略等方面的研究工作。發(fā)表文章40余篇,合著中文專著5本。
王志強(1975-),男,中國標準化研究院高新技術與信息標準化研究所副研究員、副所長,主要研究方向為工業(yè)數(shù)據(jù)標準化、數(shù)據(jù)質(zhì)量標準化、信息資源開發(fā)利用、電子政務標準化等。
楊青海(1965-),男,博士,中國標準化研究院高級工程師,主要研究方向為工業(yè)數(shù)據(jù)標準化、產(chǎn)品模塊化,出版著作1本、譯著1本,發(fā)表論文10余篇。
2017-04-01
國家自然科學基金資助項目(No.91646127)
政府大數(shù)據(jù);主數(shù)據(jù);產(chǎn)品數(shù)據(jù);數(shù)據(jù)質(zhì)量;ISO 8000