翟 軍 李曉彤 苗珍珍 李劍鋒
(大連海事大學(xué)航運(yùn)經(jīng)濟(jì)與管理學(xué)院 遼寧大連 116026)
“開(kāi)放政府?dāng)?shù)據(jù)”(Open Government Data, OGD)運(yùn)動(dòng)能夠釋放數(shù)據(jù)價(jià)值,產(chǎn)生積極的社會(huì)和經(jīng)濟(jì)效益,在世界范圍得到了快速發(fā)展。2013年10月,麥肯錫研究院的報(bào)告預(yù)測(cè)[1],在教育、交通、能源及醫(yī)療等七個(gè)領(lǐng)域,開(kāi)放數(shù)據(jù)每年將為全球釋放約3萬(wàn)億至5萬(wàn)億美元的潛在經(jīng)濟(jì)價(jià)值;報(bào)告同時(shí)指出,在一些領(lǐng)域(如交通)使用開(kāi)放數(shù)據(jù)的最大障礙之一是“數(shù)據(jù)質(zhì)量”。經(jīng)合組織(OECD)認(rèn)為,為確保OGD創(chuàng)造價(jià)值,政府面臨的最重要任務(wù)是[2]:①識(shí)別高價(jià)值的數(shù)據(jù);②保障數(shù)據(jù)質(zhì)量;③培育需求及促進(jìn)數(shù)據(jù)使用?!伴_(kāi)放政府合作組織”(Open Government Partnership,OGP)對(duì)各成員國(guó)2012—2015年行動(dòng)計(jì)劃的評(píng)估發(fā)現(xiàn),低價(jià)值和低質(zhì)量數(shù)據(jù)引發(fā)了數(shù)據(jù)供給與需求之間的“鴻溝”[3]。
提高數(shù)據(jù)質(zhì)量,避免因劣質(zhì)數(shù)據(jù)而帶來(lái)的消極影響,始終是數(shù)據(jù)管理領(lǐng)域最嚴(yán)峻的挑戰(zhàn)之一[4]。據(jù)估算,美國(guó)每年因劣質(zhì)數(shù)據(jù)造成的損失高達(dá)6千億美元[5-6],包括數(shù)據(jù)錯(cuò)誤引起的醫(yī)療事故及電信設(shè)備故障排除引發(fā)的延誤等,零售業(yè)標(biāo)價(jià)錯(cuò)誤造成的損失及公司缺陷數(shù)據(jù)引起的財(cái)政損失等。OGD領(lǐng)域的數(shù)據(jù)質(zhì)量問(wèn)題也日益凸顯,澳大利亞昆士蘭大學(xué)S.Sadiq等的研究發(fā)現(xiàn),美國(guó)數(shù)據(jù)門(mén)戶Data.Gov上的槍支犯罪者數(shù)據(jù)集曾存在數(shù)據(jù)不完整、不一致和記錄重復(fù)等問(wèn)題[7]。巴西學(xué)者M(jìn).I.S.Oliveira等對(duì)巴西13個(gè)數(shù)據(jù)門(mén)戶的分析發(fā)現(xiàn),CSV數(shù)據(jù)文件中有記錄重復(fù)、字段定義不一致等問(wèn)題[8]。英國(guó)開(kāi)放知識(shí)國(guó)際(Open Knowledge International)的網(wǎng)站開(kāi)辟專(zhuān)欄Okfnlabs.org/bad-data/展示了“壞數(shù)據(jù)”(Bad Data)的實(shí)例[9]。
在我國(guó),“政府?dāng)?shù)據(jù)資源共享開(kāi)放工程”位列國(guó)務(wù)院《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》規(guī)劃的十大數(shù)據(jù)工程之首[10]。從2012年開(kāi)始,已有20多個(gè)地方政府建設(shè)和發(fā)布了數(shù)據(jù)開(kāi)放網(wǎng)站(或欄目),隨著數(shù)據(jù)量的增加,數(shù)據(jù)質(zhì)量也日益得到關(guān)注[10-11]。目前,數(shù)據(jù)質(zhì)量管理面臨的問(wèn)題和挑戰(zhàn)主要有錯(cuò)誤發(fā)現(xiàn)、錯(cuò)誤修復(fù)和近似查詢處理等[6]。在此背景下,我國(guó)開(kāi)放政府?dāng)?shù)據(jù)是否存在“臟數(shù)據(jù)”,有哪些主要的質(zhì)量問(wèn)題及如何應(yīng)對(duì),就成為本文要回答的問(wèn)題。
數(shù)據(jù)質(zhì)量(Data Quality)是“數(shù)據(jù)滿足任務(wù)需求的程度”,數(shù)據(jù)質(zhì)量問(wèn)題指“給使用這些數(shù)據(jù)的應(yīng)用帶來(lái)潛在影響的一系列數(shù)據(jù)表現(xiàn)”[12],那些不符合要求或標(biāo)準(zhǔn)規(guī)范的質(zhì)量差的數(shù)據(jù)常常被稱(chēng)為“臟數(shù)據(jù)”(Dirty Data)或“壞數(shù)據(jù)”(Bad Data)[13]。
“臟數(shù)據(jù)”的分類(lèi)可以幫助人們更好地理解和發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,相關(guān)學(xué)者從不同視角研究取得了一系列成果。Rahm等[14-15]分別從模式層和實(shí)例層分析了單源/多源數(shù)據(jù)常見(jiàn)的9類(lèi)質(zhì)量問(wèn)題,如糟糕的模式設(shè)計(jì),冗余、互相矛盾或者不一致的數(shù)據(jù),拼寫(xiě)錯(cuò)誤和命名沖突等。Kim等[16]提出如圖1所示的33 種“臟數(shù)據(jù)”的分類(lèi)系統(tǒng),分為缺失的數(shù)據(jù)和沒(méi)有缺失的數(shù)據(jù)兩大類(lèi),沒(méi)有缺失的數(shù)據(jù)又分為了錯(cuò)誤的數(shù)據(jù)和沒(méi)有錯(cuò)誤的數(shù)據(jù)。Oliveria等[17]將21個(gè)質(zhì)量問(wèn)題劃分為四個(gè)粒度級(jí)別(Granularity Level):?jiǎn)卧?列/行、單表、多表和多源。Li等[18]利用規(guī)則將38類(lèi)企業(yè)臟數(shù)據(jù)分為五個(gè)維度:準(zhǔn)確性、完整性、時(shí)效性、一致性和唯一性。Gschwandtner等[19]分析的對(duì)象是“面向時(shí)間的數(shù)據(jù)”,將臟數(shù)據(jù)分為單源和多源兩大類(lèi)。Almeida等[20]基于數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù)模型,將30個(gè)質(zhì)量問(wèn)題歸為五組:?jiǎn)沃?、多值、元組、列和整個(gè)關(guān)系表。
圖1 Kim等提出的“臟數(shù)據(jù)”分類(lèi)系統(tǒng)
這些研究主要面向傳統(tǒng)的數(shù)據(jù)管理領(lǐng)域,如數(shù)據(jù)倉(cāng)庫(kù)、企業(yè)信息系統(tǒng)等。Laranjeiro等[21]則面向大數(shù)據(jù),通過(guò)文獻(xiàn)分析將24個(gè)質(zhì)量問(wèn)題映射到五個(gè)質(zhì)量維度:可訪問(wèn)性、準(zhǔn)確性、完整性、時(shí)效性和一致性。在伴隨大數(shù)據(jù)而興起的“數(shù)據(jù)新聞”(Data Journalism)領(lǐng)域,美國(guó)數(shù)字媒體網(wǎng)站Quartz于2015年整理出“壞數(shù)據(jù)手冊(cè)”(Bad Data Guide),將45個(gè)質(zhì)量問(wèn)題分成四個(gè)方面:數(shù)據(jù)源問(wèn)題、人為問(wèn)題、專(zhuān)家可以解決的問(wèn)題和開(kāi)發(fā)者可以解決的問(wèn)題[13]。
表1 我國(guó)OGD領(lǐng)域臟數(shù)據(jù)的分類(lèi)
在上述工作的基礎(chǔ)上,面向我國(guó)開(kāi)放政府?dāng)?shù)據(jù)的實(shí)踐,在深入調(diào)查和分析基礎(chǔ)上,本文歸納出OGD領(lǐng)域29類(lèi)“臟數(shù)據(jù)”,見(jiàn)表1。該表分為“模式層”(7類(lèi))和“實(shí)例層”(22類(lèi))兩個(gè)層次,前者指數(shù)據(jù)的模式定義,含完整性、一致性和準(zhǔn)確性三個(gè)維度;后者指開(kāi)放的數(shù)據(jù)本身,含正確性、規(guī)范性、開(kāi)放性等八個(gè)維度。維度的選擇基于數(shù)據(jù)質(zhì)量的核心維度[22]和開(kāi)放數(shù)據(jù)原則,包括數(shù)據(jù)應(yīng)是完整的、原始的、及時(shí)的、可獲取的、機(jī)器可讀的和開(kāi)放許可等[23-24]。不同于傳統(tǒng)領(lǐng)域,“開(kāi)放性”和“安全或隱私”是兩個(gè)新的維度,相應(yīng)地有7類(lèi)“臟數(shù)據(jù)”是開(kāi)放數(shù)據(jù)所獨(dú)有的,它們?cè)诒?中通過(guò)星號(hào)(*)標(biāo)記。表1中的臟數(shù)據(jù)實(shí)例全部來(lái)自各地的實(shí)際開(kāi)放數(shù)據(jù)。
海外華校信息數(shù)據(jù)文件的“聯(lián)系電話”沒(méi)有值(廣州)D 1 8:沒(méi)有必要D 1 7:數(shù)據(jù)值缺失數(shù)據(jù)單元的數(shù)據(jù)項(xiàng) 列 貴陽(yáng)市農(nóng)產(chǎn)品價(jià)格監(jiān)測(cè)缺失時(shí)間信息D 1 9:數(shù)據(jù)陳舊或過(guò)時(shí)數(shù)據(jù)集北京機(jī)場(chǎng)班車(chē)線路數(shù)據(jù)是2 0 1 2年7月1 9日更新的;市供水企業(yè)管網(wǎng)水質(zhì)信息更新到2 0 1 7年5月(佛山)D 2 0:數(shù)據(jù)重復(fù)記錄、列與數(shù)據(jù)集貴陽(yáng)市市紀(jì)委派駐機(jī)構(gòu)名單一覽表數(shù)據(jù)行重復(fù)出現(xiàn)兩次;區(qū)衛(wèi)生計(jì)生行政部門(mén)數(shù)據(jù)“主鍵”與“序號(hào)”兩列值重復(fù)(深圳)D 2 1:兩列或多列數(shù)據(jù)在一列中數(shù)值與單位在一起:2 5 k g/袋、0.5噸(貴陽(yáng));姓名與性別在一起:任玲(女)(哈爾濱)D 2 2:列值不統(tǒng)一、不規(guī)范數(shù)據(jù)單元、列“民族”的值為:“漢”“漢族”(哈爾濱)D 2 3:數(shù)據(jù)沒(méi)有單位列(字段)數(shù)據(jù)單元 礦區(qū)面積:2.6 3(北京)D 2 4:列的名字含義不清列(字段)上海內(nèi)河視頻點(diǎn)數(shù)據(jù)的列名:X、Y D 2 5:文件格式不符合開(kāi)放標(biāo)準(zhǔn)(*)數(shù)據(jù)文件數(shù)據(jù)在E x c e l表(微軟專(zhuān)有格式)中,如北京、上海和浙江的很多數(shù)據(jù);使用老版本的E x c e l(哈爾濱)D 2 6:文件格式不是機(jī)器可讀的(*)數(shù)據(jù)文件數(shù)據(jù)在P D F(或W o r d)文檔中,如浙江省級(jí)綜合類(lèi)安全生產(chǎn)專(zhuān)家名單;深圳市公共交通數(shù)據(jù);貴州省內(nèi)異地就醫(yī)定點(diǎn)機(jī)構(gòu)名錄;新疆的數(shù)據(jù)D 2 7:數(shù)據(jù)不能被下載(開(kāi)放獲?。?)數(shù)據(jù)文件測(cè)繪項(xiàng)目登記數(shù)據(jù)沒(méi)有可下載的文件(青島);浙江省通信行業(yè)統(tǒng)計(jì)數(shù)據(jù)只在網(wǎng)頁(yè)上;新疆的數(shù)據(jù)D 2 8:數(shù)據(jù)被人工編輯過(guò),不是原始數(shù)據(jù)(*)記錄浙江上半年全省商品房銷(xiāo)售面積增長(zhǎng)2 0.9%的數(shù)據(jù)集為新聞稿(P D F);市對(duì)外經(jīng)濟(jì)合作業(yè)務(wù)統(tǒng)計(jì)報(bào)表只有“總值”,沒(méi)有每個(gè)項(xiàng)目的詳細(xì)信息(佛山);新疆的很多數(shù)據(jù)D 2 9:國(guó)家安全數(shù)據(jù)或企業(yè)、個(gè)人敏感數(shù)據(jù)泄露(*)數(shù)據(jù)集、列、數(shù)據(jù)單元公證員姓名、性別、身份證號(hào)碼和執(zhí)業(yè)證號(hào)等(浙江);低收入住房困難家庭配租搖號(hào)結(jié)果同時(shí)含有個(gè)人姓名與住址信息(哈爾濱);運(yùn)動(dòng)員的身份證號(hào)碼(貴州)完整性時(shí)效性(及時(shí)性)唯一性(同一性)規(guī)范性實(shí)例層開(kāi)放性(*)安全或隱私(*)
為盡可能全面地發(fā)現(xiàn)各種質(zhì)量問(wèn)題,筆者在選取政府開(kāi)放數(shù)據(jù)網(wǎng)站/平臺(tái)時(shí),綜合考察數(shù)據(jù)集的個(gè)數(shù)、是否有模式定義及是否提供了多種格式的文件。選取的13個(gè)網(wǎng)站見(jiàn)表2,數(shù)據(jù)集的個(gè)數(shù)等指標(biāo)在不斷變化,表中的數(shù)據(jù)取自2017年9—12月。調(diào)查的對(duì)象是各網(wǎng)站數(shù)據(jù)目錄中的數(shù)據(jù)集,不包括接口(API)和應(yīng)用等其他開(kāi)放資源。
表2 調(diào)查對(duì)象——地方政府開(kāi)放數(shù)據(jù)網(wǎng)站/平臺(tái)
對(duì)開(kāi)放數(shù)據(jù)本身的調(diào)查是本文的重點(diǎn)和核心。研究通過(guò)下載數(shù)據(jù)集的數(shù)據(jù)文件,考察和分析文件中的數(shù)據(jù),依據(jù)臟數(shù)據(jù)的基本特征(見(jiàn)表1),有可能發(fā)現(xiàn)實(shí)例層的16類(lèi)質(zhì)量問(wèn)題,即正確性(D8—D12)、一致性(D13—D15)、完整性(D17—D18)、唯一性(D20)、規(guī)范性(D21—D24)與安全或隱私(D29)等維度下的“臟數(shù)據(jù)”。
例如,“哈爾濱市建設(shè)項(xiàng)目選址意見(jiàn)書(shū)信息”數(shù)據(jù)集的Excel文件中含有846條記錄,每條記錄8個(gè)字段。圖2抽取了10條記錄,展示了其中存在的五類(lèi)“臟數(shù)據(jù)”:“建設(shè)項(xiàng)目名稱(chēng)”“建設(shè)位置”“占地面積”和“建設(shè)規(guī)?!彼牧写嬖凇皵?shù)據(jù)值缺失”(D17)現(xiàn)象,“占地面積”和“建設(shè)規(guī)?!眱闪小皵?shù)據(jù)沒(méi)有單位”(D23)與部分單元是“不合理值(0)”(D10),“建設(shè)位置”列的值出現(xiàn)“數(shù)據(jù)籠統(tǒng)(不詳細(xì))”(D8)現(xiàn)象,“出證日期”列的取值“格式不規(guī)范”(D22)。此外,文件中還存在“未知值表達(dá)不一致”(D14)問(wèn)題:NULL與******都在表示“無(wú)數(shù)據(jù)或未知值”。
圖2 “臟數(shù)據(jù)”示例(淺色的數(shù)據(jù)單元和列存在質(zhì)量問(wèn)題)
對(duì)開(kāi)放性維度下的質(zhì)量問(wèn)題D25和D26,則要依據(jù)文件格式來(lái)判別。在我國(guó)各地采用的文件格式(見(jiàn)表2)中,XLS(即Excel)與Word是微軟公司專(zhuān)有格式,不符合開(kāi)放標(biāo)準(zhǔn),PDF、Word與HTML不是機(jī)器可讀的。在開(kāi)放數(shù)據(jù)網(wǎng)站中,當(dāng)一個(gè)數(shù)據(jù)資源有多個(gè)文件時(shí),只要一個(gè)文件符合開(kāi)放標(biāo)準(zhǔn)或是機(jī)器可讀的,我們則認(rèn)定不存在質(zhì)量問(wèn)題D25或D26。當(dāng)沒(méi)有數(shù)據(jù)文件可供下載、文件不能下載或數(shù)據(jù)只在網(wǎng)頁(yè)(HTML)上,我們則認(rèn)為存在問(wèn)題D27(不能開(kāi)放獲?。?,但提供了API接口的除外。當(dāng)數(shù)據(jù)存在于PDF、Word文檔或網(wǎng)頁(yè)的新聞稿、政府文件或統(tǒng)計(jì)報(bào)告中,不是原始數(shù)據(jù)的可能性就比較大(D28),這方面問(wèn)題突出的是新疆的開(kāi)放數(shù)據(jù)(詳見(jiàn)表1“實(shí)例”一列)。
圖2中“出證日期”列的取值“格式不規(guī)范”問(wèn)題與數(shù)據(jù)模式的定義有關(guān)。根據(jù)國(guó)家標(biāo)準(zhǔn)《數(shù)據(jù)元和交換格式 信息交換 日期和時(shí)間表示法》(GB/T 7408-2005),日期的格式應(yīng)為:YYYYMMDD(如20090320),開(kāi)放數(shù)據(jù)實(shí)際中以YYYY-MM-DD、YYYY.MM.DD或YYYY/MM/DD等格式居多。因此,與普通的“文本類(lèi)型”區(qū)分開(kāi),日期類(lèi)數(shù)據(jù)應(yīng)定義為“日期類(lèi)型”。
圖3 模式定義中的質(zhì)量問(wèn)題
對(duì)數(shù)據(jù)模式定義的調(diào)查是本文的另一個(gè)重點(diǎn)。圖2展示了“哈爾濱市建設(shè)項(xiàng)目選址意見(jiàn)書(shū)信息”數(shù)據(jù)集的模式定義,其中存在三類(lèi)質(zhì)量問(wèn)題:類(lèi)型定義錯(cuò)誤(D5)、命名不準(zhǔn)確(D6)和未定義數(shù)據(jù)單位(D7)。
一個(gè)開(kāi)放數(shù)據(jù)網(wǎng)站是數(shù)百個(gè)乃至數(shù)千個(gè)數(shù)據(jù)集的集合,模式定義的一致性尤為重要。例如,一個(gè)網(wǎng)站在字段的命名規(guī)則上應(yīng)保持一致,但調(diào)查發(fā)現(xiàn)在哈爾濱、北京等地存在著“名稱(chēng)”與“企業(yè)名稱(chēng)”、“地址”與“企業(yè)通訊地址”在不同的數(shù)據(jù)集中混用的現(xiàn)象(D3)。
一個(gè)數(shù)據(jù)集中的數(shù)據(jù)資源的不同格式文件也應(yīng)在模式上保持一致,但在哈爾濱和廣州等的開(kāi)放數(shù)據(jù)中普遍存在XLS與XML模式不一致問(wèn)題(D4)。圖4對(duì)比了“哈爾濱市考試中心基本信息”數(shù)據(jù)集的兩種格式數(shù)據(jù),XLS數(shù)據(jù)的“標(biāo)題”為中文名稱(chēng)(如“地址”),而XML數(shù)據(jù)的“元素名稱(chēng)”則為漢語(yǔ)拼音縮寫(xiě)(如DZ,應(yīng)為“地址”),造成用戶難以理解與使用這些XML數(shù)據(jù)。
圖4 兩種格式數(shù)據(jù)的模式不一致
同一數(shù)據(jù)資源不同格式的文件,不僅數(shù)據(jù)模式應(yīng)一致,其中的數(shù)據(jù)更應(yīng)保持一致。但調(diào)查發(fā)現(xiàn),上海、廣州和哈爾濱等地存在著“同一數(shù)據(jù)集的不同格式文件的數(shù)據(jù)不一致”問(wèn)題(D16)。
圖5 兩種格式數(shù)據(jù)不一致
例如,上海“攝像頭設(shè)置地點(diǎn)”的XLS文件中的第9條數(shù)據(jù)為“金沙江路/真光路” ,但CSV文件的相應(yīng)數(shù)據(jù)卻是“?金沙江路/真光路”。廣州“黃埔區(qū)信用信息雙公示行政處罰”的XLS數(shù)據(jù)共有14列,但相應(yīng)的CSV數(shù)據(jù)的一些行卻出現(xiàn)了第15或16列,見(jiàn)圖5。哈爾濱的一些數(shù)據(jù)集也有類(lèi)似情況,即CSV中數(shù)據(jù)串列了。
W3C Web數(shù)據(jù)最佳實(shí)踐(DWBP)工作組將“以多種格式提供數(shù)據(jù)”(Provide data in multiple formats)列為35個(gè)“最佳實(shí)踐”(Best Practice, BP)之一(BP14)[25],它可以節(jié)省用戶在數(shù)據(jù)轉(zhuǎn)換上的時(shí)間和成本。理想狀態(tài)下,各種格式的數(shù)據(jù)應(yīng)是完全等價(jià)的,用戶只要任意選擇其一即可使用。如果不同格式數(shù)據(jù)的質(zhì)量不同,反而會(huì)給用戶帶來(lái)選擇數(shù)據(jù)的成本和代價(jià)。鑒于D4和D16兩類(lèi)質(zhì)量問(wèn)題的隱蔽性強(qiáng)、難以發(fā)現(xiàn),我們認(rèn)為它們是開(kāi)放數(shù)據(jù)質(zhì)量管理的新情況和新挑戰(zhàn),應(yīng)引起各級(jí)政府?dāng)?shù)據(jù)管理者的重視。
2016年9月19日,國(guó)務(wù)院印發(fā)《政務(wù)信息資源共享管理暫行辦法》第十三條規(guī)定:按照“誰(shuí)主管,誰(shuí)提供,誰(shuí)負(fù)責(zé)”的原則,提供部門(mén)應(yīng)及時(shí)維護(hù)和更新信息,保障數(shù)據(jù)的完整性、準(zhǔn)確性、時(shí)效性和可用性,確保所提供的共享信息與本部門(mén)所掌握信息的一致性[26]。
為判別一個(gè)數(shù)據(jù)集的時(shí)效性,即數(shù)據(jù)是否陳舊或過(guò)時(shí)(D19),需要依照元數(shù)據(jù)“最后更新時(shí)間”和“更新頻率”的值。以貴州“全省戶籍人口統(tǒng)計(jì)數(shù)據(jù)”為例,它的“最后更新時(shí)間”和“更新頻率”分別為“2016-10-17”和“年”,同時(shí)數(shù)據(jù)文件中給出的是2010—2014年的數(shù)據(jù),則可判定該數(shù)據(jù)集沒(méi)有及時(shí)更新。在貴州省的網(wǎng)站中共有130個(gè)數(shù)據(jù)集在2017年沒(méi)有更新,占比27.6%,而其他數(shù)據(jù)集則得到了及時(shí)更新,占比72.4%。
廣州、深圳和佛山等地的數(shù)據(jù)文件中增加了“更新日期”字段,方便了用戶判別其時(shí)效性。而北京和上海等地沒(méi)有“更新頻率”或“最后更新時(shí)間”的元數(shù)據(jù),造成很多數(shù)據(jù)集的時(shí)效性無(wú)法判別。
當(dāng)網(wǎng)站內(nèi)的信息不足以判別數(shù)據(jù)質(zhì)量狀況時(shí),就需要參照外部權(quán)威數(shù)據(jù)源。例如,北京的“高校”數(shù)據(jù)集是2012年10月29日發(fā)布的,能否反映當(dāng)前實(shí)際情況呢?對(duì)比教育部的最新數(shù)據(jù)(截至2017年5月31日)[27],里面沒(méi)有“中國(guó)科學(xué)院大學(xué)”,因此認(rèn)定該數(shù)據(jù)集是過(guò)時(shí)的。2012年7月19日發(fā)布的“機(jī)場(chǎng)班車(chē)線路”只有9條線路,而首都國(guó)際機(jī)場(chǎng)網(wǎng)站上公布的線路已達(dá)18條,表明該數(shù)據(jù)不僅過(guò)時(shí)、而且不準(zhǔn)確。政府開(kāi)放數(shù)據(jù)應(yīng)是權(quán)威的數(shù)據(jù)源,但要達(dá)到這一目標(biāo)還需要在質(zhì)量管理等方面加強(qiáng)工作。
隨著開(kāi)放數(shù)據(jù)的深入,隱私保護(hù)和安全問(wèn)題日益得到關(guān)注[28]。實(shí)踐上,深圳《政府?dāng)?shù)據(jù)開(kāi)放平臺(tái)用戶服務(wù)條款》、貴陽(yáng)《數(shù)據(jù)開(kāi)放授權(quán)協(xié)議》和《數(shù)據(jù)東莞網(wǎng)使用協(xié)議》等均含有“隱私保護(hù)聲明”,承諾網(wǎng)站不主動(dòng)將用戶個(gè)人信息泄露給任何第三方。2017年5月1日起施行的我國(guó)首部政府?dāng)?shù)據(jù)共享開(kāi)放條例——《貴陽(yáng)市政府?dāng)?shù)據(jù)共享開(kāi)放條例》規(guī)定[29]:涉及國(guó)家秘密的、商業(yè)秘密的、個(gè)人隱私的和法律法規(guī)規(guī)定不得開(kāi)放的其他政府?dāng)?shù)據(jù)不能向社會(huì)開(kāi)放。
2017年6月1日起施行的《中華人民共和國(guó)網(wǎng)絡(luò)安全法》第四十二條規(guī)定[30]:網(wǎng)絡(luò)運(yùn)營(yíng)者不得泄露、篡改、毀損其收集的個(gè)人信息;未經(jīng)被收集者同意,不得向他人提供個(gè)人信息。同時(shí)將“個(gè)人信息”定義為:以電子或者其他方式記錄的能夠單獨(dú)或者與其他信息結(jié)合識(shí)別自然人個(gè)人身份的各種信息,包括但不限于自然人的姓名、出生日期、身份證件號(hào)碼、個(gè)人生物識(shí)別信息、住址、電話號(hào)碼等。美國(guó)列入個(gè)人信息保護(hù)范圍的數(shù)據(jù)包括名字、身份證號(hào)碼、郵件地址、IP 地址、電話號(hào)碼等[31]。歐盟個(gè)人數(shù)據(jù)保護(hù)法指出,身份證號(hào)碼、定位數(shù)據(jù)、網(wǎng)絡(luò)標(biāo)識(shí)符、基因、經(jīng)濟(jì)、文化、社會(huì)身份等隱私受法律保護(hù)[32]。
筆者在調(diào)查過(guò)程中,重點(diǎn)考察數(shù)據(jù)中是否含有“自然人的姓名”“電話”“住址”和“身份證號(hào)碼”等敏感信息,發(fā)現(xiàn)浙江、貴州和哈爾濱等地的個(gè)別開(kāi)放數(shù)據(jù)存在隱私泄露問(wèn)題(D29)或風(fēng)險(xiǎn),見(jiàn)圖6(只給出數(shù)據(jù)文件的標(biāo)題行,隱去了數(shù)據(jù))。
圖6 個(gè)人敏感數(shù)據(jù)示例
相對(duì)照的是,貴陽(yáng)對(duì)“導(dǎo)游人員名單”等、東莞對(duì)“公證員信息”等進(jìn)行了脫敏處理,見(jiàn)圖7。
圖7 經(jīng)脫敏處理的個(gè)人信息示例
表1中D29類(lèi)臟數(shù)據(jù)也包括“泄露的商業(yè)秘密”,這方面已有學(xué)者做了專(zhuān)門(mén)研究[33]。
本節(jié)以“開(kāi)放數(shù)據(jù)網(wǎng)站/平臺(tái)”為單位,對(duì)數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行整體分析。
表2中的13個(gè)開(kāi)放數(shù)據(jù)平臺(tái)中有8個(gè)給出了模式定義,其中廣東和東莞沒(méi)有“類(lèi)型定義”(質(zhì)量差),其余6家的對(duì)比見(jiàn)表3。普遍存在的問(wèn)題是字段的英文命名不規(guī)范、數(shù)據(jù)類(lèi)型單一和數(shù)值型數(shù)據(jù)無(wú)單位,規(guī)范的做法是統(tǒng)一采用英文單詞命名、區(qū)分各種數(shù)據(jù)類(lèi)型(文本、枚舉、布爾型、數(shù)值與日期等)及將“單位”單獨(dú)定義為一列等。
表3 各平臺(tái)數(shù)據(jù)模式的對(duì)比
數(shù)據(jù)模式定義的缺陷或缺失是實(shí)例層在“一致性”和“規(guī)范性”等維度的質(zhì)量問(wèn)題的根源,因此“數(shù)據(jù)模式質(zhì)量”在整個(gè)開(kāi)放數(shù)據(jù)質(zhì)量管理中處于基礎(chǔ)性位置,應(yīng)優(yōu)先得到提升和保障。
圖8 北京市存在的主要臟數(shù)據(jù)類(lèi)型(前10名)
在調(diào)查的北京市726個(gè)開(kāi)放數(shù)據(jù)集中,出現(xiàn)次數(shù)最多的質(zhì)量問(wèn)題是“數(shù)據(jù)值缺失”(D17),共有311個(gè)數(shù)據(jù)集存在不同程度的數(shù)據(jù)不完整現(xiàn)象。接下來(lái)是“數(shù)據(jù)過(guò)于籠統(tǒng)”(D8)、“不合理值或錯(cuò)誤值”(D10)、“未知值表達(dá)不一致”(D14)及“一列的數(shù)據(jù)格式不一致”(D15)等,見(jiàn)圖8。調(diào)查共發(fā)現(xiàn)631個(gè)質(zhì)量問(wèn)題,按照正確性、完整性、規(guī)范性和開(kāi)放性等八個(gè)維度統(tǒng)計(jì)占比,結(jié)果見(jiàn)圖9。其中,完整性問(wèn)題的比例最高,達(dá)49%;其次是正確性問(wèn)題,占18%。
圖9 北京市各維度質(zhì)量問(wèn)題占比
圖10 上海市存在的主要臟數(shù)據(jù)類(lèi)型(前10名)
上海市的用戶評(píng)價(jià)機(jī)制從準(zhǔn)確性、及時(shí)性、滿意性和可用性等方面對(duì)數(shù)據(jù)集打分,得分一星到五星的數(shù)據(jù)集共324個(gè)。調(diào)查結(jié)果見(jiàn)圖10,出現(xiàn)的質(zhì)量問(wèn)題依次是“數(shù)據(jù)值缺失”(D17)、“不合理值或錯(cuò)誤值”(D10)、“數(shù)據(jù)陳舊或過(guò)時(shí)”(D19)、“一列的數(shù)據(jù)格式不一致”(D15)及“數(shù)據(jù)過(guò)于籠統(tǒng)”(D8)等。發(fā)現(xiàn)的324個(gè)質(zhì)量問(wèn)題在八個(gè)維度上的分布情況見(jiàn)圖11,排在前兩位的同樣是完整性問(wèn)題(30%)和正確性問(wèn)題(20%)。
圖11 上海市各維度質(zhì)量問(wèn)題的占比
哈爾濱市的數(shù)據(jù)開(kāi)放專(zhuān)欄于2016年底上線,據(jù)媒體報(bào)道,其整體水平處于全國(guó)前列。通過(guò)對(duì)672個(gè)數(shù)據(jù)集的調(diào)查,較多的質(zhì)量問(wèn)題是“數(shù)據(jù)值缺失”(D17)、“數(shù)據(jù)過(guò)于籠統(tǒng)”(D8)、“不合理值或錯(cuò)誤值”(D10)、“同一數(shù)據(jù)集的不同格式文件的數(shù)據(jù)不一致”(D16)及“一列的數(shù)據(jù)格式不一致”(D15)等,見(jiàn)圖12。發(fā)現(xiàn)的760個(gè)質(zhì)量問(wèn)題在八個(gè)維度上的分布情況見(jiàn)圖13,其中正確性問(wèn)題突出,占32%,其次是完整性問(wèn)題,占30%。
圖12 哈爾濱市存在的主要臟數(shù)據(jù)類(lèi)型(前10名)
圖13 哈爾濱市各維度質(zhì)量問(wèn)題的占比
從全部被調(diào)查數(shù)據(jù)集的五個(gè)方面:無(wú)問(wèn)題的數(shù)據(jù)集個(gè)數(shù)占比、有一個(gè)問(wèn)題的數(shù)據(jù)集個(gè)數(shù)占比、有兩個(gè)問(wèn)題的數(shù)據(jù)集個(gè)數(shù)占比、有兩個(gè)以上問(wèn)題的數(shù)據(jù)集個(gè)數(shù)占比及平均一個(gè)數(shù)據(jù)集的問(wèn)題個(gè)數(shù)(問(wèn)題個(gè)數(shù)/數(shù)據(jù)集個(gè)數(shù)),對(duì)三地進(jìn)行對(duì)比,結(jié)果見(jiàn)表4和圖14??梢?jiàn),總體上北京和上海的數(shù)據(jù)集質(zhì)量狀況相當(dāng),要好于哈爾濱。
圖14 三地各類(lèi)數(shù)據(jù)集占比的對(duì)比圖
進(jìn)一步,從表1選出嚴(yán)重影響用戶可用性的兩組六類(lèi)質(zhì)量問(wèn)題:“正確性”下的D10(不合理值或錯(cuò)誤值)、D11(列與列的值的位置相互串位)和D12(出現(xiàn)亂碼),“開(kāi)放性”下的D26(文件格式不是機(jī)器可讀的)、D27(數(shù)據(jù)不能被下載)和D28(不是原始數(shù)據(jù)),對(duì)比三地至少有一個(gè)質(zhì)量問(wèn)題的數(shù)據(jù)集個(gè)數(shù)的占比,見(jiàn)表5??梢?jiàn),北京的“不可用”數(shù)據(jù)集的占比要明顯少于上海和哈爾濱兩地。
表5 三地“不可用”數(shù)據(jù)集的占比
需要說(shuō)明的是,由于方法(見(jiàn)第2節(jié))的局限、技術(shù)手段的不足、數(shù)據(jù)過(guò)時(shí)及背景材料的缺乏等,筆者不可能發(fā)現(xiàn)所有的質(zhì)量問(wèn)題(特別是正確性問(wèn)題),發(fā)現(xiàn)的質(zhì)量問(wèn)題其危害程度也會(huì)因用戶需求的不同而有差異。
提升和保障數(shù)據(jù)質(zhì)量是我國(guó)政府?dāng)?shù)據(jù)共享開(kāi)放工程的核心工作之一?!丁笆濉眹?guó)家信息化規(guī)劃》在強(qiáng)化數(shù)據(jù)資源管理、推進(jìn)數(shù)據(jù)開(kāi)放部分指出,要加強(qiáng)“數(shù)據(jù)資源目錄管理、整合管理、質(zhì)量管理、安全管理,提高數(shù)據(jù)準(zhǔn)確性、可用性、可靠性”[34]。我國(guó)各級(jí)政府的開(kāi)放數(shù)據(jù)政策文件對(duì)“數(shù)據(jù)質(zhì)量”的規(guī)定包括數(shù)據(jù)校核、數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)生命周期的質(zhì)量管理和數(shù)據(jù)弄虛作假行為處理等[35]。本文僅從借鑒各國(guó)先進(jìn)經(jīng)驗(yàn)的角度,提出以下可操作層面的對(duì)策建議。
“數(shù)據(jù)清洗”(Data Cleaning)是為提高數(shù)據(jù)質(zhì)量而對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的過(guò)程[36]。數(shù)據(jù)倉(cāng)庫(kù)裝載數(shù)據(jù)之前要進(jìn)行數(shù)據(jù)清洗[15],在大數(shù)據(jù)的質(zhì)量管理中,數(shù)據(jù)清洗也起到了關(guān)鍵作用[5]。在開(kāi)放政府?dāng)?shù)據(jù)領(lǐng)域,澳大利亞等在數(shù)據(jù)發(fā)布周期中引入了“數(shù)據(jù)清洗”環(huán)節(jié)[37],用以實(shí)現(xiàn)各字段(如日期、年齡和郵政編碼等)的格式統(tǒng)一、空值補(bǔ)齊及非文本信息移除等,見(jiàn)圖15。
圖15 數(shù)據(jù)清洗前后對(duì)比圖(澳大利亞)
各級(jí)政府通過(guò)合適的技術(shù)、工具、規(guī)范和工作流程,可以“清洗”表 1 中“正確性”(D9—D12)、“一致性”(D13—D15)、“完整性”(D17)、“唯一性”(D20)和“規(guī)范性”(D21—D24)等維度下的10余種“臟數(shù)據(jù)”,有效提升數(shù)據(jù)質(zhì)量。數(shù)據(jù)管理部門(mén)將數(shù)據(jù)文件轉(zhuǎn)化為開(kāi)放標(biāo)準(zhǔn)下的機(jī)器可讀格式(如CSV、XML和JSON等),可以提升數(shù)據(jù)的開(kāi)放程度,解決D25和D26這兩個(gè)質(zhì)量問(wèn)題。
用來(lái)消除原始數(shù)據(jù)中敏感信息的數(shù)據(jù)脫敏技術(shù),可以有效防范隱私泄露問(wèn)題(D29)。2016年9月28日貴州省質(zhì)監(jiān)局發(fā)布的《政府?dāng)?shù)據(jù) 數(shù)據(jù)脫敏工作指南》地方標(biāo)準(zhǔn)[38],規(guī)范了數(shù)據(jù)脫敏的方法、過(guò)程、技術(shù)原則和管理原則。北京對(duì)敏感數(shù)據(jù),如29家醫(yī)院的176萬(wàn)個(gè)病例,經(jīng)脫敏處理后向特定用戶開(kāi)放[39]。
在數(shù)據(jù)清洗過(guò)程中,需要標(biāo)準(zhǔn)規(guī)范指導(dǎo)“數(shù)據(jù)格式統(tǒng)一”等操作。愛(ài)爾蘭“開(kāi)放數(shù)據(jù)技術(shù)框架”采用了30余項(xiàng)標(biāo)準(zhǔn)[40],部分見(jiàn)表6。
表6 愛(ài)爾蘭采用的部分標(biāo)準(zhǔn)規(guī)范
我國(guó)各地也應(yīng)遵循國(guó)家標(biāo)準(zhǔn)GB/T 7408和GB/T 12406等來(lái)規(guī)范“日期/時(shí)間”和“幣值”等數(shù)據(jù)的取值格式和內(nèi)容。
新西蘭政府機(jī)構(gòu)在Data.govt.nz上開(kāi)放數(shù)據(jù)前要進(jìn)行質(zhì)量檢查[41-42],包括開(kāi)放許可、數(shù)據(jù)格式、更新時(shí)間和是否刪除任何個(gè)人身份信息等。美國(guó)交通部對(duì)開(kāi)放數(shù)據(jù)質(zhì)量的評(píng)價(jià)共有兩個(gè)維度下的10個(gè)問(wèn)題,滿分是35,見(jiàn)表7[42-43]。
表7 美國(guó)交通部開(kāi)放數(shù)據(jù)質(zhì)量檢查表
英國(guó)和歐盟還建議用戶在使用開(kāi)放數(shù)據(jù)前進(jìn)行“質(zhì)量檢查”[44]:①數(shù)據(jù)是當(dāng)前的嗎?②多久更新一次?③是否理解數(shù)據(jù)的字段和背景?④了解數(shù)據(jù)的準(zhǔn)確程度嗎?⑤丟失的數(shù)據(jù)是如何處理的?等。
本文得出的“OGD領(lǐng)域臟數(shù)據(jù)分類(lèi)”(表1)的成果,可以幫助政府部門(mén)設(shè)計(jì)“有的放矢”的數(shù)據(jù)質(zhì)量檢查表。
Sadiq S等[7]認(rèn)為“開(kāi)放數(shù)據(jù)質(zhì)量”存在著三方面的挑戰(zhàn),即“對(duì)數(shù)據(jù)質(zhì)量維度的共同理解”“支持用戶的質(zhì)量感知”及“加強(qiáng)數(shù)據(jù)質(zhì)量與使用之間的聯(lián)結(jié)”。W3C“最佳實(shí)踐”建議“以機(jī)器可讀的元數(shù)據(jù)向用戶提供質(zhì)量信息”(BP6)[25]。美國(guó)的開(kāi)放數(shù)據(jù)元數(shù)據(jù)方案引進(jìn)了元數(shù)據(jù)項(xiàng)“Data Quality”,取值為true或false,用于指出數(shù)據(jù)集是否符合某一質(zhì)量準(zhǔn)則[45]。
元數(shù)據(jù)可以幫助用戶判別數(shù)據(jù)的時(shí)效性,但需要足夠的元數(shù)據(jù)信息??梢越梃b的例子是世界銀行開(kāi)放數(shù)據(jù)網(wǎng)站(Data.worldbank.org)提供了四個(gè)與時(shí)間相關(guān)的元數(shù)據(jù)項(xiàng):“Periodicity Annual”(周期性)、“Last Updated”(最后更新時(shí)間)、“Update Frequency”(更新頻率)和“Update Schedule”(更新計(jì)劃),足以讓用戶判斷數(shù)據(jù)是否是最新的。
黨的十九大報(bào)告提出“推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合”的戰(zhàn)略舉措,政府?dāng)?shù)據(jù)將迎來(lái)加快共享開(kāi)放和深度應(yīng)用的新時(shí)代。本文將視角深入到13個(gè)開(kāi)放政府?dāng)?shù)據(jù)平臺(tái)的數(shù)據(jù)本身,細(xì)致探查其中存在的主要質(zhì)量問(wèn)題,歸納出模式層和實(shí)例層29類(lèi)“臟數(shù)據(jù)”,對(duì)北京、上海和哈爾濱三地進(jìn)行整體分析,統(tǒng)計(jì)出質(zhì)量問(wèn)題的分布情況。最后,結(jié)合各國(guó)的實(shí)踐經(jīng)驗(yàn),筆者建議依據(jù)標(biāo)準(zhǔn)規(guī)范、通過(guò)“數(shù)據(jù)清洗”“質(zhì)量檢查”等手段在數(shù)據(jù)發(fā)布過(guò)程中消除“臟數(shù)據(jù)”,同時(shí)也要向用戶提供豐富的元數(shù)據(jù)信息,以幫助其判斷數(shù)據(jù)質(zhì)量。本文在研究中綜合運(yùn)用網(wǎng)絡(luò)調(diào)查和數(shù)據(jù)分析等方法,參照開(kāi)放數(shù)據(jù)原則、標(biāo)準(zhǔn)規(guī)范和法律法規(guī)等,在開(kāi)放性和隱私泄露等方面發(fā)現(xiàn)了容易被忽視的質(zhì)量問(wèn)題。開(kāi)放不等于高質(zhì)量,我國(guó)政府開(kāi)放數(shù)據(jù)要成為權(quán)威的數(shù)據(jù)來(lái)源,真正發(fā)揮應(yīng)有的社會(huì)和經(jīng)濟(jì)效用,還需在質(zhì)量保障和提升上付出巨大努力。
(來(lái)稿時(shí)間:2018年5月)