劉汪洋 翟 軍 梁藝多 程 序 謝真強(qiáng)
(1.中電科大數(shù)據(jù)研究院有限公司 貴陽 550018; 2.大連海事大學(xué)航運經(jīng)濟(jì)與管理學(xué)院遼寧大連 116026;3.大連外國語大學(xué)軟件學(xué)院 遼寧大連 116044)
英國的“開放政府?dāng)?shù)據(jù)”(Open Government Data, OGD)運動處于世界領(lǐng)先位置,連續(xù)四年(2013—2016年)在“開放數(shù)據(jù)晴雨表”(Open Data Barometer, ODB)上高居榜首,得分為滿分(100)[1]。2011至2018年,英國政府連續(xù)實施三輪“開放政府國家行動計劃”(Open Government National Action Plan, NAP)[2]。第一輪NAP(2011—2013年)的工作重點是推動中央政府機(jī)構(gòu)的數(shù)據(jù)開放。到2013年11月,Data.Gov.UK共收集來自中央政府和公共機(jī)構(gòu)的10300多個數(shù)據(jù)集,成為真正的“一站式”數(shù)據(jù)平臺。第二輪NAP(2011—2013年)在加大OGD“國家信息基礎(chǔ)設(shè)施”(National Information Infrastructure, NII)建設(shè)的同時[3],要求地方政府也要開放關(guān)鍵數(shù)據(jù)集[4]。為此,2015年2月27日,社區(qū)與地方政府事務(wù)部(Department for Housing, Communities &Local Government,DHCLG)發(fā)布新修訂的指導(dǎo)性文件《地方政府透明準(zhǔn)則》(Local Government Transparency Code),明確地方政府開放數(shù)據(jù)的范圍、周期與方式等[5]。第三輪NAP(2016—2018年)一方面致力于提升國家層面核心數(shù)據(jù)的質(zhì)量和利用水平,另一方面通過數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范地方選舉數(shù)據(jù)的開放[6]。
2014年11月,英國國家數(shù)據(jù)平臺(Data.Gov.UK)開始提供“目錄聚合”服務(wù),以支持地方政府的數(shù)據(jù)開放。目前,Data.Gov.UK中已有4萬多個數(shù)據(jù)集,其中來自300余個地方政府的數(shù)據(jù)集1萬多個,占總數(shù)的四分之一以上[7]。文章從目錄聚合的模式與流程、數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)和溯源元數(shù)據(jù)等方面分析和介紹英國政府開放數(shù)據(jù)的目錄聚合機(jī)制,以期為我國建設(shè)統(tǒng)一的開放數(shù)據(jù)平臺提供借鑒和參考。
內(nèi)閣辦公室領(lǐng)導(dǎo)的“政府?dāng)?shù)字服務(wù)”(Government Digital Service ,GDS)工作組負(fù)責(zé)Data.Gov.UK的建設(shè)、運營與維護(hù),其開發(fā)的“收集器”(Harvester)軟件模塊負(fù)責(zé)獲取外部數(shù)據(jù)目錄(即聚合源目錄)的全部數(shù)據(jù)集的元數(shù)據(jù)記錄(即目錄清單),將其聚合到自己的目錄清單中并發(fā)布在Data.Gov.UK 上[8]。
表1給出目前使用的七種“聚合模式”,分為“地理空間數(shù)據(jù)”和“非地理空間數(shù)據(jù)”兩大類,支持所有的主流地理數(shù)據(jù)平臺(如ArcGIS等)和開放數(shù)據(jù)平臺(如CKAN、DKAN、DataShare和Socrata等)?!笆占鳌蓖ㄟ^API或文件下載方式讀取外部“目錄清單”,其格式是機(jī)器可讀的:XML或JSON等。同時,“收集器”對元數(shù)據(jù)規(guī)范/標(biāo)準(zhǔn)具有廣泛的兼容性,既支持Data.Gov.UK本身采用的CKAN元數(shù)據(jù)和GEMINI地理元數(shù)據(jù)[9],也支持英國地方政府聯(lián)合會(Local Government Association,LGA)開發(fā)的數(shù)據(jù)目錄清單元數(shù)據(jù)規(guī)范,及通用的開放數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)DCAT和美國的元數(shù)據(jù)標(biāo)準(zhǔn)POD v1.1 (Project Open Data Metadata Schema v1.1)[10]。
表1 目錄聚合模式分類
LGA出臺的《地方政府透明實施指南》(Local Transparency Guidance)建議各地方政府在建設(shè)自己的開放數(shù)據(jù)目錄網(wǎng)站的同時,同步將數(shù)據(jù)發(fā)布到國家數(shù)據(jù)平臺(Data.Gov.UK)上[11],其流程如下:
數(shù)據(jù)提供方選擇一種目錄聚合模式(見表1),以Web數(shù)據(jù)文件或平臺API的方式提供機(jī)器可讀的“數(shù)據(jù)目錄清單”;數(shù)據(jù)提供方通過data.gov.uk/user/register申請賬戶,經(jīng)批準(zhǔn)后成為一個publishers,具有editor權(quán)限;在Data.Gov.UK登錄后選擇“Dataset Harvesting”發(fā)布方式,這是一種批量、自動同步的發(fā)布方式,另一種是單個數(shù)據(jù)集的手工發(fā)布方式;創(chuàng)建新的Harvesting Source(收集源),需要提供信息:名稱(Title)(如London Datastore)、元數(shù)據(jù)文件的URL(或數(shù)據(jù)平臺的URL)(如data.london.gov.uk/data.json或lle.gov.wales)、聚合模式(Type)(如data.json或CSW等)和更新頻率(Update Frequency)(如weekly或daily)。創(chuàng)建成功后,Harvesting Source會出現(xiàn)在儀表盤(data.gov.uk/harvest)的列表中。目前,共有450多個Harvesting Source,收集數(shù)據(jù)集記錄26 000多個,占總數(shù)的55%以上。每個publishers可以創(chuàng)建多個“收集源”;檢查收集結(jié)果是否正確。對應(yīng)收集源的“收集器”會自動啟動,也可以手工啟動,運行成功后會顯示出收集到的所有數(shù)據(jù)集的列表,點擊一個數(shù)據(jù)集的名稱,會顯示它的元數(shù)據(jù)記錄;數(shù)據(jù)提供方及時更新目錄清單。當(dāng)發(fā)布一個新的數(shù)據(jù)集,或向已有的數(shù)據(jù)集添加新的數(shù)據(jù)文件時,應(yīng)在目錄清單中添加或更新元數(shù)據(jù)記錄,“收集器”會在Data.Gov.UK網(wǎng)站上自動實現(xiàn)同步更新。
表2對比了“London Schools Atlas”(倫敦學(xué)校地圖)數(shù)據(jù)集分別在倫敦和英國數(shù)據(jù)平臺上的元數(shù)據(jù)記錄。可見,目錄聚合后,一個數(shù)據(jù)集的大部分元數(shù)據(jù)項(如title、type、license和resources等)被保留下來,所屬“主題”通過自動分類被重新設(shè)置,增加了“質(zhì)量元數(shù)據(jù)”和“溯源元數(shù)據(jù)”(詳見第4節(jié))等[8]。主題分類是Data.Gov.UK平臺數(shù)據(jù)組織的主要方式[12],共設(shè)有12個主題,幫助用戶瀏覽和查找數(shù)據(jù)集。依據(jù)蒂姆·伯納斯-李提出的開放程度(Openness)“五星評級模型”,平臺還會對收集來的數(shù)據(jù)集的“開放等級”進(jìn)行自動打分,并作為一種質(zhì)量元數(shù)據(jù)被記錄下來[8]。
數(shù)據(jù)標(biāo)準(zhǔn)(Data Standard)是“數(shù)據(jù)的命名、定義、結(jié)構(gòu)和取值范圍方面的規(guī)則和基準(zhǔn)”[13]。數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)保障了各方(數(shù)據(jù)提供者、發(fā)布者、中介和使用者等)對數(shù)據(jù)內(nèi)容、含義和格式等的共同理解,提升了系統(tǒng)間的互操作性,是OGD保障機(jī)制建設(shè)的重要內(nèi)容[14]。
為實現(xiàn)數(shù)據(jù)目錄的聚合,首先需要的是開放數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)及目錄清單的描述規(guī)范。為此,美國白宮的“開放數(shù)據(jù)項目”(Project Open Data)在2014年11月發(fā)布的元數(shù)據(jù)標(biāo)準(zhǔn)POD v1.1中規(guī)定,每個數(shù)據(jù)平臺的目錄清單文件以data.json命名,格式為JSON-LD(JSON for Linked Data),模式遵循POD v1.1所定義的Catalog模式,文件的URL為www.[agency].gov/data.json[10]。這套規(guī)范不僅在美國地方政府得到了廣泛應(yīng)用,也推廣到英國(參見表1)、澳大利亞和愛爾蘭等。
圖1 目錄清單的模式定義(部分)
在英國,面向Data.Gov.UK的自動聚合功能,為使得各地方政府以一致的方式建立數(shù)據(jù)目錄清單(Inventory),LGA開發(fā)了“目錄清單模式”(Inventory Schema)標(biāo)準(zhǔn),在都柏林核心元數(shù)據(jù)的基礎(chǔ)上規(guī)范了“目錄清單”“數(shù)據(jù)集”(Dataset)和“數(shù)據(jù)資源”(Data Resources)等的元數(shù)據(jù)[15]。模式以XML Schema語法定義(見圖1),“目錄清單”(圖1為Inventory元素)的元數(shù)據(jù)項有9個,包括 Identifier、Creator、Metadata.Title、Metadata.Publisher、Modified、ConformsTo和 Datasets等,其中 Datasets的取值為Dataset的列表;“數(shù)據(jù)集”的元數(shù)據(jù)項18個,包括Title、Identifier、Rights、Active、Modified 和 Resources(資源列表)等;“數(shù)據(jù)資源”的元數(shù)據(jù)項11個,包括Title、Identifier、Type和Renditions(數(shù)據(jù)文件列表)等;“數(shù)據(jù)文件”(Rendition)的元數(shù)據(jù)項8個,包括Title、Identifier、MimeType和ConformsTo等。
圖2 目錄清單的實例文檔——霍爾沙姆區(qū)(部分)
LGA的“目錄清單模式”標(biāo)準(zhǔn)規(guī)范得到DataShare軟件平臺的支持,它能自動生成符合模式定義的實例文檔,將其發(fā)布到myDataShareAddress/api/esdInventory。圖2給出了霍爾沙姆區(qū)目錄清單XML文檔的例子。Data.Gov.UK的收集器讀取和解析這些文檔后,會將其中的LGA元數(shù)據(jù)映射為CKAN元數(shù)據(jù)[15]。
“數(shù)據(jù)模式”是對數(shù)據(jù)結(jié)構(gòu)和格式的規(guī)范定義。當(dāng)大量的數(shù)據(jù)集被聚集到Data.Gov.UK后,為保障聚合來的數(shù)據(jù)的一致性(Consistency),英國政府開發(fā)和應(yīng)用了各類數(shù)據(jù)模式標(biāo)準(zhǔn)[16],促進(jìn)了不同機(jī)構(gòu)數(shù)據(jù)的比較、融合和深度利用。
英國第三輪NAP承諾以標(biāo)準(zhǔn)方式開放政府采購合同數(shù)據(jù),即實施“開放合同”(Open Contracting)計劃[6]。其成果從2016年11月起,Data.Gov.UK上的合同數(shù)據(jù)集都采用了“開放合同數(shù)據(jù)標(biāo)準(zhǔn)”(Open Contracting Data Standard,OCDC)[17]。第三輪NAP的另一項承諾是開放“選舉數(shù)據(jù)”(Elections Data),目標(biāo)是在2020年前實現(xiàn)地方政府和中央政府選舉結(jié)果的數(shù)字化、標(biāo)準(zhǔn)化和機(jī)器可讀[6]。地方政府聯(lián)合會LGA負(fù)責(zé)選舉數(shù)據(jù)標(biāo)準(zhǔn)和指南的制定和編寫,其草案已公布在GitHub上[17]。
為支持《地方政府透明準(zhǔn)則》所規(guī)定的更廣范圍的數(shù)據(jù)開放的標(biāo)準(zhǔn)化,LGA聯(lián)合LeGSB(Local e-Government Standards Body,地方電子政務(wù)標(biāo)準(zhǔn)機(jī)構(gòu))推出“開放數(shù)據(jù)模式”(Open Data Schemas)激勵計劃,鼓勵各地方政府開發(fā)和使用“數(shù)據(jù)模式標(biāo)準(zhǔn)”。目前,已有數(shù)百個數(shù)據(jù)模式發(fā)布在schemas.opendata.esd.org.uk,被廣泛使用的有“土地與建筑物”(Land and Buildings)、“組織結(jié)構(gòu)”(Organization Structure)、“停車場”(Parking)、“支出”(Spend)和“公廁”(Public Toilets)等。
LGA引進(jìn)“數(shù)據(jù)文件”的元數(shù)據(jù)項conformsTo,用以指出其遵循的“數(shù)據(jù)模式”。圖3給出霍爾沙姆區(qū)Contracts Register數(shù)據(jù)集的元數(shù)據(jù)記錄,說明了可下載的CSV文件的數(shù)據(jù)模式定義文檔所在的URL。
圖3 霍爾沙姆區(qū)ContractsRegister數(shù)據(jù)集的部分元數(shù)據(jù)記錄
Data.Gov.UK描述“收集源”的元數(shù)據(jù)(見表3)大部分是溯源元數(shù)據(jù)(Provenance Metadata),如Publisher、Created和URL,可以幫助用戶追蹤數(shù)據(jù)的來源,增加數(shù)據(jù)的可信度。
表3 收集源的元數(shù)據(jù)
收集來的數(shù)據(jù)集的溯源元數(shù)據(jù)則更為豐富,表4以London Schools Atlas數(shù)據(jù)集(參見表2)為例展示了主要的元數(shù)據(jù)項,其中metadata_created指一個數(shù)據(jù)集的元數(shù)據(jù)記錄首次被收集到Data.Gov.UK的時間,metadata_modified則是更新時間,即最近一次的采集時間。這些元數(shù)據(jù)是以JSON格式存在于數(shù)據(jù)集元數(shù)據(jù)API的返回結(jié)果中,供應(yīng)用程序追溯數(shù)據(jù)的歷史和來源,而手工單個發(fā)布的數(shù)據(jù)集則沒有這些溯源元數(shù)據(jù)。
表4 數(shù)據(jù)集的溯源元數(shù)據(jù)
英國開放政府?dāng)?shù)據(jù)是政策先行,重視頂層設(shè)計,其進(jìn)程自上而下:從中央政府機(jī)構(gòu)到地方政府[18]。而我國的OGD則發(fā)端于地方政府。根據(jù)2018年5月貴陽數(shù)博會上復(fù)旦大學(xué)發(fā)布的《2018中國地方政府?dāng)?shù)據(jù)開放報告》,我國已有46個地方政府建設(shè)了數(shù)據(jù)目錄網(wǎng)站[19]。在國家層面上,中央網(wǎng)信辦、發(fā)改委與工信部于2018年1月5日聯(lián)合印發(fā)《公共信息資源開放試點工作方案》,確定在北京、上海、浙江、福建和貴州五省開展“建立統(tǒng)一開放平臺、明確開放范圍、提高數(shù)據(jù)質(zhì)量、促進(jìn)數(shù)據(jù)利用、建立完善制度規(guī)范和加強(qiáng)安全保障”的試點工作[20],探索形成可復(fù)制的經(jīng)驗,逐步在全國范圍加以推廣。其中,“建立統(tǒng)一開放平臺”要求開放平臺應(yīng)具備目錄發(fā)布、數(shù)據(jù)匯集和元數(shù)據(jù)發(fā)布等功能,地市級公共信息資源開放平臺要與省級開放平臺互聯(lián)互通,試點地區(qū)開放平臺要率先與國家公共信息資源開放平臺對接。
這些要求同英國OGD的目錄聚合是基本一致的。在參考和借鑒英國的先進(jìn)經(jīng)驗時,應(yīng)重點關(guān)注如下三方面的啟示。
從上文的分析可見,英國的數(shù)據(jù)目錄聚合機(jī)制是建立在元數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)模式標(biāo)準(zhǔn)之上的,具有平臺弱相關(guān)或平臺無關(guān)、適應(yīng)性強(qiáng)、自動高效、支持?jǐn)?shù)據(jù)的細(xì)粒度比較和融合的優(yōu)勢。與此相類似,美國國家數(shù)據(jù)平臺(Data.Gov)聚合了980個外部數(shù)據(jù)目錄[10],歐洲數(shù)據(jù)門戶(www.europeandataportal.eu)聚合了78個各國數(shù)據(jù)目錄網(wǎng)站的元數(shù)據(jù),這歸功于美國的元數(shù)據(jù)標(biāo)準(zhǔn)POD和歐盟元數(shù)據(jù)標(biāo)準(zhǔn)DCAT-AP(DCAT Application Profile),及歐盟的“主題分類受控詞匯表”等數(shù)據(jù)標(biāo)準(zhǔn)[21]。因此,基于標(biāo)準(zhǔn)規(guī)范的目錄聚合已成為國際發(fā)展趨勢。
我國大多數(shù)的開放數(shù)據(jù)平臺還不具有目錄聚合功能,如廣東省平臺(www.gddata.gov.cn)中來自深圳的數(shù)據(jù)集只有42個,而深圳市平臺(opendata.sz.gov.cn)的數(shù)據(jù)集已達(dá)1 243個;貴州省平臺(www.gzdata.gov.cn)的612個數(shù)據(jù)集中關(guān)于貴陽市的數(shù)據(jù)僅有2個,而貴陽市平臺(www.gyopendata.gov.cn)的數(shù)據(jù)集已有2 700多個。相對照的是,山東省公共數(shù)據(jù)開放平臺(data.sd.gov.cn)率先具備了“目錄聚合”功能,濟(jì)南(www.jndata.gov.cn)、青島(data.qingdao.gov.cn)、煙臺(ytdata.sd.gov.cn)、淄博(zbdata.sd.gov.cn)和威海(whdata.sd.gov.cn)等17個地市數(shù)據(jù)目錄平臺中的元數(shù)據(jù)記錄同步出現(xiàn)在省級平臺,總計9 233個,占總數(shù)(10 028)的92%。但該目錄聚合的實現(xiàn)依賴于統(tǒng)一的浪潮開放數(shù)據(jù)軟件平臺[22],缺乏元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模式標(biāo)準(zhǔn)和溯源元數(shù)據(jù)等的支撐,難以大范圍推廣應(yīng)用。同時,由于數(shù)據(jù)模式不一致,聚合來的數(shù)據(jù)難以比較和融合,表5給出“小學(xué)”和“教育局收費”兩類數(shù)據(jù)不一致的例子。
表5 山東省公共數(shù)據(jù)開放平臺中的數(shù)據(jù)集模式不一致舉例
被廣泛采納的國際開放數(shù)據(jù)憲章(opendatacharter.net)確立的六原則之一是“基于標(biāo)準(zhǔn)的數(shù)據(jù)可比較和互操作”[3]?!豆残畔①Y源開放試點工作方案》要解決的主要問題之一是“開放體制機(jī)制和標(biāo)準(zhǔn)規(guī)范不完善”。因此,我國應(yīng)加強(qiáng)政府?dāng)?shù)據(jù)資源的元數(shù)據(jù)標(biāo)準(zhǔn)、分類標(biāo)準(zhǔn)和數(shù)據(jù)模式標(biāo)準(zhǔn)的建設(shè)和推廣應(yīng)用,在標(biāo)準(zhǔn)規(guī)范的基礎(chǔ)上逐步形成、完善目錄聚合和數(shù)據(jù)融合的機(jī)制,以實現(xiàn)開放政府?dāng)?shù)據(jù)生態(tài)系統(tǒng)的可持續(xù)發(fā)展。
高質(zhì)量地實現(xiàn)各級政府?dāng)?shù)據(jù)的統(tǒng)一與一致開放,不僅需要完備的數(shù)據(jù)標(biāo)準(zhǔn)體系,還需要相應(yīng)的指南、工具和平臺的支撐。表6列出了英國這方面的主要成果,它們分別來自中央政府機(jī)構(gòu)、地方政府、協(xié)會和研究機(jī)構(gòu)??梢姡诘胤秸?lián)合會(LGA)的組織下,英國已形成有效的開放數(shù)據(jù)協(xié)作機(jī)制。
我國不僅需要省內(nèi)的協(xié)作機(jī)制(如山東省各級政府采用統(tǒng)一的開放數(shù)據(jù)平臺),更需要省級政府間的協(xié)作機(jī)制,為統(tǒng)一規(guī)范、互聯(lián)互通的國家開放數(shù)據(jù)平臺(www.data.gov.cn)的建設(shè)創(chuàng)造必要條件。
開放數(shù)據(jù)平臺是OGD的關(guān)鍵基礎(chǔ)設(shè)施,得到了國內(nèi)外的普遍重視。國際上有以CKAN(Comprehensive Knowledge Archive Network)和DKAN(Drupal+CKAN)為代表的開源軟件平臺,及以Socrata等為代表的商用開放數(shù)據(jù)平臺[23]。國內(nèi)出現(xiàn)了應(yīng)用于20多個網(wǎng)站的浪潮開放數(shù)據(jù)平臺[23],及貴陽市信息產(chǎn)業(yè)發(fā)展中心開發(fā)的“貴陽市政府?dāng)?shù)據(jù)開放平臺V3.0”等[24]。根據(jù)W3C的開放數(shù)據(jù)最佳實踐,平臺應(yīng)通過元數(shù)據(jù)API向外提供機(jī)器可讀的目錄清單[25]。例如,建立在CKAN之上的倫敦開放數(shù)據(jù)平臺共提供了四類元數(shù)據(jù)API(見圖4),使得外部應(yīng)用程序(如元數(shù)據(jù)收集器)能夠讀取全部或部分?jǐn)?shù)據(jù)集的元數(shù)據(jù)記錄。借助元數(shù)據(jù)API,倫敦的開放數(shù)據(jù)目錄不僅被聚合到英國國家數(shù)據(jù)平臺,也被聚合到歐洲數(shù)據(jù)平臺上(詳見www.europeandataportal.eu/data/en/organization/london-datastore)。
表6 支持英國數(shù)據(jù)目錄聚合的指南、工具和平臺
圖4 倫敦開放數(shù)據(jù)平臺的元數(shù)據(jù)API
我國的開放數(shù)據(jù)平臺還普遍沒有向外提供元數(shù)據(jù)API。貴陽市政府?dāng)?shù)據(jù)開放平臺(www.gyopendata.gov.cn)雖然提供了“目錄下載”功能,但只能手工下載Excel文件,不能通過應(yīng)用程序讀取,也就不能被元數(shù)據(jù)收集器自動收集。
隨著開放政府?dāng)?shù)據(jù)的發(fā)展,數(shù)據(jù)目錄網(wǎng)站和數(shù)據(jù)集的數(shù)量在快速增長,提高數(shù)據(jù)的可發(fā)現(xiàn)性成為英國OGD需要解決的重點問題[26]。為此,英國一方面形成了較完善的目錄聚合機(jī)制,一方面改進(jìn)了“一站式”網(wǎng)站Data.Gov.UK的搜索功能。文章以支持地方政府?dāng)?shù)據(jù)開放的視角,介紹了英國目錄聚合的模式與流程、數(shù)據(jù)標(biāo)準(zhǔn)和溯源元數(shù)據(jù);結(jié)合我國實際,探討了應(yīng)該借鑒的經(jīng)驗與啟示。下一步的工作將圍繞構(gòu)建適應(yīng)國情的目錄聚合機(jī)制展開,重點研究開放數(shù)據(jù)目錄體系的元數(shù)據(jù)(包括溯源元數(shù)據(jù))標(biāo)準(zhǔn)和基于元數(shù)據(jù)的目錄聚合方法等。
(來稿時間:2018年9月)