劉桂鋒 陳書賢 劉瓊
關鍵詞:政府開放數(shù)據(jù);數(shù)據(jù)平臺;FAIR原則;數(shù)據(jù)科學;開放科學
數(shù)據(jù)資源作為重要的國家戰(zhàn)略性資源,是實現(xiàn)國家治理體系和治理能力現(xiàn)代化的重要基礎。伴隨我國信息化水平的日漸提高,政府、公眾和企業(yè)逐漸重視對政府數(shù)據(jù)資源的采集、共享、管理與利用?!笆奈濉币?guī)劃和2035遠景目標綱要強調,推動政府數(shù)據(jù)依法向社會開放,深化政府數(shù)據(jù)的開放利用??梢娬當?shù)據(jù)開放已成為我國的重要戰(zhàn)略。目前,各地政府已積極建設開放數(shù)據(jù)平臺整合政府數(shù)據(jù)資源,響應數(shù)據(jù)開放政策。然而,我國各地政府的開放資源建設工作進展不一,不利于構建整體的開放數(shù)據(jù)資源體系,缺乏指南性的數(shù)據(jù)管理政策予以指導。
當前,圍繞政府開放數(shù)據(jù)及平臺建設的研究集中在對國內外政府開放數(shù)據(jù)政策及特點的剖析,對政府開放數(shù)據(jù)平臺建設的策略探討和元數(shù)據(jù)方案比較,對政府數(shù)據(jù)開放成熟度及數(shù)據(jù)質量的評估等方面??傮w來說,當前的研究在探索數(shù)據(jù)政策、平臺建設方案、數(shù)據(jù)質量要求方面取得了一定進展,但對政府開放平臺的數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)獲取與利用情況缺乏系統(tǒng)的評估與分析,以至于仍存在元數(shù)據(jù)標準不統(tǒng)一、平臺可用性待提高、數(shù)據(jù)開放程度低等阻礙政府數(shù)據(jù)開放的問題。
FAIR原則意為可發(fā)現(xiàn)(Findable)、可訪問(Ac-cessible)、可互操作(Interoperable)和可重用(Reus-able),于2016年正式提出,旨在提高科學數(shù)據(jù)的透明度,促進科學數(shù)據(jù)的開放共享和管理利用。FAIR原則已不同程度的應用于各個領域,其15條細則簡明且可測量,能幫助人們在數(shù)據(jù)建設和管理的過程中監(jiān)測FAIR原則的實施情況,幫助數(shù)據(jù)達到最佳的利用和發(fā)現(xiàn)水平。目前,已有國際組織展開FAIR原則的評估工作,內容涉及FAIR評估工具的開發(fā)、評估方法的分析、FAIR評估框架的構建。這其中,通用的FAIR評估框架適用于各領域內的數(shù)據(jù)評估,能解決數(shù)據(jù)管理中的諸多問題。FAIR Metric工作組早期提出14條核心FAIR評估指標,給不同學術領域評估其數(shù)據(jù)資源提供參考:RDA發(fā)布FAIR數(shù)據(jù)成熟度模型,進一步豐富了評估指標體系并公開使用;此后FAIRsFAIR、歐洲開放科學云等組織都陸續(xù)發(fā)布了FAIR評估指標體系。
為了實現(xiàn)政府開放數(shù)據(jù)平臺的規(guī)范化建設,促進政府數(shù)據(jù)的發(fā)現(xiàn)和利用,進一步優(yōu)化解決制約政府數(shù)據(jù)開放的問題,評估政府數(shù)據(jù)在可獲得性和可重用性等方面的現(xiàn)狀至關重要。國外組織提出的FAIR原則及評估框架,對我國政府開放數(shù)據(jù)平臺的管理和建設具有重要的指導意義。因此,本文通過借鑒國際上已有的代表性FAIR評估框架,嘗試構建適用于國內政府數(shù)據(jù)開放平臺的FAIR應用評估指標體系,并選擇8個代表性的國內外政府數(shù)據(jù)開放平臺展開調研分析.探索、對比FAIR原則的實施現(xiàn)狀,發(fā)現(xiàn)問題并提出FAIR應用建議,為國內政府開放數(shù)據(jù)平臺的數(shù)據(jù)開放和管理提供借鑒。
1FAIR評估指標體系的構架
FAIR原則發(fā)布以來,為了評估數(shù)據(jù)資源的FAIR實施情況,相關組織展開了評估工作,提出了通用于不同學科領域的評估指標體系。本文選取4種較為權威且具有代表性的FAIR評估指標體系框架作為參考,對比分析其各自的特點和側重點,選取適用于政府開放數(shù)據(jù)平臺的指標,并進一步增加、刪減、合并,最終構建政府開放數(shù)據(jù)平臺FAIR原則評估指標體系。
1.1FAIR評估指標代表性框架
FAIR原則15條細則之間相互關聯(lián),但又相互獨立且可分離,這些原則可以任意組合和逐步實踐,廣泛應用于數(shù)據(jù)開放領域。為了推動FAIR原則的落實,國際組織構建了很多具有實施意義的評估框架,其中代表性的主要有GO FAIR Metric Group提出的FAIR通用指標框架、RDA FAIR工作組發(fā)布的FAIR數(shù)據(jù)成熟度模型、FAIRsFAIR工作組開發(fā)的FAIR數(shù)據(jù)評估指標、EOSC FAIR工作組設計的可互操作框架。
1、)FAIR Metrics
GO FAIR Metric Group提出的FAIR Metrics指標框架是一個通用的FAIR評估模板,該框架針對FAIR原則的15條細則歸納出14條評估指標,對每條指標予以解釋并給出評估建議,由于指標概括性強,未設置具體分級,用戶可依據(jù)評估建議和自身理解靈活采納,評估實施存在一定的模糊性和不確定性。
2、)RDA
RDA FAIR數(shù)據(jù)成熟度工作組為了糾正對FAIR原則的不同理解而導致的評估偏差,針對每條FAIR細則提出了一至多條評估項,開發(fā)了41條通用核心評估指標,并設置了指標的優(yōu)先級順序,便于使用者確定指標的重要程度,增強了指標的可理解性和可實踐性。
3)FAIRsFAIR
FAIRsFAIR工作組在RDA FAIR數(shù)據(jù)成熟度指標框架、FAIRdat、FAIR Enough實施項目的基礎上,廣泛結合使用者的反饋,對RDA的評估指標進行了修改,合并為17條評估指標,并豐富了對指標的描述,加強了指標的可測試性。
4、)EOSC
EOSC FAIR工作組借鑒RDA FAIR成熟度模型,從中抽取相關指標制定了適用于EOSC數(shù)據(jù)集和數(shù)字對象的評估指標,重點解決互操作層面的技術、語義等問題,更強調評估對象的可互操作性。
對4種框架的比較分析如表1所示??傮w而言,評估指標的設計都基于FAIR原則的4個維度展開,4個評估框架僅針對FAIR細則設置一或多條評估指標,均未設置分級指標,也沒有展開具體的量化評估;各評估框架存在一定差異性,每個維度下分布的評估指標數(shù)量都不均衡,評估的側重點不同:評估框架各自存在優(yōu)點和局限性,需要不斷地進行調整和改進,以彌合實施差異。
在上述指標框架的基礎上開展FAIR原則的應用評估,有利于判斷數(shù)據(jù)平臺數(shù)據(jù)利用情況,發(fā)現(xiàn)數(shù)據(jù)在訪問、獲取、關聯(lián)應用方面存在的問題,幫助平臺明確優(yōu)化和改進方向。目前國內缺乏對FAIR原則應用評估的研究,F(xiàn)AIR原則有待進一步落實。國外的研究成果對構建政府開放數(shù)據(jù)平臺的FAIR原則評估指標體系提供了借鑒價值。
1.2評估指標選取及修正
國際上已有的評估指標體系為數(shù)據(jù)的FAIR化評估提供了可執(zhí)行的方案,但不同學科領域涉及的數(shù)據(jù)類型、標準、組織方式等不同,需要依據(jù)實際狀況和對指標的理解展開具體評估。如今政府數(shù)據(jù)依托政府開放數(shù)據(jù)平臺進行管理、組織、發(fā)布和共享,平臺建設較為成熟,數(shù)據(jù)開放程度較高,具有探索和評估價值?;谇拔膶AIR評估指標框架的對比分析,本研究借鑒了FAIR Metrics、RDA和FAIRsFAIR的部分指標,如表2所示,受篇幅所限在此對3個評估框架的具體指標不再展開描述。
FAIR Metrics的指標較為寬泛,評估結果難以確定,但其有高度的概括性和參考性,本文借鑒了其中的5個指標,分別是標識符的唯一性(FM-FIA)、標識符的持久性(FM-FIB)、元數(shù)據(jù)的長期保存(FM-A2)、使用知識表示語言(FM-11)和提供詳細的數(shù)據(jù)出處信息(FM-R1.2),5條指標準確概括了標識符的特點、元數(shù)據(jù)的保存機制、數(shù)據(jù)的標準化表示和數(shù)據(jù)溯源信息的重要性,在實際評估中不可或缺,在后續(xù)的指標體系中與RDA和FAIRs-FAIR中評估內容一致的指標進行了合并調整。
RDA的指標最為全面、拓展性極強,在實際應用中可以根據(jù)評估對象進行指標的靈活選擇。本文重點借鑒了RDA的如下指標:提供豐富元數(shù)據(jù)以支持數(shù)據(jù)發(fā)現(xiàn)(RDA-F2-01M)、元數(shù)據(jù)包含數(shù)據(jù)標識符(RDA-A1-OIM)、支持身份驗證和授權以訪問數(shù)據(jù)(RDA-A1. 2-01D)、元數(shù)據(jù)使用FAIR化詞匯表(RDA-12-OIM)等指標,這些指標準確表達了評估對象應具備的特點。此外,將多條RDA的指標進行了合并,如元數(shù)據(jù)可通過免費協(xié)議訪問(RDA-A1.1-01M)、數(shù)據(jù)可通過免費協(xié)議訪問(RDA-AI. 1-01D)兩條指標都是針對評估對象采用的訪問協(xié)議及其性質進行評估,核心評估內容一致,將其合為(元)數(shù)據(jù)標準化訪問協(xié)議;將元數(shù)據(jù)使用機器可理解的知識表示(RDA-11-01M)和數(shù)據(jù)使用機器可理解的知識(RDA-II -01D)合并為(元)數(shù)據(jù)的標準化表示。此外依據(jù)平臺的實際調研情況,將不符合或目前尚不具備評估條件以及評估內容泛化的指標進行剔除,如刪除了元數(shù)據(jù)可以手動訪問(RDA-A1-02M)和數(shù)據(jù)可以手動訪問(RDA-AI-02D)等由于實際情況難以評估的指標。EOSC的指標直接選自RDA的指標,僅將指標代碼做了修改,故不再納入指標借鑒來源。
FAIRsFAIR的指標在RDA的基礎上進行了合并、優(yōu)化與調整,指標設置更加科學,如為數(shù)據(jù)分配唯一標識符(FsF-FI-01D)這一指標是對為元數(shù)據(jù)分配唯一標識符(RDA-FI-01M)和為數(shù)據(jù)分配唯一標識符(RDA-FI-01D)的合并,不再對元數(shù)據(jù)和數(shù)據(jù)進行分別評估,極大提高了指標的可操作性,此外還有若干合并指標在此不再贅述。本研究重點借鑒了FAIRsFAIR中的如下指標:元數(shù)據(jù)包括描述性核心元素(FsF-F2-01M)、元數(shù)據(jù)可檢索(FsF-F4-01M)、通過標準化協(xié)議訪問元數(shù)據(jù)(FsF-A1-02M)、元數(shù)據(jù)包含數(shù)據(jù)的訪問級別和訪問條件(FsF-A1-01M),數(shù)據(jù)以標準文件格式提供(FsF-R1. 3-01M)等,其中有些指標和RDA的評估內容相似或重合,在后續(xù)指標體系中都予以保留。
1.3評估指標確定
綜合上述指標借鑒過程,共獲得表2所示的16條指標內容。進一步提取出指標的評估對象作為二級指標,如表2中F1與F2的評估對象都是標識符,故提取出標識符作為二級指標,按此合并共獲得13條二級指標,如表3所示。
在可發(fā)現(xiàn)維度下,歸納出F1標識符、F2元數(shù)據(jù)等4個二級指標。標識符是標識數(shù)據(jù)身份的一系列字符,通過檢索協(xié)議將數(shù)據(jù)與資源進行關聯(lián),標識符的永久性是確保數(shù)據(jù)發(fā)現(xiàn)的關鍵:元數(shù)據(jù)主要描述數(shù)據(jù)的屬性信息,在政府開放數(shù)據(jù)中,元數(shù)據(jù)是最重要的組成部分,它可以對政府開放數(shù)據(jù)進行描述、管理、利用和溯源,對政府開放數(shù)據(jù)的整合具有重要意義。
在可訪問維度下,歸納出A1訪問協(xié)議、A2訪問授權等4個二級指標。訪問協(xié)議通常制約著用戶對數(shù)據(jù)資源的獲取,開放且免費的訪問協(xié)議能極大提高數(shù)據(jù)資源的可獲取程度:由于政府數(shù)據(jù)有一定特殊性,部分數(shù)據(jù)資源的訪問通常設有一定限制,需要經過審核才能訪問。
在可互操作維度下,歸納出II(元)數(shù)據(jù)的標準化表示等3個二級指標,重點評估數(shù)據(jù)資源的格式是否機器可讀,數(shù)據(jù)描述詞匯是否源自FAIR詞匯表等。
可重用維度下,歸納出R1數(shù)據(jù)重用許可等兩個二級指標,主要評估是否為數(shù)據(jù)資源提供相應的重用許可聲明和使用權限:是否強調數(shù)據(jù)創(chuàng)建時的來源信息,以幫助用戶實現(xiàn)數(shù)據(jù)追溯。
由于二級指標僅說明了評估對象,三級指標對二級指標做了進一步細化和補充,闡釋了評估的具體內容,增強了指標的可理解性和可操作性,三級指標的內容主要參考了借鑒指標。需要說明的是,本文在三級指標的設置上進行了調整和補充:①指標F21在借鑒指標中屬于可重用維度,是元數(shù)據(jù)的重點評估內容,為了便于與元數(shù)據(jù)的其他評估內容一并分析,將其調整到二級指標F2元數(shù)據(jù)之下;②指標F41和F42均為補充指標,前者用于評估數(shù)據(jù)在搜索引擎中的檢索方式,后者用于判斷數(shù)據(jù)資源的存儲是否被國際通用倉儲認可;③指標A23是經過平臺實際調研,并考慮未來數(shù)據(jù)平臺的建設發(fā)展方向所補充,提供數(shù)據(jù)接口與否是影響數(shù)據(jù)訪問范圍的重要指標:④指標A31經過調整,將數(shù)據(jù)的開放條件納入評估,幫助用戶明確數(shù)據(jù)資源的訪問限制:⑤指標112在借鑒指標中屬于可重用維度,將其調整至可互操作維度二級指標I1之下,用以評估比較數(shù)據(jù)及元數(shù)據(jù)的標準格式:⑥對二級指標13進行了調整,主要評估數(shù)據(jù)資源之間的相互關聯(lián)情況,判斷能否實現(xiàn)數(shù)據(jù)的跨庫檢索,從而推動實現(xiàn)數(shù)據(jù)資源的互聯(lián)互通。經過上述的指標補充與修正,評估指標更加科學具體,由此形成了政府開放數(shù)據(jù)平臺FAIR評估指標體系,如表3所示。
2政府開放數(shù)據(jù)平臺的FAIR原則實證分析
本研究選取8個國內外政府開放數(shù)據(jù)平臺作為研究樣本探索FAIR原則實施情況,如表4所示,主要基于兩方面考量:一是所選國外平臺代表了國際上政府開放數(shù)據(jù)平臺建設的先進水平。美國最早建設并運行政府開放數(shù)據(jù)平臺,開辟了國家層面官方管理和共享政府數(shù)據(jù)的先例,具有較為健全的數(shù)據(jù)共享機制:歐盟數(shù)據(jù)開放門戶集合了歐盟各成員國的公共數(shù)據(jù),平臺建設在一定程度上遵循FAIR原則,有較大的借鑒和分析價值:加拿大和英國的政府開放數(shù)據(jù)平臺都擁有相對完善的數(shù)據(jù)開放體系。二是國內尚未建成國家層面的政府開放數(shù)據(jù)平臺,省、市級政府開放數(shù)據(jù)平臺更具代表性。4個國內平臺都在國家首批政府開放數(shù)據(jù)平臺建設之列,數(shù)據(jù)覆蓋面廣、體量大,有完善的數(shù)據(jù)發(fā)布與共享流程,用戶友好度更高。例如,上海市公共數(shù)據(jù)開放平臺建設目標是滿足公眾和企業(yè)對政府數(shù)據(jù)的“知情權”和“使用權”:廣東省政府開放平臺是“數(shù)字政府”建設的重要組成部分,也是政府面向社會的窗口。
2.1可發(fā)現(xiàn)維度的實證分析
1)標識符
FAIR原則強調為數(shù)據(jù)分配唯一、永久且可解析的標識符,以便于數(shù)據(jù)資源的發(fā)現(xiàn)、管理、引用和鏈接。國際上通用的永久性標識符包括數(shù)字對象標識符DOI、存檔資源密鑰ARK、持久性統(tǒng)一資源定位器PURL等。在8個調研平臺中,僅有3個國外平臺采用了通用型標識符,5個平臺采用本地標識符。其中歐盟、美國和英國都采用統(tǒng)一資源定位符(URL),能唯一標識數(shù)據(jù)資源的位置,可以通過鏈接直接訪問數(shù)據(jù)資源。美國和英國的部分數(shù)據(jù)集使用通用唯一識別碼(UUID)進行標識,用以確保數(shù)據(jù)資源的唯一性,加拿大平臺僅提供數(shù)據(jù)記錄ID標識數(shù)據(jù)身份,但不可解析。
國內平臺未采用國際通用型標識符方案,每個平臺都遵循各自的地方標準,采用由數(shù)字或字母組成的本地標識符來標識數(shù)據(jù)身份。如貴州平臺的數(shù)據(jù)標識符由數(shù)據(jù)類編號和順序碼共8位數(shù)字組成,上海市平臺數(shù)據(jù)標識符由前段碼和后段碼共12位數(shù)字和字母組合組成。雖然該類標識符保證了其系統(tǒng)內的唯一性,但不可解析,無法通過標識符直接訪問數(shù)據(jù),給數(shù)據(jù)的訪問造成了不便。
綜合來看,國內外的政府開放數(shù)據(jù)平臺都未采用通用的永久性標識符方案,國外平臺采用URL居多,但僅能保證數(shù)據(jù)的唯一性,也沒有覆蓋平臺的全部數(shù)據(jù),無法保證數(shù)據(jù)的長久有效性,一旦URL發(fā)生變化,指向的數(shù)據(jù)資源地址也會隨之失效。國內政府開放數(shù)據(jù)平臺未采用國際通用的永久型標識符方案,且平臺之間的標識符方案差異較大,不利于數(shù)據(jù)關聯(lián)、追溯和穩(wěn)定有效訪問。
2)元數(shù)據(jù)
在通過元數(shù)據(jù)描述各類資源的過程中,基于不同資源的不同特點,按照整合和共享的要求,需要制定通用的元數(shù)據(jù)標準,以科學、準確、全面的描述資源的屬性和特征。調研發(fā)現(xiàn),國外平臺多復用國際通用元數(shù)據(jù)標準中的元數(shù)據(jù)元素,如都柏林核心(DC)、DCAT、Schema. org、CKAN等,如表5所示。英國還采用了空間元數(shù)據(jù)標準GEMINI,用以描述數(shù)據(jù)的空間范圍。國內平臺基于國家發(fā)改委、中央網信辦發(fā)布的《政務信息資源目錄編制指南(試行)》,出臺了地方標準或自定義元數(shù)據(jù)方案,來規(guī)范元數(shù)據(jù)的構成。
各平臺數(shù)據(jù)資源的元數(shù)據(jù)描述內容都較為豐富,除了涵蓋名稱、標識符、主題、描述、關鍵詞、提供方、發(fā)布日期、更新日期、聯(lián)系方式、更新頻率等核心元數(shù)據(jù)外,還增加了許多其它類型的元數(shù)據(jù),按其功能可劃分為描述性元數(shù)據(jù)、管理性元數(shù)據(jù)、利用性元數(shù)據(jù)和溯源元數(shù)據(jù)。在描述性元數(shù)據(jù)中,又可分為時空描述元數(shù)據(jù)(如時間范圍、空間范圍)、數(shù)據(jù)描述元數(shù)據(jù)(如數(shù)據(jù)格式、媒體類型、數(shù)據(jù)量)、責任描述元數(shù)據(jù)(如資源狀態(tài)、數(shù)據(jù)維護方)等,全面準確的概括了數(shù)據(jù)資源的特征。5個平臺提供管理型元數(shù)據(jù),如訪問權限、許可證等,便于用戶明確數(shù)據(jù)使用范圍。7個平臺提供利用性元數(shù)據(jù),如開放類型、開放等級、訪問/下載次數(shù)等,便于用戶了解該數(shù)據(jù)集的使用情況。所有平臺都提供溯源元數(shù)據(jù),如更新日期、架構版本、最后更新日期等,以支持數(shù)據(jù)的溯源。國內平臺增設了符合政府開放數(shù)據(jù)特點的專用元數(shù)據(jù),如上海市平臺增加了描述數(shù)據(jù)應用場景、國家主題分類、部門主題分類的元數(shù)據(jù)描述項,廣東省增加了描述數(shù)據(jù)的所屬行政事項和所屬行政區(qū)域的元數(shù)據(jù)描述項,體現(xiàn)了較為鮮明的政府數(shù)據(jù)特色。
3)搜索引擎可檢索
如表6所示,8個平臺均提供豐富的檢索方式幫助數(shù)據(jù)發(fā)現(xiàn),如美國平臺提供按主題、標簽等檢索方式,歐盟平臺提供目錄檢索,上海市平臺提供高級篩選,貴州省平臺支持按場景和部門進行檢索。檢索方式的多樣化和簡單易行能幫助用戶更便捷的獲取數(shù)據(jù)。FAIRsharing和Re3data是國際權威的數(shù)據(jù)倉儲目錄,在其中注冊并通過認證的數(shù)據(jù)平臺和存儲庫高度開放且更加標準化。在8個調研平臺中,4個國外平臺均同時注冊于FAIRsharing和Re3data,4個國內平臺在FAIRsharing和Re3data中均未注冊,由此反映出我國的政府開放數(shù)據(jù)平臺有待進一步獲取國際權威倉儲的認可。
數(shù)據(jù)的發(fā)現(xiàn)是數(shù)據(jù)利用的前提,國內外的政府數(shù)據(jù)平臺通過規(guī)范數(shù)據(jù)標識符的使用、遵循相應的元數(shù)據(jù)標準和優(yōu)化數(shù)據(jù)的檢索來支持數(shù)據(jù)的發(fā)現(xiàn)。但相較于國外平臺,國內平臺尚未采用永久性標識符,不利于數(shù)據(jù)的長期有效訪問;在元數(shù)據(jù)方面,國內各平臺間的元數(shù)據(jù)標準不統(tǒng)一且不完善,與國際成熟的元數(shù)據(jù)標準存在一定差距:國外平臺廣泛注冊于國際認可的通用倉儲,擴大了平臺的影響力,易于用戶發(fā)現(xiàn)數(shù)據(jù),國內平臺在此方面有待加強。
2.2可訪問維度實證分析
1)訪問協(xié)議
調研發(fā)現(xiàn),僅有貴州省平臺采用超文本傳輸協(xié)議(HTTP),其余7個平臺的數(shù)據(jù)服務都依靠超文本傳輸安全協(xié)議(HTTPS)來實現(xiàn),該協(xié)議在超文本傳輸協(xié)議(HTTP)的基礎上通過傳輸加密和身份認證保證了傳輸過程的安全性,兼具數(shù)據(jù)保密性、數(shù)據(jù)完整性和身份校驗安全性,支持任何用戶在線訪問、獲取數(shù)據(jù),由此可見,政府開放數(shù)據(jù)平臺已經初步具備了標準化的安全協(xié)議環(huán)境。此外,常用的應用層訪問協(xié)議還包括文件傳輸協(xié)議(FTP)、簡單文件傳輸協(xié)議(TFTP)等,支持用戶獲取和傳輸格式大小不同的文件,擴大數(shù)據(jù)的共享范圍。
2)訪問授權
政府數(shù)據(jù)因為其特殊性,部分數(shù)據(jù)需要有限開放,因此政府數(shù)據(jù)平臺要明確相關使用條款和服務協(xié)議。從調研情況來看,各平臺都聲明了訪問平臺須遵循的用戶訪問條款,歐盟、美國、英國都發(fā)布了平臺免責聲明、隱私策略,加拿大聲明訪問平臺的條款和條件。上海市聲明平臺用戶使用條款和免責聲明,廣東省明確用戶服務協(xié)議,浙江省和貴州省都聲明了用戶訪問條款。
在注冊與授權方面,8個平臺都無需注冊即可實現(xiàn)平臺數(shù)據(jù)的瀏覽和訪問,部分元數(shù)據(jù)和數(shù)據(jù)可以直接下載獲取。對于一些受限訪問的數(shù)據(jù)和服務,平臺設置不同的訪問層級和授權機制,如歐盟平臺的非公開數(shù)據(jù)必須登陸后才能進一步訪問,上海市平臺中有條件開放的數(shù)據(jù)需要登錄并完成身份認證,經申請通過后訪問,浙江省平臺的數(shù)據(jù)必須登陸后才能下載。數(shù)據(jù)的獲取也并不都是免費的,如上海市平臺在其收費政策中明確聲明部分數(shù)據(jù)加工產品需要付費訪問。
8個平臺都提供API接口服務以支持數(shù)據(jù)的調用,用戶可依據(jù)指定的接口調用格式,從指定接口地址獲取實時動態(tài)的海量數(shù)據(jù)。國外平臺如歐盟平臺提供SPARQL、MQA等API接口來讀取元數(shù)據(jù),美國平臺提供CKAN API調用元數(shù)據(jù),國內平臺提供分頁API、用戶API等多種API類型,各平臺都明確API使用說明或提供使用文檔。值得注意的是,國外平臺支持API免申請調用,用戶可以不受限制的獲取所需數(shù)據(jù),國內平臺多數(shù)需要進行實名認證后申請調用,普通用戶沒有調用權限,僅有貴州省平臺支持在線接口調用。API服務極大提高了數(shù)據(jù)的可訪問范圍,為用戶獲取數(shù)據(jù)帶來便利。
3)訪問級別和開放條件
訪問級別和條件是支持用戶獲取數(shù)據(jù)的必要信息。不同平臺的數(shù)據(jù)訪問級別略有差異,如表7所示。美國平臺的數(shù)據(jù)分為公開訪問、受限訪問和非公開訪問3個級別,歐盟平臺設置公開訪問和受限訪問兩個級別,加拿大平臺和英國平臺對此未作明確聲明。公開訪問的數(shù)據(jù)通常不設置訪問條件,數(shù)據(jù)集往往在公共領域內發(fā)布,支持用戶的直接訪問,且提供明確的許可信息;受限訪問的數(shù)據(jù)經用戶授權后才能進一步訪問。國內4家平臺在數(shù)據(jù)集界面明確聲明數(shù)據(jù)的訪問級別,依據(jù)數(shù)據(jù)開放條件分為有條件訪問和無條件訪問,上海市平臺還明確注明了數(shù)據(jù)的訪問條件。由此可見,國內平臺的訪問級別設置和訪問條件聲明比國外平臺更加清晰完善。
4個平臺采用星級評分法評估數(shù)據(jù)集的開放程度,星級越高,代表數(shù)據(jù)開放水平越高,1個平臺采用5分量表法,開放水平越高則分數(shù)越高。此外,國內平臺還注明了訪問部分數(shù)據(jù)需要滿足的一定條件或獲取途徑,國外平臺對此尚無明確說明。
4)(元)數(shù)據(jù)存儲方案
在各平臺的數(shù)據(jù)存儲方案中,歐盟提供持久URI資源方案,通過Gitlab存儲庫保障數(shù)據(jù)的穩(wěn)定存儲;英國借助Github存儲庫存儲數(shù)據(jù),未聲明存儲方案的永久性;美國搭建resources. data. gov作為聯(lián)邦企業(yè)數(shù)據(jù)資源的中央存儲庫,并未聲明數(shù)據(jù)永久性存儲方案。
國內僅有貴州省出臺數(shù)據(jù)存儲規(guī)范地方標準,規(guī)定結構化數(shù)據(jù)統(tǒng)一存人如MySQL的數(shù)據(jù)庫中,半結構化數(shù)據(jù)應轉換成結構化數(shù)據(jù)再統(tǒng)一存入存儲庫,非結構化數(shù)據(jù)采用文件形式存儲等。其余平臺未提供關于數(shù)據(jù)存儲機制的詳細說明。
數(shù)據(jù)的可訪問程度決定了數(shù)據(jù)可利用的范圍??傮w而言,用戶可以瀏覽并訪問免費開放的政府平臺中的大部分數(shù)據(jù);在數(shù)據(jù)的下載獲取方面,國內外平臺都設置了相關授權機制來賦予用戶相應的訪問權利,部分國外平臺數(shù)據(jù)可以直接下載,國內平臺通常需要注冊后才能下載數(shù)據(jù),某種程度上給用戶帶來了不便:多數(shù)平臺明確數(shù)據(jù)的訪問級別,并采用評分法展示平臺的數(shù)據(jù)開放程度,幫助用戶了解所需數(shù)據(jù)的開放情況:在數(shù)據(jù)的存儲方案上,多數(shù)平臺并未公開說明數(shù)據(jù)存儲機制,數(shù)據(jù)的長期穩(wěn)定保存需要進一步的保障。
2.3可互操作維度實證分析
1)(元)數(shù)據(jù)的標準化表示
使用形式化的知識表示語言來描述元數(shù)據(jù)能提高機器可讀性并實現(xiàn)數(shù)據(jù)交換。常見的知識表示語言的例子有RDF、XML和OWL等,可以提高異構系統(tǒng)間的互操作性。調研發(fā)現(xiàn),歐盟平臺在其數(shù)據(jù)集界面的“鏈接數(shù)據(jù)”選項中提供RDF/XML的元數(shù)據(jù)格式,加拿大平臺也支持元數(shù)據(jù)以XML格式下載。此外,美國平臺在數(shù)據(jù)集界面提供機器可讀的JSON元數(shù)據(jù)格式,可以在多種語言之間進行數(shù)據(jù)交換,同時也易于機器解析和生成。相比之下,國內4家平臺都采用面向瀏覽者閱讀的HTML網頁格式呈現(xiàn)元數(shù)據(jù)內容,是一種非機器可讀的格式,用戶無法直接下載并獲取元數(shù)據(jù)。
在數(shù)據(jù)文件格式方面,8個平臺都提供開放數(shù)據(jù)格式如JSON、RDF、XML,這類數(shù)據(jù)格式機器可讀性強,支持跨平臺的數(shù)據(jù)調用和溯源。國外平臺提供的數(shù)據(jù)格式普遍較為豐富,如歐盟、美國、加拿大提供近20種數(shù)據(jù)格式類型,覆蓋結構化、半結構化和非結構化的數(shù)據(jù)。相比之下,國內平臺提供的數(shù)據(jù)格式種類少,每個平臺最多提供5~6種數(shù)據(jù)格式類型,數(shù)據(jù)格式有待進一步豐富,以滿足不同用戶的需求。
2)FAIR受控詞表的使用
在4個國外平臺中,美國采用DCAT詞匯標準,提供數(shù)據(jù)目錄、數(shù)據(jù)和元數(shù)據(jù)與復用標準的映射;歐盟基于W3C開發(fā)的數(shù)據(jù)目錄詞匯表(DCAT)的規(guī)范提出DCAT應用程序配置文件(DCAT-AP),此應用程序配置文件是元數(shù)據(jù)記錄的規(guī)范,以滿足歐洲數(shù)據(jù)門戶的特定應用程序需求,同時在重用已建立的受控詞匯表(例如EuroVoc)和映射到現(xiàn)有元數(shù)據(jù)詞匯表(如都柏林核心、SDMX、INSPIRE元數(shù)據(jù)等)的基礎上提供與其他應用程序的語義互操作:英國接受來自CKAN和DCAT詞匯表中的元數(shù)據(jù)字段,并建立相關映射。
國內4個平臺都發(fā)布了數(shù)據(jù)集元數(shù)據(jù)描述的規(guī)范性文件,各自界定了平臺采用的核心元數(shù)據(jù)元素,但平臺間的元數(shù)據(jù)描述內容并未達成統(tǒng)一,也未引入語義資源,不利于數(shù)據(jù)的互操作。
3)數(shù)據(jù)關聯(lián)及引用
歐盟平臺以超鏈接的形式提供相關數(shù)據(jù)集,并且明確數(shù)據(jù)引用格式:加拿大平臺在數(shù)據(jù)界面提供數(shù)據(jù)、元數(shù)據(jù)的下載或指向鏈接,同時以鏈接形式推薦相似數(shù)據(jù)集,部分數(shù)據(jù)支持預覽和可視化:英國平臺在元數(shù)據(jù)中提供指向數(shù)據(jù)集網頁的URL,同時提供相似數(shù)據(jù)集的鏈接,用戶可通過鏈接直接訪問數(shù)據(jù)資源,并支持數(shù)據(jù)預覽:美國平臺不提供與數(shù)據(jù)相關的數(shù)據(jù)資源信息。
上海市在元數(shù)據(jù)中提供樣例數(shù)據(jù)鏈接,用戶可預覽數(shù)據(jù);浙江省在數(shù)據(jù)界面提供數(shù)據(jù)關聯(lián)信息、相關數(shù)據(jù)和相關應用,用戶通過數(shù)據(jù)關聯(lián)信息訪問相關數(shù)據(jù),并了解數(shù)據(jù)應用在哪些方面,同時還提供數(shù)據(jù)預覽和數(shù)據(jù)圖譜服務,給用戶帶來了極大便利:廣東省在數(shù)據(jù)界面提供數(shù)據(jù)關聯(lián)信息,內容包括數(shù)據(jù)的省級部門、地市、API、APP;貴州省提供數(shù)據(jù)的關聯(lián)數(shù)據(jù)項。綜上可見,在數(shù)據(jù)關聯(lián)層面,多數(shù)平臺在元數(shù)據(jù)中提供關聯(lián)數(shù)據(jù)的鏈接,用戶可以直接訪問數(shù)據(jù)集,極大提高了數(shù)據(jù)的利用程度。不足的是,多數(shù)平臺皆未明確提供數(shù)據(jù)引用格式,給數(shù)據(jù)的再次利用造成了困難。
可互操作涉及語義與技術層面的數(shù)據(jù)系統(tǒng)建設理念。在數(shù)據(jù)的標準化表達方面,國外平臺采用了RDF、XML等描述資源間的關系的語義化表示語言,易于機器理解和解析,同時能實現(xiàn)異構系統(tǒng)之間的互操作,國內平臺尚未采用語義化語言來表示數(shù)據(jù)。相較于國外平臺,國內平臺未公布受控詞表的使用,在數(shù)據(jù)描述的規(guī)范性和開放性方面存在欠缺:在技術層面,互操作意味著不同系統(tǒng)間數(shù)據(jù)資源的互聯(lián),因此,在數(shù)據(jù)資源中嵌入相關資源的指向鏈接是實現(xiàn)系統(tǒng)間數(shù)據(jù)交互的渠道,在這一方面,國內平臺的建設普遍優(yōu)于國外平臺。
2.4可重用維度實證分析
1)數(shù)據(jù)使用許可
許可機制在政府數(shù)據(jù)開放中的作用至關重要。政府開放數(shù)據(jù)強調數(shù)據(jù)的共享與再利用,數(shù)據(jù)開放許可類型制約著數(shù)據(jù)的開放程度、利用方式和范圍。從調研情況來看,7個平臺都聲明了數(shù)據(jù)使用許可,如表8所示。國外平臺開放許可主要包括3種類型,即開放數(shù)據(jù)庫許可(ODb L)、知識共享一署名許可(CC-BY)、國家層面自定義的開放政府許可(OGL),數(shù)據(jù)資源的發(fā)布或利用嚴格按照標準執(zhí)行,數(shù)據(jù)的使用范圍和用戶責權清晰明確。除了以標準的格式提供數(shù)據(jù)使用許可外,部分平臺也支持使用數(shù)據(jù)提供商發(fā)布的數(shù)據(jù)使用條款,大部分數(shù)據(jù)受開放許可的保護。
目前,國內尚未制定官方出臺的、成文件的數(shù)據(jù)使用許可聲明,也沒有頒布針對數(shù)據(jù)庫的特別保護法,獨立的數(shù)據(jù)集不受法律層面保護。上海市平臺僅聲明開放數(shù)據(jù)使用條款和限制范圍,數(shù)據(jù)可用范圍尚不明晰:廣東省平臺未聲明詳細的數(shù)據(jù)使用許可;浙江省平臺提出開放授權許可使用協(xié)議,明確用戶使用數(shù)據(jù)的范圍:貴州省平臺聲明開放平臺數(shù)據(jù)資源使用承諾書,并隨數(shù)據(jù)集一起上傳,詳細說明了數(shù)據(jù)可用范圍??傮w而言,國內平臺缺乏權威且統(tǒng)一的數(shù)據(jù)使用許可標準,不利于數(shù)據(jù)的產權保護。
2)數(shù)據(jù)溯源
數(shù)據(jù)溯源是從源數(shù)據(jù)到數(shù)據(jù)產品的衍生過程信息,也是一種元數(shù)據(jù),用來記錄工作流演變過程、標準信息等,以確保數(shù)據(jù)的可靠性。一般而言,溯源信息包括數(shù)據(jù)的發(fā)布者、創(chuàng)建時間.數(shù)據(jù)來源、更新日期等,所調研的8個平臺都明確提供了這類信息。其中,歐盟平臺將W3C PROV本體(PROV-O)溯源標準與DCAT標準相結合,在元數(shù)據(jù)中明確定義溯源元數(shù)據(jù):美國平臺也單獨提供元數(shù)據(jù)創(chuàng)建日期、元數(shù)據(jù)更新日期、數(shù)據(jù)更新版本等溯源元數(shù)據(jù);在國內平臺中,僅浙江省平臺提供歷史數(shù)據(jù)下載,用戶可獲取當前數(shù)據(jù)的歷史版本,體現(xiàn)了當前數(shù)據(jù)與歷史數(shù)據(jù)間的溯源關系。不難看出,國外平臺已經開始將溯源元數(shù)據(jù)納入元數(shù)據(jù)標準并獨立提供,使數(shù)據(jù)溯源信息更加清晰明確,目前國內平臺尚未對溯源標準進行采納,僅在元數(shù)據(jù)中提供部分溯源信息。此外,尚未有平臺提供詳細的描述數(shù)據(jù)產生過程的信息,在溯源語義上存在欠缺,一定程度上限制對數(shù)據(jù)的追溯。
可重用能夠實現(xiàn)數(shù)據(jù)的反復利用,降低科學研究的成本,實現(xiàn)數(shù)據(jù)價值的最大化。明確的數(shù)據(jù)使用許可是保障數(shù)據(jù)可重用的關鍵,在這一方面,國外平臺已經頒布了官方的數(shù)據(jù)開放使用許可標準,明晰了數(shù)據(jù)共享方式、范圍和責權。國內目前尚未頒布統(tǒng)一的標準化數(shù)據(jù)使用許可,亟需出臺政府層面的數(shù)據(jù)使用許可來規(guī)范數(shù)據(jù)的共享與使用:數(shù)據(jù)溯源能實現(xiàn)數(shù)據(jù)歷史檔案的追溯,重現(xiàn)數(shù)據(jù)的歷史狀態(tài),有助于歷史數(shù)據(jù)的復用。國外平臺已采用溯源元數(shù)據(jù)標準并納入元數(shù)據(jù),而國內平臺在溯源元數(shù)據(jù)的提供與建設上仍處于起步階段。
3政府開放數(shù)據(jù)平臺FAIR原則應用建議
3.1可發(fā)現(xiàn)性建議
FAIR原則的首要原則是可發(fā)現(xiàn)原則,如果無法識別和查找數(shù)據(jù),則無從談論數(shù)據(jù)的訪問、互操作和重用。采用永久性標識符方案是提高數(shù)據(jù)發(fā)現(xiàn)和保障數(shù)據(jù)長久有效訪問的關鍵。政府開放數(shù)據(jù)平臺應明確聲明遵循的標識符方案和類型,積極采納永久性標識符如DOI、PID等,并將其納入元數(shù)據(jù)描述中。國內政府數(shù)據(jù)開放平臺可借鑒國家科學數(shù)據(jù)中心發(fā)布的科技資源標識符CSTR體系,推動建成政府開放數(shù)據(jù)的標識符標準體系,統(tǒng)一國內省、市、區(qū)各級政府開放數(shù)據(jù)平臺的標識符類型,形成標準的標識符規(guī)范。
在元數(shù)據(jù)標準方面,國外政府開放數(shù)據(jù)平臺多復用國際通用的元數(shù)據(jù)標準,核心元數(shù)據(jù)描述較為統(tǒng)一,國內雖出臺了政務元數(shù)據(jù)核心標準,但各平臺實施度不一,差異較大。我國政府應注重與國際元數(shù)據(jù)標準的對接,及時更新政務元數(shù)據(jù)標準文件,規(guī)范各類政府開放平臺元數(shù)據(jù)的構成,統(tǒng)一元數(shù)據(jù)描述內容,提高政府元數(shù)據(jù)質量。
3.2可訪問性建議
由于部分政府數(shù)據(jù)存在一定的敏感性,平臺應明確用戶訪問條款,幫助用戶明晰自身權限,同日寸出于數(shù)據(jù)安全的角度應完善用戶身份審核機制,并可以適當采取用戶分級策略,針對不同類型的用戶設置不同的訪問權限。對于受限訪問的數(shù)據(jù),應明確訪問條件和獲取途徑,為用戶獲取數(shù)據(jù)創(chuàng)造便利條件。目前國內外政府數(shù)據(jù)平臺皆提供較為成熟的API服務,擴大了用戶獲取數(shù)據(jù)的范圍,但國內平臺用戶調取API仍存在諸多限制,應進一步明確API的查看、使用和調用權限,降低用戶的使用難度,提升用戶的使用意愿,擴大數(shù)據(jù)的可訪問范圍。此外,政府開放數(shù)據(jù)平臺應聲明元數(shù)據(jù)的長期存儲機制和方案,確保數(shù)據(jù)在可靠的存儲庫中進行保存,保證數(shù)據(jù)的訪問不受時間限制,避免因意外丟失而造成數(shù)據(jù)無法訪問等情況。
3.3可互操作性建議
從調研結果來看,國外平臺無論是從(元)數(shù)據(jù)的標準化表示上,還是從FAIR受控詞表的使用上,都比國內平臺更加完善。知識表示對于元數(shù)據(jù)和數(shù)據(jù)的機器處理至關重要,并且能擴大數(shù)據(jù)交換的范圍?;谶@一點,國內政府平臺應支持元數(shù)據(jù)以語義化的格式進行表示,如RDF/XML、Turtle、JSON等,增強其機器可讀性和可互操作性。在元數(shù)據(jù)的組織上,可以擴充來自語義資源的術語如本體,語義資源可以經機器自動處理,能促進數(shù)據(jù)的自動搜索,增強異構數(shù)據(jù)的互操作性。在數(shù)據(jù)的關聯(lián)層面,將數(shù)據(jù)和其相關實體鏈接能夠增加其重用的可能性,鏈接信息應在元數(shù)據(jù)中提供。數(shù)據(jù)集可以鏈接到其先前版本、相關數(shù)據(jù)集或資源(如出版物、存儲庫、平臺等)。數(shù)據(jù)與其相關實體之間的聯(lián)系應通過關系類型如RDF來表示。
3.4可重用性建議
權威且機器可讀的數(shù)據(jù)使用許可能明確政府數(shù)據(jù)使用限制,增強政府數(shù)據(jù)使用的彈性,避免造成法律層面的侵權和其他使用風險,能夠真正落實政府開放數(shù)據(jù)原則,保障公眾在法律許可的最大范圍內對政府數(shù)據(jù)進行多元化的開發(fā)和利用。我國應結合政府開放數(shù)據(jù)平臺的現(xiàn)狀,盡快制定規(guī)范統(tǒng)一的官方數(shù)據(jù)使用許可聲明,并建立數(shù)據(jù)許可使用的審查機制,理清相關權利,確保數(shù)據(jù)開放許可實踐的真正落實。在數(shù)據(jù)溯源信息建設層面,已有國外平臺將W3C溯源工作組提出的溯源數(shù)據(jù)模型PROV-0與DCAT標準結合,將溯源元數(shù)據(jù)作為獨立的元數(shù)據(jù)描述內容,從而明確數(shù)據(jù)創(chuàng)建時以及數(shù)據(jù)在更新過程中的信息。國內政府數(shù)據(jù)平臺應完善對數(shù)據(jù)資源的溯源元數(shù)據(jù)描述,完善數(shù)據(jù)溯源規(guī)范,因此保障數(shù)據(jù)的可靠性,從而提升數(shù)據(jù)溯源的效率。
4總結與展望
FAIR原則是國際社會廣泛認可的科學數(shù)據(jù)管理原則,為科學數(shù)據(jù)的標識、溯源、共享和重用提供了指南,并逐漸應用于數(shù)據(jù)平臺的規(guī)范建設和管理。本文借鑒國外主要的FAIR原則評估框架,結合網絡調研,從可發(fā)現(xiàn)等4個維度出發(fā),構建了面向我國政府開放數(shù)據(jù)平臺的FAIR評估指標體系。該體系共包括13個二級指標和24個三級指標,旨在評估數(shù)據(jù)平臺的FAIR原則實踐現(xiàn)狀,判斷現(xiàn)有數(shù)據(jù)的開放水平。研究選取發(fā)展成熟的國內外政府開放平臺展開應用分析,以驗證評估體系的可行性。結果表明,本文所構建的評估體系能有效發(fā)現(xiàn)政府開放數(shù)據(jù)平臺在數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)訪問、數(shù)據(jù)互操作等方面存在的問題,并針對性地提出了優(yōu)化建議。
基于FAIR原則的政府開放平臺評估體系,能切實幫助研究人員、數(shù)據(jù)平臺的建設者等規(guī)范數(shù)據(jù)共享和利用的流程,完善標識符方案和元數(shù)據(jù)標準,健全數(shù)據(jù)互聯(lián)和重用機制,使數(shù)據(jù)不斷接近最佳發(fā)現(xiàn)和利用的狀態(tài)。但本文的研究仍存在一定局限性,一是評估對象的選取數(shù)量有限,未來有待進一步擴大評估樣本量以系統(tǒng)地發(fā)現(xiàn)問題。二是國內尚未將FAIR原則納入數(shù)據(jù)管理政策體系當中,F(xiàn)AIR原則有待進一步實施和落地。我國應從政策層面進一步落實FAIR原則,出臺對FAIR原則的支持政策,完善數(shù)據(jù)開放標準規(guī)范,健全數(shù)據(jù)共享機制,營造有效實施FAIR原則的數(shù)據(jù)管理環(huán)境,增加數(shù)據(jù)發(fā)現(xiàn)、訪問、交互和重用的可能性,推進數(shù)據(jù)要素價值體系建立,發(fā)揮數(shù)據(jù)要素的應有價值。