屈亞杰 黃國彬 王傳清
(1.北京舞蹈學院圖書館 北京 100081;2.北京師范大學政府管理學院 北京 100875;3.中國科學院文獻情報中心 北京 100190;4.富媒體數(shù)字出版內(nèi)容組織與知識服務重點實驗室 北京 100038)
科學數(shù)據(jù)(Scientific data)又稱“科研數(shù)據(jù)”、“研究數(shù)據(jù)”,是指在科研活動過程中產(chǎn)出的,能夠反映客觀世界本質(zhì)、特征及變化規(guī)律的原始數(shù)據(jù),以及根據(jù)科學研究活動需要而加工處理的數(shù)據(jù)集合[1]。數(shù)據(jù)密集型科學的發(fā)現(xiàn),使得科學數(shù)據(jù)的價值逐步凸顯,它不僅僅是研究產(chǎn)出,而且能夠驗證研究結(jié)果、佐證科學發(fā)現(xiàn),還會產(chǎn)生新的假設、新的科學問題,成為驅(qū)動創(chuàng)新的源泉。然而由于科學數(shù)據(jù)來源廣、數(shù)量大、種類多等特點,科學數(shù)據(jù)的獲取和處理已成為科研人員面臨的重大難題之一,而解決該難題的關鍵則是建設一個集數(shù)據(jù)存儲、描述、共享、獲取等功能于一身的科學數(shù)據(jù)發(fā)布平臺,至此,不同類型、各具特色的科學數(shù)據(jù)發(fā)布平臺應運而生[2]。其中,國家級科學數(shù)據(jù)發(fā)布平臺有:美國校際社會科學數(shù)據(jù)共享聯(lián)盟存儲庫(ICPSR)、美國國家冰雪數(shù)據(jù)中心(NSIDC)、英國數(shù)據(jù)存檔中心(UKDA)、英國海洋數(shù)據(jù)中心(BODC)、澳大利亞數(shù)據(jù)存儲庫(ADA)、德國地球環(huán)境科學數(shù)據(jù)存儲庫(PANGAEA)、DANS-EASY等;機構(gòu)級科學數(shù)據(jù)發(fā)布平臺有:明尼蘇達大學科學數(shù)據(jù)存儲庫(DRUM)、布里斯托大學科學數(shù)據(jù)存儲庫(DRDR)、利茲大學科學數(shù)據(jù)存儲庫(RDL Repository)、奧德姆研究所數(shù)據(jù)存儲庫(ODUM)、西澳大利亞數(shù)據(jù)存儲庫(RDO)、4TU科學數(shù)據(jù)存儲庫及我國的北京大學開放研究數(shù)據(jù)平臺、復旦大學社會科學數(shù)據(jù)平臺等,這些平臺具有采集、存儲、管理和發(fā)布數(shù)據(jù)等功能,在管理和共享科學數(shù)據(jù)方面發(fā)揮著重要作用。
關于科學數(shù)據(jù)發(fā)布平臺建設,學者們從多個角度開展了相關研究,包括平臺建設情況調(diào)查分析、平臺建設具體案例介紹、平臺內(nèi)容建設研究、不同平臺的比較研究、平臺的優(yōu)化與評價研究等。其中,與平臺內(nèi)容建設相關的研究可分為兩個方面:
(1)平臺內(nèi)容建設只是研究中的一部分內(nèi)容,比如在具體案例介紹、平臺比較時會涉及內(nèi)容建設問題。RADAR是一個跨學科的數(shù)字數(shù)據(jù)存儲庫,支持保存、管理和發(fā)布數(shù)據(jù),Kraft A等[3]對其建設現(xiàn)狀進行了調(diào)研分析,涉及數(shù)據(jù)范圍、元數(shù)據(jù)方案等內(nèi)容。王丹丹等[4]在介紹德國社會科學數(shù)據(jù)管理與服務平臺Sowi Data Net|Datorium的建設經(jīng)驗中提到了要重視數(shù)據(jù)質(zhì)量,指出該平臺對數(shù)據(jù)質(zhì)量有嚴格的控制,對提交的各類型數(shù)據(jù)都會進行數(shù)據(jù)本身、元數(shù)據(jù)及其附帶文檔的檢查。袁夢雪[5]從建設基礎和管理過程兩個維度對比國內(nèi)外11個健康醫(yī)學科學數(shù)據(jù)管理平臺的建設實踐,其中,在對比數(shù)據(jù)管理過程時闡述了數(shù)據(jù)采集標準與流程、數(shù)據(jù)描述與元數(shù)據(jù)、數(shù)據(jù)存儲與保護等內(nèi)容建設問題。湯子鈺等[6]選擇了20個國外代表性數(shù)據(jù)監(jiān)護平臺,對其使用的數(shù)據(jù)生命周期模型、技術規(guī)范、組件、軟件工具、功能等各方面進行了全面調(diào)研,并分析了數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)保存等內(nèi)容。
(2)專門探討平臺中某方面內(nèi)容建設問題,比如元數(shù)據(jù)管理、數(shù)據(jù)組織、資源建設模式等。針對Dryad科學數(shù)據(jù)倉儲的元數(shù)據(jù)管理,黃如花等[7]從元數(shù)據(jù)標準的選擇、元數(shù)據(jù)記錄的創(chuàng)建、元數(shù)據(jù)的收割以及元數(shù)據(jù)的復用等元數(shù)據(jù)生命周期的不同階段進行分析;Rousidis D等在對DC進行描述性分析的基礎上,闡釋了Dryad的主題元數(shù)據(jù)元素和數(shù)據(jù)質(zhì)量問題,并指出與缺乏受控詞匯和標準化相關的質(zhì)量問題非常普遍[8]。司莉等[9]從數(shù)據(jù)組織方式、數(shù)據(jù)描述、數(shù)據(jù)檢索等方面分析了國家科技基礎條件平臺項目下的6家科學數(shù)據(jù)共享平臺在數(shù)據(jù)組織方面的現(xiàn)狀、問題并提出改進建議。李贊梅等[10]總結(jié)了國家人口與健康科學數(shù)據(jù)共享平臺資源建設模式的四個特點,并分析該平臺資源建設在管理、標準化、規(guī)范化方面存在的主要問題。
已有研究從多角度探討了數(shù)據(jù)采集、數(shù)據(jù)組織、數(shù)據(jù)描述、數(shù)據(jù)保存等平臺內(nèi)容建設問題,但有的只屬于研究的其中一小部分,提及或涉及平臺內(nèi)容建設,但分析不夠深入;有的只是針對某方面內(nèi)容展開研究,分析不夠全面。因此,本文系統(tǒng)整理與分析平臺內(nèi)容建設應考慮的要素,力求全面、深入闡述科學數(shù)據(jù)發(fā)布平臺的內(nèi)容建設機制。
本文綜合采用文獻調(diào)研法、網(wǎng)站調(diào)研法、案例研究法等,結(jié)合國內(nèi)外發(fā)展較成熟的科學數(shù)據(jù)發(fā)布平臺建設實例,系統(tǒng)探討平臺的內(nèi)容建設機制。
文獻調(diào)研法是一種通過搜集各種文獻資料、摘取有用信息,分析有關內(nèi)容的研究方法,是科學研究中最常見的一種研究方法[11]。本文通過CNKI、萬方數(shù)據(jù)庫、超星發(fā)現(xiàn)平臺、Web of Science、ProQuest、EBSCO等多個數(shù)據(jù)庫,Google、Bing等搜索引擎進行相關文獻的檢索與搜集,對檢索到的文獻進行深入系統(tǒng)的分析,得出論文寫作的數(shù)據(jù)與素材。
網(wǎng)站調(diào)研法是一種通過訪問調(diào)查對象網(wǎng)站,獲得有用信息并對信息進行整理分析的方法。本文對國內(nèi)外發(fā)展較成熟、數(shù)據(jù)規(guī)模大、影響力大的科學數(shù)據(jù)發(fā)布平臺的官網(wǎng)進行訪問,如UKDA、ICPSR、BODC、NSIDC等,調(diào)研科學數(shù)據(jù)發(fā)布平臺在數(shù)據(jù)采集、數(shù)據(jù)分類、數(shù)據(jù)描述、數(shù)據(jù)質(zhì)量控制等內(nèi)容建設方面的零次信息。
案例研究法,是指研究者選擇一個或幾個場景為對象,系統(tǒng)地收集數(shù)據(jù)和資料,進行深入研究,用以探討某一現(xiàn)象在具體情境下的狀況[12]。本文以具體的科學數(shù)據(jù)發(fā)布平臺為例,如UKDA、ICPSR、BODC、NSIDC等,從數(shù)據(jù)采集、數(shù)據(jù)分類、數(shù)據(jù)描述、數(shù)據(jù)質(zhì)量控制等內(nèi)容建設角度加以分析和闡述。
科學數(shù)據(jù)發(fā)布平臺的內(nèi)容建設,指的是平臺對采集到的數(shù)據(jù)資源進行序化整理的過程,具體包括數(shù)據(jù)采集、數(shù)據(jù)分類、數(shù)據(jù)描述及數(shù)據(jù)質(zhì)量控制。內(nèi)容建設是科學數(shù)據(jù)發(fā)布平臺建設的核心,數(shù)據(jù)采集、數(shù)據(jù)分類、數(shù)據(jù)描述及數(shù)據(jù)質(zhì)量控制等流程是決定平臺建設質(zhì)量的重要步驟,也是環(huán)環(huán)相扣的整體。其建設機制如圖1所示。
圖1 科學數(shù)據(jù)發(fā)布平臺的內(nèi)容建設機制圖
科學數(shù)據(jù)發(fā)布平臺內(nèi)容建設的重要問題就是如何把不同層次的科學研究所產(chǎn)出的不同學科、不同類型、不同格式的數(shù)據(jù)采集成為本地資源,形成一個良好的科學數(shù)據(jù)管理與共享環(huán)境。所謂數(shù)據(jù)采集,指的是平臺建設者收集科學數(shù)據(jù)的過程,一般應考慮科學數(shù)據(jù)采集標準、采集渠道及采集范圍等因素。
3.1.1 數(shù)據(jù)采集標準
所謂數(shù)據(jù)采集標準,指的是平臺建設者采集科學數(shù)據(jù)時所應遵循的一些基本準則,符合基本準則的科學數(shù)據(jù)才被納入采集范圍。例如,ICPSR收集數(shù)據(jù)的標準如下:社會科學界重視的數(shù)據(jù)、支持其使命的數(shù)據(jù)、社會科學實質(zhì)領域的數(shù)據(jù)、有助于利用當前和新興研究和統(tǒng)計技術的數(shù)據(jù)及允許使用定量或定性社會科學研究技術的數(shù)據(jù)?;谶@些標準,ICPSR對多樣性數(shù)據(jù)、復雜數(shù)據(jù)、混合方法數(shù)據(jù)、跨學科數(shù)據(jù)及國際數(shù)據(jù)特別感興趣,同時,在其他地方不可獲取的數(shù)據(jù)、公共領域的數(shù)據(jù)、版權明確的數(shù)據(jù)、遵守隱私和保密標準的數(shù)據(jù)、技術文檔完整的數(shù)據(jù)、格式便于使用的數(shù)據(jù)是ICPSR優(yōu)先采集的數(shù)據(jù)[13]。ODUM收集數(shù)據(jù)時考慮如下因素:數(shù)據(jù)是否對社會科學研究具有實質(zhì)意義、數(shù)據(jù)是否對特定研究社區(qū)有持久的價值、數(shù)據(jù)是否是唯一的(即沒有存儲到另一個存儲庫中)、數(shù)據(jù)是否符合準確性和解釋性的質(zhì)量標準以及數(shù)據(jù)是否附有完整和可讀的文件[14]。不同科學數(shù)據(jù)發(fā)布平臺關于數(shù)據(jù)采集標準的具體規(guī)定存在差異,但總體來說,采集標準包括數(shù)據(jù)是否對科學研究具有重要價值、是否與平臺使命相契合、數(shù)據(jù)本身的完整準確性等方面。
3.1.2 數(shù)據(jù)采集渠道
數(shù)據(jù)采集渠道主要探討的是平臺建設者從哪里收集科學數(shù)據(jù)的問題。一般來說,科研人員或科研機構(gòu)是研究項目所產(chǎn)出科學數(shù)據(jù)的直接擁有者,而平臺所發(fā)布科學數(shù)據(jù)的主要使用者也是科研人員,因而科研機構(gòu)是平臺建設者采集數(shù)據(jù)的重要渠道。例如,BODC的數(shù)據(jù)主要來源于學術機構(gòu)的科學研究和檢測,如海岸、海底和深海測量數(shù)據(jù),地面取樣、水柱和海底測量數(shù)據(jù)[15]。由明尼蘇達大學圖書館建設和維護的科學數(shù)據(jù)發(fā)布平臺DRUM,其數(shù)據(jù)來源主要是本機構(gòu)內(nèi)研究人員的科研產(chǎn)出,該平臺在《數(shù)據(jù)收集政策》中明確規(guī)定,“所收集的數(shù)據(jù)必須至少由明尼蘇達大學的一位研究人員產(chǎn)出”[16]。很多研究項目的開展離不開科研資助機構(gòu)的資金支持,隨著科學數(shù)據(jù)價值的逐步凸顯和數(shù)據(jù)共享運動的影響,科研資助機構(gòu)紛紛要求由其資助而產(chǎn)生的科學數(shù)據(jù)要存儲到適合的平臺進行管理和共享,這在一定程度上拓寬了平臺建設者采集數(shù)據(jù)的渠道。例如,ICPSR與包括美國統(tǒng)計機構(gòu)和基金會在內(nèi)的許多資助者合作,收錄了教育、老齡化、刑事司法、藥物濫用、恐怖主義等21個專題的數(shù)據(jù)集,為社會科學研究提供數(shù)據(jù)支持[17]。另外,政府機構(gòu)也是平臺采集數(shù)據(jù)的重要渠道。例如,20世紀70年代以來,UKDA與英國政府機構(gòu)建立了長期的合作關系,政府機構(gòu)特別是中央政府機構(gòu)是系列數(shù)據(jù)(data series)的主要提供者,例如國家統(tǒng)計局(ONS)開展的一般家庭住戶調(diào)查(GHS)、勞動力調(diào)查(LFS)及英國健康調(diào)查(HSE)等所得到的普查和大型調(diào)查數(shù)據(jù),通常都是系列數(shù)據(jù),具有連續(xù)性。
總體來說,科研機構(gòu)、資助機構(gòu)和政府機構(gòu)是平臺采集科學數(shù)據(jù)的重要渠道,其中,國家級科學數(shù)據(jù)發(fā)布平臺的采集渠道較廣,三類機構(gòu)可能都會涉及;而機構(gòu)級科學數(shù)據(jù)發(fā)布平臺較少采集政府機構(gòu)數(shù)據(jù),一般來自于機構(gòu)內(nèi)研究人員。
3.1.3 數(shù)據(jù)采集范圍
數(shù)據(jù)采集范圍主要解決采集哪些數(shù)據(jù)的問題,它主要涉及數(shù)據(jù)的學科與格式方面的內(nèi)容,例如平臺應采集某類學科研究所產(chǎn)出的數(shù)據(jù),還是采集多學科數(shù)據(jù)?平臺所采集數(shù)據(jù)在格式方面有哪些要求?
在學科方面,不同類型的科學數(shù)據(jù)發(fā)布平臺采集數(shù)據(jù)時應考慮平臺的建設目標與使命。例如單一型發(fā)布平臺的建設目標主要是對某類科學數(shù)據(jù)進行存儲、管理與共享,因而收錄數(shù)據(jù)僅局限于某類學科,例如:BODC主要收錄生物、化學、物理領域的海洋數(shù)據(jù)、ICPSR重點采集社會與人文學科數(shù)據(jù);而混合型發(fā)布平臺的使命是實現(xiàn)對科學數(shù)據(jù)的監(jiān)護管理,因而在學科方面沒有設限,采集的數(shù)據(jù)涉及多個學科,如DANS-EASY收錄數(shù)據(jù)涉及的學科包括社會與行為科學、人文科學、自然科學、生命科學、地理科學等。
在格式方面,雖然自然科學和社會與人文科學的數(shù)據(jù)格式存在較大差異,比如調(diào)查統(tǒng)計數(shù)據(jù)通常是SPSS、SAS等格式,而海洋數(shù)據(jù)視圖則是ODV格式,但是在數(shù)據(jù)的格式要求方面有一些共同準則,即數(shù)據(jù)格式要適合長期可持續(xù)性和可訪問性。這是因為數(shù)字數(shù)據(jù)以文件格式存儲,一般是標準的軟件格式,而軟件程序存儲信息時,通常以該程序的標準文件格式保存,但是這并不能保證將來文件內(nèi)容可以按照文件創(chuàng)建時的預期方式使用或顯示。軟件可能會過時或只支持某些版本的格式,特定的格式屬性也可能只適用于所使用的軟件,而不是任何人都可以訪問。因而平臺采集科學數(shù)據(jù)時應優(yōu)先選擇通用的數(shù)據(jù)文件格式。例如,DANS-EASY采集科學數(shù)據(jù)時,重點選擇兩種文件格式類別:一種是首選格式,指的是在數(shù)據(jù)可用性、可訪問性和可持續(xù)性方面提供最佳長期保證的文件格式;另一種是可接受的格式,指的是除了首選格式之外廣泛使用的文件格式,并且從長遠來看,在數(shù)據(jù)可訪問性方面具有一定的保證。DANS-ESAY采集統(tǒng)計數(shù)據(jù)的首選格式包括SPSS Portable (.por)、SPSS (.sav)、STATA (.dta)、DDI (.xml)、data (.csv) + setup(.txt),可接受格式是SAS (.7dat; .sd2; .tpt)、R (*under examination)[18]。
采集數(shù)據(jù)是科學數(shù)據(jù)發(fā)布平臺內(nèi)容建設的重要步驟,而明確數(shù)據(jù)的采集標準、采集渠道及采集范圍是平臺建設者的基本職責。雖然在采集標準和采集范圍方面,不同類型科學數(shù)據(jù)發(fā)布平臺存在一些差異,但總體來說有一些共同的要求都需要遵循,比如采集標準應考慮數(shù)據(jù)是否對科學研究具有重要價值、是否與平臺使命相契合、數(shù)據(jù)本身的完整準確性等內(nèi)容,數(shù)據(jù)格式要適合長期可持續(xù)性和可訪問性。而數(shù)據(jù)的采集渠道一般包括科研機構(gòu)、資助機構(gòu)和政府機構(gòu),同時,從商業(yè)機構(gòu)處購買數(shù)據(jù)、定期審查學術刊物、關注專業(yè)的科學會議、參考會員機構(gòu)工作人員的建議等也是不可忽視的數(shù)據(jù)采集渠道。
數(shù)據(jù)分類,是指將平臺所采集的數(shù)據(jù)按照一定的方式進行組織整合,并在平臺首頁或檢索頁分門別類地呈現(xiàn)給用戶。該流程是對平臺數(shù)據(jù)的序化,使雜亂無章的各類數(shù)據(jù)有章可循,同時,對用戶而言,通過數(shù)據(jù)分類,一方面能夠快速了解平臺的資源概況,另一方面也能按類檢索,便于查找所需數(shù)據(jù)。
針對數(shù)字資源分類,研究人員已經(jīng)提出了多種方案,如按照資源類型、資源提供者、資源存儲介質(zhì)等[19]。從某種程度上來說,科學數(shù)據(jù)也是數(shù)字資源的一種,因而平臺建設者對其采集的科學數(shù)據(jù)分類時,可借鑒數(shù)字資源的分類方式。通過對國外建設較好的科學數(shù)據(jù)發(fā)布平臺數(shù)據(jù)分類方式的調(diào)研,發(fā)現(xiàn)主題與數(shù)據(jù)類型是劃分科學數(shù)據(jù)類別的主要方式。由于科學數(shù)據(jù)發(fā)布平臺的類型和性質(zhì)不同,因而即便都是按照主題對數(shù)據(jù)分類,在具體的分類角度方面也存在一些差異。比如,UKDA按照主題將數(shù)據(jù)分為老齡化、犯罪、經(jīng)濟、教育、環(huán)境和能源、種族、食品和食品安全、健康、住房、信息和交流、勞動力、政治及貧困等13個類別[20]。主要收集來自衛(wèi)星和實地觀測與冰凍圈有關的數(shù)據(jù)NSIDC按照主題,將采集的科學數(shù)據(jù)分為冰川、冰蓋、凍土、海冰、雪等類型[21]。在數(shù)據(jù)類型方面,DRUM將數(shù)據(jù)分為實驗數(shù)據(jù)、觀測數(shù)據(jù)、仿真數(shù)據(jù)、調(diào)查數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、空間數(shù)據(jù)、軟件代碼等類型[22]。ADA按類型將數(shù)據(jù)分為定量和定性數(shù)據(jù)[23]。ICPSR對其收錄的系列數(shù)據(jù)按照字順A-Z的方式進行展示,每個系列名稱后面標注出該系列研究數(shù)據(jù)的數(shù)量,供用戶瀏覽和檢索[24]。其中,系列數(shù)據(jù)指的是關于同一主題的系列研究所產(chǎn)生的數(shù)據(jù),該類研究數(shù)據(jù)一般會持續(xù)更新。例如美國住房調(diào)查(AHS),最初是由美國人口普查局于1973年開展。該系列包括兩類數(shù)據(jù)收集:全國住房調(diào)查和選定的大都市地區(qū)住房調(diào)查。其中,全國住房調(diào)查數(shù)據(jù)每兩年收集一次,大都市地區(qū)住房調(diào)查數(shù)據(jù)是連續(xù)收集的,每年報告一次。收集的數(shù)據(jù)不斷補充到美國住房調(diào)查數(shù)據(jù)中[25]。
另外,在進行數(shù)據(jù)分類時,地理區(qū)域、機構(gòu)、時間等角度也有所涉及。地理區(qū)域主要是指科學數(shù)據(jù)所涉及的國家或地方,ADA將地理區(qū)域分為歐洲、非洲、亞洲、北美洲、南美洲等[26]。ICPSR對地理區(qū)域的劃分比較詳細,按照字順A-Z的方式對國家進行了列舉[27]。西澳大利亞數(shù)據(jù)存儲庫(RDO)提供了按數(shù)據(jù)提交機構(gòu)展開分類的方式,這些機構(gòu)通常是西澳大利亞大學的子研究機構(gòu),如教育學院、法律系、農(nóng)業(yè)研究所、海洋研究所、地球科學學院等,點擊機構(gòu)名稱即可瀏覽該機構(gòu)所提交的科學數(shù)據(jù)[28]。利茲大學數(shù)據(jù)存儲庫(RDL Repository)從時間維度展開分類,按照由近及遠的方式予以展示,并在各年度后標注出相對應的數(shù)據(jù)集數(shù)量信息[29]。
總結(jié)來說,數(shù)據(jù)分類是平臺建設的重要環(huán)節(jié),而平臺建設者在對所采集數(shù)據(jù)進行分類時,可以考慮從科學數(shù)據(jù)的主題、類型、地理區(qū)域、機構(gòu)等角度展開。當然,由于每個平臺的建設目標、建設使命、收錄數(shù)據(jù)等具體情況不同,可以綜合使用多種分類方式,也可以僅采用某一種分類方式。例如,ICPSR是目前世界上最大的社會科學數(shù)據(jù)中心,維護50多萬條社會科學和行為科學研究數(shù)據(jù),其建設使命是成為全球數(shù)據(jù)管理的領先者,因而,ICPSR在對數(shù)據(jù)進行分類時,綜合使用了主題、類型、地理區(qū)域三種分類方式,并在檢索首頁以瀏覽的方式予以展示,方便用戶按類檢索。
數(shù)據(jù)描述,是指為滿足科學數(shù)據(jù)的組織需求,按照特定的標準規(guī)范,對科學數(shù)據(jù)的外在形態(tài)和內(nèi)部特征進行分析的過程。在這一過程中,元數(shù)據(jù)發(fā)揮著重要作用。所謂元數(shù)據(jù),即關于數(shù)據(jù)的數(shù)據(jù),它對信息資源或數(shù)據(jù)進行結(jié)構(gòu)化描述,具有識別、定位和檢索的作用。用于描述科學數(shù)據(jù)的元數(shù)據(jù)標準有很多,例如:都柏林核心元數(shù)據(jù)元素集(Dublin Core Elements Set, DC)、數(shù)據(jù)文檔計劃(Data Documentation Initiative, DDI)、目錄交換格式(Directory Interchange Format, DIF)、聯(lián)邦地理數(shù)據(jù)委員會數(shù)字地理空間元數(shù)據(jù)內(nèi)容標準(FGDC/CSDGM)等。它們可分為通用元數(shù)據(jù)標準和學科元數(shù)據(jù)標準。
3.3.1 通用元數(shù)據(jù)描述標準
通用科學數(shù)據(jù)元數(shù)據(jù)標準適用范圍較廣,可以對不同學科的科學數(shù)據(jù)進行描述,其元素設置具有可擴展性、彈性、模塊化和可移植性等特點。例如Dublin Core、DataCite Metadata Schema是應用較廣泛的通用科學數(shù)據(jù)元數(shù)據(jù)標準。其中,都柏林核心集最初是為了描述電子資源而產(chǎn)生的,但由于其簡明易用,加之OCLC的大力推廣及DC元素的不斷修正補充,其描述范圍不斷擴大,基本可適用于任何資源類型,并已經(jīng)被批準為國際標準ISO15836。它的15個核心描述項分別是題名(title)、創(chuàng)建者(creator)、主題(subject)、描述(description)、出版者(publisher)、其他責任者(contributor)、日期(date)、類型(type)、格式(format)、標識符(identifier)、語種(language)、來源(source)、關聯(lián)(relation)、覆蓋范圍(coverage)、權限(rights)等[30]。由于科學數(shù)據(jù)屬于電子資源的范疇,同時DC具有簡明易用、語義互用、兼容性、靈活性、全面性及可拓展性等優(yōu)勢,因而許多科學數(shù)據(jù)發(fā)布平臺在進行數(shù)據(jù)描述時優(yōu)先選擇元素完善且發(fā)展成熟的DC,例如英國海洋數(shù)據(jù)中心(BODC)、明尼蘇達大學科學數(shù)據(jù)存儲庫(DRUM)、布里斯托大學科學數(shù)據(jù)存儲庫(DRDR)、4TU科學數(shù)據(jù)存儲庫、DANS-EASY、利茲大學科學數(shù)據(jù)存儲庫(RDL Repository)等。其中,DANS-EASY對其所采集數(shù)據(jù)進行描述的元素項包括數(shù)據(jù)集標題、數(shù)據(jù)集產(chǎn)出者、數(shù)據(jù)集產(chǎn)出日期、數(shù)據(jù)集描述信息(如摘要)、數(shù)據(jù)集所屬學科、數(shù)據(jù)集地理范圍、數(shù)據(jù)集類型、數(shù)據(jù)集格式、數(shù)據(jù)集語言、數(shù)據(jù)集獲取權限等[31]。
3.3.2 學科元數(shù)據(jù)描述標準
學科元數(shù)據(jù)標準的適用范圍一般僅為某學科領域的科學數(shù)據(jù),例如DDI主要是用于描述社會、行為和經(jīng)濟科學數(shù)據(jù)的元數(shù)據(jù)標準,它以XML表示,支持整個科學數(shù)據(jù)生命周期[32]。FGDC/CSDGM是用于描述數(shù)字地理空間數(shù)據(jù)的元數(shù)據(jù)標準,由美國聯(lián)邦地理數(shù)據(jù)委員會提供支持[33]。
DDI以XML(可擴展標記語言)來表達數(shù)據(jù)文檔的內(nèi)容、表示、傳輸和保存的規(guī)范,XML允許對文檔內(nèi)容進行標記,以便在數(shù)據(jù)生命周期內(nèi)進行檢索和重新使用。其目的主要是用于描述社會科學數(shù)據(jù),該元數(shù)據(jù)標準中的元素很多,包括但不限于:主要調(diào)查者、資金來源、數(shù)據(jù)收集者/生產(chǎn)者、項目描述、樣本和取樣程序、權重、數(shù)據(jù)集的實質(zhì)性、時間性和地理覆蓋范圍、數(shù)據(jù)源、分析/觀察單位、變量、數(shù)據(jù)收集工具等。英國社會科學數(shù)據(jù)存儲庫(UKDA)、美國校際社會科學數(shù)據(jù)共享聯(lián)盟存儲庫(ICPSR)、奧德姆研究所社會科學數(shù)據(jù)存儲(ODUM)、澳大利亞科學數(shù)據(jù)存儲庫(ADA)等社會科學數(shù)據(jù)發(fā)布平臺傾向于應用DDI進行數(shù)據(jù)描述。例如,UKDA使用DDI創(chuàng)建的元數(shù)據(jù)記錄包括研究描述、數(shù)據(jù)文件描述和變量描述3部分。其中,研究描述是對數(shù)據(jù)收集背景的說明信息,包括研究和數(shù)據(jù)的參考引用書目信息、研究范圍(主題、地理位置、時間)、數(shù)據(jù)收集方法、樣本和處理過程、數(shù)據(jù)訪問信息等;數(shù)據(jù)文件描述是對數(shù)據(jù)本身的說明信息,如數(shù)據(jù)格式、數(shù)據(jù)文件類型、數(shù)據(jù)文件結(jié)構(gòu)、缺失數(shù)據(jù)、加權變量和軟件等[34]。FGDC數(shù)字地理空間元數(shù)據(jù)內(nèi)容標準旨在為數(shù)字地理空間數(shù)據(jù)集提供一套通用的術語和定義,它按照段(section)、復合元素(compound element)、數(shù)據(jù)元素(data element)進行組織,包括標識符信息、數(shù)據(jù)質(zhì)量信息、空間數(shù)據(jù)組織信息、空間參照信息、實體和屬性信息、數(shù)據(jù)分發(fā)信息、元數(shù)據(jù)參考信息等7個主要子集和引用信息、時間段信息及聯(lián)系信息等3個輔助子集。并對這些子集規(guī)定了三種性質(zhì),即必需提供、一定條件下必需提供及可選提供[35]。美國國家冰雪數(shù)據(jù)中心(NSIDC)和英國海洋數(shù)據(jù)中心(BODC)對其采集的數(shù)據(jù)進行描述時都應用了FGDC/CSDGM。例如,NSIDC在數(shù)據(jù)集描述頁面提供了概覽(overview)、引用(citing)、用戶指南(user guide)、技術參考(technical reference)及支持(support)等5個子集,其中“概覽”子集中,從參數(shù)、空間覆蓋范圍、空間分辨率、時間范圍、數(shù)據(jù)格式、傳感器、版本、數(shù)據(jù)貢獻者等角度描述科學數(shù)據(jù)[36]。
數(shù)據(jù)描述是平臺資源建設的核心環(huán)節(jié),其主要目的是對科學數(shù)據(jù)的相關信息予以揭示,從而便于用戶理解與重用??偨Y(jié)來說,科學數(shù)據(jù)的外在描述項包括數(shù)據(jù)標題、數(shù)據(jù)主要產(chǎn)出者、數(shù)據(jù)提交者、數(shù)據(jù)資助者、數(shù)據(jù)收集時間、數(shù)據(jù)發(fā)布時間等;內(nèi)在描述項包括數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)所屬學科、數(shù)據(jù)文件結(jié)構(gòu)等。因而在對科學數(shù)據(jù)進行描述時,這些核心元素項應重點關注。另外,由于平臺所收錄數(shù)據(jù)在學科、類型等方面存在差異,因而要根據(jù)具體情況選擇適合的元數(shù)據(jù)標準,比如單一型科學數(shù)據(jù)發(fā)布平臺最好選擇學科元數(shù)據(jù)標準。同時,元數(shù)據(jù)標準之間并不互斥,平臺在進行數(shù)據(jù)描述時可采用多個元數(shù)據(jù)標準,例如英國海洋數(shù)據(jù)中心(BODC)在應用地理空間數(shù)據(jù)方面元數(shù)據(jù)標準FGDC/CSDGM、DIF的同時,還參考應用了通用型元數(shù)據(jù)標準Dublin Core,共同揭示所收錄科學數(shù)據(jù)的內(nèi)外部特征。
平臺所發(fā)布數(shù)據(jù)質(zhì)量的好壞影響著研究人員對平臺的信任度,因而對數(shù)據(jù)進行質(zhì)量控制顯得至關重要。雖然關于數(shù)據(jù)質(zhì)量的定義有不同的界定,但總體來說,高質(zhì)量的數(shù)據(jù)應包含完整性、準確性、一致性、可靠性等特點。而數(shù)據(jù)質(zhì)量控制,指的是為確保平臺數(shù)據(jù)的完整性與長期可用性,在數(shù)據(jù)處理過程中,科學數(shù)據(jù)發(fā)布平臺的工作人員對所存儲數(shù)據(jù)從形式質(zhì)量和內(nèi)容質(zhì)量方面進行的一系列審核措施。具體而言,包括但不限于以下內(nèi)容:①審查數(shù)據(jù)集的完整性和準確性,包括數(shù)據(jù)文件和隨附文檔;②審查數(shù)據(jù)集的格式,確保數(shù)據(jù)文件和文檔文件采用在將來還可以打開和使用的格式;③審查數(shù)據(jù)集元數(shù)據(jù)的完整性和準確性;④審查數(shù)據(jù)文件和元數(shù)據(jù)中存在的隱私敏感信息。質(zhì)量審核的時間貫穿數(shù)據(jù)提交的全階段,自動審核通常發(fā)生在數(shù)據(jù)集提交過程中,人工審核通常在數(shù)據(jù)提交前或數(shù)據(jù)提交后[37]。
3.4.1 形式質(zhì)量控制
科學數(shù)據(jù)的形式質(zhì)量指的是與數(shù)據(jù)集外在形式有關的內(nèi)容,包括數(shù)據(jù)文件的可讀性、數(shù)據(jù)格式的長期性、數(shù)據(jù)描述信息的充分性等。它們對用戶理解科學數(shù)據(jù)、長期訪問和使用科學數(shù)據(jù)等發(fā)揮著重要作用,是平臺開展質(zhì)量控制工作的重要方面。由于形式質(zhì)量不涉及科學數(shù)據(jù)集本身,審核主體一般是平臺數(shù)據(jù)管理人員。例如,PANGAEA會對元數(shù)據(jù)的完整性和一致性進行檢查,以確保數(shù)據(jù)的技術質(zhì)量。研究人員在將數(shù)據(jù)存入DANS-EASY后,工作人員將根據(jù)標準數(shù)據(jù)處理協(xié)議進行數(shù)據(jù)處理。該協(xié)議的目的是確保數(shù)據(jù)在長期內(nèi)可找到、可訪問和易于理解。審核的內(nèi)容包括:①文件的可讀性,包括審核上傳的數(shù)據(jù)集是否能夠打開、數(shù)據(jù)在傳輸過程中是否有損壞等;②文件格式,基于優(yōu)選文件格式的列表(a list of preferred file formats)進行審核,確保數(shù)據(jù)文件和文檔文件采用在將來還可以打開和使用的格式;③審核數(shù)據(jù)集元數(shù)據(jù)信息的完整性和準確性,并進行改進[38]。由于平臺數(shù)據(jù)有一部分是通過自存儲行為采集的,該類數(shù)據(jù)的描述性元數(shù)據(jù)一般由研究人員自行輸入,因而不可避免地會出現(xiàn)元數(shù)據(jù)質(zhì)量不合格的現(xiàn)象,基于此,對科學數(shù)據(jù)元數(shù)據(jù)信息的審核很有必要。例如,為了實現(xiàn)長期可用性和未來訪問的目的,BODC對數(shù)據(jù)描述信息的完整性做了規(guī)定,指出對于所有類型的數(shù)據(jù),都至少應提供如下元數(shù)據(jù)信息:①數(shù)據(jù)收集的位置:位置(最好是緯度和經(jīng)度)、高度/深度;②數(shù)據(jù)收集的時間(UTC日期或明確指定的時區(qū));③數(shù)據(jù)收集的方式(例如抽樣方法、儀器類型、分析技術);④數(shù)據(jù)收集的主體,包括研究發(fā)起人和主要研究人員的姓名和機構(gòu);⑤對數(shù)據(jù)做了什么(例如,應用的處理和校準細節(jié),用于計算派生參數(shù)的算法)[39]。
3.4.2 內(nèi)容質(zhì)量控制
科學數(shù)據(jù)的內(nèi)容質(zhì)量指的是數(shù)據(jù)集本身的質(zhì)量,數(shù)據(jù)集質(zhì)量包括技術質(zhì)量與科學質(zhì)量,其中技術質(zhì)量是指數(shù)據(jù)集本身的完整性和描述的充分性;科學質(zhì)量是指數(shù)據(jù)集收集方法的評價、科學數(shù)據(jù)的合理性和再使用的價值[40]。由于內(nèi)容質(zhì)量審核深入到數(shù)據(jù)集本身,專業(yè)性較強,審核主體除了平臺管理人員,還應有相應學科的數(shù)據(jù)專家,同時審核數(shù)據(jù)存在疑問時,應及時與數(shù)據(jù)創(chuàng)建者溝通聯(lián)系。這是因為無論是數(shù)據(jù)收集階段還是數(shù)據(jù)輸入或轉(zhuǎn)錄階段,數(shù)據(jù)創(chuàng)建者都有責任確保數(shù)據(jù)的高質(zhì)量。國外建設較好的科學數(shù)據(jù)發(fā)布平臺在內(nèi)容質(zhì)量控制方面的經(jīng)驗值得借鑒。例如,為了確保變量和值的準確性,UKDA在處理過程中對所存儲數(shù)據(jù)的內(nèi)容質(zhì)量進行審核,包括檢查變量的數(shù)值、檢查缺失值或錯誤值、必須檢查所有分類變量的超范圍值、在可能的情況下必須檢查間隔變量是否違反機密性等[41]。ICPSR指出,在社會科學數(shù)據(jù)存儲中可能包含研究對象機密性信息的兩類變量分別是直接標識符和間接標識符,應重點審核。其中,直接標識符指的是明確揭示特定個人信息的變量,例如名稱、地址(包括郵政編碼)、電話號碼、社會安全號碼、駕駛證號碼等;間接標識符指的是與其他信息結(jié)合能夠揭示個人信息的變量,例如詳細的地理位置(如州、縣或人口普查區(qū))、教育機構(gòu)、詳細的職業(yè)頭銜、被調(diào)查者所在的辦公室等。ICPSR對于涉及個人信息的內(nèi)容會重新編碼以降低識別風險,如將詳細的日期轉(zhuǎn)換為時間間隔、詳細的地理信息編碼到更廣泛的層次或地理位置[42]。DANS-EASY的工作人員會對數(shù)據(jù)文件和元數(shù)據(jù)中是否存在隱私敏感數(shù)據(jù)進行審核,如果一個文件包含確切名稱和確切受訪者的出生日期,這些變量將被刪除。受訪者的確切聯(lián)絡資料也會被刪除,只會保留郵政編碼,確切的工作名稱也不會提供。然而,由于可以從工作分類推斷受訪者的工作,因此,一般情況下所有可識別受訪者個人信息的變量都將被刪除。具有隱私敏感性的數(shù)據(jù)集將僅以匿名格式提供[38]。
雖然目前對科學數(shù)據(jù)的審核不如學術論文嚴格與規(guī)范,暫時尚未形成同行評議的機制,但并不意味著任何數(shù)據(jù)都能夠被數(shù)據(jù)發(fā)布平臺接收。平臺的數(shù)據(jù)管理人員需要對科學數(shù)據(jù)的形式質(zhì)量和內(nèi)容質(zhì)量進行審核。對于內(nèi)容不完整、格式不通用、描述信息不充分的數(shù)據(jù),要及時與數(shù)據(jù)創(chuàng)建者聯(lián)系,對于涉及個人隱私信息的數(shù)據(jù),要采取重新編碼或刪除變量等措施降低識別風險。
本文系統(tǒng)整理與分析平臺內(nèi)容建設應考慮的要素,從數(shù)據(jù)采集、數(shù)據(jù)分類、數(shù)據(jù)描述及數(shù)據(jù)質(zhì)量控制等流程對科學數(shù)據(jù)發(fā)布平臺的內(nèi)容建設機制進行系統(tǒng)剖析。
研究發(fā)現(xiàn):①采集數(shù)據(jù)時應考慮數(shù)據(jù)是否對科學研究具有重要價值、是否與平臺使命相契合、數(shù)據(jù)本身的完整準確性等內(nèi)容,數(shù)據(jù)格式要符合長期可持續(xù)性和可訪問性等;科研機構(gòu)、資助機構(gòu)和政府機構(gòu)是采集科學數(shù)據(jù)的主要渠道。②平臺通常從科學數(shù)據(jù)的主題、類型、地理區(qū)域、機構(gòu)等角度對所采集數(shù)據(jù)進行分類,平臺建設者應結(jié)合建設目標、建設使命、收錄數(shù)據(jù)等具體情況,可以綜合使用多種分類方式,也可以僅采用某一種分類方式。③平臺建設者可根據(jù)所收錄數(shù)據(jù)的學科與類型來選擇適合的元數(shù)據(jù)標準。通常來說,科學數(shù)據(jù)的外在描述項包括數(shù)據(jù)標題、數(shù)據(jù)主要產(chǎn)出者、數(shù)據(jù)提交者、數(shù)據(jù)資助者、數(shù)據(jù)收集時間、數(shù)據(jù)發(fā)布時間等;內(nèi)在描述項包括數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)所屬學科、數(shù)據(jù)文件結(jié)構(gòu)等。在對科學數(shù)據(jù)進行描述時,這些核心元素項應重點關注。④平臺的數(shù)據(jù)管理人員須重視審核科學數(shù)據(jù)的形式質(zhì)量和內(nèi)容質(zhì)量。對于內(nèi)容不完整、格式不通用、描述信息不充分的數(shù)據(jù),要及時與數(shù)據(jù)創(chuàng)建者聯(lián)系,對于涉及個人隱私信息的數(shù)據(jù),要采取重新編碼或刪除變量等措施降低識別風險。