亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        國外數(shù)據(jù)知識庫模式的數(shù)據(jù)出版質(zhì)量控制實踐研究*

        2018-01-26 19:46:59涂志芳中國科學(xué)院文獻情報中心北京100190
        圖書館建設(shè) 2018年3期
        關(guān)鍵詞:知識庫質(zhì)量

        涂志芳 (中國科學(xué)院文獻情報中心 北京 100190)

        劉茲恒 (北京大學(xué)信息管理系 北京 100871)

        1 引 言

        科學(xué)數(shù)據(jù)或研究數(shù)據(jù)是產(chǎn)生或收集后有待進一步檢查并作為推理、討論或計算基礎(chǔ)的信息,尤其是事實或數(shù)字信息,如統(tǒng)計數(shù)據(jù)、實驗結(jié)果、測量結(jié)果、實地觀察記錄、調(diào)查結(jié)果、訪談記錄和圖像等[1],也是學(xué)術(shù)資源開放存取的重要組成部分和大數(shù)據(jù)時代數(shù)據(jù)開放共享的重要內(nèi)容范疇??茖W(xué)數(shù)據(jù)出版(data publishing)是學(xué)術(shù)共同體中的學(xué)術(shù)期刊、學(xué)術(shù)機構(gòu)或?qū)W術(shù)社群等主體從科學(xué)研究的角度對研究人員產(chǎn)生的科學(xué)數(shù)據(jù)及相關(guān)信息進行同行評審、編輯加工等,使之符合一定規(guī)范和標準并能為學(xué)術(shù)界方便地獲取和利用的過程[2]。較之于一般的數(shù)據(jù)開放和數(shù)據(jù)管理活動,數(shù)據(jù)出版在促進數(shù)據(jù)開放、共享的基礎(chǔ)上明確數(shù)據(jù)知識產(chǎn)權(quán)、保障數(shù)據(jù)質(zhì)量并建立數(shù)據(jù)與出版物的關(guān)聯(lián)[2]。

        研究者們通常將數(shù)據(jù)出版劃分為3種模式,即獨立的數(shù)據(jù)出版、作為論文輔助資料的數(shù)據(jù)出版、數(shù)據(jù)論文出版[3]?!蔼毩⒌臄?shù)據(jù)出版”是將數(shù)據(jù)作為獨立的信息對象提交到數(shù)據(jù)存儲系統(tǒng)進行處理、發(fā)布、傳播和利用,即本文所指的數(shù)據(jù)知識庫模式下的數(shù)據(jù)出版。數(shù)據(jù)知識庫(data repository)是為具有研究價值的數(shù)字對象提供長期監(jiān)護的存檔服務(wù),一般遵循開放檔案信息系統(tǒng)(Open Archival Information System,簡稱OAIS)參考模型的標準(ISO 14721:2003)[4]。數(shù)據(jù)質(zhì)量控制是使得數(shù)據(jù)知識庫模式下的數(shù)據(jù)出版達到“出版”標準的最有效方式之一,質(zhì)量控制貫穿于數(shù)據(jù)出版的全過程。

        本研究擬對數(shù)據(jù)質(zhì)量及數(shù)據(jù)質(zhì)量控制相關(guān)的概念、內(nèi)容、方法以及數(shù)據(jù)知識庫的質(zhì)量控制實踐進行研究回顧,然后以數(shù)據(jù)質(zhì)量控制的技術(shù)性、科學(xué)性、管理性3個層面為框架,分析數(shù)據(jù)知識庫內(nèi)容接收標準與用戶服務(wù)條款,從技術(shù)、科學(xué)層面以及管理和其他層面研究數(shù)據(jù)知識庫模式的數(shù)據(jù)出版質(zhì)量控制實踐,以期對國外數(shù)據(jù)知識庫模式的數(shù)據(jù)出版質(zhì)量控制實踐動態(tài)進行較為系統(tǒng)的梳理和揭示,為我國科學(xué)數(shù)據(jù)開放、數(shù)據(jù)知識庫發(fā)展及數(shù)據(jù)出版質(zhì)量控制等的研究與實踐提供參考。

        2 文獻回顧

        2.1 數(shù)據(jù)質(zhì)量含義、維度與標準

        數(shù)據(jù)質(zhì)量是一個多維度概念,可被描述為一組質(zhì)量特征的集合,也通常取決于對最終用戶目標實現(xiàn)產(chǎn)生的價值大小[5]。從質(zhì)量特征視角理解,數(shù)據(jù)質(zhì)量是數(shù)據(jù)所擁有的一系列與質(zhì)量相關(guān)的內(nèi)在與外在特征,如Gordon認為數(shù)據(jù)質(zhì)量是使數(shù)據(jù)適合特定用途的完整性、有效性、一致性、及時性和準確性的狀態(tài)[6]。從數(shù)據(jù)利用視角理解,數(shù)據(jù)質(zhì)量是滿足目標用戶的數(shù)據(jù)利用需求所具備的特點和由此所產(chǎn)生的價值,如Peer等將數(shù)據(jù)質(zhì)量定義為“對已知的數(shù)據(jù)重用而言數(shù)據(jù)的可獨立理解性”[7]。

        數(shù)據(jù)質(zhì)量包含多個維度的內(nèi)容,對應(yīng)不同的數(shù)據(jù)標準,可采用不同的研究思路與方法。一方面,可從全局角度構(gòu)建數(shù)據(jù)質(zhì)量框架再確定框架內(nèi)每一維度的質(zhì)量特征,如Wang和Strong構(gòu)建的數(shù)據(jù)質(zhì)量框架的4個維度及其質(zhì)量因素為:①內(nèi)在數(shù)據(jù)質(zhì)量,包括可信度、準確性、客觀性、聲譽;②語境數(shù)據(jù)質(zhì)量,包括增值性、相關(guān)性、時效性、完整性、適量性;③可表現(xiàn)性數(shù)據(jù)質(zhì)量,包括可解釋、易于理解、一致性、表達簡潔;④可訪問性數(shù)據(jù)質(zhì)量,包括可訪問性、訪問安全[8]。另一方面,也可從某一特定角度識別數(shù)據(jù)質(zhì)量的必備因素,如Hense等從數(shù)據(jù)管理角度總結(jié)數(shù)據(jù)質(zhì)量的3個關(guān)鍵因素為聲譽、可靠性和程序規(guī)范[9];英國皇家學(xué)會從開放科學(xué)事業(yè)的全局視角認為可獲取、可理解、可評估和可利用是開放數(shù)據(jù)必須具備的數(shù)據(jù)質(zhì)量[10]。另外,還有學(xué)者認為數(shù)據(jù)質(zhì)量受所使用數(shù)據(jù)標準的質(zhì)量(quality of data standards)影響,即提高某些數(shù)據(jù)標準的質(zhì)量便可能提高根據(jù)標準創(chuàng)建的數(shù)據(jù)質(zhì)量,并提出將完整性和相關(guān)性作為數(shù)據(jù)標準質(zhì)量的兩個重要元素[11]。

        2.2 數(shù)據(jù)質(zhì)量控制概念、內(nèi)容與方法

        數(shù)據(jù)質(zhì)量控制是使得數(shù)據(jù)達到特定標準、需求、期望的系列過程。例如,加拿大研究數(shù)據(jù)組織(Research Data Canada)認為“質(zhì)量保證”(Quality Assurance,簡稱QA)是用于測量和確保產(chǎn)品質(zhì)量的過程,而“質(zhì)量控制”(Quality Control,簡稱QC)是滿足消費者期望的產(chǎn)品和服務(wù)過程[4]。兩者的主要區(qū)別在于QA是過程導(dǎo)向,側(cè)重質(zhì)量建設(shè)以防止錯誤,是用正確的方式做正確的事;而QC是產(chǎn)品導(dǎo)向,側(cè)重質(zhì)量測試(如檢測錯誤),是確保所做的結(jié)果符合預(yù)期[12]。然而,在數(shù)據(jù)出版實踐過程中,人們往往并不對QA和QC進行嚴格區(qū)分[13],本研究所指“數(shù)據(jù)質(zhì)量控制”是在數(shù)據(jù)出版過程中采用一系列的方法建設(shè)、增強數(shù)據(jù)質(zhì)量或?qū)?shù)據(jù)質(zhì)量進行測試、改善以達到數(shù)據(jù)可以有效地被驗證和利用的狀態(tài)。

        數(shù)據(jù)質(zhì)量控制圍繞數(shù)據(jù)出版各項可能的內(nèi)容而展開,并且可以通過多種方法來實現(xiàn)。針對數(shù)據(jù)質(zhì)量控制的內(nèi)容,從數(shù)據(jù)出版流程看,涵蓋對數(shù)據(jù)計劃、收集、處理、分析、保存、出版/發(fā)表等生命周期環(huán)節(jié)的質(zhì)量控制,如Pampel等認為可從數(shù)據(jù)創(chuàng)建、數(shù)據(jù)管理及其計劃、數(shù)據(jù)質(zhì)量評估3個環(huán)節(jié)進行質(zhì)量控制[14];從數(shù)據(jù)質(zhì)量對象看,包含數(shù)據(jù)計劃、元數(shù)據(jù)、數(shù)據(jù)及其他數(shù)據(jù)相關(guān)文檔的質(zhì)量控制,如Austin等認為包含對元數(shù)據(jù)的準確性、數(shù)據(jù)文件與文檔的充分性、計算與分析結(jié)果的準確性等進行的評估[15];從數(shù)據(jù)質(zhì)量維度看,包含技術(shù)性質(zhì)量(technical quality)、科學(xué)性質(zhì)量(scientific quality)以及管理性質(zhì)量(curatorial quality)等主要維度[15],技術(shù)性質(zhì)量表現(xiàn)為數(shù)據(jù)格式的標準化、兼容性及元數(shù)據(jù)的完整性、準確性、真實性等特征,科學(xué)性質(zhì)量強調(diào)數(shù)據(jù)收集方法的評價、數(shù)據(jù)的合理性和再使用的價值,管理性質(zhì)量關(guān)注管理活動、水平、效果對數(shù)據(jù)知識庫質(zhì)量的影響,這3個維度的數(shù)據(jù)質(zhì)量控制也成為本文行文的參考框架。數(shù)據(jù)質(zhì)量控制方法包括數(shù)據(jù)評審、數(shù)據(jù)審查、數(shù)據(jù)確認、數(shù)據(jù)驗證等,可借助計算機技術(shù)、統(tǒng)計軟件、圖表工具或參照一般原理、科學(xué)邏輯、數(shù)據(jù)標準等實現(xiàn)。

        2.3 數(shù)據(jù)知識庫質(zhì)量控制實踐研究

        目前,學(xué)者們已經(jīng)對數(shù)據(jù)知識庫質(zhì)量控制的內(nèi)容、方法、問題等進行了研究。有的研究者通過案例分析歸納數(shù)據(jù)知識庫的質(zhì)量控制內(nèi)容及其存在的問題,如張靜蓓、任樹懷選取通用型知識庫Dryad、Dataverse、figshare和學(xué)科型知識庫ICPSR、SSDA、ISPS Data Archive進行分析,發(fā)現(xiàn)質(zhì)量控制的內(nèi)容包括文件整體質(zhì)量控制、文檔說明質(zhì)量控制、科學(xué)數(shù)據(jù)本身質(zhì)量控制、源代碼質(zhì)量控制等4個方面[16];而Gordon對Dryad的創(chuàng)建者、日期、類型這3個元數(shù)據(jù)元素進行統(tǒng)計分析,發(fā)現(xiàn)存在同一創(chuàng)建者姓名表述不統(tǒng)一、日期表達方式不統(tǒng)一、資源類型與事實不相符等問題,并建議加強對數(shù)據(jù)知識庫的元數(shù)據(jù)質(zhì)量控制[6]。

        有的研究者對3種數(shù)據(jù)出版模式的質(zhì)量控制分別進行研究,其中數(shù)據(jù)知識庫的質(zhì)量控制主要集中在技術(shù)層面,管理層面次之,科學(xué)層面的質(zhì)量控制較少。例如,王丹丹研究發(fā)現(xiàn)數(shù)據(jù)知識庫主要從技術(shù)標準層面對數(shù)據(jù)及數(shù)據(jù)文檔進行完整性的控制[17];孔麗華認為數(shù)據(jù)知識庫模式的數(shù)據(jù)出版主要從元數(shù)據(jù)、數(shù)據(jù)格式方面進行質(zhì)量控制,但目前相當一部分數(shù)據(jù)知識庫不進行同行評審或只進行內(nèi)部評審[18];屈寶強、王凱認為對數(shù)據(jù)知識庫進行技術(shù)審查能起到認證作用,對數(shù)據(jù)知識庫進行同行評審可以確認數(shù)字資產(chǎn)的完整性、評價數(shù)據(jù)集的完整性并評估數(shù)據(jù)文檔的完整性[19]。

        數(shù)據(jù)知識庫的數(shù)據(jù)質(zhì)量控制已經(jīng)引起了相當?shù)年P(guān)注與研究,但因數(shù)據(jù)本身的格式、學(xué)科差異等而導(dǎo)致的復(fù)雜性,現(xiàn)有標準、技術(shù)的欠缺或不完善,數(shù)據(jù)審查需要大量時間、精力投入等原因,數(shù)據(jù)知識庫模式的數(shù)據(jù)出版質(zhì)量控制仍存在一定的問題與困難,需要繼續(xù)思考研究和探索實踐。

        3 數(shù)據(jù)知識庫內(nèi)容標準與服務(wù)條款

        數(shù)據(jù)知識庫通常被劃分為通用型和學(xué)科型兩種類型,前者如figshare、Dryad、Zenodo等,后者如GenBank、ICPSR、IQSS Dataverse Network等。在接收數(shù)據(jù)、提供服務(wù)之前,數(shù)據(jù)知識庫往往面向用戶定義相關(guān)術(shù)語、公開數(shù)據(jù)選擇標準、發(fā)布內(nèi)容管理規(guī)則、說明利益相關(guān)方的權(quán)利與義務(wù)、公開收費標準、聲明隱私政策、說明遵循的版權(quán)許可、說明可能的質(zhì)量管理與控制辦法、提出可能面臨的問題與解決方案。

        3.1 通用型數(shù)據(jù)知識庫Dryad的案例概況

        Dryad源于進化生物學(xué)、生態(tài)學(xué)領(lǐng)域部分重要期刊和科學(xué)團體的倡議,現(xiàn)面向各個學(xué)科領(lǐng)域接收數(shù)據(jù)并提供服務(wù),實現(xiàn)提供基礎(chǔ)設(shè)施、促進數(shù)據(jù)重用的使命[20]。

        Dryad在闡明其理念、定位、功能的基礎(chǔ)上,制定了面向所有用戶的服務(wù)條款[21],其中與數(shù)據(jù)內(nèi)容接收相關(guān)的說明包括:①內(nèi)容必須與已發(fā)表的學(xué)術(shù)研究文檔相關(guān)聯(lián);②數(shù)據(jù)提交者必須是創(chuàng)建者、擁有者或擁有足夠的權(quán)利將數(shù)據(jù)在CC0 許可協(xié)議下被公開;③數(shù)據(jù)提交者聲明并保證所提交的數(shù)據(jù)符合對應(yīng)的格式和發(fā)布準則;④盡管Dryad也接收來自非同行評審出版物相關(guān)的數(shù)據(jù),但接收的大部分還是與同行評審出版物相關(guān)的數(shù)據(jù) ;⑤數(shù)據(jù)內(nèi)容的主要語言必須是英語,以便Dryad管理員進行有效評審和管理[22]。

        Dryad向提交者承諾在數(shù)據(jù)發(fā)布前后對數(shù)據(jù)進行審查和管理,主要包括[23-24]:①確認數(shù)據(jù)文件安全;②保障數(shù)據(jù)文件的學(xué)術(shù)性;③確認數(shù)據(jù)文檔元數(shù)據(jù)技術(shù)正確性;④確認管理元數(shù)據(jù);⑤確認所評審的數(shù)據(jù)文件是正確版本并檢查數(shù)據(jù)文件及元數(shù)據(jù)的更新情況;⑥確認提交的數(shù)據(jù)內(nèi)容適用于相應(yīng)的豁免規(guī)定或付款計劃;⑦注冊數(shù)據(jù)DOIs;⑧在內(nèi)容發(fā)布后解決引起管理者注意的問題。另外,Dryad還說明了其沒有義務(wù)但可以進行的審查,如個人信息、敏感信息、與CC0許可協(xié)議相沖突的內(nèi)容等,同時還明確表示不會進行的審查,如除必要的格式轉(zhuǎn)換外的其他內(nèi)容修改[23-24]。

        3.2 學(xué)科型數(shù)據(jù)知識庫ICPSR的案例概況

        政治與社會學(xué)研究校際聯(lián)盟(Inter-university Consortium for Political and Social Research,簡稱ICPSR)[25]始建于20世紀60年代,是世界知名的社會科學(xué)文獻網(wǎng)站和社會科學(xué)數(shù)據(jù)知識庫。

        ICPSR同樣遵循OAIS參考模型,對數(shù)據(jù)本身的價值判斷、數(shù)據(jù)選擇與評估有明確的標準[26]:(1)ICPSR要求提交的數(shù)據(jù)對社會科學(xué)研究有重要意義,包括對教學(xué)和研究的實質(zhì)價值、持久的檔案價值或數(shù)據(jù)本身具有獨特性,具體表現(xiàn)為:①數(shù)據(jù)應(yīng)有其使命;②數(shù)據(jù)屬于社會科學(xué)核心領(lǐng)域;③數(shù)據(jù)對當前和新興研究以及統(tǒng)計技術(shù)有用;④數(shù)據(jù)支持定量或定性的社會科學(xué)研究技術(shù)。(2)基于以上標準,ICPSR重點關(guān)注的數(shù)據(jù)及其特點為:①多樣性數(shù)據(jù),有助于加強對美國種族、少數(shù)族裔及其他邊緣化群體了解的數(shù)據(jù);②復(fù)雜數(shù)據(jù),來自縱向研究、調(diào)查研究和非標準類型的數(shù)據(jù),如生物數(shù)據(jù)、管理記錄、視頻數(shù)據(jù)、空間數(shù)據(jù)、遙感數(shù)據(jù)及關(guān)系數(shù)據(jù)等;③混合方法數(shù)據(jù),如可同時支持定性分析和定量分析的數(shù)據(jù),混合研究方法設(shè)計產(chǎn)生的數(shù)據(jù);④跨學(xué)科數(shù)據(jù),即來自跨學(xué)科研究的數(shù)據(jù)以及使用多學(xué)科研究方法進行研究所得的數(shù)據(jù);⑤國際數(shù)據(jù),即來自美國以外的研究數(shù)據(jù)和支持跨國比較的數(shù)據(jù),尤其是來自歸檔、傳播和保存功能不完善的國家或地區(qū)的研究數(shù)據(jù)。(3)符合以上標準和特點的數(shù)據(jù)將由ICPSR的工作人員進一步審查,并將具有以下便于公共獲取利用特點的數(shù)據(jù)優(yōu)先存檔:①數(shù)據(jù)在其他地方不可獲得或難以獲得;②數(shù)據(jù)屬于公共領(lǐng)域;③數(shù)據(jù)版權(quán)明確;④數(shù)據(jù)版權(quán)所有者同意ICPSR的傳播政策;⑤數(shù)據(jù)遵守隱私政策的保密標準;⑥數(shù)據(jù)技術(shù)文檔完整;⑦數(shù)據(jù)格式便于使用。

        4 數(shù)據(jù)知識庫模式的數(shù)據(jù)出版質(zhì)量控制:技術(shù)與科學(xué)層面

        數(shù)據(jù)知識庫本身并不產(chǎn)生數(shù)據(jù),而是與期刊出版商、學(xué)術(shù)社群、研究機構(gòu)、圖書館、資助機構(gòu)、研究團隊、個人等合作,接收來自這些合作方的數(shù)據(jù)并對元數(shù)據(jù)、數(shù)據(jù)格式、數(shù)據(jù)文檔等進行篩選與審查,以便后續(xù)的數(shù)據(jù)管理、存儲和發(fā)布。

        4.1 元數(shù)據(jù)

        科學(xué)數(shù)據(jù)元數(shù)據(jù)是關(guān)于科學(xué)數(shù)據(jù)內(nèi)容、質(zhì)量、條件狀態(tài)及其他特征的描述,具有數(shù)據(jù)管理(如元數(shù)據(jù)自動或半自動生成、互操作、安全)、數(shù)據(jù)質(zhì)量控制(如保障可驗證、可復(fù)制、可再生的質(zhì)量特征)、數(shù)據(jù)發(fā)現(xiàn)(如保障數(shù)據(jù)可發(fā)現(xiàn)、可識別、可選擇、可獲?。?shù)據(jù)利用(如可互通、可分析、可視化)等的功能[27]。數(shù)據(jù)知識庫接收到數(shù)據(jù)后,對照所采用的元數(shù)據(jù)標準方案對元數(shù)據(jù)進行檢查、修正和完善。

        4.1.1 元數(shù)據(jù)標準方案選擇與應(yīng)用

        數(shù)據(jù)出版所采用的元數(shù)據(jù)包括通用元數(shù)據(jù)標準和特定學(xué)科/行業(yè)的元數(shù)據(jù)標準,都柏林核心元數(shù)據(jù)(ISO 15836)[28]是國際上廣泛應(yīng)用的通用元數(shù)據(jù)標準,具有很強的擴展性和移植性,現(xiàn)有各類元數(shù)據(jù)方案大多參考其元素而設(shè)計;國外特定學(xué)科領(lǐng)域的元數(shù)據(jù)標準較為豐富,如社會科學(xué)領(lǐng)域的“數(shù)據(jù)文檔計劃”(Data Documentation Initiative,簡稱DDI)國際標準[29],地球?qū)W科領(lǐng)域的“地球空間數(shù)據(jù)資產(chǎn)元數(shù)據(jù)”美國國家標準[30],地理信息領(lǐng)域的“地理信息元數(shù)據(jù)”國際標準(ISO 19115)[31],農(nóng)業(yè)科學(xué)領(lǐng)域的“農(nóng)業(yè)元數(shù)據(jù)元素集”國際標準[32]等,廣泛應(yīng)用于各對應(yīng)領(lǐng)域的數(shù)據(jù)出版。例如,ICPSR及其成員采用DDI作為元數(shù)據(jù)規(guī)范,澳大利亞海洋數(shù)據(jù)網(wǎng)絡(luò)門戶、英國地質(zhì)調(diào)查局國家地球科學(xué)數(shù)據(jù)中心采用以ISO 19115為基礎(chǔ)的元數(shù)據(jù)方案[33]。

        4.1.2 元數(shù)據(jù)檢查與驗證

        數(shù)據(jù)知識庫在接收數(shù)據(jù)時,往往對元數(shù)據(jù)進行檢查、評審、驗證、完善等工作,以保障元數(shù)據(jù)完整、準確、科學(xué)并與所描述的數(shù)據(jù)事實相匹配。ICPSR依照其采用的DDI元數(shù)據(jù)標準為接收到的沒有元數(shù)據(jù)的數(shù)據(jù)集創(chuàng)建元數(shù)據(jù)記錄;而美國地質(zhì)調(diào)查局(United States Geological Survey,簡稱USGS)[34]則對元數(shù)據(jù)進行評審與驗證。其中,USGS一方面為數(shù)據(jù)作者提供部分具有自動驗證元數(shù)據(jù)功能的元數(shù)據(jù)編輯工具(如USGS Online Metadata Editor),另一方面提供元數(shù)據(jù)二次驗證和元數(shù)據(jù)評審服務(wù),元數(shù)據(jù)二次驗證需借助元數(shù)據(jù)解析器(USGS Metadata Parser)[35]來驗證與美國國家地理空間數(shù)據(jù)標準(FGDC)兼容的元數(shù)據(jù)記錄且可生成錯誤報告。另外,USGS依據(jù)“評審指南”對數(shù)據(jù)及其元數(shù)據(jù)的匹配性、元數(shù)據(jù)與數(shù)據(jù)/出版物的鏈接、元數(shù)據(jù)標準術(shù)語、數(shù)據(jù)處理步驟/方法及相關(guān)資源元數(shù)據(jù)、元數(shù)據(jù)與數(shù)據(jù)使用、元數(shù)據(jù)與訪問權(quán)限、元數(shù)據(jù)與數(shù)據(jù)格式等內(nèi)容進行說明或規(guī)定[36]。

        4.2 數(shù)據(jù)格式

        數(shù)據(jù)格式兼容性最大化才能最大程度地方便用戶獲取和利用,因此數(shù)據(jù)知識庫也十分重視對數(shù)據(jù)格式的要求、檢查和轉(zhuǎn)換工作。

        4.2.1 數(shù)據(jù)格式推薦

        數(shù)據(jù)所采用的格式及軟件取決于研究人員如何收集、分析數(shù)據(jù),通常依照特定標準和慣例而選擇最適合的一種或幾種;在完成數(shù)據(jù)分析與處理后進行數(shù)據(jù)存儲時則需要將其轉(zhuǎn)換為標準的、常用的、可轉(zhuǎn)換的、持久的且用戶友好的格式以保障長期利用。數(shù)據(jù)知識庫(如UK Data Archive)還根據(jù)學(xué)科范圍、數(shù)據(jù)類型特點,為定量數(shù)據(jù)、定性數(shù)據(jù)、地理空間數(shù)據(jù)、圖像、視音頻、文檔和腳本等數(shù)據(jù)類型分別推薦常用的和非常用但可接受的數(shù)據(jù)格式[37],如定量數(shù)據(jù)推薦sav、dta等格式,文本性定性數(shù)據(jù)推薦xml、rtf、txt、html、doc等格式,音頻數(shù)據(jù)推薦mp3、aif、wav格式。

        4.2.2 數(shù)據(jù)格式轉(zhuǎn)換

        對于未達到數(shù)據(jù)利用便利程度最大化的數(shù)據(jù)格式,數(shù)據(jù)知識庫往往在不改變數(shù)據(jù)內(nèi)容的前提下對數(shù)據(jù)進行格式轉(zhuǎn)換。例如,ICPSR將印本形式的數(shù)據(jù)轉(zhuǎn)換為電子形式,將軟件依賴型數(shù)據(jù)文檔格式轉(zhuǎn)換為常用的PDF格式,針對某些特定數(shù)據(jù)生成多種格式以便進行傳播和保存[38]。Zenodo表示接收所有格式的數(shù)據(jù)(甚至不友好的格式),但會盡可能將其轉(zhuǎn)換為友好的格式以便長期保存和利用[39]。

        4.3 數(shù)字標識符

        長久以來,數(shù)據(jù)存儲基礎(chǔ)設(shè)施的缺乏使得獨立出版和引用數(shù)據(jù)非常困難,因此科學(xué)數(shù)據(jù)也一直未曾得到和科學(xué)論文同等的學(xué)術(shù)認可[40],數(shù)據(jù)標識符在這樣的需求下應(yīng)運而生。數(shù)字對象標識符(Digital Object Identifier,簡稱DOI)、統(tǒng)一資源名稱(URN)、開放鏈接(OpenURL)、句柄系統(tǒng)(Handles)等是目前應(yīng)用較多的數(shù)字標識符,其中尤以DOI的應(yīng)用和研究最為廣泛。

        DOI是用于識別數(shù)字環(huán)境下對象的知識產(chǎn)權(quán)的字符串[41],自1998年成立且于2012年成為“信息與文獻”領(lǐng)域的一項標準(ISO 26324)以來,廣泛應(yīng)用于數(shù)字化圖書、期刊、數(shù)據(jù)等類型內(nèi)容的學(xué)術(shù)出版。DOI自分配后便貫穿數(shù)據(jù)存儲、出版、傳播及長期保存的全過程,DOI用于數(shù)據(jù)出版便于數(shù)字版權(quán)管理、元數(shù)據(jù)動態(tài)更新、數(shù)據(jù)規(guī)范引用[42],可提高數(shù)據(jù)的可發(fā)現(xiàn)性、可獲得性和可利用性。

        在實際的數(shù)據(jù)出版中,DOI由注冊代理機構(gòu)及其成員機構(gòu)負責(zé)分配,如中國知網(wǎng)、Crossref、DataCite[43]等。例如,DataCite是會員式、非營利的研究數(shù)據(jù)DOI服務(wù)機構(gòu),由英國國家圖書館、丹麥信息技術(shù)中心、德國國家科學(xué)圖書館等7個創(chuàng)始單位聯(lián)合創(chuàng)建于2009年,其成員現(xiàn)已覆蓋歐洲、亞洲、澳大利亞、北美和非洲等地區(qū)的大學(xué)和研究機構(gòu)[44],哈佛大學(xué)圖書館、英國數(shù)字監(jiān)護中心(Digital Curation Center,簡稱DCC)、figShare、ICPSR、北京大學(xué)開放研究數(shù)據(jù)平臺等均通過與DataCite合作為數(shù)據(jù)分配DOI。

        4.4 技術(shù)性與科學(xué)性綜合審查

        一方面,如前所述,與作為論文輔助資料的數(shù)據(jù)出版以及數(shù)據(jù)論文出版的質(zhì)量控制不同,目前數(shù)據(jù)知識庫的數(shù)據(jù)質(zhì)量控制主要集中在技術(shù)審查,對數(shù)據(jù)本身的科學(xué)性評審開展得相對較少且以基礎(chǔ)性的科學(xué)評審為主,如審查數(shù)據(jù)是否符合一般邏輯、一般原理等。另一方面,數(shù)據(jù)出版實踐中數(shù)據(jù)知識庫通常融合不同的內(nèi)容與方法[15]、協(xié)同不同審查主體的角色[45],對數(shù)據(jù)進行綜合的審查和全面的質(zhì)量控制,如英國數(shù)據(jù)檔案(UK Data Archive)、地球數(shù)據(jù)觀測網(wǎng)絡(luò)(Data Observation Network for Earth,簡稱DataONE)、DCC、ICPSR等。

        4.4.1 UK Data Archive綜合實踐

        (1)數(shù)據(jù)檢驗

        數(shù)據(jù)檢驗是對數(shù)據(jù)進行編輯、清洗、交叉檢查和驗證等的過程。UK Data Archive是英國人文與社會科學(xué)領(lǐng)域數(shù)據(jù)量最大的數(shù)據(jù)知識庫之一,采用多種方法對數(shù)據(jù)進行綜合檢驗[46],包括:①仔細檢查或觀察響應(yīng)的編碼及超出范圍的值;②檢查數(shù)據(jù)的完整性;③在適當?shù)奈恢锰砑幼兞亢椭禈撕?;④根?jù)原始數(shù)據(jù)驗證數(shù)字化數(shù)據(jù)的隨機樣本;⑤雙重輸入數(shù)據(jù);⑥對頻率、均值、范圍或聚類等數(shù)據(jù)進行統(tǒng)計分析以監(jiān)測錯誤和異常值;⑦糾正數(shù)據(jù)轉(zhuǎn)錄過程可能產(chǎn)生的錯誤;⑧同行評審。

        (2)保障數(shù)據(jù)真實性

        數(shù)字化數(shù)據(jù)能夠被輕易復(fù)制和更改,因此保障數(shù)據(jù)的真實性、防止未經(jīng)授權(quán)的訪問導(dǎo)致未經(jīng)授權(quán)的數(shù)據(jù)更改變得非常重要。UK Data Archive保障數(shù)據(jù)真實性的最佳實踐包括[47]:①保留數(shù)據(jù)的單個主文件;②將數(shù)據(jù)主文件的監(jiān)護責(zé)任分配給單個項目的團隊成員;③規(guī)范對數(shù)據(jù)文件主版本的寫入訪問;④維護舊的主文件以防新的主文件發(fā)生錯誤;⑤定期對主文件進行備份并保存;⑥開發(fā)銷毀主文件的正式程序。

        4.4.2 DataONE綜合實踐

        DataONE從多個方面對數(shù)據(jù)出版進行質(zhì)量審查,筆者以“quality”和“data quality”為標簽搜索DataONE最佳實踐庫,發(fā)現(xiàn)與數(shù)據(jù)質(zhì)量控制高度相關(guān)的實踐做法有[48]:①重視數(shù)據(jù)質(zhì)量(說明數(shù)據(jù)質(zhì)量控制信息元數(shù)據(jù)、描述質(zhì)量控制方法、設(shè)置可疑數(shù)據(jù)標簽) ;②確認數(shù)據(jù)及描述數(shù)據(jù)的元數(shù)據(jù)相互匹配;③在數(shù)據(jù)整合之前確認數(shù)據(jù)的兼容性;④制定質(zhì)量控制計劃;⑤復(fù)查所輸入的數(shù)據(jù);⑥確保數(shù)據(jù)符合邏輯和一般原理(如濃度不小于0) ;⑦在數(shù)據(jù)備份時確保數(shù)據(jù)的完整性和可用性;⑧借助數(shù)據(jù)工具識別異常值;⑨對根據(jù)實際值產(chǎn)生的估計值進行標記 ;⑩進行數(shù)據(jù)版本管理和控制;?用數(shù)據(jù)標簽標記數(shù)據(jù)質(zhì)量(如“0”標記未檢查數(shù)據(jù)、“-1”標記有潛在問題的數(shù)據(jù)、“1”標記高質(zhì)量數(shù)據(jù))。

        5 數(shù)據(jù)知識庫模式的數(shù)據(jù)出版質(zhì)量控制:管理與傳播層面

        5.1 數(shù)據(jù)知識庫注冊、審計與認證

        根據(jù)永久訪問科學(xué)網(wǎng)絡(luò)記錄聯(lián)盟(Alliance for Permanent Access to the Records of Science Network,簡稱APARSEN)發(fā)布的科學(xué)數(shù)據(jù)同行評審報告,數(shù)據(jù)知識庫認證與審計對數(shù)據(jù)質(zhì)量控制影響突出,不同數(shù)據(jù)知識庫的質(zhì)量控制方法因數(shù)據(jù)形式、范圍、學(xué)科而異[14];歐盟“地平線2020”項目資助的“人文科學(xué)研究數(shù)據(jù)開放存取出版”調(diào)查報告指出,信任是影響數(shù)據(jù)知識庫與其相關(guān)主體之間關(guān)系的關(guān)鍵因素,而注冊、審計與認證是對數(shù)據(jù)知識庫進行質(zhì)量控制從而提高可信度的有效方法[49]。

        5.1.1 數(shù)據(jù)知識庫注冊

        數(shù)據(jù)知識庫注冊系統(tǒng)便于用戶通過目錄對數(shù)據(jù)知識庫的建設(shè)、注冊與發(fā)展情況進行統(tǒng)計分析,從而對數(shù)據(jù)知識庫的可信賴性、可用性作出判斷,數(shù)據(jù)知識庫注冊事實上也成為了用戶選擇與評價數(shù)據(jù)質(zhì)量的一個重要參考。目前,常用數(shù)據(jù)知識庫注冊系統(tǒng)有re3data.org、FAIRsharing、Registry of Open Access Repository(ROAR)[50]和OpenDOAR[51]等。

        其中,re3data.org是由德國研究基金資助并由德國、美國多家機構(gòu)聯(lián)合運行的數(shù)據(jù)知識庫注冊與目錄系統(tǒng),目前已有1 981個注冊登記的數(shù)據(jù)知識庫(截至2017年11月28日),如Dryad、figShare、GenBank以及北京大學(xué)開放研究數(shù)據(jù)平臺、中國地震數(shù)據(jù)中心等[52]。FAIRsharing是跨學(xué)科領(lǐng)域數(shù)據(jù)標準、數(shù)據(jù)知識庫和數(shù)據(jù)政策注冊與關(guān)聯(lián)查詢的門戶(其前身BioSharing聚焦生命科學(xué)領(lǐng)域),致力于推動科學(xué)數(shù)據(jù)的可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、互操作(Interoperable)和可重用(Reusable)[53]。目前已注冊數(shù)據(jù)標準共708條,數(shù)據(jù)知識庫1 000個、數(shù)據(jù)政策98項(截至2017年11月28日),用戶查詢其中任意一項內(nèi)容均能顯示相關(guān)的其他兩項,GenBank、Death Domain Database、Gene Wiki等生命科學(xué)領(lǐng)域的數(shù)據(jù)知識庫也都登記在該系統(tǒng)[53]。

        5.1.2 數(shù)據(jù)知識庫審計與認證

        一方面,從基礎(chǔ)設(shè)施建設(shè)、數(shù)字對象管理、安全風(fēng)險管理等方面對數(shù)據(jù)知識庫進行審計與評估,有利于及時監(jiān)測、報告數(shù)據(jù)知識庫的風(fēng)險并提供有效的解決辦法;另一方面,對達到審計與評估標準的數(shù)據(jù)知識庫進行認證并授予認證標識,有利于增強數(shù)據(jù)知識庫的辨識度和可信度。目前,常用的數(shù)據(jù)知識庫審計與認證工具有“DRAMBORA”“DSA”“TRAC”與“Nestor”(DIN31644/ISO16363標準的基礎(chǔ))等。

        “DRAMBORA”即“基于風(fēng)險評估的數(shù)據(jù)知識庫審計方法(2007)”(Digital Repository Audit Method Based On Risk Assessment,簡稱DRAMBORA)[54],主要對知識庫所面臨的風(fēng)險及其嚴重性進行可量化的監(jiān)測并提供報告風(fēng)險的有效手段;“DSA”即數(shù)據(jù)認可印章(Data Seal of Approval,簡稱DSA)[55],制定了數(shù)據(jù)知識庫可信賴性認證的16條核心要求[56]并對達到要求的數(shù)據(jù)知識庫授予認證標識?!癟RAC”與“Nestor”即“可信賴知識庫審計與認證(2007)”(Trusted Repositories Audit & Certification,簡稱TRAC)[57]與“可信任數(shù)據(jù)知識庫標準Nestor目錄(2006)”(Nestor Catalogue of Criteria for Trusted Digital Repositories)[58],兩者均從組織基礎(chǔ)設(shè)施、數(shù)字對象管理、技術(shù)設(shè)施與安全3個方面進行審計與認證。在此類方法、工具及其廣泛應(yīng)用的基礎(chǔ)上,數(shù)據(jù)知識庫審計與認證形成了較為成熟的方法體系,并進一步發(fā)展成為國內(nèi)外普遍認可的標準(如DIN31644/ISO 16363),形成了從基礎(chǔ)認證、擴展認證到正式認證的遞進式認證框架(如歐盟可信賴數(shù)字倉儲審計與認證框架[49])。

        根據(jù)re3data.org的統(tǒng)計(截至2017年11月28日),目前已有56個數(shù)據(jù)知識庫獲得了DSA的認證,包括ICPSR、UK Data Archive、Norwegian Centre for Research Data、World Data Center for Climate等;已有1個數(shù)據(jù)知識庫明確表示遵循DIN31644標準,即荷蘭數(shù)據(jù)存檔與網(wǎng)絡(luò)服務(wù)(Data Archiving and Networked Services,簡稱DANS)的在線存儲系統(tǒng)EASY[59];1個數(shù)據(jù)知識庫遵循TRAC方法,即美國加利福尼亞大學(xué)系統(tǒng)的數(shù)字化研究數(shù)據(jù)知識庫Merritt[60]。

        5.2 數(shù)據(jù)引用

        數(shù)據(jù)引用是數(shù)據(jù)作為一種學(xué)術(shù)成果進行傳播從而發(fā)揮其價值的重要階段,也是承認數(shù)據(jù)作者的貢獻、保障數(shù)據(jù)管理者與出版者權(quán)益的一種有效方式。

        5.2.1 數(shù)據(jù)引用原則

        2014年,數(shù)據(jù)引用綜合組(Data Citation Synthesis Grroup)聯(lián)合其他多個數(shù)據(jù)引用工作組發(fā)布了“數(shù)據(jù)引用原則聯(lián)合聲明”,并在www.force11.org發(fā)布了8條數(shù)據(jù)引用共同原則[61]:①重要性:數(shù)據(jù)應(yīng)是合法的、可引用的研究性產(chǎn)品,數(shù)據(jù)引用與其他學(xué)術(shù)成果的引用具有同等重要性;②信譽和歸屬:數(shù)據(jù)引用應(yīng)有助于為數(shù)據(jù)貢獻者帶來信用、聲譽和產(chǎn)權(quán)歸屬;③論據(jù):學(xué)術(shù)文獻中任何依賴數(shù)據(jù)之處都應(yīng)進行數(shù)據(jù)引用;④唯一標識:數(shù)據(jù)引用應(yīng)包含持久的、機器可操作的、全球唯一的、廣泛使用的標識符;⑤便于訪問:數(shù)據(jù)引用應(yīng)便于訪問數(shù)據(jù)本身及其相關(guān)的元數(shù)據(jù)、文檔、代碼和其他材料;⑥長久性:唯一標識符和描述數(shù)據(jù)的元數(shù)據(jù)以及其位置應(yīng)長久存在,甚至可以超出數(shù)據(jù)本身的壽命;⑦明確性和可驗證性:數(shù)據(jù)引用應(yīng)有助于識別、訪問和驗證支持特定觀點的具體數(shù)據(jù),數(shù)據(jù)引用應(yīng)包含充分的出處信息以便驗證其他版本、粒度的特定數(shù)據(jù);⑧互操作性和靈活性:數(shù)據(jù)引用方法應(yīng)足夠靈活以適應(yīng)不同學(xué)術(shù)社群的具體實踐,不同數(shù)據(jù)引用不應(yīng)存在本質(zhì)差異以便保障不同數(shù)據(jù)引用實踐的互操作。FORCE11社區(qū)現(xiàn)有來自出版社、研究機構(gòu)、研究資助機構(gòu)、數(shù)據(jù)管理與出版機構(gòu)、圖書館及圖書館協(xié)會、信息與技術(shù)中心、特定研究項目等的活躍成員2 300多名[62],為FORCE11社區(qū)貢獻內(nèi)容并推動科學(xué)數(shù)據(jù)的規(guī)范引用;多個學(xué)術(shù)社群在遵循該基本原則的基礎(chǔ)上和在技術(shù)更新發(fā)展的條件下推動數(shù)據(jù)引用的最佳實踐,如美國地球物理聯(lián)盟(A G U)、Dataverse等均明確表示支持并遵循該原則。

        5.2.2 數(shù)據(jù)引用格式推薦

        目前,國內(nèi)外學(xué)術(shù)論文(包括數(shù)據(jù)論文)的引用格式相對統(tǒng)一,而數(shù)據(jù)(集)的推薦引用格式因數(shù)據(jù)知識庫不同而呈現(xiàn)差異,沒有相對統(tǒng)一的標準,但都包含作者、年份、數(shù)據(jù)集題名、(包含DOI的)數(shù)據(jù)集獲取地址等關(guān)鍵要素,并且還盡可能反映數(shù)據(jù)集版本和數(shù)據(jù)檢索時間。例如:

        (1)Dryad的推薦引用格式為:“作者(年份).Data from:數(shù)據(jù)集題名.數(shù)據(jù)知識庫名.DOI URL”,舉例“Tsunoda T,Krosse S,van Dam N (2017) Data from: Root and shoot glucosinolate allocation patterns follow optimal defence allocation theory.Dryad Digital Repository.http://dx.doi.org/10.5061/dryad.hd3s3”。

        (2)figShare的推薦引用格式為:“作者(年份):數(shù)據(jù)集題名.數(shù)據(jù)知識庫名.DOI URL (自動生成的)檢索時間”,舉例“Halfaker,Aaron; Kim,Meen Chul; Forte,Andrea;Taraborelli,Dario (2017): Citations with contexts in Wikipedia.figshare.https://doi.org/10.6084/m9.figshare.5588842.v1 Retrieved: 06:41,Dec 02,2017 (GMT)”。

        (3)北京大學(xué)開放研究數(shù)據(jù)平臺的推薦數(shù)據(jù)引用格式為:“作者,年份,“數(shù)據(jù)集題名”,DOI URL,數(shù)據(jù)知識庫名,數(shù)據(jù)集版本”,舉例:“黃悅勤,2016,‘中國居民健康與疾病負擔(dān)調(diào)查2013’,http://dx.doi.org/10.18170/DVN/O5PS2H,北京大學(xué)開放研究數(shù)據(jù)平臺,V1”。

        6 總結(jié)與展望

        從研究與實踐情況來看,數(shù)據(jù)出版質(zhì)量控制有實質(zhì)性的發(fā)展,但仍存在一定的問題和困難:①數(shù)據(jù)龐大、復(fù)雜且增長迅速,數(shù)據(jù)出版及其質(zhì)量控制高度依賴計算機的輔助,對相關(guān)人員的技能有較高要求;②數(shù)據(jù)質(zhì)量控制需要良好的科學(xué)研究與數(shù)據(jù)共享環(huán)境,需要來自研究資助機構(gòu)、研究機構(gòu)、學(xué)術(shù)社區(qū)等的協(xié)同支持和作者、管理者、用戶的協(xié)同努力;③數(shù)據(jù)質(zhì)量控制的投資回報率較難保證,可持續(xù)發(fā)展機制尚不成熟;④最佳實踐的做法還不普及,數(shù)據(jù)質(zhì)量控制水平參差不齊。

        目前,無論是基于數(shù)據(jù)知識庫的數(shù)據(jù)出版,還是作為論文輔助資料的數(shù)據(jù)出版以及數(shù)據(jù)論文出版,我國的數(shù)據(jù)出版及其質(zhì)量控制雖處于探索階段但已初具成效。例如,圖書情報領(lǐng)域期刊《數(shù)據(jù)分析與知識發(fā)現(xiàn)》從2016年起要求所有投稿論文提交支撐論文結(jié)論的科學(xué)數(shù)據(jù)并通過適當方式供研究共同體或社會公眾共享[63];2015年12月,北京大學(xué)開放研究數(shù)據(jù)平臺正式上線,匯集了來自國內(nèi)極具影響力的精品調(diào)查數(shù)據(jù),現(xiàn)有28個數(shù)據(jù)空間和153個數(shù)據(jù)集并提供開放共享[64](截至2018年1月);2016年6月,中國科學(xué)院主辦的《中國科學(xué)數(shù)據(jù)》開始了國內(nèi)首份數(shù)據(jù)期刊出版的探索實踐,該刊實行嚴格的評審制度(責(zé)編初審、數(shù)據(jù)初審、同行評議/大眾評議、責(zé)編委復(fù)審、編委會投票等),已成為中國科學(xué)引文數(shù)據(jù)(CSCD)核心庫的來源期刊(2017-2018)[65]。2017年底,《信息技術(shù)科學(xué)數(shù)據(jù)引用》國家標準(GB/T35294-2017)[66]正式發(fā)布,為規(guī)范引用、傳播科學(xué)數(shù)據(jù)提供國家層面的保障。

        展望未來,科學(xué)數(shù)據(jù)出版質(zhì)量控制可能聚焦于:首先,對數(shù)據(jù)出版質(zhì)量控制的理論、方法、工具、實踐等進行系統(tǒng)而綜合的研究,重點探討數(shù)據(jù)質(zhì)量控制的困難和挑戰(zhàn);其次,不斷優(yōu)化現(xiàn)有數(shù)據(jù)標準與工具并推動其在更大范圍內(nèi)的普及和應(yīng)用;另外,進一步探索針對不同學(xué)科、不同類型數(shù)據(jù)的科學(xué)性評審及其可持續(xù)發(fā)展機制。誠然,我國數(shù)據(jù)出版質(zhì)量控制在理論探索、政策制定、標準研制、系統(tǒng)開發(fā)、工具應(yīng)用等方面都還有進一步提升的空間??梢灶A(yù)見,未來我國還將繼續(xù)重視對科學(xué)數(shù)據(jù)管理與出版的頂層設(shè)計與政策統(tǒng)籌,在機構(gòu)層面加快推進數(shù)據(jù)政策、標準的研討和制定,在機構(gòu)與個體層面促進數(shù)據(jù)工具的推廣和使用,而圖書館也能夠參與其中適時適當?shù)匕l(fā)揮作用。

        [1]European Commission.Horizon 2020[EB/OL].[2017-10-01].http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-pilot-guide_en.pdf.

        [2]吳立宗,王亮緒,南卓銅,等.科學(xué)數(shù)據(jù)出版現(xiàn)狀及其體系框架[J].遙感技術(shù)與應(yīng)用,2013,28(3):383-390.

        [3]Lawrence B,Jones C,Matthews B,et al.Citation and Peer Review of Data: Moving Towards Formal Data Publication [J].International Journal of Digital Curation,2011,6(2):4-37.

        [4]Research Data Canada.Original RDC Glossary[EB/OL].[2017-09-16].https://www.rdc-drc.ca/glossary/original-rdc-glossary/.

        [5]Wuest T,Tinscher R,Porzel R,et al.Experimental Research Data Quality in Materials Science[J].Computer Science,2014,4(6):1-18.

        [6]Gordon K.Principles of Data Management[EB/OL].[2017-09-15].http://bcs.org/upload/pdf/data-management-chapter1.pdf.

        [7]Peer L,Green A,Stephenson E.Committing to Data Quality Review[J].International Journal of Digital Curation,2014,9(1):1-27.

        [8]Wang R Y,Strong D M.Beyond Accuracy: What Data Quality Means to Data Consumers[J].Journal of Management Information Systems,1996,12(4):5-33.

        [9]Hense A,Quadt F.Acquiring High Quality Research Data[J].DLib Magazine,2011,17(1-2):1-7.

        [10]The Royal Society.Science as an Open Enterprise[R/OL].[2017-10-11].https://royalsociety.org/~/media/policy/projects/sape/2012-06-20-saoe.pdf.

        [11]Zhu H,Fu L.Towards Quality of Data Standards: Empirical Findings from XBRL[C].International Conference on Information Systems,Arizona:Association for Information Systems Electronic Library,2009:1-8.

        [12]U.S.Geological Survey.Data Management: Manage Quality--What is QA/QC?[EB/OL].[2017-10-15].https://www2.usgs.gov/datamanagement/qaqc.php.

        [13]Bloom T,Dallmeier-Tiessen S,Murphy F,et al.Workflows for Research Data Publishing: Models and Key Components[J/OL].[2017-10-15].International Journal of Digital Libraries,https://zenodo.org/record/20308#.WeLU0fkdgZQ.

        [14]Pampel H,Pfeiffenberger H,Sch.fer A,et al.Report on Peer Review of Research Data in Scholarly Communication[R/OL].[2017-10-05].https://www.researchgate.net/publication/224922538_Report_on_Peer_Review_of_Research_Data_in_Scholarly_Communication.

        [15]Austin C C,Bloom T,Dallmeier-Tiessen S,et al.Key Components of Data Publishing: Using Current Best Practices to Develop a Reference Model for Data Publishing[J].International Journal on Digital Libraries,2016:1-16.

        [16]張靜蓓,任樹懷.國外科研數(shù)據(jù)知識庫數(shù)據(jù)質(zhì)量控制研究[J].圖書館雜志,2016(11):38-44.

        [17]王丹丹.科學(xué)數(shù)據(jù)出版過程中的數(shù)據(jù)質(zhì)量控制[J].圖書情報工作,2015(23):124-129.

        [18]孔麗華.科學(xué)數(shù)據(jù)質(zhì)量同行評議現(xiàn)狀[R/OL].[2017-10-05].http://ir.las.ac.cn/handle/12502/7968.

        [19]屈寶強,王 凱.數(shù)據(jù)出版視角下的科學(xué)數(shù)據(jù)同行評議[J].圖書館雜志,2017,36(10):71-77.

        [20]Dryad Digital Repository[EB/OL].[2017-09-03].http://datadryad.org/pages/organization.

        [21]Dryad Digital Repository.Policies[EB/OL].[2017-09-02].http://datadryad.org/pages/policies.

        [22]Dryad Digital Repository.Policies-Content Criteria[EB/OL].[2017-09-21].http://datadryad.org/pages/policies#content.

        [23]Dryad.Policies-Curation[EB/OL].[2017-04-24].http://datadryad.org/pages/policies#curation.

        [24]顧立平,茹麗潔,戚義姣,等.通用型數(shù)據(jù)知識庫案例匯編——Dryad、Figshare[EB/OL].[2017-04-24] http://ir.las.ac.cn/handle/12502/7826.

        [25]ICPSR.History[EB/OL].[2017-09-22].http://www.icpsr.umich.edu/icpsrweb/content/about/history/.

        [26]ICPSR.Data Management & Curation-Selection and Appraisal[EB/OL].[2017-09-29].http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/selection.html.

        [27]Qin J,Ball A,Greenberg J.Functional and Architectural Requirements for Metadata: Supporting Discovery and Management of Scientific Data[C]// Twelfth International Conference on Dublin Core and Metadata Applications.Kuching:Dublin Core Metadata Initiative,2012:62-71.

        [28]ISO 15836:2009.Information and Documentation—The Dublin Core Metadata Element Set [EB/OL].[2017-10-09].https://www.iso.org/standard/52142.html.

        [29]Data Documentation Initiative[EB/OL].[2017-09-03].http://www.ddialliance.org/.

        [30]Federal Geographic Data Committee.National Geospatial Data Assets (NGDA) Metadata Guidelines[EB/OL].[2017-10-16].https://cms.geoplatform.gov/sites/default/files/document_library/NGDA_Metadata_Guidelines.pdf.

        [31]ISO 19115-1:2014.Geographic Information—Metadata[EB/OL].[2017-10-16].https://www.iso.org/standard/53798.html.

        [32]Agricultural Information Management Standards.AgMES -Agricultural Metadata Element Set[EB/OL].[2017-10-16].http://aims.fao.org/standards/agmes.

        [33]Digital Curation Centre.List of Metadata Use Cases[EB/OL].[2017-10-21].http://www.dcc.ac.uk/resources/metadatastandards/use-cases.

        [34]United States Geological Survey[EB/OL].[2017-09-27].https://www.usgs.gov/.

        [35]United States Geological Survey.Data Management[EB/OL].[2017-09-27].https://www2.usgs.gov/datamanagement/describe/metadata.php#validating-metadata-records.

        [36]USGS.Guidelines for Metadata Review of Data[EB/OL].[2017-04-20].https://www2.usgs.gov/datamanagement/documents/MetadataReviewChecklist_2014.pdf.

        [37]UK Data Archive.Create & Manage Data-File Formats Table[EB/OL].[2017-04-23].http://www.data-archive.ac.uk/createmanage/format/formats-table.

        [38]ICPSR.Data Management & Curation[EB/OL].[2017-09-03].http://www.icpsr.umich.edu/icpsrweb/content/datamanagement/lifecycle/ingest/enhance.html.

        [39]Zenodo.General Policies[EB/OL].[2017-09-03].http://about.zenodo.org/policies/.

        [40]Neumann J,Brase J.DataCite and DOI Names for Research Data[J].Journal of Computer-Aided Molecular Design,2014,28(10):1035-1041.

        [41]DOI[EB/OL].[2017-09-03].http://www.doi.org/.

        [42]涂 勇,彭 潔.數(shù)字對象唯一標識在中國科學(xué)數(shù)據(jù)領(lǐng)域中的應(yīng)用研究[J].數(shù)字圖書館論壇,2013(8):31-36.

        [43]DOI Registration Agencies[EB/OL].[2017-10-05].http://www.doi.org/registration_agencies.html.

        [44]Loesch F M.DataCite[J].Technical Services Quarterly,2016(33):91-92.

        [45]Economic and Social Research Council.Transparency of the Peer Review Process[EB/OL].[2017-04-14].http://www.esrc.ac.uk/funding/guidance-for-peer-reviewers/transparency-of-thepeer-review-process/.

        [46]UK Data Archive.Create & Manage Data-Quality Assurance[EB/OL].[2017-04-23].http://www.data-archive.ac.uk/createmanage/format/quality.

        [47]UK Data Archive.Create & Manage Data-Version Control &Authenticity [EB/OL].[2017-04-23].http://www.data-archive.ac.uk/create-manage/format/versions.

        [48]DataONE.Best Practices[EB/OL].[2017-09-09].https://www.dataone.org/all-best-practices.

        [49]Buddenbohm S,Cretin N,Dijk E,et al.State of the Art Report on Open Access Publishing of Research Data in the Humanities[R/OL].[2017-10-15].https://halshs.archives-ouvertes.fr/halshs-01357208/document.

        [50]Registry of Open Access Repository[EB/OL].[2017-02-26].http://roar.eprints.org/.

        [51]OpenDOAR[EB/OL].[2017-02-21].http://www.opendoar.org/.

        [52]re3data.org[EB/OL].[2017-10-18].http://www.re3data.org/.

        [53]FAIRSharing[EB/OL].[2017-10-18].https://fairsharing.org/.

        [54]Welcome to DRAMBORA Interactive:Log in or Register to Use the Toolkit[EB/OL].[2017-02-21].http://www.repositoryaudit.eu/.

        [55]About Data Seal of Approval[EB/OL].[2017-02-25].http://www.datasealofapproval.org/en/information/about/.

        [56]Data Seal of Approval.The Core Trustworthy Data Repository Requirements [EB/OL].[2017-02-25] http://www.datasealofapproval.org/en/information/requirements/.

        [57]DCC.Trustworthy Repositories[EB/OL].[2017-02-21].http://www.dcc.ac.uk/resources/repository-audit-and-assessment/trustworthy-repositories.

        [58]DCC.Repository Audit and Assessment [EB/OL].[2017-02-21].http://www.dcc.ac.uk/resources/repository-audit-andassessment/nestor.

        [59]re3data.org.EASY[EB/OL].[2017-09-28].https://www.re3data.org/repository/r3d100010214.

        [60]re3data.org.Merritt[EB/OL].[2017-09-28].https://www.re3data.org/repository/r3d100010747.

        [61]Data Citation Synthesis Group.Joint Declaration of Data Citation Principles[EB/OL].[2017-10-18].https://www.force11.org/group/joint-declaration-data-citation-principles-final.

        [62]FORCE11.Active Menbers[EB/OL].[2017-10-20].https://www.force11.org/community/members-directory.

        [63]《數(shù)據(jù)分析與知識發(fā)現(xiàn)》編輯部.支撐數(shù)據(jù)提交要求[EB/OL].[2017-09-03].http://manu44.magtech.com.cn/Jwk_infotech_wk3/fileup/2096-3467/NEWS/20161213090914.pdf.

        [64]北京大學(xué)開放研究數(shù)據(jù)平臺簡介[EB/OL].[2017-10-21].http://opendata.pku.edu.cn/about.xhtml.

        [65]中國科學(xué)數(shù)據(jù)[EB/OL].[2017-10-21].http://www.csdata.org/.

        [66]中國國家標準化管理委員會.2017年第32號中國國家標準公告[EB/OL].[2018-01-20].http://www.sac.gov.cn/gzfw/ggcx/gjbzgg/201732/.

        猜你喜歡
        知識庫質(zhì)量
        漢語近義詞辨析知識庫構(gòu)建研究
        “質(zhì)量”知識鞏固
        質(zhì)量守恒定律考什么
        做夢導(dǎo)致睡眠質(zhì)量差嗎
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
        美國高校機構(gòu)知識庫開放獲取政策調(diào)查
        關(guān)于質(zhì)量的快速Q(mào)&A
        高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
        質(zhì)量投訴超六成
        汽車觀察(2016年3期)2016-02-28 13:16:26
        基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        日本真人做人试看60分钟| 中文字幕精品乱码一区| 二区三区视频| 亚洲日日噜噜噜夜夜爽爽| 久久av一区二区三区黑人| 日韩人妻熟女中文字幕a美景之屋| 免费a级毛片无码av| 国产不卡一区二区三区免费视| 无遮挡很爽视频在线观看| 国产69精品麻豆久久| 奇米影视7777久久精品| 成人性生交大片免费看r| 国产人妖xxxx做受视频| 亚洲黄色官网在线观看| 中文字幕免费人成在线网站 | 狼人香蕉香蕉在线28 - 百度| 国产精品美女一区二区三区| 1精品啪国产在线观看免费牛牛| 亚洲成在人网站天堂日本| 无套内谢孕妇毛片免费看| 国产97在线 | 免费| 亚洲国产一区二区三区在线视频| 国产黄色污一区二区三区| 美女丝袜诱惑在线播放蜜桃| 日韩女同精品av在线观看| 亚洲精品白浆高清久久久久久| 比比资源先锋影音网| 国产亚洲无码1024| 亚洲成人av在线播放不卡| 人妻一区二区三区av| 国产av永久无码天堂影院| 精品国产91天堂嫩模在线观看 | 中文字幕亚洲入口久久| 小辣椒福利视频导航| 亚洲91av| 中文字幕久区久久中文字幕| 国产亚洲精品综合一区| 亚洲裸男gv网站| 国产精品无码Av在线播放小说| 极品新娘高清在线观看| 国产精品美女久久久网站三级|