夏義堃 管茜
摘? ?要:數(shù)據(jù)是生命科學研究的基礎性資源,研究生命科學數(shù)據(jù)管理的質(zhì)量控制對推進科學數(shù)據(jù)管理和生命科學理論與研究方法創(chuàng)新具有重要的現(xiàn)實意義?;谏芷诶碚摚ㄟ^政策文本分析、案例比較和文獻調(diào)研,系統(tǒng)梳理了不同主體在生命科學數(shù)據(jù)的管理計劃、采集、組織、保存、共享利用不同階段中的質(zhì)量控制措施提出不同階段生命科學數(shù)據(jù)質(zhì)量控制的核心要求,構(gòu)建了包括基礎層、主體層、流程控制層三個層次的生命科學數(shù)據(jù)質(zhì)量控制體系。
關鍵詞:科學數(shù)據(jù)管理;數(shù)據(jù)質(zhì)量;質(zhì)量控制;數(shù)據(jù)生命周期;生命科學
Abstract Data is a basic resource in life science research. The research of life science data management of quality control can advance scientific data management, and life science innovation theory and research method has important practical significance. Based on the life cycle theory, through policy text analysis, case comparison and literature research, this paper systematically sorts out the quality control measures of different subjects in different stages of life science data management planning, collection, organization, preservation, sharing and utilization. In this paper, the core requirements of life science data quality control at different stages are put forward, and the life science data quality control system at three levels is constructed, including the basic layer, the main layer and the process control layer.
Key words scientific data management; data quality; quality control; data life cycle; life science
生命科學在20世紀后期出現(xiàn)了飛躍式的發(fā)展,以基因測序、基因組學、蛋白質(zhì)組學和生物信息學為代表的技術加快了生命科學領域數(shù)據(jù)的產(chǎn)生速度[1],數(shù)據(jù)的積累與利用已經(jīng)成為推動生命科學研究不可缺少的組成部分。海量的生命科學數(shù)據(jù)不僅具有傳統(tǒng)大數(shù)據(jù)的“4V特征”,還因研究對象、存儲結(jié)構(gòu)、參數(shù)標準、應用場景等多元性而格外復雜,同時,人體受試樣本的隱私保護、動物樣本實驗的倫理約束等進一步增添了數(shù)據(jù)管理的難度。
如何對體量巨大、增長迅速、多源異構(gòu)且隱私倫理屬性突出的生命科學數(shù)據(jù)進行有效地質(zhì)量控制與開發(fā)管理,既是當前科學數(shù)據(jù)管理工作亟待突破和解決的重要問題,也是生命科學研究創(chuàng)新的前期條件。本文基于數(shù)據(jù)生命周期理論,著重分析了生命科學數(shù)據(jù)質(zhì)量控制的主體行為與基本做法,構(gòu)建了質(zhì)量控制的主體行為與基本做法,構(gòu)建了包括基礎層、主體層和流程控制層在內(nèi)的生命科學數(shù)據(jù)質(zhì)量控制體系,以期為我國生物科學數(shù)據(jù)質(zhì)量控制提供借鑒參考。
1? ?研究回顧與問題的提出
1.1? ? 生命科學數(shù)據(jù)質(zhì)量研究綜述
近年來,生命科學進入“大數(shù)據(jù)”時代,生命科學領域研究結(jié)論的可靠性常被質(zhì)疑,數(shù)據(jù)的再利用性以及實驗的可再現(xiàn)性接連出現(xiàn)問題,并引發(fā)國內(nèi)外學者的關注,相關研究主要集中在以下幾個方面:
(1)生命科學數(shù)據(jù)質(zhì)量內(nèi)涵及評估指標體系研究。生命科學數(shù)據(jù)質(zhì)量是一個多維度概念,可理解為多個質(zhì)量特征的集合,并受到學科、數(shù)據(jù)類型和應用目的等影響。除遵循國際通用的FAIR原則外,F(xiàn)latley和Stead[2]從一致性、正確性和完整性角度討論了臨床記錄數(shù)據(jù)質(zhì)量的概念;Weiskopf和Weng[3]將合理性和通用性視為質(zhì)量考察維度;Kahn等[4]構(gòu)建了針對電子健康記錄臨床研究數(shù)據(jù)的質(zhì)量評價模型,主要指標有準確性、可信性、客觀性、及時性和數(shù)據(jù)量的合理性;Chen等[5]從數(shù)據(jù)本身、數(shù)據(jù)使用和數(shù)據(jù)收集3個角度描述數(shù)據(jù)質(zhì)量評價模型,用以評估公共衛(wèi)生領域相關數(shù)據(jù)。
(2)生命科學數(shù)據(jù)質(zhì)量問題的表現(xiàn)及成因研究。生命科學數(shù)據(jù)質(zhì)量問題的表現(xiàn)是多方面的,有學者站在數(shù)據(jù)內(nèi)容和表現(xiàn)形式多樣性角度,提出數(shù)據(jù)的不一致、不準確、不完整或過時滯后等問題[6-8],其中數(shù)據(jù)格式和元數(shù)據(jù)不一致問題尤為突出[9],而標準、格式不統(tǒng)一直接損害數(shù)據(jù)互操作性、完整性和可追溯性等[10],造成數(shù)據(jù)冗余。數(shù)據(jù)利用中的可再現(xiàn)性問題再利用問題也是學者們關注的焦點,究其原因,有學者認為是選擇和實驗偏差以及研究不當導致,如實驗室記錄錯誤,無效試劑,忽略數(shù)據(jù)中心等都會導致數(shù)據(jù)的不可復制、不可重用[11-12]。
(3)生命科學數(shù)據(jù)質(zhì)量控制的方法研究。數(shù)據(jù)質(zhì)量標準的建構(gòu)被視為解決生命科學數(shù)據(jù)問題的有效方法,如使用統(tǒng)一標識符和注釋來增強數(shù)據(jù)的可查找性,使用通用交換格式如SBML(系統(tǒng)生物學標記語言)來增強數(shù)據(jù)互操作性,使用描述元數(shù)據(jù)來增強可重復性[13-14],Taylor等[15]提出應遵循MIBBI(生物和生物醫(yī)學調(diào)查的最低信息)標準倡議;一些學者從出版視角探討數(shù)據(jù)質(zhì)量監(jiān)管方法,如Arturo 等[12]認為期刊應撤回不符合數(shù)據(jù)標準的文章;劉穎和王旋[16]分析了NATURE出版集團等醫(yī)學數(shù)據(jù)質(zhì)量監(jiān)管措施;還有學者從數(shù)據(jù)平臺管理視角展開研究,Chen等[17]提出加強記錄上傳、序列去重、序列分析、文本數(shù)據(jù)分析、記錄關聯(lián)、數(shù)據(jù)描述等在內(nèi)的生命科學數(shù)據(jù)認證過程管理,Heimo[18]認為生物庫必須確保樣本和數(shù)據(jù)的質(zhì)量、利用道德和法律合規(guī)性,并建立高效透明的訪問管理。
1.2? ? 基于生命周期的生命科學數(shù)據(jù)質(zhì)量控制的內(nèi)涵
FAIR原則是國際公認的科學數(shù)據(jù)管理基本準則,要求數(shù)據(jù)應滿足可發(fā)現(xiàn)、可訪問、可互操作和可再利用4個要求,并對唯一永久標識符、描述元數(shù)據(jù)、詞匯表、通信協(xié)議、使用許可等進行了細化要求。在FAIR原則基礎上,有關生命科學數(shù)據(jù)管理的不同主體基于數(shù)據(jù)內(nèi)容、形式和效用提出了生命科學數(shù)據(jù)的完整性、真實性、安全性、增值性等質(zhì)量要求(見表1)。然而,單一、靜態(tài)的數(shù)據(jù)難以創(chuàng)造價值,數(shù)據(jù)的流動與全流程管理蘊含了巨大的數(shù)據(jù)效應,生命科學數(shù)據(jù)管理應把握其生命周期規(guī)律。通過代表性科學數(shù)據(jù)生命周期管理模型的梳理發(fā)現(xiàn),生物科學數(shù)據(jù)生命周期有五個核心階段,即數(shù)據(jù)管理計劃—數(shù)據(jù)采集—數(shù)據(jù)組織—數(shù)據(jù)保存—數(shù)據(jù)共享利用(見表2)。不同階段的數(shù)據(jù)質(zhì)量管理要求在目標、標準與方法、行為等方面各有側(cè)重,既需要從采集和組織的源頭確保數(shù)據(jù)產(chǎn)生的質(zhì)量和價值,也需要在保存和開放過程中對數(shù)據(jù)質(zhì)量進行檢測和驗證,同時還需在共享利用中規(guī)范引導其數(shù)據(jù)行為,保證數(shù)據(jù)的再利用性與可再現(xiàn)性。
2? ?生命科學數(shù)據(jù)生命周期各階段質(zhì)量控制過程分析
2.1? ? 數(shù)據(jù)管理計劃的制定
數(shù)據(jù)管理計劃是保證數(shù)據(jù)質(zhì)量的根本文件[24],生命科學數(shù)據(jù)管理計劃階段的質(zhì)量控制責任是對整個生命周期如何管理數(shù)據(jù)、保障數(shù)據(jù)質(zhì)量進行宏觀規(guī)劃,聚焦點集中在數(shù)據(jù)管理主體責任、數(shù)據(jù)計劃篇幅以及計劃內(nèi)容、更新與教育培訓、資金保障等方面(見表3)。
在英美發(fā)達國家,數(shù)據(jù)管理計劃不僅是科研項目申報的必要組成部分,也是科研設計與研究實施的具體規(guī)劃與后續(xù)科研過程的重要指導,并成為評估科研項目是否資助以及結(jié)題驗收的重要考察指標。英國生物技術與生物科學研究理事會要求項目資助的申請必須提交詳實的數(shù)據(jù)管理計劃,項目審查人員和專家委員會或評估小組將對申請者數(shù)據(jù)管理計劃的可行性、科學性進行評估;美國國家科學基金會生物科學理事會既要求項目申報時提交數(shù)據(jù)管理計劃,還要求所有在研項目對數(shù)據(jù)管理計劃執(zhí)行情況進行年度和終期報告,如數(shù)據(jù)采集加工等具體進展以及數(shù)據(jù)標準、存儲和共享利用情況,以便檢查監(jiān)控。
從資助方數(shù)據(jù)管理制度以及大學等研究機構(gòu)數(shù)據(jù)管理文件來看,數(shù)據(jù)質(zhì)量控制的考察點主要表現(xiàn)在對數(shù)據(jù)管理計劃形式要件與實質(zhì)要件的規(guī)范性、完整性、準確性審查上。一方面,均對數(shù)據(jù)管理的基本框架與內(nèi)容進行了規(guī)范。如英國生物技術與生物科學研究理事會規(guī)定申請方提交的數(shù)據(jù)管理計劃應當包括數(shù)據(jù)范圍和數(shù)據(jù)類型、標準和元數(shù)據(jù)、與公共資料庫中其他可用數(shù)據(jù)的關系、數(shù)據(jù)共享的方法、專有數(shù)據(jù)、時間節(jié)點、最終數(shù)據(jù)集的格式和再利用方式等;另一方面,數(shù)據(jù)管理計劃的完整性與準確性也是各方評估檢查的重點。除完成通用要求,實現(xiàn)數(shù)據(jù)管理計劃編制與項目研究總體框架、流程設計的緊密結(jié)合外,其完整性還體現(xiàn)在針對受試者隱私保護、動物倫理、實驗安全、知識產(chǎn)權等問題的描述與說明中。按照美國國家科學基金會生物科學理事會的要求,所有涉及人類受試者的資助項目,申請者都需要提交數(shù)據(jù)和安全監(jiān)管計劃(DSMP),并接受數(shù)據(jù)與安全監(jiān)管委員會的指導和檢查(DSMB)[25]。準確性要求不僅體現(xiàn)在對流程設計和內(nèi)容描述的清晰易讀與準確適用、對數(shù)據(jù)管理制度的準確把握與恰當回應上,還體現(xiàn)在對實驗數(shù)據(jù)記錄和原始記錄保存等操作要求的規(guī)范上。美國國立衛(wèi)生研究院針對美國國家科學基金會資助項目,制定了專門的《科學記錄保管指南》,要求科研過程中產(chǎn)生的各類記錄應易讀、清晰、及時、全面、完整、安全、有備份且組織良好[26]。為增加研究人員數(shù)據(jù)管理計劃制定的易操作性,一些資助方和研究機構(gòu)還提供了數(shù)據(jù)管理計劃撰寫模板、內(nèi)容清單、工具、培訓等。如奧地利科學基金會開發(fā)了數(shù)據(jù)管理計劃的撰寫模板,冷泉港實驗室提供了數(shù)據(jù)管理計劃指南和工具平臺用來協(xié)助創(chuàng)建數(shù)據(jù)管理計劃。
數(shù)據(jù)管理是有成本的,資金保障性是數(shù)據(jù)質(zhì)量控制的前提基礎。目前,不同機構(gòu)對數(shù)據(jù)管理的成本分擔持有不同的意見,美國國立衛(wèi)生研究院更關注資金的合理使用,明確規(guī)定研究經(jīng)費不適用于不生成科學數(shù)據(jù)的研究和其他活動,包括培訓、基礎設施開發(fā)。而貝爾法斯特女王大學則主張研究人員應盡可能尋求從項目資助方獲取直接的數(shù)據(jù)管理經(jīng)費支持。
2.2? ? 數(shù)據(jù)采集
生命科學數(shù)據(jù)采集包括數(shù)據(jù)生成和數(shù)據(jù)提交,涉及到作為數(shù)據(jù)生成者的研究人員及其機構(gòu)和作為數(shù)據(jù)接收方的資助機構(gòu)、出版商和數(shù)據(jù)平臺,是數(shù)據(jù)質(zhì)量控制的關鍵和基礎。盡管公開可用的數(shù)據(jù)和完整的數(shù)據(jù)文檔有助于計算的可重復性,但生命科學數(shù)據(jù)的可復制性、可再利用性受制于多種因素。“以微陣列數(shù)據(jù)為例,數(shù)據(jù)的質(zhì)量取決于生成它們的生物學和實驗條件以及處理數(shù)據(jù)的計算程序[37]”,因而,數(shù)據(jù)采集階段的質(zhì)量要求不僅僅是將實驗室記錄材料簡單地數(shù)字化、數(shù)據(jù)化,還需要創(chuàng)建一套復雜的、可擴展的數(shù)據(jù)質(zhì)量管理體系,如標準化詞匯、數(shù)據(jù)注釋與數(shù)據(jù)格式等。其中,保證數(shù)據(jù)的完整性、準確性、相關性、客觀性和可靠性是這一階段的核心(見表4),主要通過數(shù)據(jù)采集范圍、采集標準的確定以及數(shù)據(jù)審查等關鍵環(huán)節(jié)來進行數(shù)據(jù)質(zhì)量控制。
英國生態(tài)學會指出:“數(shù)據(jù)采集過程中的質(zhì)量控制很重要,因為通常只有一次機會從給定的情況收集數(shù)據(jù)?!盵38]這一環(huán)節(jié)質(zhì)量控制的重點是數(shù)據(jù)采集方式、記錄標準以及記錄管理的規(guī)范性,需要解決的主要問題包括數(shù)據(jù)生成的邏輯問題、數(shù)據(jù)描述標準與格式(預先應設計模板、規(guī)定描述要素,如主題、實驗細節(jié)、測試描述、控制條件、測試結(jié)果、結(jié)果說明等)、數(shù)據(jù)庫結(jié)構(gòu)設計以進行數(shù)據(jù)或數(shù)據(jù)文件的組織、使用代碼-編碼為變量分配數(shù)值以便統(tǒng)計分析等。同時,數(shù)據(jù)生成后的標識、描述和記錄保存等還必須符合倫理與隱私保護等相關要求,美國國立衛(wèi)生研究院規(guī)定,臨床數(shù)據(jù)的采集應承擔患者隱私和保密的額外責任,主要研究人員對于臨床研究數(shù)據(jù)和記錄的生成、保管負有最終責任。
制定數(shù)據(jù)標準、開發(fā)標準化的詞匯和本體是這一階段各方生命科學數(shù)據(jù)質(zhì)量控制的主要手段。與資助方和研究人員及其研究機構(gòu)相比,出版商的數(shù)據(jù)采集標準更為詳細,尤其關注圖表數(shù)據(jù)的采集質(zhì)量。英國生物技術與生物科學研究理事會要求利用現(xiàn)有標準的同時鼓勵學術社區(qū)制定目前尚不存在或未被廣泛接受的標準,并為此類活動提供資助。Nature系列期刊在其編輯政策中指出圖像必須正確標識原始數(shù)據(jù)并符合學術社區(qū)標準,F(xiàn)1000Research規(guī)定所有圖像,無論是作為數(shù)字提交還是作為數(shù)據(jù)上傳,都不得操縱,以免讀者被誤導。
數(shù)據(jù)審查是最為重要的數(shù)據(jù)內(nèi)容質(zhì)量前端控制措施,越來越多的資助機構(gòu)和期刊出版商要求保存與提交文章或研究項目相關的整個數(shù)據(jù)集。絕大多數(shù)期刊出版商通過作者自查、編輯篩查、同行評審或者數(shù)據(jù)審查小組來實現(xiàn)對論文數(shù)據(jù)的質(zhì)量審查,部分出版商采用了更為具體的反剽竊和預防數(shù)據(jù)偽造的舉措。如Nature不僅嚴格作者自查、同行評審在內(nèi)的審查流程,還要求作者必須提供支撐數(shù)據(jù),并就實驗及分析涉及所有細節(jié)進行條件和場景說明,確保數(shù)據(jù)、材料和代碼能夠準確反映原始內(nèi)容,同行專家將在通訊評審中審查相關數(shù)據(jù)。此外,Nature還規(guī)定對數(shù)據(jù)進行評議的編委小組里必須包括至少一名數(shù)據(jù)標準審核專家,對作者提交數(shù)據(jù)的質(zhì)量與可重用性進行評估,確保實驗數(shù)據(jù)的嚴謹性與描述的完整性;Science指出文章的通訊作者必須檢查其小組產(chǎn)生的原始數(shù)據(jù);F1000Research指出編輯團隊將使用 Adobe Photoshop 和美國研究誠信辦公室開發(fā)的法醫(yī)圖像分析軟件對隨機選擇的數(shù)字和數(shù)據(jù)進行檢查。
倉儲或存儲平臺十分重視生命科學數(shù)據(jù)采集流程的操作規(guī)范(見表5)。一方面,倡導數(shù)據(jù)開放,要求研究人員明確數(shù)據(jù)類型與提交標準,不斷提升數(shù)據(jù)透明度和可訪問性;另一方面,開展提交數(shù)據(jù)的自動檢測或人工檢測,以保障數(shù)據(jù)可用。如NCBI的GenBank是國際核苷酸序列數(shù)據(jù)庫協(xié)作的一部分,為強化數(shù)據(jù)質(zhì)量審查,其提交材料必須包括有關源生物體的信息和提交者提供的注釋,并針對細菌基因組、高通量基因組等不同數(shù)據(jù)類型制定了詳細的提交指南,所有提交材料由工作人員檢查處理,確保無誤后才能進入數(shù)據(jù)庫存儲。
2.3? ? 數(shù)據(jù)組織
這一階段的主要任務是通過良好的數(shù)據(jù)組織、結(jié)構(gòu)化、命名和版本控制與數(shù)據(jù)標注,使之易于共享利用。由于數(shù)據(jù)的可解釋性和可信賴性是影響生命科學數(shù)據(jù)利用的重要因素,這一階段數(shù)據(jù)質(zhì)量控制的側(cè)重點集中在數(shù)據(jù)標識的規(guī)范性、標準化、有效性、可理解性等方面,并強調(diào)運用元數(shù)據(jù)、唯一永久標識符和刪除更新的規(guī)范化操作等關鍵程序來控制數(shù)據(jù)質(zhì)量(見表6)。
強化數(shù)據(jù)描述過程的質(zhì)量控制是必不可少的重要環(huán)節(jié)。其中,元數(shù)據(jù)管理是重中之重,除文獻信息管理的通用功能外,生命科學領域的元數(shù)據(jù)管理通過樣本數(shù)據(jù)集的創(chuàng)建者、時間、位置、機構(gòu)、上下文、譜系關系及遷移等信息描述,還有助于在龐雜分散的數(shù)據(jù)資源體系內(nèi)建立數(shù)據(jù)關聯(lián)、實現(xiàn)生命科學數(shù)據(jù)的語義檢索和知識挖掘、方便用戶對實驗數(shù)據(jù)的復制和再利用進行追蹤溯源。元數(shù)據(jù)質(zhì)量控制的核心在于結(jié)合生命科學數(shù)據(jù)開發(fā)利用特點,從項目、數(shù)據(jù)等層面將元數(shù)據(jù)管理嵌入到生命科學數(shù)據(jù)應用系統(tǒng)/平臺的研發(fā)、運營等業(yè)務流程,如直接融入開發(fā)編碼、系統(tǒng)測試、版本控制等業(yè)務環(huán)節(jié)。由于生命科學數(shù)據(jù)種類繁多,異質(zhì)性突出,不同類型的數(shù)據(jù)屬性、名稱缺乏規(guī)范,需要創(chuàng)建生物醫(yī)學字典、定義最小核心元數(shù)據(jù)元素集等來實現(xiàn)數(shù)據(jù)描述的標準化,“學科領域內(nèi)部也需要定義一套通用的病毒數(shù)據(jù)開放元數(shù)據(jù)標準以支持研究人員的跨庫數(shù)據(jù)處理與交互[49]”。如冷泉港實驗室綜合利用數(shù)據(jù)字典、文件統(tǒng)一命名等方式來描述數(shù)據(jù),要求所有文件應統(tǒng)一命名并遵循文件命名公約(FNC),還為每個數(shù)據(jù)文件/數(shù)據(jù)集創(chuàng)建讀取文件以列出鏈接和描述特定文件夾中的所有文件;墨爾本大學要求以院系為單位建立研究數(shù)據(jù)登記表,登記表包含數(shù)據(jù)和記錄的描述、相關研究人員和項目的名稱、數(shù)據(jù)的位置(數(shù)字和模擬)、訪問限制以及遷移、保留和處置期等信息;PLoS數(shù)據(jù)政策規(guī)定投稿人必須提交論文結(jié)論所需相關數(shù)據(jù)集及其元數(shù)據(jù)和方法,以便人們可以檢索或利用軟件系統(tǒng)來定位和掌握原始數(shù)據(jù)的生成背景與特征。
為滿足數(shù)據(jù)內(nèi)容的互操作性要求,項目資助方、期刊以及研究機構(gòu)等均支持采用數(shù)字對象標識符系統(tǒng)(DOIs)和其他數(shù)據(jù)標識符來實現(xiàn)數(shù)據(jù)定位和管理,以保證數(shù)據(jù)利用的統(tǒng)一性和被引的科學性。維康基金會鼓勵研究人員對其數(shù)據(jù)和軟件輸出使用數(shù)字對象標識符系統(tǒng)或其他永久標識符;Science系列期刊規(guī)定所有數(shù)據(jù)、程序代碼和其他方法必須使用數(shù)字對象標識符系統(tǒng);在數(shù)據(jù)內(nèi)容的及時性要求上,對于數(shù)據(jù)的修改、更新、刪除等操作,普遍要求遵循政策規(guī)定和業(yè)務程序,強調(diào)獲準更改后方可執(zhí)行,以保證及時更新與降低風險的雙重目的。F1000Research規(guī)定數(shù)據(jù)版本一旦發(fā)布,便可在 F1000Research 網(wǎng)站上永久找到,不能更改或撤回,但作者可通過發(fā)布新版本來修改和更新文章。
2.4? ? 數(shù)據(jù)保存
生命科學數(shù)據(jù)保存需要解決的基本問題包括哪些數(shù)據(jù)需要解決的基本問題包括哪些數(shù)據(jù)需要保存、誰負責保存以及如何保存等,所關注的主要環(huán)節(jié)涉及到數(shù)據(jù)保存形式、保存位置、保存格式、保留期限以及數(shù)據(jù)備份等,并要求實現(xiàn)數(shù)據(jù)保存的規(guī)范性、持久性、可遷移性、可恢復性和安全性的質(zhì)量要求(見表7)。
(1)數(shù)據(jù)保存范圍上,既包括存儲要求的原始數(shù)據(jù)集和經(jīng)過處理加工的數(shù)據(jù)集,也包括實驗協(xié)議或?qū)嶒灹鞒?、生物樣本、元?shù)據(jù)和其他支持材料,但不包括初步分析、論文草稿等。如加拿大基因組提出生物試劑如獨特菌株應存入ATCC等資料庫。
(2)數(shù)據(jù)保存格式上,除部分數(shù)據(jù)平臺的專有數(shù)據(jù)格式要求外,普遍強調(diào)通用的、非專有格式保存。如冷泉港實驗室(CSH)規(guī)定以非專有格式存儲數(shù)據(jù),并根據(jù)數(shù)據(jù)類型給文本文件、數(shù)據(jù)庫、統(tǒng)計數(shù)據(jù)、食品和圖片文件規(guī)定了具體格式(如文本以.doc,.docx保存);Science系列期刊規(guī)定圖表數(shù)據(jù)要以標準機器可讀格式存檔(如csv、tsv、json 或 xml),F(xiàn)1000Research則規(guī)定應以CSV或TAB格式存入,如果圖表數(shù)據(jù)包含可變標簽、代碼標簽或定義的缺失值,則應將其存入 SAV、SAS 或 POR 格式。
(3)數(shù)據(jù)保存位置上,多數(shù)主體支持將數(shù)據(jù)保存在公開可用數(shù)據(jù)庫中,可以是機構(gòu)數(shù)據(jù)庫也可以是學科主題數(shù)據(jù)庫,鼓勵將數(shù)據(jù)存儲在re3data.org和FAIRsharing.org的注冊數(shù)據(jù)庫中(見表8),或根據(jù)數(shù)據(jù)類型選擇同行認可的相應數(shù)據(jù)庫(見表9)。Nature系列期刊規(guī)定作者必須將特定數(shù)據(jù)集提交至學術社群認可的公共數(shù)據(jù)倉儲或平臺,如蛋白質(zhì)序列保存至Uniprot數(shù)據(jù)平臺,并提供了一系列被認可及推薦的數(shù)據(jù)存儲平臺供作者選擇。
(4)在研究人員的數(shù)據(jù)保留期限上,英國生物技術與生物科學研究理事會和奧地利科學基金會規(guī)定項目結(jié)束后至少可以保存10年,貝爾法斯特女王大學和墨爾本大學規(guī)定至少保留5年,美國國立衛(wèi)生研究院規(guī)定數(shù)據(jù)研究項目結(jié)束后最少保存3年。
(5)數(shù)據(jù)備份要求上,大多機構(gòu)強調(diào)通過數(shù)據(jù)異地、異質(zhì)備份來應對潛在數(shù)據(jù)風險,以支持數(shù)據(jù)恢復。如冷泉港實驗室規(guī)定建立3個備份,分別保存在本地、外部硬盤、云端,并要求定期檢查備份數(shù)據(jù);加拿大基因組規(guī)定建立1個異地異質(zhì)備份;美國國家科學基金會生物科學理事會則會通過PAGES系統(tǒng)在異地備份。
2.5? ? 數(shù)據(jù)共享利用
科學數(shù)據(jù)共享是確保生物科學領域研究透明且可復制的主要要素,同時也是防范學術欺詐和傳播錯誤結(jié)果的有效監(jiān)管方式,主要通過訪問權限、知識產(chǎn)權許可和引用規(guī)范等關鍵環(huán)節(jié)的質(zhì)量控制來保障數(shù)據(jù)的開放性、規(guī)范性、可訪問性、可引用性、合法性和隱私性等要求(見表10),從而促進更廣泛的數(shù)據(jù)利用。
在數(shù)據(jù)訪問權限設置方面,一方面強調(diào)對隱私保護、動物倫理、商業(yè)秘密等信息法規(guī)制度的遵守;另一方面鼓勵生命科學數(shù)據(jù)應在最大限度內(nèi)開放,不能公開的數(shù)據(jù)需說明原因和獲取條件。如Nature系列期刊的出版條件之一是作者必須促使相關研究材料、數(shù)據(jù)、程序代碼及實驗作業(yè)等準確迅速且不帶有不合理限制條件的供讀者瀏覽查閱,手稿必須提供數(shù)據(jù)可用性聲明,聲明應包含支持論文研究結(jié)論的所有數(shù)據(jù)信息,如作者需對所提供材料或信息帶有一定限制,則必須在提交時向編輯說明,并在論文中公開原因,涉及個人隱私或生物安全性的數(shù)據(jù),必須在論文中注明數(shù)據(jù)獲取的條件及限制。
在數(shù)據(jù)許可協(xié)議以及引用規(guī)范的設置方面,主要通過知識共享許可(CC BY),允許用戶不受限制地使用、分發(fā)和復制數(shù)據(jù),前提是原始數(shù)據(jù)能夠被正確引用,力求實現(xiàn)數(shù)據(jù)開放與利益相關方合法權益保護的雙贏。如美國國家科學基金會生物科學理事會規(guī)定引用應注明作者、發(fā)行或引用日期,使用唯一、可解析和持久標識符(如數(shù)字對象標識符)或者統(tǒng)一資源定位符(URL)進行引用;Science系列期刊要求遵循其引用格式規(guī)范,所有數(shù)據(jù)、程序代碼和其他方法必須使用數(shù)字對象標識符、日志引文或其他持久標識符進行恰當引用。
3? ?研究結(jié)論與對策建議
數(shù)字化時代的生命科學屬于數(shù)據(jù)密集型學科,“21世紀生物學面臨的最重大挑戰(zhàn)來自于數(shù)據(jù)類型的多樣性、復雜性以及生物學層次結(jié)構(gòu)和用戶數(shù)據(jù)獲取利用的多元化[51]”。完善的數(shù)據(jù)質(zhì)量控制體系有助于強化數(shù)據(jù)生命周期內(nèi)各環(huán)節(jié)的管理(見圖1)。從要素構(gòu)成與功能運行的系統(tǒng)性管理角度出發(fā),生命科學數(shù)據(jù)質(zhì)量控制體系的建立應聚焦主體層、流程控制層和基礎層,核心是遵循生命科學學術研究規(guī)律,從學科屬性與學術倫理的角度探索其數(shù)據(jù)管理特征,并將各方參與主體、各種數(shù)據(jù)管理制度標準、各數(shù)據(jù)流程關鍵環(huán)節(jié)以及數(shù)據(jù)基礎設施與支撐資源等協(xié)同整合成為數(shù)據(jù)質(zhì)量控制體系的有機整體,進而掌握不同階段數(shù)據(jù)質(zhì)量控制的基本要求(見表11),實現(xiàn)生命科學數(shù)據(jù)質(zhì)量控制體系運行效益的最大化。為此,需要重點把握和處理好以下問題:
(1)總結(jié)生命科學數(shù)據(jù)管理特質(zhì)與內(nèi)涵。無論是數(shù)據(jù)來源與形式,還是數(shù)據(jù)產(chǎn)生條件與應用場景,生命科學數(shù)據(jù)資源的采集、存儲、開發(fā)均對技術、管理、倫理、制度、標準、流程以及人員素質(zhì)等提出了特定的要求,客觀上也需要數(shù)據(jù)質(zhì)量控制的方式、內(nèi)容與生命科學項目研究、數(shù)據(jù)流程及運行規(guī)律相匹配。
(2)優(yōu)化主體協(xié)作機制。生命科學數(shù)據(jù)管理涉及主體眾多,不同主體對于數(shù)據(jù)采集、加工、存儲、共享的條件要求與目標預期各不相同,其數(shù)據(jù)質(zhì)量控制體系應結(jié)合數(shù)據(jù)管理應用場景,有效匹配資助方、研究人員及其機構(gòu)、期刊出版方等不同主體數(shù)據(jù)質(zhì)量控制的需求,加強不同主體間質(zhì)量控制的業(yè)務銜接,不斷調(diào)整與優(yōu)化數(shù)據(jù)質(zhì)量控制體系。
(3)強化流程質(zhì)量控制力度。從數(shù)據(jù)管理計劃編制到計劃執(zhí)行過程中的數(shù)據(jù)采集、組織、保存與共享等不同階段,生命科學數(shù)據(jù)質(zhì)量控制的重心、方法、要求與標準各有差異,既要關注數(shù)據(jù)內(nèi)容層面的價值性維度,如數(shù)據(jù)自身的完整性、準確性、可靠性等要求,也要關注標準方法、數(shù)據(jù)加工處理技術等操作層面的工具性維度,如采用元數(shù)據(jù)的質(zhì)量控制方法將各類數(shù)據(jù)的特征、關系、語義等進行規(guī)范化描述,從而形成連續(xù)性的數(shù)據(jù)質(zhì)量監(jiān)管框架。
(4)完善數(shù)據(jù)質(zhì)量控制的基礎保障。標準化的數(shù)據(jù)規(guī)范以及穩(wěn)定、安全、便捷的數(shù)據(jù)平臺/倉儲等基礎設施,均需要充分的人、財、物等基礎保障,特別是工作人員的數(shù)據(jù)意識、數(shù)據(jù)技能直接影響到生命科學數(shù)據(jù)管理成效,既需要全方位的資源投入與健全的數(shù)據(jù)制度,也需要強化研究人員等責任主體數(shù)據(jù)行為的養(yǎng)成性指導。
參考文獻:
[1]? 陳鵬.生命科學信息的公共獲取[J].中華醫(yī)學圖書情報雜志,2014,1(1):12.
[2]? Flatley B P,Stead W W.Assessing data quality:from concordance, through correctness and completeness,to valid manipulatable representations.[J].Journal of the American Medical Informatics Association Jamia,2000,7(1):106.
[3]? Weiskopf N G,Weng C.Methods and dimensions of electronic health record data quality assessment:enabling reuse for clinical research[J].Journal of the American Medical Informatics Association:JAMIA,2013,20(1):44-51.
[4]? KAHN M G,RAEBEL M A,GLANZ J M,et al.A pragmatic framework for single-site and multisite data quality assessment in electronic health record-based clinical research[J].Medical care,2012,50(7):S21-S29.
[5]? CHEN H,HAILEY D,WANG N,et al.A review of data quality assessment methods for public health informati on systems[J].Informational journal of environmental research and public health,2014,11(5):5170-5207.
[6]? Borisas B,Ramona B,Benoit B,et al.Minimizing proteome redundancy in the UniProt Knowledgebase[EB/OL].[2020-12-26].https://academic.oup.com/database/article/doi/10.1093/database/baw139/2742069#.
[7]? Nellore A,Jaffe A E,F(xiàn)ortin J P,et al.Human splicing diversity and the extent of unannotated splice junctions across human RNA-seq samples on the Sequence Read Archive[J].Genome Biology,2016,17(1):266.
[8]? Huntley R P,Sitnikov D,Orlic-Milacic M,et al.Guidelines for the functional annotation of microRNAs using the Gene Ontology[J].Rna-a Publication of the Rna Society,2016,22(5):667.
[9]? Etriks.Browse the eTRIKS recommended standards from Biosharing[EB/OL].[2021-03-07].https://www.etriks.org/standards-starter-pack/.
[10]? Mark D,McDowall,Midori A,et al.PomBase 2015: updates to the fission yeast database[J].Nucleic acids research,2015,43(Database issue):D656-61.
[11]? Casadevall A,Steen R G,F(xiàn)ang F C .Sources of error in the retracted scientific literature[J].Faseb Journal Official Publication of the Federation of American Societies for Experimental Biology,2014,28(9):3847.
[12]? Arturo,Casadevall,Lee,et al.A Framework for Improving the Quality of Research in the Biological Sciences.[J].mBio,2016,7(4):e01256-16.
[13]? Ulrike,Wittig,Maja,et al.Data management and data enrichment for systems biology projects[J].Journal of biotechnology,2017,261(11):229-237.
[14]? Hucka M.Systems Biology Markup Language(SBML)[J].Encyclopedia of Systems Biology,2013:2057-2063.
[15]? Taylor C F,F(xiàn)ield D,Sansone S A,et al.Promoting coherent minimum reporting guidelines for biological and biomedical investigations:the MIBBI project[J].Nature Biotechnology,2008,26(8):889-896.
[16]? 劉穎,王旋.醫(yī)學領域國際學術期刊數(shù)據(jù)出版政策分析[J].中國科技期刊研究,2017,28(8):685-689.
[17]? Chen Q,Britto R,Erill I,et al.Quality Matters:Biocuration Experts on the Impact of Duplication and Other Data Quality Issues in Biological Databases[J].Genomics Proteomics & Bioinformatics,2020,18(2):91-103.
[18]? Heimo Müller,Dagher G,Loibner M,et al.Biobanks for life sciences and personalized medicine: importance of standardization,biosafety,biosecurity,and data management[J].Current Opinion in Biotechnology,2020(65):45-51.
[19]? simonhodson.I2S2:Infrastructure for integration in structural sciences[J].Jisc,2009.
[20]? Crowston K,Qin J.A capability maturity model for scientific data management[J].Proceedings of the American Society for Information Science and Technology,2010,47(1):1-2.
[21]? Michener W K,Jones M B.Ecoinformatics:Supporting Ecology as a Data-Intensive Science[J].Trends in Ecology & Evolution,2012,27(2):85-93.
[22]? Griffin P C,Khadake J,Lemay K S,et al.Best practice data life cycle approaches for the life sciences[J].F1000research,2017(6):1618.
[23]? Research Data Management at CSHL[EB/OL].[2021-02-15].https://cshl.libguides.com/c.php?g=696335&p=8032145.
[24]? 江洪,王春曉.基于科學數(shù)據(jù)生命周期管理階段的科學數(shù)據(jù)質(zhì)量評價體系構(gòu)建研究[J].圖書情報工作,2020,64(10):19-27.
[25]? Data & Safety Monitoring Plans[EB/OL].[2021-03-15].https://www.niddk.nih.gov/research-funding/human-subjects-research/policies-clinical-researchers/data-safety-monitoring-plans.
[26]? National Institutes of Health Office of the Director.Guidelines for SCIENTIFIC RECORD KEEPING in the Intramural Research Program at the NIH[EB/OL].[2021-02-15].https://oir.nih.gov/sites/default/files/uploads/sourcebook/documents/ethical_conduct/guidelines-scientific_recordkeeping.pdf.
[27]? Proposal & Award Policies & Procedures Guide[EB/OL].[2021-02-15].https://www.nsf.gov/pubs/policydocs/pappg20_
1/index.jsp.
[28]? Directorate for Biological Sciences[EB/OL].[2021-02-15].https://www.nsf.gov/bio/pubs/BIODMP_Guidance.pdf.
[29]? Pubilic Access to results of NSF-Funded research[EB/OL].[2021-02-15].https://www.nsf.gov/news/special_reports/public_access/index.jsp.
[30]? Final NIH Policy for Data Management and Sharing[EB/OL].[2021-02-15].https://grants.nih.gov/grants/guide/notice-files/NOT-OD-21-013.html.
[31]? How to complete an outputs management plan[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/how-complete-outputs-management-plan#contact-us-dd23.
[32]? BBSRC DATA SHARING POLICY[EB/OL].[2021-02-15].https://bbsrc.ukri.org/documents/data-sharing-policy-pdf/.
[33]? Research Data Management[EB/OL].[2021-02-15].https://www.fwf.ac.at/en/research-funding/open-access-policy/research-data-management.
[34]? Genome Canada Data Release and Sharing Policies[EB/OL].[2021-02-15].https://www.genomecanada.ca/sites/default/files/publications/gcdatasharingpolicies16-09-23.pdf.
[35]? Research Data Management Policy[EB/OL].[2021-02-15].https://www.qub.ac.uk/home/Filestore/Filetoupload,910267,en.pdf.
[36]? Management of Research Data and Records Policy(MPF1242)[EB/OL].[2021-02-15].https://policy.unimelb.edu.au/MPF
1242.
[37]? Sparks R,Lau W W,Tsang J S .Expanding the Immunology Toolbox: Embracing Public-Data Reuse and Crowdsourcing[J].Immunity,2016,45(6):1191-1204.
[38]? British Ecological Society·A Guide to Data Management in Ecology and Evolution[EB/OL].[2021-03-15].https://www.britishecologicalsociety.org/wp-content/uploads/2016/04/Guide-to-Data-Management.pdf.
[39]? Open access policy[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/open-access-guidance/open-access-policy.
[40]? data,software and materials management and sharing policy[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/data-software-materials-management-and-sharing-policy.
[41]? Editorial policies[EB/OL].[2021-02-15].https://www.nature.com/nature-research/editorial-policies.
[42]? Editorial policies[EB/OL].[2021-02-15].https://www.sciencemag.org/authors/science-journals-editorial-policies.
[43]? Data Availability[EB/OL].[2021-02-15].https://journals.plos.org/plosone/s/data-availability.
[44]? Data Guideliness[EB/OL].[2021-02-15].https://f1000research.com/for-authors/data-guidelines#hosting.
[45]? European Molecular Biology Laboratory-European Bioinformatics Institute[EB/OL].[2021-02-16].https://www.ebi.ac.uk/.
[46]? The GenBank Submissions Handbook[EB/OL].[2021-03-07].https://www.ncbi.nlm.nih.gov/books/NBK51157/.
[47]? Introduction to PDB Data[EB/OL].[2021-02-16].http://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/introduction.
[48]? Neuroimaging Informatics Tools and Resources Clearinghouse[EB/OL].[2021-02-16].https://www.nitrc.org/.
[49]? 儲節(jié)旺,林浩煒.典型生物醫(yī)學元數(shù)據(jù)功能比較研究與啟示[J].現(xiàn)代情報,2021,41(1):4-12,31.
[50]? 孫軼楠,顧立平,宋秀芳,等.學科數(shù)據(jù)知識庫的政策調(diào)研與分析——以生命科學領域為例[J].現(xiàn)代圖書情報技術,2015,31(12):13-20.
[51]? Wooley J ,Lin H S .Catalyzing Inquiry at the Interface of Computing and Biology[M].national academies press,2005:35.
作者簡介:夏義堃,女,武漢大學信息資源研究中心教授,研究方向:政府數(shù)據(jù)治理;管茜,女,武漢大學信息管理學院碩士研究生。