邱春艷 陳可睿
(曲阜師范大學傳媒學院,日照 276826)
新型冠狀病毒肺炎(以下簡稱“新冠肺炎”,COVID-19)疫情暴發(fā)以來,國內(nèi)外為研發(fā)病毒解決方案,從政策研究、平臺建設、研究成果管理等方面入手推動相關科學數(shù)據(jù)資源的開放和共享。2020年3月,中國國家自然科學基金委員會(National Natural Science Foundation of China,NSFC)同英國國家科研與創(chuàng)新署(UK Research and Innovation,UKRI)聯(lián)合發(fā)布聲明,強調(diào)雙方共同致力于加強全球科研合作,鼓勵開放的信息交流和數(shù)據(jù)共享,為快速推進新冠肺炎診斷、治療與防控提供科技保障和決策支撐[1]。為解決疫情暴發(fā)情況下研究論文相關數(shù)據(jù)資源訪問障礙問題,《世界衛(wèi)生組織簡報》(Bulletin of the World Health Organization)實施“COVID-19 Open”數(shù)據(jù)共享和報告機制,即當向《世界衛(wèi)生組織簡報》提交數(shù)據(jù)后,所有與新冠肺炎疫情有關的研究論文都將被分配一個數(shù)字對象標識符,并在接受同行評議的24小時內(nèi)在線發(fā)布到“nCov-2019 Open”數(shù)據(jù)平臺上[2]。
由此可見,新冠肺炎疫情下,建立完善的數(shù)據(jù)開放平臺和共享機制,應對全球突發(fā)公共衛(wèi)生挑戰(zhàn),推進公共衛(wèi)生緊急事件數(shù)據(jù)共享能力的建設,已經(jīng)成為各國政府和科技界的普遍共識[3]。本文通過網(wǎng)絡調(diào)查和文獻調(diào)研,歸納總結新冠肺炎科學數(shù)據(jù)資源平臺數(shù)據(jù)共享的現(xiàn)狀與特征,從共享激勵機制、科學數(shù)據(jù)的質(zhì)量控制、元數(shù)據(jù)標準等方面提出改進建議,以期推動新冠肺炎相關科學數(shù)據(jù)的交流與共享。
科學數(shù)據(jù)既是科研成果的提煉,又是科研創(chuàng)新的來源。目前對科學數(shù)據(jù)界定的認知尚未統(tǒng)一??茖W數(shù)據(jù)一般是指在科技活動(實驗、觀測、探測、調(diào)查等)中或通過其他方式所獲取的反映客觀世界的本質(zhì)、特征、變化規(guī)律等的原始基本數(shù)據(jù),以及根據(jù)不同科技活動需要,進行系統(tǒng)加工整理的各類數(shù)據(jù)集[4]。本文所討論的新冠肺炎科學數(shù)據(jù)是指新冠肺炎疫情監(jiān)測以及相關科學研究活動所產(chǎn)生的各類數(shù)據(jù)資料和相關信息。
新冠肺炎數(shù)據(jù)是海量數(shù)據(jù)資源中的一部分,具有科學數(shù)據(jù)資源的一般類型劃分。如根據(jù)科學數(shù)據(jù)資源的加工程度,可以將其劃分為原始數(shù)據(jù)和衍生數(shù)據(jù)。其中,原始數(shù)據(jù)指在科學研究中通過實驗、觀測、探測、調(diào)查等方式得到的未經(jīng)進一步加工處理的數(shù)據(jù);根據(jù)科學研究或數(shù)據(jù)管理的需要將原始數(shù)據(jù)進一步加工整理的各種數(shù)據(jù)集合即為衍生數(shù)據(jù)。而新冠肺炎數(shù)據(jù)主要為新冠肺炎疫情中的監(jiān)測和科學研究數(shù)據(jù),鑒于新冠肺炎疫情本身監(jiān)測和科學研究的內(nèi)容特征,從數(shù)據(jù)的主題角度可以將新冠肺炎數(shù)據(jù)的類型進一步劃分為疫情監(jiān)控數(shù)據(jù)、病毒數(shù)據(jù)、藥物或疫苗數(shù)據(jù)、治愈患者跟蹤數(shù)據(jù)等。其中,疫情監(jiān)控數(shù)據(jù)包括時間、地點、確診病例數(shù)、疑似病例數(shù)、治愈病例數(shù)等信息;病毒數(shù)據(jù)包括基因組、核酸序列、宿主類型等信息;藥物或疫苗數(shù)據(jù)包括靶向數(shù)據(jù)、滅活性、時效等信息;治愈患者跟蹤數(shù)據(jù)包括治愈患者各項身體健康數(shù)據(jù)、治愈后后遺癥出現(xiàn)概率及其治愈情況等信息。
不同國家和組織將新冠肺炎相關研究的數(shù)據(jù)存儲到機構庫中并通過旗下出版物或搭建共享平臺進行共享。在新冠肺炎流行期間,一些國家開放獲取出版的比例較之前有所增加[5]。如Torres-Salinas[6]對12個數(shù)據(jù)存儲庫中有關新冠肺炎的科學研究成果進行計量分析,發(fā)現(xiàn)每4種新冠肺炎出版物中就有3種可以開放共享。新冠肺炎數(shù)據(jù)平臺數(shù)量逐漸增多,隨之暴露出平臺建設中的許多不足,如我國學術期刊在新冠肺炎防疫期間存在整體上反應不夠迅速、數(shù)字化出版能力不強、網(wǎng)絡首發(fā)平臺應用不充分等問題[7]。謝新洲等[8]指出開放的信息不應局限于數(shù)據(jù),也應該包括病毒樣本、病毒序列信息、不涉及隱私的臨床資料、診療指南、數(shù)據(jù)結果的算法代碼、標準和思想等。
經(jīng)初步調(diào)查,目前新冠肺炎數(shù)據(jù)資源多以數(shù)據(jù)平臺的形式呈現(xiàn)。由于不同科研團體對數(shù)據(jù)處理的角度和方法不同,不同國家或組織對科研數(shù)據(jù)的規(guī)定也存在差異,不同平臺資源類型、更新速度、可共享性、元數(shù)據(jù)標準等的規(guī)定各不相同。因此,本文對新冠肺炎相關科學數(shù)據(jù)資源平臺進行調(diào)查和分析。
通過調(diào)查發(fā)現(xiàn),新冠肺炎數(shù)據(jù)平臺呈現(xiàn)明顯的區(qū)域性特征。中國、美國和歐洲更注重新冠肺炎的檢測和研究,進而提供更加豐富的數(shù)據(jù)資源存儲和共享。在綜合考慮各新冠肺炎數(shù)據(jù)平臺的權威性、領域影響力及內(nèi)容覆蓋全面性的基礎上,對21個典型平臺進行對比分析(見表1),除表中信息外,還包括歐洲委員會(European Commission)的COVID-19 Data Portal以及世界蛋白質(zhì)數(shù)據(jù)庫基金會(Worldwide Protein Data Bank Foundation)的World Protein Data Bank(PDB)兩個平臺。
表1 典型新冠肺炎數(shù)據(jù)平臺分布情況
除對新冠肺炎數(shù)據(jù)平臺的所屬機構、數(shù)據(jù)主題和資源量進行調(diào)查以外,根據(jù)數(shù)據(jù)共享所涉及的主要方面,對數(shù)據(jù)平臺的更新速度、可共享性、元數(shù)據(jù)標準、政策、數(shù)據(jù)接口等進行調(diào)查。經(jīng)研究發(fā)現(xiàn),新冠肺炎數(shù)據(jù)平臺所收錄的數(shù)據(jù)以病毒數(shù)據(jù)、疫苗或藥物數(shù)據(jù)以及疫情監(jiān)控數(shù)據(jù)為主。新冠肺炎數(shù)據(jù)平臺多為非公益性機構和組織搭建,多數(shù)遵循《科學數(shù)據(jù)管理辦法》、CC協(xié)議和FAIR Principles,也有部分平臺簽訂了平臺自身的數(shù)據(jù)共享倡議。除Infectious Diseases Data Observatory平臺需要郵件申請數(shù)據(jù)訪問外,其余平臺均可免費查看,極少數(shù)平臺需要用戶注冊。與此同時,各平臺均使用API接口完成IP地址之間的跳轉,以適應不同用戶的瀏覽器使用習慣。平臺多包含病毒數(shù)據(jù)和疫情監(jiān)控數(shù)據(jù)等科學數(shù)據(jù),并盡量收錄更為豐富和多樣的資源來滿足不同用戶的數(shù)據(jù)需求。不同平臺存儲的科學數(shù)據(jù)所屬學科領域不同,元數(shù)據(jù)標準的使用也存在差異,例如病毒基因數(shù)據(jù)的描述主要使用Genome Metadata標準、蛋白質(zhì)數(shù)據(jù)的描述使用PDBx/mmCIF或PDB元數(shù)據(jù)標準、疫情數(shù)據(jù)的描述主要使用DC元數(shù)據(jù)標準。該類數(shù)據(jù)平臺所包含的科學數(shù)據(jù)通常由科研人員通過大量實驗、計算得出,科研人員的共享意愿是數(shù)據(jù)共享的重要影響因素,數(shù)據(jù)多為動態(tài)更新。
此外,上述調(diào)查的平臺中,一部分是新冠肺炎疫情發(fā)生后以滿足科研人員研究需求、提高公眾對新冠肺炎的認識為目的搭建的平臺,如中國科學院的新型冠狀病毒國家科技資源服務系統(tǒng)、中國國家人口健康科學數(shù)據(jù)中心的新型冠狀病毒肺炎數(shù)據(jù)共享系統(tǒng)、Nextstrain團隊的Genomic epidemiology of SARS-CoV-2、歐洲委員會的COVID-19 Data Portal等;另一部分是在原收錄數(shù)據(jù)的基礎上擴展出新冠肺炎相關數(shù)據(jù)專題,如國家基因庫生命大數(shù)據(jù)平臺、PDB、COVID-19 Dashboard等。大多數(shù)平臺在數(shù)據(jù)收集和存儲過程中沒有明顯的區(qū)域局限性,科研人員能夠在不同的平臺上檢索查詢或通過API接口訪問不同國家/地區(qū)的病毒基因測序數(shù)據(jù)及疫情監(jiān)控數(shù)據(jù)。涉及疫情監(jiān)控數(shù)據(jù)的平臺在數(shù)據(jù)上具有一致性,只是在更新頻率及更新速度上有所不同。與此同時,同數(shù)據(jù)源平臺的數(shù)據(jù)在內(nèi)容上具有一致性,例如均來源于PDB的RCSB Protein Data Bank和Protein Data Bank Japan。同一國家的不同平臺其科學數(shù)據(jù)資源存在一定的交叉關系,例如國家基因庫生命大數(shù)據(jù)平臺與天津大學生物信息中心的新型冠狀病毒基因組注釋數(shù)據(jù)庫、美國的COVID-19 Dashboard與COVID-19 Interactive Map,雖然存在交叉關系,但由于數(shù)據(jù)表現(xiàn)形式和側重點的不同,平臺之間仍然存在差異。
通過上述調(diào)查,對新冠肺炎數(shù)據(jù)平臺的數(shù)據(jù)共享現(xiàn)狀進行分析,歸納總結了以科學數(shù)據(jù)倉儲為代表的新冠肺炎科學數(shù)據(jù)共享的特點。
不同共享平臺提供獲取方式不同,例如PDB支持使用FTP格式直接下載所需數(shù)據(jù),COVID-19 Data Portal提供CDP、FTP、Aspera多種下載格式,能夠滿足用戶不同的使用需求。除此之外,所有科學數(shù)據(jù)平臺均使用API接口實現(xiàn)不同IP地址之間的跳轉,幫助用戶直接訪問所需數(shù)據(jù),提高檢索效率。但從平臺數(shù)據(jù)的更新速度看,上述平臺中極少數(shù)明確更新時間間隔,62%的平臺數(shù)據(jù)更新根據(jù)科研進展而定。
此外,有研究表明,科研人員在與陌生人共享數(shù)據(jù)時,形成了以利益為導向的“心理賬戶”,更加注重數(shù)據(jù)共享帶來的學術利益、風險程度以及對數(shù)據(jù)控制感的下降,從而導致數(shù)據(jù)共享意愿降低[9]。由此看出,科研人員共享數(shù)據(jù)的意愿以及平臺本身的政策及規(guī)范性約束等對平臺數(shù)據(jù)更新速度有較大影響。與此類似,經(jīng)調(diào)查發(fā)現(xiàn),上述大部分平臺在數(shù)據(jù)共享政策和制度制定的過程中,缺少保障科研人員利益的相關規(guī)范和完整的相關條款,更多是在聲明中指出用戶在使用過程中應當尊重和保護作者和出版機構的版權,數(shù)據(jù)的使用受到機構所屬領地法律的保護。
在所調(diào)查的數(shù)據(jù)平臺中,極少數(shù)平臺有明確質(zhì)量控制要求,如國家基因庫生命大數(shù)據(jù)平臺標明所提交的數(shù)據(jù)需要通過MD5校驗數(shù)據(jù)傳輸?shù)耐暾?,且需要通過元數(shù)據(jù)信息和倫理批件等審核[10-11];PDB上明確了提交數(shù)據(jù)時要求用戶提供實驗過程以幫助評議委員會對數(shù)據(jù)進行評審;RCSB Protein Data Bank以及Protein Data Bank Japan同屬于PDB的分數(shù)據(jù)庫,其數(shù)據(jù)提交標準與PDB保持一致。除此之外,其他平臺有關科學數(shù)據(jù)質(zhì)量評價的約束比較寬泛,主要依靠機構工作人員成立評估委員會或者專門負責的管理人員對提交材料和數(shù)據(jù)進行審核,對數(shù)據(jù)的真實性和可靠性評價主觀性較強,缺少客觀的評價標準和完善的質(zhì)量控制機制。
對新冠肺炎疫情等全球性突發(fā)公共衛(wèi)生事件而言,建立完善的元數(shù)據(jù)描述標準,有利于實現(xiàn)跨學科合作,發(fā)揮科學數(shù)據(jù)資源的價值。在應對新冠肺炎疫情的國際合作中,通過開放數(shù)據(jù)和開放標準構建開放可信的國際數(shù)據(jù)生態(tài)系統(tǒng)日益得到各國的重視[12]。數(shù)據(jù)標準缺失、元數(shù)據(jù)與國際標準(Sche-ma.org和DCAT)不兼容以及通過搜索引擎(如百度、微軟、必應和谷歌等)難以發(fā)現(xiàn)和定位開放數(shù)據(jù)集等現(xiàn)實問題對國際合作中的主動權和話語權具有消極影響[13]。
由前述調(diào)查得知,平臺元數(shù)據(jù)標準的使用存在很大差異,同一平臺綜合使用兩種及以上元數(shù)據(jù)標準的現(xiàn)象約占43%。使用頻率較高的元數(shù)據(jù)標準有Genome Metadata標準、DC元數(shù)據(jù)標準、PDBx/mmCIF標準、Darwin Core標準等。由此可知,相似或相同領域的元數(shù)據(jù)標準使用差異大,缺少統(tǒng)一的描述標準,尤其是新冠肺炎領域科研成果學術交流平臺所使用的機構自定義元數(shù)據(jù)標準,若缺乏互操作機制的保障則不利于科學數(shù)據(jù)資源的共享。
根據(jù)前述調(diào)查結果,平臺涉及的數(shù)據(jù)類型主要針對病毒及其蛋白質(zhì)信息、診療方案以及一些基礎數(shù)據(jù)的收集整理,僅部分平臺涉及治愈患者數(shù)量,暫未發(fā)現(xiàn)有平臺涉及患者治愈后健康情況的后續(xù)跟蹤研究數(shù)據(jù)(如患者治愈后身體各項指標與未患病之前是否存在變化,產(chǎn)生后遺癥的概率,后遺癥是否存在可治愈性等)。由此看出,新冠肺炎數(shù)據(jù)平臺目前收錄的數(shù)據(jù)類型以疫情監(jiān)控數(shù)據(jù)和病毒數(shù)據(jù)研究為主,缺少病例治愈后健康數(shù)據(jù)監(jiān)控一環(huán),對于病例的數(shù)據(jù)跟蹤周期尚不完整,不利于新冠肺炎從發(fā)現(xiàn)到治愈后整個周期的研究數(shù)據(jù)的整體性和可驗性。
完善、明晰的制度環(huán)境是科學數(shù)據(jù)共享服務生態(tài)體系建立與發(fā)展的外部環(huán)境,科學和高水平的標準規(guī)范是生態(tài)系統(tǒng)持續(xù)演進的前提與基礎[14]。2020年2月11—12日,在世界衛(wèi)生組織召開的“新冠肺炎全球研究與創(chuàng)新論壇”上,來自世界各地的科學家一致認為對新冠肺炎相關數(shù)據(jù)及研究成果應當公開,提供公平公正的獲取[15]。
科研人員在數(shù)據(jù)共享平臺公開自己的研究成果,可能會出現(xiàn)研究成果被他人竊取的風險,除此之外,研究數(shù)據(jù)的公開,使得科研人員的收益下降,切身利益受損。因此,在數(shù)據(jù)開放共享實踐穩(wěn)步推進的過程中,政策和制度約束方面同樣需要引起高度關注。國家相關部門應該根據(jù)數(shù)據(jù)共享情況制定政策條款,保障科研人員的知識產(chǎn)權和切身利益。與此同時,數(shù)據(jù)共享有利于科學研究的可驗證和可復用,加強對數(shù)據(jù)共享的監(jiān)督,可以增強學術研究的透明度,為科研人員的進一步工作提供有效的數(shù)據(jù)來源和知識基礎。基于此,科研人員應當對數(shù)據(jù)共享樹立正確的認識,提高數(shù)據(jù)共享觀念,以此促進新冠肺炎相關研究數(shù)據(jù)的開放,進一步推動新冠肺炎研究逐漸深入,提升全球合作和突發(fā)公共衛(wèi)生事件的全球應對能力。
數(shù)據(jù)共享最終是為了釋放數(shù)據(jù)的價值,數(shù)據(jù)價值的體現(xiàn)在于數(shù)據(jù)使用和數(shù)據(jù)質(zhì)量,因此數(shù)據(jù)質(zhì)量的審核過程至關重要,尤其是科學數(shù)據(jù)平臺,應當根據(jù)其所收錄數(shù)據(jù)類型的不同建立客觀、完善的數(shù)據(jù)質(zhì)量評價體系。目前,國內(nèi)科學數(shù)據(jù)機構出臺的關于科學數(shù)據(jù)質(zhì)量的評估體系只涉及準確性、完整性和可用性等寬泛的指標[16]?!犊茖W數(shù)據(jù)管理辦法》[17]《中國科學院科學數(shù)據(jù)管理與開放共享辦法》[18]等對論文關聯(lián)數(shù)據(jù)匯交機制進行規(guī)范,確保科研結論可驗性。
馬費成等[19]提出生命周期方法使用對象的3個條件——“連續(xù)性、不可逆轉性和迭代性”,丁寧等[20]認為生命周期法也適用于科學數(shù)據(jù)領域,科學數(shù)據(jù)生命周期與科研流程密切相關,科學數(shù)據(jù)生命周期管理的本質(zhì)是依據(jù)科研工作流程管理數(shù)據(jù)。在對新冠肺炎數(shù)據(jù)開展質(zhì)量控制時,可參照數(shù)據(jù)生命周期的方法對新冠肺炎科學數(shù)據(jù)的共享過程進行階段和層次劃分,進而建立科學數(shù)據(jù)質(zhì)量評價指標體系,有助于明確權責主體,確保整個流程中的數(shù)據(jù)受到有效的監(jiān)督,提高數(shù)據(jù)質(zhì)量。具體生命周期階段可以根據(jù)科研活動的需要具體劃分,根據(jù)生命周期構建的科學數(shù)據(jù)質(zhì)量評價指標體系要適用于機構自身,并且在實踐過程中不斷精進完善,充分論證其科學性和可行性。
元數(shù)據(jù)是描述信息資源或數(shù)據(jù)對象的數(shù)據(jù),其最本質(zhì)、最抽象的定義就是:關于數(shù)據(jù)的數(shù)據(jù)[21]。1994年電氣和電子工程師協(xié)會(IEEE)在白皮書[22]中明確了元數(shù)據(jù)應用的4種場景:查詢、瀏覽、檢索數(shù)據(jù),數(shù)據(jù)獲取、質(zhì)量保證、再加工,系統(tǒng)間轉換數(shù)據(jù),存儲、建立數(shù)據(jù)檔案。元數(shù)據(jù)標準的構建能夠使得元數(shù)據(jù)在數(shù)據(jù)開放共享過程中發(fā)揮更好的作用。隨著新冠肺炎的流行,在數(shù)據(jù)共享實踐中忽略元數(shù)據(jù)標準的弊端逐漸顯露出來[23]。在新基建和新技術引領我國數(shù)據(jù)中心產(chǎn)業(yè)高質(zhì)量發(fā)展的時期,對于數(shù)據(jù)中心的建設,應當注重元數(shù)據(jù)標準的共同開發(fā)和應用,打破“數(shù)據(jù)孤島”,實現(xiàn)數(shù)據(jù)資源之間的連接和互操作性。
因此,構建新冠肺炎科學數(shù)據(jù)共享平臺、開展數(shù)據(jù)共享時可多借鑒和使用國際認可度高、傳播范圍廣、應用比較成熟的元數(shù)據(jù)標準,便于更好地與國際科學數(shù)據(jù)共享平臺接軌,提高不同組織、不同領域之間元數(shù)據(jù)的互操作性。除此之外,應該積極參與元數(shù)據(jù)標準開發(fā)和推廣的國際交流與合作,為科學數(shù)據(jù)共享的可持續(xù)健康發(fā)展提供堅實基礎。
現(xiàn)階段,新冠肺炎的數(shù)據(jù)收錄應當對“治愈患者健康情況跟蹤數(shù)據(jù)”進行覆蓋。患者數(shù)據(jù)跟蹤從疑似、確診、治療到治愈后為一個完整周期,因此,對于治愈患者健康情況數(shù)據(jù)的跟蹤必不可少,這部分數(shù)據(jù)的收錄可以為新冠肺炎臨床研究提供有力數(shù)據(jù)支撐,支持驗證臨床實驗數(shù)據(jù)結果[24],為逐步改進治療方案提供有效案例。除此之外,通過新冠肺炎數(shù)據(jù)共享平臺以表格、圖片、地圖等多種可視化形式進行開放共享,還可以為患者治愈后續(xù)相關問題提供參考依據(jù)。
治愈患者健康情況跟蹤數(shù)據(jù)涉及個人信息,個人信息的使用方式及使用范圍首先應由個人自主決定,只有尊重和保護個體對個人信息的自主決定權,將授權同意作為使用的一般要件,才能保障個人信息利用行為的正當性與合法性,進而挖掘和釋放個人信息應有的資源價值[25]。因此,在對治愈患者健康數(shù)據(jù)進行收錄的同時,應當保障患者的知情權,這一環(huán)節(jié)需要相關政策文件的約束,除此之外,還要對患者的相關隱私信息使用進行規(guī)范,維護患者個人隱私權。