典型生物醫(yī)學元數(shù)據(jù)功能比較研究與啟示

2021-01-15 13:17:40儲節(jié)旺林浩煒

現(xiàn)代情報 2021年1期

儲節(jié)旺林浩煒

收稿日期：2020-08-21

基金項目：國家社會科學一般項目“大數(shù)據(jù)環(huán)境下突發(fā)事件應急管理情報能力建設研究”（項目編號：16BTQ066）。

作者簡介：儲節(jié)旺（1969-），男，館長，教授，博士生導師，研究方向：知識管理。林浩煒（1996-），男，碩士研究生，研究方向：知識管理。

摘要：[目的/意義]旨在深化對國內生物醫(yī)學數(shù)據(jù)庫的元數(shù)據(jù)研究，提高國內生物醫(yī)學數(shù)據(jù)開放水平。[方法/過程]本文基于基因組學研究人員的元數(shù)據(jù)功能需求，歸納出結構需求、內容需求、關聯(lián)需求和使用需求4個維度，提出生物醫(yī)學元數(shù)據(jù)功能需求維度模型。通過引入內容結構視圖作為分析元數(shù)據(jù)結構的模型，對國內外生物醫(yī)學數(shù)據(jù)庫的元數(shù)據(jù)方案進行比較研究。[結果/結論]國內生物醫(yī)學數(shù)據(jù)庫可以從數(shù)據(jù)結構優(yōu)化、數(shù)據(jù)質量控制、豐富研究條目和分類匯總鏈接4個方面推動數(shù)據(jù)開放的水平。

關鍵詞：生物醫(yī)學數(shù)據(jù);數(shù)據(jù)開放;元數(shù)據(jù);功能需求模型

DOI：10.3969/j.issn.1008-0821.2021.01.001

〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821（2021）01-0004-09

Comparative Studies and Implications of Typical

Biomedical Metadata Functions

Chu Jiewang Lin Haowei

（School of Management，Anhui University，Hefei 230601，China）

Abstract：[Purpose/Significance]This paper aims to make further research on the metadata of domestic biomedical databases and improve the quality of domestic biomedical data opening.[Method/Process]Based on the metadata function requirements of genomics researchers，this paper summarized the four aspects of structure requirements，content requirements，linkage requirements and application requirements，and proposed the SCLA functional requirements dimension model of biomedical metadata.By introducing content structure view as a model for analyzing metadata structure，this paper made a comparative study on the metadata schemes of biomedical databases at home and abroad.[Results/Conclusion]domestic biomedical databases can promote the level of data openness from four aspects：optimization of data structure，data quality control，enrichment of research items and links of subgroups and summaries.

Key words：biomedical data;data opening;metadata;functional requirements model

隨著超高通量測序方法在基因學研究領域的應用，研究人員能夠更快地獲取生物樣本的基因組序列數(shù)據(jù)，大量的原始測序數(shù)據(jù)被保存到公共數(shù)據(jù)庫中，科研人員獲取開放數(shù)據(jù)和展開研究活動要求相關數(shù)據(jù)的每條序列記錄都可以鏈接到已測序樣本的元數(shù)據(jù)[1]。生物醫(yī)學數(shù)據(jù)庫中開放數(shù)據(jù)的元數(shù)據(jù)可以描述樣本數(shù)據(jù)集的創(chuàng)建者、時間、位置、機構、上下文、族系等信息，對于查找、檢索和重用上傳到公共數(shù)據(jù)庫中科學實驗結果報告十分重要，當用戶查找的科學數(shù)據(jù)未附帶或附帶質量較差的元數(shù)據(jù)時，對實驗數(shù)據(jù)進行索引和利用的軟件系統(tǒng)可能無法定位和返回原本符合給定搜索條件的搜索結果[2]。

有關生物醫(yī)學數(shù)據(jù)元數(shù)據(jù)質量的文獻指出許多開放生物醫(yī)學數(shù)據(jù)存在元數(shù)據(jù)標準和規(guī)范的問題。美國聯(lián)邦政府開發(fā)的HealthData.gov由于缺乏一致的數(shù)據(jù)存儲和檢索標準，會阻礙研究人員使用數(shù)據(jù)進行學術研究[3]。Rafael S Gonalves等[1]比較研究了美國國家生物信息中心（National Center for Biotechnology Information，NCBI）管理的BioSample和歐洲生物信息學研究所（European Bioinformatics Institute，EBI）管理的BioSamples兩個生物醫(yī)學數(shù)據(jù)庫，發(fā)現(xiàn)存在多數(shù)元數(shù)據(jù)字段名稱和內容未標準化且無法控制的情況，可能會阻止相關數(shù)據(jù)集的搜索和重用。導致元數(shù)據(jù)質量下降的原因在于過多使用非結構化文本描述開放生物醫(yī)學數(shù)據(jù)，而很少使用標準化的受控術語和學科領域中的本體論概念來控制元數(shù)據(jù)條目的名稱和填充內容[4]。有效的解決途徑是選擇合適的標準構建元數(shù)據(jù)[1，3]，使每個元數(shù)據(jù)條目的填充內容準確統(tǒng)一且遵守相應規(guī)范，即使自由擴展文本也可以使用受控術語來描述[5]。

元數(shù)據(jù)標準的選擇最終會影響元數(shù)據(jù)方案的結構，編寫元數(shù)據(jù)結構的標準是否合適取決于數(shù)據(jù)使用利益相關者的需求[6]。有關生物醫(yī)學元數(shù)據(jù)標準的研究表明，元數(shù)據(jù)標準的設計基于滿足特定的數(shù)據(jù)庫數(shù)據(jù)管理和用戶科研活動的功能需求。國際上現(xiàn)有的元數(shù)據(jù)標準如任何基因序列最小信息的最低信息標準（Minimum Information About Any（x）Sequence，MIxS）通過引入特定的“環(huán)境軟件包”實現(xiàn)提高跨庫收集的信息的質量、可訪問性和實用性的目的[7]，人類病原體/載體基因組序列的標準化元數(shù)據(jù)基于美國國立過敏和傳染病研究所（National Institute of Allergy and Infectious Diseases，NIAID）的GSCID/BRC項目和樣本應用標準，使研究人員能夠清晰地識別相關的基因組序列并進行比較性的基因組分析[1]。國內生物醫(yī)學元數(shù)據(jù)標準的研究包括結合生命周期理論的植物學基因表達實驗元數(shù)據(jù)模型[8]和五維度的我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范[9]，前者旨在完整描述科學實驗相關信息，支持不同類型科學實驗數(shù)據(jù)的語義化關聯(lián)，后者則是為了提供數(shù)據(jù)采集和存儲的技術標準。有關生物醫(yī)學元數(shù)據(jù)標準的研究都體現(xiàn)出功能需求的導向，但是這些文章并沒有討論元數(shù)據(jù)標準被應用于不同的具體數(shù)據(jù)庫后產(chǎn)生的差異。服務不同數(shù)據(jù)庫和研究人員的元數(shù)據(jù)標準所側重的功能需求不同，使用通用的元數(shù)據(jù)標準如都柏林核心元素集（Dublin Core Element Set，DC）可以在整體上設立數(shù)據(jù)標準框架，但用戶在上傳研究數(shù)據(jù)后，需要額外的人工操作或使用更好的基礎結構來確保多個字段名稱的有效填充以保證元數(shù)據(jù)質量[2]，因此需要結合具體的生物醫(yī)學數(shù)據(jù)庫對元數(shù)據(jù)標準的功能需求進行整理和比較研究。

本文根據(jù)生物醫(yī)學管理人員對基因組數(shù)據(jù)元數(shù)據(jù)的6項功能需求，歸納每項需求所涵蓋的要素特點，提出生物醫(yī)學數(shù)據(jù)元數(shù)據(jù)功能需求比較的4個維度：結構需求、內容需求、關聯(lián)需求和使用需求。引用內容結構視圖作為元數(shù)據(jù)結構需求的比較模型，并應用于選擇的國內外生物醫(yī)學數(shù)據(jù)庫的元數(shù)據(jù)方案比較，旨在深化國內生物醫(yī)學數(shù)據(jù)庫的元數(shù)據(jù)研究建設，提高國內生物醫(yī)學數(shù)據(jù)開放的質量水平。

1 生物醫(yī)學元數(shù)據(jù)功能需求

Mark D Wilkinson等[6]提出了科學數(shù)據(jù)管理的公平（FAIR，F(xiàn)indability，Accessibility，Interoperability，Reusability）數(shù)據(jù)原則，在對科學數(shù)據(jù)進行管理時關注所有的利益相關者的需求以提高數(shù)據(jù)質量，如研究人員希望能夠共享、重用彼此的研究數(shù)據(jù)和分析報告;提供數(shù)據(jù)分析和處理服務的技術供應者希望實現(xiàn)軟件工具和工作流程的重復使用;資助機構更加關注長期數(shù)據(jù)管理。思考用戶的使用需求可以用來指導開放數(shù)據(jù)庫的元數(shù)據(jù)設計。Jian Qin等[10]對元數(shù)據(jù)的功能需求進行了調查，將Willis等確定的22項科學數(shù)據(jù)元數(shù)據(jù)功能需求總結為基因組學研究人員的6項元數(shù)據(jù)功能需求，按需求程度從高到低分為可移植性（Portability）、可重用性（Reusability）、可操作性（Manipulability）、充分性（Sufficiency）、互操作性（Interoperability）和模塊性（Modularity），并以關鍵詞描述需求內容[7，11]。

元數(shù)據(jù)功能需求因素的某些方面在設置元數(shù)據(jù)時會產(chǎn)生重疊，如可移植性和可重用性本質上是從不同角度考察元數(shù)據(jù)條目的結構，可操作性和互操作性實際都是在考察元數(shù)據(jù)結構設置對研究人員數(shù)據(jù)處理的影響，這使其作為比較標準不具有明顯的區(qū)分度。有關生物醫(yī)學元數(shù)據(jù)質量研究的文章通常定義各種指標來評價元數(shù)據(jù)質量，如完整性、準確性、一致性[3]或完整性、準確性、出處[2]這樣的衡量標準，這為設計元數(shù)據(jù)功能需求的比較維度提供了思路。本文嘗試從元數(shù)據(jù)功能需求指標中提取關鍵描述字段，將指向相近的字段相結合歸納生物醫(yī)學數(shù)據(jù)庫元數(shù)據(jù)比較的主要方向，包括：結構（Structure）需求、內容（Content）需求、關聯(lián)（Linkage）需求、使用（Application）需求，并命名為SCLA維度模型，如圖1所示。

1.1 結構維度：結構簡便，兼容通用

元數(shù)據(jù)結構應該層次分明、結構清晰，使用簡練有區(qū)分度的語言以保證用戶能利用最少的關鍵詞定位到所需信息，便于目標數(shù)據(jù)上傳發(fā)布和查詢獲取;整套元數(shù)據(jù)方案的建立需要成熟的架構技術和操作系統(tǒng)，保證通過穩(wěn)定的檢索渠道訪問數(shù)據(jù)庫。元數(shù)據(jù)結構設計需要基于通用的元數(shù)據(jù)標準以支持與其它數(shù)據(jù)庫的協(xié)同操作。一些基因組學社區(qū)沒有設計與全球共享有關的元數(shù)據(jù)[10]，許多專業(yè)數(shù)據(jù)庫元數(shù)據(jù)標準的特有結構，如MIxS具有很強的獨特性難以兼容其它數(shù)據(jù)庫的數(shù)據(jù)內容。許多通用數(shù)據(jù)庫包含了許多不同類別、樣本容量小的重要數(shù)據(jù)集，這些數(shù)據(jù)集由于數(shù)據(jù)類型各異通常不會使用統(tǒng)一的描述限定[6]，使得研究人員存在較低集約化程度下的數(shù)據(jù)可重用性問題。

1.2 內容維度：內容全面，按需調整

生物醫(yī)學數(shù)據(jù)的質量關系到研究人員數(shù)據(jù)利用?？茖W數(shù)據(jù)質量得到控制，可以提高科學數(shù)據(jù)的可重用性，節(jié)約科研人員在數(shù)據(jù)清洗過程中的時間與精力[12]。數(shù)據(jù)庫為支持標準化數(shù)據(jù)結構使用統(tǒng)一的受控詞匯描述樣本信息，元數(shù)據(jù)方案可以提供用以注釋海量數(shù)據(jù)集中的非結構化信息的條目幫助研究人員多方位獲取樣本相關信息。此外，生物醫(yī)學元數(shù)據(jù)方案及其內容應該根據(jù)生物特性和研究人員的數(shù)據(jù)使用需要及時調整，提供數(shù)據(jù)上傳者可自定的元數(shù)據(jù)拓展包以保證元數(shù)據(jù)標準的可擴展和數(shù)據(jù)庫的可持續(xù)[11]，使數(shù)據(jù)庫數(shù)據(jù)能夠適應知識更新迭代。

1.3 關聯(lián)維度：相關聚合，共享交互

元數(shù)據(jù)功能需求指標中多次提到需求元數(shù)據(jù)方案提供關聯(lián)信息的鏈接，幫助用戶全面掌握目標數(shù)據(jù)。鏈接是元數(shù)據(jù)條目的一部分，屬于數(shù)據(jù)內容需求的范疇，但由于數(shù)據(jù)鏈接的指向受數(shù)據(jù)內容的不同而表現(xiàn)出不同的類型，因而單獨作為一個比較研究的維度。這些以鏈接形式存在元數(shù)據(jù)內容可以簡化數(shù)據(jù)結構，支持研究人員橫向比較、驗證數(shù)據(jù)的需求，促進跨庫內容的共享與交互。完整的數(shù)據(jù)鏈接網(wǎng)絡可以匯集包括數(shù)據(jù)庫、軟件工具、培訓資料、云儲存和超級計算機在內的研究資源，支持研究人員在更大范圍內查找和共享數(shù)據(jù)。以臨床病例報告（Clinical Case Reports，CCR）為例，臨床病例報告經(jīng)常能夠捕捉到不常見的癥狀和疾病[14]，但這些寶貴數(shù)據(jù)來源可能會受宿主所在國家的法律和法規(guī)約束，無法獲得離開所在管轄范圍的許可。歐洲生命科學數(shù)據(jù)研究基礎設施（The European Research Infrastructure for Life Science Data，ELIXIR）通過加強聯(lián)合歐洲的基因組表型檔案資源訪問節(jié)點，可以在確保符合國家法規(guī)的前提下快速共享2019新型冠狀病毒的臨床宿主數(shù)據(jù)[13]。

此外，元數(shù)據(jù)條目的設置要根據(jù)數(shù)據(jù)庫類型提供必要的數(shù)據(jù)引用鏈接以支持數(shù)據(jù)源的可追蹤性，提供數(shù)據(jù)關聯(lián)內容鏈接簡化數(shù)據(jù)檢索的流程，提供數(shù)據(jù)包和模板下載鏈接實現(xiàn)元數(shù)據(jù)內容的可移植性。

1.4 使用維度：分析處理，更新重用

元數(shù)據(jù)條目的設置應該支持研究人員對元數(shù)據(jù)內容地處理和分析。從數(shù)據(jù)庫提取下載的資源是否可操作對整個數(shù)據(jù)管理過程至關重要，這關系到研究人員能否根據(jù)實驗需要比較不同方案的數(shù)據(jù)，并驗證相關的元數(shù)據(jù)因素。專業(yè)庫使用的元數(shù)據(jù)方案要能夠滿足研究人員的使用需要，并能根據(jù)用戶需要不斷更新完善。同時，數(shù)據(jù)庫也可以通過工具包的形式提供開放獲取的生物計算資源和基礎研究架構[13]，從而支持研究人員在云基礎架構上部署可重用的生物醫(yī)學數(shù)據(jù)計算分析。

2 基于SCLA維度模型的生物醫(yī)學數(shù)據(jù)元數(shù)據(jù)功能需求比較

2.1 基本情況

本文選擇了5個國外病毒數(shù)據(jù)庫和2個國內病毒數(shù)據(jù)庫的元數(shù)據(jù)應用內容結構視圖進行比較分析，7個數(shù)據(jù)庫的基本情況，如表1所示。

2.2 比較分析

2.2.1 結構維度

不同元數(shù)據(jù)標準的側重點不同，所采用的描述字段不同，元數(shù)據(jù)的結構和內容存在差異。比較病毒數(shù)據(jù)的元數(shù)據(jù)標準需要引用一定的參考標準，朱玲[15]在文章中引入了一種內容結構視圖用于比較跨學科領域的研究數(shù)據(jù)的元數(shù)據(jù)標準。內容結構視圖分為識別元數(shù)據(jù)模塊（Identity Metadata）、語義元數(shù)據(jù)模塊（Semantic Metadata）、科研活動上下文（Scientific Context）、時間元數(shù)據(jù)（Temporal Metadata）和地理空間元數(shù)據(jù)（Geospatial Metadata）5個方面，前3個為主要模塊，分別提供識別數(shù)據(jù)集實體信息和相互關系、學科分類和跨領域鏈接、確定數(shù)據(jù)集操作流程的功能，如表2所示。

BioSample和GenBank都是由NCBI維護的生物醫(yī)學數(shù)據(jù)庫，元數(shù)據(jù)標準在內容結構視圖上均未對語義元數(shù)據(jù)和時空元數(shù)據(jù)有集中描述，在科研活動上下文模塊分別使用了7個描述字段，強調對滿足數(shù)據(jù)研究需求的關聯(lián)信息的描述。BioSample元數(shù)據(jù)的主體部分是樣本的屬性信息，還包括樣本的基本標識符、生物體分類、樣本描述屬性包、上傳者相關信息和外部定位鏈接URL等，屬性部分元數(shù)據(jù)的類型不固定，受上傳者選擇的樣本描述屬性包決定;GenBank相比BioSample更加重視對識別元數(shù)據(jù)的使用，其每一條由序列和注釋組成記錄都分配有一個唯一的標識符，稱為登錄號。登錄號在記錄的整個生命周期中保持不變，不受序列或注釋更改的影響。版本復合標識符由主要登錄號和記錄中序列數(shù)據(jù)的數(shù)字版本號組成，基因序列的每個版本都分配有一個唯一的NCBI標識符，稱為GI號，每個GI號對應一個唯一的版本標識符。當對GenBank數(shù)據(jù)庫中的序列進行修改會向更新后的序列分配新的GI號，并增加版本標識符的版本擴展名以保證檢索記錄始終處于最新版本。

ICTVdb不同于一般的生物病毒基因庫，它是病毒分類學國際委員會管理的數(shù)據(jù)庫，提供對每個物種示例性病毒的信息。ICTV關注的是病毒分類群的名稱和命名，即物種、屬、科等，因此在內容結構視圖上強調對分類信息的限定，使用了16個語義元數(shù)據(jù)條目，沒有使用過多的識別元數(shù)據(jù)，僅包括示例病毒的GenBank和RefSeq登錄號，以及屬于某個物種的病毒的隔離名和通用名。

ViPR使用GSCID-BRC元數(shù)據(jù)標準，該標準的特點在于元數(shù)據(jù)構成的層次結構分明，由5個主要方面和12個數(shù)據(jù)字段組成的樹狀分支網(wǎng)絡，每個子元素字段之間都有明顯的區(qū)分度。ViPR提供了來自GenBank的識別數(shù)據(jù)、注釋和序列查詢鏈接，元數(shù)據(jù)開發(fā)小組不斷推出新的版本對該標準進行完善，使ViPR的元數(shù)據(jù)內容實現(xiàn)與其他兼容GSCID-BRC元數(shù)據(jù)標準的數(shù)據(jù)庫網(wǎng)站的內容鏈接。

VIPERdb是基于MySQL開源數(shù)據(jù)庫管理系統(tǒng)的關系數(shù)據(jù)庫，使用開放源代碼OpenMMS Toolkit將mmCIF格式生物分子結構數(shù)據(jù)轉換為多種數(shù)據(jù)格式[16]。VIPERdb包含了約180個mmCIF詞典中定義的分類表，表列對應字典數(shù)據(jù)項，并提供從結晶參數(shù)到二級結構的內容和拓展信息。

國家生物信息中心的2019新型冠狀病毒信息庫（以下簡稱CNCB2019新冠病毒庫）元數(shù)據(jù)標準在內容結構視圖上的主體部分集中在上下文模塊，還使用了5個元數(shù)據(jù)條目對數(shù)據(jù)采集發(fā)布的時間、空間信息進行了限定。雖然沒有使用統(tǒng)一的元數(shù)據(jù)標準方案，但使用“序列完整度”和“質量評估”這樣的元數(shù)據(jù)條目對基因組序列數(shù)據(jù)的元數(shù)據(jù)質量提出了需求。

PHDA是國家人口健康科學數(shù)據(jù)中心管理的醫(yī)學數(shù)據(jù)庫集合中心，存儲了大量的生物學和醫(yī)學領域的數(shù)據(jù)庫和數(shù)據(jù)記錄，如蝙蝠相關病毒數(shù)據(jù)庫、嚙齒類相關病毒數(shù)據(jù)庫、冠狀病毒傳染病本體等。子數(shù)據(jù)庫不是單純的樣本數(shù)據(jù)集合，提供了詳細的元數(shù)據(jù)條目幫助研究人員掌握子數(shù)據(jù)庫和樣本數(shù)據(jù)的相關信息。PHDA的子數(shù)據(jù)庫使用了醫(yī)藥衛(wèi)生科學數(shù)據(jù)共享元數(shù)據(jù)標準，元數(shù)據(jù)方案采用二級元數(shù)據(jù)條目，將樣本數(shù)據(jù)清晰地劃分為基本信息、描述信息和聯(lián)系信息等部分，根據(jù)數(shù)據(jù)集和子數(shù)據(jù)庫的對象引出下級詳細的元數(shù)據(jù)內容。用戶可以通過一級元數(shù)據(jù)條目準確定位目標的識別元數(shù)據(jù)、分類描述信息、相關責任方聯(lián)系信息以及具體的目標序列數(shù)據(jù)。

經(jīng)過上述運用內容結構視圖對7個數(shù)據(jù)庫元數(shù)據(jù)標準結構的比較可以發(fā)現(xiàn)，數(shù)據(jù)庫的元數(shù)據(jù)標準在內容結構視圖上主要集中在科研活動上下文模塊，會根據(jù)數(shù)據(jù)庫的類型特點而有所側重，如GenBank要求對每條序列內容、注釋和版本的標識，重視使用識別元數(shù)據(jù)條目;ICTVdb關注病毒分類相關信息的描述，強調語義元數(shù)據(jù)模塊。此外，國內生物醫(yī)學數(shù)據(jù)庫相比國外更加重視元數(shù)據(jù)對樣本時間和空間信息的描述。

2.2.2 內容維度

GenBank、BioSample、ViPR和PHDA都提供了記錄樣本非結構化信息的自由文本編輯條目，CNCB2019新冠病毒庫僅提供了樣本數(shù)據(jù)的注釋統(tǒng)計數(shù)。GenBank允許上傳者修改序列數(shù)據(jù)和注釋，同時鼓勵用戶通過NCBI的數(shù)據(jù)上傳網(wǎng)站向GenBank報告數(shù)據(jù)庫發(fā)布數(shù)據(jù)的滯后和可能的數(shù)據(jù)錯誤與內容遺漏。BioSample在確定樣本屬性之后為上傳者提供了一個可選的自由文本字段以存儲有關樣本的非結構化信息，這種結構化信息加非結構化信息的樣本數(shù)據(jù)收錄方式能夠確保樣本信息的完整性，滿足不同用戶的數(shù)據(jù)獲取需求。ViPR基因組序列和變異信息引用了GenBank的數(shù)據(jù)信息，設置了GenBank定義和GenBank注釋。PHDA子數(shù)據(jù)庫，以蝙蝠相關病毒數(shù)據(jù)庫為例，在數(shù)據(jù)描述信息元數(shù)據(jù)條目說明了蝙蝠相關病毒研究的重要性、數(shù)據(jù)庫元數(shù)據(jù)條目、數(shù)據(jù)庫功能用途和數(shù)據(jù)更新特點，主要介紹數(shù)據(jù)庫的基本情況，并未描述具體樣本數(shù)據(jù)。

ICTVdb收錄的物種示例病毒數(shù)據(jù)來源于ICTV發(fā)布的在線報告，報告中提供每種物種的示例性病毒權威列表和VMR電子表格，電子表格收錄了包括尚未在ICTV報告章節(jié)中描述的病毒種類的示例并基于新的信息發(fā)布進行更新糾正。

VIPERdb沒有提供非結構化文本編輯的元數(shù)據(jù)條目，研究人員可以對衣殼結構進行簡單的修改以確保關聯(lián)結構之間的一致性，并在聯(lián)機補充數(shù)據(jù)中加以詳細說明。

BioSample鼓勵上傳者使用結構化和一致的屬性名稱和值，其上傳門戶網(wǎng)站還為上傳用戶提供包含許多常見的BioSample數(shù)據(jù)類型的專用屬性包（Specialized Packages）和用于自定義描述屬性的泛用屬性包（Generic Packages）。每種專用屬性包都包含一整套描述樣本的相關屬性，用戶可以使用屬性包中的受控詞匯以結構化的方式來描述樣本信息，推進元數(shù)據(jù)的標準化。GenBank序列記錄的登錄號是每條序列的主要標識符，不會因序列記錄的更新修改而產(chǎn)生改變，使用登錄號檢索GenBank記錄會得到序列的最新版本。如果序列記錄被更新修改，通過登錄號所獲取的序列數(shù)據(jù)可能與以前文章中所使用的序列數(shù)據(jù)不同。

2.2.3 關聯(lián)維度

BioSample將樣本元數(shù)據(jù)鏈接到跨多個檔案數(shù)據(jù)庫的相應實驗數(shù)據(jù)，使得樣本描述支持跨數(shù)據(jù)庫查詢，同時樣本數(shù)據(jù)中也提供了指向其他檔案中的相關記錄的鏈接，如參考生物樣本（Reference BioSample）作為映射NCBI檔案數(shù)據(jù)的樞紐可以幫助用戶快速找到從給定樣本派生的多種數(shù)據(jù)集和項目。此外，BioSample還與GenBank和BioProjec等外部數(shù)據(jù)庫相互鏈接，幫助導航查找派生數(shù)據(jù)和相關數(shù)據(jù)。

GenBank是國際核苷酸序列數(shù)據(jù)庫合作組織（the International Nucleotide Sequence Database Collaboration，INSDC）的合作伙伴，元數(shù)據(jù)條目中的登錄號作為唯一應用標識符在3個協(xié)作數(shù)據(jù)庫GenBank、日本DNA數(shù)據(jù)庫DDBJ和歐洲分子生物學實驗室核苷酸序列數(shù)據(jù)庫（the European Molecular Biology Laboratory Nucleotide Sequence Database，EMBL-Bank）之間共享，并且每天與歐洲核苷酸檔案庫（ENA）、EMBL-Bank和DDBJ交換數(shù)據(jù)，以確保全球范圍內統(tǒng)一全面的序列信息覆蓋。此外，GenBank的序列記錄存在指向BioSample數(shù)據(jù)庫的鏈接，提供諸如全基因組關聯(lián)研究、高通量測序等序列數(shù)據(jù)測量研究中使用的生物材料的其他信息。GenBank還鼓勵用戶在引用數(shù)據(jù)庫信息時使用登錄號，幫助定位相關信息和延伸信息。

ViPR使用了GenBank的數(shù)據(jù)鏈接，基因序列數(shù)據(jù)的元數(shù)據(jù)條目提供了GenBank序列記錄的登錄號和樣本的定義、注釋和宿主，研究人員可以直接使用登錄號鏈接跳轉至GenBank數(shù)據(jù)庫獲取序列記錄的詳細信息。

VIPERdb的元數(shù)據(jù)條目相比VIPER增加了結構坐標和相關信息的鏈接，除了豐富的有關病毒衣殼的語義元數(shù)據(jù)，如科、屬、T指數(shù)外，還包括指向ICTVdb的相關分類單元、PubMed的參考文獻和一些相關的晶體學信息等。用戶可以通過鏈接從GenBank、ICTVdb、PDB等不同類型的數(shù)據(jù)庫獲取補全關聯(lián)信息，實現(xiàn)對需求病毒衣殼數(shù)據(jù)的全面挖掘，在不同類型的派生數(shù)據(jù)之間交叉引用。

CNCB2019新型冠狀病毒信息庫用于信息分析所用的全基因組序列來自CNGBdb、GenBank、全球共享流感數(shù)據(jù)倡議組織（Global Initiative on Sharing All Influenza Data，GISAID）和基因組倉庫（Genome Warehouse，GWH）數(shù)據(jù)庫[17]，除GISAID數(shù)據(jù)庫的序列信息由于使用權限原因無法提供下載，其他數(shù)據(jù)庫來源的基因組序列均可通過數(shù)據(jù)來源元數(shù)據(jù)模塊提供的鏈接進行選定或批量獲取下載。CNCB新冠病毒庫還提供了冠狀病毒序列、基因組變異、臨床信息和文獻情報的拓展信息資源服務，用戶可以通過數(shù)據(jù)庫中的鏈接進入NGDC的基因組倉庫獲取冠狀病毒科的病毒序列相關研究信息。

PHDA的子數(shù)據(jù)庫提供了當前版本數(shù)據(jù)庫來源的鏈接。用戶可以從“附件”和“數(shù)據(jù)”條目下載數(shù)據(jù)包和字典模板，對于缺乏實體數(shù)據(jù)的特殊數(shù)據(jù)庫可以在“數(shù)據(jù)說明”條目發(fā)出實體數(shù)據(jù)的申請。

2.2.4 使用維度

GenBank、ViPR和CNCB2019新冠病毒庫支持用戶對數(shù)據(jù)庫數(shù)據(jù)執(zhí)行基本的基本局部比對搜索工具（Basic Local Alignment Search Tool，BLAST）序列相似性搜索。GenBank使用全面的、基于核苷酸序列的分類方法和鏈接到相關序列數(shù)據(jù)的分類法瀏覽器，新物種的序列上傳至數(shù)據(jù)庫后需要咨詢NCBI分類法小組以解決有關命名和分類的問題后再將序列條目公開，避免對數(shù)據(jù)庫索引造成干擾。用于區(qū)分樣本序列數(shù)據(jù)類別的元數(shù)據(jù)能夠幫助用戶對GenBank數(shù)據(jù)進行BLAST比對，在數(shù)據(jù)庫序列之間進行類比研究[11];ViPR支持研究人員使用自己提供或從ViPR中選擇的序列數(shù)據(jù)與ViPR數(shù)據(jù)庫中選定的序列集合或用戶創(chuàng)建的數(shù)據(jù)集進行對比，運行BLAST后會輸出每條序列完整的識別元數(shù)據(jù)內容、標準比值、期望值、方法、統(tǒng)一性和陽性值;CNCB新冠病毒庫側重于對2019新型冠狀病毒序列的橫向研究，在元數(shù)據(jù)條目中序列號和相關ID可以提供每條序列唯一的識別信息，序列完整度和序列長度、質量信息鼓勵上傳完整的序列數(shù)據(jù)以支持病毒序列數(shù)據(jù)的對比研究和對原始序列的驗證，每條序列數(shù)據(jù)都記錄有采樣時間地點和樣本提交的時間和單位，支持最多10個基因組序列之間的BLAST比對和74個國家2019新型冠狀病毒序列數(shù)統(tǒng)計和增長趨勢研究。研究人員還可以利用數(shù)據(jù)庫提供的變異注釋和變異鑒定兩種在線工具，將測序原始數(shù)據(jù)與新冠病毒基因組進行序列比對，檢測樣本中含有的新冠病毒序列，分析測序數(shù)據(jù)對新冠病毒基因組的覆蓋度、測序深度、錯誤率等信息。

病毒數(shù)據(jù)庫所提供的使用程序和工具服務基于數(shù)據(jù)庫的元數(shù)據(jù)結構和研究需要，VIPERdb的語言編寫程序提供了一個將PDB坐標轉化為VIPER坐標的腳本，可以自動確定將衣殼信息定向為VIPER方向所需的轉換矩陣，并將其存儲在數(shù)據(jù)庫中[16];PHDA數(shù)據(jù)倉儲匯總子數(shù)據(jù)庫的數(shù)據(jù)鏈接，對數(shù)據(jù)跨庫研究的需要更多依賴數(shù)據(jù)庫提供的功能服務。

3 對我國生物醫(yī)學元數(shù)據(jù)建設的啟示和建議

本文在比較分析國內外生物醫(yī)學元數(shù)據(jù)方案標準和功能需求的基礎上，從數(shù)據(jù)結構需求、數(shù)據(jù)內容需求、數(shù)據(jù)研究需求和數(shù)據(jù)鏈接需求4個維度對比了國內外生物醫(yī)學數(shù)據(jù)庫的元數(shù)據(jù)方案。結合國內病毒數(shù)據(jù)庫元數(shù)據(jù)方案的不足，基于基因組學研究人員的元數(shù)據(jù)功能需求對國內提升病毒數(shù)據(jù)開放水平提出建議。

3.1 優(yōu)化數(shù)據(jù)結構，推動標準化研究

國內生物醫(yī)學數(shù)據(jù)庫為了方便實現(xiàn)與外部關聯(lián)資源的鏈接，使用的元數(shù)據(jù)方案來源于多個學科的數(shù)據(jù)結構和標準，具有很好的兼容性。這種兼容的元數(shù)據(jù)方案能夠幫助通用數(shù)據(jù)庫存儲各種格式的數(shù)據(jù)類型，但是缺乏對數(shù)據(jù)的有效描述和限定，導致數(shù)據(jù)庫內部數(shù)據(jù)呈現(xiàn)多樣化，集成程度不斷降低，研究人員的數(shù)據(jù)發(fā)現(xiàn)和使用會更加困難。對于生物醫(yī)學領域的病毒數(shù)據(jù)庫這類定位重要數(shù)字對象或數(shù)據(jù)使用用途的專用數(shù)據(jù)庫，需要結合對象的數(shù)據(jù)特點和研究用途設置元數(shù)據(jù)標準，如ICTVdb的元數(shù)據(jù)方案強調對病毒的語義元數(shù)據(jù)模塊的設置，并根據(jù)知識更新和數(shù)字對象的變化及時調整元數(shù)據(jù)標準以提高元數(shù)據(jù)內容的質量。

為滿足數(shù)據(jù)處理最低需要，國際基因組學領域已經(jīng)定義了一套最小的核心元數(shù)據(jù)元素集。學科領域內部也需要定義一套通用的病毒數(shù)據(jù)開放元數(shù)據(jù)標準以支持研究人員的跨庫數(shù)據(jù)處理與交互。

3.2 控制數(shù)據(jù)質量，促進數(shù)據(jù)共享重用

元數(shù)據(jù)對數(shù)據(jù)質量表現(xiàn)為準確性、完整性等，對數(shù)據(jù)質量的控制呈現(xiàn)為保持數(shù)據(jù)結構一致和可獲取性。國內病毒數(shù)據(jù)庫用于控制數(shù)據(jù)質量的元數(shù)據(jù)條目指向不一，PHDA的元數(shù)據(jù)條目“數(shù)據(jù)大小”“數(shù)據(jù)記錄數(shù)”“數(shù)據(jù)格式”側重于對數(shù)據(jù)集的體量和格式標準的控制，CNCB2019新冠病毒數(shù)據(jù)庫使用的“序列完整度”和“質量評估”側重于對數(shù)據(jù)集結構和內容標準的控制。標準之間難以橫向比較，可以建立一套通用的最小核心標準評價數(shù)據(jù)質量。標準內容應該確保支持不同生物主體和數(shù)據(jù)庫類型的數(shù)據(jù)質量控制需要，并根據(jù)具體需求特點拓展標準條目。

此外，元數(shù)據(jù)內容的質量控制一方面受數(shù)據(jù)庫元數(shù)據(jù)條目在數(shù)據(jù)上傳時對數(shù)據(jù)的限定;另一方面還依靠用戶的使用反饋?？梢詫W習國外病毒數(shù)據(jù)庫，如BioSample，采用的“結構化標準+非結構化注釋模塊”的方式，利用受控語言統(tǒng)一樣本數(shù)據(jù)結構，結合非結構化詞語描述補充樣本數(shù)據(jù)的拓展、修正信息。

數(shù)據(jù)質量良莠不齊是影響數(shù)據(jù)共享和研究人員數(shù)據(jù)重用行為的重要因素，病毒數(shù)據(jù)的質量關系到研究成果的質量，數(shù)據(jù)質量越高，研究人員的感知有用性越大，越有可能實現(xiàn)數(shù)據(jù)重用行為。

3.3 分類匯總鏈接，構建關聯(lián)數(shù)據(jù)網(wǎng)絡

CNCB2019新冠病毒庫和PHDA數(shù)據(jù)倉儲相比較國外生物醫(yī)學數(shù)據(jù)庫使用了豐富的關聯(lián)派生信息的鏈接，鏈接指向不局限于單純關聯(lián)派生數(shù)據(jù)，還提供了完整的數(shù)據(jù)來源索引、數(shù)據(jù)下載和數(shù)據(jù)處理工具?？鐜戽溄蛹蠘嫵闪巳娴膶W科研究數(shù)據(jù)內容，國內病毒數(shù)據(jù)庫可以嘗試將指向、用途類似的鏈接進行歸類整合，建立關聯(lián)數(shù)據(jù)集之間網(wǎng)絡圖。所形成的鏈接集合可以直觀地呈現(xiàn)某項數(shù)據(jù)的全部關聯(lián)內容以及所關聯(lián)內容的其他關聯(lián)信息，幫助研究人員發(fā)現(xiàn)諸如流行病起源與未來爆發(fā)風險的潛在數(shù)據(jù)聯(lián)系[13]，建立新的關聯(lián)數(shù)據(jù)鏈接以加強對病毒數(shù)據(jù)的數(shù)據(jù)關系研究。

3.4 豐富研究條目，滿足多樣化需求

CNCB2019新冠病毒庫支持對病毒序列的橫向對比研究和對原始測序數(shù)據(jù)的數(shù)據(jù)驗證，能夠滿足研究人員對元數(shù)據(jù)條目可操作性的要求。數(shù)據(jù)庫提供了完整的基因組序列數(shù)據(jù)用于比較研究，但涉及數(shù)據(jù)對比研究的元數(shù)據(jù)條目較少且大多使用受控詞匯作為元數(shù)據(jù)內容。對比VIPERdb有關序列對比研究的條目“解析度”“基因組”“T指數(shù)”“子單元數(shù)”“凈表面電荷”“外部SASA”“半徑”“直徑”“球形體積”，CNCB2019新冠病毒庫只有“序列完整度”“序列長度”和“序列質量”3個元數(shù)據(jù)條目，且除“序列長度”使用實際測得數(shù)據(jù)以外均使用結構化受控詞匯填充內容，對于實際對比研究所能獲得結論十分有限。國內病毒數(shù)據(jù)庫需要根據(jù)研究人員的數(shù)據(jù)研究需求編制新的元數(shù)據(jù)方案版本，支持研究人員多樣化的數(shù)據(jù)研究需求。

參考文獻

[1]Dugan V G，Emrich S J，Giraldo-Calderón G I，et al.Standardized Metadata for Human Pathogen/Vector Genomic Sequences[J/OL].https：//doi.org/10.1371/journal.pone.0099979，2020-05-01.

[2]Goncalves R S，Musen M A.The Variable Quality of Metadata About Biological Samples Used in Biomedical Experiments[J/OL].https：//doi.org/10.1038/sdata.2019.21，2020-05-01.

[3]Marc D T，Beattie J，Herasevich V，et al.Assessing Metadata Quality of a Federally Sponsored Health Data Repository[J/OL].https：//www.ncbi.nlm.nih.gov/pmc/articles/PMC5333273，2020-05-20.

[4]Shah N H，Jonquet C，Chiang A P，et al.Ontology-driven Indexing of Public Datasets for Translational Bioinformatics[J/OL].https：//www.ncbi.nlm.nih.gov/pmc/articles/PMC2646250.

[5]Jones P，Cté R G，Cho S Y，et al.PRIDE：New Developments and New Datasets[J/OL].https：//www.ncbi.nlm.nih.gov/pmc/articles/PMC2238846，2020-05-20.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

典型生物醫(yī)學元數(shù)據(jù)功能比較研究與啟示