王璟璐 ,張 穎 ,潘曉迪 ,盧憲菊 ,馬黎明 ,郭新宇 ※
(1. 北京市農(nóng)林科學(xué)院北京農(nóng)業(yè)信息技術(shù)研究中心,北京100097;2. 數(shù)字植物北京重點(diǎn)實(shí)驗(yàn)室,北京100097)
作物及其相關(guān)領(lǐng)域科學(xué)研究與糧食問題息息相關(guān)。由于全球氣候變化,作物生產(chǎn)面臨著更頻繁的極端天氣,加之有限的水分及養(yǎng)分資源和可耕地面積,農(nóng)業(yè)生產(chǎn)迫切需要新型氣候適應(yīng)性品種的繁育,以滿足人們?nèi)找嬖鲩L的糧食需求以及生物能源等其他工業(yè)用途的作物供應(yīng)需求。
隨著人類基因組計(jì)劃(Human Genome Project,HGP)的完成,水稻[1-2]、玉米[3]、高粱[4]、大豆[5]和小麥[6]等主要農(nóng)作物的基因組也相繼被破譯,作物研究隨之進(jìn)入組學(xué)時(shí)代。計(jì)算機(jī)技術(shù)的快速發(fā)展為有效管理急速增多的生物學(xué)數(shù)據(jù)提供了可能,而生物信息學(xué)成為處理和挖掘高通量數(shù)據(jù)信息的主要手段。在生物信息學(xué)中,數(shù)據(jù)庫作為其研究的主要載體出現(xiàn)在生命科學(xué)的眾多領(lǐng)域。數(shù)據(jù)庫管理系統(tǒng)(Database Management system,DBMs)可以實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)、檢索、分析和維護(hù),互聯(lián)網(wǎng)技術(shù)為數(shù)據(jù)庫的開發(fā)、維護(hù)、推廣和應(yīng)用提供了有效工具。如今,基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等各類組學(xué)數(shù)據(jù)庫,不僅為該領(lǐng)域的研究和發(fā)展提供了豐富的數(shù)據(jù)信息,同時(shí)又加強(qiáng)了多組學(xué)間及與其他系統(tǒng)生物學(xué)分支間的聯(lián)系,為學(xué)科間的交叉研究奠定了基礎(chǔ)。
近年來,表型組學(xué)(Phenomics)日漸興起并成為一門快速發(fā)展的數(shù)據(jù)密集型學(xué)科。表型組學(xué)相關(guān)技術(shù)和研究手段的高速發(fā)展,帶來了數(shù)量巨大、尺度多維、數(shù)據(jù)多樣的表型信息,如RGB、高光譜、近紅外、熱和熒光成像等圖像數(shù)據(jù),植物生長過程中的各項(xiàng)生理指標(biāo)數(shù)據(jù)等[7]。促使該領(lǐng)域的模型和數(shù)據(jù)管理系統(tǒng)隨之發(fā)展,以便能夠合理利用這些復(fù)雜的、動(dòng)態(tài)的、大規(guī)模表型數(shù)據(jù)。
文 章 從Web of Science(http://apps.webofknowledge.com)、NCBI的PubMed(https://www.ncbi.nlm.nih.gov/pubmed/)和中國知網(wǎng)(CNKI,http://epub.cnki.net/kns/default.htm)等常用公共文獻(xiàn)數(shù)據(jù)庫中對已發(fā)表的作物表型組學(xué)相關(guān)研究文獻(xiàn)進(jìn)行檢索,據(jù)此對國內(nèi)外作物表型組學(xué)研究現(xiàn)狀進(jìn)行分析,并基于其中的數(shù)據(jù)庫研究,對目前的作物表型相關(guān)數(shù)據(jù)庫進(jìn)行綜述。最后,該文就作物表型組數(shù)據(jù)庫構(gòu)建的標(biāo)準(zhǔn)及要求進(jìn)行了介紹,并將參照這些數(shù)據(jù)庫構(gòu)建原則在實(shí)際研究中設(shè)計(jì)自己的作物表型組數(shù)據(jù)庫。
表型組學(xué)這一概念于1996年由衰老研究中心主任Steven A.Garan在滑鐵盧大學(xué)的一次應(yīng)邀演講上首次提出[8]。表型組學(xué)的定義類似于基因組學(xué)及其他組學(xué),是指在基因組水平上系統(tǒng)地研究某一生物或細(xì)胞在各種不同環(huán)境條件下所有表型的學(xué)科。自2009年以來,隨著植物表型無損獲取方法以及大規(guī)模自動(dòng)化高通量表型獲取設(shè)施的建立[9],表型組技術(shù)開始應(yīng)用于基礎(chǔ)植物研究和作物育種中,并有望打破育種中的表型瓶頸[10]。如今,表型組學(xué)在植物,尤其是作物研究中逐年增多。作物表型組學(xué)的研究基于高通量信息獲取平臺收集的大量作物表型數(shù)據(jù),包括株高、葉面積、果實(shí)等形態(tài)特征,水分利用效率和光合作用等生理特征以及花青素含量等生化特征。因?yàn)樽魑锉硇捅旧砭哂泻芨叩膹?fù)雜性,且時(shí)常處于動(dòng)態(tài)變化中,所以研究人員在實(shí)際研究過程中一般只關(guān)注少數(shù)幾個(gè)表型,進(jìn)行非動(dòng)態(tài)的粗略研究。加之傳統(tǒng)的作物表型獲取效率低,表型研究技術(shù)也相對落后,使得表型組學(xué)在作物研究領(lǐng)域嚴(yán)重滯后于其他組學(xué)研究。截至目前,在單一表型或只關(guān)注少數(shù)幾個(gè)表型層面的研究已有很多,而從組學(xué)出發(fā)對作物表型進(jìn)行的研究才剛剛起步。
該文在常用文獻(xiàn)檢索數(shù)據(jù)庫Web of Science、PubMed和中國知網(wǎng)上對已發(fā)表的作物表型組學(xué)相關(guān)研究進(jìn)行檢索。從表型組的概念提出至今,外文文獻(xiàn)中以表型組學(xué)為主題的文獻(xiàn)有720篇,其中限定為作物和常見作物名稱(如水稻、玉米、小麥等)后的文獻(xiàn)數(shù)量為288篇。而以作物表型組學(xué)及常見作物名稱為關(guān)鍵詞在中國知網(wǎng)中進(jìn)行檢索,可得到中文期刊文獻(xiàn)約20篇。由圖1可以看出,近年來,作物研究領(lǐng)域中以表型組學(xué)為主題的文章數(shù)目逐年增多,且近5年來數(shù)量陡增,可見隨著高通量作物表型獲取手段的不斷開發(fā)和完善,研究人員越來越關(guān)注表型組學(xué)的研究。
圖1 近年來作物表型組學(xué)研究文獻(xiàn)數(shù)量及趨勢Fig.1 The number and trend of published papers focused on Crop Phenomics in recent years
作物表型組學(xué)的急速發(fā)展伴隨著大量表型數(shù)據(jù)的產(chǎn)生,這就需要研究人員思考如何更好地對獲得的表型數(shù)據(jù)進(jìn)行管理。在數(shù)據(jù)管理中,建立標(biāo)準(zhǔn)數(shù)據(jù)庫是一種十分便利且有效的方式。通過建立作物表型組數(shù)據(jù)庫,可以對表型數(shù)據(jù)進(jìn)行存儲(chǔ)和分類,便于研究人員檢索、分析并分享研究成果。
不同于基因組學(xué)已有許多大型的、公認(rèn)的、成熟的公共數(shù)據(jù)庫,如人類基因組圖譜數(shù)據(jù)庫(The Genome Database,GDB)[11]、Ensembl基因組注釋數(shù)據(jù)庫[12]和GenBank DNA序列數(shù)據(jù)庫[13]等,作物表型組學(xué)數(shù)據(jù)庫雖已有一些,但綜合性較強(qiáng)、普適性較廣的通用標(biāo)準(zhǔn)數(shù)據(jù)庫卻不是很多。在該文檢索到的近300篇有關(guān)作物表型組學(xué)的研究中,關(guān)于表型組數(shù)據(jù)庫的研究僅20余篇。這些作物表型組數(shù)據(jù)庫大多以物種進(jìn)行分類,其數(shù)據(jù)形式豐富多樣,具體內(nèi)容和訪問網(wǎng)址詳見表1。
該文對Planteome數(shù)據(jù)庫[14]、PGP知識庫[15]和OPTIMAS-DW玉米資源庫[16]等主要作物表型相關(guān)數(shù)據(jù)庫進(jìn)行介紹,便于相關(guān)研究人員更好地使用,也為建立自己的作物表型組數(shù)據(jù)庫提供借鑒。
表1 主要作物表型數(shù)據(jù)庫信息Table 1 List of main crop phenotypic databases
Planteome數(shù)據(jù)庫[14]為特定物種的植物本體以及基因和表型注釋提供了一套參考。本體用作大量且不斷增長的植物基因組學(xué)、表型組學(xué)和遺傳學(xué)數(shù)據(jù)語料庫的語義整合的通用標(biāo)準(zhǔn)。參考本體包括植物本體論(Plant Ontology),植物性狀本體論(Plant Trait Ontology),由Planteome開發(fā)的植物實(shí)驗(yàn)條件本體論(Plant Experimental Conditions Ontology),基因本體論(Gene Ontology),生物學(xué)興趣的化學(xué)實(shí)體(Chemical Entities of Biological Interest),表型和屬性本體論(Phenotype and Attribute Ontology)等。該項(xiàng)目還提供了來自世界各地的各種植物育種和研究團(tuán)體開發(fā)的特定物種作物本體的途徑。該數(shù)據(jù)庫中提供了來自95種植物分類群的植物性狀、表型、基因功能和表達(dá)的綜合數(shù)據(jù)并以參考本體術(shù)語注釋。Planteome項(xiàng)目還開發(fā)了一個(gè)植物基因注釋平臺——Planteome Noctua,方便研究人員參與交流。所有Planteome本體都是公開可用的,并存放于Planteome GitHub站點(diǎn),便于共享、跟蹤修訂和新請求。Planteome數(shù)據(jù)庫中所存儲(chǔ)的數(shù)據(jù)均可免費(fèi)訪問。
Planteome數(shù)據(jù)庫擁有8種特定種類的作物本體(Crop Ontologies)[14],其中對性狀和表型評分標(biāo)準(zhǔn)的描述已被國際育種項(xiàng)目maize(玉米),sweet potato(甘薯),soybean(大豆),pigeon pea(木豆),rice(水稻),cassava(木薯),lentil(小扁豆)和wheat(小麥)采用。此外,該數(shù)據(jù)庫還提供了Planteome Noctua基因注釋工具,用于將研究社區(qū)與植物基因的功能注釋相結(jié)合。
Planteome數(shù)據(jù)庫具有本體瀏覽器和分面搜索選項(xiàng),可訪問各種生物實(shí)體的本體和基于本體的注釋。所有數(shù)據(jù)和本體都存儲(chǔ)在一個(gè)索引系統(tǒng)中,該索引系統(tǒng)允許通過本體瀏覽器進(jìn)行全文搜索。GitHub存儲(chǔ)庫(https://github.com/Planteome/amigo)提供了數(shù)據(jù)存儲(chǔ)設(shè)計(jì)的模式和索引文件。在目前的Planteome 2.0 Release中,Planteome數(shù)據(jù)庫囊括了大約200萬生物或數(shù)據(jù)對象的訪問,包括蛋白質(zhì)、基因、RNA轉(zhuǎn)錄、基因模型、種質(zhì)和數(shù)量性狀基因座。生物實(shí)體注釋通常使用來自同一或多個(gè)引用本體類的多個(gè)本體術(shù)語。目前,這200萬個(gè)實(shí)體大約有2 100萬個(gè)注釋。此外,該數(shù)據(jù)庫還提供了轉(zhuǎn)至多個(gè)參考本體的鏈接(表2)。
表2 Planteome參考本體和詞匯Table 2 Planteome reference ontologies and vocabularies
PGP 知識庫[15](Plant Genomics and Phenomics Research Data Repository)是由萊布尼茨植物遺傳與作物植物研究所和德國植物表型分析網(wǎng)絡(luò)聯(lián)合發(fā)起的植物基因組學(xué)和表型組學(xué)研究數(shù)據(jù)庫,目的在于分享源自植物基因組學(xué)和表型組學(xué)的研究數(shù)據(jù)。PGP中涵蓋了因數(shù)量或數(shù)據(jù)范圍不被支持而未在中央存儲(chǔ)庫中發(fā)布的跨域數(shù)據(jù)集,如來自植物表型和顯微鏡的圖像集,未完成的基因組、基因型數(shù)據(jù),形態(tài)植物模型的可視化,來自質(zhì)譜以及軟件和文檔的數(shù)據(jù)等。該存儲(chǔ)庫由萊布尼茨植物遺傳學(xué)和作物植物研究所托管,使用e!DAL作為軟件基礎(chǔ)平臺,并使用分層存儲(chǔ)管理系統(tǒng)作為數(shù)據(jù)存檔后端。PGP知識庫具有成熟的數(shù)據(jù)提交工具,該工具高度自動(dòng)化,可降低數(shù)據(jù)發(fā)布的障礙。經(jīng)過內(nèi)部審核流程之后,數(shù)據(jù)將作為可引用的數(shù)字對象標(biāo)識符發(fā)布,并在DataCite中注冊一組核心技術(shù)元數(shù)據(jù)。e!DAL嵌入式網(wǎng)頁前端為每個(gè)數(shù)據(jù)集生成登錄頁面并支持交互式探索。PGP作為有效的EU Horizon 2020開放數(shù)據(jù)存檔,在BioSharing.org、re3data.org和OpenAIRE已注冊為研究數(shù)據(jù)存儲(chǔ)庫。在上述功能中,編程接口和標(biāo)準(zhǔn)元數(shù)據(jù)格式的支持使PGP能夠?qū)崿F(xiàn)FAIR數(shù)據(jù)原則——可查找、可訪問、可互操作和可重用。
PGP主要著眼于發(fā)布和共享涵蓋各種數(shù)據(jù)領(lǐng)域的主要實(shí)驗(yàn)數(shù)據(jù),如高通量植物表型分類的圖像收集、序列組裝、基因分型數(shù)據(jù)、形態(tài)植物模型的可視化和質(zhì)譜數(shù)據(jù),甚至軟件。PGP存儲(chǔ)庫中的數(shù)據(jù)集被分配給在DataCite上注冊的可用DOI,其中包含一組標(biāo)準(zhǔn)化的技術(shù)元數(shù)據(jù)。截至2015年12月,PGP中已有54個(gè)數(shù)據(jù)集作為DOI發(fā)布,并在DataCite研究數(shù)據(jù)目錄中注冊。其中,每個(gè)數(shù)據(jù)集中都包括與特定實(shí)驗(yàn)或科學(xué)論文相關(guān)的所有記錄。PGP存儲(chǔ)庫目前擁有21 157個(gè)數(shù)據(jù)實(shí)體,總體容量為65.4 GB。
OPTIMAS-DW(OPTIMAS Data Warehouse)數(shù)據(jù)庫[16]是有關(guān)玉米研究的綜合數(shù)據(jù)集。該數(shù)據(jù)庫整合了來自不同數(shù)據(jù)域的數(shù)據(jù),如轉(zhuǎn)錄組學(xué)、代謝組學(xué)、離子組學(xué)、蛋白質(zhì)組學(xué)和表型組學(xué)。OPTIMAS項(xiàng)目中設(shè)計(jì)并注釋了44 K寡核苷酸芯片,以描述所選unigenes的功能。該項(xiàng)目進(jìn)行了幾個(gè)處理和植物生長階段實(shí)驗(yàn),并將測量數(shù)據(jù)填充到數(shù)據(jù)模板中。數(shù)據(jù)模板中的數(shù)據(jù)通過基于Java的導(dǎo)入工具導(dǎo)入數(shù)據(jù)庫中。Web界面允許用戶瀏覽OPTIMAS-DW中所有數(shù)據(jù)域的存儲(chǔ)實(shí)驗(yàn)數(shù)據(jù)。此外,用戶可以過濾數(shù)據(jù)以提取自己感興趣的信息。數(shù)據(jù)庫中的所有數(shù)據(jù)可以導(dǎo)出為不同的文件格式,以進(jìn)行進(jìn)一步的數(shù)據(jù)分析和可視化。數(shù)據(jù)分析集成了來自不同數(shù)據(jù)領(lǐng)域的數(shù)據(jù),使用戶能夠找到不同系統(tǒng)生物學(xué)問題的答案。此外,OPTIMAS-DW數(shù)據(jù)庫中還給出了玉米特異性通路信息。該數(shù)據(jù)庫的特點(diǎn)是能夠處理不同的數(shù)據(jù)領(lǐng)域,還包含了幾項(xiàng)數(shù)據(jù)分析結(jié)果,這些都對相關(guān)研究人員的工作起到支持作用,特別是系統(tǒng)生物學(xué)研究領(lǐng)域。
BIOGEN BASE-CASSAVA是用于研究木薯表型組學(xué)和基因組學(xué)信息的網(wǎng)絡(luò)可訪問資源庫[17],該數(shù)據(jù)庫中展示了農(nóng)作物木薯(Casssava)的研究成果。其中,木薯表型檢索板塊中,每種種質(zhì)都有包括定量和定性性狀在內(nèi)的約28個(gè)表型特征。CASSAVA數(shù)據(jù)庫使用PHP和MySQL設(shè)計(jì),并配備了廣泛的搜索選項(xiàng)。它通過開放、通用和全球性的論壇為所有對該領(lǐng)域感興趣的個(gè)人提供豐富的遺傳學(xué)和基因組學(xué)數(shù)據(jù)。該數(shù)據(jù)庫界面友好,所有數(shù)據(jù)均公開發(fā)布,有助于相關(guān)研究者對木薯的研究和開發(fā)。BIOGEN BASE資源庫由泰米爾納德邦農(nóng)業(yè)大學(xué)的兩個(gè)研究站(Tapioca和Castor)維護(hù)。除木薯外,BIOGEN BASE資源庫還擁有水稻和玉米資源庫以及其他數(shù)據(jù)庫資源。
除以上作物組學(xué)數(shù)據(jù)庫外,還有一些數(shù)據(jù)庫中也包含了特有的作物表型信息。TRIM數(shù)據(jù)庫[18],即臺灣水稻插入突變體數(shù)據(jù)庫,包含了有關(guān)突變體系的整合位點(diǎn)和表型信息,為水稻表型組學(xué)研究提供了良好資源。Gramene[19]是一個(gè)植物基因組比較基因組學(xué)數(shù)據(jù)庫,提供了多種作物(如水稻、高粱和玉米等大田作物)的公開數(shù)據(jù)來源,除作物基因組學(xué)數(shù)據(jù)(如遺傳標(biāo)記、基因、蛋白、信號通路等)外,還包含了部分作物表型信息。Grain Genes作為小麥家族作物信息的專門數(shù)據(jù)庫,包含了小麥等麥類的分子和表型信息數(shù)據(jù)。
數(shù)據(jù)管理是管理、存儲(chǔ)和共享研究數(shù)據(jù)的過程[7]。當(dāng)數(shù)據(jù)研究涉及多個(gè)研究人員或在復(fù)雜環(huán)境中進(jìn)行研究時(shí),這項(xiàng)工作將非常具有挑戰(zhàn)性[21]。數(shù)據(jù)的管理方法取決于整個(gè)研究過程中所涉及的數(shù)據(jù)類型、數(shù)據(jù)收集和存儲(chǔ)方式以及數(shù)據(jù)的利用。而數(shù)據(jù)的管理情況也在一定程度上影響著研究結(jié)果。對數(shù)據(jù)進(jìn)行管理有助于研究人員在后續(xù)研究中進(jìn)行更好地分析和利用,確保研究質(zhì)量。如果數(shù)據(jù)管理得當(dāng),研究人員可以輕松查找信息,并有助于他們得到預(yù)期結(jié)果。
如今,隨著高通量植物表型獲取技術(shù)的開發(fā)和應(yīng)用,大規(guī)模作物表型數(shù)據(jù)相伴而生,作物表型數(shù)據(jù)量也呈指數(shù)級增長。因此,這就需要研究人員在研究期間及獲取數(shù)據(jù)后對表型數(shù)據(jù)進(jìn)行妥善管理。需要對從各種表型平臺中獲得的大量原始表型數(shù)據(jù)進(jìn)行分析,而擁有最優(yōu)數(shù)據(jù)管理才能實(shí)現(xiàn)最佳應(yīng)用,從而完成對數(shù)據(jù)的深度挖掘。針對與日俱增的作物表型數(shù)據(jù),構(gòu)建作物表型組學(xué)數(shù)據(jù)庫便是一項(xiàng)有效的數(shù)據(jù)管理措施。
通過現(xiàn)有的高通量作物表型信息獲取平臺和技術(shù),研究人員獲得的表型數(shù)據(jù)量通常高達(dá)GB甚至PB,而且這些非結(jié)構(gòu)化的“大數(shù)據(jù)”,通常包含大量復(fù)雜的圖像、光譜和環(huán)境數(shù)據(jù)。因此,表型數(shù)據(jù)的有效存儲(chǔ)、管理和檢索成為目前研究人員需要考慮的重要問題[22]。
當(dāng)前普遍接受的信息標(biāo)準(zhǔn)化原則包括3個(gè)方面:(1)最小信息(minimum information,MI),建議利用最小信息法來定義數(shù)據(jù)集的內(nèi)容;(2)本體術(shù)語(ontology terms),采用本體術(shù)語作為數(shù)據(jù)的唯一和可重復(fù)性注釋,有利于數(shù)據(jù)共享和薈萃分析;(3)數(shù)據(jù)格式(data format),選擇適當(dāng)?shù)臄?shù)據(jù)格式來構(gòu)建數(shù)據(jù)集,如CSV,XML,RDF和MAGE-TAB等。
組織文件是數(shù)據(jù)存儲(chǔ)的重要組成部分。在數(shù)據(jù)集中,跟蹤文檔及其版本至關(guān)重要,例如目錄結(jié)構(gòu)命名和文件命名約定。對于多站點(diǎn)項(xiàng)目,原始數(shù)據(jù)將上傳并存儲(chǔ)在文件服務(wù)器上。在通過腳本處理之后,輸出文件存儲(chǔ)在文件服務(wù)器上,研究人員可以從該文件服務(wù)器下載副本。從數(shù)據(jù)庫數(shù)據(jù)標(biāo)準(zhǔn)化和存儲(chǔ)的角度來看,基于“云技術(shù)”的存儲(chǔ)方案正在成為植物表型數(shù)據(jù)存儲(chǔ)發(fā)展的趨勢。云存儲(chǔ)系統(tǒng)可以優(yōu)化作物表型平臺系統(tǒng)架構(gòu)、文件結(jié)構(gòu)和高速緩存等設(shè)計(jì)。目前,各種表型數(shù)據(jù)采集平臺仍然相對獨(dú)立,尚未在地區(qū)、國家或大陸層面建立。通過人工智能的先進(jìn)技術(shù),建立基于多層表型信息的典型作物表型數(shù)據(jù)庫,例如GDB人類基因組數(shù)據(jù)庫,將引起相關(guān)研究人員的極大關(guān)注。
對于任何科學(xué)數(shù)據(jù)管理系統(tǒng),都需要滿足多項(xiàng)必要的要求[7]。
(1)數(shù)據(jù)存儲(chǔ)和管理
數(shù)據(jù)密集型學(xué)科(如組學(xué))中的研究活動(dòng)通常會(huì)產(chǎn)生大量數(shù)據(jù)。有效獲取、存儲(chǔ)和管理大量數(shù)據(jù)的能力至關(guān)重要。
(2)數(shù)據(jù)背景化
需要擁有足夠的上下文信息,以便更有效地組織、理解和挖掘原始數(shù)據(jù)。背景信息包括概念域模型(如研究活動(dòng)如何組織和實(shí)施)和元數(shù)據(jù)(如出處信息)。
(3)數(shù)據(jù)安全
數(shù)據(jù)安全包括許多方面,如訪問控制和存檔。有效的數(shù)據(jù)管理系統(tǒng)需要通過使用身份驗(yàn)證和授權(quán)以及聲音版本控制和備份解決方案來確保數(shù)據(jù)安全。
(4)數(shù)據(jù)識別和使用壽命
為了支持科學(xué)發(fā)現(xiàn)的傳播,數(shù)據(jù)庫中的數(shù)據(jù)需要在發(fā)布后可以公開訪問,因而需要持久且唯一的命名方案。此外,有價(jià)值的科學(xué)數(shù)據(jù)也需要永久存儲(chǔ)。
(5)數(shù)據(jù)重用和集成
上下文信息有助于理解原始數(shù)據(jù)。此外,還需要通過全文搜索、分面瀏覽和復(fù)雜查詢應(yīng)答等機(jī)制使數(shù)據(jù)可被發(fā)現(xiàn),以允許集成和重用原始數(shù)據(jù)。
(6)模型可擴(kuò)展性
數(shù)據(jù)管理系統(tǒng)可能需要管理各種各樣的數(shù)據(jù),這些數(shù)據(jù)可以由不同軟件生成并由不同平臺捕獲。因此,表達(dá)和可擴(kuò)展的域模型對于滿足域概念的修改、添加和刪除至關(guān)重要。此外,還需要設(shè)計(jì)數(shù)據(jù)管理系統(tǒng),以便在發(fā)生此類模型更改時(shí)最大限度地減少服務(wù)中斷。
一個(gè)數(shù)據(jù)庫的構(gòu)建規(guī)劃由許多元素組成,這些元素涵蓋了描述、文檔、過程和存檔等多方面內(nèi)容,因此表型數(shù)據(jù)庫的構(gòu)建規(guī)劃中也必須具備以下幾個(gè)方面。
(1)數(shù)據(jù)描述
數(shù)據(jù)的描述主要包括研究目的、數(shù)據(jù)及數(shù)據(jù)內(nèi)容、數(shù)據(jù)來源、數(shù)據(jù)收集方式及形式、數(shù)據(jù)收集耗時(shí)及變化頻率以及管理人員信息等。
(2)說明文檔
說明文檔涵蓋的范圍較廣,主要有①創(chuàng)建的便于其他研究人員理解數(shù)據(jù)的文檔;②元數(shù)據(jù)標(biāo)準(zhǔn)化、管理和存儲(chǔ)方式;③文件格式及其標(biāo)準(zhǔn);④文件命名、存儲(chǔ)、安全和備份程序;⑤閱讀或查看數(shù)據(jù)等需要的工具或軟件。
(3)數(shù)據(jù)處理
諸如數(shù)據(jù)的訪問、共享和重用等,都需要明確以下信息:①數(shù)據(jù)版權(quán);②數(shù)據(jù)分享內(nèi)容、時(shí)間和方式;③數(shù)據(jù)及其他信息的知識產(chǎn)權(quán);④數(shù)據(jù)共享專利;⑤允許重用、再開發(fā),或創(chuàng)建新工具、服務(wù)、數(shù)據(jù)集或產(chǎn)品等。
(4)存檔
在數(shù)據(jù)的存檔中,需規(guī)定:①數(shù)據(jù)歸檔方式;②數(shù)據(jù)存檔期限及訪問權(quán)限;③數(shù)據(jù)提交方式及要求;④數(shù)據(jù)保留時(shí)間等。
生物技術(shù)和生物科學(xué)研究委員會(huì)(BBSRC)已實(shí)施數(shù)據(jù)共享政策。根據(jù)BBSRC要求,數(shù)據(jù)共享應(yīng)包括以下細(xì)節(jié):數(shù)據(jù)區(qū)域和數(shù)據(jù)類型,標(biāo)準(zhǔn)和元數(shù)據(jù),與公共存儲(chǔ)庫中可用的其他數(shù)據(jù)的關(guān)系,二次使用—已完成數(shù)據(jù)集的進(jìn)一步預(yù)期或可預(yù)見的研究用途、數(shù)據(jù)共享方法、專有數(shù)據(jù)、時(shí)限以及數(shù)據(jù)集最終格式[23]。
作物表型組學(xué)是一個(gè)快速發(fā)展的領(lǐng)域,新的表型獲取手段和研究方法不斷出現(xiàn),只會(huì)催生越來越龐大復(fù)雜的作物表型組數(shù)據(jù)。因此,構(gòu)建綜合性作物表型組標(biāo)準(zhǔn)數(shù)據(jù)庫,或構(gòu)建特定作物的表型組數(shù)據(jù)庫,將成為該領(lǐng)域相關(guān)研究人員的工作重點(diǎn)。
在形式上,理想的作物表型組數(shù)據(jù)庫應(yīng)具備界面友好、圖文并茂、操作簡單和更新及時(shí)等特征,不僅要具有多維度、多生境表型信息的存儲(chǔ)能力,還要便于用戶檢索和查閱,增強(qiáng)數(shù)據(jù)資源的信息共享,提高來之不易的作物表型數(shù)據(jù)的利用效率。在內(nèi)容上,作物表型組數(shù)據(jù)庫應(yīng)涵蓋從微觀到宏觀,從顯微到器官再到個(gè)體乃至群體的多維度數(shù)據(jù),應(yīng)包含作物相關(guān)的生理生化和顏色紋理等多種信息。
農(nóng)業(yè)信息化是現(xiàn)代農(nóng)業(yè)的必然發(fā)展趨勢,作物表型組數(shù)據(jù)庫的構(gòu)建也是順應(yīng)時(shí)代發(fā)展的產(chǎn)物。今后,應(yīng)持續(xù)關(guān)注作物表型組研究領(lǐng)域內(nèi)的數(shù)據(jù)庫相關(guān)研究,充分利用各種綜合和專用數(shù)據(jù)庫,并在實(shí)際研究中著力構(gòu)建自己的作物表型組數(shù)據(jù)庫。