張永卓, 高 穎, 牛春艷, 傅博強, 王 晶
(中國計量科學(xué)研究院, 北京 100029)
人類對生命的認(rèn)知是從宏觀到微觀,再從微觀到宏觀,最終回歸本源。對生物的了解也是先通過《植物名實圖考》、《伯杰氏手冊》等生物外部特征的描,再到《物種起源》、“孟德爾遺傳定律”等宏觀規(guī)律, 探索認(rèn)識生物生命本質(zhì)。隨著近代科技的進(jìn)步,人類對生物內(nèi)在機理的研究也愈發(fā)深入,先后提出了進(jìn)化論、DNA雙螺旋、中心法則等。科學(xué)家們試圖通過探索其機理的改變,解析特定的生物學(xué)表觀現(xiàn)象[1]。隨著遺傳信息研究的逐步深入,學(xué)者們愈發(fā)認(rèn)識到生物表型特征和性狀對認(rèn)識生物生命的重要性;建立生物表型與遺傳信息的關(guān)聯(lián)性,將是生物學(xué)研究的一個重要命題[2]。但由于缺乏標(biāo)準(zhǔn)和規(guī)范,雖然表型相關(guān)的數(shù)據(jù)眾多,依然無法準(zhǔn)確地理解基因和環(huán)境因素對生物體的復(fù)雜影響[3]。直到二十世紀(jì)末期,“生物表型”的概念才被正式提出[4],同時遺傳學(xué)家們提出“表型為王,基因為后”的觀點,這也從另一面驗證了表型研究的重要性。
隨著高通量測序等現(xiàn)代分析技術(shù)的不斷進(jìn)步,各種組學(xué)研究蓬勃發(fā)展[5~7],帶動了生物表型中的表型組發(fā)展?!叭祟惢蚪M計劃”、“人類微生物組學(xué)計劃”等大型組學(xué)研究的相繼完成[8],使得人們對生命科學(xué)有了全局、系統(tǒng)化的認(rèn)知,生命科學(xué)進(jìn)入“后基因組時代”[9]。但是從內(nèi)在機理的研究向表型結(jié)果的轉(zhuǎn)化過程卻參差不齊,很多數(shù)據(jù)或者結(jié)果無法得以有效解釋。而將多種表型分析技術(shù)和系統(tǒng)的表型信息結(jié)合在一起的表型組毫無疑問將是聯(lián)系生物體基因和表型的橋梁,其可為功能基因組學(xué)的研究提供有效支撐[10]。結(jié)合組學(xué)、高通量分析技術(shù)、人工智能和大數(shù)據(jù)分析的表型組發(fā)展迅速,同時必將產(chǎn)生大量異質(zhì)性、多維度的表型數(shù)據(jù),由于標(biāo)準(zhǔn)的缺失勢必導(dǎo)致數(shù)據(jù)的準(zhǔn)確性、可比性和可融合性受到影響,共享和合作創(chuàng)新受阻,最終延緩生物產(chǎn)業(yè)的進(jìn)步和升級。
本文從標(biāo)準(zhǔn)化的角度,對生物表型相關(guān)概念、發(fā)展以及生物表型組標(biāo)準(zhǔn)化面臨的問題進(jìn)行思考與展望,以期為生物表型組標(biāo)準(zhǔn)化的發(fā)展提供借鑒進(jìn)而帶動生物計量標(biāo)準(zhǔn)的發(fā)展。
在早期的研究中,由于欠缺分子生物學(xué)技術(shù),無法從基因水平上進(jìn)行探索,因此將生物及其后代的性狀作為影響因素的指標(biāo),這時表型的概念還僅限于外在形象。而隨著研究的不斷發(fā)展,“表型”出現(xiàn)的頻率也逐步升高。但由于其包含范圍很廣,生物表型及生物表型組的概念至今仍沒有一個明確的定義。
基于現(xiàn)有研究,生物表型是指具有特定基因型的生物體(植物、動物、微生物等)受基因和環(huán)境共同影響,表現(xiàn)出來的可觀測的性狀特征[11,12]。對于一個生物而言,表型表示某一特定的物理外觀或化學(xué)組成,如植物莖節(jié)高度、人的血型、微生物厭氧等[13]。表型主要受生物的基因和環(huán)境共同影響,以動物為例,如形態(tài)和習(xí)性這類表型容易受環(huán)境因素影響;而毛發(fā)顏色和瞳孔顏色則受基因影響,且很少會被環(huán)境改變。表型由微觀到宏觀還可以分為分子表型、細(xì)胞表型、組織表型、器官表型以及整體表型。而生物表型組是指在遺傳和環(huán)境因素的影響下,形成生物體全部特征信息的集合,包括外部形態(tài)、內(nèi)在生理、心理行為和分子構(gòu)成等各種特征集合[14]。表型組學(xué)(phenomics)最早是在1996年被提出,隨后在動物、植物、微生物以及人等相關(guān)領(lǐng)域不斷擴(kuò)展[15]。由此發(fā)展,生物表型同時涵蓋了表型組數(shù)據(jù)信息。生物表型為在遺傳和環(huán)境因素的影響下,生物表現(xiàn)出來的可觀測的性狀特征,形成生物體(全部)特征信息及組學(xué)的集合,包括細(xì)胞、形態(tài)、分子水平、空間行為等生物表型的數(shù)據(jù)集合,以表征生物特性及生物體質(zhì)量的關(guān)系。
生物表型組包含眾多研究方向。其中動物表型中人類表型組最為重要[16],植物表型組的發(fā)展最為完善[17]。植物表型組作為術(shù)語定義提出較早,且容易被監(jiān)測,已進(jìn)入大面積產(chǎn)業(yè)化應(yīng)用,向著規(guī)?;⒆詣踊较虬l(fā)展[18];同時涌現(xiàn)出多個可以進(jìn)行大量植物性狀評價的高通量技術(shù)平臺,為植物研究、作物培育等產(chǎn)業(yè)提供了豐富的數(shù)據(jù)支持[12,19,20]。關(guān)于動物表型組研究,我國早在“十二五”規(guī)劃中就開展以靈長動物和豬為模型的表型與遺傳研究,通過描述表型、遺傳型及其在環(huán)境中的響應(yīng),闡明生命表型的形成規(guī)律和調(diào)節(jié)方式。而作為生命健康的核心,人類表型組的發(fā)展最為詳盡、系統(tǒng),包含了人類“生老病死”的全過程,融合疾病、臨床、行為等生物表征,通過不同的研究方法,從宏觀到微觀對人體的所有生物學(xué)性狀進(jìn)行系統(tǒng)測量和分析[21]。其中,電子病歷就是一種綜合利用表型資源服務(wù)健康醫(yī)療的模式,儲存在電子病歷中的臨床表型特征一方面有利于加深人們對疾病基因基礎(chǔ)的理解,另一方面可以驗證過去發(fā)現(xiàn)的遺傳表征是否與特定疾病、基因具有顯著相關(guān)性。同時在日常生活中同樣產(chǎn)生了大量的表型數(shù)據(jù),如手機、運動手表等便攜式設(shè)備對生理指標(biāo)的采集,Health Kit、Research Kit等信息綜合平臺的發(fā)展以及通過表型藥物篩選平臺發(fā)現(xiàn)的新藥數(shù)量逐年升高[22],這些都說明隨著表型數(shù)據(jù)的積累,生物表型組的作用越來越大,表型及其應(yīng)用將對日常生活、醫(yī)療衛(wèi)生、科學(xué)研究以及生命規(guī)律等產(chǎn)生重要影響[23,24]。
同時,生物表型組也是多維度的。利用宏測量技術(shù)(高通量的表型分析技術(shù))結(jié)合數(shù)據(jù)挖掘方法,從微觀到宏觀對生物體的物理、化學(xué)和生物表征進(jìn)行系統(tǒng)性測量,進(jìn)而描繪基因、環(huán)境與表型之間多尺度的關(guān)系,構(gòu)建生物表型組跨尺度、高度復(fù)雜、動態(tài)的系統(tǒng)框架。同時,表型組學(xué)的研究在逐步深入化,分為深度表型(deep phenotyping)和表型組分析(phenomic analysis)兩部分[25,26]:深度表型指基于個體表型描述的全面精確深入表型分析;表型組分析意指利用聚類分析等分析方法從復(fù)雜多維數(shù)據(jù)中提取數(shù)據(jù)子集之間的潛在關(guān)系,并利用文本挖掘、通路分析等策略進(jìn)一步細(xì)化基因和表型的關(guān)聯(lián),即一方面在單獨表型特征上進(jìn)行精準(zhǔn)研究[27],另一方面將各個表型同基因形成連鎖分析[28]。
測序成本的不斷下降,各種組學(xué)數(shù)據(jù)的日益積累,表型數(shù)據(jù)和組學(xué)數(shù)據(jù)的融合已成為大數(shù)據(jù)領(lǐng)域不可阻擋的趨勢之一,表型組的發(fā)展也面臨多融合、精準(zhǔn)應(yīng)用的挑戰(zhàn)。根據(jù)基因組及表型組等多層次信息,抽提組學(xué)特征,形成一套完善的知識圖譜尤為重要。而隨著表型組的發(fā)展,也出現(xiàn)了更多高通量、多維度以及智能化的技術(shù)。例如在特性表型數(shù)據(jù)采集中出現(xiàn)一些專門為葉面積、株型開發(fā)的自動化圖像分析技術(shù),如三維三光彩色成像、熒光成像、熱成像、成像光譜[29~31]等。同時還演化出多維度的檢測生物表征的手段,如質(zhì)譜、核磁共振、表型微陣列技術(shù)等。而在高通量的大數(shù)據(jù)處理方面,產(chǎn)生如自動表型分析平臺、高通量高光譜成像系統(tǒng)、高通量葉評分儀[32]、水稻產(chǎn)量性狀評分儀、高通量水稻表型設(shè)施[33]等自動平臺。從測量方法到數(shù)據(jù)處理,技術(shù)的進(jìn)步也推動生物表型組從外部物理數(shù)據(jù)向內(nèi)部生理生化指標(biāo),從低水平到高通量,從人工采集到智能獲取的過程發(fā)展。
前期的生命科學(xué)研究通常以基因?qū)用孢M(jìn)行,而現(xiàn)階段由于缺少對表型標(biāo)準(zhǔn)化的定義導(dǎo)致表型數(shù)據(jù)雜亂,基因型和表型的連接存在障礙,限制了表型組數(shù)據(jù)的應(yīng)用。雖然現(xiàn)在表型組逐漸受到關(guān)注,但現(xiàn)有的技術(shù)和方法無法滿足高通量和高質(zhì)量分析的數(shù)據(jù)一致性和規(guī)范性的需求,在各種各樣的平臺進(jìn)行數(shù)據(jù)的采集和積累的同時也暴露著巨大的不互認(rèn)問題,而最先體現(xiàn)的是定義不統(tǒng)一問題。
3.2.1 基礎(chǔ)性術(shù)語定義缺乏標(biāo)準(zhǔn)化
從表型組的發(fā)展不難看出,其涉及領(lǐng)域眾多且跨多學(xué)科。但是正是由于這一特征,導(dǎo)致從一開始很多術(shù)語定義及數(shù)據(jù)處理都是基于各個學(xué)科建立的,缺乏統(tǒng)一標(biāo)準(zhǔn)的術(shù)語定義。而基礎(chǔ)術(shù)語定義是標(biāo)準(zhǔn)化工作的基礎(chǔ),沒有統(tǒng)一的語言、共識的定義,無法推動表型組高效有序發(fā)展。
以人類科學(xué)為例,其表型定義具有復(fù)雜性和模糊性特點,原因在于不同時期表型特征的適用范圍不同,或隨著科技及檢測手段的提升,很多表型定義的指標(biāo)和含義也有所改變,而基礎(chǔ)信息和數(shù)據(jù)來源的多樣性,也極大的增加了不確定性(圖1)。在臨床方面,健康人群及患者基因數(shù)據(jù)的積累,最終會形成參考數(shù)據(jù)庫,而準(zhǔn)確可靠的臨床表型定義至關(guān)重要,因此,需要找到共同語言來建立相應(yīng)的連接。一個典型的例子,就是根據(jù)不同類別確定糖尿病隊列,分類標(biāo)準(zhǔn)包括診斷標(biāo)準(zhǔn)、實驗室標(biāo)準(zhǔn)和藥物治療標(biāo)準(zhǔn),在一共24 520名患者中,完全符合3種標(biāo)準(zhǔn)的僅占38.50%,還有36.17%的患者只占3種分類標(biāo)準(zhǔn)的1種[34]。這種不同定義標(biāo)準(zhǔn)導(dǎo)致很多患者無法準(zhǔn)確確診,同時也會導(dǎo)致后期數(shù)據(jù)分析和表型統(tǒng)計時的資源交叉以及數(shù)據(jù)重復(fù)問題。
圖1 表型的不同術(shù)語定義Fig.1 Different definitions of terms for the phenotype
生物表型的定義直接會影響生物表型組的發(fā)展。因此如何基于不同領(lǐng)域、不同檢測方法,特異性地建立表型特征的術(shù)語定義集,將是表型組發(fā)展的基石。
3.2.2 特征數(shù)據(jù)采集缺乏標(biāo)準(zhǔn)化流程
由于表型范圍涵蓋廣、特征信息不明,導(dǎo)致描述表型的數(shù)據(jù)大量堆積。雖然科技進(jìn)步降低了采集成本,但表型特征的測量依然落后[12,35],生物特征的復(fù)雜性和多維性也對表型測量、分析提出了挑戰(zhàn)。很多個體表型信息多樣、模糊,真實完整的特征包含了比實際測量更多的表現(xiàn)型,即使對于特定的性狀,也無法確認(rèn)待測特征的最有效子集。同時特征采集方面更是缺乏國際統(tǒng)一標(biāo)準(zhǔn),沒有明確的指標(biāo),部分表型數(shù)據(jù)的質(zhì)量還受人工主觀因素影響[36],無法實現(xiàn)連續(xù)測量。如何提高特征采集的準(zhǔn)確性,如何定義采集參數(shù),精確進(jìn)行表型分類以及質(zhì)量評價,已成為制約生物表型組發(fā)展亟待解決的問題。從表型到表型組,表型特征數(shù)據(jù)采集標(biāo)準(zhǔn)化將直接影響表型組數(shù)據(jù)的分析和應(yīng)用。
3.2.3 大數(shù)據(jù)信息分析急需標(biāo)準(zhǔn)化
無論是植物表型的大面積信息采集[37],還是模式動物生物特征的收集都產(chǎn)生了大規(guī)模的數(shù)據(jù)。與傳統(tǒng)人工獲取數(shù)據(jù)不同,現(xiàn)在的表型組研究通過機器人、智能AI、自動化、遙感等技術(shù)手段,極大地提高了數(shù)據(jù)的通量[35],使得表型組學(xué)進(jìn)入了數(shù)字化時代[38]。而多維度的數(shù)據(jù)在大大豐富了表型研究內(nèi)容的同時也增加了數(shù)據(jù)整合的難度。面對如此巨大的數(shù)據(jù)積累,數(shù)據(jù)的有效性、數(shù)據(jù)類型的共享和通用性、數(shù)據(jù)分析和利用的統(tǒng)一性,將是生物表型組發(fā)展面臨的嚴(yán)峻挑戰(zhàn)。早期基因組研究發(fā)展的如火如荼,而面對指數(shù)級增長的資源導(dǎo)致很多數(shù)據(jù)無法共享及分析,最終導(dǎo)致了極大資源浪費。在2019年,國際標(biāo)準(zhǔn)化組織ISO/TC215“健康信息學(xué)技術(shù)委員會”緊急成立了“基因組學(xué)”分技術(shù)委員會(SC1),意在推動各組學(xué)標(biāo)準(zhǔn)化,制定包括基因組序列變異標(biāo)記語言、組學(xué)標(biāo)記語言、二代測序臨床基因組數(shù)據(jù)共享規(guī)范、DNA測序質(zhì)量控制等標(biāo)準(zhǔn)。因此,針對數(shù)量級更大的生物表型組,構(gòu)建或提出針對不同領(lǐng)域的特異化數(shù)據(jù)庫的數(shù)據(jù)處理規(guī)范,提高數(shù)據(jù)共享和利用率將是之后標(biāo)準(zhǔn)化工作的重點之一。
3.2.4 數(shù)據(jù)融合與產(chǎn)出應(yīng)用需要標(biāo)準(zhǔn)化
表型組學(xué)的研究才剛剛開始,且表型復(fù)雜的特征信息也伴隨著很多問題。表型信息與基因之間的關(guān)聯(lián)和連鎖研究日益活躍,同時在數(shù)據(jù)融合的時代表型組的研究將推動更多產(chǎn)業(yè)的應(yīng)用,因此在數(shù)據(jù)處理、特征精度和準(zhǔn)確性方面的需求更加強烈[39]。而多源數(shù)據(jù)融合涉及兩個層面:一方面,研究者需將同一檢測特征在不同時期獲取的數(shù)據(jù)進(jìn)行融合,從而實現(xiàn)全生育期性狀或全周期的動態(tài)監(jiān)測和分析;另一方面,針對多源表型信息,如何進(jìn)行不同維度、不同尺度的數(shù)據(jù)融合,尤其是在環(huán)境因素易變,缺失參照標(biāo)準(zhǔn)的多源數(shù)據(jù),則是研究者進(jìn)行從形態(tài)到生理乃至機理的綜合型研究所面臨的難題之一。特別在統(tǒng)計學(xué)里“大p小n”(Large phenome number and Small sample number,LpSn)和“高維數(shù),小樣本”(High dimensional and Small sample number,HdSn)的問題[40]在表型組中特別嚴(yán)重。多數(shù)據(jù)導(dǎo)致高維度,而傳統(tǒng)的降維分析又導(dǎo)致很多信息失真[41]。
如何將表型組數(shù)據(jù)和其他組學(xué)數(shù)據(jù)進(jìn)行融合,對生產(chǎn)應(yīng)用提供指導(dǎo),一是需要標(biāo)準(zhǔn)化的規(guī)范指導(dǎo),二是需要結(jié)合標(biāo)準(zhǔn)物質(zhì)/標(biāo)準(zhǔn)樣品的精確數(shù)據(jù)。正是在大標(biāo)準(zhǔn)體系下才能為推動生物表型組更好、更快發(fā)展的提供重要驅(qū)動力。
基于以上因素,不難發(fā)現(xiàn)在生物表型組發(fā)展、推廣和實際探究中仍存在很多問題,缺少術(shù)語定義、特征采集參數(shù)、數(shù)據(jù)處理分析標(biāo)準(zhǔn)、檢索記錄規(guī)范等,這導(dǎo)致數(shù)據(jù)無法共享、互認(rèn)的同時也制約了生物表型相關(guān)產(chǎn)業(yè)的發(fā)展。例如果蠅翅膀表型采集數(shù)據(jù)處理的過程中,不同的分類算法、測量方法,如顯微鏡和用于捕捉圖像的軟件,提取坐標(biāo)信息以及放大參數(shù)設(shè)置等的變化都直接影響了最終的結(jié)果統(tǒng)計。更重要的是,由于缺乏統(tǒng)一的規(guī)范和質(zhì)控,表型信息碎片化嚴(yán)重,無法進(jìn)行大規(guī)模標(biāo)準(zhǔn)化的衡量和評定。因此要想促進(jìn)生物表型組向更有序、更高效的方向發(fā)展,系統(tǒng)化的標(biāo)準(zhǔn)就顯得尤為重要。
現(xiàn)有標(biāo)準(zhǔn)化技術(shù)委員會以及生物相關(guān)標(biāo)準(zhǔn)只針對生物樣本、生化分析、體外診斷產(chǎn)品等方面,目前還沒有能夠針對生物表型(組)領(lǐng)域的標(biāo)準(zhǔn)化機構(gòu)和技術(shù)委員會,但國際上多個領(lǐng)域已經(jīng)開展了表型(組)相關(guān)標(biāo)準(zhǔn)化工作及本體系統(tǒng)的建立工作(表1)。如以大量集成術(shù)語系統(tǒng)為主的UMLS和BioPortal;以表型術(shù)語的整理和完善為主的通用集成系統(tǒng)人類,包括表型本體論(human phenotype ontology,HPO)[42]、哺乳動物表型本體論(mammalian phenotype ontology,MP)、蠕蟲表型本體論(worm phenotype ontology,WPO)[43]、酵母表型本體論(yeast phenotype ontology, APO)[44]和果蠅表型本體論(fly phenotype ontology,FPO)等。而在臨床表型術(shù)語標(biāo)準(zhǔn)方面,有醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(SNOMED-CT)、觀測指標(biāo)標(biāo)識符邏輯命名與編碼系統(tǒng)(LOINC)、RALDEX影像學(xué)結(jié)構(gòu)化報告、國際疾病分類(ICD)等。通過分析發(fā)現(xiàn),雖然表型本體眾多,但本體分類不明確,其包含術(shù)語數(shù)量懸殊,語義交互性存在缺陷,映射困難、術(shù)語表達(dá)不統(tǒng)一的問題。如HPO映射到UMLS中的術(shù)語占71.2%,而MP僅占11%。同時語義類別不清,有的為癥狀表型,有的為理化指標(biāo)、醫(yī)學(xué)表型。因此在分析各類表型本體數(shù)據(jù)的基礎(chǔ)上,加以整理和歸納表型本體內(nèi)容并實現(xiàn)共識的基礎(chǔ)標(biāo)準(zhǔn)化工作非常重要。
表1 部分術(shù)語本體庫基本信息Tab.1 Basic Information of Ontology Databases
在我國,以HPO為框架,聯(lián)合相關(guān)領(lǐng)域?qū)I(yè)人士,逐步建立中文臨床表型術(shù)語標(biāo)準(zhǔn)平臺(CHPO),并讓其指導(dǎo)、服務(wù)于中文使用者的臨床和科研工作。表型組相關(guān)標(biāo)準(zhǔn)化工作也在不斷推進(jìn),2018年“人類表型組計劃國際協(xié)作組”(International Human Phenome Consortium,IHPC)成立,促進(jìn)了標(biāo)準(zhǔn)化工作組的成立。2018年,中國計量科學(xué)研究院向國家標(biāo)準(zhǔn)化管理委員會提交了成立全國生物表型標(biāo)準(zhǔn)化技術(shù)委員會的申請,2022年,國家標(biāo)準(zhǔn)化管理委員會對全國生物表型標(biāo)準(zhǔn)化工作組的籌建進(jìn)行了公示。與此同時,中國也在大力推動國際標(biāo)準(zhǔn)化工作,提交成立ISO表型委員會的建議,如在2019年中國計量科學(xué)研究院聯(lián)合復(fù)旦大學(xué)等單位,通過國家標(biāo)準(zhǔn)化委員會在ISO提出成立國際“人類表型組標(biāo)準(zhǔn)化技術(shù)委員會”(ISO TS/P 277),獲得了包括法國、德國、意大利、西班牙等18個國家支持。在推動“人類表型組標(biāo)準(zhǔn)化技術(shù)委員會”的過程中,各國普遍認(rèn)為人類表型組標(biāo)準(zhǔn)化工作非常重要,這將促進(jìn)全球數(shù)據(jù)的整合、共享及挖掘,加速此領(lǐng)域的發(fā)展及應(yīng)用;同時表型組學(xué)涉及多學(xué)科,與納米技術(shù)、生物技術(shù)、計算機科學(xué)及認(rèn)知科學(xué)相關(guān),代表生命疾病和機理研究的新方向,對這些技術(shù)進(jìn)行術(shù)語定義很重要。另外,產(chǎn)生高質(zhì)量及一致性數(shù)據(jù)對于元數(shù)據(jù)應(yīng)用于人工智能很重要,其標(biāo)準(zhǔn)機構(gòu)涉及了國家層面的利益相關(guān)方。
生物表型組的發(fā)展離不開行之有效的標(biāo)準(zhǔn)化工作進(jìn)行配合。搭建術(shù)語分類、表型測量和表征參數(shù)、數(shù)據(jù)以及跨尺度關(guān)聯(lián)分析等相關(guān)標(biāo)準(zhǔn),將基因組和表型組有效、準(zhǔn)確地連接起來,形成一個表型、基因、環(huán)境關(guān)系的知識圖譜。在統(tǒng)一的標(biāo)尺和標(biāo)準(zhǔn)化體系框架下,將有利于生物表型組數(shù)據(jù)的安全、可靠、共享,具有巨大的市場和應(yīng)用前景。
生物表型組的發(fā)展才剛剛開始,但其對科研及應(yīng)用已產(chǎn)生了十分深遠(yuǎn)的影響[45]。隨著大數(shù)據(jù)、高通量、多組學(xué)的信息不斷擴(kuò)展,生物表型(組)的標(biāo)準(zhǔn)化工作已提到議事日程,需要從如下幾個方面進(jìn)行:(1)建立分層次的生物表型組標(biāo)準(zhǔn)化體系。一是術(shù)語定義及分類標(biāo)準(zhǔn),本體、特征參數(shù)等;二是方法及手段標(biāo)準(zhǔn),如隊列設(shè)計、采集手段、表征方法、分析工具等;三是數(shù)據(jù)結(jié)果分析標(biāo)準(zhǔn),遵守最小信息(minimum information,MI)、數(shù)據(jù)格式(data format)等要求;四是數(shù)據(jù)融合共享應(yīng)用的標(biāo)準(zhǔn)促進(jìn)數(shù)據(jù)共享并集成“云技術(shù)”。最終解決有效存儲、管理和檢索等問題。進(jìn)行高效、快速表型分析的前提依然是表型語義的統(tǒng)一、信息采集的一致以及數(shù)據(jù)處理的標(biāo)準(zhǔn)化。(2)建立生物表型組數(shù)據(jù)質(zhì)量控制的標(biāo)準(zhǔn)化流程,以期提高數(shù)據(jù)質(zhì)量,保證數(shù)據(jù)的高精準(zhǔn)。表型的觀測和分析不僅要有明確、固定和量化的測量標(biāo)準(zhǔn)要求,更重要的是準(zhǔn)確性和精度。針對種類繁多、特征各異的表型信息,進(jìn)行特定參數(shù)的設(shè)定。精準(zhǔn)的信息采集才可最大程度減少冗余數(shù)據(jù)的積累,最高效利用和整合數(shù)據(jù)資源以期將表型、基因和環(huán)境形成準(zhǔn)確的對應(yīng)關(guān)系。(3)建立多維質(zhì)控標(biāo)準(zhǔn)。由于生物表型組包含關(guān)鍵點眾多,更應(yīng)增加多維度質(zhì)量控制的標(biāo)準(zhǔn)化工作,包括表型采集質(zhì)控、數(shù)據(jù)處理及分析質(zhì)控等,其中數(shù)據(jù)質(zhì)控是表型測量與表征的核心內(nèi)容。因此需設(shè)立質(zhì)控點、關(guān)鍵參數(shù)以及開展質(zhì)控評定,進(jìn)而對生物表型的發(fā)展提供有力保障。只有在對表型數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化采集、處理、分析、應(yīng)用的基礎(chǔ)上,同時對過程進(jìn)行多維質(zhì)量控制,才能更加準(zhǔn)確、系統(tǒng)、高效地對生物表型組進(jìn)行研究。因此未來生物表型(組)標(biāo)準(zhǔn)化的研究制定將成為生物表型(組)領(lǐng)域發(fā)展必不可少的重要方向之一。