基因突變是指基因組DNA分子發(fā)生的突然的、可遺傳的變異現(xiàn)象[1],許多疾病的發(fā)生都與基因突變密切相關(guān)。如癌癥通常開始于一系列體細(xì)胞DNA變化所導(dǎo)致的失控的細(xì)胞增殖,其中“變化”指的是突變等特定的DNA序列變化?;诰珳?zhǔn)醫(yī)學(xué)的理念,通過鑒定疾病樣本細(xì)胞中的基因突變,實(shí)施“個(gè)體化”的治療手段可大大提高疾病治療的有效性。隨著生物醫(yī)學(xué)領(lǐng)域測(cè)序技術(shù)的飛速發(fā)展,越來越多面向臨床樣本的基因測(cè)序?qū)嶒?yàn)產(chǎn)生了大量的基因突變信息,為臨床的靶向治療提供指導(dǎo)。面對(duì)大規(guī)模的、多樣的突變數(shù)據(jù),如何提供統(tǒng)一的數(shù)據(jù)整合與表示標(biāo)準(zhǔn),是國(guó)內(nèi)外許多研究組織致力解決的問題。其中,對(duì)基因突變相關(guān)的本體、命名方式、數(shù)據(jù)庫等的研究對(duì)基因突變數(shù)據(jù)的標(biāo)準(zhǔn)化起到了很大的推動(dòng)作用。
本文在充分調(diào)研現(xiàn)有基因突變數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上,制定了一套整合式的基因突變分類體系,并從ClinVar[2]和COSMIC[3]數(shù)據(jù)庫中獲取突變數(shù)據(jù),根據(jù)不同數(shù)據(jù)庫的突變數(shù)據(jù)特征將突變數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、融合以及分類注釋,最終構(gòu)建了一套融合了多源異構(gòu)突變數(shù)據(jù)的統(tǒng)一標(biāo)準(zhǔn)的突變分類體系和突變數(shù)據(jù)庫,旨在使臨床與科研人員能更便捷、更全面、更系統(tǒng)地獲取突變數(shù)據(jù)和突變類型信息,理解疾病的發(fā)生機(jī)制,從而對(duì)疾病進(jìn)行精準(zhǔn)治療。
由于基因突變發(fā)生的隨機(jī)性、不定向性以及基因作為一條核苷酸序列所具有的結(jié)構(gòu)特性,基因突變的種類是非常多樣的。根據(jù)其分子的大小,基因突變可分為小的DNA鏈內(nèi)部的突變(包括單核苷酸突變、插入、刪除、復(fù)制等)、大的染色體突變(拷貝數(shù)變異、易位、倒位等)以及基因融合等;根據(jù)其堿基突變對(duì)多肽鏈中氨基酸序列的影響,基因突變又可分為同義突變,錯(cuò)義突變和無義突變等;按照突變的致病程度,2013年美國(guó)醫(yī)學(xué)遺傳學(xué)和基因組學(xué)學(xué)院(American College of Medical Genetics and Genomics, ACMG)在重新修訂的序列突變的標(biāo)準(zhǔn)和指南中將突變分為致病的、可能致病、意義不明確、可能良性和良性5個(gè)大類[4]。
基因突變相關(guān)的本體,系統(tǒng)地組織了突變的類型,并提供標(biāo)準(zhǔn)化的術(shù)語表示。如變異本體(Variation Ontology,VariO)從突變的大小、產(chǎn)生影響和作用機(jī)制等方面對(duì)突變進(jìn)行描述,旨在對(duì)突變數(shù)據(jù)進(jìn)行更好的注釋[5];序列本體(Sequence Ontology,SO)通過對(duì)序列特征進(jìn)行定義來標(biāo)注生物序列,其最初是由基因本體協(xié)會(huì)(Gene Ontology Consortium)開發(fā);序列變異(sequence variant)作為其中一個(gè)分支,從功能上和結(jié)構(gòu)上對(duì)突變類型分別進(jìn)行了描述[6]。
面對(duì)多種的基因突變類型,制定一種統(tǒng)一的命名方式確定一個(gè)突變的名稱,對(duì)于突變數(shù)據(jù)的共享和使用都具有極大意義。人類基因組變異學(xué)會(huì)(Human Genome Variation Society,HGVS)提出了一種標(biāo)準(zhǔn)的基因突變命名法,對(duì)DNA、RNA以及蛋白序列中發(fā)現(xiàn)的突變進(jìn)行命名,并對(duì)其進(jìn)行長(zhǎng)期維護(hù)和版本管理,目前這種命名法已經(jīng)被廣泛使用并被推薦為通用的基因突變命名法[7]。
隨著基因檢測(cè)中發(fā)現(xiàn)的突變數(shù)據(jù)的持續(xù)增長(zhǎng),大量相關(guān)數(shù)據(jù)庫也應(yīng)運(yùn)而生。臨床實(shí)驗(yàn)室通過使用基因突變數(shù)據(jù)庫對(duì)突變進(jìn)行分類、提交,并對(duì)相關(guān)突變數(shù)據(jù)進(jìn)行檢索、分析及查閱文獻(xiàn)。其中,癌癥體細(xì)胞突變目錄(Catalogue Of Somatic Mutations In Cancer,COSMIC)是目前世界上最大、最全的探索體細(xì)胞突變?cè)谌祟惏┌Y中的影響的數(shù)據(jù)資源[3];人類在線孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)是一個(gè)全面且權(quán)威的人類基因和遺傳表型數(shù)據(jù)庫[8],其中引用的全文綜述包含了所有已知孟德爾疾病和16 000多個(gè)基因以及相關(guān)的突變信息;ClinVar是美國(guó)國(guó)家生物技術(shù)信息中心(National Center of Biotechnology Information,NCBI)主辦的與疾病相關(guān)的人類基因組變異數(shù)據(jù)庫[2],它的強(qiáng)大在于整合了dbSNP、dbVar、PubMed和OMIM等多個(gè)數(shù)據(jù)庫在遺傳變異和臨床表型方面的數(shù)據(jù)信息,形成一個(gè)標(biāo)準(zhǔn)的、可信的臨床相關(guān)的遺傳變異數(shù)據(jù)庫。
與以上綜合性突變數(shù)據(jù)庫不同,單核苷酸多態(tài)性數(shù)據(jù)庫(The Single Nucleotide Polymorphism Database,dbSNP)[9]和基因組結(jié)構(gòu)變異數(shù)據(jù)庫dbVar[10]都是對(duì)某類突變進(jìn)行收錄。其中dbSNP收錄了單核苷酸變異(single nucleotide variations,SNVs)、短插入和缺失、微衛(wèi)星標(biāo)記等序列長(zhǎng)度小于50bp的突變數(shù)據(jù);dbVar則收錄序列長(zhǎng)度大于50bp的結(jié)構(gòu)變異數(shù)據(jù),包括倒位、易位和基因組不平衡(插入和刪除),通常也稱為拷貝數(shù)變異(copy number variants,CNVs)。
綜上所述,目前的研究因尚無一套標(biāo)準(zhǔn)的、完善的突變數(shù)據(jù)分類體系和全面整合型的突變數(shù)據(jù)庫,無法實(shí)現(xiàn)多來源異構(gòu)的突變數(shù)據(jù)的整合,不利于精準(zhǔn)醫(yī)學(xué)領(lǐng)域的知識(shí)發(fā)現(xiàn)與突變數(shù)據(jù)的標(biāo)準(zhǔn)化融合。因此,本文分析并設(shè)計(jì)一套融合了多源異構(gòu)突變數(shù)據(jù)庫的統(tǒng)一標(biāo)準(zhǔn)的突變分類體系和突變數(shù)據(jù)庫,旨在提供一種有效的基因突變數(shù)據(jù)分類標(biāo)準(zhǔn)和整合方案。
本文在充分調(diào)研相關(guān)的基因突變權(quán)威數(shù)據(jù)庫的基礎(chǔ)上,從ClinVar和COSMIC數(shù)據(jù)庫的官網(wǎng)獲取基因突變數(shù)據(jù),并從ClinVar數(shù)據(jù)庫中獲取與dbSNP、dbVar和OMIM數(shù)據(jù)庫的映射關(guān)系。
根據(jù)所獲取的基因突變數(shù)據(jù)特征,設(shè)計(jì)數(shù)據(jù)融合過程中的元數(shù)據(jù),對(duì)獲取的開放數(shù)據(jù)進(jìn)行融合。根據(jù)已有的基因突變分類標(biāo)準(zhǔn),結(jié)合ClinVar和COSMIC數(shù)據(jù)庫中突變的類型,制定了本文所適用的基因突變數(shù)據(jù)分類體系,并根據(jù)制定的分類標(biāo)準(zhǔn),對(duì)融合后的突變數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化分類。具體實(shí)驗(yàn)流程如圖1所示。
圖1 實(shí)驗(yàn)流程圖
設(shè)計(jì)統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),以利于數(shù)據(jù)的標(biāo)準(zhǔn)化、存儲(chǔ)與共享。本文借鑒一體化醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)的超級(jí)敘詞表對(duì)異構(gòu)數(shù)據(jù)整合的原則,對(duì)收集的基因突變數(shù)據(jù)進(jìn)行融合、組織。UMLS利用以RRF和ORF格式組織的數(shù)據(jù)文件管理生物醫(yī)學(xué)和健康相關(guān)的概念、術(shù)語以及概念之間的關(guān)系[11]。遵循UMLS“概念-術(shù)語”的組織方式和保留來源數(shù)據(jù)庫信息的原則,根據(jù)本實(shí)驗(yàn)數(shù)據(jù)特性簡(jiǎn)化元數(shù)據(jù)的設(shè)計(jì),主要保留突變數(shù)據(jù)的名稱、來源數(shù)據(jù)庫、在來源數(shù)據(jù)庫的ID和類型的信息。利用CID對(duì)融合后的突變數(shù)據(jù)進(jìn)行唯一標(biāo)識(shí),利用AID對(duì)每一個(gè)原始數(shù)據(jù)庫的突變數(shù)據(jù)進(jìn)行唯一標(biāo)識(shí),再利用一個(gè)CID對(duì)應(yīng)多個(gè)AID的方式對(duì)多來源同一概念的突變數(shù)據(jù)進(jìn)行組織。具體元數(shù)據(jù)及其釋義、數(shù)據(jù)格式和取值示例如表1所示。
表1 元數(shù)據(jù)釋義表
一個(gè)完善的突變分類體系應(yīng)盡可能涵蓋多種突變數(shù)據(jù)庫、突變本體中的不同突變類型。因此,本文從基因突變發(fā)生的范圍、形式等常規(guī)角度入手,通過對(duì)變異本體VariO和序列本體SO的深入分析,以及對(duì)ClinVar和COSMIC數(shù)據(jù)庫中突變類型的解析,構(gòu)建了一套標(biāo)準(zhǔn)的、盡可能涵蓋已有突變類型的分類標(biāo)準(zhǔn)體系。
本分類體系整體分為6層。其中,一級(jí)類目分類體系參考VariO中“DNA variation classification”分支下的術(shù)語和分類體系,從突變發(fā)生所涉及的分子范圍進(jìn)行區(qū)分,包括染色質(zhì)突變、染色體突變、DNA鏈突變和基因組突變;從突變發(fā)生的具體形式進(jìn)行區(qū)分,DNA鏈突變包括堿基的替換、插入、刪除等多種形式,而染色體突變包括染色體的結(jié)構(gòu)突變和數(shù)量突變。
此外,補(bǔ)充VariO中所沒有的分類,如參考SO在“chromosomal amplification”類目下添加“copy number gain”類目,參考ClinVar數(shù)據(jù)庫補(bǔ)充“undetermined variation”類目,參考COSMIC數(shù)據(jù)庫補(bǔ)充“complex DNA variation”類目。調(diào)整“DNA substitution”類目下的分類體系,加入“SNV”這一突變數(shù)據(jù)庫常用數(shù)據(jù)類型,并對(duì)其進(jìn)一步細(xì)化。詳細(xì)分類體系可視化展示如圖2所示。
圖2 基因突變分類體系
本文實(shí)驗(yàn)突變數(shù)據(jù)選自ClinVar和COSMIC數(shù)據(jù)庫。ClinVar是一個(gè)可開放獲取的突變數(shù)據(jù)庫,其中收集了面向臨床的人類遺傳變異。選擇突變概要文件variant_summary.txt中基因組參考序列版本為GRCh38的突變數(shù)據(jù),共316 629條,并篩選所在基因、突變名稱、突變ID和突變類型等信息。ClinVar突變數(shù)據(jù)中包含與dbSNP、dbVar和OMIM數(shù)據(jù)庫之間的映射關(guān)系,提取出相應(yīng)字段從而獲取其映射關(guān)系。其中與dbSNP數(shù)據(jù)庫映射的突變?yōu)?95 889個(gè),與dbVar數(shù)據(jù)庫映射的突變?yōu)?3 716個(gè),與OMIM數(shù)據(jù)庫映射的突變?yōu)?2 572個(gè)。COSMIC數(shù)據(jù)庫收錄了癌癥相關(guān)的人類體細(xì)胞突變信息,提供多種數(shù)據(jù)獲取方式,并且面向?qū)W術(shù)人員免費(fèi)。選擇CosmicCompleteTargetedScreensMutantExport.tsv這一包含全部突變數(shù)據(jù)的文件,提取突變信息434 591條,并篩選所在基因、突變名稱、突變ID和突變類型描述等信息。
通過分析ClinVar突變數(shù)據(jù)與COSMIC突變數(shù)據(jù)的表示方式發(fā)現(xiàn),ClinVar的突變與COSMIC的突變可以通過提取出的基因信息和突變名稱信息進(jìn)行融合。如ClinVar中ID為389314的突變,其名稱為“NM_005101.3(ISG15):c.248G>A (p.Ser83Asn)”。該名稱遵循HGVS關(guān)于突變的命名方式,表示ISG15這個(gè)基因的248位置發(fā)生了單核苷酸突變SNV,堿基由G突變?yōu)锳,其翻譯的蛋白質(zhì)的氨基酸在83位置由Ser替換為Asn。其所在基因的人類基因命名委員會(huì)(HUGO Gene Nomenclature Committee,HGNC)編碼的ID為9636。而COSMIC中ID為COSM3751464的突變,其名稱為“c.248G>A”,其所在基因的人類基因命名委員會(huì)ID同樣為9636,所以可以確定這兩個(gè)突變是一個(gè)突變,可進(jìn)行融合。在融合過程中,需要對(duì)ClinVar的突變名稱進(jìn)行主要信息提取,提取出DNA序列的突變名稱“c.248G>A”,便于與COSMIC的突變名稱匹配。
dbSNP、dbVar和OMIM數(shù)據(jù)庫的突變信息可利用其與ClinVar數(shù)據(jù)庫之間的映射直接獲取,然后利用之前設(shè)計(jì)的突變?cè)獢?shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)組織框架,將ClinVar、COSMIC、dbSNP、dbVar和OMIM等5個(gè)數(shù)據(jù)庫的突變信息進(jìn)行統(tǒng)一融合,最終獲得突變概念為746 504個(gè),突變術(shù)語為1 083 397個(gè)。最終獲得的融合數(shù)據(jù)示例如圖3所示。
圖3 突變數(shù)據(jù)融合示例
解析出ClinVar數(shù)據(jù)庫的突變類型包括“single nucleotide variant”、“indel”、“deletion”和“short repeat”等12種,COSMIC數(shù)據(jù)庫的突變類型包括“Substitution-Missense”、“Substitution-coding silent”、“Insertion-In frame”和“Insertion-Frameshift”等16種。可以看出ClinVar的突變類型描述比較符合常規(guī),COSMIC的突變類型描述加入了突變會(huì)對(duì)氨基酸序列產(chǎn)生的影響,包括錯(cuò)義突變、無義突變和移碼突變等描述。本文所設(shè)計(jì)的突變分類體系不包含這類分類維度的描述,故在本文實(shí)驗(yàn)中不做區(qū)分。
將ClinVar和COSMIC數(shù)據(jù)庫的突變類型與構(gòu)建的突變分類體系進(jìn)行映射,對(duì)其突變類型進(jìn)行標(biāo)準(zhǔn)化。除了可以直接進(jìn)行映射的突變類型外,有些突變類型的映射過程還存在一些不確定的情況,需要根據(jù)具體數(shù)據(jù)確定。如ClinVar的突變類型易位(Translocation),無法確定其是DNA易位還是染色體易位。但通過分析類型為易位突變的數(shù)據(jù),發(fā)現(xiàn)其名稱都為“t(5;16)(p15.31;q23.1)”這種形式,表示5號(hào)染色體與16號(hào)染色體之間發(fā)生易位突變,因此可判斷其為染色體易位。最終確定的兩個(gè)數(shù)據(jù)庫的突變類型與標(biāo)準(zhǔn)突變分類之間的映射關(guān)系如表2和表3所示。
本文構(gòu)建的基因突變分類標(biāo)準(zhǔn)體系共包括類目34個(gè),在全面涵蓋了ClinVar和COSMIC數(shù)據(jù)庫中的突變類型的同時(shí),參考已有突變分類體系,可對(duì)基因突變類型進(jìn)行細(xì)致的梳理與合理的層級(jí)劃分。將本文分類體系與SO和VariO的突變分類體系進(jìn)行對(duì)比,統(tǒng)計(jì)出各分類體系在不同數(shù)據(jù)庫的突變類型上的涵蓋情況(圖4)。通過對(duì)比發(fā)現(xiàn)本文分類體系在綜合性突變數(shù)據(jù)庫ClinVar和COSMIC中,所涵蓋的突變類型是最全面的,在特定類型突變數(shù)據(jù)庫dbSNP中也能達(dá)到很好的涵蓋程度,說明本文構(gòu)建的基因突變分類體系具有更廣的涵蓋范圍和更強(qiáng)的適用性。同時(shí),本文分類體系對(duì)dbVar數(shù)據(jù)庫的突變類型的涵蓋程度沒有SO的涵蓋程度好,說明本文分類體系在結(jié)構(gòu)突變類型上的涵蓋程度還有待提升。
表2 ClinVar數(shù)據(jù)庫突變類型與本文實(shí)驗(yàn)分類體系映射關(guān)系表
表3 COSMIC數(shù)據(jù)庫突變類型與本文實(shí)驗(yàn)分類體系映射關(guān)系表
通過對(duì)融合后突變數(shù)據(jù)的突變類型進(jìn)行標(biāo)準(zhǔn)化映射,為整合不同突變數(shù)據(jù)庫的突變類型提供解決辦法,為之后突變數(shù)據(jù)的管理、共享以及分析提供便利。最終統(tǒng)計(jì)出概念數(shù)排名前十的突變類型的概念數(shù)量(圖5),其中大部分突變數(shù)據(jù)的突變類型為單核苷酸突變,說明在癌癥等疾病中,通常發(fā)生頻率較高的突變類型為單核苷酸突變、DNA堿基替換和DNA刪除等類型。
圖4 各突變分類體系在不同數(shù)據(jù)庫中的涵蓋情況
圖5 概念數(shù)排名前10的突變類型統(tǒng)計(jì)
本文在充分調(diào)研現(xiàn)有的基因突變分類標(biāo)準(zhǔn)、命名標(biāo)準(zhǔn)以及組織標(biāo)準(zhǔn)的基礎(chǔ)上,構(gòu)建了符合實(shí)際應(yīng)用的突變分類標(biāo)準(zhǔn)體系,發(fā)現(xiàn)了突變數(shù)據(jù)融合的有效方案。構(gòu)建的突變分類體系和融合數(shù)據(jù)庫,可為用戶提供更加全面、便捷的突變數(shù)據(jù)獲取方式和組織形式。
本文仍有許多不足之處,基因突變分類體系有待進(jìn)一步完善。一是基于分類體系構(gòu)建基因突變本體,更全面地整合突變分類體系中術(shù)語的定義、來源和同義詞等信息;二是整合并發(fā)現(xiàn)多維度的突變數(shù)據(jù)中的語義關(guān)系,包括突變與疾病之間的關(guān)系,以及突變的致病程度等;三是整合更多的突變數(shù)據(jù)庫以及文獻(xiàn)中挖掘出的突變數(shù)據(jù),擴(kuò)大數(shù)據(jù)的涵蓋范圍。