蔡瑞琨,曹宗富,喻浴飛,陳翠霞,張釧,羅敏娜,李乾,馬旭*
(1.國家衛(wèi)生健康委科學(xué)技術(shù)研究所,北京 100081;2.國家人類遺傳資源中心,北京 102206;3.甘肅省婦幼保健院醫(yī)學(xué)遺傳學(xué)中心,蘭州 730050)
基因組拷貝數(shù)變異(Copy number variation,CNV)是染色體結(jié)構(gòu)變異的一種,通常是指在基因組上長度在1 kb以上的大片段堿基序列的增加或者減少,主要表現(xiàn)為亞顯微水平的缺失或者重復(fù)。它與單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)同樣在人群中普遍存在,是人類基因組水平上廣泛分布的一種變異形式[1-2]。近年來,隨著基因組學(xué)實(shí)驗(yàn)技術(shù)的迅猛發(fā)展,高通量測序技術(shù)為研究基因組水平上的變異提供了強(qiáng)有力的工具[3]。與疾病相關(guān)的基因組水平上的變異研究,不僅僅局限在SNPs,CNVs也可以通過改變基因的倍數(shù)、打亂基因的結(jié)構(gòu)等方式影響個體的表型,從而導(dǎo)致單基因遺傳病和復(fù)雜疾病[4]。例如,在神經(jīng)發(fā)育類疾病的研究中發(fā)現(xiàn)CNVs是一個重要的危險因素[5],在一些散發(fā)病例中可以發(fā)現(xiàn)共同的新生罕見CNV[6]。CNVs在高危妊娠、自然流產(chǎn)以及遺傳性疾病中有比較高的檢出率,提示在此類人群中CNVs檢測的重要性[7]。在癌癥研究方面,CNVs被認(rèn)為是一種潛在的腫瘤診斷生物標(biāo)記物,多種癌基因都與CNVs相關(guān),因此檢測不同腫瘤的CNV具有重要意義[8-9]。
隨著人類基因組學(xué)和疾病組學(xué)的發(fā)展,人類醫(yī)學(xué)正逐步邁入到精準(zhǔn)醫(yī)學(xué)的時代,可以根據(jù)個體的遺傳學(xué)背景,闡明個體疾病的發(fā)病原因、預(yù)測發(fā)病風(fēng)險,以及進(jìn)行個性化的健康管理和治療。這對個體基因變異的檢測提出了更高的要求,不僅僅滿足于SNPs的檢測,還包括了CNVs的檢測和分析解讀。而CNVs檢測應(yīng)用于精準(zhǔn)醫(yī)學(xué)方面所面臨的挑戰(zhàn)在于:(1)復(fù)雜的分析流程。從原始的高通量測序數(shù)據(jù),到分析出CNVs,中間需要若干分析步驟,運(yùn)行多種分析軟件,不僅消耗大量時間,且技術(shù)門檻較高,很難為廣大非生物信息學(xué)人員所使用。(2)致病變異的鑒定和解讀。對檢測出的眾多CNVs進(jìn)行篩選,評價其與表型的關(guān)聯(lián),需要消耗大量時間、查閱大量文獻(xiàn)和數(shù)據(jù)庫,逐個審核和確認(rèn),效率非常低[6]。為此,我們基于已有的單基因病遺傳變異解讀系統(tǒng),針對CNVs的分析流程,又開發(fā)出一套基于云的可視化自動化智能化的CNVs變異檢測分析解讀系統(tǒng),以滿足單基因病和復(fù)雜疾病在CNVs檢測方面的臨床和科研需求,并通過https://www.pgenomics.cn/提供免費(fèi)的分析解讀服務(wù)。
分析流程處理的原始數(shù)據(jù)來自于高通量測序技術(shù)產(chǎn)生的全基因組測序數(shù)據(jù)或者外顯子組測序數(shù)據(jù)。在Linux系統(tǒng)環(huán)境中,首先使用FastQC軟件對fastq格式的原始測序數(shù)據(jù)進(jìn)行質(zhì)量控制。然后,將質(zhì)量過關(guān)的數(shù)據(jù)用BWA MEM軟件[10]與人類參考基因組(hg19版本)進(jìn)行序列比對,并用Samtools軟件[11]得到比對后的Bam格式文件。
將輸入的與待測樣本同批次的正常樣本做對照,建立一個參考基線。分別計算每個對照樣本的目的區(qū)域內(nèi)和目的區(qū)域外的測序深度,合并所有對照樣本,矯正GC含量等系統(tǒng)誤差,構(gòu)建正常人樣本的基因組的測序分布模型;在Linux系統(tǒng)環(huán)境中,對于全基因組測序數(shù)據(jù)采用CNVKit軟件[12]實(shí)現(xiàn),對于全外顯子測序數(shù)據(jù)采用ExomeDepth軟件實(shí)現(xiàn)。
將待測樣本與對照樣本建立的參考基線做比對,檢測出待測樣本中相應(yīng)的變異情況。分別計算每個待測實(shí)驗(yàn)樣本的目的區(qū)域內(nèi)和目的區(qū)域外的測序深度,然后計算它們相對于對照樣本的log2 ratio值,再進(jìn)行小片段劃分,并計算每個小片段區(qū)域的絕對拷貝數(shù)。在Linux系統(tǒng)環(huán)境中,對于全基因組測序數(shù)據(jù)采用CNVKit軟件實(shí)現(xiàn),對于全外顯子測序數(shù)據(jù)采用ExomeDepth軟件實(shí)現(xiàn)。
對識別的CNVs,根據(jù)公共數(shù)據(jù)庫對變異起始/終止位置、所覆蓋的基因、具體的變異類型、在世界不同人群中的頻率,以及DGV數(shù)據(jù)庫[13]、千人數(shù)據(jù)庫、dbVar數(shù)據(jù)庫和OMIM數(shù)據(jù)庫中已知變異的致病情況等進(jìn)行注釋。在Linux系統(tǒng)環(huán)境中采用AnnotSV軟件進(jìn)行注釋,并且該軟件還使用了美國醫(yī)學(xué)遺傳學(xué)和基因組學(xué)學(xué)院(ACMG)定義的分類標(biāo)準(zhǔn),給出了初步的致病性分類。
根據(jù)變異注釋結(jié)果中分析軟件注釋出的變異信息與用戶提交的相關(guān)信息之間的近似程度等情況對結(jié)構(gòu)變異進(jìn)行累計評分,最終的變異評分定義為多種注釋結(jié)果的加權(quán)評分之和,具體方法為
其中,wi為不同證據(jù)的評分權(quán)重,si為每個證據(jù)的評分;wi默認(rèn)值為1,可根據(jù)情況進(jìn)行調(diào)整。其中,證據(jù)評分包括以下幾項:(1)在注釋結(jié)果中給出的變異初步致病性分級;(2)用戶輸入的疾病名稱與注釋結(jié)果中分析軟件注釋出的此變異對應(yīng)的疾病名稱,兩個疾病名稱之間的匹配程度;(3)疾病的已知致病基因加權(quán)評分;(4)對用戶輸入的表型和每個結(jié)構(gòu)變異片段注釋的表型,兩個表型之間利用多層級聚類算法計算兩者匹配相似度分值;(5)各變異數(shù)據(jù)庫中不同人群的最大頻率MAX_AF情況;(6)變異所在位置的重要性。在Linux系統(tǒng)環(huán)境中使用python語言開發(fā)完成此功能模塊。
由于上述分析軟件在Linux系統(tǒng)下基于命令行模式下運(yùn)行,用戶友好度低,因此,本研究集成了各應(yīng)用軟件,采用友好的流程管理方案,使用戶可以直接使用Windows系統(tǒng)通過Web瀏覽器直接訪問并分析數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)的自動化分析和結(jié)果的可視化展示。最終的分析報告及可視化頁面直接在Web瀏覽器中展示,根據(jù)變異的總評分降序和基因名稱升序?qū)ψ儺愡M(jìn)行排序。變異的總評分越高,說明變異與用戶提交的疾病名稱或表型越匹配,且致病性越高,從而實(shí)現(xiàn)了致病變異的推薦功能;推薦頁面包括了變異的位置、覆蓋的基因名稱、變異評分分值、染色體水平上突變的位置圖,以及相關(guān)的表型信息和變異頻率信息等。
我們基于云開發(fā)了可視化自動化智能化的CNVs變異分析解讀及推薦系統(tǒng),實(shí)現(xiàn)從新一代測序原始數(shù)據(jù)到致病CNVs推薦的自動化流程(圖1),極大降低了CNVs變異數(shù)據(jù)分析工作和人工解讀的工作量,大大提高了CNVs分析和臨床解讀的效率。通過https://www.pgenomics.cn/提供免費(fèi)共享服務(wù),用戶注冊申請后即可登錄使用。
圖1 拷貝數(shù)變異檢測自動化分析流程圖
用戶可根據(jù)自己的實(shí)驗(yàn)方案和已有的測序數(shù)據(jù)選擇對應(yīng)的分析流程,主要分為:基于全基因組的CNV測序(CNV-seq)數(shù)據(jù)的分析流程,和基于全外顯子組測序數(shù)據(jù)的分析流程。分析流程導(dǎo)入的數(shù)據(jù)可以是測序的原始fastq文件格式,也可以是分析過程中的bam文件格式。根據(jù)實(shí)驗(yàn)方案,可以選擇使用用戶自己的對照樣本作為檢測CNV的參考基線,也可以使用平臺上提供的參考基線。
示例為一位有磁共振磨牙征等表型的患者的拷貝數(shù)分析結(jié)果(圖2)。在提交分析流程前,用戶需要輸入數(shù)據(jù)對應(yīng)的患者的疾病名稱或者HPO標(biāo)準(zhǔn)表型。例如,此示例輸入的標(biāo)準(zhǔn)表型為“HP:0002419磁共振磨牙征;HP:0001510生長延遲;HP:0007033小腦發(fā)育不良;HP:0000639眼球震顫”。提交分析后,系統(tǒng)會自動進(jìn)行分析,給基因和變異進(jìn)行評分,與標(biāo)準(zhǔn)表型相關(guān)性高的將會賦予更高的分值。待分析結(jié)束后,即可查看報告。報告頁面的左側(cè)顯示分析的流程,中間部分則是每個基因拷貝數(shù)的分析結(jié)果,根據(jù)拷貝數(shù)評分的分值從大到小排序,展示出拷貝數(shù)、評分分值、區(qū)域范圍、范圍內(nèi)覆蓋的基因名稱、相關(guān)的疾病名稱、遺傳模式和拷貝數(shù)的長度等信息。此示例推薦第一位的是TMEM237基因,基因?qū)?yīng)的疾病為Joubert綜合征14型,變異區(qū)域?yàn)榛虻?號外顯子區(qū)域到2號內(nèi)含子區(qū)域,對應(yīng)的OMIM編號為614423,平臺附有鏈接,可以直接點(diǎn)擊進(jìn)入OMIM數(shù)據(jù)庫進(jìn)行查看。
圖2 拷貝數(shù)分析流程報告界面
本研究基于高通量測序數(shù)據(jù),包括全基因組測序數(shù)據(jù)和外顯子組測序數(shù)據(jù),面向遺傳病和腫瘤兩大領(lǐng)域中的拷貝數(shù)變異致病性研究,可與SNV/Indel變異致病性研究相結(jié)合,共同研究疾病的發(fā)病機(jī)制、病因診斷,以及產(chǎn)前遺傳病診斷和篩查[14]。
在技術(shù)上,本研究采用了生物信息學(xué)技術(shù),集成了多個CNV分析相關(guān)的應(yīng)用軟件,并且開發(fā)出致病突變的推薦功能模塊,使得CNV分析流程從原始數(shù)據(jù)處理到最終的致病變異推薦功能全部一次性自動化地分析完成。本系統(tǒng)在功能上實(shí)現(xiàn)了一種全自動可視化的拷貝數(shù)變異檢測和推薦,能夠?qū)Ω咄繙y序的原始數(shù)據(jù)進(jìn)行分析,檢測出其中的拷貝數(shù)變異,并根據(jù)數(shù)據(jù)對應(yīng)的臨床表型進(jìn)行判讀,結(jié)合拷貝數(shù)變異公共數(shù)據(jù)庫的注釋信息,對變異進(jìn)行綜合評分和致病性分級,最終推薦和報告檢測個體中的致病突變?,F(xiàn)有分析軟件多是Linux系統(tǒng)下命令行實(shí)現(xiàn),本系統(tǒng)面向廣大無生物信息學(xué)背景的臨床醫(yī)生和科研人員,整個分析流程用Windows系統(tǒng)的Web瀏覽器即可訪問使用,并將分析結(jié)果進(jìn)行了可視化展示,真正地實(shí)現(xiàn)了拷貝數(shù)變異檢測的全程自動化可視化檢測,加快了研究和診斷速度,極大地節(jié)約時間和人力成本。并且,本系統(tǒng)已經(jīng)面向多個省市的多家臨床醫(yī)療機(jī)構(gòu)和科研院所的遺傳領(lǐng)域臨床醫(yī)生和科研人員免費(fèi)開放使用[15-16]。