黎籽秀 劉 博 楊 琳 王慧君 周文浩
?
·論著·
高通量測序數據分析和臨床診斷流程對新生兒多發(fā)畸形候選變異的篩選準確性研究
黎籽秀1,5劉 博2,5楊 琳3王慧君4周文浩4
目的 構建應用于遺傳性疾病診斷的基因組二代測序數據分析流程,為候選變異篩選提供參考流程。方法 復旦大學附屬兒科醫(yī)院(我院)新生兒出生缺陷生物樣本庫中的87例多發(fā)畸形樣本,以美國貝勒外顯子組測序分析流程(貝勒流程)為參考標準進行候選變異篩選,同一批樣本以我院建立的全外顯子組測序分析流程(復旦流程)也行候選變異篩選,以染色體的位置和突變的堿基作為突變位點的標識符對貝勒和復旦流程檢出變異逐行比較。結果 87例新生兒多發(fā)畸形樣本共檢出變異7 820 777個,復旦流程經質量控制、公共數據庫的變異頻率篩選、內部數據庫的變異頻率篩選、變異類型的篩選和關注與孟德爾遺傳病相關的變異數篩選,平均單個病例180~210個變異作為最終候選變異行臨床診斷分析;貝勒流程檢出候選變異15 242個,復旦流程檢出候選變異15 660個,2個流程均檢出候選變異15 137個,復旦流程比貝勒流程多檢出的候選變異523個,105個候選變異貝勒流程檢出復旦流程未檢出,復旦流程敏感度、特異度、陽性預測值和陰性預測值均高于96.66%。結論 雖然復旦流程候選變異篩選能真實有效地模擬貝勒流程對WES數據進行篩選,并尋找候選變異的過程;復旦流程所展現的注釋和篩選只是粗略的框架,但提供了WES應用于臨床時不可或缺的篩選程序。
全外顯子組測序; 新生兒; 敏感度; 特異度; 篩選流程; 多發(fā)畸形
基因組二代測序技術與產生低通量數據的傳統(tǒng)分子檢測技術不同,可以同時對大量基因進行檢測,一次檢測即可獲得海量的變異數據。因此,構建一個基于遺傳性疾病診斷需要的基因組二代測序數據分析流程,以期從眾多變異中篩選出潛在致病突變顯得尤為重要。
目前,已有許多權威科研機構開設以全外顯子組測序技術(WES)來發(fā)現罕見病致病基因的項目,如加拿大罕見疾病基因發(fā)現中心項目[1],英國國民保健服務NHS和Sanger研究院合作項目[2,3],美國國立衛(wèi)生研究院的未確診疾病計劃[4]等。這些項目或計劃在過去的2~3年中,基于各自的研究需要,許多實驗室都建立了相應的基于遺傳性疾病診斷需要的基因組二代測序數據分析流程。雖然各流程的建立均是為了聚焦到候選致病變異,但每個流程對變異的注釋方式和篩選方法各有不同。美國貝勒醫(yī)學院人類與分子遺傳系是第一個以方法學的形式展示WES用于臨床的診斷流程(簡稱貝勒流程)的實驗室,貝勒流程對2011年10月至2012年6月收集的250例未經選擇的患者進行外顯子組測序,并成功明確了其中25%的患兒存在的致病突變[5],并在后續(xù)基于貝勒流程的研究,擴大至2 000例病例的診斷率為25.2%[6]。基于遺傳性疾病診斷需要的基因組二代測序數據分析流程的建立為WES轉化到臨床起到了重要的作用。
復旦大學附屬兒科醫(yī)院(我院)轉化中心在參考學習了貝勒流程的基礎上,建立了高通量測序數據分析和臨床診斷流程(簡稱復旦流程)。本研究以我院新生兒出生缺陷生物樣本庫中多發(fā)畸形患兒為樣本,以貝勒流程檢出候選變異為參考標準,采用同一批病例以復旦流程進行重復檢測,檢驗復旦流程與貝勒流程在候選變異的檢出方面的一致性。
1.1 檢測樣本來源 取自我院新生兒出生缺陷生物樣本庫中的多發(fā)畸形樣本,多發(fā)畸形:≥2項畸形表型。①神經系統(tǒng)畸形:顱骨畸形、腦發(fā)育不良、不明原因驚厥和(或)腦電圖異常、不明原因肌張力增高或低下、先天性腦積水、不明原因顱內占位和(或)出血;②循環(huán)系統(tǒng)畸形:先天性心臟病(單純動脈導管>5 mm)、心臟不明原因占位;③泌尿系統(tǒng)畸形:腎臟發(fā)育異常、輸尿管發(fā)育異常、尿道下裂;④消化系統(tǒng)發(fā)育異常:食道閉鎖和(或)氣管食管瘺、膽道閉鎖、腸道畸形、肛門閉鎖、腹壁裂、腹壁疝;⑤呼吸系統(tǒng)發(fā)育異常:后鼻孔閉鎖、先天性喉軟骨軟化、肺發(fā)育異常;⑥骨骼發(fā)育異常:脊柱和(或)四肢骨骼畸形、關節(jié)畸形;⑦指/趾畸形:指/趾數量和形態(tài)異常;⑧顏面及附屬器官異常:眼、耳、鼻、口、舌、腭、頸、毛發(fā)異常;⑨生殖系統(tǒng)異常:兩性畸形、隱睪。
1.2 貝勒流程 本研究以貝勒流程為參考標準,理由如下:①貝勒流程對WES數據處理并用于臨床診斷的結果獲得了美國病理學研究院和臨床實驗室改進修正案(CLIA)的認證[7],是目前公認的WES數據分析的經典流程。②本研究實施貝勒流程行候選變異篩選的工作,是由具有豐富工作和科研經驗的貝勒實驗室工作人員在我院轉化醫(yī)學中心,以我院新生兒生物樣本庫中的多發(fā)畸形樣本在晚近1年時間內完成的。
1.3 復旦流程圖1為參考了貝勒流程和相關文獻建立的復旦流程,圖1中
圖1 高通量測序數據分析和臨床診斷流程
Fig 1 Flow chart of the diagnosis of hereditary disease based on next-generation-sequencing
注釋過程通過ANNOVAR(http://www.openbioinformatics.org/annovar/)、VEP(Variant Effect Predictor,http://asia.ensembl.org/info/docs/tools/vep/index.html)軟件和人工注釋完成;基因注釋參考數據庫為NCBI RefSeq(NCBI The Reference Sequence: http://www.ncbi.nlm.nih.gov/refseq/)和SwissProt(http://www.uniprot.org/);突變/基因與疾病關系注釋參考數據庫為HGMD(The Human Gene Mutation Database,http://www.hgmd.cf.ac.uk/ac/index.php)、OMIM(Online Mendelian Inheritance in Man,http://omim.org/)和 ClinVar(http://www.ncbi.nlm.nih.gov/clinvar/);突變頻率注釋參考數據庫為千人基因組計劃(1000 Genome Project,http://www.1000genomes.org/)、ExAc(The Exome Aggregation Consortium, http://exac.broadinstitute.org/)和內部數據庫;突變預測注釋參考數據庫為SIFT(Sorting Intolerant From Tolerant)、Polyphen-2(Polymorphism Phenotyping v2)和MutationTaster(http://www.mutationtaster.org/)。
復旦流程在貝勒流程基礎上主要做出如下調整:①變異注釋的公共數據庫為ExAC(http://exac.broadinstitute.org/)數據庫[8]。②使用我院轉化醫(yī)學中心的內部數據庫,其頻率篩選的閾值設置為10%。
1.4 數據對比 本文只對2個流程最后檢出的候選致病變異進行比較。以染色體位置和突變堿基作為突變位點的標識符,采用Perl程序比對兩個流程處理后所得候選致病變異的異同。
1.5 統(tǒng)計學分析 以貝勒流程檢出候選變異為參考標準,真陽性:貝勒流程與復旦流程均陽性;假陽性:復旦流程陽性,貝勒流程陰性;真陰性:貝勒流程與復旦流程均陰性;假陰性:貝勒流程陽性,復旦流程陰性。計算敏感度、特異度、陽性預測值、陰性預測值及其95%CI。
2.1 一般情況 共納入87例多發(fā)畸形新生兒樣本,神經系統(tǒng)畸形32例次(36.8%),呼吸系統(tǒng)畸形28例次(32.2%),循環(huán)系統(tǒng)畸形26例次(29.9%),消化系統(tǒng)畸形25例次(28.7%),四肢畸形25例次(28.7%),特殊面容24例次(27.6%),指/趾畸形10例次(11.5%),泌尿生殖系統(tǒng)畸形7例次(8.0%),骨骼及脊柱畸形5例次(5.7%)。
2.2 復旦流程對變異篩選 表1顯示,①質量控制, SNP篩除掉0個變異,插入缺失變異(Indel)篩除約50%(481 502/1 011 134);②變異頻率篩選:通過公共數據庫篩選后約60%(5 020 513/7 820 777)變異,以內部數據庫進一步篩選,篩除約1%的變異[(5 020 513-4 961 147)/5 020 513)];③變異類型篩選,569~790個變異被保留;④關注與孟德爾遺傳病相關的變異,134~210個變異被保留
表1 87例新生兒多發(fā)畸形復旦流程候選變異篩選(個)
Tab 1 The candidate variants of multiple malformation screening in 87 neonates by Fudan process
單例最小值單例最大值87例總和原始數據原始檢出SNP數66263893046815747原始檢出Indel數8609155321011134共檢測到的變異(SNP+Indel)數748721047077820777質量控制通過質量控制的SNP數66263893046815747通過質量控制的Indel數42017413481502通過質量控制的變異 (SNP+Indel)數70464965887290827變異頻率篩選通過公共數據庫頻率 篩選后的變異數45467693225020513內部數據庫中<10%通過內部數據庫頻率 篩選后的變異數44866685094961147變異類型篩選通過變異類型篩選后的 變異數56979059627是否在HGMD/OMIM中報道已報道的變異數13421015660
作為最終的候選變異用于臨床診斷分析。87例新生兒多發(fā)畸形中,平均初始檢測出89 894個變異,經由復旦流程篩選,最終檢出候選變異平均180個。
2.3 復旦流程與貝勒流程篩選驗證 87例多發(fā)畸形新生兒樣本中,深圳華大基因的數據共檢測到變異數目7 820 777個,經貝勒流程檢出候選變異15 242個,經復旦流程檢出候選變異15 660個,根據染色體的位置和突變的堿基作為突變位點標識符的比對結果,貝勒流程和復旦流程均檢出的候選變異15 137個,復旦流程比貝勒多檢出的候選變異523個,有105個候選變異貝勒流程檢出但復旦流程未檢出,表2顯示復旦流程敏感度99.31%(95%CI:99.17~99.43),特異度99.99%(95%CI:99.99~99.99),陽性預測值96.66%(95%CI:96.37~96.93),陰性預測值99.99%(95%CI:99.99~99.99)。
表2 復旦流程對新生兒多發(fā)畸形候選變異篩選的診斷參數
Tab 2 Diagnostic accuracy assessment of Fudan process for the screening of multiple malformation in neonates
復旦流程真陽性(n)15137假陽性(n)523假陰性(n)105真陰性(n)7805117敏感度/%(95%CI)99.31(99.17~99.43)特異度/%(95%CI)99.99(99.99~99.99)陽性預測值/%(95%CI)96.66(96.37~96.93)陰性預測值/%(95%CI)99.99(99.99~99.99)
本研究以貝勒流程對多發(fā)畸形新生兒樣本檢出候選變異為參考標準,以驗證復旦流程檢出候選變異準確性。①美國貝勒醫(yī)學院人類與分子遺傳系應用貝勒流程對250例和2 000例孟德爾遺傳病行WES數據分析結果先后發(fā)表在NEnglMedJ和JAMA,是一個將在人類基因組計劃實施過程中積累的知識和技術轉換到臨床找尋候選致病變異的經典流程[9]。②本研究多發(fā)畸形新生兒樣本是由貝勒實驗室具有豐富的WES工作經驗和科研經驗的專家依照貝勒流程行候選變異篩選,最終臨床診斷率為25%,與貝勒實驗室既往研究一致。
建立復旦流程的小組成員由生物信息學背景的分析員和醫(yī)學遺傳學背景的遺傳??漆t(yī)生共同組成。小組成員曾赴美國貝勒醫(yī)學院人類分子遺傳系進行學習和交流,并一直在具有豐富工作、科研經驗的貝勒實驗室工作人員的指導下,逐步掌握這一領域及貝勒分析流程。
復旦流程在參考學習了貝勒流程基礎上做出了2個方面的調整。第一,變異注釋使用的公共數據庫貝勒流程選用的是ESP4500(http://evs.gs.washington.edu/EVS)數據庫,復旦流程選用的是ExAC數據庫。ExAC是專門研究外顯子組測序數據的聯盟機構,該數據庫整合了包括ESP4500的數據在內的多個外顯子組測序計劃,包括了61 486個獨立樣本的數據,能為樣本提供更大規(guī)模的對照群體;ExAC是目前收錄不包含嚴重兒童疾病樣本的最大數據庫,能更好地作為研究兒童孟德爾遺傳病的合理對照,較符合我院的實際情況。第二,內部數據庫頻率篩選的閾值貝勒流程為2%,復旦流程設置為10%。主要體現在:①我院數據庫收錄的總樣本量較小且無關樣本量較少,在頻率篩選過程中為了保證變異在內部數據中具有一定的構成比而適當做出了調整。②數據庫收錄疾病種類多樣性不夠。新生兒樣本庫在收集樣本的時候有偏好性,即對感興趣的疾病收錄樣本較多,而對于不感興趣的疾病則未將其收錄,導致數據庫中的樣本疾病種類較少,存在同一個位點導致多個患者患病的可能。反觀貝勒實驗室的內部數據庫,其收錄樣本數量大,種類多,同一個位點導致多個患者患病的可能性很小。
通過與貝勒流程比較,復旦流程候選變異篩選敏感度、特異度、陽性預測值和陰性預測值均≥96.66%,能真實有效地模擬貝勒流程對WES數據進行篩選和尋找候選變異的過程,為我院后續(xù)的分子遺傳學診斷提供保障。
本文對比貝勒流程和復旦流程對新生兒多發(fā)畸形候選變異的篩選,只是對這些多發(fā)畸形新生兒進行診斷的基礎性工作的一部分,不論是貝勒流程還是復旦流程最終明確致病突變還需要對候選變異做進一步評估。復旦流程所展現的注釋和篩選只是粗略的框架,但提供了WES應用于臨床診斷時不可或缺的篩選程序。
本文有105個候選變異經貝勒流程篩選得到,而復旦流程篩選未檢出,分析原因與使用的不同的內部數據庫有關。復旦流程用我院轉化醫(yī)學中心內部數據庫能夠篩除一些貝勒內部數據庫不能篩除的變異,這些貝勒流程不能篩除的變異可能在中國人群的變異頻率比較高,而對于貝勒實驗室內部數據庫則為罕見變異或未檢測出變異。本文有523個候選變異為復旦流程檢出,而貝勒流程未檢出,也與使用不同的內部數據庫相關,內部數據庫頻率篩選的閾值貝勒流程為2%,復旦流程設置為10%,是造成這種差異的主要原因。
通過復旦流程的注釋和篩選,可以在數分鐘內將由WES檢測到的70 000~100 000個變異縮減到僅需進行人工判讀的100~200個變異,經驗豐富的臨床信息分析人員依據詳細的基因功能、遺傳模式、所致疾病、變異是否影響蛋白質結構預測信息等相關注釋,可在較短的時間內鎖定致病突變,完成對樣本的分子遺傳學診斷。
[1]Beaulieu CL, Majewski J, Schwartzentruber J, et al. FORGE Canada Consortium: outcomes of a 2-year national rare-disease gene-discovery project. Am J Hum Genet, 2014,94(6):809-817
[2]Firth HV, Wright CF, DDD Study. The Deciphering Developmental Disorders (DDD) study. Dev Med Child Neurol, 2011, 53(8):702-703
[3]The Deciphering Developmental Disorders (DDD) study. http://www.ddduk.org/. Accessed 25/08/2014
[4]Tifft CJ, Adams DR. The National Institutes of Health undiagnosed diseases program. Curr Opin Pediatr, 2014, 26(6):626-633
[5]Yang Y, Muzny DM, Reid JG, et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. N Engl J Med, 2013, 369(16):1502-1511
[6]Yang Y, Muzny DM, Xia F, et al. Molecular findings among patients referred for clinical whole-exome sequencing. JAMA, 2014, 312(18):1870-1879
[7]Jacob HJ. Next-generation sequencing for clinical diagnostics. N Engl J Med, 2013, 369(16):1557-1558
[8]Stenson PD, Ball EV, Mort M, et al. Human Gene Mutation Database (HGMD): 2003 update. Hum Mutat, 2003, 21(6):577-581
[9]https://www.bcm.edu/news/molecular-and-human-genetics/whole-exome-sequence-takes-new-tech-to-clinic .Aavaible at 2005-02-01
(本文編輯:張崇凡)
Evaluation of diagnostic accuracy of the whole-exome data analysis pipeline of Children's Hospital of Fudan University
LIZi-xiu1,LIUBo1,YANGLin,WANGHui-jun,ZHOUWen-hao(1DepartmentofBiostatisticsandComputationalBiology,LifeScience,FudanUniversity,Shanghai200433;2CentralChinaAgriculturalUniversity,Wuhan430072;3Children'sHospitalofFudanUniversity,Shanghai201102;4ShanghaiKeyLaboratoryofBirthDefects,TheTranslationalMedicineCenterofChildrenDevelopmentandDiseaseofFudanUniversity,KeyLaboratoryofNeonatalDiseases,MinistryofHealth,Children'sHospitalofFudanUniversity,Shanghai201102;5Co-firstauthor)
ZHOU Wen-hao,E-mail:zwhchfu@126.com
ObjectiveTo build data analysis pipeline applied for the high-throughput sequencing data analysis process for the clinical diagnosis of genetic diseases.Methods87 WES data of multiple malformations cases from the biobank of neonatal birth defect of Children's Hospital of Fudan University (our hospital). Candidate mutation screening was performed using the pipeline of published whole-exome sequencing from Baylor in the USA (Baylor pipeline) as a reference standard. The same batch of data was then run using high-throughput sequencing data analysis and clinical diagnosis pipeline (Fudan pipeline). The results were then compared line by line using the chromosome location and the base position of the mutations as the identifiers.ResultsThe total number of the variants detected in 87 cases was 7 820 777. After the quality control, selective filtering from public database, in-house database, and screening from mutation type and Mendelian diseases associated variance filtering, an average of 134-210 variation was as the final candidate for clinical diagnosis analysis. 15 242 candidate variations were filtered from Baylor pipeline, and 15 660 from Fudan pipeline, both of them hit 15 137 variations. 523 more variations were found by Fudan pipeline, but there were still 105 variants missed, which hit in Baylor pipeline. When compared with Baylor pipeline, the sensitivity, specificity, positive predictive percentage and negative predictive percentage were all higher than 96.66%.ConclusionFudan pipeline could simulate Baylor pipeline for the performing of WES data filtering, effectively acquire candidate variation. Though the current Fudan pipeline is only a basic framework, it provides an indispensable process of using WES in clinical practice.
Whole-exome sequencing; Neonates; Sensitivity; Specificity; Screening pipeline; Multiple malformations
上海市衛(wèi)生局重要疾病攻關項目:2013ZYJB0015;上海市科委/醫(yī)學領域重點項目子課題:14411950402,14DJ1400103;上海市衛(wèi)計委項目:滬衛(wèi)計科教〔2013〕018號
1 復旦大學生物統(tǒng)計學與計算生物學系 上海,200433;2 華中農業(yè)大學 武漢,430072;3 復旦大學附屬兒科醫(yī)院 上海,201102;4 上海市出生缺陷防治重點實驗室,復旦大學兒童發(fā)育與疾病轉化醫(yī)學研究中心,衛(wèi)生部新生兒疾病重點實驗室,復旦大學附屬兒科醫(yī)院 上海,201102;5 共同第一作者
周文浩,E-mail:zwhchfu@126.com
10.3969/j.issn.1673-5501.2015.01.004
2015-01-03
2015-01-30)