劉維強 張慧敏 李浩賢 孫筱放
?論 著?
全外顯子及靶向文庫捕獲測序在多囊腎病基因診斷中的應(yīng)用比較
劉維強 張慧敏 李浩賢 孫筱放★
目的比較全外顯子和靶向文庫捕獲高通量測序?qū)Χ嗄夷I病相關(guān)基因的檢測效率。方法對6份多囊腎病標本(包括一份低比例嵌合變異標本)分別進行全外顯子捕獲或靶目標捕獲2種方法建立文庫,Illumina HiSeq 2000儀器連續(xù)雙向測序。結(jié)果以PKD1、PKD2和PKHD13個基因作為目標序列,靶向捕獲法平均測序深度為190倍,5倍以上測序深度占全部有效序列的85.59%,靶區(qū)域覆蓋度95%以上,但PKD1第一外顯子仍有200~300 bp區(qū)域不能覆蓋;全外顯子捕獲法平均測序深度為28.34倍,5倍以上測序深度占全部有效序列的55.35%,目標區(qū)域覆蓋度較低,PKD1外顯子覆蓋度小于40%。結(jié)論靶向文庫捕獲測序法具有較髙的敏感性、準確性,更適合PKD基因變異的檢測,但高通量測序技術(shù)對PKD1基因檢測仍有不足之處。
多囊腎??;靶向捕獲;全外顯子
作者單位:廣州醫(yī)科大學(xué)附屬第三醫(yī)院,廣東省產(chǎn)科重大疾病重點實驗室,廣東省普通高校生殖與遺傳重點實驗室,廣東,廣州510150
多囊腎病(polycystic kidney disease,PKD)是指在腎臟中發(fā)生多個充滿液體的囊腫并導(dǎo)致腎臟結(jié)構(gòu)和功能損害的疾病,這種囊腫還可以累及到其他器官[1]。根據(jù)遺傳方式不同,其又分為常染色體顯性遺傳多囊腎?。╝utosomomal domainant polycystic kidney disease,ADPKD)和常染色隱性遺傳多囊腎病(autosomomal recessive polycystic kidney disease,ARPKD)[2]。PKD 疾病嚴重影響著病人的生活質(zhì)量和生命健康。
PKD主要致病基因為PKD1、PKD2和PKHD1基因。PKD1、PKHD1是分別有46個和67個外顯子的大基因,另外PKD1基因存在假基因,且PKD疾病相關(guān)基因突變不存在熱點,因此,對其分子診斷非常困難并且檢測非常費時、費力且技術(shù)要求高。目前基于全外顯子和目標序列捕獲的下一代高通量測序技術(shù)(next generation sequencing,NGS)已開始應(yīng)用于PKD等遺傳性疾病的分子診斷[3?5]。本研究對 PKD患者標本應(yīng)用全外顯子和目標序列文庫捕獲2種方法測序,比較這2種方法在PKD疾病診斷的效率。
選擇PKD1、PKD2、PKHD13個基因為靶目標區(qū)域進行效率評估。選取6份樣本進行全外顯子捕獲或靶目標文庫捕獲方法進行測序。為更好地評估這2種方法對PKD疾病的檢測效率,本研究選取的樣本中包括一例變異位點為低比例嵌合的ADPKD患者標本。
DNA提取方法采用DNeasy Tissue試劑盒(Qiagen公司,德國),DNA打斷儀Covaris S2系統(tǒng)購自美國Covaris公司,全外顯子捕獲和靶目標捕獲2種文庫建立方法分別選用美國Agilent公司的SureSelect試劑和美國Roche公司的定制基因片段捕獲芯片,測序試劑和儀器來自美國Illumina公司。
3 μg基因組DNA經(jīng)Covaris S2系統(tǒng)打斷為200~250 bp大小片段,分別使用美國Agilent公司的SureSelect測序試劑進行全外顯子文庫構(gòu)建和美國Roche公司定制的基因片段捕獲芯片進行靶目標文庫富集。文庫經(jīng)Agilent 2100 Bioanalyzer和ABI StepOne進行片段大小、濃度、富集度的檢測,最后利用高通量測序儀Illumina HiSeq 2500 Analyzers(Illumina,美國)連續(xù)雙向測序 90個循環(huán),用 Illumina Pipeline software(version 1.3.4)讀出原始測序數(shù)據(jù)。
數(shù)據(jù)下機后進入信息分析部分。首先對下機的原始數(shù)據(jù)(raw reads)進行測序質(zhì)量評估,去除低質(zhì)量以及被接頭污染的reads。隨后用BWA軟件(Burrows Wheeler Aligner)與GRCh37/Hg19進行序列比對,與此同時進行序列捕獲效果評價,用SOAP?snp軟件和Samtools軟件分別進行SNV(single nu?cletide variant)和 Indel(insertion and deletion)的查詢,生成目標區(qū)域堿基多態(tài)性結(jié)果,隨后進行數(shù)據(jù)庫的比對,應(yīng)用NextGENe軟件找出可疑突變。
文庫質(zhì)量經(jīng)Tap?Stations檢測,文庫片段大小、分子量均符合要求。
通過NextGENe軟件對原始數(shù)據(jù)的處理,全外顯子捕獲法測序平均得到50 482 664條有效序列讀數(shù),其中與基因組參考序列比對上的序列平均有49 938 146條序列,占全部有效序列的98.92%。以PKD1(NM_001009944)、PKD2(NM_000297)、PKHD1(NM_138694)3個轉(zhuǎn)錄本外顯子作為目標靶序列比對,平均得到14 122條有效靶序列讀數(shù),占全部有效序列的0.03%。平均測序深度為28.34倍,5倍以上測序深度占全部有效序列的55.35%。
靶目標捕獲法NGS測序平均得到47 928 884條有效序列讀數(shù),其中與基因組參考序列比對上的序列平均有47 173 064條序列,占全部有效序列的98.42%。用以上3個基因轉(zhuǎn)錄本外顯子作為目標靶序列比對,平均得到173 559條有效靶序列讀數(shù),占全部有效序列的0.23%。平均測序深度為190倍,5倍以上測序深度占全部有效序列的85.59%,結(jié)果如圖1。
通過比較2種不同方法對PKD1基因的捕獲效率,本研究發(fā)現(xiàn)靶目標捕獲法在覆蓋度和測序深度上均要比全外顯子捕獲法好,見圖2。
圖2 2種不同方法對PKD1基因的捕獲效率Figure 2 Evaluation the capture efficiency ofPKD1gene between the 2 methods
通過比較2種不同方法對PKD2基因的捕獲效率,發(fā)現(xiàn)在覆蓋度和測序深度上靶目標捕獲法與全外顯子捕獲法效率沒有明顯差異,見圖3。
通過比較2種不同方法對PKHD1基因的捕獲效率,發(fā)現(xiàn)在覆蓋度和測序深度上靶目標捕獲法與全外顯子捕獲法效率沒有明顯差異,見圖4。
雖然靶目標捕獲法相對全外顯子捕獲法有較好的測序深度和測序覆蓋度,但仍有部分區(qū)域如PKD1第1外顯子不能完全覆蓋。本研究對這部分未覆蓋區(qū)域進行了分析,以明確缺失區(qū)域具體位置,方便設(shè)計引物進行常規(guī)Sanger測序彌補。利用NextGENe軟件可以清楚地發(fā)現(xiàn)未覆蓋區(qū)域的具體位置,見圖5。
圖3 2種不同方法對PKD2基因的捕獲效率Figure 3 Evaluation of the capture efficiency ofPKD2gene between the 2 methods
圖4 2種不同方法對PKHD1基因的捕獲效率Figure 4 Evaluation of the capture efficiency ofPKHD1 gene between the 2 methods
本研究所選一例樣本在16號染色體2168790號位置發(fā)生了錯義突變(c.416G>A,p.Trp139Ter),存在低比例嵌合變異現(xiàn)象。利用全外顯子捕獲測序法,由于此區(qū)域整個測序深度只有5倍左右,導(dǎo)致嵌合突變沒有有效檢出。利用靶目標捕獲測序(targeted capture sequencing),此區(qū)間測序濃度達到1 830倍,雖然軟件自動分析時將此嵌合突變過濾掉,但由于測序深度足夠大,經(jīng)調(diào)整參數(shù)設(shè)置,此錯誤過濾得以糾正,成功檢測出此低比例嵌合,如圖6。
圖5 NGS測序數(shù)據(jù)未覆蓋區(qū)域的定位Figure 5 Identify the uncovered data regions after NGS
PKD疾病基因檢測目前常用傳統(tǒng)的Sanger測序法,其最主要的缺點就是測序通量太低,一次PCR實驗只能檢測1個到2個外顯子,而PKD疾病由3個基因組成,需測序的外顯子總數(shù)加起來有120多個,使得整個診斷體系效率偏低。另外,Sanger測序還存在著擴增失敗、DNA交叉污染等因素,所有這些因素均導(dǎo)致整個流程成本高、時間長、工作量巨大[6],使得這種基于傳統(tǒng)技術(shù)基礎(chǔ)上的診斷體系很難滿足目前臨床檢測的需求。
NGS技術(shù)具有高通量、測序速度快、準確性高、結(jié)果穩(wěn)定等特點。目前利用NGS技術(shù)全外顯子組測序、目標序列靶向測序的科研和臨床應(yīng)用已廣泛開展[3,7?8]?;诓煌奈膸鞓?gòu)建方法,NGS應(yīng)用較為普遍的3種模式分別為全基因組測序(whole genome sequencing,WGS)[7]、全外顯子測序(whole exome sequencing,WES)[8]及靶目標捕獲測序[9]等。目前,NGS技術(shù)已應(yīng)用于PKD疾病的分子診斷[10?12]。
最近有文獻比較了全外顯子和靶目標測序方法對腫瘤樣本的檢測效率,發(fā)現(xiàn)靶目標測序方法相對全外顯子測序方法在結(jié)果準確度上更加可靠[13]。針對多囊腎病,本研究比較了這2種NGS檢測方法的檢測效率。雖然全外顯子捕獲方法相對靶目標測序方法成本偏高,但其可以在全基因范圍進行外顯子的檢測,可以發(fā)現(xiàn)除PKD1、PKD2、PKHD1外潛在的新的與多囊腎相關(guān)的基因或與腎病相關(guān)的基因變異[14]。本研究發(fā)現(xiàn)雖然全外顯子捕獲方法在PKD1基因的檢測效率低于靶目標捕獲方法,但其在PKD2和PKHD1基因的捕獲效率上與靶目標捕獲方法沒有太大差異。因此當(dāng)患者具有典型的多囊腎表型而常規(guī)3個基因又沒有發(fā)現(xiàn)變異的情況下可以考慮使用此方法。
圖6 NGS檢測嵌合變異Figure 6 Detection the mosaic mutation by using NGS
相對于全外顯子捕獲測序,雖然靶目標捕獲測序捕獲的外顯子數(shù)目較全外顯子捕獲大幅減少,但其對目標區(qū)域的測序深度有效提高,因此這種方法有足夠量的測序讀數(shù)進行變異的分析。在本研究中,我們應(yīng)用Roche公司定制的基因捕獲芯片進行靶目標的捕獲。這款定制芯片可以靶向捕獲222個基因的3 093個外顯子以及剪切位點,目標基因涵蓋多囊腎病的3個致病基因。通過Next?GENe軟件對原始數(shù)據(jù)的預(yù)處理,本研究證實靶目標捕獲法測序得到有效序列讀數(shù)、5倍以上測序深度占全部有效序列比例等多個關(guān)鍵指標都要比全外顯子捕獲效率更高。分析原因,筆者認為,全外顯子捕獲PKD1基因效率低的主要原因是由于全外顯子捕獲探針對部分基因尤其是GC含量特別高的基因如PKD1的捕獲敏感性很差,探針不能有效與目標區(qū)域結(jié)合,直接導(dǎo)致目標區(qū)域沒有數(shù)據(jù)。同時由于基因組中存在大量假基因[15],很大一部分此區(qū)域數(shù)據(jù)被認為是測序錯誤或樣本污染而被軟件自動過濾掉了,導(dǎo)致最終可用的有效數(shù)據(jù)大大減少。
靶目標捕獲測序方法測序深度的增加也有利于發(fā)現(xiàn)低比例嵌合變異。以本研究一例低比例嵌合變異為例,雖然嵌合比例只有15%左右,但由于靶目標捕獲在此區(qū)域測序深度高達1 830倍,因此仍能靈敏地被檢測到。即便如此,NGS方法仍有其不足之處,如對高GC含量的區(qū)域NGS方法的捕獲效率明顯偏低[16],這與本研究發(fā)現(xiàn)PKD1第一外顯子有數(shù)百堿基序列沒有覆蓋到,第42號外顯子的測序深度相對其他區(qū)域要低很多現(xiàn)象一致。分析原因可能與文庫構(gòu)建時高GC含量導(dǎo)致PCR擴增效率低有關(guān)[17]。對于此部分數(shù)據(jù),本實驗利用分析軟件明確了未覆蓋或低覆蓋區(qū)域的確切區(qū)域及片段大小,可利用一代測序進行補全。
總之,通過比較全外顯子捕獲方法和靶目標捕獲法測序在多囊腎基因變異診斷中的應(yīng)用,本研究發(fā)現(xiàn)靶目標捕獲法對于多囊腎基因診斷具有更高的性價比和更高的捕獲效率。當(dāng)然,NGS技術(shù)對復(fù)雜結(jié)構(gòu)基因、高GC含量區(qū)域的檢測仍有不足之處,需結(jié)合常規(guī)Sanger測序進行相互補充。
[1]Harris PC,Torres VE.Genetic mechanisms and signal?ing pathways in autosomal dominant polycystic kidney disease[J].J Clin Invest,2014,124(6):2315?2324.
[2]Ghata J,Cowley BD,Jr.Polycystic kidney disease[J].Compr Physiol,2017,7(3):945?975.
[3]Edrees BM,Athar M,Al?Allaf FA,et al.Next?genera?tion sequencing for molecular diagnosis of autosomal recessive polycystic kidney disease[J].Gene,2016,591(1):214?226.
[4]Liang WC,Tian X,Yuo CY,et al.Comprehensive tar?get capture/next?generation sequencing as a second?tier diagnostic approach for congenital muscular dystrophy in Taiwan[J].PLoS One,2017,12(2):e0170517.
[5]Yang T,Meng Y,Wei X,et al.Identification of novel mutations of PKD1 gene in Chinese patients with auto?somal dominant polycystic kidney disease by targeted next?generation sequencing[J].Clin Chim Acta,2014,433:12?19.
[6]Liu W,Chen M,Wei J,et al.Modification of PCR conditions and design of exon?specific primers for the efficient molecular diagnosis of PKD1 mutations[J].Kidney Blood Press Res,2014,39(6):536?545.
[7]Chen R,F(xiàn)eng Y,Wang X,et al.Whole genome se?quences of three Clade 3 Clostridium difficile strains carrying binary toxin genes in China[J].Sci Rep,2017,7:43555.
[8]Zhou T,Souzeau E,Sharma S,et al.Whole exome se?quencing implicates eye development,the unfolded pro?tein response and plasma membrane homeostasis in pri?mary open?angle glaucoma[J].PLoS One,2017,12(3):e0172427.
[9]Feng J,Li Y,Jia Y,et al.Spectrum of somatic muta?tions detected by targeted next?generation sequencing and their prognostic significance in adult patients with acute lymphoblastic leukemia[J].J Hematol Oncol,2017,10(1):61.
[10]Kinoshita M,Higashihara E,Kawano H,et al.Techni?cal evaluation:identification of pathogenic mutations in PKD1 and PKD2 in patients with autosomal domi?nant polycystic kidney disease by next?generation se?quencing and use of a comprehensive new classification system[J].PLoS One,2016,11(11):e0166288.
[11]Mallawaarachchi AC,Hort Y,Cowley MJ,et al.Whole?genome sequencing overcomes pseudogene ho?mology to diagnose autosomal dominant polycystic kid?ney disease[J].Eur J Hum Genet,2016,24(11):1584?1590.
[12]Borras DM,Vossen R,Liem M,et al.Detecting PKD1 variants in polycystic kidney disease patients by single?molecule long?read sequencing[J].Hum Mutat,2017,38(7):870?879.
[13]Chang YS,Huang HD,Yeh KT,et al.Evaluation of whole exome sequencing by targeted gene sequencing and sanger sequencing[J].Clin Chim Acta,2017,471:222?232.
[14]Braun DA,Schueler M,Halbritter J,et al.Whole exome sequencing identifies causative mutations in the majority of consanguineous or familial cases with child?hood ?onset increased renal echogenicity[J].Kidney Int,2016,89(2):468?475.
[15]Zhang Z,Gerstein M.Large?scale analysis of pseudo?genes in the human genome[J].Curr Opin Genet Dev,2004,14(4):328?335.
[16]LaDuca H,F(xiàn)arwell KD,Vuong H,et al.Exome se?quencing covers>98%of mutations identified on target?ed next generation sequencing panels[J].PLoS One,2017,12(2):e0170843.
[17]Choi M,Scholl UI,Ji W,et al.Genetic diagnosis by whole exome capture and massively parallel DNA se?quencing[J].Proc Natl Acad Sci USA,2009,106(45):19096?19101.
Comparison of the application of whole exome capture sequencing and targeted capture sequencing methods in gene diagnosis of polycystic kidney disease
LIU Weiqiang,ZHANG Huimin,LI Haoxian,SUN Xiaofang★
(Key Laboratory for Reproduction and Genetics of Guangdong Higher Education Institutes,Key Laboratory for Major Obstetric Diseases of Guangdong Province,Third Affiliated Hospital of Guangzhou Medical University,Guangzhou,Guangdong,China,510150)
ObjectiveTo evaluate the efficiency of the whole exome capture sequencing method and the targeted libraries capture sequencing method for improving the efficiency of molecular diagnosis of polycystic kidney disease.MethodsThe libraries of 6 tested samples(including 1 sample with low ratio mosaic mutation)were prepared by whole exome capture method and targeted capture method,respectively.Illumina HiSeq2000 was used for sequencing.ResultsThe selected target sequence werePKD1,PKD2andPKHD1.The average depth in targeted capture method and whole exome sequencing method is 190 and 28.34,respectively.The ratio of region of target sequence with 5x coverage is 85.59%and 55.35%in targeted capture method and whole exome sequencing method,respectively.Coverage analysis indicated that the average coverage of whole exome sequencing method is less than 40%,which is significantly lower than that of targeted capture method(95%);however,200~300 base pair of the first exon ofPKD1uncovered yet using targeted capture method.ConclusionTargeted capture method is more suitable forPKDgene?based diagnostic using high?throughput sequencing.However,the uncovered region still needs conventional Sanger sequencing for complement.
Polycystic kidney disease;Targeted capture;Whole exome
廣東省科技廳項目(2014A020212354,2013B051000087,201400000004?4,201400000003?4);廣東省醫(yī)學(xué)科研基金(A2015327)
★通訊作者:孫筱放,E?mail:xiaofangsun@gzhmu.edu.cn