陳佳,舒明月,里進,付愛思,楊帆,王鄒,李一榮, 鄧子新,劉天罡
?
三代測序與靶向捕獲技術聯(lián)用進行高分辨基因分型及MHC區(qū)域單倍體型精細鑒定
陳佳1,舒明月1,里進2,付愛思1,楊帆3,王鄒3,李一榮2, 鄧子新1,劉天罡1
1. 武漢大學藥學院,組合生物合成與新藥發(fā)現(xiàn)教育部重點實驗室,武漢 430071 2. 武漢大學中南醫(yī)院檢驗醫(yī)學中心,武漢 430071 3. 武漢生物技術研究院公共技術服務平臺,武漢 430071
人類白細胞抗原(human leukocyte antigen,)的高分辨率、精準分型對于組織配型以及相關疾病研究具有重要意義。本研究以12位原發(fā)性肝細胞癌病人的外周血為供試樣本,分析二、三代測序數據用于高分辨率分型的優(yōu)劣勢,同時結合探針捕獲與三代測序技術對YH、HeLa標準細胞系以及一個原發(fā)性肝細胞癌病人的主要組織相容性復合體(major histocompatibility complex,MHC)區(qū)域進行靶向分析,探究長讀長測序技術對于整個MHC區(qū)域精細分析的潛力。研究表明:(1)二、三代測序技術均能實現(xiàn)6~8位高分辨分型,且兩者分型結果一致。但是三代數據的覆蓋均一度顯著優(yōu)于二代,不會出現(xiàn)明顯的“斷層”現(xiàn)象;(2)超長的三代數據可直接跨越整個擴增子,對于基因單倍體型的判定(phasing)具有明顯優(yōu)勢。樣本中92.79%的基因能夠得到準確的單倍體分型結果,遠高于二代的75.65%;(3)長讀長的三代測序數據不但能實現(xiàn)對MHC區(qū)域的更好組裝,還具有對整個MHC共計3.6 Mb區(qū)域進行phasing的能力,而這將有助于明確各個突變位點、等位基因、非編碼區(qū)等基因原件在每個MHC單倍體型上的定位與相互連鎖信息,為免疫等相關疾病的研究提供理論依據。
;MHC;三代測序;單倍體分型;NimbleGen探針捕獲技術
人類白細胞抗原(human leukocyte antigen,)基因位于人體第6號染色體的短臂,受控于人類主要組織相容性復合體(major histocompatib-ility complex, MHC)的基因簇[1],全長約3.6 Mb,是目前所知人體最復雜的遺傳多態(tài)性系統(tǒng)[2,3]。
前期研究表明,基因的變異與傳染病[4]、藥物過敏反應[5]、自身免疫疾病[6]、器官移植反應[7]以及惡性腫瘤[1]等均有關聯(lián)。此外,近期研究也表明特定等位基因多態(tài)性與原發(fā)性肝細胞癌的發(fā)生相關[8]。因此,準確的分型技術對于組織配型以及研究與疾病相關性具有重要意義。
由于MHC區(qū)域存在高度的多態(tài)性和廣泛的連鎖不平衡,因此研究人員對該區(qū)域所涉及到的分子機制的研究受到一定的限制。傳統(tǒng)基于聚合酶鏈式反應等分型方法存在分辨率低、無法獲得單倍體型結果以及新等位基因信息等諸多問題[9,10]。雖然以往Sanger測序技術被視為是分型的金標準[11],但其因通量低而逐步被各種第二代測序(next-generation sequencing, NGS)平臺所取代[9,12,13]。但是,NGS對于個體所具備的兩套同源染色體的獨特核苷酸信息,即“對單倍體型的判定”(phasing)的解析依然存在困難,而已有文獻表明準確的單倍體分型能更好解讀基因與表型(包括疾病)之間的關系[14],尤其是對于等較大的基因,NGS因其讀長短而很難準確獲得單倍體型結果[15]?;趩畏肿訉崟r測序技術(single molecule real-time, SMRT)的第三代測序儀能產生平均長度在10 kb以上的數據,這不但有利于基因精確分型,還能實現(xiàn)對基因組復雜區(qū)域的組裝以及對某個基因內及等位基因間差異的細致解析。目前利用該技術進行基因組完成圖組裝或用于多倍體基因組中單倍體型的解析研究已有所報道[16,17]。
三代測序技術預期能實現(xiàn)對基因及MHC區(qū)域更精細的分析,從而準確地確定每個基因甚至整個MHC區(qū)域的單倍體分型結果,并且可有效挖掘包括單核苷酸多態(tài)性(single nucleotide polymorph-hism, SNPs)在內的一系列遺傳信息,這將極大地推進各類與人體免疫相關研究的發(fā)展。本研究以12位原發(fā)性肝細胞癌病人的外周血為供試樣本,分析二、三代測序數據用于高分辨率分型的優(yōu)劣勢,同時結合探針捕獲與三代測序技術對MHC區(qū)域進行靶向分析,探究長讀長測序技術對于整個MHC區(qū)域精細分析的潛力。
本研究收集的12位原發(fā)性肝細胞癌(hepatic-ellular carcinoma, HCC)患者外周血樣本均由武漢大學中南醫(yī)院提供,所有患者均簽署了知情同意書。YH標準細胞系由中國國家基因庫提供,HeLa細胞采購自美國菌種保藏中心。
外周血樣本總DNA提取使用Hipure Blood DNA Mini Kit (廣州美基生物科技有限公司)完成,YH、HeLa細胞系總DNA的提取采用酚-氯仿提取法?;驍U增使用GENDX NGSgo-AmpX試劑盒以及QIAGEN Long range PCR試劑盒(QIAGEN公司,德國),擴增產物使用Qubit 2.0定量后等摩爾混合,不同樣本的擴增子混合物分別采用Illumina Miseq以及PacBio RSII的標準混樣建庫流程進行文庫制備及測序。PacBio RSII原始數據使用SMRT Portal中的RS_ReadsOfInsert方法進行質量過濾,得到環(huán)形一致性序列(circularCCS)將過濾的質量值(即minimum predicted accuracy參數)分別設為0.80、0.85、0.90、0.95和0.99,分別得到CCS0.80、CCS0.85、CCS0.90、CCS0.95和CCS0.99的高質量數據。
分型分析中使用的各種開源或商業(yè)分型軟件均采用從官方網站或者商業(yè)公司處獲得的最新版本,其中,NGSengine、HLAssign、HLA-reporter、Omixon、HLAminer、HLA-VBseq 和 OptiType用于二代數據分型,NGSengine和HLAminer用于三代不同數據類型以及不同質量值CCS的數據分型。
使用Roche NimbleGen MHC探針捕獲試劑盒對MHC相關區(qū)域(包括傳統(tǒng)MHC區(qū)域和約1.0 Mb的MHC周邊區(qū)域)進行捕獲,實驗過程根據三代測序長讀長的特點對DNA打斷、DNA純化體系以及DNA雜交時間等操作進行了優(yōu)化,采用PacBio RSII的標準流程進行文庫制備及測序。使用FALCON軟件進行數據組裝并且使用SMRT Portal中RS_Rese-quencing標準流程將原始測序數據比對到對應參考基因組MHC參考序列,以計算數據覆蓋度并根據原始覆蓋度(該流程的默認參數)統(tǒng)計SNPs在MHC區(qū)域的分布(未對覆蓋度進行篩選,95%以上的覆蓋度為100×)。
MHC區(qū)域單體型分析分別采用了FALCON- Unzip軟件以及targeted-phasing-consensus腳本(https://github.com/PacificBiosciences/targeted-phasing-consensus)兩套方法,并使用MUMmer軟件將得到的單倍體分型結果與其對應的基因分型結果進行比對,評估上述兩套方法對MHC區(qū)域單倍體分型結果的差異。
利用包括全基因組、全外顯子組、轉錄組及基因擴增子數據在內的多種數據類型進行分型的各種學術和商業(yè)化軟件已被廣泛使用(表1)。為評估分型軟件的準確性以便從中選擇最佳的分型軟件用于與后續(xù)三代數據分型結果的比較,比較了7種不同的分型軟件對基于全長擴增子二代測序數據的分析性能。為了確保分型結果的可靠性,不論是Illumina Miseq還是PacBio RSII均保證了足夠的數據量。由于二代數據存在一定偏好,因此其覆蓋度會存在不均一的情況,不同基因的覆蓋度有一定的差異(圖1),但是總體而言,其95%以上的區(qū)域覆蓋度會大于200×。而三代數據的覆蓋度比二代數據更高(圖1)。通過比較,7種軟件對二代數據的分型結果展現(xiàn)出較大差異。從總體上來看,NGSengine對classⅠ和classⅡ基因的分型結果敏感度都較高,結果與血清學鑒定結果吻合。而其他6種分型軟件僅對classⅠ類基因的分型均較為準確,但對classⅡ類基因則不敏感,部分軟件甚至不能給出分型結果。例如,HLAssgin和HLAreporter只有2個(2/12)和0個樣本(0/12)預測到了基因分型。而HLAminer和Omixon對classⅠ基因的分型結果的判定與NGSengine/血清學結果相比有很大的差異。由于HCC27樣本的基因分型結果經過了血清學結果及MHC區(qū)域捕獲測序結果的雙重驗證,故以該樣本作為示例(表2),NGSengine對classⅠ和classⅡ基因的分型結果與血清學鑒定結果以及MHC區(qū)域捕獲測序結果高度吻合。但是HLAssgin和HLAreporter無法預測到DPA1的基因分型,而HLAminer和Omixon對DPB1、DQB1、DRB1等classⅡ基因的分型結果判定錯誤率較高(表2)。
此外,OptiType與NGSengine的分型結果很相似,但是其分辨率只有4位(表2)。有文獻表明,位于外顯子外部的單核苷酸變異可能在疾病的發(fā)病機制中起關鍵作用[27]。因此,高分辨率的分型軟件具有更高的應用價值。在測試的7種分型軟件中,NGSengine分型最準確,分辨率最高。后續(xù)將以NGSengine產生的結果為參照,評估三代測序數據分析結果。
采用兩種已公開能夠使用三代測序數據的分型軟件——HLAminer和NGSengine對基于三代測序數據的HLA基因進行分型。此外,PacBio三代測序數據分為subreads和環(huán)形一致性序列(circularCCS)兩類:subreads是去除接頭序列和低質量部分所得到的未經矯正的數據,而CCS是將來自于同一個DNA分子經過環(huán)狀反復測序產生的多條subreads相互矯正后得到的高準確性數據。理論上,CCS數據的準確性越高越有利于獲得準確的分型結果,但是矯正準確性設置越高最終所獲得的CCS數據量也會減少,存在不能滿足分型最低數據量需求的風險。因此,本研究測試了不同的數據類型和CCS準確性對分型結果的影響。
表1 7種HLA分型軟件比較
WGS:全基因組數據;WES:全外顯子組數據;RNA-seq:轉錄組數據;Amplicon:基因擴增子數據;Y:對應軟件已測試;N:對應軟件未測試。
圖1 HCC27樣本HLA-A基因Illimina和PacBio-CCS-0.90數據覆蓋度
表2 HCC27樣本基于二代測序數據的7種軟件分型結果比較
加粗標記表明與NGSengine不一致的分型結果;“”表明無法得到該基因的分型結果。
首先,HLAminer軟件三代與二代數據的分型結果間存在差異,而NGSengine軟件三代與二代數據的分型結果保持一致(表3)。此外,當subreads的數據量足夠時,基于subreads數據的分型結果與CCS數據基本一致,但前者往往會多出一個代表錯配信息的后綴。以HCC5樣本的基因為例,其基于subreads的分型結果為DRB5*02:02,而CCS對應的分型結果為,這表明subreads的結果在外顯子區(qū)域存在3個錯配堿基。從單堿基準確性角度考慮,使用CCS數據對基因分型應該是更好的選擇。
隨著CCS數據準確性的不斷提高,其數據量會顯著下降(圖2)。以HCC27樣本為例,數據量下降最大的兩個斷層分別在subreads到CCS0.80,以及CCS0.95到CCS0.99兩處,其數據量分別降低了78.86%和89.84%。雖然CCS0.99準確性最高,但其reads數量從subreads的3000條降至50條,無法滿足后續(xù)的分型需求。另一方面,數據量遠多于CCS數據的subreads并沒有獲得最好的覆蓋度,除了和,其他基因的subreads覆蓋度甚至還低于CCS0.80 (圖2),這可能是由于subreads錯誤率較高導致大量結果被過濾。因此,考慮到準確性和數據量之間的平衡,本研究最終選用CCS0.90的數據用于最終分型結果的比較。
表3 NGSengine和HLAminer的分型結果分辨率及與Illumina分型結果一致性統(tǒng)計
114個基因中有99個完全一致,15個不一致,分型結果體現(xiàn)在第8位分型結果的差異,這類差異可通過軟件優(yōu)化與參數調整進一步減少。
圖2 HCC27樣本在基于不同數據類型和CCS準確性下各HLA基因的覆蓋度和數據量
雖然基于二代和三代CCS0.90數據的分型結果一致(表3),但是兩種數據的基因覆蓋度卻存在較大差異(圖1)。Illumina數據存在一定偏好,在某些區(qū)段上會出現(xiàn)明顯的“斷層”現(xiàn)象,尤其在基因兩端區(qū)域。相比之下,CCS0.90數據的覆蓋度更均勻,對于一些復雜的或全新的基因具有更強的分型能力和更低的錯誤風險。
Phasing regions是用以評估單倍體分型效果的重要指標,主要代表目的基因中能準確分型單倍體區(qū)域的數目。分析結果顯示基于二、三代數據進行基因單倍體分型的結果間存在一定的差異(表4)。基于三代數據,有92.79% (103/111)的基因可以得到一條完整的單體型結果,而這一比例在NGS數據里僅占75.65% (87/115)。與此同時,同一個單體型被定相到3個以上區(qū)域的比例中,NGS占比13.91% (16/115),而三代測序數據對應的占比僅為3.6% (4/111) (表4)。因此,三代測序更有利于提高單倍體分型的準確性,減少不確定性。
MHC捕獲探針設計區(qū)域大小為4 970 458 bp (Chr.6:28 477 797~33 448 354 bp),使用FALCON軟件對YH標準細胞系進行組裝,得到的最佳組裝結果為:MHC組裝大小為4.46 Mb,Contig N50為85 kb,Contig總數154個。將組裝的Contig比對到YH基因組的參考序列上(圖3),可以完整覆蓋其MHC的參考序列。數據總覆蓋度97.86% (4 864 179/4 970 458 bp),跟以往使用二代數據結果獲得的覆蓋度為97.29%的結果相比有所提升[28]。
表4 二代(Illumina)和三代(PacBio)測序數據中所有HLA基因phasing regions個數的差異
隨后,使用根據YH細胞系組裝優(yōu)化參數對HCC27樣本MHC區(qū)域進行組裝,得到的最佳組裝效果為:MHC組裝大小為4.79 Mb,Contig N50為90 kb,Contig總數223個。數據覆蓋度99.8% (4 960 480 bp/ 4 970 458)。0×以下的覆蓋度比例為0.21% (10 363/ 4 970 458 bp),30×以下的覆蓋度比例為2.23% (110 974/4 970 458 bp),意味著有97.77%的序列覆蓋度達到30×以上,組裝效果進一步提升。
此外,本研究統(tǒng)計了HCC27樣本、YH和HeLa細胞系MHC區(qū)域SNP的分布情況(圖4),發(fā)現(xiàn)基因區(qū)域的SNP頻率顯著升高,該結果與之前報道的結果一致[28],這也是基因多態(tài)性高的重要表現(xiàn)。
FALCON+FALCON-Unzip以及targeted-phasing- consensus采用了兩種不同的單倍體分型原理。前者是基于數據的從頭組裝,是無參考序列的單倍體型分析方法。后者的分析思路是基于數據比對,將原始的測序數據比對到參考序列上,然后根據比對的結果得到兩條單倍體型結果,即consensus0和consensus1。兩種方法所得到結果與本文2.2部分的結果基本一致(表5)。為進一步驗證上述HCC27樣本基因單倍體分型結果的準確性,對其產生的兩條單倍體型序列中所含有序列與各外顯子區(qū)域內基因進行比對(圖5,A和B),兩者在單堿基水平上均保持一致。這表明基于長讀長的三代測序數據,兩種方法均可以對MHC區(qū)域上各基因進行較為準確的單倍體型分析。此外,基于捕獲的測序結果,還可以獲得擴增測序難以得到的內含子信息。
圖3 YH細胞系MHC區(qū)域FALCOM組裝序列與人類MHC的參考序列的比對結果
另一方面,F(xiàn)ALCON+FALCON-Unzip會出現(xiàn)同一基因被比對到不同contig上的情況(表5),表明該組裝方法對于MHC這類的多態(tài)性極高的區(qū)域可能會存在一定的單倍體分型錯誤。而基于比對方法得到的consensus序列,由于捕獲測序長度限制,也可能導致在進行單倍體分型時,同一個位點的SNP信息難以準確定位到不同的consensus序列,從而導致模棱兩可的結果。
因此,本研究整合了上述兩種單倍體分型方法的所有信息以及各基因擴增子的分型信息,對HCC27樣本MHC區(qū)域的單倍體上的基因的分布進行了校正和預測(圖6),兩套基因分別被定位到consensus0和consensus1兩個單倍體型上。其中,沒有用虛線標注的,即和等位基因,還通過從頭組裝的方法(FALCON+FALCON- Unzip結果)驗證了這兩個等位基因的確位于一條contig上。基于此,可以大致了解來自雙親的兩套等位基因、以及基因間其他功能原件在MHC上的確切位置與連鎖關系,這對更深入研究基因與表型(包括疾病)之間的關系具有重要意義。
本研究評估了7種可使用二代測序數據和2種可使用三代數據的分型軟件。結果顯示,二代數據的分型結果差異很大,其主要歸因于各軟件最適合輸入數據類型、分析原理、數據庫的差異(表1)。而不論是基于二代還是三代數據,NGSengine均能產生準確,分辨率高的分型結果,這說明分型實驗設計與分析流程匹配的重要性。CCS數據有助于提高分型結果的單堿基準確性,基于CCS分型結果其外顯子錯配信息會大幅減少,需要進行單堿基級別分析的研究可采用CCS0.90的數據進行分析。不同于二代數據需要通過多條數據組裝/計算等分析手段對基因上各個位點的相位進行單倍體分型。單條三代測序數據可跨越較長的區(qū)域,基因分型與單倍體分型過程不涉及數據組裝,減少了因組裝而導致的錯誤。雖然在本研究中二、三代的分型結果基本一致,但是三代的覆蓋均一度和單倍體分型結果均優(yōu)于二代(圖1,表4),可以大幅提高單倍體分型的準確性,減少模棱兩可的分型結果,更適用于基因的分型與單體型分析。
圖4 HCC27、YH和HeLa標準細胞系SNP在MHC區(qū)域的分布圖
表5 HCC27基于FALCON+FALCON-Unzip以及Targeted-phasing-consensus的單倍體分型結果
contig_Tags和consensus_Tags表明單倍體分型結果對應的contig和consensus編號;加粗標記表示同一單倍體分型被比對到不同的contig上。
圖5 HCC27樣本consensus0和consensus1與HLA-A基因的比對結果
A:HCC27樣本consensus0與的序列比對結果;B:HCC27樣本consensus1與的序列比對結果。
圖6 HCC27 MHC區(qū)域的單倍體分型結果預測
consensus0和consensus1表示利用targeted-phasing-consensus腳本得到的兩個單倍體型,不同顏色表示不同的等位基因。未用虛線標注的,表明其結果可通過從頭組裝的結果(FALCON+FALCON-Unzip結果)得到驗證,虛線邊框標注的表示通過從頭組裝結果無法得到驗證信息。
YH、HeLa和HCC樣本的MHC區(qū)域捕獲和三代測序的結果表明,三代數據的組裝結果優(yōu)于以往文獻使用二代測序的結果,且結果準確性可以達到單堿基水平。此外,F(xiàn)ALCON+FALCON-Unzip軟件由于是基于三代測序原始數據的無參考基因組單倍體分型方式,可能出現(xiàn)同一基因被比對到不同Contig上的情況(表5),從而導致組裝出錯。而targeted- phasing-consensus方法雖然是基于參考基因組序列的單倍體分型方法,但由于受到捕獲產物測序數據長度的限制,同一個位點的SNP位點難以準確定位到不同的consensus序列,同樣可能導致模棱兩可的結果。因此,本研究將上述兩種基于組裝和比對的單倍體分型方法所得到的單倍體型信息以及本文2.2部分的基因擴增子分型結果進行整合,對HCC27樣本MHC區(qū)域的單倍體上的基因的分布進行了校正和預測,通過從頭組裝的方法對預測結果進行驗證,發(fā)現(xiàn)和等位基因的確位于同一contig上?;谠摲椒?,可以從整體上了解來自于雙親的兩套等位基因、以及基因間其他功能原件在MHC上的位置與連鎖關系,這將有助于對MHC這類結構復雜的基因區(qū)域進行系統(tǒng)研究并極大的推進各類相關疾病的相關性分析。
[1] TANG MZ, CAI YL, ZHENG YM, ZENG Y. Association between human leukocyte antigenand nasopharyngeal- carcinoma., 2012, 34(12): 1505–1512.湯敏中, 蔡永林, 鄭裕明, 曾毅. 人類白細胞抗原與鼻咽癌的相關性. 遺傳, 2012, 34(12): 1505–1512.
[2] YANG Zhao-Qing, CHU Jia-You. The research progress of human genetic diversity in China., 2012, 34(11): 1351–1364.楊昭慶,褚嘉祐. 中國人類遺傳多樣性研究進展. 遺傳, 2012, 34(11): 1351–1364.
[3] XU Jun-Pin, DENG Zhi-Hui, JU Gong-Yan, GAO Su-Jing, WANG Da-Meng, HE Liu-Mei, WEI Tian-Chi. Cloning and sequencingandgenomic DNA and analyzing polymorphism in regulatory regions in Chinese Han individuals., 2010, 32(7): 685–693.徐筠娉,鄧志輝,鄒紅巖,高素青,王大明,何柳媚,魏天莉. 中國漢族個體基因全長序列的測定及調控區(qū)多態(tài)性. 遺傳, 2010, 32(7): 685–693.
[4] Kl?verpris HN, Adland E, Koyanagi M, Stryhn A, Harndahl M, Matthews PC, Shapiro R, Walker BD, Ndung'u T, Brander C, Takiguchi M, Buus S, Goulder P. HIV subtype influences HLA-B*07:02-associated HIV disease outcome., 2014, 30(5): 468–475.
[5] Mallal S, Nolan D, Witt C, Masel G, Martin A, Moore C, Sayer D, Castley A, Mamotte C, Maxwell D, James I, Christiansen FT. Association between presence of HLA-B* 5701, HLA-DR7, and HLA-DQ3 and hypersensitivity to HIV-1 reverse-transcriptase inhibitor abacavir., 2002, 359(9308): 727–732.
[6] Galeazzi M, Sebastiani GD, Passiu G, Angelini G, Delfino L, Asherson RA, Khamashta MA, Hughes GR. HLA-DP genotyping in patients with systemic lupus erythematosus: correlations with autoantibody subsets., 1992, 19(1): 42–46.
[7] Sasazuki T, Juji T, Morishima Y, Kinukawa N, Kashiwabara H, Inoko H, Yoshida T, Kimura A, Akaza T, Kamikawaji N, Kodera Y, Takaku F. Effect of matching of class I HLA alleles on clinical outcome after transplantation of hematopoietic stem cells from an unrelated donor. Japan Marrow Donor Program., 1998, 339(17): 1177–1185.
[8] Donaldson PT, Ho S, Williams R, Johnson PJ. HLA class II alleles in Chinese patients with hepatocellular carcinoma., 2001, 21(2): 143–148.
[9] Lind C, Ferriola D, Mackiewicz K, Heron S, Rogers M, Slavich L, Walker R, Hsiao T, McLaughlin L, D'Arcy M, Gai X, Goodridge D, Sayer D, Monos D. Next-generation sequencing: the solution for high-resolution, unambiguous human leukocyte antigen typing., 2010, 71(10): 1033–1042.
[10] Shiina T, Suzuki S, Ozaki Y, Taira H, Kikkawa E, Shigenari A, Oka A, Umemura T, Joshita S, Takahashi O, Hayashi Y, Paumen M, Katsuyama Y, Mitsunaga S, Ota M, Kulski JK, Inoko H. Super high resolution for single molecule-sequence-based typing of classical HLA loci at the 8-digit level using next generation sequencers., 2012, 80(4): 305–316.
[11] Latham K, Little AM, Madrigal JA. An overview of HLA typing for hematopoietic stem cell transplantation., 2014, 1109: 73.
[12] Hosomichi K, Jinam TA, Mitsunaga S, Nakaoka H, Inoue I. Phase-defined complete sequencing of the HLA genes by next-generation sequencing., 2013, 14: 355.
[13] Barone JC, Saito K, Beutner K, Campo M, Dong W, Goswami CP, Johnson ES, Wang ZX, Hsu S. HLA-genotyping of clinical specimens using Ion Torrent-based NGS., 2015, 76(12): 903–909.
[14] Tewhey R, Bansal V, Torkamani A, Topol EJ, Schork NJ. The importance of phase information for human genomics., 2011, 12(3): 215–223.
[15] Nelson WC, Pyo CW, Vogan D, Wang R, Pyon YS, Hennessey C, Smith A, Pereira S, Ishitani A, Geraghty DE. An integrated genotyping approach for HLA and other complex genetic systems., 2015, 76(12): 928–938.
[16] Chin CS, Alexander DH, Marks P, Klammer AA, Drake J, Heiner C, Clum A, Copeland A, Huddleston J, Eichler EE, Turner SW, Korlach J. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data., 2013, 10(6):563–569.
[17] Bowman B, Ranade S, Harting J, Lleras, R. A novel analytical pipeline for de novo haplotype phasing and amplicon analysis using SMRT? sequencing technology., 2014, 25(Suppl.): S17–S18.
[18] Warren RL, Choe G, Freeman DJ, Castellarin M, Munro S, Moore R, Holt RA. Derivation of HLA types from shotgun sequence datasets., 2012, 4(12): 95.
[19] Liu C, Yang X, Duffy B, Mohanakumar T, Mitra RD, Zody MC, Pfeifer JD. ATHLATES: accurate typing of human leukocyte antigen through exome sequencing., 2013, 41(14): e142.
[20] Kim HJ, Pourmand N. HLA typing from RNA-seq Data Using Hierarchical Read Weighting., 2013, 8(6): e67885.
[21] Szolek A, Schubert B, Mohr C, Sturm M, Feldhahn M, Kohlbacher O. OptiType: precision HLA typing from next-generation sequencing data., 2014, 30(23): 3310–3316.
[22] Major E, Rigó K, Hague T, Bérces A, Juhos S. HLA typing from 1000 genomes whole genome and whole exome illumina data., 2013, 8(11): e78410.
[23] Huang Y, Yang J, Ying D, Zhang Y, Shotelersuk V, Hirankarn N, Sham PC, Lau YL, Yang W. HLAreporter: a tool for HLA typing from next generation sequencing data., 2015, 7(1): 25.
[24] Nariai N, Kojima K, Saito S, Mimori T, Sato Y, Kawai Y, Yamaguchi-Kabata Y, Yasuda J, Nagasaki M. HLA-VBSeq: accurate HLA typing at full resolution from whole-genome sequencing data., 2015, 16(S2): S7.
[25] Wittig M, Anmarkrud JA, K?ssens JC, Koch S, Forster M, Ellinghaus E, Hov JR, Sauer S, Schimmler M, Ziemann M, G?rg S, Jacob F, Karlsen TH, Franke A. Development of a high-resolution NGS-based HLA-typing and analysis pipeline., 2015, 43(11): e70.
[26] Boegel S, L?wer M, Sch?fer M, Bukur T, de Graaf J, Boisguérin V, Türeci O, Diken M, Castle JC, Sahin U. HLA typing from RNA-Seq sequence reads., 2012, 4(12): 102.
[27] Hosomichi K, Shiina T, Tajima A, Inoue I. The impact of next-generation sequencing technologies on HLA research., 2015, 60(11): 665–673.
[28] Cao H, Wu J, Wang Y, Jiang H, Zhang T, Liu X, Xu Y, Liang D, Gao P, Sun Y, Gifford B, D'Ascenzo M, Liu X, Tellier LC, Yang F, Tong X, Chen D, Zheng J, Li W, Richmond T, Xu X, Wang J, Li Y. An integrated tool to study MHC region: accurate SNV detection and HLA genestyping in human MHC region using targeted high-throughput sequencing., 2013, 8(7): e69388.
The third-generation sequencing combined with targeted capture technology for high-resolutiontyping and MHC region haplotype identification
Jia Chen1, Mingyue Shu1, Jin Li2, Aisi Fu1, Fan Yang3, Zou Wang3, Yirong Li2, Zixin Deng1, Tiangang Liu1
The high-resolution and accurate typing of human leukocyte antigen (HLA) is of great significance for the study of tissue matching in organ transplantation and the correlation betweenand disease. In this study, the peripheral blood of 12 patients with primary hepatocellular carcinoma was used to compare the advantages and disadvantages of the next- and third-generation sequencing technology for high-resolutiontyping. In addition, probe capture technology was used to capture the MHC region of YH and HeLa standard cell lines, and a primary hepatocellular carcinoma patient. The captured products were sequenced using PacBio platform to assess the potential of ultra-long reads sequencing technology for analysis of the entire MHC region. Our results showed that: (1) the next- and third-generation sequencing technology can both achieve 6-8 digit high resolution intyping. However, the coverage of the third-generation is significantly better than the next-generation sequencing technology. (2) The ultra-long reads of the third generation sequencing can directly span the entire amplicon region, which has obvious advantages for haplotype phasing, with 92.79% of thegenes having accurate phasing results, which is much higher than the 75.65% from the next-generation data. (3) The long-reads from the third generating sequencing can not only be used to assemble the MHC region but also the ability to phase the entire MHC region of 3.6 Mb, thereby helping to clarify the localization information of the mutation sites, alleles and non-coding regions on each MHC haplotype, and providing a theoretical basis for the study of immune and other related diseases.
; MHC; the third-generation sequencing;haplotype phasing; NimbleGen probe capture technology
2018-11-26;
2019-01-25
“萬人計劃”青年拔尖人才項目資助[Supported by the Young Talents Program of National High-level Personnel of Special Support Program (The “Ten Thousand Talent Program”)]
陳佳,在讀碩士研究生,專業(yè)方向:微生物與生化制藥。E-mail: chenjia19940216@whu.edu.cn
李一榮,主任醫(yī)師,研究方向:臨床分子免疫學診斷。E-mail: liyirong838@163.com鄧子新,教授,研究方向:合成生物學。E-mail: zxdeng@whu.edu.cn劉天罡,教授,研究方向:合成生物學。E-mail: liutg@whu.edu.cn
10.16288/j.yczz.18-282
2019/2/25 17:19:18
URI: http://kns.cnki.net/kcms/detail/11.1913.R.20190225.1719.008.html
(責任編委: 方向東)