李東曉,李 懿,朱 琳,宋 云,馬紅霞,王海峰,葉 瑩,黃學勇,郭萬申
高通量測序,又名下一代測序(Next Generation Sequencing,NGS),可直接對人體臨床樣本中的核酸進行測序,實現(xiàn)對感染性疾病的檢測、分型及溯源,為促進分子流行病學研究和公共衛(wèi)生事件調(diào)查等多個方面提供助力[1]。新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)首次被發(fā)現(xiàn)就是基于二代測序的mNGS技術(shù),截止2022年2月,全球報告COVID-19確診病例超過4億[2-3]。為了實時監(jiān)測新型冠狀病毒的快速變異及演化規(guī)律,高通量測序技術(shù)在新型冠狀病毒的鑒定、分型、溯源方面發(fā)揮著關(guān)鍵作用,短讀長的二代測序一直是病原基因組學的金標準,三代測序作為新型快速診斷技術(shù),在實驗周期、成本及便攜性等方面扮演補充角色[4-5]。本文利用Illumina MiSeq和Oxford Nanopore兩種測序平臺分別對2021年境外輸入的4例COVID-19病例以及2022年本地6例COVID-19病例的上呼吸道樣本進行全基因組測序,對比分析這兩種測序平臺在新型冠狀病毒溯源分析研究中的特點。
1.1 樣本來源 10份上呼吸道樣本來自確診COVID-19的病例,采集時間為2021年6月至2022年1月,其中包括4例境外輸入病例、6例本地病例,樣本于-80 ℃保存。
1.2 儀器與試劑 新型冠狀病毒核酸檢測試劑盒(伯杰,中國上海);實時熒光定量PCR儀(LightCycler 96,瑞士羅氏公司);PCR擴增儀(BIO-RAD T100,美國伯樂公司);Qubit熒光定量儀(Qubit 3.0,美國賽默飛公司);高通量測序儀(Illumina MiSeq,美國Illumina公司);測序芯片(FLO-MIN106D,英國牛津納米孔公司);GridION Mk1測序儀(Oxford Nanopore,英國牛津納米孔公司)。
1.3 建庫前處理 按核酸提取試劑盒說明書(天隆,中國西安)步驟進行核酸提取操作,得到10份樣本的總RNA。樣本S9和S10提取后的核酸用無核酸酶水進行梯度震蕩混勻稀釋并編號,樣本S9核酸稀釋為S11、S12、S13;樣本S10核酸稀釋為S14、S15、S16,所有核酸均用伯杰的新型冠狀病毒核酸檢測試劑進行熒光PCR檢測,樣本S9和S10的稀釋倍數(shù)及樣本編號見圖1。
圖1 樣本S9和S10核酸稀釋處理流程Fig.1 Nucleic acid dilution processing steps (sample S9 and S10)
1.4 二代測序全基因組文庫構(gòu)建和測序 采用北京微未來科技有限公司的新型冠狀病毒全基因組捕獲試劑盒(V-090418-1)將提取的病毒總RNA進行逆轉(zhuǎn)錄和特異性擴增。利用Invitrogen公司核酸定量分析試劑盒(Q32854,美國)對擴增后的cDNA進行定量,使用美國Illumina公司的Nextera XT文庫制備試劑盒(FC-131-1024)構(gòu)建測序文庫并進行磁珠純化(A63880,Beckman Coulter公司,美國),最后用Illumina公司的基因測序試劑盒(MS-102-2002,美國)在MiSeq測序儀進行全基因組測序。
1.5 三代測序全基因組文庫構(gòu)建和測序 取樣本擴增純化后的cDNA進行核酸定量,取100 ng為模板,樣本S1、S7~S10依次按說明書使用英國牛津納米孔公司的連接測序試劑盒(SQK-LSK109)、無擴增條碼試劑盒(EXP-NBD114)進行建庫;樣本S2~S6使用牛津納米孔公司的快速建庫條碼測序試劑盒(SQK-RBK004,英國)制備文庫,利用牛津納米孔公司的測序引發(fā)試劑盒(EXP-FLP002,英國)對測序芯片預處理,加入待測文庫后,運行GridION基因測序儀進行全基因組測序。
1.6 數(shù)據(jù)分析 以NCBI(National Center for Biotechnology Information)中SARS-CoV-2全基因組序列(Wuhan-Hu-1株,GenBank:MN908947)作為參考序列,使用德國凱杰公司的CLC Genomics Workbench 21.0軟件對測序原始下機數(shù)據(jù)進行序列拼接,得到的序列在Nextclade(https://clades.nextstrain.org/)和Pangolin(https://clades.nextstrain.org/)在線分析工具進行分型,運用MEGA-X軟件進行變異位點分析。
1.7 統(tǒng)計學分析 采用美國IBM公司的SPSS 22.0軟件進行統(tǒng)計學分析,滿足正態(tài)性分布采用(均數(shù)±標準差)進行統(tǒng)計描述,不服從正態(tài)分布采用中位數(shù)(四分位數(shù)間距)進行統(tǒng)計描述。對10份樣本的二代測序和三代測序覆蓋度比較采用Wilcoxon秩和檢驗;8份樣本三代測序不同時間覆蓋度采用單因素方差分析的Welch分析。P<0.05為差異有統(tǒng)計學意義。
2.1 全基因組測序結(jié)果 10份樣本進行熒光定量PCR檢測,ORF1ab基因Ct值分布在13.2~30.98之間。10份樣本二代和三代測序分型結(jié)果一致,按照Pangolin分型法分為3個型別,S2、S3、S4為Omicron(BA.1)變異株,二代測序基因組序列全長29 873 bp,三代測序基因組全長29 873~29 882 bp;S9為Alpha(B.1.1.7)變異株,二代測序基因組全長29 869 bp,三代測序基因組全長29 868 bp;其余6份樣本均為Delta(B.1.617.2)變異株,二代測序基因組序列全長29 862~29 891 bp,三代測序基因組全長29 867~29 891 bp。二代和三代測序均分型成功,分型結(jié)果見表1。
表1 10份樣本的全基因組序列分型Tab.1 Whole genome sequence typing of ten samples
2.2 二代和三代測序序列對比 Illumina和Nanopore兩個測序平臺的覆蓋度顯示,樣本S7的二代測序覆蓋度最低(98.48%),其余樣本在兩個平臺的覆蓋度均能達到99%以上。二代測序覆蓋度中位數(shù)為99.73%(0.36%),三代測序覆蓋度中位數(shù)為99.90%(0.37%),10份樣本的二代和三代測序覆蓋度差異有統(tǒng)計學意義(t=-2.037,P<0.05)。Illumina平臺測序時長達24 h左右,平均測序深度(11 866.8±5 781.9);Nanopore平臺測序時間為6~21 h不等,平均測序深度為1 257.5(3 137)。二代測序樣本S4(Ct值:18.35)平均測序深度最高(19 209),樣本S1(Ct值:30.98)測序深度最低(4 151);三代測序樣本S10(Ct值:16.81)平均測序深度最高(4 410),樣本S6(Ct值:22.2)平均測序深度最低(533)。兩種測序平臺比較見表2。
表2 兩種測序平臺覆蓋度及平均測序深度比較Tab.2 Comparison of coverage and mean sequencing depth between sequencing platforms
2.3 不同變異株的變異位點分析 與參考基因組相比,Alpha變異株二代測序檢測到41個核苷酸變異位點;4份Delta變異株檢測到47個核苷酸變異位點,樣本S1檢測到42個,樣本S10檢測到35個;Omicron變異株分別檢測到55個、61個核苷酸變異位點。Alpha變異株S基因編碼區(qū)涉及到非同義突變有8個,Delta變異株涉及到的非同義突變9~11個,Omicron突變株涉及到的非同義突變30個。所有樣本均出現(xiàn)D614G的變異,位點變異情況詳見表3。
表3 兩種測序平臺位點變異比較Tab.3 Comparison of nucleic acid and amino acid sequences between sequencing platforms
表3(續(xù))樣本編號二代測序三代測序突變位點S編碼區(qū)核苷酸突變數(shù)S編碼區(qū)氨基酸突變位點突變位點S編碼區(qū)核苷酸突變數(shù)S編碼區(qū)氨基酸突變位點S74710T19R、T95I、G142D、R158G、L452R、T478K、T547I、D614G、P681R、D950N 4710同二代測序S84710T19R、T95I、G142D、R158G、L452R、T478K、T547I、D614G、P681R、D950N 4710同二代測序S9418V70I、N501Y、A570D、D614G、P681H、T716I、S982A、D1118H418同二代測序S10359T19R、G142D、R158G、A222V、L452R、T478K、D614G、P681R、D950N388T19R、G142D、A222V、L452R、T478K、D614G、P681R、D950N
2.4 不同稀釋度樣本二代和三代測序?qū)Ρ?Illumina平臺所有樣本的測序時間均相同,不同稀釋度的樣本平均測序深度和覆蓋度如表4所示,樣本S9和樣本S10為原樣,其余6份稀釋樣本的Ct值分布在22.69~35.37之間。測序覆蓋度最高的是樣本S9和S10(Ct值<20);平均測序深度最高的是樣本S11(Ct值:24.65)和樣本S14(Ct值:22.69);平均測序深度和覆蓋度均較低的樣本S13和S16,Ct值33~35之間。樣本S9、S11~S13的平均測序深度為11 359.5±7 664,樣本S10、S14~S16的平均測序深度為11 435.5±6 410.4;不同稀釋度樣本二代測序覆蓋度差異無統(tǒng)計學意義(F=0.091,P>0.05)。
表4 測序不同時間對比Tab.4 Sequencing comparison at various time points
Nanopore三代測序過程中,分別在測序開始后的1、2、3、11 h拷貝數(shù)據(jù)并拼接分析,在Pangolin在線工具上進行分型,樣本S9、S11、S12、S13為B.1.1.7變異株,樣本S10、S14、S15、S16為B.1.617.2變異株。所有樣本測序2、3、11 h后分型,均與測序1 h的分型結(jié)果相同。
測序1 h后,Ct值大于30的樣本S12、S13和S16的覆蓋度和平均測序深度與其他樣本相比均較低;測序2 h和3 h后,樣本S12的覆蓋度和平均測序深度有所提升;三代測序超過11 h后,樣本S13和S16覆蓋度分別達到99.90%和99.83%,平均測序深度分別達到254和163,在所有樣本中測序深度最低,其他6個樣本平均測序深度均大于2 000。三代測序4個不同時間的覆蓋度中位數(shù)為99.17%(2.36%)、99.89%(1.77%)、99.91%(0.47%)、99.93%(0.07%),差異無統(tǒng)計學意義(F=2.498,P>0.05)。
目前,WHO一共公布了5種需關(guān)注的變異株(VOC),它們分別是:Alpha(B.1.1.7)、Beta(B.1.351)、Gamma(P.1)、Delta(B.1.617.2)和Omicron(B.1.1.529)。Omicron變異株較其它變異株突變位點更多,有更強的傳染性和免疫逃逸能力[6],截至2022年2月,Omicron變異株已經(jīng)至少在142個國家或地區(qū)流行,逐漸取代Delta株成為優(yōu)勢毒株[7]。隨著新型冠狀病毒在全球的不斷傳播,新冠肺炎病例不斷攀升,新的變種不斷出現(xiàn),研究表明,新型冠狀病毒基因組每月積累兩個單堿基突變[8-9]?;蚪M監(jiān)測的大規(guī)模應用將有利于更早預測并啟動公共衛(wèi)生策略,遏制SARS-CoV-2變異株及其他新型病毒的暴發(fā)[10-11]。
本研究發(fā)現(xiàn),針對同一樣本,Illumina二代測序和Nanopore三代測序在覆蓋度方面差異無統(tǒng)計學意義,均能獲得3種新冠病毒變異毒株的基因序列并準確分型。6份樣本S3、S4、S5、S7、S8和S9變異位點保持一致,樣本S1、S2的三代測序變異位點總數(shù)少于二代測序,樣本S6和S10三代測序變異位點數(shù)目多于二代測序。樣本S1的Ct值為30.98,推測原始樣本中病毒部分基因片段數(shù)目較少,三代測序測序深度不足導致檢測到的變異位點減少。樣本S2為Omicron變異株,變異位點較多,S基因編碼區(qū)擴增效率不高,加之三代平均測序深度(812)遠低于二代測序(14 931),變異位點檢測總數(shù)比二代測序少。樣本S6的三代測序比二代測序突變位點總數(shù)多2個,分別是ORF1ab編碼區(qū)T15510C(339C:10T)、N基因編碼區(qū)G28796A(655A),未引起氨基酸改變。樣本S10的三代測序比二代測序突變位點總數(shù)多3個,ORF1ab編碼區(qū)T6552G,對應氨基酸替換M2096R;編碼區(qū)A18675G、C18676T、T18678C、T18690G為插入缺失,造成2個氨基酸替換R6138C、F6142L。Nanopore單分子測序技術(shù)的錯誤率主要集中在插入缺失,不過這些錯誤是隨機出現(xiàn)的,足夠高的覆蓋率能在一定程度上彌補該錯誤率[12]。
S基因編碼區(qū)突變位點對比發(fā)現(xiàn),樣本S3~S9共7份樣本的變異位點數(shù)目在兩個平臺保持一致,3份樣本(S1、S2、S10)變異位點數(shù)目不同,三代測序變異位點檢測數(shù)目少,二代測序?qū)ψ儺愇稽c的識別更多更精確。針對S基因編碼區(qū)變異位點不同的樣本分析,樣本S1缺少5個氨基酸變異位點,S基因編碼區(qū)增加1個氨基酸變異位點(V267L),對應的核苷酸變異位點G22361T,該位置為雜合位點(2G:3T),因測序深度太低未納入分析;樣本S2和S10三代測序檢測的變異位點數(shù)均少于二代測序,對應的氨基酸突變數(shù)目也相應減少。
為評價Ct值對于測序效果的影響,同時對比不同變異株之間測序有無差別,我們選擇兩種變異株樣本S9(Alpha變異株)和樣本S10(Delta變異株),對核酸進行梯度稀釋后測序。這兩份樣本原始Ct值在20以下,通過不斷稀釋,樣本中的病毒載量不斷減少,測序結(jié)果顯示,這8份樣本在Illumina二代測序和Nanopore三代測序平臺的覆蓋度差異無統(tǒng)計學意義;同一樣本不同稀釋度在兩個平臺的分型結(jié)果保持一致;Ct值33~35的樣本,二代測序和三代測序平均測序深度均較低。L?vestad AH等采用Nanopore平臺對新型冠狀病毒三代測序的研究數(shù)據(jù)發(fā)現(xiàn),Ct值<33的樣本能夠保證一致的擴增效率和較高的基因組覆蓋度[13]。本次研究16份核酸樣本Ct值在13.20~35.37,Ct值<33的樣本在二代和三代測序平臺均能獲得較好的測序結(jié)果,證實了以上結(jié)論。Lu等[14]的研究也發(fā)現(xiàn),對于Ct值30以上的病毒載量較低的樣本,三代測序覆蓋度優(yōu)于二代測序。與短讀長的二代測序相比,三代測序的長讀長可能更有利于基因組組裝和結(jié)構(gòu)變異檢測[15]。
Nanopore三代測序采用實時測序的單分子測序技術(shù),實時產(chǎn)出、實時分析是區(qū)別于二代的最大特點,對于突發(fā)傳染病應急檢測具有非常重要的作用。對于Ct值<33的樣本,三代測序1 h后,平均測序深度達到300以上即可在兩個分型平臺完成分型,且與之后的分型結(jié)果保持一致;Ct值>33的樣本,平均測序深度200左右也可以準確分型。從測序成本角度考慮,Ct值較大的樣本,隨著測序時間延長,新冠病毒基因組大部分序列已被覆蓋,一味追求測序深度意義不大,建議測序數(shù)據(jù)能夠拼接分型后停止測序。根據(jù)測序芯片不同,Illumina二代測序時間在18~24 h,Nanopore三代測序?qū)⒋蟠筇嵘龖睓z測速度。本研究同時對比了Nanopore連接法和快速法測序效果,連接法的建庫時間約4 h,測序速度快、深度更高,1 h可以滿足分析需求;快速法的優(yōu)點在于無需純化,建庫時間短(20 min),SARS-CoV-2全基因組序列最快2 h內(nèi)獲得,但5個樣本測序深度總體不高,產(chǎn)生測序數(shù)據(jù)速度慢。實際工作中快速法更適合長片段序列,連接法適合短片段序列,這兩種建庫方法也為三代測序提供更多選擇。
本研究中Nanopore三代測序的主要限制因素在于變異位點檢測數(shù)目較Illumina二代測序少,以及部分插入缺失,相信隨著三代測序的大規(guī)模推廣應用,測序技術(shù)及糾錯軟件的不斷優(yōu)化,數(shù)據(jù)準確度的不足必將會得到彌補[16]。對16份樣本的全基因組測序中,Nanopore三代測序憑借速度快、分型準確等優(yōu)點,能夠在疫情暴發(fā)的初期迅速鑒別新冠病毒;Illumina二代測序錯誤率低,測序數(shù)據(jù)更加可信,這兩種測序技術(shù)從不同應用層面為疫情風險評估、流行病學監(jiān)測及公共衛(wèi)生決策提供技術(shù)保證。本研究也有一定的局限性,如樣本量較少未能全面反應總體狀況,結(jié)論的適用程度有待擴充等,但本研究可為后續(xù)新冠病毒全基因組測序工作開展提供參考。
利益沖突:無
引用本文格式:李東曉,李懿,朱琳,等.兩種高通量測序平臺應用于不同SARS-CoV-2變異株的對比研究[J].中國人獸共患病學報,2022,38(9):771-777.DOI:10.3969/j.issn.1002-2694.2022.00.122