陳慧娟, 劉琪琦
(1)北京工業(yè)大學(xué)環(huán)境與生命學(xué)部生命科學(xué)與化學(xué)學(xué)院生物醫(yī)學(xué)工程系, 北京 100124;2)軍事科學(xué)院軍事醫(yī)學(xué)研究院輻射醫(yī)學(xué)研究所, 北京 100850)
在全球范圍內(nèi),細菌耐藥(antimicrobial resistance, AMR)已成為威脅公共健康的重要因素之一[1]。世界衛(wèi)生組織2020年全球抗生素耐藥性和使用監(jiān)測系統(tǒng)(Global Antimicrobial Resistance and Use Surveillance System, GLASS)報告顯示:細菌耐藥已在多數(shù)國家出現(xiàn),并且在中低收入國家更為嚴重(https://apps.who.int/iris/bitstream/handle/10665/332081/9789240005587-eng.pdf?ua=1)??股氐膹V泛使用、誤用及濫用是導(dǎo)致各種耐藥菌甚至“超級耐藥菌”出現(xiàn)的主要因素。目前幾乎所有類型的抗生素,包括一些應(yīng)用于多重耐藥菌治療的廣譜抗生素均已出現(xiàn)了耐藥性[2, 3]。細菌耐藥的檢測、監(jiān)控及預(yù)測對于抗生素的合理使用、耐藥細菌感染的控制及耐藥細菌的監(jiān)控至關(guān)重要。藥敏試驗(antimicrobial susceptibility testing, AST)是目前實驗室較常用的檢測細菌耐藥方法。藥敏試驗?zāi)軌蛱峁┘毦退幍谋硇托畔ⅲ荒苤苯訖z測臨床樣本,需要培養(yǎng)才能鑒定出耐藥菌株,周期較長,且針對培養(yǎng)受限的菌株無法進行檢測[4]。細菌耐藥通常由耐藥基因編碼產(chǎn)生,隨著各種耐藥基因的發(fā)現(xiàn),基因芯片、微流體芯片、飛行時間質(zhì)譜、聚合酶鏈反應(yīng)等各種基于耐藥基因檢測細菌耐藥的檢測技術(shù)迅速發(fā)展。此類技術(shù)只能檢測已知耐藥基因,檢測基因數(shù)目非常有限,對未知耐藥基因無法檢測,無法發(fā)現(xiàn)新的細菌耐藥基因、耐藥機制,并且無法進行細菌耐藥監(jiān)測和追蹤。高通量測序技術(shù)可一次性并行的對幾千條甚至數(shù)十億條核酸分子進行序列測定。不依賴于培養(yǎng),高通量測序可以快速、準確無差別的對培養(yǎng)菌株,以及不可培養(yǎng)或培養(yǎng)受限細菌中的耐藥基因進行快速鑒定,可作為藥敏試驗或其他檢測方法進行細菌耐藥檢測的重要補充[5]。高通量測序還可用于細菌耐藥基因組研究,可發(fā)現(xiàn)新的耐藥基因和耐藥機制,并可同時監(jiān)測、追蹤耐藥基因及耐藥菌全球分布、傳播、流行的機制和特征。近年來,隨著高通量測序技術(shù)的發(fā)展、測序速度的提升和測序成本的下降,高通量測序技術(shù)在細菌耐藥領(lǐng)域的應(yīng)用越來越廣泛。本文就高通量測序技術(shù)、測序平臺、數(shù)據(jù)分析方法等在細菌耐藥領(lǐng)域的應(yīng)用進展,以及細菌耐藥數(shù)據(jù)庫的開發(fā)更新進展進行綜述。
高通量測序技術(shù)在細菌耐藥領(lǐng)域應(yīng)用范圍包括全基因組測序(whole-genome sequencing, WGS),目標區(qū)域測序(target next generation sequencing, tNGS)和宏基因組測序(metagenomics next generation sequencing, mNGS)。NGS獲得細菌基因序列信息的主要流程包括:(1)核酸提取和純化:從純培養(yǎng)物(WGS)或原始樣本(tNGS、mNGS) 中提取微生物DNA。(2)片段化基因組DNA:通過機械或化學(xué)方法等(WGS、mNGS)將基因組DNA隨機片段化,或通過特異性引物擴增、探針雜交捕獲等方式(tNGS) 獲得目的片段化DNA。(3)文庫構(gòu)建:在片段化的DNA加上接頭和唯一性標簽序列(測序后區(qū)分待測的DNA片段),隨后進行克隆化擴增或直接進行片段篩選后得到均一化的可測序的文庫。(4)測序:邊合成延伸邊測序,通過捕捉合成鏈末端的熒光信號或化學(xué)信號來獲得DNA序列信息。(5) 生物信息學(xué)分析及注釋:通過不同生物信息學(xué)分析流程得到耐藥基因信息并進行注釋。下面將簡要介紹WGS、tNGS及mNGS三種檢測流程在細菌耐藥領(lǐng)域的應(yīng)用情況。
全基因組測序即WGS,是指獲得一個物種全基因組序列的過程。在細菌耐藥領(lǐng)域,從純培養(yǎng)物(單一菌落)開始,WGS可快速準確均一的得到1個菌株的所有耐藥基因包括耐藥質(zhì)粒的信息。采用WGS檢測耐藥基因和耐藥機制可預(yù)測細菌耐藥表型情況。多項研究表明,基于WGS的細菌耐藥檢測結(jié)果與細菌表型耐藥檢測結(jié)果間存在較高的一致性。雖然檢測性能因所檢測的細菌不同略有差異,總體檢測靈敏度(真陽性率,基因預(yù)測耐藥結(jié)果與表型耐藥結(jié)果百分比)>87%,總體檢測特異性(基因預(yù)測敏感結(jié)果與表型敏感結(jié)果百分比)>98%[9-12]。結(jié)核病綜合耐藥性預(yù)測國際聯(lián)合會(Comprehensive Resistance Prediction for Tuberculosis: an International Consortium, CRyPTIC)一項基于10209個結(jié)核培養(yǎng)菌株研究顯示:WGS測序結(jié)果對異煙肼、利福平、乙胺丁醇及吡嗪酰胺等4個一線抗結(jié)核藥物的檢測靈敏度分別為97.1%、97.5%、94.6%和91.3%;檢測特異性分別為99.0%、98.8%、93.6%和96.8%[13]。結(jié)合深度學(xué)習(xí)WGS還可預(yù)測抗生素的最小抑菌濃度,對肺炎克雷伯菌平均準確度為92%[17],而對非傷寒沙門菌平均準確度可達95%[18]。除以上用途外,WGS還可應(yīng)用于耐藥性細菌,例如產(chǎn)OXA-48和CTX-M-15的高毒力肺炎克雷伯菌[14]、耐萬古霉素腸球菌[15]等爆發(fā)流行的確認和監(jiān)控,及新的耐藥基因或機制的發(fā)現(xiàn),例如抗粘菌素新的耐藥基因mcr-7.1[16]。WGS檢測的樣本類型主要為純培養(yǎng)物[6],其檢測周期較長。另外檢測樣本若存在其他細菌,尤其是檢測因攜帶耐藥質(zhì)?;蚱渌苿右蜃铀鶎?dǎo)致的耐藥時,會嚴重影響結(jié)果準確。雖然目前已有一些采用WGS直接檢測非培養(yǎng)樣本中肺炎分支桿菌耐藥基因的報道[7, 8],但針對難培養(yǎng)或無法培養(yǎng)的細菌,WGS依舊不太適用。
目標區(qū)域測序即tNGS,是指僅對所感興趣的目標區(qū)域或基因進行測序的技術(shù)。一般在測序前會對目標區(qū)域或基因進行選擇性富集,目前常用的富集方法有:PCR擴增(擴增子測序)、探針雜交捕獲和CRISPR-Cas9技術(shù)[19, 20]。tNGS可直接檢測原始樣本,檢測靈敏度高,檢測周期短。因僅檢測目標區(qū)域或基因,所需測序數(shù)據(jù)量少,測序成本低。同時tNGS通過對目標區(qū)域或基因選擇性富集,解決了mNGS所面臨的從大量背景核酸序列(人類或其他物種基因組)中“大海撈針”般的尋找少量目的片段的困境[21]。近年來已有多篇關(guān)于tNGS在細菌耐藥領(lǐng)域的應(yīng)用報道。有研究報道,采用Thermo Ion Ampliseq擴增子富集技術(shù)檢測結(jié)核分枝桿菌9個抗生素耐藥基因,對利福平、異煙肼、乙胺丁醇及吡嗪酰胺檢測特異性分別為96%、88%、97%、100%,檢測靈敏度分別為100%、88%、60%和67%[23]。Urbaniak等采用基于Thermo Ion AmpliSeq技術(shù)的定制panel可同時檢測多種微生物中518個耐藥基因的情況[22]。而Lanza等基于SeqCapEZ技術(shù)所開發(fā)ResCap雜交捕獲流程,通過采用設(shè)計的探針可同時檢測88.13 Mb (Million bases)目的區(qū)域內(nèi)47806個抗生素耐藥基因和30794個殺菌劑和金屬抗性基因的狀況[24]。另有研究報道,采用37826個探針組合可同時檢測2021個抗生素耐藥基因,同時采用人類腸道菌群樣本進行驗證該panel具有較好的敏感性[25]。雖然tNGS還存在諸如均一性較差、只能檢測已知耐藥基因等諸多局限性,但快速、成本低和檢測靈敏度高等特點,為其在臨床細菌耐藥檢測領(lǐng)域的應(yīng)用提供了較大的可能。
宏基因組測序技術(shù)即mNGS,可直接同步無偏差的檢測原始樣本中整個微生物群落(例如細菌、病毒、真菌等)、耐藥基因、毒力因子甚至與特定疾病階段相關(guān)的宿主生物標記物[26]。在臨床檢測領(lǐng)域,mNGS已成功應(yīng)用于多個組織部位臨床感染微生物的診斷和鑒定[27-29],同時也成功的鑒定了一些新發(fā)、少見和非典型的臨床感染微生物[30]。在臨床細菌耐藥檢測中,Yan等研究發(fā)現(xiàn):基于CosmosID生物信息分析平臺,mNGS對葡萄球菌中mecA-介導(dǎo)的耐甲氧西林的檢測靈敏度為77.4%,檢測特異性為100%[31]。除在臨床細菌耐藥檢測中的應(yīng)用外,mNGS還可應(yīng)用于環(huán)境例如醫(yī)院污水、自然水源和土壤等[32]或食源性動植物例如豬肉、雞肉等中細菌耐藥基因豐度的檢測和監(jiān)控,進而可盡早采取措施防止耐藥基因在環(huán)境微生物中富集和傳播。近期有研究采用mNGS檢測潮白河(北京)河水發(fā)現(xiàn):在潮白河水中共檢測到22類442種耐藥基因,平均豐度為1.1×10-1-8.1×10-1拷貝ARG/16S-rRNA基因,遠遠高于深海和極地等無人類活動/活動較少的區(qū)域[33]。同WGS,mNGS還可以發(fā)現(xiàn)新的耐藥基因和其作用機制。Gloria等從土壤樣本中發(fā)現(xiàn)了11個新的耐藥基因(3個氨芐青霉素、2個大慶霉素、2個氯霉素和4個甲氧芐氨嘧啶抗性基因)[34]。Forsberg等采用mNGS發(fā)現(xiàn)9個與降低四環(huán)素降解酶活性相關(guān)的耐藥基因,進而發(fā)現(xiàn)了四環(huán)素耐藥的機制[35]。雖然近一、兩年來mNGS的檢測流程和數(shù)據(jù)分析流程在逐步優(yōu)化,但依舊存在諸多例如檢測靈敏度低、所需數(shù)據(jù)量大測序成本高、無標準化“濕實驗”和數(shù)據(jù)分析流程等需要近一步完善和優(yōu)化之處。
目前在細菌耐藥領(lǐng)域,主要使用的測序平臺為基于短片段測序技術(shù)的二代測序平臺?;陂L片段測序技術(shù)的三代測序平臺近兩年也開始逐步被應(yīng)用。二代測序平臺主要有:Illumina系列、Ion Torrent系列和BGI系列。Illumina 測序平臺是目前應(yīng)用最為廣泛的二代測序平臺。該測序平臺采用可逆性測序末端邊合成邊測序:在堿基延伸過程中,每個循環(huán)反應(yīng)只延伸一個正確互補的帶熒光堿基,通過收集四種不同的熒光信號確認堿基種類。Illumina測序平臺的測序試劑均采用卡盒式結(jié)構(gòu),人工操作較少,自動化程度較高。該測序平臺測序時間較長,MiSeq雙端300bp測序一次測序需要超過60 h。另外該測序平臺存在標簽跳躍(index hopping)的問題,在其高通量測序機型如HiSeq3000、4000、NovaSeq等該問題更為嚴重[36]。對于細菌耐藥檢測而言,標簽跳躍會導(dǎo)致樣本間的交叉污染,尤其是豐度較高的樣本對低豐度樣本的污染,在實際應(yīng)用中需特殊注意。
Ion Torrent基于半導(dǎo)體測序技術(shù),不需要光學(xué)系統(tǒng),通過測序過程中DNA合成時所釋放H+導(dǎo)致的測序環(huán)境中pH值的變化進行堿基的識別。無卡盒試劑,文庫在測序前需進行乳液PCR、純化等,操作比較繁瑣,對操作人員的依賴性較強。BGI采用DNA納米球測序技術(shù):利用滾環(huán)式復(fù)制讓待測的DNA擴增形成DNA納米球,通過組合探針錨定連接法進行邊合成邊測序。在每輪測序前先加入與接頭匹配的錨序列,然后加入大量只有一個熒光標記堿基的探針,通過檢測與待測序列結(jié)合的標記探針的熒光信號得到序列信息。滾環(huán)式復(fù)制中所有擴增模板均為最初的插入片段,不會產(chǎn)生PCR錯誤的累積。另在測序過程每一堿基的判讀不依賴上一堿基,測序錯誤更加隨機,相較其他二代測序平臺BGI測序平臺的堿基準確率更高。
Oxford Nanopore Technologies納米孔(Nanopore sequencing)和Pacific Biosciences (PacBio)的SMRT (Single Molecule, Real-Time) 單分子測序技術(shù)通常被稱為三代測序技術(shù)。三代測序技術(shù)的特點為單分子測序技術(shù),測序過程中無需PCR擴增。目前Nanopore 和PacBio SMRT 已逐漸成為三代測序的代名詞。Nanopore采用電泳技術(shù),通過電泳使每個單分子逐一通過納米孔,每個納米孔僅允許單個核苷酸通過,通過ATGC帶電性質(zhì)差異的檢測堿基的類別[37]。納米孔可對穿過的任意長度的DNA片段進行測序,無長度限制,可以得到Mb級別長度的序列[38, 39]。SMRT技術(shù)邊合成邊測序,熒光標記的脫氧核苷酸與待測DNA鏈形成化學(xué)鍵時,熒光會因熒光集團被切除而消失,通過檢測記錄熒光強度的變化可獲得相應(yīng)的堿基序列。Pacbio對堿基判斷會出現(xiàn)隨機誤差,誤差率大概為12.5%;另Pacbio聚合酶可以1 s鐘合成3個堿基,測序速度較快。光照可能造成待測DNA的缺口和聚合酶的變性,會限制測序讀長。相較于二代測序,三代測序尚存在檢測通量較低、測序錯誤率較高等諸多不完善之處。
三代測序所具備的長讀長、測序時間短等優(yōu)點為三代測序未來在細菌耐藥領(lǐng)域的廣泛應(yīng)用提供了可能。長讀長可大大降低測序序列的拼接難度,對基因組序列較小細菌甚至可以直接完成全基因組測序。相對于二代測序從樣本到報告一般需花費5~10 d的漫長報告周期,三代測序可在數(shù)分或數(shù)小時內(nèi)實時獲得相應(yīng)測序數(shù)據(jù)。有研究報道采用Nanopore測序可在4 h內(nèi)完成肺炎鏈球菌的耐藥基因從樣本到報告的檢測,檢測靈敏度為75%,檢測特異性為100%[40]。
高通量測序所獲得的原始reads數(shù)據(jù)(原始的堿基序列信息),需要通過生物信息學(xué)軟件、流程進行分析以獲得特定耐藥基因的信息。首先,需采用諸如FastQC,SolexaQA等程序進行測序序列質(zhì)量控制和過濾(去除低質(zhì)量、重復(fù)序列去除);過濾后的質(zhì)量合格的序列可進行后續(xù)分析?;趍NGS流程所得到的序列,需先將測序序列與人類基因組進行比對,去除人源基因組序列后再進行后續(xù)分析。目前耐藥基因分析主要有序列組裝和直接序列分析兩種分析流程。序列組裝是將檢測出的微生物短reads拼接為完整的基因組序列,再與參考數(shù)據(jù)庫比對得到耐藥基因信息的過程。序列組裝目前多采用基于De Bruijn graph (DBG) 策略的算法,例如SPAdes[61]、Velvet[62]等。該算法首先將reads分割成一系列連續(xù)的短序列(稱為k-mers),然后利用k-mers間的重疊構(gòu)建DBG圖,從而得到全基因組序列。該算法對內(nèi)存消耗少,但會受測序過程中產(chǎn)生的堿基錯誤的影響[63]。為改善堿基錯誤對序列組裝正確性的影響,一些針對單一細菌基因組中重復(fù)序列或質(zhì)粒序列拼接的算法,例如SAUTE[68]等和針對mNGS測序序列組裝的算法,例如MetaVelvet[64]、 SPAdes[65]等,以及一些提高堿基判讀準確度的方法[66]陸續(xù)被開發(fā)和廣泛應(yīng)用。序列組裝完成后,通過采用BLAST、USEARCH等工具將組裝的全基因組序列與細菌耐藥基因參考數(shù)據(jù)庫比對,可獲得耐藥基因的注釋。
直接序列分析是將質(zhì)量合格序列直接與參考數(shù)據(jù)庫比對,并得到耐藥基因信息的過程。主要有兩種方式:一種通過雙序列比對工具,例如Bowtie2 (如SRST[67]) 、BWA等將過濾后質(zhì)量合格的序列直接與細菌耐藥基因參考數(shù)據(jù)庫比對。另一種為先將reads分割成k-mers (如KmerResistance[69]) 后與參考數(shù)據(jù)庫比對。此類分析流程可在因測序序列中存在實驗室或宿主污染所導(dǎo)致的背景噪音,或測序序列不足等所導(dǎo)致的序列組裝流程無法進行的情況下進行耐藥基因注釋。該類分析流程無法對單核苷酸多態(tài)性位點(single nucleotide polymorphisms, SNPs)引起的耐藥進行注釋。無需組裝后對比,占用內(nèi)存較少且速度快,近年來此類分析流程在需要及時預(yù)測細菌耐藥基因的場景中應(yīng)用較為廣泛。目前正在使用的多種數(shù)據(jù)分析方法各有千秋,關(guān)于如何選擇合適的分析方法并無統(tǒng)一的規(guī)則。建議根據(jù)所檢測的樣本來源、微生物生物屬性、文庫構(gòu)建方法、測序平臺、測序深度等多種因素綜合考量選擇最適合的方法。
細菌耐藥基因預(yù)測細菌耐藥表型的準確性在很大程度上依賴于成熟的專業(yè)耐藥基因數(shù)據(jù)庫。目前細菌耐藥基因數(shù)據(jù)庫主要有通用型數(shù)據(jù)庫和特定型數(shù)據(jù)庫兩種。通用型數(shù)據(jù)庫包含多種抗生素耐藥基因及耐藥機制的信息。CARD數(shù)據(jù)庫(Comprehensive Antibiotic Resistance Database)為目前使用范圍最廣的通用型數(shù)據(jù)庫 (Table 3)。CARD數(shù)據(jù)庫目前涵括4833個ARO (Antibiotic Resistance Ontology)、3339個參考序列和3385個AMR檢測模型。CRAD數(shù)據(jù)支持網(wǎng)上耐藥基因預(yù)測分析,有BLAST和RGI(Resistance Gene Identifier)兩種模式:BLAST基于NCBI中BLAST軟件,將所得序列(核酸或蛋白序列)與參考序列比對后進行相應(yīng)注釋;RGI是CARD數(shù)據(jù)庫團隊自主研發(fā)的基于蛋白質(zhì)序列預(yù)測耐藥基因序列的軟件,目前僅能分析蛋白質(zhì)序列[41]。特定型數(shù)據(jù)庫包括針對特定耐藥基因和針對特異性菌種兩種(Table3)。菌種特異性耐藥基因數(shù)據(jù)庫對于了解特定菌種的耐藥性機制,尤其是對某些抗生素的內(nèi)源性耐藥具有重要的作用[47]。另外,此類數(shù)據(jù)庫能迅速、有效的收集新的耐藥基因和耐藥機制信息。
Table 1 Advantages and disadvantages of high throughput sequencing applications in antimicrobial resistance detection
Table 2 Advantages and disadvantages of 5 major sequencing platforms
Table 3 Summary of antimicrobial resistance reference databases
Continued Table 3
通用型數(shù)據(jù)庫和特定型數(shù)據(jù)庫所包含的多為人類致病菌及易培養(yǎng)菌的耐藥基因信息。而此類數(shù)據(jù)庫無法對較難培養(yǎng)的或無法培養(yǎng)的菌種的耐藥基因進行鑒定[49],而隱馬爾可夫模型(hidden Markov model, HMM)數(shù)據(jù)庫可對此類耐藥基因進行鑒定。其流程為:將待鑒定序列與HMM數(shù)據(jù)庫的參考序列進行多序列比對,能找到序列不一致但具有相似功能的參考序列,通過參考序列的耐藥性可對待鑒定序列的耐藥性進行預(yù)測。HMM類數(shù)據(jù)庫包括Resfams (通過與CARD、LacED等數(shù)據(jù)庫中耐藥基因蛋白質(zhì)參考序列進行多序列比對)[50]、ResfinderFG[51](與Resfinder數(shù)據(jù)庫進行比對)及Mustard[52](結(jié)合蛋白質(zhì)3D結(jié)構(gòu)預(yù)測耐藥基因)等。雖然近年來各種耐藥基因數(shù)據(jù)庫在逐步完善,但依舊仍存在諸多弊端:1) 除極少數(shù)數(shù)據(jù)庫外,大多數(shù)數(shù)據(jù)庫無持續(xù)有效的收集更新數(shù)據(jù)的機制,導(dǎo)致數(shù)據(jù)庫更新不及時或停止更新;2)命名規(guī)則混亂,目前大多數(shù)耐藥基因既可根據(jù)核苷酸亦可通過蛋白來命名,同一耐藥基因在不同數(shù)據(jù)庫命名不同,例如二氫葉酸還原酶在一些數(shù)據(jù)庫是dhfr而在另一些數(shù)據(jù)庫為dfrA[53],會引起使用者的困惑;3)目前幾乎所有的數(shù)據(jù)庫僅關(guān)注編碼蛋白質(zhì)的耐藥基因的特性,而針對諸如rRNA 的原發(fā)突變、調(diào)控因子等其他可能導(dǎo)致的耐藥機制關(guān)注較少。
隨著測序技術(shù)的發(fā)展,各種檢測、分析方法及耐藥基因數(shù)據(jù)庫的逐步開發(fā)和完善,高通量測序技術(shù)已廣泛應(yīng)用于細菌耐藥領(lǐng)域。因細菌耐藥的復(fù)雜性,該技術(shù)在此領(lǐng)域的應(yīng)用尚存在諸如:檢測成本相對其他基于核酸檢測方法高、無標準化的檢測和分析流程、自動化程度低、對實驗操作人員和數(shù)據(jù)分析人員要求高、參考數(shù)據(jù)庫的準確度及范圍需要進一步提升等諸多需要改進之處。高通量測序技術(shù)在細菌耐藥領(lǐng)域的應(yīng)用能夠使人類更快、更全面、更準確的檢測細菌耐藥基因,可指導(dǎo)臨床合理用藥,在實現(xiàn)感染患者治療個體化、精準化的同時可減少抗生素的誤用和濫用;另細菌耐藥是一個系統(tǒng)性、高度復(fù)雜的體系,目前在人類、動物及環(huán)境中所發(fā)現(xiàn)的耐藥基因、耐藥機制僅僅為冰山一角。高通量測序技術(shù)的應(yīng)用可加速新的耐藥基因、耐藥機制的發(fā)現(xiàn),預(yù)測、監(jiān)控耐藥基因傳播流行趨勢,使人類能夠更深入、更全面的了解細菌耐藥的機制和流行趨勢,不但有助于遏制新的耐藥微生物出現(xiàn)和傳播,而且可以使人類盡早的采取預(yù)防措施,對于全球性的耐藥微生物防控具有重要的意義。
中國生物化學(xué)與分子生物學(xué)報2022年7期