李曼詩 黃巍峰 陸一涵△
(1復(fù)旦大學(xué)公共衛(wèi)生學(xué)院流行病學(xué)教研室-公共衛(wèi)生安全教育部重點實驗室 上海 200032;2上海交通大學(xué)附屬第六人民醫(yī)院重癥醫(yī)學(xué)科 上海 200233)
感染性疾病一直是全球范圍內(nèi)的重要公共衛(wèi)生問題。在其診療中,快速、準(zhǔn)確地識別病原體至關(guān)重要。傳統(tǒng)檢測方法主要包括形態(tài)學(xué)檢測、培養(yǎng)分離、生化檢測、免疫學(xué)和核酸檢測等,操作簡單、檢測成本相對較低,同時具有較好的靈敏度和特異度,目前臨床仍然廣泛應(yīng)用。然而,傳統(tǒng)檢測方法耗時較長,例如培養(yǎng)試驗平均反饋時間為:細(xì)菌3天、真菌 7 天、分枝桿菌 45 天[1]。此外,感染性疾病的病原體種類繁多,傳統(tǒng)檢測方法僅能針對幾種常見病原體,且檢測項目很大程度上依賴臨床醫(yī)師的判斷,因此難以識別未知或罕見的病原體。臨床上超過2/3 的感染性疾病可能無法鑒定病原體,導(dǎo)致治療措施缺乏針對性[2]。
基于第二代測序技術(shù)的宏基因組測序(metagenomic next-generation sequencing,mNGS)可以直接對臨床標(biāo)本中的所有核酸進(jìn)行高通量測序,無需特異性擴(kuò)增,更不需要微生物培養(yǎng),因此可在較短時間(平均48 h)內(nèi)獲得標(biāo)本中的核酸序列,然后通過生物信息學(xué)判讀分析病原體種類及豐度等信息[3]。目前主要有兩種方法進(jìn)行mNGS 物種注釋:(1)有參/基于讀長(reads-based/assembly-free)方法,不進(jìn)行序列組裝,直接將序列與參考數(shù)據(jù)庫進(jìn)行比對,其結(jié)果的準(zhǔn)確性與參考數(shù)據(jù)庫密切相關(guān),且比對速度取決于比對方法和硬件、軟件配置;(2)無 參/基 于 組 裝 或 拼 接(assembly-based/de novo)方法,對質(zhì)控后的序列進(jìn)行組裝/拼接,得到重疊群后進(jìn)行基因注釋和預(yù)測,需要更深的測序深度、更高的時間成本和硬件、軟件要求,且容易遺失相對豐度較低的物種??紤]到人體相關(guān)微生物的參考基因組和參考數(shù)據(jù)庫相對豐富,以及時間和設(shè)備問題,臨床應(yīng)用mNGS 分析主要采用有參/基于讀長方法注釋微生物。
目前,對于mNGS 下游生物信息學(xué)分析,各個實驗室均建立了個性化的分析方法,尚無統(tǒng)一的標(biāo)準(zhǔn)。由于有參方法進(jìn)行物種注釋時高度依賴所選擇的參考數(shù)據(jù)庫,因此不同實驗室的判讀結(jié)果可能存在較大差異。根據(jù)《中國宏基因組學(xué)第二代測序技術(shù)檢測感染病原體的臨床應(yīng)用專家共識》推薦,物種注釋時采用的數(shù)據(jù)庫應(yīng)達(dá)到臨床應(yīng)用級別,且要求其能較好地區(qū)分臨床常見病原體種別[4]。因此,本研究收集感染性疾病患者不同類型標(biāo)本的mNGS 測序數(shù)據(jù),分別采用兩個參考數(shù)據(jù)庫進(jìn)行微生物注釋,然后調(diào)整判讀標(biāo)準(zhǔn),分析注釋結(jié)果的一致性,從而為建立更適用的臨床mNGS 結(jié)果判讀標(biāo)準(zhǔn)提供科學(xué)依據(jù)。
研究對象2019 年 6 月—2020 年 10 月,在上海市第六人民醫(yī)院城市醫(yī)聯(lián)體下屬上海市第六人民醫(yī)院、上海市第六人民醫(yī)院東院、上海市普陀區(qū)中心醫(yī)院、上海市金山區(qū)中心醫(yī)院等4 家醫(yī)院收集感染性病例。納入標(biāo)準(zhǔn):(1)18 周歲以上;(2)具有發(fā)熱(體溫>38 ℃)、頭痛、畏寒、寒戰(zhàn)、腦膜刺激征、嘔吐、抽搐、局灶性神經(jīng)功能障礙、意識改變或嗜睡等感染性疾病癥狀患者。排除標(biāo)準(zhǔn):(1)病史資料不全;(2)拒絕進(jìn)行mNGS。本研究已獲上海市第六人民醫(yī)院倫理委員會批準(zhǔn)(審批編號:2019-087)。納入的患者及其家屬均簽署知情同意書。
標(biāo)本采集采集的標(biāo)本類型主要包括外周血、腦脊液、痰液、肺泡灌洗液等多種類型。臨床醫(yī)師根據(jù)患者感染部位采集標(biāo)本,并盡可能在急性期進(jìn)行采集,無菌封裝后統(tǒng)一送至探因醫(yī)學(xué)科技(浙江)有限公司,-20 ℃保存并及時送檢,避免反復(fù)凍融[5-6]。
DNA 提取與測序采用Tiangen Magnetic DNA Kit[中國天根生化科技(北京)有限公司]試劑盒提取DNA,使用Bioruptor 非接觸式超聲波破碎儀(比利時Diagenode 公司)將其片段化為150~300 bp 長度。使用KAPA Library Preparation kit(美國KAPA Biosystem 公司)試劑盒構(gòu)建文庫。使用Illumina NextSeq 550Dx(美國Illumina 公司)基因測序儀進(jìn)行高通量測序。去除接頭、低質(zhì)量堿基、重復(fù)和<36 bp 的短讀長后,使用Bowtie2 軟件(2.3.5版本)[7]與人類參考基因組(hs37d5)進(jìn)行比對并去除人源序列。
微生物注釋本研究采用2 個常用的數(shù)據(jù)庫注釋質(zhì)控后的核酸序列:(1)使用Bowtie2 軟件(2.3.5版本)與 NCBI(National Center for Biotechnology Information)的 NR 數(shù)據(jù)庫(Non-Redundant Protein Sequence Database)進(jìn)行比對,該數(shù)據(jù)庫覆蓋臨床常見細(xì)菌 7 982 種、真菌 917 種、病毒 7 811 種、寄生蟲124 種,共16 834 種病原微生物。該數(shù)據(jù)庫為NCBI BLAST 功能依托的重要數(shù)據(jù)庫,為避免蛋白質(zhì)序列冗余而在RefSeq 等多個參考數(shù)據(jù)庫基礎(chǔ)上設(shè)計而成。截至 2021 年 1 月,NR 數(shù)據(jù)庫包含 87 GB 的Fasta 格式文件(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/),基本包含所有人類及非人類宿主和自然環(huán)境中的已知微生物序列。(2)使用MetaPhlAn2(Metagenomic Phylogenetic Analysis)軟件(2.7.5 版本)與其參考數(shù)據(jù)庫進(jìn)行比對,該數(shù)據(jù)庫整理超過17 000 種參考基因組,包括13 500 種細(xì)菌和古菌、3 500 種病毒和110 種真核生物,匯編超過100 萬類群特異的標(biāo)記基因[8]。MetaPhlAn2 軟件可實現(xiàn)精確地分類群識別,能夠準(zhǔn)確估計物種的相對豐度,并可達(dá)到種水平的精度,分析速度快于NCBI BLAST。以上兩個數(shù)據(jù)庫均對公眾免費(fèi)開放。
統(tǒng)計學(xué)分析使用SAS 9.4 軟件計算兩個數(shù)據(jù)庫結(jié)果的一致性和Kappa 值,并對Kappa 值進(jìn)行Z檢驗,檢驗水準(zhǔn)α=0.05。
微生物注釋結(jié)果本研究共收集感染性疾病患者標(biāo)本174 份,包括外周血、腦脊液、痰液、肺泡灌洗液、尿液、胸水、肛拭子、引流液(表1)。通過與NCBI 數(shù)據(jù)庫比對,共有117 份標(biāo)本檢出微生物(67.2%),包括 185 種細(xì)菌、11 種病毒、12 種真菌;通過與MetaPhlAn2 數(shù)據(jù)庫比對,共有162 份標(biāo)本檢出微生物(93.1%),注釋出 307 種細(xì)菌、31 種病毒、5 種真菌。不同標(biāo)本的微生物檢出率存在差異,外周血和腦脊液的檢出率相對較低,其他標(biāo)本的檢出率較高。
表1 微生物注釋結(jié)果(NCBI 數(shù)據(jù)庫與MetaPhlAn2 數(shù)據(jù)庫)Tab 1 Taxonomic profile result(NCBI database and MetaPhlAn2 database) [n(%)]
NCBI 數(shù)據(jù)庫的注釋結(jié)果中,細(xì)菌多為肺炎克雷伯菌、屎腸球菌、鮑曼不動桿菌等,病毒多為人類皰疹病毒(1 型、4 型 EB 病毒、5 型巨細(xì)胞病毒、7 型)和人類細(xì)小病毒B19,真菌則多為白假絲酵母菌、耶氏肺孢子菌等。MetaPhlAn2 數(shù)據(jù)庫注釋結(jié)果中,則包含多種較為罕見的病原體,包括紅串紅球菌、樊慶生紅球菌等細(xì)菌,細(xì)環(huán)病毒、EB 病毒和多種植物病毒,以及杜氏假絲酵母菌等真菌。
微生物注釋結(jié)果的比較本研究首先基于數(shù)據(jù)庫的原始注釋結(jié)果,按照“是否檢出微生物”,計算兩個數(shù)據(jù)庫注釋結(jié)果的一致性僅為67.2%,Kappa 值為0.067 7(Z=1.3189,P=0.093 6);按照檢出微生物種類(細(xì)菌、病毒、真菌、未檢出),則一致性僅為36.8%,Kappa值為0.1779(Z=5.278 1,P<0.001)。
然后調(diào)整兩個數(shù)據(jù)庫注釋結(jié)果的判讀標(biāo)準(zhǔn),比較一致性。將MetaPhlAn2 數(shù)據(jù)庫注釋結(jié)果中的多種細(xì)菌(紅串紅球菌、樊慶生紅球菌)、病毒(細(xì)環(huán)病毒、植物病毒)、真菌(杜氏假絲酵母菌)均判為背景微生物(即不計入檢出微生物),重新計算兩個數(shù)據(jù)庫注釋結(jié)果的一致性為67.9%,Kappa 值為0.371 3(Z=5.354 3,P<0.001)。進(jìn)一步將 NCBI 數(shù)據(jù)庫注釋的疑似背景微生物也全部判為背景微生物,則不同類型標(biāo)本的檢出微生物種類趨于一致(表2);此時計算一致性為73.0%,Kappa 值為0.571 2(Z=11.736 2,P<0.001,表 3)。
表2 注釋結(jié)果判讀調(diào)整后的檢出的排序前三位的微生物(NCBI 數(shù)據(jù)庫與MetaPhlAn2 數(shù)據(jù)庫)Tab 2 Top three detected species after adjusting interpretation criteria(NCBI database and MetaPhlAn2 database)
表3 注釋結(jié)果判讀調(diào)整后的檢出微生物種類比較Tab 3 Taxonomic profile after adjusting interpretation criteria
本研究也區(qū)分不同類型標(biāo)本,比較兩個數(shù)據(jù)庫注釋結(jié)果的一致性。結(jié)果發(fā)現(xiàn),腦脊液標(biāo)本中檢出一致性最高,為 76.0%,Kappa 值為 0.509 8(Z=4.135 9,P<0.001),且檢出微生物種類(具體到“種”)的一致性為 74.0%,Kappa 值為 0.512 0(Z=5.139 2,P<0.001);外周血標(biāo)本次之,為 69.9%,Kappa值為 0.360 6(Z=4.272 4,P<0.001),檢出微生物種類的一致性也為69.9%,Kappa 值為0.408 3(Z=6.412 2,P<0.001)。其他類型標(biāo)本一致性較低。
目前,mNGS 在臨床和科研中的應(yīng)用愈加廣泛。2019 年在武漢不明原因肺炎患者肺泡灌洗液標(biāo)本中利用mNGS 發(fā)現(xiàn)新型冠狀病毒并進(jìn)行了全基因組測序[9-10]。在 mNGS 技術(shù)的運(yùn)用過程中,由于檢測的靈敏性和無偏向性,即使是采集自無菌部位的標(biāo)本,也可能注釋出多種微生物,因此如何更準(zhǔn)確地識別標(biāo)本中包含的物種信息至關(guān)重要[11]。早期研究一般利用NCBI BLAST 功能將所有測序結(jié)果與參考數(shù)據(jù)庫中收錄的微生物基因組全長序列進(jìn)行比對;然而,該方法十分耗費(fèi)時間和計算資源,對應(yīng)的軟硬件需求較高,隨著測序數(shù)量和深度增加,這種方法難以滿足分析需求。為了解決這一問題,已陸續(xù)建立多種生物信息學(xué)分析方法,其中之一就是MetaPhlAn2 所代表的標(biāo)記基因方法。該方法從現(xiàn)有數(shù)據(jù)庫的所有微生物參考序列中,整理出物種特異的標(biāo)記基因,降低了比對序列的數(shù)量和長度,從而減少分析時間、降低計算資源的需求,該方法已被用于人類微生物組計劃[12]。本研究發(fā)現(xiàn),不同部位臨床標(biāo)本中MetaPhlAn2 注釋獲得更多微生物種類,提示該數(shù)據(jù)庫靈敏度更高。然而,該方法也識別了很多可能屬于背景的微生物,其在腦脊液、外周血等無菌部位標(biāo)本的物種注釋率相對較低,而其他部位標(biāo)本則相對較高,這表明開放部位標(biāo)本可能包含定植菌或易于受外界微生物污染,導(dǎo)致物種檢出率升高。之前有研究報道,mNGS 發(fā)現(xiàn)健康人外周血亦存在微生物核酸序列[13]。因此,在臨床應(yīng)用mNGS 時,需要根據(jù)檢測的微生物種類和檢出序列數(shù)等不同情況調(diào)整判讀標(biāo)準(zhǔn),注意剔除試劑、環(huán)境、測序和生物信息分析流程中引入的假陽性病原體信息[11]。
本研究在分別調(diào)整NCBI 和MetaPhlAn2 的判讀標(biāo)準(zhǔn)后,兩者檢出微生物種類(細(xì)菌、病毒、真菌、未檢出)和檢出微生物種別(具體到“種”)的一致性均大幅度提高。既往研究在確定感染病原體時,與陰性對照比較后,一般先排除臨床常見的背景微生物,然后排除測序前后批次中50%以上標(biāo)本出現(xiàn)的物種,結(jié)合臨床信息和傳統(tǒng)實驗室檢測,最后對潛在病原體進(jìn)行驗證[14]。確認(rèn)是否為條件致病菌感染時,建議綜合考慮患者的免疫狀態(tài)、是否合并基礎(chǔ)疾病、標(biāo)本采集部位等臨床信息[15]。本研究發(fā)現(xiàn),在腦脊液、外周血等無菌部位標(biāo)本中,MetaPhlAn2 方法與傳統(tǒng)的NCBI 數(shù)據(jù)庫方法一致性較好,鑒于MetaPhlAn2 較快的分析速度和較低的計算資源要求,可考慮推薦在無菌部位標(biāo)本中采用該物種注釋方法,從而快速指導(dǎo)臨床診療。
由于采集樣本量較小,本研究代表性受一定限制,同時僅考慮測序結(jié)果與兩個數(shù)據(jù)庫注釋情況,且未與患者臨床信息和傳統(tǒng)實驗室檢測指標(biāo)相結(jié)合分析,對臨床治療指導(dǎo)價值有限。
本研究發(fā)現(xiàn)在無菌標(biāo)本中,MetaPhlAn2 的準(zhǔn)確度不遜于傳統(tǒng)的NCBI??紤]到MetaPhlAn2 對計算機(jī)計算能力要求較低,便于臨床使用,因此該數(shù)據(jù)庫可以作為NCBI 的補(bǔ)充:首先根據(jù)MetaPhlAn2判讀結(jié)果快速識別病原體、先行指導(dǎo)治療;然后根據(jù)NCBI 判讀結(jié)果進(jìn)行修正,從而實現(xiàn)更快速的診療。
作者貢獻(xiàn)聲明李曼詩 數(shù)據(jù)整理、統(tǒng)計分析,論文撰寫。黃巍峰 研究設(shè)計,數(shù)據(jù)采集,論文修改。陸一涵 研究設(shè)計,論文構(gòu)思和修改。
利益沖突聲明所有作者均聲明不存在利益沖突。