亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        全基因組測序后質(zhì)粒的組裝與鑒定研究進展*

        2022-08-19 03:23:26茍秋鳳代富英謝擁軍
        成都醫(yī)學院學報 2022年4期
        關鍵詞:堿基染色體基因組

        茍秋鳳,代富英,曹 康,謝擁軍,潘 渠

        成都醫(yī)學院基礎醫(yī)學院 病原生物學教研室(成都 610500)

        全基因組測序(whole genome sequencing,WGS)從1977年發(fā)展至今,已成為一種快速、低成本獲取生物體全基因組的方法[1]。WGS可發(fā)現(xiàn)基因組變異,在微生物的分類鑒定中應用廣泛[2]。WGS經(jīng)歷了三代技術(shù)革新,二代測序和三代測序的結(jié)合已成為目前最廣泛的雜交測序方法[3-4]。雜交測序一方面使用長讀長跨越重復序列或缺口,另一方面使用短讀長糾正測序中錯誤的堿基[5]。GenBank數(shù)據(jù)庫中完成WGS的菌株越來越多,用傳統(tǒng)的DNA文庫或PCR擴增的方法無法獲得的質(zhì)??捎蒞GS數(shù)據(jù)進行組裝,但組裝質(zhì)粒的正確性和完整性需要進一步鑒定和分析。從WGS中準確識別染色體序列和質(zhì)粒序列是質(zhì)粒鑒定分析的先決條件[6]。WGS可獲得高質(zhì)量的質(zhì)粒序列,但很多組裝質(zhì)粒并不一定真實存在,質(zhì)粒的組裝仍存在較多問題,且尚未被解決,需改良WGS后的組裝。本文對WGS技術(shù)的發(fā)展、WGS后質(zhì)粒的組裝、質(zhì)粒的鑒定及質(zhì)粒組裝中存在的問題進行綜述。

        1 WGS的發(fā)展

        第一代測序技術(shù)以Sanger等[1]提出的鏈終止法及Maxam等[7]提出的鏈降解法為標志。Sanger測序使用4種帶有熒光標記的2′, 3′-二脫氧胸腺嘧啶三磷酸(2′, 3′-dideoxythymidine-5′-triphosphate,ddTTP)。在DNA合成中,因ddTTP在2′, 3′上不含羥基不能形成磷酸二脂鍵,特定在含胸苷酸的位置終止,阻止鏈的延伸;在DNA反應體系中分別加入4種帶有同位素熒光標記的ddTTP,在凝膠電泳顯影后,其條帶的位置可確定DNA序列[8]。1977年噬菌體phiX174使用Sanger測序法完成了基因組測序[8]。Sanger測序依賴于使用DNA聚合酶,在受控條件下轉(zhuǎn)錄DNA的特定區(qū)域,需要模板、引物及電泳分離產(chǎn)品,其特點為通量低,不適用于長片段測序。

        第二代測序也稱下一代測序,以瑞氏Roche公司的454測序、美國Illumina公司的Solexa/HiSeq測序和美國ABI公司的SOLiD系統(tǒng)高通量測序為標志[9]。Illumina測序技術(shù)采用合成測序技術(shù),將帶有固定接頭的文庫變性為單鏈并移植到流動槽上,然后進行橋接擴增,形成含有克隆DNA片段的簇。測序前文庫借助線性化酶連接成單鏈,然后用含有不同熒光、可移除保護基團的4種堿基補充模板,用電荷耦合器捕獲信號、分析數(shù)據(jù)[9]。Illumina測序技術(shù)主導第二代測序市場,測序速度快、成本低,其讀長正確率高達99.9%,但長度只有100~300 bp[3,10-11],導致許多基因組被分割成數(shù)百個或數(shù)千個讀長;而基因組包含許多長讀長的重復序列,短讀長導致片段化組裝或缺口,無法正確測重復序列,組裝的連續(xù)性較差[4,11-12]。二代測序依賴于PCR,而PCR擴增GC%極值區(qū)的效率低[11],準確測序GC%極值區(qū)難度較大。

        第三代測序以美國PacBio公司的單分子實時測序(single-molecule real-time sequencing,SMRT)和納米孔測序(oxford nanopore technologies sequencing,ONT)的長讀長測序技術(shù)為標志[13]。SMRT對單個DNA分子實時測序,通過SMRTbell(一種閉合的單鏈環(huán)狀DNA)的發(fā)夾結(jié)構(gòu)連接模板DNA,進入到芯片SMRTcell的最小測序單元ZMW中。ZMW底部固定的聚合酶與SMRTbell結(jié)合并開始復制,SMRTcell中4種不同熒光標記的核苷酸被結(jié)合時產(chǎn)生可識別的光脈沖數(shù)據(jù)即可進行分析[14]。SMRT比大多數(shù)測序方法更快,平均讀長>10 kb,但單次測序堿基錯誤率較高[15],通過多次測序可降低錯誤率,但受聚合酶活性限制,讀長和測序次數(shù)相互影響。SMRT吞吐量較低,1個SMRTcell中有150 000個ZMW,但只有35 000~70 000個ZMW可成功產(chǎn)生讀長。SMRT體積龐大,需要大量的初始投資,適用于大型測序中心,因測序成本較高導致使用受限[4, 14]。ONT在流動槽中進行,流動槽中的2個離子溶液被含有納米孔的膜隔開,當DNA經(jīng)過納米孔時,通過發(fā)生的電導率變化來識別DNA堿基,最后利用軟件進行數(shù)據(jù)處理,完成數(shù)據(jù)采集和分析[13, 16]。ONT通量高且快速,讀長的長度不受技術(shù)本身限制,與受測DNA分子長度有關,如果DNA質(zhì)量足夠,可獲得高達1 Mb的讀長。ONT的讀長錯誤率比SMRT高[4, 11],但新的文庫制備技術(shù)和堿基識別算法的錯誤率可降至12%[17]。ONT體積小且便宜,初始投資低,可在預防疾控中心進行快速測序,便于診斷[4]。SMRT和ONT的共同特征為產(chǎn)生長讀長,不需要引物和PCR擴增,減少或消除PCR擴增帶來的測序偏差。長讀長可跨過短讀長在重復序列和高GC%含量區(qū)產(chǎn)生缺口[18],提高基因組裝配的連續(xù)性,但由于較高的堿基錯誤率,需要在組裝前或組裝后使用短讀長校正組裝[19]。

        生物體通過WGS可獲得全部基因組信息。Pareek等[20-21]對人類和模式生物體進行WGS分析發(fā)現(xiàn),基因組有多種變異類型,例如單核苷酸多態(tài)性(single nucleotide polymorphisms,SNP)、拷貝數(shù)變異、復合物重排等。WGS可監(jiān)測癌癥基因突變,探索其功能或臨床意義[22-23]。微生物的WGS結(jié)果通過與已測菌株的序列比對,可發(fā)現(xiàn)新生物或鑒定特定的細菌生物。宏基因組測序也是一種快速檢測和發(fā)現(xiàn)新物種的測序方法,其基因組數(shù)據(jù)來自同一物種,不是單一的菌株,不需要對微生物分離和純化。已測序的宏基因組中包含許多未被鑒定的質(zhì)粒序列,從宏基因組數(shù)據(jù)中組裝質(zhì)粒計算量大且費時、費力[24]。細菌病原體的WGS具有流行病學監(jiān)測的潛力[25]。

        2 WGS后質(zhì)粒的組裝

        WGS后質(zhì)粒的組裝程序根據(jù)貪婪法、重疊布局共識(overlap-layout-consensus,OLC)、de Bruijn圖和字符串圖的不同算法來組裝序列[26]。二代測序的短讀長采用DBG進行組裝,而SMRT和ONT采用適用于長讀長組裝的OLC方法。MinION和SMRT產(chǎn)生的讀長用Falcon、Miniasm、Hybrid等組裝程序組裝發(fā)現(xiàn),SMRT讀長組裝的錯配數(shù)更少,精確度明顯高于MinION,但組裝程序?qū)畚?TTTTT、AAAAA、CCCCC和GGGGG)識別較差[4]。使用Illumina短讀長和ONT長讀長的聯(lián)合組裝(Unicycler)可充分利用二者優(yōu)勢,拼接富含質(zhì)粒的細菌基因組,組裝更大的重疊群[27]。Unicycler對WGS后質(zhì)粒的組裝包括7步:1)使用高準確度的Illumina短讀長進行組裝,設置k-mer值構(gòu)建重疊群[28],去除深度<50%DBG的重疊群,消除大多數(shù)污染序列;2)貪婪法使用測序深度和連接信息確定重疊群的多重性,將多重性分配給染色體重疊群之外的高拷貝數(shù)質(zhì)粒重疊群;3)通過構(gòu)建短讀長的搭橋連接成對的單拷貝重疊群,配對末端,短讀長可解析小重復序列;4)長讀長的搭橋,與多個單拷貝重疊群比對的長讀長可用于橋接,長讀長可解析更大的重復序列,橋接序列來自2個連續(xù)序列之間的圖,而不是長讀長,可提高序列的準確性,當存在多個橋接路徑時,根據(jù)與長讀長一致序列選擇最佳搭橋路徑;5)橋的應用,Unicycler為每一個橋分配了質(zhì)量分數(shù),并按質(zhì)量遞減順序應用橋,確保當存在多個矛盾的橋時,使用最佳匹配的選項;6)刪除已在橋中使用且不提供額外連接信息的重疊群,將橋合并形成大的重疊群,再使用TBLASTN搜索dnaA或repA等位基因[29],使其開始于正鏈上編碼的基因,降低基因在序列開始和結(jié)束處斷開的風險;7)使用短讀長對重疊群進行校正,降低不匹配率[30]。使用Unicycler組裝得到的質(zhì)粒,準確度由Illumina短讀長的準確度決定,可有效避免ONT長讀長拆分錯誤引入的序列污染,最后利用二代短讀長數(shù)據(jù)對組裝質(zhì)粒進行糾錯,得到準確度高的基因組。

        3 WGS后質(zhì)粒的鑒定

        WGS獲得大量片段化的質(zhì)粒讀長,通過對其組裝和解讀,進一步分析質(zhì)粒序列特征,了解菌株的生物學特性。隨著WGS技術(shù)的發(fā)展,GenBank數(shù)據(jù)庫中產(chǎn)生許多測序后組裝的質(zhì)粒,然而組裝質(zhì)粒并沒有得到鑒定和分析,分析質(zhì)粒序列仍具有挑戰(zhàn)性。鑒定質(zhì)粒的方法可分為2種[31]:1)從測序讀長或組裝圖中重建整個質(zhì)粒序列,如Recycler、PlasmidSPAdes、PLANCET[32-34];2)通過鑒定或驗證組裝的重疊群是否來自質(zhì)?!,F(xiàn)有鑒定重疊群是否來自質(zhì)粒的預測程序可分為3種[35]:1)通過標記基因搜索的方法,如搜索序列中復制子的PlasmidFinder[36];2)基于質(zhì)粒和染色體序列的基因組特征的方法,如根據(jù)質(zhì)粒序列和染色體序列的k-mer頻率的cBar、Plasmidseeker、Mlplasmids、PlasFlow[37-40];3)基于讀長深度和GC%含量特征鑒定質(zhì)粒[41]。

        Carattoli等[36]利用PlasmidFinder對559個質(zhì)粒序列進行鑒定,成功識別263個質(zhì)粒。PlasmidFinder是依據(jù)參考復制子來鑒定質(zhì)粒序列,因此無法鑒定與參考質(zhì)粒序列無明顯相似性的新型質(zhì)粒[33]。Zhou等[37]根據(jù)五聚體頻率的差異,使用cBar程序從881個完全測序的原核生物基因組中區(qū)分染色體序列和質(zhì)粒序列,分類準確度為92%。Roosaare等[38]用Plasmidseeker對8 514個質(zhì)粒序列進行檢測,發(fā)現(xiàn)其靈敏度達100.00%,特異性為99.98%,但無法檢測拷貝數(shù)低且與參考質(zhì)粒相似性低的質(zhì)粒。研究[42]顯示,質(zhì)粒檢測的敏感性cBar最高(87.45%),其次是PlasmidSPAdes(81.49%)和PlasmidFinder(36.47%)。但另一項研究[40]表明,cBar錯誤預測其他序列為質(zhì)粒序列(假陽性)的錯誤率達6.46%。在一項148個參考質(zhì)粒的鑒定案例中,PlasmidSPAdes正確預測了125個質(zhì)粒,cBar正確預測了84個質(zhì)粒,Recycler正確預測了21個質(zhì)粒,PlasmidFinder正確預測了13個質(zhì)粒[31]。綜上,質(zhì)粒的組裝或鑒定工具的檢測能力有明顯差異,無法正確檢測質(zhì)粒,WGS裝配工具的精度有待進一步提高。

        4 WGS后質(zhì)粒組裝存在的問題

        在一項對植物乳桿菌PC518菌株進行WGS發(fā)現(xiàn),通過全質(zhì)粒組測序和PCR擴增全序列的方法鑒定了WGS后的組裝質(zhì)粒[43]。PCR擴增結(jié)果顯示,大質(zhì)粒只能被擴增出一段序列,并非真實存在的質(zhì)粒(假陽性質(zhì)粒),表明大質(zhì)粒序列中可能出現(xiàn)染色體序列或其他質(zhì)粒序列的錯誤識別并被組裝到1個質(zhì)粒上。WGS和全質(zhì)粒組測序的2次測序均組裝出序列一致的大質(zhì)粒,表明染色體序列和質(zhì)粒序列仍難正確區(qū)分[42]。在WGS和全質(zhì)粒組測序中有部分堿基不同的組裝質(zhì)粒,表明WGS中存在錯誤測序的堿基。在全質(zhì)粒組測序中出現(xiàn)1個WGS中未發(fā)現(xiàn)的質(zhì)粒,經(jīng)PCR驗證是1個完整的質(zhì)粒。經(jīng)過BLAST比對分析發(fā)現(xiàn),該質(zhì)粒被錯誤組裝在WGS的大質(zhì)粒上,WGS中出現(xiàn)假陰性質(zhì)粒。WGS未能正確組裝出質(zhì)粒的重復序列,當基因組序列中有高度重復序列區(qū)、插入序列、極端GC%含量或不同的甲基化模型時,短讀長會產(chǎn)生不正確的組裝[44-45]。

        從WGS數(shù)據(jù)中鑒定質(zhì)?;蛉旧w的序列是一大挑戰(zhàn),然而質(zhì)粒重疊群的合并比其鑒別更困難[41],短讀長測序無法解析重復元件,導致每個基因組產(chǎn)生數(shù)百個重疊群[34]。有研究[18]描述WGS后基因組組裝中遇到的問題:利用短讀長組裝無法解決rRNA的長串聯(lián)拷貝、其他串聯(lián)重復序列和高GC%含量的區(qū)域(90%~100%)引起的問題。質(zhì)粒組裝過程中存在多種重復:質(zhì)粒內(nèi)重復是指質(zhì)粒內(nèi)的重復;質(zhì)粒間重復是指由多個質(zhì)粒共享的重復;共享重復是指在質(zhì)粒和染色體之間共享的重復[46]。這些重復序列可以是2個或數(shù)百萬個拷貝,用短讀長測序技術(shù)難以解決。短讀長測序產(chǎn)生數(shù)百個染色體和質(zhì)粒重疊群組成的片段組合,短讀長從頭組裝,導致片段化組裝和錯誤組裝[39]。Arredondo-Alonso等[31]研究表明,長片段測序可幫助染色體和染色體外序列的解析。長讀長測序雖可改善基因組組裝的連續(xù)性問題,提高重復序列的裝配質(zhì)量,但仍有較多的插入或缺失難以檢測和糾正[42]。

        隨著Illumina測序技術(shù)不斷增長,在同一流動池中,對多個樣本同時測序變得越來越普遍。每個樣本使用索引,然后在相同的流動池中一起測序,因存在一些混合的可能性,其中基因組DNA讀取被分配到錯誤的索引,從而被分配到錯誤的樣本中[47]。這些污染序列來自其他DNA樣本的交叉污染,或是用于測序的DNA樣本中的細菌污染,或是測序中特意引入用于質(zhì)量控制的噬菌體DNA。污染序列影響下游數(shù)據(jù)分析的質(zhì)量,導致序列錯誤組裝,去除污染序列是所有測序項目的標準質(zhì)量控制。利用BLAST與參考基因比對,排除污染序列,其速度慢且參考基因的空白或基因組中結(jié)構(gòu)變異均可出現(xiàn)假陽性結(jié)果[48]。當一個樣本被不同基因型的DNA污染時,得到不同單核苷酸多態(tài)性等位基因比率,然后通過篩選對污染序列進行識別和定量[49]。污染序列隨著測序深度增加而減少,因此提高測序深度可降低污染序列的影響[50]。

        由于一些質(zhì)粒不包含任何明顯的質(zhì)?;?,質(zhì)粒逃避檢測或因質(zhì)??截悢?shù)與染色體相似,可預測出假陰性質(zhì)粒。一些錯誤分類的染色體重疊群作為質(zhì)粒來源,或非質(zhì)粒的環(huán)鏈被報告為質(zhì)粒[42,46]。因受到染色體序列的污染,質(zhì)粒預測通常是不完整的,在預測的質(zhì)粒中經(jīng)常存在染色體衍生的重疊群[39]。因重復序列的存在,在區(qū)分染色體序列和質(zhì)粒序列方面仍存在一定問題[42]。質(zhì)粒常攜帶重復元件,組裝質(zhì)粒與其他質(zhì)粒和微生物基因組有共享基因[32],細菌基因組中頻繁出現(xiàn)的插入序列和轉(zhuǎn)座元件阻止了質(zhì)粒的完整組裝。

        5 展望

        WGS后質(zhì)粒的組裝和鑒定是一項艱巨的任務,SMRT和ONT具有很大的發(fā)展?jié)摿?,然而堿基的高錯誤率對正確組裝質(zhì)粒序列提出挑戰(zhàn)。組裝質(zhì)粒獲得有利于質(zhì)粒工具的發(fā)展,但這些組裝質(zhì)粒存在錯誤組裝、假陽性質(zhì)粒、假陰性質(zhì)粒的問題。WGS后質(zhì)粒組裝的精度需要專業(yè)技術(shù)人員參與,更新組裝軟件,改良WGS后的質(zhì)粒組裝。

        猜你喜歡
        堿基染色體基因組
        牛參考基因組中發(fā)現(xiàn)被忽視基因
        應用思維進階構(gòu)建模型 例談培養(yǎng)學生創(chuàng)造性思維
        中國科學家創(chuàng)建出新型糖基化酶堿基編輯器
        生命“字母表”迎來4名新成員
        科學24小時(2019年5期)2019-06-11 08:39:38
        多一條X染色體,壽命會更長
        科學之謎(2019年3期)2019-03-28 10:29:44
        生命“字母表”迎來4名新成員
        為什么男性要有一條X染色體?
        科學之謎(2018年8期)2018-09-29 11:06:46
        能忍的人壽命長
        再論高等植物染色體雜交
        基因組DNA甲基化及組蛋白甲基化
        遺傳(2014年3期)2014-02-28 20:58:49
        久久精品国产亚洲精品色婷婷| 亚洲精品suv精品一区二区 | 日本精品一区二区三区二人码| 激情内射日本一区二区三区| 91精选视频在线观看| av无码精品一区二区三区宅噜噜| 欧美亚洲国产精品久久高清| 免费无码AⅤ片在线观看| 国产亚洲av综合人人澡精品| 婷婷丁香五月激情综合| 比比资源先锋影音网| AV熟妇导航网| av在线不卡免费中文网| 欧美不卡一区二区三区| 最近中文字幕完整版| 无码AV午夜福利一区| 国产精品国产三级国产剧情| 国产人成无码视频在线观看 | 中国老熟妇自拍hd发布| 大陆国产乱人伦| 人妖与人妖免费黄色片| 97人妻人人揉人人躁九色| 欧美 变态 另类 人妖| 全部免费国产潢色一级| 97人妻精品一区二区三区免费| 中国妇女做爰视频| √天堂中文官网8在线| 亚洲va中文字幕欧美不卡| 国产一区二区三区啊啊| 国产白浆一区二区三区性色| 日韩一卡2卡3卡4卡新区亚洲| 337p日本欧洲亚洲大胆色噜噜 | 日韩精品久久久久久久电影蜜臀 | 2021久久精品国产99国产| 久久日本视频在线观看| 寂寞少妇做spa按摩无码| 国产成人国产在线观看入口| 性感人妻av在线播放| 青春草免费在线观看视频| 激情内射亚州一区二区三区爱妻| 99久久久精品免费|