王楷宬,王 通,莊青葉,邱 源,彭 程,王素春,陳繼明
(中國(guó)動(dòng)物衛(wèi)生與流行病學(xué)中心,山東青島 266032)
?
習(xí)題與答案
甲型流感病毒快速分型與分析軟件的開(kāi)發(fā)與試用
王楷宬,王 通,莊青葉,邱 源,彭 程,王素春,陳繼明
(中國(guó)動(dòng)物衛(wèi)生與流行病學(xué)中心,山東青島 266032)
摘 要:甲型流感病毒危害動(dòng)物和人類健康,其亞型多、突變率高、易發(fā)生重配,因此對(duì)其進(jìn)行檢測(cè)及流行毒株基因分析尤為重要。為解決傳統(tǒng)方法進(jìn)行大量甲型流感病毒序列分型和分析時(shí)存在的費(fèi)工耗時(shí)、人為錯(cuò)誤多等問(wèn)題,結(jié)合實(shí)際工作需要,使用Perl語(yǔ)言建立了一套lunix系統(tǒng)下的甲型流感病毒快速分型與分析軟件,并試用其對(duì)GenBank中所有宿主為鴨的甲型流感病毒進(jìn)行了分析。結(jié)果顯示,該軟件可在較短的時(shí)間內(nèi)完成大量序列的分析、分型和遺傳進(jìn)化研究,可用于甲型流感病毒的大規(guī)模流行病學(xué)調(diào)查分析。
關(guān)鍵詞:甲型流感病毒;基因分析;亞型;遺傳進(jìn)化
甲型流感病毒能感染多種宿主,包括家禽、豬、馬、野生鳥(niǎo)類和人等溫血?jiǎng)游?。有關(guān)甲型流感流行的記錄已超過(guò)百年[1],先后造成了1918年、1957年、1968年和2009年四次全球性流感大流行,對(duì)人類的生命健康和社會(huì)生活形成了巨大威脅。對(duì)獸醫(yī)工作有重要意義的禽流感病毒也屬甲型流感病毒。在我國(guó),有多種亞型的甲型流感病毒流行,時(shí)有導(dǎo)致動(dòng)物疫情和公共衛(wèi)生事件的發(fā)生,如2013年發(fā)生的“H7N9流感事件”[2]。
甲型流感病毒屬于正黏病毒科、流感病毒屬的單股負(fù)鏈RNA病毒,其基因組由8個(gè)單股負(fù)鏈RNA片段組成[3]。其粒子表面有血凝素(Hemagglutinin,HA)和神經(jīng)氨酸酶(Neuraminidase,NA)兩種表面結(jié)構(gòu)蛋白。根據(jù)HA和NA的抗原性差異可分為18種HA亞型(H1~H18)和11種NA亞型(N1~N11)[4-6]。不同亞型甲型流感病毒的致病性和宿主嗜性等均有較大差異。低保真RNA聚合酶會(huì)引起病毒的高突變率和重組,造成病毒分子出現(xiàn)多樣性,使每個(gè)病毒亞型可變異為多種不同的分支[7]。通常一個(gè)堿基對(duì)的突變,也可引起病毒對(duì)宿主感染能力的改變[8]。由于其亞型多、突變率高、易發(fā)生重配,所以檢測(cè)并對(duì)流行毒株進(jìn)行基因分析尤為重要。
通常需要使用RT-PCR方法擴(kuò)增甲型流感的HA和NA基因,再通過(guò)Blast比對(duì)確定其亞型,之后再與同一亞型的其他流行毒株的序列進(jìn)行遺傳演化分析,然后才能確定其分支。在對(duì)大量樣品進(jìn)行檢測(cè)和分析的流行病學(xué)調(diào)查中,需要對(duì)每個(gè)病毒的亞型進(jìn)行確定,還要將同一亞型的病毒序列進(jìn)行分類整理和分析,導(dǎo)致效率較低。而使用MEGA 等windows系統(tǒng)下的分析軟件進(jìn)行序列比對(duì),耗時(shí)過(guò)長(zhǎng),且需要進(jìn)行大量的人工整理與比對(duì),造成分析結(jié)果人為錯(cuò)誤的機(jī)會(huì)較多。針對(duì)這一問(wèn)題,本文結(jié)合實(shí)際工作,建立了一套lunix系統(tǒng)下的甲型流感病毒快速分型與分析軟件,并試用其對(duì)Gen-Bank中宿主為鴨的所有甲型流感病毒進(jìn)行了亞型和遺傳演化分析。
表1 參考序列統(tǒng)計(jì)表
1.1設(shè)備與操作系統(tǒng)
高性能計(jì)算平臺(tái)為Dell T630塔式服務(wù)器,具有 2顆 Intel(R)Xeon(R)CPU E5-2620 v3 @ 2.40GHz,內(nèi)存264 G,存儲(chǔ)23 T,操作系統(tǒng)版本為CentOS Linux release 7.1.1503 (Core),由中國(guó)動(dòng)物衛(wèi)生與流行病學(xué)中心搭建。
1.2分析軟件構(gòu)建
1.2.1參考序列篩選。為快速準(zhǔn)確進(jìn)行甲型流感病毒的分型,從GenBank中嚴(yán)格篩選了35條甲型流感病毒序列作為參考序列,這些序列包含了甲型流感病毒的全部亞型,見(jiàn)表1。
1.2.2分型理論基礎(chǔ)。為對(duì)甲型流感病毒的序列進(jìn)行分型解析,將其與35條參考序列進(jìn)行比對(duì)。根據(jù)比對(duì)同源性,在35條參考序列中,篩選與病毒序列親緣關(guān)系最近的一條,若同時(shí)滿足閾值標(biāo)準(zhǔn),則該序列與此參考序列是同一基因或亞型。同時(shí)為實(shí)現(xiàn)大批量樣本分型解析,采用并行化與自動(dòng)化的方式進(jìn)行數(shù)據(jù)處理,將同一基因或同一亞型基因自動(dòng)整合為一個(gè)文件,自動(dòng)進(jìn)行序列對(duì)齊與分析。本分型軟件擬通過(guò)將待分析序列(Query序列)與參考序列(Ref序列)進(jìn)行BLAST(軟件版本2.2.26)比對(duì),根據(jù)比對(duì)結(jié)果中Query序列與Ref序列的同源性進(jìn)行分析,選取最優(yōu)的比對(duì)結(jié)果作為分型判定依據(jù)。由于BLAST采用局部比對(duì)的算法,因此,在同源比對(duì)過(guò)程中,兩兩序列比對(duì)結(jié)果可能會(huì)分成多個(gè)局部比對(duì)結(jié)果輸出。親緣關(guān)系較遠(yuǎn)的序列之間由于局部具有較高相似性,也會(huì)具有較高的比對(duì)分值(E-value)與同源性值(identity),并作為一個(gè)比對(duì)結(jié)果輸出出來(lái)。但綜合考慮比對(duì)長(zhǎng)度因素,二者之間并不存在真正的同源關(guān)系,這會(huì)給分析造成干擾,出現(xiàn)假陽(yáng)性結(jié)果。新開(kāi)發(fā)的這款軟件,能對(duì)兩條序列局部的比對(duì)結(jié)果進(jìn)行重新計(jì)算。首先,對(duì)原始BLAST結(jié)果進(jìn)行過(guò)濾,過(guò)濾掉比對(duì)長(zhǎng)度小于50 bp,并且identity值小于50的比對(duì)(這些比對(duì)由于同源性較低,會(huì)給計(jì)算帶來(lái)干擾)。然后,通過(guò)Query序列比對(duì)到Ref序列的位置信息,將兩條序列的多個(gè)比對(duì)結(jié)果進(jìn)行合并,計(jì)算Query序列與Ref序列的覆蓋比率。設(shè)定一條Query序列長(zhǎng)度為Q(length),比對(duì)到的參考序列長(zhǎng)度為R(length),二者之間的比對(duì)長(zhǎng)度為L(zhǎng),則Query序列的覆蓋比率為Query (coverage)為:
參考序列的覆蓋比率Ref (coverage)為:
由于計(jì)算的比對(duì)長(zhǎng)度L已經(jīng)為過(guò)濾之后滿足條件的同源比對(duì),因此,最終計(jì)算得到的Query序列與參考序列的覆蓋比率,考慮了序列長(zhǎng)度因素,具有更高的準(zhǔn)確性。最終設(shè)定閾值為,當(dāng)Query (coverage)或者Ref(coverage)值大于60%時(shí),則Query序列與Ref序列為相同的基因或亞型。
1.2.3并行化計(jì)算。一組Query序列之間是相互獨(dú)立的,每條序列需獨(dú)立與35條參考序列進(jìn)行比對(duì)。因此,為提高計(jì)算效率,采用并行化處理和比對(duì)方式,將每條Query序列同時(shí)與參考序列進(jìn)行BLAST比對(duì)計(jì)算,以期大大提高分析速度。
1.2.4系統(tǒng)發(fā)育樹(shù)構(gòu)建。在完成序列分型鑒定之后,將具有同一亞型的序列整合,進(jìn)行系統(tǒng)發(fā)育分析。選擇MEGA-CC軟件(軟件版本 7.0.7)對(duì)同一基因或同一亞型的Query序列進(jìn)行多序列比對(duì),比對(duì)之后采用MEGA-CC對(duì)多序列比對(duì)結(jié)果進(jìn)行系統(tǒng)發(fā)育樹(shù)構(gòu)建。采用并行化的處理方式,對(duì)每個(gè)基因或每個(gè)亞型的基因并行化計(jì)算。
1.2.5自動(dòng)化。采用傳統(tǒng)人工方法進(jìn)行數(shù)據(jù)處理,需消耗大量時(shí)間,并且產(chǎn)生人為誤差的幾率較大。新開(kāi)發(fā)的自動(dòng)化的數(shù)據(jù)處理軟件,在程序中加入了上文提到的并行化處理方法。該軟件能夠?qū)崿F(xiàn)從數(shù)據(jù)比對(duì)、甲型流感病毒分型和整理、結(jié)果統(tǒng)計(jì)以及系統(tǒng)發(fā)育樹(shù)等過(guò)程的自動(dòng)化完成,只需將Query序列調(diào)入分析,即可完成所有數(shù)據(jù)的處理工作。
1.3GenBank中鴨源甲型流感病毒的序列分析
利用該分析軟件,從GenBank下載了25 815條宿主為鴨的甲型流感病毒序列進(jìn)行軟件的驗(yàn)證工作,序列詳細(xì)統(tǒng)計(jì)見(jiàn)表2。
表2 GenBank 中鴨源甲型流感病毒序列統(tǒng)計(jì)
2.1分析軟件構(gòu)建
按照預(yù)期設(shè)想,使用Perl語(yǔ)言編輯11條命令或程序,采用并行處理和自動(dòng)化的方式,構(gòu)建完成甲型流感病毒分型與分析軟件。初步測(cè)試顯示其能正常運(yùn)算和分析。
2.2GenBank中鴨源甲型流感病毒的序列分析
使用甲型流感病毒快速分型與分析軟件對(duì)25 815株鴨源甲型流感病毒序列進(jìn)行分型,輸出結(jié)果均包含在Result文件夾中,每個(gè)基因或每個(gè)亞型基因的所有序列均整理至對(duì)應(yīng)基因名稱的文件中的一個(gè)文件,未比對(duì)到參考序列的基因歸為no_ type,統(tǒng)計(jì)信息可在stat文件中顯示。分析結(jié)果統(tǒng)計(jì)見(jiàn)表3,與GenBank中的序列背景材料核實(shí)均符合。軟件具體運(yùn)行時(shí)間統(tǒng)計(jì)見(jiàn)表4。
表3 鴨源甲型流感病毒25 815株序列分型結(jié)果統(tǒng)計(jì)表
表4 軟件運(yùn)行時(shí)間統(tǒng)計(jì)
圖1 HA_H12亞型多序列比對(duì)結(jié)果(部分)
分型結(jié)束之后,選取HA_H12作為代表,使用MEGA-CC軟件(軟件版本 7.0.7)進(jìn)行多序列比對(duì),并進(jìn)行系統(tǒng)發(fā)育分析。多序列比對(duì)結(jié)果(部分)如圖1所示,系統(tǒng)發(fā)育樹(shù)見(jiàn)圖2。
圖2 HA_H12亞型系統(tǒng)發(fā)育樹(shù)
本文采用Perl語(yǔ)言編寫了甲型流感病毒快速分型與分析軟件,能夠用于大量甲型流感病毒基因的分析,目前國(guó)內(nèi)外均未見(jiàn)開(kāi)發(fā)類似軟件的報(bào)道。在整個(gè)數(shù)據(jù)分析過(guò)程中,需完成Query序列與Ref序列BLAST比對(duì)、比對(duì)結(jié)果過(guò)濾、計(jì)算Query (coverage)與Ref(coverage)、分型、結(jié)果統(tǒng)計(jì)、同一亞型多序列比對(duì),以及構(gòu)建系統(tǒng)發(fā)育樹(shù)等過(guò)程。由于使用了高性能計(jì)算機(jī)分析平臺(tái),并且采用并行化處理方式,因此該軟件不受Query序列條數(shù)限制,可以同時(shí)計(jì)算數(shù)十萬(wàn)個(gè)樣品的快速分型。
在對(duì)未知樣品測(cè)序序列進(jìn)行分型過(guò)程中,需要將Query序列與已知參考序列進(jìn)行同源比對(duì),根據(jù)比對(duì)相似性進(jìn)行結(jié)果判斷,進(jìn)而對(duì)未知樣品進(jìn)行分型鑒定。因此參考序列的選擇對(duì)于分型結(jié)果有很大的影響。如果參考序列中不存在該亞型,就無(wú)法進(jìn)行分型鑒定。這里我們選擇每一亞型中已發(fā)表的具有代表性的序列作為參考序列,減少了參考序列帶來(lái)的誤差。從軟件分析結(jié)果來(lái)看,在分析GenBank中鴨感染的甲型流感病毒序列時(shí),有34條序列未得到分析結(jié)果。分析其原因,可能由于序列長(zhǎng)度過(guò)短(34條序列的長(zhǎng)度為54~485 bp),其長(zhǎng)度均小于對(duì)應(yīng)基因參考序列長(zhǎng)度的50%。根據(jù)比對(duì)長(zhǎng)度對(duì)BLAST結(jié)果進(jìn)行過(guò)濾時(shí),會(huì)將比對(duì)長(zhǎng)度過(guò)短的序列過(guò)濾掉,導(dǎo)致這些序列無(wú)法進(jìn)行分型和分析。但這種序列在實(shí)際應(yīng)用中屬極少數(shù),不會(huì)對(duì)軟件的分析功能造成影響。
與GenBank下載數(shù)據(jù)的分型和分析,結(jié)果顯示,該軟件可以快速、準(zhǔn)確對(duì)甲型流感病毒進(jìn)行分型、分析和遺傳進(jìn)化研究,并且不具備較深生物信息學(xué)和病原學(xué)基礎(chǔ)的操作人員也可進(jìn)行操作,所以該軟件能夠滿足各類動(dòng)物疫病預(yù)防控制機(jī)構(gòu)和研究院所開(kāi)展流感病毒的流行病學(xué)調(diào)查和遺傳變異研究,可以提高我國(guó)甲型流感的分析和應(yīng)急能力。
參考文獻(xiàn):
[1]Taubenberger J K,Hultin J V,Morens D M. Discovery and characterization of the 1918 pandemic influenza virus in historical context [J]. Antivir Ther,2007,12(4 Pt B):581-591.
[2]Parry J. H7N9 avian fl u infects humans for the fi rst time [J]. BMJ,2013,346:f2151.
[3]Hoffmann E,Stech J,Guan Y,et al. Universal primer set for the full-length amplifi cation of all infl uenza A viruses [J]. Arch Virol,2001,146(12):2275-2289.
[4]Freidl G S,Binger T,Muller M A,et al. Serological evidence of infl uenza a viruses in frugivorous bats from Africa [J]. PLoS One,2015,10(5):e0127035.
[5]Tong S,Li Y,Rivailler P,et al. A distinct lineage of infl uenza A virus from bats [J]. Proc Natl Acad Sci U S A,2012,109(11):4269-4274.
[6]Tong S,Zhu X,Li Y,et al. New world bats harbor diverse infl uenza A viruses [J]. PLoS Pathog, 2013,9(10):e1003657.
[7]Ghedin E,Sengamalay N A,Shumway M,et al. Large-scale sequencing of human infl uenza reveals the dynamic nature of viral genome evolution [J]. Nature,2005,437(7062):1162-1166.
[8]Wang M Z,Tai C Y,Mendel DB. Mechanism by which mutations at his274 alter sensitivity of influenza a virus n1 neuraminidase to oseltamivir carboxylate and zanamivir [J]. Antimicrob Agents Chemother, 2002,46(12):3809-3816.
(責(zé)任編輯:朱迪國(guó))
《中國(guó)動(dòng)物檢疫》2016年重點(diǎn)選題策劃
中圖分類號(hào):S858.28
文獻(xiàn)標(biāo)識(shí)碼:B
文章編號(hào):1005-944X(2016)04-0080-05
DOI:10.3969/j.issn.1005-944X.2016.04.026
基金項(xiàng)目:科技部科技基礎(chǔ)性專項(xiàng)(SQ2012FY3260033);中國(guó)動(dòng)物衛(wèi)生與流行病學(xué)中心創(chuàng)新基金(2015IF-0004FF)
Development and Trial Test of Rapid Typing and Analysis Software of Infl uenza A Virus
Wang Kaicheng,Wang Tong,Zhuang Qingye,Qiu Yuan,Peng Cheng,Wang Suchun,Chen Jiming
(China Animal Health and Epidemiology Center,Qingdao,Shandong 266032)
Abstract:Infl uenza A virus is harmful to animal and human health. It reveals many subtypes,high mutation rate and easily to be recombined. The detection and genes analysis of the pandemic strain seems to be particularly important. In order to solve the problems of time-consuming and human errors during sequence typing analysis of infl uenza A virus using traditional methods,a rapid typing and analysis software was established by Perl based on lunix systems,according to the practical work needs. A trial test was carried out to analyze all the infl uenza A viruses isolated from ducks in GenBank. Results showed that the software could complete a series of analysis,typing and genetic evolution research in short time,so it could be used for large-scale epidemiological investigation and analysis of infl uenza A virus.
Key words:infl uenza A virus;gene analysis;subtype;genetic evolution