田純見,羅 瓊,高佳卉,林志雄,魚海瓊,劉志玲,陳 茹,吳曉薇
(廣東出入境檢驗檢疫局檢驗檢疫技術(shù)中心/廣東省動植物與食品進出口技術(shù)措施研究重點實驗室/國家質(zhì)量監(jiān)督與檢驗檢疫總局國家禽流感檢測重點實驗室·廣東,廣東 廣州 510623)
?
禽流感病毒廣東株HA基因BLSOM神經(jīng)網(wǎng)絡(luò)分型方法的建立
田純見,羅 瓊,高佳卉,林志雄,魚海瓊,劉志玲,陳 茹,吳曉薇
(廣東出入境檢驗檢疫局檢驗檢疫技術(shù)中心/廣東省動植物與食品進出口技術(shù)措施研究重點實驗室/國家質(zhì)量監(jiān)督與檢驗檢疫總局國家禽流感檢測重點實驗室·廣東,廣東 廣州 510623)
摘 要:利用25個禽流感病毒及相關(guān)流感病毒廣東株HA基因序列,建立三、四核苷酸特征基因片段BLSOM神經(jīng)網(wǎng)絡(luò)分型方法,對各片段數(shù)量進行統(tǒng)計和歸一化處理。設(shè)計程序由MATLAB函數(shù)模擬人腦思維自組織學習,當訓練步數(shù)為100及以上各毒株能成功聚類。H1、H3、H5、H7和H9亞型主要毒株分別歸為一類,其中H3N2和H7N9毒株HA基因聚類圖譜高度相似,表明這些毒株起源相同;不同年代H5N1毒株差異較大;H1N1和H9N2各1個毒株聚為一類,表明這兩種病毒自然重組變異,為高危毒株篩查和溯源提供參考。
關(guān)鍵詞:禽流感病毒;BLSOM;HA基因;神經(jīng)網(wǎng)絡(luò);分型
禽流感除造成養(yǎng)禽業(yè)重大經(jīng)濟損失外,據(jù)OIE統(tǒng)計H5N1禽流感已經(jīng)出現(xiàn)668例人類感染,死亡率達到58.83%。目前新發(fā)H7N9禽流感繼續(xù)流行,并出現(xiàn)新的人類病例,使得禽流感防制工作雪上加霜。這歸根結(jié)底是動物源性流感病毒傳播最終適應(yīng)人類,給公共健康帶來極大威脅[1]。在禽流感病毒監(jiān)測上,隨著高通量測序技術(shù)的顯著進步,基因庫數(shù)據(jù)急劇增長,使得經(jīng)典的進化樹分析出現(xiàn)困難,需要進行技術(shù)革新。珠江三角洲位于國際候鳥遷徙路線,氣候溫和濕潤,是世界禽流感爆發(fā)流行的中心區(qū)域。目前,廣東省各種禽類養(yǎng)殖人員較多,農(nóng)貿(mào)市場活禽宰殺交易方式仍然存在。調(diào)查顯示,廣州、江門、肇慶等地活禽農(nóng)貿(mào)市場禽流感感染逐年加重,成為重要的病毒儲存庫[2-4],檢測陽性率達到32.73%,其中用于宰殺的案板甚至高達75%[5]。監(jiān)測發(fā)現(xiàn)以H9亞型為主,H5、H7等亞型也存在,與疫苗毒株比較存在較大變異[6]。同時,廣大居民接觸活禽普遍存在,人類感染后病情危重[7-8],甚至死亡。因此,深入開展禽流感病毒分型方法研究具有重要意義。
1.1 數(shù)據(jù)來源
用于本研究的全部毒株來自廣東省境內(nèi),提供HA基因全部序列。其中,甲型H1N1流感病毒為華南農(nóng)業(yè)大學從豬體內(nèi)分離毒株及醫(yī)學單位分離的人類毒株;H3N2毒株為廣東省疾病預防控制中心(CDC)分離的患者病毒樣品;H5N1病毒為哈獸研和華南農(nóng)大分離的禽類毒株,含國家流感中心分離的人類感染病毒;H7N9為最近流行毒株,均由廣東省CDC提供,3株分離自人體,兩株由雞場分離;H9N2均分離自雞體,由哈爾濱獸醫(yī)研究所和華南農(nóng)業(yè)大學完成(表1)。
1.2 研究方法
1.2.1 BLSOM算法 建立BLSOM(Batch-learning self-organizing map)人工神經(jīng)網(wǎng)絡(luò),接受外界輸入產(chǎn)生不同響應(yīng)區(qū)域,模擬人腦思維的自組織學習過程[9]。其歐式距離計算公式為:
表1 禽流感病毒廣東流行毒株BLSOM特征基因片段統(tǒng)計
1.2.2 數(shù)據(jù)歸一化處理 統(tǒng)計各個毒株HA基因特征片段[10]數(shù)量,歸一化處理公式如下:
1.2.3 MATLAB實現(xiàn) 參照文獻[11]編寫程序,運行軟件MATLAB(2014年版),其部分程序代碼(表1)為:
fx>>
%% 清空環(huán)境變量
clc
clear
%% 錄入輸入數(shù)據(jù)
% 載入數(shù)據(jù)
load('c:data.mat');
P=data;
……
利用函數(shù)newsom建立SOM網(wǎng)絡(luò),競爭層為6 ×6=36個神經(jīng)元。利用函數(shù)train和sim進行訓練仿真,plotsom函數(shù)繪制變量關(guān)系圖,vec2ind函數(shù)轉(zhuǎn)換數(shù)據(jù)。
2.1 微生物BLSOM分型研究
圖1 禽流感病毒廣東株HA基因BLSOM算法流程
圖2 禽流感病毒部分廣東流行毒株BLSOM臨近神經(jīng)元間距離
目前,微生物基因組信息大量增加,需要新的技術(shù)手段進行全面分析。常用的微生物基因組GC值分析方法簡單,不適宜處理大量的基因組信息,結(jié)果不能反映微生物基因變異的本質(zhì)特征。非序列比對的自組織映射(SOM)及其改進的BLSOM方法是密碼子研究的革命性進步,一次可分析百萬以上的序列,可對長達1 kb的基因片段分類和變異方向預測。BLSOM利用先進的電腦軟件可視化分類工具,可揭示自然選擇帶來的病毒宿主依賴性和密碼子偏好,在幾百萬個微生物基因數(shù)據(jù)中找出高危種類,用于高危毒株監(jiān)測(圖1、圖2),對生物醫(yī)學和預防獸醫(yī)學具有重要意義。新版MATLAB軟件工具箱提供神經(jīng)網(wǎng)絡(luò)函數(shù),可模擬人腦完成BLSOM競爭學習和訓練、模式識別、分類和鑒定等功能,在工程、經(jīng)融、農(nóng)業(yè)、環(huán)保、教育、公安及各種科學研究中廣泛應(yīng)用[11-12]。本研究用于禽流感病毒研究取得初步成功,值得深入探討。
2.2 禽流感分型標準及BLSOM分型
據(jù)統(tǒng)計,目前基因庫禽流感病毒核酸序列已多達73萬個,其中H1N1、H3N2、H5N1和H9N2分別為11.0萬、8.3萬、2.7萬、1.4萬個,常規(guī)的進化樹等分析方法難窺全豹[13]。BLSOM方法可同時處理100萬以上基因序列,且分析結(jié)果與進化樹一致。在基因水平和寡核苷酸(2~4個堿基)片段構(gòu)成上,禽流感均顯示出明顯的宿主依賴性,即按宿主進行自組織分類特性,這是BLSOM分類的生物學基礎(chǔ)。由于流感病毒生長要依賴很多宿主因子如核苷酸、氨基酸、tRNA等成分,同時要逃避宿主的抗病毒機制如抗體、細胞毒性T細胞、干擾素、RNA干擾等作用,因此形成基因結(jié)構(gòu)的獨特宿主依賴性。但是,單核苷酸BLSOM往往不能得出宿主依賴性的結(jié)論,四核苷酸(Tetra)BLSOM按宿主分型效果良好。研究結(jié)果(表2、圖3、表3)表明,除HA基因外,全部8個基因片段都可以用于分析,在BLSOM分析中形成宿主以來的區(qū)域和顏色,方便進行可視化分析。
表2 禽流感病毒部分廣東流行毒株BLSOM訓練步數(shù)及聚類結(jié)果
2.3 BLSOM軟件工具、參數(shù)和短核苷酸片段選擇
禽流感病毒基因密碼子自然選擇在全部8個片段都存在壓力,均可用于BLSOM分析獲得基因特征和宿主偏好信息。Tetra-BLSOM可按區(qū)域和色彩清楚劃分人豬禽流感病毒,由于變異而位于兩個區(qū)域邊界的毒株作為高危毒株就可以識別出來。本研究的聚類圖譜(圖3)可清晰看出H3N2和H7N9各毒株一致的結(jié)構(gòu),H9N2、H5N1和H1N1存在毒株變異。本研究選擇6種寡核苷酸片段(其中4個為四核苷酸)用于BLSOM效果良好,可識別主要禽流感流行毒株。當訓練步數(shù)達到100級以上時產(chǎn)生有效聚類效果(表2),這時位于右上角的神經(jīng)元距離較遠(圖2),測試樣品均勻分布(圖4)。能同時處理大數(shù)據(jù)序列的方法和軟件有待進一步研究。
圖3 禽流感病毒部分廣東流行毒株BLSOM聚類圖譜
圖4 禽流感病毒廣東株HA基因測試樣本的BLSOM圖譜
BLSOM對宿主依賴寡核苷酸進行分析,在海量基因數(shù)據(jù)內(nèi)找出序列變異方向,監(jiān)測動物和人類高危毒株,是病毒分子進化研究的重要議題[9],具有重要的社會經(jīng)濟意義。利用不同年代的序列數(shù)據(jù)分析毒株來源,找出特定時間的關(guān)鍵變異,掌握病毒進化史,即在不同流行時期的特點,研究其變異方向和防控方法。在本研究中H5N1毒株年代變異較大,BLSOM圖譜顯著不同。將BLSOM作為病毒預警和溯源工具,做到全自動大規(guī)模研究尚待深入進行。
參考文獻:
[1] 宋建德,朱迪國,袁麗萍,等. 2013年全球禽流感流行狀況[J]. 中國動物檢疫,2014,31(6):6-9.
[2] 陸巧芬,曹建偉,馮秀紅,等. 廣東江門地區(qū)2011-2013年活禽交易市場禽流感病原學監(jiān)測數(shù)據(jù)分析[J]. 廣東畜牧獸醫(yī)科技,2014,39(4):18-19.
[3] 魯恩潔,陳藝韻,劉靜雯,等. 2013年廣州市禽流感職業(yè)暴露人群及市場環(huán)境禽流感病毒H7N9監(jiān)測分析[J]. 醫(yī)學動物防制,2014,30(9):980-984.
[4] 陸劍云,魯恩潔,李魁彪,等. 2011—2012 年廣州市禽類經(jīng)營環(huán)境職業(yè)人群禽流感監(jiān)測分析[J]. 醫(yī)學動物防制,2013,29(6):591-593.
[5] 朱碧柳,黃國華,麥煒,等. 2011—2012年肇慶市禽流感職業(yè)暴露人群及外環(huán)境病毒分布監(jiān)測分析[J].熱帶醫(yī)學雜志,2014,14(1):115-117.
[6] 李廣偉,嚴專強,廖昌韜,等. 兩廣地區(qū)2011—2012 年H9N2亞型禽流感病毒的HA基因進化分析[J].中國獸醫(yī)學報,2014,34(3):461-464.
[7] 陳兵,馬智超,饒東平,等. 深圳市例人感染H7N9禽流感的流行病學調(diào)查[J]. 醫(yī)學理論與實踐,2014,27(21):2924-2925.
[8] 孔東鋒,秦彥珉,梅樹江,等. 深圳市2例人感染高致病性禽流感病例流行病學分析[J]. 醫(yī)學動物防制,2013,29(12):1390-1392.
[9] Iwasaki Y,Abe T,Wada K,et al. Prediction of directional changes of Influenza A virus genome sequences with emphasis on pandemic H1N1/09 as a model case[J]. DNA Research,2011,18:125-136.
[10] Iwasaki Y,Abe T,Wada Y,et al. Novel bioinformatics strategies for prediction of directional sequence changes in influenza virus genomes and for surveillance of potentially hazardous strains[J]. BMC Infectious Diseases,2013,13:386.
[11] 王小川,史峰,郁磊,等. MATLAB神經(jīng)網(wǎng)絡(luò)43個案例分析[M]. 北京:北京航空航天大學出版社,2013.
[12] 張學儒,張鐿鋰,劉林山,等. 基于SOFM神經(jīng)網(wǎng)絡(luò)模型的土地類型分區(qū)嘗試-以青藏高原東部樣帶為例[J]. 地理研究,2013,32(5):839-847.
[13] 宋喬喬,柴志欣,鐘金城,等. 禽流感病毒基因的密碼子偏好性及聚類分析[J]. 生物技術(shù),2014,24 (2):48-53.
(責任編輯 鄒移光)
Development of neural networks for batch-learning selforganizing map(BLSOM)clustering of hemagglutinin genes of avian influenza viruses isolated from Guangdong province
TIAN Chun-jian,LUO Qiong,GAO Jia-hui,LIN Zhi-xiong,YU Hai-qiong,LIU Zhi-ling,CHEN Ru,WU Xiao-wei
(Guangdong Inspection and Quarantine Technology Center/Guangdong Provincial Key Laboratory of Animal and Plant and Food Import And Export Technology/AQSIQ State Key Laboratory of Avian Influenza,Guangzhou 510623,China)
Abstract:A neural network classification method,a batch-learning self-organizing map(BLSOM),was established using 25 tri- and tetranucleotide in the hemagglutinin gene sequences of 25 avian influenza viruses isolated from Guangdong province. Statistics and normalization of the fragment numbers were done and MATLAB function was used to simulate the human brain thinking for self-organizing learning. When the training step was 100 and above,the strains could be successfully clustered. H1,H3, H5, H7 and H9 subtype strains were mainly classified as a class, in which the HA gene cluster profiles of H3N2 and H7N9 strains had highly similar,suggesting that these isolates origin ated from the same era;different generations of H5N1,H1N1 and H9N2 strains were quite different; each one strain of two types was clustered into one group,suggesting that the two virus had recombinant variants, to provide reference for screening high-risk strains and traceability.
Key words:avian influenza virus;batch-learning self-organizing map;hemagglutinin gene;neural networks;classification
中圖分類號:S852.65+9.3;S858.3
文獻標識碼:A
文章編號:1004-874X(2016)02-0156-05
收稿日期:2015-08-23
基金項目:國家出入境檢驗檢疫科研項目(2015IK054);科技部國家重大科學儀器設(shè)備開發(fā)專項(2012YQ09019705)
作者簡介:田純見(1965-),男,博士,高級獸醫(yī)師,E-mail:gzvettian@163.com