張 琪,劉立芳,馬 磊,賀建峰
昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500
一種基于HBV序列的SNP位點(diǎn)檢測方法研究
張 琪,劉立芳,馬 磊,賀建峰
昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500
乙型肝炎病毒屬于被稱為肝脫氧核糖核酸病毒科的病毒族,嚴(yán)重影響人類健康,它與DNA病毒關(guān)系密切。這種類型的病毒感染是一種嚴(yán)重的全球健康問題,也是常見的誘發(fā)肝臟疾病和肝癌的原因。據(jù)估計(jì),全球至少有20億人感染乙肝病毒,多達(dá)3.78億人患有慢性感染,每年大約有62萬人死于由HBV感染引發(fā)的急性和慢性病[1-2]。此外,每年全世界新增450萬HBV感染病例,其中四分之一發(fā)展成為肝臟類疾病[3]。
HBV是一種環(huán)狀的非閉合雙鏈DNA分子,全基因長約為3.2 bp。乙型肝炎病毒可編碼四個(gè)重疊的開放閱讀框(ORFs:S,C,P和X)。S ORF編碼乙型肝炎表面抗原(HBsAg),它在結(jié)構(gòu)上和功能上分為pre-S1,pre-S2,和S區(qū),C ORF編碼乙肝e抗原和核蛋白,P ORF編碼聚合酶蛋白,X ORF編碼X蛋白[4]。HBV根據(jù)基因組序列之間差異性大于8%的基因分型標(biāo)準(zhǔn)進(jìn)行分型[5-8]。并且其基因型在不同的地區(qū)流行程度或分布不同。
在物種遺傳進(jìn)化過程中,變異是各種生物對(duì)“適者生存”原則的生動(dòng)體現(xiàn)。HBV病毒為了達(dá)到在宿主體內(nèi)長期生存和傳播的目的,也必然具有這種內(nèi)在的潛力。研究表明HBV基因變異可能導(dǎo)致每個(gè)HBV患者受HBV感染后,其病情輕重存在很大差異,給乙肝的治療和診斷帶來了許多問題。然而目前卻沒有很好的藥物及方法對(duì)其進(jìn)行有效的治療。目前國際上采用的接種疫苗的方法,幾乎成了唯一的預(yù)防措施,并取得了較好的成效,使得HBsAg攜帶者顯著減少。同時(shí),在治療過程中,仍然存在很多問題?;趥€(gè)體差異和遺傳背景的不同,使得不同人感染HBV容易與否及病毒最終演化情況也存在很大差異。在這其中,SNP的存在與否是決定不同個(gè)體之間基因存在差異的根本原因。SNP位點(diǎn)的檢出可以在一定程度上預(yù)測個(gè)體被HBV感染的風(fēng)險(xiǎn)性及被感染后的疾病演變程度,為治療與預(yù)防HBV感染做好準(zhǔn)備[9-10]。
雖然單位點(diǎn)突變作為乙肝病毒進(jìn)化中的一個(gè)重要因素,已經(jīng)有所研究,但是卻只有有限的突變位點(diǎn)被文獻(xiàn)報(bào)道,例如ntG1764A和ntA1762T[11]。目前,單核苷酸多態(tài)性(SNP)發(fā)掘主要依賴直接DNA測序或變性高性能液相色譜(dHPLC)[12-13]。但是這些方法均具有耗時(shí)長,過程繁瑣和技術(shù)難度高,費(fèi)用大等缺點(diǎn),從而制約了SNP的研究?;诖?,本文提出了一種基于計(jì)算機(jī)的方法,所提出的方法首次應(yīng)用于HBV序列的SNP位點(diǎn)檢測,即應(yīng)用MORE[14]和RPSW[15]算法去研究乙肝病毒序列pre-C和X(nt1374~nt1900)區(qū)遺傳因子的單突變位點(diǎn)。結(jié)果部分與以前相關(guān)文獻(xiàn)報(bào)道的內(nèi)容部分一致,例如,突變位點(diǎn)ntA1762T,ntT1753C,ntG1764A和nt1896。除此之外,還發(fā)現(xiàn)新的突變位點(diǎn)和具有突變風(fēng)險(xiǎn)的突變位點(diǎn),例如ntA1436G,ntG1629A,ntA1383C,ntA1573T,nt1726,nt1657,nt1463,nt1658,nt1498,nt1386。
2.1 實(shí)驗(yàn)數(shù)據(jù)源
在本課題研究中,使用數(shù)據(jù)為云南省第一人民醫(yī)院提供的乙型肝炎病毒序列片段(X基因和前C基因)。樣本集包括10例HBV患者,其中HBeAg陽性4例和陰性六例。共有364條序列,其中209條序列為HBV陰性,155條序列為HBV陽性。在乙型肝炎病毒序列中,實(shí)驗(yàn)的目的是挖掘HBV的SNP位點(diǎn)即單突變位點(diǎn),所以這里將所有HBV序列的每一個(gè)垂直列映射為特征屬性的思想進(jìn)行數(shù)據(jù)處理的(如圖1)。HBV序列數(shù)據(jù)類型分為兩大類,即陽性(positive)和陰性(negative)。每條克隆序列為一個(gè)樣本,所對(duì)應(yīng)的HBV數(shù)據(jù)類型為類屬性即目標(biāo)屬性(如表1)。
表1 乙肝病毒的數(shù)據(jù)集
2.2 方法
在本文中,有三個(gè)步驟來約束和匯總乙肝病毒序列。首先,找出對(duì)區(qū)分樣本最有用的特征位點(diǎn)。然后,使用MORE算法開發(fā)特征位點(diǎn)的最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式。最后,RPSW算法被用來對(duì)乙肝病毒進(jìn)行差異化分析。
2.2.1 信息熵建立和特征選擇
生物信息學(xué)數(shù)據(jù)在樣本采集的過程中,由于受到各種因素的影響,產(chǎn)生大量的冗余信息。在這種情況下,特征信息的提取顯得尤為重要??梢酝ㄟ^特征信息提取,剔除冗余的數(shù)據(jù)信息即非疾病基因或疾病風(fēng)險(xiǎn)基因,以降低數(shù)據(jù)維數(shù),從而提高對(duì)初始數(shù)據(jù)集訓(xùn)練時(shí)的時(shí)間和空間復(fù)雜度,同時(shí)也可以提高分類器的效率,為提取對(duì)疾病有重要價(jià)值的特征信息避免了很多不相關(guān)信息的干擾,從而使剩下的特征信息可以較好地用于疾病診斷和防治。
圖1 樣本數(shù)據(jù)經(jīng)過映射后得到的格式
本節(jié)介紹一種基于信息熵的序列統(tǒng)計(jì)特征提取法。在DNA序列數(shù)據(jù)中,信息表示每個(gè)位點(diǎn)堿基不確定性的消失,堿基位點(diǎn)的變化將影響該位點(diǎn)信息的獲取,如果DNA序列中某個(gè)垂直列堿基位點(diǎn)發(fā)生變化,則信息熵就越大,如果該列只有一種堿基,則信息熵為0。所以信息熵同時(shí)也是系統(tǒng)有序化程度的一個(gè)衡量指標(biāo)。關(guān)于信息熵的計(jì)算如式(1)所示。給定包含關(guān)于某個(gè)目標(biāo)概念的正反樣本的樣本集S,那么S相對(duì)這個(gè)分類的熵為[16]:
P+和P-分別表示在樣本S中正例的比重和反例的比重。反映在HBV序列中表現(xiàn)為HBV陽性和陰性。在計(jì)算過程中,lb0=0。例如,樣本集S中的所有屬性都屬于同一個(gè)類,則信息熵為0,如果樣本集S中正例樣本與反例樣本的個(gè)數(shù)相同,則信息熵為1,如果樣本集中正例樣本與反例樣本個(gè)數(shù)不相同,信息熵則在0和1之間。
信息增益是一種特征量化方法,用來定義屬性分類訓(xùn)練數(shù)據(jù)的能力。在WEKA平臺(tái)下,信息增益融合了基于排序(Ranking)的方法,它根據(jù)DNA序列的垂直列中堿基的變化率來評(píng)價(jià)對(duì)疾病基因的重要性,變化率越高,該位置對(duì)疾病基因就越重要。然后按照重要性降序排列。最后選擇排名靠前的基因作為特征基因[16]。一個(gè)屬性的增益(S,A),相對(duì)于一數(shù)據(jù)集樣品S,被定義為:
其中,Value(A)的值是屬性A所有可能值的集,Sv是S的子集。值得注意的是,第一部分是在公式(1)中提到的原始數(shù)據(jù)集S的熵,在公式(2)中的第二部分是當(dāng)S用屬性A分完區(qū)后的熵。分區(qū)熵是每個(gè)子集Sv的熵的總和,通過樣品的Sv/S比值來加權(quán)。因此,增益(S,A)是由屬性A值的變化引起熵的減少。通過屬性A的值,當(dāng)S中任何組成元素的目標(biāo)值被編碼時(shí),增益(S,A)的值是一系列保存下來的數(shù)據(jù)。
該方法在WEKA工作臺(tái)上執(zhí)行和實(shí)現(xiàn)[17]。
2.2.2 最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式
在醫(yī)療數(shù)據(jù)集中,含有大量的患者記錄,每一個(gè)患者記錄包括一系列屬性,其中一個(gè)屬性為目標(biāo)屬性,這個(gè)目標(biāo)屬性一般分為兩類,即正常類(Normal)和異常類(Abnormal),如果在樣本中一個(gè)患者沒有患病也沒有患病風(fēng)險(xiǎn),即屬于正常類,相反則屬于異常類。所謂模式就是這些屬性值項(xiàng)的集合。
由于在實(shí)際的醫(yī)療數(shù)據(jù)集中,數(shù)據(jù)量很大且正反類事例嚴(yán)重不平衡,患病的比例要遠(yuǎn)遠(yuǎn)小于非患病的比例,因此這里采用局部支持度作為異常類模式的支持度,即樣本中同時(shí)出現(xiàn)模式P和a的概率與樣本中只出現(xiàn)a的概率的比值。假設(shè)模式P在異常類樣本a的局部支持度的計(jì)算公式如公式(3)所示:
這里supp(p→a)表示模式P的支持度,即同時(shí)出現(xiàn)模式P和a的概率。局部支持度是滿足反單調(diào)性的:一個(gè)超集的支持度小于或等于它的任一子集的支持度。最優(yōu)風(fēng)險(xiǎn)與預(yù)防模式能夠被挖掘的原因就是最優(yōu)風(fēng)險(xiǎn)與預(yù)防模式滿足反單調(diào)性的原則。在本文中,如果一個(gè)模式的局部支持度大于給定的閾值,則這個(gè)模式就是頻繁的。
RR(相對(duì)風(fēng)險(xiǎn))或OR(比值比)是一個(gè)在流行病學(xué)研究中常用的指標(biāo)[18],這是一個(gè)概念,用于對(duì)比兩組數(shù)據(jù),并期望得到某個(gè)特定非期望事件。例如,如果R是屬性值對(duì)328=A,類是陽性的,OR=3.0,那么這意味著當(dāng)屬性值對(duì)328=A時(shí)有三倍的可能表達(dá)為陽性。當(dāng)OR=1時(shí),它表明該因素沒有影響發(fā)病率。當(dāng)OR是高于1,這表明,該因素可能是一個(gè)風(fēng)險(xiǎn)因素,當(dāng)OR低于1時(shí),它說明了因子可能是預(yù)防因素。RR測量相比OR更加的保守。如果RR高于給定的閾值,這個(gè)模式更有可能是一個(gè)風(fēng)險(xiǎn)模式。否則模式可能是一個(gè)預(yù)防模式。下面是一個(gè)例子,說明如何計(jì)算RR和OR。
表2說明,結(jié)果分為陽性(+)和陰性(-),在被測試的HBV樣本上根據(jù)特定的分析,貼著有(+)或沒有(-)HBV。讓a和c表示HBV的陽性和陰性的數(shù)量,b和d表示沒有HBV的陽性和陰性的數(shù)量,分別為:
表2 模式產(chǎn)生的可能性與輸出結(jié)果
挖掘風(fēng)險(xiǎn)和預(yù)防模式肯定帶來冗余模式,這些對(duì)于觀察結(jié)果沒有幫助。例如,有兩個(gè)風(fēng)險(xiǎn)模式,{“Caffeine=yes”和“Cancer=no”}RR=4.1,{“Caffeine=yes”,“Smoking=no”和“Cancer=no”}RR=4.0。實(shí)際上,后一種模式與原模式相比有較低的RR,當(dāng)合并因子“Smoking=no”。就可以推斷前者比后者是更有效的模式。最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式是所有模式中最強(qiáng)大的模式。最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式可以通過MORE(挖掘最優(yōu)風(fēng)險(xiǎn)模式集)算法的挖掘排除多余的模式[14]。
最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式是從風(fēng)險(xiǎn)和預(yù)防模式中提取出來的。一方面,最優(yōu)風(fēng)險(xiǎn)模式集包含所有風(fēng)險(xiǎn)模式,這種模式比其他的子模式有更高的相對(duì)風(fēng)險(xiǎn)。另一方面,最優(yōu)預(yù)防模式包括所有的預(yù)防模式,它們有更低的相對(duì)風(fēng)險(xiǎn),在這里指小于給定的閾值。當(dāng)子模式的風(fēng)險(xiǎn)和預(yù)防模式不能滿足這個(gè)要求,這些風(fēng)險(xiǎn)和預(yù)防模式將被忽略。
2.2.3 基于設(shè)置權(quán)重的最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式集的差異分析
基于最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式,RPSW算法[15]計(jì)算每個(gè)屬性值對(duì)的頻率,對(duì)所有屬性值對(duì)進(jìn)行頻率降序排列。最優(yōu)風(fēng)險(xiǎn)模式屬性值對(duì)和預(yù)防模式屬性值對(duì)被認(rèn)為分別是風(fēng)險(xiǎn)因素和預(yù)防因素集。如果一個(gè)屬性值對(duì)是一個(gè)最優(yōu)風(fēng)險(xiǎn)或者預(yù)防模式的頻繁元素,并且它的頻繁集相比期望的頻繁閾值更高或者相等,那么它屬于風(fēng)險(xiǎn)或預(yù)防模式集。
對(duì)于最優(yōu)風(fēng)險(xiǎn)和預(yù)防集,只有最優(yōu)風(fēng)險(xiǎn)模式的相對(duì)風(fēng)險(xiǎn)高于最優(yōu)風(fēng)險(xiǎn)模式中的相對(duì)風(fēng)險(xiǎn)閾值,最優(yōu)預(yù)防模式的相對(duì)風(fēng)險(xiǎn)低于最優(yōu)預(yù)防模式中的相對(duì)風(fēng)險(xiǎn)閾值,上述規(guī)則才被用來生成最優(yōu)風(fēng)險(xiǎn)和預(yù)防集,最優(yōu)風(fēng)險(xiǎn)和預(yù)防集之間沒有共同集。
例如,假設(shè)有五個(gè)風(fēng)險(xiǎn)模式(相對(duì)風(fēng)險(xiǎn)閾值:2.0)
這些風(fēng)險(xiǎn)模式涉及五個(gè)模式和五個(gè)屬性:R1、R2、R3、R4和R5。前面已經(jīng)討論過,只選擇了前三個(gè)模式。選擇的風(fēng)險(xiǎn)模式包含四個(gè)屬性:R1,R2,R3和R5。如果屬性值對(duì)一直存在于預(yù)防模式中,能夠比較在風(fēng)險(xiǎn)和預(yù)防集中的組成部分的等級(jí),然后確定這些屬性值屬于風(fēng)險(xiǎn)還是預(yù)防因素。
最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式集下的權(quán)重都是基于最優(yōu)風(fēng)險(xiǎn)和預(yù)防集。僅僅考慮最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式的屬性集。為了使結(jié)果更加直觀,歸一化了各屬性的權(quán)重值對(duì)。最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式集的總權(quán)重分別是100。在風(fēng)險(xiǎn)模式和預(yù)防模式集每個(gè)屬性值對(duì)有一個(gè)權(quán)重,分別生成最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式因素權(quán)重集。
3.1 最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式
這里根據(jù)信息增益值分別大于0.05,0.10,0.15,0.20四種情況進(jìn)行特征屬性選取的。表3表示信息增益值分別大于0.05,0.10,0.15,0.20時(shí)的特征屬性值項(xiàng)選擇結(jié)果數(shù)目。本文在實(shí)驗(yàn)過程中通過這四種情況下的特征提取結(jié)果進(jìn)行了最終結(jié)果實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)信息增益值選取0.15時(shí),選取的特征屬性對(duì)SNP位點(diǎn)的挖掘最有意義。
表3 信息增益值特征屬性提取結(jié)果
3.2 最優(yōu)風(fēng)險(xiǎn)和預(yù)防模式的突變位點(diǎn)
基于第二章中的最優(yōu)風(fēng)險(xiǎn)與預(yù)防模式及最優(yōu)風(fēng)險(xiǎn)與預(yù)防權(quán)重算法概述,將其應(yīng)用到HBV序列候選SNP位點(diǎn)挖掘中。由于實(shí)驗(yàn)數(shù)據(jù)源HBV序列片段(nt1374~nt1900)包括526個(gè)堿基位點(diǎn),經(jīng)過多條序列比對(duì)后,變?yōu)?23個(gè)堿基位點(diǎn),表示HBV序列共包含623個(gè)垂直列。根據(jù)公式(3)得出實(shí)驗(yàn)樣本的局部支持度為0.43,為了盡可能獲得可能多的最優(yōu)風(fēng)險(xiǎn)與預(yù)防模式,對(duì)模式長度和相對(duì)風(fēng)險(xiǎn)閾值進(jìn)行了多次選取多次實(shí)驗(yàn),最后選取了一個(gè)最佳方案即設(shè)置模式長度為7,特征屬性選取閾值為0.15,相對(duì)風(fēng)險(xiǎn)閾值為1.5。在此條件下,實(shí)驗(yàn)共返回420個(gè)最優(yōu)風(fēng)險(xiǎn)與預(yù)防模式,分別為388個(gè)最優(yōu)風(fēng)險(xiǎn)模式和32個(gè)最優(yōu)預(yù)防模式。限于篇幅,只列舉了部分具有代表性的最優(yōu)風(fēng)險(xiǎn)模式(表4)和最優(yōu)預(yù)防模式(表5)。
表4 HBV序列生成的部分最優(yōu)風(fēng)險(xiǎn)模式集
表5 HBV序列生成的部分最優(yōu)預(yù)防模式集
針對(duì)表4和表5的部分實(shí)驗(yàn)結(jié)果,以最優(yōu)風(fēng)險(xiǎn)模式中的Pattern 1為例解釋說明。模式中Length=3,表示模式長度為3,說明此模式包括三個(gè)特征屬性值項(xiàng),RR=6.500 0表示相對(duì)風(fēng)險(xiǎn)值為6.500 0。
圖2 特征屬性值項(xiàng)分別在最優(yōu)風(fēng)險(xiǎn)與預(yù)防集的權(quán)重值
3.3 乙肝病毒序列的差異分析
在此實(shí)驗(yàn)中,是假設(shè)模式中每一個(gè)特征屬性值項(xiàng)是相互獨(dú)立的,所以基于RPSW算法及表3和表4建立的最優(yōu)風(fēng)險(xiǎn)與預(yù)防模式結(jié)果,HBV序列的特征屬性值項(xiàng)的最優(yōu)風(fēng)險(xiǎn)與預(yù)防權(quán)重計(jì)算如圖2所示。每個(gè)特征屬性值項(xiàng)的權(quán)重來自它們在最優(yōu)風(fēng)險(xiǎn)與預(yù)防集中的百分比。它可以用來判斷每個(gè)特征屬性值項(xiàng)的重要性,同時(shí)也可以了解某個(gè)特征屬性值項(xiàng)對(duì)患者患某種疾病的風(fēng)險(xiǎn)性與預(yù)防性。
這里特征屬性值項(xiàng)attribute305=T出現(xiàn)在最優(yōu)風(fēng)險(xiǎn)頻率集中,attribute305對(duì)應(yīng)在HBV序列中的位置為第1 635位堿基位點(diǎn)。風(fēng)險(xiǎn)權(quán)重為13.127 8,是最優(yōu)風(fēng)險(xiǎn)集中最大的風(fēng)險(xiǎn)權(quán)重,表明attribute305在HBV序列第1 635位堿基為T時(shí)發(fā)生了陰轉(zhuǎn)的可能性在所有特征屬性值項(xiàng)中最大,這些是導(dǎo)致此處發(fā)生堿基突變的決定因素。attribute209=T出現(xiàn)在最優(yōu)預(yù)防集中,且預(yù)防權(quán)重為28.846 2,表明attribute209在HBV序列第1 573位堿基為T時(shí)不發(fā)生陰轉(zhuǎn)的可能性很大,是此處防止堿基突變的決定因素。如果attribute69同時(shí)出現(xiàn)在最優(yōu)風(fēng)險(xiǎn)與預(yù)防集中,其中特征屬性值項(xiàng)attribute69=A出現(xiàn)在最優(yōu)風(fēng)險(xiǎn)集中,attribute69=G出現(xiàn)在最優(yōu)預(yù)防集中,則表明attribute69在HBV序列第1 436位置上發(fā)生堿基G到A的陰轉(zhuǎn),說明此處為候選SNPs位點(diǎn)。
根據(jù)上述表述,基于圖2中最優(yōu)風(fēng)險(xiǎn)權(quán)重集,在本次實(shí)驗(yàn)中共檢測出16處候選SNPs位點(diǎn),其中8處屬于堿基替換突變,在這8處點(diǎn)突變中,其中4處已在一些文獻(xiàn)中發(fā)布(nt1753,nt1762,nt1764,nt1896),4處(nt1436,nt1383,nt1629,nt1573)是新發(fā)現(xiàn)的候選SNP位點(diǎn)。其余8處則為SNPs位點(diǎn)缺失,即發(fā)生的缺失突變。
實(shí)驗(yàn)結(jié)果表明,實(shí)驗(yàn)提出的挖掘SNP位點(diǎn)的計(jì)算機(jī)方法,不僅可以檢測已知SNP位點(diǎn),也可以檢測未知SNP位點(diǎn),同時(shí)具有不需要昂貴的硬件支持,檢出率較高的優(yōu)點(diǎn)。
表6 每個(gè)特征屬性的頻率按照降序排列
近年來SNP的檢測方法已被廣泛研究,國內(nèi)外專家學(xué)者也相應(yīng)提出了多種方法檢測SNP,但是均需要依賴昂貴的儀器或?qū)I(yè)人員的技術(shù)支持。本研究針對(duì)364條HBV病毒序列數(shù)據(jù),提出了一種基于最優(yōu)風(fēng)險(xiǎn)與預(yù)防模式算法來研究HBV病毒序列的SNP位點(diǎn)檢測問題。綜合特征屬性提取和風(fēng)險(xiǎn)與預(yù)防模式的建立挖掘出HBV病毒序列的部分SNP位點(diǎn)。該方法與其他硬件檢測的方法相比,無論在檢測的通用性還是檢出率上都具有較為明顯的優(yōu)勢,從而證明了該方法能較好地完成對(duì)SNP位點(diǎn)的檢測,同時(shí)該方法所用成本低廉,操作簡便,并能在龐大的基因數(shù)據(jù)中選出SNP位點(diǎn),從而對(duì)乙型肝炎的臨床診斷和生物醫(yī)學(xué)研究起到有益的參考和借鑒作用,有望成為適用于臨床的SNPs檢測方法。
[1]William M,Lee M D.Hepatitis B virus infection[J].New England Journal of Medicine,1997,337(24):1733-1745.
[2]Goldstein S T,Zou F,Hadler S C,et al.A mathematical model to estimate global hepatitis B disease burden and vaccination impact[J].International Journal of Epidemiology,2005,34:1329-1339.
[3]Zanetti A R,Van Damme P,Shouval D.The global impact of vaccination against hepatitis B:a historical overview[J]. Vaccine,2008,26(49):6266-6273.
[4]Ganem D E,Schneider R J.Hepadnaviridae:the viruses and their replication[M]//Field virology.Philadelphia:Lippincott Williams&Wikins,2001:2923-2969.
[5]Kramvis A,Kem M C.Relationship of genotypes of hepatitis B virus to mutations,disease progression and response to antiviral therapy[J].Journal of Viral Hepatitis,2005,12(5):456-464.
[6]Olinger C M,Jutavijittum P,Hübschen J M,et al.Possible new hepatitis B virus genotype in southeast Asia[J].Emerge Infect Disease,2008,14(11):1777-1780.
[7]Tatematsu K,Tanaka Y,Kurbanov F,et al.A genetic variant of hepatitis B virus divergent from known human and ape genotypes isolated from a japanese patient and provisionally assigned to new genotype J[J].Journal of Virology,2009,83(20):10538-10547.
[8]Miyakawa Y,Mizokami M.Classifying hepatitis B virus genotypes[J].Intervirology,2003,46(8):329-338.
[9]Public Health Agency of Canada.Canadian immunization guide[M].Canada:Evergreen,2012.
[10]劉學(xué)芳,田鐵南,原麗娟.乙肝疫苗的預(yù)防接種與效果觀察[J].基層醫(yī)學(xué)論壇,2012(36).
[11]Li K S,Yamashiro T,Sumie A,et al.Hepatitis B virus harboring nucleotide deletions in the core promoter region and genotype B correlate with low viral replication activity in anti-HBe positive carriers[J].Journal of Clinical Virology,2001,23(1/2):97-106.
[12]den Dunnen J T,Antonarakis S E.Mutation nomenclature extensions and suggestions to describe complex mutations:a discussion[J].Human Mutation,2000,15(1):7-12.
[13]Gross E,Arnold N,Goette J,et al.A comparison of BRCAI mutation analysis by direct sequencing,SSCP and DHPLC[J]. Human Genetic,1999,105:72-78.
[14]Li Jiuyong,F(xiàn)u Ada Wai-chee,He Hongxing,et al.Efficient discovery of risk patterns in medical data[J].Artificial Intelligence in Medicine,2009,45:77-89.
[15]張俊鵬,賀建峰,馬磊.基于最優(yōu)風(fēng)險(xiǎn)與預(yù)防模式的醫(yī)療數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)工程,2011,37(42).
[16]Mitchell T M.Machine learning[M].[S.l.]:McGraw-Hill,1997.
[17]Hall M,F(xiàn)rank E,Holmes G,et al.The WEKA data mining software:an update[J].SIGKDD Explor Newsl,2009,11(1):10-18.
[18]Gange S J,Cole S R.Epidemiologic analysis-a case-oriented approach[M].New York:Oxford University Press,2002.
ZHANG Qi,LIU Lifang,MA Lei,HE Jianfeng
Faculty of Information Engineering andAutomation,Kunming University of Science and Technology,Kunming 650500,China
As one of the severe diseases,HBV(Hepatitis B Virus)infection is seriously affecting human health.This kind of virus infection is the main reason that leads to chronic liver disease,cirrhosis and liver cancer.Due to the particularity of HBV replication and high variability characteristics,related studies have revealed that the HBV gene mutation is the basic reason of persistent HBV infection.In order to understand the genetic variation of HBV,the SNP detection from HBV sequences has been widely applied in the large number of research,the detected SNP loci may contain great clinical significance.However,currently,the SNP loci detection methods are restricted by some negative factors,such as high technical difficulty,high expense and so on.Therefore,to explore a computer-based method for SNP loci detection becomes a trend.In this paper,considering the characteristics of SNP loci of the HBV sequence,an method of SNP loci detection based on optimal risk and prevention pattern is proposed.The proposed method is first applied to detect the SNP site in the HBV sequence.Experimental results show that the method has not only effectively detected the SNP loci of the sequence on HBV X gene fragment and the pre-C gene fragment which have been reported,and has also found a new SNP loci.Different from the SNP loci detection with hardware,the proposed method has the advantages of simple operation,low cost,and it can be accepted by general laboratory and medical institutions.
Hepatitis B Virus;feature selection;optimal risk and preventive patterns;Single Nucleotide Polymophism(SNP)
乙型肝炎病毒(Hepatitis B Virus,HBV)感染作為嚴(yán)重影響人類健康的疾病之一,是導(dǎo)致慢性肝臟疾病、肝硬化和肝癌的主要元兇。HBV由于其自身復(fù)制的特殊性,具有高變異特性,據(jù)研究表明HBV基因變異是HBV持續(xù)感染的根本原因。為了了解HBV的基因變異情況,檢測HBV序列的SNP位點(diǎn)即單突變位點(diǎn)已廣泛應(yīng)用于大量的研究,所檢測出的SNP位點(diǎn)對(duì)指導(dǎo)臨床有重要意義。但是目前關(guān)于SNP位點(diǎn)檢測的方法多因技術(shù)難度較高,費(fèi)用大等不利因素而受到制約。因此,探討一種基于計(jì)算機(jī)的SNP位點(diǎn)檢測方法成為一種趨勢。針對(duì)HBV序列的 SNP位點(diǎn)的特點(diǎn),提出了一種基于最優(yōu)風(fēng)險(xiǎn)與預(yù)防模型的HBV序列的SNP位點(diǎn)檢測方法。方法首次應(yīng)用于HBV序列的SNP位點(diǎn)檢測,實(shí)驗(yàn)結(jié)果表明:該方法不僅有效地檢測出HBV序列的X基因片段和前C區(qū)基因片段中已經(jīng)報(bào)道的位點(diǎn),而且還發(fā)現(xiàn)了一些新的SNP位點(diǎn)。與硬件檢測SNP位點(diǎn)不同的是,所提出的計(jì)算機(jī)方法具有操作簡單和費(fèi)用低的優(yōu)點(diǎn),而且普通實(shí)驗(yàn)室和醫(yī)療機(jī)構(gòu)均可以承受。
乙型肝炎;特征選擇;風(fēng)險(xiǎn)與預(yù)防模式;單核苷酸多態(tài)性(SNP)
A
TP18;TP311
10.3778/j.issn.1002-8331.1305-0156
ZHANG Qi,LIU Lifang,MA Lei,et al.SNP loci detection method based on HBV sequence.Computer Engineering and Applications,2014,50(23):145-150.
張琪(1988—),女,在讀碩士研究生,研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí);劉立芳(1988—),男,在讀碩士研究生,研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí);馬磊(1978—),男,講師,研究領(lǐng)域?yàn)樯镄畔W(xué)、數(shù)據(jù)挖掘、軟件工程。E-mail:310193263@qq.com
2013-05-14
2013-09-03
1002-8331(2014)23-0145-06
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-09-04,http://www.cnki.net/kcms/detail/11.2127.TP.20130904.1344.018.html
◎圖形圖像處理◎