亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

富集分析框架下的致病SNP位點(diǎn)識別

2016-12-07 11:04:54楊利英殷黎洋袁細(xì)國張軍英

西安電子科技大學(xué)學(xué)報(bào) 2016年3期

關(guān)鍵詞：核苷酸識別率多態(tài)性

楊利英,殷黎洋,袁細(xì)國,張軍英

(西安電子科技大學(xué)計(jì)算機(jī)學(xué)院,陜西西安 710071)

富集分析框架下的致病SNP位點(diǎn)識別

楊利英,殷黎洋,袁細(xì)國,張軍英

(西安電子科技大學(xué)計(jì)算機(jī)學(xué)院,陜西西安 710071)

針對復(fù)雜疾病致病單核苷酸多態(tài)性位點(diǎn)識別中單一方法的片面性問題,提出了基于富集分析的致病單核苷酸多態(tài)性位點(diǎn)識別方法.通過富集分析機(jī)制設(shè)計(jì)了一種集成學(xué)習(xí)框架,可將不同的方法有機(jī)結(jié)合以提升學(xué)習(xí)性能.基于此組合框架,將Relief F和CA趨勢檢驗(yàn)進(jìn)行了集成,在識別單個(gè)致病位點(diǎn)的同時(shí)兼顧位點(diǎn)之間的交互作用.在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)研究,結(jié)果表明所提出的方法能顯著地提升致病單核苷酸多態(tài)性位點(diǎn)的識別性能,且所設(shè)計(jì)的組合框架具有良好的擴(kuò)展性,可為其他方法的組合研究提供借鑒.

模式識別;集成學(xué)習(xí);交互作用;富集分析;致病SNP位點(diǎn)識別

現(xiàn)代生物醫(yī)學(xué)研究證明,人類每種疾病都有相應(yīng)的致病基因或易感基因,常見的復(fù)雜疾病發(fā)生過程則是相關(guān)基因與內(nèi)外環(huán)境相互作用的結(jié)果[1].2005年,《Science》上發(fā)表的關(guān)于年齡相關(guān)性黃斑變性的全基因組關(guān)聯(lián)分析(Genome-Wide Association Studies,GWAS)文章開啟了復(fù)雜疾病全基因組關(guān)聯(lián)分析的研究[2].盡管單位點(diǎn)單核苷酸多態(tài)性(Single Nucleotide Polymorphisms,SNP)的易感性分析已經(jīng)取得了相當(dāng)多的成果,但是這些發(fā)現(xiàn)并不能完全解釋復(fù)雜疾病的遺傳機(jī)理,有待進(jìn)一步的研究[3].多數(shù)基于單位點(diǎn)單核苷酸多態(tài)性分析的方法只關(guān)注位點(diǎn)對疾病的邊際效應(yīng),這樣與疾病有強(qiáng)關(guān)聯(lián)的單核苷酸多態(tài)性被認(rèn)定為易感基因,而邊際效應(yīng)較弱、但組合起來有較強(qiáng)致病作用的單核苷酸多態(tài)性卻很容易被忽略,因此極易導(dǎo)致假陽性的結(jié)果.越來越多的科學(xué)實(shí)驗(yàn)表明,單核苷酸多態(tài)性交互作用在復(fù)雜疾病遺傳變異中扮演著重要角色[4-6].目前也有一些方法考慮了單核苷酸多態(tài)性間的交互作用,但是對于復(fù)雜疾病的研究,由于主效應(yīng)和交互作用等各種疾病模型的疊加,使得使用單一方法難以精確定位致病單核苷酸多態(tài)性,因此出現(xiàn)了具有多樣性的集成方法.集成方法大多數(shù)都是針對特定的學(xué)習(xí)方法進(jìn)行組合的.鑒于對不同的問題,特定的學(xué)習(xí)方法并不一定適合,使得現(xiàn)有方法的可擴(kuò)展性受到限制.

針對上述問題,筆者提出了基于富集分析的致病單核苷酸多態(tài)性位點(diǎn)識別方法,即通過富集分析機(jī)制組合多種機(jī)器學(xué)習(xí)方法和統(tǒng)計(jì)學(xué)方法,以達(dá)到更為精準(zhǔn)地識別致病單核苷酸多態(tài)性位點(diǎn)的目的.這種方法不僅兼顧了單個(gè)位點(diǎn)的主效應(yīng)和交互作用,而且能根據(jù)需要調(diào)整參與組合的方法,具有很好的靈活性和可擴(kuò)展性.

1　基因集富集分析

基因集富集分析(Gene Set Enrichment Analysis,GSEA)通過觀察基因集成員在整個(gè)基因列表中的聚集情況評價(jià)基因集合的有效性和合理性[7].基因集富集分析方法中一個(gè)重要的概念就是富集值(Enrichment Score,ES),富集值反映基因集中的基因在已排序全基因組上的分布情況.富集值大,表明基因集中的基因在已排序的全基因組頭部或者尾部集中分布,基因集與表型區(qū)分有較強(qiáng)的關(guān)聯(lián);富集值小,表明基因集中的基因在已排序的全基因組上分散分布,該基因集生物意義上的解釋性相對較差.許多學(xué)者針對富集分析進(jìn)行了研究,提出了一些改進(jìn)措施并對各種具體分析方法進(jìn)行了實(shí)驗(yàn)比較[8-9].當(dāng)前已有研究將基因集富集分析方法用于分析單核苷酸多態(tài)性數(shù)據(jù),但都是將單核苷酸多態(tài)性數(shù)據(jù)映射到基因上,然后在基因集水平上進(jìn)行分析,最終找到具有表達(dá)一致性的功能基因集[10].筆者提出的方法與前人研究的重要不同在于,基于富集分析機(jī)制將研究從基因數(shù)據(jù)拓展到單核苷酸多態(tài)性數(shù)據(jù),不僅關(guān)注單個(gè)單核苷酸多態(tài)性位點(diǎn)的致病效果,同時(shí)考慮所選擇的特定致病單核苷酸多態(tài)性集在整個(gè)單核苷酸多態(tài)性集合上的富集效果,根據(jù)富集結(jié)果評價(jià)所選致病單核苷酸多態(tài)性位點(diǎn),為致病單核苷酸多態(tài)性位點(diǎn)的識別提供了一種新的思路.

2　基于富集分析的致病單核苷酸多態(tài)性位點(diǎn)識別

2.1致病單核苷酸多態(tài)性位點(diǎn)識別

全基因組關(guān)聯(lián)分析發(fā)現(xiàn)的與復(fù)雜疾病相關(guān)的單核苷酸多態(tài)性位點(diǎn)中只有部分能夠增加復(fù)雜疾病的致病風(fēng)險(xiǎn),但還有已被生物實(shí)驗(yàn)證明與復(fù)雜疾病相關(guān)的單核苷酸多態(tài)性位點(diǎn)沒有識別出來,因此還存在著大量未被發(fā)現(xiàn)的致病單核苷酸多態(tài)性.為克服全基因組關(guān)聯(lián)分析在與復(fù)雜疾病相關(guān)的單核苷酸多態(tài)性位點(diǎn)識別上的不足,研究人員在方法層面上進(jìn)行了深入的研究,提出許多方法[11].這些方法可概括為兩大類,即基于模型的方法和模型無關(guān)方法.基于模型的方法預(yù)先在基因組和表現(xiàn)型之間定義一種統(tǒng)計(jì)模型,然后擬合數(shù)據(jù)到假設(shè)的模型,得到顯著的單核苷酸多態(tài)性位點(diǎn),但是該類方法在處理高維的全基因組關(guān)聯(lián)分析數(shù)據(jù)時(shí)面臨著“維數(shù)災(zāi)難”問題.模型無關(guān)方法為了有效地處理高維單核苷酸多態(tài)性數(shù)據(jù),通常采用一些啟發(fā)式信息指導(dǎo)搜索,而不用提前對數(shù)據(jù)和模型作出假設(shè),該類方法只是通過統(tǒng)計(jì)技術(shù)測試每個(gè)可能存在交互作用的單核苷酸多態(tài)性組.從現(xiàn)有的研究資料來看,沒有某種單一的方法能準(zhǔn)確識別復(fù)雜疾病相關(guān)的單核苷酸多態(tài)性位點(diǎn).

Relief F和CA趨勢檢驗(yàn)是兩種常用的單核苷酸多態(tài)性數(shù)據(jù)分析方法[12-13].筆者針對單一方法在識別復(fù)雜疾病相關(guān)單核苷酸多態(tài)性位點(diǎn)時(shí)的不足,基于富集分析的思想有效地組合了Relief F和CA趨勢檢驗(yàn)兩種方法,用于致病單核苷酸多態(tài)性位點(diǎn)的識別.

2.2基于富集分析的集成方法識別致病單核苷酸多態(tài)性位點(diǎn)

基于富集分析集成的致病單核苷酸多態(tài)性位點(diǎn)識別方法首先用Relief F方法選擇潛在的致病單核苷酸多態(tài)性集合,然后利用CA趨勢檢驗(yàn)對該單核苷酸多態(tài)性集在全基因組單核苷酸多態(tài)性中的富集效果進(jìn)行分析評價(jià),最后根據(jù)富集結(jié)果對兩種致病單核苷酸多態(tài)性位點(diǎn)識別方法進(jìn)行組合,得到致病單核苷酸多態(tài)性位點(diǎn).該方法的具體步驟如下.

步驟1 進(jìn)行單核苷酸多態(tài)性集篩選.設(shè)類標(biāo)簽集合C={c1,c2,…,cl},算法迭代次數(shù)為m,每次選擇的近鄰數(shù)為k.應(yīng)用Relief F算法,每次從樣本集中隨機(jī)選擇一個(gè)樣本Ri,Ri的類標(biāo)簽設(shè)為cclass(Ri),從與Ri樣本標(biāo)簽相同的樣本中選擇k個(gè)近鄰樣本,記為H=(H1,H2,…,Hk),從與Ri不同類的樣本中根據(jù)其所屬類別ci(ci≠cclass(Ri))各選擇Ri的k個(gè)近鄰樣本,記為M(C)=(M1(C),M2(C),…,Mk(C)),按照式(1)迭代更新每個(gè)特征A的權(quán)重W[A],最終得到N個(gè)候選特征的權(quán)重向量W:

其中,p(c)指類別c的先驗(yàn)概率(從訓(xùn)練集中估計(jì)),函數(shù)fdiff(A,I1,I2)計(jì)算樣本I1和I2在特征A上值的差異,定義

其中,v(·,·)表示樣本在特征上的取值.

對權(quán)重向量W由大到小進(jìn)行排序,取其前f個(gè)特征作為單核苷酸多態(tài)性集S,f是S的大小.

步驟2 進(jìn)行全基因組單核苷酸多態(tài)性排序.運(yùn)用CA趨勢檢驗(yàn)對病例對照數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,如表1所示,B和b是一對等位基因,其中,B是風(fēng)險(xiǎn)等位基因,D和E分別是病例組和對照組的樣本大小,T為兩組樣本量的合計(jì),di為病例組第i個(gè)基因型的樣本數(shù),ei為對照組第i個(gè)基因型的樣本數(shù),ti為第i個(gè)基因型的樣本數(shù).

表1　病例對照組數(shù)據(jù)的基因型分布

關(guān)聯(lián)分析如下:

其中,xi為第i個(gè)基因型的值,這樣得到樣本患病的概率隨著各特征中的風(fēng)險(xiǎn)等位基因B個(gè)數(shù)的增加而增加的趨勢顯著性值q.將N個(gè)候選特征按q值由小到大排序,得到列表L,每一特征與類別的相關(guān)性r取值為1-q.

步驟3 進(jìn)行富集計(jì)算.運(yùn)用富集分析機(jī)制,從列表L的第1個(gè)特征開始直到最后一個(gè)特征,逐個(gè)比對當(dāng)前特征是否在單核苷酸多態(tài)性集合S中.如果第i個(gè)單核苷酸多態(tài)性位點(diǎn)gi存在于S中,則認(rèn)為單核苷酸多態(tài)性位點(diǎn)gi被命中,于是Phit和Pmiss的計(jì)算式為

如果第i個(gè)單核苷酸多態(tài)性位點(diǎn)不存在于S中,則認(rèn)為單核苷酸多態(tài)性位點(diǎn)gi未被命中,于是Phit和Pmiss的計(jì)算式為

上述公式中,p取1,r由步驟2得到.計(jì)算單核苷酸多態(tài)性位點(diǎn)集合S對應(yīng)的富集值SES(S)=Phit-Pmiss,以及取得該值的特征點(diǎn)在列表L中的位置v,將(1-vN)作為列表L中的特征是否在集合S中的權(quán)值whit.其中,當(dāng)p=0時(shí),該統(tǒng)計(jì)量就退化為Kolmogorov-Smirnov統(tǒng)計(jì)量.當(dāng)步移中遇到在S中的基因時(shí),根據(jù)相關(guān)性增加富集得分;當(dāng)遇到的基因不在S中時(shí),減少富集得分.富集值就是整個(gè)步移過程中富集得分Phit-Pmiss與零的最大偏差,即絕對值最大的值.

步驟4 初始化N個(gè)特征的權(quán)重W為零,將L的前v個(gè)特征的序列號[1,v]歸一化到區(qū)間[1,f],然后逆序得到每個(gè)特征的新序列號x,從列表L的第一個(gè)特征到第v個(gè)特征,逐個(gè)比對當(dāng)前特征是否在單核苷酸多態(tài)性集合S中.如果在,則將該特征的權(quán)重增加whitx;否則,將該特征的權(quán)重增加(1-whit)x.

步驟5 將Relief F方法選擇的f個(gè)特征的前n個(gè)特征的序列號[1,n]歸一化到區(qū)間[1,f],然后逆序得到每個(gè)特征的新序列號y.對這n個(gè)特征,由前到后逐個(gè)對比其是否屬于L的前v個(gè)特征,若不屬于,則將該特征的權(quán)重增加(1-whit)y.

步驟6 將最終得到的特征權(quán)重列表W按權(quán)重值由大到小進(jìn)行排序,得到最終的單核苷酸多態(tài)性特征排序結(jié)果.

3　實(shí)驗(yàn)及結(jié)果分析

在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)研究,以每次實(shí)驗(yàn)中各方法對致病單核苷酸多態(tài)性位點(diǎn)的識別率為指標(biāo)比較各方法的性能.

3.1模擬數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析

模擬數(shù)據(jù)集取自網(wǎng)絡(luò)公開的數(shù)據(jù)(http://compbio.ddns.comp.nus.edu.sg/～wangyue/).實(shí)驗(yàn)所用的模擬數(shù)據(jù)集如表2所示.其中,模擬數(shù)據(jù)集3是為了擴(kuò)大涵蓋范圍所設(shè)計(jì)的,共包含18個(gè)數(shù)據(jù)集,其特點(diǎn)是:各特征具有主效應(yīng),每個(gè)數(shù)據(jù)集有2000個(gè)樣本,最小等位基因頻率值分別為0.2和0.5的數(shù)據(jù)集各9個(gè),每9個(gè)中主效應(yīng)分別為0.2、0.3、0.5的數(shù)據(jù)集各3個(gè),所有數(shù)據(jù)的連鎖不平衡值都為1.模擬數(shù)據(jù)集1和模擬數(shù)據(jù)集4的各特征沒有主效應(yīng),只存在交互作用.模擬數(shù)據(jù)集2和模擬數(shù)據(jù)集3的各特征同時(shí)具有主效應(yīng)和交互作用.

表2　模擬數(shù)據(jù)集

筆者提出的基于富集分析集成的致病單核苷酸多態(tài)性位點(diǎn)方法Relief F? CA、Relief F方法、CA趨勢檢驗(yàn)方法在模擬數(shù)據(jù)集1、模擬數(shù)據(jù)集2、模擬數(shù)據(jù)集3上的實(shí)驗(yàn)結(jié)果分別如圖1～3所示.從圖中可以看出,組合方法相比單一方法具有更好的識別性能,對于有主效應(yīng)的數(shù)據(jù)集2和數(shù)據(jù)集3,CA趨勢檢驗(yàn)對致病單核苷酸多態(tài)性的識別率高于Relief F方法,而對于不存在主效應(yīng)的數(shù)據(jù)集1,CA趨勢檢驗(yàn)的優(yōu)勢并不明顯.

圖1　模擬數(shù)據(jù)集1上3種方法的性能對比

為驗(yàn)證筆者所提組合框架的有效性,證明實(shí)驗(yàn)結(jié)果并不依賴于參與集成的方法,在模擬數(shù)據(jù)集3上應(yīng)用文獻(xiàn)中的經(jīng)典方法SVM?RFE和Fscore進(jìn)行組合[14],得到在排名前200的單核苷酸多態(tài)性中致病單核苷酸多態(tài)性位點(diǎn)的識別率.排名前200的單核苷酸多態(tài)性中SVM?RFE和Fscore的識別率只有70%,而筆者提出的組合方法在前120個(gè)單核苷酸多態(tài)性中致病單核苷酸多態(tài)性的識別率已達(dá)到100%.對于只存在交互作用、沒有主效應(yīng)的數(shù)據(jù)集,為充分利用Relief F對交互作用的高識別能力,將Relief F和CA趨勢檢驗(yàn)方法互換,即由Relief F方法得到排序列表L,由CA趨勢檢驗(yàn)得到單核苷酸多態(tài)性集S,在模擬數(shù)據(jù)集4上進(jìn)行了實(shí)驗(yàn).結(jié)果表明,筆者所提的組合方法相比單一方法有更好的識別率,也驗(yàn)證了Relief F相對于CA趨勢檢驗(yàn)有更好的對交互作用的識別能力.

圖2　模擬數(shù)據(jù)集2上3種方法的性能對比

圖3　模擬數(shù)據(jù)集3上3種方法的性能對比

3.2真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)所用的真實(shí)數(shù)據(jù)是AMD(Age-related Macular Degeneration)數(shù)據(jù)[2].該數(shù)據(jù)集包含96個(gè)患病樣本和50個(gè)正常樣本,對初始的103 611個(gè)單核苷酸多態(tài)性特征進(jìn)行預(yù)處理,去掉缺失值大于5和不符合哈代溫伯格定律的特征,最后得到93 897個(gè)特征.

為得到各種方法的識別率,對146個(gè)樣本進(jìn)行置換操作,生成20個(gè)數(shù)據(jù)集,在這20個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).取公認(rèn)的3個(gè)致病單核苷酸多態(tài)性進(jìn)行驗(yàn)證,分別為rs380390、rs1329428、rs10507949,得到在排名前20的單核苷酸多態(tài)性中致病單核苷酸多態(tài)性的識別率,如圖4所示.從圖中可以看出,單一方法的性能很不理想,尤其是Relief F算法,直到排名前20個(gè)單核苷酸多態(tài)性,Relief F對致病單核苷酸多態(tài)性的識別率僅為0.4.在排名前20的單核苷酸多態(tài)性中,筆者提出方法對致病單核苷酸多態(tài)性的發(fā)現(xiàn)率優(yōu)于Relief F和CA,表明該組合方法能夠提升致病單核苷酸多態(tài)性的發(fā)現(xiàn)率.在AMD數(shù)據(jù)集上用筆者提出的富集分析集成方法得到的單核苷酸多態(tài)性富集結(jié)果如圖5所示,圖中單核苷酸多態(tài)性集合的富集程度進(jìn)一步驗(yàn)證了筆者提出方法的有效性.

圖4　真實(shí)數(shù)據(jù)集AMD上的識別率比較

圖5　真實(shí)數(shù)據(jù)集AMD上單核苷酸多態(tài)性的富集分布

AMD數(shù)據(jù)實(shí)驗(yàn)結(jié)果排名前10的單核苷酸多態(tài)性如表3所示.可以看出,組合方法中3個(gè)致病單核苷酸多態(tài)性排在前3名,即不僅找到了rs380390,rs1329428,rs10507949這3個(gè)致病單核苷酸多態(tài)性,還得到了一些新的潛在致病單核苷酸多態(tài)性,如rs7104698和rs10508731等,可為生物實(shí)驗(yàn)研究提供參考和借鑒.

表3　AMD數(shù)據(jù)實(shí)驗(yàn)排名前10的單核苷酸多態(tài)性位點(diǎn)

4　總結(jié)

基于富集分析的思想,筆者提出了一種基于富集分析機(jī)制的集成學(xué)習(xí)框架,并將其應(yīng)用于致病單核苷酸多態(tài)性位點(diǎn)的識別.在保證數(shù)據(jù)廣度和方法廣度的前提下,運(yùn)用模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集進(jìn)行了大量的實(shí)驗(yàn)研究和分析.實(shí)驗(yàn)結(jié)果表明了所提方法的有效性,同時(shí)也證明了所設(shè)計(jì)框架的靈活性和魯棒性.但對于富集分析,筆者僅使用了富集值的位置信息,因此該集成框架仍有很大的拓展空間.后續(xù)研究考慮直接使用富集值進(jìn)行集成學(xué)習(xí),并且結(jié)合多種特征選擇方法的特點(diǎn)進(jìn)行多種方法的組合.

[1]CORDELL H J.Detecting Gene-gene Interactions That Underlie Human Diseases[J].Nature Reviews Genetics,2009,10(6):392-404.

[2]KLEIN R J,ZEISS C,CHEW E Y,et al.Complement Factor H Polymorphism in Age-related Macular Degeneration [J].Science,2005,308(5720):385-389.

[3]DONNELLY P.Progress and Challenges in Genome-wide Association Studies in Humans[J].Nature,2008,456 (7223):728-731.

[4]SHANG J,ZHANG J,LEI X,et al.EpiSIM:Simulation of Multiple Epistasis,Linkage Disequilibrium Patterns and Haplotype Blocks for Genome-wide Interaction Analysis[J].Genes&Genomics,2013,35(3):305-316.

[5]JAMES C L,MARION E L,CARL A A,et al.Human SNP Links Differential Outcomes in Inflammatory and Infectious Disease to a FOXO3-regulated Pathway[J].Cell,2013,155(1):57-69.

[6]AMRITA S C,CHING L H,CHIEN C C,et al.Summarizing Techniques That Combine Three Non-parametric Scores to Detect Disease-associated 2-way SNP-SNP Interactions[J].Gene,2014,533(1):304-312.

[7]SUBRAMANIAN A,TAMAYO P,MOOTHA V K,et al.Gene Set Enrichment Analysis:a Knowledge-based Approach for Interpreting Genome-wide Expression Profiles[J].Proceedings of the National Academy of Sciences,2005,102(43):15545-15550.

[8]KWON J S,KIM J,NAM D,et al.Performance Comparison of Two Gene Set Analysis Methods for Genome-wide Association Study Results GSA-SNP vs i-GSEA4GWAS[J].Genomics&Informatics,2012,10(2):123-127.

[9]張威,張揚(yáng),曹文君,等.GAGE和GSEA在基因集研究中的有效性比較[J].現(xiàn)代生物醫(yī)學(xué)進(jìn)展,2013(10): 1849-1865. ZHANG Wei,ZHANG Yang,CAO Wenjun,et al.Comparative Study of GAGE and GSEA in Gene-set Analysis[J]. Progress in Modern Biomedicine,2013(10):1849-1865.

[10]BROOKE L F,JOANNA M B.Gene Set Analysis of SNP Data:Benefits,Challenges,and Future Directions[J]. European Journal of Human Genetics,2011,19(8):837-843.

[11]BOTTA V,LOUPPE G,GEURTS P,et al.Exploiting SNP Correlations within Random Forest for Genome-wide Association Studies[J].PLoS One,2014,9(4):e93379.

[12]KONONENKO I.Estimation Attributes:Analysis and Extensions of RELIEF[C]//Lecture Notes in Artificial Intelligence:784. Berlin:Springer-Verlag,1994:171-182.

[13]FREIDLIN B,ZHENG G,LI Z,et al.Trend Tests for Case-control Studies of Genetic Markers:Power,Sample Size and Robustness[J].Human Heredity,2002,53(3):146-152.

[14]GUYON I,WESTON J,BARNHILL S,et al.Gene Selection for Cancer Classification Using Support Vector Machines [J].Machine Learning,2002,46(1/2/3):389-422.

(編輯:郭華)

Identifying pathogenic SNP loci by enrichment analysis

YANG Liying,YIN Liyang,YUAN Xiguo,ZH ANG Junying
(School of Computer Science and Technology,Xidian Univ.,Xi’an 710071,China)

Aiming at the recognition of pathogenic SNP loci for complex diseases,this paper proposes an ensemble learning frame via the enrichment analysis mechanism,which can combine different approaches efficiently.Based on the proposed frame,Relief-F and CA trend testing are combined to identify diseaserelated SNP loci.The new approach can identify not only the single pathogenic site,but also the interaction between the locus at the same time.Experiments have been carried both on simulated data and on real data. Experimental results show that the proposed approach can significantly improve the recognition performance of pathogenic SNP loci for complex diseases.The proposed ensemble learning framework could provide reference for combining different approaches.

pattern recognition;ensemble learning;interaction;enrichment analysis;recognition of pathogenic single nucleotide polymorphisms loci

TP181

1001-2400(2016)03-0043-06

10.3969/j.issn.1001-2400.2016.03.008

2015-01-21

時(shí)間:2015-07-27

陜西省自然科學(xué)基金資助項(xiàng)目(2015JM6275);國家自然科學(xué)基金資助項(xiàng)目(61201312);中央高?；究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(K5051303017;JB140306)

楊利英(1974-),女,副教授,E-mail:yangliying1208@163.com.

http://www.cnki.net/kcms/detail/61.1076.TN.20150727.1952.008.html

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

富集分析框架下的致病SNP位點(diǎn)識別

1 基因集富集分析

2 基于富集分析的致病單核苷酸多態(tài)性位點(diǎn)識別

3 實(shí)驗(yàn)及結(jié)果分析

4 總 結(jié)

1　基因集富集分析

2　基于富集分析的致病單核苷酸多態(tài)性位點(diǎn)識別

3　實(shí)驗(yàn)及結(jié)果分析

4　總結(jié)